Transformers 5.11.0 يضيف DiffusionGemma و DeepSeek-V3.2

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

طرحت Hugging Face الإصدار 5.11.0 من مكتبة Transformers مع إضافتين رئيسيتين: نموذج DiffusionGemma الذي يولد النصوص بالتوازي عوضاً عن الطريقة التسلسلية، ونموذج DeepSeek-V3.2 الذي يحل مشكلة التعقيد التربيعي للانتباه في السياقات الطويلة.

DiffusionGemma مصمم لتقليل الاختناقات التسلسلية في النماذج اللغوية التقليدية من خلال بنية encoder-decoder محسنة لسرعة الاستنتاج. أثناء الاستنتاج، يستفيد النموذج من multi-canvas sampling حيث يقوم بـ denoising كتلة كاملة من الرموز باستخدام diffusion sampler بدلاً من توليد رمز واحد تلو الآخر (وفقاً لـ Hugging Face). هذا النهج block-autoregressive يسهل توليد النصوص بسرعات أعلى مقارنة بطرق التوليد التسلسلي التقليدية.

مخطط يوضح آلية عمل DiffusionGemma في التوليد المتوازي — آلية multi-canvas sampling في DiffusionGemma

DeepSeek-V3.2-Exp نموذج تجريبي من DeepSeek-AI يقدم آلية DeepSeek Sparse Attention (DSA) – وهي آلية انتباه متناثر قابلة للتدريب ومضبوطة بدقة لتحسين كفاءة التدريب والاستنتاج في سيناريوهات السياق الطويل. مبني على DeepSeek-V3.1-Terminus مع backbone من 685 مليار معامل Mixture-of-Experts، يقلل النموذج الكلفة التربيعية للانتباه عبر التسلسلات الطويلة بالتركيز فقط على مجموعة فرعية مختارة من الرموز السابقة مع الحفاظ على أداء benchmark مطابق عملياً (وفقاً لـ Hugging Face). العمل امتد في DeepSeek-V3.2 الذي يقرن DSA مع scalable reinforcement learning ويحقق نتائج مستوى الميدالية الذهبية في benchmarks الرياضيات التنافسية والبرمجة التنافسية.

جدول مقارنة أداء DeepSeek-V3.2 في مهام مختلفة — نتائج أداء DeepSeek-V3.2 في الرياضيات التنافسية والبرمجة

تم توسيع KernelConfig API لدعم n-to-1 module fusion وتحويل المعاملات، مما يبسط كيفية دمج kernels المخصصة مع وحدات Transformers. الإصلاحات الإضافية تشمل حل mismatch في dtype في Mamba2 CUDA kernel path لـ NemotronH/Zamba2، إضافة دعم fine-grained fp8/fp4 Triton kernel، وتصحيح تحذير FalconMamba fast-path ليوصي بـ pip install kernels بدلاً من mamba-ssm.

تم إصلاح bugs في model parallel beam search في عائلات نماذج Qwen2-VL و Qwen2.5-VL و Qwen3-VL MoE، وإضافة توثيق لدعم tensor parallelism مع continuous batching. كما أضيف معامل “max_requests_per_batch” لـ continuous batching، مع إصلاحات لنماذج InternVL وتحسينات على video classification pipeline.

شمل الإصدار 46 إصلاحاً وتحسيناً تقنياً، بما في ذلك إضافة نموذج Cosmos3، إصلاح مشاكل الـ offsets في المعالجة، وتحسين vLLM smoke test في CI. تم أيضاً إضافة دعم non-weight parameter names في TorchAo safetensors loading ودعم XPU لعدة نماذج بما في ذلك DeepSeek OCR2 و Sapiens2.

برز في المساهمات ArthurZucker@ الذي أضاف DeepSeek 3.2، و gante@ صاحب تحسين “GPU go brr”، و merveenoyan@ في إصلاح وثائق computer vision، و MaciejBalaNV@ الذي أضاف نموذج Cosmos3. filipinescu@ ساهم بترجمة رومانية شاملة للوثائق شملت pipeline_tutorial.md و custom_tokenizers.md وعدة ملفات أساسية أخرى.

الإصدار يمثل نقلة في اتجاه النماذج المحسنة للسرعة والكفاءة، لكن يبقى السؤال حول مدى استقرار هذه التقنيات التجريبية في بيئات الإنتاج التي تتطلب موثوقية عالية.

Hugging Face GitHub