نظام RRFP الصيني يُسرّع تدريب النماذج حتى 2.77 مرة

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

هدر موارد الحوسبة في تدريب النماذج الضخمة ليس مجرد مشكلة تقنية، بل أزمة اقتصادية حقيقية تُكبّد الشركات ملايين الدولارات سنوياً. عندما تنتظر وحدة GPU قيمتها آلاف الدولارات يومياً مهمة غير جاهزة بينما مهام أخرى قابلة للتنفيذ، فإن المال يُحرق حرفياً.

فريق بحثي من جامعة تسينغهوا الصينية بالتعاون مع Scitix AI وجد الحل في مفهوم بسيط لكنه ثوري: لماذا نُجبر النظام على اتباع جدول ثابت عندما يمكنه العمل على أي مهمة جاهزة؟ نظام Runtime-Readiness-First Pipeline (RRFP) يُحوّل جداول التدريب من أوامر صارمة إلى اقتراحات مرنة، مما يسمح لكل مرحلة pipeline بالعمل على المهمة الأكثر استعداداً بدلاً من انتظار ترتيب محدد مسبقاً.

المشكلة الأساسية في pipeline parallelism التقليدي تُسمى stage misalignment. تخيل مصنعاً به خط إنتاج من 8 محطات، لكن كل محطة مُجبرة على انتظار منتج معين حتى لو كانت منتجات أخرى جاهزة للمعالجة. هذا بالضبط ما يحدث في تدريب النماذج الحالي عندما تتفاوت أوقات الحوسبة والاتصال بين المراحل المختلفة.

RRFP يدمج ثلاث تقنيات أساسية لحل هذه المعضلة. التواصل غير المتزامن المدفوع بالرسائل يضمن أن كل مرحلة تعرف فوراً عند جاهزية أي مهمة. تنسيق tensor-parallel خفيف الوزن يحافظ على اتساق العمليات الجماعية دون إبطاء التنفيذ. آلية ready-set arbitration توزع المهام الجاهزة بأقل تكلفة حاسوبية ممكنة.

نتائج الاختبارات على إطار عمل مبني على Megatron باستخدام حتى 128 وحدة GPU كانت مُذهلة. RRFP حقق تسريعاً يصل إلى 1.77 مرة على النماذج اللغوية و2.77 مرة على النماذج متعددة الوسائط مقارنة بالأنظمة ثابتة الجدولة. عند استخدام BFW hint تحديداً، تفوق النظام عبر جميع الإعدادات المختبرة.

المقارنة مع الأنظمة الخارجية أثبتت تفوقاً واضحاً أيضاً. RRFP مع default BF hint تفوق على أسرع نظام خارجي متوفر بمعامل 1.84 مرة مع الحفاظ على دقة التدريب. هذا يعني أن مهمة تدريب كانت تستغرق أسبوعين يمكن إنجازها في أقل من 8 أيام، مع توفير آلاف الدولارات من تكلفة استئجار وحدات GPU.

التطبيق العملي لـ RRFP يتطلب إعادة تفكير جذرية في بنية أنظمة التدريب الحالية. معظم المؤسسات تستخدم TensorFlow أو PyTorch مع جداول pipeline ثابتة منذ سنوات، والانتقال إلى نموذج readiness-driven يحتاج استثماراً كبيراً في إعادة الهندسة. النظام يتطلب أيضاً تنسيقاً دقيقاً بين العُقد المختلفة لضمان اتساق البيانات، مما قد يُضيف تعقيداً في البيئات الموزعة الكبيرة.

السؤال الأهم: هل ستتبنى عمالقة التقنية مثل OpenAI وGoogle وMeta هذا النهج؟ التحسينات في الكفاءة بهذا المستوى تُترجم إلى وفورات ضخمة في تكاليف التدريب، لكن التحول يتطلب وقتاً واستثماراً كبيراً. الشركات الناشئة قد تتحرك أسرع لأنها أقل ارتباطاً بالبنية التحتية القديمة، مما يمنحها فرصة للتنافس مع العمالقة من خلال كفاءة أفضل.

ما يجعل RRFP مُثيراً حقاً ليس فقط الأرقام الرائعة، بل فلسفته في التعامل مع عدم اليقين. بدلاً من محاولة التنبؤ المثالي بأوقات التنفيذ، يتكيف مع الواقع المتغير. هذا النهج قد يُلهم حلولاً مشابهة في مجالات أخرى من الحوسبة الموزعة.

ArXiv