CODA تكسر عقدة البيانات في تدريب Transformer

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

المعضلة موجودة في قلب كل نظام تدريب Transformer حديث: بينما نُحسّن عمليات الضرب المصفوفي إلى أقصى درجة، تضيع 30-40% من زمن التدريب في عمليات بسيطة تنقل البيانات ذهاباً وإياباً من الذاكرة. الآن، تقنية CODA الجديدة (وفقاً لـ ArXiv) تقلب هذه المعادلة رأساً على عقب.

الباحثون من Han Guo وزملاؤه الستة اكتشفوا أن المشكلة ليست في سرعة العمليات الفردية، بل في تنظيمها. عمليات التطبيع والتفعيل وتحديثات البقايا والتخفيضات تحرك مصفوفات وسطية ضخمة عبر الذاكرة العامة مراراً وتكراراً مع أداء حسابات بسيطة فقط. النتيجة: عقدة بيانات تخنق أداء أنظمة التدريب المُحسنة بعناية.

CODA يحل هذه المشكلة عبر إعادة صياغة جبرية ذكية. بدلاً من تنفيذ هذه العمليات كنوى منفصلة، يدمجها في برامج “GEMM-plus-epilogue” تعمل بينما تبقى مخرجات ضرب المصفوفات على الشريحة قبل كتابتها في الذاكرة. هذا التصميم يحافظ على بنية الأداء لعمليات GEMM المكتوبة يدوياً بينما يغطي تقريباً كل العمليات غير المرتبطة بالانتباه في التمريرات الأمامية والخلفية لكتل Transformer القياسية (وفقاً لـ ArXiv).

تثبيت حلقة GEMM الرئيسية: CODA لا يمس بنية عمليات ضرب المصفوفات عالية الأداء الموجودة، ضامناً عدم التراجع عن التحسينات المُحققة عبر سنوات من الاستثمار.
كشف مجموعة محدودة من العمليات التركيبية: يوفر عمليات أساسية محددة للقياس والتخفيضات والتحويلات الزوجية والتراكم، محافظاً على البساطة مع إتاحة المرونة الكافية.
تنفيذ العمليات داخل الشريحة: يعيد ترتيب التنفيذ بحيث تحدث عمليات التطبيع والتفعيل وغيرها بينما لا تزال بيانات الإخراج في ذاكرة الشريحة السريعة، مُتجنباً رحلات الذاكرة العامة المُكلفة.
دعم البرمجة البشرية والآلية: الاختبارات أظهرت أن المطورين البشريين ونماذج اللغة الكبيرة على حد سواء يمكنها إنتاج نوى CODA عالية الأداء، مما يفتح باب الأتمتة.
تغطية شاملة لعمليات Transformer: التجريد يشمل كل العمليات تقريباً في كتلة Transformer القياسية عدا آليات الانتباه، جاعلاً إياه حلاً متكاملاً وليس مُرقعاً جزئياً.
واجهة مقيدة تحافظ على الأداء: الواجهة المحدودة تحمي ضمانات الأداء بينما تبقى معبرة بما يكفي لاحتياجات Transformer الحقيقية.

ما يُميز هذا النهج أنه لا يحاول إعادة اختراع العجلة. شركات مثل NVIDIA استثمرت مليارات الدولارات في تحسين عمليات ضرب المصفوفات، و CODA يبني على هذا الاستثمار بدلاً من تجاهله. النتيجة حل عملي يحقق مكاسب أداء حقيقية بدون خسارة التحسينات الموجودة.

الاختبارات عبر أحمال عمل Transformer مُمثلة أظهرت أن نوى CODA المكتوبة يدوياً وتلك المُولدة بواسطة نماذج اللغة حققت أداءً عالياً متسقاً (وفقاً لـ ArXiv). هذا يشير إلى أن برمجة GEMM-plus-epilogue قد تكون المسار المنشود نحو دمج إنتاجية مستوى الإطار مع كفاءة مستوى العتاد – التوازن المُراوغ الذي تسعى إليه صناعة الذكاء الاصطناعي.

بالطبع، التخصص الشديد لمعمارية Transformer وعمليات GPU يُقيد نطاق التطبيق. لكن بالنظر إلى هيمنة Transformer على المشهد الحالي للذكاء الاصطناعي، هذا التركيز قد يكون ميزة استراتيجية وليس قيداً. السؤال الآن: هل ستتبنى إطارات التدريب الرئيسية مثل PyTorch وJAX هذا النهج، أم ستبقى مجرد ورقة بحثية أخرى في أرشيف الأفكار الذكية؟

ArXiv