تقنية S2T-LOCAL تضاعف كفاءة النماذج الصغيرة 24.1%

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

نجح باحثون من جامعة ميونخ التقنية في حل معضلة النماذج اللغوية الصغيرة (SLM) التي تفتقر للقدرة على التفكير المنطقي مقارنة بنظيراتها الكبيرة، من خلال تقنية جديدة تُسمى “اختر لتُفكر” (Select to Think) أو S2T-LOCAL، والتي تحسن الأداء بنسبة 24.1% دون الحاجة لاستدعاءات خارجية مكلفة (وفقاً لـ ArXiv).

التقنية الجديدة تعتمد على مفهوم “الكفاية المحلية” (Local Sufficiency)، وهو اكتشاف مثير يظهر أن النماذج الكبيرة تختار رموزها المفضلة من بين أفضل 8 اقتراحات للنموذج الصغير في 95% من الحالات (وفقاً لـ ArXiv)، حتى لو لم تكن الاختيار الأول للنموذج الصغير. هذا الاكتشاف يقلب فهمنا لكيفية تفكير النماذج المختلفة ويفتح باباً جديداً للتحسين.

بدلاً من الطرق التقليدية التي تستدعي النماذج الكبيرة عند نقاط الخلاف المنطقي، مما يزيد التأخير والتكلفة، أو تقطير المعرفة التقليدي الذي يواجه قيود السعة، تعيد S2T تعريف دور النموذج الكبير من “المولد المفتوح” إلى “المختار بين البدائل” المقترحة من النموذج الصغير.

تحديد نقاط الخلاف المنطقي: يرصد النظام المواضع التي يفشل فيها النموذج الصغير في اتخاذ قرارات منطقية صحيحة، ويسجل أفضل 8 اقتراحات للرمز التالي.
الاختيار الذكي للبدائل: بدلاً من توليد رموز جديدة، يختار النموذج الكبير من بين الاقتراحات الموجودة، مما يبسط إشارة الإشراف إلى ترتيب منفصل للمرشحين.
تقطير منطق الاختيار: يتم تدريب النموذج الصغير على تعلم منطق الاختيار هذا، ليصبح قادراً على إعادة ترتيب اقتراحاته بشكل مستقل.
التنفيذ المستقل: بعد التدريب، يعمل النموذج الصغير بشكل مستقل تماماً دون الحاجة للنموذج الكبير أثناء التشغيل الفعلي.
التحسين المستمر: يمكن للنموذج المدرب أن يطبق هذا المنطق على مهام جديدة ومجالات مختلفة دون إعادة تدريب.

النتائج العملية مذهلة – فقد حققت تقنية S2T-LOCAL تحسناً بنسبة 24.1% في فك الترميز الجشع (greedy decoding) عبر مجموعة واسعة من المعايير (وفقاً لـ ArXiv). والأهم أنها تضاهي كفاءة طريقة “الاتساق الذاتي 8 مسارات” (8-path self-consistency) بينما تعمل بكفاءة مسار واحد فقط، مما يوفر موارد حاسوبية هائلة.

التقنية تكشف عن حقيقة مهمة: النماذج الصغيرة ليست عاجزة عن التفكير المنطقي، بل تحتاج فقط لتعلم كيفية اختيار الإجابة الصحيحة من بين معرفتها الموجودة. هذا يعني أن مستقبل النماذج اللغوية قد يتجه نحو التخصص في “الاختيار الذكي” بدلاً من “التوليد الأعمى”، مما يفتح المجال أمام تطبيقات أكثر كفاءة وأقل تكلفة.

رغم أن البحث لا يزال في مراحله المبكرة ولم يُطبق بعد على نماذج تجارية، إلا أن النتائج تشير إلى إمكانية تقليص الفجوة بين النماذج الكبيرة والصغيرة دون التضحية بالأداء أو زيادة التكلفة.

ArXiv