تقنية نقل المعرفة لتحليل الأكواد المتشابهة عبر لغات مختلفة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

طور فريق بحثي بقيادة محمد خجه زاده وفاطمة فرد ومحمد سامي شحاتة إطار عمل جديد لنقل المعرفة يحول النماذج المفتوحة المصدر الصغيرة إلى أدوات فعالة لاكتشاف التشابه بين الأكواد المكتوبة بلغات برمجة مختلفة.

تكمن المشكلة الأساسية في أن البرامج المتطابقة وظيفياً والمكتوبة بلغات مختلفة تبدو مختلفة تماماً على مستوى النص، مما يجعل اكتشاف تشابهها تحدياً تقنياً معقداً. رغم أن النماذج اللغوية الكبيرة أظهرت نتائج واعدة في هذا المجال، إلا أن استخدامها كأنظمة مغلقة يثير مخاوف حول التكلفة والخصوصية وعدم موثوقية تنسيق المخرجات.

يقترح الباحثون حلاً مبتكراً عبر نقل قدرات التفكير من نموذج DeepSeek-R1 إلى نماذج طلابية مفتوحة المصدر أصغر حجماً. استخدموا أزواج أكواد متعددة اللغات من Project CodeNet لبناء بيانات تدريبية اصطناعية تركز على المنطق، وطبقوا تقنيات LoRA adapters لضبط نموذجي Phi3 وQwen-Coder.

التحدي الحقيقي كان في أن النماذج المدمجة مفتوحة المصدر عادة ما تفشل في اتباع التوجيهات المبنية على المنطق وإنتاج مخرجات يمكن تحويلها بثبات إلى تصنيفات ثنائية. لمعالجة هذه المشكلة، أدخل الفريق ثلاث تقنيات لتثبيت الاستجابة:

Forced Conclusion Prompting: إجبار النموذج على إنهاء استجابته بخلاصة واضحة قابلة للتفسير
Binary Classification Head: إضافة رأس تصنيف ثنائي مباشر للحصول على إجابات واضحة
Contrastive Classification Head: استخدام رأس تصنيف تباين لتحسين دقة التمييز بين الأكواد المتشابهة والمختلفة

اختبر الباحثون فعالية هذا النهج على أربع مجموعات من أزواج اللغات: Python-Java وRust-Java وRust-Python وRust-Ruby. قيّموا أداء النماذج باستخدام معايير الدقة التنبؤية ومعدل الاستجابة، وهو مقياس جديد يقيس قدرة النموذج على إنتاج مخرجات قابلة للتفسير بثبات.

أظهرت النتائج أن تقطير المعرفة حسّن بشكل مستمر من موثوقية النماذج المدمجة، وغالباً ما حسّن الأداء التنبؤي خاصة في حالات Distribution Shift. (وفقاً للدراسة المنشورة في ArXiv) كما قللت نسخ Classification Head بشكل كبير من زمن الاستدلال مقارنة بالاستدلال المبني على توليد النصوص.

تكمن قيمة هذا العمل في جعل اكتشاف التشابه بين الأكواد متعدد اللغات أكثر عملية وموثوقية للاستخدام الفعلي. بدلاً من الاعتماد على نماذج مغلقة باهظة التكلفة مع مخاوف الخصوصية، يمكن للمطورين الآن استخدام نماذج مفتوحة المصدر محسّنة تعمل محلياً.

الجانب الأكثر إبداعاً في هذا البحث هو دمج تقنيات تثبيت الاستجابة مع نقل المعرفة. هذا المزيج لا يحسّن الدقة فحسب، بل يضمن أيضاً أن النماذج تنتج مخرجات متسقة يمكن الاعتماد عليها في أنظمة الإنتاج. نتوقع أن تجد هذه التقنية طريقها سريعاً إلى أدوات مراجعة الأكواد وأنظمة اكتشاف الانتحال في البيئات الأكاديمية والتجارية.

ArXiv