محولات الذكاء الاصطناعي: معادلات رياضية تكشف السر

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

أربعة باحثين من جامعات أوروبية نشروا دراسة تحليلية تكشف الآلية الرياضية وراء سلوك غامض في نماذج Transformer: كيف تتركز البيانات tokens في توزيعات محددة أثناء المعالجة. البحث المنشور على ArXiv يستخدم نظرية الحقل المتوسط لتفسير ما يحدث داخل الشبكات العصبية العميقة.

الفريق البحثي المكون من Albert Alcalde وLeon Bungert وKonstantin Riedl وTim Roith درس محولات الترميز encoder-only transformers وركز على فهم تطور الـ tokens خلال عملية الاستنتاج باستخدام معادلات الاستمرارية للحقل المتوسط mean-field continuity equations.

الاكتشاف الأساسي يظهر أن توزيع الـ tokens يتركز بسرعة حول التوزيع المُدفوع للتوزيع الأولي تحت خريطة إسقاط يحددها مصفوفات key وquery وvalue في آلية الانتباه الذاتي. هذا التركز يحدث بمعدل يعتمد على معامل درجة الحرارة β⁻¹ والزمن t.

البحث يقدم إثباتاً رياضياً دقيقاً يوضح أن المسافة الـ Wasserstein بين التوزيعين تتناسب مع الصيغة: √(log(β+1)/β)exp(Ct)+exp(-ct). هذه المعادلة تعني أن التركز يحدث أسرع عندما تقل درجة الحرارة، وأن النظام يبقى في حالة شبه مستقرة metastable لفترات زمنية معتدلة.

لإثبات نتائجهم، استخدم الباحثون تقنيات متقدمة من نظرية الأنظمة الديناميكية. طوروا تقديرات نوع Lyapunov للمعادلة عند درجة حرارة صفر، وحددوا الحد النهائي عندما t→∞، ثم استخدموا تقدير الاستقرار في فضاء Wasserstein مع مبدأ Laplace الكمي لربط المعادلتين.

النتائج النظرية تشير إلى أن التركز يحدث على مقاييس زمنية من رتبة log β، لكن التجارب العددية كشفت ديناميكية إضافية مثيرة: عند قيم β محدودة وأزمنة كبيرة، يدخل النظام مرحلة نهائية مختلفة تهيمن عليها قيم spectrum الخاصة بمصفوفة value.

هذا الفهم الرياضي الجديد له تطبيقات عملية محتملة في تحسين تصميم المحولات وفهم سلوك نماذج اللغة الكبيرة. الدراسة تنتمي لحقول تحليل المعادلات التفاضلية الجزئية والتعلم الآلي والأنظمة الديناميكية، وهي متاحة أيضاً بصيغة HTML تجريبية للقراءة المباشرة.

لكن البحث يركز على الجوانب النظرية البحتة دون تقديم تطبيقات عملية واضحة أو اختبارات على نماذج حقيقية كـ GPT أو BERT، مما يجعل الاستفادة المباشرة للمطورين محدودة في الوقت الحالي.

ArXiv