الحواس الذكية: تدريب ChatGPT على ألعاب 8-بت

لا يحتاج الذكاء الاصطناعي للرؤية ليتفوق في الألعاب. راسل هاربر، الذي أعاد إحياء لعبة كتبها عام 1990 لأجهزة 8-بت، اكتشف طريقة لتدريب ChatGPT-4o على لعب PvP-AI دون الاعتماد على التحليل المرئي التقليدي.

المشروع بدأ كمحاولة لنقل لعبة قتال قديمة إلى محاكي Commander X16 الحديث. اللعبة الأصلية، التي كانت تعمل بسرعة 4 إطارات في الثانية على أجهزة 1990، تعمل الآن بسرعة 8.6 إطار في الثانية على المحاكي، مع تفاصيل أكثر وذكاء اصطناعي محسن.

لكن النقلة الحقيقية حدثت عندما قرر هاربر ربط النموذج اللغوي مباشرة باللعبة. بدلاً من إجبار ChatGPT على تحليل البكسلات والأصوات، طور نظام “الحواس الذكية” – تمثيلات نصية منظمة تحاكي ما يستخدمه الذكاء الاصطناعي المدمج في اللعبة.

تحويل اللعبة من الوقت الفعلي إلى نظام الأدوار: اللعبة الأصلية سريعة جداً للنموذج، فالتحويل لنظام تناوب الأدوار يمنح ChatGPT الوقت الكافي للتفكير واتخاذ قرارات مدروسة
إضافة نظام الذاكرة المستمرة: توجيه النموذج للاحتفاظ بملاحظات أثناء اللعب وبعده، مما يمكنه من تطوير استراتيجيات متقدمة عبر المباريات المتتالية
تطوير حاستي اللمس والكشف الكهرومغناطيسي: حاسة اللمس تمنح النموذج وعياً بالاتصال مع الصواريخ والجدران، بينما الكشف الكهرومغناطيسي يكشف مواقع الخصوم وحالاتهم الصحية
بناء جسر التواصل عبر PHP و VIA2-socket: ربط ChatGPT API بمحاكي x16 عبر طبقة وسطى تترجم أوامر النموذج إلى حركات فعلية في اللعبة
تحسين استخدام API للميزانية: تقليل استدعاءات النموذج إلى مرة كل إطارين بدلاً من كل إطار، مع الحفاظ على الأداء التنافسي
إزالة العناصر غير المفيدة: إيقاف الأصوات والمؤثرات البصرية غير الضرورية للتركيز على البيانات الحيوية فقط
تفعيل تسجيل الشاشة عند الطلب: لمراقبة قرارات النموذج وتحليل تطور أدائه عبر الوقت

النتائج كانت مذهلة. في سلسلة من ثلاث مباريات متتالية ضد الذكاء الاصطناعي المدمج، أظهر ChatGPT تطوراً استراتيجياً واضحاً:

المباراة الأولى شهدت فوزاً محظوظاً للنموذج رغم افتقاره لاستراتيجية واضحة. المباراة الثانية طور فيها نهجاً عدوانياً أكثر تنظيماً. بحلول المباراة الثالثة، تبنى استراتيجية صبورة ومحسوبة أدت لفوز حاسم.

ما يميز هذا المشروع عن محاولات أخرى لربط النماذج اللغوية بالألعاب هو التركيز على “abstraction” بدلاً من المعالجة المباشرة للبيانات الحسية. بدلاً من تدريب النموذج على فهم الصور، يحصل على معلومات منظمة تماماً كما يحصل عليها اللاعب البشري من حواسه.

هذا النهج يفتح آفاقاً واسعة أمام مطوري الألعاب العرب الذين يريدون دمج ذكاء اصطناعي متقدم في مشاريعهم دون التعقيدات التقنية لمعالجة الصور والأصوات. المشروع بأكمله متاح مفتوح المصدر عبر Google Drive مع تفاصيل فنية شاملة في مستودع GitHub الخاص.

التحدي القادم للمطور هو تطوير حواس ذكية أكثر تطوراً مثل الرؤية والسمع والتوازن، مما قد يؤدي لجيل جديد من الألعاب التفاعلية المدعومة بنماذج لغوية كبيرة. لكن الحذر مطلوب – فاللعبة تعمل بسرعة 4 إطارات فقط في الثانية على الأجهزة الحقيقية بسبب مشكلة في رسم الخطوط بوحدة VERA، مما يؤكد أن التطوير النظري أسهل من التنفيذ العملي.

المصدر