
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
المشكلة واضحة: نماذج اللغة الكبيرة متعددة الوسائط تُهدر موارد حاسوبية هائلة في معالجة الفيديو. كل إطار يُعامل كصورة منفصلة رغم أن 90% من المحتوى متكرر بين الإطارات المتجاورة. فريق من أحد عشر باحثاً بقيادة Haowen Hou وZhen Huang طور حلاً جذرياً اسمه AdaCodec ينهي هذا الهدر.
الفكرة بسيطة لكنها عبقرية: بدلاً من تشفير كل إطار بالكامل، أرسل إطاراً مرجعياً كاملاً فقط عندما يصبح التنبؤ صعباً، وفي باقي الحالات استخدم رموز P مضغوطة تصف التغييرات فقط. هذا ما يسميه الباحثون “الكود البصري التنبؤي”.
النتائج تتحدث عن نفسها. في اختبارات شملت أحد عشر معياراً، تفوق AdaCodec على نموذج Qwen3-VL-8B الأساسي حتى عند استخدام سُبع الميزانية فقط – 32 ألف رمز مقابل 224 ألف رمز. (وفقاً للبحث المنشور في ArXiv)
التحسن في السرعة مذهل أكثر. في خمسة معايير للفيديو العام، انخفض وقت الاستجابة الأولى من 9.26 ثانية إلى 1.62 ثانية – تحسن بنسبة 470%. هذا يعني أن التفاعل مع الفيديو أصبح فورياً تقريباً بدلاً من الانتظار عشر ثوانٍ تقريباً.
آلية AdaCodec تقيس “التكلفة التنبؤية الشرطية” لكل إطار. عندما تكون عالية – أي صعوبة التنبؤ بالمحتوى من الإطارات السابقة – يستثمر النظام رموزاً بصرية كاملة في إطار مرجعي جديد. عندما تكون منخفضة، يُشفر فقط الحركة وبقايا التنبؤ كرموز P مضغوطة.
أثبتت التقنية فعاليتها على جميع معايير الفيديو الطويل، حيث التحدي أكبر والفوائد أوضح. هذا يفتح المجال لتطبيقات كانت مكلفة جداً سابقاً: تحليل فيديو المراقبة في الوقت الفعلي، المساعدات الذكية التي تفهم السياق البصري المتغير، ومعالجة البث المباشر بالذكاء الاصطناعي.
التحدي الوحيد أن AdaCodec يتطلب تدريباً مخصصاً لكل نموذج MLLM. لا يمكن تطبيقه مباشرة على نماذج موجودة دون إعادة تدريب. كما قد يحتاج ضبطاً دقيقاً حسب نوعية مقاطع الفيديو – أفلام الأكشن تتطلب معاملات مختلفة عن المحاضرات الثابتة.
لكن النتائج تشير إلى أن مستقبل معالجة الفيديو بالذكاء الاصطناعي سيعتمد حتماً على تقنيات الضغط التكيفي. شركات مثل OpenAI وGoogle ستحتاج لحلول مماثلة للحفاظ على التنافسية مع انتشار تطبيقات الفيديو الذكية.







