باحثون يطورون ذكاءً اصطناعياً يفهم سرعة الفيديوهات

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

هل يمكن للذكاء الاصطناعي أن يحدد ما إذا كان الفيديو مُسرّعاً أم مُبطّأً؟ وهل يستطيع توليد مقاطع فيديو بسرعات مختلفة؟ يجيب فريق من الباحثين بجامعات أمريكية على هذين السؤالين من خلال بحث جديد يدرس الوقت كمفهوم بصري قابل للتعلم.

نشر الباحثون ورقتهم العلمية “Seeing Fast and Slow: Learning the Flow of Time in Videos” على موقع arXiv في 23 أبريل 2026، وتركز على تطوير نماذج ذكية قادرة على فهم التدفق الزمني في الفيديوهات والتلاعب به. الفريق البحثي يضم تسعة خبراء من بينهم Yen-Siang Wu وRundong Luo وJingsen Zhu، ويهدف عملهم إلى تحويل الوقت من مجرد بُعد تقني إلى مفهوم بصري يمكن التحكم فيه.

المشكلة الأساسية التي يعالجها البحث تكمن في أن رؤية الكمبيوتر تركز عادة على التعرف على الأشياء والحركات، لكنها تتجاهل إدراك مرور الوقت نفسه. النماذج الحالية تستطيع تحليل محتوى الفيديو، لكنها لا تفهم ما إذا كانت الأحداث تجري بسرعة طبيعية أم مُعدّلة.

تطوير النموذج المتخصص في السرعة يتطلب مجموعة خطوات متدرجة:

التدريب الذاتي على كشف تغيير السرعة: يستغل النموذج الإشارات متعددة الوسائط والبنية الزمنية الطبيعية في الفيديوهات لتعلم اكتشاف تغييرات السرعة وتقدير سرعة التشغيل دون الحاجة لبيانات مُصنّفة مسبقاً
إنشاء أكبر قاعدة بيانات للحركة البطيئة: استخدام نماذج التفكير الزمني المُدرّبة لتنقيح وترتيب أكبر مجموعة بيانات للفيديوهات بطيئة الحركة من مصادر “في البرية” مليئة بالضوضاء والأخطاء
تدريب نماذج التحكم الزمني: استغلال بيانات الحركة البطيئة عالية الجودة – المُصوّرة عادة بكاميرات عالية السرعة – لتحتوي تفاصيل زمنية أكثر ثراءً من الفيديوهات العادية
تطوير توليد الفيديو المشروط بالسرعة: إنتاج حركة بسرعة تشغيل محددة مسبقاً حسب طلب المستخدم
تنفيذ تقنية Super-Resolution الزمنية: تحويل الفيديوهات منخفضة معدل الإطارات والضبابية إلى تسلسلات عالية معدل الإطارات مع تفاصيل زمنية دقيقة

ميزة هذا النهج أنه يعتمد على التعلم الذاتي دون الحاجة لتصنيف يدوي مكلف. النموذج يتعلم من البنية الطبيعية للفيديوهات نفسها، مما يجعله قابلاً للتطبيق على نطاق واسع مع بيانات متنوعة.

التطبيقات العملية للتقنية تشمل مجالات متعددة. في إنتاج المحتوى، يمكن للمصورين والمحررين توليد مشاهد بطيئة الحركة احترافية دون الحاجة لكاميرات متخصصة باهظة الثمن. وفي الطب الشرعي الرقمي، تساعد التقنية في كشف التلاعب بسرعة الفيديوهات أو تحديد ما إذا كانت الأدلة المرئية أصلية أم مُعدّلة.

لكن النموذج يواجه تحديات تقنية واضحة. معالجة الفيديوهات عالية الدقة تتطلب قوة حاسوبية كبيرة، خاصة عند توليد محتوى جديد أو تحسين الدقة الزمنية. كما أن دقة كشف التلاعب بالسرعة تعتمد على جودة التدريب الأولي ونوعية البيانات المُستخدمة.

نتائج البحث تفتح الباب أمام فهم أعمق لكيفية إدراك الذكاء الاصطناعي للوقت كبُعد قابل للتحكم. هذا التطور قد يُسهم في تطوير نماذج عالمية أكثر ثراءً تفهم كيفية تطور الأحداث عبر الزمن، مما يقربنا خطوة من الذكاء الاصطناعي القادر على محاكاة الفهم البشري للزمن والحركة.

arXiv