
بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري
بدلاً من التنقل بين عدة نماذج للحصول على قدرات مختلفة، تطرح نيفيديا حلاً موحداً مع Cosmos 3 – أول نموذج أساسي للعالم يجمع توليد الفيديو الفيزيائي والاستدلال والعمل في بنية واحدة. هذا النموذج متوفر اليوم على Hugging Face ويمثل تحولاً جذرياً عن الإصدارات السابقة التي تطلبت نماذج منفصلة لكل مهمة.
الثورة الحقيقية في Cosmos 3 تكمن في معماريته المبتكرة Mixture-of-Transformers (MoT) التي تعالج جميع أنماط البيانات – النص والصورة والفيديو والصوت والإجراءات – في فضاء تمثيل موحد. النموذج يقسم المدخلات إلى مسارين: مسار الانحدار التلقائي للاستدلال والفهم، ومسار الانتشار للتوليد الإبداعي.

نيفيديا تطلق إصدارين يلبيان احتياجات مختلفة: Cosmos 3 Nano بـ 8 مليارات معامل مصمم للعمل على محطات العمل بمعالجات RTX PRO 6000، بينما Cosmos 3 Super بـ 32 مليار معامل يستهدف البحوث وتوليد البيانات الاصطناعية واسعة النطاق على معالجات Hopper وBlackwell (وفقاً لمدونة Hugging Face).
القدرات الخمس الأساسية لـ Cosmos 3 تعيد تعريف الذكاء الاصطناعي الفيزيائي:
- توليد العوالم المرئية الواقعية: إنتاج فيديوهات تحترم قوانين الفيزياء من النصوص أو الصور أو مدخلات الإجراءات
- الاستدلال الفيزيائي المتطور: فهم عميق للحركة والسببية والعلاقات المكانية في البيئات الحقيقية
- التنبؤ التسلسلي: استشراف تطور المشاهد والإجراءات المستقبلية بناءً على الحالة الراهنة
- النمذجة الديناميكية ثنائية الاتجاه: العمل كنموذج ديناميكيات أمامي وعكسي للتطبيقات الروبوتية
- سياسات الروبوت المباشرة: توليد إجراءات تنفيذية للروبوتات من المدخلات البصرية والنصية فوراً

التكامل مع مكتبة Hugging Face Diffusers يجعل استخدام النموذج مباشراً عبر Cosmos3OmniPipeline. المطورون يمكنهم البدء بكود بسيط لتوليد الصور من النصوص، بينما توفر الوثائق الشاملة على GitHub أمثلة متقدمة لتوليد الفيديو وتحويل الصورة إلى فيديو.
نيفيديا تصدر أيضاً ستة مجموعات بيانات اصطناعية متخصصة: مشاهد الروبوتات المجسدة، محاكيات فيزياء Isaac Sim، بيانات الاستدلال المكاني، الحركة الإنسانية الرقمية، سيناريوهات القيادة الذاتية، وعمليات أمان المستودعات. هذه المجموعات تدعم تطوير تطبيقات الذكاء الاصطناعي الفيزيائي المتنوعة.

التحدي الأساسي يكمن في المتطلبات الحاسوبية العالية لـ Cosmos 3 Super والحاجة المحتملة لتدريب إضافي على بيانات محددة للتطبيقات المتخصصة. ومع ذلك، توفر نيفيديا أدوات post-training شاملة لتخصيص النموذج وفقاً لاحتياجات المطورين الخاصة.







