
بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري
تدشن شركة Decart الناشئة نموذجها العالمي التفاعلي Oasis 3 الذي يولد بيئات قيادة فوتوغرافية في الوقت الفعلي، حصرياً لـ TechCrunch. النموذج المتاح عبر API يستهدف شركات المركبات ذاتية القيادة لمحاكاة السيناريوهات النادرة على نطاق واسع، مع خطط للتوسع في الروبوتات وتطبيقات الذكاء الاصطناعي الفيزيائية الأخرى.
الرهان الأكبر يكمن في المطورين: بتقديم وصول API من اليوم الأول، تحاول Decart بناء نظام بيئي للمطورين حول النماذج العالمية على غرار ما فعلته OpenAI مع النماذج اللغوية. يشرح دين ليترسدورف، المؤسس المشارك والرئيس التنفيذي: “سيكون أول نموذج عالمي قابل للاستخدام يمكن للناس البرمجة فوقه فعلياً. أعتقد أن مجتمع مطورين كاملاً سيظهر فوق هذا”.
الشركة تمتلك بالفعل مجتمعاً من أكثر من 100,000 مطور، معظمهم يبنون منتجات فوق نموذج الفيديو الفوري Lucy في التجارة الإلكترونية والبث المباشر. Oasis 3 مبني على هذا النموذج الأساسي، ويمثل دفعة الشركة نحو الذكاء الاصطناعي الفيزيائي.

يأتي إطلاق Oasis 3 بعد أسابيع من جمع شركة Decart البالغة من العمر عامين 300 مليون دولار، رافعة تقييمها إلى قرابة 4 مليارات دولار وجاذبة مستثمرين استراتيجيين مثل تويوتا وAdobe وeBay. يقول ليترسدورف إن كل هذه الشركات عملاء محتملون، فيما شاركت Nvidia المستثمر الحالي في الجولة أيضاً.
تحديد الأسعار يبدأ من 0.02 دولار للثانية الواحدة للوصول العام، بينما تعتمد أسعار المؤسسات على حالات الاستخدام المحددة حسب الشركة.
تنافس Decart في ساحة النماذج العالمية المتزايدة الازدحام. العام الماضي أطلقت جوجل Genie 3 في معاينة بحثية، ودشنت World Labs من فاي فاي لي نموذج Marble للحالات التجارية، فيما تترجم شركات توليد الفيديو مثل Luma وRunway نماذجها الواعية بالفيزياء إلى نماذج عالمية.
ميزة Oasis 3 تكمن في الواقعية الفوتوغرافية لنماذجه وقدرة التوليد اللانهائية. هذا بفضل عبقرية الكفاءة من جانب Decart، مدعومة بمنتج الشركة الرئيسي الآخر: برمجيات DOS (Decart Optimization Stack) التي تتيح للنماذج العمل بكفاءة على أجهزة Nvidia وأمازون وجوجل، مما يجعل تشغيل نماذجها أرخص بكثير من المنافسين.
يوضح ليترسدورف: “هذا مبني فوق مجموعة أدواتنا الفورية الكاملة، التي نحسنها وصولاً للأجهزة. بكوننا متكاملين عمودياً، نستطيع أن نكون أرخص بأكثر من رتبة من أي شخص آخر في الصناعة لتشغيل هذه النماذج”. نماذج الشركة كفوءة للغاية حسب ليترسدورف حتى أنها أحرقت “أقل بكثير” من 100 مليون دولار طوال حياتها.
يولد Oasis 3 بيئات دقيقة فيزيائياً متعددة الكاميرات — واحدة أمامية واثنتان جانبيتان — للتدريب والاختبار. وبدلاً من تقديم عروض محدودة ومعاينات بحثية، تتيح Decart للمطورين توليد سيناريوهات بلا حدود، مما يناسب تماماً مطوري المركبات ذاتية القيادة الراغبين في تجربة أكبر عدد ممكن من الحالات الاستثنائية.
مقارنة بنماذج أخرى جربها TechCrunch مثل Genie 3 من جوجل أو Marble من World Labs، يقدم Oasis 3 البيئات الأكثر واقعية فوتوغرافياً من مطالبة نصية واحدة. وحقيقة إمكانية التفاعل معها لساعات تشير لمستوى كفاءة قد يفتقر إليه منافسو Decart.
لكن السماح بتوليد عالم لفترة طويلة يؤدي أيضاً لتدهور كبير في النموذج. في اختبارات TechCrunch، وجد أن النظام يستطيع إعداد مشهد أولي قوي يطابق المطالبة بثبات، لكن التماسك المواضيعي تدهور سريعاً أثناء التحرك عبر العالم.
عند مطالبته بتوليد شارع نيويورك في الصباح، فعل ذلك بجمال. لكن أثناء القيادة، بدت البيئة أقل شبهاً بنيويورك وأكثر شبهاً بنسخة عامة من أي مدينة حضرية غربية. عند محاولة الاستدارة والعودة للتقاطع الأولي، اختفى واستُبدل ببيئة جديدة تماماً.
علاوة على ذلك، التحكم ليس مستجيباً جداً، وفقد TechCrunch السيطرة على مكان حركة السيارة كثيراً (مرة أخرى، عيب مشترك مع نماذج عالمية أخرى تم اختبارها). الخبرة بدت أقل كمحاكاة متماسكة وأكثر كتيار وعي حالم ومنفصل يصبح سريعاً بلا معنى.
مشكلة أخرى، شوهدت أيضاً في نماذج عالمية أخرى، هي أن السيارة ستقود مخترقة سيارات أخرى، مما يعني أن النموذج لا يحاكي الفيزياء بشكل صحيح في البيئة. يسمي ليترسدورف هذا “مشكلة بحثية كبرى نحلها الآن”، مُرجعاً إياها لحقيقة أن “هناك بيانات أكثر بكثير عن القيادة الجيدة مقارنة بالحوادث”.
جزء مما يجعل ثبات الفيزياء صعباً أساسي في طريقة عمل هذا النموذج العالمي. Oasis 3 نموذج تراجعي ذاتي، أي يولد إطاراً واحداً في كل مرة وينظر للخلف لما ولده سابقاً ليقرر ما يأتي تالياً. هذه خاصية معمارية رئيسية للعديد من النماذج العالمية، وهي كثيفة الحوسبة أيضاً.
للحفاظ على الثبات، يقول ليترسدورف إن فريق Decart يعمل على تحسين طول ذاكرة النموذج. “كل إطار نولده حوالي 8,000 رمز. توليد هذا بعشرات الإطارات في الثانية — هذا مئات الآلاف من الرموز في الثانية. نافذة السياق تمتلئ بسرعة كبيرة. نبحث كيفية إجراء سياق أطول لتخزين ملايين أكثر من الرموز، وكيفية ضغط الذاكرة في رموز أقل”.
يعتقد ليترسدورف أن مسألة الثبات قد تُحل جزئياً في النسخة التالية من النموذج، التي ستتيح للمستخدمين بدء توليد عوالم بناءً على فيديو لبيئة بدلاً من صورة. اعترف أن النماذج العالمية كمجال لا تزال في بداياتها.
رغم ذلك، المؤسس يركز أقل على القيود الحالية لتقنيته من على ما سيحدث عندما يحصل المطورون عليها. “هذا يذكرني بالأيام الأولى للنماذج اللغوية الكبيرة، عندما اخترعت OpenAI واجهة API للنماذج”، مشيراً لظهور مجتمع مطورين دفع المجال قُدماً بإيجاد وبناء حالات استخدام جديدة.
توقعه الجريء: “عندما نتحدث مرة أخرى بعد ثلاثة أشهر، سنقول: ‘إليك 100 مطور بنوا جميعاً 100 تطبيق مختلف مع Oasis فاجأونا جميعاً'”.







