ChatGPT Images 2.0 يولد نصوص مثالية بدون أخطاء

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

عندما تطلب اليوم من ChatGPT Images 2.0 تصميم قائمة مطعم مكسيكي، لن تحصل على كلمات مخترعة مثل “enchuita” أو “churiros” أو “burrto” أو “margartas”. بدلاً من ذلك، ستحصل على قائمة طعام صالحة للاستخدام التجاري الفوري دون أن يلاحظ العملاء أي خطأ — باستثناء سعر السيفيتشي البالغ 13.50 دولار الذي قد يثير شكوكك في جودة السمك (وفقاً لـ TechCrunch).

قائمة طعام مكسيكية من ChatGPT Images 2.0 بنصوص صحيحة — ChatGPT Images 2.0 ينتج قوائم طعام احترافية بنصوص دقيقة

للمقارنة، إليك النتيجة التي حصلنا عليها من DALL-E 3 قبل عامين — عندما لم يكن ChatGPT يولد الصور بعد:

نتائج <a href= — DALL-E 3 في 2024: نصوص مكسورة وغير قابلة للاستخدام

نماذج توليد الصور تعاملت تاريخياً مع التهجئة بصعوبة لأنها اعتمدت على diffusion models التي تعيد بناء الصور من الضوضاء. يوضح أسملاش تيكا هادجو، مؤسس ومدير Lesan AI: “نماذج الانتشار تعيد بناء مدخل معطى، ويمكننا افتراض أن الكتابات في الصورة جزء صغير جداً، لذلك مولد الصور يتعلم الأنماط التي تغطي المزيد من هذه البيكسلات”.

منذ ذلك الحين، استكشف الباحثون آليات أخرى لتوليد الصور، مثل النماذج الانحدارية التلقائية، التي تتنبأ بشكل الصورة وتعمل بطريقة أقرب إلى النماذج اللغوية الكبيرة. لسوء الحظ، رفضت OpenAI الإجابة عن سؤال حول نوع النموذج الذي يدعم ChatGPT Images 2.0 في مؤتمر صحفي هذا الأسبوع.

لكن الشركة أوضحت أن النموذج الجديد يمتلك “قدرات تفكيرية” تمنحه القدرة على البحث في الويب وصنع صور متعددة من طلب واحد ومراجعة إبداعاته — مما يسمح لـ Images 2.0 بإنشاء أصول تسويقية بأحجام مختلفة، بالإضافة إلى قصص مصورة متعددة اللوحات. تؤكد OpenAI أيضاً أن Images يمتلك فهماً أقوى لعرض النصوص غير اللاتينية في لغات مثل اليابانية والكورية والهندية والبنغالية.

معرفة النموذج تنقطع في ديسمبر 2025، مما قد يؤثر على دقة إنتاج طلبات معينة تتضمن أخباراً حديثة.

تقول OpenAI في بيان صحفي: “Images 2.0 يجلب مستوى غير مسبوق من التحديد والدقة لإنشاء الصور. لا يمكنه فقط تصور صور أكثر تطوراً، بل ينفذ هذه الرؤية بفعالية، قادر على اتباع التعليمات والحفاظ على التفاصيل المطلوبة وعرض العناصر الدقيقة التي غالباً ما تكسر نماذج الصور: النص الصغير والرموز وعناصر واجهة المستخدم والتركيبات الكثيفة والقيود الأسلوبية الدقيقة، كل ذلك بدقة تصل إلى 2K”.

هذه القدرات تعني أن توليد الصور ليس بنفس السرعة التي تتوقعها من كتابة سؤال لـ ChatGPT، لكن إنتاج شيء معقد مثل قصة مصورة متعددة اللوحات لا يستغرق سوى دقائق قليلة.

سيتمكن جميع مستخدمي ChatGPT و Codex من الوصول إلى Images 2.0 بدءاً من الثلاثاء؛ المستخدمون المدفوعون سيتمكنون من إنتاج مخرجات أكثر تقدماً. ستجعل الشركة أيضاً واجهة برمجة التطبيقات gpt-image-2 متاحة، مع تسعير يعتمد على جودة ودقة المخرجات.

التطور الجديد يضع OpenAI في مواجهة مباشرة مع منافسي توليد الصور التجارية، خاصة في مجال إنتاج المحتوى التسويقي والتجاري الذي يتطلب نصوصاً واضحة ومقروءة. السؤال الذي يبقى: هل ستتمكن الشركات الأخرى من مواكبة هذا التقدم في دقة النصوص، أم أن OpenAI ستحتكر هذا السوق المربح؟

TechCrunch