Mistral OCR 4 يدعم 170 لغة مع صناديق تحديد

🎧 استمع للملخص

بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري

أطلقت Mistral AI اليوم نموذج OCR 4، وهو تحديث جوهري لمحرك استخراج الوثائق يتجاوز تحويل الصفحة إلى نص خام — ليعيد النموذج تمثيل الوثيقة كاملةً كبنية بياناتٍ منظّمة. كل كتلة نصية تأتي الآن مع صندوق تحديد يحدّد موضعها بدقة، وتصنيف يصف دورها (عنوان، جدول، معادلة، توقيع…)، ودرجة ثقة لكل صفحة ولكل كلمة منفردةً.

هذا التحديث ليس ترقية تدريجية. المطوّر الذي كان يبني خطوط بيانات يعرف الإزعاج الكلاسيكي: تستخرج النص لكنك لا تعرف أين يقع على الصفحة، ولا إن كان عنواناً أو تذييلاً أو جدولاً. OCR 4 يحلّ هذه المشكلة مباشرةً — وكانت صناديق التحديد هي الميزة الأكثر طلباً من المستخدمين، وفق Mistral.

من حيث الأداء، يتصدّر OCR 4 نتيجة 85.20 على المقياس العام OlmOCRBench (وفقاً لـ Mistral AI)، وهو الأعلى بين كل النماذج التي اختبرتها الشركة. وفي تقييم OmniDocBench يسجّل 93.07. لكن Mistral تحرص على التحفّظ هنا: الاثنان يحملان إشكاليات معروفة في التقييم — أخطاء في المراجع الأساسية، عدم تطابق رموز LaTeX المتكافئة، فروق في تقطيع المعادلات، وافتراضات ترتيب القراءة في الوثائق متعددة الأعمدة — وهي أخطاء تُعاقب الإخراج الصحيح لا تُكافئه. لذا تعامل الشركة الأرقام الإجمالية كمؤشر لا كحكم نهائي.

التقييم البشري أكثر إقناعاً بهذا الصدد: أجرت Mistral تقييماً أعمى على أكثر من 600 وثيقة بأكثر من 12 لغة من مصادر خارجية تمثّل حالات استخدام حقيقية، وطلبت من محكّمين مستقلين مقارنة مخرجات OCR 4 مع كل منافس. النتيجة: مُفضّلية OCR 4 بمعدل فوز بلغ 72% في المتوسط عبر جميع الأنظمة المختبَرة. على المستوى المتعدد اللغات يقود OCR 4 عبر ثماني مجموعات لغوية — الإنجليزية، غرب أوروبا، شرق أوروبا، الشرق الأوسط، الصينية، شرق آسيا، جنوب شرق آسيا، واللغات النادرة — مع أوسع فارق تحديداً في اللغات النادرة وضعيفة الموارد حيث تتدهور معظم المنافسات بحدة.

شهادات المستخدمين المبكرين تضيف بُعداً عملياً لهذه الأرقام. Aidan Donohue من Rogo وصف OCR 4 بأنه حقّق دقة مكافئة للمحللين الوكيلين في مجموعة بيانات مالية كثيفة بالرسوم والجداول، لكن بتكلفة أقل بـ8 أضعاف وزمن استجابة أقل بـ17 ضعفاً. أما Ivan Mihailov من Anaqua فلفت إلى أن النموذج يعمل بسرعة أعلى بـ4 أضعاف للصفحة مقارنةً بمزوّده السابق، وهو فارق حاسم في سير عمل التوثيق القانوني لبراءات الاختراع حيث السرعة مرتبطة مباشرةً بمواعيد العملاء.

على صعيد التكامل، يدخل OCR 4 كمكوّن استيعاب في Search Toolkit، إطار البحث مفتوح المصدر الذي أعلنته Mistral في قمة AI Now. الفكرة: مخرجات OCR 4 المنظّمة — كتل مصنّفة، صناديق تحديد، درجات ثقة — تتغذّى مباشرةً في مسارات الاسترجاع والفهرسة لـ RAG والبحث المؤسسي، دون الحاجة لطبقات معالجة وسيطة.

للمطوّرين، يتوفر النموذج عبر API بسعر 4 دولارات لكل 1,000 صفحة، مع خصم 50% على Batch API ليصل إلى 2 دولار لكل 1,000 صفحة. أما Document AI المبني على نفس المحرك والذي يضيف طبقة JSON منظّمة بمخطط تحدده أنت، فسعره 5 دولارات لكل 1,000 صفحة. النموذج متاح الآن عبر Mistral Studio، وAmazon SageMaker، وMicrosoft Foundry، مع إتاحة Snowflake Parse Document قريباً.

للمؤسسات ذات متطلبات السيادة على البيانات، يأتي OCR 4 بحجم يكفي للتشغيل في حاوية واحدة بالكامل — ما يعني الاحتفاظ ببيانات الوثائق داخل البنية التحتية الخاصة دون إرسالها إلى أي خدمة خارجية. هذا الخيار متاح لعملاء المؤسسات.

ثمة حدود واضحة يجب استيعابها: OCR 4 نموذج لفهم الوثائق، ليس متخذ قرارات. Mistral تستبعد صراحةً استخدامه في التشخيص الطبي، الاستشارات القانونية، القرارات المالية عالية المخاطر، الأنظمة الحساسة للسلامة، المعالجة الفورية التي تتطلب زمن استجابة منخفضاً جداً، أو المدخلات غير الوثائقية كالصوت والفيديو. هذا الوضوح في تحديد نطاق الاستخدام — نادراً ما تجده في إعلانات المنتجات — يُحسب لصالح Mistral.

Mistral AI Blog