الإحصائيات والتقارير
-

كشف العيوب الخفية في نماذج الحكم اللغوية بأداتين تشخيصيتين جديدتين
كشف العيوب الخفية في نماذج الحكم اللغوية يظهر تناقضات منطقية في 67% من النصوص رغم المعدلات المنخفضة ظاهرياً والحاجة لأدوات…
أكمل القراءة » -

تجربة مفاجئة: نموذج Qwen3.6 المحلي يرسم أفضل من Claude Opus 4.7
تجربة مفاجئة: نموذج Qwen3.6 المحلي يرسم أفضل من Claude Opus 4.7 في اختبار البجعة مما يثير تساؤلات حول معايير تقييم…
أكمل القراءة » -

الأسئلة البلاغية في نماذج اللغة تتطلب 3 أنظمة تشفير منفصلة
الأسئلة البلاغية في نماذج اللغة تتطلب 3 أنظمة تشفير منفصلة وفقاً لدراسة Linear Probing الجديدة التي تكشف تعقيد التمثيل الداخلي
أكمل القراءة » -

باحثون يحولون “اختبار الإحساس” إلى منهجية علمية لتقييم النماذج اللغوية
دراسة ArXiv تطور إطاراً علمياً لفهم كيف يقيم المستخدمون النماذج اللغوية عملياً عبر التخصيص والحكم الشخصي
أكمل القراءة » -

معيار LongCoT يكشف انهيار GPT-5 وGemini في التفكير المعقد
معيار LongCoT الجديد يثبت فشل أحدث النماذج الذكية في 90% من مهام التفكير المتسلسل الطويل المدى مع نتائج صادمة لـGPT-5
أكمل القراءة » -

الأساليب التقليدية تضاهي الذكاء الاصطناعي بكفاءة أعلى في تحليل اللغة
دراسة جامعة مانشستر تثبت أن الطرق التقليدية تتفوق على نماذج الذكاء الاصطناعي في تحليل النصوص المتخصصة مع توفير 95% من…
أكمل القراءة » -

معيار VAKRA يكشف 4 نقاط ضعف حرجة في الوكلاء الذكية
معيار VAKRA من IBM يحلل فشل الوكلاء الذكية في المهام متعددة الخطوات عبر 8,187 واجهة برمجة تطبيقات في بيئات العمل…
أكمل القراءة » -

ASML ترفع توقعات 2026 لـ40 مليار يورو مع تحول معالجات الذاكرة لعقدة اختناق
شركة ASML ترفع توقعات الإيرادات للعام 2026 إلى 40 مليار يورو بعد تحقيق أرباح ربعية قياسية وتزايد الطلب على معالجات…
أكمل القراءة » -

نموذج 2 مليار معامل يحطم أسطورة احتكار GPU للذكاء الاصطناعي
نموذج Gemma 2B يحقق 8.0 على معيار MT-Bench متفوقاً على GPT-3.5 Turbo بـ7.94 باستخدام معالج لابتوب عادي فقط
أكمل القراءة » -

نماذج Claude تتفوق على باحثي آنثروبيك بتكلفة 22 دولار للساعة
نماذج Claude الـ9 حققت 97% من الأداء المثالي في أبحاث محاذاة الذكاء الاصطناعي بتكلفة 18 ألف دولار، متفوقة على الباحثين…
أكمل القراءة »









