مراجعة كود الذكاء الاصطناعي: حين تتراجع العين البشرية

🎧 استمع للملخص

بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري

بيانات Cursor التي رصدتها Business Insider تُشير إلى اتجاه لا يمكن تجاهله: نسبة متزايدة من تغييرات الكود التي تُنتجها وكلاء الذكاء الاصطناعي تصل إلى بيئة الإنتاج دون أن تمر بمراجعة بشرية منفصلة. لم يعد السؤال هل يراجع الإنسان كل سطر كود تكتبه الآلة، بل أصبح السؤال الأدق: ما الذي يحدث قبل دمج هذا الكود إذا لم يكن الإنسان هو الحارس الافتراضي؟

بيانات <a href= — بيانات Cursor: اتجاه تصاعدي لكود الذكاء الاصطناعي الذي يصل إلى الإنتاج دون مراجعة بشرية منفصلة

المراجعة البشرية لم تكن يوماً مجرد طقس مؤسسي أو روتين إداري — كانت بوابة ضمان الجودة الأساسية التي تحجب الأخطاء المنطقية، وتكشف الثغرات الأمنية، وتُحدد الكود الذي يعمل لكنه لا يتوافق مع بنية النظام الأوسع. حين تبدأ هذه البوابة بالانكماش تدريجياً، لا تختفي الحاجة إلى ضمان الجودة — بل تنتقل إلى مكان آخر. المشكلة أن “المكان الآخر” لا يزال غير محدد المعالم في كثير من الفرق.

ثمة أربعة مكونات يجب أن تحل محل المراجعة البشرية حين تتراجع: الاختبارات الآلية التي لا تعتمد على التخمين، وتقييمات الوكلاء (agent evals) التي تُقيّم سلوك النظام في سياقات معقدة، وتتبع مصدر الكود (provenance) حتى تعرف في أي لحظة من أين جاء كل تغيير، وآليات التراجع (rollback) التي تُقلّص الضرر حين يصل خطأ صامت إلى المستخدمين. الفرق التي تتعامل مع هذه العناصر كأدوات اختيارية، لا كبنية تحتية إلزامية، هي الفرق التي ستكتشف مشكلاتها بعد وقوعها لا قبلها.

منظومة ضمان جودة كود الذكاء الاصطناعي: اختبارات وتقييمات ومراقبة — منظومة ضمان الجودة في عصر وكلاء الكود: الاختبارات والتقييمات والمراقبة والتراجع كبدائل للمراجعة البشرية التقليدية

الجانب الآخر من هذه الصورة هو أن المراجعة البشرية لم تكن مثالية أصلاً. المراجعون البشر يُفوّتون أخطاء، يُعانون من إرهاق الانتباه في الفرق ذات الحجم الكبير، ويفشلون أحياناً في فهم السياق الكامل لتغيير معقد. وكلاء الكود الجيدون — حين يُقترنون بمجموعة اختبارات قوية وتقييمات صارمة — قد يُنتجون كوداً أقل أخطاءً من نظير يراجعه إنسان متعب في الساعة الثانية صباحاً. هذا ليس دفاعاً عن إلغاء المراجعة البشرية، بل هو اعتراف بأن السؤال ليس “بشري أم آلي” — بل “ما مستوى الأدلة الكافية قبل الدمج؟”

لكن تجدر الإشارة إلى تحفظ مهم: البيانات التي استندت إليها Business Insider مصدرها Cursor، ولم يتوفر الوصول إلى مجموعة البيانات الخام كمصدر أولي عام (وفقاً لـ Business Insider). الاتجاه العام موثوق ومنسجم مع ما تراه الصناعة، لكن الأرقام الدقيقة تستحق التعامل معها بحذر حتى تظهر بيانات مستقلة مقارنة. هذه ليست ذريعة لتجاهل الإشارة — بل دعوة لعدم بناء سياسات مؤسسية على رقم واحد غير موثق علنياً.

الإشكالية الأعمق هي مسألة الملكية (ownership). حين يكتب إنسان كوداً ويمر بمراجعة بشرية، واضح من يتحمل مسؤولية عطل الإنتاج. حين يكتب وكيل ذكاء اصطناعي الكود ويمر بتقييم آلي فقط ويصل إلى الإنتاج، تصبح المسؤولية ضبابية. هل الفريق الذي اختار الأداة؟ من كتب موجّه الوكيل (agent prompt)؟ من صمّم مجموعة الاختبارات؟ هذا السؤال ليس فلسفياً — سيُطرح في أول حادثة إنتاج جسيمة تنشأ عن كود لم يراه إنسان.

المهندسون والفرق التقنية التي تستخدم أدوات مثل Cursor اليوم تحتاج إلى سياسة واضحة لا تقول “نراجع كل شيء بشرياً” — فهذا سيصبح وهماً مع تسارع الإنتاج — ولا تقول “نثق بالوكيل بالكامل”، فهذا رهان على الحظ. السياسة الواقعية تُصنّف التغييرات: ما الذي يمر بفحص حتمي (deterministic)، ما الذي يخضع لتقييم وكيل (agentic eval)، ما الذي يستلزم عيناً بشرية بالضرورة، وأين يقع خط الفشل الصامت الذي قد يصل إلى المستخدم دون أن يرصده أحد.

التحول جارٍ بصرف النظر عن القناعات. السؤال ليس هل تُقلّل مراجعة الكود البشرية، بل كيف تبني منظومة ضمان جودة تعمل بالفعل حين يكون الإنسان خارج المسار الافتراضي.

Business Insider