AethexAI تجمع 3 ملايين دولار لذكاء صوتي محلي

🎧 استمع للملخص

بقلم: طارق | محرر السياسات والأعمال · صوت تحريري بإشراف بشري

مؤسسان تركا Goldman Sachs وMeta لحل مشكلة حقيقية: عمالقة الذكاء الصوتي يفشلون في أفريقيا والشرق الأوسط. جمعت AethexAI الناشئة 3 ملايين دولار في جولة تمويل أولية بقيادة 4DX Ventures، مع مشاركة Enza Capital وDorm Room Fund وMojo Ventures وStanford GSB 26 Fund، بالإضافة إلى أعضاء هيئة تدريس من ستانفورد ومديرين تنفيذيين في شركات الاتصالات وباحثين في Anthropic.

المشكلة واضحة لمن عاشها. في مصر، أتمتت إحدى مراكز الاتصالات جزءاً كبيراً من مكالماتها ثم تراجعت عن النظام بسبب النتائج الكارثية (وفقاً لـ TechCrunch). عدة مراكز دعم في أفريقيا أخبرت المؤسسين أن إيجاد وتوظيف مهندسين لأتمتة المكالمات بالتكلفة المناسبة صداع مستمر.

“زمن الاستجابة والتقطع الذي رأيناه في المكالمات الآلية في هذه المنطقة كان فاضحاً. لو استخدمنا أدوات التنسيق العادية، ربما اضطررنا لاستخدام نماذج كبيرة مستضافة خارج المنطقة، مما يزيد زمن الاستجابة. أدركنا أنه لكي يعمل الأمر، يجب استخدام نماذج صغيرة جداً وتقليل زمن الاستجابة في كل خطوة”، قال أيولوا أوديمويوا، المدير التقني (وفقاً لـ TechCrunch).

بدلاً من الاعتماد على Vapi أو LiveKit، بنت AethexAI نموذجها وطبقة التنسيق من الصفر للتعامل مع اللهجات المحلية للإنجليزية والفرنسية والعربية. طورت سلسلة نماذج Kora بمعاملات تتراوح من 300 مليون إلى 1.7 مليار – جزء ضئيل من حجم النماذج اللغوية الكبيرة، وهذا هو المطلوب تماماً.

للحصول على بيانات التدريب، استخدمت الشركة تسجيلات مجهولة الهوية من شريك مركز اتصال. كما شحنت أقراصاً صلبة لمحطات إذاعية عبر أفريقيا لجمع المزيد من البيانات الصوتية. لتوفير التكاليف، بنت شبكة من طلاب الجامعات لتعليق البيانات ونطق الأسماء المحلية.

النتيجة؟ تتعامل الشركة الآن مع أكثر من 17,000 مكالمة يومياً (وفقاً لـ TechCrunch). معظم الاستخدامات تشمل مكالمات تحصيل الديون وتفعيل العملاء والتحقق من الهوية KYC المستخدم في البنوك وشركات الاتصالات.

أسست الشركة ماريما ديالو وأيولوا أوديمويوا. عملت الرئيسة التنفيذية ديالو في Goldman Sachs ثم انضمت لـ ModelML المدعومة من Y Combinator. تخرج المدير التقني أوديمويوا من Caltech وعمل في Meta والتحق بـ Stanford Business School قبل التأسيس.

في الجانب التجاري، تركز الشركة على مرافقة العملاء الجدد في رحلة الذكاء الصوتي، مقدمة عروضاً ميدانية وورش عمل لمساعدتهم في تحديد أفضل حالات الاستخدام للأتمتة. “نخبر العملاء دائماً أننا لا نستطيع أن نكون كل شيء للجميع الآن. نحن شركة صغيرة. عندما نبدأ التحدث مع شركة، نطلب منها اختيار حالة استخدام واحدة هي الأهم للبدء”، قالت ديالو.

تستأجر الشركة مهندسين للنشر المتقدم على أساس تعاقدي لخدمة الأسواق المحلية وتبني شراكات قنوات مع مزودي الاتصالات للتعامل مع الهاتف في مكالمات الذكاء الصوتي. الحلول الجاهزة، كما تقول، ببساطة لن تعمل هنا.

والتر بادو، الشريك المؤسس والإداري لـ 4DX Ventures، يجادل أن سوق أفريقيا والشرق الأوسط مختلف جذرياً عن الأسواق التي بُنيت معظم شركات الذكاء الصوتي لخدمتها. “المؤسسات في أفريقيا والشرق الأوسط تعالج حوالي ثلاثة أضعاف حجم المكالمات من نظيراتها الغربية، حيث الصوت لا يزال القناة المهيمنة لتفاعل العملاء” (وفقاً لـ TechCrunch).

“الأنظمة الحالية بُنيت للأسواق الغربية التي تتميز ببنية تحتية متطورة للـ GPU، وبيئات كلام إنجليزية وأوروبية قياسية، وسير عمل مؤسسي شائع في الولايات المتحدة وأوروبا. هذا يخلق فجوات حقيقية عندما تحتاج المؤسسات لأنظمة تتعامل مع اللهجات والتنقل بين الرموز وأنماط الكلام غير الرسمي، وتعمل ضمن البنية التحتية الهاتفية الموجودة ونقاط أسعارها الفعلية”.

بكلمات أخرى، بينما تتوسع شركات مثل ElevenLabs وDeepgram وSierra وCognigy عالمياً بسرعة، الأسواق التي بُنيت من أجلها والأسواق التي تدخلها ليست دائماً نفس الشيء. شركات مثل AethexAI تراهن أن الفجوات – النماذج المتخصصة في اللهجات المحلية والشراكات الميدانية والبنية التحتية المصممة للمنطقة – تمثل فرصة سوق العمالقة ليس لديهم الحافز ولا البنية التقنية لسدها.

الشركة تطلق أيضاً منصتها للمؤسسات لتجربة التقنية والاشتراك في الخدمات، مع APIs وSDKs للمطورين لتجريب نماذجها.

TechCrunch