
بقلم: يوسف | محرر أدوات الذكاء الاصطناعي
أطلق فريق تطوير llama.cpp الإصدار b8766 مع إضافة محورية: دعم كامل للمعالجة الصوتية في نماذج Gemma 4 عبر معمارية Conformer المتطورة. هذا التطوير يمكن المطورين من تشغيل نماذج متعددة الوسائط محلياً دون الحاجة لخدمات سحابية.
التحديث الجديد يبني معمارية صوتية معقدة تتضمن 12 طبقة Conformer تعمل بالتسلسل: FFN → Self-Attention → Causal Conv1D → FFN → Norm. النظام يستخدم Subsampling Conv Projection مع طبقتين Conv2D بخطوة stride=2 مصحوبة بـLayerNorm، بينما يدعم full self-attention مع sinusoidal RPE وقناع نافذة منزلقة محدود بـ24 موضعاً.
المعالج الصوتي الجديد mtmd_audio_preprocessor_gemma4a يطبق HTK mel scale بـ128 مجموعة تردد، مع magnitude STFT وحد أدنى mel_floor=1e-3. يستخدم النظام نافذة Hann دورية بحجم 320 عينة مع zero-padding إلى حجم FFT، ويطبق semicausal left-padding بـframe_length/2 samples لمطابقة صيغة PyTorch unfold بدقة. (وفقاً لإعلان llama.cpp)

الفريق حل مشاكل تقنية حرجة كانت تعيق الأداء. آلية tensor loading الجديدة تمنع get_tensor() من إنشاء إدخالات مكررة في ctx_data عبر std::set guard، بينما نُقل تحميل ClippableLinear clamp_info لما بعد معالجة tensors كل طبقة. قناع النافذة المنزلقة يطابق الآن context_size في PyTorch بدقة 24 موضعاً، مع إزالة اعتماد Whisper normalization لمخرجات Gemma4 mel.
الاختبارات التقنية أكدت فعالية النظام على نماذج E2B وE4B باستخدام معالجات CPU وVulkan. النظام نجح في نسخ النص الصوتي “Glad to see things are going well and business is starting to pick up” مطابقاً للمرجع الأصلي، مع تحقيق تشابه Mel cosine مقابل PyTorch بنسبة 0.9998.
الإصدار متوفر فوراً عبر 20 حزمة تحميل مخصصة حسب المنصة والمعالج. منصات macOS تدعم Apple Silicon (ARM64) مع نسخة KleidiAI محسنة وIntel x64، بينما Linux يشمل Ubuntu بمعالجات x64/arm64/s390x مع دعم Vulkan وROCm 7.2 وOpenVINO 2026.0. Windows يدعم CUDA 12.4-13.1 مع مكتبات DLLs منفصلة، إضافة إلى Vulkan وSYCL وHIP Radeon. المنصات المتخصصة تشمل openEuler للمعالجات 310p و910b مع ACL Graph optimization.
هذا التطوير يضع llama.cpp في موقع تنافسي متقدم للمعالجة الصوتية المحلية، خاصة مع تزايد الطلب على الحلول التي تعمل دون اتصال إنترنت. قدرة تشغيل نماذج Gemma 4 صوتياً على العتاد المحلي تفتح إمكانيات جديدة للتطبيقات الحساسة للخصوصية والبيئات المقيدة الاتصال.




