
طور Matt Mireles أداة مفتوحة المصدر لضبط نماذج Gemma 4 و Gemma 3n على ثلاث طرائق: النصوص والصور والصوت، مصممة خصيصاً لمعالجات Apple Silicon دون الحاجة لكروت NVIDIA أو نسخ تيرابايتات البيانات محلياً.
تحل هذه الأداة مشكلة حقيقية يواجهها مطورو الذكاء الاصطناعي العرب: ضبط النماذج متعددة الطرائق يتطلب عادة استئجار خوادم H100 مكلفة أو نقل كميات ضخمة من البيانات. الآن يمكن تدريب نموذج Gemma على التعرف على الكلام الطبي أو وصف الصور التقنية مباشرة من جهاز Mac.
- ضبط النصوص والصور محلياً: استخدم ملفات CSV محلية لتدريب النموذج على وصف الصور أو الإجابة على أسئلة بصرية، مع دعم image_token_budget من 70 إلى 1120 توكن حسب مستوى التفاصيل المطلوب
- ضبط الصوت على Apple Silicon: المسار الوحيد الأصلي لمعالجات Apple Silicon الذي يدعم تدريب النماذج على البيانات الصوتية، مما يمكن تطوير أنظمة تعرف كلام متخصصة في المجالات الطبية أو القانونية
- بث البيانات من السحابة: تدريب على تيرابايتات البيانات من Google Cloud Storage أو BigQuery دون ملء قرص SSD المحلي، مع دعم Application Default Credentials للوصول الآمن
- دعم نماذج Gemma 4 الجديدة: يدعم google/gemma-4-E2B-it و google/gemma-4-E4B-it بأحجام 2B و 4B معامل، مع إمكانية إضافة نماذج مخصصة عبر ملف التكوين
- تصدير متوافق مع Hugging Face: تصدير النماذج المضبوطة كـ SafeTensors متوافقة مع Hugging Face، مع دمج أوزان LoRA والاحتفاظ بإعدادات معالج الصور للاستنتاج المتسق
الأداة تتطلب Python 3.10+ و macOS 12.3+ مع 16 GB رام على الأقل، وتستخدم تقنية LoRA للضبط الفعال دون إعادة تدريب النموذج بالكامل. يمكن للمطورين في السعودية والإمارات تطوير أنظمة ذكاء اصطناعي محلية للهجات العربية أو التطبيقات التقنية المتخصصة دون الاعتماد على خدمات سحابية خارجية.
العيب الوحيد: النماذج الأكبر من Gemma 4 (26B أو 31B) تستخدم بنية مختلفة غير مدعومة حالياً، والتدريب على النصوص فقط ما يزال يحتفظ بأوزان برج الصوت في الذاكرة.



