KVarN هواوي: ثورة في تحسين أداء النماذج اللغوية الكبيرة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تواجه النماذج اللغوية الكبيرة مشكلة جوهرية: كلما طال السياق، زاد استهلاك الذاكرة بشكل مضاعف، مما يحد من عدد الطلبات المتزامنة أو يجبر المطورين على التضحية بالأداء. هواوي تقدم الآن حلاً تقنياً متطوراً يُسمى KVarN كخلفية أصلية لمنصة vLLM، يحقق زيادة 3-5 أضعاف في سعة ذاكرة KV-cache مع تحسين الأداء بنسبة 30% (وفقاً لهواوي).

شعار مبني على vLLM — KVarN مبني على الإصدار v0.22.0 من vLLM

المشكلة التي تحلها KVarN واضحة: تقنيات تكميم KV-cache التقليدية مثل TurboQuant تُجبرك على اختيار إما السعة أو السرعة. TurboQuant يحقق زيادة سعة بـ 2.3-3.7 ضعف لكن بانخفاض أداء 40-52% (وفقاً لتقرير vLLM)، بينما التكميم العدواني يضر بالدقة. KVarN تكسر هذا المأزق عبر خوارزمية تطبيع التباين التي تحافظ على دقة FP16 مع تحسين الأداء فعلياً.

التنفيذ العملي مباشر وخالٍ من التعقيدات. تحتاج فقط لاستنساخ المستودع وتثبيته مع تفعيل العجلات المجمعة مسبقاً، ثم إضافة معامل واحد لتشغيل النموذج:

استنساخ وتثبيت المشروع: استخدم git clone https://github.com/huawei-csl/KVarN.git && cd KVarN ثم قم بالتثبيت عبر VLLM_USE_PRECOMPILED=1 pip install -e . للاستفادة من kernels المجمعة
تهيئة النموذج في Python: أضف kv_cache_dtype="kvarn_k4v2_g128" مع تحديد dtype="float16" و block_size=128 – لا حاجة لتعديل النموذج أو معايرة مسبقة
تشغيل الخدمة عبر CLI: استخدم vllm serve Qwen/Qwen3-32B --dtype float16 --kv-cache-dtype kvarn_k4v2_g128 --block-size 128 للحصول على الأداء المحسن مباشرة
تحسين السعة القصوى: في البيئات محدودة الذاكرة، استخدم VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0 أو ارفع --gpu-memory-utilization لتفادي الحجز المفرط للذاكرة
فهم آلية التكميم: KVarN تمر بأربع مراحل تحويلية – Cache خام بـ FP16، دوران Hadamard لتوزيع القيم الشاذة، تطبيع تكراري للتباين، ثم تكميم غير متماثل بـ 4 بت للمفاتيح و2 بت للقيم

أداء KVarN في الاختبارات العملية مثير للإعجاب. على نموذج Qwen3-32B مع سياق 16K وتوزيع TP=2، حققت التقنية دقة مطابقة لـ FP16 مع أداء أعلى بـ 30% وسعة ذاكرة أكبر بـ 4 أضعاف (وفقاً لهواوي). مقارنة مع TurboQuant، تحقق KVarN أداء أسرع بـ 2.4 ضعف مع نفس السعة ودقة أعلى (وفقاً لهواوي).

السر التقني يكمن في خوارزمية تطبيع التباين المبتكرة التي تعمل مثل Sinkhorn، حيث تتناوب بين التطبيع على مستوى الأعمدة والصفوف في المساحة اللوغاريتمية. هذا التطبيع يوازن التباين عبر البلاط الواحد ويقلل خطأ التكميم قبل أي تقريب، بينما دوران Hadamard المتعامد يحافظ على نقاط الانتباه الأصلية.

التقنية متاحة الآن على GitHub تحت رخصة Apache 2.0 مع ورقة بحثية مفصلة على arXiv. المشروع يستهدف العمليات التفاعلية والسياقات الطويلة، وهو ما يحتاجه المطورون لتطبيقات الذكاء الاصطناعي المتقدمة دون الدخول في متاهات التحسين اليدوي.

Huawei GitHub