الأبحاث المرتبطة بالكلمة المفتاحية: عرض النطاق الترددي للذاكرة
-
RetroInfer: محرك تخزين متجهات لاستنتاج LLM طويل السياق القابل للتوسع
RetroInfer: A Vector Storage Engine for Scalable Long-Context LLM Inference2026 | المؤلف: Yaoqi Chen وآخرون | المجلة: Proceedings of the VLDB Endowment | المجال: الذكاء الاصطناعي (Artificial Intelligence)في هذا القسم، يتناول المؤلفون التحديات التي تواجه نماذج اللغة الكبيرة (LLMs) مع توسيع نوافذ السياق الخاصة بها، وخاصة القيود في سرعة الاستدلال بسبب زيادة متطلبات ذاكرة GPU وعرض النطاق الترددي. ينمو ذاكرة المفتاح والقيمة (KV) التي تخزن تمثيلات الرموز بشكل خطي مع طول السياق وتتطلب مسحًا خطيًا تكراريًا لحساب الانتباه. لتعزيز استدلال السياق الطويل،…
