الأبحاث في مجلة: IEEE Transactions on Computers
-
BrownoutServe: تقديم استدلال مدرك لمستوى الخدمة تحت أحمال عمل متقطعة لنماذج LLM المعتمدة على MoE
BrownoutServe: SLO-Aware Inference Serving Under Bursty Workloads for MoE-Based LLMs2026 | المؤلف: Zhenyun Du وآخرون | المجلة: IEEE Transactions on Computers | المجال: شبكات واتصالات الحاسوب (Computer Networks and Communications)يقدم هذا القسم نظرة عامة على Brownout-Serve، وهو إطار عمل جديد مصمم لتعزيز كفاءة الاستدلال في نماذج اللغة الكبيرة (LLMs) المعتمدة على مزيج من الخبراء (MoE). يعالج الإطار عدم الكفاءة المرتبطة بوضع النموذج الثابت وعدم القدرة على التكيف مع أحمال العمل الديناميكية، مما يمكن أن يؤدي إلى استخدام غير مثالي للموارد وزيادة زمن الاستجابة خلال…
