الأبحاث في مجلة: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

DeepSeekMoE: نحو التخصص النهائي للخبراء في نماذج اللغة المختلطة من الخبراء

2024 | المؤلف: Damai Dai وآخرون | المجلة: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) | المجال: الذكاء الاصطناعي (Artificial Intelligence)

في هذا القسم، يقدم المؤلفون بنية DeepSeek-MoE، المصممة لتعزيز تخصص الخبراء ضمن نماذج مزيج الخبراء (MoE)، خاصة في سياق نماذج اللغة الكبيرة. تكافح الهياكل التقليدية لمزيج الخبراء، مثل GShard، لضمان أن يطور الخبراء معرفة متميزة ومركزة. لمعالجة ذلك، تستخدم DeepSeek-MoE استراتيجيتين رئيسيتين: أولاً، تقسم الخبراء بدقة إلى \(mN\) وحدة وتفعيل \(mK\) منها، مما يسمح باختيار…