الأبحاث ضمن الموضوع : تقنيات تحسين التدرج العشوائي
-
الانتباه النادر الأصلي: انتباه نادر متوافق مع الأجهزة وقابل للتدريب بشكل أصلي
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention2025 | المؤلف: Jingyang Yuan وآخرون | المجلة: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) | المجال: الذكاء الاصطناعي (Artificial Intelligence)تقدم البحث آلية NSA، وهي آلية انتباه نادرة قابلة للتدريب بشكل أصلي مصممة لتعزيز نمذجة السياقات الطويلة في نماذج اللغة من الجيل التالي مع معالجة التكاليف الحسابية العالية المرتبطة بآليات الانتباه القياسية. تستخدم NSA استراتيجية نادرة هرمية ديناميكية تجمع بين ضغط الرموز الخشن واختيار الرموز الدقيقة، مما يحافظ بفعالية على الوعي بالسياق العالمي والدقة المحلية.…
