الأبحاث في مجلة: Findings of the Association for Computational Linguistics: ACL 2025
-
دراسة تجريبية لنموذج LLM كقاضي لتقييم LLM: نموذج القاضي المعدل ليس بديلاً عامًا لـ GPT-4
An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-42025 | المؤلف: Hui Huang وآخرون | المجلة: Findings of the Association for Computational Linguistics: ACL 2025 | المجال: الاقتصاد والاقتصاد القياسي (Economics and Econometrics)تناقش هذه الفقرة تقييم نماذج اللغة الكبيرة (LLMs) باستخدام نماذج قضاة معدلة بناءً على نماذج LLM مفتوحة المصدر. بينما أظهرت هذه النماذج المعدلة أداءً عاليًا على مجموعات الاختبار داخل المجال، حتى أنها تجاوزت أداء GPT-4، يكشف البحث التجريبي عن عيوب كبيرة في قابليتها للتعميم، والعدالة، والقدرة على التكيف. تشير الأبحاث إلى أن هذه النماذج تعمل…
