DOI: https://doi.org/10.1145/3726302.3730348
تاريخ النشر: 2025-07-13
المؤلف: Krisztian Balog وآخرون
الموضوع الرئيسي: جودة البيانات وإدارتها
نظرة عامة
تستكشف هذه الورقة تأثير نماذج اللغة الكبيرة (LLMs) على استرجاع المعلومات (IR)، مع التركيز على التحيزات التي قد تنشأ من تفاعلاتها كمرتبين ومساعدين وقضاة. يقوم المؤلفون بتلخيص الأدبيات الموجودة ويقدمون تصاميم تجريبية جديدة، كاشفين أن قضاة LLM يظهرون تحيزًا كبيرًا تجاه المرتبين المعتمدين على LLM. بالإضافة إلى ذلك، يجدون قيودًا في قدرة القضاة على اكتشاف الفروق الدقيقة في أداء النظام. ومن الجدير بالذكر، على عكس بعض الدراسات السابقة، أن البحث لا يدعم وجود تحيز ضد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تؤكد هذه النتائج على ضرورة فهم شامل للنظام البيئي للمعلومات المدفوع بواسطة LLM.
في الختام، تسلط الدراسة الضوء على التحدي الحاسم المتمثل في تقييم كيفية تأثير المرتبين المعتمدين على LLM والمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي على قدرات الحكم لدى قضاة LLM فيما يتعلق بالملاءمة. يحدد المؤلفون المخاوف المتعلقة بجودة وموثوقية أحكام LLM، مؤكدين أن التفاعلات بين أدوار LLM المختلفة يمكن أن تؤدي إلى تقييمات متحيزة أو غير دقيقة لفعالية الاسترجاع. لمعالجة هذه القضايا، تقترح الورقة إرشادات لاستخدام LLM كقضاة في IR وتحدد أجندة بحث تهدف إلى معالجة الأسئلة المفتوحة الرئيسية في هذا المجال المتطور بسرعة.
مقدمة
تسلط مقدمة هذه الورقة البحثية الضوء على الدور التحويلي لنماذج اللغة الكبيرة (LLMs) في استرجاع المعلومات (IR)، مع التأكيد على تكاملها في خوارزميات الترتيب الأساسية وعمليات التقييم. مع تأثير LLMs المتزايد على إنشاء المحتوى – من الرسائل الإلكترونية إلى الشيفرات – تثير الورقة مخاوف حاسمة بشأن التحيزات المحتملة التي قد تقدمها أو تفاقمها هذه النماذج في تطبيقات مختلفة. أشارت الدراسات الأخيرة إلى أن LLMs يمكن أن تفضل محتواها الذي تم إنشاؤه على المواد التي أنتجها البشر وقد تعكس التحيزات الموجودة في بيانات تدريبها. علاوة على ذلك، تم الإشارة إلى قضايا مثل التلاعب بأنظمة تقييم LLM والظاهرة المعروفة باسم “انهيار النموذج”، مما يبرز الحاجة إلى تقييم متوازن لفوائد ومخاطر LLMs.
تهدف الورقة إلى سد فجوة كبيرة في الأدبيات من خلال التحقيق التجريبي في التفاعلات بين المرتبين المعتمدين على LLM، والقضاة، والمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تقدم النتائج الأولية التي تكشف أن قضاة LLM يظهرون تساهلاً في تقييمات الملاءمة مقارنة بالقضاة البشر ويظهرون تحيزًا تجاه المرتبين المعتمدين على LLM. بالإضافة إلى ذلك، تستكشف الدراسة ما إذا كان قضاة LLM يظهرون تحيزات عند تقييم المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، حيث لم تجد أي دليل على مثل هذه التحيزات، مما يتناقض مع بعض الأبحاث السابقة. يقترح المؤلفون منظورًا شاملًا حول تفاعل مكونات LLM في IR، مقدماً رؤى حول أفضل الممارسات لاستخدامها في التقييم ويحددون أجندة بحث لاستكشاف هذه التفاعلات المعقدة بشكل أكبر.
الطرق
في هذه الدراسة، استخدمنا مجموعات بيانات TREC للتعلم العميق (DL) من عامي 2019 و2020، التي تم اختيارها لملاءمتها واستخدامها الواسع في هذا المجال. تستخدم هذه المجموعات مجموعة مقاطع MS MARCO v1، التي تتكون من 8.8 مليون مقطع، وتتكون من 43 و54 استعلامًا، على التوالي، كل منها تم تعيينه للملاءمة من قبل مقيمي TREC. بالنسبة لتجاربنا، نشير إلى هذه المقاطع على أنها “مستندات”، على الرغم من أن التركيز على الاسترجاع هو على المقاطع.
تشمل منهجيتنا إعادة ترتيب أفضل 100 مقطع تم استرجاعه في البداية باستخدام خوارزمية BM25. للحفاظ على نزاهة مقارناتنا بين القضاة البشر ونماذج اللغة الكبيرة (LLM)، استبعدنا النتائج التي تفتقر إلى أحكام مقيمي TREC، بدلاً من تصنيفها على أنها غير ملائمة. المقياس الأساسي للتقييم المبلغ عنه هو NDCG@10، الذي يتماشى مع المعايير الرسمية لمسار DL.
النتائج
تقيم النتائج المعروضة في الجدول 1 طرق إعادة الترتيب المختلفة من خلال تقييمات من كل من القضاة البشر ونماذج اللغة الكبيرة (LLM). تلخص الشكل 3 بصريًا أداء المرتبين المختارين. تكشف التحليلات عن توافق جيد بشكل عام بين أحكام LLM وتقييمات البشر، خاصة بين أكبر ثلاثة نماذج من جيل v1.5، التي تتفوق على أسلافها من v1. من الجدير بالذكر أن نموذج v1.5 Flash يظهر توافقًا متفوقًا مع القضاة البشر عند استخدام مقياس ملاءمة متدرج، بينما يظهر النموذج الأصغر، v1 Nano، أداءً غير كافٍ، مما يؤدي إلى استبعاده من التحليلات الإضافية.
تُقيَّم القدرة التمييزية لقضاة LLM باستخدام مرتبين Oracle، مما يبرز التحديات التي تواجه النماذج في التمييز بين الأنظمة عالية الأداء مع اختلافات طفيفة في الأداء. على الرغم من أن الفروق الزوجية في تصنيفات Oracle ذات دلالة إحصائية وفقًا للتقييمات البشرية، إلا أن قضاة LLM، بما في ذلك النموذج الأعلى أداءً v1.5 Pro، يكافحون لتحديد هذه الفروق بشكل متسق. هذه القيود واضحة في كل من تقييمات Oracle ونظام الاسترجاع الفعلي، حيث يقوم نموذج v1.5 Pro أحيانًا بتصنيف الفروق الكبيرة بشكل خاطئ أو يفشل في اكتشافها تمامًا. تؤكد النتائج على إمكانية تأثر المقاييس المعتمدة على الارتباط بالأنظمة المختارة، مما يثير القلق بشأن موثوقية قضاة LLM في تقييمات الأداء الدقيقة.
المناقشة
في مناقشة الورقة البحثية، يستكشف المؤلفون دور نماذج اللغة الكبيرة (LLMs) في أنظمة استرجاع المعلومات (IR)، مع التركيز بشكل خاص على استخدامها كمرتبين وقضاة. يتم تسليط الضوء على خط أنابيب متعدد المراحل للاسترجاع ثم إعادة الترتيب، حيث يتم تحسين طرق الاسترجاع الأولية من خلال نماذج متطورة، غالبًا ما تكون LLMs، التي يمكن ضبطها أو تحفيزها بطرق مختلفة. ومع ذلك، تشير الدراسات إلى أن LLMs قد تظهر تحيزات، مثل تفضيل النصوص التي تم إنشاؤها بواسطة LLM بسبب الهياكل المشتركة، وهي عرضة للهجمات العدائية مثل حشو الكلمات الرئيسية. يؤكد المؤلفون على ضرورة الحذر عند استخدام LLMs لتقييمات الملاءمة، حيث يمكن أن تؤدي التحيزات إلى تضخيم درجات التقييم وتمثيلات خاطئة لأداء النظام.
تقوم الورقة أيضًا بتصنيف القضايا الحرجة المحيطة بـ LLMs كقضاة إلى منطقتين رئيسيتين: جودة الأحكام وقابلية التحيز والتلاعب. تثار المخاوف بشأن صلاحية وقوة التمييز لأحكام LLM، مع وجود أدلة تشير إلى أنه بينما يمكن أن تحقق LLMs توافقًا مع التقييمات البشرية، قد تكون أكثر تساهلاً في تصنيف المستندات على أنها ذات صلة. بالإضافة إلى ذلك، يتم التشكيك في موثوقية وقابلية إعادة إنتاج أحكام LLM، حيث يمكن أن تؤثر التغييرات الطفيفة في المدخلات بشكل كبير على النتائج. يناقش المؤلفون أيضًا إمكانية وجود تحيزات منهجية، خاصة عندما تُستخدم LLMs لكل من الترتيب والتقييم، مما قد يشوه تقييم النتائج ذات الصلة حقًا. بشكل عام، تؤكد النتائج على ضرورة المزيد من التحقيق التجريبي في التحديات والقيود التي تواجه LLMs في سياقات IR.
DOI: https://doi.org/10.1145/3726302.3730348
Publication Date: 2025-07-13
Author(s): Krisztian Balog et al.
Primary Topic: Data Quality and Management
Overview
This paper investigates the influence of large language models (LLMs) on information retrieval (IR), focusing on the biases that may arise from their interactions as rankers, assistants, and judges. The authors synthesize existing literature and present novel experimental designs, revealing that LLM judges exhibit significant bias towards LLM-based rankers. Additionally, they find limitations in the judges’ ability to detect subtle differences in system performance. Notably, contrary to some prior studies, the research does not support the existence of bias against AI-generated content. These findings underscore the necessity for a comprehensive understanding of the LLM-driven information ecosystem.
In conclusion, the study highlights the critical challenge of assessing how LLM-based rankers and AI-generated content impact the judgment capabilities of LLM judges regarding relevance. The authors identify concerns related to the quality, validity, and reliability of LLM judgments, emphasizing that interactions among different LLM roles can lead to biased or inaccurate evaluations of retrieval effectiveness. To address these issues, the paper proposes guidelines for employing LLMs as judges in IR and outlines a research agenda aimed at tackling key open questions in this rapidly evolving domain.
Introduction
The introduction of this research paper highlights the transformative role of large language models (LLMs) in information retrieval (IR), emphasizing their integration into core ranking algorithms and evaluation processes. As LLMs increasingly influence content generation—from emails to code—the paper raises critical concerns regarding the potential biases these models may introduce or exacerbate in various applications. Recent studies have indicated that LLMs can favor their own generated content over human-produced material and may reflect biases inherent in their training data. Furthermore, issues such as manipulation of LLM-based rating systems and the phenomenon of “model collapse” are noted, underscoring the need for a balanced assessment of LLMs’ benefits and risks.
The paper aims to fill a significant gap in the literature by empirically investigating the interactions between LLM-based rankers, judges, and AI-generated content. It presents initial findings that reveal LLM judges exhibit leniency in relevance assessments compared to human judges and demonstrate a bias towards LLM-based rankers. Additionally, the study explores whether LLM judges show biases when evaluating AI-generated content, finding no evidence of such biases, which contrasts with some prior research. The authors propose a holistic perspective on the interplay of LLM components in IR, offering insights into best practices for their use in evaluation and outlining a research agenda to further explore these complex interactions.
Methods
In this study, we employed the TREC Deep Learning (DL) datasets from 2019 and 2020, selected for their relevance and extensive prior use in the field. These datasets utilize the MS MARCO v1 passage corpus, comprising 8.8 million passages, and consist of 43 and 54 queries, respectively, each annotated for relevance by TREC assessors. For our experiments, we refer to these passages as “documents,” despite the retrieval focus on passages.
Our methodology involves reranking the top 100 passages initially retrieved using the BM25 algorithm. To maintain the integrity of our comparisons between human and large language model (LLM) judges, we excluded results that lacked TREC assessor judgments, rather than categorizing them as non-relevant. The primary evaluation metric reported is NDCG@10, which aligns with the official standards of the DL track.
Results
The results presented in Table 1 evaluate various reranking methods through assessments by both human and large language model (LLM) judges. Figure 3 visually summarizes the performance of selected rankers. The analysis reveals a generally good alignment between LLM-based judgments and human assessments, particularly among the three largest models from the v1.5 generation, which outperform their v1 predecessors. Notably, the v1.5 Flash model demonstrates superior agreement with human judges when employing a graded relevance scale, while the smallest model, v1 Nano, shows inadequate performance, leading to its exclusion from further analyses.
The discriminative ability of LLM judges is assessed using Oracle rankers, which highlight the models’ challenges in distinguishing between high-performing systems with minor performance differences. Although pairwise differences in Oracle rankings are statistically significant according to human evaluations, LLM judges, including the top-performing v1.5 Pro, struggle to consistently identify these differences. This limitation is evident in both Oracle and actual retrieval system evaluations, where the v1.5 Pro model occasionally misclassifies significant differences or fails to detect them altogether. The findings underscore the potential for correlation-based metrics to be influenced by the selected systems, raising concerns about the reliability of LLM judges in nuanced performance assessments.
Discussion
In the discussion of the research paper, the authors explore the role of large language models (LLMs) in information retrieval (IR) systems, particularly focusing on their use as rankers and judges. The multistage retrieve-then-rerank pipeline is highlighted, where initial retrieval methods are refined through sophisticated models, often LLMs, which can be fine-tuned or prompted in various ways. However, studies indicate that LLMs may exhibit biases, such as favoring LLM-generated texts due to shared architectures, and are vulnerable to adversarial attacks like keyword stuffing. The authors emphasize the need for caution in using LLMs for relevance assessments, as biases could lead to inflated evaluation scores and misrepresentations of system performance.
The paper further categorizes critical issues surrounding LLMs as judges into two main areas: the quality of judgments and susceptibility to bias and manipulation. Concerns regarding the validity and discriminative power of LLM judgments are raised, with evidence suggesting that while LLMs can achieve agreement with human assessments, they may be more lenient in labeling documents as relevant. Additionally, the reliability and reproducibility of LLM judgments are questioned, as minor variations in input can significantly affect outcomes. The authors also discuss the potential for systematic biases, particularly when LLMs are used both for ranking and evaluation, which could distort the assessment of truly relevant results. Overall, the findings underscore the necessity for further empirical investigation into the challenges and limitations of LLMs in IR contexts.
