DOI: https://doi.org/10.18653/v1/2025.findings-naacl.232
تاريخ النشر: 2025-01-01
المؤلف: Yuntong Hu وآخرون
الموضوع الرئيسي: نظرية الرسوم البيانية والخوارزميات
نظرة عامة
تقدم هذه القسم استرجاع الرسوم البيانية المعزز بالتوليد (GRAG)، وهو تقدم على استرجاع التوليد المعزز البسيط (RAG) الذي يعالج القيود المتعلقة بالتعامل مع الوثائق المتصلة، مثل رسوم الاقتباس ورسوم المعرفة. يدمج GRAG الرسوم الفرعية النصية في نماذج اللغة الكبيرة (LLMs) من خلال استخدام استراتيجية تقسيم وتغلب لاسترجاع هياكل الرسوم الفرعية المثلى بكفاءة في وقت خطي. تعزز هذه الطريقة قدرات التوليد في LLMs من خلال توفير منظورين متكاملين: منظور النص ومنظور الرسم، مما يسهل معًا فهمًا أكثر دقة لسياق الرسم.
تشير النتائج التجريبية إلى أن GRAG يتفوق بشكل كبير على طرق RAG الحالية، لا سيما في المهام التي تتطلب التفكير متعدد القفزات على الرسوم النصية. لا يخفف الإطار المقترح من التحديات الصعبة المرتبطة بالبحث الشامل عن الرسوم الفرعية فحسب، بل يظهر أيضًا أن LLM المجمد المعزز بواسطة GRAG يمكن أن يحقق أداءً متفوقًا مقارنة بـ LLMs المعدلة بدقة، كل ذلك مع تكاليف تدريب أقل. تتوفر مجموعات البيانات والشيفرة الخاصة بـ GRAG للجمهور، مما يعزز المزيد من البحث والتطبيق في هذا المجال.
مقدمة
في مقدمة هذه الورقة البحثية، يناقش المؤلفون قيود نماذج اللغة الكبيرة (LLMs) في التعامل مع الدقة الواقعية بسبب اعتمادها على بيانات تدريب ثابتة وغياب المعرفة في الوقت الحقيقي. للتخفيف من هذه المشكلات، يقدمون استرجاع التوليد المعزز (RAG)، الذي يعزز LLMs من خلال دمج استرجاع البيانات الخارجية. ومع ذلك، تركز طرق RAG التقليدية على الوثائق الفردية، متجاهلة الطبيعة المترابطة للبيانات في العالم الحقيقي، مثل رسوم الاقتباس في الأوراق البحثية أو التفاعلات على وسائل التواصل الاجتماعي. يمكن أن تعيق هذه السهو فعالية عمليات استرجاع المعلومات والتوليد.
لمعالجة هذه التحديات، يقترح المؤلفون إطارًا جديدًا يسمى استرجاع الرسوم البيانية المعزز بالتوليد (GRAG)، الذي يدمج السياق المتصل للوثائق في كل من مراحل الاسترجاع والتوليد. يحددون تحديين رئيسيين: استرجاع الرسوم الفرعية النصية ذات الصلة بكفاءة ودمج هذه الرسوم الفرعية في LLMs بشكل فعال مع الحفاظ على كل من المعلومات النصية والتوبولوجية. يستخدم إطار GRAG المقترح استراتيجية تقسيم وتغلب لاسترجاع الرسوم الفرعية ويقدم طريقة تحفيز مزدوجة تجمع بين التحفيزات الصعبة (رموز النص) والتحفيزات اللينة (رموز الرسم) لتعزيز أداء LLM. تشير النتائج التجريبية إلى أن GRAG يتفوق بشكل كبير على طرق RAG التقليدية وLLMs المعدلة بدقة في مهام التفكير متعدد القفزات على الرسوم، مما يشير إلى إمكانيته كنهج أكثر فعالية لتعزيز قدرات LLM في السياقات المتعلقة بالرسوم.
الطرق
في هذا القسم، يحدد المؤلفون منهجيتهم لإطار استرجاع الرسوم وتوليدها (GRAG)، مع التركيز على استراتيجية تقسيم وتغلب لمعالجة تحدي استرجاع الرسوم الفرعية النصية. تركز الطريقة على تحديد الرسوم الذاتية الهامة، التي تتكون من العقد الرئيسية والاتصالات المجاورة لها. من خلال دمج أفضل N من الرسوم الذاتية الأكثر صلة وتطبيق تقنيات التقليم اللينة، تهدف الطريقة إلى تقليل تأثير العقد والحواف الزائدة، وبالتالي تحقيق هيكل رسوم فرعية مثالي تقريبًا. تتناقض هذه الاستراتيجية مع طرق البحث المباشر التقليدية للرسوم الفرعية.
لتقييم فعالية GRAG، يقوم المؤلفون بإجراء تحليلات مقارنة ضد عدة مسترجعين راسخين في سياق مهام التفكير متعدد القفزات على الرسوم. تشمل المقارنة طرقًا مثل BM25 وMiniLM-L12-v2 وLaBSE وmContriever وE5 وG-Retriever، مع تقديم أوصاف مفصلة في الملحق A.2. بالإضافة إلى ذلك، يتم إنشاء نموذجين أساسيين باستخدام نموذج اللغة Llama2-7b: أحدهما مجمد والآخر معدل بدقة باستخدام تقنيات LoRA. يتم توضيح إعدادات تجريبية إضافية في الملحق A.3، مما يضمن تقييمًا شاملاً لأداء GRAG مقابل المنهجيات الحالية.
المناقشة
في قسم المناقشة من الورقة، يستكشف المؤلفون فعالية ضبط التحفيز كطريقة مميزة عن طرق الضبط التقليدية مثل التكيف منخفض الرتبة (LoRA). يعدل ضبط التحفيز مدخلات النموذج لتعزيز الاستجابات دون تغيير معلمات النموذج، باستخدام تقنيات آلية مثل Auto-Prompt وتعلم التحفيز اللين. لقد وسعت التطورات الأخيرة هذه الطرق لتشمل السياقات متعددة الوسائط، مما يسهل دمج نماذج اللغة الكبيرة (LLMs) في مجالات متنوعة.
كما يبرز المؤلفون القدرات المزدوجة لـ LLMs في المهام المتعلقة بالرسوم. يشيرون إلى أنه بينما تتفوق LLMs في ترميز السمات النصية للتصنيف وإنشاء رسوم المعرفة، فإن فهمها للهياكل الرسومية المعقدة محدود بسبب نقص المعلومات التوبولوجية الصريحة في البيانات النصية. لمعالجة ذلك، ظهر ضبط التحفيز الرسومي كنهج واعد لمساعدة LLMs على معالجة المعلومات التوبولوجية بشكل فعال. علاوة على ذلك، تقدم الورقة مفهوم استرجاع الرسوم البيانية المعزز بالتوليد (GRAG)، الذي يعزز أداء LLMs من خلال استرجاع الرسوم الفرعية النصية المثلى ذات الصلة بالاستفسارات المحددة، مما يحسن جودة التوليد من خلال دمج منظم لكل من المعلومات النصية والتوبولوجية. تشير النتائج إلى أن GRAG لا يتفوق فقط على طرق الاسترجاع التقليدية، بل يظهر أيضًا مزايا كبيرة في مهام التفكير متعدد القفزات، مما يبرز إمكانيته في تعزيز قدرات LLM في السيناريوهات القائمة على الرسوم.
القيود
يسلط قسم القيود الضوء على جانب حاسم من إطار توليد الرسوم البيانية المدرك للسياق (GRAG)، وهو اعتماده على آلية تصنيف العقد الأولية والتقليم لاسترجاع الرسوم الفرعية النصية. تعتمد فعالية GRAG على تقييم دقيق لبنية الرسم وأهمية العقد. عندما تكون هذه التقديرات صعبة، قد تتأثر أداء الاسترجاع، مما يؤدي إلى نتائج دون المستوى الأمثل. وهذا يبرز الحاجة إلى طرق قوية لتعزيز تقييم العقد لتحسين الكفاءة العامة لإطار GRAG.
DOI: https://doi.org/10.18653/v1/2025.findings-naacl.232
Publication Date: 2025-01-01
Author(s): Yuntong Hu et al.
Primary Topic: Graph Theory and Algorithms
Overview
The section presents Graph Retrieval-Augmented Generation (GRAG), an advancement over Naive Retrieval-Augmented Generation (RAG) that addresses the limitations of handling networked documents, such as citation graphs and knowledge graphs. GRAG integrates textual subgraphs into Large Language Models (LLMs) by employing a divide-and-conquer strategy for efficient retrieval of optimal subgraph structures in linear time. This method enhances LLMs’ generation capabilities by providing two complementary perspectives: the text view and the graph view, which together facilitate a more nuanced understanding of graph context.
The empirical results indicate that GRAG significantly outperforms existing RAG methods, particularly in tasks requiring multi-hop reasoning on textual graphs. The proposed framework not only mitigates the NP-hard challenges associated with exhaustive subgraph searches but also demonstrates that a frozen LLM enhanced by GRAG can achieve superior performance compared to fine-tuned LLMs, all while incurring lower training costs. The datasets and code for GRAG are publicly available, promoting further research and application in this domain.
Introduction
In the introduction of this research paper, the authors discuss the limitations of Large Language Models (LLMs) in handling factual accuracy due to their reliance on static training data and the absence of real-time knowledge. To mitigate these issues, they introduce Retrieval-Augmented Generation (RAG), which enhances LLMs by integrating external data retrieval. However, traditional RAG approaches focus on individual documents, neglecting the interconnected nature of real-world data, such as citation graphs in research papers or social media interactions. This oversight can hinder the effectiveness of information retrieval and generation processes.
To address these challenges, the authors propose a novel framework called Graph Retrieval-Augmented Generation (GRAG), which incorporates the networked context of documents into both retrieval and generation stages. They identify two key challenges: efficiently retrieving relevant textual subgraphs and effectively integrating these subgraphs into LLMs while preserving both textual and topological information. The proposed GRAG framework employs a divide-and-conquer strategy for subgraph retrieval and introduces a dual prompting method that combines hard prompts (text tokens) and soft prompts (graph tokens) to enhance LLM performance. Empirical results indicate that GRAG significantly outperforms traditional RAG methods and fine-tuned LLMs in multi-hop graph reasoning tasks, suggesting its potential as a more effective approach for enhancing LLM capabilities in graph-related contexts.
Methods
In this section, the authors outline their methodology for the Graph Retrieval and Generation (GRAG) framework, emphasizing a divide-and-conquer strategy to tackle the challenge of textual subgraph retrieval. The approach focuses on identifying significant ego-graphs, which consist of key nodes and their neighboring connections. By merging the top-N most relevant ego-graphs and applying soft pruning techniques, the method aims to minimize the influence of redundant nodes and edges, thereby achieving an approximately optimal subgraph structure. This strategy is contrasted with traditional direct subgraph searching methods.
To evaluate the effectiveness of GRAG, the authors conduct comparative analyses against several established retrievers in the context of graph multi-hop reasoning tasks. The comparison includes methods such as BM25, MiniLM-L12-v2, LaBSE, mContriever, E5, and G-Retriever, with detailed descriptions provided in Appendix A.2. Additionally, two baseline models using the Llama2-7b language model are established: one frozen and another fine-tuned using LoRA techniques. Further experimental settings are elaborated in Appendix A.3, ensuring a comprehensive evaluation of GRAG’s performance against existing methodologies.
Discussion
In the discussion section of the paper, the authors explore the efficacy of prompt tuning as a method distinct from traditional fine-tuning approaches like Low-rank Adaptation (LoRA). Prompt tuning modifies model inputs to enhance responses without altering model parameters, utilizing automated techniques such as Auto-Prompt and soft prompt learning. Recent advancements have extended these methods to multi-modal contexts, facilitating the integration of large language models (LLMs) into various domains.
The authors also highlight the dual capabilities of LLMs in graph-related tasks. They note that while LLMs excel at encoding textual attributes for classification and knowledge graph creation, their understanding of complex graph structures is limited due to the lack of explicit topological information in textual data. To address this, graph prompt tuning has emerged as a promising approach to help LLMs process topological information effectively. Furthermore, the paper introduces the concept of Graph Retrieval-Augmented Generation (GRAG), which enhances LLMs’ performance by retrieving optimal textual subgraphs relevant to specific queries, thereby improving the generation quality through a structured integration of both textual and topological information. The findings indicate that GRAG not only outperforms traditional retrieval methods but also demonstrates significant advantages in multi-hop reasoning tasks, showcasing its potential in enhancing LLM capabilities in graph-based scenarios.
Limitations
The section on limitations highlights a critical aspect of the Graph Context-Aware Generation (GRAG) framework, specifically its reliance on the initial node ranking and pruning mechanism for textual subgraph retrieval. The effectiveness of GRAG is contingent upon accurately assessing the graph structure and the importance of nodes. When these estimations are challenging, the retrieval performance may suffer, resulting in suboptimal outcomes. This underscores the need for robust methods to enhance node evaluation to improve the overall efficiency of the GRAG framework.
