نموذج اللغة الطبية الكبير المعتمد على الأدلة عبر استرجاع الرسوم البيانية: RAG الطبي Medical Graph RAG: Evidence-based Medical Large Language Model via Graph Retrieval-Augmented Generation

عربي
English

DOI: https://doi.org/10.18653/v1/2025.acl-long.1381
تاريخ النشر: 2025-01-01

نموذج اللغة الطبية الكبير المعتمد على الأدلة عبر استرجاع الرسوم البيانية: RAG الطبي

جوندي ووجيايوان زويونلي تشيجينغكون تشينمين شوفيليبو مينولاسشينايويمينغ جينفينسنت غراو،جامعة أكسفوردجامعة كارنيجي ميلونجامعة محمد بن زايد للذكاء الاصطناعيجامعة إدنبرةالجامعة الوطنية في سنغافورة

الملخص

نقدم MedGraphRAG، إطار عمل جديد قائم على الرسوم البيانية لتعزيز الجيل المعزز بالاسترجاع (RAG) مصمم لتحسين نماذج اللغة الكبيرة في توليد استجابات طبية قائمة على الأدلة، مما يعزز السلامة والموثوقية باستخدام بيانات طبية خاصة. نقدم بناء الرسم البياني الثلاثي واسترجاع U لتعزيز GraphRAG، مما يمكّن من الحصول على رؤى شاملة وتوليد استجابات قائمة على الأدلة للتطبيقات الطبية. على وجه التحديد، نقوم بربط مستندات المستخدم بمصادر طبية موثوقة ودمج الاسترجاع الدقيق من الأعلى مع تحسين الاستجابة من الأسفل لتحقيق وعي متوازن بالسياق وفهرسة دقيقة. تم التحقق من صحة MedGraphRAG على 9 معايير أسئلة وأجوبة طبية، و2 من مجموعات بيانات التحقق من الحقائق الصحية، ومجموعة اختبار لتوليد النصوص الطويلة، حيث يتفوق MedGraphRAG على النماذج الرائدة مع ضمان مصادر موثوقة. كودنا متاح للجمهور.

1 المقدمة

لقد تسارعت التقدمات السريعة في نماذج اللغة الكبيرة (LLMs)، مثل GPT-4 من OpenAI (OpenAI، 2023a)، في أبحاث معالجة اللغة الطبيعية ودفع العديد من تطبيقات الذكاء الاصطناعي. ومع ذلك، لا تزال هذه النماذج تواجه تحديات كبيرة في مجالات متخصصة مثل الطب (Hadi et al.، 2024؛ Williams et al.، 2024؛ Xie et al.، 2024). التحدي الأول هو أن هذه المجالات تعتمد على قواعد معرفية شاسعة – مبادئ ومفاهيم تم اكتشافها وتراكمت على مدى آلاف السنين؛ إن ملاءمة مثل هذه المعرفة في نافذة السياق المحدودة لنماذج LLM الحالية هي مهمة يائسة. يوفر التعديل الدقيق تحت الإشراف (SFT) بديلاً لاستخدام نافذة السياق، ولكن غالبًا ما يكون مكلفًا بشكل مفرط أو غير قابل للتطبيق بسبب الطبيعة المغلقة لمعظم النماذج التجارية. ثانيًا، الطب هو مجال متخصص يعتمد على نظام مصطلحات دقيق والعديد من الحقائق الثابتة، مثل أعراض الأمراض المحددة أو آثار الأدوية الجانبية. في هذا المجال، من الضروري أن تقوم نماذج LLM…
لا تشوه أو تعدل أو تضف عناصر إبداعية إلى البيانات. للأسف، فإن التحقق من دقة الاستجابات في الطب يمثل تحديًا خاصًا للمستخدمين غير الخبراء. لذلك، فإن القدرة على إجراء استدلالات معقدة باستخدام مجموعات بيانات خارجية كبيرة، مع توليد استجابات دقيقة وموثوقة مدعومة بمصادر يمكن التحقق منها، أمر بالغ الأهمية في التطبيقات الطبية لنماذج اللغة الكبيرة.

توليد معزز بالاسترجاع (RAG) (لويس وآخرون، 2021) هي تقنية تجيب على استفسارات المستخدمين باستخدام مجموعات بيانات محددة وخاصة دون الحاجة إلى تدريب إضافي للنموذج. ومع ذلك، يواجه RAG صعوبة في توليد رؤى جديدة ويؤدي أداءً ضعيفًا في المهام التي تتطلب فهمًا شاملًا عبر مستندات واسعة. تم تقديم GraphRAG (هو وآخرون، 2024) مؤخرًا للتغلب على هذه القيود. يقوم GraphRAG بإنشاء رسم بياني للمعرفة من المستندات الخام باستخدام نموذج لغوي كبير، ويسترجع المعرفة من الرسم البياني لتعزيز الردود. من خلال تمثيل العلاقات المفاهيمية الواضحة عبر البيانات، يتفوق بشكل كبير على RAG التقليدي، خاصة في الاستدلال المعقد (هو وآخرون، 2024). ومع ذلك، يفتقر تصميم بناء الرسم البياني الخاص به إلى تصميم محدد لضمان مصداقية الردود، وعملية بناء المجتمع الهرمي الخاصة به مكلفة، حيث تم تصميمها للتعامل مع حالات متنوعة للاستخدام العام. نجد أن جهدًا محددًا مطلوب لتطبيقه بفعالية في المجال الطبي.

في هذه الورقة، نقدم طريقة جديدة قائمة على الرسوم البيانية تُعرف باسم Medical GraphRAG (MedGraphRAG) في المجال الطبي. تعزز هذه التقنية أداء نماذج اللغة الكبيرة (LLM) في المجال الطبي من خلال توليد استجابات قائمة على الأدلة وشرح المصطلحات الطبية الرسمية، مما يزيد من مصداقيتها ويحسن بشكل كبير جودتها العامة. تعتمد طريقتنا على GraphRAG مع تقنية بناء رسوم بيانية أكثر تطورًا، تُسمى بناء الرسوم البيانية الثلاثية، لتوليد استجابات قائمة على الأدلة، وطريقة استرجاع فعالة، U-Retrieval، التي…
يثبت جودة الاستجابة بتكاليف قليلة. في بناء الرسم البياني الثلاثي، نصمم آلية لربط بيانات RAG الخاصة بالمستخدم بالأوراق الطبية الموثوقة والقواميس الطبية الأساسية. هذه العملية تولد ثلاثيات [بيانات RAG، المصدر، التعريف] لبناء رسم بياني شامل لوثائق المستخدم. يعزز ذلك من تفكير LLM ويضمن أن تكون الاستجابات قابلة للتتبع إلى مصادرها وتعريفاتها، مما يضمن الموثوقية والقدرة على الشرح. كما طورنا استراتيجية فريدة لاسترجاع U-Retrieval للرد على استفسارات المستخدم. بدلاً من بناء مجتمعات رسومية مكلفة، نقوم بتبسيط العملية من خلال تلخيص كل رسم بياني باستخدام علامات طبية محددة مسبقًا، ثم نقوم بتجميع الرسوم البيانية المماثلة بشكل تكراري لتشكيل هيكل علامات هرمي متعدد الطبقات، من علامات عامة إلى علامات تفصيلية. يقوم LLM بإنشاء علامات لاستفسار المستخدم ويقوم بفهرسة الرسم البياني الأكثر صلة بناءً على تشابه العلامات بطريقة من أعلى إلى أسفل، مستخدمًا إياها لصياغة الاستجابة الأولية. ثم يقوم بتحسين الاستجابة من خلال دمج العلامات العليا بشكل تدريجي بطريقة من أسفل إلى أعلى حتى يتم توليد الإجابة النهائية. توازن تقنية U-Retrieval هذه بين الوعي بالسياق العالمي وكفاءة الاسترجاع.

لتقييم طريقتنا MedGraphRAG، قمنا بتنفيذها على عدة نماذج لغوية مفتوحة المصدر وتجارية شهيرة، بما في ذلك GPT (OpenAI، 2023b) وGemini (Team et al.، 2023) وLLaMA (Touvron et al.، 2023). تظهر النتائج التي تم تقييمها عبر 9 معايير أسئلة وأجوبة طبية أن MedGraphRAG تحقق نتائج أفضل بشكل ملحوظ من RAG الكلاسيكي وGraphRAG. حتى أن نتائجنا النهائية تتجاوز العديد من النماذج اللغوية المدربة خصيصًا على مجموعات البيانات الطبية، مما يضع معيارًا جديدًا (SOTA) عبر جميع المعايير. للتحقق من قدرة استجابتها المستندة إلى الأدلة، قمنا باختبار MedGraphRAG كميًا على معيارين للتحقق من الحقائق الصحية وأجرينا تقييمًا بشريًا من قبل أطباء ذوي خبرة. تدعم كلا التقييمين بقوة أن استجاباتنا أكثر استنادًا إلى المصادر وموثوقية من الطرق السابقة.

مساهماتنا هي كما يلي:

نحن الأوائل الذين اقترحوا إطارًا متخصصًا لتقديم RAG القائم على الرسوم البيانية في المجال الطبي، والذي أطلقنا عليه اسم MedGraphRAG.
لقد طورنا طرق بناء الرسوم البيانية الثلاثية الفريدة وطرق استرجاع U التي تمكّن نماذج اللغة الكبيرة من توليد استجابات قائمة على الأدلة بكفاءة باستخدام بيانات RAG الشاملة.
MedGraphRAG يتفوق على طرق الاسترجاع الأخرى ونماذج اللغة الطبية المدربة بشكل مكثف عبر مجموعة واسعة من معايير الأسئلة والأجوبة الطبية.
إنشاء SOTAs الجديدة.
تم التحقق منه من خلال تقييمات بشرية، MedGraphRAG قادر على توليد استجابات أكثر قابلية للفهم وقائمة على الأدلة في المجال الطبي.

2 طريقة

يظهر سير العمل العام لـ MedGraphRAG في الشكل 1. نقوم أولاً بإنشاء الرسوم البيانية المعرفية من الوثائق باستخدام بناء الرسوم البيانية الثلاثية (القسم 2.1)، ثم نضع علامات على الرسوم البيانية لاسترجاع المعلومات للرد على استفسارات المستخدمين (القسم 2.2).

2.1 بناء الرسم الثلاثي

2.1.1 تمهيدي: تقسيم الوثائق واستخراج الكيانات

غالبًا ما تحتوي الوثائق الطبية الكبيرة على محتوى متنوع. نقوم بتقسيمها إلى أجزاء مع مراعاة حدود سياق نماذج اللغة الكبيرة. نتبنى وظيفة تقسيم المعاني المطبقة في LangChain لتقسيم الوثائق (langchain، 2024). على وجه التحديد، نقوم بعزل الفقرات

داخل الوثيقة

باستخدام نموذج تضمين النص. ثم نحدد حجم المخزن المؤقت بـ 5 ونفرض حد الرموز وفقًا لبناء الرسم البياني.

ثم نستخرج الكيانات من كل جزء من خلال بناء الرسم البياني باستخدام نموذج اللغة.

. نحن نحفز

لتحديد جميع الكيانات ذات الصلة

في كل جزء، قم بإنشاء مخرجات منظمة تحتوي على الاسم، النوع، ووصف السياق:

، كما هو موضح في الخطوة 2 في الشكل 1. نحن نحدد الاسم ليكون النص من الوثيقة، والنوع يتم اختياره من الأنواع الدلالية لـ UMLS (بودنرايدر، 2004)، والسياق هو بضع جمل تم إنشاؤها بواسطة

مُسَاقَة ضمن الوثيقة.

2.1.2 الربط الثلاثي

تعتمد الطب على مصطلحات دقيقة وحقائق مثبتة، مما يجعل من الضروري أن تنتج نماذج اللغة الكبيرة استجابات مستندة إلى الحقائق المعروفة. لتحقيق ذلك، قدمنا بناء الرسم الثلاثي، الذي يربط مستندات المستخدم بمصادر موثوقة وتعريفات مهنية. على وجه التحديد، نبني رسم المستودع (RepoGraph)، الذي من المقرر أن يكون ثابتًا عبر مختلف المستخدمين، موفرًا مصادر مثبتة وتعريفات لمفردات خاضعة للرقابة لمستندات RAG الخاصة بالمستخدم. نقوم ببناء RepoGraph تحت رسم RAG الخاص بالمستخدم مع طبقتين: واحدة تعتمد على الأوراق/الكتب الطبية والأخرى تعتمد على القواميس الطبية. نبني القاع.

الشكل 1: يبدأ سير العمل العام لـ MedGraphRAG بإنشاء الرسم البياني الثلاثي، حيث يتم تقسيم الوثائق واستخراج الكيانات. ثم يربط الربط الثلاثي بين كيانات المستخدم والأوراق المرجعية وطبقات الرسم البياني للمفردات، مما يشكل Med-MetaGraph. في مرحلة الاسترجاع U-Retrieval التالية، يتم وضع علامات على الرسوم البيانية لتمكين الاسترجاع الدقيق من الأعلى إلى الأسفل وتنقيح الاستجابة من الأسفل إلى الأعلى، مما يضمن استجابات استعلام معززة بالرسم البياني.

طبقة RepoGraph كـ UMLS (بودنرايدر، 2004) تتكون من مفردات طبية شاملة ومحددة جيدًا وعلاقاتها. الطبقة العليا من RepoGraph تم بناؤها من كتب طبية ومقالات أكاديمية باستخدام نفس طريقة بناء الرسم البياني الموضحة هنا.

الكيانات في جميع المستويات الثلاثة من الرسوم البيانية مرتبطة هرميًا من خلال علاقات دلالية. دعنا نُشير إلى الكيانات المستخرجة من مستندات RAG باسم

. نحن نربطهم بالكيانات المستخرجة من الكتب/الأبحاث الطبية، المشار إليها بـ

استنادًا إلى صلتها، التي يتم تحديدها من خلال حساب تشابه الكوسين بين تمثيلات محتواها

محتوى كيان

هو دمج اسمه ونوعه وسياقه، ممثلاً كالتالي:

نص [الاسم: نا؛ النوع: تي؛ السياق: سي]. يتم توضيح هذا الربط الموجه كمرجع، مما يدل على علاقة المرجع بين الكيانات في الطبقتين:

أين

هو العتبة المحددة مسبقًا. الكيانات

مرتبطة بـ

من خلال نفس الطريقة مع العلاقات المعلّقة كتعريف لـ. وبالتالي، يتم بناء كيانات RAG كثلاثيات [كيان RAG، المصدر، التعريف].

ثم نوجه

لتحديد العلاقات بين كيانات RAG في كل جزء، والتي لاحظناها على أنها

. هذه العلاقة هي عبارة مختصرة تم إنشاؤها بواسطة

استنادًا إلى محتوى الكيان

والمراجع المرتبطة

المرجع لـ

تحدد العلاقات المحددة الكيانات المصدر والهدف، وتقدم وصفًا لعلاقتها:

أين

هو

مع تحديد العلاقة وإنشاء المحفز. نعرض مثالاً على ربط العلاقات في الخطوة 4 من الشكل 1. بعد إجراء هذا التحليل، قمنا بإنشاء رسم بياني موجه لكل جزء من البيانات، والذي يُشار إليه باسم Meta-MedGraphs.

2.2 استرجاع U

2.2.1 تمهيدي: وسم الرسم البياني

تنظيم وتلخيص الرسوم البيانية مسبقًا هو أمر بديهي وقد ثبت أنه يسهل الاسترجاع الفعال (هو وآخرون، 2024). ومع ذلك، على عكس GraphRAG، نتجنب بناء مجتمعات الرسوم البيانية المكلفة. نلاحظ أنه، على عكس المحتوى اللغوي العام، فإن النص الطبي غالبًا ما يكون منظمًا ويمكن تلخيصه بفعالية باستخدام علامات محددة مسبقًا. مدفوعين بذلك، نقوم ببساطة بتلخيص
كل ميتا-ميدغراف

مع العديد من العلامات المحددة مسبقًا

، وتوليد ملخصات علامات أكثر تجريدًا بشكل تكراري لمجموعات من الرسوم البيانية المرتبطة ارتباطًا وثيقًا. على وجه التحديد، LLM

يُلخص أولاً محتوى كل ميتا-ميدغراف

بالنظر إلى مجموعة من العلامات المعطاة

. العلامات

يتكون من فئات طبية متعددة تتبع معايير الجمعية الأمريكية للاختبار والمواد (ASTM) لمحتوى السجلات الصحية الإلكترونية، والتي تشمل بشكل رئيسي الأعراض، تاريخ المريض، وظائف الجسم، والأدوية. هذه العملية تنتج ملخصًا منظمًا للعلامات لكل

المشار إليه بـ

ثم نطبق طريقة تجميع هرمية متغيرة مع تحديد عتبة ديناميكي بناءً على تشابه العلامات، لتجميع الرسوم البيانية وتوليد ملخصات علامات مصنّعة. في البداية، يبدأ كل رسم بياني كمجموعة خاصة به. في كل تكرار، نقوم بحساب تشابه العلامات بين جميع أزواج المجموعات ونحدد العتبة ديناميكيًا.

لدمج الأعلى

أكثر الأزواج تشابهًا. سيتم دمج الرسوم البيانية إذا تجاوزت جميع أوجه التشابه بين الأزواج داخل المجموعة

لاحظ أننا لا نقوم فعليًا بربط العقد عبر الرسوم البيانية المختلفة، بل نقوم بإنشاء ملخص مُركب للتاج لكل مجموعة. على وجه التحديد، نقوم بحساب التشابه بين الأزواج من خلال قياس متوسط التشابه الكوني لجميع تمثيلات التاج الخاصة بهم. دع

تشير إلى تضمين علامة

تناول اثنين من ميتا-ميدغراف

مع مجموعات العلامات

كمثال، نقوم بإنشاء ملخص علامة التجريد

إذا كانت تشابه الكوساين لتضمينات العلامات

أعلى من العتبة

تشكل هذه الملخصات الجديدة المدمجة، إلى جانب تلك التي لا تزال غير مدمجة، طبقة جديدة من العلامات. مع تراجع تفاصيل الملخصات عند الطبقات العليا، هناك توازن بين الدقة والكفاءة. في الممارسة العملية، نقوم بتحديد العملية إلى 12 طبقة، حيث أن هذا يكفي لمعظم متغيرات النموذج (المفصلة في الشكل 5).

2.2.2 الاسترجاع الدقيق من الأعلى إلى الأسفل

بعد بناء الرسم البياني، نستخدم نموذج اللغة الكبير للاستجابة

يسترجع المعلومات بكفاءة للرد على استفسارات المستخدمين. نبدأ بإنشاء ملخص للعلامات حول استفسار المستخدم

، واستخدم هذه لتحديد الرسم البياني الأكثر صلة من خلال استرجاع دقيق من الأعلى إلى الأسفل. دعنا نحدد

علامات
في الطبقة

علامة ملخصة

كـ

يبدأ من الطبقة العليا:

، يتم الفهرسة تدريجياً عن طريق اختيار العلامة الأكثر تشابهاً في كل طبقة:

حتى نصل إلى العلامة الخاصة بـ MetaMedGraph المستهدف

. ثم نسترجع الأعلى

الكيانات بناءً على تشابه التضمين بين الاستعلام ومحتوى الكيان:

، وجمع كل أفضلهم

أقرب جيران ثلاثي

كـ

من خلال استخدام جميع هذه الكيانات وعلاقاتها

نحن نحفز

للإجابة على السؤال المعطى أسماء الكيانات المترابطة والعلاقات في

: نظرًا للسؤال:

. رسم بياني:

أجب على سؤال المستخدم: السؤال باستخدام الرسم البياني: الرسم البياني…

في خطوة تحسين الاستجابة من الأسفل إلى الأعلى، نعود بعد ذلك إلى العلامة ذات المستوى الأعلى التي تم استرجاعها في الخطوة السابقة.

بطريقة تصاعدية. نحن نقدم

سؤال:

الرد الأخير: …، والملخص:

وطلب منه تعديل الاستجابة: الاستجابة للسؤال: السؤال باستخدام المعلومات المحدثة: الملخص.

يستمر في تحسين استجاباته حتى يصل إلى الطبقة المستهدفة. في الممارسة العملية، نسترجع 4-6 طبقات حسب نموذج اللغة الأساسي، وتم عرض تجربة مفصلة حول ذلك في الشكل 5. في النهاية، يولد استجابة نهائية بعد مسح جميع الرسوم البيانية المفهرسة على طول المسار. تتيح هذه الطريقة لنموذج اللغة الكبير الحصول على نظرة شاملة من خلال التفاعل مع جميع البيانات ذات الصلة في الرسم البياني، مع الحفاظ على الكفاءة من خلال الوصول إلى البيانات الأقل صلة بشكل ملخص.

3 تجربة

3.1 مجموعة البيانات

3.1.1 بيانات RAG

نتوقع أن يستخدم المستخدمون البيانات الخاصة التي يتم تحديثها بشكل متكرر كبيانات RAG، مثل السجلات الطبية الإلكترونية للمرضى. لذلك، نستخدم MIMIC-IV (جونستون وآخرون، 2023)، وهو مجموعة بيانات السجلات الصحية الإلكترونية المتاحة للجمهور، كبيانات RAG.

3.1.2 بيانات المستودع

نحن نقدم بيانات المستودع لدعم استجابات LLM بمصادر موثوقة وأصوات موثوقة-

الشكل 2: أمثلة على الاستجابات من GraphRAG و MedGraphRAG، مع الرسوم البيانية المجردة. يوفر MedGraphRAG تفسيرات أكثر تفصيلاً ومنطقاً أكثر تعقيداً مع الأدلة. النتائج الكاملة موجودة في الملحق.

تعريفات المفردات. نستخدم MedC-K (Wu et al., 2023)، وهو مجموعة تحتوي على 4.8 مليون ورقة أكاديمية في مجال الطب الحيوي و30,000 كتاب دراسي، بالإضافة إلى جميع منشورات الأدلة من FakeHealth (Dai et al., 2020) وPubHealth (Kotonya and Toni, 2020)، كبيانات المستودع العلوي، ورسم بياني UMLS، الذي يتضمن مفردات طبية موثوقة وعلاقات دلالية كبيانات المستودع السفلي.

3.1.3 بيانات الاختبار

مجموعة الاختبار لدينا هي مجموعة الاختبار من 9 مجموعات بيانات طبية متعددة الخيارات من مجموعة MultiMedQA، و2 من مجموعات بيانات التحقق من الحقائق حول الصحة العامة، وهما FakeHealth (داي وآخرون، 2020) وPubHealth (كوتونيا وتوني، 2020)، ومجموعة اختبار واحدة جمعناها، تُسمى DiverseHealth. تشمل MultiMedQA MedQA (جين وآخرون، 2021)، MedMCQA (بال وآخرون، 2022) PubMedQA (جين وآخرون، 2019) ومواضيع عيادة MMLU (هندريكس وآخرون، 2020). كما جمعنا مجموعة اختبار DiverseHealth، التي تركز على العدالة الصحية، وتتكون من 50 سؤالاً سريرياً من العالم الحقيقي تغطي مجموعة واسعة من المواضيع، بما في ذلك الأمراض النادرة، صحة الأقليات، الأمراض المصاحبة، استخدام الأدوية، الكحول، COVID-19، السمنة، الانتحار، وإدارة الأمراض المزمنة.

3.2 إعداد التجربة

نقارن بين طرق RAG المختلفة عبر 6 نماذج لغوية كما

لاما 2 (13B، 70B)، لاما 3

، جمنائي-برو، و GPT-4. تم الحصول على نماذج لاما من موقع هوجينغ الرسمي-

صفحة الوجه. استخدمنا gemini-1.0-pro لـ Geminipro و

لـ GPT-4. نقارن نهجنا بشكل أساسي مع RAG القياسي المنفذ بواسطة LangChain (langchain، 2024) وGraphRAG (Edge وآخرون، 2024a) المنفذ بواسطة Microsoft Azure (microsoft، 2024). يتم مقارنة جميع طرق الاسترجاع تحت نفس بيانات RAG وبيانات الاختبار.

نحن ننشر

تم استخدام Llama3-70B لبناء الرسم البياني. بالنسبة لتضمينات النص، نستخدم نموذج OpenAI’s text-embedding-3-large. يتم إجراء مقارنة النماذج باستخدام مجموعة استجابة مكونة من 5 Shots (Li et al.، 2024). استخدم MedGraphRAG U-Retrieval مع 4 مستويات على GPT-4، و5 مستويات للبقية. في عملية الاسترجاع، اخترنا أعلى 60 كيانًا مع جيرانهم الذين يبعدون 16 خطوة. ما لم يُذكر خلاف ذلك، يتم تعيين جميع العتبات على 0.5. نستخدم نفس استعلام الطلب لجميع النماذج لتوليد الاستجابات.

3.3 النتائج

3.3.1 تقييم متعدد الخيارات

خطوط الأساس مع استرجاعات مختلفة أولاً، أجرينا تجارب لتقييم طرق الاسترجاع على خطوط أساس مختلفة لنماذج اللغة الكبيرة، مع عرض النتائج في الجدول 1. قمنا بمقارنة MedGraphRAG مع خطوط الأساس بدون استرجاع، وRAG القياسي، وGraphRAG. يتم قياس الأداء من خلال دقة اختيار الخيار الصحيح. تظهر النتائج أن MedGraphRAG يعزز بشكل كبير أداء نماذج اللغة الكبيرة في كل من التحقق من الحقائق الصحية ومعايير الأسئلة والأجوبة الطبية. مقارنة بخطوط الأساس بدون استرجاع، يحقق MedGraphRAG
تحسين متوسط يقارب

في التحقق من الحقائق و

في الأسئلة والأجوبة الطبية. عند مقارنتها بالأسس باستخدام GraphRAG، تظهر تحسنًا متوسطًا يبلغ حوالي

في التحقق من الحقائق و5% في الأسئلة والأجوبة الطبية. من الجدير بالذكر أن MedGraphRAG يحقق تحسينات أكثر وضوحًا في نماذج اللغة الكبيرة الأصغر، مثل Llama2.

ولاما

. هذا يشير إلى أن MedGraphRAG يستخدم بفعالية قدرات التفكير الخاصة بالنماذج بينما يوفر لها معرفة إضافية تتجاوز معلماتها، مما يعمل كذاكرة خارجية للمعلومات.

مقارنة مع نماذج اللغة الطبية المتقدمة SOTA عند تطبيق MedGraphRAG على نماذج أكبر، مثل Llama

أو GPT، أدى ذلك إلى تحقيق مستوى جديد من الأداء في جميع مجموعات البيانات الـ 11. هذه النتيجة تتفوق أيضًا على نماذج اللغة الكبيرة الطبية المعتمدة على التخصيص المكثف مثل Med-PaLM 2 (Singhal et al., 2023b) وMed-Gemini (Saab et al., 2024)، مما يثبت مستوى جديد من الأداء في قائمة المتصدرين لنماذج اللغة الطبية. يتم عرض مقارنة مفصلة في الشكل 6.

الشكل 3: تأثير بيانات المستودع على RAG وGraphRAG وMedGraphRAG مع GPT-4. مخطط خطي: الأداء مع تضمين البيانات بشكل تدريجي؛ مخطط عمودي: الأداء مع تضمين البيانات الفردية.

3.3.2 تقييم توليد النصوص الطويلة

التقييم البشري قمنا بإجراء تقييمات بشرية لتوليد النماذج طويلة الأمد على معايير MultiMedQA وDiverseHealth، مقارنةً بأسلوبنا مع نماذج SOTA التي تولد استجابات مدعومة بالاستشهادات، بما في ذلك البحث المتداخل في (Gao et al., 2023b)، ATTR-FIRST (Slobodkin et al., 2024)، وMIRAGE (Qi et al., 2024). تألفت لجنة التقييم لدينا من 7 أطباء معتمدين و5 أشخاص عاديين لضمان الحصول على ملاحظات من كل من المستخدمين المحترفين والعامة. أكمل المقيمون استبيان تقييم من خمس مستويات لاستجابة كل نموذج، حيث تم تقييم الاستجابات عبر خمسة أبعاد: الصلة (Pert.)، الدقة (Cor.)، دقة الاستشهادات.
(CP)، استرجاع الاقتباسات (CR)، وقابلية الفهم (Und.). كما هو موضح في الجدول 2، حصل MedGraphRAG على تقييمات أعلى باستمرار عبر جميع المقاييس. ومن الجدير بالذكر أنه أظهر ميزة كبيرة في CP وCR وUnd.، مما يشير إلى أن ردوده كانت مدعومة في كثير من الأحيان بمصادر دقيقة وكانت أسهل في الفهم، حتى لغير المتخصصين، بفضل الردود المدعومة بالأدلة والتفسيرات الواضحة للمصطلحات الطبية المعقدة.

دراسة حالة كما هو موضح في الشكل 7، نقارن الاستجابات من GraphRAG و MedGraphRAG لحالة معقدة تتعلق بالمرضى الذين يعانون من كل من مرض الانسداد الرئوي المزمن (COPD) وفشل القلب (الرسم البياني الأيسر). اقترح GraphRAG علاجات عامة لمرض COPD مثل موسعات الشعب الهوائية وإعادة التأهيل الرئوي ولكنه أغفل أن بعض موسعات الشعب الهوائية قد تؤدي إلى تفاقم أعراض فشل القلب. بالمقابل، قدم MedGraphRAG إجابة أكثر شمولاً من خلال التوصية بمثبطات بيتا الانتقائية للقلب – مثل بيسوبرولول أو ميتوبرولول – التي تدير كلا الحالتين بأمان دون آثار سلبية. كما نرى من الرسم البياني المستخلص، فإن هذه الأفضلية تنبع من بنية MedGraphRAG، حيث ترتبط الكيانات مباشرة بالمعلومات الرئيسية في المراجع، مما يسمح باسترجاع أدلة محددة. على النقيض من ذلك، يواجه GraphRAG صعوبة في استرجاع المعلومات المحددة حيث أن مراجعته وبيانات المستخدم متشابكة ضمن نفس طبقة الرسم البياني، مما يؤدي إلى فقدان المعلومات الرئيسية تحت نفس عدد الجيران الأقرب. واسترجاعه المعتمد فقط على ملخصات الرسم البياني يؤدي إلى نقص في الرؤى التفصيلية.

3.4 الاستئصال والتحليل

3.4.1 دراسة الإزالة الشاملة

قمنا بإجراء دراسة شاملة لإزالة العوامل للتحقق من فعالية الوحدات المقترحة لدينا، مع عرض النتائج في الجدول 3. بدءًا من GraphRAG (هو وآخرون، 2024) كخط أساس، قمنا بإدخال مكوناتنا الفريدة بشكل تدريجي، بما في ذلك بناء الرسم الثلاثي، واسترجاع U. من الجدير بالذكر أن كلا التجربتين تم إجراؤهما على نفس مجموعة بيانات RAG، مما يلغي تحسينات البيانات. تظهر النتائج تحسنًا تدريجيًا في الأداء مع إضافة المزيد من وحداتنا، مع ملاحظات كبيرة عند استبدال بناء الرسم في GraphRAG ببناء الرسم الثلاثي الخاص بنا. بالإضافة إلى ذلك، من خلال استبدال استرجاع الملخص (إيدج وآخرون، 2024ب) في GraphRAG بأسلوب استرجاع U الخاص بنا، نحن

الجدول 1: دقة (%) نماذج اللغة الكبيرة باستخدام طرق استرجاع مختلفة. تمثل الأعمدة ذات الخلفية الزرقاء معايير التحقق من الحقائق الصحية، بينما تتعلق الأعمدة الأخرى بمعايير الأسئلة والأجوبة الطبية. تم تمييز أفضل النتائج بالخط العريض.

نموذج	صحة مزيفة	الصحة العامة	مدكيو	مد MCQA	باب ميد كيو إيه	MMLU كول-مد	MMLU كول-بايو	إم إم إل يو برو-ميد	تشريح MMLU	جين MMLU	عيادة MMLU
	الخطوط الأساسية بدون استرجاع
لاما 2-13B	53.8	٤٩.٤	42.7	37.4	68.0	60.7	69.4	60.3	52.6	66.0	63.8
لاما 2-70B	٥٨.٩	٥٦.٧	٤٣.٧	٣٥.٠	74.3	64.2	84.7	75.0	62.3	74.0	٧١.٧
لاما 3-8B	٥١.١	53.2	٥٩.٨	57.3	75.2	٦١.٩	78.5	70.2	68.9	٨٣.٠	٧٤.٧
لاما3-70B	64.2	61.0	72.1	65.5	77.5	72.3	92.5	٨٦.٧	72.5	٨٣.٩	82.7
جمني-برو	60.6	٦٣.٧	٥٩.٠	٥٤.٨	69.8	69.2	٨٨.٠	77.7	66.7	75.8	٧٦.٧
جي بي تي-4	71.4	70.9	78.2	72.6	75.3	٧٦.٧	95.3	93.8	81.3	90.4	86.2
قاعدة إينيس مع
لاما 2-13B	٥٦.٢	54.3	٤٨.١	42.0	68.6	62.5	68.3	٦٣.٧	٥١.٠	64.5	67.4
لاما 2-70B	64.6	63.2	٥٦.٢	٤٩.٨	75.2	69.6	85.8	77.4	63.0	75.8	73.3
لاما 3-8B	60.5	٥٩.٦	64.3	٥٨.٢	76.0	68.6	84.9	73.2	72.1	85.2	77.8
لاما3-70B	76.2	72.1	82.3	72.5	80.6	86.8	94.4	89.7	84.3	87.1	87.6
جمني-برو	72.5	68.4	64.5	57.3	76.9	79.0	91.3	86.4	79.5	80.4	٨٣.٩
جي بي تي-4	78.6	77.3	٨٨.١	76.3	77.6	81.2	95.5	94.3	٨٣.١	92.9	93.1
الخطوط الأساسية مع RAG الرسومي
لاما2-13B	٥٨.٧	٥٧.٥	٥٢.٣	٤٤.٦	72.8	64.1	73.0	64.6	٥٢.١	66.2	67.9
لاما 2-70B	65.7	٦٣.٨	٥٥.١	٥٢.٤	74.6	68.0	86.4	79.2	64.6	73.9	75.8
لاما3-8B	٦١.٧	61.0	64.8	٥٨.٧	76.6	69.2	84.3	73.9	72.8	85.5	77.4
لاما3-70B	٧٧.٧	٧٤.٥	84.1	73.2	81.2	٨٧.٤	94.8	89.8	85.2	87.9	٨٨.٥
جمني-برو	73.8	70.6	65.1	٥٩.١	75.2	79.8	90.8	85.8	80.7	81.5	84.7
جي بي تي-4	78.4	77.8	٨٨.٩	77.2	٧٧.٩	82.1	95.1	94.8	82.6	92.5	94.0
الخطوط الأساسية مع MedGraphRAG
لاما 2-13B	64.1	٦١.٢	65.5	٥١.٤	73.2	68.4	76.5	67.2	٥٦.٠	67.3	69.5
لاما 2-70B	69.3	68.6	69.2	٥٨.٧	76.0	73.3	٨٨.٦	84.5	68.9	76.0	77.3
لاما 3-8B	79.9	77.6	74.2	٦١.٦	٧٧.٨	89.2	95.4	91.6	٨٥.٩	89.3	89.7
لاما3-70B	81.2	79.2	٨٨.٤	79.1	٨٣.٨	91.4	96.5	93.2	89.8	91.0	94.1
جمني-برو	79.2	76.4	71.8	62.0	76.2	86.3	92.9	89.7	85.0	87.1	89.3
جي بي تي-4	86.5	٨٣.٤	91.3	81.5	٨٣.٣	91.5	98.1	95.8	93.2	98.5	96.4

الجدول 2: التقييم البشري على عينات MedQA وDiverseHealth.

بيانات	طرق	مناسب	كور.	سي بي	سي آر	و
مالتي ميد كيو إيه	داخل السطر	91	٨٨	٨٠	74	85
	ATTR.FIRST	93	91	86	77	93
	سراب	95	90	84	75	91
	مدغراجراغ	97	94	92	86	95
صحة متنوعة	داخل السطر	95	84	78	71	81
	ATTR.FIRST	96	91	81	78	85
	سراب	97	89	83	76	87
	مدغرافراغ	97	96	89	84	93

الجدول 3: دراسة استئصالية لـ MedGraphRAG، بدءًا من GraphRAG، تم تقييمها باستخدام الدقة (%) على مجموعات بيانات الأسئلة والأجوبة.

	مدكيو	باب ميد كيو إيه	مدMCQA
GraphRAG	٨٨.٩	٧٧.٩	77.2
+بناء الرسم الثلاثي	91.1	81.8	80.9
+استرجاع-U

حقق تحسينات إضافية، محققًا نتائج رائدة جديدة عبر جميع المعايير الثلاثة.

3.4.2 تحليل مفصل لإزالة الربط الثلاثي

لتقييم التأثيرات الفردية لبيانات RAG الخارجية وتقنيات الاسترجاع، أجرينا تجارب تقارن بين طرق الاسترجاع: RAG وGraphRAG وMedGraphRAG تحت إعدادين: (1) استرجاع كل مستوى من البيانات بشكل منفصل (شريط
الرسم البياني في الشكل 3)، و(2) إضافة جميع المستويات الثلاثة بشكل تدريجي (الرسم البياني الخطي في الشكل 3). تظهر النتائج أن البيانات وطريقة الاسترجاع الصحيحة يجب أن تعمل معًا لإطلاق العنان للإمكانات الكاملة. عند استرجاع البيانات بواسطة RAG القياسي، فإن بيانات Med-Paper تحسن الأداء بشكل فردي بأقل من

، وبيانات Med-Dictionary بأقل من

تراكم بيانات ثلاثية المستويات يؤدي أيضًا إلى تحسينات متوسطة. يظهر GraphRAG تحسينًا في استرجاع البيانات الفردية ولكنه يحقق مكاسب ضئيلة عند إضافة المزيد من البيانات بشكل تدريجي، على الأرجح بسبب السطحية الناتجة عن ربط الكيانات التافهة، كما تم مناقشته في دراسة الحالة السابقة. بالمقابل، يتعامل MedGraphRAG بكفاءة مع البيانات الإضافية، مستخدمًا هيكله الهرمي لتوضيح العلاقات وإظهار تحسينات قوية مع إضافة المزيد من البيانات. مع MedGraphRAG، نرى تحسينات كبيرة تتجاوز

لبيانات Med-Paper وMed-Dictionary، على التوالي، مما يبرز أهمية طريقة الاسترجاع في تعظيم تأثير البيانات.

3.5 تحليل تفصيلي على استرجاع U

في U-Retrieval، قمنا بتعيين عمق الاسترجاع إلى 4-5 طبقات، وعدد الكيانات المسترجعة إلى 60، وجيران الكيانات إلى 16. كانت هذه الإعدادات…
تم تحديده من خلال تجارب شاملة. أولاً، نقوم بفحص تأثير نطاق الاسترجاع، أي عدد الكيانات والجيران، باستخدام GPT-4 مع MedGraphRAG على MedQA، كما هو موضح في الشكل 4. تظهر نتائجنا أن استرجاع المزيد من البيانات لا يؤدي بالضرورة إلى أداء أفضل. في الواقع، يمكن أن تؤدي المزيد من البيانات إلى إدخال ضوضاء وتفاقم مشكلات أداء LLM مع السياقات الطويلة. يحدث الأداء الأقصى عندما يصل حجم الاسترجاع إلى حوالي 120 كيانًا مع 4 جيران أو 60 كيانًا مع 16 جيران. كان إعداد الجيران 16 أداءً أفضل قليلاً، على الأرجح بسبب قوة الربط القائم على الرسوم البيانية مقارنةً بالاسترجاع القائم على تشابه المتجهات.

كما ذُكر سابقًا، هناك أيضًا تبادل بين دقة النموذج ووقت الاستجابة مع زيادة طبقات الاسترجاع. يتم استكشاف هذه العلاقة في الشكل 5. يقارن الشكل بين وقت التكلفة ودقة MedQA عبر أعماق الاسترجاع من 0 إلى 9 طبقات. نلاحظ أن كل من الأداء ووقت الاستجابة يزيدان مع زيادة طبقات الاسترجاع في البداية. ومع ذلك، يبدأ الأداء في التدهور عند استرجاع المزيد من الطبقات، حيث تحتوي الطبقات العليا غالبًا على معلومات أقل صلة، مما يمكن أن يتداخل مع تحسين الاستجابة. العمق الأمثل للاسترجاع هو 4 طبقات لنموذج GPT-4 و5 طبقات للآخرين، والتي نستخدمها كإعداد افتراضي في تجاربنا.

الشكل 4: تأثير استرجاع عدد مختلف من الكيانات والأحياء. تم تقييم الأداء بواسطة GPT-4 (MedGraphRAG) على MedQA.

الشكل 5: العلاقة بين مستوى استرجاع U وتكلفة الوقت.

لقد تقدمت نماذج اللغة الكبيرة (LLMs) المبنية على هياكل المحولات بسرعة، مما أدى إلى ظهور نماذج LLMs الطبية المتخصصة مثل BioGPT (لو، وآخرون، 2022)، PMC-LLaMA (وو، وآخرون، 2023)، BioMedLM (بولتون، وآخرون، 2022)، وMed-PaLM 2 (سينغhal، وآخرون، 2023ب). بينما يتم ضبط العديد منها بواسطة منظمات كبيرة، ركزت الأبحاث الأخيرة على الأساليب غير المعدلة من حيث التكلفة، والتي تعتمد بشكل أساسي على هندسة المطالبات (ساب، وآخرون، 2024؛ وانغ، وآخرون، 2023؛ سافاج، وآخرون، 2024). RAG، كنهج آخر غير معدّل، نادراً ما يتم استكشافه للتطبيقات الطبية (مياو، وآخرون، 2024؛ شيونغ، وآخرون، 2024؛ لونغ، وآخرون، 2024) ويفتقر إلى الدعم للاستجابات المستندة إلى الأدلة وشرح المصطلحات المطلوبة في البيئات السريرية.

RAG (لويس وآخرون، 2021) يمكّن النماذج من استخدام مجموعات بيانات محددة دون تدريب إضافي، مما يحسن دقة الاستجابة ويقلل من الهلاوس (غو وآخرون، 2020). لقد أظهر RAG نتائج قوية عبر مهام متنوعة، بما في ذلك توليد استجابات مع الاقتباسات (غاو وآخرون، 2023ب؛ سلوبودكين وآخرون، 2024؛ تشي وآخرون، 2024؛ ناكانو وآخرون، 2021؛ بوهنت وآخرون، 2022؛ غاو وآخرون، 2023أ، ج؛ شيمانسكي وآخرون، 2024؛ زانغ وآخرون، 2024). يعزز GraphRAG (هو وآخرون، 2024) التفكير المعقد من خلال بناء رسوم بيانية للمعرفة، لكنه يفتقر إلى ميزات تصميم محددة لتوليد استجابات معززة، وتبقى تطبيقاته في التخصص الطبي محدودة.

5 الخاتمة

MedGraphRAG يحسن موثوقية توليد الاستجابة الطبية من خلال إطار عمل RAG القائم على الرسوم البيانية، باستخدام بناء الرسوم البيانية الثلاثية واسترجاع U لتعزيز الاستجابات المستندة إلى الأدلة والواعية بالسياق. ستركز الأعمال المستقبلية على تحديثات البيانات في الوقت الحقيقي والتحقق من صحة البيانات السريرية في العالم الحقيقي.

6 قيود

على الرغم من القدرات القوية التي أظهرتها MedGraphRAG، فإن خطوة بناء الرسم البياني تتكبد تكاليف حسابية كبيرة. في مرحلة الاسترجاع والاستجابة، على الرغم من أن التكاليف أقل من بناء الرسم البياني، إلا أنها تظل أعلى من استدعاءات نماذج اللغة الكبيرة القياسية (LLM)، حيث يستغرق كل سؤال حوالي 70 ثانية لمعالجته (انظر الشكل 6 للحصول على التفاصيل). يجب أن تستكشف الجهود المستقبلية طرقًا لنقل الرسوم البيانية المُعدة مسبقًا أو تسريع عملية بناء الرسم البياني للتخفيف من هذه التكاليف الحسابية.

بالإضافة إلى ذلك، فإن حجم البيانات التجريبية والطبيعة المكلفة لبناء الرسوم البيانية تجعل من الصعب إجراء مقارنات شاملة لإعدادات المعلمات الفائقة وخيارات التكنولوجيا. على سبيل المثال، تم اختيار عوامل مثل عدد الفقرات في نافذة السياق أثناء تقسيم الوثائق، واستخدام مجموعات بيانات RAG البديلة، وتأثير العبارات المختلفة لبناء الرسوم البيانية بشكل تجريبي استنادًا إلى بيانات محدودة. هناك حاجة إلى مقارنة أكثر صرامة وشمولية لهذه العوامل في الأعمال المستقبلية لتحديد التكوينات المثلى التي تعظم من إمكانيات الطريقة.

بالنسبة للزمن المستغرق، بينما تقدم طريقتنا عبئًا حسابيًا إضافيًا، نعتقد أنه في المجالات الحرجة مثل الطب، غالبًا ما يكون المستخدمون مستعدين للتضحية بالسرعة مقابل الدقة. كما هو موضح في مخطوطتنا، تقدم طريقتنا استجابات أكثر دقة وقائمة على الأدلة بشكل ملحوظ. تشبيه مفيد هو الشعبية المتزايدة لمساعدي البحث العميق المعتمدين على GPT، الذين يقبلهم المستخدمون على الرغم من أوقات الاستجابة الأطول مقابل مخرجات ذات جودة أعلى وأكثر احترافية. من ناحية تحديث الرسم البياني، قمنا بتصميم هيكل الرسم البياني مع تدرج هرمي لاستيعاب ترددات التحديث المختلفة: تحتوي الطبقة السفلية على قواميس طبية أساسية ومصطلحات، والتي تتغير بشكل نادر ويمكن اعتبارها ثابتة. تدمج الطبقة الوسطى مصادر محدثة بشكل معتدل مثل الأدبيات الطبية. تشمل الطبقة العليا مصادر تتغير بشكل متكرر مثل التقارير السريرية. نظرًا لأن التحديثات في الطبقات السفلية أكثر تكلفة بينما الطبقات العليا أخف وزنًا وأكثر كفاءة من حيث التكلفة للتحديث، فإن ترددات التحديث المختلفة عبر الطبقات تتماشى بشكل طبيعي مع هذا الهيكل، مما يساعد على تقليل التكلفة الإجمالية للتحديث إلى حد ما. في العمل المستقبلي، لمعالجة التحدي المتبقي المتمثل في التحديثات المكلفة حتى في الطبقة العليا، يمكننا اقتراح
استراتيجية تحديث محلية. على وجه التحديد، يمكننا حساب المسافة الدلالية بين المعرفة المدخلة حديثًا وMeta-Graphs الموجودة، وتطبيق التحديثات فقط على الرسوم الفرعية ذات الصلة التي تتجاوز عتبة محددة. هذه الطريقة الانتقائية في التحديث توازن بين الكفاءة والدقة. نحن ندرك هذه كقيود عملية ومهمة، ونخطط لتقديم مناقشة أكثر تفصيلًا حولها كجزء من عملنا المستقبلي في هذا الاتجاه البحثي.

أخيرًا، فيما يتعلق بالتقييم البشري، على الرغم من أننا بذلنا جهودًا لضمان التنوع والخبرة بين مقيمينا، قد يحمل التقييم بعض التحيزات بسبب حجم العينة المحدود (120 سؤالًا على MultiMedQA و50 سؤالًا على DiverseHealth). يجب أن تتضمن الأبحاث المستقبلية تقييمات بشرية أكبر حجمًا وأفضل تصميمًا لتقييم أداء النموذج بشكل شامل.

شكر وتقدير

يدعم جوند وو مجلس أبحاث الهندسة والعلوم الفيزيائية (EPSRC) بموجب منحة EP/S024093/1 وGE HealthCare. يدعم جي يوان زو مجلس أبحاث الهندسة والعلوم الفيزيائية (EPSRC) بموجب منحة EP/S024093/1 وGlobal Health R&D من Merck Healthcare، Ares Trading S.A. (تابعة لشركة Merck KGaA، دارمشتات، ألمانيا)، إيسين، سويسرا (معرف الممول Crossref: 10.13039/100009945). يدعم يويمنغ جين منحة المستوى 1 من وزارة التعليم، NUS، سنغافورة (24-1250-P0001).

References

Olivier Bodenreider. 2004. The unified medical language system (umls): integrating biomedical terminology. Nucleic acids research, 32(suppl_1):D267D270.

Bernd Bohnet, Vinh Q. Tran, Pat Verga, Roee Aharoni, Daniel Andor, Livio Baldini Soares, Massimiliano Ciaramita, Jacob Eisenstein, Kuzman Ganchev, Jonathan Herzig, Kai Hui, Tom Kwiatkowski, Ji Ma, Jianmo Ni, Lierni Sestorain Saralegui, Tal Schuster, William W. Cohen, Michael Collins, Dipanjan Das, Donald Metzler, Slav Petrov, and Kellie Webster. 2022. Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models.

Elliot Bolton, David Hall, Michihiro Yasunaga, Tony Lee, Chris Manning, and Percy Liang. 2022. Biomedlm. Stanford Center for Research on Foundation Models.

Tong Chen, Hongwei Wang, Sihao Chen, Wenhao Yu, Kaixin Ma, Xinran Zhao, Hongming Zhang, and Dong Yu. 2023. Dense X Retrieval: What Retrieval Granularity Should We Use? arXiv preprint. ArXiv:2312.06648 [cs].

Enyan Dai, Yiwei Sun, and Suhang Wang. 2020. Ginger cannot cure cancer: Battling fake health news with a comprehensive data repository. arXiv preprint arXiv:2002.00837.

Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, and Jonathan Larson. 2024a. From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, and Jonathan Larson. 2024b. From Local to Global: A Graph RAG Approach to Query-Focused Summarization. arXiv preprint. ArXiv:2404.16130 [cs].

Luyu Gao, Zhuyun Dai, Panupong Pasupat, Anthony Chen, Arun Tejasvi Chaganty, Yicheng Fan, Vincent Zhao, Ni Lao, Hongrae Lee, Da-Cheng Juan, and Kelvin Guu. 2023a. RARR: Researching and Revising What Language Models Say, Using Language Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 16477-16508, Toronto, Canada. Association for Computational Linguistics.

Tianyu Gao, Howard Yen, Jiatong Yu, and Danqi Chen. 2023b. Enabling large language models to generate text with citations. arXiv preprint arXiv:2305.14627.

Tianyu Gao, Howard Yen, Jiatong Yu, and Danqi Chen. 2023c. Enabling Large Language Models to Generate Text with Citations. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 6465-6488, Singapore. Association for Computational Linguistics.

Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. 2022. Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing. ACM Transactions on Computing for Healthcare, 3(1):1-23. ArXiv:2007.15779 [cs].

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Ming-Wei Chang. 2020. REALM: RetrievalAugmented Language Model Pre-Training. arXiv preprint. ArXiv:2002.08909 [cs].

Ali Hadi, Edward Tran, Branavan Nagarajan, and Amrit Kirpalani. 2024. Evaluation of chatgpt as a diagnostic tool for medical learners and clinicians. Plos one, 19(7):e0307383.

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2020. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.

Yuntong Hu, Zhihan Lei, Zheng Zhang, Bo Pan, Chen Ling, and Liang Zhao. 2024. GRAG: Graph Retrieval-Augmented Generation. arXiv preprint. ArXiv:2405.16506 [cs].

Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, and Jaewoo Kang. 2024. Improving medical reasoning through retrieval and self-reflection with retrievalaugmented large language models. Bioinformatics, 40(Supplement_1):i119-i129.

Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. 2021. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. Applied Sciences, 11(14):6421.

Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W Cohen, and Xinghua Lu. 2019. Pubmedqa: A dataset for biomedical research question answering. arXiv preprint arXiv:1909.06146.

Qiao Jin, Won Kim, Qingyu Chen, Donald C Comeau, Lana Yeganova, W John Wilbur, and Zhiyong Lu. 2023. Medcpt: Contrastive pre-trained transformers with large-scale pubmed search logs for zero-shot biomedical information retrieval. Bioinformatics, 39(11):btad651.

Alistair EW Johnson, Lucas Bulgarelli, Lu Shen, Alvin Gayles, Ayad Shammout, Steven Horng, Tom J Pollard, Sicheng Hao, Benjamin Moody, Brian Gow, et al. 2023. Mimic-iv, a freely accessible electronic health record dataset. Scientific data, 10(1):1.

Neema Kotonya and Francesca Toni. 2020. Explainable automated fact-checking for public health claims. arXiv preprint arXiv:2010.09926.
langchain. 2024. Enhancing rag-based application accuracy by constructing and leveraging knowledge graphs. https://blog.langchain.dev/enhancing-rag-based-applications-accuracy-by-constructing-and-leveraging-knowledge-graphs/.

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. 2021. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv preprint. ArXiv:2005.11401 [cs].

Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, and Deheng Ye. 2024. More agents is all you need. Preprint, arXiv:2402.05120.

Cui Long, Yongbin Liu, Chunping Ouyang, and Ying Yu. 2024. Bailicai: A domain-optimized retrievalaugmented generation framework for medical applications. arXiv preprint arXiv:2407.21055.

Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, and Tie-Yan Liu. 2022. Biogpt: generative pre-trained transformer for biomedical text generation and mining. Briefings in bioinformatics, 23(6):bbac409.

Jing Miao, Charat Thongprayoon, Supawadee Suppadungsuk, Oscar A Garcia Valencia, and Wisit Cheungpasitporn. 2024. Integrating retrieval-augmented generation with large language models in nephrology: advancing practical applications. Medicina, 60(3):445.
microsoft. 2024. Microsoft azure graphrag. https://github.com/Azure-Samples/graphrag-accelerator?tab=readme-ov-file.

Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, and John Schulman. 2021. WebGPT: Browser-assisted question-answering with human feedback.

Harsha Nori, Yin Tat Lee, Sheng Zhang, Dean Carignan, Richard Edgar, Nicolo Fusi, Nicholas King, Jonathan Larson, Yuanzhi Li, Weishung Liu, Renqian Luo, Scott Mayer McKinney, Robert Osazuwa Ness, Hoifung Poon, Tao Qin, Naoto Usuyama, Chris White, and Eric Horvitz. 2023. Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine. arXiv preprint. ArXiv:2311.16452 [cs].

OpenAI. 2023a. Gpt-4 technical report. Preprint, arXiv:2303.08774.

OpenAI. 2023b. Openai. introducing chatgpt. https: //openai.com/blog/chatgpt/.

Ankit Pal, Logesh Kumar Umapathi, and Malaikannan Sankarasubbu. 2022. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering. In Conference on health, inference, and learning, pages 248-260. PMLR.

Jirui Qi, Gabriele Sarti, Raquel Fernández, and Arianna Bisazza. 2024. Model internals-based answer attribution for trustworthy retrieval-augmented generation. arXiv preprint arXiv:2406.13663.

Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, et al. 2024. Capabilities of gemini models in medicine. arXiv preprint arXiv:2404.18416.

Thomas Savage, Ashwin Nayak, Robert Gallo, Ekanath Rangan, and Jonathan H Chen. 2024. Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. NPJ Digital Medicine, 7(1):20.

Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, and Markus Leippold. 2024. Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 19131931, Bangkok, Thailand. Association for Computational Linguistics.

Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. 2022. Large language models encode clinical knowledge. arXiv preprint arXiv:2212.13138.

Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, and Vivek Natarajan. 2023a. Towards expert-level medical question answering with large language models. Preprint, arXiv:2305.09617.

Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, et al. 2023b. Towards expert-level medical question answering with large language models. arXiv preprint arXiv:2305.09617.

Aviv Slobodkin, Eran Hirsch, Arie Cattan, Tal Schuster, and Ido Dagan. 2024. Attribute first, then generate: Locally-attributable grounded text generation. arXiv preprint arXiv:2403.17104.

Eric E Smith and Andrew E Beaudin. 2018. New insights into cerebral small vessel disease and vascular cognitive impairment from mri. Current opinion in neurology, 31(1):36-43.

Jiwoong Sohn, Yein Park, Chanwoong Yoon, Sihyeon Park, Hyeon Hwang, Mujeen Sung, Hyunjae Kim, and Jaewoo Kang. 2024. Rationale-guided retrieval augmented generation for medical question answering. arXiv preprint arXiv:2411.00300.

Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805.

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. 2023. LLaMA: Open and Efficient Foundation Language Models. arXiv preprint. ArXiv:2302.13971 [cs].

Jiaqi Wang, Enze Shi, Sigang Yu, Zihao Wu, Chong Ma, Haixing Dai, Qiushi Yang, Yanqing Kang, Jinru Wu, Huawen Hu, et al. 2023. Prompt engineering for healthcare: Methodologies and applications. arXiv preprint arXiv:2304.14670.

Christopher YK Williams, Brenda Y Miao, Aaron E Kornblith, and Atul J Butte. 2024. Evaluating the
use of large language models to provide clinical recommendations in the emergency department. Nature Communications, 15(1):8236.

Chaoyi Wu, Weixiong Lin, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, and Weidi Xie. 2023. PMC-LLaMA: Towards Building Open-source Language Models for Medicine. arXiv preprint. ArXiv:2304.14454 [cs].

Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, and Yuyin Zhou. 2024. A preliminary study of o1 in medicine: Are we closer to an ai doctor? arXiv preprint arXiv:2409.15277.

Guangzhi Xiong, Qiao Jin, Zhiyong Lu, and Aidong Zhang. 2024. Benchmarking retrievalaugmented generation for medicine. arXiv preprint arXiv:2402.13178.

Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D. Manning, Percy Liang, and Jure Leskovec. 2022a. Deep Bidirectional Language-Knowledge Graph Pretraining. arXiv preprint. ArXiv:2210.09338 [cs].

Michihiro Yasunaga, Jure Leskovec, and Percy Liang. 2022b. LinkBERT: Pretraining Language Models with Document Links. arXiv preprint. ArXiv:2203.15827 [cs].

Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, et al. 2024. Longcite: Enabling

to generate fine-grained citations in long-context qa. arXiv e-prints, pages arXiv-2409.

Xuejiao Zhao, Siyan Liu, Su-Yin Yang, and Chunyan Miao. 2025. Medrag: Enhancing retrievalaugmented generation with knowledge graph-elicited reasoning for healthcare copilot. In Proceedings of the ACM on Web Conference 2025, pages 4442-4457.

المحتويات

تنفيذ مفصل ….. 13
ب نتائج إضافية وتحليل ….. 13
ب. 1 مقارنة مع نماذج LLM الطبية SOTA ….. 13
ب. 2 دراسة حالة: GPT4 مع وبدون MedGraphRAG ….. 14
ب. 3 دراسة حالة: توليد طويل الشكل لـ MedGraphRAG ….. 14
ب. 4 دراسة حالة: مقارنة الرسوم المجردة بين GraphRAG وMedGraphRAG ….. 14
ج تأثير الحدود ….. 15

تنفيذ مفصل

في عملية تقسيم الوثيقة الدلالية، نطبق نقل الاقتراحات (Chen et al., 2023) على كل فقرة قبل التحقق الدلالي لاستخراج بيانات مستقلة واضحة وغير غامضة (على سبيل المثال، تحويل “إنه يمنع الأمراض التنفسية” إلى “Remdesivir يمنع الأمراض التنفسية”). من خلال نقل الاقتراحات، يتم تحويل كل فقرة إلى بيانات مستقلة وواضحة. للتحقق الدلالي، نستخدم LLM أولاً لإنشاء ملخص قصير وعنوان للجزء الحالي. ثم يحدد LLM ما إذا كانت الفقرة الحالية تنتمي إلى هذا الجزء بناءً على العنوان والملخص. إذا كانت تنتمي، يقوم LLM بتحديث العنوان والملخص وفقًا لذلك. إذا لم تكن، يتم إنهاء الجزء الحالي، وينشئ LLM عنوانًا وملخصًا للفقرة الجديدة، مع اعتبارها بداية جزء جديد. إذا وصلت المسح إلى نهاية الوثيقة، يتم إنهاء الجزء الحالي تلقائيًا لضمان عدم امتداد أي جزء عبر عدة وثائق.
في استخراج الكيانات، ندرج معرفات فريدة لتتبع وثيقتها المصدر. في الممارسة العملية، بالنسبة لبيانات خصوصية المستخدم، نقوم بإنشاء معرف فريد عالميًا (UUID) لكل وثيقة كمعرفاتها. بالنسبة للأوراق الطبية والكتب، نستخدم معرف الكائن الرقمي (DOI) كمعرفاتها، وللقواميس الطبية، نستخدم معرفات المفاهيم الفريدة UMLS (CUI) كمعرفاتها. هذا المعرف ضروري لاسترجاع المعلومات من المصدر، مما يمكّن من إنشاء استجابات قائمة على الأدلة لاحقًا. لتوليد الملخصات المعتمدة على العلامات والدمج، نقوم بإدخال عشرة علامات في المطالبة في وقت واحد لتوليد الاستجابة بشكل تكراري.

بالنسبة لخط الأساس القياسي LangChain RAG، اتبعنا التنفيذ الرسمي، الذي يستخدم البحث عن التشابه بناءً على التشابه الكوني بين الاستعلام المدمج والمستندات المدمجة في مخزن المتجهات. في تجاربنا، استخدمنا هذا الإعداد الافتراضي لضمان مقارنة عادلة وقابلة للتكرار. نظرًا لأنه في MedGraphRAG، بالإضافة إلى U-Retrieval المساهم، اعتمدنا أيضًا على التشابه الكوني لاسترجاع Meta-Graph النهائي على المستوى الأدنى. يضمن هذا الاختيار التصميمي الاتساق عبر جميع الأسس ويعزل تأثير استراتيجية الاسترجاع المقترحة.

لاختبار النماذج على MultiMedQA، نقيم أدائها في حالة عدم وجود بيانات باستخدام مجموعة الاختبار فقط من كل مجموعة بيانات، دون استخدام بيانات التدريب للتعديل أو تضمينها في بيانات RAG للاسترجاع. لتقييم الدقة على FakeHealth، ندمج محتوى الأخبار الخاص بها في الرسم البياني لمستوى الأوراق الطبية لـ MedGraphRAG وفي بيانات RAG للآخرين، ثم نستخدم أسئلة المعايير من محتوى الأخبار لتحفيز النماذج للرد بـ ‘مرضٍ’ أو ‘غير مرضٍ’. بالنسبة لـ PubHealth، ندمج أخبارها/مراجعاتها في الرسم البياني لمستوى الأوراق الطبية لـ MedGraphRAG وفي بيانات RAG للآخرين، ونحفز النماذج لتصنيف كل ادعاء كـ ‘صحيح’، ‘خطأ’، ‘غير مثبت’، أو ‘مزيج’.

ب نتائج إضافية وتحليل

ب. 1 مقارنة مع نماذج LLM الطبية SOTA

قمنا أيضًا بتقييم MedGraphRAG مقابل مجموعة من نماذج اللغة الكبيرة الطبية SOTA السابقة على هذه المعايير، بما في ذلك كل من النماذج التي تم تعديلها بشكل مكثف (Gu et al., 2022)(Yasunaga et al., 2022a)(Yasunaga et al., 2022b)(Bolton et al., 2022)(Singhal et al., 2022)(Singhal et al., 2023a)(Wu et al., 2023) والنماذج غير المعدلة (Nori et al., 2023)(OpenAI, 2023b)(OpenAI, 2023a)(Saab et al., 2024). تظهر النتائج، الموضحة في الشكل 6، أنه عند دمجها مع GPT-4، يتفوق MedGraphRAG لدينا على النموذج السابق SOTA، Medprompt (Nori et al., 2023)، بفارق ملحوظ

في معيار MedQA، ويتفوق أيضًا عليه عبر جميع 9 مجموعات بيانات، مما يثبت SOTA جديدة على لوحة القيادة لنماذج اللغة الطبية. من المهم أن نلاحظ أنه بينما يسترجع Medprompt بيانات التدريب مع أسئلة مشابهة وإجابات صحيحة كأمثلة للتحفيز، يعمل نموذجنا بمطالبة بسيطة تحتوي فقط على السؤال الأصلي. يوضح هذا التحسين قدرة MedGraphRAG الفائقة على

الجدول 4: مقارنة مع عدة مسترجعين طبيين متخصصين عبر تسعة معايير أسئلة وأجوبة طبية.

	MedQA	MedMCQA	PubMedQA	MMLU-Col-Med	MMLU-Col-Bio	MMLU-Pro-Med	MMLU-Anatomy	MMLU-Gene	MMLU-Clinic
MedCPT	79.6	74.9	76.8	77.8	95.4	93.9	82.6	90.9	88.3
MedRAG	88.5	78.1	78.9	85.5	96.8	94.8	84.5	93.6	94.5
RAG2	85.2	76.2	79.3	83.4	96.1	94.8	83.9	91.0	93.2
Self-BioRAG	81.1	73.5	76.2	84.1	95.7	94.2	82.1	92.8	92.7
نموذجنا	91.3	81.5	83.8	91.5	98.1	95.8	93.2	98.5	96.4

القدرة، حتى عند الاسترجاع من بيانات بتوزيع مختلف. علاوة على ذلك، عند مقارنتها بأساليب التعديل المكثف على هذه المجموعات الطبية، يتفوق MedGraphRAG على نماذج قوية مثل Med-PaLM 2 (Singhal et al., 2023b) وMed-Gemini (Saab et al., 2024)، مما يثبت SOTA جديدة. يبرز هذا الأداء الفائق قدرة MedGraphRAG على الاستفادة بكفاءة من القدرات الكامنة لنماذج اللغة الكبيرة وتعزيز أدائها ببيانات إضافية، دون الحاجة إلى التعديل.

ب. 2 دراسة حالة: GPT4 مع وبدون MedGraphRAG

كما هو موضح في الشكل 7، نقارن الاستجابات التي تم إنشاؤها بواسطة GPT-4 العادي وMedGraphRAG لحالة مضللة حيث يقدم مريض أعراضًا ترتبط عادةً بمرض الزهايمر ولكنه في الواقع يعاني من الخرف الوعائي. تم تضليل GPT-4، مما أدى إلى تشخيص غير صحيح. في المقابل، يلاحظ MedGraphRAG التفاصيل مثل أن التصوير بالرنين المغناطيسي أظهر تغييرات وعائية معتدلة وآفات في المادة البيضاء، والتي تشير إلى تلف إقفاري مزمن – وهو نموذج للخرف الوعائي بدلاً من الزهايمر، من خلال استرجاع النتائج في (Smith and Beaudin, 2018)، “CBF وWMH التي… تسبب إعاقات عقلية”. مع التعريفات التفصيلية للمصطلحات الطبية والمعرفة المصدر المسترجعة للمساعدة في عملية الاستدلال، اختار MedGraphRAG الإجابة الصحيحة وقدم تفسيرًا مفصلًا وسهل الفهم مع الاقتباس، مما يمكّن المستخدمين من التحقق من الاستجابة.

في الجدول 4، قمنا بمقارنة MedGraphRAG مع عدة مسترجعين طبيين متخصصين، بما في ذلك MedCPT (جين وآخرون، 2023)، MedRAG (تشاو وآخرون، 2025)، RAG2 (سون وآخرون، 2024)، وSelf-BioRAG (جونغ وآخرون، 2024)، عبر تسعة معايير طبية للأسئلة والأجوبة. تم تقييم جميع الطرق تحت نفس مجموعة RAG وإعدادات التجربة، كما هو موضح في المخطوطة. تظهر النتائج أن MedGraphRAG يتفوق باستمرار على جميع المسترجعين المتخصصين الآخرين عبر جميع مجموعات البيانات، مع تحقيق مكاسب أداء كبيرة. نحن نعزو هذا التحسن إلى قدرة طريقتنا على تنظيم مجموعات البيانات الطبية الكبيرة بشكل دلالي، مما يمكّن من استرجاع دقيق وواعي للسياق حتى في مجموعات RAG المعقدة وطويلة المدى.
استرجاع دقيق وواعي للسياق حتى في مجموعات RAG المعقدة وطويلة المدى.

ب. 3 دراسة حالة: توليد طويل الأمد لـ MedGraphRAG

قدمنا أربعة أمثلة على توليد استجابة طويلة الأمد لـ MedGraphRAG. نحن ندرج الحالات المتنوعة عبر الأمراض المشتركة الشكل 8، 9، الأمراض النادرة الشكل 10، 11، صحة الأقليات الشكل 12، 13، وإدارة الأمراض المزمنة الشكل 14، 15. يمكننا رؤية الاستجابات الفريدة التي قدمها MedGraphRAG، حيث تجمع بين الاقتباسات مع تفسيرات واضحة للمصطلحات في الاستجابات الطبية، مما يضمن كل من المصداقية والفهم. توفر الاقتباسات أساسًا من الأدلة، مما يطمئن المرضى والمهنيين بأن التوصيات مستندة إلى الأبحاث. على سبيل المثال، في إجابة العلاج بالهرمونات البديلة، فإن العلاقة بين HRT وزيادة مخاطر الأحداث القلبية الوعائية والمضاعفات التخثرية مدعومة بـ “ديهين وآخرون، 2011″، التي تقدم بيانات متابعة طويلة الأمد حول النتائج الصحية للأفراد المتحولين الذين يخضعون للعلاج بالهرمونات. هذا المستوى من الشفافية مهم بشكل خاص في الرعاية الصحية، حيث الثقة أمر حاسم لامتثال المرضى والرعاية الفعالة.

تساعد تفسيرات المصطلحات الواضحة في سد الفجوة لأولئك الذين قد يواجهون صعوبة مع المصطلحات الطبية. من خلال شرح المصطلحات المعقدة مثل حاصرات بيتا الانتقائية للقلب أو نقص السكر في الدم بلغة بسيطة، يفهم المرضى حالتهم بشكل أفضل والأسباب وراء علاجهم. هذا لا يمكّنهم فحسب، بل يساعد أيضًا في منع سوء الفهم الذي قد يؤدي إلى إدارة غير صحيحة لصحتهم. بشكل عام، فإن استخدام الاقتباسات كأدلة ولغة بسيطة للتفسير يحقق التوازن الصحيح بين الثقة والسلامة وسهولة الوصول في التواصل الطبي.

ب. 4 دراسة حالة: مقارنة الرسوم البيانية المجردة بين GraphRAG وMedGraphRAG

قمنا بإجراء فحص أقرب للرسوم البيانية المجردة لـ GraphRAG (الشكل 16 أ) وMedGraphRAG (الشكل 16 ب) للدراسة الحالة الموضحة في الرسم البياني الأيسر من الشكل 7. من خلال تجريد أقرب الجيران المشابهين للكيانات المسترجعة (COPD و

الشكل 6: مقارنة مع نماذج LLM الطبية SOTA على معيار MedQA.

فشل القلب)، لاحظنا أن MedGraphRAG وصل إلى كيانات أكثر تفصيلًا وتحديدًا، مثل مستقبلات بيتا-1 وحاصرات بيتا الانتقائية للقلب، من خلال الربط بالمراجع ذات الصلة. بينما تتواجد هذه الكيانات أيضًا في رسم GraphRAG، لم يتم استرجاعها تحت نفس عدد الجيران الأقرب بسبب ارتباطها غير المباشر مع الكيانات المسترجعة. يفتقر GraphRAG إلى رسم بياني هرمي يربط هذه الكيانات مباشرة من خلال علاقة “هو مرجع لـ”، مما يؤدي إلى تظليلها بواسطة جيران أكثر عمومية في نفس المستوى، مما يؤدي في النهاية إلى فقدان الاسترجاع.

علاوة على ذلك، فإن نهج MedGraphRAG في ربط فشل القلب بحاصرات بيتا الانتقائية للقلب يمكّن من مزيد من الروابط من خلال مستقبلات بيتا-1 في الرسم البياني من المستوى الثاني، مما يؤدي في النهاية إلى الربط مرة أخرى بحاصرات بيتا غير الانتقائية. يساعد ذلك في ربط فشل القلب وحاصرات بيتا غير الانتقائية كجيران في مرحلة ربط الرسم البياني من المستوى الأول، مما يعزز بشكل كبير قدرة LLM على توليد استجابات محددة ودقيقة. توضح هذه الملاحظة أهمية تضمين علاقات الربط الثلاثية عند بناء الرسم البياني من المستوى الأول. يستفيد MedGraphRAG من هذا التصميم الفريد لبناء رسم بياني معرفي أكثر تفصيلًا واحترافية، مما يؤدي إلى تحسين استرجاع الكيانات وسياق أغنى لتوليد دقيق.

ج. التأثير الأوسع

يعزز MedGraphRAG نماذج LLM من خلال توفير اقتباسات مصدر داخلية، مما يحسن بشكل كبير
الشفافية، وقابلية التفسير، وقابلية التحقق. تضمن هذه الأداة أن كل استجابة يتم توليدها بواسطة LLM مصحوبة بمعلومات عن المصدر أو الأصل، مما يوضح بوضوح أن الإجابات مستندة إلى مجموعة البيانات. تتيح توفر المصادر المقتبسة لكل ادعاء للمستخدمين، خاصة في المجال الحرج للطب، تدقيق مخرجات LLM بسرعة ودقة مقابل المواد المصدر الأصلية. هذه الميزة حاسمة حيث (أ) يجب أن توجد علاقة موثوقة – تستند إلى شفافية التفكير، بين الخبراء البشريين ووكلاء LLM و (ب) حيث تكون أمان/خصوصية المعلومات المشتركة مع الوكيل أمرًا حيويًا. من خلال استخدام هذه الطريقة، قمنا بتطوير LLM طبي قائم على الأدلة. يمكن للأطباء التحقق بسهولة من مصدر التفكير وضبط استجابات النموذج، مما يضمن الاستخدام الآمن لنماذج LLM في السيناريوهات السريرية.

سؤال

سؤال:

السيد جون سميث، مهندس متقاعد يبلغ من العمر 68 عامًا، يعاني من زيادة النسيان ونوبات مفاجئة من الارتباك وصعوبة في الكلام. تشمل تاريخه الطبي داء السكري من النوع 2، وارتفاع ضغط الدم، ونوبة إقفارية عابرة قبل عامين. تكشف التصوير العصبي عن تغييرات وعائية معتدلة وآفات في المادة البيضاء، بينما تظهر أشعة PET انخفاضًا متقطعًا في استقلاب الجلوكوز. بالنظر إلى هذه الأعراض والنتائج، ما هو التشخيص الأكثر احتمالًا؟

الخيارات:

أ. مرض الزهايمر
ب. الخرف الوعائي
ج. الخرف الجبهي الصدغي
د. خرف أجسام ليوي

الإجابة:

ب. الخرف الوعائي

GPT-4

الإجابة:

أ. مرض الزهايمر

التفسير:

1. اختبار الإدراك: قد يتوافق ضعف الإدراك المعتدل لديه في تقييم الإدراك في مونتريال (MoCA) أيضًا مع مرض الزهايمر، نظرًا للتدهور العام في الوظائف الإدراكية.
2. التصوير العصبي: على الرغم من أن التصوير بالرنين المغناطيسي يظهر تغييرات وعائية، إلا أن المناطق المتقطعة من انخفاض استقلاب الجلوكوز التي لوحظت في أشعة PET يمكن أن تتداخل أحيانًا مع أنماط مرض الزهايمر المبكرة، مما يعكس نشاط الدماغ المضطرب.
3. نمط الأعراض: بينما تظهر أعراضه تأثيرات وعائية، فإن النسيان العام وتدهور الإدراك المتزايد على مدار العام الماضي يمكن أن يتماشى أيضًا مع الطبيعة التقدمية لمرض الزهايمر.

MedGraphRAG

الإجابة:

ب. الخرف الوعائي

التفسير:

التاريخ الطبي والأعراض: تاريخ عوامل الخطر الوعائية لديه وطبيعة أعراضه العرضية، التي تشمل الارتباك المفاجئ وصعوبات في الكلام، تشير إلى اضطرابات عصبية ترتبط عادةً بالحوادث الوعائية مثل السكتات الصغيرة أو TIAs [1].
1. نتائج التصوير العصبي: يظهر التصوير بالرنين المغناطيسي تغييرات وعائية معتدلة وآفات في المادة البيضاء، وهو ما يتسم بأضرار إقفارية مزمنة شائعة في الخرف الوعائي، بدلاً من الأنماط التنكسية العصبية التي تُلاحظ عادةً في مرض الزهايمر أو الخرفات الأخرى [2].
2. النتائج الإضافية: تدعم أعراضه الإدراكية العرضية أيضًا أصلًا وعائيًا بدلاً من مرض عصبي تنكسي مثل مرض الزهايمر، الذي سيظهر عادةً تدهورًا إدراكيًا تدريجيًا ومتسقًا بدلاً من العرضي [3].
تدعم هذه العوامل مجتمعة تشخيص الخرف الوعائي، مما يتماشى أكثر مع تداعيات تاريخه الطبي الوعائي وطبيعة اضطراباته الإدراكية العرضية.

الخرف الوعائي: شكل من أشكال الخرف الناجم عن إمداد غير كافٍ من الدم إلى الدماغ، وغالبًا ما يكون نتيجة للسكتات أو إصابات وعائية أخرى، مما يؤدي إلى تدهور إدراكي.
الأعراض العرضية: أعراض تحدث في حلقات منفصلة، بدلاً من أن تكون مستمرة. يمكن أن تختلف في الشدة والطبيعة وتكون عابرة، وعادة ما ترتبط بالأحداث العصبية.
السكتات الدماغية الصغيرة أو النوبات الإقفارية العابرة: السكتات الدماغية الصغيرة هي سكتات غير ملحوظة يمكن أن تسبب أعراضًا عصبية طفيفة مؤقتة. النوبات الإقفارية العابرة هي حلقات قصيرة من الخلل العصبي ناتجة عن فقدان تدفق الدم إلى الدماغ، وعادة ما تستمر أقل من 24 ساعة دون أن تسبب ضررًا دائمًا.
آفات المادة البيضاء: هذه مؤشرات على الأمراض الوعائية في الدماغ، بما في ذلك التغيرات في هيكل الأوعية الدموية ومناطق التلف في المادة البيضاء، وغالبًا ما تكون نتيجة لحالات نقص التروية المزمنة (نقص تدفق الدم). التلف الإقفاري المزمن: تلف طويل الأمد في أنسجة الدماغ ناتج عن تكرار أو استمرار تقليل تدفق الدم، مما يؤدي عادةً إلى فقدان وظيفة وصحة الخلايا العصبية.
أنماط التنكس العصبي: تشير إلى التغيرات الهيكلية والوظيفية في الدماغ المرتبطة بالأمراض العصبية التقدمية مثل مرض الزهايمر، حيث يحدث تدهور تدريجي وموت للخلايا العصبية. الأعراض المعرفية العرضية: ضعف معرفي متقلب يظهر في نوبات، مقابل التدهور المعرفي الثابت الذي يُرى في الأمراض التنكسية.
[1]: أوبراين، ج. ت.، وتوماس، أ. (2015). الخرف الوعائي. لانسيت، 386(10004)، 1698-1706.
[2]: سميث، إ. إ.، وبودين، أ. إ. (2018). رؤى جديدة حول مرض الأوعية الدموية الصغيرة في الدماغ وضعف الإدراك الوعائي من التصوير بالرنين المغناطيسي. الرأي الحالي في علم الأعصاب، 31(1)، 36-43.
[3]: غورليك، ب. ب.، سكتيري، أ.، بلاك، س. إ.، وآخرون. (2011). المساهمات الوعائية في ضعف الإدراك والخرف: بيان للمهنيين الصحيين من جمعية القلب الأمريكية / جمعية السكتة الدماغية الأمريكية. السكتة الدماغية، 42(9)، 2672-2713.

الشكل 7: توضح حالة المثال كيفية توليد MedGraphRAG لاستجابات قائمة على الأدلة مع استشهادات موثوقة وشرح للمصطلحات.

الترافق المرضي

في المرضى الذين يعانون من كل من مرض الانسداد الرئوي المزمن (COPD) وفشل القلب، كيف يمكن تحسين وظيفة الرئة؟

مدغرافراج

في المرضى الذين يعانون من كل من مرض الانسداد الرئوي المزمن وفشل القلب، يمكن استخدام مجموعة من موسعات الشعب الهوائية وحاصرات بيتا الانتقائية للقلب بشكل فعال لإدارة كلا الحالتين دون تفاقم الأعراض التنفسية أو وظيفة القلب بشكل كبير. حاصرات بيتا الانتقائية للقلب، مثل بيسوبرولول أو ميتوبرولول، آمنة لمرضى COPD لأنها تعيق بشكل أساسي مستقبلات بيتا-1 في القلب، مما يقلل من خطر تضيق الشعب الهوائية المرتبط بحاصرات بيتا غير الانتقائية. يجب الاستمرار في علاج موسعات الشعب الهوائية، بما في ذلك المحفزات طويلة المفعول بيتا-2 ومضادات المسكارين، لتحسين وظيفة الرئة في مرض الانسداد الرئوي المزمن.
تساعد موسعات الشعب الهوائية، مثل المحفزات بيتا-2 طويلة المفعول (LABAs)، على استرخاء عضلات مجرى الهواء، مما يقلل من تضيق الشعب الهوائية ويزيد من تدفق الهواء، وبالتالي يحسن من وظيفة الرئة [3،5]. تعمل مضادات المسكارين، مثل التيتروبيوم، عن طريق حجب تأثير الأستيل كولين على عضلات مجرى الهواء، مما يساعد بشكل أكبر في توسيع الشعب الهوائية وتخفيف أعراض مرض الانسداد الرئوي المزمن (COPD) [5]. يجب الاستمرار في استخدام هذه الأدوية كجزء من نظام العلاج لتعزيز كفاءة التنفس.
تعتبر حاصرات بيتا الانتقائية للقلب، مثل بيسوبرولول وميتوبروLOL، مفيدة بشكل خاص لمرضى COPD لأنها تستهدف بشكل أساسي مستقبلات بيتا-1 في القلب، مما يقلل من الضغط على القلب دون التأثير بشكل كبير على مستقبلات بيتا-2 التي تعتبر حيوية لوظيفة الرئة.

يساعد هذا الاستهداف الانتقائي في تجنب خطر تضيق الشعب الهوائية الذي يُرى غالبًا مع حاصرات بيتا غير الانتقائية، والتي يمكن أن تؤثر سلبًا على المرضى الذين يعانون من حالات تنفسية [2،6].
بالنسبة للمرضى الذين يعانون من كل من مرض الانسداد الرئوي المزمن وفشل القلب، يمكن أن يكون استخدام حاصرات بيتا الانتقائية للقلب بالتزامن مع موسعات الشعب الهوائية استراتيجية متوازنة وفعالة لتحسين كل من الصحة القلبية والرئوية. أظهرت الدراسات أن الاستخدام الحذر لحاصرات بيتا الانتقائية للقلب يقلل من خطر الوفاة دون تفاقم الأعراض التنفسية. تساعد هذه المعالجة المركبة في الحفاظ على وظيفة القلب مع تجنب التأثير السلبي على التنفس، مما يسهم في تحسين وظيفة الرئة وتحقيق نتائج أفضل بشكل عام لدى المرضى الذين يعانون من هذه الحالات المشتركة.

References:

1.Salpeter SR, Ormiston TM, Salpeter EE. “Cardioselective beta-blockers for chronic obstructive pulmonary disease.” Cochrane Database of Systematic Reviews. 2005.
2.Du Q, Sun Y, Ding N, Lu L. “Beta-blockers reduced the risk of mortality and exacerbation in patients with COPD: A meta-analysis of observational studies.” PLoS ONE. 2016; 11(11): e0166861.
3.O’Donnell DE, Parker CM. “COPD exacerbations . 3: Pathophysiology.” Thorax. 2006. 4.Hawkins NM, Petrie MC, Jhund PS, Chalmers GW, Dunn FG, McMurray JJ. “Heart failure and chronic obstructive pulmonary disease: diagnostic pitfalls and epidemiology.” European Journal of Heart Failure. 2009; 11(2): 130-139.
5.Tashkin DP, Celli B, Senn S, et al. “A 4-year trial of tiotropium in chronic obstructive pulmonary disease.” New England Journal of Medicine. 2008; 359(15): 1543-1554.
6.Rutten FH, Cramer MJ, Lammers JW, Grobbee DE, Hoes AW. “Heart failure and chronic obstructive pulmonary disease: An ignored combination?” European Journal of Heart Failure. 2006; 8(7): 706-711.

Figure 8: MedGraphRAG long-form generation response on Comorbidity example-part1.

توضيح مصطلحي:

-مرض الانسداد الرئوي المزمن (COPD): مرض رئوي التهابي مزمن يعيق تدفق الهواء، مما يسبب صعوبات في التنفس، وسعال، وإنتاج المخاط.
فشل القلب: حالة لا يستطيع فيها القلب ضخ الدم بشكل فعال، مما يؤدي إلى أعراض مثل التعب، وضيق التنفس، واحتباس السوائل.
موسعات الشعب الهوائية: أدوية تعمل على استرخاء العضلات المحيطة بالمجاري الهوائية، مما يؤدي إلى توسيع الممرات الهوائية وتحسين تدفق الهواء لتسهيل التنفس لدى مرضى COPD.
-حاصرات بيتا الانتقائية للقلب: نوع من حاصرات بيتا التي تستهدف بشكل أساسي مستقبلات بيتا-1 في القلب، مما يقلل من خطر المضاعفات التنفسية. تُستخدم لإدارة حالات القلب دون التأثير بشكل كبير على وظيفة الرئة.
-حاصرات بيتا: فئة من الأدوية المستخدمة لإدارة الحالات القلبية الوعائية مثل ارتفاع ضغط الدم وفشل القلب. تعمل عن طريق حجب مستقبلات بيتا لتقليل معدل ضربات القلب وضغط الدم. يمكن أن تؤثر حاصرات بيتا غير الانتقائية أيضًا على مستقبلات بيتا-2، مما يؤدي إلى تضيق الشعب الهوائية.
-مستقبلات بيتا-1: مستقبلات توجد بشكل أساسي في القلب، وعند حجبها تؤدي إلى تقليل معدل ضربات القلب وقوة الانقباض، مما يجعلها هدفًا رئيسيًا لعلاج الأمراض القلبية الوعائية.
-مستقبلات بيتا-2: مستقبلات توجد في العضلات الملساء للمجاري الهوائية. يمكن أن يؤدي حجب هذه المستقبلات إلى تضيق الشعب الهوائية، ولهذا السبب يُفضل استخدام حاصرات بيتا الانتقائية للقلب التي لا تؤثر بشكل كبير على هذه المستقبلات لمرضى COPD.
تضيق الشعب الهوائية: هو تضيق الممرات الهوائية في الرئتين نتيجة لتقلص العضلات المحيطة، مما يؤدي إلى صعوبة في التنفس. هذه مشكلة تهم مرضى مرض الانسداد الرئوي المزمن ويمكن أن تتفاقم بسبب حاصرات بيتا غير الانتقائية.
-محفزات بيتا-2: أدوية تحفز مستقبلات بيتا-2 لتهدئة عضلات مجرى الهواء وتعزيز توسع الشعب الهوائية، مما يحسن تدفق الهواء لدى مرضى COPD.
مضادات المسكارين: أدوية تمنع تأثير الأستيل كولين على مستقبلات المسكارين، مما يساعد على استرخاء الممرات الهوائية وتحسين تدفق الهواء، وبالتالي تقليل الأعراض في مرض الانسداد الرئوي المزمن.

الشكل 9: استجابة توليد الشكل الطويل لـ MedGraphRAG على مثال الترافق – الجزء 2.

مرض نادر

ما هي أكثر الاستراتيجيات فعالية في إدارة قصور الصدر التدريجي لدى المرضى الذين يعانون من التليف العظمي المتقدم (FOP)؟

مدغرافراج

يتطلب إدارة قصور الصدر التدريجي لدى مرضى FOP توازنًا دقيقًا بين الدعم التنفسي الفعال ومنع التكلس غير الطبيعي (HO) [2]. يمكن أن يؤدي الاستخدام المبكر للتهوية غير الغازية (NIV) [1]، مثل BiPAP، خاصة أثناء النوم أو استجابةً للعدوى التنفسية، إلى تحسين وظيفة التنفس دون إجراءات غازية [2]، مما يقلل من خطر الإصابة [3]. تساعد العلاج الطبيعي اللطيف والمراقب في الحفاظ على سعة الرئة مع تجنب الإصابات التي قد تحفز HO [4].
يمكن استخدام التهوية غير الغازية (NIV)، مثل BiPAP، لتوفير الدعم التنفسي، خاصة خلال فترات ضعف التنفس بسبب العدوى التنفسية أو النوم. هذا يتجنب الحاجة إلى إجراءات غازية، والتي يمكن أن تحفز HO لدى مرضى FOP [1،2]. يوفر BiPAP بشكل خاص مستويات مختلفة من ضغط الهواء أثناء الشهيق والزفير، مما يجعله خيارًا مريحًا وفعالًا لتحسين وظيفة التنفس.

.
تلعب العلاج الطبيعي تحت الإشراف دورًا حاسمًا في الحفاظ على سعة الرئة مع تقليل الصدمات. من المهم أن تكون هذه التمارين لطيفة وتُمارس تحت إشراف لتجنب أي إصابة قد تؤدي إلى تطور التكلس غير الطبيعي. الهدف الرئيسي هو الحفاظ على حركة الصدر دون تحفيز نمو العظام غير الطبيعي المميز لمرض FOP. كما أن الدعم الغذائي ضروري أيضًا لتحسين وظيفة التنفس لدى مرضى FOP. يساعد الحفاظ على التغذية الكافية في تحسين الصحة العامة ويدعم العضلات اللازمة للتنفس.

References:

1.Shulmanl, et al. “Maternal genetic skeletal disorders: lessons learned from cases of maternal osteogenesis imperfecta and fibrodysplasia ossificans progressiva.” Journal of Clinical. 2.Pignolo RJ, et al. “The natural history of flare-ups in fibrodysplasia ossificans progressiva (FOP): a comprehensive global assessment.” Journal of Bone and Mineral Research. 2016.
3.Kaplan FS, et al. “Fibrodysplasia ossificans progressiva: Clinical and genetic aspects.” Orphanet Journal of Rare Diseases. 2008.
4.Additional source not explicitly listed (general reference to supervised physical therapy for maintaining lung capacity in FOP patients).
5.Rocke DM, et al. “Pulmonary function and its management in FOP.” Respiratory Care. 2017.
6.Kaplan FS, Glaser DL, Shore EM, et al. “The medical management of fibrodysplasia ossificans progressiva: current treatment considerations.” Clinical Reviews in Bone and Mineral Metabolism. 2005.
7.Al Mukaddam M, et al. “Nutrition in Fibrodysplasia Ossificans Progressiva: Strategies and Management.” Journal of Clinical Endocrinology & Metabolism. 2020.

Figure 10: MedGraphRAG long-form generation response on Minority Health example-part1.

توضيح مصطلحي:

-تكلس غير موضعي (HO): تشكيل نسيج عظمي في مناطق خارج النظام الهيكلي، عادة في الأنسجة الرخوة مثل العضلات. وهو شائع في FOP ويمكن أن يتم تحفيزه بواسطة الصدمات أو الإصابات، مما يؤدي إلى محدودية الحركة والألم.
-التهوية غير الغازية (NIV): طريقة لدعم التنفس تستخدم قناعًا لتوصيل الهواء إلى الرئتين، مما يساعد على التنفس دون الحاجة إلى إجراءات جراحية. يتم استخدامها عادة لتجنب المضاعفات في مرضى FOP حيث يمكن أن تؤدي الصدمات إلى HO.
-BiPAP (ضغط مجرى الهواء الإيجابي ثنائي المستوى): نوع من NIV يوفر مستويين من ضغط الهواء – ضغط أعلى عند الشهيق وضغط أقل عند الزفير. يساعد في الحفاظ على التهوية الفعالة ويدعم التنفس أثناء النوم أو عندما تكون وظيفة التنفس مهددة.
-التنسج العظمي التقدمي (FOP): اضطراب وراثي نادر يتميز بتشكيل العظام في العضلات والأوتار وغيرها من الأنسجة الضامة، مما يؤدي إلى عدم الحركة التدريجي. حتى الصدمات الطفيفة يمكن أن تحفز نوبات، مما يؤدي إلى نمو غير طبيعي للعظام.
-قصور الصدر: حالة حيث لا يمكن لجدار الصدر دعم التنفس الطبيعي أو نمو الرئة بشكل كافٍ، مما يؤدي إلى تقليل وظيفة الرئة. إنها مضاعفة شائعة في مرضى FOP بسبب تأثير HO على القفص الصدري والعمود الفقري.
-العدوى التنفسية: العدوى التي تؤثر على الجهاز التنفسي، والتي يمكن أن تؤدي بشكل كبير إلى تفاقم التنفس في مرضى FOP. الوقاية والإدارة الفعالة أمران حاسمان لتجنب التحفيز.

.
-العلاج الطبيعي: تمارين تحت إشراف مصممة للحفاظ على الحركة أو تحسينها. بالنسبة لمرضى FOP، يجب أن يتم ذلك بحذر لتجنب أي ضغط جسدي أو صدمة قد تؤدي إلى HO.
-الدعم الغذائي: التغذية الكافية أمر حاسم للحفاظ على الصحة العامة ودعم وظيفة العضلات التنفسية، خاصة في مرضى FOP حيث يمكن أن تؤدي سعة الرئة المهددة إلى صعوبات في تلبية الاحتياجات الغذائية.

الشكل 11: استجابة MedGraphRAG لتوليد الشكل الطويل حول مثال الصحة الأقلية – الجزء 2.

سؤال

صحة الأقلية

هل ستؤثر حقن العلاج بالهرمونات البديلة (HRT) على متوسط العمر المتوقع لدى الأفراد المتحولين من ذكر إلى أنثى؟

MedGraphRAG

نعم، يمكن أن تؤثر حقن العلاج بالهرمونات البديلة (HRT) لدى الأفراد المتحولين من ذكر إلى أنثى على متوسط العمر المتوقع من خلال زيادة بعض المخاطر الصحية [1،4]، وخاصة الأحداث القلبية الوعائية [2] والمضاعفات التخثرية [3]. ومع ذلك، مع الإشراف الطبي المناسب [5]، وتقييم المخاطر، واستراتيجيات الإدارة، يمكن تقليل هذه المخاطر، مما يؤدي إلى متوسط عمر متوقع مشابه للسكان العامين. الإشراف الطبي المناسب أمر حاسم لمراقبة مستويات الهرمونات، وفحص المضاعفات المحتملة، وإدارة أي مخاطر مرتبطة بـ HRT على المدى الطويل [5]. يجب مراقبة الأحداث القلبية الوعائية، مثل النوبات القلبية أو السكتات الدماغية، عن كثب لدى الأفراد الذين يخضعون لـ HRT على المدى الطويل، خاصة عندما تكون عوامل الخطر مثل التدخين أو حالات القلب الموجودة مسبقًا موجودة [2].
المضاعفات التخثرية، بما في ذلك تجلط الأوردة العميقة (DVT) أو الانسداد الرئوي، ممكنة أيضًا ولكن يمكن إدارتها من خلال تصنيف المخاطر بعناية وتدابير وقائية.

. مع الفحوصات الطبية المنتظمة واستخدام استراتيجيات الإدارة الشخصية، يمكن للأفراد الذين يخضعون لـ HRT تقليل هذه المخاطر وتحقيق متوسط عمر متوقع قابل للمقارنة مع ذلك للسكان العامين.

References:

1.Dhejne C, et al. “Long-Term Follow-Up of Transsexual Persons Undergoing Sex Reassignment Surgery: Cohort Study in Sweden.” PLoS ONE. 2011.
2.Nota NM, et al. “Occurrence of Acute Cardiovascular Events in Transgender Individuals Receiving Hormone Therapy.” European Journal of Endocrinology. 2019.
3.Asscheman H, et al. “Venous Thrombosis and Long-Term Use of Estrogens in Transgender Women.” Journal of Sexual Medicine. 2014.
4.Wierckx K, et al. “Long-term evaluation of cross-sex hormone treatment in transsexual persons.” Journal of Clinical Endocrinology & Metabolism. 2012.
5.Hembree WC, et al. “Endocrine Treatment of Gender-Dysphoric/Gender-Incongruent Persons: An Endocrine Society Clinical Practice Guideline.” Journal of Clinical Endocrinology & Metabolism. 2017.
6.Seal LJ, et al. “Health Implications of Gender Affirmation in Transgender Individuals.” Lancet Diabetes Endocrinology. 2016.

Figure 12: MedGraphRAG long-form generation response on Rare Disease example1.

توضيح المصطلحات:

-العلاج بالهرمونات البديلة (HRT): علاج يتضمن إعطاء الهرمونات، مثل الاستروجين أو التستوستيرون، لمواءمة الخصائص الجسدية للفرد مع هويته الجنسية. في الأفراد المتحولين من ذكر إلى أنثى، يتضمن HRT عادة الاستروجين ومضادات الأندروجين.
-المتحولون من ذكر إلى أنثى: يشير إلى الأفراد الذين تم تعيينهم ذكورًا عند الولادة والذين يحددون ويتحولون إلى أنثى. HRT هو جزء من عملية التحول التي تساعد في تطوير الصفات الجسدية الأنثوية.
-الأحداث القلبية الوعائية: حالات طبية تؤثر على القلب أو الأوعية الدموية، بما في ذلك النوبات القلبية والسكتات الدماغية وغيرها من المضاعفات المتعلقة بالجهاز القلبي الوعائي. يمكن أن تكون هذه الأحداث عامل خطر للأفراد الذين يخضعون لـ HRT على المدى الطويل.
-المضاعفات التخثرية: حالات تتضمن تكوين جلطات دموية في الأوردة، والتي قد تؤدي إلى تجلط الأوردة العميقة (DVT) أو الانسداد الرئوي. هذه هي المخاطر المحتملة المرتبطة بـ HRT في الأفراد المتحولين.
-الإشراف الطبي المناسب: دعم الرعاية الصحية المنتظم الذي يتضمن مراقبة مستويات الهرمونات، وتقييم عوامل الخطر، وتعديل العلاجات حسب الحاجة. يساعد ذلك في تقليل المخاطر المحتملة المرتبطة بـ HRT.
-تقييم المخاطر: عملية تحديد المخاطر الصحية المحتملة، مثل القضايا القلبية الوعائية أو المضاعفات التخثرية، لدى الأفراد الذين يخضعون لـ HRT.
-استراتيجيات الإدارة: تقنيات أو علاجات مصممة لتقليل المخاطر الصحية. بالنسبة للأفراد الذين يخضعون لـ HRT، قد تشمل ذلك تعديلات نمط الحياة، والمراقبة المنتظمة، والرعاية الطبية المخصصة لمعالجة المضاعفات المحتملة.
-تجلط الأوردة العميقة (DVT): حالة تتشكل فيها جلطة دموية في وريد عميق، عادة في الساقين. DVT هو أحد المضاعفات التخثرية المحتملة المرتبطة بـ HRT.
-الانسداد الرئوي: انسداد في أحد الشرايين الرئوية في الرئتين، عادة بسبب جلطة دموية انتقلت من الساقين (DVT). إنها مضاعفة خطيرة يمكن أن تحدث مع HRT على المدى الطويل.

الشكل 13: استجابة MedGraphRAG لتوليد الشكل الطويل حول مثال الأمراض النادرة – الجزء 2.

سؤال

إدارة الأمراض المزمنة

لدي مرض السكري من النوع 1 وأخطط لممارسة الرياضة لمدة 30 دقيقة بعد العمل. كيف يجب أن أعدل جرعة الأنسولين وتناول الطعام؟

MedGraphRAG

لتجنب انخفاض مستوى السكر في الدم أثناء وبعد جلسة التمرين التي تستغرق 30 دقيقة، ابدأ بفحص مستوى الجلوكوز في الدم قبل أن تبدأ؛ إذا كان أقل من النطاق المستهدف، تناول وجبة خفيفة صغيرة تحتوي على الكربوهيدرات (حوالي

جرام) [2،3،6]. ضع في اعتبارك تقليل جرعة الأنسولين السريع المفعول قبل التمرين بمقدار

إذا كنت قد تناولته خلال الساعات القليلة الماضية [2،3،7]، حيث إن التمرين يزيد من حساسية الأنسولين ويمكن أن يخفض مستويات السكر في الدم [1،2،3،4]. احتفظ بالكربوهيدرات سريعة المفعول متاحة بسهولة أثناء التمرين في حال شعرت بأعراض نقص السكر في الدم [1،3،5].
مراقبة مستويات الجلوكوز في الدم قبل وأثناء وبعد التمرين تساعد في الحفاظ على مستويات السكر في الدم مستقرة. تناول الكربوهيدرات قبل التمرين إذا كان مستوى الجلوكوز في الدم منخفضًا سيساعد في منع نقص السكر في الدم ويسمح لك بممارسة الرياضة بشكل أكثر راحة [2،3،6]. تعديلات الأنسولين السريع المفعول مهمة، حيث يمكن أن يزيد التمرين بشكل كبير من حساسية الأنسولين، مما يؤدي إلى انخفاض أسرع في مستويات السكر في الدم [2،3،7].
يجب أن تكون الكربوهيدرات سريعة المفعول (مثل أقراص الجلوكوز أو المشروبات السكرية) متاحة بسهولة أثناء التمرين في حالة نقص السكر في الدم. تعمل هذه الأنواع من الكربوهيدرات بسرعة لرفع مستويات السكر في الدم ويمكن أن تساعد في استقرار المستويات إذا انخفضت بشكل كبير أثناء النشاط [1،2،3،5].

References:

1.Bakris, G., et al. “American Diabetes Association (ADA) standards of medical care in diabetes 2016 cardiovascular disease and risk management.” Diabetes Care. 2016.
2.Riddell MC, et al. “Exercise management in type 1 diabetes: a consensus statement.” The Lancet Diabetes & Endocrinology. 2017.
3.Colberg SR, et al. “Physical Activity/Exercise and Diabetes: A Position Statement of the American Diabetes Association.” Diabetes Care. 2016.
4.Yardley JE, et al. “Effects of Exercise on Glucose Levels in Type 1 Diabetes: A Continuous Glucose Monitoring Study.” Diabetes Technology & Therapeutics. 2013.
5.Adolfsson P, et al. “Improvements in Diabetes Control During Physical Activity Intervention for Adolescents with Type 1 Diabetes Mellitus.” Journal of Clinical Endocrinology & Metabolism. 2017.
6.Rabasa-Lhoret R, et al. “Exercise in Type 1 Diabetes: A practical review of its benefits and challenges.” Journal of Diabetes and its Complications. 2009.
7.Heinemann L, et al. “Adjustment of insulin therapy for physical activity in type 1 diabetes mellitus.” Diabetes Obesity and Metabolism. 2014.

Figure 14: MedGraphRAG long-form generation response on Chornic Disease Managment example-part1.

توضيح المصطلحات:

-انخفاض مستوى السكر في الدم (نقص السكر في الدم): حالة تنخفض فيها مستويات الجلوكوز في الدم عن النطاق الطبيعي، مما يؤدي إلى أعراض مثل الارتعاش، والتعرق، والارتباك، أو حتى فقدان الوعي إذا لم يتم علاجها.
-جلوكوز الدم: تركيز الجلوكوز (السكر) في الدم، والذي يُشار إليه عادةً بمستويات السكر في الدم. مراقبة جلوكوز الدم أمر حاسم للأفراد المصابين بداء السكري من النوع 1 لإدارة صحتهم.
-الكربوهيدرات: مغذيات كبيرة توجد في الأطعمة مثل الخبز، والفواكه، والحلويات التي توفر الطاقة. تناول الكربوهيدرات قبل التمرين يمكن أن يساعد في الحفاظ على مستويات جلوكوز الدم، خاصةً لدى الأفراد المصابين بداء السكري.
-الأنسولين السريع المفعول: نوع من الأنسولين يبدأ العمل بسرعة لتقليل مستويات الجلوكوز في الدم، عادةً خلال 15 دقيقة من الحقن. يساعد في إدارة الارتفاعات في مستويات السكر في الدم التي تحدث بعد الوجبات.
-حساسية الأنسولين: استجابة الجسم للأنسولين، مما يعني مدى فعالية الأنسولين في مساعدة الخلايا على امتصاص الجلوكوز. يزيد التمرين من حساسية الأنسولين، مما يعني أن الجسم يحتاج إلى كمية أقل من الأنسولين لخفض مستويات الجلوكوز في الدم.
-مستويات السكر في الدم: كمية الجلوكوز الموجودة في الدم في أي وقت. إدارة مستويات السكر في الدم أمر ضروري للأفراد المصابين بالسكري لمنع كل من نقص السكر في الدم وارتفاع السكر في الدم.
-الكربوهيدرات سريعة المفعول: الكربوهيدرات التي يتم امتصاصها بسرعة في مجرى الدم، مما يؤدي إلى رفع مستويات الجلوكوز في الدم بسرعة. تشمل الأمثلة أقراص الجلوكوز، والمشروبات السكرية، والحلويات. تُستخدم هذه لعلاج نقص السكر في الدم.
-نقص السكر في الدم: حالة تتميز بمستويات جلوكوز الدم المنخفضة بشكل غير طبيعي، والتي يمكن أن تكون ناتجة عن الكثير من الأنسولين، أو تناول طعام غير كافٍ، أو زيادة النشاط البدني دون تعديلات مناسبة.

الشكل 15: استجابة توليد الشكل الطويل لـ MedGraphRAG حول مثال إدارة الأمراض المزمنة – الجزء 2.

الشكل 16: مقارنة الرسم المجرد بين GraphRAG و MedGraphRAG.

DOI: https://doi.org/10.18653/v1/2025.acl-long.1381
Publication Date: 2025-01-01

Medical Graph RAG: Evidence-based Medical Large Language Model via Graph Retrieval-Augmented Generation

Junde Wu , Jiayuan Zhu , Yunli Qi , Jingkun Chen , Min Xu , Filippo Menolascina , Yueming Jin , Vicente Grau , University of Oxford, Carnegie Mellon University, MBZUAI, University of Edinburgh, National University of Singapore

Abstract

We introduce MedGraphRAG, a novel graphbased Retrieval-Augmented Generation (RAG) framework designed to enhance LLMs in generating evidence-based medical responses, improving safety and reliability with private medical data. We introduce Triple Graph Construction and U-Retrieval to enhance GraphRAG, enabling holistic insights and evidence-based response generation for medical applications. Specifically, we connect user documents to credible medical sources and integrate Topdown Precise Retrieval with Bottom-up Response Refinement for balanced context awareness and precise indexing. Validated on 9 medical Q&A benchmarks, 2 health fact-checking datasets, and a long-form generation test set, MedGraphRAG outperforms state-of-the-art models while ensuring credible sourcing. Our code is publicly available.

1 Introduction

The rapid advancement of large language models (LLMs), such as OpenAI’s GPT-4 (OpenAI, 2023a), has accelerated research in natural language processing and driven numerous AI applications. However, these models still face significant challenges in specialized fields like medicine (Hadi et al., 2024; Williams et al., 2024; Xie et al., 2024). The first challenge is that these domains rely on vast knowledge bases -principles and notions discovered and accumulated over thousands of years; fitting such knowledge into the finite context window of current LLMs is a hopeless task. Supervised Fine-Tuning (SFT) provides an alternative to using the context window, but it is often prohibitively expensive or unfeasible due to the closed-source nature of most commercial models. Second, medicine is a specialized field that relies on a precise terminology system and numerous established truths, such as specific disease symptoms or drug side effects. In this domain, it is essential that LLMs do
not distort, modify, or introduce creative elements into the data. Unfortunately, verifying the accuracy of responses in medicine is particularly challenging for non-expert users. Therefore, the ability to perform complex reasoning using large external datasets, while generating accurate and credible responses backed by verifiable sources, is crucial in medical applications of LLMs.

Retrieval-augmented generation (RAG) (Lewis et al., 2021) is a technique that answers user queries using specific and private datasets without requiring further training of the model. However, RAG struggles to synthesize new insights and underperforms in tasks requiring a holistic understanding across extensive documents. GraphRAG (Hu et al., 2024) has been recently introduced to overcome these limitations. GraphRAG constructs a knowledge graph from raw documents using an LLM, and retrieves knowledge from the graph to enhance responses. By representing clear conceptual relationships across the data, it significantly outperforms classic RAG, especially for complex reasoning (Hu et al., 2024). However, its graph construction lacks a specific design to ensure response authentication and credibility, and its hierarchical community construction process is costly, as it is designed to handle various cases for general-purpose use. We find that specific effort is required to apply it effectively in the medical domain.

In this paper, we introduce a novel graph-based RAG method for medical domain, which we refer to as Medical GraphRAG (MedGraphRAG). This technique enhances LLM performance in the medical domain by generating evidence-based responses and official medical term explanation, which not only increases their credibility but also significantly improves their overall quality. Our method builds on GraphRAG with a more sophisticated graph construction technique, called Triple Graph Construction, to generate evidence-based responses, and an efficient retrieval method, U-Retrieval, which im-
proves response quality with few costs. In Triple Graph Construction, we design a mechanism to link user RAG data to credible medical papers and foundational medical dictionaries. This process generates triples [RAG data, source, definition] to construct a comprehensive graph of user documents. It enhances LLM reasoning and ensures responses are traceable to their sources and definitions, guaranteeing reliability and explainability. We also developed a unique U-Retrieval strategy to respond to user queries. Instead of building costly graph communities, we streamline the process by summarizing each graph using predefined medical tags, then iteratively clustering similar graphs to form a multi-layer hierarchical tag structure, from broad to detailed tags. The LLM generates tags for the user query and indexes the most relevant graph based on tag similarity in a top-down approach, using it to formulate the initial response. Then it refines the response by progressively integrating back the higher-level tags in a bottom-up manner until the final answer is generated. This U-Retrieval technique strikes a balance between global context awareness and the retrieval efficiency.

To evaluate our MedGraphRAG method, we implemented it on several popular open-source and commercial LLMs, including GPT (OpenAI, 2023b), Gemini(Team et al., 2023) and LLaMA (Touvron et al., 2023). The results evaluated across 9 medical Q&A benchmarks show that MedGraphRAG yields materially better results than classic RAG and GraphRAG. Our final results even surpass many specifically trained LLMs on medical corpora, setting a new state-of-the-art (SOTA) across all benchmarks. To verify its evidence-based response capability, we quantitatively tested MedGraphRAG on 2 health fact-checking benchmarks and conducted a human evaluation by experienced clinicians. Both evaluations strongly support that our responses are more source-based and reliable than previous methods.

Our contributions are as follows:

We are the first to propose a specialized framework for introducing graph-based RAG in the medical domain, which we named MedGraphRAG.
We have developed unique Triple Graph Construction and U-Retrieval methods that enable LLMs to efficiently generate evidence-based responses utilizing holistic RAG data.
MedGraphRAG outperforms other retrieval methods and extensively fine-tuned Medical LLMs across a wide range of medical Q&A benchmarks,
establishing the new SOTAs.
Validated by human evaluations, MedGraphRAG is able to generate more understandable and evidence-based responses in the medical domain.

2 Method

The overall workflow of MedGraphRAG is shown in Fig. 1. We first construct the knowledge graphs from the documents by using Triple Graph Construction (Section 2.1), then tag the graphs for URetrieval to response the user queries (Section 2.2).

2.1 Triple Graph Construction

2.1.1 Preliminary: Document Chunking & Entities Extraction

Large medical documents often contain diverse content. We segment them into chunks respecting LLMs’ context limits. We adopt the semantic chunking function implemented in LangChain to chunk the documents(langchain, 2024). Specifically, we isolate paragraphs

within the document

using a text embedding model. We then set a buffer size of 5 and enforce the token limit according to the graph construction

We then extract entities from each chunk through graph construction LLM

. We prompt

to identify all relevant entities

in each chunk and generate a structured output with name, type, and a description of the context:

, as the examples shown in the Step2 in Fig. 1. We set name be the text from the document, type selected from the UMLS semantic types (Bodenreider, 2004), and context a few sentences generated by

contextualized within the document.

2.1.2 Triple Linking

Medicine relies on precise terminology and established facts, making it essential for LLMs to produce responses grounded in established facts. To achieve this, we introduced Triple Graph Construction, linking user documents to credible sources and professional definitions. Specifically, we build repository graph (RepoGraph), which is intended to be fixed across different users, providing established sources and controlled vocabulary definitions for user RAG documents. We construct RepoGraph under user RAG graph with two layers: one based on medical papers/books and another based on medical dictionaries. We build the bottom

Figure 1: The overall workflow of MedGraphRAG begins with Triple Graph Construction, where documents are chunked, and entities are extracted. Triple linking then connects user entities to referenced papers and vocabulary graph layers, forming the Med-MetaGraph. In the subsequent U-Retrieval phase, graphs are tagged to enable top-down precise retrieval and bottom-up response refinement, ensuring graph-enhanced query responses.

layer of RepoGraph as UMLS (Bodenreider, 2004) graph, which consist comprehensive, well-defined medical vocabularies and their relationships. The upper layer of RepoGraph is constructed from medical textbooks and scholarly articles using the same graph construction method described here.

The entities of all three tiers of graphs are hierarchically linked through semantic relationships. Let us denoted entities extracted from RAG documents as

. We link them to entities extracted from medical books/papers, denoted as

, based on their relevance, which is determined by computing the cosine similarity between their content embeddings

. The content of an entity

is the concatenation of its name, type, and context, represented as:

Text[name: na; type: ty; context: cx]. This directed linking is annotated as the reference of, indicating the reference relationship between entities in the two layers:

where

is the pre-defined threshold. Entities

are linked to

through the same way with relationships annotated as the definition of . Thus, RAG entities are constructed as triples [RAG entity, source, definition].

We then instruct

to identify the relationships among RAG entities in each chunk, which we noted as

. This relationship is a concise phrase generated by

based on the content of the entity

and associated references

the reference of

. The identified relationships specify the source and target entities, provide a description of their relationship:

where

with relationship identification and generation prompt. We show an example of relationship linking in the Step4 of Fig. 1. After performing this analysis, we have generated a directed graph for each data chunk, which is referred to as Meta-MedGraphs

2.2 U-Retrieval

2.2.1 Preliminary: Graph Tagging

Organizing and summarizing the graphs in advance is intuitive and has proven to facilitate efficient retrieval (Hu et al., 2024). However, unlike GraphRAG, we avoid constructing costly graph communities. We observe that, unlike general language content, medical text is often structured and can be summarized effectively using predefined tags. Motivated by this, we simply summarize
each Meta-MedGraph

with several predefined tags

, and iteratively generate more abstract tag summaries for clusters of closely-related graphs. Specifically, LLM

first summarises the content of each Meta-MedGraph

given a set of given tags

. The tags

consist of multiple medical categories following Society for Testing and Materials (ASTM) standards for content of electronic health records, mainly including Symptoms, Patient History, Body Functions, and Medication. This process generates a structured tag-summary for each

, denoted as

We then apply a variant agglomerative hierarchical clustering method with dynamic thresholding based on tag similarity, to group the graphs and generate synthesized tag summaries. Initially, each graph begins as its own group. At each iteration, we compute the tag similarity between all pairs of clusters and dynamically set the threshold

to merge the top

most similar pairs. The graphs will be merged if all pairwise similarities within the group exceed

. Note that we don’t really link the nodes across different graphs, but generate a synthesized tag-summary for each group. Specifically, we calculate the similarity of pairs by measuring the average cosine similarity of all their tag embeddings. Let

denote the embedding of a tag

. Taking two Meta-MedGraphs

and

with tag sets

and

as an example, we generate the abstract tag summery

if their cosine similarity of tag embeddings

and

higher than the threshold

These newly merged tag-summary, along with those that remain unmerged, form a new layer of tags. As tag-summaries become less detailed at higher layers, there is a trade-off between precision and efficiency. In practice, we limit the process to 12 layers, as this is sufficient for most model variants (detailed in Fig. 5).

2.2.2 Top-down Precise Retrieval

After constructing the graph, we use response LLM

efficiently retrieves information to respond to user queries. We begin by generating tag-summary on the user query

, and use these to identify the most relevant graph through a Topdown Precise Retrieval. Let’s indicate the

tags
at layer

summarised tag

, it starts from the top layer:

, progressively indexing down by selecting the most similar tag in each layer:

until we reach the tag for the target MetaMedGraph

. We then retrieve Top

entities based on the embedding similarity between the query and the entity content:

, and gather all their Top

nearest triple neighbours

By using all these entities and their relationships

, we prompt

to answer the question given the concatenated entity names and relationships in

: Given QUESTION:

. GRAPH:

. Answer the user question: QUESTION using the graph: GRAPH… as

In the Bottom-up Response Refinement step, we then move back to the higher-level tag retrieved in the previous step

, in a bottom-up manner. We provide

QUESTION:

, LAST RESPONSE: …, and SUMMARY:

, and ask it to Adjust the response:RESPONSE of the question: QUESTION using the updated information: SUMMARY.

continues refining its responses until it reaches the target layer. In practice, we retrieve 4-6 layers depends on the baseline LLM, a detailed experiment about it is shown in Fig. 5. It ultimately generate a final response after scanning all indexed graphs along the trajectory. This method enables the LLM to gain a comprehensive overview by interacting with all relevant data in the graph, while remaining efficient by accessing less relevant data in summarized form.

3 Experiment

3.1 Dataset

3.1.1 RAG data

We anticipate that users will use frequently-updated private data as RAG data, such as patient electronic medical records. Thus, we employ MIMIC-IV (Johnson et al., 2023), a publicly available electronic health record dataset, as RAG data.

3.1.2 Repository data

We provide repository data to support LLM responses with credible sources and authoritative vo-

Figure 2: Example responses from GraphRAG and MedGraphRAG, with abstracted graphs. MedGraphRAG provides more detailed explanations and more complex reasoning with evidences. Full results are in the appendix.

cabulary definitions. We use MedC-K (Wu et al., 2023), a corpus containing 4.8 million biomedical academic papers and 30,000 textbooks, along with all evidence publications from FakeHealth (Dai et al., 2020) and PubHealth (Kotonya and Toni, 2020), as the upper repository data, and UMLS graph, which includes authoritative medical vocabularis and semantic relationships as the bottom repository data.

3.1.3 Test Data

Our test set are the test split of 9 multiple-choice biomedical datasets from the MultiMedQA suite, 2 fact verification datasets about public health, i.e., FakeHealth (Dai et al., 2020) and PubHealth (Kotonya and Toni, 2020), and 1 test set we collected, called DiverseHealth. MultiMedQA includes MedQA (Jin et al., 2021), MedMCQA (Pal et al., 2022) PubMedQA (Jin et al., 2019) and MMLU clinic topics (Hendrycks et al., 2020). We also collected the DiverseHealth test set, focused on health equity, consisting of 50 real-world clinical questions that cover a wide range of topics, including rare diseases, minority health, comorbidities, drug use, alcohol, COVID-19, obesity, suicide, and chronic disease management.

3.2 Experiment Setting

We compare different RAG methods across 6 language models as

: Llama2 (13B, 70B), Llama3

, Gemini-pro, and GPT-4. The Llama models were obtained from their official Hugging-

Face page. We used gemini-1.0-pro for Geminipro and

for GPT-4. We primarily compare our approach with standard RAG implemented by LangChain(langchain, 2024) and GraphRAG (Edge et al., 2024a) implemented by Microsoft Azure (microsoft, 2024). All retrieval methods are compared under same RAG data and test data.

We deploy

as Llama3-70B to construct the graph. For text embeddings, we utilize OpenAI’s text-embedding-3-large model. Model comparison is performed using a 5 -shot response ensemble ( Li et al., 2024). MedGraphRAG used U-Retrieval with 4 levels on GPT-4, and 5 levels for the others. In the retrieval, we picked top 60 entities with their 16 -hop neighbors. Unless otherwise noted, all thresholds are set as 0.5 . We use the same query prompt for all models to generate responses.

3.3 Results

3.3.1 Multi-Choice Evaluation

Baselines with different retrievals First, we conducted experiments to evaluate retrieval methods on various LLM baselines, with the results shown in Table 1. We compared MedGraphRAG against baselines without retrieval, standard RAG, and GraphRAG. Performance is measured by the accuracy of selecting the correct option. The results show that MedGraphRAG significantly enhances LLM performance on both health fact-checking and medical Q&A benchmarks. Compared to baselines without retrieval, MedGraphRAG achieves
an average improvement of nearly

in factchecking and

in medical Q&A. When compared to baselines using GraphRAG, it demonstrates an average improvement of around

in fact-checking and 5% in medical Q&A Notably, MedGraphRAG yields more pronounced improvements in smaller LLMs, such as Llama2

and Llama

. This suggests that MedGraphRAG effectively utilizes the models’ own reasoning capabilities while providing them with additional knowledge beyond their parameters, serving as an external memory for information.

Comparing with SOTA Medical LLMs When applied MedGraphRAG to larger models, like Llama

or GPT, it resulted in new SOTA across all 11 datasets. This result also outperforms intensively fine-tuning based medical large language models like Med-PaLM 2 (Singhal et al., 2023b) and Med-Gemini (Saab et al., 2024), establishing a new SOTA on the medical LLM leaderboard. A detailed comparison is shown in Fig. 6.

Figure 3: Impact of Repository Data on RAG, GraphRAG, and MedGraphRAG with GPT-4. Line chart: performance with incremental data inclusion; bar chart: performance with individual data inclusion.

3.3.2 Long-form Generation Evaluation

Human Evaluation We conducted human evaluations of long-form model generation on the MultiMedQA and DiverseHealth benchmarks, comparing our method to SOTA models that generate citation-backed responses, including Inline Search in (Gao et al., 2023b), ATTR-FIRST (Slobodkin et al., 2024), and MIRAGE (Qi et al., 2024). Our evaluation panel consisted of 7 certified clinicians and 5 laypersons to ensure feedback from both professional and general users. Raters completed a five-level rating survey for each model’s response, assessing responses across five dimensions: pertinence (Pert.), correctness (Cor.), citation precision
(CP), citation recall (CR), and understandability (Und.). As shown in Table 2, MedGraphRAG consistently received higher ratings across all metrics. Notably, it showed a significant advantage in CP, CR and Und., indicating that its responses were more often backed by accurate sources and were easier to understand, even for laypersons, thanks to evidence-backed responses and clear explanations of complex medical terms.

Case Study As illustrated in Fig. 7, we compare the responses from GraphRAG and MedGraphRAG for a complex case involving patients with both chronic obstructive pulmonary disease (COPD) and heart failure (left plot). GraphRAG suggested general COPD treatments like bronchodilators and pulmonary rehabilitation but overlooked that certain bronchodilators may worsen heart failure symptoms. In contrast, MedGraphRAG provided a more comprehensive answer by recommending cardioselective beta-blockers-such as bisoprolol or metoprolol-that safely manage both conditions without adverse effects. As we can see from the graph abstracted, this superiority stems from MedGraphRAG’s architecture, where entities are directly linked to key information in references, allowing retrieval of specific evidence. Conversely, GraphRAG struggles to retrieve specific information since its reference and user data are intertwined within the same layer of the graph, which leads to missing key information under the same number of nearest neighbors. And its retrieval based purely on graph summaries results in a lack of detailed insights.

3.4 Ablation and Analysis

3.4.1 Overall Ablation Study

We conducted a comprehensive ablation study to validate the effectiveness of our proposed modules, with the results presented in Table 3. Starting with GraphRAG (Hu et al., 2024) as the baseline, we incrementally incorporated our unique components, including Triple Graph Construction, and U-Retrieval. Notably, both experiments were conducted on the same RAG dataset, eliminating datarelated improvements. The results show a gradual performance improvement as more of our modules are added, with significant gains observed when replacing GraphRAG graph construction with our Triple Graph Construction. Additionally, by replacing the summary-based retrieval(Edge et al., 2024b) in GraphRAG with our U-Retrieval method, we

Table 1: Accuracy(%) of LLMs using different retrieval methods. Columns with a blue background represent health fact-checking benchmarks, while the others correspond to medical Q&A benchmarks. The best results are highlighted in bold.

Model	Fake Health	Pub Health	MedQA	Med MCQA	Pub MedQA	MMLU Col-Med	MMLU Col-Bio	MMLU Pro-Med	MMLU Anatomy	MMLU Gene	MMLU Clinic
	Baselines without retrieval
Llama2-13B	53.8	49.4	42.7	37.4	68.0	60.7	69.4	60.3	52.6	66.0	63.8
Llama2-70B	58.9	56.7	43.7	35.0	74.3	64.2	84.7	75.0	62.3	74.0	71.7
Llama3-8B	51.1	53.2	59.8	57.3	75.2	61.9	78.5	70.2	68.9	83.0	74.7
Llama3-70B	64.2	61.0	72.1	65.5	77.5	72.3	92.5	86.7	72.5	83.9	82.7
Gemini-pro	60.6	63.7	59.0	54.8	69.8	69.2	88.0	77.7	66.7	75.8	76.7
GPT-4	71.4	70.9	78.2	72.6	75.3	76.7	95.3	93.8	81.3	90.4	86.2
Base ines with
Llama2-13B	56.2	54.3	48.1	42.0	68.6	62.5	68.3	63.7	51.0	64.5	67.4
Llama2-70B	64.6	63.2	56.2	49.8	75.2	69.6	85.8	77.4	63.0	75.8	73.3
Llama3-8B	60.5	59.6	64.3	58.2	76.0	68.6	84.9	73.2	72.1	85.2	77.8
Llama3-70B	76.2	72.1	82.3	72.5	80.6	86.8	94.4	89.7	84.3	87.1	87.6
Gemini-pro	72.5	68.4	64.5	57.3	76.9	79.0	91.3	86.4	79.5	80.4	83.9
GPT-4	78.6	77.3	88.1	76.3	77.6	81.2	95.5	94.3	83.1	92.9	93.1
Baselines with Graph RAG
Llama2-13B	58.7	57.5	52.3	44.6	72.8	64.1	73.0	64.6	52.1	66.2	67.9
Llama2-70B	65.7	63.8	55.1	52.4	74.6	68.0	86.4	79.2	64.6	73.9	75.8
Llama3-8B	61.7	61.0	64.8	58.7	76.6	69.2	84.3	73.9	72.8	85.5	77.4
Llama3-70B	77.7	74.5	84.1	73.2	81.2	87.4	94.8	89.8	85.2	87.9	88.5
Gemini-pro	73.8	70.6	65.1	59.1	75.2	79.8	90.8	85.8	80.7	81.5	84.7
GPT-4	78.4	77.8	88.9	77.2	77.9	82.1	95.1	94.8	82.6	92.5	94.0
Baselines with MedGraphRAG
Llama2-13B	64.1	61.2	65.5	51.4	73.2	68.4	76.5	67.2	56.0	67.3	69.5
Llama2-70B	69.3	68.6	69.2	58.7	76.0	73.3	88.6	84.5	68.9	76.0	77.3
Llama3-8B	79.9	77.6	74.2	61.6	77.8	89.2	95.4	91.6	85.9	89.3	89.7
Llama3-70B	81.2	79.2	88.4	79.1	83.8	91.4	96.5	93.2	89.8	91.0	94.1
Gemini-pro	79.2	76.4	71.8	62.0	76.2	86.3	92.9	89.7	85.0	87.1	89.3
GPT-4	86.5	83.4	91.3	81.5	83.3	91.5	98.1	95.8	93.2	98.5	96.4

Table 2: Human evaluation on MedQA and DiverseHealth samples.

Data	Methods	Pert.	Cor.	CP	CR	Und.
MultiMedQA	INLINE	91	88	80	74	85
	ATTR.FIRST	93	91	86	77	93
	MIRAGE	95	90	84	75	91
	MedGrapgRAG	97	94	92	86	95
Diverse Health	INLINE	95	84	78	71	81
	ATTR.FIRST	96	91	81	78	85
	MIRAGE	97	89	83	76	87
	MedGrapgRAG	97	96	89	84	93

Table 3: An ablation study of MedGraphRAG, starting from GraphRAG, evaluated using accuracy (%) on Q&A datasets.

	MedQA	PubMedQA	MedMCQA
GraphRAG	88.9	77.9	77.2
+Triple Graph Construction	91.1	81.8	80.9
+U-Retrieval

achieved further improvements, setting new state-of-the-art results across all three benchmarks.

3.4.2 Detailed Ablation on Triple Linking

To assess the individual effects of external RAG data and retrieval technologies, we conducted experiments comparing retrieval methods: RAG, GraphRAG, and MedGraphRAG under two settings: (1) retrieving each tier of data separately (bar
chart in Fig. 3), and (2) incrementally adding all three tiers (line chart in Fig. 3). The results show that both the data and the right retrieval method must work together to unlock the full potential. When retrieving data by standard RAG, Med-Paper data individually improves performance by less than

, and Med-Dictionary data by less than

. Accumulating three tier data also leads to mediocre improvements. GraphRAG shows improvement in retrieving individual data but has minimal gains when incrementally adding more data, likely due to superficiality from linking trivial entities, as discussed in the previous case study. In contrast, MedGraphRAG efficiently handles the additional data, using its hierarchical structure to clarify relationships and show strong improvements as more data is added. With MedGraphRAG, we see significant improvements of over

and

for Med-Paper and Med-Dictionary data, respectively, highlighting the importance of the retrieval method in maximizing the impact of the data.

3.5 Detailed Ablation on U-Retrieval

In U-Retrieval, we set the retrieval depth to 4-5 layers, the number of retrieval entities to 60 , and entity neighbors to 16 . These settings were de-
termined through comprehensive trials. First, we examine the impact of the retrieval range, i.e. the number of entities and neighbors, using GPT-4 with MedGraphRAG on MedQA, as shown in Fig. 4. Our findings show that retrieving more data does not necessarily lead to better performance. In fact, more data can introduce noise and exacerbate LLM performance issues with long contexts. The peak performance occurs when the retrieval size reaches approximately 120 entities with 4-hop neighbors or 60 entities with 16 -hop neighbors. The 16 -hop neighbors setting performed slightly better, likely due to the robustness of graph-based linking compared to vector-similarity-based retrieval.

As previously mentioned, there is also a trade-off between model accuracy and response time with retrieval layer increases. This relationship is explored in Fig. 5. The figure compares the cost time and MedQA accuracy across retrieval depths from 0 to 9 layers. We observe that both performance and response time increase as the retrieval layer increases initially. However, performance begins to degrade when retrieving more layers, as higher layers often contain less relevant information, which can interfere with refining the response. The optimal retrieval depth is 4 layers for the GPT-4 model and 5 layers for others, which we use as the default setting in our experiments.

Figure 4: The effect of retrieving different number of entities and neighbourhoods. Performance evaluated by GPT-4 (MedGraphRAG) on MedQA.

Figure 5: The relationship between U-retrieval level and time cost.

Large language models (LLMs) built on Transformer architectures have advanced rapidly, leading to specialized medical LLMs such as BioGPT (Luo et al., 2022), PMC-LLaMA (Wu et al., 2023), BioMedLM (Bolton et al., 2022), and Med-PaLM 2 (Singhal et al., 2023b). While many are fine-tuned by large organizations, recent research has focused on cost-efficient, non-fine-tuned approaches, primarily using prompt engineering (Saab et al., 2024; Wang et al., 2023; Savage et al., 2024). RAG, as another non-finetuning approach, is rarely explored for medical applications (Miao et al., 2024; Xiong et al., 2024; Long et al., 2024) and lacks support for evidence-based responses and term explanations required in clinical settings.

RAG (Lewis et al., 2021) enables models to use specific datasets without additional training, improving response accuracy and reducing hallucinations (Guu et al., 2020). RAG has shown strong results across various tasks, including generating responses with citations (Gao et al., 2023b; Slobodkin et al., 2024; Qi et al., 2024; Nakano et al., 2021; Bohnet et al., 2022; Gao et al., 2023a,c; Schimanski et al., 2024; Zhang et al., 2024). GraphRAG (Hu et al., 2024) further enhances complex reasoning by constructing knowledge graphs, but lacks specific design features for generating attributed responses, and its application in medical specialization remains limited.

5 Conclusion

MedGraphRAG improves the reliability of medical response generation with its graph-based RAG framework, using Triple Graph Construction and U-Retrieval to enhance evidence-based, contextaware responses. Future work will focus on realtime data updates and validation on real-world clinical data.

6 Limitation

Despite the strong capabilities demonstrated by MedGraphRAG, the graph construction step incurs significant computational costs. In the retrieval and response stage, although the costs are lower than graph construction, they remain higher than standard large language model (LLM) calls, with each question taking around 70 seconds to process (see Figure 6 for details). Future efforts should explore methods to transfer pre-constructed graphs or accelerate the graph construction process to mitigate these computational costs.

Additionally, the scale of experimental data and the expensive nature of graph construction make it challenging to conduct comprehensive comparisons of hyper-parameter settings and technology choices. For instance, factors such as the number of paragraphs in the context window during document chunking, the use of alternative RAG datasets, and the impact of different prompts for graph construction were selected empirically based on limited data. A more rigorous and comprehensive comparison of these factors is needed in future work to identify the optimal configurations that maximize the method’s potential.

For latency, while our method introduces additional computational overhead, we believe that in critical fields like medicine, users are often willing to trade speed for precision. As demonstrated in our manuscript, our approach delivers significantly more accurate and evidence-based responses. A useful analogy is the increasing popularity of GPT-based deep research assistants, which users accept despite longer response times in exchange for higher-quality, more professional outputs. On the graph updating side, we designed the graph structure with hierarchical modularity to accommodate different update frequencies: The bottom layer contains foundational medical dictionaries and terminology, which change infrequently and can be treated as static. The middle layer integrates moderately updated sources like medical literature. The top layer includes frequently changing sources such as clinical reports. Since updates to the lower layers are more costly while the upper layers are more lightweight and cost-efficient to update, the differing update frequencies across layers naturally align with this structure-thereby helping to reduce the overall update cost to some extent. In the future work, to address the remaining challenge of expensive updates even at the top layer, we can propose
a local update strategy. Specifically, we can compute the semantic distance between newly inserted knowledge and existing Meta-Graphs, and apply updates only to relevant subgraphs that exceed a defined threshold. This selective updating approach balances both efficiency and accuracy. We recognize these as practical and important limitations, and we plan to supply more detailed discussion on them as part of our future work in this research direction.

Finally, regarding human evaluation, while we made efforts to ensure diversity and expertise among our raters, the evaluation may still carry biases due to the limited sample size ( 120 questions on MultiMedQA and 50 questions on DiverseHealth). Future research should include largerscale and better-designed human evaluations to thoroughly assess the model’s performance.

Acknowledgments

Junde Wu is supported by the Engineering and Physical Sciences Research Council (EPSRC) under grant EP/S024093/1 and GE HealthCare. Jiayuan Zhu is supported by the Engineering and Physical Sciences Research Council (EPSRC) under grant EP/S024093/1 and Global Health R&D of Merck Healthcare, Ares Trading S.A. (an affiliate of Merck KGaA, Darmstadt, Germany), Eysins, Switzerland (Crossref Funder ID: 10.13039/100009945). Yueming Jin is supported by the Ministry of Education Tier 1 grant, NUS, Singapore (24-1250-P0001).