مساعد ذكاء اصطناعي مولد متعدد الوسائط لعلم الأمراض البشري
تاريخ الاستلام: 11 ديسمبر 2023 تم القبول: 28 مايو 2024 معاينة المقال المعجلة استشهد بهذا المقال كالتالي: لو، م. ي. وآخرون. مساعد ذكاء اصطناعي متعدد الوسائط لعلم الأمراض البشري. ناتشرhttps://doi.org/10.1038/s41586-024-07618-3 (2024)
هذا ملف PDF لورقة بحثية تمت مراجعتها من قبل الأقران وتم قبولها للنشر. على الرغم من أنها غير محررة، فقد خضعت المحتويات لتنسيق أولي. تقدم Nature هذه النسخة المبكرة من الورقة المطبوعة كخدمة لمؤلفينا وقرائنا. ستخضع النصوص والرسوم البيانية لعملية تحرير وتدقيق قبل نشر الورقة في شكلها النهائي. يرجى ملاحظة أنه خلال عملية الإنتاج قد يتم اكتشاف أخطاء قد تؤثر على المحتوى، وتطبق جميع الإقرارات القانونية.
مساعد ذكاء اصطناعي توليدي متعدد الوسائط لعلم الأمراض البشري
مينغ ي. لوبوين تشيندرو ف. ك. ويليامسونريتشارد ج. تشينميليسا زهاآرون ك. تشاوكينجي إيكيموراأهرونغ كيمديميترا بويليأنكوش باتيلعمرو سليمانتشنغوان تشينتونغ دينغجودي ج. وانغجورج جيربرآيفي ليانغلونغ في ليأنيل ف. باروانيلوكا ل. وايشاوبتوفيصل محمود قسم علم الأمراض، مستشفى بريغهام والنساء، كلية هارفارد الطبية، بوسطن، ماساتشوستس، الولايات المتحدةقسم علم الأمراض، مستشفى ماساتشوستس العام، كلية هارفارد الطبية، بوسطن، ماساتشوستس، الولايات المتحدةبرنامج السرطان، معهد برود التابع لجامعة هارفارد ومعهد ماساتشوستس للتكنولوجيا، كامبريدج، ماساتشوستس، الولايات المتحدة الهندسة الكهربائية وعلوم الحاسوب، معهد ماساتشوستس للتكنولوجيا (MIT)، كامبريدج، ماساتشوستس، الولايات المتحدة قسم علم الأمراض، مركز ويكسنر الطبي، جامعة ولاية أوهايو، كولومبوس، أوهايو، الولايات المتحدة قسم طب المختبرات وعلم الأمراض، مايو كلينك، روتشستر، مينيسوتا، الولايات المتحدة مدرسة هارفارد جون أ. بولسون للهندسة والعلوم التطبيقية، جامعة هارفارد، كامبريدج، ماساتشوستس، الولايات المتحدة علوم الصحة والتكنولوجيا، جامعة هارفارد – معهد ماساتشوستس للتكنولوجيا، كامبريدج، ماساتشوستس، الولايات المتحدة مبادرة علوم البيانات في جامعة هارفارد، جامعة هارفارد، كامبريدج، ماساتشوستس، الولايات المتحدة قسم علم الأمراض، جامعة بوسان الوطنية، كوريا الجنوبية ساهم هؤلاء المؤلفون بالتساوي: مينغ ي. لو، بوين تشين، درو ف. ك. ويليامسون البريد الإلكتروني: faisalmahmood@bwh.harvard.edu
شهد مجال علم الأمراض الحاسوبي تقدمًا ملحوظًا في تطوير نماذج تنبؤية محددة المهام ومشفرات رؤية ذاتية الإشراف غير محددة المهام. ومع ذلك، على الرغم من النمو الهائل في الذكاء الاصطناعي التوليدي، كانت هناك دراسات محدودة حول بناء مساعدين ورفاق ذكاء اصطناعي متعدد الاستخدامات ومناسبين لعلم الأمراض. هنا نقدم PathChat، مساعد ذكاء اصطناعي عام للرؤية واللغة لعلم الأمراض البشرية. نقوم ببناء PathChat من خلال تعديل مشفر رؤية أساسي لعلم الأمراض، ودمجه مع نموذج لغة كبير مدرب مسبقًا، وضبط النظام بالكامل على أكثر من 456,000 تعليمات لغة بصرية متنوعة تتكون من 999,202 دورة سؤال-جواب. نقارن PathChat بعدة مساعدين ذكاء اصطناعي للرؤية واللغة متعددة الوسائط وGPT4V، الذي يدعم المساعد الذكي العام المتاح تجاريًا ChatGPT-4. حقق PathChat أداءً متفوقًا في أسئلة التشخيص متعددة الخيارات من حالات ذات أصول نسيجية ونماذج مرضية متنوعة. علاوة على ذلك، باستخدام أسئلة مفتوحة وتقييم من خبراء بشريين، وجدنا أن PathChat أنتج بشكل عام استجابات أكثر دقة ويفضلها أطباء الأمراض لاستفسارات متنوعة تتعلق بعلم الأمراض. باعتباره رفيق ذكاء اصطناعي تفاعلي وعام للرؤية واللغة يمكنه التعامل بمرونة مع كل من المدخلات البصرية والطبيعية، يمكن أن يجد PathChat تطبيقات مؤثرة في تعليم علم الأمراض، والبحث، واتخاذ القرارات السريرية بمشاركة البشر.
مقدمة
شهد مجال علم الأمراض الحاسوبي تحولاً ملحوظاً في السنوات الأخيرة، مدفوعاً بتقارب عدة اتجاهات رئيسية بما في ذلك زيادة توفر واعتماد المؤسسات على مسح الشرائح الرقمية، والتقدم السريع في أبحاث الذكاء الاصطناعي، وزيادة إمكانية الوصول إلى مجموعات البيانات الكبيرة، وموارد الحوسبة عالية الأداء الكبيرة.مع درجات متفاوتة من النجاح، استغل الباحثون التعلم العميق لمعالجة مجموعة متنوعة من المهام، بما في ذلك تصنيف أنواع السرطان[9، 10] والتصنيف[11، 12]، واكتشاف النقائل[13]، والبقاء[14، 15، 16، 17، 18] وتوقع الاستجابة للعلاج[19، 20]، وتوقع موقع نشأة الورم[21، 22]، وتوقع الطفرات وفحص العلامات البيولوجية[23، 24، 25]، والمزيد[26]. في الوقت نفسه، فإن نماذج تشفير الرؤية العامة[27]، التي تم تدريبها على مجموعات بيانات ضخمة من صور الهستوباثولوجي غير المصنفة ويمكن أن تعمل كأعمدة نماذج متعددة الاستخدامات وغير مرتبطة بالمهام[3، 4]، تمهد الطريق لمزيد من التحسينات عبر العديد من المهام في علم الأمراض الحاسوبي، سواء من حيث الأداء أو كفاءة التصنيف.
ومع ذلك، فإن التطورات المذكورة أعلاه في علم الأمراض الحاسوبي لا تعكس بعد الأدوار المهمة للغة الطبيعية في علم الأمراض – كمفتاح لفتح مصادر غنية ومتنوعة من المعرفة الطبية البشرية المتراكمة، وإشارة إشرافية لتطوير النماذج، ووسيلة موحدة لتسهيل التفاعل البديهي بين نماذج الذكاء الاصطناعي القوية والمستخدمين النهائيين. ومن الجدير بالذكر أنه في تعلم الآلة بشكل عام، أظهرت الأعمال التمثيلية أن تعلم تمثيل اللغة البصرية على نطاق واسع يمكن أن يعزز نماذج الذكاء الاصطناعي التي تعتمد فقط على الرؤية بقدرات جديدة تشمل التعرف على الصور بدون تدريب مسبق واسترجاع النصوص من الصور. اعتمادًا على التصميم المعماري وبيانات التدريب والأهداف، يمكن أيضًا غالبًا ضبط الأنظمة المدربة مسبقًا على اللغة البصرية لمهام مخصصة تتراوح من الإجابة على الأسئلة البصرية والتعليق على الصور إلى اكتشاف الكائنات والتقسيم الدلالي. في تصوير الطب الحيوي وعلم الأمراض الحاسوبي، بدأ الباحثون مؤخرًا في استغلال مصادر متنوعة من الصور الطبية الحيوية المزدوجة والتعليقات أو التقارير للتدريب المسبق على اللغة البصرية، بما في ذلك تطوير نماذج مشابهة لنموذج CLIP مخصصة لمجالات معينة مثل علم الأمراض وعلم الأشعة. في علم الأمراض الحاسوبي، أظهرت بعض الأعمال أداءً واعدًا بدون تدريب مسبق في مهام تشخيصية واسترجاع محددة، بينما جربت أعمال أخرى أيضًا نماذج متخصصة للإجابة على الأسئلة البصرية الطبية الحيوية أو التعليق. ومع ذلك، بالنسبة لأطباء الأمراض، أو الباحثين الذين يستخدمون بيانات صور الأمراض، أو المتدربين في علم الأمراض، فإن هذه النماذج ليست جاهزة بعد لتكون رفقاء تفاعليين (أو مساعدين) يمكنهم اتباع تعليمات متنوعة والإجابة بشكل متماسك ودقيق على أسئلة مفتوحة معقدة بلغة طبيعية.
في أعقاب ظهور نماذج اللغة الكبيرة (LLMs)، فإن التقدم السريع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) ومجال الذكاء الاصطناعي التوليدي الأوسع يستعد لفتح أفق جديد لعلم الأمراض الحاسوبي، والذي يركز على اللغة الطبيعية والتفاعل البشري كعناصر رئيسية في تصميم نماذج الذكاء الاصطناعي وتجربة المستخدم، بالإضافة إلى قدرات المعالجة البصرية القوية. لقد أظهرت منتجات الذكاء الاصطناعي التوليدي متعددة الوسائط مثل ChatGPT قدرات مثيرة للإعجاب في مجموعة واسعة من الاستخدامات الروتينية والإبداعية، فضلاً عن الاستخدامات المهنية، بما في ذلك البرمجة، الكتابة، التلخيص، تحليل البيانات، الإجابة على الأسئلة، الترجمة، وحتى توليد الصور، وكل ذلك مع إمكانية الوصول من خلال واجهة مستخدم بديهية وتفاعلية. على الرغم من وجود محاولات للتحقيق في أدائها في الإجابة على الاستفسارات المتعلقة بالطب، إلا أن قدرتها على مساعدة المحترفين والباحثين في المجال الفرعي المتخصص ولكن المهم لعلم الأمراض التشريحي لا تزال غير مستكشفة نسبيًا.. ومع ذلك، فإن التطبيقات المحتملة لمساعد الذكاء الاصطناعي التفاعلي متعدد الوسائط في علم الأمراض هائلة. القدرة على فهم والرد على الاستفسارات المعقدة بلغة طبيعية يمكن أن تمكن مثل هذا المساعد في علم الأمراض من أن يكون رفيقًا مفيدًا عبر مراحل مختلفة من اتخاذ القرارات السريرية بمشاركة الإنسان، والتعليم، والبحث. على سبيل المثال، سيكون بمقدور مساعد الذكاء الاصطناعي استيعاب صورة علم الأمراض النسيجي، وتقديم تقييم أولي للمظهر الشكلي، وتحديد الميزات المحتملة للسرطان. بعد ذلك، يمكن أن يقدم طبيب الأمراض أو المتدرب سياقًا إضافيًا حول الحالة الأساسية، مثل المعايير السريرية للمريض وموقع الأنسجة، وطلب من النموذج اقتراح تشخيص تفريقي. إذا اعتُبر ذلك معقولًا، يمكن للمستخدم بعد ذلك طلب اقتراحات مفيدة للاختبارات المساعدة وصبغات المناعية لتضييق نطاق التشخيص التفريقي. أخيرًا، يمكن أيضًا تقديم نتائج هذه الاختبارات للنموذج لإجراء استنتاج نهائي للوصول إلى التشخيص. في البحث، يمكن أن يمكّن مساعد الذكاء الاصطناعي متعدد الوسائط الذي يمكنه تلخيص الميزات الشكلية لمجموعات كبيرة من صور علم الأمراض النسيجي من الكمية الآلية وتفسير العلامات الشكلية في مجموعات البيانات الكبيرة. في التعليم الطبي، يمكن أن يساعد رفيق الذكاء الاصطناعي التفاعلي الدقيق، عند الطلب، في ديمقراطية الوصول إلى الإرشادات والتدريب على مستوى الخبراء في علم الأمراض، مما يساهم في تضييق الفجوة بين التفاوتات الإقليمية في تقديم الرعاية الصحية.
مساعد ذكاء اصطناعي توليدي متعدد الوسائط لعلم الأمراض البشري
في هذه المقالة، نطور PathChat، مساعد ذكاء اصطناعي متعدد الوسائط لعلم الأمراض البشرية مدعوم بنموذج لغوي كبير متعدد الوسائط (MLLM) تم تعديله بشكل خاص. لبناء MLLM يمكنه التفكير في كل من المدخلات البصرية واللغوية الطبيعية، نبدأ بـ UNI[3]، وهو مشفر متقدم (SOTA) يعمل فقط على الرؤية وتم تدريبه مسبقًا على أكثر من 100 مليون قطعة صورة نسيجية من أكثر من 100 ألف شريحة باستخدام التعلم الذاتي. نقوم بإجراء مزيد من الرؤية تدريب اللغة على مشفر UNI مع 1.18 مليون زوج من صور الأمراض والتعليقات النصية لتنسيق مساحة تمثيل الصور مع تلك الخاصة بالنصوص المتعلقة بالأمراض. يتم توصيل مشفر الرؤية الناتج بعد ذلك إلى نموذج Llama 2 LLM المدرب مسبقًا والذي يحتوي على 13 مليار معلمة عبر وحدة العرض متعددة الوسائط لتشكيل بنية MLLM الكاملة (انظر قسم تصميم وتدريب نموذج PathChat في الطرق لمزيد من التفاصيل). يتم أخيرًا تحسين MLLM عبر مجموعة بيانات مختارة تضم أكثر من 450 ألف تعليمات لبناء PathChat، والذي يمكنه فهم صور الأمراض والنصوص والرد على استفسارات معقدة تتعلق بالأمراض. يمكن العثور على مزيد من المعلومات حول تنسيق البيانات وتدريب النموذج في قسم تنسيق مجموعة بيانات PathChat وتصميم وتدريب نموذج PathChat في الطرق على التوالي، مع تلخيص التفاصيل الإضافية في جداول البيانات التكميلية 1-4.
نحن نعرض قدرات PathChat في تطبيقات متنوعة بما في ذلك تحليل حالات الأمراض من مواقع وأماكن ممارسة مختلفة (الشكلين 2 و3). بالإضافة إلى ذلك، قمنا بتجميع معيار عالي الجودة للإجابة على الأسئلة البصرية المفتوحة في علم الأمراض، مناسب لتقييم أداء نماذج اللغة الكبيرة متعددة الوسائط في علم الأمراض، والذي قمنا بتجميعه تحت إشراف خبراء (انظر قسم معيار الإجابة على الأسئلة في علم الأمراض الذي تم تجميعه بواسطة خبراء في الطرق لمزيد من التفاصيل). نقارن PathChat ضد كل من LLaVA[5]، وهو نموذج لغة كبير مفتوح المصدر في المجال العام، وكذلك LLaVA-Med[53]، الذي تم تخصيصه للمجال الطبي الحيوي. نقارن أيضًا ضد حل تجاري متقدم، ChatGPT-4 (مدعوم بـ GPT4V)، على الرغم من أن نموذجنا أصغر بكثير وأرخص في التشغيل.
النتائج
الأداء في أسئلة التشخيص متعددة الخيارات
بدأنا بتقييم قدرة نموذج PathChat MLLM لدينا على إجراء تشخيص مباشر استنادًا إلى صور الأنسجة. لهذا الغرض، قام طبيب أمراض معتمد من المجلس باختيار يدوي لمناطق الاهتمام البارزة من صور الشرائح الكاملة الروتينية المصبوغة بـ H&E من كل من TCGA وأرشيف الأمراض الخاص بنا (والذي تم الاحتفاظ به بالكامل بعيدًا عن تدريب النموذج المسبق أو تحسينه). في المجموع، تغطي الأسئلة 54 تشخيصًا من 11 ممارسة رئيسية مختلفة للأمراض ومواقع الأعضاء (البيانات التكميلية الجداول 5 و6). بالنسبة لكل نظام عضوي، اختار طبيب الأمراض مجموعة من 10 إجابات محتملة تشمل الإجابات الصحيحة لجميع الأسئلة ضمن ذلك النظام العضوي بالإضافة إلى تشخيصات أخرى شائعة نسبيًا ضمن ذلك النظام العضوي (البيانات التكميلية الجدول 7). بالنسبة لكل سؤال، نعتبر استراتيجيتين للتقييم. في الأولى (إعداد الصورة فقط)، يتم تقديم النموذج بصورة فقط والسؤال متعدد الخيارات كمدخل. في الثانية (الصورة مع السياق السريري)، يتم تقديم النموذج مع سياق سريري إضافي لمحاكاة سير العمل التشخيصي في العالم الحقيقي، حيث يتم تضمين معلومات مثل عمر المريض، والجنس، والتاريخ السريري، ونتائج الأشعة مع صورة الأنسجة للحالة السريرية. في كلا الإعدادين، يتم تقييم النموذج على قدرته على اختيار التشخيص الصحيح بدقة من مجموعة الخيارات الممكنة. نقدم مثالًا توضيحيًا للإدخال الكامل للنموذج في الشكل 2a. في جميع الحالات (المشار إليها بـ “المجمع” في الشكل 2b)، نقارن PathChat مع LLaVA 1.5، وهو مساعد دردشة بلغة بصرية عامة من الطراز الأول، بالإضافة إلى LLaVA-Med، وهو إصدار متخصص من LLaVA تم تحسينه للإجابة على الاستفسارات المتعلقة بالعلوم الطبية. بالإضافة إلى ذلك، على مجموعة فرعية من 52 حالة مستمدة من صور الشرائح المتاحة للجمهور (المشار إليها بـ “PathQABenchPublic”)، بالإضافة إلى LLaVA 1.5 وLLaVA-Med، نقارن أيضًا مع GPT4V، الذي يدعم ChatGPT4، أحد أفضل المساعدين التجاريين من حيث القدرة على الرؤية الذي تم تطويره بواسطة OpenAI. تم تقييم جميع النماذج “كما هي” دون أي تحسين إضافي محدد للمهمة، بما يتماشى مع نموذج النقل بدون تدريب.
في كلا إعدادات التقييم (الصورة فقط والصورة مع السياق السريري)، يتفوق PathChat بشكل مقنع على المعايير المفتوحة المصدر LLaVA 1.5 و LLaVA-Med من حيث دقة التشخيص (الشكل 2أ، جداول البيانات التكميلية 8-10). في إعداد تقييم الصورة فقط، حصل PathChat على دقة مقابل LLaVA 1.5 و ضد LLaVA-Med، لكليهما) على المعيار المشترك الكامل. وفقًا للتوقعات، فإن أداء PathChat يتحسن أكثر إلى دقة ضد LLaVA 1.5 و مقابل LLaVA-Med، لكليهما) عندما يتم توفير سياق سريري إضافي مفيد. على وجه التحديد، نلاحظ أن إضافة السياق السريري تحسن باستمرار دقة PathChat سواء في الحالات الخاصة الداخلية (PathQABench-Private، ) وحالات TCGA العامة (PathQABench-Public، من ناحية أخرى، عندما يتم تقديم السياق السريري فقط (أي أن الصورة المقابلة لا تُعرض على النموذج)، فإن الأداء يكون أقل بكثير (الشكل 2 من البيانات الموسعة)، مما يشير إلى أن PathChat يستمد قوة تنبؤية كبيرة من الميزات البصرية ولا يعتمد فقط على السياق السريري. معًا، تشير هذه النتائج إلى أن PathChat يمكنه الاستفادة بفعالية ومرونة من المعلومات متعددة الوسائط لتشخيص أكثر دقة لصور الأنسجة من خلال تقديم مثل هذه المعلومات الإضافية غير البصرية بلغة طبيعية بسيطة دون الحاجة إلى معالجة بيانات متخصصة.
بالإضافة إلى ذلك، باستخدام PathQABench-Public، الذي يحتوي فقط على حالات من TCGA WSIs المتاحة للجمهور، نقارن أيضًا نموذجنا مع نموذج GPT-4Vision (GPT4V). نظرًا لأننا لا نعرف مدى تدريب GPT4V على بيانات محددة في علم الأمراض النسيجية من الإنترنت، فإن استخدامنا لمناطق الاهتمام التي تم تنسيقها يدويًا من WSIs لـ يساعد التقييم في تقليل احتمال تلوث البيانات وضمان التقييم الصحيح لأدائها على صور علم الأمراض. من الجدير بالذكر أن هناك حواجز يبدو أنه تم تنفيذها في GPT4V أحيانًا لمنعها من معالجة الاستفسارات التي تتطلب فحص الصور الطبية، وبدلاً من ذلك ستخبر المستخدم بأنها لا تستطيع تقديم تفسير مرضي وبدلاً من ذلك يجب استشارة متخصص طبي. في مثل هذه الحالات، نقوم بتقديم حد أقصى من 2 استفسار إضافي لنفس الاستفسار ليصل المجموع إلى 3 محاولات (انظر تقييم GPT4V في قسم الطرق لمزيد من التفاصيل). وفقًا لبروتوكول التقييم هذا، استطعنا بنجاح استفسار GPT4V عن 47 من أصل 52 صورة من PathQABench-Public عندما تم تضمين السياق السريري (28 من أصل 52 سؤالًا في إعداد الصورة فقط). تم اعتبار الاستفسار الذي لم ينجح في النهاية غير صحيح حيث لم تتناول الإجابة السؤال. نلاحظ أنه بينما يكون GPT4V أكثر دقة من MLLMs مفتوحة المصدر عند توفير السياق السريري، فإن MLLM الخاص بنا PathChat المتخصص في المجال أفضل باستمرار في كلا إعدادات التقييم. بواسطة GPT4V مع السياق السريري، مقابل بواسطة GPT4V للصورة فقط، لكل منهما). بينما يمكن تفسير جزء من هذا الاختلاف بواسطة حواجز الأمان في GPT4V، من أجل تقييم أكثر شمولاً وشفافية، قمنا أيضًا بالإبلاغ عن الأداء فقط على مجموعة الأسئلة التي أجاب عليها GPT4V بنجاح (جدول البيانات التكميلية 11)، ووجدنا أن PathChat لا يزال يتفوق باستمرار على GPT4V بفارق كبير نسبيًا.على 47 سؤالًا مع سياق سريري؛على 28 سؤالًا لإعداد الصورة فقط).
الأداء في الإجابة على الأسئلة المفتوحة
بالإضافة إلى أسئلة التشخيص متعددة الخيارات، من المهم تقييم قدرة PathChat وغيرها من نماذج اللغة الكبيرة متعددة الاستخدامات (MLLMs) على توليد استجابات متماسكة ومعقولة وذات صلة سريرية لاستفسارات مفتوحة تتعلق بعلم الأمراض (انظر قسم معيار الأسئلة والأجوبة في علم الأمراض الذي تم تنسيقه بواسطة خبراء في الطرق). استنادًا إلى حالات من PathQABenchPublic، قام طبيب أمراض معتمد من المجلس بتنسيق أسئلة مفتوحة تستهدف مجموعة واسعة من المواضيع بما في ذلك وصف الصور المجهرية، ودرجة النسيج وحالة التمايز، وعوامل الخطر، والتشخيص، والعلاج، والاختبارات المناعية الكيميائية (IHC)، والتغيرات الجزيئية، واختبارات إضافية أخرى. مشابهًا للتقييم متعدد الخيارات، ولتقليد حالة الاستخدام الواقعية لمساعد الذكاء الاصطناعي في علم الأمراض، يتم تقديم كل سؤال للنماذج كما هو، دون الحاجة إلى أي تعديل إضافي للنموذج أو المهمة.
نظرًا للطبيعة الأكثر ذاتية في تقييم الاستجابات للأسئلة المفتوحة، يتكون تقييمنا من مكونين. أولاً، قام مجموعة من 7 أطباء أمراض خبراء بتصنيف (من الأفضل إلى الأسوأ، مع السماح بالتعادل) استجابات نماذج مختلفة لجميع الأسئلة (الشكل 3أ) بناءً على مدى ملاءمتها للسؤال، وصحتها، وما إذا كانت مدعومة بشرح أو تبرير صحيح بطريقة مختصرة (انظر قسم تقييم MLLM في المنهجيات لمزيد من التفاصيل والأشكال التوضيحية 3-5 لردود النماذج المصنفة). خلال عملية التصنيف، كان الأطباء، الذين لم يتفاعلوا مسبقًا مع كل نموذج، معصوبي الأعين أيضًا عن أي نموذج أنتج أي استجابة، وتم أيضًا خلط الاستجابات عشوائيًا لكل سؤال لتقليل التحيز المحتمل تجاه نماذج معينة. يهدف هذا الجزء من التقييم إلى التقاط مجموعة واسعة من حكم الخبراء (بما في ذلك التفضيل البشري الذاتي) على الاستجابات.
بشكل عام، نجد أن PathChat ينتج في المتوسط استجابات أكثر تفضيلاً وأعلى تصنيفًا من جميع نماذج اللغة متعددة اللغات الأخرى التي تم اختبارها. عند النظر في السجلات المباشرة (مثل PathChat مقابل GPT4V) لتصنيف النماذج الذي يحكم عليه خبير بشري، فإن “فوز” PathChat في سؤال ما يعني أن استجابة PathChat تم تصنيفها بشكل أعلى من نظيرتها عند النظر في تصنيفهما النسبي. وبالمثل، فإن “التعادل” لـ PathChat يعني أن النموذجين حصلا على نفس التصنيف بينما يعني “الخسارة” أن PathChat تم تصنيفه بشكل أقل. ضد الوصيف GPT4V، كان لدى PathChat معدل فوز وسطي ملائم منعبر 7 مقيمين مستقلين من علماء الأمراض مقارنة بمعدل فقدان وسطي يبلغ فقطومعدل ربط الوسيط لـمن الأسئلة (الشكل 3ب، جداول البيانات التكميلية 12 و 13). مرة أخرى، نلاحظ فجوة أداء أكبر لصالح PathChat مقارنة بـ LLaVA 1.5 (معدل الفوز الوسيط لـمعدل الخسارة الوسيط لـومعدل الربط الوسيط لـ ) و LLaVA-Med (معدل الفوز الوسيط لـ معدل الخسارة الوسيط لـومعدل الربط الوسيط لـ ).
بالإضافة إلى ذلك، من أجل إنشاء مقياس أكثر موضوعية لدقة كل نموذج في الأسئلة المفتوحة، قام اثنان من أطباء الأمراض المعتمدين بمراجعة الردود بشكل مستقل لكل سؤال لتعيين تصنيف ثنائي صحيح مقابل غير صحيح لكل نموذج (مع البقاء غير مدركين لهوية كل نموذج). لتقليل مدى الذاتية، ناقش الطبيبان بعد ذلك جميع الأسئلة التي اختلفا فيها في تقييمهما، في محاولة للتوصل إلى توافق. بالنسبة لـ 235 من أصل 260 سؤالًا، تم التوصل إلى اتفاق كامل لجميع النماذج ونستخدم التوافق كحقيقة أساسية لحساب الدقة لكل نموذج. على وجه التحديد، حصل PathChat على دقة إجمالية قدرهاعلى مجموعة الأسئلة المفتوحة التي تمكن فيها علماء الأمراض من الوصول إلى توافق (الشكل 3c، جدول البيانات التكميلية 14)، والتي تتوافق معتحسين ) مقارنةً بدرجة الدقة لـ حققها الوصيف، GPT4V. مقارنةً بالنموذج العام المتاح للجمهور LLaVA 1.5 (بدقة 29.8%)، والنموذج المتخصص في الطب الحيوي LLaVA-Med (بدقة ، فإن هامش التحسين يكون أكثر أهمية، عند و على التوالي (لكل منهما). نحن نبلغ أيضًا عن دقة كل نموذج كما تم تقييمه من قبل كل طبيب شرعي على مجموعة الأسئلة الكاملة (بما في ذلك الأسئلة المتبقية التي لا يزال هناك خلاف بشأنها) في الشكل 6 من البيانات الموسعة.
تظهر هذه النتائج أنه بشكل عام، يولد PathChat استجابات أكثر دقة وتفضيلاً لاستفسارات متنوعة تتعلق بالمرض. بالإضافة إلى ذلك، من أجل فهم أفضل لنقاط القوة والضعف النسبية للنماذج المختلفة، نقوم بتحليل أداء النماذج المختلفة في مجموعات فرعية متنوعة من الأسئلة (الموصوفة في جداول البيانات التكميلية 15 و16 مع أمثلة مقدمة في الشكل 7 من البيانات الموسعة). على وجه الخصوص، تتضمن فئة “الميكروسكوبية” أسئلة تختبر قدرة النماذج على توليد أوصاف شكلية دقيقة ومفصلة لصور الميكروسكوبية النسيجية وتقييم الميزات السريرية ذات الصلة مثل تمايز الورم ودرجته. تختبر الأسئلة في فئة “التشخيص” قدرة النماذج على اقتراح تشخيص معقول بناءً على صورة النسيج المتاحة والسياق السريري ذي الصلة (على عكس الأسئلة متعددة الخيارات حيث يتم تقديم الخيارات الممكنة). تختبر الأسئلة “السريرية” القدرة على استرجاع المعرفة الخلفية السريرية ذات الصلة بالمرض المعني، بما في ذلك عوامل الخطر، والتنبؤ، والعلاج. تختبر أسئلة “الاختبارات المساعدة” قدرة النماذج على اقتراح اختبارات إضافية مثل IHCs والجزيئية من أجل تأكيد تشخيص محدد أو إبلاغ التنبؤ والعلاج. لاحظنا أنه بينما يعد GPT4V هو الوصيف لـ PathChat بشكل عام، فإن استجابات PathChat تتفوق بشكل خاص على استجابات GPT4V في الفئات التي تتطلب فحص صورة النسيج (أي “الميكروسكوبية” و”التشخيص”)، حيث كانت الدقة في مجموعة الإجماع هي و لـ PathChat على التوالي مقابل و لـ GPT4V (الشكل 3d، جداول البيانات التكميلية 17-19). وبالمثل، تصل نسبة الفوز المتوسطة المباشرة ضد GPT4V إلى و في فئتي الأسئلة على التوالي، مقارنة بمتوسط نسبة الفوز المتوسطة البالغة . مع نسبة خسارة متوسطة ضد GPT4V تبلغ فقط في هاتين الفئتين، تشير النتائج إلى أن PathChat أفضل من أو بنفس جودة GPT4V في حوالي من الاستفسارات التي تركز على فحص صورة النسيج (الأشكال 8 و9 من البيانات الموسعة، جداول البيانات التكميلية 20-27). من ناحية أخرى، وجدنا أن PathChat يتأخر قليلاً عن GPT4V في “السريرية” و”الاختبارات المساعدة”، حيث، بالنسبة لمجموعة الإجماع، حقق PathChat درجة دقة محترمة تبلغ في كلا الفئتين مقارنةً بدرجات GPT4V الأعلى البالغة و في الفئتين على التوالي. من الجدير بالذكر أنه بينما يتفوق PathChat بشكل مقنع على GPT4V في الدقة في فئات “الميكروسكوبية” و”التشخيص” وفقًا للإجماع ( لكليهما، و79 على التوالي)، لم نجد أي دلالة إحصائية ( ) لارتفاع دقة GPT4V في فئات “السريرية” و”الاختبارات المساعدة”: للسريرية ( )، و للاختبارات المساعدة ( ) وفقًا للإجماع، مما يشير إلى أنه قد لا يكون هناك فرق ذو معنى في أداء النموذج في هذه الفئات بين PathChat والوصيف GPT4V. وبالمثل، وفقًا للتقييم القائم على الترتيب الأكثر ذاتية، وجدنا أن PathChat كان قابلاً للمقارنة وفي الواقع مفضل قليلاً من قبل لجنة من علماء الأمراض مقارنةً بـ GPT4V (نسبة فوز متوسطة تبلغ ونسبة خسارة مقابل GPT4V لـ “السريرية” ونسبة فوز متوسطة تبلغ ونسبة خسارة للاختبارات المساعدة) في هذه الفئات نفسها. نلاحظ أننا قمنا بتضمين أسئلة “السريرية” و”الاختبارات المساعدة” من أجل تقييم شامل لقدرات نماذج المساعد الذكي في معالجة الاستفسارات المتعلقة بالمرض. ومع ذلك، غالبًا ما لا تتطلب هذه الأسئلة فحصًا فعليًا لصورة النسيج ولكنها تهدف بدلاً من ذلك إلى اختبار قدرة النموذج على استرجاع المعرفة الخلفية ذات الصلة بالمرض (على سبيل المثال، “ما هي التغيرات الجزيئية المحددة التي توجد عادة في المرض X، وكيف قد تؤثر على التنبؤ أو الخيارات العلاجية؟”). نتيجة لذلك، ليس من المفاجئ أن تتمكن حتى المساعدات الذكية متعددة الأغراض مثل LLaVA 1.5 غالبًا من الإجابة بشكل كافٍ على الأسئلة في هذه الفئات وقد يتفوق GPT4V بشكل خاص هنا حيث يُفترض أنه أكبر بكثير ومدرب على معرفة أكثر شمولاً من الإنترنت مقارنة بالنماذج مفتوحة المصدر وPathChat. نظرًا لأن هذه الاستفسارات يمكن غالبًا معالجتها بسهولة من خلال وسائل تقليدية للاستعلام مثل البحث في الإنترنت أو استشارة دليل مرجعي، فإننا نركز على فئات “الميكروسكوبية” و”التشخيص” كمؤشرات رئيسية لفائدة النماذج المختلفة كمساعدين لغويين بصريين للمرض، نظرًا لأن وسائل الاستعلام التقليدية المذكورة أعلاه لا تلبي الحاجة للإجابة على الأسئلة البصرية المدعومة بالذكاء الاصطناعي بناءً على صور المرض. تم تضمين تحليل إضافي لأداء النموذج حسب الفئات الفرعية في جداول البيانات التكميلية 28-38. نلاحظ أنه على الرغم من أن معيار الإجابة على الأسئلة المفتوحة لدينا محدد لمجال المرض، إلا أن حجمه حوالي ضعف 140 سؤالًا المستخدمة في عمل سابق [58] لتقييم الخبراء البشريين لقدرة LLMs على ترميز المعرفة السريرية العامة.
أخيرًا، نلاحظ أنه مشابهًا لملاحظتنا في التقييم القائم على الاختيار المتعدد، على الأرجح بسبب الحواجز التي تم تنفيذها بواسطة GPT4V، رفض 38 من 260 سؤالًا تم تقديمها إلى GPT4V بوضوح الإجابة (تم إجراء حد أقصى من 3 محاولات لكل سؤال، انظر تقييم GPT4V في قسم الطرق لمزيد من التفاصيل). متسقة مع تقييم نماذج أخرى، كانت جميع استجابات GPT4V، بغض النظر عما إذا كانت ناجحة أم لا، معتمة / مختلطة وعُرضت على علماء الأمراض للتقييم دون معالجة خاصة. ومع ذلك، من أجل الشفافية، نسجل عدد الاستفسارات غير الناجحة في النهاية لـ GPT4V في كل فئة سؤال (جدول البيانات التكميلية 39) ونبلغ أيضًا عن الأداء فقط على مجموعة الأسئلة التي أجاب عليها GPT4V بنجاح (جداول البيانات التكميلية 40-64)، والتي شهدت استمرار PathChat في التفوق على GPT4V بفارق يزيد عن 20% في الدقة (على سبيل المثال، 81.2% مقابل لـ 202 سؤالًا مع إجماع، ).
عرض PathChat على حالات استخدام متنوعة
بالإضافة إلى تقييم PathChat على أسئلة نمط الاختيار المتعدد والإجابة على الأسئلة المفتوحة، حاولنا تصور واستكشاف حالات استخدام محتملة لـ PathChat كمساعد ذكاء اصطناعي متخصص في علم الأمراض. لاحظنا أن PathChat يمكنه تحليل ووصف تفاصيل شكلية ملحوظة في صور النسيج، والإجابة على أسئلة تتطلب معرفة خلفية في علم الأمراض والطب الحيوي العام بالإضافة إلى المدخلات البصرية وحدها (الشكل 4a-d). تتيح القدرة على تحليل الميزات البصرية ودمجها بشكل مرن مع سياق سريري إضافي ومعرفة طبية (يتم تحديدها ببساطة عبر اللغة الطبيعية)، وتفسيرها في سياق إرشادات تشخيصية محددة (مثل تصنيف Gleason) من الصندوق PathChat لمدى أوسع بكثير من التطبيقات مقارنةً بنماذج الإجابة على الأسئلة البصرية المحددة أو تسميات الصور التي تم تحسينها على مجموعات بيانات صغيرة نسبيًا ذات نطاق محدود [40، 41، 42، 43، 44]. بالإضافة إلى ذلك، فإن الدعم للمحادثة التفاعلية متعددة الأدوار يمكّن PathChat من أن يعمل كمستشار للتشخيص التفريقي بمساعدة الإنسان، حيث يمكن أن يتبع التقييم الأولي المدعوم بالذكاء الاصطناعي سياقًا سريريًا إضافيًا، ونتائج الاختبارات التي يتم إنشاؤها لاحقًا لتضييق الفروق (الشكل 4e، الشكل 10 من البيانات الموسعة). قد يكون هذا ذا قيمة خاصة في الحالات التي تتطلب إجراءات طويلة ومعقدة مثل سرطانات غير معروفة المصدر (CUPs) وفي البيئات ذات الموارد المحدودة حيث قد يكون الوصول إلى علماء الأمراض ذوي الخبرة محدودًا.
نقاش
شهد مجال علم الأمراض الحاسوبي تقدمًا كبيرًا على مر السنين في تطوير نماذج تنبؤية دقيقة ومتخصصة بشكل متزايد تعتمد على بيانات الصور و/أو الجينوم. بالنسبة لصور الأنسجة بشكل خاص، كان هناك مؤخرًا اهتمام متزايد في بناء مشفرات رؤية أساسية غير مرتبطة بمهمة معينة تم تدريبها مسبقًا باستخدام كميات كبيرة من الصور غير المعلّمة، والتي يمكن أن توفر تمثيلات ميزات قوية لعمليات العمل المختلفة تحت الإشراف أو بدون إشراف. ومع ذلك، فإن النمو المتفجر في تكنولوجيا الذكاء الاصطناعي التوليدي، وبشكل خاص نماذج اللغة الكبيرة، كما يتضح من أمثال ChatGPT، يبدأ في فتح أفق جديد محتمل لكل من أبحاث علم الأمراض الحاسوبي والتطبيقات الواقعية في الممارسة السريرية لعلم الأمراض. يمكن لنماذج الذكاء الاصطناعي العامة المزودة بفهم اللغة الطبيعية استخدام النص كوسيلة موحدة لتحديد نية المستخدم بشكل مرن (أي، في شكل مطالبة مخصصة) ولإنتاج مخرجات بمستويات مختلفة من التعبير (أي، من كلمة واحدة إلى استجابات ثنائية أو متعددة الخيارات إلى جمل متماسكة مع خطوات تفكير) التي تؤدي مهام متنوعة (مثل، التلخيص، التصنيف، التسمية، الاسترجاع، الإجابة على الأسئلة، والمزيد). بالنسبة لمجال علم الأمراض بشكل خاص، يمكن أن يكون لهذا النموذج في النظرية تطبيقات في مجموعة واسعة من السيناريوهات عبر التعليم والبحث بالإضافة إلى اتخاذ القرارات السريرية بمشاركة الإنسان.
في هذا العمل، نقدم إثبات مفهوم لبناء مساعد ذكاء اصطناعي مصمم لعلم الأمراض البشرية. كما نقدم، حسب علمنا، التقييم الأكثر شمولاً لهذه التكنولوجيا في مجال علم الأمراض الحاسوبي من خلال مقارنة نموذجنا، PathChat، مع النماذج المتاحة للجمهور التي تم تطويرها للتعلم الآلي العام وضمن نطاق العلوم الطبية الحيوية الأوسع، بالإضافة إلى حل تجاري متقدم، GPT4V. أنشأنا PathQABench، وهو معيار عالي الجودة ومُعد من قبل خبراء يهدف إلى تقييم مجموعة متنوعة من القدرات ذات الصلة بممارسة علم الأمراض التشريحي، بما في ذلك الفحص المورفولوجي لصور المجهر النسيجي، وإجراء التشخيصات بناءً على كل من علم الأنسجة والسياق السريري، وتقييم درجة الورم والتمايز، واقتراح المزيد من…اختبار الجزيئات، وفهم عوامل الخطر، والتشخيص والعلاج للمرض الأساسي. قمنا بتقييم هذه المهارات من خلال مزيج من أسئلة تشخيصية بأسلوب الاختيار من متعدد بالإضافة إلى أسئلة مفتوحة وتقييم من خبراء بشريين. في كلا بيئتي التقييم، وجدنا أن PathChat يقارن بشكل إيجابي مع أفضل الحلول التجارية الحالية GPT4V (الذي يُفترض أنه أكبر بكثير وأكثر تكلفة من PathChat)، بالإضافة إلى تفوقه بشكل كبير على نماذج اللغة الكبيرة المتاحة للجمهور التي تم اختبارها من حيث دقة التشخيص وجودة الاستجابة. بالإضافة إلى ذلك، أظهرنا أن الدعم للمحادثات التفاعلية متعددة الأدوار قد يمكّن PathChat من التعامل مع حالات استخدام إضافية مثل الفحوصات التشخيصية المعقدة. بالنظر إلى نتائجنا، نأمل أن يجد PathChat تطبيقات مؤثرة في تعليم علم الأمراض، والبحث، بالإضافة إلى اتخاذ القرارات السريرية بمشاركة البشر مع نضوج التكنولوجيا مع مرور الوقت.
قد يؤدي المزيد من التوافق مع نية الإنسان باستخدام تقنيات مثل التعلم المعزز من ملاحظات الإنسان (RLHF) إلى تقليل الهلوسة في نماذج المساعدين الذكيين المعتمدة على MLLM بشكل عام، كما قد يساعدها في التقاط بعض الفروق الدقيقة المحددة لممارسة علم الأمراض، مثل متى يجب طلب معلومات سياقية إضافية أو نتائج اختبارات عندما يكون من غير الممكن أو من الصعب استبعاد بعض الأمراض المتشابهة شكليًا بناءً على علم الأنسجة H&E فقط، أو لطلب توضيح بشأن الإرشادات الخاصة بالمؤسسة للتشخيص والعلاج. بالنسبة للنشر في العالم الحقيقي، من المحتمل أن تكون هناك حاجة أيضًا إلى تحسينات إضافية والتحقق من صحة النموذج لضمان قدرته على التعرف بشكل متسق وصحيح على الاستفسارات غير الصالحة (مثل المدخلات غير المتعلقة بعلم الأمراض أو غير المنطقية) والامتناع عن الإجابة بمخرجات غير متوقعة أو خاطئة.
من المحتمل أن تعزز الأبحاث المستقبلية قدرات PathChat والمساعدين الذكيين المعتمدين على MLLM من خلال إضافة دعم لإدخال صورة كاملة بدقة جيجابكسل واحدة أو عدة صور. قد يوسع هذا من فائدتها في تشخيص الكيانات الصعبة والحدودية من خلال توفير سياق قيم يتجاوز المناطق المحددة مسبقًا.
بالإضافة إلى ذلك، بسبب التدريب على مجموعات بيانات كبيرة تم جمعها بأثر رجعي والتي تحتوي حتمًا على معلومات قديمة، قد تعكس هذه النماذج “الإجماع العلمي في الماضي” بدلاً من اليوم. على سبيل المثال، مع تطور المصطلحات الطبية والإرشادات، قد تؤدي استجابة النموذج التي تشير إلى المصطلح القديم “الورم الدبقي متعدد الأشكال” إلى عدم دقة في الحقائق. بالإضافة إلى التدريب المستمر بمعرفة جديدة ومحدثة، قد تتضمن اتجاهات البحث الأخرى تنسيق تعليمات محددة تجعل النموذج على دراية بالتغييرات في المصطلحات والإرشادات أو استخدام توليد معزز بالاسترجاع مع قاعدة بيانات معرفة محدثة باستمرار. أخيرًا، لجعل هذه الأدوات أكثر فائدة لعلماء الأمراض والباحثين، قد يكون من المجدي النظر في دعم المهام المتخصصة بشكل صريح مثل العد الدقيق أو تحديد مواقع الكائنات (مثل “كم عدد اللمفاويات في هذه الصورة؟” أو “توفير إحداثيات الصندوق المحيط بالشكل الانقسامي بدقة”) وبناء تكامل مساعدي الذكاء الاصطناعي مثل PathChat مع أدوات مثل مشاهدات الشرائح الرقمية أو السجلات الصحية الإلكترونية.
Main References
[1] Andrew H Song et al. “Artificial intelligence for digital and computational pathology”. In: Nature Reviews Bioengineering (2023), pp. 1-20.
[2] Artem Shmatko et al. “Artificial intelligence in histopathology: enhancing cancer research and clinical oncology”. In: Nature Cancer 3.9 (2022), pp. 1026-1038.
[3] Richard J Chen et al. “Towards a general-purpose foundation model for computational pathology”. In: Nature Medicine 30.3 (2024), pp. 850-862.
[4] Ozan Ciga, Tony Xu, and Anne Louise Martel. “Self supervised contrastive learning for digital histopathology”. In: Machine Learning with Applications 7 (2022), p. 100198.
[5] Haotian Liu et al. “Visual Instruction Tuning”. In: NeurIPS. 2023.
[6] Yuxuan Sun et al. “PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology”. In: Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. 5. 2024, pp. 5034-5042.
[7] Josh Achiam et al. “Gpt-4 technical report”. In: arXiv preprint arXiv:2303.08774 (2023).
[8] Jana Lipkova et al. “Artificial intelligence for multimodal data integration in oncology”. In: Cancer cell 40.10 (2022), pp. 1095-1110.
[9] Nicolas Coudray et al. “Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning”. In: Nature medicine 24.10 (2018), pp. 1559-1567.
[10] Ming Y Lu et al. “Data-efficient and weakly supervised computational pathology on whole-slide images”. In: Nature biomedical engineering 5.6 (2021), pp. 555-570.
[11] Wouter Bulten et al. “Automated deep-learning system for Gleason grading of prostate cancer using biopsies: a diagnostic study”. In: The Lancet Oncology 21.2 (2020), pp. 233-241.
[12] Wouter Bulten et al. “Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge”. In: Nature medicine 28.1 (2022), pp. 154-163.
[13] Babak Ehteshami Bejnordi et al. “Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer”. In: Jama 318.22 (2017), pp. 2199-2210.
[14] Andrew H Beck et al. “Systematic analysis of breast cancer morphology uncovers stromal features associated with survival”. In: Science translational medicine 3.108 (2011).
[15] Richard J Chen et al. “Pan-cancer integrative histology-genomic analysis via multimodal deep learning”. In: Cancer Cell 40.8 (2022), pp. 865-878.
[16] Y. Lee, J.H. Park, S. Oh, et al. “Derivation of prognostic contextual histopathological features from whole-slide images of tumours via graph deep learning”. In: Nat. Biomed. Eng (2022).
[17] Mohamed Amgad et al. “A population-level digital histologic biomarker for enhanced prognosis of invasive breast cancer”. In: Nature Medicine (2023), pp. 1-13.
[18] Pooya Mobadersany et al. “Predicting cancer outcomes from histology and genomics using convolutional networks”. In: Proceedings of the National Academy of Sciences 115.13 (2018), E2970-E2979.
[19] Stephen-John Sammut et al. “Multi-omic machine learning predictor of breast cancer therapy response”. In: Nature 601.7894 (2022), pp. 623-629.
[20] Zhi Huang et al. “Artificial intelligence reveals features associated with breast cancer neoadjuvant chemotherapy responses from multi-stain histopathologic images”. In: NPJ Precision Oncology 7.1 (2023), p. 14.
[21] Ming Y Lu et al. “AI-based pathology predicts origins for cancers of unknown primary”. In: Nature 594.7861 (2021), pp. 106-110.
[22] Fei Tian et al. “Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning”. In: Nature Medicine (2024), pp. 1-11.
[23] Jakob Nikolas Kather et al. “Pan-cancer image-based detection of clinically actionable genetic alterations”. In: Nature cancer 1.8 (2020), pp. 789-799.
[24] Yu Fu et al. “Pan-cancer computational histopathology reveals mutations, tumor composition and prognosis”. In: Nature cancer 1.8 (2020), pp. 800-810.
[25] Sophia J Wagner et al. “Transformer-based biomarker prediction from colorectal cancer histology: A large-scale multicentric study”. In: Cancer Cell 41.9 (2023), pp. 1650-1661.
[26] Simon Graham et al. “One model is all you need: multi-task learning enables simultaneous histology image segmentation and classification”. In: Medical Image Analysis 83 (2023), p. 102685.
[27] Maxime Oquab et al. “DINOv2: Learning Robust Visual Features without Supervision”. In: Transactions on Machine Learning Research (2023).
[28] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In: International conference on machine learning. PMLR. 2021, pp. 8748-8763.
[29] Jiasen Lu et al. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks”. In: Advances in neural information processing systems 32 (2019).
[30] Andrew J Schaumberg et al. “Interpretable multimodal deep learning for real-time pan-tissue pan-disease pathology search on social media”. In: Modern pathology 33.11 (2020), pp. 2169-2185.
[31] Zhi Huang et al. “A visual-language foundation model for pathology image analysis using medical twitter”. In: Nature medicine 29.9 (2023), pp. 2307-2316.
[32] Sheng Zhang et al. “BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs”. In: arXiv preprint arXiv:2303.00915 (2023).
[33] Jevgenij Gamper and Nasir Rajpoot. “Multiple instance captioning: Learning representations from histopathology textbooks and articles”. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021, pp. 16549-16559.
[34] Wisdom Ikezogwo et al. “Quilt-1m: One million image-text pairs for histopathology”. In: Advances in Neural Information Processing Systems 36 (2024).
[35] Ming Y Lu et al. “A visual-language foundation model for computational pathology”. In: Nature Medicine 30.3 (2024), pp. 863-874.
[36] Ming Y Lu et al. “Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images”. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023, pp. 1976419775.
[37] Ekin Tiu et al. “Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning”. In: Nature Biomedical Engineering 6.12 (2022), pp. 1399-1406.
[38] Yuhao Zhang et al. “Contrastive learning of medical visual representations from paired images and text”. In: Machine Learning for Healthcare Conference. PMLR. 2022, pp. 2-25.
[39] Benedikt Boecking et al. “Making the most of text semantics to improve biomedical vision-language processing”. In: European conference on computer vision. Springer. 2022, pp. 1-21.
[40] Heyu Zhang et al. “PathNarratives: Data annotation for pathological human-AI collaborative diagnosis”. In: Frontiers in Medicine 9 (2023), p. 1070072.
[41] Masayuki Tsuneki and Fahdi Kanavati. “Inference of captions from histopathological patches”. In: International Conference on Medical Imaging with Deep Learning. PMLR. 2022, pp. 1235-1250.
[42] Renyu Zhang et al. “Evaluating and interpreting caption prediction for histopathology images”. In: Machine Learning for Healthcare Conference. PMLR. 2020, pp. 418-435.
[43] Usman Naseem, Matloob Khushi, and Jinman Kim. “Vision-language transformer for interpretable pathology visual question answering”. In: IEEE Journal of Biomedical and Health Informatics 27.4 (2022), pp. 1681-1690.
[44] Xuehai He. “Towards Visual Question Answering on Pathology Images.” In: Proceedings of the 59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing. Vol. 2. 2021.
[45] Long Ouyang et al. “Training language models to follow instructions with human feedback”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 27730-27744.
[46] Tom Brown et al. “Language models are few-shot learners”. In: Advances in neural information processing systems 33 (2020), pp. 1877-1901.
[47] Hugo Touvron et al. “Llama 2: Open foundation and fine-tuned chat models”. In: arXiv preprint arXiv:2307.09288 (2023).
[48] Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways”. In: Journal of Machine Learning Research 24.240 (2023), pp. 1-113.
[49] Chunyuan Li et al. “Multimodal foundation models: From specialists to general-purpose assistants”. In: arXiv preprint arXiv:2309.10020 (2023).
[50] Jean-Baptiste Alayrac et al. “Flamingo: a visual language model for few-shot learning”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 23716-23736.
[51] Michael Moor et al. “Foundation models for generalist medical artificial intelligence”. In: Nature 616.7956 (2023), pp. 259-265.
[52] S’ebastien Bubeck et al. “Sparks of artificial general intelligence: Early experiments with gpt-4”. In: arXiv preprint arXiv:2303.12712 (2023).
[53] Chunyuan Li et al. “Llava-med: Training a large language-and-vision assistant for biomedicine in one day”. In: Advances in Neural Information Processing Systems 36 (2024).
[54] Tao Tu et al. “Towards generalist biomedical ai”. In: NEJM AI 1.3 (2024), Aloa2300138.
[55] Chaoyi Wu et al. “Can gpt-4v (ision) serve medical applications? case studies on gpt-4v for multimodal medical diagnosis”. In: arXiv preprint arXiv:2310.09909 (2023).
[56] Ming Liang Oon et al. “Bridging bytes and biopsies: A comparative analysis of ChatGPT and histopathologists in pathology diagnosis and collaborative potential”. In: Histopathology (2023).
[57] Mehmet Saygin Seyfioglu et al. “Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos”. In: arXiv preprint arXiv:2312.04746 (2023).
[58] Karan Singhal et al. “Large language models encode clinical knowledge”. In: Nature 620.7972 (2023), pp. 172180.
[59] Xisen Jin et al. “Lifelong Pretraining: Continually Adapting Language Models to Emerging Corpora”. In: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022, pp. 4764-4780.
[60] Patrick Lewis et al. “Retrieval-augmented generation for knowledge-intensive nlp tasks”. In: Advances in Neural Information Processing Systems 33 (2020), pp. 9459-9474.
طرق عبر الإنترنت
تنسيق مجموعة بيانات PathChat
قمنا بتجميع مجموعة بيانات تحتوي على 456,916 تعليمات مع إجمالي 999,202 دورة سؤال وجواب لتدريب PathChat على الرد على الاستفسارات المتعلقة بالطب الشرعي. التعليمات مصنفة تقريبًا حسب “المحادثة” ( ), “الوصف” ( اختيار من متعدداستجابة حرة )، “نص فقط” ( ) و “حاجز الأمان” ( ). يتم عرض مثال توضيحي لكل فئة في الشكل 1 من البيانات الموسعة. وافق مجلس المراجعة المؤسسية في ماس جنرال برايغام على التحليل الرجعي لصور علم الأمراض والتقارير المقابلة. لم يتم إجراء حسابات لحجم العينة. تم إزالة الهوية من جميع البيانات قبل. لضمان أن يتمكن PathChat من التعميم على مجموعة متنوعة من التعليمات، تشمل البيانات عدة تنسيقات تعليمات مختلفة، بما في ذلك الحوار المفتوح متعدد الأدوار، وصورة مفصلة. الوصف، أسئلة الإجابة القصيرة، أسئلة الاختيار من متعدد، وأسئلة النص فقط. تم استخدام مجموعة متنوعة من مصادر البيانات لإنشاء مجموعة بيانات التعليم، تشمل تسميات الصور، مقالات تعليمية من PubMed Open Access (PMC-OA)، تقارير حالات الأمراض، ومناطق الاهتمام المستخرجة من الصور النسيجية الكاملة (WSIs)، والتي تم الحصول عليها من مؤسسات متعددة. لم يتم استخدام بيانات TCGA للتدريب وتم الاحتفاظ بها كجزء من تقييمنا اللاحق. تم إجراء تصفية البيانات لكل مصدر على حدة لضمان الجودة والملاءمة لتدريب مساعد رؤية لغة محدد للأمراض. تشمل أمثلة على القواعد المستخدمة بشكل متكرر للتصفية إزالة تسميات الصور التي تكون قصيرة للغاية (مثل < 12 كلمة) أو غير مفيدة وعامة للغاية (مثل “صورة H&E لورم.”). كما قمنا أيضًا بإزالة التسميات أو المقاطع المتعلقة بأمراض الحيوانات (تشمل الكلمات الرئيسية: “جرذ”، “خنزير”، إلخ) والدراسات التجريبية (تشمل الكلمات الرئيسية: “تجريبي”، “تحكم إيجابي”، إلخ) باستخدام مطابقة نمط regex. أخيرًا، ندرج أمثلة تعليمات أساسية، حيث يتم إعطاء تعليمات محددة للصورة مثل “وصف هذه الصورة النسيجية لكتلة رئوية” عندما لا يتم تقديم صورة، من المتوقع أن يخرج النموذج بالاستجابة “عذرًا، لا أستطيع مساعدتك لأنك لم تقم بتحميل أي صورة.” بالإضافة إلى ذلك، عند إعطاء صورة غير مرتبطة بالأمراض (مأخوذة من MS COCO[61])، يتم تدريب النموذج على الخروج بـ “عذرًا، يمكنني مساعدتك فقط في الاستفسارات المتعلقة بالأمراض.” بالنسبة لبعض تنسيقات البيانات غير المنظمة، نقوم بتحفيز نماذج اللغة العامة مفتوحة المصدر[46، 62] لهيكلة النص الأصلي تلقائيًا في تنسيق منظم. ثم تم إنشاء التعليمات يدويًا من البيانات المنظمة مع إدخال مستمر من عدة أطباء مختصين معتمدين. وافق مجلس المراجعة المؤسسية في Mass General Brigham على التحليل الرجعي لشرائح الأمراض وتقارير الأمراض المقابلة. تم إزالة تعريف جميع صور الأمراض قبل التحليل الحسابي وتطوير النموذج.
تصميم وتدريب نموذج PathChat
مقارنةً بنماذج اللغة الكبيرة التي تعتمد على النصوص فقط، يتم تدريب نموذج اللغة الكبير متعدد الوسائط (MLLM) لفهم والاستجابة لتعليمات المستخدم في شكل استفسارات باللغة الطبيعية التي قد تحتوي أيضًا على مدخلات من وسائط أخرى مثل الصور. الدعم للتعددية الوسائط أمر أساسي في مجال علم الأمراض النسيجي، حيث تظل دراسة وتفسير المعلومات البصرية في الصور المجهرية عالية الدقة (بالإضافة إلى معلومات سريرية أخرى) حجر الزاوية في هذا التخصص وتمتد إلى العديد من جوانب تشخيص الأمراض وإدارتها في الطب الحديث.
مستوحاة من LLaVA، يتكون نموذجنا متعدد اللغات، PathChat، من ثلاثة مكونات رئيسية: مشفر الرؤية، وحدة الإسقاط متعددة الوسائط، ونموذج اللغة الكبير. مشفر الرؤية مسؤول عن ترميز الصورة من مساحة بكسل RGB الأصلية عالية الأبعاد إلى تمثيل ميزات منخفض الأبعاد مناسب للمعالجة بواسطة الوحدات اللاحقة. وحدة الإسقاط متعددة الوسائط تربط مخرجات مشفر الرؤية بنموذج اللغة الكبير (LLM) من خلال إسقاط الرموز البصرية إلى نفس البعد مثل مساحة تضمين نموذج اللغة للنصوص. يأخذ نموذج اللغة الكبير التعليمات باللغة الطبيعية كمدخل (بعد أن يتم تقسيمها إلى رموز بواسطة أداة تقسيم الرموز)، ويجمع بين الرموز النصية المضمنة ورمز الصورة الناتج من وحدة الإسقاط متعددة الوسائط لتشكيل التسلسل الكامل لرموز المدخلات، ويتنبأ بالاستجابة المرغوبة عبر التنبؤ بالكلمة التالية بطريقة تلقائية. يتم فك تشفير الاستجابة الناتجة أخيرًا بواسطة أداة تقسيم الرموز مرة أخرى إلى اللغة الطبيعية وتقديمها للمستخدم النهائي.
بالنسبة لنموذج اللغة الكبير، نعتمد على النسخة التي تحتوي على 13 مليار معلمة من عائلة Meta Llama 2[47] المستخدمة على نطاق واسع، والتي هي نموذج لغة تلقائي الانحدار قائم على المحولات فقط، مع 40 طبقة من المحولات، كل منها تحتوي على 40 رأس انتباه، بعد تضمين يبلغ 5,120، بعد مخفي يبلغ 13,824 وتستخدم ترميزات موضعية دوارة، تدعم بشكل أصلي طول سياق أقصى يبلغ 4,096. مشابهًا لـ LLaVa 1.5، نستخدم مشفر رؤية يعتمد على بنية ViT-Large القياسية (ViT-L) التي تتكون من 24 كتلة انتباه متعددة الرؤوس من المحولات، كل منها تحتوي على 16 رأس انتباه، بعد تضمين يبلغ 1,024 وبعد مخفي للتغذية الأمامية يبلغ 4,096. حجم الرمز هوونضيف ترميز الموقع المطلق المتعلم إلى كل رمز. يتكون جهاز العرض متعدد الوسائط من طبقة تجميع انتباه تليها شبكة عصبية متعددة الطبقات (MLP) مكونة من طبقتين. تستخدم طبقة تجميع الانتباه (المعروفة أيضًا باسم إعادة تشكيل المتلقي في بعض الأعمال) مجموعة من 128 استعلامًا كامنًا متعلمًا والانتباه المتقاطع متعدد الرؤوس لتقليل خريطة ميزات الطبقة الأخيرة من هيكل الترميز إلى تسلسل ثابت الطول من رموز الصور بأبعاد أولية تبلغ 768 لزيادة كفاءة التدريب والاستدلال، وكذلك لمنع الطول الإجمالي لتسلسل الرموز من تجاوز حجم نافذة السياق لنموذج اللغة الكبير. تتبع شبكة MLP اللاحقة التصميم المستخدم في LLava 1.5، وتتكون من طبقة خفية واحدة وتفعيل GeLU، مما يرفع رموز الصور إلى أبعاد تضمين نموذج اللغة الكبير (أي 5,120 لنموذج Llama 213 B). نقوم بتهيئة أوزان هيكل الترميز البصري من UNI، وهو مشفر عام مدرب مسبقًا فقط للرؤية في حالة SOTA لأغراض عامة لعلم الأمراض H&E، ونستمر في تحسين هيكل الترميز مع وحدة تجميع الانتباه على مجموعة بيانات موسعة من 1.18 صورة مقترنة وعناوين.ووصفة التدريب المسبق للغة المرئية CoCa[66] (انظر جدول البيانات التكميلية 1 للحصول على معلمات فرعية مفصلة).
نتبع وصفة تدريب MLLM لـ LLaVa 1.5، والتي تتضمن مرحلتين من التدريب. في المرحلة الأولى، مرحلة التدريب المسبق، يتم الحفاظ على أوزان LLM ثابتة وتستقبل فقط جهاز العرض متعدد الوسائط تحديثات المعلمات لتعلم إسقاط مناسب من فضاء رموز الصور إلى فضاء التضمين المشترك لرموز النص المستخدمة من قبل LLM. لهذا الغرض البسيط، يتم توجيه MLLM ببساطة للتنبؤ بالتسمية المقابلة لكل صورة باستخدام حوالي 100 ألف زوج من الصور والتسميات مأخوذة من مجموعة البيانات السابقة لدينا، دون الحاجة لاستخدام أي بيانات تعليمية منظمة. في المرحلة الثانية، مرحلة تحسين التعليمات، يتم تدريب كل من LLM والمشغل بشكل متكامل لتوليد استجابات لتعليمات متنوعة تشمل كل من اللغة الطبيعية والمدخلات البصرية، كما هو موضح في قسم تنظيم مجموعة البيانات. على وجه التحديد، نظرًا لتعليماتالإجابة المرجعية والصورة ، كل منها ممثلة كسلسلة من المدخلات المرمزة، نقوم بزيادة احتمال كل رمز في، مفهرس بواسطةتحت الدردشة الآلية (التي تُعتبر نموذج لغة تلقائي):
يمكن توسيع هدف ضبط التعليمات هذا بسهولة ليشمل بيانات التعليمات متعددة الأدوار من خلال الاعتماد على جميع الأدوار السابقة من التعليمات والإجابة المرجعية. بالنسبة للتعليمات التي لا توجد فيها صورة،غير معرف وتم إزالته من تسلسل التكييف. وبالمثل، إذا كانت هناك صور متعددة ترافق تعليمات معينة، فإننا ببساطة نقوم بدمج رموز الصور الخاصة بها، مع إدراج رمز السطر الجديد (“In”) كفاصل بينهما، ونعامل التسلسل الكامل على أنهتم إجراء كل من التدريب المسبق والتدريب الدقيق باستخداموحدة معالجة الرسوميات NVIDIA A100 بسعة 80 جيجابايت. نشير إلى جداول البيانات التكميلية 2 و 3 للحصول على تفاصيل المعلمات الفائقة المستخدمة في عملية التدريب.
معيار أسئلة وأجوبة في علم الأمراض تم تنسيقه بواسطة خبراء
تقييم نماذج الذكاء الاصطناعي القوية متعددة الوسائط في علم الأمراض النسيجي هو تحدٍ بارز، ونعلم أنه لا يوجد حاليًا معيار تقييم عام متاح للجمهور، عالي الجودة، ومُعد من قبل خبراء، يركز على علم الأمراض النسيجي. أحد المرشحين المحتملين هو PathVQA[44]، الذي تم استخدامه في الأدبيات لإظهار وتقييم قدرات فهم صور علم الأمراض لمختلف نماذج الذكاء الاصطناعي. ومع ذلك، كشفت مراجعتنا اليدوية عن العديد من أنواع الأمثلة ذات الجودة المنخفضة في المعيار، على الأرجح بسبب نقص المراجعة من قبل الخبراء والطبيعة الآلية لعملية تنسيق البيانات المستخدمة من قبل PathVQA. كما هو موضح، نقوم بتنسيق معيار تقييم جديد عالي الجودة مناسب لتقييم نماذج اللغة الكبيرة متعددة الوسائط المتطورة في علم الأمراض، والذي سيتم وصفه بالتفصيل أدناه.
لتقييم PathChat، قمنا بإعداد معيار QA، يسمى PathQABench، باستخدام صور عالية الدقة، تم اختيارها يدويًا من قبل طبيب أمراض معتمد من مجلس الإدارة من 105 حالة WSI باستخدام عارض QuPath الرقمي مفتوح المصدر. تم استبعاد هذه الحالات من جميع مراحل تدريب PathChat. من بين 105 صورة ROIs، تم اختيار 53 ROI من مصادر خاصة داخل مستشفى بريغهام والنساء للدراسة، بينما تم اختيار 52 ROI الأخرى من WSIs في مستودع TCGA العام. تغطي WSIs في المجموع 11 موقعًا نسيجيًا و54 تشخيصًا (انظر جداول البيانات التكميلية 5 و6). يتيح لنا هذا الاختيار التصميمي استخدام مجموعة الأسئلة المستندة إلى WSIs المتاحة للجمهور، المشار إليها باسم PathQABench-Public، لتقييم الحل التجاري الرائد GPT4V (الذي يدعم ChatGPT-4 بقدرات الرؤية) عبر طلبات API، دون خطر انتهاك الإرشادات المؤسسية المتعلقة بمعالجة بيانات المرضى. وبناءً عليه، يتم استخدام مجموعة الأسئلة المستندة إلى WSIs الخاصة، المشار إليها باسم PathQABenchPrivate، فقط لتقييم حلول MLLM الأخرى المتاحة للجمهور التي يمكننا تشغيلها محليًا داخل المستشفى دون نقل البيانات إلى خادم خارجي. لاختيار ROIs، قام طبيب الأمراض المعتمد بمراجعة WSIs المتعلقة بكل تشخيص يدويًا واستخلص ROI واحد لكل WSI حيث كانت الميزات الشكلية ذات الصلة بالتشخيص واضحة. ثم تم نقل التشخيص من هذه WSIs إلى ROIs الصورة واستخدمت لاحقًا في التقييم، سواء للأسئلة المفتوحة أو الأسئلة متعددة الخيارات. تم إجراء هذه التشخيصات في الأصل من قبل أطباء أمراض منفصلين قاموا بفحص الحالات سريريًا، مع الوصول الكامل إلى أي شرائح إضافية في الحالة وسجل المريض الطبي، وكانوا قادرين على طلب وتفسير IHC حسب الحاجة لدراسة الحالة. لاستيعاب تنوع التشخيصات المدرجة في تقييمنا، تختلف ROIs المختارة في التكبير والأبعاد. عبر جميع PathQABench، تتراوح التكبيرات المختارة للـ ROIs منإلىبمتوسط قدرهتتراوح العرض من 859 بكسل إلى 2388 بكسل بمتوسط 1201 بكسل، بينما تتراوح الارتفاعات من 861 بكسل إلى 2390 بكسل بمتوسط 1191 بكسل. بعد ذلك، يقوم الطبيب الشرعي بابتكار ملخص سريري قصير لكل حالة بناءً على تشخيص الحقيقة الأساسية، والذي يتضمن عمر المريض وجنسه وأعراضه السريرية ونتائج الأشعة حيثما كان ذلك مناسبًا. يُشار إلى ملخص البيان كالسياق السريري للحالة المعنية من الآن فصاعدًا. يتم عرض مثال على السياق السريري في الشكل 2أ. ثم قمنا بإنشاء أسئلة تشخيصية بأسلوب اختيار متعدد مغلق، بالإضافة إلى أسئلة مفتوحة تهدف إلى تقييم قدرات النماذج في المساعدة في استفسارات متنوعة تتعلق بالطب الشرعي، والتي تغطي مجموعة من المواضيع التي تشمل، ولكن لا تقتصر على، التشخيص فقط (الشكل البياني الممتد 7، جدول البيانات التكميلية 15).
تم إنشاء ما مجموعه 105 سؤال اختيار من متعدد باستخدام المناطق ذات الأهمية البارزة (سؤال واحد لكل منطقة). في إعداد تقييم أسئلة اختيار من متعدد، قام طبيب أمراض معتمد من المجلس باختيار مجموعة من 10 إجابات ممكنة لكل نظام عضوي، تشمل الإجابات الصحيحة لجميع الأسئلة ضمن ذلك النظام العضوي بالإضافة إلى أخرى. تشخيصات شائعة نسبيًا ضمن ذلك النظام العضوي (البيانات التكميلية الجدول 7). بالنسبة لكل سؤال اختيار من متعدد، نعتبر استراتيجيتين للتقييم. في الإعداد الأول الذي يعتمد فقط على الصورة، يتم تقديم الصورة فقط وسؤال الاختيار من متعدد كمدخلات للنموذج. في الإعداد الثاني، الذي يجمع بين الصورة والسياق السريري والذي تم تصميمه ليحاكي بشكل أقرب سير العمل التشخيصي في العالم الحقيقي، يتم توفير السياق السريري بالإضافة إلى صورة النسج. في كلا الإعدادين، يتم تقييم النموذج بناءً على قدرته على اختيار التشخيص الصحيح من مجموعة الخيارات الممكنة بدقة.
في إعداد تقييم الإجابة على الأسئلة المفتوحة، نستخدم 52 حالة من PathQABench-Public لتنسيق 5 أسئلة لكل حالة، ليكون المجموع 260 سؤالًا. يمكن تصنيف الأسئلة بشكل عام تحت “الميكروسكوبية” و”التشخيص” و”السريرية” و”الاختبارات المساعدة”، كما هو موضح في جدول البيانات التكميلية 15. تركز أسئلة “الميكروسكوبية” و”التشخيص” بشكل خاص على استهداف التشخيص والفحص المورفولوجي باستخدام صور الأنسجة والسياق الإضافي ذي الصلة (عند الاقتضاء)، وهي مهارات أساسية لممارسة علم الأمراض التشريحي. من ناحية أخرى، غالبًا ما تكون أسئلة “السريرية” و”الاختبارات المساعدة” نصية فقط ولا تتطلب فحصًا بصريًا للصورة للإجابة، حيث تغطي مواضيع مثل كيفية استخدام IHCs لتأكيد التشخيص والمعرفة الأساسية المتعلقة بالحالة الأساسية. نلاحظ أنه على الرغم من أن معيارنا للإجابة على الأسئلة المفتوحة محدد بمجال علم الأمراض، إلا أن حجمه أكبر بكثير من 140 سؤالًا تم استخدامها في عمل سابق لتقييم الخبراء البشريين لقدرة نماذج اللغة الكبيرة على ترميز المعرفة السريرية العامة.
تقييم MLLM
نقارن بين PathChat و LLaVA 1.5، وهو نموذج لغة متعدد الأغراض (SOTA MLLM)، بالإضافة إلى LLaVA-Med، وهو نموذج لغة متعدد الأغراض يركز على المجال الطبي، باستخدام مجموعة بيانات PathQABench الكاملة، ونقيم فقط أداء GPT4V على الحالات من PathQABench-Public. يتم تحديد نقاط التحقق المدربة بدقة لهذه النماذج في قسم توفر الشيفرة وملخص التقرير. نستخدم معالج الصور الافتراضي الذي تم تنفيذه بواسطة كل نموذج ونستخدم فك التشفير الجشع أثناء وقت الاستدلال عندما يكون ذلك ممكنًا (غير مدعوم حاليًا لواجهة برمجة تطبيقات GPT4V حيث استخدمنا بدلاً من ذلك المعلمات الافتراضية التي وضعتها OpenAI). يتطلب تقييم GPT4V أيضًا بروتوكولًا أكثر تعقيدًا بسبب الحواجز التي نفذتها OpenAI، والتي سنفصلها في القسم التالي (تقييم GPT4V). بالنسبة لجميع النماذج، يتم تحديد الحد الأقصى لطول كل استجابة تم إنشاؤها إلى 1,024 رمزًا جديدًا تم إنشاؤه.
بالنسبة لأسئلة الاختيار من متعدد، لاحظنا أن كل من PathChat وLLaVA 1.5 وGPT4V يمكنها إخراج الخيار المتوقع بتنسيق متسق ومرغوب (مثل “A” أو “A. سرطان الغدة الرئوية”) والذي يمكن استخدامه مباشرة في خط أنابيب التقييم لدينا لحساب درجة الدقة. ومع ذلك، وجدنا أن LLaVA-Med لم تتمكن من اتباع التعليمات للإجابة بتنسيق مختصر ومتسق مناسب لأسئلة الاختيار من متعدد، وبدلاً من ذلك كانت دائمًا تخرج جملة كاملة. لذلك، بالنسبة لـ LLaVA-Med، قام طبيب أمراض معتمد من المجلس بمراجعة يدوية لكل استجابة للنموذج، واستخراج التشخيص المتوقع، وتقييم صحته مقابل الحقيقة الأساسية، ثم حساب درجة الدقة.
بالنسبة للأسئلة المفتوحة، نجمع التنبؤات لكل نموذج ونقدمها إلى لجنة مكونة من 7 أطباء أمراض لتقييمها بناءً على الترتيب من قبل خبراء بشريين. لكل سؤال، عندما يتم تقديم استجابات النموذج، يتم خلط ترتيبها عشوائيًا ويكون الطبيب أعمى عن النموذج الذي أنتج أي استجابة. تم تصنيف الاستجابات بناءً على، حسب ترتيب الأهمية، 1. اتباع التعليمات (ما إذا كانت الاستجابة قد تناولت التعليمات بشكل صحيح)، 2. اكتمال الإجابة، 3. الإيجاز و 4. استخدام مصطلحات علم الأمراض المقبولة. تم السماح بالتعادل بين استجابتين (أو أكثر). يهدف هذا الجزء من التقييم إلى التقاط مجموعة واسعة من أحكام الخبراء (بما في ذلك التفضيل البشري الذاتي) على الاستجابات. يمكن عرض استجابات النموذج على جميع الأسئلة المفتوحة في المواد التكميلية.
بالإضافة إلى ذلك، نحاول تعيين نتيجة ثنائية أكثر موضوعية صحيحة مقابل غير صحيحة لكل استجابة. لهذه المهمة، طلبنا أولاً من طبيبين معتمدين من المجلس تقييم كل استجابة لكل سؤال بشكل مستقل (من حيث الصحيحة مقابل غير الصحيحة لكل نموذج)، حيث كان كلا الطبيبين أعمى عن النموذج الذي أنتج أي استجابة. بالنسبة للأسئلة التي تحتوي على إجابة واحدة صحيحة (مثل، “ما هو التشخيص الأكثر احتمالاً؟”)، تم تصنيف الاستجابات على أنها غير صحيحة إذا لم يتم تقديم الإجابة الأفضل الوحيدة. بالنسبة للأسئلة المفتوحة (مثل، “ما هي الصبغات المناعية التي ستكون مفيدة في دراسة الورم الدبقي؟”)، تم تصنيف الاستجابات على أنها غير صحيحة إذا كانت أي جزء من الاستجابة متخيلة أو إذا لم تجب الاستجابة على السؤال على الإطلاق. كانت التسميات الصحيحة وغير الصحيحة متعارضة وكان يتم تصنيف كل استجابة على أنها صحيحة أو غير صحيحة. بشكل عام، عبر جميع النماذج وجميع الأسئلة، اتفق الخبيران على من الوقت في تقييمهما مع درجة كابا كوهين المقابلة 0.852، مما يشير إلى اتفاق كبير بين المراقبين، وهو ما يُتوقع نظرًا للطبيعة الأكثر موضوعية لهذا الجزء من التقييم. لتأسيس توافق، طلبنا من الخبيرين مناقشة تقييماتهما للأسئلة التي اختلفا فيها في الأصل. بعد هذه المناقشة، اتفقا في النهاية تمامًا على 235 من 260 سؤالًا لجميع النماذج. في قسم النتائج، نبلغ عن الأداء في هذه المجموعة الفرعية من الأسئلة حيث تم التوصل إلى توافق (باستخدام التوافق كحقيقة أساسية) بالإضافة إلى الإبلاغ عن الأداء وفقًا لتقييم كل خبير فردي لجميع الأسئلة.
تقييم GPT4V
تم إجراء تقييم GPT4V باستخدام الوصول الرسمي لواجهة برمجة التطبيقات المقدمة من OpenAI. تم إجراء جميع استدعاءات واجهة برمجة التطبيقات خلال فبراير 2024 لنموذج gpt-4-vision-preview (النموذج الافتراضي والأكثر تحديثًا المتاح في وقت الدراسة). لاحظنا أن هناك حواجز أمان يبدو أنه تم تنفيذها في GPT4V لمنعها غالبًا من معالجة الاستفسارات التي تتطلب فحص صور علم الأمراض النسيجية. في مثل هذه الحالات، قد تخبر المستخدم أنها لا تستطيع تقديم تفسير لصورة علم الأمراض وأنه يجب عليه أو عليها بدلاً من ذلك استشارة محترف طبي مدرب. تم اعتبار الاستفسارات التي رفضت GPT4V بوضوح معالجة التعليمات المعطاة “غير ناجحة”. في مثل هذه الحالات، نقوم بحد أقصى من 2 إعادة تقديم إضافية لنفس الاستفسار حتى إجمالي 3 محاولات. بعد اتباع بروتوكول التقييم هذا، سجلنا 28 من 52 استفسارًا ناجحًا في تقييم التقييم التشخيصي متعدد الخيارات لحالات PathQABench-Public عندما لا يتم تقديم سياق سريري إضافي كجزء من كل سؤال بينما كانت 47 من 52 استفسارًا ناجحًا في النهاية عندما تم تضمين السياق السريري. باستخدام بروتوكول مماثل، في قسم تقييم QA المفتوح لـ PathQABench-Public، قمنا بعد 222 من 260 استفسارًا ناجحًا. تم تقديم جميع الاستجابات النهائية، بغض النظر عن كونها ناجحة أو غير ناجحة، إلى أطباء الأمراض للتقييم دون معاملة خاصة وتعرضت لنفس بروتوكول التعمية والخلط كما هو الحال مع النماذج الأخرى (انظر تقييم MLLM). تم تقديم تحليل للاستفسارات الناجحة حسب الفئة في جدول البيانات التكميلية 39.
التحليل الإحصائي
استخدمنا تقنية البوتستراب غير المعلمية ( النسخ) لتقدير فترات الثقة للمقاييس المبلغ عنها. تم اختبار الفروق الملحوظة في الأداء لزوج من النماذج من أجل الدلالة الإحصائية عبر اختبار التبديل المزدوج الجانبين ( التباديل)، مع فرضية العدم التي تفيد بعدم وجود فرق في أداء النموذجين. في كل تبديل، يتم تبديل أزواج مستقلة من نتائج التنبؤ للنموذجين عشوائيًا للحصول على فرق جديد في أداء النموذج. القيمة p تتوافق مع نسبة الفروق في أداء النموذج بقيمة مطلقة أكبر من الفرق الملحوظ.
أجهزة وبرامج الحوسبة
استخدمنا بايثون (الإصدار 3.10.13) لجميع التجارب والتحليلات في الدراسة. بالنسبة لتدريب جميع النماذج، استخدمنا وحدات معالجة الرسوميات NVIDIA A100 المهيأة للتدريب متعدد وحدات معالجة الرسوميات باستخدام إطار التعلم العميق مفتوح المصدر الشهير PyTorch (الإصدار 2.0.1، CUDA 11.8). تم تنفيذ جميع وظائف الاستدلال باستخدام وحدات معالجة الرسوميات NVIDIA 3090 بسعة 24 جيجابايت. نستخدم تنفيذ تدريب واستدلال MLLM المقدم من LLaVA (الإصدار 1.1.3) ونقوم بدمج مشفر الرؤية الخاص بنا ومشغل متعدد الوسائط المنفذ في Timm (الإصدار 0.9.2) وPytorch. يتم استخدام Pillow (الإصدار 10.1.0) لمعالجة الصور. تم استخدام Flash Attention (الإصدار 2.3.3) وDeepSpeed (الإصدار 0.9.5) لتمكين تسريع تدريب PathChat MLLM. استخدمنا صورًا من PathQABench وحالات العالم الحقيقي الأخرى التي لم تُستخدم في تدريب النموذج. تم استخدام Matplotlib (الإصدار 3.7.1) وSeaborn (الإصدار 0.12.2) لإنشاء الرسوم البيانية والأشكال. تم إدراج المكتبات المتنوعة الأخرى المستخدمة في ملخص التقرير. للتدريب، تم تدريب UNI، مشفر الرؤية الأساسي المدرب مسبقًا، لمدة 32 ساعة على وحدات معالجة الرسوميات NVIDIA A100 بسعة 3280 جيجابايت في إعداد موزع مكون من 4 عقد (8 وحدات معالجة رسوميات لكل عقدة). تم تحسين مشفر الرؤية المستخدم في PathChat من UNI باستخدام عقدة واحدة من 8 وحدات معالجة رسوميات NVIDIA A100 بسعة 80 جيجابايت لمدة 21.5 ساعة. أخيرًا، تم تدريب النظام المشترك لـ PathChat (بما في ذلك مشفر الرؤية، ومشغل الوسائط المتعددة، ونموذج اللغة الكبير) بشكل مشترك لمدة إجمالية قدرها 17 ساعة و18 دقيقة (يشمل كل من التدريب المسبق والتدريب الدقيق) على عقدة واحدة من 8 وحدات معالجة رسوميات NVIDIA A100 بسعة 80 جيجابايت لإنتاج النموذج النهائي. بالنسبة للاستدلال، يتم تشغيل نموذج PathChat على وحدتين من وحدات معالجة الرسوميات NVIDIA RTX 3090 بسعة 24 جيجابايت، مما أسفر عن متوسط زمن قدره 9.75 ثانية (الانحراف المعياري: 7.71 ثانية) لكل استجابة على 260 سؤالًا مفتوحًا.
توفر البيانات
يمكن الوصول إلى مجموعة بيانات PubMed Central-OA من موقع NIH PubMed Central (https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/). تتوفر صور TCGA WSIs والبيانات السريرية المرتبطة من مركز بيانات الجينوم NIH (https://portal.gdc.cancer.gov). تم إصدار معيار PathQABench-Public المنسق للاستخدام البحثي ويمكن الوصول إليه من خلال: https://github.com/fedshyvana/pathology تدريب MLLM. تم تنسيق بيانات المرضى المستخدمة في هذا المشروع بموافقة مؤسسية من خلال موافقة IRB للدراسة الحالية وبالتالي لا يمكن إتاحتها للجمهور امتثالًا لالتزامات خصوصية المرضى. سيتم تقييم جميع الطلبات للحصول على بيانات معالجة تم تنسيقها داخليًا بناءً على السياسات المؤسسية والقسمية لتحديد ما إذا كانت البيانات المطلوبة تخضع لالتزامات الملكية الفكرية أو خصوصية المرضى. ستتطلب البيانات التي يمكن نقلها اتفاقية نقل مواد أو بيانات بين المؤسسات وستحد من استخدام البيانات لأغراض البحث الأكاديمي غير التجاري. سيعتمد الجدول الزمني الدقيق على تنفيذ مثل هذه الاتفاقيات. يرجى إرسال جميع الطلبات عبر البريد الإلكتروني إلى المؤلف المقابل (وتضمين M.Y.L. أيضًا، mlu16@bwh.harvard.edu)
توفر الشيفرة
تم إتاحة الشيفرة المستخدمة لتدريب PathChat للجمهور للاستخدام الأكاديمي غير التجاري ويمكن الوصول إليها هنا: https://github.com/fedshyvana/pathologyتدريب MLLM[68]. لقد وثقنا جميع طرق التعلم العميق التقنية والمكتبات البرمجية المستخدمة في الدراسة، مع تفاصيل المعلمات الفائقة في جدول البيانات التكميلية. أوزان MLLM المدربة على بيانات نصية داخلية خاصة بالمرضى تخضع لالتزامات خصوصية المرضى وحقوق الملكية الفكرية ولا يمكن إتاحتها. يمكن الوصول إلى كود LLaVA هنا: https://github.com/haotianliu/LLaVA. يمكن الوصول إلى كود LLaVA-Med هنا: https://github.com/microsoft/LLaVA-Med.
مساهمات المؤلفين
M.Y.L. و F.M. تصوروا الدراسة وصمموا التجارب. قام M.Y.L. و B.C. و D.F.K.W و R.J.C و L.W و K.I و I.L و C.C و T.D و F.M و J.J.W بجمع البيانات ومعالجتها. قام M.Y.L و B.C. بتطوير النموذج. قام M.Y.L و B.C و D.F.K.W و M.Z و A.K.C و R.J.C و K.I و A.K و D.P و A.P و F.M و A.S بإجراء التحليل التجريبي وتفسير النتائج. قدم R.J.C و K.I و G.G و I.L و T.D و L.P.L و A.V.P ملاحظات حول التحليل. قام M.Y.L و B.C و D.F.K.W و F.M بإعداد المخطوطة بمشاركة جميع المؤلفين المشاركين. أشرف F.M على البحث.
الشكر والتقدير
تم دعم هذا العمل جزئيًا من قبل صندوق رئيس BWH، BWH و MGH علم الأمراض. كما تم دعم R.J.C من قبل زمالة NSF للدراسات العليا. نشكر تيموثي جانكي، ريتشارد كيني، آبي أحمد وموظفي إدارة النظام في بنية MGB التحتية للبحث والخدمات (ERIS) على دعمهم المخلص في توفير وصيانة الوصول إلى موارد الحوسبة NVIDIA A100. تم دعم هذا العمل من قبل جائزة بنية مركز ماساتشوستس لعلوم الحياة.
المصالح المتنافسة
تم تقديم براءة اختراع تتعلق بهذا العمل من قبل Mass General Brigham (الطلب 63/608,671). تم ترخيص الأدوات والعمليات والنماذج المرتبطة بـ PathChat حصريًا لـ ModellaAI. يمتلك L.P.L و M.Y.L و R.J.C و B.C و F.M و D.F.K.W و J.J.W مصالح ملكية في ModellaAI.
أوصاف الأشكال
الشكل 1
الشكل 1: تنسيق مجموعة بيانات تتبع التعليمات ونظرة عامة على PathChat. أ. قمنا بتنسيق أكبر مجموعة بيانات لتدريب التعليمات المتخصصة في مجال علم الأمراض، والتي تتكون من 456,916 تعليمات واستجاباتها المقابلة تغطي تنسيقات متنوعة (مثل المحادثات متعددة الأدوار، أسئلة الاختيار من متعدد، إجابات قصيرة؛ انظر الشكل 1 في البيانات الموسعة للحصول على أمثلة كاملة) من مصادر متنوعة. ب. لبناء مساعد ذكاء اصطناعي قائم على MLLM يمكنه التفكير في المدخلات البصرية والطبيعية، نبدأ بنموذج مشفر أساسي مدرب مسبقًا فقط على الرؤية، UNI، ونقوم بإجراء مزيد من التدريب المسبق على اللغة البصرية مشابه لـ CONCH. يتم توصيل مشفر الرؤية الناتج بعد ذلك إلى Llama 2 LLM المدرب مسبقًا الذي يحتوي على 13 مليار معلمة عبر وحدة عرض متعددة الوسائط (غير موضحة) لتشكيل بنية MLLM الكاملة. يتم تحسين MLLM عبر مجموعة بيانات تتبع التعليمات المنسقة لبناء PathChat، مساعد ذكاء اصطناعي للغة البصرية متخصص في علم الأمراض البشري. يمكن العثور على مزيد من التفاصيل حول تنسيق البيانات وتدريب النموذج في قسم تنسيق مجموعة بيانات PathChat وتصميم وتدريب نموذج PathChat من طرق على التوالي. القضبان المقياسية هي .
الشكل 2
الشكل 2: تقييم الاختيار من متعدد لـ PathChat. أ. مثال توضيحي لسؤال تشخيصي بأسلوب الاختيار من متعدد. يتضمن الإدخال دائمًا صورة نسيجية بارزة تم اختيارها بواسطة طبيب تشريح معتمد من المجلس وتعليمات لاختيار التشخيص الأكثر احتمالًا من مجموعة من الخيارات الممكنة. في إعداد تقييم الصورة + السياق السريري المصمم لمحاكاة سير العمل التشخيصي في العالم الحقيقي، يتم توفير سياق سريري إضافي ذي صلة (مصمم من قبل طبيب الأمراض، موضح باللون الأزرق) مع صورة النسيج ويتم إضافته إلى السؤال الأصلي. ب. دقة MLLMs على أسئلة تشخيصية بأسلوب الاختيار من متعدد. مجمعة (أسئلة)، PathQABench-Public (), PathQABench-Private (). لاحظ أننا نقارن فقط مع GPT4V على الأسئلة المستندة إلى الحالات المتاحة للجمهور (PathQABench-Public). تمثل القضبان الخطأ فترات الثقة، وتمثل المراكز الدقة المحسوبة. القضبان المقياسية هي .
الشكل 3
الشكل 3: تقييم الاستجابة المفتوحة لـ PathChat ودراسة القارئ من لجنة من سبعة أطباء أمراض.
أ. سير عمل التقييم لترتيب مخرجات النموذج لأسئلة مفتوحة. تم تجنيد لجنة من 7 أطباء أمراض لتقييم استجابات النموذج على 260 سؤالًا مفتوحًا. تم خلط ترتيب الاستجابات من قبل 4 نماذج مساعدات الذكاء الاصطناعي بشكل عشوائي لكل سؤال وقام كل طبيب أمراض بتصنيفها بشكل مستقل لجميع الأسئلة مع عدم معرفته بالنموذج الذي أنتج أي استجابة (انظر تقييم MLLM من طرق لمزيد من التفاصيل). ب. سجلات مباشرة على الأسئلة المفتوحة لـ PathChat مقابل MLLMs الأخرى التي تم تقييمها من قبل 7 أطباء أمراض بشكل مستقل. فوز: تم تصنيف PathChat أعلى من النموذج؛ تعادل: تم تصنيف PathChat بالتساوي مع النموذج في الترتيب؛ خسارة: تم تصنيف النموذج المذكور أعلى من PathChat. تمثل القضبان الرأسية معدل الفوز الوسيط (الأخضر الداكن) عبر جميع 7 أطباء أمراض ومعدل الفوز + التعادل الوسيط (الأخضر الفاتح). ج. دقة MLLMs على مجموعة فرعية (أسئلة) من الأسئلة المفتوحة التي توصل فيها طبيبان إلى توافق بعد مناقشة التقييمات المستقلة لاستجابات النموذج. تمثل القضبان الخطأ فترات الثقة، وتمثل المراكز الدقة المحسوبة. د. الدقة على فئات مختلفة من الأسئلة على مجموعة التوافق. المجهر (), التشخيص (), السريري (), الاختبارات المساعدة (). قد ينتمي كل سؤال إلى أكثر من فئة واحدة. القضبان المقياسية هي .
الشكل 4
الشكل 4: استكشاف حالات استخدام إضافية لـ PathChat. بخلاف تقييم PathChat على أسئلة بأسلوب الاختيار من متعدد وإجابة أسئلة مفتوحة من جولة واحدة، نستكشف حالات استخدام إضافية ونظهر أمثلة تتضمن متابعة من المستخدمين في شكل محادثات تفاعلية متعددة الأدوار. هذه الأمثلة توضيحية بطبيعتها ومصممة لتكمل تقييمنا الكمي على PathQABench. أ. يمكن لـ PathChat تلخيص الميزات الشكلية الرئيسية في صورة النسيج وبناءً على السياق السريري الإضافي، يمكنه استنتاج الأصل الرئيسي للورم بشكل معقول. ب. يعرف PathChat علامات الخلايا المختلفة ويمكن أن يساعد في توجيه تفسيرات IHC المحتملة. ج. يفهم PathChat ويمكنه محاولة اتباع الإرشادات المعروفة حول تصنيف الأورام، في هذه الحالة، نظام درجة Gleason لسرطان البروستاتا. د. يمكن لـ PathChat وصف نسيج الورم وشكل الخلايا، واستنتاج التشخيص، واقتراح نتائج IHC المحتملة بشكل صحيح مستندة إلى المعرفة الخلفية ذات الصلة حول الورم المشتبه به. هـ. يمكن استشارة PathChat لأداء تشخيص تفريقي بمشاركة الإنسان قد يتطلب عدة جولات من العمل على IHC. القضبان المقياسية هي .
أوصاف الأشكال الموسعة
الشكل الموسع 1
الشكل الموسع 1: أمثلة على التعليمات لتدريب MLLM. يتم توضيح مثال لكل نوع من أنواع التعليمات الستة المختلفة لتطوير PathChat عبر تدريب التعليمات. تمثل النصوص المميزة التعليمات المقدمة للنموذج بينما تمثل النصوص المائلة المخرجات المرجعية التي يتوقع أن ينتجها النموذج أثناء التدريب. يتم تقديم مزيد من التفاصيل حول تنسيق مجموعة البيانات في قسم تنسيق مجموعة بيانات PathChat من طرق. القضبان المقياسية هي 200 .
الشكل الموسع 2
الشكل الموسع 2: استخدام المدخلات البصرية والسياق السريري في الأسئلة التشخيصية متعددة الخيارات. على معايير التشخيص متعددة الخيارات (مجمعة، أسئلة؛ PathQABench-Private، ; PathQABench-Public، )، قمنا بالتحقيق فيما إذا كان PathChat يمكنه الاستفادة بشكل فعال من كل من السياق السريري غير المنظم في شكل لغة طبيعية وكذلك الميزات البصرية في منطقة الصورة ROI بدلاً من اشتقاق إجابته بناءً فقط على أي مدخلات بمفردها. في إعداد السياق فقط، يتم تقديم السياق السريري للنموذج ولكن لا يتم تقديم الصورة (انظر الشكل 2a لمثال على سؤال اختيار من متعدد يحتوي على السياق السريري، والخيارات، والصورة). من ناحية أخرى، في إعداد الصورة فقط، لا يتم تقديم السياق السريري، ويُطلب من النموذج استنتاج التشخيص الصحيح من الخيارات الممكنة بناءً فقط على الصورة. لاحظنا أن PathChat يحقق أقصى أداء عندما يتم تقديم كل من السياق السريري والصورة. تمثل أشرطة الخطأ فترات الثقة، والمراكز تمثل الدقة المحسوبة.
الشكل 3 من البيانات الموسعة
الشكل البياني الموسع 3: مقارنة مخرجات النماذج في الإجابة على الأسئلة المفتوحة، المثال 1. سؤال مثال في PathQABench-Public يتعلق بالميلانوما الهدبية، حيث تم تصنيف استجابة PathChat أعلى (تعتبر أكثر تفضيلاً من قبل أطباء الأمراض الخبراء) من النماذج الأخرى لأنها تعالج الموضوع بوضوح ودقة وشمولية. استعلام. النماذج الأخرى تعطي مواقع غير صحيحة للصورة، أو تصف الصورة بشكل غير صحيح، أو تكون عامة جداً لدرجة أنها غير مفيدة. شريط القياس هو.
الشكل 4 من البيانات الموسعة
الشكل 4 من البيانات الموسعة: مقارنة مخرجات النماذج في الإجابة على الأسئلة المفتوحة، المثال 2. سؤال مثال في PathQABench-Public يتعلق بالورم الدبقي، حيث اعتبر خبراء الأمراض أن استجابات جميع النماذج كانت ذات جودة قابلة للمقارنة تقريبًا، حيث قدمت جميعها استجابة معقولة ودقيقة نسبيًا للسؤال، على الرغم من وجود بعض الاختلافات بينها. شريط القياس هو.
الشكل 5 من البيانات الموسعة
الشكل البياني الموسع 5: مقارنة مخرجات النماذج في الإجابة على الأسئلة المفتوحة، المثال 3. سؤال مثال في PathQABench-Public يتعلق بسرطان الرئة الغدي حيث أدت النماذج الأربعة أداءً ضعيفًا. لم تصف أي من النماذج الأربعة الصورة بدقة أو تنتج التشخيص الصحيح. شريط القياس هو.
الشكل 6 من البيانات الموسعة
الشكل 6 من البيانات الموسعة: تقييم الأطباء الشرعيين الفرديين لأداء الاستجابة المفتوحة. أ. دقة نماذج اللغة الكبيرة متعددة المهام على الأسئلة المفتوحة ( ) كما تم تقييمه بواسطة اثنين من علماء الأمراض. انظر الشكل 3c و d لدقة مجموعة الأسئلة المفتوحة التي توصل فيها العالمان إلى توافق. انظر تقييم MLLM في الطرق لمزيد من التفاصيل. تمثل أشرطة الخطأ فترات الثقة، والمراكز تمثل الدقة المحسوبة. ب. الدقة في فئات مختلفة من الأسئلة كما قيمها اثنان من علماء الأمراض. المجهرية (التشخيص ) ، سريري ( 68 ) ، الاختبارات المساعدة ( قد تنتمي كل سؤال إلى أكثر من فئة واحدة.
الشكل 7 من البيانات الموسعة
الشكل البياني الموسع 7: أمثلة على الأسئلة من PathQABench-Public. يحتوي PathQABench على 260 سؤالًا عالي الجودة، تمت مراجعتها من قبل خبراء، وأسئلة مفتوحة تم إنشاؤها باستخدام حالات من PathQABench-Public، تهدف إلى تقييم مجموعة واسعة من المهارات ذات الصلة بممارسة علم الأمراض. يتم تعيين سؤال واحد أو أكثر من الفئات العامة والفرعية بناءً على الموضوعات والمهارات التي يهدف إلى تقييمها. الفئات العامة هي “الميكروسكوبية”، “التشخيص”، “السريرية” و”الاختبارات المساعدة”. تم تضمين وصف تفصيلي لكل فئة في جدول البيانات التكميلية 15. قضبان المقياس هي.
الشكل 8 من البيانات الموسعة
الشكل 8 من البيانات الموسعة: الأداء على أسئلة PathQABench المفتوحة المصنفة حسب الفئات العامة. نقوم بتحليل الأداء المباشر لـ PathChat مقابل نماذج MLLMs الأخرى في كل فئة عامة من الأسئلة التي تم تقييمها بواسطة 7 أطباء أمراض مستقلين. بالنسبة لكل نموذج متنافس (LLaVA 1.5، LLaVA-Med، GPT4V)، نحسب معدل الفوز/التعادل/الخسارة لـ PathChat مقابل النموذج المذكور. الفوز (الأخضر الداكن): يتم تصنيف PathChat أعلى من النموذج؛ التعادل (الأخضر الفاتح): يتعادل PathChat مع النموذج في التصنيف؛ الخسارة (الأحمر): يتم تصنيف PathChat أقل من النموذج. تمثل الأعمدة الرأسية معدل الفوز الوسيط (الأخضر الداكن) عبر جميع الأطباء السبعة ومعدل الفوز + التعادل الوسيط (الأخضر الفاتح).
الشكل 9 من البيانات الموسعة
الشكل البياني الموسع 9: الأداء على أسئلة PathQABench المفتوحة المصنفة حسب الفئات الفرعية. نقوم بمزيد من التحليل للأداء المباشر لـ PathChat مقابل نماذج MLLMs الأخرى في كل فئة فرعية من الأسئلة التي تم تقييمها بواسطة 7 أطباء أمراض مستقلين. بالنسبة لكل نموذج متنافس (LLaVA 1.5، LLaVA-Med، GPT4V)، نحسب معدل الفوز/التعادل/الخسارة لـ PathChat مقابل النموذج المذكور. الفوز (الأخضر الداكن): يتم تصنيف PathChat أعلى من النموذج؛ التعادل (الأخضر الفاتح): يتعادل PathChat مع النموذج في التصنيف؛ الخسارة (الأحمر): يتم تصنيف PathChat أقل من النموذج. تمثل الأعمدة الرأسية معدل الفوز الوسيط (الأخضر الداكن) عبر جميع الأطباء السبعة ومعدل الفوز + التعادل الوسيط (الأخضر الفاتح).
الشكل 10 من البيانات الموسعة
الشكل البياني الموسع 10: مثال على التشخيص التفريقي بمساعدة الإنسان باستخدام PathChat في حالة سرطان غير معروف المصدر. يمكن استخدام PathChat لمساعدة المستخدم في إجراء تشخيص تفريقي بمساعدة الإنسان يجمع بين صورة نسيجية تمثيلية، وسياق سريري ذي صلة، بالإضافة إلى نتائج IHC المتابعة. لاحظ أنه في هذا المثال، يوحي PathChat بشكل خاطئ بأن سرطانات عنق الرحم يجب أن تكون إيجابية لاختبارات IHC لـ CK7 وCK20 بينما في الواقع، تكون سرطانات عنق الرحم عادة إيجابية لـ CK7 ولكن سلبية لـ CK20. شريط القياس هو.
Methods References
[61] Tsung-Yi Lin et al. “Microsoft coco: Common objects in context”. In: Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer. 2014, pp. 740-755.
[62] Jinze Bai et al. “Qwen technical report”. In: arXiv preprint arXiv:2309.16609 (2023).
[63] Haotian Liu et al. “Improved baselines with visual instruction tuning”. In: arXiv preprint arXiv:2310.03744 (2023).
[64] Yan Zeng et al. “What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?” In: arXiv preprint arXiv:2307.02469 (2023).
[65] Andrew Jaegle et al. “Perceiver: General perception with iterative attention”. In: International conference on machine learning. PMLR. 2021, pp. 4651-4664.
[66] Jiahui Yu et al. “CoCa: Contrastive Captioners are Image-Text Foundation Models”. In: Transactions on Machine Learning Research (2022). issn: 2835-8856. url: https://openreview.net/forum?id=Ee277P3AYC.
[67] Peter Bankhead et al. “QuPath: Open source software for digital pathology image analysis”. In: Scientific reports 7.1 (2017), pp. 1-7.
[68] Ming Y. Lu et al. Code for pathology MLLM training. Version 0.1. Apr. 2024. url: https://github.com/ fedshyvana/pathology_mllm_training.
a
b
a
What morphological features are present in this image?
d
Describe the tumor in this image in detail.
Human
The image shows a tumor composed of spindle cells, which are elongated and have a fusiform shape. These cells are arranged in fascicles, which are bundles or groups of cells aligned in a parallel or whorled pattern. Additionally, there are scattered melanincontaining cells within the tumor.
This tumor was found in the liver of a patient. Is it a primary tumor or a metastasis?
Based on the information provided, this tumor is most likely a metastasis rather than a primary tumor. The presence of spindle cells and melanin-containing cells further supports the possibility of a metastatic melanoma. The liver is a common site for metastasis of melanoma, especially when it has spread from the skin.
b
There are some cells in this IHC image staining red for CD3. What cell type are they?
The cells staining red for CD3 are lymphocytes. CD3 is a marker for cells, which are a type of white blood cell involved in the immune response.
What IHC would be helpful in distinguishing them from lymphocytes and macrophages?
PathChat
CD20 is a marker commonly used to distinguish B lymphocytes from lymphocytes. B lymphocytes are typically CD20 positive, while T lymphocytes are CD20 negative. Additionally, CD68 is a marker that can be used to identify macrophages. Macrophages are CD68 positive, while T lymphocytes are CD68 negative.
C
Assess the tissue morphology in this prostate resection. What Gleason patterns are present?
The tissue morphology in this prostate resection reveals a combination of two distinct Gleason patterns. The first pattern is characterized by the presence of small, well-formed glands, which is indicative of Gleason pattern 3. The second pattern is characterized by the presence of fused glands, which is indicative of Gleason pattern 4. The presence of both patterns within the same tissue sample suggests a Gleason score of , which is a moderately aggressive form of prostate cancer.
What do you think IHC for p53 would show in this case?
Given the high-grade nature of this serous carcinoma, it is likely that
the p53 immunohistochemistry (IHC) would show abnormal p53 the p53 immunohistochemistry (IHC) would show abnormal p53 protein expression. High-grade serous carcinomas often have TP53 mutations, which can result in aberrant p53 protein accumulation. Therefore, the p53 IHC staining may show strong and diffuse nuclear staining, indicating abnormal p53 orotein expression.
e
This is an image of a lung core needle biopsy from a patient with a mass in their left lung. What are some diagnoses this could be and what IHC should I do to work up this case?
Based on the image, the differential diagnoses could include primary lung adenocarcinoma, metastatic adenocarcinoma from another primary site, or a poorly differentiated squamous cell carcinoma. To further narrow down the diagnosis, you can perform immunohistochemistry (IHC) staining for TTF-1, Napsin A, and p40. TTF-1 and Napsin A are markers commonly expressed in primary lung adenocarcinoma, while p40 is a marker for squamous cell carcinoma. The expression pattern of these markers will help differentiate between these possibilities.
I did TTF-1, p40, and synaptophysin and all stains were negative. What should I do next? challenging to determine the exact diagnosis. TTF-1 and p40 are commonly used markers for lung adenocarcinoma and squamous cell carcinoma, respectively. Synaptophysin is a marker for neuroendocrine tumors. The negative staining for these markers suggests that the tumor is not of lung origin or is not a neuroendocrine tumor. In this case, it would be helpful to perform additional IHC stains to further characterize the tumor. Some additional markers to consider include CK7, CK20, and CDX2, which can help differentiate between primary lung adenocarcinoma and metastatic adenocarcinoma from other sites. Additionally, performing a panel of markers specific to other primary sites (e.g., PSA for prostate, ER for breast, etc.) can help identify the primary site of the tumor.
It is also important to consider the clinical history and radiological findings to guide the workup. If there is a known history of malignancy or suspicion of metastatic disease, further investigation into the primary site may be warranted.
Free response
استنادًا إلى الخصائص الشكلية، ما الانطباع الذي يمكنك تكوينه حول درجة الورم؟
تبدو خلايا الورم أحادية الشكل، مما يشير إلى درجة من التماثل في الحجم والشكل، وهو ما يعد سمة نموذجية للأورام ذات الدرجة المنخفضة. علاوة على ذلك، فإن غياب النخر، وتكاثر الأوعية الدقيقة، والانقسام الواضح، وهي ميزات تشير إلى أورام أكثر عدوانية وذات درجة أعلى، يبدو أنها تؤكد أن المرض من المحتمل أن يكون من الدرجة المنخفضة. ومع ذلك، على الرغم من هذه النقاط، يجب أن يتم تصنيف الأمراض النسيجية بحذر، مع الأخذ في الاعتبار السياق السريري العام واتباع معايير تصنيف منظمة الصحة العالمية للأورام الدماغية.
وصف وصف هذه الصورة.
تكشف الميزات الشكلية عن انتشار الأنابيب والقنوات المثقبة، وهو ما يميز سرطان الغدة اللعابية الكيسي. تحتوي غدد الورم على نوعين من الخلايا: خلايا ذات نوى أكثر استدارة، تمثل خلايا قنوية أو لمعية، وخلايا ذات نوى أكثر زوايا، تمثل خلايا عضلية ظهارية. يحتوي تجويف بعض الغدد المثقبة على مادة رمادية، ربما تكون إفرازات داخل التجويف أو حطام نخر. تحاط هذه الشبكة من القنوات بنسيج هاليني، مما يشكل جزءًا حيويًا من بنية الورم.
استنادًا إلى المعلومات المقدمة، ما هو التشخيص الأكثر احتمالًا لهذه الخزعة الكبدية؟
عذرًا، كوني مساعد ذكاء اصطناعي متخصص في علم الأمراض، لا يمكنني مساعدتك في الاستفسارات غير المتعلقة بعلم الأمراض.
المحادثة تُظهر صورة لشامة من رجل يبلغ من العمر 58 عامًا قد نمت بسرعة في الحجم والشكل خلال الأشهر القليلة الماضية. \section*{ما هو العمر الذي يوضح الشامة من 58}
السيناريو السريري لوجود شامة تتضخم بسرعة، مع الميزات النسيجية الملحوظة مثل التعدد الشكلي ووفرة الميلانين، يشير بقوة إلى تشخيص الميلانوما الجلدية. غالبًا ما تظهر الميلانوما كآفات جلدية متغيرة تكون غير متناظرة، ولها حدود غير منتظمة، ولها لون غير متجانس، وتزداد في الحجم – وهي الخصائص التي تظهر في حالة هذا المريض.
وصف الميزات الشكلية الملحوظة.
تظهر الصورة انتشارًا لخلايا ورمية متعددة الأشكال تظهر أشكالًا ظهارية وملفوفة، مرتبة في أعشاش. تحتوي الخلايا على صبغة بنية وفيرة، تشير إلى الميلانين. كما أن لهذه الخلايا نوى مفرطة الصباغ، مما يدل على زيادة محتوى الحمض النووي، وهي سمة شائعة في الخلايا الخبيثة تشير إلى زيادة نشاط التكاثر. استنادًا إلى الخصائص الشكلية الملحوظة، ما قد يكون مستوى تمايز الورم؟
وجود خلايا ورمية متعددة الأشكال من نوع الظهارة إلى خلايا مغزلية مرتبة في أعشاش يشير إلى أن خلايا الورم قد فقدت هيكلها الأصلي المنتظم. وهذا يشير إلى حالة تمايز ضعيفة لهذه الخلايا.
نص فقط
ما هو سرطان الظهارة البولية في الموقع، وما هي العروض السريرية النموذجية لهذه الحالة؟
سرطان الظهارة البولية في الموقع أو الورم الظهاري داخل البول عالي الدرجة (HG IUN) هو آفة مسطحة غير غازية تتكون من خلايا في الظهارة الوسطى إلى العليا تظهر درجة سيتولوجية عالية. حيث أن هذا السرطان محصور في طبقة الظهارة البولية ولا يغزو الغشاء الأساسي، فلن تكون هناك كتلة موجودة. سريرياً، غالباً ما يقدم المرضى المصابون بسرطان الظهارة البولية في الموقع أعراضاً مشابهة لالتهاب المثانة، مع وجود دم في البول كميزة شائعة. قد تبدو الآفة حمراء، حبيبية أو شبيهة بالحجارة، تشمل مناطق كبيرة من غشاء المثانة المخاطي، والحالبين، والإحليل.
من منظور تاريخي، كيف يمكنك وصف ميزات خلايا سرطان الظهارة البولية في الموقع؟
تاريخياً، تكون الخلايا في سرطان الظهارة البولية في الموقع، باستثناء تلك من نمط الخلايا الصغيرة، عادةً كبيرة مع نوى غير منتظمة، مفرطة الصباغ. تظهر تبايناً نووياً بارزاً ونسبة عالية من النواة إلى السيتوبلازم. وغالباً ما تظهر الأشكال الانقسامية في الظهارة الوسطى إلى العليا. ومن الجدير بالذكر أن حجم النواة عادة ما يكون حوالي خمسة أضعاف حجم اللمفاويات، مما يتناقض مع حجم نواة خلايا الظهارة البولية الطبيعية التي تكون تقريباً ضعف حجم اللمفاويات.
ماذا يعني انخراط أعشاش فون برون في السرطان في الموقع، وكيف يمكن أن يكون هذا محيراً للأطباء الشرعيين؟
تمثل أعشاش فون برون تغييراً حميداً تفاعلياً في جدار المثانة حيث تتجوف الظهارة البولية في الغشاء الأساسي. في سرطان الظهارة البولية في الموقع، يمكن أن تكون هذه الأعشاش متورطة، مما يؤدي إلى وجود أعشاش من الخلايا الورمية داخل الغشاء الأساسي. يمكن أن يخلق هذا وهم الغزو، مما يعقد التقييم النسيجي. ومع ذلك، على عكس السرطان الغازي الحقيقي، عادةً ما تكون أعشاش فون برون ذات شكل دائري وتفتقر إلى التغيرات الداعمة المرتبطة بالغزو، مما يساعد في التمييز.
ما هي خيارات العلاج المتاحة للمرضى المصابين بسرطان الظهارة البولية في الموقع، مع الأخذ في الاعتبار إمكانيته في أن يصبح غازياً؟
غالباً ما يتم علاج المرضى المصابين بسرطان الظهارة البولية في الموقع بطرق غير جراحية، بما في ذلك إجراء يعرف باسم الاستئصال عبر الإحليل (TUR) لورم المثانة، يليه حقن فوري للعلاج الكيميائي داخل المثانة – إما بكتيريا كالميت-غرين (BCG) أو ميتوميسين-C. إذا تُركت دون علاج، هناك خطر معقول، حوالي 20%، من تقدم حالات سرطان المثانة CIS إلى سرطان غازي. لذلك، فإن التدخل الفوري أمر حاسم.
الشكل البياني الموسع 1
الشكل البياني الموسع 2
تشخيص الحقيقة الأرضية (لم يتم تقديمه للنموذج): ميلانوما المشيمية
اعتبر موقع الورم الموضح في الصورة كما تحدده الهياكل المرئية في الصورة. ما هو هذا الموقع وماذا يمكن أن يشير من حيث الأصل ومدى الورم المحتمل؟
تظهر الصورة ورماً يقع في المشيمية، وهي الطبقة الوعائية للعين الواقعة بين الشبكية والصلبة. المشيمية هي موقع شائع للميلانوما، وهي أكثر الأورام الخبيثة داخل العين شيوعاً. يمكن أن يشير موقع الورم في المشيمية إلى أنه قد نشأ من الخلايا الميلانينية الموجودة في هذه الطبقة. يمكن أن يكون مدى الورم كبيراً، حيث يمكن أن تنمو الميلانوما المشيمية وتغزو الهياكل المحيطة، بما في ذلك الشبكية والعصب البصري، مما يؤدي إلى فقدان الرؤية.
الورم يقع في الغشاء المخاطي الخد الأيسر، وهو البطانة الداخلية للخد. تظهر الصورة ظهارة حرشفية متدرجة مع كيراتين، بالإضافة إلى طبقة من النسيج الضام. قد يشير وجود ورم في هذه المنطقة إلى ورم نشأ من الخلايا الحرشفية أو النسيج الضام. سيتطلب الأصل الدقيق ومدى الورم المحتمل مزيداً من التحليل والتوافق السريري. من المهم استشارة متخصص في الرعاية الصحية لإجراء تقييم شامل وتشخيص صحيح للسبب الكامن وراء هذه النتائج.
تظهر الصورة ورماً يقع في نسيج الثدي، كما يتضح من وجود هياكل حمراء داخل النسيج الوردي. وهذا يشير إلى أن الورم ينشأ من الثدي وقد يكون سرطان ثدي خبيث. قد يشير وجود هياكل حمراء داخل النسيج إلى أن الورم ينمو وينتشر، مما قد يكون علامة على مرحلة عدوانية أو متقدمة من السرطان. من المهم ملاحظة أن الصورة وحدها لا توفر معلومات كافية لتحديد المرحلة الدقيقة أو التشخيص للسرطان، لكنها تبرز الحاجة إلى مزيد من التحقيق والعلاج.
الصورة التي قدمتها تبدو كشرائح نسيجية ملونة بالهيماتوكسيلين والإيوزين. تسمح هذه التقنية اللونية برؤية الهياكل الخلوية والنسيجية تحت المجهر، حيث تلون الهيماتوكسيلين النوى باللون الأزرق-purple وتلون الإيوزين السيتوبلازم والمصفوفة خارج الخلوية باللون الوردي.
من الصورة، يبدو أننا نلاحظ مقطعاً من نسيج ذو كثافة خلوية عالية وخلايا غير طبيعية ومتعددة الأشكال، مما يشير إلى وجود ورم، وهو نمو غير طبيعي للنسيج قد يكون حميداً أو خبيثاً (سرطانياً).
تحديد الموقع الدقيق للورم فقط من الصورة يمثل تحدياً دون سياق إضافي أو علامات، حيث يمكن أن تبدو العديد من الأورام مشابهة من الناحية النسيجية. ومع ذلك، قد تشير بنية النسيج وأنواع الخلايا إلى أنه من أصل ظهاري، ربما من عضو مثل الجلد أو الثدي أو الجهاز الهضمي. قد يشير وجود هياكل ممدودة ملونة باللون الوردي تشبه الأوعية الدموية إلى قدرة الورم على تحفيز تكوين الأوعية الدموية (تكوين أوعية دموية جديدة)، وهو ما يميز الأورام الخبيثة حيث تنمو وتحتاج إلى مزيد من العناصر الغذائية والأكسجين.
لتوفير موقع أكثر دقة والآثار المحتملة المتعلقة بأصل ومدى الورم، عادةً ما يقوم الطبيب الشرعي بمطابقة هذه النتائج مع المعلومات السريرية، والدراسات التصويرية، وربما تلوين نسيجي إضافي أو تشخيصات جزيئية يمكن أن تبرز علامات معينة مميزة لأنواع أو أصول نسيج معينة. يمكن أن يكون ترتيب وشكل الخلايا، بالإضافة إلى وجود أي ميزات هيكلية (مثل تكوين الغدد أو الكيراتين)، أدلة مهمة في تحديد نسيج الأصل وتحديد عدوانية الورم وخيارات العلاج المحتملة.
الشكل البياني الموسع 3
تشخيص الحقيقة الأرضية (لم يتم تقديمه للنموذج): ورم دبقي
استناداً إلى الشكل المورفولوجي المعروض في صورة نسيج الدماغ، ما هي الميزات النسيجية الرئيسية التي تدعم تشخيص ورم دماغي عالي الدرجة؟
تظهر الصورة ورماً دماغياً عالي الدرجة يتميز بعدة ميزات نسيجية رئيسية. هناك درجة عالية من الكثافة الخلوية، مما يشير إلى وجود كثافة عالية من خلايا الورم. تظهر الخلايا تبايناً ملحوظاً، مما يشير إلى تباين في الحجم والشكل، مما يشير إلى درجة عالية من عدم التمايز. بالإضافة إلى ذلك، هناك وجود ملحوظ للعديد من الأشكال الانقسامية، مما يشير إلى مؤشر تكاثري مرتفع. تشير هذه الميزات مجتمعة إلى ورم عدواني، يتماشى مع ورم دبقي عالي الدرجة.
تشمل الميزات النسيجية الرئيسية التي تدعم تشخيص ورم دماغي عالي الدرجة في صورة نسيج الدماغ ما يلي:
تكاثر خلوي: زيادة عدد الخلايا، مما قد يشير إلى نمو سريع وانقسام.
تباين خلوي: تباين في الحجم والشكل والمظهر للخلايا، والذي يُرى غالباً في الأورام الخبيثة.
نخر: وجود خلايا ميتة أو تحتضر داخل الورم.
انقسام: عملية انقسام الخلايا، والتي تكون أكثر تكراراً في الأورام الخبيثة.
غزو الأنسجة المحيطة: قد تغزو خلايا الورم وت infiltrate الأنسجة المحيطة بالدماغ، مما يمكن أن يكون علامة على ورم عالي الدرجة.
يمكن أن تساعد هذه الميزات، عند ملاحظتها في الفحص النسيجي المرضي لنسج الدماغ، في دعم تشخيص ورم دماغي عالي الدرجة. ومع ذلك، من المهم أخذ التاريخ الطبي للمريض، والأعراض، والاختبارات التشخيصية الأخرى في الاعتبار لتأكيد التشخيص وتحديد خطة العلاج المناسبة.
في الصورة، يبدو أن نسيج الدماغ يحتوي على كثافة خلوية عالية، مع ترتيب كثيف وغير منتظم للخلايا. وجود عدد كبير من الخلايا بالقرب من بعضها البعض، إلى جانب الشكل والحجم غير المنتظم للخلايا، يشير إلى أن النسيج غير طبيعي بشكل كبير وليس نموذجياً لنسيج الدماغ الصحي. تدعم هذه الميزات الهيستوباثولوجية تشخيص ورم دماغي عالي الدرجة، حيث تتميز هذه الأورام بمعدل نمو سريع وسلوك عدواني ودرجة عالية من الخلوية. يشير وجود عدد كبير من الخلايا في الصورة إلى أن الورم ينمو بنشاط ويستهلك نسيج الدماغ المحيط، وهو سمة مميزة للأورام الدماغية عالية الدرجة.
تظهر هذه الصورة النسيجية المرضية نسيج الدماغ مع عدة ميزات تشير إلى ورم دماغي عالي الدرجة، مثل الورم الدبقي المتعدد الأشكال، الذي يصنف على أنه من الدرجة الرابعة وفقًا لتصنيف منظمة الصحة العالمية (WHO) للأورام في الجهاز العصبي المركزي. فيما يلي بعض الميزات النسيجية المرضية التي تدعم مثل هذا التشخيص:
تعدد الأشكال الخلوية: هناك تباين ملحوظ في حجم وشكل الخلايا، مما يدل على نمو وانقسام غير طبيعي للخلايا.
فرط الخلوية: كثافة الخلايا أعلى بكثير مما يمكن رؤيته في نسيج الدماغ الطبيعي، مما يشير إلى تكاثر سريع للخلايا.
الأشكال الانقسامية: وجود خلايا تخضع للانقسام الميتوزي (انقسام الخلايا) يشير إلى تكاثر نشط للخلايا، وغالبًا ما تحتوي الأورام عالية الدرجة على العديد من الأشكال الانقسامية.
نخر: هناك مناطق داخل النسيج تبدو نخرية، مما يشير إلى موت الخلايا وتفكك الأنسجة، وهي ميزات شائعة في الأورام العدوانية.
تضخم الأوعية الدقيقة: تُظهر الصورة نموًا غير طبيعي للأوعية الدموية (تضخم بطاني)، وهو سمة أخرى من سمات الأورام الدماغية عالية الدرجة حيث تحفز تكوين أوعية دموية جديدة لدعم نموها السريع.
أنوية غير طبيعية: العديد من الخلايا تحتوي على أنوية ذات شكل غير منتظم، كبيرة، أو مفرطة الصباغ (تلوين أغمق)، وهي علامات على التحول الخبيث. استنادًا إلى هذه الميزات، فإن الأنسجة في هذه الصورة تتوافق مع ورم دماغي عالي الدرجة، والذي يتطلب عادةً مزيدًا من الارتباط السريري، والتصوير المتقدم، وتحليلات مرضية إضافية من أجل تشخيص نهائي وتخطيط العلاج.
الشكل 4 من البيانات الموسعة
تشخيص الحقيقة الأرضية (غير متوفر للنموذج): سرطان الغدة الرئوية
ما هي الميزات النسيجية الرئيسية المرئية في هذه الصورة التي تدعم التشخيص الأكثر احتمالاً؟
تشمل الميزات النسيجية الرئيسية المرئية في هذه الصورة وجود نمط ميكروبابيلي، والذي يتميز بهياكل بابيلية صغيرة ورقيقة بدون نوى وعائية ليفية. بالإضافة إلى ذلك، هناك غياب ملحوظ للاختلافات النووية الكبيرة، مما يعني أن نوى الخلايا لا تظهر اختلافات ملحوظة في الحجم أو الشكل أو خصائص الصبغ التي غالبًا ما ترتبط بالسرطان. هذه الميزات تتماشى مع تشخيص سرطان الغدد في الموقع (AIS) للرئة، وهو شكل غير غازي من سرطان الرئة حيث تكون الخلايا غير الطبيعية محصورة في الفراغات الهوائية ولم تغزُ الأنسجة المحيطة بعد.
الميزات النسيجية الرئيسية المرئية في هذه الصورة التي تدعم التشخيص الأكثر احتمالاً لارتفاع ضغط الدم الرئوي هي التكاثر الملحوظ والمنتشر للشرايين الصغيرة، بالإضافة إلى التليف المصاحب. هذه النتائج تتماشى مع التغيرات المميزة التي تُرى في التمدد الشعري النزفي الوراثي، وهي حالة يمكن أن تؤدي إلى ارتفاع ضغط الدم الرئوي.
الميزات النسيجية الرئيسية المرئية في الصورة التي تدعم التشخيص الأكثر احتمالاً للسرطان هي وجود خلايا ذات أشكال غير منتظمة، ودرجة عالية من الكثافة الخلوية، وغياب الهياكل النسيجية الطبيعية. تُظهر الصورة عرضًا مقربًا لعينة نسيجية، والتي تبدو كخزعة من ورم. الخلايا ذات الأشكال غير المنتظمة ودرجة الكثافة الخلوية العالية تشير إلى نمو وتكاثر غير طبيعي للخلايا، وهو ما يُعتبر سمة من سمات الأنسجة السرطانية. بالإضافة إلى ذلك، فإن غياب الهياكل النسيجية الطبيعية، مثل الأنسجة الصحية أو الخلايا الحميدة، يدعم بشكل أكبر تشخيص السرطان.
الصورة التي شاركتها تبدو أنها شريحة مجهرية من نسيج ملون بالهيماتوكسيلين والإيوزين (صبغة H&E)، والتي تُستخدم عادة في علم الأنسجة وعلم الأمراض. استنادًا إلى هذه الصورة فقط، دون سياق سريري إضافي، من الصعب إجراء تشخيص نهائي. ومع ذلك، يمكن أن تشير بعض الميزات العامة إلى بعض الاحتمالات:
الهياكل الأنبوبية: تشير وجود العديد من الهياكل الأنبوبية المقطوعة عرضيًا وطوليًا إلى أن هذا قد يكون مقطعًا من عضو يحتوي على مكون غدي أو أنبوبي، مثل الكلى أو الكبد أو البنكرياس أو عضو غدي.
أنماط التلوين: يشير التلوين الوردي (الحمضات) إلى المناطق الغنية بالبروتين مثل السيتوبلازم والمصفوفة خارج الخلية، بينما يشير التلوين الأزرق/البنفسجي (القاعديات) إلى المناطق الغنية بالأحماض النووية مثل النوى.
كثافة الخلايا: يمكن أن توفر كثافة الخلايا وتنظيمها حول الأنابيب دلائل. قد تشير تجمعات الخلايا المتجانسة ذات البنية المنظمة إلى نسيج طبيعي أو حالات حميدة، بينما يمكن أن تشير تجمعات الخلايا غير المنظمة وغير المنتظمة والأكثر كثافة إلى نمو خبيث أو حالات مرضية أخرى.
اللمعات والإفرازات: وجود لمعات مفتوحة وإفرازات محتملة داخل الأنابيب قد يشير إلى إفراز نشط ويشير إلى وظائف غدية محددة.
الخلايا الالتهابية: يبدو أن هناك منطقة بؤرية ذات كثافة خلوية مرتفعة قد تحتوي على خلايا التهابية، مما يشير إلى احتمال وجود عملية التهابية أو عدوى أو استجابة مناعية.
حالة النسيج بين الخلايا: تمثل المناطق الملونة باللون الوردي بين الهياكل الغدية النسيج بين الخلايا أو النسيج الداعم. يمكن أن تشير حالة هذا النسيج إلى التليف أو الالتهاب أو تغييرات مرضية أخرى. للحصول على تشخيص دقيق، سيكون من الضروري الحصول على تفاصيل إضافية مثل تاريخ المريض، الأعراض، نتائج المختبر، وربما الصبغات المناعية النسيجية التي يمكن أن توفر معلومات أكثر تحديدًا حول أنواع الخلايا الموجودة. من المهم أيضًا الحصول على تفسير خبير من طبيب الأمراض حول الميزات النسيجية.
الشكل 5 من البيانات الموسعة
الشكل 6 من البيانات الموسعة
الإجابة على الأسئلة البصرية
معرف الحالة: TCGA_15 فئة واسعة: المجهرية فئة فرعية: الوصف المجهري السؤال: صف الميزات الشكلية الموجودة في هذه العينة من الرحم. ما هي الميزات المهمة التي قد تشير إلى الطبيعة العدوانية للورم؟
معرف الحالة: TCGA_18 فئة واسعة: المجهرية فئة فرعية: التمايز / التقييم السؤال: بالنظر إلى الميزات الهيستوباثولوجية الملحوظة، ماذا تخبرنا النوى الكبيرة المتعددة الأشكال والسيتوبلازم الإيوزينوفيلي في خلايا الورم عن درجة الورم وتمايزه؟
معرف الحالة: TCGA_8 فئة عامة: التشخيص فئة فرعية: التشخيص السؤال: بالنظر إلى المعلومات السريرية لمريض ذكر يبلغ من العمر 34 عامًا يعاني من كتلة غير مؤلمة في الخصية، بالإضافة إلى شكل الخلايا الملحوظ في هذه الصورة، ما هو التشخيص الأكثر احتمالاً؟
الإجابة على الأسئلة النصية فقط
معرف الحالة: TCGA_8 فئة واسعة: سريرية فئة فرعية: المخاطر / العلاج / التوقعات السؤال: بالنظر إلى تشخيص سرطان الكبد الخلوي، ما هي عوامل الخطر الشائعة وما هي دلالة ذلك على تشخيص المريض وعلاجه؟
معرف الحالة: TCGA_15 فئة واسعة: الاختبارات المساعدة فئة فرعية: إتش آي سي / جزيئي السؤال: ما هي العلامات الجزيئية والمناعية النسيجية المرتبطة عادةً بسرطان بطانة الرحم الأندومتريودي وكيف يمكن أن تساعد في التشخيص؟
معرف الحالة: TCGA_19 فئة واسعة: الاختبارات المساعدة الفئة الفرعية: اختبارات إضافية سؤال: ما هي الفحوصات التشخيصية الإضافية التي يمكن أن تؤكد تشخيص سرطان الخلايا الحرشفية في البلعوم الفموي؟
الشكل 7 من البيانات الموسعة
الشكل البياني الممتد 8
الشكل البياني الممتد 9
التي تشير إلى نمط الميكروببلي.
كان لدى المريض آفة عنق رحم سابقة. بناءً على صورة النسج التاريخية والسجل السريري، ما هي أعلى 3 تشخيصات مختلفة من حيث أصل الورم الأساسي؟
نظرًا للتاريخ السريري للمريض بوجود آفة عنق رحم سابقة ووجود تجمعات ميكروببلي في العقد اللمفاوية، فإن أعلى 3 تشخيصات لأصل الورم الأساسي ستكون:
سرطان عنق الرحم: هذا هو الورم الأساسي الأكثر احتمالًا نظرًا لتاريخ المريض بوجود آفة عنق رحم.
سرطان المبيض: يمكن أن ينتشر سرطان المبيض إلى العقد اللمفاوية ويمكن أن يظهر بنمط ميكروببلي.
سرطان بطانة الرحم: يمكن أن ينتشر سرطان بطانة الرحم أيضًا إلى العقد اللمفاوية ويمكن أن يظهر بنمط ميكروببلي.
ومع ذلك، فإن التاريخ السريري لوجود آفة عنق رحم سابقة يجعل سرطان عنق الرحم هو الورم الأساسي الأكثر احتمالًا في هذه الحالة.
ما هي الأجسام المضادة التي تقترحها للمساعدة في تأكيد التشخيص؟
PathChat
لتأكيد تشخيص سرطان عنق الرحم النقيلي، يمكن إجراء صبغ مناعي نسجي. يجب أن تكون خلايا الورم إيجابية للسيتيكراتينات (مثل CK7 و CK20)، وهي علامات على الأصل الظهاري. بالإضافة إلى ذلك، يجب أن تكون خلايا الورم إيجابية لـ p16، وهو علامة بديلة لعدوى فيروس الورم الحليمي البشري عالي الخطورة، والذي يرتبط عادةً بسرطان عنق الرحم. يجب أن تكون خلايا الورم سلبية لعلامات الأورام الأساسية المحتملة الأخرى مثل WT1 (ورم ويلمز 1) لسرطان المبيض و ER (مستقبل الاستروجين) و PR (مستقبل البروجستيرون) لسرطان بطانة الرحم.
نتائج الأجسام المضادة المناعية موجودة. إنها إيجابية لـ PAX8 و CK7 و p16 وسلبية لـ WT1 و ER. ما هو تقييمك؟
نتائج الأجسام المضادة المناعية تتماشى مع سرطان عنق الرحم النقيلي. PAX8 هو عامل نسخ يتم التعبير عنه في النظام الملري، بما في ذلك عنق الرحم، وغالبًا ما يكون إيجابيًا في سرطان عنق الرحم. CK7 هو سيتيكراتين يتم التعبير عنه عادةً في الخلايا الظهارية، بما في ذلك تلك الموجودة في عنق الرحم. p16 هو علامة بديلة لعدوى فيروس الورم الحليمي البشري عالي الخطورة، والذي يرتبط عادةً بسرطان عنق الرحم. تساعد الصبغة السلبية لـ WT1 و ER و PR في استبعاد الأورام الأساسية المحتملة الأخرى، مثل سرطان المبيض وسرطان بطانة الرحم.
الشكل البياني الممتد 10
natureportfolio
المؤلف(ون) المعني(ون):
آخر تحديث من المؤلف(ين): 3 مايو 2024
ملخص التقرير
تسعى Nature Portfolio لتحسين قابلية إعادة إنتاج العمل الذي ننشره. يوفر هذا النموذج هيكلًا للاتساق والشفافية في التقرير. لمزيد من المعلومات حول سياسات Nature Portfolio، انظر سياسات التحرير وقائمة مراجعة سياسة التحرير.
الإحصائيات
لجميع التحليلات الإحصائية، تأكد من أن العناصر التالية موجودة في أسطورة الشكل، أسطورة الجدول، النص الرئيسي، أو قسم الطرق.
تم التأكيد
حجم العينة الدقيقة () لكل مجموعة/شرط تجريبي، معطاة كرقم منفصل ووحدة قياس –
بيان حول ما إذا كانت القياسات قد أُخذت من عينات متميزة أو ما إذا كانت نفس العينة قد تم قياسها عدة مرات
اختبار(ات) إحصائية مستخدمة وما إذا كانت أحادية الجانب أو ثنائية الجانب
يجب وصف الاختبارات الشائعة فقط بالاسم؛ وصف تقنيات أكثر تعقيدًا في قسم الطرق.
وصف لجميع المتغيرات التي تم اختبارها وصف لأي افتراضات أو تصحيحات، مثل اختبارات الطبيعية والتعديل لمقارنات متعددة
وصف كامل للمعلمات الإحصائية بما في ذلك الاتجاه المركزي (مثل المتوسطات) أو تقديرات أساسية أخرى (مثل معامل الانحدار) وAND التباين (مثل الانحراف المعياري) أو تقديرات عدم اليقين المرتبطة (مثل فترات الثقة)
لاختبار فرضية العدم، إحصائية الاختبار (مثل ) مع فترات الثقة، أحجام التأثير، درجات الحرية و القيمة المذكورة أعطِ القيم كقيم دقيقة كلما كان ذلك مناسبًا. لتحليل بايزي، معلومات حول اختيار الأوليات وإعدادات سلسلة ماركوف مونت كارلو للتصاميم الهرمية والمعقدة، تحديد المستوى المناسب للاختبارات والتقارير الكاملة للنتائج تقديرات أحجام التأثير (مثل Cohen’s ، Pearson’s )، تشير إلى كيفية حسابها
تحتوي مجموعتنا على الإنترنت حول الإحصائيات لعلماء الأحياء على مقالات حول العديد من النقاط أعلاه.
البرمجيات والرمز
معلومات السياسة حول توفر كود الكمبيوتر
جمع البيانات
تم اختيار مناطق الصور في PathQABench يدويًا بواسطة طبيب أمراض معتمد من المجلس باستخدام برنامج العرض الرقمي مفتوح المصدر QuPath (0.4.2). تم تجميع أسئلة الاستفسار وخيارات الاختيار المتعدد باستخدام Python (3.10.13) و numpy (1.26.1).
بالنسبة للمخطوطات التي تستخدم خوارزميات أو برامج مخصصة تكون مركزية للبحث ولكن لم يتم وصفها بعد في الأدبيات المنشورة، يجب أن تكون البرمجيات متاحة للمحررين والمراجعين. نشجع بشدة على إيداع الكود في مستودع مجتمعي (مثل GitHub). انظر إرشادات Nature Portfolio لتقديم الكود والبرمجيات لمزيد من المعلومات.
البيانات
معلومات السياسة حول توفر البيانات
يجب أن تتضمن جميع المخطوطات بيانًا حول توفر البيانات. يجب أن يوفر هذا البيان المعلومات التالية، عند الاقتضاء:
رموز الوصول، معرفات فريدة، أو روابط ويب لمجموعات البيانات المتاحة للجمهور
وصف لأي قيود على توفر البيانات
بالنسبة لمجموعات البيانات السريرية أو بيانات الطرف الثالث، يرجى التأكد من أن البيان يتماشى مع سياستنا
يمكن الوصول إلى مجموعة بيانات PubMed Central-OA من موقع NIH PubMed Central (https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/). تتوفر WSIs الخاصة بـ TCGA والبيانات السريرية المرتبطة من مركز بيانات الجينوم NIH (https://portal.gdc.cancer.gov). تم إصدار معيار PathQABench-Public المنسق للاستخدام البحثي ويمكن الوصول إليه من خلال: https://github.com/fedshyvana/pathology_mllm_training. تم تنسيق بيانات المرضى المستخدمة في هذا المشروع بموافقة مؤسسية من خلال موافقة IRB للدراسة الحالية وبالتالي لا يمكن جعلها متاحة للجمهور امتثالًا لالتزامات خصوصية المرضى. سيتم تقييم جميع الطلبات للحصول على بيانات معالجة تم تنسيقها داخليًا بناءً على السياسات المؤسسية والقسمية لتحديد ما إذا كانت البيانات المطلوبة تخضع لالتزامات الملكية الفكرية أو خصوصية المرضى. ستتطلب البيانات التي يمكن نقلها اتفاقية نقل المواد أو البيانات بين المؤسسات وستحد من استخدام البيانات لأغراض البحث الأكاديمي غير التجاري. سيعتمد الجدول الزمني الدقيق على تنفيذ مثل هذه الاتفاقيات. يرجى إرسال جميع الطلبات إلى المؤلف المقابل (وتضمين M.Y.L. أيضًا، mlu16@bwh.harvard.edu).
البحث الذي يشمل المشاركين البشريين، بياناتهم، أو المواد البيولوجية
معلومات السياسة حول الدراسات التي تشمل المشاركين البشريين أو بيانات بشرية. انظر أيضًا معلومات السياسة حول الجنس، الهوية/العرض الجنسي، والتوجه الجنسي والعرق، الإثنية والعنصرية.
التقرير عن الجنس والهوية
لم يتم جمع أو استخدام أو تحليل أي متغيرات تتعلق بالجنس أو الهوية في الدراسة.
التقرير عن العرق، الإثنية، أو مجموعات اجتماعية أخرى ذات صلة
لم يتم جمع أو استخدام أو تحليل أي متغيرات تتعلق بالعرق، الإثنية، ومجموعات اجتماعية أخرى في الدراسة.
خصائص السكان
لم يتم جمع أو استخدام أو تحليل أي متغيرات تتعلق بخصائص السكان في الدراسة.
التجنيد
اعتمدت الدراسة على تحليل صور الأمراض بشكل رجعي ولم يتم تجنيد أي مرضى خصيصًا لهذه الدراسة.
الإشراف الأخلاقي
وافقت لجنة IRB بمستشفى بريغهام والنساء على التحليل الرجعي لصور علم الأمراض والتقارير المقابلة.
يرجى ملاحظة أنه يجب أيضًا تقديم معلومات كاملة عن موافقة بروتوكول الدراسة في المخطوطة.
التقارير الخاصة بالمجال
يرجى اختيار الخيار أدناه الذي يناسب بحثك بشكل أفضل. إذا لم تكن متأكدًا، اقرأ الأقسام المناسبة قبل اتخاذ قرارك.
علوم الحياة العلوم السلوكية والاجتماعية العلوم البيئية والتطورية والبيئية
لنسخة مرجعية من الوثيقة بجميع الأقسام، انظر nature.com/documents/nr-reporting-summary-flat.pdf
تصميم دراسة علوم الحياة
يجب على جميع الدراسات الإفصاح عن هذه النقاط حتى عندما يكون الإفصاح سلبيًا.
حجم العينة
لم يتم إجراء أي حساب لحجم العينة كما هو الحال مع جميع دراسات التعلم العميق، تم استخدام أداء النموذج التقاربي لتقدير حجم مجموعة بيانات التدريب.
استبعاد البيانات
بالنسبة لبيانات التدريب المسبق، تم إجراء تصفية البيانات لكل مصدر بيانات على حدة لضمان الجودة والملاءمة لتدريب مساعد لغة الرؤية المحدد بعلم الأمراض. تشمل أمثلة على القواعد المستخدمة بشكل متكرر للتصفية إزالة تسميات الصور التي تكون قصيرة جدًا (< 12 كلمة) أو غير مفيدة وعامة جدًا (مثل “صورة H&E للورم.”). كما قمنا بإزالة التسميات أو المقاطع المتعلقة بعلم الأمراض الحيواني (تشمل الكلمات الرئيسية: “جرذ”، “خنزير”، إلخ) والدراسات التجريبية (تشمل الكلمات الرئيسية: “تجريبي”، “تحكم إيجابي”، إلخ) باستخدام مطابقة نمط regex. لم نطبق أي معايير استبعاد خاصة على مجموعة بيانات التقييم.
التكرار
على PathQABench، يتم حساب مقاييس الأداء المبلغ عنها بشكل حتمي باستخدام توقعات النموذج وعلامات التشخيص الحقيقية أو ملاحظات الخبراء البشريين. كان تكرار نتائج الاختبار المبلغ عنها ناجحًا عبر 5 محاولات مختلفة لتشغيل نص التقييم.
العشوائية
في أسئلة الاختيار المتعدد، لكل سؤال، نقوم بتغيير ترتيب خيارات الإجابة الممكنة لتقليل التحيز المحتمل في النماذج. في تقييم الخبراء البشريين، يتم أيضًا تغيير ترتيب الاستجابات من قبل نماذج مختلفة بشكل مشابه لكل سؤال.
التعمية
في تقييم الخبراء البشريين، يتم تعمية خبراء علم الأمراض عن أي نموذج أنتج أي استجابة.
التقارير للمواد والأنظمة والأساليب المحددة
نحتاج إلى معلومات من المؤلفين حول بعض أنواع المواد والأنظمة التجريبية والأساليب المستخدمة في العديد من الدراسات. هنا، حدد ما إذا كانت كل مادة أو نظام أو طريقة مدرجة ذات صلة بدراستك. إذا لم تكن متأكدًا مما إذا كان عنصر القائمة ينطبق على بحثك، اقرأ القسم المناسب قبل اختيار استجابة.
المواد والأنظمة التجريبية
الطرق
لا ينطبق
مشارك في الدراسة
لا ينطبق
مشارك في الدراسة
X
التصوير العصبي القائم على التصوير بالرنين المغناطيسي
النباتات
مخزونات البذور
أبلغ عن مصدر جميع مخزونات البذور أو المواد النباتية الأخرى المستخدمة. إذا كان ذلك ممكنًا، اذكر مركز مخزون البذور ورقم الفهرس. إذا تم جمع عينات نباتية من الحقل، وصف موقع الجمع، التاريخ وإجراءات أخذ العينات.
أنماط نباتية جديدة
صف الطرق التي تم من خلالها إنتاج جميع الأنماط النباتية الجديدة. يشمل ذلك تلك التي تم إنشاؤها بواسطة طرق نقل الجينات، تحرير الجينات، الطفرات الكيميائية/الإشعاعية والتهجين. بالنسبة لخطوط النقل الجيني، صف طريقة التحويل، عدد الخطوط المستقلة التي تم تحليلها والجيل الذي أجريت عليه التجارب. بالنسبة لخطوط تحرير الجينات، صف المحرر المستخدم، التسلسل الداخلي المستهدف للتحرير، تسلسل RNA الدليل المستهدف (إذا كان ذلك ممكنًا) وكيفية استخدام المحرر.
A Multimodal Generative AI Copilot for Human Pathology
Received: 11 December 2023
Accepted: 28 May 2024
Accelerated Article Preview
Cite this article as: Lu, M. Y. et al. A Multimodal Generative AI Copilot for Human Pathology. Nature https://doi.org/ 10.1038/s41586-024-07618-3 (2024)
Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Melissa Zhao, Aaron K. Chow, Kenji Ikemura, Ahrong Kim, Dimitra Pouli, Ankush Patel, Amr Soliman, Chengkuan Chen, Tong Ding, Judy J. Wang, Georg Gerber, Ivy Liang, Long Phi Le, Anil V. Parwani, Luca L. Weishaupt & Faisal Mahmood
This is a PDF file of a peer-reviewed paper that has been accepted for publication. Although unedited, the content has been subjected to preliminary formatting. Nature is providing this early version of the typeset paper as a service to our authors and readers. The text and figures will undergo copyediting and a proof review before the paper is published in its final form. Please note that during the production process errors may be discovered which could affect the content, and all legal disclaimers apply.
A Multimodal Generative AI Copilot for Human Pathology
Ming Y. Lu , Bowen Chen , Drew F. K. Williamson , Richard J. Chen , Melissa Zhao , Aaron K. Chow , Kenji Ikemura , Ahrong Kim , Dimitra Pouli , Ankush Patel , Amr Soliman , Chengkuan Chen , Tong Ding , Judy J. Wang , Georg Gerber , Ivy Liang , Long Phi Le , Anil V. Parwani , Luca L. Weishaupt , and Faisal Mahmood Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, United States Department of Pathology, Massachusetts General Hospital, Harvard Medical School, Boston, MA, United States Cancer Program, Broad Institute of Harvard and MIT, Cambridge, MA, United States Electrical Engineering and Computer Science, Massachusetts Institute of Technology (MIT), Cambridge, MA, United States Department of Pathology, Wexner Medical Center, Ohio State University, Columbus, OH, United States Department of Laboratory Medicine and Pathology, Mayo Clinic, Rochester, MN, United States Harvard John A. Paulson School of Engineering and Applied Sciences, Harvard University, Cambridge, MA, United States Health Sciences and Technology, Harvard-MIT, Cambridge, MA, United States Harvard Data Science Initiative, Harvard University, Cambridge, MA, United States Department of Pathology, Pusan National University, South Korea These authors contributed equally: Ming Y. Lu, Bowen Chen, Drew F. K. Williamson e-mail:faisalmahmood@bwh.harvard.edu
The field of computational pathology[1,2] has witnessed remarkable progress in the development of both task-specific predictive models and task-agnostic self-supervised vision encoders[3, 4]. However, despite the explosive growth of generative artificial intelligence (AI), there has been limited study on building general purpose, multimodal AI assistants and copilots[5] tailored to pathology. Here we present PathChat, a visionlanguage generalist AI assistant for human pathology. We build PathChat by adapting a foundational vision encoder for pathology, combining it with a pretrained large language model and finetuning the whole system on over 456,000 diverse visual language instructions consisting of 999,202 question-answer turns. We compare PathChat against several multimodal vision language AI assistants and GPT4V, which powers the commercially available multimodal general purpose AI assistant ChatGPT-4[7]. PathChat achieved state-of-theart performance on multiple-choice diagnostic questions from cases of diverse tissue origins and disease models. Furthermore, using open-ended questions and human expert evaluation, we found that overall PathChat produced more accurate and pathologist-preferable responses to diverse queries related to pathology. As an interactive and general vision-language Al Copilot that can flexibly handle both visual and natural language inputs, PathChat can potentially find impactful applications in pathology education, research, and human-in-the-loop clinical decision making.
Introduction
The field of computational pathology has witnessed a remarkable transformation in recent years, propelled by the convergence of several key trends including increased availability and institutional adoption of digital slide scanning, rapid progress in artificial intelligence (AI) research, increased accessibility of large datasets, and substantial highperformance computing resources[ ]. With varying degrees of success, researchers have leveraged deep learning to address a diverse range of tasks, including cancer subtyping[9, 10] and grading[11, 12], metastasis detection[13], survival[14, 15, 16, 17, 18] and response-to-treatment prediction[19, 20], tumor site of origin prediction[21, 22], mutation prediction and biomarker screening[23, 24, 25], and more[26]. At the same time, general purpose vision encoder models[27], which are trained on vast datasets of unlabeled histopathology images and can serve as versatile task-agnostic model backbones[3, 4], are paving the way for further improvements across many tasks in computational pathology, both in performance and label efficiency.
However, the aforementioned developments in computational pathology do not yet reflect the important roles of natural language in pathology – as a key to unlocking rich, diverse sources of accumulated human medical knowledge, a supervisory signal for model development, and a unified medium for facilitating intuitive interaction between powerful Al models and end users. Notably, in general machine learning, representative works[28,29] demonstrated that largescale vision language representation learning can augment vision-only AI models with new capabilities including zeroshot image recognition and text-to-image retrieval. Depending on the architectural design and training data and objectives, visual language pretrained systems can also often be finetuned for tailored tasks ranging from visual question answering and image captioning to object detection and semantic segmentation. In medical imaging and computational pathology, researchers have recently begun to harness diverse sources[30, 31, 32, 33, 34] of paired biomedical images and captions or reports for visual language pretraining, including the development of CLIP[28]-like models tailored for specific domains such as pathology[31, 35, 36, 34] and radiology[37, 38, 39]. In computational pathology, a few works have shown promising zeroshot performance in select diagnostic and retrieval tasks[31, 35, 34], while other works also experimented with specialized models for biomedical visual question answering or captioning[40, 41, 42, 43, 44]. However, for pathologists, researchers using pathology image data, or pathology trainees alike, these models are not yet ready to serve as interactive companions (or copilots) that can follow diverse instructions and coherently and accurately answer complex open-ended questions in natural language.
Following the rise of large language models[45, 46, 47, 48] (LLMs), rapid advances in multimodal large language models[49, 5, 50] (MLLMs) and the broader field of generative AI[51] are poised to open a new frontier for computational pathology, one which emphasizes natural language and human interaction as key components of Al model design and user experience, in addition to powerful visual processing capabilities. Multimodal generative Al products such as ChatGPT have demonstrated impressive capabilities on a wide range of routine, creative, as well as professional use cases[7, 52], including coding, writing, summarization, data analysis, question answering, translation, and even image generation, all while being accessible through an intuitive and interactive user interface. Though there have been attempts to investigate their performance on answering medicine-related queries, their capability to assist professionals and researchers in the highly specialized but important sub-field of anatomic pathology remains relatively unexplored . Yet, the potential applications of an interactive, multimodal AI copilot for pathology are immense. The ability to understand and respond to complex queries in natural language in theory could enable such a copilot for pathology to serve as a helpful companion across various stages of human-in-the-loop clinical decision making, education, and research. For instance, an AI copilot would be able to ingest a histopathology image, provide an initial assessment of the morphological appearance, and identify potential features of malignancy. Subsequently, the pathologist or trainee could provide additional context about the underlying case, such as clinical parameters of the patient and the tissue site, and ask the model to suggest a differential diagnosis. If deemed reasonable, the user could then request helpful suggestions for ancillary testing and immunohistochemical stains to narrow down the differential. Finally, the results of such tests could also be provided to the model to make a final deduction to arrive at the diagnosis. In research, a multimodal AI copilot that can summarize the morphological features of large cohorts of histopathology images would potentially enable automated quantification and interpretation of morphological markers in large data cohorts. In medical education, an accurate, on-demand interactive AI companion could help democratize access to expert-level guidance and training in pathology, thereby narrowing the gap between regional disparities in healthcare provision.
A multimodal generative AI copilot for human pathology
In this article, we develop PathChat, a multimodal generative AI copilot for human pathology powered by a custom, finetuned multimodal large language model (MLLM). To build a MLLM that can reason over both visual and natural language inputs, we begin with UNI[3], a state-of-the-art (SOTA) vision-only encoder pretrained on over 100 million histology image patches from over 100 thousand slides using self-supervised learning. We perform further vision
language pretraining on the UNI encoder with 1.18 million pathology image caption pairs to align its image representation space with that of pathology text[35]. The resulting vision encoder is subsequently connected to a 13 billion parameter, pretrained Llama 2 LLM[47] via the multimodal projector module to form the complete MLLM architecture (see PathChat model design and training section of Methods for more details). The MLLM is finally finetuned via a curated dataset of over 450 thousand instructions to build PathChat (Figure 1, Extended Data Figure 1), which can understand pathology images and text and respond to complex pathology-related queries. More information about data curation and model training can be found in PathChat dataset curation and PathChat model design and training section of Methods respectively, with additional details summarized in Supplementary Data Tables 1-4.
We demonstrate the capabilities of PathChat in various applications including analysis of pathology cases from diverse organ sites and practices (Figures 2 and 3). Additionally, we curated a high quality open-ended pathology visual question answering benchmark suitable for evaluating the performance of multimodal large language models in pathology, which we curated with expert supervision (see an expert-curated pathology question-answering benchmark section of Methods for more details). We compare PathChat against both LLaVA[5], a state-of-the-art (SOTA) general domain open-source MLLM as well as LLaVA-Med[53], which has been tailored to the biomedical domain. We also compare against a SOTA commercial solution, ChatGPT-4 (powered by GPT4V), despite our model being significantly smaller and cheaper to serve.
Results
Performance on multiple-choice diagnostic questions
We began by assessing the capability of our PathChat MLLM to directly make a diagnosis based on histology images. For this purpose, a board-certified pathologist manually selected salient regions of interest (ROIs) from routine H&E diagnostic whole slide images (WSIs) from both the TCGA and our in-house pathology archive (both of which are completely withheld from model pretraining or finetuning). In total, the questions cover 54 diagnoses from 11 different major pathology practices and organ sites (Supplementary Data Tables 5 and 6). For each organ system, the pathologist selected a set of 10 possible answers that encompasses the correct answers for all questions within that organ system as well as other relatively common diagnoses within that organ system (Supplementary Data Table 7). For each question, we consider two evaluation strategies. In the first (image only setting), the model is presented with only the image and the multiple-choice question as input. In the second (image with clinical context), the model with presented with additional clinical context to closely mimic a real-world diagnostic workflow, in which information such as patient age, sex, clinical history, and radiology findings are included with the histology image for the clinical case. In both settings, the model is assessed for its ability to accurately select the ground truth diagnosis from the set of possible options. We provide an illustrative example of the complete model input in Figure 2a. On all cases (denoted as “Combined” in Figure 2b), we compare PathChat against LLaVA 1.5, a SOTA general purpose visual language chatbot assistant, as well as LLaVA-Med, a specialized version of LLaVA finetuned for answering biomedical related queries. Additionally, on the subset of 52 cases derived from publicly available WSIs (denoted as “PathQABenchPublic”), in addition to LLavA 1.5 and LLaVA-Med, we also compare against GPT4V, which powers ChatGPT4, one of the current best in class, vision capability enabled commercial AI assistant developed by OpenAI. All models were evaluated “as is” without any additional task-specific finetuning, consistent with the paradigm of zero-shot transfer.
In both evaluation settings (image only and image with clinical context), PathChat convincingly outperforms the open-source baselines LLaVA 1.5 and LLaVA-Med in terms of diagnostic accuracy (Figure 2a, Supplementary Data Tables 8-10). In the image only evaluation setting, PathChat scored a accuracy ( vs. LLaVA 1.5 and vs. LLaVA-Med, for both) on the full combined benchmark. In line with expectation, the performance of PathChat further improves to accuracy ( vs. LLaVA 1.5 and vs. LLaVA-Med, for both) when additional useful clinical context is provided. Specifically, we note that the addition of clinical context consistently improves the accuracy of PathChat both on the private in-house cases (PathQABench-Private, ) and the public TCGA cases (PathQABench-Public, ). On the other hand, when only the clinical context is provided (i.e. the corresponding image is not shown to the model), performance is substantially lower (Extended Data Figure 2), which suggests PathChat derives substantial predictive power from visual features and does not rely on the clinical context alone. Together, these findings suggest that PathChat can effectively and flexibly leverage multimodal information for more accurate diagnosis of histology images by simply providing such additional non-visual information in plain natural language without specialized data processing.
Additionally, using PathQABench-Public, which only contains cases from the publicly available TCGA WSIs, we also compare our model against the GPT-4Vision (GPT4V) model. Given that we do not know the extent that GPT4V has been trained on histopathology-specific data from the internet, our use of manually curated ROIs from WSIs for
evaluation helps minimize the likelihood of data contamination and ensure proper assessment of its performance on histopathology images. It is worth noting that guardrails appear to have been implemented into GPT4V to sometimes prevent it from addressing queries that require examination of medical images, and it will instead inform the user that it cannot provide a pathology interpretation and instead to consult a medical professional. In such cases, we make a maximum of 2 additional submissions for the same query for a total of up to 3 attempts (see Evaluation of GPT4V of the Methods section for more details). Following this evaluation protocol, we successfully queried GPT4V for 47 out of 52 PathQABench-Public images when clinical context is included (28 out of 52 questions for the image only setting). An ultimately unsuccessful query was treated as incorrect since the response did not address the question. We observe that while GPT4V is more accurate than the open-source MLLMs when clinical context is provided, our domain-specific PathChat MLLM is consistently better in both evaluation settings ( by GPT4V with clinical context, vs. by GPT4V for image only, for both). While a part of this difference may be explained by GPT4V’s guardrails, for a more comprehensive and transparent assessment, we also reported performance on only the subset of questions that GPT4V successfully answered (Supplementary Data Table 11), and found PathChat to still consistently outperform GPT4V by a relatively large margin ( on 47 questions with clinical context; on 28 questions for the image only setting).
Performance on open-ended question answering
Beyond multiple-choice diagnostic questions, it is valuable to assess the ability of PathChat and other MLLMs to generate coherent, reasonable, and clinically relevant responses to open-ended pathology-related inquiries (see an expert-curated pathology question-answering benchmark section of Methods). Based on cases from PathQABenchPublic, a board-certified anatomic pathologist carefully curated open-ended questions targeting a broad spectrum of topics including microscopic image description, histologic grade and differentiation status, risk factors, prognosis, treatment, diagnosis, immunohistochemical (IHC) tests, molecular alterations, and other further testing. Similar to the multiple-choice evaluation, to mimic the real-world use case of a pathology AI assistant, each question is provided to models as is, without requiring any additional model or task-specific finetuning.
Given the more subjective nature of evaluating responses to open-ended questions, our evaluation consists of two components. First, a total of 7 expert pathologists each ranked (from best to worst, ties allowed) responses of different models for all questions (Figure 3a) based on their relevance to the question, correctness, and whether it is supplemented with correct explanation or reasoning in a succinct manner (see MLLM evaluation section of Methods for more details and Extended Data Figures 3-5 for illustrative examples of ranked model responses). Throughout the ranking process, the pathologists, who have not had prior interaction with each model, were also blinded to which model produced which response and the responses were additionally randomly shuffled for each question to further minimize potential bias towards specific models. This part of the evaluation is aimed at capturing a wide range of expert judgment (including subjective human preference) on the responses.
Overall, we find that PathChat produces on average more preferable, higher ranked responses than all other MLLMs tested. When considering head-to-head records (e.g. PathChat vs. GPT4V) for model ranking judged by a human expert, a “win” for PathChat on a question equates to PathChat’s response being ranked strictly higher than its counterpart when considering their relative ranking. Similarly, a “tie” for PathChat means the two models received the same rank while a “lose” means PathChat was ranked strictly lower. Against the runner up GPT4V, PathChat had a favorable median win rate of across 7 independent pathologist evaluators compared to a median lose rate of just and a median tie rate of of questions (Figure 3b, Supplementary Data Tables 12 and 13). Once again, we observe an even larger performance gap in favor of PathChat as compared to LLaVA 1.5 (median win rate of , median lose rate of , and median tie rate of ) and LLaVA-Med (median win rate of , median lose rate of , and median tie rate of ).
Additionally, in order to also establish a more objective metric for each model’s accuracy on the open-ended questions, two board-certified pathologists independently reviewed responses for each question to assign a binary label of correct vs. incorrect for each model (while remaining blinded to each model’s identity). To mitigate the extent of subjectivity, the two pathologists then discussed all questions where they disagreed in their assessment, in an attempt to reach a consensus. For 235 out of 260 questions, a complete agreement was reached for all models and we use the consensus as the ground truth to compute the accuracy for each model. Specifically, PathChat scored an overall accuracy of on the subset of open-ended questions for which pathologists were able to reach a consensus (Figure 3c, Supplementary Data Table 14), which corresponds to a improvement ( ) compared to the accuracy score of achieved by the runner up, GPT4V. Compared to the publicly available general purpose MLLM LLaVA 1.5 (accuracy of 29.8%), and the biomedicine-specialized MLLM LLaVA-Med (accuracy of ), the margin of improvement is even more substantial, at and respectively ( for both). We further report the accuracy of each model as assessed by each pathologist on the full set of questions (including the remaining questions for which a disagreement remained) in Extended Data Figure 6.
These results demonstrate that overall, PathChat generates both more accurate as well as more preferable responses to diverse pathology-related queries. Additionally, in order to better understand relative strengths and weaknesses of different models, we further analyze the performance of different models in various subgroups of questions (described in Supplementary Data Tables 15 and 16 with examples provided in Extended Data Figure 7). In particular, the “Microscopy” category includes questions that test the ability of models to generate accurate and detailed morphological descriptions of histology microscopy images and assess clinically relevant features such as tumor differentiation and grade. Questions in the “Diagnosis” category test the ability of the models to directly suggest a reasonable diagnosis based on the histology image available and relevant clinical context (unlike in multiple choice questions where possible choices are provided). “Clinical” questions test the ability to retrieve clinically relevant background knowledge about the disease in question, including risk factors, prognosis and treatment. “Ancillary testing” questions test the ability of models to suggest additional testing such as IHCs and molecular in order confirm a specific diagnosis or inform prognosis and treatment. We observed that while GPT4V is the runner up to PathChat overall, PathChat’s responses are especially superior to GPT4V’s in the categories that require examination of the histology image (i.e. “Microscopy” and “Diagnosis”), where the accuracy on the consensus subset is and for PathChat respectively vs. and for GPT4V (Figure 3d, Supplementary Data Tables 17-19). Similarly, median head-to-head win rate against GPT4V reaches and on the two categories of questions respectively, compared to the average median win-rate of . Coupled with a median lose rate against GPT4V of only on both these categories, the results imply that PathChat is better than or as good as GPT4V in around of queries that emphasize histology image examination (Extended Data Figures 8 and 9, Supplementary Data Tables 20-27). On the flip side, we found PathChat to lag somewhat behind GPT4V on “Clinical” and “Ancillary Testing”, where, for the consensus subset, PathChat achieved a respectable accuracy score on both categories compared to GPT4V’s higher scores of and on the two categories respectively. It is worth noting that while PathChat convincingly outperform GPT4V in accuracy on the “Microscopy” and “Diagnosis” categories according to the consensus ( for both, and 79 respectively), we did not find any statistical significance ( ) for the higher accuracy of GPT4V on the “Clinical” and “Ancillary Testing” categories: for Clinical ( ), and for Ancillary Testing ( ) according to the consensus, suggesting there may not be a meaningful difference in the model performance on these categories between PathChat and the runner up GPT4V. Similarly, according to the more subjective ranking-based evaluation, we found PathChat was comparable to and in fact slightly more preferred by the panel of pathologists compared to GPT4V (a median of win rate and lose rate vs. GPT4V for “Clinical” and a median of win rate and lose rate for “Ancillary Testing”) on these same categories. We note that we included “Clinical” and “Ancillary testing” questions in order to comprehensively assess the capabilities of AI assistant models to address pathology related queries. However, these questions frequently do not require actual examination of the histology image but instead mostly aim to test the model’s ability to recall background knowledge relevant to pathology (e.g. “What specific molecular alterations are commonly found in disease X, and how might they influence the prognosis or therapeutic options?”). As a result, it is not too surprising that even general purpose multimodal AI assistants such as LLaVA 1.5 can often adequately answer questions in these categories and GPT4V may especially excel here as it is presumably much larger and trained on more extensive knowledge of the internet than open-source models and PathChat. Since these queries can often readily be addressed through conventional means of querying such as internet searches or consulting a reference manual, we focus on the “Microscopy” and “Diagnosis” categories as main indicators for the utility of different models as vision language assistants for Pathology, given that the aforementioned conventional means of querying do not fill the need for AIassisted visual question answering based on pathology images. Further breakdown of model performance by subcategories are included in Supplementary Data Tables 28-38. We note that despite the fact that our open-ended question answering benchmark is specific to the domain of pathology, its size is around double the 140 questions used in an earlier work[58] for human expert evaluation of LLMs’ ability to encode general clinical knowledge.
Lastly, we note that similar to our observation in the multiple-choice evaluation, presumably due to guardrails implemented by GPT4V, 38 of 260 questions submitted to GPT4V obviously refused to answer (a maximum number of 3 attempts were made for each question, see Evaluation of GPT4V of the Methods section for more details). Consistent with assessing other models, all GPT4V responses, regardless of whether successful or not, were blinded / shuffled and presented to pathologists for evaluation without special treatment. However, for transparency, we record the number of ultimately unsuccessful queries for GPT4V in each question category (Supplementary Data Table 39) and also report performance on only the subset of questions that GPT4V successfully answered (Supplementary Data Tables 40-64), which saw PathChat still outperforming GPT4V by a margin of over 20% in accuracy (e.g. 81.2% vs. for 202 questions with consensus, ).
Demonstration of PathChat on diverse use cases
In addition to evaluating PathChat on multiple choice-style questions and open-ended question answering, we attempted to conceptualize and explore potential use cases for PathChat as an AI copilot specialized for Pathology. We observed that PathChat can analyze and describe notable morphological details in histology images, and answer questions that require background knowledge in pathology and general biomedicine in addition to the visual input alone (Figure 4a-d). The ability to analyze visual features and flexibly combine them with additional clinical context and medical knowledge (simply specified via natural language), and interpret them in the context of specific diagnostic guidelines (e.g. Gleason grading) out of the box opens PathChat to a much wider range of applications compared to task-specific visual question answering or image captioning models finetuned on relatively small datasets with a limited scope[40, 41, 42, 43, 44]. Additionally, the support for interactive, multi-turn conversation enables PathChat to potentially serve as a consultant for human-in-the-loop differential diagnosis, where an initial AI-assisted assessment can be followed up with additional clinical context, test results that are subsequently generated to narrow the differential (Figure 4e, Extended Data Figure 10). This may be especially valuable in cases that involve more lengthy, complex workups such as cancers of unknown primary (CUPs) and in low-resource settings where access to experienced pathologists may be limited.
Discussion
The field of computational pathology has witnessed substantial progress over the years in developing increasingly accurate, task-specific predictive models based on image and/or genomics data. For histology images specifically, there has recently been growing interest in building foundational task-agnostic vision encoders pretrained with large amounts of unlabeled images, which can provide robust feature embeddings for diverse supervised and unsupervised downstream workflows. However, the explosive growth in generative AI technology and specifically MLLMs, as exemplified by the likes of ChatGPT, begins to open up a possible new frontier for both computational pathology research and real-world applications to the clinical practice of pathology. Generalist AI models equipped with natural language understanding can utilize text as a unified medium to both flexibly specify user intent (i.e., in the form of a tailored prompt) and to produce outputs of various levels of expressiveness (i.e., from single-word to binary or multiple choice responses to coherent sentences with reasoning steps) that perform diverse tasks (e.g., summarization, classification, captioning, retrieval, question answering, and more). For the field of pathology specifically, such a model can in theory have applications in a wide range of scenarios across education and research as well as human-in-theloop clinical decision making.
In this work, we provide a proof of concept for building an AI copilot tailored to human pathology. We also provide, to our best knowledge, the most extensive evaluation of such technology in the field of computational pathology by comparing our model, PathChat, against both publicly-available models developed for general machine learning and the larger domain of biomedical sciences, as well as a SOTA commercial solution, GPT4V. We created PathQABench, a high quality, expert-curated benchmark that aims to assess a diverse range of capabilities relevant to the practice of anatomic pathology, including morphological examination of histology microscopic images, making diagnoses based on both histology and clinical context, assessment of tumor grade and differentiation, suggesting further molecular testing, and understanding of risk factors, prognosis and treatment of the underlying disease. We assessed these skills through a combination of multiple-choice style diagnostic questions as well as open-ended questions and human expert evaluation. In both evaluation settings, we found PathChat to compare favorably to the current best in class commercial solution GPT4V (presumably much larger and expensive to serve than PathChat), as well as substantially outperforming the publicly available MLLMs tested in diagnostic accuracy and quality of response. Additionally, we demonstrated that the support for interactive, multi-turn conversation may enable PathChat to handle additional use cases such as complex diagnostic workups. Considering our findings, we hope PathChat can potentially find impactful applications in pathology education, research, as well as human-in-the-loop clinical decision making as the technology matures over time.
Further alignment with human intent using techniques such as reinforcement learning from human feedback (RLHF)[45] may lower hallucination in MLLM-based AI assistant models in general and also help them capture certain nuances specific to the practice of pathology, such as when to request additional contextual information or test results when it is not possible or is difficult to rule out certain morphologically similar diseases based on H&E histology alone, or to seek clarification on institutional-specific guidelines for diagnosis and treatment. For real-world deployment, additional improvement and validation are likely also warranted to ensure that the model can consistently and correctly identify invalid queries (e.g., non-pathology related or nonsensical inputs) and refrain from answering with unexpected or erroneous outputs.
Future research will likely further enhance the capabilities of PathChat and MLLM-based AI assistants by adding support for inputting an entire gigapixel WSI or multiple WSIs. This may extend their usefulness in the diagnosis of challenging and borderline entities by supplying valuable context beyond pre-selected, representative ROIs.
Additionally, due to training on retrospectively collected large scale datasets that inevitably contain outdated information, these models may reflect the “scientific consensus of the past” rather than today[58]. For example, as medical terminology and guidelines evolve, a model response that references the outdated term “glioblastoma multiforme” may result in factual inaccuracies. Besides continual training with fresh, up-to-date knowledge[59], other research directions may involve curating specific instructions that make the model aware of changes in terminology and guidelines or using retrieval augmented generation[60] with a continuously updated knowledge database. Lastly, to make these tools more useful to pathologists and researchers, it could be worthwhile to consider explicitly supporting specialized tasks such as precise counting or localization of objects (e.g. “how many lymphocytes are in this image?” or “provide the exact bounding box coordinates of mitotic figures”) and building integration of PathChat-like AI assistants with tools such as digital slide viewers or electronic health records.
Main References
[1] Andrew H Song et al. “Artificial intelligence for digital and computational pathology”. In: Nature Reviews Bioengineering (2023), pp. 1-20.
[2] Artem Shmatko et al. “Artificial intelligence in histopathology: enhancing cancer research and clinical oncology”. In: Nature Cancer 3.9 (2022), pp. 1026-1038.
[3] Richard J Chen et al. “Towards a general-purpose foundation model for computational pathology”. In: Nature Medicine 30.3 (2024), pp. 850-862.
[4] Ozan Ciga, Tony Xu, and Anne Louise Martel. “Self supervised contrastive learning for digital histopathology”. In: Machine Learning with Applications 7 (2022), p. 100198.
[5] Haotian Liu et al. “Visual Instruction Tuning”. In: NeurIPS. 2023.
[6] Yuxuan Sun et al. “PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology”. In: Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. 5. 2024, pp. 5034-5042.
[7] Josh Achiam et al. “Gpt-4 technical report”. In: arXiv preprint arXiv:2303.08774 (2023).
[8] Jana Lipkova et al. “Artificial intelligence for multimodal data integration in oncology”. In: Cancer cell 40.10 (2022), pp. 1095-1110.
[9] Nicolas Coudray et al. “Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning”. In: Nature medicine 24.10 (2018), pp. 1559-1567.
[10] Ming Y Lu et al. “Data-efficient and weakly supervised computational pathology on whole-slide images”. In: Nature biomedical engineering 5.6 (2021), pp. 555-570.
[11] Wouter Bulten et al. “Automated deep-learning system for Gleason grading of prostate cancer using biopsies: a diagnostic study”. In: The Lancet Oncology 21.2 (2020), pp. 233-241.
[12] Wouter Bulten et al. “Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge”. In: Nature medicine 28.1 (2022), pp. 154-163.
[13] Babak Ehteshami Bejnordi et al. “Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer”. In: Jama 318.22 (2017), pp. 2199-2210.
[14] Andrew H Beck et al. “Systematic analysis of breast cancer morphology uncovers stromal features associated with survival”. In: Science translational medicine 3.108 (2011).
[15] Richard J Chen et al. “Pan-cancer integrative histology-genomic analysis via multimodal deep learning”. In: Cancer Cell 40.8 (2022), pp. 865-878.
[16] Y. Lee, J.H. Park, S. Oh, et al. “Derivation of prognostic contextual histopathological features from whole-slide images of tumours via graph deep learning”. In: Nat. Biomed. Eng (2022).
[17] Mohamed Amgad et al. “A population-level digital histologic biomarker for enhanced prognosis of invasive breast cancer”. In: Nature Medicine (2023), pp. 1-13.
[18] Pooya Mobadersany et al. “Predicting cancer outcomes from histology and genomics using convolutional networks”. In: Proceedings of the National Academy of Sciences 115.13 (2018), E2970-E2979.
[19] Stephen-John Sammut et al. “Multi-omic machine learning predictor of breast cancer therapy response”. In: Nature 601.7894 (2022), pp. 623-629.
[20] Zhi Huang et al. “Artificial intelligence reveals features associated with breast cancer neoadjuvant chemotherapy responses from multi-stain histopathologic images”. In: NPJ Precision Oncology 7.1 (2023), p. 14.
[21] Ming Y Lu et al. “AI-based pathology predicts origins for cancers of unknown primary”. In: Nature 594.7861 (2021), pp. 106-110.
[22] Fei Tian et al. “Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning”. In: Nature Medicine (2024), pp. 1-11.
[23] Jakob Nikolas Kather et al. “Pan-cancer image-based detection of clinically actionable genetic alterations”. In: Nature cancer 1.8 (2020), pp. 789-799.
[24] Yu Fu et al. “Pan-cancer computational histopathology reveals mutations, tumor composition and prognosis”. In: Nature cancer 1.8 (2020), pp. 800-810.
[25] Sophia J Wagner et al. “Transformer-based biomarker prediction from colorectal cancer histology: A large-scale multicentric study”. In: Cancer Cell 41.9 (2023), pp. 1650-1661.
[26] Simon Graham et al. “One model is all you need: multi-task learning enables simultaneous histology image segmentation and classification”. In: Medical Image Analysis 83 (2023), p. 102685.
[27] Maxime Oquab et al. “DINOv2: Learning Robust Visual Features without Supervision”. In: Transactions on Machine Learning Research (2023).
[28] Alec Radford et al. “Learning transferable visual models from natural language supervision”. In: International conference on machine learning. PMLR. 2021, pp. 8748-8763.
[29] Jiasen Lu et al. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks”. In: Advances in neural information processing systems 32 (2019).
[30] Andrew J Schaumberg et al. “Interpretable multimodal deep learning for real-time pan-tissue pan-disease pathology search on social media”. In: Modern pathology 33.11 (2020), pp. 2169-2185.
[31] Zhi Huang et al. “A visual-language foundation model for pathology image analysis using medical twitter”. In: Nature medicine 29.9 (2023), pp. 2307-2316.
[32] Sheng Zhang et al. “BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs”. In: arXiv preprint arXiv:2303.00915 (2023).
[33] Jevgenij Gamper and Nasir Rajpoot. “Multiple instance captioning: Learning representations from histopathology textbooks and articles”. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021, pp. 16549-16559.
[34] Wisdom Ikezogwo et al. “Quilt-1m: One million image-text pairs for histopathology”. In: Advances in Neural Information Processing Systems 36 (2024).
[35] Ming Y Lu et al. “A visual-language foundation model for computational pathology”. In: Nature Medicine 30.3 (2024), pp. 863-874.
[36] Ming Y Lu et al. “Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images”. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023, pp. 1976419775.
[37] Ekin Tiu et al. “Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning”. In: Nature Biomedical Engineering 6.12 (2022), pp. 1399-1406.
[38] Yuhao Zhang et al. “Contrastive learning of medical visual representations from paired images and text”. In: Machine Learning for Healthcare Conference. PMLR. 2022, pp. 2-25.
[39] Benedikt Boecking et al. “Making the most of text semantics to improve biomedical vision-language processing”. In: European conference on computer vision. Springer. 2022, pp. 1-21.
[40] Heyu Zhang et al. “PathNarratives: Data annotation for pathological human-AI collaborative diagnosis”. In: Frontiers in Medicine 9 (2023), p. 1070072.
[41] Masayuki Tsuneki and Fahdi Kanavati. “Inference of captions from histopathological patches”. In: International Conference on Medical Imaging with Deep Learning. PMLR. 2022, pp. 1235-1250.
[42] Renyu Zhang et al. “Evaluating and interpreting caption prediction for histopathology images”. In: Machine Learning for Healthcare Conference. PMLR. 2020, pp. 418-435.
[43] Usman Naseem, Matloob Khushi, and Jinman Kim. “Vision-language transformer for interpretable pathology visual question answering”. In: IEEE Journal of Biomedical and Health Informatics 27.4 (2022), pp. 1681-1690.
[44] Xuehai He. “Towards Visual Question Answering on Pathology Images.” In: Proceedings of the 59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing. Vol. 2. 2021.
[45] Long Ouyang et al. “Training language models to follow instructions with human feedback”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 27730-27744.
[46] Tom Brown et al. “Language models are few-shot learners”. In: Advances in neural information processing systems 33 (2020), pp. 1877-1901.
[47] Hugo Touvron et al. “Llama 2: Open foundation and fine-tuned chat models”. In: arXiv preprint arXiv:2307.09288 (2023).
[48] Aakanksha Chowdhery et al. “Palm: Scaling language modeling with pathways”. In: Journal of Machine Learning Research 24.240 (2023), pp. 1-113.
[49] Chunyuan Li et al. “Multimodal foundation models: From specialists to general-purpose assistants”. In: arXiv preprint arXiv:2309.10020 (2023).
[50] Jean-Baptiste Alayrac et al. “Flamingo: a visual language model for few-shot learning”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 23716-23736.
[51] Michael Moor et al. “Foundation models for generalist medical artificial intelligence”. In: Nature 616.7956 (2023), pp. 259-265.
[52] S’ebastien Bubeck et al. “Sparks of artificial general intelligence: Early experiments with gpt-4”. In: arXiv preprint arXiv:2303.12712 (2023).
[53] Chunyuan Li et al. “Llava-med: Training a large language-and-vision assistant for biomedicine in one day”. In: Advances in Neural Information Processing Systems 36 (2024).
[54] Tao Tu et al. “Towards generalist biomedical ai”. In: NEJM AI 1.3 (2024), Aloa2300138.
[55] Chaoyi Wu et al. “Can gpt-4v (ision) serve medical applications? case studies on gpt-4v for multimodal medical diagnosis”. In: arXiv preprint arXiv:2310.09909 (2023).
[56] Ming Liang Oon et al. “Bridging bytes and biopsies: A comparative analysis of ChatGPT and histopathologists in pathology diagnosis and collaborative potential”. In: Histopathology (2023).
[57] Mehmet Saygin Seyfioglu et al. “Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos”. In: arXiv preprint arXiv:2312.04746 (2023).
[58] Karan Singhal et al. “Large language models encode clinical knowledge”. In: Nature 620.7972 (2023), pp. 172180.
[59] Xisen Jin et al. “Lifelong Pretraining: Continually Adapting Language Models to Emerging Corpora”. In: Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022, pp. 4764-4780.
[60] Patrick Lewis et al. “Retrieval-augmented generation for knowledge-intensive nlp tasks”. In: Advances in Neural Information Processing Systems 33 (2020), pp. 9459-9474.
Online Methods
PathChat dataset curation
We curated a dataset of 456,916 instructions with a total of 999,202 question answer turns for training PathChat to respond to pathology-specific queries. The instructions are roughly categorized by “conversation” ( ), “description” ( ), “multiple choice” ( ), “free response” ( ), “textonly” ( ) and “guardrail” ( ). An illustrative example of each category is shown in Extended Data Figure 1. Mass General Brigham Institutional Review Board approved the retrospective analysis of pathology images and corresponding reports. No sample size calculations were performed. All data were deidentified prior to To ensure PathChat can generalize to a diverse range of instructions, the data encompasses several different instruction formats, including open-ended multi-turn dialogue, detailed image
description, short-answer questions, multiple choice questions, and textonly questions. A diverse set of data sources were used to generate the instruction dataset, spanning image captions, educational articles from PubMed Open Access (PMC-OA), pathology case reports and regions of interests extracted from WSIs, which were sourced from multiple institutions. Data from the TCGA was not used for training and were held out as part of our downstream evaluation. Data filtering was performed for each source individually to ensure quality and relevance for training a pathology-specific vision language assistant. Examples of frequently used heuristics for filtering include the removal of image captions that are overly short (e.g. < 12 words) or uninformative and overly generic (e.g. “An H&E image of tumor.”). We also removed captions or passages related to animal pathology (keywords include: “rat”, “pig”, etc.) and experimental studies (keywords include: “experimental”, “positive control”, etc.) using regex pattern matching. Lastly, we include basic guardrail instruction examples, where given image-specific instructions such as “Describe this histology image of a lung mass” when no image is provided, the model is expected to output the response of “Sorry, I cannot assist you since you have not uploaded any image.” Additionally, when given an image not related to pathology (sampled from MS COCO[61]), the model is trained to output “Sorry I can only assist you with queries related to pathology.” For some unstructured data formats, we prompt open-source general purpose LLMs[46, 62] to structure the original source text into a structured format automatically. Instructions were then manually created from the structured data with continual input from several board-certified pathologists. The Mass General Brigham institutional review board approved the retrospective analysis of pathology slides and corresponding pathology reports. All pathology images were de-identified before computational analysis and model development.
PathChat model design and training
Compared to text-only large language models (LLMs), a multimodal large language model (MLLM) is trained to understand and respond to user instructions in the form of natural language queries that may additionally contain inputs from other modalities such as images. The support for multi-modality is essential for the domain of histopathology since examining and interpreting visual information in high resolution microscopic images (in conjunction with other clinical information) remains the cornerstone of the discipline and extends to many aspects of disease diagnosis and management in modern medicine.
Inspired by LLaVA[5, 63], our MLLM, PathChat, consists of three key components: the vision encoder, the multimodal projector module and the large language model. The vision encoder is responsible for encoding the image from the original high-dimensional RGB pixel space into a low-dimensional feature representation suitable for processing by the downstream modules. The multimodal projector connects the outputs of the vision encoder to the large language model (LLM) by projecting the visual tokens to the same dimension as the LLM’s embedding space for text tokens. The LLM takes the natural language instruction as input (after it has been tokenized by a tokenizer), combines the embedded text tokens and the image token output from the multimodal projector to form the full sequence of input tokens, and predicts the desirable response via auto-regressive next word prediction. The produced response is finally decoded by the tokenizer back into natural language and presented to the end user.
For the LLM, we adopt the 13 billion parameter variant from the widely used Meta Llama 2[47] family of state of the art open-source LLMs, which is a decoder-only transformer-based auto-regressive language model with 40 Transformer layers, each with 40 attention heads, an embedding dimension of 5,120 , a hidden dimension of 13,824 and uses rotary positional encodings, natively supporting a maximum context length of 4,096 . Similar to LLaVa 1.5 , we use a vision encoder based on the standard ViT-Large (ViT-L) architecture consisting of 24 Transformer multi-headed attention blocks, each with 16 attention heads, an embedding dimension of 1,024 and a feed-forward hidden dimension of 4,096 . The token size is and we add learned absolute positional encoding to each token. The multimodal projector consists of an attention pooling layer followed by a 2-layer multi-layer perceptron (MLP). The attention pooling layer (also known as a Perceiver Resampler in some works[50, 64, 65]) uses a set of 128 learned latent queries and multiheaded cross-attention to reduce the last layer feature map of the encoder backbone into a fixed length sequence of image tokens with an initial dimension of 768 for increased training and inference efficiency, as well as to prevent the total sequence length of tokens from potentially exceeding the context window size of the LLM. The subsequent MLP follows the design used in LLava 1.5, and consists of a single hidden layer and GeLU activation, projecting the image tokens up to the embedding dimension of the LLM (i.e., 5,120 for the Llama 213 B model). We initialize weights of the vision encoder backbone from UNI[3], a SOTA vision-only SSL-pretrained general purpose encoder for H&E pathology and continue finetuning the encoder backbone together with the attention pooling module on an expanded dataset of 1.18 paired images and captions from and the CoCa visual language pretraining recipe[66](see Supplementary Data Table 1 for detailed hyperparameters).
We follow the MLLM training recipe of LLaVa 1.5, which involves two stages of training. In the first, pretraining stage, the LLM weights are kept frozen and only the multimodal projector receives parameter updates to learn a
suitable projection from the space of image tokens to the shared embedding space of the text tokens used by the LLM. For this simple purpose, the MLLM is supervised to simply predict the caption corresponding each image using roughly 100 K image-caption pairs sampled from our previous dataset[35], without needing to use any curated instruction data. In the second, instruction finetuning stage, both the LLM and projector are trained end-to-end to generate responses to diverse instructions that include both natural language and visual inputs, as described in the Dataset curation section. Specifically, given an instruction , the reference answer and the image , each represented as a sequence of tokenized inputs, we maximize the likelihood of each token in , indexed by , under the chatbot (viewed as an autoregressive language model):
This instruction tuning objective easily extends to multi-turn instruction data by conditioning on all previous turns of instruction and reference answer. For instructions where there is no image present, is not defined and removed from the conditioning sequence. Similarly, if multiple images accompany a given instruction, we simply concatenate their respective image tokens, with the newline (“In”) token inserted in-between as a separator, and treat the full sequence as . Both pretraining and finetuning were performed using an NVIDIA A100 80 GB GPU node. We refer readers to Supplementary Data Tables 2 and 3 for detailed hyperparameters used in the training process.
An expert-curated pathology question-answering benchmark
The evaluation of powerful multimodal visual language AI models in histopathology is an outstanding challenge, and there is currently a lack of publicly available, high quality, expert curated, histopathology-centric QA benchmark to the best of our knowledge. One possible candidate is PathVQA[44], which has been used in the literature to demonstrate and evaluate the pathology image understanding capabilities of various AI models. However, our manual audit revealed numerous types of low-quality examples in the benchmark, likely due to the lack of expert review and the automated nature of the data curation workflow used by PathVQA. As motivated, we curate a new high quality QA benchmark suitable for evaluating cutting-edge multimodal large language models for pathology, described in detail below.
To evaluate PathChat, we curated a QA benchmark, named PathQABench, using high resolution, representative image ROIs hand-selected by a board certified pathologist from 105 H&E WSI cases using the open-source QuPath digital viewer [67]. These cases have been held-out from all stages of training of PathChat. Of the 105 image ROIs, 53 ROIs are curated from private sources in-house at the Brigham & Women’s Hospital for the study, while the other 52 ROIs are selected from WSIs in the public TCGA repository. In total, the WSIs cover 11 tissue sites and 54 diagnoses (see Supplementary Data Tables 5 and 6). This design choice enables us to use the subset of questions based on publicly available WSIs, referred to as PathQABench-Public, to evaluate the SOTA commercial solution GPT4V (powering ChatGPT-4 with vision capabilities) via API requests, without risk of violating institutional guidelines for handling patient data. Accordingly, the subset of questions based on private WSIs, referred to as PathQABenchPrivate, are only used to evaluate other publicly available MLLM solutions that we can run locally inside the hospital without transmitting the data to an external server. To select the ROIs, the board-certified pathologist manually reviewed WSIs related to each diagnosis and distilled a single ROI for each WSI wherein relevant morphologic features of the diagnosis were evident. The diagnosis from these WSIs was then transferred to that of the image ROIs and subsequently used in the evaluation, both for the open-ended questions and the multiple choice questions. These diagnoses were made originally by separate pathologists who had examined the cases clinically, with full access to any additional slides in the case and the patient’s medical record, and were able to order and interpret IHC as required to work-up the case. To accommodate the diversity of diagnoses included in our evaluation, the selected ROIs vary in magnification and dimension. Across all of PathQABench, the selected magnifications of the ROls range from to with a median of . The widths vary from 859 px to 2388 px with a median of 1201 px while the heights vary from 861 px to 2390 px with a median of 1191 px. Next, for each case, the pathologist invents a short clinical summary statement based on the ground truth diagnosis, which includes an appropriately devised patient age, sex and clinical symptoms and radiology findings where applicable. The summary statement is referred to as the clinical context for the corresponding case henceforth. An example of clinical context is shown in Figure 2a. We then created both closeended multiple choice style diagnostic questions as well as open-ended questions that aim to assess the models capabilities in assisting with diverse pathology-related queries, which cover a range of topics that include but not limited to just diagnosis (Extended Data Figure 7, Supplementary Data Table 15).
A total of 105 multiple choice questions are created using the salient ROIs (one question per ROI). In the multiple choice-style question evaluation setting, for each organ system, a board-certified pathologist selected a set of 10 possible answers that encompasses the correct answers for all questions within that organ system as well as other
relatively common diagnoses within that organ system (Supplementary Data Table 7). For each multiple choice question, we consider two evaluation strategies. In the first image-only setting, the model is presented with only the image and the multiple choice question as input. In the second, image + clinical context setting that is designed to more closely mimic a real-world diagnostic workflow, the clinical context is additionally provided together with the histology image. In both settings, the model is assessed based on its ability to accurately select the ground truth diagnosis from the set of possible options.
In the open-ended question answering evaluation setting, we use the 52 cases from PathQABench-Public to curate 5 questions per case for a total of 260 questions. The questions can be categorized broadly under “Microscopy”, “Diagnosis”, “Clinical”, and “Ancillary testing”, as described in Supplementary Data Table 15. The “Microscopy” and “Diagnosis” questions in particular focus on targeting diagnosis and morphological examination using the histology images and additional relevant context (where applicable), which are essential skills for the practice of anatomic pathology. On the other hand, “Clinical”, and “Ancillary testing” are often text-only questions that do not require visual examination of the image to answer, covering topics such as how to use IHCs to confirm the diagnosis and background knowledge pertaining to the underlying condition. We note that despite the fact that our open-ended question answering benchmark is specific to the domain of pathology, its size is substantially larger than the 140 questions used in an earlier work[58] for human expert evaluation of LLMs’ ability to encode general clinical knowledge.
MLLM evaluation
We compare PathChat against the general purpose SOTA MLLM LLaVA 1.5[63] as well as the medically-focused MLLM LLaVA-Med[53] using the full PathQABench dataset, and only evaluate the performance of GPT4V on cases from PathQABench-Public. The precise pretrained checkpoints for these models are specified in the Code availability section and the reporting summary. We use the default image processor implemented by each model and use greedy decoding during inference time when possible (not currently supported for the GPT4V API where we instead used the default arguments set by OpenAI). The evaluation of GPT4V also requires a more involved protocol due to guardrails implemented by OpenAI, which we detail in the next section (Evaluation of GPT4V). For all models, the maximum length of each generated response is capped to 1,024 new tokens generated.
For multiple choice questions, we observed that both PathChat, LLaVA 1.5 and GPT4V can output the predicted choice in a consistent and desirable format (e.g. “A” or “A. Lung adenocarcinoma”) which can be directly used in our evaluation pipeline to compute the accuracy score. However, we found LLaVA-Med could not follow the instruction to answer in a concise and consistent format appropriate for multiple choice questions and instead would always output a full sentence. Therefore, for LLaVA-Med, a board-certified pathologist first manually reviewed each model response, extracted the predicted diagnosis, assessed its correctness against the ground truth and then computed the accuracy score.
For the open-ended questions, we gather the prediction for each model and present them to a panel of 7 pathologists for ranking-based human expert evaluation. For each question, when the model responses are presented, their order is randomly shuffled and the pathologist is blinded to which model produced which response. The responses were ranked based on, in order of importance, 1. prompt following (whether the response correctly addressed the instruction), 2. completeness of the answer, 3. succinctness and 4. use of accepted pathology terminology. Ties of two (or more) responses were allowed. This part of the evaluation is aimed at capturing a wide range of expert judgment (including subjective human preference) on the responses. The model responses on all open-ended questions can be viewed in Supplementary Materials.
Additionally, we attempt to assign a more objective binary correct vs. incorrect outcome for each response. For this task, we first asked two board-certified pathologists to independently assess each response to each question (in terms of correct vs. incorrect for each model), where both pathologists were blinded to which model produced which response. For questions with a single best answer (e.g., “What is the most likely diagnosis?”), the responses were labeled as incorrect if the single best answer was not provided. For open ended questions (e.g., “What IHC stains would be useful in working up a glioblastoma?”), responses were labeled as incorrect if any portion of the response was hallucinated or if the response did not answer the question at all. Correct and incorrect labels were mutually exclusive and every response was labeled as correct or incorrect. Overall, across all models and all questions, the two experts agreed of the time in their assessment with a corresponding Cohen’s kappa score of 0.852 , indicating substantial inter-observer agreement, which is expected given the more objective nature of this part of the evaluation. To establish a consensus, we further asked the two experts to discuss their assessments for questions on which they disagreed originally. Following this discussion, they ultimately agreed completely on 235 of the 260 questions for all models. In the results section, we report the performance on this subset of questions where a consensus was reached (using the consensus as the ground truth) as well as report the performance according to each individual expert’s assessment for all questions.
Evaluation of GPT4V
Evaluation of GPT4V was performed using the official API access provided by OpenAI. All API calls were made during February 2024 for gpt- 4 -vision-preview (the default, most up-to-date vision-enabled GPT- 4 model available at the time of the study). We observed that guardrails appear to have been implemented into GPT4V to often prevent it from addressing queries that require examination of histopathology images. In such instances, it may inform the user that it cannot provide an interpretation of the pathology image and he or she should instead consult a trained medical professional. Queries for which the response returned by GPT4V obviously refused to address the given instructions were deemed “unsuccessful”. In such instances, we make a maximum of 2 additional re-submissions for the same query up to a total of 3 attempts. Following this evaluation protocol, we recorded 28 out of 52 successful queries in the multiple choice diagnostic assessment evaluation of PathQABench-Public cases when no additional clinical context is provided as part of each question while 47 out of 52 queries were eventually successful when the clinical context is included. Using an analogous protocol, in the open-ended QA evaluation section of PathQABench-Public, we counted 222 out of 260 successful queries. All final responses, regardless of successful or unsuccessful were presented to pathologists for evaluation without special treatment and subjected to the same blinding and shuffling protocol as for other models (see MLLM evaluation). A breakdown of successful queries by category is provided in Supplementary Data Table 39.
Statistical analysis
We used nonparametric bootstrapping ( replicates) to estimate confidence intervals for reported metrics. Observed differences in performance for a pair of models were tested for statistical significance via a two-sided paired permutation test ( permutations), with the null hypothesis being there is no difference in the performance of the two models. In each permutation, independent pairs of prediction outcomes of the two models are randomly swapped to obtain a new difference in model performance. The p -value corresponds to the proportion of differences in model performance with a greater absolute value than the observed difference.
Computing hardware and software
We used Python (version 3.10.13) for all experiments and analyses in the study. For all model training, we used NVIDIA A100 GPUs configured for multi-GPU training using the popular open-source deep learning framework PyTorch (version 2.0.1, CUDA 11.8). All inference jobs were performed using 24GB NVIDIA 3090 GPUs. We use the implementation of MLLM training and inference provided by LLaVA (version 1.1.3) and incorporate our own custom vision encoder and multimodal projector implemented in Timm (version 0.9.2) and Pytorch. Pillow (version 10.1.0) is used for image processing. Flash Attention (version 2.3.3) and DeepSpeed (version 0.9.5) were used to enable accelerated training of PathChat MLLM. We used images from PathQABench and other real world cases not used for model training. Matplotlib (version 3.7.1) and Seaborn (version 0.12.2) were used to create plots and figures. Other miscellaneous libraries used are listed in the Reporting Summary. For training, UNI, the pretrained foundational vision encoder was trained for 32 hours on 3280 GB NVIDIA A100 GPUs in a 4 node ( 8 GPUs per node) distributed setup. The vision encoder used in PathChat is finetuned from UNI using a single node of 8 80GB NVIDIA A100 GPUs for 21.5 hours. Lastly, the combined system of PathChat (including the vision encoder, the multimodal projector and the large language model) are jointly trained for a total of 17 hours and 18 minutes (includes both pretraining and finetuning) on a single node of 8 80GB NVIDIA A100 GPUs to produce the final model. For inference, the PathChat model is run on 2 24GB NVIDIA RTX 3090 GPUs which yielded an average time of 9.75 s (std: 7.71s) per response on the 260 open-ended questions.
Data availability
The PubMed Central-OA dataset can be accessed from the NIH PubMed Central website (https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/). The TCGA WSIs and associated clinical metadata are available from the NIH genomic data commons (https://portal.gdc.cancer.gov ). The curated PathQABench-Public benchmark is released for research use and can be accessed through: https://github.com/fedshyvana/pathology mllm training. Patient data used in this project was curated with institutional permission through IRB approval for the current study and thus cannot be made publicly available in compliance with patient privacy obligations. All requests for processed data curated internally will be evaluated based on institutional and departmental policies to determine whether the data requested is subject to intellectual property or patient privacy obligations. Data that can be transferred will require a material or data transfer agreement between the institutions and will limit the utility of the data to non-commercial academic research purposes. The exact timeline will depend on the execution of such agreements. Please email all requests to the corresponding author (and also include M.Y.L., mlu16@bwh.harvard.edu)
Code availability
Code used to train PathChat is made publicly available for non-commercial academic use and can be accessed here: https://github.com/fedshyvana/pathology mllm training[68]. We have documented all technical deep learning methods and software tibraries used in the study, with hyperparameters detailed in Supplementary Data Table . Pathology MLLM weights trained on proprietary internal patient text data are subject to patient privacy and intellectual property obligations and cannot be made available. The code for LLaVA can be accessed here: https://github.com/haotianliu/LLaVA. The code for LLaVA-Med can be accessed here: https://github.com/microsoft/LLaVA-Med.
Author contributions
M.Y.L. and F.M. conceived the study and designed the experiments. M.Y.L., B.C., D.F.K.W, R.J.C., L.W., K.I., I.L., C.C., T.D. F.M. and J.J.W. performed data collection and processing. M.Y.L and B.C. developed the model. M.Y.L., B.C., D.F.K.W., M.Z., A.K.C., R.J.C., K.I., A.K., D.P., A.P., F.M., and A.S. performed experimental analysis and interpreted the results. R.J.C., K.I., G.G., I.L., T.D., L.P.L and A.V.P. provided feedback on the analysis. M.Y.L., B.C., D.F.K.W. and F.M. prepared the manuscript with input from all co-authors. F.M. supervised the research.
Acknowledgements
This work was supported in part by the BWH president’s fund, BWH & MGH Pathology. R.J.C. was also supported by the NSF Graduate Fellowship. We thank Timothy Janicki, Richard Kenny, Abe Ahmed and the system administration staff at the MGB Enterprise Research Infrastructure & Services (ERIS) Research Computing Core for their dedicated support in providing and maintaining access to NVIDIA A100 computing resources. This work was supported by the Massachusetts Life Sciences Center infrastructure award.
Competing interests
A patent corresponding to this work has been filed by Mass General Brigham (Application 63/608,671). The tools, processes and models associated with PathChat have been exclusively licensed to ModellaAI . L.P.L., M.Y.L., R.J.C., B.C., F.M., D.F.K.W and J.J.W. hold equity interests in ModellaAI.
Figure Legends
Figure 1
Figure 1: Instruction-following dataset curation and PathChat overview. a. We curated the currently largest instruction finetuning dataset specialized for the domain of pathology, consisting of 456,916 instructions and corresponding responses covering various formats (e.g. multi-turn conversations, multiple-choice questions, short answers; see Extended Data Figure 1 for complete examples) from diverse sources. b. To build an MLLM-based vision language AI assistant that can reason over visual and natural language inputs, we begin with a SOTA vision-only self-supervised pretrained foundation encoder model, UNI, and perform further vision language pretraining analogous to CONCH. The resulting vision encoder is subsequently connected to a 13 billion parameter, pretrained Llama 2 LLM via a multimodal projector module (not shown) to form the complete MLLM architecture. The MLLM is finetuned via the curated instructionfollowing dataset to build PathChat, a visual language AI assistant specialized for human pathology. More details about data curation and model training can be found in PathChat dataset curation and PathChat model design and training section of Methods respectively. Scale bars are .
Figure 2
Figure 2: Multiple choice evaluation of PathChat. a. Illustrative example of a multiple-choice style diagnostic question. The input always includes a salient histology image ROI selected by a board-certified anatomic pathologist and the instruction to select the most likely diagnosis from a set of possible choices. In the image + clinical context evaluation setting that is designed to more closely mimic a real-world diagnostic workflow, additional relevant clinical context (designed by the pathologist, shown in blue) is provided together with the histology image and prepended to the original question. b. Accuracy of MLLMs on multiple choice-style diagnostic questions. Combined ( questions), PathQABench-Public ( ), PathQABench-Private ( ). Note that we only compare against GPT4V on questions based on publicly available cases (PathQABench-Public). Error bars represent confidence intervals, and the centers represent the computed accuracy. Scale bar is .
Figure 3
Figure 3: Open response evaluation of PathChat and reader study from a panel of seven pathologists.
a. Evaluation workflow for ranking model outputs for open-ended questions. A panel of 7 pathologists were recruited to assess the model responses on the 260 open-ended questions. The ordering of responses by the 4 Al assistant models were randomly shuffled for each question and each pathologist independently ranked them for all questions while blinded to which model produced which response (see MLLM evaluation of Methods for more details). b. Head-to-head records on open-ended questions for PathChat v.s. other MLLMs evaluated by 7 pathologists independently. Win: PathChat is ranked higher than the model; Tie: PathChat is tied with the model in ranking; Lose: said model is ranked higher than PathChat. Vertical bars represent median win rate (dark green) across all 7 pathologists and median win+tie rate (light green). c. Accuracy of MLLMs on a subset ( questions) of open-ended questions for which two pathologist reached consensus after discussing independent evaluations of model responses. Error bars represent confidence intervals, and the centers represent the computed accuracy. d. Accuracy on different categories of questions on the consensus subset. Microscopy ( ), Diagnosis ( ), Clinical ( ), Ancillary Testing ( ). Each question may belong to more than one category. Scale bar is .
Figure 4
Figure 4: Exploring additional use cases of PathChat. Beyond evaluating PathChat on multiple choice-style questions and single turn open-ended question answering, we explore additional use cases and demonstrate examples that involve follow-up from users in the form of interactive, multi-turn conversations. These examples are illustrative in nature and intended to complement our quantitative evaluation on PathQABench. a PathChat can summarize key morphological features in the histology image and based on additional clinical context, can reasonably infer the primary origin of the tumor. b. PathChat is familiar with different cell markers and can help potentially guide IHC interpretations. c. PathChat understands and can attempt to follow well-known guidelines on tumor grading, in this case, the Gleason grade system for prostate adenocarcinoma. d. PathChat can describe tumor tissue and cell morphology, infer the diagnosis, and correctly suggest potential IHC findings grounded in relevant background knowledge about the suspected malignancy. e. PathChat can potentially be consulted to perform human-in-the-loop differential diagnosis that may require multiple rounds of IHC workup. Scale bars are .
Extended Data Figure Legends
Extended Data Figure 1
Extended Data Figure 1: Examples of instructions for finetuning MLLM. An example of each of six different types of instructions to develop PathChat via instruction finetuning is illustrated. Bolded texts represent instructions provided to the model while italicized texts represent the reference outputs the model is expected to output during training. More details on dataset curation are provided in the PathChat dataset curation section of Methods. Scale bars are 200 .
Extended Data Figure 2
Extended Data Figure 2: Utilization of visual input and clinical context in multiple choice diagnostic questions. On the multiple choice diagnostic benchmarks (Combined, questions; PathQABench-Private, ; PathQABench-Public, ), we investigated whether PathChat can effectively leverage both unstructured clinical context in the form of natural language as well as visual features in the image ROI instead of deriving its answer solely based on either input alone. In the context only setting, the clinical context is provided to the model but the image is not provided (see Figure 2a for an example multiple choice question that contains the clinical context, the choices, and the image). On the flip side, in the image only setting, the clinical context is not provided, and the model is asked to infer the correct diagnosis from the possible choices based solely on the image. We observed that PathChat achieves maximum performance when both clinical context and the image are provided. Error bars represent confidence intervals, and the centers represent the computed accuracy.
Extended Data Figure 3
Extended Data Figure 3: Comparing model outputs on open-ended question answering, example 1. An example question in PathQABench-Public regarding uveal melanoma, for which the response by PathChat is ranked higher (considered more preferable by expert pathologists) than other models as it clearly, correctly, and fully addresses the
query. The other models give incorrect locations that the image is from, give an incorrect description of the image, or are so general as to be unhelpful. Scale bar is .
Extended Data Figure 4
Extended Data Figure 4: Comparing model outputs on open-ended question answering, example 2. An example question in PathQABench-Public regarding glioblastoma for which the responses by all models were considered to be of roughly comparable quality by expert pathologists for all producing a reasonable and reasonably accurate response to the query, though with some variation between them. Scale bar is .
Extended Data Figure 5
Extended Data Figure 5: Comparing model outputs on open-ended question answering, example 3. An example question in PathQABench-Public regarding lung adenocarcinoma where all four models performed poorly. None of the four models accurately describe the image or produce the correct diagnosis. Scale bar is .
Extended Data Figure 6
Extended Data Figure 6: Individual pathologist evaluation of open response performance. a. Accuracy of MLLMs on open-ended questions ( ) as evaluated by two pathologists. See Figure 3c,d for accuracy on the subset of open-ended questions for which the two pathologists reached a consensus. See MLLM evaluation in Methods for details. Error bars represent confidence intervals, and the centers represent the computed accuracy. b. Accuracy on different categories of questions as rated by two pathologists. Microscopy ( ), Diagnosis ( ), Clinical ( 68 ), Ancillary Testing ( ). Each question may belong to more than one category.
Extended Data Figure 7
Extended Data Figure 7: Example questions from PathQABench-Public. PathQABench contains 260 high quality, expert reviewed, open-ended questions created using cases from PathQABench-Public, aimed at assessing a wide range of skills relevant to the practice of pathology. Each question is assigned one or more broad and sub-category based on the topics and skills that it aims to assess. The broad categories are “Microscopy”, “Diagnosis”, “Clinical” and “Ancillary testing”. A detailed description of each category is included in Supplementary Data Table 15. Scale bars are .
Extended Data Figure 8
Extended Data Figure 8: Performance on PathQABench open-ended questions stratified by broad categories. We analyze the head-to-head performance of PathChat against other MLLMs in each broad category of questions evaluated by 7 pathologists independently. For each competing model (LLaVA 1.5, LLaVA-Med, GPT4V), we compute the win/tie/lose rate of PathChat against said model. Win (dark green): PathChat is ranked higher than the model; Tie (light green): PathChat is tied with the model in ranking; Lose (red): PathChat is ranked lower than the model. Vertical bars represent median win rate (dark green) across all 7 pathologists and median win+tie rate (light green).
Extended Data Figure 9
Extended Data Figure 9: Performance on PathQABench open-ended questions stratified by sub-categories. We further analyze the head-to-head performance of PathChat against other MLLMs in each sub-category of questions evaluated by 7 pathologists independently. For each competing model (LLaVA 1.5, LLaVA-Med, GPT4V), we compute the win/tie/lose rate of PathChat against said model. Win (dark green): PathChat is ranked higher than the model; Tie (light green): PathChat is tied with the model in ranking; Lose (red): PathChat is ranked lower than the model. Vertical bars represent median win rate (dark green) across all 7 pathologists and median win+tie rate (light green).
Extended Data Figure 10
Extended Data Figure 10: Example of human-in-the-loop differential diagnosis with PathChat in a case of cancer of unknown primary. PathChat can potentially be used to help the user perform human-in-the-loop differential diagnosis that combines a representative histology image, relevant clinical context, as well as follow-up IHC results. Note that in this example, PathChat erroneously implies that cervical cancers should be positive for CK7 and CK20 IHC when in fact, cervical cancers are usually positive for CK7 but negative for CK20. Scale bar is .
Methods References
[61] Tsung-Yi Lin et al. “Microsoft coco: Common objects in context”. In: Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer. 2014, pp. 740-755.
[62] Jinze Bai et al. “Qwen technical report”. In: arXiv preprint arXiv:2309.16609 (2023).
[63] Haotian Liu et al. “Improved baselines with visual instruction tuning”. In: arXiv preprint arXiv:2310.03744 (2023).
[64] Yan Zeng et al. “What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?” In: arXiv preprint arXiv:2307.02469 (2023).
[65] Andrew Jaegle et al. “Perceiver: General perception with iterative attention”. In: International conference on machine learning. PMLR. 2021, pp. 4651-4664.
[66] Jiahui Yu et al. “CoCa: Contrastive Captioners are Image-Text Foundation Models”. In: Transactions on Machine Learning Research (2022). issn: 2835-8856. url: https://openreview.net/forum?id=Ee277P3AYC.
[67] Peter Bankhead et al. “QuPath: Open source software for digital pathology image analysis”. In: Scientific reports 7.1 (2017), pp. 1-7.
[68] Ming Y. Lu et al. Code for pathology MLLM training. Version 0.1. Apr. 2024. url: https://github.com/ fedshyvana/pathology_mllm_training.
a
b
a
What morphological features are present in this image?
d
Describe the tumor in this image in detail.
Human
The image shows a tumor composed of spindle cells, which are elongated and have a fusiform shape. These cells are arranged in fascicles, which are bundles or groups of cells aligned in a parallel or whorled pattern. Additionally, there are scattered melanincontaining cells within the tumor.
This tumor was found in the liver of a patient. Is it a primary tumor or a metastasis?
Based on the information provided, this tumor is most likely a metastasis rather than a primary tumor. The presence of spindle cells and melanin-containing cells further supports the possibility of a metastatic melanoma. The liver is a common site for metastasis of melanoma, especially when it has spread from the skin.
b
There are some cells in this IHC image staining red for CD3. What cell type are they?
The cells staining red for CD3 are lymphocytes. CD3 is a marker for cells, which are a type of white blood cell involved in the immune response.
What IHC would be helpful in distinguishing them from lymphocytes and macrophages?
PathChat
CD20 is a marker commonly used to distinguish B lymphocytes from lymphocytes. B lymphocytes are typically CD20 positive, while T lymphocytes are CD20 negative. Additionally, CD68 is a marker that can be used to identify macrophages. Macrophages are CD68 positive, while T lymphocytes are CD68 negative.
C
Assess the tissue morphology in this prostate resection. What Gleason patterns are present?
The tissue morphology in this prostate resection reveals a combination of two distinct Gleason patterns. The first pattern is characterized by the presence of small, well-formed glands, which is indicative of Gleason pattern 3. The second pattern is characterized by the presence of fused glands, which is indicative of Gleason pattern 4. The presence of both patterns within the same tissue sample suggests a Gleason score of , which is a moderately aggressive form of prostate cancer.
What do you think IHC for p53 would show in this case?
Given the high-grade nature of this serous carcinoma, it is likely that
the p53 immunohistochemistry (IHC) would show abnormal p53 the p53 immunohistochemistry (IHC) would show abnormal p53 protein expression. High-grade serous carcinomas often have TP53 mutations, which can result in aberrant p53 protein accumulation. Therefore, the p53 IHC staining may show strong and diffuse nuclear staining, indicating abnormal p53 orotein expression.
e
This is an image of a lung core needle biopsy from a patient with a mass in their left lung. What are some diagnoses this could be and what IHC should I do to work up this case?
Based on the image, the differential diagnoses could include primary lung adenocarcinoma, metastatic adenocarcinoma from another primary site, or a poorly differentiated squamous cell carcinoma. To further narrow down the diagnosis, you can perform immunohistochemistry (IHC) staining for TTF-1, Napsin A, and p40. TTF-1 and Napsin A are markers commonly expressed in primary lung adenocarcinoma, while p40 is a marker for squamous cell carcinoma. The expression pattern of these markers will help differentiate between these possibilities.
I did TTF-1, p40, and synaptophysin and all stains were negative. What should I do next? challenging to determine the exact diagnosis. TTF-1 and p40 are commonly used markers for lung adenocarcinoma and squamous cell carcinoma, respectively. Synaptophysin is a marker for neuroendocrine tumors. The negative staining for these markers suggests that the tumor is not of lung origin or is not a neuroendocrine tumor. In this case, it would be helpful to perform additional IHC stains to further characterize the tumor. Some additional markers to consider include CK7, CK20, and CDX2, which can help differentiate between primary lung adenocarcinoma and metastatic adenocarcinoma from other sites. Additionally, performing a panel of markers specific to other primary sites (e.g., PSA for prostate, ER for breast, etc.) can help identify the primary site of the tumor.
It is also important to consider the clinical history and radiological findings to guide the workup. If there is a known history of malignancy or suspicion of metastatic disease, further investigation into the primary site may be warranted.
Free response
Judging from the morphological characteristics, what impression can you form about the grade of the tumor?
The tumor cells appear monomorphic and that suggests a degree of uniformity in size and shape, which is typically a feature of lower-grade tumor. Furthermore, the absence of necrosis, microvascular proliferation and evident mitoses, features which are suggestive of a more aggressive, higher-grade tumors, seem to confirm that the disease is likely of a lower grade. However, despite these points, pathological grading should be done with caution, taking into consideration the overall clinical context and following the WHO grading criteria for brain tumors.
Description Describe this image.
The morphological features reveal a proliferation of tubules and cribriform ducts, characteristic of adenoid cystic carcinoma. The tumor glands contain two types of cells: ones with more rounded nuclei, representing ductal or luminal cells, and ones with more angulated nuclei, representing myoepithelial cells. The lumen of some cribriform glands contains a grey material, possibly intraluminal secretions or necrotic debris. This network of ducts is surrounded by a hyalinized stroma, forming a critical part of the tumor architecture.
Based on the information provided, what is the most likely diagnosis for this liver biopsy?
Sorry, as an AI assistant specialized in pathology, I cannot assist you with nonpathology related inquiries.
Conversation The image depicts a mole from a 58 -year-old male that has grown rapidly in size and shape over the past few months.
section*{What age depicts a mole from a 58}
The clinical scenario of a rapidly enlarging mole, coupled with the noted histological features such as pleomorphism and the abundance of melanin, strongly indicates the diagnosis of cutaneous melanoma. Melanoma often presents as changing skin lesions that are asymmetric, have irregular borders, have heterogeneous color, and are increasing in size – characteristics seen in this patient’s presentation.
Describe the morphological features observed.
The image exhibits a proliferation of pleomorphic tumor cells showing both epithelioid and spindled shapes, arranged in nests. The cells contain abundant brown pigment, suggestive of melanin. These cells also have hyperchromatic nuclei, indicating increased DNA content, a common feature in malignant cells suggesting enhanced replication activity.
Based on the morphological characteristics observed, what might be the level of differentiation of the tumor?
The presence of pleomorphic epithelioid to spindled tumor cells that are arranged in nests indicates that the tumor cells have lost their original, regular architecture. This suggests a poor differentiation status for these cells.
Text only
What is urothelial carcinoma in situ, and what are the typical clinical presentations of this condition?
Urothelial carcinoma in situ or high-grade intraurothelial neoplasia (HG IUN) is a flat, non-invasive lesion composed of cells in the mid to upper epithelium exhibiting high cytologic grade. As this carcinoma is confined to the urothelial layer and doesn’t invade the lamina propria, no mass will be present. Clinically, patients with urothelial carcinoma in situ often present symptoms akin to cystitis, with hematuria being a common feature. The lesion may appear erythematous, granular or cobblestone-like, involving substantial areas of the bladder mucosa, ureters, and urethra.
From a histological perspective, how would you describe the features of urothelial carcinoma in situ cells?
Histologically, the cells in urothelial carcinoma in situ, barring those of the small cell pattern, are typically large with irregular, hyperchromatic nuclei. They exhibit prominent nuclear pleomorphism and a high nucleus-to-cytoplasm ratio. Mitotic figures often appear in the mid to upper epithelium. Notably, the nuclear size is usually around five times that of lymphocytes, contrasting with the nuclear size of normal urothelial cells which is approximately twice that of lymphocytes.
What is meant by the involvement of von Brunn nests in carcinoma in situ, and how can this be confusing for pathologists?
Von Brunn nests represent a benign, reactive change in the bladder wall where the urothelium invaginates into the lamina propria. In urothelial carcinoma in situ, these nests can be involved, leading to the presence of nests of neoplastic cells within the lamina propria. This can create an illusion of invasion, complicating the histologic assessment. However, unlike true invasive carcinoma, von Brunn nests typically have a rounded contour and lack the stromal changes associated with invasion, aiding differentiation.
What are the treatment options available for patients with urothelial carcinoma in situ, bearing in mind its potential to become invasive?
Patients with urothelial carcinoma in situ are often treated with nonsurgical methods, including a procedure known as transurethral resection (TUR) of the bladder tumor, followed by an immediate instillation of intravesical chemotherapy – either bacillus Calmette-Guerin (BCG) or mitomycin-C. If left untreated, there is a fair risk, about 20%, of bladder CIS cases advancing to invasive carcinoma. Therefore, immediate intervention is crucial.
Extended Data Fig. 1
Extended Data Fig. 2
Ground truth diagnosis (not provided to the model): Uveal melanoma
Consider the location of the neoplasm depicted in the image as determined by the structures visible in the image. What is this location and what can it indicate in terms of the origin and potential extent of the tumor?
The image shows a neoplasm located in the choroid, which is the vascular layer of the eye located between the retina and the sclera. The choroid is a common site for melanomas, which are the most common primary intraocular malignancies. The location of the tumor in the choroid can indicate that it may have originated from melanocytes present in this layer. The potential extent of the tumor can be significant, as choroidal melanomas can grow and invade the surrounding structures, including the retina and optic nerve, leading to vision loss.
The neoplasm is located in the left buccal mucosa, which is the inner lining of the cheek. The image shows a stratified squamous epithelium with keratinization, as well as a connective tissue layer. The presence of a neoplasm in this area could indicate a tumor originating from the squamous cells or the connective tissue. The exact origin and potential extent of the tumor would require further analysis and clinical correlation. It is important to consult a healthcare professional for a thorough evaluation and proper diagnosis of the underlying cause of these findings.
The image shows a neoplasm located in the breast tissue, as indicated by the presence of red structures within the pink tissue. This suggests that the tumor originates from the breast and could potentially be a malignant breast cancer. The presence of red structures within the tissue may indicate that the tumor is growing and spreading, which could be a sign of an aggressive or advanced stage of the cancer. It is important to note that the image alone does not provide enough information to determine the exact stage or prognosis of the cancer, but it does highlight the need for further investigation and treatment.
The image you’ve provided appears to be a histological slide of tissue stained with hematoxylin and eosin. This staining technique allows for the visualization of cellular and tissue structures under a microscope, with hematoxylin staining nuclei blue-purple and eosin staining cytoplasm and extracellular matrix pink.
From the image, it looks like we are observing a section of tissue with dense cellularity and atypical, pleomorphic cells, suggesting the presence of a neoplasm, which is an abnormal growth of tissue that could be benign or malignant (cancerous).
Determining the exact location of the neoplasm strictly from the image is challenging without additional context or markers, as many neoplasms can look similar histologically. However, the tissue structure and cell types might suggest it is of epithelial origin, perhaps from an organ such as the skin, breast, or gastrointestinal tract. The presence of elongated, pink-stained structures which look like blood vessels may further indicate the tumor’s ability to induce angiogenesis (formation of new blood vessels), which is characteristic of malignant tumors as they grow and require increased nutrients and oxygen.
To provide a more precise location and potential implications regarding the origin and extent of the tumor, a pathologist would typically correlate these findings with clinical information, imaging studies, and possibly additional histological staining or molecular diagnostics that can highlight specific markers characteristic of certain tissue types or origins. The arrangement and morphology of the cells, as well as the presence of any structural features (such as gland formation or keratinization), can be important clues in identifying the tissue of origin and determining the tumor’s aggressiveness and potential treatment options.
Extended Data Fig. 3
Ground truth diagnosis (not provided to the model): Glioblastoma
Based on the morphology presented in the brain tissue image, what main histopathological features support a diagnosis of a high-grade brain tumor?
The image demonstrates a high-grade brain tumor characterized by several key histopathological features. There is a high degree of cellularity, indicating a dense population of tumor cells. The cells exhibit marked pleomorphism, which refers to variability in size and shape, suggesting a high degree of anaplasia. Additionally, there is a notable presence of numerous mitotic figures, indicating a high proliferative index. These features collectively suggest an aggressive neoplasm, consistent with a high-grade glioma.
The main histopathological features that support a diagnosis of a high-grade brain tumor in the brain tissue image include:
Cellular proliferation: An increased number of cells, which may indicate rapid growth and division.
Cellular pleomorphism: Variation in the size, shape, and appearance of cells, which is often seen in malignant tumors.
Necrosis: The presence of dead or dying cells within the tumor.
Mitosis: The process of cell division, which is more frequent in malignant tumors.
Invasion of surrounding tissue: The tumor cells may invade and infiltrate the surrounding brain tissue, which can be a sign of a high-grade tumor.
These features, when observed in the histopathological examination of the brain tissue, can help support a diagnosis of a high-grade brain tumor. However, it is important to consider the patient’s clinical history, symptoms, and other diagnostic tests to confirm the diagnosis and determine the appropriate treatment plan.
In the image, the brain tissue appears to be highly cellular, with a dense and irregular arrangement of cells. The presence of numerous cells in close proximity to each other, along with the irregular shape and size of the cells, suggests that the tissue is highly abnormal and not typical of healthy brain tissue. These histopathological features support a diagnosis of a high-grade brain tumor, as these tumors are characterized by a rapid growth rate, aggressive behavior, and a high degree of cellularity. The presence of a large number of cells in the image indicates that the tumor is actively growing and consuming the surrounding brain tissue, which is a hallmark of high-grade brain tumors.
This histopathology image shows brain tissue with several features that are suggestive of a high-grade brain tumor, such as a glioblastoma, which is classified as grade IV by the World Health Organization (WHO) classification of tumors of the central nervous system. Here are some histopathological features that support such a diagnosis:
Cellular pleomorphism: There is a marked variation in cell size and shape, indicating abnormal growth and division of cells.
Hypercellularity: The density of cells is much higher than would be seen in normal brain tissue, suggesting rapid cell proliferation.
Mitotic figures: The presence of cells undergoing mitosis (cell division) indicates active cell proliferation, and high-grade tumors often have many mitotic figures.
Necrosis: There are regions within the tissue that appear to be necrotic, indicating cell death and tissue breakdown, which are common features in aggressive tumors.
Microvascular proliferation: The image shows abnormal growth of blood vessels (endothelial proliferation), which is another hallmark of highgrade brain tumors as they induce the formation of new blood vessels to support their rapid growth.
Abnormal nuclei: Many cells have nuclei that are irregularly shaped, large, or hyperchromatic (darker staining), which are signs of malignant transformation.
Based on these features, the tissue in this image is consistent with a high-grade brain tumor, which would typically require further clinical correlation, advanced imaging, and additional pathological analyses for a definitive diagnosis and treatment planning.
Extended Data Fig. 4
Ground truth diagnosis (not provided to the model): Lung adenocarcinoma
What are the key histologic features visible in this image that support the most likely diagnosis?
The key histologic features visible in this image include the presence of a micropapillary pattern, which is characterized by small, delicate papillary structures without fibrovascular cores. Additionally, there is a notable absence of significant nuclear atypia, which means that the nuclei of the cells do not show marked variations in size, shape, or staining properties that are often associated with malignancy. These features are consistent with a diagnosis of adenocarcinoma in situ (AIS) of the lung, a pre-invasive form of lung cancer where the abnormal cells are confined to the alveolar spaces and have not yet invaded the surrounding tissues.
The key histologic features visible in this image that support the most likely diagnosis of pulmonary hypertension are the marked and diffuse proliferation of small arteries, as well as the accompanying fibrosis. These findings are consistent with the characteristic changes seen in hereditary hemorrhagic telangiectasia, a condition that can lead to pulmonary hypertension.
The key histologic features visible in the image that support the most likely diagnosis of cancer are the presence of irregularly shaped cells, a high degree of cellularity, and the absence of normal tissue structures. The image shows a close-up view of a tissue sample, which appears to be a biopsy of a tumor. The irregularly shaped cells and the high degree of cellularity are indicative of abnormal cell growth and proliferation, which are characteristic of cancerous tissues. Additionally, the absence of normal tissue structures, such as healthy tissue or benign cells, further supports the diagnosis of cancer.
The image you’ve shared appears to be a microscopic slide of tissue stained with hematoxylin and eosin (H&E stain), which is commonly used in histology and pathology.
Based on this image alone, without additional clinical context, it’s difficult to make a definitive diagnosis. However, some general features could suggest a few possibilities:
Tubular Structures: The presence of many cross-sectioned and longitudinally sectioned tubular structures suggests this could be a section from an organ with a glandular or tubular component, such as the kidney, liver, pancreas, or a glandular organ.
Staining Patterns: The pink (eosinophilic) staining indicates protein-rich areas like cytoplasm and extracellular matrix, while the blue/purple (basophilic) staining indicates nucleic acid-rich areas like nuclei.
Cellular Density: The density and organization of the cells around the tubules can provide clues. Uniform cell populations with organized architecture might suggest normal tissue or benign conditions, while disorganized, irregular, and denser cell populations can be indicative of malignant growths or other pathologies.
Lumens and Secretions: The presence of open lumens and potential secretions inside the tubules could indicate active secretion and point toward specific glandular functions.
Inflammatory Cells: There appears to be a focal area with increased cellularity that could contain inflammatory cells, suggesting a possible inflammatory process, infection, or immune response.
Interstitial Tissue Condition: The pink-stained areas between the glandular structures represent the interstitial or stromal tissue. The condition of this tissue can be indicative of fibrosis, inflammation, or other pathological changes.
For a precise diagnosis, one would need additional details such as patient history, symptoms, lab results, and potentially immunohistochemical staining that can provide more specific information about the cell types present. It’s also important to get a pathologist’s expert interpretation of the histologic features.
Extended Data Fig. 5
Extended Data Fig. 6
Visual Question Answering
Case ID: TCGA_15
Broad category: Microscopy
Sub-category:
Microscopic description
Question: Describe the morphological features seen in this uterine sample. What significant features might hint at the aggressive nature of the tumor?
Case ID: TCGA_18
Broad category: Microscopy
Sub-category:
Differentiation / Grading
Question: Considering the observed histopathological features, what do the large pleomorphic nuclei and eosinophilic cytoplasm in the tumor cells tell us about the grade and differentiation of the tumor?
Case ID: TCGA_8
Broad category: Diagnosis Sub-category:
Diagnosis
Question: Given the clinical information of a 34-year-old male patient with a painless testicular mass, along with the cell morphology observed in this image, what would be the most probable diagnosis?
Text-only Question Answering
Case ID: TCGA_8
Broad category: Clinical
Sub-category:
Risks / Treatment / Prognosis
Question: Considering the diagnosis of hepatocellular carcinoma, what are its common risk factors and what significance does this have for the patient’s prognosis and treatment?
Case ID: TCGA_15
Broad category: Ancillary Testing
Sub-category:
IHC / Molecular
Question: What molecular and immunohistochemical markers are typically associated with uterine endometrioid carcinoma and how might they aid in diagnosis?
Case ID: TCGA_19
Broad category: Ancillary Testing Sub-category:
Further Testing
Question: What further diagnostic tests can confirm a diagnosis of oropharyngeal squamous cell carcinoma?
Extended Data Fig. 7
Extended Data Fig. 8
Extended Data Fig. 9
which are indicative of the micropapillary pattern.
The patient had a prior cervical lesion. Based on the histology image and the clinical history, what would be your top 3 differentials in terms of origin of the primary tumor?
Given the patient’s clinical history of a prior cervical lesion and the presence of micropapillary clusters in the lymph node, the top 3 differentials for the origin of the primary tumor would be:
Cervical cancer: This is the most likely primary tumor given the patient’s history of a cervical lesion.
Ovarian cancer: Ovarian cancer can metastasize to lymph nodes and can present with a micropapillary pattern.
Endometrial cancer: Endometrial cancer can also metastasize to lymph nodes and can exhibit a micropapillary pattern.
However, the clinical history of a prior cervical lesion makes cervical cancer the most likely primary tumor in this case.
What IHCs would you suggest to help confirm the diagnosis?
PathChat
To confirm the diagnosis of metastatic cervical cancer, immunohistochemical staining can be performed. The tumor cells should be positive for cytokeratins (such as CK7 and CK20), which are markers of epithelial origin. Additionally, the tumor cells should be positive for p16, a surrogate marker for high-risk human papillomavirus (HPV) infection, which is commonly associated with cervical cancer. The tumor cells should be negative for markers of other potential primary tumors such as WT1 (Wilms tumor 1) for ovarian cancer and ER (estrogen receptor) and PR (progesterone receptor) for endometrial cancer.
The IHC results are in. It is positive for PAX8, CK7, p16 and negative for WT1, ER. What is your assessment?
The immunohistochemical results are consistent with metastatic cervical cancer. PAX8 is a transcription factor that is expressed in the Müllerian system, including the cervix, and is often positive in cervical cancer. CK7 is a cytokeratin that is typically expressed in epithelial cells, including those of the cervix. p16 is a surrogate marker for high-risk HPV infection, which is commonly associated with cervical cancer. The negative staining for WT1, ER, and PR helps to rule out other potential primary tumors, such as ovarian and endometrial cancer.
Extended Data Fig. 10
natureportfolio
Corresponding author(s):
Last updated by author(s): May 3, 2024
Reporting Summary
Nature Portfolio wishes to improve the reproducibility of the work that we publish. This form provides structure for consistency and transparency in reporting. For further information on Nature Portfolio policies, see our Editorial Policies and the Editorial Policy Checklist.
Statistics
For all statistical analyses, confirm that the following items are present in the figure legend, table legend, main text, or Methods section.
Confirmed
The exact sample size ( ) for each experimental group/condition, given as a discrete number and unit of measurement –
A statement on whether measurements were taken from distinct samples or whether the same sample was measured repeatedly
The statistical test(s) used AND whether they are one- or two-sided
Only common tests should be described solely by name; describe more complex techniques in the Methods section.
A description of all covariates tested A description of any assumptions or corrections, such as tests of normality and adjustment for multiple comparisons
A full description of the statistical parameters including central tendency (e.g. means) or other basic estimates (e.g. regression coefficient) AND variation (e.g. standard deviation) or associated estimates of uncertainty (e.g. confidence intervals)
For null hypothesis testing, the test statistic (e.g. ) with confidence intervals, effect sizes, degrees of freedom and value noted Give values as exact values whenever suitable. For Bayesian analysis, information on the choice of priors and Markov chain Monte Carlo settings For hierarchical and complex designs, identification of the appropriate level for tests and full reporting of outcomes Estimates of effect sizes (e.g. Cohen’s , Pearson’s ), indicating how they were calculated
Our web collection on statistics for biologists contains articles on many of the points above.
Software and code
Policy information about availability of computer code
Data collection
The image ROIs in PathQABench are hand-selected by a board-certified pathologist using the open-source QuPath (0.4.2) digital viewer software. Question prompts and multiple choice options were compiled using Python (3.10.13) and numpy (1.26.1).
For manuscripts utilizing custom algorithms or software that are central to the research but not yet described in published literature, software must be made available to editors and reviewers. We strongly encourage code deposition in a community repository (e.g. GitHub). See the Nature Portfolio guidelines for submitting code & software for further information.
Data
Policy information about availability of data
All manuscripts must include a data availability statement. This statement should provide the following information, where applicable:
Accession codes, unique identifiers, or web links for publicly available datasets
A description of any restrictions on data availability
For clinical datasets or third party data, please ensure that the statement adheres to our policy
The PubMed Central-OA dataset can be accessed from the NIH PubMed Central website (https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/). The TCGA WSIs and associated clinical metadata are available from the NIH genomic data commons (https://portal.gdc.cancer.gov ). The curated PathQABench-Public benchmark is released for research use and can be accessed through: https://github.com/fedshyvana/pathology_mllm_training. Patient data used in this project was curated with institutional permission through IRB approval for the current study and thus cannot be made publicly available in compliance with patient privacy obligations. All requests for processed data curated internally will be evaluated based on institutional and departmental policies to determine whether the data requested is subject to intellectual property or patient privacy obligations. Data that can be transferred will require a material or data transfer agreement between the institutions and will limit the utility of the data to non-commercial academic research purposes. The exact timeline will depend on the execution of such agreements. Please email all requests to the corresponding author (and also include M.Y.L., mlu16@bwh.harvard.edu ).
Research involving human participants, their data, or biological material
Policy information about studies with human participants or human data. See also policy information about sex, gender (identity/presentation), and sexual orientation and race, ethnicity and racism.
Reporting on sex and gender
No covariates relating to sex or gender were collected, used or analyzed in the study.
Reporting on race, ethnicity, or other socially relevant groupings
No covariates regarding race, ethnicity, and other social groupings were collected, used or analyzed in the study.
Population characteristics
No covariates relating to population characteristics were collected, used or analyzed in the study.
Recruitment
The study relied on analysis of pathology images retrospectively and no patients were recruited specifically for this study.
Ethics oversight
Brigham and Women’s Hospital IRB committee approved the retrospective analysis of pathology images and corresponding reports.
Note that full information on the approval of the study protocol must also be provided in the manuscript.
Field-specific reporting
Please select the one below that is the best fit for your research. If you are not sure, read the appropriate sections before making your selection.
Life sciences Behavioural & social sciences Ecological, evolutionary & environmental sciences
For a reference copy of the document with all sections, see nature.com/documents/nr-reporting-summary-flat.pdf
Life sciences study design
All studies must disclose on these points even when the disclosure is negative.
Sample size
No sample size calculation was performed as with all deep learning studies asymptotic model performance was used to gadge the size of the training dataset.
Data exclusions
For pretraining data, data filtering was performed for each data source individually to ensure quality and relevance for training a pathologyspecific vision language assistant. Examples of frequently used heuristics for filtering include the removal of image captions that are overly short (< 12 words) or uninformative and overly generic (e.g. “An H&E image of tumor.”). We also removed captions or passages related to animal pathology (keywords include: “rat”, “pig”, etc.) and experimental studies (keywords include: “experimental”, “positive control”, etc.) using regex pattern matching. We did not apply any special exclusion criteria to the evaluation dataset.
Replication
On PathQABench, the reported performance metrics are deterministically computed using the model predictions and either groundtruth diagnostic labels or human expert feedback. Replication of the test results reported was successful across 5 different attempts of running the evaluation script.
Randomization
In multiple choice questions, for each question, we randomize the relative order of possible answer choices to mitigate potential position bias in models. In human expert evaluation, the relative order of responses by different models are also similarly randomized for each question.
Blinding
In human expert evaluation, the expert pathologists are blinded to which model produced which response.
Reporting for specific materials, systems and methods
We require information from authors about some types of materials, experimental systems and methods used in many studies. Here, indicate whether each material, system or method listed is relevant to your study. If you are not sure if a list item applies to your research, read the appropriate section before selecting a response.
Materials & experimental systems
Methods
n/a
Involved in the study
n/a
Involved in the study
X
MRI-based neuroimaging
Plants
Seed stocks
Report on the source of all seed stocks or other plant material used. If applicable, state the seed stock centre and catalogue number. If plant specimens were collected from the field, describe the collection location, date and sampling procedures.
Novel plant genotypes
Describe the methods by which all novel plant genotypes were produced. This includes those generated by transgenic approaches, gene editing, chemical/radiation-based mutagenesis and hybridization. For transgenic lines, describe the transformation method, the number of independent lines analyzed and the generation upon which experiments were performed. For gene-edited lines, describe the editor used, the endogenous sequence targeted for editing, the targeting guide RNA sequence (if applicable) and how the editor