خلل التنسج الظهاري الفموي (OED) هو تشخيص هيستوباثولوجي قبل خبيث يُعطى للآفات في تجويف الفم. يعاني تصنيفه من تباين كبير بين المراقبين، ولا يتنبأ بشكل موثوق بتقدم الخباثة، مما قد يؤدي إلى قرارات علاجية غير مثالية. لمعالجة ذلك، قمنا بتطوير خوارزمية ذكاء اصطناعي (AI) تقوم بتعيين درجة خطر التحول الخبيث الفموي (OMT) بناءً على صور الشرائح الكاملة الملونة بصبغة الهيماتوكسيلين والإيوزين (H&E). تستفيد خط أنابيب الذكاء الاصطناعي لدينا من نموذج تقسيم داخلي لاكتشاف وتقسيم كل من النوى والظهارة. بعد ذلك، تستخدم شبكة عصبية ضحلة ميزات شكلية ومكانية قابلة للتفسير، تحاكي العلامات الهيستولوجية، للتنبؤ بالتقدم. أجرينا تحقق داخلي على مجموعة التطوير لدينا (شيفيلد؛ حالات) والتحقق المستقل على مجموعتين خارجيتين (برمنغهام وبلفاست؛ حالات). في التحقق الخارجي، حقق OMTscore المقترح AUROC = 0.75 (استرجاع = 0.92) في التنبؤ بتقدم OED، متفوقًا على أنظمة التصنيف الأخرى (ثنائي: AUROC , استرجاع ). أظهرت تحليلات البقاء القيمة التنبؤية لـ OMTscore لدينا (مؤشر C )، مقارنةً بـ WHO (مؤشر C ) ودرجات ثنائية (مؤشر C ). أوضحت التحليلات النووية وجود الخلايا اللمفاوية المحيطية والداخلية في بقع ذات قدرة تنبؤية عالية من الحالات المتحولة (). هذه هي الدراسة الأولى التي تقترح خوارزمية مؤتمتة بالكامل، قابلة للتفسير، ومتحققة خارجيًا للتنبؤ بتحول OED. تظهر خوارزميتنا أداءً مماثلاً لمستوى الإنسان، مما يوفر حلاً واعدًا لتحديات تصنيف OED في الممارسة السريرية الروتينية.
سرطان الرأس والعنق هو من بين أكثر عشرة أنواع شيوعًا من السرطانات على مستوى العالم, مما يشكل تحديًا كبيرًا للصحة العامة. في أوروبا وحدها، يتم الإبلاغ عن حوالي 150,000 حالة جديدة سنويًا. يتم اكتشاف هذه السرطانات غالبًا في مرحلة متقدمة (حوالي )، مما يؤدي إلى تشخيص سيء ومعدل بقاء لمدة خمس سنوات يبلغ فقط . مع التشخيص المبكر يليه العلاج في الوقت المناسب، يرتفع معدل البقاء إلى . لذلك، يلعب الكشف المبكر دورًا حاسمًا في تحسين نتائج المرضى.
سرطان الخلايا الحرشفية الفموية (OSCC) هو النوع الأكثر شيوعًا من سرطان الرأس والعنق, الذي قد ينشأ من اضطراب فموي محتمل الخباثة
(OPMD) مثل اللويحات البيضاء أو اللويحات الحمراء. غالبًا ما ترتبط هذه الاضطرابات بعادات نمط الحياة مثل تدخين التبغ، ومضغ الجوز، واستهلاك الكحول المفرط، على الرغم من أن العوامل الوراثية قد تلعب أيضًا دورًا. بعد الخزعة والفحص المجهري، قد تُعطى هذه الآفات تشخيصًا هيستوباثولوجيًا لخلل التنسج الظهاري الفموي (OED)، الذي يحمل خطرًا أعلى للتقدم إلى OSCC. عادةً ما تظهر الشذوذات الهيستولوجية في OED في الطبقة القاعدية وتتقدم لأعلى عبر الطبقات الظهارية. تشمل التغيرات الخلوية غالبًا تغييرات في شكل وحجم ولون النوى/الخلايا، ووجود أشكال انقسام غير نمطية
، وزيادة الخلوية. تشمل التغيرات المعمارية عادةً تباين غير منتظم في الطبقات الظهارية، وفقدان قطبية الخلايا القاعدية، وأوتاد ريت غير منتظمة، وفقدان تماسك الظهارة.
هناك أنظمة تصنيف مختلفة لتصنيف OED وإبلاغ قرارات العلاج. تصنيف منظمة الصحة العالمية (WHO) لعام 2017 هو نظام ثلاثي المستويات لتصنيف الحالات كخفيفة، متوسطة، وشديدة، مع الأخذ في الاعتبار أكثر من 15 ميزة مختلفة. يقسم هذا النظام الظهارة إلى ثلاثة أجزاء، مما يشير إلى أن التغيرات المعمارية/الخلوية المحصورة في الثلث السفلي قد تُصنف كخفيفة، وفي المنتصف متوسطة، وتلك التي تتقدم نحو الثلث العلوي كشديدة. ومع ذلك، يبسط هذا النظام عملية مرضية معقدة، ويفتقر إلى التوحيد القياسي، ويقدم غموضًا وذاتية، مما قد يؤدي إلى تشخيص غير دقيق مع آثار سلبية محتملة على النتائج. أكدت دراسة تحليلية أجراها إيوكا وآخرون, على خطر التحول الخبيث الأكبر في حالات الخلل التنسجي المتوسطة/الشديدة مقارنةً بالحالات الخفيفة. كان هناك نظام تصنيف ثنائي بديل، يصنف الآفات كمنخفضة أو عالية المخاطر، بناءً على عدد الميزات الخلوية والمعمارية، يهدف إلى تحسين قابلية تكرار الدرجة. ومع ذلك، أظهرت الدراسات تباينًا كبيرًا في التصنيف باستخدام كلا النظامين, مما يبرز الحاجة إلى طريقة أكثر موضوعية وقابلة للتكرار يمكن أن تتنبأ بشكل أفضل بالتحول الخبيث في OED.
أدى توفر وحدات معالجة الرسوميات (GPU) وظهور الشبكات العصبية التلافيفية (CNNs) والتعلم العميق إلى ثورة في رؤية الكمبيوتر، بما في ذلك التصوير الطبي. علم الأمراض الحسابي هو مجال نشط من البحث يستفيد من خوارزميات التعلم الآلي والتعلم العميق لتحليل الأنماط الهيستولوجية في صور الشرائح الكاملة متعددة الجيجابكسل (WSIs) لمعالجة المهام المتعلقة بعلم الأمراض. أصبحت نماذج التعلم العميق شائعة في المختبرات في جميع أنحاء العالم، حيث تُستخدم في مهام مثل التقسيم، والاكتشاف، والتصنيف. تم تطبيق العديد من خوارزميات التعلم العميق على مهام مثل تقسيم الأنسجة والنوى في WSIs, بالإضافة إلى إجراء تنبؤات على مستوى الشرائح للتشخيصات الهيستوباثولوجية. اقترحت دراسات متعددة توليد تنبؤات على مستوى الشرائح من خلال تجميع التنبؤات أو الميزات على مستوى البقع باستخدام آليات التجميع أو الانتباه. تُبذل جهود لتوحيد طرق التعلم العميق المتنوعة المستخدمة في علم الأمراض الحسابي، كما يتضح من مبادرات مثل TIAToolbox.
استكشفت عدة دراسات استخدام الذكاء الاصطناعي (AI) في تصنيف وتنبؤ آفات OED. استخدم بشير وآخرون متوسط عرض الطبقات الظهارية كبديل لتصنيف الظهارة، ضمن الغابات العشوائية للتنبؤ بدرجة OED. حقق شيفارد وآخرون نجاحًا متباينًا في التنبؤ بعودة/تحول OED باستخدام ميزات شكل/حجم النوى في صور H&E. استخدم محمود وآخرون ميزات مستمدة من أطباء الأمراض في نماذج الانحدار النسبية لتنبؤ العودة والتحول، مع تحديد ميزات تنبؤية مثل الأوتاد البصلية، وفرط الصباغ، وتعدد الأشكال النووية. على الرغم من الحاجة إلى استخراج الميزات يدويًا، أظهرت الدراسة الرابط بين ميزات OED والنتيجة السريرية. في المقابل، استخدم بشير وآخرون التعلم متعدد الحالات تحت إشراف ضعيف وحددوا الخلايا اللمفاوية المحيطية (PELs) كميزة تنبؤية للتحول على مستوى WSI. ومع ذلك، كانت هذه الطريقة تتطلب أقنعة ظهارية مصقولة يدويًا، ولم يتم التحقق من نجاحها على مجموعات بيانات خارجية. تُظهر هذه الدراسات إمكانيات الذكاء الاصطناعي في تحسين تشخيص OED وتنبؤه ولكنها تؤكد أيضًا الحاجة إلى مزيد من التطوير والتحقق من الطرق المؤتمتة بالكامل.
في هذه الدراسة، نقدم خط أنابيب مؤتمت بالكامل وقابل للتفسير من البداية إلى النهاية للتنبؤ بتحول OED. نستخدم نموذج متعدد المهام داخليًا لتوليد تقسيمات النوى والطبقات الداخلية الظهارية واستخراج الميزات الشكلية/المكانية. ثم تُغذى هذه الميزات إلى شبكة عصبية متعددة الطبقات (MLP) للتنبؤ بالتحول الخبيث على مستوى الشرائح لـ OED. تشمل مساهماتنا للمجتمع العلمي:
تقديم OMTscore الذي تم إنشاؤه تلقائيًا من خط أنابيبنا، لتحسين تصنيف OED التشخيصي. تم إجراء تحقق خارجي لـ OMTscore على مجموعات مستقلة من برمنغهام وبلفاست، المملكة المتحدة.
عرض نموذج HoVer-Net + المدرب حديثًا، وهو نموذج متطور قادر على تقسيم وتصنيف الحالات النووية والطبقات داخل الظهارة في وقت واحد. لقد أطلقنا كود النموذج والأوزان كجزء من TIAToolbox , جنبًا إلى جنب مع دفتر ملاحظات مثال (https://github.com/TissueImageAnalytics/tiatoolbox/blob/ develop/examples/09-multi-task-segmentation.ipynb).
أظهرنا قدرة OMTscore لدينا عند مقارنتها بتصنيف الأنسجة التقليدي في التنبؤ بتحول الخباثة. كودنا لاستنتاج النموذج متاح للجمهور على: https:// github.com/adamshephard/OMTscoring_inference.
النتائج
لتوقع درجة خطر OED (OMTscore)، قمنا بتنفيذ خط أنابيب متعدد الخطوات (انظر الشكل 1). أولاً، قمنا بتدريب نموذج تعلم عميق داخلي لتقسيم كل من الطبقات داخل الظهارة والنوى. ثم استخدمنا النموذج المدرب لإنتاج تقسيمات لجميع الشرائح في مجموعاتنا. بعد ذلك، قمنا بتقسيم كل شريحة إلى بلاطات وولدنا ميزات شكلية على مستوى البلاطة (استنادًا إلى هذه التقسيمات النووية) للبلاطات داخل الظهارة. أخيرًا، تم استخدام هذه الميزات على مستوى البلاطة ضمن MLP للتنبؤ بما إذا كانت الحالة قد تحولت إلى خباثة (OMTscore لدينا).
تقسيم الطبقات والنوى
كانت المرحلة الأولى من خط أنابيب نموذجنا تتضمن توليد كل من أقنعة تقسيم النوى والظهارة لجميع WSIs في مجموعاتنا الداخلية والخارجية. نقوم بأداء هذه المهمة في وقت واحد مع HoVer-Net , وهو نموذج متعدد المهام يأخذ صور مصبوغة بـ H&E كمدخلات وينتج تقسيمات لحالات النوى (وتصنيفات) وخرائط تقسيم الطبقات داخل الظهارة. قمنا بتدريب وتقييم أداء تقسيم نموذجنا استنادًا إلى مجموعة بيانات شيفيلد الداخلية فقط. للحصول على نظرة عامة على أداء النموذج لتقسيم المعاني وتقسيم/تصنيف النوى، انظر الجدول 1. لمقارنة بصرية بين نتائج HoVer-Net + والتعليقات الحقيقية، يرجى الرجوع إلى الشكل التوضيحي 2. بشكل عام، اعتبرنا هذه النتائج مرضية وبالتالي استخدمنا نموذج HoVer-Net + المدرب للاستنتاج على الحالات من كل من المجموعات الداخلية والخارجية.
توقع التحول على مستوى الشريحة
بعد التقسيم، تم تقسيم كل WSI إلى بلاطات أصغر ( تكبير، 0.50 ميكرون لكل بكسل، mpp)، وتم توليد ميزات على مستوى البلاطة، استنادًا إلى تقسيمات HoVer-Net + النووية. للتنبؤ على مستوى الشريحة، تم تدريب MLP باستخدام طريقة السحب والترتيب التكرارية التي قدمها بلال وآخرون. مع ميزاتنا على مستوى البلاطة. نحن نسمي ناتج نموذج MLP الخاص بنا، OMTscore.
في هذا القسم، نعرض أداء نموذجنا، المدرب بميزات شكلية/مكانية على مستوى البقع، بشكل كمي، عند مقارنته بدرجات أطباء الأمراض (انظر الجدول 2) وكيفيًا (انظر الشكل 3 لخرائط الحرارة، والشكل 4 لمخططات فين). في التحقق الداخلي، حقق نموذجنا نتائج تنافسية مع AUROC قدره 0.77، متفوقًا على كل من درجة منظمة الصحة العالمية (AUROC = 0.68) والدرجة الثنائية (AUROC = 0.71). في المجموع، كان لدينا OMTscore 48 إيجابية حقيقية (TPs)، 148 سلبية حقيقية (TNs)، 65 إيجابية خاطئة (FPs)، و9 سلبية خاطئة (FNs). بالمقابل، أدى نظام التصنيف الثنائي إلى , و17 FN. للتحقق الخارجي على مجموعة برمنغهام-بلفاست (انظر الجدول 3)، حقق نموذجنا نتائج متفوقة من حيث AUROC والاسترجاع (AUROC , الاسترجاع ) مقارنة بكل من درجات منظمة الصحة العالمية والدرجات الثنائية. كان لدينا OMTscore إجمالي 37 TP، 20 TN، 29 FP، و3 FN، بينما كان نظام التصنيف الثنائي لديه 34 TP، 29 TN، 20 FP، و6 FN. تظهر منحنيات ROC لنموذجنا المقترح في الشكل 2a.
تم فحص خرائط الحرارة التي أنتجها نموذجنا من قبل طبيب أمراض (SAK). وقد كشفت عن مناطق تنبؤية ذات درجات واضحة أو عالية من التنسج، ووجود كبير للخلايا المناعية داخل وحول الظهارة. يتم عرض خريطة حرارة مثال لحالة OED خفيفة في الشكل 3 (أعلى اليسار)، والتي تم التنبؤ بها بشكل صحيح من قبل نموذجنا للتحول. أظهرت الفحوصات الإضافية للنقاط الساخنة تركيزًا على المناطق التنسجية مع
الشكل 1 | خط الأنابيب المقترح لتوليد OMTscore للتنبؤ بالتحول الخبيث. أ نظرة عامة على البيانات المستخدمة في تجاربنا من ثلاثة مراكز مختلفة. يشمل ذلك بيانات شيفيلد للتدريب/التحقق الداخلي، وبيانات برمنغهام وبلفاست للتحقق الخارجي. ب ملخص لخط أنابيب النموذج لـ
generating an OMTscore. يستخدم النموذج أولاً HoVer-Net + المدرب حديثًا لتوليد تقسيمات النوى والطبقات. بعد ذلك، يتم توليد ميزات شكلية/مكانية على مستوى البقع، وتستخدم ضمن MLP المدرب للتنبؤ بالتحول الخبيث (أي OMTscore).
تسلل لمفاوي بارز داخل الظهارة وخلايا لمفاوية محيطية. نقدم أيضًا مخططات فين تظهر تداخل تصنيفات المرضى بناءً على الدرجة الثنائية وOMTscore في التحقق الداخلي والخارجي في الشكل 4. من الواضح أن كل من خط أنابيبنا والدرجات الثنائية تتنبأ بشكل متكرر بنفس الشرائح على أنها عالية المخاطر، مع تداخل كبير، ولكن مع كون OMTscore أكثر حساسية من الدرجة الثنائية.
تحليلات البقاء
قمنا أيضًا بإجراء تحليلات بقاء لتحديد الفائدة التنبؤية لـ OMTscore لدينا عند مقارنتها بأنظمة التصنيف المعينة من قبل أطباء الأمراض. انظر الشكل 2b لمنحنيات كابلان-ماير (KM) لـ OMTscore ودرجات الثنائية/منظمة الصحة العالمية على المجموعة الداخلية. أظهر OMTscore فصلًا واضحًا بين الحالات منخفضة وعالية المخاطر، مع توافق قوي، (C -index ) متفوقًا على الدرجة الثنائية (C index ) ودرجة منظمة الصحة العالمية (C -index ). أظهرت نتائج نموذج المخاطر النسبية لكوكس (انظر الجدول 4) أن كل من OMTscore ( [3.06، 21.30]) والدرجة الثنائية (, [1.45، 11.10]) كانت ذات دلالة إحصائية. لم تكن درجة منظمة الصحة العالمية () ذات دلالة. أظهر OMTscore أعلى نسبة خطر (HR)، مما يدل على فائدة تنبؤية أفضل. لم يتم العثور على أي متغيرات سريرية أخرى ذات دلالة.
للتأكد من التحقق الخارجي، تم تقديم منحنيات البقاء KM لمجموعة برمنغهام-بلفاست (الشكل 2b). أظهر OMTscore اختلافات ذات دلالة إحصائية في منحنيات KM () وفقًا لاختبار الرتبة اللوغاريتمي. حقق OMTscore أيضًا C-index قابل للمقارنة قدره 0.60 مقارنةً بـ C-index منظمة الصحة العالمية البالغ 0.64 () والدرجة الثنائية البالغة 0.65 (). أظهرت نتائج نماذج كوكس PH متعددة المتغيرات (انظر الجدول 4) عدم وجود متغيرات ذات دلالة إحصائية. ومع ذلك، كانت كل من الدرجة الثنائية () وOMTscore ( [0.71، 20.62]) ذات نسب خطر عالية، مما يبرز فائدتها التنبؤية مقارنةً بالمتغيرات السريرية الأخرى.
تحليلات الميزات
لتحديد أهم الميزات المستخدمة من قبل النموذج في التنبؤ بالتحول الخبيث، قمنا بإجراء عدة تحليلات. أولاً، نقارن التركيب الخلوي والشكلية للبقع الأكثر تنبؤًا في الحالات التي تم التنبؤ بها بشكل صحيح. ثانيًا، نظرنا في أهمية الميزات لـ 168 ميزة شكلية/مكانية، استنادًا إلى مصنف الغابة العشوائية (انظر المواد التكميلية ص 5). ثالثًا، ندرس مخططات احتمالية الاعتماد الجزئي (PDPs)، لتحديد تأثير كل ميزة على النتيجة المتوقعة بشكل منفصل. معًا، تعطي هذه التحليلات مزيدًا من التفسير لتنبؤات النماذج.
قمنا بتحليل أهم الميزات المستخدمة من قبل نموذجنا، من حيث التركيب الخلوي والشكلية، من خلال مقارنة أفضل خمس بقع تنبؤية في الحالات الإيجابية الحقيقية بأفضل البقع المتوقعة في الحالات السلبية الحقيقية في كل من حالات التحقق الداخلية والخارجية (انظر الشكل التوضيحي 4 لمجموعة عشوائية من البقع والمواد التكميلية ص 5 لنتائج التحقق الداخلي). في التحقق الخارجي، كشفت العدادات النووية على مستوى البقع عن كثافة خلوية أعلى في بقع الإيجابية الحقيقية (TP) مقارنة بالسلبية الحقيقية (TNs) (Cohen’s ; انظر الشكل 3، التركيب الخلوي: البقعة الكاملة)، مدفوعة بشكل أساسي بـ “نوى أخرى” في TPs (). بالمقابل، كان هناك المزيد من خلايا الظهارة في TNs (المعلمة كـ “كل الظهارة” في الشكل 3؛ عند التركيز على عدد النوى داخل منطقة الظهارة في الرقعة فقط (الشكل 3، التركيب الخلوي: الظهارة)، وُجدت اختلافات كبيرة في عدد النوى “الأخرى” داخل الظهارة (، “ ). بالإضافة إلى ذلك، كان هناك المزيد من نوى الظهارة داخل الطبقة الظهارية في TNs ( )، في حين لوحظت نوى الظهارة القاعدية بشكل طفيف أكثر (لكن ليس بشكل ملحوظ) في تم العثور أيضًا على فرق كبير في عدد نوى الكيراتين بين الفئات. ). أخيرًا، الشكل 3 (التكوين الخلوي:
الجدول 1 | مقاييس الأداء لـ HoVer-Net+ في الاختبارات الداخلية
التقسيم الدلالي، F1
التقسيم النووي
تصنيف نووي، F1
خلفية
0.88
نرد
0.69
آخر
0.72
نسيج آخر
0.84
أجي
0.62
الظهارة القاعدية
0.61
الظهارة القاعدية
0.74
DQ
0.74
الظهارة
0.66
الظهارة
0.87
SQ
0.69
معنى
0.66
الكيراتين
0.81
PQ
0.51
معنى
0.83
0.82
النقاط المقدمة هي لمقياس Dice للنوى مقابل الخلفية. AJI مؤشر Jaccard المجمع، DQ جودة الكشف، SQ جودة التقسيم، PQ جودة بانوبتيك، F1d درجة F1 للكشف عن جميع أنواع النوى.-درجة التصنيف.
الجدول 2 | نتائج متوسط (انحراف معياري) مستوى الشريحة لتوقع التحول في التحقق الداخلي
نموذج
شيفيلد )
درجة F1
استدعاء
تداعيات
منطقة تحت منحنى التشغيل
OMTscore
0.57 (0.08)
0.84 (0.07)
0.30 (0.12)
0.77 (0.08)
الدرجة الثنائية
0.51 (0.08)
0.70 (0.09)
0.28 (0.07)
0.71 (0.06)
درجة G1 من منظمة الصحة العالمية
0.46 (0.08)
0.94 (0.07)
0.٥٩ (0.٠٧)
0.68 (0.05)
درجة G2 من منظمة الصحة العالمية
0.34 (0.16)
0.41 (0.19)
0.24 (0.08)
0.58 (0.11)
الدرجة G1 حسب منظمة الصحة العالمية هي خفيفة مقابل الحالات المتوسطة/الشديدة، بينما الدرجة G2 هي خفيفة/متوسطة مقابل الحالات الشديدة. أفضل النماذج/الدرجات موضحة بالخط العريض.
النسيج الضام) يوضح عددًا أكبر من النوى “الأخرى” داخل النسيج الضام لـ TPs مقارنةً بـ TNs ( ).
عند تحليل توزيعات أنواع الأنسجة (أو الشكل) داخل البقع (الشكل 3، الشكل: البقعة الكاملة)، وجدنا أن بقع TP كانت تحتوي على نسبة أعلى من الأنسجة الضامة (المفترض أنها من الأنسجة “الأخرى”) مقارنةً بـ TNs. ). هذا يتماشى مع التحليل النووي السابق الذي يظهر المزيد من النوى “الأخرى” في بقع TP. بالإضافة إلى ذلك، غالبًا ما كانت بقع TP تحتوي على المزيد من الأنسجة القاعدية ( )، ولكن أقل نسيج طلائي ( )، مقارنةً بـ TNs. من المثير للاهتمام أن TNs كان لديها كمية أكبر بكثير من الكيراتين السطحي مقارنةً بـ TPs ( كانت رقع TN تحتوي بشكل أساسي على الظهارة، في حين كانت رقع TP محدودة بشكل خاص إلى الطبقة القاعدية والأنسجة الضامة.
قمنا بإنتاج مخططات PDP لجميع الميزات استنادًا إلى مجموعة الاختبار الخارجية الكاملة لنموذج MLP الذي ينتج OMTscore. تعطي مخططات PDP مؤشرًا على أهمية كل ميزة فردية في التنبؤ بالتحول، حيث تشير التدرجات الإيجابية إلى ارتباط إيجابي. نقدم تسع ميزات بدت أنها تمتلك أكبر التدرجات في الشكل 5. في الصف العلوي، تُظهر هذه المخططات ارتباطات إيجابية واضحة بين أطوال المحاور الرئيسية القصوى الأكبر، والمساحات المحدبة والمحيطية في النوى “الأخرى”، والتحول الخبيث. نرى في الصف الأوسط العلاقة الإيجابية بين الحد الأقصى للمساحة (صندوق الإحاطة والمساحة المحدبة) للنوى الظهارية والتباين في طول المحور الرئيسي في النوى الظهارية، والتحول الخبيث. أخيرًا، في الصف السفلي، نرى ارتباطًا إيجابيًا بين كميات أكبر من النوى “الأخرى” المحيطة بالنوى الظهارية. يمكن رؤية نتائج التحقق الداخلي في المواد التكميلية (ص 6).
نقاش
قمنا بتقديم OMTscore، وهو مقياس خطر يتضمن ميزات شكلية ومكانية قابلة للتفسير للتنبؤ بتحول OED. شمل نهجنا أولاً تقديم نموذج جديد للتجزئة المتزامنة للطبقات داخل الظهارة والنوى في صور H&E واسعة النطاق. ثم قمنا بتوليد ميزات شكلية/مكانية على مستوى البقع، تشبه الميزات الخلوية التي يستخدمها أطباء الأمراض لتصنيف OED (مثل عدم تناسق النوى، وتعدد الأشكال النووي). تم إدخال هذه الميزات في شبكة عصبية ضحلة، مما أسفر عن أداء تنبؤي عالي لتحول OED.
بشكل عام، حقق OMTscore لدينا أداءً قابلاً للمقارنة مع الدرجات المعينة من قبل الأطباء الشرعيين في التحقق الخارجي. ومن الجدير بالذكر أن OMTscore حقق AUROC وحساسية أعلى من نظام التقييم الثنائي، على الرغم من أن ذلك جاء مع معدل إنذارات كاذبة أعلى. بالمقابل، حصلت درجات منظمة الصحة العالمية والدرجات الثنائية على مؤشرات C-index أعلى قليلاً. على الرغم من ذلك، لا يزال OMTscore لدينا يميز بفعالية بين الحالات ذات المخاطر المنخفضة والعالية. فيما يتعلق بنماذج كوكس المتعددة المتغيرات، أظهر كل من OMTscore والدرجة الثنائية دلالة تنبؤية في التحقق الداخلي. ومع ذلك، لم يحدد التحقق الخارجي أي متغيرات ذات دلالة إحصائية، على الأرجح بسبب حجم العينة الأصغر. ومع ذلك، كان لكل من الدرجة الثنائية وOMTscore نسب خطر عالية، مما يبرز إمكاناتهما كمؤشرات تنبؤية قوية. تسلط هذه النتائج الضوء على الفائدة التنبؤية لـ OMTscore لدينا، حيث تساعد حساسيته المحسنة في الكشف المبكر عن الآفات عالية المخاطر. وهذا له آثار مهمة على رعاية المرضى، مما قد يمكّن من تدخلات أكثر توقيتًا ويقلل من خطر تطور السرطان.
الجدول 3 | نتائج المتوسط (الانحراف المعياري) على مستوى الشريحة لتوقع التحويل في التحقق الخارجي
نموذج
برمنغهام )
بلفاست )
مجمعة )
درجة F1
استدعاء
تسرب
منحنى التشغيل الاستقبالي
درجة F1
استدعاء
تسرب
منحنى التشغيل التلقائي
درجة F1
استدعاء
تسرب
منحنى التشغيل التلقائي
OMTscore
0.44 (0.01)
0.87 (0.06)
0.57 (0.07)
0.73 (0.01)
0.84 (0.02)
0.93 (0.03)
0.69 (0.05)
0.71 (0.03)
0.69 (0.01)
0.92 (0.04)
0.60 (0.06)
0.75 (0.01)
الدرجة الثنائية
0.55
0.80
0.30
0.75
0.80
0.87
0.75
0.56
0.72
0.85
0.41
0.72
درجة G1 من منظمة الصحة العالمية
0.55
0.90
0.38
0.76
0.79
0.87
0.83
0.52
0.71
0.88
0.49
0.69
درجة G2 من منظمة الصحة العالمية
0.40
0.30
0.05
0.63
0.39
0.27
0.25
0.51
0.39
0.28
0.10
0.69
الشكل 2 | مخططات ROC ومنحنيات البقاء على قيد الحياة لكيرن OMTscore ودرجات الأطباء الشرعيين. أ مخططات ROC للتنبؤ بالتحول الخبيث مع التحقق الداخلي على شيفيلد (يسار)، والتحقق الخارجي على مجموعات بيانات برمنغهام-بلفاست بواسطة خوارزميتنا (يمين). ب منحنيات البقاء على قيد الحياة بدون تحول كابلان-ماير بناءً على التحقق الداخلي (يسار) ومجموعة التحقق الخارجي.
(يمين) للتنبؤات من تصنيف منظمة الصحة العالمية 2017 (الأعلى)، تصنيف منظمة الصحة العالمية G1 (خفيف مقابل معتدل/شديد)، التصنيف الثنائي و OMTscore (الأسفل). تم توفير فترات الثقة لمخرجات OMTscore منحنيات AUROC/Kaplan-Meier التي تم إنشاؤها بواسطة الانحراف المعياري لمخرجات النموذج على مدار تكرار تجارب الاختبار.
الشكل 3 | تحليل الميزات وخط الأنابيب والنتائج. حالة خفيفة من OED مع خريطة حرارة توقعات خوارزميتنا م overlay (يسار)، حيث توقعت خوارزميتنا بشكل صحيح أن الحالة ستتحول إلى خبيثة. على اليمين مثال على حالة خفيفة توقعت خوارزميتنا بشكل صحيح أنها لن تتحول. يوضح الرسم البياني كيف تم أخذ أعلى البقع المتوقعة من الحالات الإيجابية الحقيقية (TP) (يسار)، وأعلى البقع المتوقعة من الحالات السلبية الحقيقية (TN) (يمين)، وتم العثور على ميزات الشكل والتركيب الخلوي (استنادًا إلى HoVer-Net + التقسيمات). تم تنفيذ ذلك على مجموعة شيفيلد بالكامل وتم إجراء اختبارات t (مع FDR تم استخدام (تصحيح) لتحديد أي اختلافات. الجزء السفلي من الصورة يحتوي على مخططات الصندوق التي تظهر توزيع عدد النوى (التكوين الخلوي) داخل الرقعة الكاملة، والظهارة فقط، والأنسجة الضامة فقط، من أعلى خمس رقع متوقعة من الحالات الإيجابية الحقيقية (TP)، وأعلى خمس رقع من الحالات السلبية الحقيقية (TNs). كما نقدم مخططات صندوقية تظهر توزيع نسب المساحات (الشكل) داخل أعلى خمس رقع متوقعة من TP، وأعلى خمس رقع من TN.
الشكل 4 | مخططات فين تقارن توقعات النموذج بنظام التقييم الثنائي. أ تظهر مخططات فين المنتجة التداخل في التوقعات بين درجة OMT ونظام التقييم الثنائي على مستوى داخلي والتحقق الخارجي.
نموذجنا عمم بشكل جيد على مجالات جديدة في التحقق الخارجي، ولكن على الرغم من ذلك، كان هناك انخفاض في الأداء. نقدم تفسيرين لذلك. أولاً، أظهر مجموعة البيانات الخارجية معدلات بقاء أقل بشكل كبير (انظر الشكل التوضيحي 10) مقارنة بمجموعة بيانات شيفيلد، مما يعكس الواقع السريري ويبرز تعقيد المشكلة. ثانياً، نقترح أن هذا الانخفاض قد يُعزى جزئياً إلى محدودية عمومية HoVer-Net+ للمجالات غير المرئية. كشفت الفحوصات البصرية عن تقسيمات غير مرضية في مجموعة صغيرة من الحالات ضمن المجموعة الخارجية، والتي، عند استبعادها، أدت إلى تحسين أداء النموذج من حيث AUROC (انظر المواد التكميلية الصفحات 6). وهذا يشير إلى أن انخفاض الأداء قد لا يعكس فقط جودة خط أنابيب توقع التحول المقترح، بل يشير بدلاً من ذلك إلى الحاجة إلى تعزيز عمومية HoVer-Net +.
نعترف أيضاً بالتباينات في أداء OMTscore عبر المجموعات الخارجية. بينما يتفوق نموذجنا على أنظمة التصنيف في مجموعة بلفاست، فإنه يظهر AUROC مماثل ولكن درجات F1 أقل في مجموعة برمنغهام. وقد أدى ذلك أيضاً إلى تحقيق نموذجنا درجات AUROC أعلى بكثير في مجموعة بلفاست مقارنة بمجموعة برمنغهام، ولكن درجات F1 أقل بكثير. يمكن أن يُعزى هذا التباين إلى حساسية نموذجنا العالية، جنباً إلى جنب مع وجود عدد أقل من الحالات التي تحولت إلى خبيثة في مجموعة برمنغهام ( ) مقارنة ببلفاست ( ). هذا التباين في عدد الأحداث هو
إشارة واضحة إلى تحول نوع II (مجال) بين المجموعات الخارجية ، وهو الواقع السريري للبيانات الاستعادية. ومع ذلك، فإن هذه المجموعات الفردية صغيرة نسبياً، لذا نجادل بأن تقييم نموذجنا (وأنظمة التصنيف) عبر كلا المجموعتين معاً يوفر فهماً أكثر شمولاً. نضيف أيضاً أنه عندما قمنا بإجراء خطوة إضافية لمراقبة الجودة للعثور على الحالات ذات التقسيم السيئ (انظر المواد التكميلية الصفحات 6)، كانت جميعها في مجموعة برمنغهام. وهذا يدعم فرضيتنا بأن HoVer-Net+ قد لا تعمم بشكل فعال على البيانات الخارجية، مما يساهم في انخفاض أداء التوقع. بشكل عام، حقق نموذجنا AUROC أعلى واسترجاع عبر كلا المجموعتين معاً، مما يظهر فائدة تنبؤية قوية.
ساهم استخدام نموذجنا للميزات الشكلية/المكانية غير المعتمدة على المجال في أدائه القوي بشكل عام على المجموعات الخارجية، مع تعزيز القابلية للتفسير. وبالتالي، قدم تضمين PDPs وتحليلات الغابة العشوائية رؤى قيمة حول سلوك الميزات الشكلية والمكانية خلال التحقق الخارجي. بينما كشفت PDPs عن أنماط متسقة بين التحقق الداخلي (انظر المواد التكميلية الصفحات 6) والتحقق الخارجي، كشفت تحليلات RF (انظر المواد التكميلية الصفحات 5) عن اختلافات في أهمية الميزات. ومن الجدير بالذكر أن الميزات المكانية كانت الأكثر بروزاً في التحقق الداخلي، بينما أثبتت مجموعة من الميزات الشكلية/المكانية أنها الأكثر أهمية في التحقق الخارجي. هذا التباين يدعو إلى فحص دقيق لصلابة تصنيف النواة على مجموعة الاختبار الخارجية. ضمن الشكل التوضيحي 3، نوضح أن تصنيف النواة كان واضحاً أنه أسوأ في بعض الحالات في التحقق الخارجي. وبالتالي، قد يكون الاعتماد المحتمل على الميزات المكانية في التمييز بين أنواع النواة قد ساهم في إشارات أقل دقة للنموذج، مما قد يؤثر على انخفاض الأداء الملحوظ. وهذا مرة أخرى يشير إلى أن العمل المستقبلي يجب أن يهدف إلى تحسين عمومية HoVer-Net +.
كشفت تحليلات الميزات أن الحالات غير المتحولة تظهر المزيد من الخلايا الظهارية، بينما أظهرت الحالات المتحولة أعداداً أعلى من الخلايا الظهارية القاعدية و”نوى أخرى” في كل من النسيج الضام والظهارة. دعمت تحليلات PDP هذا، مشيرة إلى أن كثافة “النوى الأخرى” المحيطة بالنوى الظهارية كانت مرتبطة إيجابياً بالتحول الخبيث. هذه النتائج تتماشى مع الدراسات السابقة التي تشير إلى زيادة تسلل الخلايا المناعية في الآفات الفموية التي تتقدم إلى , والاعتراف بأنماط فرعية متميزة مرتبطة بالمناعة في حالات معتدلة/شديدة . نظراً لأن الظهارة تحتوي عادةً فقط على نوى ظهارية أو لمفاويات داخل الظهارة (IELs)، نقترح أن هذه “النوى الأخرى” داخل الظهارة هي IELs. كما نفترض أن الكثافة المرتفعة لـ”النوى الأخرى” في النسيج الضام تمثل على الأرجح لمفاويات محيطية (PELs). وهذا مدعوم أيضاً بعمل بشير وآخرون. , الذين أظهروا كثافة أعلى من PELs في الحالات التي أظهرت تحولاً خبيثاً. معاً، تشير هذه النتائج إلى أن زيادة كثافة IELs وPELs قد تعني استعداد الآفة للتقدم إلى السرطان. هذا مثير للاهتمام، نظراً لأن في سرطان الفم، تشير الكثافة الأعلى من الخلايا المناعية عادةً إلى استجابة مناعية قوية ونتائج أفضل. هذه النتيجة تدعو إلى استكشاف شامل، مما يبرز الحاجة الملحة لفهم الآليات المناعية في OED وتحديد
الجدول 4 | مخرجات نموذج كوكسي المتناسب المتعدد للتحول الخبيث بناءً على OMTscore وغيرها من المتغيرات السريرية
التحقق الداخلي – شيفيلد ( )
التحقق الخارجي – المجموعات المجمعة ( )
HR
HR الأدنى 95%
HR الأعلى 95%
HR
HR الأدنى 95%
HR الأعلى 95%
OMTscore
<0.001
8.48
3.87
21.30
0.32
3.01
0.71
20.62
الدرجة الثنائية
<0.001
3.96
1.45
11.10
0.14
2.64
0.70
8.84
درجة منظمة الصحة العالمية
1.00
1.06
0.57
2.04
0.96
1.27
0.64
2.50
العمر
0.54
1.01
0.98
1.03
1.00
1.00
0.97
1.02
الجنس
0.60
1.34
0.71
2.51
0.81
1.29
0.61
2.62
الموقع
0.36
1.19
0.85
1.67
0.07
1.59
1.03
2.55
أفضل نموذج/درجات موضوعة بالخط العريض.
الشكل 5 | مخططات الاعتماد الجزئي لـ OMTscore على التحقق الخارجي. تُعطى مخططات احتمالية الاعتماد الجزئي لـ OMTscore بناءً على بيانات التحقق الخارجي الكاملة. هنا، تُصنف النوى “الظهارية” على أنها [1] و”النوى الأخرى”
تُصنف على أنها [0]. تُعطى المسافات بالميكرونات. تعتمد فترات الثقة على الانحراف المعياري عبر الثلاث تكرارات من تجارب التحقق الخارجي.
ملفات تعريف الخلايا المحددة المرتبطة بالتحول الخبيث. قد تسهل هذه الرؤى تطوير علاجات أكثر استهدافاً، بما في ذلك استكشاف الدور المحتمل للعلاج المناعي في إدارة الآفات عالية الخطورة. يحمل هذا النهج وعداً خاصاً للمرضى غير المناسبين للجراحة، مما يبرز أهمية تعزيز فهمنا للديناميات المناعية في OED لتحسين التدخلات العلاجية.
بينما تمثل دراستنا واحدة من أولى المحاولات للتنبؤ بالتحول الخبيث لـ OED، والتي تم التحقق منها على عدة مجموعات خارجية، إلا أنها تحمل عدة قيود. قد تكون هذه أكبر مجموعة بيانات معروفة لـ OED مع نتائج سريرية لعلم الأمراض الحسابي، ومع ذلك، لا يزال حجم العينة صغيراً نسبياً، حيث تم الحصول على بيانات التدريب من مركز واحد (على الرغم من استخدام جهازين مسح)، وتم التعليق عليها بواسطة طبيب واحد فقط. بالإضافة إلى ذلك، فإن الطبيعة الاستعادية لدراستنا تفرض قيوداً متأصلة. يجب أن توسع الأبحاث المستقبلية بالتالي من كل من الأساليب والنتائج لهذا العمل، مع تقييم فائدة OMTscore على مجموعة بيانات تم الحصول عليها دولياً، متعددة المراكز، ومجمعة بشكل استباقي، مع
معلقين مستقلين متعددين، لضمان اختبار غير متحيز. علاوة على ذلك، قد يؤدي استكشاف ميزات السيتولوجيا على مستوى البقعة المستمدة من طبيب الأمراض، مثل فرط الصباغ والانقسام، إلى تعزيز القدرة التنبؤية لنموذجنا. في المواد التكميلية (الصفحات 6)، نقدم رؤى حول الأهمية المحتملة لمراقبة الانقسام باستخدام طرق الكشف المنشورة . كما أن التغيرات المعمارية، مثل تدرج الظهارة غير المنتظم ونتوءات الشبكة على شكل قطرة، تستحق المزيد من الاستكشاف.. أخيرًا، كانت تحليل ميزاتنا يركز بشكل أساسي على التصحيحات الإيجابية الحقيقية والتصحيحات السلبية الحقيقية، مدفوعًا بهدفنا لتقييم أداء النموذج في تحديد الحالات التحويلية بشكل صحيح. ومع ذلك، نقترح أن العمل المستقبلي يجب أن يفحص أيضًا التصحيحات الإيجابية الكاذبة والسلبية الكاذبة لتحديد الميزات التي تسهم في التنبؤات غير الصحيحة للنموذج وتوجيه جهود التحسين المستقبلية.
باختصار، قدمت دراستنا خط أنابيب آليًا للتنبؤ بتحول OED باستخدام إطار عمل متقدم للتعلم العميق وميزات شكلية/مكانية على مستوى التصحيح. نتائجنا
تظهر الأهمية التنبؤية القوية وقابلية تعميم نموذجنا مقارنةً بالدرجات اليدوية على مجموعات داخلية وخارجية. وهذا له آثار سريرية كبيرة على إدارة المرضى، حيث يقدم طريقة تنبؤ أكثر دقة وموضوعية. تمهد دراستنا الطريق للبحوث المستقبلية وإمكانية تحسين نتائج المرضى من خلال الكشف المبكر والتدخل. ومع ذلك، هناك حاجة إلى مزيد من التحقيقات لتحديد ميزات إضافية على مستوى الشريحة والتحقق من صحة النموذج على مجموعات خارجية أكبر مع فترات متابعة أطول.
الطرق
بيانات الدراسة
تكونت مجموعة الدراسة المستخدمة لتدريب نماذجنا من مواضيع تم جمعها بأثر رجعي بين عامي 2008 و2016 من أرشيف علم الأمراض الفموية والوجهية في كلية طب الأسنان السريري، جامعة شيفيلد، المملكة المتحدة. تم قطع الأقسام حديثًا ( سمك) وصبغها بصبغة H&E من كتل مدمجة في البارافين مثبتة بالفورمالين.
تم تقييم 244 حالة من حيث الأهلية. وشملت هذه 321 شريحة بتشخيص نسيجي لـ OED، تم مسحها باستخدام إما ماسح الشرائح الرقمي Hamamatsu NanoZoomer 360 (Hamamatsu Photonics، اليابان) أو Aperio CS2 (Leica Biosystems، ألمانيا) عند قوة الهدف (0.2258 mpp و0.2520 mpp، على التوالي) للحصول على صور شرائح رقمية. من بين هذه 244 حالة، كانت 202 حالة فقط تلبي معايير إدراج الدراسة (279 شريحة؛ انظر المواد التكميلية الصفحات 2 لمعايير الإدراج). علاوة على ذلك، كانت المعلومات السريرية بما في ذلك عمر المريض، الجنس، الموقع داخل الفم، درجة OED (ثنائية وWHO 2017)، وحالة التحول، متاحة فقط لـ 193 حالة (270 شريحة). تم جمع معلومات تحول الحالة من مصادر متعددة، بشكل أساسي من أنظمة السجلات السريرية للمرضى. شملت التقييمات تقييمًا شاملاً لسجلات المرضى وقاعدة البيانات التشخيصية، والتي تضمنت ملفات إلكترونية وملفات فعلية (بواسطة طبيب، HM). تم تعريف التحول بشكل محدد على أنه تقدم آفة غير طبيعية إلى OSCC في نفس الموقع السريري خلال فترة المتابعة. تم تقييم الحالات بشكل مستقل من قبل عدة أطباء أمراض معتمدين/استشاريين عند الإبلاغ عنها في البداية باستخدام نظام تصنيف WHO (PMS، PMF، DJB، KDH)، لضمان اتساق التشخيص. تم إجراء إعادة تقييم عمياء بواسطة طبيب أمراض فموية ووجهية (SAK) وجراح فم متخصص في تحليل OED (HM)، لتأكيد درجة WHO (2017) وتعيين درجات ثنائية. في المجموع، شملت المجموعة 193 مريضًا فريدًا بـ OED (270 شريحة) مع 42 مريضًا (57 شريحة) يظهرون تحولًا خبيثًا. تم تعيين الشرائح من نفس المرضى باستمرار إلى نفس الطية خلال التدريب/التحقق الداخلي. تم تقديم ملخص للمجموعة في الجدول التكميلية 1، كما تم تقديم مخطط CONSORT أيضًا في الشكل التكميلية 1.
لتدريب نماذج التقسيم لدينا، قام طبيب أمراض واحد (SAK) بتحديد الطبقات داخل الظهارة يدويًا بشكل شامل في 59 حالة OED، بالإضافة إلى تسعة ضوابط (تم جمعها باستخدام ماسح Aperio CS2 وفقًا للبروتوكولات المذكورة أعلاه)، باستخدام برنامج WASABI الخاص بنا (نسخة مخصصة من HistomicsTK ). ثم قمنا بإنشاء أقنعة الأنسجة لكل من صور الشرائح المقطعة عبر عتبة Otsu وإزالة الأجسام الصغيرة والثقوب في قناع التقسيم. ثم تم إنشاء قناع طبقة لكل صورة شريحة من خلال دمج تقسيمات الطبقة مع قناع الأنسجة.
يعد التقسيم اليدوي للنوى الفردية داخل صور الشرائح عملية شاقة ومعرضة لتباين بين المقيمين/داخل المقيم. وبالتالي، تم إنشاء أقنعة نوى فردية لمجموعة صغيرة من الحالات، 30 منطقة اهتمام (منطقة اهتمام واحدة لكل حالة)، حيث قام طبيب أمراض (SAK) بتعليق كل نواة كإما ظهارية أو “أخرى”. تم استخدام التعليقات النقطية ضمن إطار عمل NuClick لإنشاء حدود نوى. NuClick هو إطار عمل للتعلم العميق يأخذ صورة خام وإشارة توجيه “نقرة” كمدخل ثم ينتج حدود نوى كخرج. وقد وُجد أن هذه الطريقة تتفوق على الأساليب الآلية بالكامل في إنشاء تقسيمات نوى فردية، خاصة في حالات النوى المتلامسة/المتداخلة. لضمان أن جميع تقسيمات النوى كانت عالية الجودة، تم تحسين الأقنعة يدويًا عندما وُجد أنها غير صحيحة بشكل واضح. تم الحصول على ما مجموعه 71,757 تقسيمات نوى معلمة عبر 30 منطقة اهتمام، والتي تم استخدامها لتدريب نماذج التقسيم لدينا.
للتأكيد الخارجي، تم تجنيد حالات OED من مركزين مستقلين، برمنغهام وبلفاست. تم جمع بيانات 47 مريضًا بـ OED من بلفاست و71 حالة OED من برمنغهام. تم مسح شرائح برمنغهام وبلفاست عند قوة الهدف باستخدام ماسح Pannoramic 250 (3DHISTECH Ltd.، المجر؛ 0.1394 mpp) وماسح Aperio AT2 (Leica Biosystems، ألمانيا؛ 0.2529 mpp)، على التوالي. عند استلام الحالات، تم إعادة تقييم جميع الحالات بشكل أعمى بواسطة SAK لتأكيد الدرجة النسيجية (WHO 2017 وثنائية) وضمان تلبية معايير الإدراج. كان لديهم أيضًا وقت لمعلومات التحول. تتكون مجموعة التحقق الخارجي المشتركة بين برمنغهام وبلفاست من 118 حالة OED فريدة، ومع ذلك، من بين هذه الحالات، لم تلبِ 29 منها معايير الدراسة. أدى ذلك إلى 89 حالة OED (89 شريحة)، مع 40 حالة انتقلت إلى الخباثة. تم تقديم ملخص لهذه المجموعة في الجدول التكميلية 1، كما تم تقديم مخطط CONSORT أيضًا (انظر الشكل التكميلية 1).
نظرة عامة على سير العمل التحليلي
للتنبؤ بدرجة خطر OED، قمنا بتنفيذ خط أنابيب متعدد الخطوات (انظر الشكل 1). أولاً، تم تدريب نموذج تعلم عميق لتقسيم الظهارة والنوى تلقائيًا. ثم تم استخدام هذا النموذج للاستدلال على جميع الشرائح. للتحليل اللاحق، تم تقسيم الشرائح إلى بلاطات أصغر، وتم إنشاء ميزات على مستوى البلاطة بناءً على تقسيمات النوى (في البلاطات مع الظهارة). تم استخدام هذه الميزات لتدريب شبكة عصبية ضحلة للتنبؤ على مستوى الشريحة. تم التحقق من صحة الخوارزمية داخليًا على مجموعة شيفيلد، ثم تم التحقق منها لاحقًا على المجموعة الخارجية، التي تتكون من حالات من مركزين مستقلين.
تقسيم الطبقة والنوى
لإنشاء تقسيم الطبقة والنوى لكل صورة شريحة في مجموعتنا، قمنا بتدريب/اختبار HoVer-Net+ على مجموعة شيفيلد الداخلية، باستخدام التعليقات التوضيحية الحقيقية. HoVer-Net+ هو شبكة CNN تعتمد على الترميز-فك الترميز تقوم بتقسيم وتصنيف النوى في نفس الوقت، وتقسيم الطبقات الظهارية بشكل دلالي. استخدمنا هذا النموذج لتقسيم الطبقات داخل الظهارة بشكل دلالي (مثل القاعدة، الظهارية، والكراتينية) وغيرها من الأنسجة (مثل الأنسجة الضامة)، بينما نقوم أيضًا بتقسيم وتصنيف النوى كأنسجة ظهارية أو “أخرى”. هنا، النوى “الأخرى” هي أي شكل من النوى التي ليست نوى ظهارية، (أي الأنسجة الضامة/الالتهابية). قمنا بتدريب HoVer-Net+ باستخدام نهج متعدد المراحل، استنادًا إلى تقسيمات الطبقة لـ 56 حالة/ضوابط وأقنعة تقسيم النوى لـ 24 حالة/ضوابط. ثم تم اختبار النموذج على تقسيم الطبقة لـ 12 حالة/ضوابط وتقسيم النوى لـ 6 حالات/ضوابط. يأخذ HoVerNet + بلاطات عند تكبير (0.50 mpp)، وينتج خرائط تقسيم/تصنيف النوى، وتقسيمات دلالية للطبقات الظهارية. لاحظ أن حجم البلاطة الصغيرة هو 256 (عند ) ضروري لتقسيم النواة بدقة. شمل التدريب مرحلتين، حيث تم تدريب فروع فك التشفير لمدة 20 دورة في المرحلة الأولى، وتم تدريب جميع الفروع لمدة 30 دورة في المرحلة الثانية. تم استخدام حجم دفعة قدره 8 و 4 على كل وحدة معالجة رسومات عبر هذه المراحل، على التوالي. تم استخدام مُحسِّن آدم مع معدل تعلم بدأ بالتناقص من إلىبعد 10 عصور في كل مرحلة. تم تطبيق تحسينات البيانات مثل الانعكاس، والدوران، والتمويه، وتغيير الألوان أثناء التدريب. كما اختبرنا تأثير تحسين البقع باستخدام TIAToolbox.تنفيذ طريقة ماكينكوالذي ثبت أنه يواجه بشكل فعال التحولات في النطاق الناتجة عن الماسحات لجعل نموذجنا أكثر قابلية للتعميمللحصول على معلومات مفصلة حول تدريب النموذج، يرجى الرجوع إلى المواد التكميلية (الصفحات 3-4). بعد تدريب النموذج، استخدمنا HoVer-Net+ للاستدلال على جميع الشرائح من كل من المجموعات الداخلية والخارجية.
تنبؤ تحويل مستوى الشريحة
بعد التقسيم، تم تقسيم كل صورة شاملة إلى قطع أصغربلاط (تكبير، 0.50 مpp)تداخل. استخدمنا هذا الحجم من البلاط لضمان احتواء كل بلاطة على معلومات كافية لمهمة التنبؤ، بما يتماشى مع الدراسات السابقة.. ثم قمنا بإنشاء ميزات على مستوى البلاط لاستخدامها في نموذج ضعيف الإشراف لتوقع التحول. لكل بلاط، قمنا بحساب 104 ميزات شكلية و64 ميزة مكانية. الميزات الشكلية تم الحصول على الميزات من 13 ميزة شكلية لكل نواة في بلاطة (اللامركزية، المساحة المحدبة، مساحة المحيط، الامتداد، المحيط، الصلابة، الاتجاه، نصف القطر، المحور الرئيسي/الثانوي، القطر المكافئ، مساحة صندوق الإحاطة/نسبة العرض إلى الارتفاع) مع أربع إحصائيات على مستوى البلاطة (المتوسط، الحد الأدنى، الحد الأقصى، الانحراف المعياري) لكل نوع نووي (ظهاري وغيره). أدى ذلك إلى 104 ميزات شكلية لكل بلاطة. قمنا بحساب عدد الأنواع النووية المختلفة ضمن نصف قطر صغير من حالة نووية، مما أسفر عن أربعة عدادات لكل بلاطة (عدد الأنوية الظهارية حول نواة أخرى، عدد الأنوية الظهارية حول الأنوية الظهارية، عدد الأنوية الأخرى حول الأنوية الظهارية، وأخيرًا عدد الأنوية الأخرى حول الأنوية الأخرى) على أربعة أنصاف أقطار متغيرة (100، 200، 300 و400 بكسل). أخيرًا، أخذنا إحصائيات ملخصة على مستوى البلاطة (المتوسط، الحد الأدنى، الحد الأقصى، الانحراف المعياري) عبر هذه 16 ميزة، مما أسفر عن 64 ميزة مكانية لكل بلاطة. اخترنا استخدام هذه الميزات الشكلية/المكانية الـ 168 تفضيلًا على الميزات “العميقة” الناتجة عن الشبكات العصبية التلافيفية، كما هو الحال في مهام التنبؤ التقليدية.لتقديم الشفافية والقدرة على التفسير لمدخلات النموذج.
للتنبؤ على مستوى الشريحة، تم تدريب شبكة متعددة الطبقات (MLP) باستخدام طريقة السحب والتصنيف التكرارية (IDaRS) التي قدمها بلال وآخرون.استغلال ميزات مستوى البلاط لدينا. يُشار إلى ناتج نموذج الشبكة العصبية متعددة الطبقات (MLP) باسم OMTscore. تتكون بنية MLP من ثلاث طبقات تحتوي على 168 عقدة في طبقة الإدخال، و64 عقدة في الطبقة المخفية، و2 عقدة في طبقة الإخراج. استخدمنا دالة تفعيل ReLU المتسربة وdropout (0.2) بعد الطبقة المخفية. تم تدريب نماذج MLP باستخدام دالة خسارة الانتروبيا المتقاطعة المتماثلة ومُحسِّن آدم. تم اختيار هذه الدالة لأنها أظهرت سابقًا أنها تساعد في التغلب على الأخطاء المرتبطة بالملصقات الضعيفة.تم إجراء أخذ عينات IDaRS بقيم المعلمات لـلأفضل التصحيحات التنبؤية و رقع عشوائية، باستخدام حجم دفعة قدره 256. خضعت النماذج للتدريب لمدة 100 دورة وتم تقييمها من خلال التحقق المتقاطع بخمسة أضعاف (مكرر 3 مرات، مع بذور عشوائية) للتحقق الداخلي. لتوليد توقعات على مستوى الشريحة، قمنا بحساب متوسط الاحتمالية لكل بلاطة في الشريحة للتنبؤ بالتحول. أظهرت هذه الطريقة أداءً مثاليًا خلال التحقق المتقاطع الداخلي. تم تحديد عتبة بناءً على التحقق المتقاطع الداخلي وتطبيقها على التحقق الخارجي. شمل التحقق الخارجي دمج مجموعة شيفيلد بالكامل كفريق اكتشاف لتدريب النموذج، مع إجراء التحقق على مجموعة برمنغهام-بلفاست المدمجة (مكرر 3 مرات، مع بذور عشوائية). من المهم ملاحظة أن استخدام طريقة أخذ العينات IDaRS يضمن توقعات قوية. من خلال الاستفادة من كل من البلاطات العشوائية والمعلوماتية (من التكرار السابق)، يتم تدريب النموذج لتحقيق التمييز بين البلاطات المختلفة، حتى في وجود بيانات غير متوازنة. تهدف هذه المنهجية إلى منع توقعات مستوى الشريحة من أن تتأثر بأعداد صغيرة من البلاطات الإيجابية.
لتحديد فائدة نتيجة OMT المتوقعة لدينا، قمنا بمقارنة قدرتها التنبؤية مع كل من أنظمة التصنيف المعتمدة من قبل الأطباء الشرعيين ومنظمة الصحة العالمية وأنظمة التصنيف الثنائي. بينما نلاحظ أن هذه الأنظمة لا تهدف إلى التنبؤ مباشرةً بالحالات التي ستتحول إلى خبيثة؛ فإننا نرى أن هدف أنظمة التصنيف هو تقديم توقعات للمريض وتصنيفهم، من أجل إبلاغ قرارات العلاج. هذا هو في النهاية ما نسعى لتحقيقه مع نتيجة OMT، مما يجعل المقارنة عادلة.
تحليلات البقاء
تم إجراء تحليلات البقاء لتقييم الأهمية التنبؤية لدرجة OMT، والدرجات المعينة يدويًا من منظمة الصحة العالمية/الدرجات الثنائية، في التنبؤ بالبقاء بدون تحول. أشارت درجة OMT إلى ما إذا كان الخوارزمية قد توقعت تحول الحالة (عالية المخاطر) أم لا (منخفضة المخاطر). تم إنشاء منحنيات كابلان-ماير باستخدام حزمة lifelines في بايثون، وتم استخدام اختبارات لوغرانك لتحديد الأهمية الإحصائية لتصنيف الدرجات (لـ OMT، ومنظمة الصحة العالمية، والدرجات الثنائية). بالإضافة إلى ذلك، تم استخدام نموذج كوكس النسبي للمخاطر المتعددة المتغيرات، الذي يتضمن الجنس، والعمر، وموقع الآفة، والدرجة الثنائية، ودرجة منظمة الصحة العالمية، للتنبؤ بالبقاء بدون تحول. كان الغرض من هذا التحليل هو التحقق من الأهمية التنبؤية لدرجة OMT المتوقعة بالنسبة لمتغيرات سريرية أخرى. تم إجراء هذا التحليل على كل من المجموعات الداخلية والخارجية. تم قيد التحولات عند ثماني سنوات عبر هذه التحليلات لضمان التناسق بين المجموعات الداخلية والخارجية.
تحليلات الميزات
قمنا بإجراء عدة تحليلات لاحقة بناءً على كل من مجموعات التحقق الداخلية والخارجية لدينا لإضافة مستوى من القابلية للتفسير لتنبؤات نموذجنا. أولاً، ركزنا على ميزات عدد النوى ضمن أفضل خمس بقع متوقعة من الشرائح الإيجابية المتوقعة بشكل صحيح (الإيجابيات الحقيقية) وقارناها بأفضل خمس بقع متوقعة من الشرائح السلبية المتوقعة بشكل صحيح (السلبيات الحقيقية) ضمن مجموعات الاختبار. تم إجراء اختبارات t ذات الذيلين مع تصحيح المقارنات المتعددة (معدل الاكتشاف الخاطئ، FDR) لتحديد الأهمية الإحصائية لأي اختلافات ملحوظة. أجرينا ثلاث تحليلات مقارنة لتكوين الخلايا في أفضل البقع المتوقعة: (1) النوى داخل البقعة بالكامل (أخرى، قاعدية، ظهارية، كيراتينية)، (2) النوى داخل الظهارة (أخرى، قاعدية، ظهارية، كيراتينية)، و(3) النوى داخل النسيج الضام المحيط بالبقعة (مثل، نوى “أخرى” المحيطة بالظهارة). بالإضافة إلى ذلك، قمنا بتحليل نسب أنواع الأنسجة (المورفولوجيا) داخل هذه البقع المتوقعة. لاحظ أنه نظرًا لأن تجارب متعددة تم إجراؤها، تحتوي هذه التحليلات على إيجابيات حقيقية وسلبيات حقيقية من الحالات المتوقعة بشكل صحيح من جميع التجارب. مكنت هذه التجارب من تحديد أي ارتباطات بين أنواع/مساحات النوى والنتيجة المتوقعة.
ثانيًا، قمنا بالتحقيق في أي من 168 ميزة شكلية/مكانية تم استخدامها لتدريب نموذج الشبكة العصبية متعددة الطبقات (MLP) كانت الأكثر أهمية في إجراء التنبؤ النهائي. حققنا ذلك من خلال تدريب مصنف الغابة العشوائية باستخدام أفضل خمس بقع تم التنبؤ بها بشكل صحيح لكل حالة تم التنبؤ بها بشكل صحيح بواسطة نموذج MLP الخاص بنا، مستفيدين من 168 ميزة نووية. بعد ذلك، قمنا بترتيب أهمية الميزات، التي تم قياسها من خلال الانخفاض المتوسط في الشوائب (MDI)، وحددنا أفضل عشر ميزات. لتحديد دلالتها الإحصائية، أجرينا اختبارات t ذات طرفين مع تصحيح معدل الاكتشاف الخاطئ (FDR).
ثالثًا، استكشفنا أيضًا مخططات التأثير الجزئي لنموذج MLP الخاص بنا عند اختباره على كل من الحالات الداخلية والخارجية. قمنا بتعديل قيمة كل من الميزات المدخلة الـ 168 بشكل منهجي، واحدة تلو الأخرى، من الحد الأدنى إلى الحد الأقصى في 100 زيادة، ورسمنا ذلك مقابل ناتج احتمال التنبؤ للنموذج عبر جميع الحالات. توفر هذه التحليلات رؤى حول أهمية كل ميزة فردية في التنبؤ بالتحول.
مقاييس التقييم
قمنا بتقييم تقسيم الطبقات باستخدام درجة F1 المجمعة على جميع قطع الصور. بالنسبة لتقسيم النوى، قمنا بتقييم الجودة البانورامية (PQ)، وجودة الكشف (DQ، أو درجة F1)، وجودة التقسيم (SQ). بالإضافة إلى ذلك، نبلغ عن درجة Dice التي تقارن النوى المقسمة بالخلفية، ومؤشر Jaccard المجمّع (AJI). كما نحسب القيم المتوسطة على جميع الصور لـ: درجة F1 للكشف (جميع أنواع النووية) ودرجة F1 للتصنيف ( ) لكل نوع نواة (على سبيل المثال لأنوية الظهارة القاعدية،لأنوية الظهارة، وللنوى الأخرى). يمكن العثور على أوصاف مفصلة لهذه المقاييس في جراهام وآخرون.عند تقييم أداء النموذج في توقع التحول، قمنا بحساب متوسط درجة F1 و AUROC عبر جميع الشرائح. درجة F1 هي المتوسط التوافقي للاسترجاع (الحساسية) والدقة، وبالتالي توفر توازنًا بين الإيجابيات الكاذبة والسلبيات الكاذبة. بالإضافة إلى ذلك، نقوم أيضًا بتضمين استرجاع النموذج (الحساسية) ومعدل السقوط (معدل الإيجابيات الكاذبة).
ملخص التقرير
معلومات إضافية حول تصميم البحث متاحة في ملخص تقارير أبحاث Nature المرتبط بهذه المقالة.
توفر البيانات
جميع البيانات المستمدة من هذه الدراسة مدرجة في المخطوطة. لا يمكننا مشاركة صور الشرائح الكاملة والبيانات السريرية، بسبب القيود المفروضة في طلبات الأخلاقيات.
توفر الشيفرة
لقد جعلنا كود استنتاج النموذج متاحًا للجمهور على الإنترنت، جنبًا إلى جنب مع أوزان النموذج (adamshephard/OMTscoring_inference(غيت هاب)). تم كتابة كل الكود باستخدام بايثون 3.10 و PyTorch 2.0، بالإضافة إلى TIAToolbox 1.4.0.
تاريخ الاستلام: 27 سبتمبر 2023؛ تاريخ القبول: 29 مايو 2024؛ نُشر على الإنترنت: 28 يونيو 2024
References
Johnson, D. E. et al. Head and neck squamous cell carcinoma. Nat. Rev. Dis. Prim. 6, 92 (2020).
European Cancer Patient Coalition. European Cancer Patient Coalition: Head & Neck Cancers. https://ecpc.org/news-events/ head-neck-cancer-make-sense-campaign/.
Speight, P. M., Khurram, S. A. & Kujan, O. Oral potentially malignant disorders: risk of progression to malignancy. Oral. Surg. Oral. Med. Oral. Pathol. Oral. Radiol. 125, 612-627 (2018).
Ranganathan, K. & Kavitha, L. Oral epithelial dysplasia: Classifications and clinical relevance in risk assessment of oral potentially malignant disorders. J. Oral. Maxillofac. Pathol. 23, 19-27 (2019).
Nankivell, P. & Mehanna, H. Oral dysplasia: Biomarkers, treatment, and follow-up. Curr. Oncol. Rep. 13, 145-152 (2011).
Rock, L. D. et al. Characterization of epithelial oral dysplasia in nonsmokers: First steps towards precision medicine. Oral. Oncol. 78, 119-125 (2018).
Mehanna, H. M., Rattay, T., Smith, J. & McConkey, C. C. Treatment and follow-up of oral dysplasia – A systematic review and metaanalysis. Head. Neck 31, 1600-1609 (2009).
Takata, T. & Slootweg, P. Tumours of the oral cavity and mobile tongue: epithelial precursor lesions. In WHO Classification of Head and Neck Tumours (eds. El-Naggar, A., Chan, J., Grandis, J., Takata, T. & Slootweg, P.) (2017).
locca, O. et al. Potentially malignant disorders of the oral cavity and oral dysplasia: A systematic review and meta-analysis of malignant transformation rate by subtype. Head. Neck 42, 539-555 (2020).
Nankivell, P. et al. The binary oral dysplasia grading system: validity testing and suggested improvement. Oral. Surg. Oral. Med. Oral. Pathol. Oral. Radiol. 115, 87-94 (2013).
Lecun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436-444 (2015).
Litjens, G. et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis. Sci. Rep. 6, 1-11 (2016).
Madabhushi, A. & Lee, G. Image analysis and machine learning in digital pathology: Challenges and opportunities. Med. Image Anal. 33, 170-175 (2016).
Litjens, G. et al. A survey on deep learning in medical image analysis. Med. Image Anal. 42, 60-88 (2017).
Liu, J. et al. Applications of deep learning to MRI images: A survey. Big Data Min. Anal. 1, 1-18 (2018).
Shen, D., Wu, G. & Suk, H.-I. Deep learning in medical image analysis. Annu. Rev. Biomed. Eng. 19, 221-248 (2017).
Carass, A. et al. Longitudinal multiple sclerosis lesion segmentation: Resource and challenge. Neuroimage 148, 77-102 (2017).
Ghafoorian, M. et al. Location sensitive deep convolutional neural networks for segmentation of white matter hyperintensities. Sci. Rep. 7, 5110 (2017).
Graham, S. et al. Hover-Net: Simultaneous segmentation and classification of nuclei in multi-tissue histology images. Med. Image Anal. 58, 101563 (2019).
Shephard, A. J. et al. Simultaneous Nuclear Instance and Layer Segmentation in Oral Epithelial Dysplasia. Proc. IEEE/CVF Int. Conf. Comput. Vis. Work. October, 552-561 (2021).
Alemi Koohbanani, N., Jahanifar, M., Zamani Tajadin, N. & Rajpoot, N. NuClick: A deep learning framework for interactive segmentation of microscopic images. Med. Image Anal. 65, 101771 (2020).
Azarmehr, N., Shephard, A., Mahmood, H., Rajpoot, N. & Khurram, S. A. A Neural Architecture Search Based Framework for Segmentation of Epithelium, Nuclei and Oral Epithelial Dysplasia Grading. In Annual Conference on Medical Image Understanding and Analysis MIUA 2022 vol. 13413 357-370 (Springer International Publishing, 2022).
Bashir, R. M. S. et al. Automated grade classification of oral epithelial dysplasia using morphometric analysis of histology images. In Medical Imaging 2020: Digital Pathology vol. 11320 (International Society for Optics and Photonics, 2020).
Raza, S. E. A. et al. Micro-Net: A unified model for segmentation of various objects in microscopy images. Med. Image Anal. 52, 160-173 (2019).
Lu, M. Y. et al. Data-efficient and weakly supervised computational pathology on whole-slide images. Nat. Biomed. Eng. 5, 555-570 (2021).
Shephard, A. et al. A Fully Automated Multi-Scale Pipeline for Oral Epithelial Dysplasia Grading and Outcome Prediction. Med. Imaging with Deep Learn. 1-3 (2022).
Zhou, Y. et al. CGC-Net: Cell graph convolutional network for grading of colorectal cancer histology images. arXiv (2019).
Kather, J. N. et al. Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer. Nat. Med. 25, 1054-1056 (2019).
Bilal, M. et al. Development and validation of a weakly supervised deep learning framework to predict the status of molecular pathways and key mutations in colorectal cancer from routine histology images: a retrospective study. Lancet Digit. Heal. 3, e763-e772 (2021).
Bilal, M. et al. An aggregation of aggregation methods in computational pathology. Med. Image Anal. 88, 102885 (2023).
Ilse, M., Tomczak, J. M. & Welling, M. Attention-based deep multiple instance learning. 35th Int. Conf. Mach. Learn. ICML 2018 5, 3376-3391 (2018).
Lu, W. et al. SlideGraph+: Whole slide image level graphs to predict HER2 status in breast cancer. Med. Image Anal. 80, 102486 (2022).
Campanella, G. et al. Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nat. Med. 25, 1301-1309 (2019).
Pocock, J. et al. TIAToolbox as an end-to-end library for advanced tissue image analytics. Commun. Med. 2, 120 (2022).
Mahmood, H. et al. Prediction of malignant transformation and recurrence of oral epithelial dysplasia using architectural and cytological feature specific prognostic models. Mod. Pathol. 35, 1151-1159 (2022).
Bashir, R. M. S. et al. A digital score of peri-epithelial lymphocytic activity predicts malignant transformation in oral epithelial dysplasia. J. Pathol. https://doi.org/10.1002/path. 6094 (2023).
Jahanifar, M. et al. Domain Generalization in Computational Pathology: Survey and Guidelines. arXiv (2023).
Gannot, G., Gannot, I., Vered, H., Buchner, A. & Keisari, Y. Increase in immune cell infiltration with progression of oral epithelium from hyperkeratosis to dysplasia and carcinoma. Br. J. Cancer 86, 1444-1448 (2002).
Gan, C. P. et al. Transcriptional analysis highlights three distinct immune profiles of high-risk oral epithelial dysplasia. Front. Immunol. 13, 1-16 (2022).
Jahanifar, M. et al. Stain-Robust Mitotic Figure Detection for the Mitosis Domain Generalization Challenge. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) vol. 13166 LNCS (Springer International Publishing, 2022).
Jahanifar, M., Shephard, A., Zamanitajeddin, N., Raza, S. E. A. & Rajpoot, N. Stain-Robust Mitotic Figure Detection for MIDOG 2022 Challenge. In: Biomedical Image Registration, Domain Generalization and Out-of-Distribution Analysis, MICCAI 2021 Challenges L2R, MIDOG and MOOD. 48-52 (2022).
Gutman, D. A. et al. The digital slide archive: A software platform for management, integration, and analysis of histology for cancer research. Cancer Res. 77, e75-e78 (2017).
Macenko, M. et al. A method for normalizing histology slides for quantitative analysis. Proc. – 2009 IEEE Int. Symp. Biomed. Imaging
From Nano to Macro, ISBI 2009 1107-1110 https://doi.org/10.1109/ ISBI.2009.5193250. (2009)
44. Aubreville, M. et al. Mitosis domain generalization in histopathology images – The MIDOG challenge. Med. Image Anal. 84, 102699 (2023).
45. Wang, Y. et al. Symmetric cross entropy for robust learning with noisy labels. In Proceedings of the IEEE/CVF international conference on computer vision October, 322-330 (2019).
شكر وتقدير
تم دعم هذا العمل من قبل منحة مشروع الكشف المبكر من أبحاث السرطان في المملكة المتحدة، كجزء من دراسة ANTICIPATE (رقم المنحة C63489/A29674). يتم تمويل SAK و NMR جزئيًا من قبل منحة CRUK. يتم تمويل HM من قبل المعهد الوطني للبحوث الصحية (رقم الجائزة NIHR300904). يتم تمويل RMSB من منحة المستشار من جامعة ووريك. يعبر المؤلفون عن امتنانهم العميق للبروفيسور بول سبايت (PMS)، والبروفيسور بولا فارثينغ (PMF)، والدكتور دانيال برييرلي (DJB)، والبروفيسور كيث هانتر (KDH) لمساهمتهم القيمة في تقديم التشخيص النسيجي الأولي.
مساهمات المؤلفين
صمم AS وSEAR وSAK وNMR الدراسة بمساعدة جميع المؤلفين المشاركين. طور AS وNMR الأساليب الحاسوبية. كتب AS الشيفرة وأجرى جميع التجارب. قدم HaM وAS وSAK تعليقات WSI. حصل SAK وHaM على الموافقة الأخلاقية واسترجعوا البيانات النسيجية والسريرية من شيفيلد. ساهم KM وSC وJJ في جمع البيانات النسيجية والسريرية من بلفاست. ساهم JB وPN وHiM في جمع البيانات النسيجية والسريرية من برمنغهام. ساعد FM في إنشاء خط أنابيب تحليل البقاء القوي. ساعد MJ في تنفيذ تقنيات التعميم في المجال. ساهم جميع المؤلفين في كتابة المخطوطة.
المصالح المتنافسة
يعلن المؤلفون عن المصالح المتنافسة التالية: NMR هو المؤسس المشارك ومدير ومساهم في شركة Histofy Ltd. SAK هو مساهم في شركة Histofy Ltd. جميع المؤلفين الآخرين ليس لديهم مصالح متنافسة للإعلان عنها.
الأخلاق
تم الحصول على الموافقة الأخلاقية للدراسة من هيئة أبحاث الصحة في NHS في ويست ميدلاندز (18/WM/0335)، وتم إجراء التجارب وفقًا لإعلان هلسنكي. لم يكن مطلوبًا الحصول على موافقة خطية حيث تم جمع البيانات من أنسجة مؤرشفة زائدة. كانت البيانات المجمعة مجهولة الهوية بالكامل.
مركز تحليل صور الأنسجة، قسم علوم الحاسوب، جامعة ووريك، كوفنتري، المملكة المتحدة.كلية طب الأسنان السريري، جامعة شيفيلد، شيفيلد، المملكة المتحدة.مركز الطب الدقيق، مركز باتريك جي. جونستون لأبحاث السرطان، جامعة كوينز بلفاست، بلفاست، المملكة المتحدة.معهد دراسات وتعليم الرأس والعنق، معهد السرطان وعلوم الجينوم، جامعة برمنغهام، برمنغهام، المملكة المتحدة.هذان المؤلفان أشرفا معًا على هذا العمل: سيد علي خورام، ناصر م. راجبوت.البريد الإلكتروني: n.m.rajpoot@warwick.ac.uk
معهد هورميل جامعة مينيسوتا
الدرجة G1 حسب منظمة الصحة العالمية هي خفيفة مقابل الحالات المتوسطة/الشديدة، بينما الدرجة G2 هي خفيفة/متوسطة مقابل الحالات الشديدة. أفضل النماذج/الدرجات موضحة بالخط العريض.
Oral epithelial dysplasia(OED) is a premalignant histopathological diagnosis given to lesions of the oral cavity. Its grading suffers from significant inter-/intra-observer variability, and does not reliably predict malignancy progression, potentially leading to suboptimal treatment decisions. To address this, we developed an artificial intelligence (AI) algorithm, that assigns an Oral Malignant Transformation (OMT) risk score based on the Haematoxylin and Eosin (H&E) stained whole slide images (WSIs). Our AI pipeline leverages an in-house segmentation model to detect and segment both nuclei and epithelium. Subsequently, a shallow neural network utilises interpretable morphological and spatial features, emulating histological markers, to predict progression. We conducted internal cross-validation on our development cohort (Sheffield; cases) and independent validation on two external cohorts (Birmingham and Belfast; cases). On external validation, the proposed OMTscore achieved an AUROC = 0.75 (Recall = 0.92) in predicting OED progression, outperforming other grading systems (Binary: AUROC , Recall ). Survival analyses showed the prognostic value of our OMTscore ( C -index ), compared to WHO ( C -index ) and binary grades ( C -index ). Nuclear analyses elucidated the presence of peri-epithelial and intraepithelial lymphocytes in highly predictive patches of transforming cases ( ). This is the first study to propose a completely automated, explainable, and externally validated algorithm for predicting OED transformation. Our algorithm shows comparable-to-human-level performance, offering a promising solution to the challenges of grading OED in routine clinical practice.
Head and neck cancer is among the top ten most prevalent cancers globally , constituting a significant public health challenge. In Europe alone, approximately 150,000 new cases are reported annually . These cancers are often detected at an advanced stage (approximately ), resulting in poor prognosis and a five-year survival rate of only . With early diagnosis followed by timely treatment, survival increases to . Therefore, early detection plays a crucial role in improving patient outcomes.
Oral squamous cell carcinoma (OSCC) is the most common type of head and neck cancer , that may arise from an oral potentially malignant
disorder (OPMD) such as leukoplakia or erythroplakia . These disorders are often associated with lifestyle habits such as tobacco smoking, betel quid chewing, and excessive alcohol consumption, although genetic factors may also play a role . Following a biopsy and microscopic examination, these lesions may be given a histopathological diagnosis of oral epithelial dysplasia (OED), which carries a higher risk of progressing to OSCC . Histological atypia in OED typically manifests in the basal layer and progresses upwards through the epithelial layers. Cytological changes often include changes to the shape, size, and colour of nuclei/cells, the presence of atypical mitotic
figures, and increased cellularity . Architectural changes typically include irregular epithelial stratification, loss of basal cell polarity, drop-shaped rete pegs, and loss of epithelial cohesion .
There are different grading systems to classify OED and inform treatment decisions. The 2017 World Health Organisation (WHO) grading is a three-tier system for grading cases as mild, moderate, and severe, taking into account over 15 different features. This system splits the epithelium into thirds, suggesting that architectural/cytological changes confined to the lower third may be classed as mild, in the middle moderate, and those progressing towards the upper third as severe . However, this system oversimplifies a complex disease process, lacks standardisation, and introduces ambiguity and subjectivity, which could result in an inaccurate diagnosis with potentially detrimental implications for outcomes. A metaanalysis conducted by Iocca et al. , confirmed the greater risk of malignant transformation in moderate/severe dysplasia cases when compared to mild cases. An alternate binary grading system, categorising lesions as low- or high-risk, based on the number of cytological and architectural features, aimed to improve grade reproducibility . However, studies have shown significant variability in grading using both systems , highlighting the need for a more objective and reproducible method that can better predict malignant transformation in OED.
The availability of graphical processing units (GPU) and the rise of convolutional neural networks (CNNs) and deep learning have revolutionised computer vision, including medical imaging . Computational pathology is an active area of research that leverages machine learning and deep learning algorithms for the analysis of histological patterns in multigigapixel whole-slide images (WSIs) to tackle pathology-related tasks . Deep learning models have become commonplace in laboratories worldwide, being used for tasks such as segmentation, detection, and classification . Numerous deep learning algorithms have been applied to tasks such as tissue and nuclei segmentation in WSIs , as well as making slide-level predictions for histopathological diagnoses . Multiple studies have proposed generating slide-level predictions by aggregating patch-level predictions or features using pooling or attention-based mechanisms . Efforts are underway to consolidate the diverse deep learning methods employed in computational pathology, exemplified by initiatives like the TIAToolbox .
Several studies have explored the use of artificial intelligence (AI) in grading and prognostication of OED lesions. Bashir et al. used the mean widths of epithelial layers as a proxy for epithelial stratification, within Random Forests to predict OED grade. Shephard et al. achieved varying success in predicting OED recurrence/transformation using nuclear shape/size features in H&E images. Mahmood et al. employed pathologist-derived features in Cox proportional hazards regression models to predict recurrence and transformation, identifying prognostic features such as bulbous rete pegs, hyperchromatism, and nuclear pleomorphism. Although manual feature extraction was required, the study demonstrated the link between OED features and clinical outcome. In contrast, Bashir et al. used weakly supervised multiple instance learning and identified peri-epithelial lymphocytes (PELs) as a prognostic feature for transformation at the WSI-level. However, this method required manually refined epithelial masks, and its success was not validated on external datasets. These studies demonstrate the potential of AI in improving OED diagnosis and prognosis but also emphasise the need for further development and validation of fully automated methods.
In this study, we present an end-to-end, fully automated and explainable pipeline for predicting OED transformation. We utilise an inhouse multi-task model to generate nuclear and intra-epithelial layer segmentations and extract morphological/spatial features. These features are then fed into a multi-layer perceptron (MLP) to predict slide-level malignant transformation of OED. Our contributions to the scientific community include:
Introduction of our pipeline’s automatically generated OMTscore, to improve diagnostic OED grading. External validation of the OMTscore was conducted on independent cohorts from Birmingham and Belfast, UK.
Presentation of a newly trained HoVer-Net+, a state-of-the-art model capable of simultaneous segmentation and classification of nuclear instances and intra-epithelial layers. We have released the model code and weights as part of the TIAToolbox , along with an example notebook (https://github.com/TissueImageAnalytics/tiatoolbox/blob/ develop/examples/09-multi-task-segmentation.ipynb).
Demonstrated the capability of our OMTscore when compared to conventional histological grading in predicting malignancy transformation. Our code for model inference is publicly accessible at: https:// github.com/adamshephard/OMTscoring_inference.
Results
To predict the OED risk score (OMTscore), we implemented a multi-step pipeline (see Fig. 1). First, we trained an in-house deep learning model for the segmentation of both intra-epithelial layers and nuclei. We then used the trained model to produce segmentations for all slides in our cohorts. Following this, we tessellated each slide into tiles and generated tile-level morphological features (based on these nuclear segmentations) for tiles within the epithelium. Finally, these tile-level features were used within an MLP to predict whether the case transformed to malignancy (our OMTscore).
Layer and nuclei segmentation
The first stage of our model pipeline involved generating both nuclear and epithelium segmentation masks for all WSIs in our internal and external cohorts. We perform this task simultaneously with HoVer-Net , a multitask model that takes input H&E-stained images and produces nuclear instance segmentations (and classifications) and intra-epithelial layer segmentation maps. We trained and evaluated our model’s segmentation performance based on the internal Sheffield dataset alone. For an overview of the model performance for semantic segmentation and nuclear segmentation/classification, see Table 1. For a visual comparison between HoVer-Net + results and ground-truth annotations, refer to Supplementary Fig. 2. Overall, we deemed these results satisfactory and thus used the trained HoVer-Net + model for inference on cases from both internal and external cohorts.
Slide-level transformation prediction
After segmentation, each WSI was tessellated into smaller tiles ( magnification, 0.50 microns per pixel, mpp), and tile-level features were generated, based on the HoVer-Net+ nuclear segmentations. For slide-level prediction, an MLP was trained using the iterative draw-and-rank method introduced by Bilal et al. with our tile-level features. We call the output of our MLP model, the OMTscore.
In this section, we show the performance of our model, trained with patch-level morphological/spatial features, both quantitively, when compared to the pathologist grades (see Table 2) and qualitatively (see Fig. 3 for heatmaps, and Fig. 4 for Venn diagrams). On internal validation, our model attained competitive results with an AUROC of 0.77, outperforming both the WHO grade (AUROC = 0.68) and the binary grade (AUROC = 0.71). In total, our OMTscore had 48 true positives (TPs), 148 true negatives (TNs), 65 false positives (FPs), and 9 false negatives (FNs). In contrast, the binary grading system resulted in , and 17 FNs . For external validation on the Birmingham-Belfast cohort (see Table 3), our model achieved superior results in terms of AUROC and recall (AUROC , Recall ) compared to both the WHO and binary grades. Our OMTscore had a total of 37 TPs, 20 TNs, 29 FPs, and 3 FNs, whilst the binary grading system had 34 TPs, 29 TNs, 20 FPs, and 6 FNs. The ROC curves for our proposed model are shown in Fig. 2a.
The heatmaps produced by our model were inspected by a pathologist (SAK). They revealed prognostic areas with obvious or high grades of dysplasia, and a significant presence of immune cells within and around the epithelium. An example heatmap of a mild OED case is shown in Fig. 3 (top left), which was correctly predicted by our model to transform. Further examination of the hotspots indicated a focus on dysplastic areas with a
Fig. 1 | Proposed pipeline for generating the OMTscore for predicting malignant transformation. a Overview of the data used in our experiments from three different centres. This includes Sheffield data for internal training/validation, and Birmingham and Belfast data for external validation. b Summary of the model pipeline for
generating an OMTscore. The model first uses a newly trained HoVer-Net + to generate nuclear and layer segmentations. Next, patch-level morphological/spatial features are generated, and used within a trained MLP for predicting malignant transformation (i.e. the OMTscore).
prominent lymphocytic infiltrate within the epithelium and peri-epithelial lymphocytes. We also provide Venn diagrams showing the overlap of binary grade and OMTscore patient stratifications on internal and external validation in Fig. 4. It is clear that both our pipeline and binary grades are frequently predicting the same slides as high-risk, having a high overlap, but with the OMTscore being more sensitive than the binary grade.
Survival analyses
We further conducted survival analyses to determine the prognostic utility of our OMTscore when compared to the pathologist-assigned grading systems. See Fig. 2b for the Kaplan-Meier (KM) curves for the OMTscore and binary/WHO grades on the internal cohort. The OMTscore demonstrated a clear separation between the low- and high-risk cases, with strong concordance, ( C -index ) outperforming the binary grade ( C index ) and WHO grade ( C -index ). Results from the Cox proportional hazard model (see Table 4) showed that both the OMTscore ( [3.06, 21.30]) and binary grade ( , [1.45,11.10]) were statistically significant. The WHO grade ( ) was not significant. The OMTscore exhibited the highest hazard ratio (HR), indicating better prognostic utility. No other clinical variables were found to be significant.
For external validation, KM survival curves were presented for the Birmingham-Belfast cohort (Fig. 2b). The OMTscore exhibited statistically significant differences in KM curves ( ) according to a log-rank test. The OMTscore also achieved a comparable C-index of 0.60 compared to the WHO grade’s C-index of 0.64 ( ) and the binary grade of 0.65 ( ). Results from the multivariate Cox PH models (see Table 4) showed no variables to be statistically significant. However, both the binary grade ( ), and OMTscore ( [0.71, 20.62]), had high hazard ratios, highlighting their prognostic utility over the other clinical variables.
Feature analyses
In order to determine the most important features used by the model for predicting malignant transformation, we performed several analyses. First, we compare the cellular composition and morphology of the most predictive patches in correctly predicted cases. Second, we looked at the feature importance for the 168 morphological/spatial features, based on a Random Forest classifier (see Supplementary Material pp 5). Third, we study partial dependency probability plots (PDPs), to determine the effect each feature has on the predicted outcome in isolation. Together, these analyses give more explainability to the models predictions.
We analysed the most important features used by our model, in terms of cellular composition and morphology, by comparing the top five predictive patches in true positive cases to the top predicted patches in true negative cases on both internal and external validation cases (see Supplementary Fig. 4 for a random selection of patches and Supplementary Material pp 5 for the internal validation results). On external validation, patch-level nuclear counts revealed higher cellularity in true positive (TP) patches compared to true negatives (TNs) (Cohen’s ; see Fig. 3, Cellular Composition: Entire Patch), primarily driven by “other” nuclei in TPs ( ). In contrast, there were more epithelial cells in TNs (labelled as “All Epith” in Fig. 3; ). When focussing on the nuclear counts within the epithelial region of the patch alone (Fig. 3, Cellular Composition: Epithelium), significant differences were found in the number of “other” nuclei within the epithelium ( , ). Additionally, there were more epithelial nuclei within the epithelial layer in TNs ( ), while slightly more (but not significantly) basal epithelial nuclei were observed in . A significant difference was also found in the number of keratin nuclei between classes ( ). Lastly, Fig. 3 (Cellular Composition:
Table 1 | Performance metrics for HoVer-Net+ on internal testing
Semantic Segmentation, F1
Nuclear Segmentation
Nuclear Classification, F1
Background
0.88
Dice
0.69
Other
0.72
Other Tissue
0.84
AJI
0.62
Basal Epithelium
0.61
Basal Epithelium
0.74
DQ
0.74
Epithelium
0.66
Epithelium
0.87
SQ
0.69
Mean
0.66
Keratin
0.81
PQ
0.51
Mean
0.83
0.82
The provided Dice score is for nuclei vs background. AJI Aggregated Jaccard Index, DQ Detection Quality, SQ Segmentation Quality, PQ Panoptic Quality, F1d F1-score for detection over all nuclear types, -score for classification.
Table 2 | Slide-level mean (standard deviation) results for transformation prediction on internal validation
Model
Sheffield ( )
F1-score
Recall
Fall-out
AUROC
OMTscore
0.57 (0.08)
0.84 (0.07)
0.30 (0.12)
0.77 (0.08)
Binary Grade
0.51 (0.08)
0.70 (0.09)
0.28 (0.07)
0.71 (0.06)
WHO Grade G1
0.46 (0.08)
0.94 (0.07)
0.59 (0.07)
0.68 (0.05)
WHO Grade G2
0.34 (0.16)
0.41 (0.19)
0.24 (0.08)
0.58 (0.11)
WHO Grade G1 is mild vs moderate/severe cases, whilst WHO Grade G2 is mild/moderate vs severe cases. Best model/scores are given in bold.
Connective Tissue) illustrates a larger number of “other” nuclei within the connective tissue of TPs compared to TNs ( ).
When analysing the distributions of tissue types (or morphology) within patches (Fig. 3, Morphology: Entire Patch), we found that TP patches had a higher ratio of connective tissue (presumed from “other” tissue) compared to TNs ( ). This is consistent with the prior nuclear analysis showing more “other” nuclei in TP patches. Additionally, TP patches often had more basal tissue ( ), but less epithelial tissue ( ), compared to TNs. Interestingly, TNs had significantly more surface keratin compared to TPs ( ). TN patches primarily contained the epithelium, whereas TP patches specifically were restricted to the basal layer and connective tissue.
We produced PDPs for all features based on the entire external test set for the MLP model producing the OMTscore. PDPs give an indication of the importance of each individual feature in predicting transformation, with positive gradients giving a positive association. We give nine of the features that appeared to have the largest gradients in Fig. 5. Within the top row, these plots show clear positive associations between larger maximum major axis lengths, convex and contour areas in “other” nuclei, and malignant transformation. We see in the middle row the positive relationship between the maximum area (bounding box and convex area) of epithelial nuclei and variance in major axis length in epithelial nuclei, and malignant transformation. Finally, in the bottom row, we see a positive correlation between higher amounts of “other” nuclei surrounding epithelial nuclei. Results for internal validation can be seen in the Supplementary Material (pp 6).
Discussion
We introduced the OMTscore, a risk score that incorporates interpretable morphological and spatial features for predicting OED transformation. Our approach involved first introducing a new model for simultaneous segmentation of intra-epithelial layers and nuclei in H&E WSIs. We then generated patch-level morphological/spatial features, resembling cytological features used by pathologists for OED grading (e.g. anisonucleosis, nuclear pleomorphism). These features were fed into a shallow neural network, yielding high predictive performance for OED transformation.
Overall, our OMTscore achieved comparable performance to pathologist-assigned grades on external validation. Notably, the OMTscore attained a higher AUROC and sensitivity than the binary grading system, although this came with a higher false alarm rate. In contrast, the WHO and binary grades gained slightly higher C-indexes. Despite this, our OMTscore still effectively distinguished between low- and high-risk cases. In relation to the multivariate Cox models, both the OMTscore and binary grade demonstrated prognostic significance on internal validation. However, external validation did not identify any statistically significant variables, likely influenced by the lower sample size. Nevertheless, both the binary grade and OMTscore had high hazard ratios, underlining their potential as strong prognostic indicators. These findings highlight the prognostic utility of our OMTscore, with its enhanced sensitivity aiding in the early detection of high-risk lesions. This has important implications for patient care, potentially enabling more timely interventions and reducing the risk of cancer development.
Table 3 | Slide-level mean (standard deviation) results for transformation prediction on external validation
Model
Birmingham ( )
Belfast ( )
Combined ( )
F1-score
Recall
Fallout
AUROC
F1score
Recall
Fallout
AUROC
F1-score
Recall
Fallout
AUROC
OMTscore
0.44 (0.01)
0.87 (0.06)
0.57 (0.07)
0.73 (0.01)
0.84 (0.02)
0.93 (0.03)
0.69 (0.05)
0.71 (0.03)
0.69 (0.01)
0.92 (0.04)
0.60 (0.06)
0.75 (0.01)
Binary Grade
0.55
0.80
0.30
0.75
0.80
0.87
0.75
0.56
0.72
0.85
0.41
0.72
WHO Grade G1
0.55
0.90
0.38
0.76
0.79
0.87
0.83
0.52
0.71
0.88
0.49
0.69
WHO Grade G2
0.40
0.30
0.05
0.63
0.39
0.27
0.25
0.51
0.39
0.28
0.10
0.69
Fig. 2 | ROC plots and Kaplan-Meier survival curves for the OMTscore and pathologist grades. a ROC plots for predicting malignant transformation with internal validation on Sheffield (left), and external validation on the BirminghamBelfast datasets by our algorithm (right). b Kaplan-Meier transformation-free survival curves based on the internal validation (left) and the external validation set
(right) for the predictions from the WHO 2017 grade (top), WHO grade G1 (mild vs. moderate/severe), the binary grade and the OMTscore (bottom). Confidence intervals supplied for the OMTscore output AUROC/Kaplan-Meier curves are generated by the standard deviation of the model output over repeated runs of the experiment.
Fig. 3 | Feature analysis pipeline and results. An example mild OED case with our algorithm prediction heatmap overlaid (left), where our algorithm correctly predicted the case to transform to malignancy. On the right is an example mild case that our algorithm correctly predicted would not transform. The diagram shows how the top predicted patches from true positive (TP) cases (left), and the top predicted patches from the true negative (TN) cases (right), are taken and morphology and cellular composition features are found (based on the HoVer-Net + segmentations). This was performed over the entire Sheffield cohort and t-tests (with FDR
correction) were used to determine any differences. The bottom of the image has boxplots showing the distribution of nuclear counts (cellular composition) within the entire patch, the epithelium alone, and the connective tissue alone, of the top five predicted patches from true positive (TP) cases, and the top five patches from true negatives (TNs). We additionally give boxplots showing the distribution of area ratios (morphology) within the top five predicted patches from TPs, and the top five patches from TNs.
Fig. 4 | Venn diagrams comparing model predictions to the Binary grading system. a The produced Venn diagrams show the overlap in predictions between the OMTscore and binary grading system on an internal and external validation.
Our model generalised well to new domains on external validation, but despite this, there was a drop in performance. We offer two explanations for this. First, the external dataset exhibited drastically lower survival rates (see Supplementary Fig. 10) compared to the Sheffield dataset, reflecting the clinical reality and underscoring the complexity of the problem. Second, we suggest that this drop may be partially attributed to HoVer-Net+’s limited generalisability to unseen domains. Visual inspection revealed unsatisfactory segmentations in a small subset of cases within the external cohort, which, when excluded, led to improved model performance in terms of AUROC (see Supplementary Material pp 6). This suggests that the performance decrease may not solely reflect the quality of the proposed transformation prediction pipeline, but rather indicate a need for further enhancing HoVer-Net + ‘s generalisability.
We additionally acknowledge the variations in OMTscore’s performance across external cohorts. While our model outperforms grading systems on the Belfast cohort, it shows comparable AUROC but lower F1scores on the Birmingham cohort. This has also resulted in our model achieving substantially higher AUROC scores on the Belfast cohort than the Birmingham cohort, but much lower F1-scores. This disparity can be attributed to our model’s high sensitivity, combined with the Birmingham cohort having fewer cases that transformed to malignancy ( ) when compared to Belfast ( ). This variation in the number of events is a
clear indication of a type II prior (domain) shift between external cohorts , and is the clinical reality of retrospective data. However, these individual cohorts are relatively small, and so we argue that evaluating our model (and grading systems) across both cohorts combined provides a more comprehensive understanding. We also add that when we performed an additional quality control step to find poorly segmented cases (see the Supplementary Material pp 6), all were in the Birmingham cohort. This further supports our hypothesis that HoVer-Net+ may not generalise as effectively to external data, contributing to the drop in prediction performance. Overall, our model achieved higher AUROC and recall across both cohorts combined, demonstrating strong prognostic utility.
Our model’s utilization of domain-agnostic morphological/spatial features contributed to its generally robust performance on external cohorts, whilst enhancing interpretability. Thus, the inclusion of PDPs and Random Forest analyses provided valuable insights into the behaviour of morphological and spatial features during external validation. While PDPs revealed consistent patterns between internal (see Supplementary Material pp 6) and external validation, RF analyses (see Supplementary Material pp 5) unveiled differences in feature importance. Notably, spatial features were found to be most prominent in internal validation, whereas a combination of morphological/spatial features proved most important in external validation. This discrepancy prompts a critical examination of nuclear classification robustness on the external test set. Within Supplementary Fig. 3, we show that nuclear classification is visibly poorer in some cases on external validation. Thus, the potential reliance on spatial features for discriminating between nuclear types may have contributed to less accurate signals for the model, possibly influencing the observed performance drop. This therefore again suggests that future work should aim to improve the generalisability of HoVer-Net + .
The feature analyses revealed that non-transforming cases exhibit more epithelial cells, while transforming cases exhibited higher counts of basal epithelial cells, and “other” nuclei in both connective tissue and the epithelium. The PDP analyses further supported this, indicating that the density of “other” nuclei surrounding epithelial nuclei was positively associated with malignant transformation. These findings are consistent with previous studies noting increased immune cell infiltration in oral lesions progressing to , and recognising distinct immune-related subtypes in moderate/severe . Given that the epithelium typically only contains epithelial nuclei or intra-epithelial lymphocytes (IELs), we suggest that these “other” nuclei within the epithelium are IELs. We additionally posit that the elevated density of “other” nuclei in the connective tissue likely represents peri-epithelial lymphocytes (PELs). This is further supported by the work of Bashir et al. , who showed a higher density of PELs in cases that exhibited malignant transformation. Together, these results suggest that an increased density of IELs and PELs may signify a predisposition for the lesion to progress to cancer. This is intriguing, given that in oral cancer, a higher density of immune cells typically signifies a robust immune response and better outcomes. This finding calls for thorough exploration, emphasizing the crucial need to understand immune mechanisms in OED and identify
Table 4 | Multivariate Cox Proportional Hazard Model output for malignant transformation based on the OMTscore and other clinical variables
Internal Validation – Sheffield ( )
External Validation – Combined ( )
HR
Lower 95% HR
Upper 95% HR
HR
Lower 95% HR
Upper 95% HR
OMTscore
<0.001
8.48
3.87
21.30
0.32
3.01
0.71
20.62
Binary Grade
<0.001
3.96
1.45
11.10
0.14
2.64
0.70
8.84
WHO Grade
1.00
1.06
0.57
2.04
0.96
1.27
0.64
2.50
Age
0.54
1.01
0.98
1.03
1.00
1.00
0.97
1.02
Sex
0.60
1.34
0.71
2.51
0.81
1.29
0.61
2.62
Site
0.36
1.19
0.85
1.67
0.07
1.59
1.03
2.55
Best model/scores are given in bold.
Fig. 5 | Partial dependency plots for the OMTscore on external validation. Partial Dependency Probability Plots are given for the OMTscore based on the entire external validation data. Here, “epithelial” nuclei are labelled as [1] and “other”
nuclei are labelled as [0]. Distances are given in microns. The confidence intervals are based on the standard deviation across the three repeats of external validation experiments.
specific cell profiles linked to malignant transformation. Such insights may facilitate the development of more targeted treatments, including exploring the potential role of immunotherapy in managing high-risk lesions. This approach holds particular promise for patients unsuitable for surgery, emphasizing the significance of advancing our understanding of immune dynamics in OED for improved therapeutic interventions.
While our study represents one of the first endeavours to predict OED malignant transformation, which has been validated on multiple external cohorts, it carries several limitations. This may be the largest known OED dataset with clinical outcomes for computational pathology, yet the sample size is still relatively small, with the training data sourced from a single centre (albeit using two scanners), and annotated by a sole pathologist. Additionally, the retrospective nature of our study poses inherent constraints. Future research should therefore expand on both the methods and findings of this work, whilst evaluating the utility of the OMTscore on an internationally acquired, multi-centric, and prospectively collected dataset, with
multiple independent annotators, to ensure unbiased testing. Furthermore, exploring additional pathologist-derived patch-level cytological features, such as hyperchromatism and mitoses, could enhance the predictive capability of our model. In the Supplementary Material (pp 6), we provide insights into the potential importance of monitoring mitosis using published detection methods . Architectural changes, such as irregular epithelial stratification and drop-shaped rete pegs, also warrant further exploration . Finally, our feature analysis mainly focussed on true positive and true negative patches, driven by our goal to evaluate the model’s performance in correctly identifying transforming cases. However, we suggest future work should also examine false positives and false negatives to identify features contributing to incorrect model predictions and guide further optimization efforts.
In summary, our study has introduced an automated pipeline for predicting OED transformation using a state-of-the-art deep learning framework and patch-level morphological/spatial features. Our results
demonstrate the strong prognostic significance and generalisability of our model compared to manual grades on internal and external cohorts. This has significant clinical implications for patient management, offering a potentially more accurate and objective prediction method. Our study paves the way for future research and the potential to enhance patient outcomes through early detection and intervention. However, further investigations are required to identify additional slide-level features and validate the model on larger external cohorts with longer follow-up periods.
Methods
Study data
The study cohort used for training our models consisted of subjects collected retrospectively between 2008 and 2016 from the Oral and Maxillofacial Pathology archive at the School of Clinical Dentistry, University of Sheffield, UK. Sections were newly cut ( thickness) and H&E stained from formalin-fixed paraffin embedded blocks.
In total, 244 cases were assessed for eligibility. This comprised of 321 slides with a histological diagnosis of OED, scanned using either a Hamamatsu NanoZoomer 360 (Hamamatsu Photonics, Japan) or an Aperio CS2 (Leica Biosystems, Germany) digital slide scanner at objective power ( 0.2258 mpp and 0.2520 mpp , respectively) to obtain digital WSIs. Of these 244 cases, only 202 cases met the study inclusion criteria ( 279 slides; see the Supplementary Materials pp 2 for inclusion criteria). Further, clinical information including patient age, sex, intraoral site, OED grade (binary and WHO 2017), and transformation status, was available for just 193 cases ( 270 slides). The case transformation information was gathered from multiple sources, primarily patient clinical systems. The evaluation involved a thorough assessment of patient records and the diagnostic database, which included both electronic and physical files (by a clinician, HM). Specifically, transformation was defined as the progression of a dysplastic lesion to OSCC at the same clinical site within the follow-up period. Multiple certified/consultant pathologists independently evaluated the cases when initially reported using the WHO grading system (PMS, PMF, DJB, KDH), to ensure diagnostic consistency. Blind re-evaluation was performed by an Oral & Maxillofacial Pathologist (SAK) and an Oral Surgeon specialising in OED analysis (HM), to confirm the WHO (2017) grade and assign binary grades. In total, the cohort included 193 unique OED patients ( 270 slides) with 42 patients ( 57 slides) exhibiting malignant transformation. Slides from the same patients were consistently assigned to the same fold during training/internal cross-validation. A summary of the cohort is provided in Supplementary Table 1, and a CONSORT diagram is also given in Supplementary Fig. 1.
For training our segmentation models, one expert pathologist (SAK) exhaustively manually delineated the intra-epithelial layers (basal, epithelial, and superior keratin layers) in 59 OED cases, in addition to nine controls (collected with the Aperio CS2 scanner as per the above protocols), using our in-house WASABI software (a customised version of HistomicsTK ). We then generated tissue masks for each of the segmented WSIs via Otsu thresholding and the removal of small objects and holes in the segmentation mask. A layer mask was then generated for each WSI by combining the layer segmentations with the tissue mask.
The manual segmentation of individual nuclei within WSIs is laborious and subject to inter/intra-rater variability. Thus, nuclear instance masks were generated for a small subset of cases, 30 regions of interest (one ROI per case), where a pathologist (SAK) annotated each nucleus as either epithelial or “other”. The point annotations were used within the NuClick framework to generate nuclear boundaries . NuClick is a deep learning framework that takes a raw image and a guiding signal “click” as an input and then produces a nuclear instance boundary as an output. This method has been found to be superior to fully automated approaches for generating nuclear instance segmentations, particularly in the cases of touching/overlapping nuclei . To ensure that all nuclear segmentations were of a high quality, the masks were then manually refined when found to be visibly incorrect. A total of 71,757 labelled nuclei segmentations were obtained across the 30 ROIs, which were used to train our segmentation models.
For external validation, OED cases from two independent centres, Birmingham and Belfast, were recruited. A total of 47 OED patients’ data were collected from Belfast and 71 OED cases were collected from Birmingham. The Birmingham and Belfast slides were scanned at objective power using a Pannoramic 250 (3DHISTECH Ltd., Hungary; 0.1394 mpp ) and an Aperio AT2 (Leica Biosystems, Germany; 0.2529 mpp ) scanner, respectively. On receipt of cases, all cases were blindly re-evaluated by SAK to confirm histological grade (WHO 2017 and binary) and ensure the inclusion criteria were met. They additionally had time to transformation data. The combined Birmingham-Belfast external validation cohort consisted of 118 unique OED cases, however, of these cases, 29 did not meet the study criteria. This resulted in 89 OED cases ( 89 slides), with 40 cases transitioning to malignancy. A summary of this cohort is provided in Supplementary Table 1, and a CONSORT diagram is also given (see Supplementary Fig. 1).
Analytical workflow overview
To predict the OED risk score, we implemented a multi-step pipeline (see Fig. 1). First, a deep learning model was trained to automatically segment the epithelium and nuclei. This model was then used for inference on all slides. For the downstream analysis, the slides were tessellated into smaller tiles, and tile-level features were generated based on the nuclear segmentations (in tiles with epithelium). These features were used to train a shallow neural network for slide-level prediction. The algorithm was internally validated on the Sheffield cohort, and subsequently validated on the external cohort, consisting of cases from two independent centres.
Layer and nuclear segmentation
To generate layer and nuclear segmentation for each WSI in our cohort, we trained/tested HoVer-Net+ on the internal Sheffield cohort, using the ground-truth annotations. HoVer-Net+ is an encoder-decoder-based CNN that simultaneously segments and classifies nuclear instances, and semantically segments the epithelial layers . We used this model to semantically segment the intra-epithelial layers (e.g. basal, epithelial, and keratin) and other tissue (e.g. connective tissue), whilst also segmenting and classifying nuclear instances as epithelial or “other” nuclei. Here, “other” nuclei are any form of nuclei that are not epithelial nuclei, (i.e. connective/inflammatory). We trained HoVer-Net+ using a multi-stage approach, based on the layer segmentations of 56 cases/controls and the nuclear segmentation masks of 24 cases/controls. The model was then tested on the layer segmentation of 12 cases/controls and the nuclear segmentations of 6 cases/controls. HoVerNet + takes patches at magnification ( 0.50 mpp ), and produces nuclear instance segmentation/classification maps, and semantic segmentations of the epithelial layers. Note, that a small patch size of 256 (at ) is necessary for accurate nuclear segmentation. The training involved two phases, with the decoder branches trained for 20 epochs in phase one, and all branches trained for 30 epochs in phase two. A batch size of 8 and 4 on each GPU was used across these phases, respectively. The Adam optimiser was used with a learning rate that decayed initially from to after 10 epochs in each phase. Data augmentations such as flip, rotation, blur, and colour perturbation were applied during training. We also tested the effect of stain augmentation using the TIAToolbox implementation of the Macenko method that has been shown to effectively counter scannerinduced domain-shifts to make our model more generalisable . For detailed information on model training, please refer to the Supplementary Material (pp 3-4). Following model training, we used HoVer-Net+ for inference on all slides from both the internal and external cohorts.
Slide-level transformation prediction
After segmentation, each WSI was tessellated into smaller tiles ( magnification, 0.50 mpp ) with overlap. We used this tile size to ensure that each tile contained enough information for the prediction task, in line with previous studies . We then generated tile-level features for use in a weakly supervised model for transformation prediction. For each tile, we calculated 104 morphological and 64 spatial features. The morphological
features were obtained from 13 shape features for each nucleus in a tile (eccentricity, convex area, contour area, extent, perimeter, solidity, orientation, radius, major/minor axis, equivalent diameter, bounding box area/ aspect ratio) with four tile-level statistics (mean, minimum, maximum, standard deviation) per nuclear type (epithelial and other). This resulted in 104 morphological features per tile. We computed the number of different nuclear types within a small radius of a nuclear instance, resulting in four counts per tile (number of epithelial nuclei around another nucleus, number of epithelial nuclei around epithelial nuclei, number of other nuclei around epithelial nuclei, and finally the number of other nuclei around other nuclei) over four varying radii (100, 200, 300 and 400 pixel radii). Finally, we took tile-level summary statistics (mean, minimum, maximum, standard deviation) across these 16 features, resulting in 64 spatial features per tile. We chose to use these 168 morphological/spatial features in preference to “deep” features output by CNNs, such as in traditional prediction tasks , to offer transparency and explainability to the model inputs.
For slide-level prediction, a MLP was trained using the iterative draw-and-rank (IDaRS) method introduced by Bilal et al. leveraging our tilelevel features. The output of our MLP is referred to as the OMTscore. The MLP architecture consisted of three layers with 168 nodes in the input layer, 64 nodes in the hidden layer, and 2 nodes in the output layer. We employed a leaky ReLU activation function and dropout (0.2) after the hidden layer. The MLP models were trained with a symmetric cross-entropy loss function and the Adam optimiser. This loss function was chosen as it has been shown previously to help overcome errors associated with weak labels . IDaRS sampling was performed with parameter values of for the top predictive patches and random patches, using a batch size of 256 . The models underwent training for 100 epochs and were evaluated through fivefold cross-validation (repeated 3 times, with random seeds) for internal validation. To generate slide-level predictions we calculated the average probability over each tile in a slide to predict transformation. This method demonstrated optimal performance during internal cross-validation. A threshold was determined based on the internal cross-validation and applied to external validation. External validation involved combining the entire Sheffield cohort as a discovery cohort for model training, with validation performed on the combined Birmingham-Belfast cohort (repeated 3 times, with random seeds). It’s important to note that the use of the IDaRS sampling method ensures robust predictions. By drawing from both random and informative (from the previous iteration) tiles, the model is trained to achieve discrimination between different tiles, even in the presence of imbalanced data. This methodology aims to prevent slide-level predictions from being hindered by small numbers of positive tiles.
To determine the utility of our predicted OMTscore, we compared its prognostic capability against both the pathologist-assigned WHO and binary grading systems. Whilst we note that these systems do not aim to directly predict cases that will transform to malignancy; we argue that the goal of the grading systems is to give patient prognosis and stratification, in order to inform treatment decisions. This is ultimately what we are aiming to do with the OMTscore, thus making a fair comparison.
Survival analyses
Survival analyses were conducted to assess the prognostic significance of the OMTscore, and the manually-assigned WHO/binary grades, in predicting transformation-free survival. The OMTscore indicated whether the algorithm predicted the case to transform (high-risk) or not (low-risk). KaplanMeier curves were generated using the Python lifelines package, and logrank tests were used to determine the statistical significance of the grade stratification (for OMT, WHO, and binary grades). Additionally, a multivariate Cox proportional hazards model was employed, incorporating sex, age, lesion site, binary, and WHO grade, to predict transformation-free survival. The purpose of this analysis was to validate the prognostic significance of the predicted OMTscore relative to other clinical variables. This analysis was performed on both the internal and external cohorts. Transformations were right-censored at eight years across these analyses to ensure consistency between internal and external cohorts.
Feature analyses
We performed several post-hoc analyses based on both our internal and external validation cohorts to add a level of explainability to our model predictions. First, we focused on the nuclear count features within the top five predicted patches of correctly predicted positive slides (true positives) and compared them to the top five predicted patches of correctly predicted negative slides (true negatives) within the testing subsets. Two-tailed t-tests were performed with multiple comparison correction (false discovery rate, FDR) to determine the statistical significance of any observed differences. We conducted three comparative analyses of the cellular composition of the top predicted patches: (1) nuclei within the entire patch (other, basal, epithelial, keratin), 2) nuclei within the epithelium (other, basal, epithelial, keratin), and 3) nuclei within the connective tissue surrounding the patch (e.g., peri-epithelial “other” nuclei). In addition, we analysed the tissue type ratios (morphology) within these top-predicted patches. Note, as multiple runs of the experiments were conducted, these analyses contains true positives and true negatives from correctly predicted cases from all runs. These experiments enabled us to determine any associations between nuclear types/areas and the predicted outcome.
Second, we investigated which of the 168 morphological/spatial features used to train our MLP were most important for making the final prediction. We achieved this by training a Random Forest classifier using the top five correctly predicted patches per correctly predicted case by our MLP model, utilizing the 168 nuclear features. Subsequently, we ranked the feature importance, measured by mean decrease in impurity (MDI), and identified the top ten features. To ascertain their statistical significance, we conducted two-tailed t-tests with FDR correction.
Third, we also explored the PDPs for our MLP model when tested on both internal and external cases. We systematically adjusted the value of each of the 168 input features, one at a time, from its minimum to its maximum value in 100 increments, and plotted this against the model’s predicted probability output across all cases. These analyses provide insights into the significance of each individual feature in predicting transformation.
Evaluation metrics
We evaluated the layer segmentation using the F1-score aggregated over all image patches. For nuclear instance segmentation, we assessed the Panoptic Quality (PQ), detection quality (DQ, or F1-score), and segmentation quality (SQ). Additionally, we report the Dice score comparing segmented nuclei against the background, and the aggregated Jaccard Index (AJI). We also calculate the average values over all images for: F1score for detection ( , all nuclear types) and F1-score for classification ( ) for each nucleus type (e.g. for basal epithelial nuclei, for epithelial nuclei, and for other nuclei). Detailed descriptions of these metrics can be found in Graham et al. . When evaluating the model’s performance in predicting transformation, we calculated the average F1score and AUROC across all slides. The F1-score is the harmonic mean of recall (sensitivity) and precision, and thus provides a balance between false positives and false negatives. In addition, we also include the model recall (sensitivity) and fall-out (false positive rate).
Reporting summary
Further information on research design is available in the Nature Research Reporting Summary linked to this article.
Data availability
All the data derived from this study are included in the manuscript. We are unable to share the whole slide images and clinical data, due to restrictions in the ethics applications.
Code availability
We have made the model inference code publicly available online, along with model weights (adamshephard/OMTscoring_inference(github.com)). All code was written with Python 3.10 and PyTorch 2.0, along with TIAToolbox 1.4.0.
Received: 27 September 2023; Accepted: 29 May 2024;
Published online: 28 June 2024
References
Johnson, D. E. et al. Head and neck squamous cell carcinoma. Nat. Rev. Dis. Prim. 6, 92 (2020).
European Cancer Patient Coalition. European Cancer Patient Coalition: Head & Neck Cancers. https://ecpc.org/news-events/ head-neck-cancer-make-sense-campaign/.
Speight, P. M., Khurram, S. A. & Kujan, O. Oral potentially malignant disorders: risk of progression to malignancy. Oral. Surg. Oral. Med. Oral. Pathol. Oral. Radiol. 125, 612-627 (2018).
Ranganathan, K. & Kavitha, L. Oral epithelial dysplasia: Classifications and clinical relevance in risk assessment of oral potentially malignant disorders. J. Oral. Maxillofac. Pathol. 23, 19-27 (2019).
Nankivell, P. & Mehanna, H. Oral dysplasia: Biomarkers, treatment, and follow-up. Curr. Oncol. Rep. 13, 145-152 (2011).
Rock, L. D. et al. Characterization of epithelial oral dysplasia in nonsmokers: First steps towards precision medicine. Oral. Oncol. 78, 119-125 (2018).
Mehanna, H. M., Rattay, T., Smith, J. & McConkey, C. C. Treatment and follow-up of oral dysplasia – A systematic review and metaanalysis. Head. Neck 31, 1600-1609 (2009).
Takata, T. & Slootweg, P. Tumours of the oral cavity and mobile tongue: epithelial precursor lesions. In WHO Classification of Head and Neck Tumours (eds. El-Naggar, A., Chan, J., Grandis, J., Takata, T. & Slootweg, P.) (2017).
locca, O. et al. Potentially malignant disorders of the oral cavity and oral dysplasia: A systematic review and meta-analysis of malignant transformation rate by subtype. Head. Neck 42, 539-555 (2020).
Nankivell, P. et al. The binary oral dysplasia grading system: validity testing and suggested improvement. Oral. Surg. Oral. Med. Oral. Pathol. Oral. Radiol. 115, 87-94 (2013).
Lecun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436-444 (2015).
Litjens, G. et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis. Sci. Rep. 6, 1-11 (2016).
Madabhushi, A. & Lee, G. Image analysis and machine learning in digital pathology: Challenges and opportunities. Med. Image Anal. 33, 170-175 (2016).
Litjens, G. et al. A survey on deep learning in medical image analysis. Med. Image Anal. 42, 60-88 (2017).
Liu, J. et al. Applications of deep learning to MRI images: A survey. Big Data Min. Anal. 1, 1-18 (2018).
Shen, D., Wu, G. & Suk, H.-I. Deep learning in medical image analysis. Annu. Rev. Biomed. Eng. 19, 221-248 (2017).
Carass, A. et al. Longitudinal multiple sclerosis lesion segmentation: Resource and challenge. Neuroimage 148, 77-102 (2017).
Ghafoorian, M. et al. Location sensitive deep convolutional neural networks for segmentation of white matter hyperintensities. Sci. Rep. 7, 5110 (2017).
Graham, S. et al. Hover-Net: Simultaneous segmentation and classification of nuclei in multi-tissue histology images. Med. Image Anal. 58, 101563 (2019).
Shephard, A. J. et al. Simultaneous Nuclear Instance and Layer Segmentation in Oral Epithelial Dysplasia. Proc. IEEE/CVF Int. Conf. Comput. Vis. Work. October, 552-561 (2021).
Alemi Koohbanani, N., Jahanifar, M., Zamani Tajadin, N. & Rajpoot, N. NuClick: A deep learning framework for interactive segmentation of microscopic images. Med. Image Anal. 65, 101771 (2020).
Azarmehr, N., Shephard, A., Mahmood, H., Rajpoot, N. & Khurram, S. A. A Neural Architecture Search Based Framework for Segmentation of Epithelium, Nuclei and Oral Epithelial Dysplasia Grading. In Annual Conference on Medical Image Understanding and Analysis MIUA 2022 vol. 13413 357-370 (Springer International Publishing, 2022).
Bashir, R. M. S. et al. Automated grade classification of oral epithelial dysplasia using morphometric analysis of histology images. In Medical Imaging 2020: Digital Pathology vol. 11320 (International Society for Optics and Photonics, 2020).
Raza, S. E. A. et al. Micro-Net: A unified model for segmentation of various objects in microscopy images. Med. Image Anal. 52, 160-173 (2019).
Lu, M. Y. et al. Data-efficient and weakly supervised computational pathology on whole-slide images. Nat. Biomed. Eng. 5, 555-570 (2021).
Shephard, A. et al. A Fully Automated Multi-Scale Pipeline for Oral Epithelial Dysplasia Grading and Outcome Prediction. Med. Imaging with Deep Learn. 1-3 (2022).
Zhou, Y. et al. CGC-Net: Cell graph convolutional network for grading of colorectal cancer histology images. arXiv (2019).
Kather, J. N. et al. Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer. Nat. Med. 25, 1054-1056 (2019).
Bilal, M. et al. Development and validation of a weakly supervised deep learning framework to predict the status of molecular pathways and key mutations in colorectal cancer from routine histology images: a retrospective study. Lancet Digit. Heal. 3, e763-e772 (2021).
Bilal, M. et al. An aggregation of aggregation methods in computational pathology. Med. Image Anal. 88, 102885 (2023).
Ilse, M., Tomczak, J. M. & Welling, M. Attention-based deep multiple instance learning. 35th Int. Conf. Mach. Learn. ICML 2018 5, 3376-3391 (2018).
Lu, W. et al. SlideGraph+: Whole slide image level graphs to predict HER2 status in breast cancer. Med. Image Anal. 80, 102486 (2022).
Campanella, G. et al. Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nat. Med. 25, 1301-1309 (2019).
Pocock, J. et al. TIAToolbox as an end-to-end library for advanced tissue image analytics. Commun. Med. 2, 120 (2022).
Mahmood, H. et al. Prediction of malignant transformation and recurrence of oral epithelial dysplasia using architectural and cytological feature specific prognostic models. Mod. Pathol. 35, 1151-1159 (2022).
Bashir, R. M. S. et al. A digital score of peri-epithelial lymphocytic activity predicts malignant transformation in oral epithelial dysplasia. J. Pathol. https://doi.org/10.1002/path. 6094 (2023).
Jahanifar, M. et al. Domain Generalization in Computational Pathology: Survey and Guidelines. arXiv (2023).
Gannot, G., Gannot, I., Vered, H., Buchner, A. & Keisari, Y. Increase in immune cell infiltration with progression of oral epithelium from hyperkeratosis to dysplasia and carcinoma. Br. J. Cancer 86, 1444-1448 (2002).
Gan, C. P. et al. Transcriptional analysis highlights three distinct immune profiles of high-risk oral epithelial dysplasia. Front. Immunol. 13, 1-16 (2022).
Jahanifar, M. et al. Stain-Robust Mitotic Figure Detection for the Mitosis Domain Generalization Challenge. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) vol. 13166 LNCS (Springer International Publishing, 2022).
Jahanifar, M., Shephard, A., Zamanitajeddin, N., Raza, S. E. A. & Rajpoot, N. Stain-Robust Mitotic Figure Detection for MIDOG 2022 Challenge. In: Biomedical Image Registration, Domain Generalization and Out-of-Distribution Analysis, MICCAI 2021 Challenges L2R, MIDOG and MOOD. 48-52 (2022).
Gutman, D. A. et al. The digital slide archive: A software platform for management, integration, and analysis of histology for cancer research. Cancer Res. 77, e75-e78 (2017).
Macenko, M. et al. A method for normalizing histology slides for quantitative analysis. Proc. – 2009 IEEE Int. Symp. Biomed. Imaging
From Nano to Macro, ISBI 2009 1107-1110 https://doi.org/10.1109/ ISBI.2009.5193250. (2009)
44. Aubreville, M. et al. Mitosis domain generalization in histopathology images – The MIDOG challenge. Med. Image Anal. 84, 102699 (2023).
45. Wang, Y. et al. Symmetric cross entropy for robust learning with noisy labels. In Proceedings of the IEEE/CVF international conference on computer vision October, 322-330 (2019).
Acknowledgements
This work was supported by a Cancer Research UK Early Detection Project Grant, as part of the ANTICIPATE study (grant no. C63489/A29674). SAK and NMR are partly funded by the CRUK grant. HM is funded by the National Institute for Health Research (award no. NIHR300904). RMSB is funded by the Chancellor Scholarship from University of Warwick. The authors express their sincere gratitude to Professor Paul Speight (PMS), Professor Paula Farthing (PMF), Dr Daniel Brierley (DJB), and Professor Keith Hunter (KDH) for their valuable contribution in providing the initial histological diagnosis.
Author contributions
AS, SEAR, SAK, and NMR designed the study with the help of all co-authors. AS and NMR developed the computational methods. AS wrote the code and carried out all the experiments. HaM, AS, and SAK provided the WSI annotations. SAK and HaM obtained ethical approval and retrieved the histological and clinical data from Sheffield. KM, SC, and JJ contributed to the collection of the histological and clinical data from Belfast. JB, PN, and HiM contributed to the collection of the histological and clinical data from Birmingham. FM aided in generating a robust survival analysis pipeline. MJ helped in the implementation of the domain generalisation techniques. All authors contributed to the writing of the manuscript.
Competing interests
The authors declare the following competing interests: NMR is the cofounder, Director and shareholder of Histofy Ltd. SAK is a shareholder of Histofy Ltd. All other authors have no competing interests to declare.
Ethics
Ethical approval for the study was obtained from the NHS Health Research Authority West Midlands (18/WM/0335), and experiments were conducted in compliance with the Declaration of Helsinki. Written consent was not required as data was collected from surplus archived tissue. Data collected were fully anonymised.
Tissue Image Analytics Centre, Department of Computer Science, University of Warwick, Coventry, UK. School of Clinical Dentistry, University of Sheffield, Sheffield, UK. Precision Medicine Centre, Patrick G. Johnston Centre for Cancer Research, Queen’s University Belfast, Belfast, UK. Institute of Head and Neck Studies and Education, Institute of Cancer and Genomic Sciences, University of Birmingham, Birmingham, UK. These authors jointly supervised this work: Syed Ali Khurram, Nasir M Rajpoot. e-mail: n.m.rajpoot@warwick.ac.uk
The Hormel Institute
University of Minnesota
WHO Grade G1 is mild vs moderate/severe cases, whilst WHO Grade G2 is mild/moderate vs. severe cases. Best model/scores are given in bold.