مقارنة بين أداء الذكاء الاصطناعي والخبراء البشريين في تقييم الألم الحاد في الأغنام Comparison between AI and human expert performance in acute pain assessment in sheep

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-83950-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39754012
تاريخ النشر: 2025-01-03

افتح

مقارنة بين أداء الذكاء الاصطناعي والخبراء البشريين في تقييم الألم الحاد في الأغنام

الملخص

مارسيلو فيغيلشتاين ديرك فان دير ليندن وآنا زامانسكي

تستكشف هذه الدراسة السؤال عما إذا كان الذكاء الاصطناعي (AI) يمكن أن يتفوق على الخبراء البشريين في التعرف على الألم في الحيوانات باستخدام الأغنام كحالة دراسية. تستخدم مجموعة بيانات من الأغنام التي تخضع لعملية جراحية مع تسجيلات فيديو تم التقاطها قبل (بدون ألم) وبعد (ألم) الجراحة. استخدم أربعة خبراء بيطريين نوعين من مقاييس تقييم الألم: مقياس تعبير الوجه للأغنام (SFPES) ومقياس السلوك المركب Unesp-Botucatu (USAPS)، الذي يُعتبر ‘المعيار الذهبي’ في تقييم الألم في الأغنام. لقد تفوقت أنابيب الذكاء الاصطناعي المطورة بناءً على مشفر CLIP بشكل كبير على تقييم الوجه البشري (فرق AUC ) عند الوصول إلى نفس المعلومات البصرية (صور الوجه الأمامي والجانبي). كما أنها تعادل بشكل فعال تقييم السلوك البشري باستخدام USAPS (فرق AUC )، لكن التحسن الطفيف لم يكن ذا دلالة إحصائية. إن حقيقة أن الآلة يمكن أن تتفوق على الخبراء البشريين في التعرف على الألم في الأغنام عند تعرضها لنفس المعلومات البصرية لها تداعيات كبيرة على الممارسة السريرية، مما يستدعي مزيدًا من النقاش العلمي.

كان Deep Blue ذكيًا بالطريقة التي يكون بها منبهك القابل للبرمجة ذكيًا. ليس أن خسارتي أمام منبه بقيمة 10 ملايين دولار جعلتني أشعر بتحسن.
غاري كاسباروف، 1997.
استخدام الذكاء الاصطناعي (AI) في الرعاية الصحية من خلال استخدام خوارزميات التعلم الآلي (ML) وتقنيات تحليل البيانات هو تغيير حقيقي في اللعبة، مما يؤدي إلى نتائج أفضل للمرضى، واستخدام أفضل للموارد، وانخفاض في تكاليف التشغيل . في تقييم الألم، يمكن أن يلعب الذكاء الاصطناعي دورًا مهمًا في التحليل الآلي غير الجراحي للمعايير السلوكية، مثل تعبيرات الوجه ولغة الجسد. وليس من المستغرب أنه في السنوات الأخيرة، تم تناول عدد متزايد من الأعمال آليًا في تقييم الألم لدى الرضع (انظر زامزمي وآخرون للمراجعة). فقط مؤخرًا تم إصدار أول تطبيق موبايل قائم على الذكاء الاصطناعي لتقييم الألم لدى المرضى غير اللفظيين، PainChek، والذي يعتمد فقط على تحليل تعبير الوجه . في وقت سابق من هذا العام، تم تقييمه لأول مرة في سياق تقييم الألم الإجرائي والمراقبة في الممارسة السريرية، مما يظهر دقة عالية (المساحة تحت المنحنى 0.964 و0.966، على التوالي)، ودقة فوق .
لقد زاد الاهتمام بالأساليب الآلية للتعرف على الألم في الحيوانات بشكل كبير في السنوات الأخيرة. يقدم برووم وآخرون مراجعة لأكثر من عشرين دراسة تتناول التعرف الآلي على المشاعر والألم في الحيوانات، مع تركيز الغالبية العظمى من الأعمال على الأخير. تم التحقيق في تقييم الألم والتعرف عليه بشكل أساسي للجرذان والخيول وأحدث القطط والأرانب والكلاب . تم تناول الأغنام أيضًا في هذا السياق، انظر، على سبيل المثال، ومع ذلك، كانت الدقة التي تم الوصول إليها منخفضة جدًا (حوالي )، جزئيًا بسبب الطبيعة الصعبة للبيانات المجمعة في بيئات المزارع.
نظرًا لأن الألم هو حالة داخلية يصعب قياسها، فإن إنشاء الحقيقة الأساسية يمثل تحديًا كبيرًا في أبحاث الألم. في المجال البشري، يُعتبر الإبلاغ الذاتي أحد أكثر الطرق غير المتطفلة وغير الجراحية لإنشاء الحقيقة الأساسية في أبحاث الألم وأبحاث المشاعر . ومع ذلك، في البشر الذين لا يستطيعون التواصل لفظيًا عن ألمهم، وفي الحيوانات، تفتقر الحقيقة الأساسية لتجربة الألم.
يعد تقييم السلوك من قبل الخبراء البشريين هو النهج الأكثر شيوعًا لتقييم الألم في الحيوانات.
تم تطوير أول مقاييس تعبيرات الألم للحيوانات للجرذان وهي متاحة الآن للعديد من الأنواع الثديية بما في ذلك الفئران والأرانب والخيول والخنازير والفرتس والأغنام والقطط . تم التحقق من صحة العديد من الأدوات
استنادًا إلى السلوك للأنواع المحلية، مثل القطط والكلاب والأرانب والخنازير والماعز والأغنام والخيول والحمير والماشية .
ومع ذلك، حتى طرق تقييم الألم المعتمدة محدودة بتدريب المراقب السابق وقدرته على تفسير استجابات الألم بدقة بالإضافة إلى تحيزات المراقبين المختلفة، مثل الجنس، والتعب، والخبرة، واستهلاك الوقت . قام أدامي وآخرون مؤخراً بتقييم موثوقية المراقب المتبادل لثلاث مقاييس ألم شائعة الاستخدام في الممارسة السريرية: مقياس قياس الألم المركب للقطط في غلاسكو (CMPS-Feline )، مقياس الألم الحاد للقطط بجامعة ولاية كولورادو (CSU-FAPS ) ومقياس تعبيرات الألم للقطط (FGS ). وُجد أن الموثوقية تتراوح في معظم الحالات من ضعيفة إلى عادلة/متوسطة، مما يشير إلى أن الذاتية تمثل قيدًا كبيرًا على هذه الأدوات المصممة خصيصًا لت quantifying الألم في القطط. لذلك من المهم تسليط الضوء على الذاتية الجوهرية لمثل هذه الأساليب، فضلاً عن إمكانية تباين النتائج بين المقيمين ذوي الخلفيات المختلفة ومستويات الخبرة. يعترف العديد من الأطباء البيطريين بصعوبات التعرف على الألم ويعتبرون معرفتهم في تقييم وعلاج الألم غير كافية . تعتبر الصعوبات في تقييم الألم أيضًا عائقًا كبيرًا أمام الأطباء البيطريين لعلاج الألم المزمن بشكل كافٍ . نظرًا للقيود الجوهرية لتقييم يدوي ذاتي، لا شك أن طرق التقييم البشرية يمكن تعزيزها رقميًا لتكون أقل عرضة للأخطاء البشرية، والذاتية، والتحيز. السؤال هو، إذن: هل تقييم الألم الآلي ناضج بما يكفي ليكون تغييرًا في اللعبة في مجال تقييم الألم في الحيوانات؟ وهل يمكن للآلات أن تتفوق على الخبراء البشريين في هذه المهمة؟
عند الإجابة على هذه الأسئلة، الشيطان هو، بالطبع، في التفاصيل. بغض النظر عن كيفية قياس الأداء، نحتاج إلى وسيلة لتحديد الحقيقة الأساسية بشكل موضوعي، والتي لا تعتمد على التقييم البشري، الذي يتم فحصه بنفسه. كما هو موضح في يتم تحقيق ذلك عادةً في ظروف تجريبية صارمة، حيث يتم إما تحفيز الألم أو توقيته (باستخدام لحظات زمنية، مثل قبل وبعد الإجراءات الجراحية). يمكن أن تشير الأولى إلى التحفيز التجريبي للألم السريري المعتدل القابل للعكس قصير الأمد باستخدام نماذج معروفة من المتطوعين البشريين. في على سبيل المثال، تم استخدام طريقتين منظمتين أخلاقيًا لتحفيز الألم التجريبي: كفة ضغط الدم موضوعة حول أحد الأطراف الأمامية للخيول، أو تطبيق الكابسيسين (مستخلص الفلفل الحار) على جلد الحصان. تشير الأخيرة إلى توقيت جمع البيانات قبل وبعد إجراء سريري. على سبيل المثال، في تم تسجيل مقاطع فيديو لقطط إناث تخضع لعملية استئصال المبيض في نقاط زمنية مختلفة قبل وبعد الجراحة.
نظرًا للصعوبات الواضحة في جمع مثل هذه البيانات في سياق ألم الحيوانات، فإن مجموعات البيانات المجمعة في بيئات تجريبية صارمة نادرة للغاية. تقدم مجموعة البيانات المجمعة في الدراسة لتقييم مقياس Unesp-Botucatu المركب (USAPS) لتقييم الألم البطني الحاد بعد الجراحة في الأغنام وتحديد نقطة قطع للتدخل المسكن فرصة مثيرة للاهتمام في هذا الصدد، والتي نستكشفها في هذه الورقة.
مسألة مهمة أخرى عند مقارنة أداء البشر مقابل الآلات هي ما إذا كان كلاهما يتعرضان لنفس المعلومات البصرية بنفس الطريقة. يستخدم التقييم البشري القائم على SFPES صورتين للوجه: الأمامية والجانبية، وهذا هو أيضًا المدخل إلى نموذج الذكاء الاصطناعي لدينا. يستخدم مقياس USAPS السلوكي فيديو للحيوان، وبالتالي قد يكون من الممكن أن يكون لدى الخبراء البشريين معلومات بصرية أكثر عن لغة الجسد من الآلة.
لقد تم إعداد النزاع بين الآلة والبشر في مهمة التعرف على الألم في الأغنام الآن. لذلك، نستكشف السؤال: هل يمكن لآلة أن تتفوق على الخبراء البشريين في التعرف على الألم في الأغنام. بدقة أكبر، نفترض أن خوارزمية التعلم الآلي يمكن أن تتفوق على الخبراء البشريين في التعرف على الألم في الأغنام عندما يتم قياس الأخير، على سبيل المثال، باستخدام تقييم SFPES (باستخدام نقطة القطع المناسبة). تستخدم الخوارزمية المطورة أنبوب تعلم عميق، والذي يستخدم مشفر CLIP لاستخراج الميزات ونموذج تصنيف Naive Base للتعرف على الألم.

طرق

مجموعة البيانات

تم جمع مجموعة البيانات المستخدمة في هذه الدراسة في دراسة سابقة تهدف إلى التحقق من صحة مقياس Unesp-Botucatu المركب لتقييم الألم البطني الحاد بعد الجراحة في الأغنام. تمت الموافقة على الدراسة من قبل لجنة الأخلاقيات لاستخدام الحيوانات من كلية الطب البيطري وعلوم الحيوان، جامعة ولاية ساو باولو (يونيسب)، بوتوكاتو، ساو باولو، البرازيل، بموجب البروتوكول 0027/2017 وتبعت التوصيات الخاصة بـ ARRIVE. ، تم تكييفها مع التصميم التجريبي. يمكن العثور على تفاصيل حول السكن والإدارة والتخدير والإجراءات الجراحية والمسكنات في الدراسة السابقة. نحن نفهم أن إعادة استخدام قاعدة البيانات للتحليل الجديد تساهم في الأربعة Rs لتجارب الحيوانات (التقليل، الاستبدال، التحسين، والمسؤولية) .
تتكون مجموعة البيانات من تسجيلات فيديو لـ 48 خروفًا (Ovis Aries) من ثلاثة سلالات (17 بيرغاماسيا، 18 لاكون، و13 دوربر). تم إخضاع الحيوانات لعملية جراحية في البطن. تم أخذ تسجيلات الفيديو قبل ساعة من الجراحة (M1) وفي الوقت المتوقع لأقصى ألم، بين ثلاث وأربع ساعات بعد انتهاء الجراحة (M2). بالإضافة إلى ذلك، تم التقاط صور أمامية وجانبية لوجوه الأغنام في نفس النقاط الزمنية. في الدراسة الأصلية، تم تحليل هذه الفيديوهات والصور بشكل عشوائي ومجهول مرتين من قبل أربعة مراقبين خلال فترة شهر لحساب التكرارية. قمنا بإنشاء مجموعة البيانات الكاملة للصور لدراستنا التي تحتوي على إجمالي 96 صورة مع صور وجه أمامية وجانبية (48 أغنام × 2 مرحلة × 2 جانب): 96 ‘ألم’ (48 جانبية، 48 أمامية) و96 ‘لا ألم’ (48 جانبية، 48 أمامية).
تم تقسيم هذه الصور إلى فئتين: لا ألم (المرحلة M1؛ قبل الجراحة) وألم (المرحلة M2؛ بعد الجراحة).
مجموعة البيانات المخفضة. قد يكون إنشاء ‘الحقيقة الأساسية’ باستخدام نقاط زمنية غير كافٍ للتأكد من أن الأغنام لا تعاني من الألم في النقطة الزمنية M1، بينما تعاني منه في M2، وبالتالي قد لا تكون هذه ‘الحقيقة الأساسية’ دقيقة وقد تؤثر على الأداء المقاس لكل من البشر والآلة. للتحقيق في هذه المسألة بشكل أكبر، أنشأنا مجموعة بيانات مخفضة تدمج قياس USAPS في إنشاء ‘الحقيقة الأساسية’. بشكل أكثر تحديدًا، قمنا بإزالة 4 عينات كانت تحتوي على متوسط درجة لجميع المراقبين يشير إلى علامة “لا ألم” ( ) في النقطة الزمنية M2 (بعد الجراحة) و 5 عينات تحمل متوسط درجة جميع المراقبين تشير إلى
الشكل 1. مثال على الصور الأمامية: الخروف 1: لا ألم؛ ألم؛ الخروف 17: لا ألم؛ ألم.
الشكل 2. مثال على الصور الجانبية: الخروف 1: لا ألم؛ ألم؛ الخروف 17: لا ألم؛ ألم.
الشكل 3. وصف خط الأنابيب.
الألم عند النقطة الزمنية M1 (قبل الجراحة). بشكل عام، بعد إزالة 9 عينات، تبقى لدينا مجموعة بيانات مخفضة تتكون من N’=39 فردًا.
أمثلة على الصور الأمامية والجانبية موضحة في الشكلين 1 و 2.

التعرف على الألم بواسطة الخبراء البشر

تم تأسيس الحقيقة الأرضية لدينا من خلال تسميات النقاط الزمنية للصور: M2 (فئة الألم) وM1 (فئة عدم الألم)، التي تم مقارنة كل من التقييم البشري والآلي بها باستخدام المقاييس الموضحة أدناه. كانت طريقة التقييم البشري الأولى تعتمد على مقياس تعبير الوجه للألم لدى الأغنام الذي تم تطويره في . يستخدم كل من صور الوجه الأمامية والجانبية ويقيم خمس مناطق وجه باستخدام مقياس من ثلاث نقاط غير موجود، موجود جزئيًا، الحاضر): ضيق المدار، ضيق الخد، وضع الأذن، شكل الشفاه والفك، ووضع فتحتي الأنف والفيلتروم. يتم تحديد إجمالي درجة الألم من خلال جمع الدرجات الفردية لكل من المناطق الخمس لكل مجموعة من الصور، مع كون الحد الأقصى الممكن للدرجة هو 12 (أي درجة 2 لكل من المناطق الوجهية ومنظر الأذن الجانبي والأمامي). يتم حساب مؤشر يودن، وهو نقطة التقاطع لأعلى حساسية ونوعية متزامنة (الحساسية + النوعية – 1) التي تحددها منحنى خصائص التشغيل المستقبلية. أدى ذلك إلى تعريف نقطة القطع لتسكين الألم على أنها 4 (لم يتم نشر هذه النتيجة حتى الآن).
كانت الطريقة الثانية لتسجيل النقاط البشرية هي USAPS المعتمدة على تسجيل سلوك الجسم. تم التحقق من صحة USAPS في لتقييم الألم البطني الحاد بعد الجراحة في الأغنام. تشير عناصر USAPS إلى التفاعل، النشاط، الحركة، الشهية، وضع الرأس، والوضعية، ويتم تقييم كل منها على مقياس من 0 إلى 2، مع درجة قصوى إجمالية تبلغ 12؛ تم استخدام نقطة القطع المذكورة أعلاه 4 لتحديد فئات الألم وعدم الألم. قام أربعة خبراء مستقلين بأداء كلا مهمتي التقييم، وحققوا موثوقية متوسطة إلى عالية بين المراقبين. ، حيث يكرر كل خبير كل تقييم مرتين (مراحل). تم جمع ما مجموعه 768 ملاحظة (48 خروف × 2 فئات (ألم أو لا ألم) × 4 مراقبين × 2 مراحل). للانتقال من التقييم إلى التعرف (فئة ألم/لا ألم)، تم حساب الدرجات باستخدام نقطة القطع المناسبة ( لـ USAPS و SPFES) على كل درجة. كما تم إجراء حسابات لنقطة القطع الخاصة بـ USAPS لتجنب منطقة عدم اليقين التشخيصي كما تشير الأغنام التي تعاني من الألم (الإيجابيات الحقيقية). لتلخيص، الطريقة التي نحصل بها على الدرجتين البشريتين اللتين نشير إليهما باسم USAPS و SPFES هي من خلال (i) تجميع تقييمات الخبراء لكل صورة (على مقياس من 0-12)، (ii) تحويلها إلى ألم/لا ألم (درجة ثنائية) باستخدام نقاط قطع مناسبة.
طريقة دقة استدعاء دقة فورمولا 1 حساسية خصوصية
قطع USAPS 4 0.7956 0.8776 0.7539 0.8111 0.8776 0.7135
حد USAPS 5 0.8177 0.8411 0.8034 0.8219 0.8411 0.7943
حد قطع SPFES 4 0.7083 0.8672 0.6581 0.7483 0.8672 0.5495
آلة 0.8229 0.8125 0.8298 0.8211 0.8125 0.8333
الجدول 1. أداء الآلة ومقارنته بالبشر.
تعلم الآلة SFPES
الجامعة الأمريكية في القاهرة 0.823 0.796 0.818 0.708
الجدول 2. مقارنة AUCs؛ ML هو خوارزمية التعلم الآلي. و هو مقياس الألم الحاد للأغنام في جامعة يونيبيس بوتوكاتو باستخدام نقاط القطع 4 و 5 على التوالي؛ SPFES هو مقياس تعبير الوجه للألم في الأغنام.
طريقة دقة استدعاء دقة فورمولا 1 حساسية خصوصية
يوسابس 0.8365 0.9199 0.7884 0.8491 0.9199 0.7532
SPFES 0.7276 0.9038 0.6682 0.7684 0.9038 0.5512
آلة 0.7949 0.8462 0.7674 0.8049 0.8462 0.7436
الجدول 3. المقارنة باستخدام مجموعة البيانات المخفضة (باستخدام نقطة القطع 4 من USAPS).

التعرف على الألم بواسطة الآلة

تم تطوير خط أنابيب للذكاء الاصطناعي يتكون من مكونين للتعرف التلقائي على الألم. يتم تصوير خط الأنابيب في الشكل 3. يستخدم مشفر CLIP لاستخراج الميزات من كل من الصور الأمامية والجانبية لوجوه الأغنام في حالة ألم معينة ومصنف نايف بايز. للتعرف على الألم.
الكلب الترميز هو عملية تحويل الصور إلى فضاء تمثيلي عالي الأبعاد، حيث يتم تمثيل كل صورة بواسطة متجه تمثيلي فريد. يحقق مشفر CLIP ذلك من خلال تدريب شبكة عصبية مسبقًا على مجموعة بيانات كبيرة من أزواج الصور والنصوص باستخدام دالة خسارة تباينية.
بمجرد الحصول على متجهات التضمين ذات الأبعاد 768 لصورة الوجه الأمامي والجانبي للخروف، نقوم بدمجها في متجه واحد ذي أبعاد 1536 يمثل تضمين كلتا الصورتين.
نموذج تصنيف نايف بايز هو خوارزمية احتمالية تُستخدم في مهام التصنيف في تعلم الآلة، وهي فعالة من حيث الحوسبة ويمكن أن تعمل بشكل جيد حتى مع كميات صغيرة من بيانات التدريب.
نقوم بتقييم أداء نموذج التصنيف باستخدام طريقة التحقق المتقاطع بترك حيوان واحد خارجًا دون تداخل حيوانات. نظرًا لعدد الأغنام المنخفض نسبيًا ( ) وعينات الصور ( فصول الأطراف) في مجموعة البيانات، هذه الطريقة مناسبة من خلال فصل صور الأفراد المستخدمة للتدريب والاختبار على التوالي، نُعزز التعميم على الأفراد غير المرئيين ونتأكد من عدم استخدام أي ميزات محددة لفرد ما في التصنيف.
في عملية التدريب استخدمنا اختيار الميزات لتحسين أداء التصنيف من خلال تقليل أبعاد فضاء الإدخال وإزالة الميزات الزائدة أو غير ذات الصلة التي قد تسبب الإفراط في التكيف أو تزيد من التعقيد الحسابي للنموذج.

مقاييس الأداء

نقوم بتقييم أداء خط أنابيب التعلم الآلي (ومقارنته بالأداء البشري) باستخدام مقاييس معيارية شائعة الاستخدام في الأدبيات: الدقة، والموثوقية، والاسترجاع، وF1، والحساسية، والنوعية. .

التحليل الإحصائي

لتحليل إحصائي للأداء، قمنا بمقارنة المساحات تحت منحنى خصائص التشغيل للمتلقي (AUCs) باستخدام اختبار دي لونغ. . تمثل AUC مؤشرًا لتقييم أداء التصنيف، يتراوح من 0 إلى 100. يعتبر الدقة منخفضة عندما تكون القيم بين 0.50 و 0.70، ومتوسطة بين 0.70 و 0.90 وعالية عندما تكون فوق 0.90. تم تحليل البيانات باستخدام برنامج Jamovi (https://www.jamovi.org; الإصدار 2.3.28.0؛ مشروع Jamovi (2023))، باستخدام اختبار ROC من حزمة psychoPDA (الإصدار 1.0.5).
أشار اختبار شابيرو-ويلك للانتظام إلى أن جميع توزيعات البيانات الأربعة المدروسة لم تكن موزعة بشكل طبيعي (شاميرو-ويلك على التوالي مع ).

النتائج

تقدم الجدول 1 مقاييس الأداء للتقييم الآلي مقابل التقييم البشري بناءً على USAPS و SPFES. تفوق الآلة على التقييم البشري من حيث الدقة والدقة والخصوصية و F1.
تقدم الجدول 2 مقارنة AUC بين الآلة وطريقتي التقييم البشري. أظهرت المقارنات الزوجية أن الآلة تتفوق بشكل كبير على SPFES (فرق AUC ).
تساوي الآلة بشكل فعال كل من USAPS (نقطة القطع 4) (فرق AUC )، و USAPS (نقطة القطع 5) (فرق AUC )، لكن التحسن الطفيف لم يكن ذا دلالة إحصائية.
تقدم الجدول 3 نتائج المقارنة باستخدام مجموعة البيانات المخفضة مع نقطة القطع USAPS 4. من حيث الدقة، نرى انخفاضًا طفيفًا في أداء الآلة، وانخفاضًا أكبر في أداء SPFES البشري، مع استمرار تفوق الآلة على SPFES من حيث الدقة و F1.

المناقشة

كانت الإجابة على سؤالنا حول ما إذا كانت الآلة تتفوق على الخبراء البشريين في التعرف على الألم في الأغنام عند تعرضها لنفس المعلومات البصرية إيجابية. وُجد أن تحسين الآلة على التقييم الوجهي (SPFES) كان ذا دلالة، مما يظهر أداء تشخيصيًا أفضل. علاوة على ذلك، كانت الآلة أعلى من كلا طريقتي التقييم البشري (USAPS و SFPES) في الدقة والدقة والاسترجاع والخصوصية والحساسية.
تم تناول مشكلة أتمتة التعرف على ألم الأغنام بالفعل بهدف أتمتة مقياس SPFES. الأنبوب المقدم في يتعرف تلقائيًا على وحدات الحركة الوجهية ويستخدمها للتنبؤ بمستوى الألم.
النهج لأتمتة التعرف على ألم الأغنام المتخذ في أتمتة مقياس SPFES، باستخدام المعالم لتحديد مناطق الوجه ذات الاهتمام، ثم استخراج هيستوجرامات ميزات التدرجات الموجهة من هذه المناطق، وتطبيق نموذج آلة الدعم المتجه (SVM) لتقييم وحدات الحركة الوجهية. وصل أنبوبهم إلى دقة إجمالية تبلغ فقط ، بينما دقة نموذجنا تتجاوز . وبالتالي، فإن أنبوب الذكاء الاصطناعي المقدم في هذه الدراسة يتفوق بشكل كبير على الحلول الحالية للذكاء الاصطناعي في التعرف على ألم الأغنام. السبب وراء هذه النتيجة مرتبط على الأرجح بالقيود على الكشف البشري لبعض وحدات الحركة الوجهية وأن SPFES أظهر فقط مستوى معتدل من الأدلة (استنادًا إلى الجودة المنهجية، عدد الدراسات، ونتائج الدراسات) في مراجعة منهجية حديثة . من غير المفاجئ أن كانت نتائج تقييم SPFES البشري هي الأسوأ في الدراسة الحالية. ومع ذلك، ربما تكون المساهمة الأكثر أهمية لدراستنا هي تقديم إطار حيث يمكن تقييم أداء التقييم البشري مقابل التقييم الآلي: باستخدام نفس البيانات، واستنادًا إلى نفس المدخلات البصرية. عند قياس الأداء في هذا الإطار باستخدام مقياس AUC، تتفوق الآلة على الخبراء البشريين باستخدام كل من USAPS و SPFES في التعرف على الألم.
تستخدم ‘الحقيقة الأساسية’ في هذا الإطار النقاط الزمنية قبل وبعد الجراحة، والتي تُستخدم لتعريف الفئات لا ألم/ألم على التوالي لقياس أداء التعرف على الألم. ومع ذلك، فإن الألم هو إحساس فردي، وعلى عكس البشر، لا يمكننا التواصل بسهولة مع الحيوانات. لذلك، فإن التغيرات السلوكية هي على ما يبدو أفضل طريقة لتشخيص الألم السريري في الحيوانات .
وفقًا لما سبق، قد يدعي المرء أن استخدام النقاط الزمنية قد يكون غير كافٍ للتأكد من أن الأغنام لا تعاني من الألم قبل الجراحة، بينما بعد الجراحة تعاني منه، وبالتالي قد لا تكون هذه ‘الحقيقة الأساسية’ دقيقة وقد تؤثر على الأداء المقاس لكل من البشر والآلة. تم إجراء تجربتنا مع مجموعة البيانات المخفضة من الأفراد للتحقيق في هذه المسألة. تقدم الجدول 3 النتائج، موضحة انخفاضًا طفيفًا في الدقة في أداء الآلة، مع انخفاض أكبر في دقة الأداء البشري، مع استمرار تفوق الآلة على التقييم الوجهي البشري. وبالتالي، تبقى استنتاجاتنا بأن تقييم الألم باستخدام تعبير الوجه كان أكثر دقة مع الذكاء الاصطناعي من التقدير البشري صحيحة في ظل هذه الظروف الجديدة والأكثر صرامة. لا يزال السؤال حول ما تكتشفه الآلة في تعبيرات الألم الوجهية يتجاوز ما يراه البشر مفتوحًا. من المحتمل أن يكون ذلك خارج وحدات الحركة، حيث لم تكن نتائج الآلة باستخدام الوحدات الوجهية واعدة جدًا .
جانب آخر من نموذج الذكاء الاصطناعي المقدم هنا هو أنه يستخدم صورتين – كل من الأمامية والجانبية. ومع ذلك، تم فرض ذلك من خلال هدفنا لمطابقة المعلومات البصرية المقدمة للبشر عند التقييم باستخدام SPFES. لذلك، أجرينا أيضًا تجارب باستخدام جانب واحد فقط، وحققنا دقة تزيد عن مع العرض الأمامي، وأداء أقل قليلاً ( ) مع العرض الجانبي.
يمكن تفسير أهمية العرضين الأمامي والجانبي لكل من التقييم الآلي والبشري من خلال حقيقة أنه فقط في العرض الجانبي يمكن رؤية شد عضلات الخد وملف الشفاه والفك غير الطبيعي، بينما يسمح العرض الأمامي فقط بملاحظة شكل فتحتي الأنف والفم غير الطبيعي. يوفر كل عرض معلومات عن شد المدار، ومن المحتمل أن تكون كلا العرضين ضروريين لتقييم وضع الأذن غير الطبيعي. وهذا يفسر لماذا تم تقييم العنصر الأخير في كلا العرضين من قبل البشر وكان الحد الأقصى للتقييم الكلي 12.
يجب ملاحظة أنه بينما تتفوق الآلة على البشر عندما يستخدم البشر SPFES، فإن الأخير ليس ‘المعيار الذهبي’ في مجال تقييم ألم الأغنام . الاعتماد على صور عالية الجودة مع عرضين هو أحد أهم القيود لهذه الطريقة وقد تم تناول مزايا وعيوب المراقبة الآلية الشخصية أو عن بُعد سابقًا . يعتبر USAPS معلومات سلوكية جسدية ويعتبر طريقة أكثر دقة من SPFES . على الرغم من أن مقارنة الآلة بـ USAPS قد لا تكون عادلة، حيث أن الآلة لديها فقط الوصول إلى الصور الأمامية والجانبية، بينما يراقب الإنسان باستخدام USAPS سلوك الحيوان على مدى فترة من الزمن، لا يزال الجدول 1 يظهر أن الآلة تتفوق على الخبراء البشريين أيضًا في هذه الحالة، على الرغم من أن التحسن لم يكن ذا دلالة. وهذا يشير إلى إمكانات كبيرة لتطوير أنابيب الذكاء الاصطناعي المستقبلية التي تنظر إلى السلوك وتضم البعد الزمني. دراستنا الأخيرة حول ألم الأرانب هي خطوة أولى في هذا الاتجاه.
نقطة مهمة أخرى يجب تناولها هي أنه تم تقييم النقاط الزمنية القصوى فقط (لا ألم وألم محتمل شديد) بواسطة الآلة، لذلك من الضروري تضمين نقاط زمنية أخرى (بعد التخدير و 24 ساعة بعد الجراحة) كما تم القيام به في الدراسة السلوكية ، للتحقق مما إذا كانت الآلة تؤدي بشكل جيد في تشخيص الألم الخفيف والمتوسط أيضًا. يعد التحقيق الأكثر منهجية في قابلية تفسير النماذج التي تم الحصول عليها على غرار اتجاهًا إضافيًا فوريًا في المستقبل. يمكن أن يوفر هذا النوع من التحقيق رؤى إضافية حول الميزات الوجهية المحددة التي تستخدمها النماذج لاكتشاف الألم وقد تعزز طرق التعرف على الألم البشرية في الأغنام. تحدٍ عملي للبحث والتطوير المستقبلي هو تضمين نتائجنا في تطبيق قادر على التعرف التلقائي على الألم في الحيوانات مثل التطبيق المتاح لتقييم الألم البشري
تقييم سلوك الألم في الحيوانات في جميع الأنواع المنزلية (Vetpain) ومقياس تعبيرات الألم القططية (https: //www.felinegrimacescale.com).
قد تترك تداعيات نتائج هذه الدراسة العديد من الأطباء البيطريين في حالة من الذهول، حيث قد يواجهون، مثل غاري كاسباروف في عام 1997، لحظتهم الخاصة ‘ديب بلو’. من المبكر جداً القول بذلك، وهناك حاجة إلى مزيد من البحث مع المزيد من البيانات واستكشاف نماذج وهياكل أخرى. أيضاً، قد يتم تطوير أدوات جديدة وأكثر دقة لتقييم الألم في المستقبل. ومع ذلك، نحتاج إلى أن نكون واعين لمدى بطء عملية التحقق العلمي من مثل هذه الأدوات. وتيرة تطوير الذكاء الاصطناعي أعلى بكثير، مما يجبرنا على أن نعلن (بحذر): “خبراء البشر، تفسحوا المجال للذكاء الاصطناعي!”

توفر البيانات

البيانات المستخدمة في هذه الدراسة متاحة عند الطلب من المؤلف المراسل.
تاريخ الاستلام: 25 أكتوبر 2023؛ تاريخ القبول: 18 ديسمبر 2024
تم النشر على الإنترنت: 03 يناير 2025

References

  1. Davenport, T. & Kalakota, R. The potential for artificial intelligence in healthcare. Fut. Healthc. J. 6(2), 94 (2019).
  2. Bajwa, J., Munir, U., Nori, A. & Williams, B. Artificial intelligence in healthcare: Transforming the practice of medicine. Fut. Healthc. J. 8(2), 188 (2021).
  3. Zamzmi, G. et al. A review of automated pain assessment in infants: Features, classification tasks, and databases. IEEE Rev. Biomed. Eng. 11, 77-96 (2017).
  4. Atee, M., Hoti, K. & Hughes, J. Painchek use in clinical practice: An artificial intelligence (AI) assisted-pain assessment tool for aged care residents with dementia. In: 17th IASP World Congress on Pain 2018 (2018).
  5. Hoti, K., Chivers, P. T. & Hughes, J. D. Assessing procedural pain in infants: A feasibility study evaluating a point-of-care mobile solution based on automated facial analysis. The Lancet Digital Health 3(10), 623-634 (2021).
  6. Hughes, J. D., Chivers, P. & Hoti, K. The clinical suitability of an artificial intelligence-enabled pain assessment tool for use in infants: Feasibility and usability evaluation study. J. Med. Internet Res. 25, 41992 (2023).
  7. Broome, S. et al. Going deeper than tracking: A survey of computer-vision based recognition of animal pain and emotions. Int. J. Comput. Vision 131(2), 572-590 (2023).
  8. Andresen, N. et al. Towards a fully automated surveillance of well-being status in laboratory mice using deep learning: Starting with facial expression analysis. PLoS ONE 15(4), 0228059 (2020).
  9. Tuttle, A. H. et al. A deep neural network to assess spontaneous pain from mouse facial expressions. Mol. Pain 14, 1744806918763658 (2018).
  10. Lencioni, G. C., de Sousa, R. V., de Souza Sardinha, E. J., Corrêa, R. R. & Zanella, A. J. Pain assessment in horses using automatic facial expression recognition through deep learning-based modeling. PLoS ONE 16(10), 0258672 (2021).
  11. Broomé, S., Gleerup, K.B., Andersen, P.H. & Kjellstrom, H. Dynamics are important for the recognition of equine pain in video. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 12667-12676 (2019).
  12. Pessanha, F., Salah, A. A., Loon, T. V. & Veltkamp, R. Facial image-based automatic assessment of equine pain. IEEE Trans. Affect. Comput.[SPACE]https://doi.org/10.1109/TAFFC.2022.3177639 (2022).
  13. Feighelstein, M. et al. Automated recognition of pain in cats. Sci. Rep. 12(1), 9575 (2022).
  14. Feighelstein, M. et al. Explainable automated pain recognition in cats. Sci. Rep. 13(1), 8973 (2023).
  15. Feighelstein, M. et al. Deep learning for video-based automated pain recognition in rabbits. Sci. Rep. 13(1), 14679 (2023).
  16. Zhu, H., Salgırlı, Y., Can, P., Atılgan, D. & Salah, A.A. Video-based estimation of pain indicators in dogs. arXiv preprint arXiv:2209.13296 (2022).
  17. Mahmoud, M., Lu, Y., Hou, X., McLennan, K. & Robinson, P. Estimation of pain in sheep using computer vision. Handbook of Pain and Palliative Care: Biopsychosocial and environmental approaches for the life course, 145-157 (2018).
  18. Pessanha, F., McLennan, K. & Mahmoud, M. Towards automatic monitoring of disease progression in sheep: A hierarchical model for sheep facial expressions analysis from video. In: 2020 15th IEEE international conference on automatic face and gesture recognition (FG 2020), pp. 387-393 (2020).
  19. McLennan, K. & Mahmoud, M. Development of an automated pain facial expression detection system for sheep (ovis aries). Animals 9(4), 196 (2019).
  20. Labus, J. S., Keefe, F. J. & Jensen, M. P. Self-reports of pain intensity and direct observations of pain behavior: When are they correlated?. Pain 102(1-2), 109-124 (2003).
  21. Barrett, L. F. Feelings or words? Understanding the content in self-report ratings of experienced emotion. J. Pers. Soc. Psychol. 87(2), 266-281 (2004).
  22. Mogil, J. S., Pang, D. S., Dutra, G. G. S. & Chambers, C. T. The development and use of facial grimace scales for pain measurement in animals. Neurosci. Biobehav. Rev. 116, 480-493 (2020).
  23. Sotocina, S. G. et al. The rat grimace scale: A partially automated method for quantifying pain in the laboratory rat via facial expressions. Mol. Pain 7, 1744-8069 (2011).
  24. Keating, S. C., Thomas, A. A., Flecknell, P. A. & Leach, M. C. Evaluation of EMLA cream for preventing pain during tattooing of rabbits: Changes in physiological, behavioural and facial expression responses. PloS one[SPACE], https://doi.org/10.1371/journal. pone. 0044437 (2012).
  25. Dalla Costa, E. et al. Development of the horse grimace scale (hgs) as a pain assessment tool in horses undergoing routine castration. PLoS ONE 9(3), 92281 (2014).
  26. Di Giminiani, P. et al. The assessment of facial expressions in piglets undergoing tail docking and castration: Toward the development of the piglet grimace scale. Front. Veter. Sci. 3, 100 (2016).
  27. Reijgwart, M. L. et al. The composition and initial evaluation of a grimace scale in ferrets after surgical implantation of a telemetry probe. PLoS ONE 12(11), 0187986 (2017).
  28. McLennan, K. M. et al. Development of a facial expression scale using footrot and mastitis as models of pain in sheep. Appl. Anim. Behav. Sci. 176, 19-26 (2016).
  29. Häger, C. et al. The sheep grimace scale as an indicator of post-operative distress and pain in laboratory sheep. PLoS ONE 12(4), 0175839 (2017).
  30. Holden, E. et al. Evaluation of facial expression in acute pain in cats. J. Small Anim. Pract. 55(12), 615-621 (2014).
  31. Evangelista, M. C. et al. Facial expressions of pain in cats: The development and validation of a feline grimace scale. Sci. Report 9 (1), 1-11 (2019).
  32. Brondani, J. T. et al. Validation of the english version of the unesp-botucatu multidimensional composite pain scale for assessing postoperative pain in cats. BMC Vet. Res. 9(1), 1-15 (2013).
  33. Reid, J. et al. Development of the short-form glasgow composite measure pain scale (cmps-sf) and derivation of an analgesic intervention score. Anim. Welf. 16(S1), 97-104 (2007).
  34. Haddad Pinho, R. et al. Validation of the rabbit pain behaviour scale (rpbs) to assess acute postoperative pain in rabbits (oryctolagus cuniculus). PLoS One 17(5), 0268973 (2022).
  35. Luna, S. P. L. et al. Validation of the unesp-botucatu pig composite acute pain scale (upaps). PLoS One 15(6), 0233552 (2020).
  36. Fonseca, M. W. et al. Development and validation of the unesp-botucatu goat acute pain scale. Animals 13(13), 2136 (2023).
  37. Silva, N. et al. Correction: Validation of the unesp-botucatu composite scale to assess acute postoperative abdominal pain in sheep (usaps). PLoS ONE 17, 0268305. https://doi.org/10.1371/journal.pone. 0268305 (2022).
  38. Oliveira, M. G. et al. Validation of the donkey pain scale (dops) for assessing postoperative pain in donkeys. Front. Veter. Sci. 8, 671330 (2021).
  39. de Oliveira, F. A. et al. Validation of the unesp-botucatu unidimensional composite pain scale for assessing postoperative pain in cattle. BMC Veter. Res. 10, 1-14 (2014).
  40. De Sario, G. D. et al. Using ai to detect pain through facial expressions: A review. Bioengineering 10(5), 548 (2023).
  41. Robinson, M. E. & Wise, E. A. Gender bias in the observation of experimental pain. Pain 104(1-2), 259-264 (2003).
  42. Contreras-Huerta, L. S., Baker, K. S., Reynolds, K. J., Batalha, L. & Cunnington, R. Racial bias in neural empathic responses to pain. PLoS ONE 8(12), 84001 (2013).
  43. Adami, C., Filipas, M., John, C., Skews, K. & Dobson, E. Inter-observer reliability of three feline pain scales used in clinical practice. J. Feline Med. Surg. 25(9), 1098612-231194423 (2023).
  44. Reid, J., Scott, E., Calvo, G. & Nolan, A. Definitive glasgow acute pain scale for cats: Validation and intervention level. Veterin. Record. [SPACE], https://doi.org/10.1136/vr. 104208 (2017).
  45. Shipley, H., Guedes, A., Graham, L., Goudie-DeAngelis, E. & Wendt-Hornickle, E. Preliminary appraisal of the reliability and validity of the colorado state university feline acute pain scale. J. Feline Med. Surg. 21(4), 335-339 (2019).
  46. Weber, G., Morton, J. & Keates, H. Postoperative pain and perioperative analgesic administration in dogs: Practices, attitudes and beliefs of Queensland veterinarians. Aust. Vet. J. 90(5), 186-193 (2012).
  47. Williams, V., Lascelles, B. & Robson, M. Current attitudes to, and use of, peri-operative analgesia in dogs and cats by veterinarians in New Zealand. N. Z. Vet. J. 53(3), 193-202 (2005).
  48. Bell, A., Helm, J. & Reid, J. Veterinarians’ attitudes to chronic pain in dogs. Veter. Record 175(17), 428-428 (2014).
  49. Kilkenny, C., Browne, W., Cuthill, I. C., Emerson, M. & Altman, D. G. Animal research: Reporting in vivo experiments: The arrive guidelines. Br. J. Pharmacol. 160(7), 1577 (2010).
  50. Banks, R. The Four Rs of research. Contemp. Top. Lab. Anim. Sci. 34(1), 50-51 (1995).
  51. Russell, W.M.S. & Burch, R.L. The principles of humane experimental technique. Methuen, (1959).
  52. Teixeira, P. et al. Ovariectomy by laparotomy, a video-assisted approach or a complete laparoscopic technique in santa ines sheep. Small Rumin. Res. 99(2-3), 199-202 (2011).
  53. McLennan, K. M. et al. Development of a facial expression scale using footrot and mastitis as models of pain in sheep. Appl. Anim. Behav. Sci. 176, 19-26. https://doi.org/10.1016/j.applanim.2016.01.007 (2016).
  54. Vikramkumar, Vijaykumar, B., Trilochan: Bayes and naive bayes classifier. arXiv:abs/1404.0933 (2014).
  55. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In: International conference on machine learning, pp. 8748-8763 (2021). PMLR.
  56. Li, J. et al. Feature selection: A data perspective. ACM Comput. Surv. (CSUR) 50(6), 1-45 (2017).
  57. DeLong, E. R., DeLong, D. M. & Clarke-Pearson, D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: A nonparametric approach. Biometrics 44(3), 837-845 (1988).
  58. Lu, Y., Mahmoud, M. & Robinson, P. Estimating sheep pain level using facial action unit detection. In: 2017 12th IEEE International conference on automatic face & gesture recognition (FG 2017), IEEE, pp. 394-399 (2017).
  59. Evangelista, M. C., Monteiro, B. P. & Steagall, P. V. Measurement properties of grimace scales for pain assessment in nonhuman mammals: A systematic review. Pain 163(6), 697-714 (2022).
  60. Tomacheuski, R. M., Monteiro, B. P., Evangelista, M. C., Luna, S. P. L. & Steagall, P. V. Measurement properties of pain scoring instruments in farm animals: A systematic review using the cosmin checklist. PLoS ONE 18(1), 0280830 (2023).

الشكر والتقدير

تم دعم المؤلفين الأول والأخير من قبل برنامج منحة البحث المشترك بين SNSF-ISF (رقم المنحة 1050/24).

مساهمات المؤلفين

MF و SL و NS و PT و AZ تصوروا الدراسة؛ MF أجرى التجارب؛ جميع المؤلفين قاموا بتحليل البيانات وشاركوا في كتابة المخطوطة.

معلومات إضافية

يجب توجيه المراسلات وطلبات المواد إلى M.F. أو A.Z.
معلومات إعادة الطبع والتصاريح متاحة على www.nature.com/reprints.
ملاحظة الناشر تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام غير التجاري بدون اشتقاقات 4.0 الدولية، والتي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة واستخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© المؤلفون 2025

  1. قسم نظم المعلومات، جامعة حيفا، حيفا، إسرائيل. كلية الطب البيطري وعلوم الحيوان، جامعة ولاية ساو باولو (يونيسب)، ساو باولو، البرازيل. قسم علم الأمراض السكانية، جامعة ولاية كارولينا الشمالية، رالي، الولايات المتحدة الأمريكية. قسم علوم الحاسوب والمعلومات، جامعة نورثومبريا، نيوكاسل أبون تاين، المملكة المتحدة. البريد الإلكتروني: feighels@gmail.com; annazam@is.haifa.ac.il; annazam@gmail.com

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-83950-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39754012
Publication Date: 2025-01-03

OPEN

Comparison between AI and human expert performance in acute pain assessment in sheep

Abstract

Marcelo Feighelstein Dirk van der Linden & Anna Zamansky

This study explores the question whether Artificial Intelligence (AI) can outperform human experts in animal pain recognition using sheep as a case study. It uses a dataset of sheep undergoing surgery with video recordings taken before (no pain) and after (pain) surgery. Four veterinary experts used two types of pain scoring scales: the sheep facial expression scale (SFPES) and the Unesp-Botucatu composite behavioral scale (USAPS), which is the ‘golden standard’ in sheep pain assessment. The developed AI pipeline based on CLIP encoder significantly outperformed human facial scoring (AUC difference ) when having access to the same visual information (front and lateral face images). It further effectively equaled human USAPS behavioral scoring (AUC difference ), but the small improvement was not statistically significant. The fact that the machine can outperform human experts in recognizing pain in sheep when exposed to the same visual information has significant implications for clinical practice, which warrant further scientific discussion.

“Deep Blue was intelligent the way your programmable alarm clock is intelligent. Not that losing to a 10$ million alarm clock made me feel any better.”
Garry Kasparov, 1997.
The use of artificial intelligence (AI) in healthcare by utilizing machine learning (ML) algorithms and data analysis techniques is a real game-changer, resulting in better patient outcomes, better use of resources, and lower operating costs . In pain assessment, AI can play an important role in automated non-invasive analysis of behavioral parameters, such as facial expressions and body language. Unsurprisingly, in recent years an increasing amount of works have addressed automation of pain assessment in infants (see Zamzmi et al. for a review). Only recently the first AI-based mobile app for pain assessment in non-verbal patients, PainChek, based solely on facial expression analysis was released . Earlier this year it was evaluated for the first time in the context of procedural pain assessment and monitoring in clinical practice, demonstrating high accuracy (area under the curve 0.964 and 0.966 , respectively), and precision above .
The interest in automated approaches for animal pain recognition has also drastically increased in recent years. Broome et al. provides a review of more than twenty studies addressing video-based automated recognition of affect and pain in animals, with the majority of works focusing on the latter. Automated pain assessment and recognition has been investigated mostly for rodents , horses , and most recently cats , rabbits and dogs . Sheep have also been addressed in this context, see, e.g., , however accuracy reached was quite low (around ), partially due to the challenging nature of data collected in farm settings.
Since pain is an internal state that is difficult to measure, the establishment of ground truth is a major challenge in pain research. In the human domain, self-reporting is considered one of the most unobtrusive and non-invasive methods for establishing ground truth in pain and emotion research . However, in humans not able to verbally communicate their pain, and in animals, a ground truth of the pain experience is lacking.
Behavior scoring by human experts is the most common approach for pain assessment in animals.
The first animal grimace scales were developed for rodents and they are now available for many mammalian species , including rats , rabbits , horses , pigs , ferrets , sheep and cats . Numerous instruments
based on behavior have also been validated for domestic species, like cats , dogs , rabbits , pigs , goats , sheep , horses , donkeys and cattle .
Yet even validated pain assessment methods are limited by the observer’s previous training and ability to interpret the pain responses accurately , as well as by observers’ various biases, like gender, fatigue, experience and time consumption . Adami et al. recently evaluated the inter-observer reliability of three feline pain scales commonly used in clinical practice: the Glasgow Feline Composite Measure Pain Scale (CMPS-Feline ), the Colorado State University Feline Acute Pain Scale (CSU-FAPS ) and the Feline Grimace Scale (FGS ). The reliability was found to range in most cases from poor to fair/moderate, suggesting that subjectivity is a considerable limitation of these tools specifically designed to quantify pain in cats. It is thus important to highlight the intrinsic subjectivity of such methods, as well as their potential variability of outcome between assessors with different backgrounds and level of expertise. Many veterinarians acknowledge difficulties recognizing pain and consider their knowledge in assessment and treatment of pain inadequate . Difficulties with pain assessment is also conceived a significant barrier of veterinarians to adequate treatment of chronic pain . Due to the inherent limitations of a subjective manual scoring, there is no question that human scoring methods can be digitally enhanced to be less susceptible to human error, subjectivity and bias. The question is, therefore: is automated pain assessment mature enough to be a game changer in the domain of animal pain assessment? And can machines outperform human experts in this task?
When answering these questions, the devil is, of course, in the details. No matter how we measure performance, we need to have a way to objectively establish ground truth, which does not rely on human scoring, which in itself is being scrutinized. As highlighted in , this is standardly achieved in strict experimental conditions, where pain is either induced or timed (using time moments, e.g., before and after surgical procedures). The former can refer to experimental induction of clinical short term reversible moderate pain using models known from human volunteers. In , e.g., two ethically regulated methods for experimental pain induction were used: a blood pressure cuff placed around one of the forelimbs of horses, or the application of capsaicin (chili extract) on the skin of the horse. The latter refers to timing data collection before and after a clinical procedure. For instance, in videos of female cats undergoing ovariohysterectomy were recorded at different time points pre- and postsurgery.
Due to the obvious difficulties in collecting such data in the context of animal pain, datasets collected in strict experimental settings are extremely scarce. The dataset collected in the study for validating the Unesp-Botucatu composite scale (USAPS) to assess acute postoperative abdominal pain in sheep and defining a cut-off point for analgesic intervention presents an interesting opportunity in this regard, which we explore in this paper.
Another important issue when comparing performance of human vs. machine is whether both are exposed to the same visual information in the same way. The SFPES-based human scoring uses two facial images: front and lateral view, and this is also the input to our AI model. The behavioral USAPS scale uses a video of the animal, and thus it could be the case that human experts may have more visual nformation of the body language than the machine.
The dispute between machine and humans in the task of sheep pain recognition is now all set. We, therefore, investigate the question: can a machine outperform human experts in sheep pain recognition. More precisely, we hypothesize that a machine learning algorithm can outperform human experts in sheep pain recognition when the latter is measured e.g., using the SFPES scoring (using the appropriate cut-off point). The developed algorithm uses a deep learning pipeline, which uses a CLIP encoder for feature extraction and a Naive Base classification model for pain recognition.

Methods

The dataset

The dataset used in this study was collected in a previous study validating the Unesp-Botucatu composite scale to assess acute postoperative abdominal pain in sheep . The study was approved by the Ethics Committee on Animal Use from the School of Veterinary Medicine and Animal Science, São Paulo State University (Unesp), Botucatu, São Paulo, Brazil, under protocol 0027/2017 and followed the recommendations of ARRIVE , adapted to the experimental design. Details about housing, management, anesthetic, surgical and analgesic procedures can be found in the previous study . We understand that database reuse for new analysis contributes to the four Rs of animal experimentation (reduce, replace, refine, and responsibility) .
The dataset is composed of video recordings of 48 sheep (Ovis Aires) of three breeds (17 Bergamacia, 18 Lacaune, and 13 Dorper). The animals were submitted to abdominal surgery and video recordings were taken one hour before surgery (M1) and at the predicted time of greatest pain, between three and four hours after the end of surgery (M2). In addition, frontal and lateral photographs of the sheep faces were taken at the same time points. In the original study these videos and photos were randomly and blindly analyzed twice by four observers within one-month interval to calculate repeatability. We constructed the full image dataset for our study containing a total of 96 images with frontal and lateral facial images ( 48 sheep x 2 stages x 2 sides): 96 ‘pain’ ( 48 lateral, 48 frontal) and 96 ‘no pain’ ( 48 lateral, 48 frontal).
These images were divided into two classes: No Pain (stage M1; before surgery) and Pain (stage M2; after surgery).
The reduced dataset. Establishing the ‘ground truth’ using time points may be insufficient for making sure at time point M1 sheep do not experience pain, while at M2 they do experience it, and thus this ‘ground truth’ may not be accurate and may impact the measured performance of both humans and machine. To further investigate this issue, we created a reduced dataset integrating USAPS measurement into ‘ground truth’ establishment. More specifically, we removed 4 samples having an average score of all observers indicating “No Pain” label ( ) at time point M2 (after surgery) and 5 samples having an average score of all observers indicating
Fig. 1. Example of frontal images: Sheep 1: no pain; pain; Sheep 17: no pain; pain.
Fig. 2. Example of lateral images: Sheep 1: no pain; pain; Sheep 17: no pain; pain.
Fig. 3. Pipeline description.
“Pain” ( ) at time point M1 (before surgery). Overall, removing 9 samples, we remained with a reduced dataset of N’=39 individuals.
Examples of frontal and lateral images are shown in Figs. 1 and 2.

Pain recognition by human experts

Our ground truth was established by the timepoint labels of the images: M2 (class Pain) and M1 (class No Pain), to which both human and machine scoring were compared using metrics described below. The first human scoring method was based on the sheep pain facial expression scale developed in . It uses both frontal and lateral face images and scores five facial areas using a three-point scale not present, partially present, present): orbital tightness, cheek tightness, ear position, lip and jaw profile, and nostril and philtrum position. A total pain score is determined by adding the individual scores for each of the five areas for each set of photographs, with the maximum possible score being 12 (i.e. a score of 2 for each of the facial areas and lateral and frontal view of ear position). The calculation of the Youden index which is the intersection point of simultaneous greatest sensitivity and specificity (sensitivity + specificity-1) determined by the receiver operating characteristic curve led to the definition of the Cut-Off point for analgesia as 4 (this result had not been published until now).
The second human scoring method was the USAPS based on body behavioral scoring. The USAPS was validated in to assess acute postoperative abdominal pain in sheep. The USAPS items refer to interaction, activity, locomotion, appetite, head position, and posture, and each of them is scored on a scale between 0 and 2 , with a maximal overall score of 12; The above mentioned Cut-Off point 4 for analgesia was used for establishing the Pain and No Pain classes. Four independent experts performed both of the scoring tasks, reaching above moderate inter-observer reliability ( , each expert repeating each scoring two times (phases). A total of 768 observations were collected ( 48 sheep × 2 classes (pain or no pain) x 4 observers x 2 phases). For moving from scoring to recognition (class Pain/No Pain), the scores were then calculated using the appropriate cut-off point ( for USAPS and SPFES) on each score. Calculations were also performed for the USAPS cut-off point to avoid the diagnostic uncertainty zone as indicates sheep truly suffering pain (true positives). To summarize, the way we obtain the two human scores to which we refer as USAPS and SPFES is by (i) aggregation of experts scoring each image (on a scale 0-12), (ii) transforming to pain/no pain (binary score) using appropriate cut-off points.
Method Accuracy Recall Precision F1 Sensitivity Specificity
USAPS Cut-Off 4 0.7956 0.8776 0.7539 0.8111 0.8776 0.7135
USAPS Cut-Off 5 0.8177 0.8411 0.8034 0.8219 0.8411 0.7943
SPFES Cut-Off 4 0.7083 0.8672 0.6581 0.7483 0.8672 0.5495
Machine 0.8229 0.8125 0.8298 0.8211 0.8125 0.8333
Table 1. Machine performance and its comparison to humans.
ML SFPES
AUC 0.823 0.796 0.818 0.708
Table 2. AUCs Comparison; ML is the machine learning algorithm. and is the UnespBotucatu Sheep Acute Pain Scale using Cut-Off points 4 and 5 respectively; SPFES is the Sheep Pain Facial Expression Scale.
Method Accuracy Recall Precision F1 Sensitivity Specificity
USAPS 0.8365 0.9199 0.7884 0.8491 0.9199 0.7532
SPFES 0.7276 0.9038 0.6682 0.7684 0.9038 0.5512
Machine 0.7949 0.8462 0.7674 0.8049 0.8462 0.7436
Table 3. Comparison using the reduced dataset (using USAPS Cut-Off Point 4).

Pain recognition by machine

An AI pipeline consisting of two components was developed for automated pain recognition. The pipeline is depicted in Fig. 3. It uses a CLIP encoder for feature extraction of both frontal and lateral facial images of sheep on a certain pain state and the Naive Bayes classifier for pain recognition.
The CLIP encoding is a process of mapping images into a high-dimensional embedding space, where each image is represented by a unique embedding vector. The CLIP encoder achieves this by pre-training a neural network on a large dataset of image and text pairs using a contrastive loss function.
Once obtained the CLIP 768-dimensional embedding vectors of the frontal and lateral facial images of a sheep, we concatenate them into a single 1536 -dimensional vector representing the embedding of both images.
The Naive Bayes classification model is a probabilistic algorithm used for classification tasks in machine learning, which is computationally efficient and can work well even with small amounts of training data.
We evaluate the performance of the classification model using leave-one-animal-out cross-validation with no animal overlap. Due to the relatively low numbers of sheep ( ) and of image samples ( classes sides) in the dataset, this method is appropriate . By separating the images of individuals used for training and testing respectively, we enforce generalization to unseen subjects and ensure that no specific features of an individual are used for classification.
In the training process we used feature selection to improve the classification performance by reducing the dimensionality of the input space and eliminating redundant or irrelevant features that may cause overfitting or increase the computational complexity of the model.

Performance metrics

We evaluate the ML pipeline performance (and compare it to human) using standard metrics commonly used in the literature: accuracy, precision, recall, F1, sensitivity and specificity .

Statistical analysis

For a statistical analysis of the performance, we compared areas under the receiver operating characteristic curve (AUCs) with DeLong test . The AUC represents an index to evaluate the classification performance, that varies from 0 to 100 . Accuracy is considered low when values are between 0.50 and 0.70 , moderate between 0.70 and 0.90 and high when above 0.90. Data were analyzed using Jamovi software (https://www.jamovi.org; version 2.3.28.0; Jamovi project (2023)), using Test ROC from the psychoPDA package (version 1.0.5).
A Shapiro-wilk test of normality indicated all four considered data distributions were not normally distributed (Shapiro-wilk resp. with a ).

Results

Table 1 presents the performance metrics of the machine vs. human scoring based on USAPS and SPFES. The machine outperformed human scoring in terms of accuracy, precision, specificity and F1.
Table 2 presents the AUC comparison between the machine and the two human scoring methods. Pair-wise comparisons indicated that the machine significantly outperforms SPFES (AUC difference ).
The machine further effectively equals both USAPS (Cut-Off 4) (AUC difference ), and USAPS (Cut-Off 5) (AUC difference ), but the small improvement was not statistically significant.
Table 3 presents the results of the comparison using the reduced dataset with USAPS Cut-Off point 4 . In terms of accuracy, we see a small drop in machine performance, and a larger drop in human SPFES performance, with machine still outperforming SPFES in terms of accuracy and F1.

Discussion

The answer to our question whether machine outperforms human experts in recognizing pain in sheep when being exposed to the same visual information was affirmative. The improvement of the machine over facial scoring (SPFES) was found significant, showing a better diagnostic performance. Moreover, the machine was higher than both methods of human scoring (USAPS and SFPES) in accuracy, precision, recall, specificity and sensitivity.
The problem of automation of sheep pain recognition has already been addressed with the aim to automate the SPFES scale. The pipeline presented in automatically recognizes facial action units and uses them to predict pain level.
The approach for automating sheep pain recognition taken in automate the SPFES scale, using landmarks to localize facial regions of interest, and then extracts histograms of oriented gradients features from these regions, applying a support vector machine (SVM) model to assess the facial action units. Their pipeline reached an overall accuracy of just , whereas the accuracy of our model is above . Thus the AI pipeline presented in this study significantly outperforms existing AI solutions for sheep pain recognition. The reason behind this finding is probably related to the limitation for human detection of some facial action units and that SPFES exhibited only moderate level of evidence (based on methodological quality, number of studies, and studies’ findings) in a recent systematic review . Unsurprisingly the human assessment SPFES results were the worse in the current study. However, perhaps a more important contribution of our study is presenting a framework where performance of human scoring can be evaluated against machine scoring: using the same data, and based on the same visual input. Measuring the performance in this framework using the AUC metric, the machine outperforms human experts using both USAPS and SPFES in pain recognition.
The ‘ground truth’ used in this framework are the time points before and after surgery, which are used for the definition of the classes No Pain/Pain respectively for measuring pain recognition performance. However, pain is an individual-based sensation and unlike with humans, we cannot easily communicate with animals. Therefore, the behavioral changes are apparently the best way to diagnose clinical pain in animals .
According to the above one may claim the use of time points may be insufficient for making sure sheep do not experience pain before surgery, while after surgery they experience it, and thus this ‘ground truth’ may not be accurate and may impact the measured performance of both humans and the machine. Our experiment with the reduced dataset of individuals was performed to investigate this issue. Table 3 presents the results, showing a small drop in accuracy in the machine performance, with a larger drop in accuracy of human performance, with the machine still far outperforming human facial scoring. Thus our conclusion that assessing pain using facial expression was more accurate with AI than with human estimation remains valid under these new, stricter conditions. The question of what the machine is detecting in facial pain expressions beyond what humans see is still open. It is probably beyond the action units, as results of the machine by using facial units was not so promising .
Another aspect of the AI model presented here is that it uses two images – both front and side. However, this was imposed by our aim to match the visual information presented to the human when scoring with SFPES. Therefore, we also ran experiments with just one side, reaching accuracy of above with frontal view, and a slightly lower performance ( ) with lateral view.
The importance of front and lateral views for both machine and human assessments can be explaind by the fact that only in the lateral view cheek muscle tightening and abnormal lip and jaw profile can be viewed, while only the frontal view allows the observation of abnormal nostril and muzzle shape. Either view provides information on orbital tightening, and both views are probably necessary to assess abnormal ear position. That explains why the last item was assessed in both views by humans and total maximum score was 12 .
It should be noted that while the machine outperforms humans when humans use SFPES, the latter is not the ‘golden standard’ in the field of sheep pain assessment . The dependence on good quality images with two views is one of the most important limitations for this method and pros and cons of in-person or remote automated monitoring have been previously addressed . USAPS uses body behavioral information and is considered a more accurate method than SFPES . Although comparing the machine to USAPS may not be fair, as the machine only has access to frontal and side images, while a human using USAPS observes the animal’s behavior over a period of time, Table 1 still shows that the machine outperforms human experts also in this case, although the improvement was not found significant. This indicates a great potential for the development of future AI pipelines looking at behavior and including the temporal dimension. Our recent study on rabbit pain is a first step in this direction.
Another important point to address is that only the extreme time points (no pain and possible intense pain) were assessed by machine, therefore it is necessary to include other time points (after analgesia and 24 h after surgery) as performed in the behavioral study , to check if machine does well in diagnosing mild and moderate pain as well. A more systematic investigation of explainability of the obtained models along the lines of is an additional immediate future direction. This type of investigation can provide further insights into the specific facial features utilized by the models to detect pain and potentially enhance human methods of pain recognition in sheep. A pragmatical challenge for future research and development is to include our findings into an application capable of automatic recognition of pain in animals like the application available for human
assessment of animal pain body behavior in all domestic species (Vetpain) and the Feline Grimace Scale (https: //www.felinegrimacescale.com).
The implications of the findings of this study may leave many veterinarians speechless, as, like Garry Kasparov in 1997, they may be about to face their own ‘Deep Blue moment’. It is too early to say that, and much more research is needed with more data and exploring other models and architectures. Also, novel and more accurate pain assessment instruments may be developed in the future. However, we need to be mindful of how slow the process of a scientific validation of such instruments is. The pace of AI development is significantly higher, compelling us to proclaim (with caution): “Human Experts, Make Way for AI!”

Data availability

The data used in this study is available upon request from the corresponding author.
Received: 25 October 2023; Accepted: 18 December 2024
Published online: 03 January 2025

References

  1. Davenport, T. & Kalakota, R. The potential for artificial intelligence in healthcare. Fut. Healthc. J. 6(2), 94 (2019).
  2. Bajwa, J., Munir, U., Nori, A. & Williams, B. Artificial intelligence in healthcare: Transforming the practice of medicine. Fut. Healthc. J. 8(2), 188 (2021).
  3. Zamzmi, G. et al. A review of automated pain assessment in infants: Features, classification tasks, and databases. IEEE Rev. Biomed. Eng. 11, 77-96 (2017).
  4. Atee, M., Hoti, K. & Hughes, J. Painchek use in clinical practice: An artificial intelligence (AI) assisted-pain assessment tool for aged care residents with dementia. In: 17th IASP World Congress on Pain 2018 (2018).
  5. Hoti, K., Chivers, P. T. & Hughes, J. D. Assessing procedural pain in infants: A feasibility study evaluating a point-of-care mobile solution based on automated facial analysis. The Lancet Digital Health 3(10), 623-634 (2021).
  6. Hughes, J. D., Chivers, P. & Hoti, K. The clinical suitability of an artificial intelligence-enabled pain assessment tool for use in infants: Feasibility and usability evaluation study. J. Med. Internet Res. 25, 41992 (2023).
  7. Broome, S. et al. Going deeper than tracking: A survey of computer-vision based recognition of animal pain and emotions. Int. J. Comput. Vision 131(2), 572-590 (2023).
  8. Andresen, N. et al. Towards a fully automated surveillance of well-being status in laboratory mice using deep learning: Starting with facial expression analysis. PLoS ONE 15(4), 0228059 (2020).
  9. Tuttle, A. H. et al. A deep neural network to assess spontaneous pain from mouse facial expressions. Mol. Pain 14, 1744806918763658 (2018).
  10. Lencioni, G. C., de Sousa, R. V., de Souza Sardinha, E. J., Corrêa, R. R. & Zanella, A. J. Pain assessment in horses using automatic facial expression recognition through deep learning-based modeling. PLoS ONE 16(10), 0258672 (2021).
  11. Broomé, S., Gleerup, K.B., Andersen, P.H. & Kjellstrom, H. Dynamics are important for the recognition of equine pain in video. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 12667-12676 (2019).
  12. Pessanha, F., Salah, A. A., Loon, T. V. & Veltkamp, R. Facial image-based automatic assessment of equine pain. IEEE Trans. Affect. Comput.[SPACE]https://doi.org/10.1109/TAFFC.2022.3177639 (2022).
  13. Feighelstein, M. et al. Automated recognition of pain in cats. Sci. Rep. 12(1), 9575 (2022).
  14. Feighelstein, M. et al. Explainable automated pain recognition in cats. Sci. Rep. 13(1), 8973 (2023).
  15. Feighelstein, M. et al. Deep learning for video-based automated pain recognition in rabbits. Sci. Rep. 13(1), 14679 (2023).
  16. Zhu, H., Salgırlı, Y., Can, P., Atılgan, D. & Salah, A.A. Video-based estimation of pain indicators in dogs. arXiv preprint arXiv:2209.13296 (2022).
  17. Mahmoud, M., Lu, Y., Hou, X., McLennan, K. & Robinson, P. Estimation of pain in sheep using computer vision. Handbook of Pain and Palliative Care: Biopsychosocial and environmental approaches for the life course, 145-157 (2018).
  18. Pessanha, F., McLennan, K. & Mahmoud, M. Towards automatic monitoring of disease progression in sheep: A hierarchical model for sheep facial expressions analysis from video. In: 2020 15th IEEE international conference on automatic face and gesture recognition (FG 2020), pp. 387-393 (2020).
  19. McLennan, K. & Mahmoud, M. Development of an automated pain facial expression detection system for sheep (ovis aries). Animals 9(4), 196 (2019).
  20. Labus, J. S., Keefe, F. J. & Jensen, M. P. Self-reports of pain intensity and direct observations of pain behavior: When are they correlated?. Pain 102(1-2), 109-124 (2003).
  21. Barrett, L. F. Feelings or words? Understanding the content in self-report ratings of experienced emotion. J. Pers. Soc. Psychol. 87(2), 266-281 (2004).
  22. Mogil, J. S., Pang, D. S., Dutra, G. G. S. & Chambers, C. T. The development and use of facial grimace scales for pain measurement in animals. Neurosci. Biobehav. Rev. 116, 480-493 (2020).
  23. Sotocina, S. G. et al. The rat grimace scale: A partially automated method for quantifying pain in the laboratory rat via facial expressions. Mol. Pain 7, 1744-8069 (2011).
  24. Keating, S. C., Thomas, A. A., Flecknell, P. A. & Leach, M. C. Evaluation of EMLA cream for preventing pain during tattooing of rabbits: Changes in physiological, behavioural and facial expression responses. PloS one[SPACE], https://doi.org/10.1371/journal. pone. 0044437 (2012).
  25. Dalla Costa, E. et al. Development of the horse grimace scale (hgs) as a pain assessment tool in horses undergoing routine castration. PLoS ONE 9(3), 92281 (2014).
  26. Di Giminiani, P. et al. The assessment of facial expressions in piglets undergoing tail docking and castration: Toward the development of the piglet grimace scale. Front. Veter. Sci. 3, 100 (2016).
  27. Reijgwart, M. L. et al. The composition and initial evaluation of a grimace scale in ferrets after surgical implantation of a telemetry probe. PLoS ONE 12(11), 0187986 (2017).
  28. McLennan, K. M. et al. Development of a facial expression scale using footrot and mastitis as models of pain in sheep. Appl. Anim. Behav. Sci. 176, 19-26 (2016).
  29. Häger, C. et al. The sheep grimace scale as an indicator of post-operative distress and pain in laboratory sheep. PLoS ONE 12(4), 0175839 (2017).
  30. Holden, E. et al. Evaluation of facial expression in acute pain in cats. J. Small Anim. Pract. 55(12), 615-621 (2014).
  31. Evangelista, M. C. et al. Facial expressions of pain in cats: The development and validation of a feline grimace scale. Sci. Report 9 (1), 1-11 (2019).
  32. Brondani, J. T. et al. Validation of the english version of the unesp-botucatu multidimensional composite pain scale for assessing postoperative pain in cats. BMC Vet. Res. 9(1), 1-15 (2013).
  33. Reid, J. et al. Development of the short-form glasgow composite measure pain scale (cmps-sf) and derivation of an analgesic intervention score. Anim. Welf. 16(S1), 97-104 (2007).
  34. Haddad Pinho, R. et al. Validation of the rabbit pain behaviour scale (rpbs) to assess acute postoperative pain in rabbits (oryctolagus cuniculus). PLoS One 17(5), 0268973 (2022).
  35. Luna, S. P. L. et al. Validation of the unesp-botucatu pig composite acute pain scale (upaps). PLoS One 15(6), 0233552 (2020).
  36. Fonseca, M. W. et al. Development and validation of the unesp-botucatu goat acute pain scale. Animals 13(13), 2136 (2023).
  37. Silva, N. et al. Correction: Validation of the unesp-botucatu composite scale to assess acute postoperative abdominal pain in sheep (usaps). PLoS ONE 17, 0268305. https://doi.org/10.1371/journal.pone. 0268305 (2022).
  38. Oliveira, M. G. et al. Validation of the donkey pain scale (dops) for assessing postoperative pain in donkeys. Front. Veter. Sci. 8, 671330 (2021).
  39. de Oliveira, F. A. et al. Validation of the unesp-botucatu unidimensional composite pain scale for assessing postoperative pain in cattle. BMC Veter. Res. 10, 1-14 (2014).
  40. De Sario, G. D. et al. Using ai to detect pain through facial expressions: A review. Bioengineering 10(5), 548 (2023).
  41. Robinson, M. E. & Wise, E. A. Gender bias in the observation of experimental pain. Pain 104(1-2), 259-264 (2003).
  42. Contreras-Huerta, L. S., Baker, K. S., Reynolds, K. J., Batalha, L. & Cunnington, R. Racial bias in neural empathic responses to pain. PLoS ONE 8(12), 84001 (2013).
  43. Adami, C., Filipas, M., John, C., Skews, K. & Dobson, E. Inter-observer reliability of three feline pain scales used in clinical practice. J. Feline Med. Surg. 25(9), 1098612-231194423 (2023).
  44. Reid, J., Scott, E., Calvo, G. & Nolan, A. Definitive glasgow acute pain scale for cats: Validation and intervention level. Veterin. Record. [SPACE], https://doi.org/10.1136/vr. 104208 (2017).
  45. Shipley, H., Guedes, A., Graham, L., Goudie-DeAngelis, E. & Wendt-Hornickle, E. Preliminary appraisal of the reliability and validity of the colorado state university feline acute pain scale. J. Feline Med. Surg. 21(4), 335-339 (2019).
  46. Weber, G., Morton, J. & Keates, H. Postoperative pain and perioperative analgesic administration in dogs: Practices, attitudes and beliefs of Queensland veterinarians. Aust. Vet. J. 90(5), 186-193 (2012).
  47. Williams, V., Lascelles, B. & Robson, M. Current attitudes to, and use of, peri-operative analgesia in dogs and cats by veterinarians in New Zealand. N. Z. Vet. J. 53(3), 193-202 (2005).
  48. Bell, A., Helm, J. & Reid, J. Veterinarians’ attitudes to chronic pain in dogs. Veter. Record 175(17), 428-428 (2014).
  49. Kilkenny, C., Browne, W., Cuthill, I. C., Emerson, M. & Altman, D. G. Animal research: Reporting in vivo experiments: The arrive guidelines. Br. J. Pharmacol. 160(7), 1577 (2010).
  50. Banks, R. The Four Rs of research. Contemp. Top. Lab. Anim. Sci. 34(1), 50-51 (1995).
  51. Russell, W.M.S. & Burch, R.L. The principles of humane experimental technique. Methuen, (1959).
  52. Teixeira, P. et al. Ovariectomy by laparotomy, a video-assisted approach or a complete laparoscopic technique in santa ines sheep. Small Rumin. Res. 99(2-3), 199-202 (2011).
  53. McLennan, K. M. et al. Development of a facial expression scale using footrot and mastitis as models of pain in sheep. Appl. Anim. Behav. Sci. 176, 19-26. https://doi.org/10.1016/j.applanim.2016.01.007 (2016).
  54. Vikramkumar, Vijaykumar, B., Trilochan: Bayes and naive bayes classifier. arXiv:abs/1404.0933 (2014).
  55. Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In: International conference on machine learning, pp. 8748-8763 (2021). PMLR.
  56. Li, J. et al. Feature selection: A data perspective. ACM Comput. Surv. (CSUR) 50(6), 1-45 (2017).
  57. DeLong, E. R., DeLong, D. M. & Clarke-Pearson, D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: A nonparametric approach. Biometrics 44(3), 837-845 (1988).
  58. Lu, Y., Mahmoud, M. & Robinson, P. Estimating sheep pain level using facial action unit detection. In: 2017 12th IEEE International conference on automatic face & gesture recognition (FG 2017), IEEE, pp. 394-399 (2017).
  59. Evangelista, M. C., Monteiro, B. P. & Steagall, P. V. Measurement properties of grimace scales for pain assessment in nonhuman mammals: A systematic review. Pain 163(6), 697-714 (2022).
  60. Tomacheuski, R. M., Monteiro, B. P., Evangelista, M. C., Luna, S. P. L. & Steagall, P. V. Measurement properties of pain scoring instruments in farm animals: A systematic review using the cosmin checklist. PLoS ONE 18(1), 0280830 (2023).

Acknowledgements

The first and last authors were supported by the Joint SNSF-ISF Research Grant Program (grant number 1050/24).

Author contributions

MF, SL, NS, PT and AZ conceived the study; MF ran the experiments; all authors analyzed the data and participated in writing the manuscript.

Additional information

Correspondence and requests for materials should be addressed to M.F. or A.Z.
Reprints and permissions information is available at www.nature.com/reprints.
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommo ns.org/licenses/by-nc-nd/4.0/.
© The Author(s) 2025

  1. Department of Information Systems, University of Haifa, Haifa, Israel. School of Veterinary Medicine and Animal Science, Sao Paolo State University (Unesp), São Paulo, Brazil. Department of Population Pathobiology, North Carolina State University, Raleigh, USA. Department of Computer and Information Sciences, Northumbria University, Newcastle upon Tyne, UK. email: feighels@gmail.com; annazam@is.haifa.ac.il; annazam@gmail.com