التعلم العميق القائم على الفيديو المباشر للكشف عن عرج الماشية Direct video-based spatiotemporal deep learning for cattle lameness detection

المجلة: Scientific Reports، المجلد: 16، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-29118-8
PMID: https://pubmed.ncbi.nlm.nih.gov/41274941
تاريخ النشر: 2025-11-22
المؤلف: Md Fahimuzzman Sohan وآخرون
الموضوع الرئيسي: دراسات سلوك الحيوان ورفاهيته

نظرة عامة

تتناول هذه البحث القضية الهامة لعرج الماشية في تربية الماشية، والتي تؤثر سلبًا على رفاهية الحيوانات وإنتاجيتها. يقدم المؤلفون إطار عمل للتعلم العميق الزمني المكاني للكشف التلقائي عن العرج باستخدام مجموعة بيانات منظمة تتكون من 50 مقطع فيديو featuring 42 من الماشية، مصنفة إلى فئات عرجاء وغير عرجاء بناءً على خصائص المشي. تم تقييم معمارين للتعلم العميق: الشبكات العصبية التلافيفية ثلاثية الأبعاد (3D CNN) وذاكرة طويلة وقصيرة الأجل التلافيفية (ConvLSTM2D). حققت الشبكة العصبية التلافيفية ثلاثية الأبعاد دقة تصنيف على مستوى الفيديو بلغت 90%، مع دقة واسترجاع ودرجات F1 بلغت 92% و90% و90% على التوالي، متفوقة على نموذج ConvLSTM2D الذي حقق دقة 85%. يبسط هذا النهج التصنيفي من النهاية إلى النهاية عملية الكشف من خلال القضاء على الحاجة إلى خطوط أنابيب متعددة المراحل التقليدية، مما يقلل من زمن الانتظار والتعقيد للتطبيقات في الوقت الحقيقي.

كما يقدم الدراسة مجموعة بيانات جديدة تم جمعها بالكامل من مصادر عبر الإنترنت، مما يعزز تنوع البيئات والأنشطة الممثلة. مع استخدام 1,500 صورة للتدريب و500 للتحقق، تشير النتائج التجريبية إلى أن النماذج المقترحة تؤدي بشكل مشابه أو أفضل من الطرق الحالية. تهدف الأعمال المستقبلية إلى توسيع مجموعة البيانات لتشمل المزيد من مقاطع الفيديو من مزارع وظروف متنوعة، مما سيحسن من تعميم النموذج ويسمح بكشف أكثر دقة لشدة العرج. تسهم هذه البحث في تقدم أنظمة الكشف التلقائي عن عرج الماشية، مما يجعلها أكثر عملية للنشر في المزارع.

مقدمة

تسلط مقدمة ورقة البحث الضوء على الدور الحاسم لتربية الماشية في الأمن الغذائي العالمي، لا سيما في إنتاج اللحوم والألبان. مع ارتفاع الطلب، تواجه العمليات الكبيرة تحديات كبيرة في مراقبة صحة ورفاهية الحيوانات، وهو أمر ضروري للإنتاجية. يُعتبر العرج، الذي غالبًا ما ينتج عن إصابات في الحافر أو إصابات متعلقة بالمشي، قضية شائعة تؤثر على حوالي 23-25% من الأبقار الحلوب عالميًا. تؤدي هذه الحالة إلى انخفاض إنتاج الحليب، وتأخيرات في التكاثر، ومعدلات إعدام أعلى، مما يبرز ضرورة الكشف المبكر للتخفيف من الخسائر الاقتصادية.

تعتبر الطرق التقليدية للكشف عن العرج، مثل تقييم حركة القطيع، كثيفة العمالة وغير عملية للمزارع الكبيرة. تدعو الورقة إلى اعتماد التقنيات التلقائية، لا سيما تلك التي تستفيد من الذكاء الاصطناعي (AI) وتعلم الآلة (ML)، لتعزيز مراقبة صحة الحيوانات. تستخدم هذه التقنيات أدوات متقدمة لجمع البيانات، بما في ذلك الكاميرات وأجهزة استشعار إنترنت الأشياء، لتسهيل المراقبة المستمرة. بينما أظهرت خطوط أنابيب الكشف متعددة المراحل الحالية وعدًا في البيئات المسيطر عليها، فإنها تواجه قيودًا مثل تنوع البيئة المحدود وتعقيد الحوسبة، مما يعيق تطبيقها في ظروف الزراعة المتنوعة.

طرق

تستخدم البحث خط أنابيب قائم على التعلم العميق للكشف عن عرج الماشية، كما هو موضح في الشكل 1. تبدأ المنهجية باستخراج الإطارات من بيانات الفيديو، والتي يتم إخضاعها بعد ذلك لتقنيات تعزيز البيانات لتحسين قدرات التعميم للنموذج، مما يؤدي إلى مجموعة بيانات تدريب أكثر تنوعًا.

في مرحلة بناء النموذج، يتم تدريب معمارين مختلفين للتعلم العميق: شبكة عصبية تلافيفية ثلاثية الأبعاد (CNN)، ممثلة كـ $f_{\text{CNN3D}}(X)$، وشبكة ذاكرة طويلة وقصيرة الأجل التلافيفية (ConvLSTM2D)، المشار إليها كـ $f_{\text{ConvLSTM2D}}(X)$. يتم تقييم أداء هذه النماذج بعد ذلك باستخدام بيانات الاختبار خلال مرحلة تصنيف الماشية، مما يسمح بتقييم فعاليتها في الكشف عن العرج.

نتائج

في هذه الدراسة، تم تطوير مشروع باستخدام بايثون ضمن بيئة Google Colab Pro، مع التركيز على تصنيف الماشية بناءً على العيوب. تم إجراء معالجة البيانات باستخدام OpenCV وMoviePy، بينما سهل ImageDataGenerator من Keras تعزيز البيانات. كما تم الاستفادة من عدة مكتبات، بما في ذلك TensorFlow وNumPy وPandas وScikit-learn وMatplotlib، لبناء النموذج، والتدريب، وتقييم الأداء، والتصور.

تكونت مجموعة البيانات من 50 فيديو، مقسمة بالتساوي بين الماشية العرجاء وغير العرجاء. من بين هذه، تم تخصيص 30 فيديو لأغراض التدريب، مما يشير إلى نهج متوازن لتطوير النموذج. تشير النتائج إلى منهجية منظمة لاستخدام بيانات الفيديو في الكشف عن العيوب الزراعية، على الرغم من عدم تفصيل مقاييس الأداء والنتائج المحددة في هذا القسم.

مناقشة

تؤكد قسم المناقشة في ورقة البحث على الحاجة إلى مجموعات بيانات متاحة في مجال الكشف عن عرج الماشية، مشددة على قيود الدراسات الحالية التي غالبًا ما تعتمد على البيئات المسيطر عليها وخطوط معالجة متعددة المراحل. تعالج هذه الدراسة هذه الفجوات من خلال تقديم نهج جديد يستخدم مجموعة بيانات متاحة للجمهور تتكون من 50 فيديو featuring 42 من الماشية الفردية، تم التقاطها في إعدادات متنوعة. تقدم البحث إطار عمل للتعلم العميق من النهاية إلى النهاية يستخدم الشبكات العصبية التلافيفية ثلاثية الأبعاد (3D-CNN) وشبكات ذاكرة طويلة وقصيرة الأجل التلافيفية (ConvLSTM2D) لتصنيف العرج مباشرة من بيانات الفيديو الخام، محققًا دقة على مستوى الفيديو تبلغ 90%. تتطابق هذه الأداء أو تتجاوز أداء الطرق التقليدية متعددة المراحل بينما تبسط الهيكل العام للنموذج.

تؤكد النتائج على إمكانية الاستفادة من بيانات الفيديو المستمدة من الإنترنت لمراقبة صحة الماشية على نطاق واسع، حيث تلتقط النماذج بفعالية أنماط المشي المكانية والزمنية دون الحاجة إلى استخراج ميزات وسيطة أو تقدير الوضع. يسمح الاستخدام المبتكر للتلافيف ثلاثية الأبعاد بتحليل مباشر للإشارات الحركية، وهو أمر مفيد بشكل خاص للكشف عن عدم انتظامات طفيفة في حركة الماشية. من خلال تقديم تقييم شامل للنماذج المقترحة وجعل مجموعة البيانات، والتسميات المعلّمة، ورمز المصدر متاحة للجمهور، تهدف هذه البحث إلى تعزيز الشفافية وتشجيع المزيد من التقدم في منهجيات الكشف التلقائي عن العرج.

القيود

تسلط الدراسة الضوء على إمكانيات التعلم العميق للكشف عن عرج الماشية لكنها تعترف بعدة قيود قد تعيق تطبيقها الأوسع. أولاً، تم الحصول على جميع بيانات الفيديو من يوتيوب، مع الاعتماد على العناوين والوصف لتصنيف الشذوذ دون التحقق الفردي من الفئة أو الشدة. يثير هذا الاعتماد على البيانات الوصفية الخارجية مخاوف بشأن دقة مجموعة البيانات. ثانيًا، بينما استخدمت المنهجية خوارزميات التصنيف مباشرة، يقترح المؤلفون أن دمج خطوات معالجة وسيطة، مثل الكشف عن الكائنات وتقدير الوضع، قد يعزز من فعالية النموذج.

بالإضافة إلى ذلك، على الرغم من استخدام عدد أكبر من الإطارات التدريبية والاختبارية مقارنة بالعديد من الدراسات المماثلة، لا يزال حجم العينة الإجمالي محدودًا، مما قد يؤثر على تعميم النموذج وقوته. أخيرًا، لم تقم الدراسة بمقارنة مع نماذج الفيديو الحديثة المستندة إلى المحولات، مثل TimeSformer وVideo-Swin، مما يشير إلى منطقة محتملة للبحث المستقبلي لتحسين قدرات الكشف. ستسعى الأعمال المستقبلية إلى معالجة هذه القيود واستكشاف تقنيات النمذجة الأكثر تقدمًا.

Journal: Scientific Reports, Volume: 16, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-29118-8
PMID: https://pubmed.ncbi.nlm.nih.gov/41274941
Publication Date: 2025-11-22
Author(s): Md Fahimuzzman Sohan et al.
Primary Topic: Animal Behavior and Welfare Studies

Overview

This research addresses the significant issue of cattle lameness in livestock farming, which adversely affects animal welfare and productivity. The authors introduce a spatiotemporal deep learning framework for automated detection of lameness using a curated dataset of 50 video clips featuring 42 cattle, classified into lame and non-lame categories based on gait characteristics. Two deep learning architectures were evaluated: 3D Convolutional Neural Networks (3D CNN) and Convolutional Long-Short-Term Memory (ConvLSTM2D). The 3D CNN achieved a video-level classification accuracy of 90%, with precision, recall, and F1 scores of 92%, 90%, and 90%, respectively, outperforming the ConvLSTM2D model, which achieved 85% accuracy. This end-to-end classification approach simplifies the detection process by eliminating the need for traditional multistage pipelines, thus reducing latency and complexity for real-time applications.

The study also presents a novel dataset collected entirely from online sources, enhancing the diversity of environments and activities represented. With 1,500 images used for training and 500 for validation, the experimental results indicate that the proposed models perform comparably or better than existing methods. Future work aims to expand the dataset to include more videos from various farms and conditions, which will improve model generalization and enable more precise detection of lameness severity. This research contributes to advancing automated cattle lameness detection systems, making them more practical for on-farm deployment.

Introduction

The introduction of the research paper highlights the critical role of cattle farming in global food security, particularly in meat and dairy production. As demand rises, large-scale operations face significant challenges in monitoring animal health and welfare, which are essential for productivity. Lameness, often resulting from hoof lesions or gait-related injuries, is identified as a prevalent issue, affecting approximately 23-25% of dairy cows globally. This condition leads to decreased milk yield, reproductive delays, and higher culling rates, emphasizing the necessity for early detection to mitigate economic losses.

Traditional methods for detecting lameness, such as herd locomotion scoring, are labor-intensive and impractical for large farms. The paper advocates for the adoption of automated technologies, particularly those leveraging artificial intelligence (AI) and machine learning (ML), to enhance animal health monitoring. These technologies utilize advanced data collection tools, including cameras and IoT sensors, to facilitate continuous monitoring. While existing multi-stage detection pipelines have shown promise in controlled environments, they face limitations such as restricted environmental diversity and computational complexity, which hinder their application in varied farming conditions.

Methods

The research employs a deep learning-based pipeline for detecting cattle lameness, as illustrated in Figure 1. The methodology begins with the extraction of frames from video data, which are then subjected to data augmentation techniques to improve the generalization capabilities of the model, resulting in a more diverse training dataset.

In the model construction phase, two distinct deep learning architectures are trained: a 3D Convolutional Neural Network (CNN), represented as $f_{\text{CNN3D}}(X)$, and a 2D Convolutional Long Short-Term Memory network (ConvLSTM2D), denoted as $f_{\text{ConvLSTM2D}}(X)$. The performance of these models is subsequently evaluated using test data during the cattle classification stage, allowing for an assessment of their effectiveness in detecting lameness.

Results

In this study, a project was developed using Python within the Google Colab Pro environment, focusing on the classification of cattle based on defectiveness. Data preprocessing was conducted with OpenCV and MoviePy, while Keras’ ImageDataGenerator facilitated data augmentation. The implementation also leveraged several libraries, including TensorFlow, NumPy, Pandas, Scikit-learn, and Matplotlib, for model construction, training, performance evaluation, and visualization.

The dataset consisted of 50 videos, evenly split between defective and non-defective cattle. Out of these, 30 videos were allocated for training purposes, indicating a balanced approach to model development. The results suggest a systematic methodology for utilizing video data in agricultural defect detection, although specific performance metrics and outcomes are not detailed in this section.

Discussion

The discussion section of the research paper emphasizes the need for accessible datasets in the field of cattle lameness detection, highlighting the limitations of existing studies that often rely on controlled environments and multi-stage processing pipelines. This study addresses these gaps by introducing a novel approach that utilizes a publicly available dataset of 50 videos featuring 42 individual cattle, captured in diverse settings. The research presents an end-to-end deep learning framework that employs 3D Convolutional Neural Networks (3D-CNN) and Convolutional Long Short-Term Memory networks (ConvLSTM2D) to classify lameness directly from raw video data, achieving a video-level accuracy of 90%. This performance matches or exceeds that of traditional multi-stage methods while simplifying the overall model architecture.

The findings underscore the potential of leveraging internet-sourced video data for scalable livestock health monitoring, as the models effectively capture both spatial and temporal gait patterns without the need for intermediate feature extraction or pose estimation. The study’s innovative use of 3D convolutions allows for the direct analysis of motion cues, which is particularly advantageous for detecting subtle irregularities in cattle locomotion. By providing a comprehensive evaluation of the proposed models and making the dataset, annotated labels, and source code publicly available, this research aims to foster transparency and encourage further advancements in automated lameness detection methodologies.

Limitations

The study highlights the potential of deep learning for detecting cattle lameness but acknowledges several limitations that may hinder its broader applicability. Firstly, all video data were sourced from YouTube, relying on titles and descriptions to classify abnormalities without individual verification of the class or severity. This reliance on external metadata raises concerns about the accuracy of the dataset. Secondly, while the methodology employed classification algorithms directly, the authors suggest that incorporating intermediate processing steps, such as object detection and pose estimation, could enhance the model’s effectiveness.

Additionally, despite utilizing a larger number of training and testing frames than many comparable studies, the overall sample size remains limited, which may impact the model’s generalizability and robustness. Lastly, the study did not benchmark against recent transformer-based video models, such as TimeSformer and Video-Swin, indicating a potential area for future research to improve detection capabilities. Future work will aim to address these limitations and explore more advanced modeling techniques.