برمجة وإعداد خوارزمية كشف الكائنات YOLO لتحديد أنشطة التغذية لماشية الأبقار: مقارنة بين YOLOv8m و YOLOv10m Programming and Setting Up the Object Detection Algorithm YOLO to Determine Feeding Activities of Beef Cattle: A Comparison between YOLOv8m and YOLOv10m

المجلة: Animals، المجلد: 14، العدد: 19
DOI: https://doi.org/10.3390/ani14192821
PMID: https://pubmed.ncbi.nlm.nih.gov/39409770
تاريخ النشر: 2024-09-30

برمجة وإعداد خوارزمية كشف الكائنات YOLO لتحديد أنشطة التغذية لماشية الأبقار: مقارنة بين YOLOv8m و YOLOv10m

بابلو غوارنيدو لوبيز، جون فريدي راميريز أغوديلو، إيمانويل دينيمال، محمد بن عودة

– للاستشهاد بهذه النسخة:

بابلو غوارنيدو لوبيز، جون فريدي راميريز أغوديلو، إيمانويل دينيمال، محمد بن عودة. برمجة وإعداد خوارزمية كشف الكائنات YOLO لتحديد أنشطة تغذية الماشية: مقارنة بين YOLOv8m و YOLOv10m. الحيوانات، 2024، 14 (19)، ص. 2821. 10.3390 /ani14192821 . hal-04751826

HAL Id: hal-04751826 https://institut-agro-dijon.hal.science/hal-04751826v1

تم تقديمه في 24 أكتوبر 2024
HAL هو أرشيف متعدد التخصصات مفتوح الوصول لإيداع ونشر مستندات البحث العلمي، سواء كانت منشورة أم لا. قد تأتي المستندات من مؤسسات التعليم والبحث في فرنسا أو في الخارج، أو من مراكز البحث العامة أو الخاصة.
الأرشيف المفتوح متعدد التخصصات HAL، مخصص لإيداع ونشر مستندات علمية على مستوى البحث، منشورة أو غير منشورة، صادرة عن مؤسسات التعليم والبحث الفرنسية أو الأجنبية، أو مختبرات عامة أو خاصة.

برمجة وإعداد خوارزمية كشف الكائنات YOLO لتحديد أنشطة تغذية الماشية: مقارنة بين YOLOv8m و YOLOv10m

بابلو غوارنيدو لوبيز (د)، جون فريدي راميريز أغوديلو (د)، إيمانويل دينيمال (د) ومحمد بن عودة 1 معهد أغرو ديجون، 26 شارع دوكتور بيتيجان، 21079 ديجون، فرنسا؛ pabloguarnido@hotmail.com (ب.غ.-ل.); emmanuel.denimal@agrosupdijon.fr (إ.د.) مجموعة البحث في العلوم الزراعية-GRICA، مدرسة الإنتاج الحيواني، كلية العلوم الزراعية، جامعة أنتيكيا، ميديلين 050010، كولومبيا؛ johnf.ramirez@udea.edu.co* المراسلة: mohammed.ben-aouda@agrosupdijon.fr

الاستشهاد: غوارنيدو لوبيز، ب.; راميريز أغوديلو، ج.-ف.; دينيمال، إ.; بن عودة، م. برمجة وإعداد خوارزمية كشف الكائنات YOLO لتحديد أنشطة تغذية الماشية: مقارنة بين YOLOv8m و YOLOv10m. الحيوانات 2024، 14، 2821.
https://doi.org/10.3390/ ani14192821
المحرر الأكاديمي: دانييلو فلورنتينو بيريرا
تم الاستلام: 8 يوليو 2024
تمت المراجعة: 12 أغسطس 2024
تم القبول: 2 سبتمبر 2024
تم النشر: 30 سبتمبر 2024
حقوق الطبع والنشر: © 2024 من قبل المؤلفين. المرخص له MDPI، بازل، سويسرا. هذه المقالة هي مقالة مفتوحة الوصول موزعة بموجب الشروط والأحكام الخاصة برخصة المشاع الإبداعي (CC BY) (https:// creativecommons.org/licenses/by/ 4.0/).
ملخص بسيط: تتناول هذه الدراسة تحدي مراقبة سلوك تغذية الماشية بدقة، وهو أمر حاسم لصحتها وإنتاجيتها. كان الهدف هو مقارنة نسختين من خوارزمية رؤية الكمبيوتر، YOLO (v8 مقابل v10)، التي تحدد الكائنات في الصور، لتقييم مدى قدرتها على التعرف على أنشطة تغذية الماشية. من خلال تسجيل مقاطع فيديو للثيران في مزرعة وتحليلها باستخدام خوارزميات YOLO، وجدنا أن كلا النسختين كانتا فعالتين في اكتشاف هذه السلوكيات، لكن النسخة الأحدث كانت أفضل قليلاً وأسرع في التعلم. كما أظهرت هذه النسخة الجديدة ميلاً أقل لتكرار الأخطاء. الاستنتاج هو أن النسخة الأحدث من YOLO أكثر كفاءة وموثوقية للاستخدام في العالم الحقيقي في المزارع. هذه التقدمات ذات قيمة للمجتمع لأنها تساعد المزارعين على مراقبة وإدارة تغذية الماشية بشكل أفضل، مما يؤدي إلى حيوانات أكثر صحة وممارسات زراعية أكثر كفاءة.

الملخص

تسلط هذه الدراسة الضوء على أهمية مراقبة سلوك تغذية الماشية باستخدام خوارزمية YOLO لكشف الكائنات. تم تسجيل مقاطع فيديو لستة ثيران من سلالة شاروليه في مزرعة فرنسية، وتم تحديد ثلاثة سلوكيات تغذية (عض، مضغ، زيارة) وتم تصنيفها باستخدام Roboflow. تم مقارنة YOLOv8 و YOLOv10 من حيث أدائهما في اكتشاف هذه السلوكيات. تفوقت YOLOv10 على YOLOv8 بدقة أعلى قليلاً، واسترجاع، ودرجات mAP50، و mAP50-95. على الرغم من أن كلا الخوارزميات أظهرت دقة عامة مماثلة (حوالي )، وصلت YOLOv8 إلى تدريب مثالي بشكل أسرع وأظهرت أقل من الإفراط في التكيف. أشارت مصفوفات الالتباس إلى أنماط مشابهة من أخطاء التنبؤ لكلا النسختين، لكن YOLOv10 أظهرت اتساقًا أفضل. تستنتج هذه الدراسة أنه بينما كانت كل من YOLOv8 و YOLOv10 فعالتين في اكتشاف سلوكيات تغذية الماشية، أظهرت YOLOv10 أداءً متوسطًا متفوقًا، ومعدل تعلم، وسرعة، مما يجعلها أكثر ملاءمة للتطبيقات العملية في الميدان.

الكلمات الرئيسية: رؤية الكمبيوتر؛ أنشطة التغذية؛ الماشية؛ YOLO؛ الزراعة الدقيقة

1. المقدمة

في السنوات الأخيرة، زاد الاهتمام العلمي في تحليل سلوك الحيوانات كركيزة لاتخاذ قرارات مستنيرة في تربية الماشية. يوفر التسجيل الدقيق للمعلمات مثل تكرار التغذية ومدة التغذية رؤى لا تقدر بثمن في المراقبة الغذائية للماشية، مما يسهل صياغة أنظمة غذائية متوازنة تضمن الرفاهية والإنتاجية وتقليل الأثر البيئي للقطيع [1]. علاوة على ذلك، بخلاف الاعتبارات الغذائية، يمكن أن تكون الانحرافات في أنماط سلوك التغذية، مثل انخفاض المدخول أو العادات الغذائية غير الطبيعية، مؤشرات مبكرة على مشاكل صحية كامنة [2]. ومع ذلك، فإن المراقبة البصرية المستمرة تتطلب جهدًا كبيرًا، وتستغرق وقتًا طويلاً، ولا تستحق الفوائد المحدودة المكتسبة. منذ ظهور تقنيات الصناعة 4.0
في قطاع الثروة الحيوانية، ساعدت خوارزميات التعلم الآلي المدمجة مع الكاميرات في هذه المهمة على مدى العقود الماضية. تجعل هذه الخوارزميات، وخاصة خوارزميات كشف الكائنات، من الممكن والفعال تقييم سلوك الحيوانات الفردية عبر أحجام وأنواع المزارع المتنوعة، مما يظهر مرونتها وقابليتها للتطبيق عبر سياقات إدارة الثروة الحيوانية المختلفة [3].
عند مناقشة كشف الكائنات (الذي يتضمن العديد من الكائنات في صورة واحدة)، أثبتت خوارزمية You Only Look Once (YOLO) بالفعل فائدتها في مراقبة التغذية وسلوك الحيوانات عبر أنواع مختلفة [4-7]. فيما يتعلق بالماشية، تم استخدام YOLO لاكتشاف سلوكيات التغذية في الأبقار [8،9]، ومراقبة الشبق [10]، وتتبع سلوك الماشية الفردية [11]. بينما تم تطبيق خوارزميات رؤية الكمبيوتر الأخرى، مثل ResNet و Faster R-CNN و RetinaNet، في علوم الحيوان، تمثل YOLO توازنًا مفضلًا بين الدقة، وهيكل موحد، ومرونة، والأهم من ذلك، عند النظر في التطبيقات في المزارع، سرعة عالية وأداء في الوقت الحقيقي [12]. وقد قارن العديد من المؤلفين أداء YOLO في كشف الكائنات في الوقت الحقيقي للماشية وأكدوا على إمكانياتها في مراقبة عدة حيوانات في وقت واحد في بيئات تغذية متنوعة [13].
تم إنشاء خوارزمية YOLO من خلال DarkNet وتم تقديمها لأول مرة في يونيو 2016 في مركز مؤتمرات قصر قيصر في لاس فيغاس، نيفادا، بواسطة جوزيف ريدمون [12]. على مدى السنوات التالية، نشر إصدارات محسنة من الخوارزمية – YOLOv2 [14] و YOLOv3 [15] – حتى توقف عن مسيرته البحثية بسبب مخاوف بشأن التطبيقات العسكرية لخوارزميته. واصل بوخكوفسكي عمل ريدمون، وأصدر YOLOv4 [16]. بعد شهرين من إطلاق YOLOv4، أطلق غلين جوشر من Ultralytics YOLOv5، الذي تم تطويره باستخدام PyTorch بدلاً من DarkNet [17]. بعد هذه النسخة، استمرت خوارزمية YOLO في التطور كمصدر مفتوح من قبل مبرمجين مستقلين، مما أدى إلى أحدث إصدار، YOLOv10. في هذا العمل، ركزنا على YOLOv8، أحدث إصدار تم تحسينه بشكل كبير بواسطة Ultralytics ، و YOLOv10 (أو YOLOX)، أحدث إصدار تم تطويره بواسطة باحثين مستقلين (THU-MIG، مجموعة الذكاء المتعدد الوسائط بجامعة تسينغhua). تعتبر خوارزميات الكشف في الوقت الحقيقي من بين الأدوات التي تشكل مستقبل التقنيات المستخدمة في إنتاج الحيوانات بسبب قدرتها على تقديم حلول تساعد في اتخاذ القرارات في المزارع. لذلك، ركزنا على استخدام خوارزمية YOLO في هذه الدراسة لتحديد سلوك التغذية في الماشية.
دراسات أخرى قامت بتقييم سلوك الماشية من منظور جانبي [18] أو من منظور علوي [19]. في هذه الدراسة، قمنا بتسجيل سلوك التغذية من منظور أمامي لالتقاط حركة رأس الحيوان بالكامل والتفاعل القريب بين فم الحيوان والعلف. بشكل محدد، ركز هذا العمل على ثلاث أنشطة مميزة عند المغذي: (1) الزيارة، التي تشير إلى وجود الحيوان دون تناول الطعام؛ (2) المضغ، الذي يعكس حالة صحة الحيوان ووظيفة التجشؤ؛ و(3) العض، الذي يتوافق مع فعل الأكل نفسه، مما يسمح بتحديد الابتلاع. هذه الأنشطة هي أكثر سلوكيات التغذية تمثيلاً للماشية وتسمح بتقدير مؤشرات الأداء الأخرى ذات الصلة مثل الاستهلاك الفردي، ووقت الابتلاع، ومعدل الأكل، وحالة الصحة [2]. كان الهدف من هذه الدراسة هو مقارنة أداء نماذج YOLOv8 و YOLOv10 في اكتشاف الأنشطة الثلاثة الرئيسية التالية خلال سلوك التغذية للثيران: العض، المضغ، وزيارة المغذي.

2. المواد والأساليب

2.1. الحيوانات، النظام الغذائي والقياسات

تم تسجيل مقاطع الفيديو في مزرعة تجارية من سلالة شاروليه تغطي 173 هكتارًا (تارت-لي-باس، بورغوندي، فرنسا)، والتي تقع في المدرسة الثانوية الزراعية في كيتيني، فرنسا. في هذه التجربة، تم مراقبة 12 ثورًا شابًا من سلالة شاروليه ( شهور) لاستهلاك المادة الجافة الفردية (DMI). في فرنسا، عادةً ما يحدث تسمين لحم البقر التجاري في مزارع الألبان السابقة؛ لذلك، فإن المغذيات مشابهة لتلك الموجودة في مزارع الألبان، مما أثر على قرار وضع الكاميرا أمام الحيوانات. تم تسجيل الحيوانات لمدة 7 دقائق في اليوم مباشرة بعد توزيع العلف، مع تسجيل فيديو واحد في اليوم، مما أسفر عن إجمالي 24 فيديو على مدار 24 يومًا غير متتالي عبر شهرين متتاليين. متوسط مدة الفيديوهات كان 7 دقائق لأنه، بعد هذا الوقت، غادرت معظم
الحيوانات المغذي. بالإضافة إلى ذلك، كانت سعة تخزين الفيديو أيضًا عاملًا محددًا. كانت الحيوانات housed في حظيرة مغطاة مع فرشة من القش وتم تغذيتها مرتين يوميًا: أولاً في الساعة 8:00 صباحًا مع قش البرسيم ad libitum، بالإضافة إلى مركز طاقة وبروتين، ومرة أخرى في الساعة 4:00 مساءً مع قش البرسيم فقط [ DM، DM] ad libitum. تم إجراء تسجيلات الفيديو لوقت الاستهلاك والابتلاع خلال توزيع الوجبة الثانية. كان سبب تسجيل الحيوانات خلال الوجبة الثانية هو أنه خلال الوجبة الأولى، كانت الحيوانات أكثر جوعًا، وكانت سلوكيات الهيمنة التي قد تؤثر على التنبؤ أكثر احتمالًا أن تحدث. تم قياس استهلاك المادة الطازجة عن طريق وزن كميات العلف الفردية يدويًا لكل حيوان [العلف المقدم ناقص العلف المرفوض] باستخدام ميزان إلكتروني (Rubbermaid Digital Utility Scale-400 lbs ). تم أخذ عينات لقياس DM أسبوعيًا، وتم تخزينها بطريقة متجانسة، وتم تحليلها في مختبر خارجي.

2.2. نظام التسجيل

تم تسجيل مقاطع الفيديو باستخدام كاميرا RGB-D، Intel RealSense D455 (Intel، سانتا كلارا، كاليفورنيا، الولايات المتحدة الأمريكية)، مثبتة على حامل ثلاثي القوائم ومتصلة بجهاز كمبيوتر، كما هو موضح في الشكل 1. تم التقاط مقاطع الفيديو باستخدام برنامج Intel (Intel RealSense SDK 2.0 v 2.51 .1 ). خلال التسجيلات، تم التعرف على الحيوانات يدويًا بواسطة رقمها لتمكين التنبؤات الفردية لاحقًا. الكاميرا المستخدمة في هذه الدراسة تحتوي على ثلاثة حساسات – حساس الأشعة تحت الحمراء، حساس RGB، وحساس العمق (3D). تحتوي الكاميرا على مجال رؤية عمق RGB يبلغ . في هذه الدراسة، كانت بعدين فقط مطلوبة، لذا تم استخدام حساس RGB فقط. تم تكوين برنامج الكاميرا لتسجيل مقاطع الفيديو بمعدل 5 إطارات في الثانية. لتقليل تأثير تحيز الإضاءة، تم تسجيل مقاطع الفيديو في نفس الوقت كل يوم، من نفس الزاوية، وعلى بعد 5 أمتار من مركز المغذي.
الشكل 1. مجموعة تسجيل الحيوانات والكاميرات.

2.3. وصف مجموعة البيانات والتسمية

تم استخدام برنامج Intel لاستخراج الإطارات الفردية من مقاطع الفيديو. تم اختيار خمسين إطارًا لكل فيديو بشكل عشوائي لإنشاء قاعدة بيانات ( 1200 إطارًا إجمالاً)، والتي تم تقسيمها إلى ثلاث مجموعات بيانات – مجموعة تدريب ( )، مجموعة تحقق ( )، ومجموعة اختبار ( ). خلال فترة الدراسة، تم تسجيل 20 فيديو، تم ترقيمها بالتسلسل من 1 إلى 20 لتعكس الترتيب الذي تم التقاطها به، موثقة نمو الماشية والتغيرات في الظروف البيئية. لتقليل التحيزات وضمان تمثيل متوازن في مجموعات البيانات لدينا، قمنا بتقسيم مقاطع الفيديو بشكل استراتيجي بناءً على ترقيمها: تم استخدام مقاطع الفيديو ذات الأرقام الفردية لمجموعة بيانات التدريب، بينما تم تخصيص مقاطع الفيديو ذات الأرقام الزوجية لمجموعة بيانات الاختبار. هذه الطريقة ضمنت أن كلا المجموعتين تضمنت صور متنوعة طوال الفترة بأكملها، مع الحفاظ على فصل صارم بين بيانات التدريب والاختبار لتقييم
قدرة النموذج على التعميم على ظروف جديدة وغير مرئية. الشكل 2 يظهر أمثلة على تنوع الصور المستخدمة في هذا العمل.
الشكل 2. أمثلة على الصور المستخدمة في تصنيف الأنشطة الفردية.
تم وضع تسميات يدوية لمجموعات الإطارات باستخدام البرنامج عبر الإنترنت “Roboflow” “https: / /roboflow.com/” (تم الوصول إليه في 12 سبتمبر 2023). يتيح Roboflow (الشكل 3) للمستخدمين إنشاء ملفات نصية YOLO اللازمة للتدريب والتقييم. تحتوي هذه الملفات على تعليقات توضيحية بتنسيق محدد يتضمن تسمية الفئة والإحداثيات المنسوبة للصناديق المحيطة التي تمثل موقع الكائن في الصورة. كل سطر في ملف نصي يتوافق مع كائن واحد ويتبع هذا التنسيق: <object-class> <x_center> <y_center> <width> <height>، حيث جميع القيم منسوبة بين 0 و 1 (على سبيل المثال، 00.5340 .622 0.142 0.256) [20].
الشكل 3. برنامج Roboflow لوضع علامات على الأنشطة الفردية للماشية.
تم تحديد وتصنيف ثلاث سلوكيات تغذية مميزة بدقة في الإطارات المختارة، كما هو موضح في الشكل 4. تم تصنيف هذه السلوكيات على النحو التالي:
  1. الزيارة: تتميز بوقوف الحيوان برأسه مرفوعًا وعدم الانخراط في أي نشاط تغذية، مما يدل على غياب استهلاك العلف.
  2. العض: يتم تعريفه بانخفاض رأس الحيوان نحو المغذي، مما يشير إلى الانخراط النشط مع العلف وعادة ما يدل على الفعل الأولي لتناول العلف.
  3. المضغ: يتميز برفع الحيوان لرأسه ولكنه يظهر علامات واضحة على المضغ، كما يتضح من وجود العلف في الفم.
الشكل 4. ثلاث أنشطة تغذية رئيسية تم تسجيلها وتحديدها في الماشية.
يوفر الشكل 4 أمثلة بصرية لهذه السلوكيات، كل منها تم التقاطه من منظور أمامي لضمان وضوح الأفعال القابلة للملاحظة. تعمل الصور كمرجع بصري لمعايير التصنيف المطبقة خلال عملية التسمية اليدوية، مما يتيح تصنيفًا دقيقًا ومتسقًا عبر مجموعات البيانات.

2.4. هيكل شبكة YOLOv8 و v10

تستند خوارزميات YOLOv8 و v10 إلى نفس المبادئ ولكن لديها هياكل شبكات عصبية مختلفة (الشكل 5). تمثل هذه النماذج تحديثات كبيرة في سلسلة YOLO (You Only Look Once) المعروفة بقدراتها على الكشف عن الأجسام في الوقت الحقيقي. يسعى كل نموذج لدفع حدود السرعة والدقة والكفاءة في الكشف عن الأجسام. يقدم YOLOv8، الذي يبني على التقدمات من الإصدارات السابقة، عدة تحسينات معمارية تهدف إلى تعزيز أداء النموذج وكفاءته. يستمر في الاستفادة من مكونات مثل CSPNet من الإصدارات السابقة ولكنه يتضمن أيضًا طرقًا جديدة لتحسين زمن الاستجابة وكفاءة المعلمات. يتيح الانتقال من هيكل تقليدي مثل CSP-Darknet53 إلى تصاميم أكثر كفاءة لـ YOLOv8 تقديم أداء أفضل مع تقليل الحمل الحسابي [21-24]. يجلب YOLOv10، الأحدث في السلسلة، ابتكارات معمارية أعمق، مع التركيز على كفاءة النموذج ودقته. واحدة من الابتكارات الرئيسية هي تقديم رأس تصنيف خفيف الوزن يستخدم عمليات الالتفاف القابلة للفصل حسب العمق – وهي تقنية تفصل عملية الالتفاف إلى عمليات عمق ونقطة. يقلل هذا التعديل بشكل كبير من التكاليف الحسابية ويقلل من معلمات النموذج دون التضحية بالأداء. بالإضافة إلى ذلك، يتضمن YOLOv10 استراتيجيات تصميم نموذج شاملة، مثل التعيينات المزدوجة المتسقة لتدريب خالٍ من NMS وتصميم الكتل الموجهة بالرتبة، مما يعزز كفاءته وفعاليته. تظهر الاختبارات الشاملة أن YOLOv10 يوفر أداءً وكفاءةً على أحدث طراز عبر مقاييس نموذجية مختلفة، مما يظهر تحسينات في كل من الدقة المتوسطة وزمن الاستدلال مقارنة بسابقيه [25].
الشكل 5. الاختلافات في هيكل الشبكة العصبية لـ YOLOv8 (A) و v10 (A). الصورة في اللوحة A تم تعديلها من شاو وآخرون (2024) [26] والصورة في (B) تم تعديلها من شو وآخرون (2022) [27].

2.5. التدريب

تم تدريب النماذج على Google Colab باستخدام وحدة معالجة الرسومات Tesla T4 مع من الذاكرة. تم استيراد المكتبات الضرورية، مثل “numpy” للعمليات العددية، و”cv2″ لمعالجة الصور، ونماذج YOLO من حزمة “ultralytics”. بالإضافة إلى ذلك، تم تثبيت مكتبات “supervision” و”roboflow” للمساعدة في تدريب النموذج والتعامل مع البيانات. تم تهيئة نماذج YOLO بأوزان مدربة مسبقًا. تعمل هذه الأوزان كنقطة انطلاق، مما يسمح للنموذج بالبناء على الميزات التي تم تعلمها سابقًا، وبالتالي تسريع عملية التدريب وتحسين الأداء الأولي. يحدد ملف تكوين مجموعة البيانات (“data.yaml”) مسارات بيانات التدريب والتحقق بالإضافة إلى عدد الفئات. هذا الملف ضروري لإبلاغ النموذج بهيكل ومحتوى مجموعة البيانات. تم إصدار أمر التدريب باستخدام واجهة سطر الأوامر “yolo”. تشمل المعلمات الرئيسية ما يلي: المهمة والوضع – تم تعيين المهمة على الكشف عن الأجسام (“detect”)، وتم تعيين الوضع على التدريب (“train”); النموذج والبيانات – تم تحديد النموذج، وتم توفير ملف تكوين مجموعة البيانات (“data.yaml”); معلمات التدريب – تم تدريب النماذج لمدة 500 دورة بحجم صورة 640 بكسل وحجم دفعة 8. تتحكم هذه المعلمات في مدة وشدة عملية التدريب؛ الصبر – تم تعيين معلمة “الصبر” على 50، مما يعني أنه إذا لم يتحسن أداء التحقق لمدة 50 دورة متتالية، فسيتوقف التدريب مبكرًا لمنع الإفراط في التكيف.
خلال التدريب، استخدم النموذج دقة مختلطة تلقائية (AMP) لتسريع الحساب وتقليل استخدام الذاكرة. تم طباعة هيكل النموذج، بما في ذلك الطبقات والمعلمات، للتحقق. تم تطبيق تقنيات تعزيز البيانات، مثل الضباب وتعديلات الألوان، على صور التدريب لتحسين قوة النموذج. كان المحسن المستخدم في التدريب هو “AdamW”، الذي تم اختياره تلقائيًا لتحسين معلمات معدل التعلم والزخم. قام النموذج بتسجيل تقدمه إلى TensorBoard، مما يسمح بالمراقبة في الوقت الحقيقي لمقاييس التدريب، مثل الخسارة والدقة. طوال عملية التدريب، قام النموذج بشكل دوري بالتحقق من أدائه على مجموعة بيانات التحقق. ساعد هذا التحقق في مراقبة قدرة النموذج على التعميم على بيانات جديدة ومنع الإفراط في التكيف. استمر التدريب للعدد المحدد من الدورات أو حتى تم استيفاء معايير التوقف المبكر. عند الانتهاء، تم حفظ أوزان النموذج.

2.6. مؤشرات التقييم

لتقييم أداء النماذج بدقة، استخدمنا مؤشرات تقييم شائعة في خوارزميات الكشف عن الأهداف: الدقة، الاسترجاع، متوسط الدقة (mAP)،
و F1-score. من حيث الدقة والاسترجاع، هناك أربعة نتائج محتملة عند توقع عينة اختبار: إيجابي حقيقي (TP)، إيجابي زائف (FP)، سلبي حقيقي (TN)، وسلبي زائف (FN). يتم تعريف هذه المؤشرات التقييمية كما يلي:
  • الدقة هي نسبة توقعات TP إلى العدد الإجمالي للتوقعات الإيجابية التي قام بها النموذج (كلا من TP و FP). تعكس دقة التوقعات الإيجابية.
  • الاسترجاع هو نسبة توقعات TP إلى العدد الإجمالي للحالات الإيجابية الفعلية (TP و . يقيس قدرة النموذج على تحديد جميع الحالات ذات الصلة.
  • متوسط الدقة (AP) يُعرف بأنه المساحة تحت منحنى الدقة والاسترجاع؛ يوفر AP قيمة واحدة تلخص أداء النموذج في الدقة والاسترجاع عند مستويات عتبة مختلفة.
  • متوسط الدقة (mAP) هو متوسط قيم متوسط الدقة لجميع الفئات. يعمل كمقياس شامل يقيم الأداء العام للنموذج عبر فئات الأجسام المختلفة.
  • F1-Score هو المتوسط التوافقي للدقة والاسترجاع. يوازن بين هذين المقياسين من خلال توفير درجة واحدة تأخذ في الاعتبار كل من الإيجابيات الزائفة والسلبيات الزائفة.
    بالإضافة إلى ذلك، يمكن استخدام الاتجاه المتغير لمنحنى خسارة النموذج أيضًا لتقييم أداء النموذج. تشير سرعة ملاءمة منحنى الخسارة الأسرع، والملاءمة الأفضل، وقيمة الخسارة النهائية الأقل عمومًا إلى أداء أقوى. علاوة على ذلك، تم تطوير كود بايثون لتقييم أداء نماذج الكشف عن الأجسام المدربة باستخدام مجموعة من صور الاختبار والتعليقات التوضيحية المقابلة لها. تبدأ العملية باستيراد المكتبات الضرورية للعمليات العددية، ومعالجة الصور، والتعامل مع الملفات، وعمليات النموذج. يتم تعريف دالة التقاطع على الاتحاد (IoU) لحساب التداخل بين الصناديق المحيطة المتوقعة والحقيقية، مما يوفر مقياسًا لدقة التوقع. يقرأ الكود التعليقات التوضيحية للحقيقة الأرضية من مجموعة بيانات الاختبار، والتي تم تنسيقها بأسلوب YOLO وتحويلها إلى إحداثيات مطلقة. ثم يتم تحميل نموذج YOLO المدرب باستخدام الأوزان المحددة والدلائل لصور الاختبار، ويتم تعيين تعليقاتها التوضيحية. يقوم الكود بتهيئة القواميس لحساب TP و FP و FN لكل فئة ويعد قوائم لتخزين قيم الدقة والاسترجاع. يقوم الكود بالتكرار عبر كل صورة في دليل الاختبار، وقراءة الصورة وتعليقاتها التوضيحية الحقيقية المقابلة. يقوم النموذج بعمل توقعات، واستخراج الصناديق المحيطة وتسميات الفئات المقابلة لها، والتي تتم مقارنتها بعد ذلك مع التعليقات التوضيحية الحقيقية. إذا كانت التوقعات تتطابق مع الحقيقة الأرضية (لديها نفس معرف الفئة و IoU أكبر من 0.5)، يتم احتسابها كـ TP. إذا لم يتم العثور على تطابق، يتم احتساب الحقيقة الأرضية كـ FN، وأي توقعات متبقية يتم احتسابها كـ FP. بعد معالجة جميع الصور، يقوم الكود بحساب الدقة، والاسترجاع، و F1-score، ومتوسط الدقة لكل فئة.

3. النتائج

3.1. أداء YOLOv8 و v10 في الكشف عن سلوك التغذية

تُبرز الجدول 1 أن YOLOv10 يتفوق عمومًا على YOLOv8 عبر عدة مقاييس. على سبيل المثال، يُظهر YOLOv10 دقة متوسطة أعلى (mAP) تبلغ 0.94 مقارنةً بـ 0.92 لـ YOLOv8، مما يشير إلى تحسين عام في أداء كشف الأجسام. بالنسبة لنشاط “العض”، تُظهر كلا النموذجين أداءً ممتازًا مع دقة واسترجاع ودرجات F1 شبه مثالية. ومع ذلك، بالنسبة لنشاط “المضغ”، يُظهر YOLOv10 دقة واسترجاع ودرجة F1 أعلى من YOLOv8، مما يدل على دقة وموثوقية أفضل في الكشف. في نشاط “الزيارة”، يحقق YOLOv8 دقة مثالية ولكن مع استرجاع منخفض بشكل كبير، مما يؤدي إلى درجة F1 منخفضة. بالمقابل، يقدم YOLOv10 أداءً أكثر توازنًا مع تحسين كبير في الاسترجاع ودرجة F1، على الرغم من انخفاض طفيف في الدقة.
في المتوسط، فإن المقاييس لنشاط “الزيارة” أقل بكثير من تلك التي لوحظت في “المضغ” و”العض”. قد يكون هذا التباين ناتجًا عن العاملين التاليين: (1) العدد الأقل من حالات “الزيارة” مقارنة بالأنشطة الأخرى، مما يؤثر على تدريب النموذج وبالتالي دقة هذا النشاط، و(2) نشاط “الزيارة” أكثر غموضًا حيث يتعلق فقط بوجود الحيوان دون أي سلوك تغذية (مضغ أو عض)، مما يجعل من الصعب تعريفه. هذه المقاييس
تشير النتائج بشكل جماعي إلى أن YOLOv10 يقدم أداءً أكثر قوة وموثوقية عبر أنشطة مختلفة، مما يجعله خيارًا متفوقًا للتطبيقات التي تتطلب كشف كائنات بدقة عالية في قاعدة بياناتنا. يختلف عدد الحالات بين النماذج لأن YOLOv10 لم يكتشف بعض الحالات التي اكتشفها YOLOv8، مما أدى إلى انخفاض عدد الحالات لبعض الفئات في تقييم YOLOv10. تنشأ هذه الفجوة بسبب اختلاف قدرات النماذج في كشف الكائنات التي لديها تقاطع على اتحاد (IoU) أكبر من 0.5 ومطابقة تسميات الأنشطة بشكل صحيح.
الجدول 1. نتائج أداء نموذج YOLO في تصنيف أنشطة تغذية الماشية مقسمة حسب النسخة v8 مقابل v10.
نموذج فصل حالات دقة * استرجاع * درجة F1 * mAP*
يو لو 8 كل 2040 0.92
عض ١١٢٨ 0.99 0.98 0.99
مضغ 762 0.84 0.98 0.91
زيارة 150 1.00 0.15 0.26
YOLOv10 كل 1953 0.94
عض ١٠٨١ 0.99 0.98 0.99
مضغ 737 0.87 0.99 0.93
زيارة 135 0.98 0.37 0.54
عدد الحالات هو عدد المرات التي تظهر فيها نشاط واحد محدد (يمكن أن يظهر نشاط واحد عدة مرات في نفس الإطار). * تعكس الدقة والاسترجاع ومتوسط الدقة العامة (mAP) أداء النموذج.
تظهر الشكل 6 مثالاً على نتائج سلوك تغذية الحيوانات المسجلة من خلال عرض أمامي مع النتيجة المتوقعة (من خلال خوارزمية YOLO) لسلوك التغذية الفردي. كما يتضح من الشكل 6 ووفقًا للنتائج المعروضة في الجدول 1، يمكن لكلا النسختين من خوارزمية YOLO تحديد أنشطة ‘عض’ و’مضغ’ الحيوانات بدقة بمستوى ثقة يتجاوز 0.98.
الشكل 6. التقاط إطار يظهر توقعات YOLOv8 لنشاطات التغذية لدى الحيوانات الفردية من الماشية.

3.2. مصفوفة الارتباك للأنشطة الغذائية المتوقعة باستخدام YOLOv8 مقابل v10

تظهر الشكل 7 مصفوفات الالتباس العادية لـ YOLOv 8 m و YOLOv 10 m. كلا النموذجين يظهران أداءً ممتازًا في التنبؤ بدقة بـ ‘العض’ و
سلوكيات ‘المضغ’، حيث حقق نموذج YOLOv8m دقة 0.98 لكليهما، بينما حقق نموذج YOLOv10m دقة 0.98 و0.99 على التوالي. ومع ذلك، يظهر كلا النموذجين ميلاً لخلط ‘الزيارة’ مع ‘المضغ’. ومن الجدير بالذكر أن YOLOv8m يظهر ارتباكًا أكبر في هذا الصدد، حيث حقق دقة 0.15 فقط في التعرف الصحيح على ‘الزيارة’ مقارنةً بدقة 0.37 التي لوحظت في YOLOv10m. وهذا يشير إلى أنه بينما كلا الخوارزميات فعالة للغاية في التعرف على ‘العض’ و’المضغ’، فإن YOLOv10m، على الرغم من دقته العامة، يواجه صعوبة أكبر في تمييز ‘الزيارة’ عن ‘المضغ’. يمكن تفسير هذا الارتباك من خلال التشابهات بين هذين النشاطين وقلة الحالات المسجلة لـ ‘الزيارة’ في قاعدة البيانات.
الشكل 7. مصفوفة الالتباس للأنشطة الرئيسية التي تم تحليلها بواسطة YOLOv8 مقابل v10.

3.3. معدلات التعلم ومعلمات YOLOv8 و v10

تظهر معدلات التعلم لكل من YOLOv8 و YOLOv10 في الشكل 8. تكشف التحليل المقارن أنه بينما تعتبر كل من نماذج YOLOv8 و YOLOv10 فعالة، فإن YOLOv10 يظهر عمومًا استقرارًا أفضل وخسائر تحقق أقل عبر مقاييس مختلفة. من ناحية أخرى، يتقارب YOLOv8 بشكل أسرع أثناء التدريب ولكنه يظهر خسائر تحقق أعلى، مما يشير إلى احتمال حدوث فرط التكيف. تشير خسائر التحقق الأقل باستمرار لـ YOLOv10 إلى تحسين التعميم والصلابة عند تطبيقه على بيانات غير مرئية.
أخيرًا، لتحقيق أفضل أداء في توقع أنشطة التغذية، قمنا بإعداد YOLOv8 و YOLOv10 مع المعلمات القياسية الموضحة في الجدول 2.
الجدول 2. المعايير القياسية المستخدمة في YOLOv8 و v10.
ميزة * يو لو 8 يو لو v10
طبقات ٢٩٥ 498
GFLOPs 79.1 64.0
محسّن آدم دبليو آدم دبليو
معدل التعلم 0.01 0.01
زخم 0.937 0.937
تآكل الوزن 0.0005 0.0005
فترات الإحماء 3.0 3.0
عصور التدريب 1000 1000
حجم الدفعة ٨ ٨
حجم الصورة 640 640
الجدول 2. تابع
ميزة * يو لو 8 يو لو v10
تجميد الطبقات وزن.22.دفل.كونف وزن.23.دفل.كونف
تعزيزات تشويش، تشويش متوسط، إلى رمادي، CLAHE تشويش، تشويش متوسط، إلى رمادي، CLAHE
الدقة المختلطة نعم نعم
أقصى عدد من الاكتشافات ٣٠٠ ٣٠٠
فصول ٣ ٣
صبر 50 50
  • لفهم هذه المعايير بشكل أفضل، قام الباحثون السابقون بمراجعتها، موضحين معناها وتأثيرها على توقعات النموذج [28].
الشكل 8. معدلات التعلم لـ YOLOv8 و YOLOv10.

4. المناقشة

مع استمرار نمو رؤية الكمبيوتر في إدارة الماشية، من الضروري تقييم الخوارزميات الأكثر استخدامًا. في هذا السياق، قامت الدراسة الحالية بتقييم نسختين من خوارزميات كشف الكائنات، YOLOv8 و YOLOv10، اللتين تمثلان نهجين مختلفين في تطوير إطار عمل YOLO. YOLOv8 هو نسخة محسنة من الهيكل الأصلي لـ YOLO الذي أنشأه مخترعه، بينما تم تطوير YOLOv10 بواسطة باحثين مستقلين. كان الهدف هو تقييم أداء هاتين النسختين في التنبؤ بسلوكيات تغذية الماشية، والتي تعتبر حاسمة لإنتاجية الماشية، وحالتها الصحية، وأدائها اليومي. في المتوسط، أظهر YOLOv10 دقة أفضل قليلاً من YOLOv8 في التنبؤ بأنشطة التغذية والتمييز بينها (مصفوفة الالتباس). علاوة على ذلك، أظهر YOLOv10 نتائج محسنة في معدل التعلم، مما يشير إلى أداء أفضل للنموذج بشكل عام.
قمنا بتقييم أداء YOLOv8 و YOLOv10 باستخدام عدة مقاييس رئيسية: الدقة، الاسترجاع، متوسط الدقة العامة (mAP)، ودرجة F1. كانت الدقة، التي تقيس دقة التنبؤات الإيجابية، مرتفعة بشكل خاص لكلا النموذجين في اكتشاف نشاط “العض” (0.99 لكل من YOLOv8 و YOLOv10). وهذا يشير إلى قدرة قوية على التعرف على هذا السلوك بشكل صحيح دون إيجابيات زائفة. كان الاسترجاع، الذي يقيم قدرة النموذج على تحديد جميع الحالات ذات الصلة، أقل لنشاط “الزيارة”، خاصة في YOLOv8 (0.15). وهذا يشير إلى أن النموذج واجه صعوبة في اكتشاف جميع حالات هذا السلوك، ربما بسبب قلة حدوثه وطبيعة النشاط. كانت قيمة mAP، التي توفر مقياسًا شاملاً لأداء النموذج عبر عتبات الكشف المختلفة، أعلى في YOLOv10 (0.94) مقارنة بـ YOLOv8 (0.92). تسلط درجة F1، وهي المتوسط التوافقي للدقة والاسترجاع، الضوء على الأداء العام. بالنسبة لـ “المضغ”، تفوق YOLOv10 على YOLOv8 (0.93 مقابل 0.91)، مما يشير إلى موثوقية أفضل في الكشف. التحسن الطفيف في mAP ودرجة F1 في YOLOv10 يشير إلى أنه قد يكون أكثر ملاءمة للتطبيقات التي تتطلب دقة عالية، خاصة في اكتشاف السلوكيات الأقل تكرارًا مثل “الزيارة”.
ومع ذلك، قد تجعل سرعة تقارب YOLOv8 منه خيارًا أفضل في السيناريوهات التي يكون فيها وقت التدريب محدودًا والدقة العالية عبر جميع المقاييس ليست حرجة. أظهرت دراسة مقارنة بين إصدارات YOLO من YOLOv1 إلى YOLOv10 المتطورة أن الإصدارات الأحدث تقدم مقاييس أداء أفضل مثل الدقة والاسترجاع بسبب التحسينات المعمارية [29]. على سبيل المثال، يدمج YOLOv10 تقنيات معالجة ما بعد متقدمة ورؤوس كشف بدون نقاط ربط، مما يقلل من الحمل الحسابي مع تحسين دقة الكشف. يبني YOLOv10 على التقدم الذي حققته الإصدارات السابقة من خلال تحسين كل من المعمارية ومرحلة المعالجة اللاحقة، مما يؤدي إلى أداء متفوق في مهام كشف الكائنات في الوقت الحقيقي [30]. تم التنبؤ بكل من أنشطة العض والزيارة بدقة عالية واسترجاع ( ) من قبل كلا إصداري YOLO (الشكل 9). من المحتمل أن يكون هذا النجاح بسبب الحركات الرأسية المميزة المرتبطة بهذه الأنشطة: الرأس مائل لأسفل ملامسًا للطعام (العض) مقابل الرأس مرفوع والفم مغلق (الزيارة). ومع ذلك، ظهرت التحديات الرئيسية مع نشاط “المضغ”، الذي كان لديه أداء تنبؤ أقل وغالبًا ما تم الخلط بينه وبين “الزيارة” (خاصة بواسطة YOLOv8). يمكن تفسير هذا الخلط من خلال الفروق الدقيقة بين هذين النشاطين: الفم مغلق (الزيارة) مقابل الفم مفتوح مع وجود الطعام (المضغ). أشارت دراسات أخرى أيضًا إلى صعوبة تحديد نشاط المضغ [31،32]. لمعالجة هذه المشكلة، اقترح مؤلفون آخرون الطرق التالية: (1) استخدام أجهزة قياس التسارع لتمييز أنشطة التغذية بناءً على وضع الرأس [31]؛ (2) تقدير المضغ من خلال تحليل الصوت (أو دمج الفيديو والصوت)، مما يوفر بديلًا مثيرًا من خلال مراعاة الفروق البصرية والسمعية [33-35]؛ و(3) دمج خوارزميات تتبع متعددة الإطارات في YOLO، مما قد يسمح للخوارزمية بالتقاط حركات الفك بشكل أفضل وتحسين دقة التنبؤ. تم تطبيق هذه الخوارزمية متعددة الإطارات بالفعل مع YOLO [36،37]، ويمكن أن تقيم الأبحاث المستقبلية فعاليتها في تحسين تنبؤ النشاط في هذا السياق. قد تزيد هذه الطريقة من أداء التنبؤ لـ YOLO وتقلل من الخلط بين الأنشطة.
الشكل 9. منحنيات الدقة والاسترجاع لـ YOLOv8 و YOLOv10.
يمكن أن يُعزى الأداء المتفوق لـ YOLOv10 في كشف نشاط “الزيارة”، كما يتضح من استرجاعه الأعلى ودرجة F1 مقارنة بـ YOLOv8، إلى عدة عوامل رئيسية تتعلق بتحسيناته المعمارية وتأثيرها على قدرات كشف الكائنات. يدمج YOLOv10 هيكل شبكة أكثر دقة يتضمن رأس تصنيف خفيف الوزن مع عمليات التفاف قابلة للفصل حسب العمق [25]. يقلل هذا التغيير الهيكلي من التكاليف الحسابية ويعزز قدرة النموذج على التعميم عبر فئات مختلفة، خاصة تلك التي تحتوي على تمييزات دقيقة، مثل “الزيارة” مقابل سلوكيات التغذية الأخرى. كما تم تسليط الضوء على التطورات في سلسلة YOLO [25]، بما في ذلك الإصدارات YOLOv6 و YOLOv7 و YOLOv8، حيث حسنت التحسينات المعمارية بشكل كبير من قدرات استخراج الميزات والتصنيف للنماذج. تشمل هذه التقدمات إدخال هياكل رأس مفصولة، ووحدات رقبة محسنة لتجميع الميزات بشكل أفضل، وطبقات التفاف متقدمة. هذه الميزات مهمة بشكل خاص للمهام التي تتطلب تمييزات دقيقة، حيث تمكن النماذج من التقاط وتصنيف التفاصيل الدقيقة في بيانات الإدخال بشكل أفضل. بينما يظهر YOLOv10 أداءً قويًا بشكل عام، من المهم الاعتراف بالمجالات التي أظهر فيها YOLOv8 نقاط قوة، خاصة في سرعة التقارب أثناء التدريب. أظهر YOLOv8 تحقيقًا أسرع لخسائر التدريب والتحقق المنخفضة، مما يمكن أن يكون مفيدًا في السيناريوهات التي تكون فيها الموارد الحسابية محدودة أو يتطلب نشر النموذج بسرعة. تشير هذه السرعة في التقارب إلى أن YOLOv8 قد يكون أكثر كفاءة في التعلم من البيانات في وقت مبكر من عملية التدريب. ومع ذلك، يأتي أداء YOLOv8 مع تنازلات. على الرغم من تقاربه الأسرع، قد لا يتعمق YOLOv8 بشكل جيد في كشف السلوكيات الأقل تكرارًا أو الأكثر دقة، مثل نشاط “الزيارة”، حيث يكون الحيوان موجودًا عند المغذي دون أن يتغذى بنشاط. قد يؤدي ذلك إلى تقليل الإبلاغ عن الأحداث الحرجة المتعلقة بمراقبة الحيوانات. بالمقابل، يقدم YOLOv10، على الرغم من أنه يتطلب فترة تدريب أطول ويحافظ على خسائر أعلى قليلاً، أداءً أكثر توازنًا عبر جميع الأنشطة [38]. يجعل هذا التوازن YOLOv10 أكثر ملاءمة للتطبيقات في الوقت الحقيقي في الزراعة الدقيقة للحيوانات، حيث تكون الدقة والموثوقية أمرًا بالغ الأهمية.
أخيرًا، فيما يتعلق بالفروق الطفيفة في معدل التعلم بين YOLOv8 و YOLOv10، نوصي باستخدام الأخير بسبب سرعته المحسنة في المعالجة وقدرته الأكبر قليلاً على النشر في ظل الظروف الواقعية [39]. ومع ذلك، نعترف بأن الفروق بين كلا الإصدارين طفيفة، وقد تؤدي كلا النسختين (مع هياكل نماذجها المختلفة) بشكل جيد في ظروف الميدان. الخطوة التالية هي ربط هذه الأنشطة المتوقعة مع معلمات أخرى، مثل الحالة الصحية، الخصوبة، أو صفات الأداء.

5. الاستنتاجات

في هذه الورقة، قمنا بتلخيص تطور YOLO، أحد أشهر خوارزميات كشف الكائنات في رؤية الكمبيوتر، مع تسليط الضوء على كيفية تمثيل YOLOv8 آخر إصدار يتبع عن كثب الهيكل الأصلي، بينما تم تحسين YOLOv10 بواسطة مطورين مستقلين، كلاهما كمصدر مفتوح. قمنا بمقارنة هذين الإصدارين من خوارزمية YOLO للتنبؤ بأنشطة التغذية في الماشية من منظور أمامي. أصبحت هذه الأنشطة الغذائية ذات صلة متزايدة في إنتاج الحيوانات بسبب علاقتها بالصحة، وأداء الحيوانات، والكفاءة. تظهر نتائج هذه الدراسة أن كلا الإصدارين من خوارزمية YOLO أديا بشكل مشابه في التنبؤ بأنشطة التغذية، من حيث الدقة (الدقة، الاسترجاع، و mAP) ومصفوفة الالتباس، مع تفوق YOLOv10 قليلاً على YOLOv8. ومع ذلك، حيث يكون الفرق أكثر وضوحًا بين هذين الخوارزميتين هو في السرعة التي يصلان بها إلى التدريب والأداء الأمثل، حيث كان YOLOv8 متفوقًا على YOLOv10 (132 و 204 دورة، على التوالي). في الختام، كلا من YOLOv8 و YOLOv10 مناسبين للتنبؤ بأنشطة “العض” و “المضغ” في الماشية مع دقة تبلغ حوالي باستخدام قاعدة بياناتنا. في الأبحاث المستقبلية، يمكن تقييم هذه الأنشطة من وجهات نظر مختلفة. قد يؤدي الكشف الآلي عن هذه الأنشطة الغذائية في المزارع إلى تحسين اتخاذ القرار لمربي الماشية من حيث استراتيجيات التغذية، والكشف المبكر عن الحالة الصحية غير الطبيعية، أو روتين الإدارة المتكيف مع سلوك الحيوان.
مساهمات المؤلفين: التصور، الكتابة، التحليل والتحرير P.G.-L.; التصور، الكتابة، التحليل والتحرير J.-F.R.-A.; التصور، الكتابة والتحرير E.D.; التصور، التحليل والتحرير M.B. جميع المؤلفين قرأوا ووافقوا على النسخة المنشورة من المخطوطة.
التمويل: تم تمويل هذا البحث من قبل APIS-GENE من خلال المشروع EPI .
بيان مجلس المراجعة المؤسسية: غير قابل للتطبيق.
بيان الموافقة المستنيرة: غير قابل للتطبيق.
بيان توفر البيانات: البيانات المقدمة في هذه الدراسة متاحة عند الطلب من المؤلف المراسل.
الشكر: نود أن نشكر عمال المزرعة التجريبية في Tart le bas، والطلاب الجامعيين المشاركين في تسجيل/جمع البيانات، وطلاب الماجستير محمد لحدو، الذين ساعدوا في إعداد كلا الخوارزميتين.
تعارض المصالح: يعلن المؤلفون عدم وجود تعارضات في المصالح.

References

  1. Difford, G.F.; Plichta, D.R.; Løvendahl, P.; Lassen, J.; Noel, S.J.; Højberg, O.; Wright, A.-D.G.; Zhu, Z.; Kristensen, L.; Nielsen, H.B.; et al. Host genetics and the rumen microbiome jointly associate with methane emissions in dairy cows. PLoS Genet. 2018, 14, e1007580. [CrossRef] [PubMed]
  2. Atkinson, G.A.; Smith, L.N.; Smith, M.L.; Reynolds, C.K.; Humphries, D.J.; Moorby, J.M.; Leemans, D.K.; Kingston-Smith, A.H. A computer vision approach to improving cattle digestive health by the monitoring of faecal samples. Sci. Rep. 2020, 10, 17557. [CrossRef] [PubMed]
  3. Chen, C.; Zhu, W.; Norton, T. Behaviour recognition of pigs and cattle: Journey from computer vision to deep learning. Comput. Electron. Agric. 2021, 187, 106255. [CrossRef]
  4. McDonagh, J.; Tzimiropoulos, G.; Slinger, K.R.; Huggett, Z.J.; Down, P.M.; Bell, M.J. Detecting dairy cow behavior using vision technology. Agriculture 2021, 11, 675. [CrossRef]
  5. Islam, N.; Yoder, J.; Nasiri, A.; Burns, R.T.; Gan, H. Analysis of the drinking behavior of beef cattle using computer vision. Animals 2023, 13, 2984. [CrossRef] [PubMed]
  6. Wu, D.; Han, M.; Song, H.; Song, L.; Duan, Y. Monitoring the respiratory behavior of multiple cows based on computer vision and deep learning. J. Dairy Sci. 2023, 106, 2963-2979. [CrossRef] [PubMed]
  7. Fuentes, A.; Yoon, S.; Park, J.; Park, D.S. Deep learning-based hierarchical cattle behavior recognition with spatio-temporal information. Comput. Electron. Agric. 2020, 177, 105627. [CrossRef]
  8. Jeong, K.; Kim, D.-R.; Ryu, J.-H.; Kim, H.-W.; Cho, J.; Lee, E.; Jeong, J.-H. A Monitoring System for Cattle Behavior Detection using YOLO-v8 in IoT Environments. In Proceedings of the 2024 IEEE International Conference on Consumer Electronics (ICCE), Las Vegas, NV, USA, 5-8 January 2024; IEEE: Piscataway, NJ, USA, 2024; pp. 1-4.
  9. Yu, J.; Ye, X.; Tu, Q. Traffic sign detection and recognition in multiimages using a fusion model with YOLO and VGG network. IEEE Trans. Intell. Transp. Syst. 2022, 23, 16632-16642. [CrossRef]
  10. Wang, Z.; Hua, Z.; Wen, Y.; Zhang, S.; Xu, X.; Song, H. E-YOLO: Recognition of estrus cow based on improved YOLOv8n model. Expert Syst. Appl. 2024, 238, 122212. [CrossRef]
  11. Fuentes, A.; Han, S.; Nasir, M.F.; Park, J.; Yoon, S.; Park, D.S. Multiview monitoring of individual cattle behavior based on action recognition in closed barns using deep learning. Animals 2023, 13, 2020. [CrossRef]
  12. Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27-30 June 2016; pp. 779-788.
  13. Guo, Y.; Qiao, Y.; Sukkarieh, S.; Chai, L.; He, D. Bigru-attention based cow behavior classification using video data for precision livestock farming. Trans. ASABE 2021, 64, 1823-1833. [CrossRef]
  14. Redmon, J.; Farhadi, A. YOLO9000: Better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21-26 July 2017; pp. 7263-7271.
  15. Redmon, J.; Farhadi, A. Yolov3: An incremental improvement. arXiv 2018, arXiv:1804.02767.
  16. Bochkovskiy, A.; Wang, C.T.; Mark Liao, H.Y. YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv 2020, arXiv:2004.10934.
  17. Jocher, G.; Stoken, A.; Chaurasia, A.; Borovec, J.; Kwon, Y.; Michael, K.; Thanh Minh, M. ultralytics/yolov5: v6. 0-YOLOv5n ‘Nano’ Models, Roboflow Integration, TensorFlow Export, OpenCV DNN Support; Zenodo: Genève, Switzerland, 2021. [CrossRef]
  18. Balasso, P.; Marchesini, G.; Ughelini, N.; Serva, L.; Andrighetto, I. Machine learning to detect posture and behavior in dairy cows: Information from an accelerometer on the animal’s left flank. Animals 2021, 11, 2972. [CrossRef] [PubMed]
  19. Bezen, R.; Edan, Y.; Halachmi, I. Computer vision system for measuring individual cow feed intake using RGB-D camera and deep learning algorithms. Comput. Electron. Agric. 2020, 172, 105345. [CrossRef]
  20. Ciaglia, F.; Zuppichini, F.S.; Guerrie, P.; McQuade, M.; Solawetz, J. Roboflow 100: A rich, multi-domain object detection benchmark. arXiv 2022, arXiv:2211.13523.
  21. Wang, C.Y.; Bochkovskiy, A.; Liao, H.Y.M. CSPNet: A new backbone that can enhance learning capability of CNN. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, WA, USA, 14-19 June 2020; pp. 390-391.
  22. Tan, M.; Le, Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. In Proceedings of the 36th International Conference on Machine Learning, PMLR, Long Beach, CA, USA, 9-15 June 2019; Volume 97, pp. 6105-6114.
  23. Tian, Z.; Shen, C.; Chen, H.; He, T. FCOS: Fully Convolutional One-Stage Object Detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Republic of Korea, 27 October-2 November 2019; pp. 9627-9636.
  24. Lin, T.Y.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. Feature Pyramid Networks for Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 21-26 July 2017; pp. 2117-2125.
  25. Wang, A.; Chen, H.; Liu, L.; Chen, K.; Lin, Z.; Han, J.; Ding, G. Yolov10: Real-time end-to-end object detection. arXiv 2024, arXiv:2405.14458.
  26. Shao, Y.; Zhang, R.; Lv, C.; Luo, Z.; Che, M. TL-YOLO: Foreign-Object Detection on Power Transmission Line Based on Improved Yolov8. Electronics 2024, 13, 1543. [CrossRef]
  27. Xu, X.; Feng, Z.; Cao, C.; Yu, C.; Li, M.; Wu, Z.; Ye, S.; Shang, Y. STN-Track: Multiobject tracking of unmanned aerial vehicles by swin transformer neck and new data association method. IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2022, 15, 8734-8743. [CrossRef]
  28. Sohan, M.; Sai Ram, T.; Rami Reddy, C.V. A Review on YOLOv8 and Its Advancements. In Data Intelligence and Cognitive Informatics: ICDICI 2023; Jacob, I.J., Piramuthu, S., Falkowski-Gilski, P., Eds.; Algorithms for Intelligent Systems; Springer: Singapore, 2024.
  29. Alif, M.A.R.; Hussain, M. YOLOv1 to YOLOv10: A comprehensive review of YOLO variants and their application in the agricultural domain. arXiv 2024, arXiv:2406.10139.
  30. Andriamandroso, A.; Bindelle, J.; Mercatoris, B.; Lebeau, F. A review on the use of sensors to monitor cattle jaw movements and behavior when grazing. Biotechnol. Agron. Soc. Environ. 2016, 20, 273-286. [CrossRef]
  31. Tani, Y.; Yokota, Y.; Yayota, M.; Ohtani, S. Automatic recognition and classification of cattle chewing activity by an acoustic monitoring method with a single-axis acceleration sensor. Comput. Electron. Agric. 2013, 92, 54-65. [CrossRef]
  32. Alvarenga, F.; Borges, I.; Oddy, V.; Dobos, R. Discrimination of biting and chewing behaviour in sheep using a tri-axial accelerometer. Comput. Electron. Agric. 2020, 168, 105051. [CrossRef]
  33. Galli, J.; Cangiano, C.; Pece, M.; Larripa, M.; Milone, D.; Utsumi, S.; Laca, E. Monitoring and assessment of ingestive chewing sounds for prediction of herbage intake rate in grazing cattle. Animal 2018, 12, 973-982. [CrossRef] [PubMed]
  34. Rau, L.M.; Chelotti, J.O.; Vanrell, S.R.; Giovanini, L.L. Developments on real-time monitoring of grazing cattle feeding behavior using sound. In Proceedings of the 2020 IEEE International Conference on Industrial Technology (ICIT), Buenos Aires, Argentina, 26-28 February 2020; IEEE: Piscataway, NJ, USA, 2020; pp. 771-776.
  35. Chelotti, J.O.; Vanrell, S.R.; Milone, D.H.; Utsumi, S.A.; Galli, J.R.; Rufiner, H.L.; Giovanini, L.L. A real-time algorithm for acoustic monitoring of ingestive behavior of grazing cattle. Comput. Electron. Agric. 2016, 127, 64-75. [CrossRef]
  36. Tan, L.; Dong, X.; Ma, Y.; Yu, C. A multiple object tracking algorithm based on YOLO detection. In Proceedings of the 2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), Beijing, China, 13-15 October 2018; IEEE: Piscataway, NJ, USA, 2018; pp. 1-5.
  37. Megalingam, R.K.; Babu, D.H.T.A.; Sriram, G.; YashwanthAvvari, V.S. Concurrent detection and identification of multiple objects using YOLO algorithm. In Proceedings of the 2021 XXIII Symposium on Image, Signal Processing and Artificial Vision (STSIVA), Popayan, Colombia, 15-17 September 2021; IEEE: Piscataway, NJ, USA, 2021; pp. 1-6.
  38. Sapkota, R.; Qureshi, R.; Calero, M.F.; Hussain, M.; Badjugar, C.; Nepal, U.; Poulose, A.; Zeno, P.; Vaddevolu, U.B.; Yan, H.; et al. YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of the You Only Look Once Series. arXiv 2024, arXiv:2406.19407.
  39. Zhou, Y. A YOLO-NL object detector for real-time detection. Expert Syst. Appl. 2024, 238, 122256. [CrossRef]
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content.

Journal: Animals, Volume: 14, Issue: 19
DOI: https://doi.org/10.3390/ani14192821
PMID: https://pubmed.ncbi.nlm.nih.gov/39409770
Publication Date: 2024-09-30

Programming and Setting Up the Object Detection Algorithm YOLO to Determine Feeding Activities of Beef Cattle: A Comparison between YOLOv8m and YOLOv10m

Pablo Guarnido-Lopez, John-Fredy Ramirez-Agudelo, Emmanuel Denimal, Mohammed Benaouda

– To cite this version:

Pablo Guarnido-Lopez, John-Fredy Ramirez-Agudelo, Emmanuel Denimal, Mohammed Benaouda. Programming and Setting Up the Object Detection Algorithm YOLO to Determine Feeding Activities of Beef Cattle: A Comparison between YOLOv8m and YOLOv10m. Animals, 2024, 14 (19), pp. 2821. 10.3390 /ani14192821 . hal-04751826

HAL Id: hal-04751826 https://institut-agro-dijon.hal.science/hal-04751826v1

Submitted on 24 Oct 2024
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Programming and Setting Up the Object Detection Algorithm YOLO to Determine Feeding Activities of Beef Cattle: A Comparison between YOLOv8m and YOLOv10m

Pablo Guarnido-Lopez (D), John-Fredy Ramirez-Agudelo (D), Emmanuel Denimal (D) and Mohammed Benaouda 1 Institut Agro Dijon, 26 bd Docteur Petitjean, 21079 Dijon, France; pabloguarnido@hotmail.com (P.G.-L.); emmanuel.denimal@agrosupdijon.fr (E.D.) Grupo de Investigación en Ciencias Agrarias-GRICA, Escuela de Producción Animal, Facultad de Ciencias Agrarias, Universidad de Antioquia, Medellin 050010, Colombia; johnf.ramirez@udea.edu.co* Correspondence: mohammed.ben-aouda@agrosupdijon.fr

Citation: Guarnido-Lopez, P.; Ramirez-Agudelo, J.-F.; Denimal, E.; Benaouda, M. Programming and Setting Up the Object Detection Algorithm YOLO to Determine Feeding Activities of Beef Cattle: A Comparison between YOLOv8m and YOLOv10m. Animals 2024, 14, 2821.
https://doi.org/10.3390/ ani14192821
Academic Editor: Danilo Florentino Pereira
Received: 8 July 2024
Revised: 12 August 2024
Accepted: 2 September 2024
Published: 30 September 2024
Copyright: © 2024 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license (https:// creativecommons.org/licenses/by/ 4.0/).
Simple Summary: This study addresses the challenge of accurately monitoring the feeding behavior of cattle, which is crucial for their health and productivity. The aim was to compare two versions of a computer vision algorithm, YOLO (v8 vs. v10), which identifies objects in images, to evaluate how well they can recognize the feeding activities of beef cattle. By recording videos of bulls on a farm and analyzing them using YOLO algorithms, we found that both versions were effective at detecting these behaviors, but the latest version was slightly better and faster at learning. This new version also showed a reduced tendency to repeat errors. The conclusion is that the latest version of YOLO is more efficient and reliable for real-world use on farms. This advancement is valuable to society as it helps farmers better monitor and manage cattle feeding, leading to healthier animals and more efficient farming practices.

Abstract

This study highlights the importance of monitoring cattle feeding behavior using the YOLO algorithm for object detection. Videos of six Charolais bulls were recorded on a French farm, and three feeding behaviors (biting, chewing, visiting) were identified and labeled using Roboflow. YOLOv8 and YOLOv10 were compared for their performance in detecting these behaviors. YOLOv10 outperformed YOLOv8 with slightly higher precision, recall, mAP50, and mAP50-95 scores. Although both algorithms demonstrated similar overall accuracy (around ), YOLOv8 reached optimal training faster and exhibited less overfitting. Confusion matrices indicated similar patterns of prediction errors for both versions, but YOLOv10 showed better consistency. This study concludes that while both YOLOv8 and YOLOv10 are effective in detecting cattle feeding behaviors, YOLOv10 exhibited superior average performance, learning rate, and speed, making it more suitable for practical field applications.

Keywords: computer vision; feeding activities; beef cattle; YOLO; precision livestock farming

1. Introduction

In recent years, scientific interest in analyzing animal behavior as a cornerstone for informed decision-making in cattle farming has increased. Accurate recording of parameters such as feeding frequency and duration provides invaluable insights into the nutritional monitoring of cattle, facilitating the formulation of balanced diets that ensure well-being, productivity, and a reduction in the environmental impact of the herd [1]. Furthermore, beyond nutritional considerations, deviations in feeding behavior patterns, such as reduced intake or abnormal feeding habits, can serve as early indicators of underlying health issues [2]. However, continuous visual observation is labor-intensive, time-consuming, and not worth the limited benefits gained. Since the emergence of Industry 4.0 technologies
in the livestock sector, machine learning algorithms coupled with cameras have assisted in this task over the past decades. These machine learning algorithms, specifically object detection algorithms, make it feasible and efficient to assess individual animal behaviors across diverse farm sizes and types, showcasing their versatility and applicability across various livestock management contexts [3].
When discussing object detection (involving many objects in a single image), the You Only Look Once (YOLO) algorithm has already demonstrated its utility in monitoring feeding and animal behavior across different species [4-7]. Regarding cattle, YOLO has been used to detect feeding behaviors in cows [8,9], monitor estrus [10], and track individual cattle behavior [11]. While other computer vision algorithms, such as ResNet, Faster R-CNN, and RetinaNet, have been applied in animal science, YOLO represents a favorable balance between accuracy, a unified structure, flexibility, and, crucially, when considering on-farm applications, high speed and real-time performance [12]. Several authors have compared YOLO’s performance in the real-time object detection of cattle and emphasized its potential for monitoring multiple animals simultaneously in various feeding environments [13].
The YOLO algorithm was created through DarkNet and was first presented in June 2016 at the Caesar’s Palace Conference Center in Las Vegas, Nevada, by Joseph Redmon [12]. Over the following years, he published improved versions of the algorithm-YOLOv2 [14] and YOLOv3 [15]-until he stopped his research career due to concerns about the military applications of his algorithm. Bochkovskiy continued Redmon’s work, releasing YOLOv4 [16]. Two months after YOLOv4’s launch, Glenn Jocher from Ultralytics released YOLOv5, which was developed using PyTorch instead of DarkNet [17]. After this version, the YOLO algorithm continued to be developed as open-source by independent programmers, leading to the most recent version, YOLOv10. In this work, we focused on YOLOv8, the latest version significantly enhanced by Ultralytics , and YOLOv10 (or YOLOX), the most recent version developed by independent researchers (THU-MIG, Tsinghua University’s Multimedia Intelligence Group). Real-time detection algorithms are among the tools shaping the future of technologies used in animal production due to their ability to provide solutions that aid in decision-making on farms. Therefore, we concentrated on using the YOLO algorithm in this study to determine feeding behavior in cattle.
Other studies have evaluated cattle behavior from a flank view [18] or a top view [19]. In this study, we recorded feeding behavior from the front view to better capture the entire head movement of the animal and the close interaction between the animal’s mouth and the feed. Specifically, this work focused on three distinct activities at the feeder: (1) visiting, which indicates the animal’s presence without ingesting; (2) chewing, which reflects the animal’s health status and rumination function; and (3) biting, which corresponds to the act of eating itself, allowing the determination of ingestion. These activities are the most representative feeding behaviors of cattle and allow for the estimation of other relevant performance indicators such as individual intake, ingestion time, eating rate, and health status [2]. The objective of this study was to compare the performance of YOLOv8 and YOLOv10 models in detecting the following three key activities during the feeding behavior of steers: biting, chewing, and visiting the feeder.

2. Materials and Methods

2.1. Animals, Diet and Measurements

Videos were recorded on a commercial Charolais farm covering 173 hectares (Tart-LeBas, Burgundy, France), which is located at the agricultural high school of Quetigny, France. For this experiment, a total of 12 young Charolais bulls ( months old) were monitored for individual dry matter intake (DMI). In France, commercial beef fattening usually takes place on former dairy farms; therefore, the feeders are similar to those found on dairy farms, which influenced the decision to place the camera in front of the animals. Animals were recorded for 7 min per day just after feed distribution, with one video recorded per day, yielding a total of 24 videos over 24 non-consecutive days across two consecutive months. Videos averaged 7 min because, after this time, most
animals left the feeder. In addition, the video storage capacity was also a limiting factor. The animals were housed in a covered barn with straw bedding and were fed twice daily: first at 8:00 AM with alfalfa hay ad libitum, as well as an energy and protein concentrate, and again at 4:00 PM with just alfalfa hay [ DM, DM] ad libitum. Video recordings of intake and ingestion time were conducted during the second meal distribution. The reason for recording animals during the second meal was that during the first meal, the animals were hungrier, and dominance behaviors that could affect prediction were more likely to occur. Fresh matter intake was measured by manually weighing individual feed amounts per animal [offered feed minus refused feed] using an electronic scale (Rubbermaid Digital Utility Scale-400 lbs ). Samples to measure DM were taken weekly, stored in a homogeneous manner, and analyzed in an external laboratory.

2.2. Recording System

Videos were recorded using an RGB-D camera, Intel RealSense D455 (Intel, Santa Clara, CA, USA), mounted on a tripod and connected to a computer, as shown in Figure 1. The videos were captured using Intel software (Intel RealSense SDK 2.0 v 2.51 .1 ). During the recordings, animals were manually identified by their number to enable individual predictions later. The camera used in this study has three sensors-an infrared sensor, an RGB sensor, and a depth sensor (3D). The camera has an RGB depth field of view of . In this study, only two dimensions were required, so only the RGB sensor was used. The camera software was configured to record videos at 5 frames per second. To minimize the impact of lighting bias, videos were recorded at the same time each day, from the same angle, and at a distance of 5 m from the center of the feeder.
Figure 1. Recording set of animals and cameras.

2.3. Data Set Description and Labelling

Intel software was used to extract individual frames from the videos. Fifty frames per video were randomly selected to create a database ( 1200 frames in total), which was divided into three datasets-a training set ( ), a validation set ( ), and a test set ( ). During the study period, 20 videos were recorded, numbered sequentially from 1 to 20 to reflect the order in which they were captured, documenting cattle growth and changes in environmental conditions. To minimize biases and ensure balanced representation in our datasets, we strategically divided the videos based on their numbering: odd-numbered videos were used for the training dataset, while even-numbered videos were designated for the test dataset. This method ensured that both datasets included varied images throughout the entire period, maintaining a strict separation between training and test data to accurately
assess the model’s ability to generalize to new, unseen conditions. Figure 2 shows examples of the image diversity used in this work.
Figure 2. Examples of the images used in individual activities classification.
The frame subsets were manually labeled using the online software “Roboflow” “https: / /roboflow.com/” (accessed on 12 September 2023). Roboflow (Figure 3) enables users to generate the necessary YOLO text files for training and evaluation. These files contain annotations in a specific format that includes the class label and normalized coordinates of the bounding boxes representing the object’s location in the image. Each line in a text file corresponds to one object and follows this format: <object-class> <x_center> <y_center> <width> <height>, where all values are normalized between 0 and 1 (e.g., 00.5340 .622 0.142 0.256) [20].
Figure 3. Roboflow software to label individual activities of cattle.
Three distinct feeding behaviors were meticulously identified and labeled in the selected frames, as depicted in Figure 4. These behaviors were classified as follows:
  1. Visiting: Characterized by the animal standing with its head elevated and not engaging in any feeding activity, signifying the absence of feed intake.
  2. Biting: Defined by the animal lowering its head toward the feeder, suggesting active engagement with the feed and typically indicating the initial action of feed intake.
  3. Chewing: Marked by the animal raising its head yet displaying clear signs of mastication, evidenced by the presence of feed in the mouth.
Figure 4. Three main feeding activities recorded and determined in beef cattle.
Figure 4 provides visual examples of these behaviors, each captured from a frontfacing perspective to ensure clarity in the observable actions. The images serve as a visual reference for the classification criteria applied during the manual labeling process, enabling precise and consistent categorization across the datasets.

2.4. YOLOv8 and v10 Network Structure

The YOLOv8 and v10 algorithms are based on the same principles but have different neural network structures (Figure 5). These models represent significant updates in the YOLO (You Only Look Once) series, known for their real-time object detection capabilities. Each model seeks to push the boundaries of speed, accuracy, and efficiency in object detection. YOLOv8, building upon advancements from previous iterations, introduces several architectural improvements aimed at enhancing model performance and efficiency. It continues to leverage components like CSPNet from earlier versions but also incorporates new methods to optimize latency and parameter efficiency. The shift from a traditional backbone like CSP-Darknet53 to more efficient designs enables YOLOv8 to offer better performance with reduced computational overhead [21-24]. YOLOv10, the latest in the series, brings even more profound architectural innovations, focusing on both model efficiency and accuracy. One of the key innovations is the introduction of a lightweight classification head that utilizes depth-wise separable convolutions-a technique that separates the convolutional process into depth-wise and point-wise operations. This adjustment significantly lowers computational costs and reduces model parameters without sacrificing performance. Additionally, YOLOv10 incorporates holistic model design strategies, such as the consistent dual assignments for NMS-free training and rank-guided block design, further enhancing its efficiency and effectiveness. Extensive testing shows that YOLOv10 provides state-of-the-art performance and efficiency across various model scales, demonstrating improvements in both average precision and inference latency compared with its predecessors [25].
Figure 5. Differences in the neural network structure of YOLOv8 (A) and v10 (A). The image in panel A has been adapted from Shao et al. (2024) [26] and the image in (B) has been adapted from Xu et al. (2022) [27].

2.5. Training

The models were trained on Google Colab utilizing a Tesla T4 GPU with of memory. Necessary libraries, such as “numpy” for numerical operations, “cv2” for image processing, and the YOLO models from the “ultralytics” package, were imported. Additionally, “supervision” and “roboflow” libraries were installed to assist with model training and data handling. The YOLO models were initialized with pre-trained weights. These weights serve as a starting point, allowing the model to build upon previously learned features, thereby speeding up the training process and improving the initial performance. The dataset configuration file (“data.yaml”) specifies the training and validation data paths as well as the number of classes. This file is essential for informing the model about the structure and content of the dataset. The training command was issued using the “yolo” command-line interface. Key parameters include the following: Task and Mode-the task was set to object detection (“detect”), and the mode was set to training (“train”); Model and Data-the model was specified, and the dataset configuration file was provided (“data.yaml”); Training Parameters-the models were trained for 500 epochs with an image size of 640 pixels and a batch size of 8 . These parameters control the duration and intensity of the training process; Patience-the “patience” parameter was set to 50 , meaning that if validation performance did not improve for 50 consecutive epochs, training would stop early to prevent overfitting.
During training, the model used automatic mixed precision (AMP) to speed up computation and reduce memory usage. The model architecture, including layers and parameters, was printed for verification. Data augmentation techniques, such as blur and color adjustments, were applied to the training images to improve the model’s robustness. The optimizer used for training was “AdamW”, which was automatically selected to optimize the learning rate and momentum parameters. The model logged its progress to TensorBoard, allowing for the real-time monitoring of training metrics, such as loss and accuracy. Throughout the training process, the model periodically validated its performance on the validation dataset. This validation helped monitor the model’s ability to generalize to new data and prevent overfitting. The training continued for the specified number of epochs or until early stopping criteria were met. Upon completion, the model’s weights were saved.

2.6. Evaluation Indicators

To accurately evaluate the performance of the models, we used common evaluation indicators in target detection algorithms: precision, recall, mean average precision (mAP),
and F1-score. In terms of precision and recall, there are four possible outcomes when predicting a test sample: True Positive (TP), False Positive (FP), True Negative (TN), and False Negative (FN). These evaluation indicators are defined as follows:
  • Precision is the ratio of TP predictions to the total number of positive predictions made by the model (both TP and FP). It reflects the accuracy of the positive predictions.
  • Recall is the ratio of TP predictions to the total number of actual positive cases (TP and . It measures the model’s ability to identify all relevant instances.
  • Average Precision (AP) is defined as the area under the precision-recall curve; AP provides a single value that summarizes the model’s precision and recall performance at various threshold levels.
  • Mean Average Precision (mAP) is the mean of the average precision values for all classes. It serves as a comprehensive measure that evaluates the overall performance of the model across different object classes.
  • F1-Score is the harmonic mean of precision and recall. It balances these two metrics by providing a single score that accounts for both false positives and false negatives.
    Additionally, the changing trend of the model’s loss curve can also be used to assess the model’s performance. A faster loss curve fitting speed, better fit, and lower final loss value generally indicate stronger performance. Furthermore, a Python code was developed to evaluate the performance of the trained object detection models using a set of test images and their corresponding annotations. The process begins by importing necessary libraries for numerical operations, image processing, file handling, and model operations. The Intersection over Union (IoU) function is defined to calculate the overlap between predicted and ground-truth bounding boxes, providing a measure of prediction accuracy. The code reads the ground truth annotations from the test dataset, which are formatted in YOLO style and converted into absolute coordinates. The trained YOLO model is then loaded using the specified model weights and directories for test images, and their annotations are set. The code initializes dictionaries to count TP, FP, and FN for each class and sets up lists to store precision and recall values. The code iterates through each image in the test directory, reading the image and its corresponding ground truth annotations. The model makes predictions, extracting bounding boxes and their corresponding class labels, which are then compared with the ground truth annotations. If a prediction matches a ground truth (having the same class ID and an IoU greater than 0.5 ), it is counted as a TP. If no match is found, the ground truth is counted as an FN, and any remaining predictions are counted as FP. After processing all images, the code calculates precision, recall, F1-score, and average precision for each class.

3. Results

3.1. YOLOv8 and v10 Performance in Feeding Behavior Detection

Table 1 highlights that YOLOv10 generally outperforms YOLOv8 across several metrics. For instance, YOLOv10 shows a higher mean Average Precision (mAP) of 0.94 compared to 0.92 for YOLOv8, indicating an overall improvement in object detection performance. For the “biting” activity, both models exhibit excellent performance with nearly perfect precision, recall, and F1-scores. However, for the “chewing” activity, YOLOv10 demonstrates higher precision, recall, and F1-score than YOLOv8, signifying better detection accuracy and reliability. In the “visiting” activity, YOLOv8 achieves perfect precision but significantly low recall, resulting in a low F1-score. In contrast, YOLOv10 presents a more balanced performance with considerably improved recall and F1-score, though with a slight decrease in precision.
On average, the metrics for the “visiting” activity are significantly lower than those observed for “chewing” and “biting”. This discrepancy may be due to the following two factors: (1) the lower number of instances of “visiting” compared to the other activities, which impacts the model’s training and thus the accuracy for this activity, and (2) the “visiting” activity is more ambiguous as it only relates to the presence of the animal without any feeding behavior (chewing or biting), making it more difficult to define. These metrics
collectively suggest that YOLOv10 offers more robust and reliable performance across different activities, making it a superior choice for applications requiring high-accuracy object detection in our database. The number of instances differs between models because YOLOv10 did not detect some instances that YOLOv8 did, leading to a lower count of instances for certain classes in the YOLOv10 evaluation. This discrepancy arises due to the models’ differing abilities to detect objects with an Intersection over Union (IoU) greater than 0.5 and correctly match the activity labels.
Table 1. Results of YOLO model performance classifying feeding activities of cattle divided by version v8 vs. v10.
Model Class Instances Precision * Recall * F1-Score * mAP*
YOLOv8 All 2040 0.92
Biting 1128 0.99 0.98 0.99
Chewing 762 0.84 0.98 0.91
Visiting 150 1.00 0.15 0.26
YOLOv10 All 1953 0.94
Biting 1081 0.99 0.98 0.99
Chewing 737 0.87 0.99 0.93
Visiting 135 0.98 0.37 0.54
Number of instances is the number of times that one precise activity appears (one activity can be several times in the same frame). * Precision, recall, and mean average precision (mAP) reflect the model’s performance.
Figure 6 shows an example of the results of the animals’ feeding behavior recorded through a frontal view with the predicted result (by the YOLO algorithm) of individual feeding behavior. As can be seen from Figure 6 and in accordance with results shown in Table 1, both versions of the YOLO algorithm can accurately identify animals’ ‘Biting’ and ‘Chewing’ activities with a confidence level above 0.98 .
Figure 6. Capture of a frame showing the YOLOv8 prediction of feeding activities of individual beef cattle animals.

3.2. Confusion Matrix of Feeding Activities Predicted with YOLOv8 vs. v10

Figure 7 displays the normalized confusion matrices for YOLOv 8 m and YOLOv 10 m . Both models demonstrate excellent performance in accurately predicting ‘Biting’ and
‘Chewing’ behaviors, with YOLOv8m achieving 0.98 accuracy for both and YOLOv10m achieving 0.98 and 0.99 , respectively. However, both models exhibit a tendency to confuse ‘Visiting’ with ‘Chewing’. Notably, YOLOv8m shows greater confusion in this regard, with only 0.15 accuracy in correctly identifying ‘Visiting’ compared to 0.37 accuracy observed in YOLOv10m. This indicates that while both algorithms are highly effective at recognizing ‘Biting’ and ‘Chewing,’ YOLOv10m, despite its overall precision, struggles more with distinguishing ‘Visiting’ from ‘Chewing.’ This confusion can be explained by the similarities between these two activities and the relatively few instances of ‘Visiting’ recorded in the database.
Figure 7. Confusion matrix of main activities analyzed by YOLOv8 vs. v10.

3.3. Learning Rates and Parameters of YOLOv8 and v10

The learning rates of both YOLOv8 and YOLOv10 are shown in Figure 8. The comparative analysis reveals that while both YOLOv8 and YOLOv10 models are effective, YOLOv10 generally exhibits better stability and lower validation losses across various metrics. YOLOv8, on the other hand, converges faster during training but shows higher validation losses, indicating potential overfitting. The consistently lower validation losses of YOLOv10 suggest better generalization and robustness when applied to unseen data.
Finally, to achieve the best performance in predicting feeding activities, we set up YOLOv8 and YOLOv10 with the standard parameters shown in Table 2.
Table 2. Standard parameters used in YOLOv8 and v10.
Feature * YOLOv8 YOLOv10
Layers 295 498
GFLOPs 79.1 64.0
Optimizer AdamW AdamW
Learning Rate 0.01 0.01
Momentum 0.937 0.937
Weight Decay 0.0005 0.0005
Warmup Epochs 3.0 3.0
Training Epochs 1000 1000
Batch Size 8 8
Image Size 640 640
Table 2. Cont.
Feature * YOLOv8 YOLOv10
Freeze Layers model.22.dfl.conv.weight model.23.dfl.conv.weight
Augmentations Blur, MedianBlur, ToGray, CLAHE Blur, MedianBlur, ToGray, CLAHE
Mixed Precision Yes Yes
Max Detections 300 300
Classes 3 3
Patience 50 50
  • To better understand these parameters, previous researchers have reviewed them, explaining their meaning and influence on model predictions [28].
Figure 8. Learning rates of YOLOv8 and YOLOv10.

4. Discussion

As computer vision continues to grow in prominence within livestock management, it is essential to evaluate the most commonly used algorithms. In this context, the present study assessed two versions of object detection algorithms, YOLOv8 and YOLOv10, which represent different development approaches within the YOLO framework. YOLOv8 is an improved version of the original YOLO structure created by its inventor, while YOLOv10 was developed by independent researchers. The objective was to evaluate the performance of these two versions in predicting cattle feeding behaviors, which are critical to cattle productivity, health status, and daily performance. On average, YOLOv10 demonstrated slightly better accuracy than YOLOv8 in predicting feeding activities and distinguishing between them (confusion matrix). Moreover, YOLOv10 showed improved learning rate outcomes, suggesting better overall model performance.
We evaluated the performance of YOLOv8 and YOLOv10 using several key metrics: precision, recall, mean Average Precision (mAP), and F1-score. Precision, which measures the accuracy of positive predictions, was particularly high for both models in detecting the “biting” activity ( 0.99 for both YOLOv 8 and YOLOv10). This indicates a strong capability to correctly identify this behavior without false positives. Recall, which assesses the model’s ability to identify all relevant instances, was lower for the “visiting” activity, particularly in YOLOv8 (0.15). This suggests that the model had difficulty detecting all instances of this behavior, potentially due to the fewer occurrences and the nature of the activity. The mAP metric, which provides a comprehensive measure of the model’s performance across different detection thresholds, was higher in YOLOv10 (0.94) than in YOLOv8 (0.92). The F1score, a harmonic mean of precision and recall, further highlights the overall performance. For “chewing”, YOLOv10 outperformed YOLOv8 ( 0.93 vs. 0.91 ), indicating better detection reliability. The slight improvement in mAP and F 1 -score in YOLOv 10 suggests it may be better suited for applications requiring high accuracy, especially in detecting less frequent behaviors like “visiting”.
However, YOLOv8’s faster convergence might make it a better choice in scenarios where training time is limited and high accuracy across all metrics is not as critical. A survey comparing YOLO versions from YOLOv1 to the state-of-the-art YOLOv10 has consistently shown that newer versions offer better performance metrics like precision and recall due to architectural refinements [29]. For instance, YOLOv10 integrates advanced post-processing techniques and anchor-free detection heads, which further reduce computational overhead while improving detection accuracy. YOLOv10 builds upon the advancements of its predecessors by optimizing both the architecture and post-processing stages, leading to superior performance in real-time object detection tasks [30]. Both biting and visiting activities were predicted with high precision and recall ( ) by both YOLO versions (Figure 9). This success is likely due to the distinct head movements associated with these activities: head down touching the feed (biting) versus head up with the mouth closed (visiting). However, the main challenge arose with the “chewing” activity, which had lower prediction performance and was often confused with “visiting” (especially by YOLOv8). This confusion can be explained by the subtle differences between these two activitiesmouth closed (visiting) versus mouth open with feed present (chewing). Other studies have similarly pointed out the difficulty in determining chewing activity [31,32]. To address this issue, other authors have proposed the following methods: (1) using accelerometers to differentiate feeding activities based on head position [31]; (2) estimating chewing through sound analysis (or combining video and sound), which offers an interesting proxy by considering both visual and auditory differences [33-35]; and (3) incorporating multipleframe tracking algorithms into YOLO, which may allow the algorithm to better capture jaw movements and improve prediction accuracy. This multi-frame algorithm has already been applied with YOLO [36,37], and future research could evaluate its efficacy in improving activity prediction in this context. This method could increase both YOLO’s prediction performance and reduce the confusion between activities.
Figure 9. Precision-Recall curves of YOLOv8 and YOLOv10.
YOLOv10’s superior performance in detecting the “visiting” activity, as evidenced by its higher recall and F1-score compared to YOLOv8, can be attributed to several key factors related to its architectural improvements and their impact on object detection capabilities. YOLOv10 incorporates a more refined network structure that includes a lightweight classification head with depth-wise separable convolutions [25]. This structural change reduces computational costs and enhances the model’s ability to generalize across different classes, particularly those with subtle distinctions, such as “visiting” versus other feeding behaviors. As highlighted by the developments in the YOLO series [25], including versions YOLOv6, YOLOv7, and YOLOv8, the architectural enhancements have significantly improved the models’ feature extraction and classification capabilities. These advancements include the introduction of decoupled head structures, enhanced neck modules for better feature aggregation, and advanced convolutional layers. These features are particularly crucial for tasks requiring fine-grained distinctions, as they enable the models to better capture and classify subtle details in the input data. While YOLOv10 shows robust overall performance, it is important to acknowledge areas where YOLOv8 exhibited strengths, particularly in faster convergence during training. YOLOv8 demonstrated quicker attainment of lower training and validation losses, which can be advantageous in scenarios where computational resources are limited or rapid model deployment is necessary. This quicker convergence suggests that YOLOv8 may be more efficient in learning from data early in the training process. However, YOLOv8’s performance comes with a trade-off. Despite its faster convergence, YOLOv8 may not generalize as well in detecting less frequent or more subtle behaviors, such as the “visiting” activity, where an animal is present at the feeder without actively feeding. This could lead to the underreporting of critical events related to animal monitoring. In contrast, YOLOv10, although requiring a longer training period and maintaining slightly higher losses, offers a more balanced performance across all activities [38]. This balance makes YOLOv10 more suitable for real-time applications in precision livestock farming, where accuracy and reliability are paramount.
Finally, regarding the slight differences in learning rate between YOLOv8 and YOLOv10, we recommend using the latter due to its improved processing speed and slightly greater capacity for deployment under real-world conditions [39]. However, we acknowledge that the differences between both versions are minor, and both versions (with their different model structures) may perform well in field conditions. The next step is to correlate these predicted activities with other parameters, such as health status, fertility, or performance traits.

5. Conclusions

In this paper, we summarized the evolution of YOLO, one of the most well-known object detection algorithms in computer vision, highlighting how YOLOv8 represents the last version closely following the original architecture, while YOLOv10 has been improved by independent developers, both as open source. We compared these two versions of the YOLO algorithm to predict feeding activities in cattle from a frontal view. These feeding activities are becoming increasingly relevant in animal production due to their relationship with health, animal performance, and efficiency. The results of this study show that both versions of the YOLO algorithm performed similarly in predicting feeding activities, in terms of accuracy (precision, recall, and mAP) and confusion matrix, with YOLOv10 slightly outperforming YOLOv8. However, where the difference is more pronounced between these two algorithms is in the speed at which they reach optimal training and performance, with YOLOv8 being superior to YOLOv10 (132 and 204 epochs, respectively). In conclusion, both YOLOv8 and YOLOv10 are suitable for predicting “biting” and “chewing” activities in beef cattle with an accuracy of around using our database. In future research, these activities could be evaluated from different points of view. The automated detection of these feeding activities on farms may improve decision-making for cattle producers in terms of nutritional strategies, early detection of abnormal health status, or management routines adapted to animal behavior.
Author Contributions: Conceptualization, writing, analysis and editing P.G.-L.; conceptualization, writing, analysis and editing J.-F.R.-A.; conceptualization, writing and editing E.D.; conceptualization, analysis and editing M.B. All authors have read and agreed to the published version of the manuscript.
Funding: This research was funded by APIS-GENE through the project EPI .
Institutional Review Board Statement: Not applicable.
Informed Consent Statement: Not applicable.
Data Availability Statement: The data presented in this study are available on request from the corresponding author.
Acknowledgments: We would like to thank the workers of the experimental farm in Tart le bas, the undergraduate students participating in the data recording/collection, and the master’s student Mohammed Lahdou, who helped to set up both algorithms.
Conflicts of Interest: The authors declare no conflicts of interest.

References

  1. Difford, G.F.; Plichta, D.R.; Løvendahl, P.; Lassen, J.; Noel, S.J.; Højberg, O.; Wright, A.-D.G.; Zhu, Z.; Kristensen, L.; Nielsen, H.B.; et al. Host genetics and the rumen microbiome jointly associate with methane emissions in dairy cows. PLoS Genet. 2018, 14, e1007580. [CrossRef] [PubMed]
  2. Atkinson, G.A.; Smith, L.N.; Smith, M.L.; Reynolds, C.K.; Humphries, D.J.; Moorby, J.M.; Leemans, D.K.; Kingston-Smith, A.H. A computer vision approach to improving cattle digestive health by the monitoring of faecal samples. Sci. Rep. 2020, 10, 17557. [CrossRef] [PubMed]
  3. Chen, C.; Zhu, W.; Norton, T. Behaviour recognition of pigs and cattle: Journey from computer vision to deep learning. Comput. Electron. Agric. 2021, 187, 106255. [CrossRef]
  4. McDonagh, J.; Tzimiropoulos, G.; Slinger, K.R.; Huggett, Z.J.; Down, P.M.; Bell, M.J. Detecting dairy cow behavior using vision technology. Agriculture 2021, 11, 675. [CrossRef]
  5. Islam, N.; Yoder, J.; Nasiri, A.; Burns, R.T.; Gan, H. Analysis of the drinking behavior of beef cattle using computer vision. Animals 2023, 13, 2984. [CrossRef] [PubMed]
  6. Wu, D.; Han, M.; Song, H.; Song, L.; Duan, Y. Monitoring the respiratory behavior of multiple cows based on computer vision and deep learning. J. Dairy Sci. 2023, 106, 2963-2979. [CrossRef] [PubMed]
  7. Fuentes, A.; Yoon, S.; Park, J.; Park, D.S. Deep learning-based hierarchical cattle behavior recognition with spatio-temporal information. Comput. Electron. Agric. 2020, 177, 105627. [CrossRef]
  8. Jeong, K.; Kim, D.-R.; Ryu, J.-H.; Kim, H.-W.; Cho, J.; Lee, E.; Jeong, J.-H. A Monitoring System for Cattle Behavior Detection using YOLO-v8 in IoT Environments. In Proceedings of the 2024 IEEE International Conference on Consumer Electronics (ICCE), Las Vegas, NV, USA, 5-8 January 2024; IEEE: Piscataway, NJ, USA, 2024; pp. 1-4.
  9. Yu, J.; Ye, X.; Tu, Q. Traffic sign detection and recognition in multiimages using a fusion model with YOLO and VGG network. IEEE Trans. Intell. Transp. Syst. 2022, 23, 16632-16642. [CrossRef]
  10. Wang, Z.; Hua, Z.; Wen, Y.; Zhang, S.; Xu, X.; Song, H. E-YOLO: Recognition of estrus cow based on improved YOLOv8n model. Expert Syst. Appl. 2024, 238, 122212. [CrossRef]
  11. Fuentes, A.; Han, S.; Nasir, M.F.; Park, J.; Yoon, S.; Park, D.S. Multiview monitoring of individual cattle behavior based on action recognition in closed barns using deep learning. Animals 2023, 13, 2020. [CrossRef]
  12. Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27-30 June 2016; pp. 779-788.
  13. Guo, Y.; Qiao, Y.; Sukkarieh, S.; Chai, L.; He, D. Bigru-attention based cow behavior classification using video data for precision livestock farming. Trans. ASABE 2021, 64, 1823-1833. [CrossRef]
  14. Redmon, J.; Farhadi, A. YOLO9000: Better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21-26 July 2017; pp. 7263-7271.
  15. Redmon, J.; Farhadi, A. Yolov3: An incremental improvement. arXiv 2018, arXiv:1804.02767.
  16. Bochkovskiy, A.; Wang, C.T.; Mark Liao, H.Y. YOLOv4: Optimal Speed and Accuracy of Object Detection. arXiv 2020, arXiv:2004.10934.
  17. Jocher, G.; Stoken, A.; Chaurasia, A.; Borovec, J.; Kwon, Y.; Michael, K.; Thanh Minh, M. ultralytics/yolov5: v6. 0-YOLOv5n ‘Nano’ Models, Roboflow Integration, TensorFlow Export, OpenCV DNN Support; Zenodo: Genève, Switzerland, 2021. [CrossRef]
  18. Balasso, P.; Marchesini, G.; Ughelini, N.; Serva, L.; Andrighetto, I. Machine learning to detect posture and behavior in dairy cows: Information from an accelerometer on the animal’s left flank. Animals 2021, 11, 2972. [CrossRef] [PubMed]
  19. Bezen, R.; Edan, Y.; Halachmi, I. Computer vision system for measuring individual cow feed intake using RGB-D camera and deep learning algorithms. Comput. Electron. Agric. 2020, 172, 105345. [CrossRef]
  20. Ciaglia, F.; Zuppichini, F.S.; Guerrie, P.; McQuade, M.; Solawetz, J. Roboflow 100: A rich, multi-domain object detection benchmark. arXiv 2022, arXiv:2211.13523.
  21. Wang, C.Y.; Bochkovskiy, A.; Liao, H.Y.M. CSPNet: A new backbone that can enhance learning capability of CNN. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, WA, USA, 14-19 June 2020; pp. 390-391.
  22. Tan, M.; Le, Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. In Proceedings of the 36th International Conference on Machine Learning, PMLR, Long Beach, CA, USA, 9-15 June 2019; Volume 97, pp. 6105-6114.
  23. Tian, Z.; Shen, C.; Chen, H.; He, T. FCOS: Fully Convolutional One-Stage Object Detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Republic of Korea, 27 October-2 November 2019; pp. 9627-9636.
  24. Lin, T.Y.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. Feature Pyramid Networks for Object Detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, 21-26 July 2017; pp. 2117-2125.
  25. Wang, A.; Chen, H.; Liu, L.; Chen, K.; Lin, Z.; Han, J.; Ding, G. Yolov10: Real-time end-to-end object detection. arXiv 2024, arXiv:2405.14458.
  26. Shao, Y.; Zhang, R.; Lv, C.; Luo, Z.; Che, M. TL-YOLO: Foreign-Object Detection on Power Transmission Line Based on Improved Yolov8. Electronics 2024, 13, 1543. [CrossRef]
  27. Xu, X.; Feng, Z.; Cao, C.; Yu, C.; Li, M.; Wu, Z.; Ye, S.; Shang, Y. STN-Track: Multiobject tracking of unmanned aerial vehicles by swin transformer neck and new data association method. IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2022, 15, 8734-8743. [CrossRef]
  28. Sohan, M.; Sai Ram, T.; Rami Reddy, C.V. A Review on YOLOv8 and Its Advancements. In Data Intelligence and Cognitive Informatics: ICDICI 2023; Jacob, I.J., Piramuthu, S., Falkowski-Gilski, P., Eds.; Algorithms for Intelligent Systems; Springer: Singapore, 2024.
  29. Alif, M.A.R.; Hussain, M. YOLOv1 to YOLOv10: A comprehensive review of YOLO variants and their application in the agricultural domain. arXiv 2024, arXiv:2406.10139.
  30. Andriamandroso, A.; Bindelle, J.; Mercatoris, B.; Lebeau, F. A review on the use of sensors to monitor cattle jaw movements and behavior when grazing. Biotechnol. Agron. Soc. Environ. 2016, 20, 273-286. [CrossRef]
  31. Tani, Y.; Yokota, Y.; Yayota, M.; Ohtani, S. Automatic recognition and classification of cattle chewing activity by an acoustic monitoring method with a single-axis acceleration sensor. Comput. Electron. Agric. 2013, 92, 54-65. [CrossRef]
  32. Alvarenga, F.; Borges, I.; Oddy, V.; Dobos, R. Discrimination of biting and chewing behaviour in sheep using a tri-axial accelerometer. Comput. Electron. Agric. 2020, 168, 105051. [CrossRef]
  33. Galli, J.; Cangiano, C.; Pece, M.; Larripa, M.; Milone, D.; Utsumi, S.; Laca, E. Monitoring and assessment of ingestive chewing sounds for prediction of herbage intake rate in grazing cattle. Animal 2018, 12, 973-982. [CrossRef] [PubMed]
  34. Rau, L.M.; Chelotti, J.O.; Vanrell, S.R.; Giovanini, L.L. Developments on real-time monitoring of grazing cattle feeding behavior using sound. In Proceedings of the 2020 IEEE International Conference on Industrial Technology (ICIT), Buenos Aires, Argentina, 26-28 February 2020; IEEE: Piscataway, NJ, USA, 2020; pp. 771-776.
  35. Chelotti, J.O.; Vanrell, S.R.; Milone, D.H.; Utsumi, S.A.; Galli, J.R.; Rufiner, H.L.; Giovanini, L.L. A real-time algorithm for acoustic monitoring of ingestive behavior of grazing cattle. Comput. Electron. Agric. 2016, 127, 64-75. [CrossRef]
  36. Tan, L.; Dong, X.; Ma, Y.; Yu, C. A multiple object tracking algorithm based on YOLO detection. In Proceedings of the 2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), Beijing, China, 13-15 October 2018; IEEE: Piscataway, NJ, USA, 2018; pp. 1-5.
  37. Megalingam, R.K.; Babu, D.H.T.A.; Sriram, G.; YashwanthAvvari, V.S. Concurrent detection and identification of multiple objects using YOLO algorithm. In Proceedings of the 2021 XXIII Symposium on Image, Signal Processing and Artificial Vision (STSIVA), Popayan, Colombia, 15-17 September 2021; IEEE: Piscataway, NJ, USA, 2021; pp. 1-6.
  38. Sapkota, R.; Qureshi, R.; Calero, M.F.; Hussain, M.; Badjugar, C.; Nepal, U.; Poulose, A.; Zeno, P.; Vaddevolu, U.B.; Yan, H.; et al. YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of the You Only Look Once Series. arXiv 2024, arXiv:2406.19407.
  39. Zhou, Y. A YOLO-NL object detector for real-time detection. Expert Syst. Appl. 2024, 238, 122256. [CrossRef]
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content.