منح الأبقار صوتاً رقمياً – البيوأكوستيك والذكاء الاصطناعي في إدارة الثروة الحيوانية الدقيقة – مراجعة
Giving Cows a Digital Voice – AI-Enabled Bioacoustics and Smart Sensing in Precision Livestock Management – A Review

المجلة: Annals of Animal Science، المجلد: 26، العدد: 3
DOI: https://doi.org/10.2478/aoas-2025-0091
تاريخ النشر: 2025-08-26
المؤلف: Mayuri Kate وآخرون
الموضوع الرئيسي: دراسات سلوك الحيوان ورفاهيته

نظرة عامة

تستكشف هذه المراجعة استخدام تقنيات الذكاء الاصطناعي (AI) لفك شفرة أصوات الماشية، والتي تعمل كمؤشرات على حالاتهم الفسيولوجية والعاطفية. من خلال تحليل أكثر من 120 دراسة، يتتبع المؤلفون التطور من معالجة الإشارات التقليدية وتعلم الآلة إلى نماذج التعلم العميق المتقدمة. يحددون التحديات الرئيسية، بما في ذلك ندرة البيانات، والقدرة المحدودة على التعميم عبر المزارع المختلفة، وقابلية تفسير النماذج المعقدة. يتم التأكيد على دمج بيانات المستشعرات المتعددة الوسائط – مثل الصوت، والاهتزاز، والتصوير الحراري – كأمر أساسي لتقييم الرفاهية بدقة ووعي بالسياق. يجمع النموذج المقترح “النموذج الهجين القابل للتفسير الصوتي المتعدد الوسائط” (HEAM) بين الشبكات العصبية التلافيفية (CNNs)، وأشجار القرار، والتفكير بلغة طبيعية لتوفير تنبيهات شفافة للمزارعين.

تسلط النتائج الضوء على أن أصوات الماشية تحتوي على أنماط مميزة مرتبطة بسياقات معينة، والتي يمكن لتقنيات الذكاء الاصطناعي تحليلها لتمييز بين المكالمات المختلفة، مثل مكالمات الاتصال الهادئة ومكالمات الضيق المضطرب. بينما أظهرت طرق تعلم الآلة المبكرة دقة معقولة في البيئات المسيطر عليها، واجهت قيودًا في البيئات المعقدة. لقد حسنت أساليب التعلم العميق الأداء من خلال القضاء على الحاجة إلى استخراج الميزات يدويًا واستغلال السياق الزمني. ومع ذلك، تؤكد المراجعة على الحاجة إلى مجموعات بيانات أكبر ومعيارية وأهمية القابلية للتفسير في نماذج الذكاء الاصطناعي لتعزيز الثقة بين المزارعين. تشمل الاتجاهات المستقبلية تعزيز التكامل المتعدد الوسائط، وتطوير أنظمة تعلم تكيفية، وتعزيز التعاون بين التخصصات لضمان أن الأدوات تلبي احتياجات المزارعين وتحسن رفاهية الحيوانات.

مقدمة

تسلط المقدمة الضوء على مشكلة تحول المجال في نماذج الذكاء الاصطناعي المطبقة على البيئات الزراعية، وخاصة في سياق مراقبة الماشية. تشير إلى أن النماذج المدربة في مزرعة واحدة غالبًا ما تظهر أداءً متناقصًا عند تطبيقها على مزارع مختلفة بسبب الاختلافات في سلوك أصوات القطيع، وصوت الحظائر، والضوضاء الخلفية. على سبيل المثال، حقق كاشف المكالمات الذي طوره فيدانا-فيلا وآخرون (2023) درجة F1 تبلغ 0.94 في مزرعته التدريبية ولكنه انخفض إلى أقل من 0.70 في موقع مختلف، حيث أثرت العوامل البيئية مثل الجدران الخرسانية على تردد الصوت. تم ملاحظة انخفاضات مماثلة في الأداء في المصنفات لمكالمات الشبق والضغط، مما يشير إلى أن النماذج قد تكون مخصصة بشكل مفرط للخصائص المحددة لبيئات تدريبها.

تناقش النصوص أيضًا الجهود المبذولة لوضع معايير موحدة لتقييم نماذج اكتشاف أصوات الحيوانات، مثل معيار BEANS، الذي يجمع مجموعات البيانات عبر الأنواع. ومع ذلك، تشير إلى أن المعايير الخاصة بالماشية لا تزال نادرة. بالإضافة إلى ذلك، تقدم الجدول 4 تحليلًا مقارنًا بين نماذج تعلم الآلة التقليدية ونماذج التعلم العميق، موضحة مزاياها وعيوبها. وهذا يبرز الحاجة إلى نماذج أكثر قوة وقابلية للتعميم يمكن أن تعمل بفعالية عبر بيئات زراعية متنوعة.

مناقشة

تتناول قسم المناقشة في ورقة البحث الطبيعة المعقدة للتواصل بين الماشية، مع التأكيد على الأهمية البيولوجية والسلوكية لأصوات الماشية. تنقل أنماط أصوات الماشية معلومات حيوية تتعلق بالهوية، والحالة العاطفية، والسياق الاجتماعي، مع مكالمات مميزة مرتبطة بسلوكيات معينة مثل الرضاعة، والتنبيه، أو الترابط الأمومي. على سبيل المثال، تنتج العجول مكالمات فريدة لبدء الرضاعة، بينما تستخدم الأبقار البالغة همسات منخفضة التردد للتفاعلات القريبة وصيحات عالية التردد في حالات الضيق. تتوافق الاستجابة الفسيولوجية، التي تشير إليها مستويات الكورتيزول، مع شدة الصوت، مما يشير إلى أن الأصوات ليست مجرد إشارات صوتية ولكنها مرتبطة ارتباطًا وثيقًا برفاهية الحيوانات وحالاتها العاطفية. كما يبرز القسم التباين في الأصوات عبر السلالات والبيئات، مشيرًا إلى أن Bos indicus وBos taurus يظهران خصائص صوتية مختلفة بسبب الاختلافات التشريحية، مما يمكن أن يؤثر على تواصلهم.

علاوة على ذلك، ي outlines الورقة تطور منهجيات البحث من التقنيات التقليدية للملاحظة إلى التحليلات الصوتية المعاصرة. اعتمدت الدراسات المبكرة على التوصيفات اليدوية وتحليل الصوت الأساسي، مما أسس لأسس الإيثوغرامات التي ربطت الأصوات بسياقات معينة. ومع ذلك، كانت هذه الأساليب محدودة بطبيعتها الذاتية والتحديات المرتبطة بالتقاط الجوانب متعددة الأبعاد للصوت. على النقيض من ذلك، تستخدم الأساليب الحديثة تقنيات معالجة الإشارات المتقدمة وخوارزميات تعلم الآلة لتفكيك الأصوات إلى معلمات صوتية مفصلة، مما يمكّن من تصنيف المكالمات بدقة أكبر. يظهر دمج البيانات المتعددة الوسائط – الجمع بين بيانات الأصوات مع المعلومات الفسيولوجية والسلوكية والبيئية – كمسار واعد لتعزيز تفسير أصوات الماشية. تهدف هذه المقاربة الشاملة إلى معالجة تعقيدات التواصل بين الماشية، مما يمهد الطريق لأبحاث مستقبلية يمكن أن تفكك بشكل أفضل تفاصيل سلوك أصوات الماشية عبر سياقات متنوعة.

Journal: Annals of Animal Science, Volume: 26, Issue: 3
DOI: https://doi.org/10.2478/aoas-2025-0091
Publication Date: 2025-08-26
Author(s): Mayuri Kate et al.
Primary Topic: Animal Behavior and Welfare Studies

Overview

This review investigates the use of artificial intelligence (AI) techniques to decode cattle vocalizations, which serve as indicators of their physiological and emotional states. By analyzing over 120 studies, the authors trace the evolution from traditional signal processing and machine learning to advanced deep learning models. They identify key challenges, including data scarcity, limited generalizability across different farms, and the interpretability of complex models. The integration of multimodal sensor data—such as audio, accelerometry, and thermal imaging—is emphasized as essential for accurate and context-aware welfare assessments. The proposed Hybrid Explainable Acoustic Multimodal (HEAM) model combines convolutional neural networks (CNNs), decision trees, and natural language reasoning to provide transparent alerts for farmers.

The findings highlight that bovine vocalizations contain distinct patterns linked to specific contexts, which AI techniques can analyze to differentiate between various calls, such as calm contact calls and agitated distress calls. While early machine learning methods demonstrated reasonable accuracy in controlled settings, they faced limitations in complex environments. Deep learning approaches have improved performance by eliminating the need for manual feature extraction and leveraging temporal context. However, the review underscores the need for larger, standardized datasets and the importance of explainability in AI models to foster trust among farmers. Future directions include enhancing multimodal integration, developing adaptive learning systems, and fostering interdisciplinary collaboration to ensure the tools effectively address the needs of farmers and improve animal welfare.

Introduction

The introduction highlights the issue of domain shift in AI models applied to agricultural settings, particularly in the context of livestock monitoring. It notes that models trained on a single farm often exhibit diminished performance when applied to different farms due to variations in herd vocal behavior, barn acoustics, and background noise. For instance, the call detector developed by Vidana-Vila et al. (2023) achieved an F1 score of 0.94 on its training farm but dropped below 0.70 on a different site, where environmental factors such as concrete walls affected sound reverberation. Similar performance declines have been observed in classifiers for estrus and stress calls, indicating that models may be overly tailored to the specific characteristics of their training environments.

The text also discusses efforts to establish standardized benchmarks for evaluating animal sound detection models, such as the BEANS benchmark, which aggregates datasets across species. However, it notes that cattle-specific benchmarks remain scarce. Additionally, Table 4 presents a comparative analysis of traditional machine learning and deep learning models, elucidating their respective trade-offs. This underscores the need for more robust and generalizable models that can perform effectively across diverse agricultural settings.

Discussion

The discussion section of the research paper delves into the intricate nature of bovine communication, emphasizing the biological and behavioral significance of cattle vocalizations. Cattle vocal patterns convey critical information regarding identity, emotional state, and social context, with distinct calls associated with specific behaviors such as suckling, alarm, or maternal bonding. For instance, calves produce unique calls to initiate suckling, while adult cows utilize low-frequency murmurs for close interactions and high-frequency bellows in distress. The physiological response, indicated by cortisol levels, correlates with vocal intensity, suggesting that vocalizations are not merely acoustic signals but are deeply intertwined with the animals’ welfare and emotional states. The section also highlights the variability in vocalizations across breeds and environments, noting that Bos indicus and Bos taurus exhibit different acoustic characteristics due to anatomical differences, which can influence their communication.

Furthermore, the paper outlines the evolution of research methodologies from traditional observational techniques to contemporary acoustic analyses. Early studies relied on manual annotations and basic audio analysis, establishing foundational ethograms that linked vocalizations to specific contexts. However, these methods were limited by their subjective nature and the challenges of capturing the multidimensional aspects of sound. In contrast, modern approaches employ advanced signal processing techniques and machine learning algorithms to dissect vocalizations into detailed acoustic parameters, enabling more precise classification of calls. The integration of multimodal data—combining vocalization data with physiological, behavioral, and environmental information—emerges as a promising avenue for enhancing the interpretation of cattle vocalizations. This comprehensive approach aims to address the complexities of bovine communication, paving the way for future research that can better decode the nuances of cattle vocal behavior across diverse contexts.