DOI: https://doi.org/10.1038/s41597-025-04491-1
PMID: https://pubmed.ncbi.nlm.nih.gov/39920123
تاريخ النشر: 2025-02-07
المؤلف: Scott Lowe وآخرون
الموضوع الرئيسي: البحوث في الصوتيات تحت الماء
نظرة عامة
تقدم البحث BenthicNet، مجموعة بيانات شاملة عالمية من صور قاع البحر تهدف إلى تعزيز تحليل النظم البيئية القاعية من خلال تقنيات التعلم الآلي. على الرغم من التقدم في تكنولوجيا تصوير تحت الماء التي تسمح بجمع مجموعات بيانات واسعة من صور قاع البحر، إلا أن تحليل هذه البيانات لم يواكب ذلك، مما يحد من الاستخدام الفعال للمعلومات البيئية الحيوية. يعالج BenthicNet هذه الفجوة من خلال تقديم تجميع أولي لأكثر من 11.4 مليون صورة، مع مجموعة مختارة من 1.3 مليون صورة تمثل بيئات قاع البحر المتنوعة. بالإضافة إلى ذلك، تتضمن مجموعة البيانات 3.1 مليون تعليق مصاغ وفقًا لنظام CATAMI، تغطي 190,000 صورة.
تم تدريب نموذج تعلم عميق كبير باستخدام هذه المجموعة، وتشير النتائج الأولية إلى إمكانيته في أتمتة مهام تحليل الصور على نطاق واسع وصغير. تم جعل مجموعة البيانات والنموذج المدرب متاحة للجمهور، مما يعزز المزيد من البحث والتطبيق في مجال تحليل صور تحت الماء.
مقدمة
تسلط مقدمة ورقة البحث الضوء على أهمية منتجات البيانات المكانية في إدارة البحار، لا سيما من خلال رسم خرائط المواطن القاعية، التي تشمل العناصر الحيوية وغير الحيوية. لقد عززت التقدم في تقنيات أخذ العينات البحرية، وخاصة الصور تحت الماء التي تم جمعها عبر منصات آلية مثل المركبات تحت الماء المستقلة (AUVs) والمركبات التي يتم تشغيلها عن بُعد (ROVs)، القدرة على جمع مجموعات بيانات واسعة. ومع ذلك، غالبًا ما تعيق عملية التصنيف اليدوي تحليل هذه الكميات الكبيرة من الصور، مما يخلق عنق زجاجة في سير عمل رسم خرائط المواطن. تؤكد هذه الكفاءة المنخفضة على الإمكانية للأتمتة من خلال التعلم الآلي، لا سيما التعلم العميق، الذي أظهر وعدًا في مهام معالجة الصور المختلفة.
تؤكد الورقة على التحديات المرتبطة بتدريب نماذج التعلم العميق للبيئات القاعية، ويرجع ذلك أساسًا إلى نقص مجموعات البيانات المعلّمة عالميًا لميزات قاع البحر. بينما يوفر التعلم الانتقالي مسارًا لإعادة استخدام النماذج الحالية لمهام جديدة، فإن غياب أنظمة التسمية الموحدة يعقد هذه العملية. يقترح المؤلفون التعلم الذاتي (SSL) كبديل قابل للتطبيق، مما يسمح للنماذج بالتعلم من البيانات غير المعلّمة، وبالتالي تسهيل تطوير نماذج واسعة النطاق لصور القاع. لمعالجة هذه التحديات، تقدم الورقة BenthicNet، وهو تجميع عالمي من صور قاع البحر مصمم لدعم أدوات معالجة الصور الآلية لبيانات المواطن القاعية. تتضمن مجموعة البيانات أكثر من 11 مليون صورة، مع مجموعات فرعية تحافظ على التنوع الموضوعي وغير الموضوعي، وتهدف إلى تعزيز التقدم في أتمتة تحليل المواطن القاعية.
الطرق
في هذه الدراسة، تم تجميع مجموعة متنوعة من صور المواطن القاعية لتدريب نماذج التعلم العميق. شمل عملية جمع البيانات التعاون مع شركاء المشروع وجهات البحث، مما سهل إقامة شراكات إضافية مع أفراد ومؤسسات أكاديمية ومجموعات بحث غير ربحية ومنظمات حكومية. تم الحصول على معظم البيانات من مستودعات عامة أكاديمية وحكومية وطرف ثالث، مما يبرز أهمية الحصول على بيانات معلمة مع دمج مجموعات بيانات غير معلمة عالية الجودة عند الإمكان.
تم تنظيم مجموعات البيانات في تنسيق موحد، يتكون من مجلد واحد يحتوي على صور فريدة مع ملف قيم مفصول بفواصل (CSV) مطابق. تضمن هذا الملف CSV بيانات وصفية أساسية لكل صورة، مثل اسم مجموعة البيانات، اسم الملف، خط العرض، خط الطول، تاريخ ووقت الاكتساب، عنوان URL (إذا كان ذلك مناسبًا)، وأي تسميات مقدمة. ضمنت هذه الطريقة المنظمة أن تكون مجموعات البيانات شاملة ومناسبة لتدريب نماذج التعلم العميق بفعالية.
المناقشة
في قسم المناقشة من ورقة البحث، يوضح المؤلفون العملية الشاملة لجمع البيانات ومراقبة الجودة لمجموعة بيانات BenthicNet. جمعوا بيانات صور قاع معلمة من مصادر متنوعة، بما في ذلك المتعاونين الأكاديميين والمجموعات الفرصة، والتي كانت غالبًا في تنسيقات متنوعة مثل الصور مع بيانات وصفية في جداول بيانات، وملفات GIS، وملفات فيديو. استخدم المؤلفون أدوات مثل ArcGIS Pro وFFmpeg لاستخراج البيانات وتنسيقها، مما يضمن توحيد جميع الإحداثيات الجغرافية إلى درجات عشرية باستخدام نظام WGS 84. تم تنفيذ فحوصات صارمة لمراقبة الجودة لتحديد الإدخالات المفقودة، والتكرارات، وعدم التناسق في التسميات، مما أدى إلى رفض مجموعات البيانات التي تحتوي على تناقضات ملحوظة.
يسلط القسم أيضًا الضوء على المساهمات من عدة شركاء في المشروع، بما في ذلك مؤسسات من كندا وخارجها، والتي قدمت آلاف الصور مع بيانات وصفية مفصلة. على سبيل المثال، ساهم مختبر SEAM بأكثر من 6,000 صورة من بيئات بحرية متنوعة في شرق كندا، بينما قدم المسح الجيولوجي في النرويج أكثر من 50,000 صورة من مقاطع فيديو تحت الماء. شملت المساهمات الأخرى وزارة مصايد الأسماك والمحيطات في كندا، والمسح الجيولوجي الأمريكي، ومركز البيانات الأسترالي في القارة القطبية الجنوبية، من بين آخرين. تم مراجعة كل مجموعة بيانات بدقة وإعادة تنسيقها لتتوافق مع هيكل موحد لتجميع BenthicNet، مما يضمن موردًا قويًا وعالي الجودة للبحوث البحرية المستقبلية.
DOI: https://doi.org/10.1038/s41597-025-04491-1
PMID: https://pubmed.ncbi.nlm.nih.gov/39920123
Publication Date: 2025-02-07
Author(s): Scott Lowe et al.
Primary Topic: Underwater Acoustics Research
Overview
The research presents BenthicNet, a comprehensive global dataset of seafloor imagery aimed at enhancing the analysis of benthic ecosystems through machine learning techniques. Despite advancements in underwater imaging technology that allow for the collection of extensive seafloor image datasets, the analysis of this data has not kept pace, limiting the effective utilization of critical environmental information. BenthicNet addresses this gap by providing an initial compilation of over 11.4 million images, with a curated subset of 1.3 million images representing diverse seafloor environments. Additionally, the dataset includes 3.1 million annotations formatted according to the CATAMI scheme, covering 190,000 images.
A large deep learning model was trained using this dataset, and preliminary findings indicate its potential for automating both large-scale and small-scale image analysis tasks. The dataset and the trained model are made openly accessible, promoting further research and application in the field of underwater imagery analysis.
Introduction
The introduction of the research paper highlights the significance of spatial data products in marine management, particularly through benthic habitat mapping, which encompasses both biotic and abiotic elements. Advances in marine sampling technologies, especially underwater imagery collected via automated platforms like Autonomous Underwater Vehicles (AUVs) and Remotely Operated Vehicles (ROVs), have enhanced the capacity to gather extensive datasets. However, the analysis of these large volumes of imagery is often hindered by the manual classification process, creating a bottleneck in habitat mapping workflows. This inefficiency underscores the potential for automation through machine learning, particularly deep learning, which has shown promise in various image processing tasks.
The paper emphasizes the challenges associated with training deep learning models for benthic environments, primarily due to the lack of universally labeled datasets for seabed features. While transfer learning offers a pathway to repurpose existing models for new tasks, the absence of standardized labeling schemes complicates this process. The authors propose self-supervised learning (SSL) as a viable alternative, allowing models to learn from unannotated data, thereby facilitating the development of large-scale models for benthic imagery. To address these challenges, the paper introduces BenthicNet, a global compilation of seafloor images designed to support automated image processing tools for benthic habitat data. This dataset includes over 11 million images, with subsets that maintain thematic and non-thematic diversity, and aims to foster advancements in the automation of benthic habitat analysis.
Methods
In this study, a diverse collection of benthic habitat images was compiled to train deep learning models. The data acquisition process involved collaboration with project partners and research contacts, which facilitated the establishment of additional partnerships with individuals, academic institutions, non-profit research groups, and government organizations. The majority of the data were sourced from various academic, governmental, and third-party public repositories, emphasizing the importance of obtaining labeled data while also incorporating extensive high-quality unlabeled datasets when possible.
The datasets were organized in a standardized format, consisting of a single folder containing unique images along with a corresponding comma-separated value (CSV) file. This CSV file included essential metadata for each image, such as the dataset name, file name, latitude, longitude, date and time of acquisition, URL (if applicable), and any provided labels. This structured approach ensured the datasets were comprehensive and suitable for training deep learning models effectively.
Discussion
In the discussion section of the research paper, the authors detail the comprehensive process of data compilation and quality control for the BenthicNet dataset. They gathered labeled benthic image data from various sources, including academic collaborators and opportunistic collections, which were often in diverse formats such as images with spreadsheet metadata, GIS files, and video files. The authors employed tools like ArcGIS Pro and FFmpeg to extract and format the data, ensuring all geographic coordinates were standardized to decimal degrees using the WGS 84 datum. Rigorous quality control checks were implemented to identify missing entries, duplicates, and inconsistencies in labels, leading to the rejection of datasets with notable discrepancies.
The section also highlights the contributions from multiple project partners, including institutions from Canada and abroad, which provided thousands of images with detailed metadata. For instance, the SEAM Lab contributed over 6,000 images from various marine environments in eastern Canada, while the Geological Survey of Norway provided over 50,000 images from underwater video transects. Other contributors included Fisheries and Oceans Canada, the U.S. Geological Survey, and the Australian Antarctic Data Centre, among others. Each dataset was meticulously reviewed and reformatted to align with a standardized structure for the BenthicNet compilation, ensuring a robust and high-quality resource for future marine research.
