فك تنوع البيانات المعقدة في التعرف على الأهداف الصوتية تحت الماء من خلال مزيج من الخبراء القائم على الالتفاف
Unraveling complex data diversity in underwater acoustic target recognition through convolution-based mixture of experts

المجلة: Expert Systems with Applications، المجلد: 249
DOI: https://doi.org/10.1016/j.eswa.2024.123431
تاريخ النشر: 2024-02-08
المؤلف: Yuan Xie وآخرون
الموضوع الرئيسي: البحوث في الصوتيات تحت الماء

نظرة عامة

تناقش هذه القسم التحديات المتعلقة بالتعرف على الأهداف الصوتية تحت الماء، وذلك بسبب الطبيعة المعقدة للإشارات تحت الماء، التي تظهر تنوعًا عاليًا داخل الفئات وتشابهًا بين الفئات. لمواجهة هذه التحديات، يقترح المؤلفون نموذج مزيج من الخبراء القائم على الالتفاف (CMoE) الذي يستخدم طبقات خبراء متعددة كمتعلمين مستقلين، مكملًا بطبقة توجيه تقوم بتعيين الخبراء بناءً على خصائص المدخلات. تتيح هذه البنية التعلم الفعال للإشارات المعقدة مع تحسين النموذج من خلال موازنة التنظيم ووحدة متبقية اختيارية.

تظهر النتائج من تجارب واسعة النطاق عبر ثلاثة قواعد بيانات صوتية تحت الماء أن CMoe يعزز بشكل كبير دقة التعرف مقارنة بالطرق الحالية. يبرز المؤلفون قدرة النموذج على التقاط الخصائص الكامنة والتعلم بشكل تكيفي من البيانات المتنوعة. ومع ذلك، يعترفون بالقيود، مثل الحاجة إلى دعم نظري أقوى بشأن تعيين الخبراء وبساطة تصميمات طبقات الخبراء والتوجيه الحالية. ستستكشف الأبحاث المستقبلية دمج الخصائص المستندة إلى الفيزياء لتحسين التوجيه وتعزيز قابلية تفسير النموذج.

مقدمة

تسلط مقدمة ورقة البحث الضوء على أهمية التعرف على الأهداف الصوتية تحت الماء في علم الصوتيات البحرية، مع التأكيد على تطبيقاتها في المراقبة تحت الماء، وتطوير الموارد، والدفاع الأمني. يُعزى فعالية التكنولوجيا إلى نطاق الكشف الطويل، وقدرات التمويه، وانخفاض تكاليف النشر. ركزت التطورات الأخيرة في هذا المجال على تعزيز أنظمة التعرف، التي تتكون عادةً من عنصرين رئيسيين: استخراج الميزات الصوتية ونماذج التعرف. تم استخدام تقنيات متنوعة، مثل تحويل فورييه، وتحويل الموجات، والشبكات العصبية العميقة، لاستخراج وتحليل الميزات الصوتية، مما يمكّن من التنبؤ الدقيق بأنواع الأهداف تحت الماء.

تناقش المقدمة أيضًا التحديات المرتبطة بجمع البيانات لهذه الأنظمة، مشيرةً إلى أن التكاليف العالية وقيود المعدات غالبًا ما تدفع الباحثين للاعتماد على بيانات اصطناعية أو محاكاة. تضع الورقة الأساس للتحقق التجريبي من نهج CMoe (مزيج مشروط من الخبراء) المقترح، الذي يهدف إلى تحسين دقة التعرف. تشير النتائج الأولية إلى أنه بينما يعزز CMoe عمومًا الأداء، يمكن أن تؤثر مشكلات مثل عدم توازن الحمل سلبًا على الدقة في سيناريوهات معينة. تؤكد المقدمة على أهمية موازنة التنظيم لتحسين فعالية النموذج عبر مجموعات بيانات متنوعة، مما يعزز الموثوقية العامة لأنظمة التعرف على الصوتيات تحت الماء.

الطرق

في هذا القسم، يوضح المؤلفون المنهجية المستخدمة في بحثهم، بدءًا من تقنيات استخراج الميزات الصوتية المنفذة. ثم يصفون بنية النموذج، التي تشمل شبكة العمود الفقري الأمامية، وطبقات الخبراء، وطبقة التوجيه، ووحدة متبقية اختيارية من إطار عمل مزيج الخبراء المشروط (CMoE). بالإضافة إلى ذلك، يناقش المؤلفون استراتيجية التنظيم المتوازن المستخدمة للتخفيف من مشكلات عدم توازن الحمل المرتبطة عادةً بهيكل مزيج الخبراء (MoE)، مما يضمن أداءً أكثر فعالية للنموذج.

النتائج

في قسم النتائج من الدراسة، يقيم المؤلفون أداء نظام التعرف متعدد الفئات باستخدام الدقة كمقياس رئيسي، محسوبة كنسبة العينات المتوقعة بشكل صحيح إلى العدد الإجمالي للعينات. نظرًا لوجود عدد محدود من ملفات الصوت في مجموعة الاختبار، يتم تقديم النتائج على مستوى المقطع (30 ثانية) بدلاً من مستوى الملف، مع متوسطات مستمدة من التجارب باستخدام بذور عشوائية (42 و 123) لتقليل التباين.

يبدأ القسم بتجارب أولية تقيم طول الإطار، ونطاقات التردد الفعالة، وبنية شبكة العمود الفقري الأمامية. بعد ذلك، تتحقق التجارب الرئيسية من فعالية نموذج مزيج الخبراء المشروط (CMoE) باستخدام أربع ميزات صوتية، مقارنةً بأدائه ضد طرق متقدمة متنوعة. بالإضافة إلى ذلك، تُجرى دراسات إلغاء لاستكشاف تأثير وحدة متبقية اختيارية وتنظيم متوازن. يتضمن المؤلفون أيضًا تحليلًا بصريًا لتعيينات الخبراء لتوضيح مدى فعالية النموذج في التقاط المعلومات ذات الصلة، إلى جانب التجارب التي تفحص عدد طبقات الخبراء واختيار وظيفة التطبيع.

المناقشة

في قسم المناقشة من ورقة البحث، يبرز المؤلفون تعقيدات التعرف على الإشارات الصوتية تحت الماء، مع التركيز بشكل خاص على التحديات التي تطرحها التنوع داخل الفئات والتشابه بين الفئات. يوضحون هذه التحديات باستخدام طيفيات من مجموعة بيانات Shipsear، التي تظهر اختلافات كبيرة في التوقيعات الصوتية بين السفن المختلفة، حتى داخل نفس الفئة. يشير المؤلفون إلى أن النماذج التقليدية للتعرف تكافح مع هذه التعقيدات، مما يؤدي إلى سوء التعرف، خاصة عندما تكون البيانات محدودة. يؤكدون أن الخصائص الصوتية للأهداف تحت الماء يمكن أن تكون متشابهة، مما يعقد التمييز بين الفئات.

لمعالجة هذه التحديات، يقترح المؤلفون نموذج مزيج من الخبراء القائم على الالتفاف (CMoE) مصمم لتعزيز أداء التعرف في البيئات تحت الماء. يتضمن هذا النموذج طبقات خبراء متعددة تعالج بشكل تكيفي البيانات المتنوعة، مما يسمح بتعلم مفاهيم دلالية عالية المستوى مع التخفيف من مخاطر الإفراط في التكيف. بالإضافة إلى ذلك، يقدمون تنظيمًا متوازنًا لضمان توزيع عبء العمل بشكل عادل بين الخبراء، وهو أمر حاسم للتدريب الفعال. يؤكد المؤلفون أن نموذج CMoe الخاص بهم يتفوق باستمرار على أنظمة التعرف الحالية عبر قواعد بيانات صوتية تحت الماء متنوعة، مما يسهم بشكل كبير في مجال التعرف على الأهداف الصوتية تحت الماء.

Journal: Expert Systems with Applications, Volume: 249
DOI: https://doi.org/10.1016/j.eswa.2024.123431
Publication Date: 2024-02-08
Author(s): Yuan Xie et al.
Primary Topic: Underwater Acoustics Research

Overview

The section discusses the challenges of underwater acoustic target recognition, primarily due to the complex nature of underwater signals, which exhibit high intra-class diversity and interclass similarity. To tackle these challenges, the authors propose a convolution-based mixture of experts (CMoE) model that employs multiple expert layers as independent learners, complemented by a routing layer that assigns experts based on input characteristics. This architecture allows for the effective learning of complex signals while optimizing the model through balancing regularization and an optional residual module.

The findings from extensive experiments across three underwater acoustic databases demonstrate that the CMoE significantly enhances recognition accuracy compared to existing methods. The authors highlight the model’s ability to capture latent characteristics and adaptively learn from diverse data. However, they acknowledge limitations, such as the need for stronger theoretical support regarding expert assignment and the simplicity of the current expert and routing layer designs. Future research will explore the integration of physically-based target characteristics to improve routing and enhance model interpretability.

Introduction

The introduction of the research paper highlights the significance of underwater acoustic target recognition in marine acoustics, emphasizing its applications in underwater surveillance, resource development, and security defense. The technology’s effectiveness is attributed to its long detection range, concealment capabilities, and low deployment costs. Recent advancements in this field have focused on enhancing recognition systems, which typically comprise two key components: acoustic feature extraction and recognition models. Various techniques, such as Fourier transform, wavelet transform, and deep neural networks, have been employed to extract and analyze acoustic features, enabling accurate predictions of underwater target types.

The introduction also addresses the challenges associated with data collection for these systems, noting that high costs and equipment limitations often lead researchers to rely on synthetic or simulated data. The paper sets the stage for the experimental validation of the proposed CMoE (Conditional Mixture of Experts) approach, which aims to improve recognition accuracy. Initial results indicate that while CMoE generally enhances performance, issues such as load imbalance can negatively impact accuracy in certain scenarios. The introduction underscores the importance of balancing regularization to optimize the model’s effectiveness across diverse datasets, thereby enhancing the overall reliability of underwater acoustic recognition systems.

Methods

In this section, the authors detail the methodology utilized for their research, beginning with the acoustic feature extraction techniques implemented. They then describe the architecture of the model, which includes the front-end backbone network, expert layers, routing layer, and an optional residual module of the Conditional Mixture of Experts (CMoE) framework. Additionally, the authors discuss the balanced regularization strategy employed to mitigate the load imbalance issues commonly associated with the Mixture of Experts (MoE) structure, ensuring more effective model performance.

Results

In the results section of the study, the authors evaluate the performance of their multi-class recognition system using accuracy as the primary metric, calculated as the ratio of correctly predicted samples to the total number of samples. Due to the limited audio files in the test set, results are presented at the segment level (30 seconds) rather than the file level, with averages derived from experiments using two random seeds (42 and 123) to reduce variability.

The section begins with preliminary experiments assessing frame length, effective frequency bands, and the architecture of the front-end backbone network. Following this, the main experiments validate the effectiveness of the Conditional Mixture of Experts (CMoE) model using four acoustic features, comparing its performance against various advanced methods. Additionally, ablation studies are conducted to explore the impact of an optional residual module and balancing regularization. The authors also include a visualization analysis of expert assignments to illustrate how effectively the model captures relevant information, alongside experiments examining the number of expert layers and the choice of normalization function.

Discussion

In the discussion section of the research paper, the authors highlight the complexities of underwater acoustic signal recognition, particularly focusing on the challenges posed by intra-class diversity and inter-class similarity. They illustrate these challenges using spectrograms from the Shipsear dataset, which demonstrate significant variations in acoustic signatures among different vessels, even within the same class. The authors note that traditional recognition models struggle with these complexities, leading to misrecognition, especially when data is limited. They emphasize that the acoustic characteristics of underwater targets can be similar, complicating the differentiation between classes.

To address these challenges, the authors propose a novel convolution-based mixture of experts (CMoE) model designed to enhance recognition performance in underwater environments. This model incorporates multiple expert layers that adaptively process diverse data, allowing for the learning of high-level semantic concepts while mitigating the risks of overfitting. Additionally, they introduce balancing regularization to ensure equitable workload distribution among experts, which is crucial for effective training. The authors assert that their CMoE model consistently outperforms existing recognition systems across various underwater acoustic databases, thereby contributing significantly to the field of underwater acoustic target recognition.