شبكة تلافيف متعددة التمدد للتعرف على عواطف الكلام
A multi-dilated convolution network for speech emotion recognition

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-92640-2
PMID: https://pubmed.ncbi.nlm.nih.gov/40064942
تاريخ النشر: 2025-03-10
المؤلف: Samaneh Madanian وآخرون
الموضوع الرئيسي: التعرف على العواطف والمزاج

نظرة عامة

تقدم ورقة البحث نموذجًا جديدًا للتعرف على عواطف الكلام (SER) الذي يستفيد من تقنيات التعلم العميق، مع التركيز بشكل خاص على طيف الكلام على مستوى النطق. يستخدم النموذج المقترح استراتيجية التجميع الهرمي المكاني (SPP) للتغلب على قيود الحجم النموذجية في مهام التعرف على الصور المعتمدة على الشبكات العصبية التلافيفية (CNN). من خلال استخراج كل من المتجهات المميزة العالمية والمحلية المتعددة، يستخدم النموذج آلية انتباه لوزن هذه الميزات بشكل فعال. بالإضافة إلى ذلك، يتم دمج طبقة ArcFace، التي تستخدم تقليديًا في التعرف على الوجه، لتعزيز تصنيف العواطف من خلال تقليل خطأ داخل الفئة وزيادة المسافة بين الفئات. حقق النموذج دقة غير موزونة بلغت 67.9% على مجموعة بيانات IEMOCAP و77.6% على مجموعة بيانات EMODB، متفوقًا على العديد من نماذج SER الحالية.

في الاستنتاجات، يعترف المؤلفون بحدود إطار تقييمهم، لا سيما الفئات العاطفية غير المتوازنة في IEMOCAP، والتي عالجوا ذلك من خلال استراتيجيات التدريب الموزونة. يقترحون أن تشمل الأعمال المستقبلية التحقق من الصحة على مجموعات بيانات إضافية مثل RAVDESS وCREMA-D وMSP-IMPROV لتقييم تعميم النموذج بشكل أكثر شمولاً. كما يوصي المؤلفون باستخدام مقاييس أداء أكثر تفصيلاً، بما في ذلك مصفوفات الالتباس وتقييمات لكل فئة، لفهم نقاط القوة والضعف في النموذج بشكل أفضل. علاوة على ذلك، يقترحون استكشاف نماذج التعلم الزمني مثل الشبكات العصبية الذاكرة الطويلة القصيرة (LSTM)، واستراتيجيات زيادة البيانات لتعزيز التدريب على مجموعات البيانات الصغيرة، ودمج المعلومات اللغوية لتحسين أداء SER بشكل محتمل.

نقاش

تسلط قسم النقاش في ورقة البحث الضوء على التقدم والتحديات في التعرف على عواطف الكلام (SER) المعتمد على الطيف باستخدام التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNNs). يستعرض نماذج مختلفة تم تطويرها لتحسين أداء SER، بما في ذلك نموذج CNN-Extreme Learning Machine وبنية CNN-Bidirectional Long Short-Term Memory (BiLSTM)، التي حققت تحسينات في الدقة غير الموزونة (UA) على مجموعة بيانات IEMOCAP. ومن الجدير بالذكر أن إدخال بنية CNN-BiLSTM موسعة قد عززت UA إلى 69%. ومع ذلك، يحدد القسم التحديات المستمرة، مثل التباين في أحجام الطيف بسبب اختلاف أطوال الصوت، مما يعقد تدريب الطبقات المتصلة بالكامل. تم استخدام استراتيجيات مثل التجميع العالمي وتقسيم الطيف، لكنها غالبًا ما تؤدي إلى فقدان المعلومات.

لمعالجة هذه القضايا، يقترح المؤلفون إطار عمل CNN متعدد التمدد الجديد الذي يتضمن التجميع الهرمي المكاني (SPP) ودالة خسارة ArcFace. تم تصميم CNN متعدد التمدد لتحسين استخراج الميزات مع تجنب تأثير الشبكة الناتج عن معدلات التمدد الموحدة. يسهل SPP التعامل مع أحجام الطيف المتغيرة من خلال استخراج الميزات البارزة على مقاييس متعددة، مما يعزز من قوة النموذج. بالإضافة إلى ذلك، يتم تقديم دالة خسارة ArcFace لتحسين قابلية الفصل بين الفئات من خلال زيادة المسافة بين الفئات وتقليل التباين داخل الفئة، وهو أمر حاسم لتمييز الفروق العاطفية الدقيقة. بشكل عام، يهدف الإطار المقترح إلى الاستفادة من نقاط قوة الشبكات العصبية التلافيفية ودوال الخسارة المتقدمة لتعزيز أداء SER، خاصة في التقاط الإشارات العاطفية الدقيقة الموجودة في أطياف الكلام.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-92640-2
PMID: https://pubmed.ncbi.nlm.nih.gov/40064942
Publication Date: 2025-03-10
Author(s): Samaneh Madanian et al.
Primary Topic: Emotion and Mood Recognition

Overview

The research paper presents a novel model for Speech Emotion Recognition (SER) that leverages deep learning techniques, specifically focusing on utterance-level spectrograms. The proposed model employs a Spatial Pyramid Pooling (SPP) strategy to overcome size constraints typical in CNN-based image recognition tasks. By extracting both global and multi-local feature vectors, the model utilizes an attention mechanism to weigh these features effectively. Additionally, an ArcFace layer, traditionally used in face recognition, is integrated to enhance emotion classification by minimizing intra-class error and maximizing inter-class distance. The model achieved unweighted accuracies of 67.9% on the IEMOCAP dataset and 77.6% on the EMODB dataset, outperforming many existing SER models.

In the conclusions, the authors acknowledge the limitations of their evaluation framework, particularly the imbalanced emotion classes in IEMOCAP, which they addressed through weighted training strategies. They suggest that future work should include validation on additional datasets such as RAVDESS, CREMA-D, and MSP-IMPROV to assess model generalization more comprehensively. The authors also recommend employing more detailed performance metrics, including confusion matrices and per-class evaluations, to better understand the model’s strengths and weaknesses. Furthermore, they propose exploring temporal learning models like Long-Short Term Memory (LSTM) networks, data augmentation strategies to enhance training on smaller datasets, and the integration of linguistic information to potentially improve SER performance.

Discussion

The discussion section of the research paper highlights the advancements and challenges in spectrogram-based Speech Emotion Recognition (SER) using deep learning, particularly Convolutional Neural Networks (CNNs). It reviews various models that have been developed to improve SER performance, including a CNN-Extreme Learning Machine model and a CNN-Bidirectional Long Short-Term Memory (BiLSTM) structure, which achieved Unweighted Accuracy (UA) improvements on the IEMOCAP dataset. Notably, the introduction of a Dilated CNN-BiLSTM structure further enhanced UA to 69%. However, the section identifies persistent challenges, such as the variability in spectrogram sizes due to differing audio lengths, which complicates training fully connected layers. Strategies like global pooling and segmenting spectrograms have been employed, but they often result in information loss.

To address these issues, the authors propose a novel multi-dilated CNN framework that incorporates Spatial Pyramid Pooling (SPP) and the ArcFace loss function. The multi-dilated CNN is designed to optimize feature extraction while avoiding the gridding effect caused by uniform dilation rates. The SPP facilitates the handling of varying spectrogram sizes by extracting prominent features at multiple scales, thus enhancing the model’s robustness. Additionally, the ArcFace loss function is introduced to improve class separability by maximizing inter-class distance and minimizing intra-class variance, which is crucial for distinguishing subtle emotional differences. Overall, the proposed framework aims to leverage the strengths of CNNs and advanced loss functions to enhance SER performance, particularly in capturing the nuanced emotional cues present in speech spectrograms.