دراسة حول التعرف على التعبيرات بناءً على شبكة mobilenetV2 المحسّنة
A study on expression recognition based on improved mobilenetV2 network

المجلة: Scientific Reports، المجلد: 14، العدد: 1
DOI: https://doi.org/10.1038/s41598-024-58736-x
PMID: https://pubmed.ncbi.nlm.nih.gov/38582772
تاريخ النشر: 2024-04-06
المؤلف: Qiming Zhu وآخرون
الموضوع الرئيسي: التعرف على العواطف والمزاج

نظرة عامة

تقدم هذه الورقة نسخة محسنة من شبكة MobileNetV2 العصبية، تُسمى I-MobileNetV2، تهدف إلى معالجة قيود الشبكات العميقة التلافيفية الحالية، لا سيما في سياق التعرف على مشاعر الوجه. يحتفظ النموذج المقترح بخصائص التلافيف العميقة القابلة للفصل من MobileNetV2، مما يقلل من المتطلبات الحاسوبية مع الحفاظ على هيكل خفيف الوزن. تشمل الابتكارات الرئيسية آلية دمج عكسية للحفاظ على الميزات السلبية، واستبدال دالة تفعيل RELU6 بدالة تفعيل SELU للتخفيف من اختفاء التدرجات، ودمج آلية انتباه القناة بناءً على شبكات الضغط والتحفيز (SE-Net) لتعزيز قدرات التعرف على الميزات.

تظهر النتائج التجريبية على مجموعات بيانات تعبيرات الوجه FER2013 و CK+ أن I-MobileNetV2 تحقق دقة التعرف بنسبة 68.62% و 95.96%، على التوالي، متجاوزة MobileNetV2 الأصلية بنسبة 0.72% و 6.14%. بالإضافة إلى ذلك، يتم تقليل عدد المعلمات بنسبة 83.8%، مما يشير إلى تحسين كبير في كل من الأداء والكفاءة. تؤكد النتائج فعالية التحسينات المقترحة، مما يشير إلى أن النموذج لا يتفوق فقط على الشبكات التلافيفية التقليدية من حيث الدقة وكفاءة المعلمات، بل يضع أيضًا الأساس للبحوث المستقبلية في تقنيات التلافيف متعددة المقاييس الخفيفة الوزن لتحسين استخراج الميزات والدمج.

طرق

في هذه الدراسة، يقدم المؤلفون طرق دمج عكسية (RFM) لتعزيز استخراج الميزات في شبكة Mobile-NetV2. يقومون بتنفيذ طبقة عكسية تلافيفية عميقة وطبقة دمج تلافيفية عميقة لمعالجة تحديات استخراج الميزات الهيكلية غير الكافية وإهمال معلومات الميزات السلبية. يدمج الهيكل ميزات الصور الأصلية والعكسية، ويستخدم هيكل بقايا الفئة، ويقوم بتحسين الشبكة باستخدام دالة خسارة الانتروبيا المتقاطعة للتصنيف. تعالج الشبكة خرائط الميزات من خلال سلسلة من الطبقات التلافيفية، مع دمج هيكل بقايا مقلوب للتخفيف من تشتت التدرجات، مما يؤدي في النهاية إلى تصنيف عينات الإدخال باستخدام مصنف Softmax.

تظهر النتائج التجريبية فعالية النموذج المقترح على مجموعة بيانات FER2013، حيث تحقق دقة قدرها 68.626%. يظهر النموذج تحسينات في قدرات استخراج الميزات، لا سيما في التعرف على المشاعر مثل السعادة، والدهشة، والاشمئزاز، والحيادية، بمعدلات تعرف تبلغ 89%، 81%، 71%، و70%، على التوالي. بالمقابل، تظهر المشاعر مثل الغضب، والخوف، والحزن معدلات تعرف أقل بسبب تشابه تعبيراتها. بالإضافة إلى ذلك، على مجموعة بيانات CK+، يحقق النموذج دقة مثيرة للإعجاب تبلغ 95.960%، مع معدلات تعرف مثالية لعدة مشاعر، مما يبرز المزيد من التحسينات التي جلبتها الدمج العكسي، وآليات الانتباه، ودالة تفعيل SELU مقارنة بشبكة Mobile-NetV2 الأساسية.

نتائج

في هذا القسم، تتم مقارنة نتائج نموذج الشبكة المقترح مع النماذج السائدة، مع تسليط الضوء على كفاءته من حيث الدقة وتقليل المعلمات. تشير النتائج إلى أنه بينما يظهر النموذج المقترح انخفاضًا طفيفًا في الدقة على مجموعة بيانات FER2013 مقارنة بالشبكات العصبية العميقة التقليدية، فإنه يحقق دقة مماثلة على مجموعة بيانات CK+، مطابقة لـ ResNet50 ومتجاوزًا VGG19 بنسبة 1.32%. من الجدير بالذكر أن النموذج المقترح يقلل بشكل كبير من عدد المعلمات، حيث يتكون فقط من 3.6% و 4.5% من تلك الموجودة في VGG19 و ResNet50، على التوالي.

تكشف التحليلات الإضافية أن النموذج المقترح يتفوق على الشبكات الخفيفة الأخرى، مثل MobileNetV2 و MobileNetV3، مع تحسينات في الدقة بنسبة 1.06% و 1.46% على مجموعة بيانات FER2013، إلى جانب تقليل في المعلمات بمقدار 16.84 ميغابايت و 18.42 ميغابايت. على مجموعة بيانات CK+، تزداد الدقة بنسبة 6.14% و 7.09% مقارنة بـ MobileNetV2 و MobileNetV3، على التوالي، وبنسبة 3% مقارنة بـ Xception. يُعزى الأداء المحسن للنموذج إلى تنفيذ التلافيف العميقة القابلة للفصل، وآلية الدمج العكسية للحفاظ على معلومات الميزات، ودمج آلية الضغط والتحفيز (SE) لتحسين استخراج الميزات الفعالة مع تقليل التقاط المعلومات غير ذات الصلة.

نقاش

في هذا القسم، يناقش المؤلفون تطوير وتقييم نموذج خفيف الوزن للتعرف على تعبيرات الوجه بناءً على بنية MobileNetV2، معززة بآلية انتباه قناة دمج الميزات. تم تدريب النموذج واختباره باستخدام مجموعات بيانات FER2013 و CK+، التي تحتوي على مجموعة متنوعة من تعبيرات الوجه. تتضمن مجموعة بيانات FER2013 35,886 صورة مصنفة إلى سبع تعبيرات، بينما تتكون مجموعة بيانات CK+ من 593 تسلسل صورة من 123 مشاركًا. يسلط المؤلفون الضوء على قيود الشبكات العصبية التلافيفية التقليدية (CNNs) من حيث متطلبات الموارد الحاسوبية ويقترحون استخدام التلافيف العميقة القابلة للفصل لتقليل التعقيد الحاسوبي بشكل كبير مع الحفاظ على الدقة.

يتضمن نموذج MobileNetV2 المحسن عدة تحسينات، بما في ذلك دمج هيكل بقايا مقلوب، ودالة تفعيل SELU المعدلة، وآلية انتباه (شبكات الضغط والتحفيز). أدت هذه التعديلات إلى نموذج يحتوي على 3.26 مليون معلمة فقط، تمثل 16.2% من النموذج الأساسي، مع تحقيق تحسينات في الدقة بنسبة 0.72% على FER2013 و 6.14% على CK+. أجرى المؤلفون دراسات إلغاء لتأكيد فعالية هذه التحسينات، مما يظهر أن النموذج المقترح يتفوق على كل من MobileNetV1 و MobileNetV2 في الأداء في الوقت الحقيقي على الأجهزة المحمولة. بشكل عام، تشير النتائج إلى أن النموذج المقترح يوازن بشكل فعال بين الدقة والكفاءة، مما يجعله مناسبًا لتطبيقات التعرف على تعبيرات الوجه في الوقت الحقيقي.

Journal: Scientific Reports, Volume: 14, Issue: 1
DOI: https://doi.org/10.1038/s41598-024-58736-x
PMID: https://pubmed.ncbi.nlm.nih.gov/38582772
Publication Date: 2024-04-06
Author(s): Qiming Zhu et al.
Primary Topic: Emotion and Mood Recognition

Overview

This paper introduces an enhanced version of the MobileNetV2 neural network, termed I-MobileNetV2, aimed at addressing the limitations of existing deep convolutional networks, particularly in the context of facial emotion recognition. The proposed model retains the depthwise separable convolution characteristic of MobileNetV2, which reduces computational demands while maintaining a lightweight structure. Key innovations include a reverse fusion mechanism to preserve negative features, the replacement of the RELU6 activation function with the SELU activation function to mitigate gradient vanishing, and the integration of a channel attention mechanism based on Squeeze-and-Excitation Networks (SE-Net) to bolster feature recognition capabilities.

Experimental results on the FER2013 and CK+ facial expression datasets demonstrate that I-MobileNetV2 achieves recognition accuracies of 68.62% and 95.96%, respectively, surpassing the original MobileNetV2 by 0.72% and 6.14%. Additionally, the parameter count is reduced by 83.8%, indicating a significant improvement in both performance and efficiency. The findings validate the effectiveness of the proposed enhancements, suggesting that the model not only outperforms traditional convolutional networks in terms of accuracy and parameter efficiency but also lays the groundwork for future research into lightweight multi-scale convolution techniques for improved feature extraction and fusion.

Methods

In this study, the authors introduce Reverse Fusion Methods (RFM) to enhance feature extraction in the Mobile-NetV2 network. They implement a deep convolutional inverse layer and a deep convolutional fusion layer to address the challenges of inadequate structural feature extraction and the neglect of negative feature information. The architecture integrates original and inverse image features, employs a class residual structure, and optimizes the network using a cross-entropy loss function for classification. The network processes feature maps through a series of convolutional layers, incorporating an inverted residual structure to mitigate gradient dispersion, ultimately classifying input samples with a Softmax classifier.

Experimental results demonstrate the effectiveness of the proposed model on the FER2013 dataset, achieving an accuracy of 68.626%. The model shows improved feature extraction capabilities, particularly in recognizing emotions such as happiness, surprise, disgust, and neutrality, with recognition rates of 89%, 81%, 71%, and 70%, respectively. Conversely, emotions like anger, fear, and sadness exhibit lower recognition rates due to their similar expressions. Additionally, on the CK+ dataset, the model achieves an impressive accuracy of 95.960%, with perfect recognition rates for several emotions, further underscoring the enhancements brought by reverse fusion, attention mechanisms, and the SELU activation function compared to the baseline Mobile-NetV2.

Results

In this section, the results of the proposed network model are compared with mainstream models, highlighting its efficiency in terms of accuracy and parameter reduction. The findings indicate that while the proposed model exhibits a slight accuracy decrease on the FER2013 dataset compared to traditional deep neural networks, it achieves comparable accuracy on the CK+ dataset, matching ResNet50 and surpassing VGG19 by 1.32%. Notably, the proposed model significantly reduces the number of parameters, comprising only 3.6% and 4.5% of those in VGG19 and ResNet50, respectively.

Further analysis reveals that the proposed model outperforms other lightweight networks, such as MobileNetV2 and MobileNetV3, with accuracy improvements of 1.06% and 1.46% on the FER2013 dataset, alongside a reduction in parameters by 16.84 MB and 18.42 MB. On the CK+ dataset, accuracy increases by 6.14% and 7.09% compared to MobileNetV2 and MobileNetV3, respectively, and by 3% compared to Xception. The model’s enhanced performance is attributed to the implementation of depthwise separable convolutions, a reverse fusion mechanism to preserve feature information, and the integration of the Squeeze-and-Excitation (SE) mechanism to improve effective feature extraction while minimizing the capture of irrelevant information.

Discussion

In this section, the authors discuss the development and evaluation of a lightweight facial expression recognition model based on the MobileNetV2 architecture, enhanced with a feature fusion channel attention mechanism. The model was trained and tested using the FER2013 and CK+ datasets, which contain a diverse range of facial expressions. The FER2013 dataset includes 35,886 images categorized into seven expressions, while the CK+ dataset comprises 593 image sequences from 123 participants. The authors highlight the limitations of traditional convolutional neural networks (CNNs) in terms of computational resource demands and propose the use of depthwise separable convolutions to significantly reduce computational complexity while maintaining accuracy.

The improved MobileNetV2 model incorporates several enhancements, including the integration of an inverted residual structure, a modified SELU activation function, and an attention mechanism (Squeeze-and-Excitation Networks). These modifications resulted in a model with only 3.26 million parameters, representing 16.2% of the base model, while achieving accuracy improvements of 0.72% on FER2013 and 6.14% on CK+. The authors conducted ablation studies to confirm the effectiveness of these enhancements, demonstrating that the proposed model outperforms both MobileNetV1 and MobileNetV2 in real-time performance on mobile devices. Overall, the findings indicate that the proposed model effectively balances accuracy and efficiency, making it suitable for real-time facial expression recognition applications.