تعلم تمثيل الوجه التبايني الواعي بالوضع مع تماسك العينة
Sample-Cohesive Pose-Aware Contrastive Facial Representation Learning

المجلة: International Journal of Computer Vision، المجلد: 133، العدد: 6
DOI: https://doi.org/10.1007/s11263-025-02348-z
تاريخ النشر: 2025-01-28
المؤلف: Yuanyuan Liu وآخرون
الموضوع الرئيسي: التعرف على الوجه والتحليل

نظرة عامة

تقدم ورقة البحث إطارًا جديدًا لتعلم تمثيلات الوجه ذاتية الإشراف (SFRL) يسمى تعلم تمثيل الوجه المتباين غير المرتبط بالوضع (PCFRL). يعالج هذا الإطار قيود طرق التعلم المتباين الحالية (CL)، التي غالبًا ما تفشل في التقاط الميزات الخاصة بالوضع بشكل كافٍ بسبب اختيار أزواج إيجابية/سلبية غير مناسب. يعزز PCFRL الوعي بالوضع من خلال فصل الميزات المرتبطة بالوضع بشكل صريح عن الميزات غير المرتبطة بالوضع وتنفيذ نظام معايرة العينة لتحسين فعالية CL. تشمل المكونات الرئيسية لـ PCFRL جهاز فك تشفير غير مرتبط بالوضع مع تنظيم متعامد ووحدة معايرة أزواج سلبية زائفة تستخدم طريقة محاذاة أزواج متماسكة مجاورة لتحسين اختيار الأزواج الإيجابية.

تظهر التقييمات التجريبية أن PCFRL يتفوق بشكل كبير على الطرق الحديثة في أربعة مهام وجهية صعبة: التعرف على تعبيرات الوجه، التعرف على الوجه، اكتشاف وحدات الحركة الوجهية، وتقدير وضع الرأس. تؤكد النتائج على أهمية الوعي بالوضع في SFRL. على الرغم من هذه التقدمات، يعترف المؤلفون بالتحديات المتعلقة بالضوضاء الداخلية في صور الوجه، مثل التغيرات في الإضاءة والاحتلالات، التي قد تؤثر على الأداء. تهدف الأعمال المستقبلية إلى دمج المعرفة السابقة المستندة إلى الفيزياء لتعزيز متانة الإطار المقترح ضد هذه التعقيدات.

مقدمة

في مقدمة ورقة البحث هذه، يؤكد المؤلفون على أهمية تعلم تمثيلات الوجه في رؤية الكمبيوتر، مشيرين إلى تطبيقاتها في مجالات مثل التعرف على تعبيرات الوجه والتفاعل بين الإنسان والآلة. بينما أظهرت الشبكات العصبية الالتفافية العميقة (DCNNs) نتائج واعدة في فهم الوجه، إلا أنها تتطلب مجموعات بيانات كبيرة وموسومة بشكل جيد، مما يطرح تحديات من حيث التوصيف اليدوي والتعميم عبر مجموعات بيانات مختلفة. لمعالجة هذه القيود، ظهرت التعلم الذاتي الإشراف (SSL) كبديل قابل للتطبيق، خاصة من خلال استراتيجيات التعلم المتباين (CL) التي تستخدم بيانات غير موسومة لإنشاء عينات إيجابية وسلبية للتدريب.

يحدد المؤلفون فجوة حاسمة في طرق التعلم المتباين الحالية لتعلم تمثيلات الوجه ذاتية الإشراف (SFRL)، مشيرين إلى أنها غالبًا ما تفشل في مراعاة التباينات في أوضاع الوجه. يمكن أن تعيق هذه السهو قدرة النموذج على التعرف على الأوضاع الوجهية المختلفة والتعامل معها بشكل فعال. لتعزيز الوعي بالوضع، يقترح المؤلفون إطارًا جديدًا يسمى تعلم تمثيل الوجه المتباين غير المرتبط بالوضع (PCFRL). يفصل هذا الإطار الميزات المرتبطة بالوضع عن الميزات غير المرتبطة بالوضع ويقدم وحدة معايرة أزواج سلبية زائفة لتحسين اختيار أزواج العينات للتعلم المتباين. تدعي الدراسة أن هذا النهج يحسن بشكل كبير من متانة SFRL، مما يظهر أداءً متفوقًا في مهام مختلفة، بما في ذلك التعرف على تعبيرات الوجه وتقدير وضع الرأس، مقارنة بالطرق الحالية وأعمال المؤلفين السابقة.

طرق

في هذا القسم، يقيم المؤلفون فعالية طريقة معايرة الأزواج السلبية الزائفة المعتمدة على NPA المقترحة ضمن أطر التعلم المتباين (CL)، حيث يتم تطبيقها بشكل خاص على PCL (Liu et al., 2023) وSimCLR (Chen et al., 2020). تشير النتائج، الملخصة في الجدول 5، إلى تحسينات كبيرة في الأداء عبر أربع مهام وجهية. على سبيل المثال، في مهمة التعرف على تعبيرات الوجه (FER)، حققت طريقة NPA تحسينًا نسبيًا قدره 1.62 نقطة مقارنة بـ PCL و0.72 نقطة مقارنة بـ SimCLR. وبالمثل، في مهمة التعرف على الوجه (FR)، زادت الدقة بمقدار 2.37 نقطة مقارنة بـ PCL و1.93 نقطة مقارنة بـ SimCLR. كما تفوقت طريقة NPA على نهج التشابه الكوني (Rahutomo et al., 2012) في جميع المهام، مما يظهر تنوعها كعنصر إضافي لتحسين مختلف أطر CL.

كشف تحليل إضافي لطرق المعايرة المختلفة أن طريقة المعايرة المعتمدة على العتبة المقترحة حسنت أداء PCL بشكل كبير بمقدار 1.62 نقطة. في المقابل، أدى استخدام طرق top-K (top-2 وtop-5) إلى تدهور في الأداء بمقدار حوالي 6.67 نقطة، حيث غالبًا ما كانت هذه الطرق تحدد الأزواج السلبية الزائفة بشكل خاطئ عندما تجاوز K 2. يوضح المؤلفون أن طريقتهم المعتمدة على العتبة تتجنب بشكل فعال تصنيف السلبيات الحقيقية كسلبيات زائفة من خلال مراعاة توزيع درجات محاذاة الأزواج المتماسكة المجاورة، مما يعزز المتانة والفعالية في تحديد الأزواج السلبية الزائفة. بشكل عام، تؤكد النتائج على موثوقية وأداء متفوق لطريقة المعايرة المعتمدة على NPA في مهام التعلم المتباين.

نتائج

في تقييم طريقة PCFRL المقترحة للتعرف على عواطف الوجه (FER)، تشير النتائج إلى تحسين كبير في الأداء مقارنة بالتقنيات الحديثة. على وجه التحديد، يظهر PCFRL تحسينًا نسبيًا قدره 0.86% على مجموعة بيانات FER-2013 وزيادة بنسبة 1.62% في الدقة على مجموعة بيانات RAF-DB، مما يبرز فعاليته في تعلم تمثيلات الوجه الذاتية المتفوقة.

في اكتشاف وحدات الحركة الوجهية (AU)، يستخدم PCFRL خسارة الانتروبيا المتقاطعة الثنائية للتدريب، متفوقًا على كل من الطرق الحديثة ذاتية الإشراف والطرق المشرفة بالكامل على مجموعة بيانات DISFA. تكشف النتائج عن تحسين متوسط درجة F1 بمقدار 3 نقاط مقارنة بـ PCL و1.8 نقطة مقارنة بالطرق المشرفة بالكامل، مما يبرز عملية التعلم القوية التي يسهلها محاذاة الأزواج المتماسكة المجاورة.

في تقدير وضع الإنسان (HPE)، تم تقييم PCFRL من خلال مهام الانحدار والتصنيف لوضع الرأس. وفقًا للإطار التجريبي لـ Liu et al. (2023)، حققت الطريقة أدنى خطأ مطلق متوسط (MAE) قدره 12.08% على مجموعة بيانات AFLW2000 للانحدار وأعلى دقة قدرها 98.96% على BU-3DFE للتصنيف، مما يثبت تفوقها على طرق التعلم الذاتي الأخرى في المهام المتعلقة بالوضع.

نقاش

يناقش هذا القسم التقدم في تعلم تمثيلات الوجه ذاتية الإشراف، مؤكدًا على أهمية تعلم الميزات من صور الوجه غير الموسومة لمهام مختلفة مثل التعرف على تعبيرات الوجه (FER) والتعرف على الوجه (FR). تشمل الطرق الرئيسية المميزة استخدام الشبكات العصبية العميقة (DBNs) مع البيرسيبترونات متعددة الطبقات (MLPs) لـ FER، ومشفّر التوأم الدائري، الذي يفصل بشكل فعال الحركات المرتبطة بوحدات الحركة الوجهية عن حركات الرأس لتعزيز تمثيل العواطف. ينتقد القسم أيضًا تقنيات التعلم المتباين (CL) الحالية، مشيرًا إلى ميلها لتصنيف الأزواج السلبية الزائفة بشكل خاطئ، مما يمكن أن يعيق فعالية التعلم.

لمعالجة هذه التحديات، يقترح المؤلفون إطارًا جديدًا لتعلم تمثيل الوجه المتباين غير المرتبط بالوضع (PCFRL). يتضمن هذا الإطار ثلاثة مكونات: آلية فصل الميزات لفصل الميزات المرتبطة بالوضع عن الميزات غير المرتبطة بالوضع، وحدة معايرة الأزواج السلبية الزائفة التي تستخدم طريقة محاذاة الأزواج المتماسكة المجاورة (NPA)، وخسائر CL المعايرة التي تعزز التعلم بشكل تكيفي بناءً على الأزواج السلبية الزائفة المحددة. تعزز طريقة NPA تحديد الأزواج السلبية الزائفة من خلال تقييم درجات المحاذاة بناءً على التشابه الكوني والاتساق المجاور، مما يحسن في النهاية متانة التمثيلات المتعلمة. يهدف النهج المقترح إلى تحسين عملية التعلم من خلال ضمان أن الأزواج الإيجابية والسلبية المستخدمة في CL يتم معايرتها بدقة، مما يعزز الأداء العام لتعلم تمثيلات الوجه.

Journal: International Journal of Computer Vision, Volume: 133, Issue: 6
DOI: https://doi.org/10.1007/s11263-025-02348-z
Publication Date: 2025-01-28
Author(s): Yuanyuan Liu et al.
Primary Topic: Face recognition and analysis

Overview

The research paper introduces a novel framework for self-supervised facial representation learning (SFRL) called Pose-disentangled Contrastive Facial Representation Learning (PCFRL). This framework addresses the limitations of existing contrastive learning (CL) methods, which often fail to adequately capture pose-specific features due to inappropriate positive/negative pair selection. PCFRL enhances pose awareness by explicitly disentangling pose-aware features from non-pose face-aware features and implementing a sample calibration scheme to improve CL effectiveness. Key components of PCFRL include a pose-disentangled decoder with orthogonalizing regulation and a false-negative pair calibration module that utilizes a neighborhood-cohesive pair alignment method to refine the selection of positive pairs.

Experimental evaluations demonstrate that PCFRL significantly outperforms state-of-the-art methods across four challenging facial tasks: facial expression recognition, face recognition, facial action unit detection, and head pose estimation. The results underscore the importance of pose awareness in SFRL. Despite these advancements, the authors acknowledge challenges related to intrinsic noise in facial images, such as variations in illumination and occlusions, which may impact performance. Future work aims to incorporate physics-informed prior knowledge to further enhance the robustness of the proposed framework against such complexities.

Introduction

In the introduction of this research paper, the authors emphasize the significance of learning facial representations in computer vision, highlighting its applications in areas such as facial expression recognition and human-computer interaction. While deep convolutional neural networks (DCNNs) have shown promising results in facial understanding, they require large, well-labeled datasets, which poses challenges in terms of manual annotation and generalization across different datasets. To address these limitations, self-supervised learning (SSL) has emerged as a viable alternative, particularly through contrastive learning (CL) strategies that utilize unlabeled data to create positive and negative samples for training.

The authors identify a critical gap in existing contrastive learning methods for self-supervised facial representation learning (SFRL), noting that they often fail to account for variances in facial poses. This oversight can hinder the model’s ability to recognize and handle different facial poses effectively. To enhance pose awareness, the authors propose a novel framework called Pose-disentangled Contrastive Facial Representation Learning (PCFRL). This framework disentangles pose-aware features from non-pose face-aware features and introduces a false-negative pair calibration module to refine sample pair selection for contrastive learning. The study claims that this approach significantly improves the robustness of SFRL, demonstrating superior performance on various downstream tasks, including facial expression recognition and head pose estimation, compared to existing methods and the authors’ previous work.

Methods

In this section, the authors evaluate the effectiveness of their proposed NPA-based false-negative pair calibration method within contrastive learning (CL) frameworks, specifically applying it to PCL (Liu et al., 2023) and SimCLR (Chen et al., 2020). The results, summarized in Table 5, indicate significant performance improvements across four facial downstream tasks. For instance, in the facial expression recognition (FER) task, the NPA method yielded a relative enhancement of 1.62 points over PCL and 0.72 points over SimCLR. Similarly, in the face recognition (FR) task, accuracy increased by 2.37 points compared to PCL and 1.93 points compared to SimCLR. The NPA method also outperformed the cosine similarity approach (Rahutomo et al., 2012) in all tasks, demonstrating its versatility as a plug-and-play module for enhancing various CL frameworks.

Further analysis of different calibration methods revealed that the proposed thresholding-based calibration significantly improved PCL performance by 1.62 points. In contrast, using top-K methods (top-2 and top-5) led to a performance degradation of approximately 6.67 points, as these methods often misidentified false negatives when K exceeded 2. The authors illustrate that their thresholding method effectively avoids labeling true negatives as false negatives by considering the distribution of neighborhood-cohesive pair alignment scores, thereby enhancing robustness and effectiveness in identifying false-negative pairs. Overall, the findings underscore the reliability and superior performance of the NPA-based calibration method in contrastive learning tasks.

Results

In the evaluation of the proposed PCFRL method for Facial Emotion Recognition (FER), results indicate a significant performance enhancement over state-of-the-art techniques. Specifically, PCFRL demonstrates a relative improvement of 0.86% on the FER-2013 dataset and a 1.62% increase in accuracy on the RAF-DB dataset, highlighting its effectiveness in learning superior self-supervised facial representations.

For Facial Action Unit (AU) Detection, PCFRL employs a binary cross-entropy loss for training, outperforming both state-of-the-art self-supervised and fully supervised methods on the DISFA dataset. The results reveal an average F1 score improvement of 3 points over PCL and 1.8 points over fully supervised approaches, underscoring the method’s robust learning process facilitated by neighborhood-cohesive pair alignment.

In Human Pose Estimation (HPE), PCFRL was assessed through head pose regression and classification tasks. Following the experimental framework of Liu et al. (2023), the method achieved the lowest Mean Absolute Error (MAE) of 12.08% on the AFLW2000 dataset for regression and the highest accuracy of 98.96% on BU-3DFE for classification, further establishing its superiority over other self-supervised learning methods in pose-related tasks.

Discussion

The section discusses advancements in self-supervised facial representation learning, emphasizing the importance of learning features from unlabeled facial images for various tasks such as facial expression recognition (FER) and face recognition (FR). Key methods highlighted include the use of deep belief networks (DBNs) combined with multi-layer perceptrons (MLPs) for FER, and the Twin-Cycle Autoencoder, which effectively separates facial action-related movements from head movements to enhance emotion representation. The section also critiques existing contrastive learning (CL) techniques, noting their tendency to misclassify false-negative pairs, which can hinder learning efficacy.

To address these challenges, the authors propose a novel Pose-disentangled Contrastive Facial Representation Learning (PCFRL) framework. This framework includes three components: a feature disentanglement mechanism to separate pose-aware from non-pose features, a false-negative pair calibration module utilizing a neighborhood-cohesive pair alignment (NPA) method, and calibrated CL losses that adaptively optimize learning based on the identified false-negative pairs. The NPA method enhances the identification of false-negative pairs by evaluating alignment scores based on cosine similarity and neighborhood consistency, ultimately improving the robustness of the learned representations. The proposed approach aims to refine the learning process by ensuring that the positive and negative pairs used in CL are accurately calibrated, thereby enhancing the overall performance of facial representation learning.