تكييف أسلوب تفاعل الوكيل الافتراضي باستخدام التعلم المعزز لتعزيز الانخراط العاطفي
Adapting virtual agent interaction style with reinforcement learning to enhance affective engagement

المجلة: Frontiers in Digital Health، المجلد: 7
DOI: https://doi.org/10.3389/fdgth.2025.1680605
PMID: https://pubmed.ncbi.nlm.nih.gov/41550353
تاريخ النشر: 2026-01-02
المؤلف: Christian Tamantini وآخرون
الموضوع الرئيسي: التعرف على العواطف والمزاج

نظرة عامة

تقدم هذه الورقة البحثية إطارًا قائمًا على التعلم المعزز مصممًا لتعزيز تفاعلات الإنسان مع الوكيل من خلال التكيف الديناميكي لأساليب الاتصال لزيادة الانخراط العاطفي للمستخدم. شملت الدراسة تجربة مستخدم مع 20 مشاركًا تفاعلوا مع وكيل يعتمد على الكلام التكيفي أو واجهة شاشة ثابتة أثناء إكمال استبيان URICA. استخدم الوكيل التكيفي تقنية Thompson Sampling للتبديل بين أساليب الاتصال المتحمسة والمحايدة بناءً على التعرف على المشاعر الوجهية في الوقت الحقيقي، بهدف تعزيز الأسلوب الذي أثر إيجابيًا على القيمة العاطفية للمستخدم. أشارت النتائج إلى أن النظام قام بتكييف اتصاله بشكل فعال بناءً على ردود الفعل العاطفية الفردية، مع وجود ارتباط كبير بين درجات الذهان لدى المستخدمين وتعزيز الأسلوب المحايد، مما يشير إلى الحساسية تجاه سمات الشخصية.

تؤكد النتائج على إمكانيات الوكلاء التكيفيين في تخصيص استراتيجيات التفاعل في السياقات العاطفية، حتى عندما تظل تجارب المستخدمين قابلة للمقارنة مع الأنظمة الثابتة. توفر قدرة الإطار على استنتاج علاقات الأسلوب والعاطفة من بيانات التفاعل نهجًا مرنًا ومستقلًا عن المجال للتواصل الشخصي. على الرغم من عدم الإبلاغ عن اختلافات كبيرة في تجربة المستخدم بين الشرطين، أشارت الاتجاهات إلى تفضيل طفيف للنظام التكيفي، الذي حافظ على قابلية الاستخدام دون فرض أعباء معرفية إضافية. تؤسس الدراسة أساسًا للبحوث المستقبلية لاستكشاف سيناريوهات أكثر صحة بيئيًا وتعزيز نموذج التعلم المعزز من خلال دمج إشارات مستخدم إضافية، بهدف تحسين الانخراط والالتزام طويل الأمد للمستخدم في تطبيقات متنوعة.

مقدمة

تناقش مقدمة الورقة البحثية دور تدخلات تغيير السلوك (BCIs) في تسهيل تحسينات نمط الحياة المستدامة، لا سيما من خلال استخدام الأنظمة الرقمية والروبوتية. تعزز هذه الأنظمة انخراط المستخدم وتمكن من المراقبة والتغذية الراجعة الفعالة، وغالبًا ما تستخدم استبيانات موحدة مثل مقياس تقييم تغيير جامعة رود آيلاند (URICA) لتقييم الاستعداد للتغيير. تبرز الورقة الاستخدام المتزايد للوكلاء الاصطناعيين في تقديم تفاعلات منظمة عبر مجالات متنوعة، بما في ذلك الرعاية الصحية والتعليم، مما يمكن أن يقلل من عبء العمل على الأطباء ويحسن تجربة المستخدم. ومع ذلك، يعتمد نجاح هذه الوكلاء على قدرتهم على التكيف مع تفضيلات المستخدم، حيث إن التصورات الإيجابية للتفاعلات ضرورية للانخراط المستدام.

يشير المؤلفون إلى أنه بينما استكشفت الأبحاث السابقة أنماط التفاعل المختلفة وسمات الشخصية في الوكلاء، فإن معظم النهج تفتقر إلى آليات التكيف في الوقت الحقيقي، وتعتمد بدلاً من ذلك على تعريفات ثابتة وتقييمات لاحقة. لمعالجة هذه القيود، تقدم الورقة إطارًا جديدًا للتكيف العاطفي في تفاعلات الإنسان مع الوكيل، باستخدام آلية تعلم معزز خفيفة الوزن. يمكّن هذا الإطار الوكلاء من ضبط أسلوب الاتصال الخاص بهم ديناميكيًا بناءً على إدراك العاطفة في الوقت الحقيقي وردود الفعل من المستخدم، مما يعزز الانخراط والثقة. يتم تقييم النظام المقترح في سيناريو محكوم حيث يعمل الوكيل كمدرب افتراضي خلال جلسة تعريفية أولية، مما يسمح بفحص متعمق لفعالية آلية التكيف وأنماط التعلم الخاصة بالمستخدم.

الطرق

في هذه الدراسة، يقترح المؤلفون بنية جديدة للتفاعل القائم على الوكيل الافتراضي التكيفي، تتكون من ثلاثة وحدات رئيسية: التعرف على المشاعر الوجهية، التكيف القائم على التعلم المعزز، ومدير الحوار. تقوم وحدة التعرف على المشاعر الوجهية بتحليل تعبيرات وجه المستخدمين لتقدير حالاتهم العاطفية، مما يُعلم سلوك الوكيل في التواصل. تستخدم وحدة التكيف القائم على التعلم المعزز تقنية Thompson Sampling لتحسين أنماط التفاعل – إما محايدة أو متحمسة – بناءً على ردود الفعل العاطفية للمستخدمين. يدير مدير الحوار التفاعل اللفظي، مما يضمن أن المحتوى يظل متسقًا بينما يتم تعديل التعبير ليتناسب مع الحالة العاطفية المستنتجة للمستخدم.

شملت عملية التحقق التجريبية 20 مشاركًا تم تعيينهم عشوائيًا إما إلى حالة تعتمد على الكلام التكيفي أو حالة تعتمد على الشاشة الثابتة لإدارة استبيان URICA. استخدمت الحالة التكيفية وكيلًا افتراضيًا قام بضبط أسلوب اتصاله ديناميكيًا، بينما استخدمت الحالة الثابتة واجهة Google Forms القياسية دون تفاعل. كانت الدراسة تهدف إلى تقييم فعالية النظام التكيفي في تعزيز انخراط المستخدم والتوافق العاطفي مقارنة بالطرق التقليدية. أكمل المشاركون استبيانات متنوعة لتوصيف سمات الشخصية وتقييم ردود أفعالهم العاطفية، بما في ذلك استبيان شخصية إيسينك (EPQ) ومانيكين التقييم الذاتي (SAM). بالإضافة إلى ذلك، تم استخدام تقييم ذاتي لواجهات نظام الكلام (SASSI) لقياس تصورات المستخدمين لواجهة الكلام في الحالة التكيفية. من المتوقع أن توفر النتائج رؤى حول التأثير العاطفي للتفاعلات التكيفية في مهام توصيف المستخدم وتوجه تصميم وكلاء تغيير السلوك في المستقبل.

النتائج

تظهر نتائج الدراسة فعالية نظام التعلم المعزز المقترح في تكييف أسلوب تفاعله مع المستخدمين الأفراد، كما يتضح من التباين في القيم النهائية $a$ المعينة لأساليب الاتصال المحايدة والمتحمسة. كشفت تحليل الحالة المعتمدة على الكلام التكيفي أن النظام لم يتقارب على أسلوب واحد، بل قام بتكييف نهجه بناءً على ردود الفعل العاطفية للمستخدمين، حيث أظهر بعض المشاركين تفضيلًا للأسلوب المتحمس بينما فضل آخرون الأسلوب المحايد. من الجدير بالذكر أن ثلاثة مشاركين لم يظهروا تفضيلًا واضحًا، مما يشير إلى استجابة عاطفية متوازنة لكلا الأسلوبين. يبرز هذا التباين مرونة النظام وقدرته على التكيف ديناميكيًا مع ردود الفعل المحددة للمستخدم بدلاً من الالتزام بسياسة ثابتة.

كشفت المزيد من تحليلات الارتباط بين سمات شخصية المشاركين، التي تم قياسها باستخدام استبيان شخصية إيسينك (EPQ)، والقيم النهائية $a$ عن وجود ارتباط سلبي كبير بين الذهان والأسلوب المتحمس ($r = -0.74$, $p = 0.02$)، إلى جانب ارتباط إيجابي مع الأسلوب المحايد ($r = 0.70$, $p = 0.04$). يشير هذا إلى أن الأفراد الذين لديهم مستويات أعلى من الذهان استجابوا بشكل أفضل لأسلوب التفاعل المحايد، ربما بسبب تقليل العبء المعرفي وتفضيلهم للتواصل الأكثر توقعًا. بالمقابل، لم يتم العثور على ارتباطات كبيرة لسمات الانبساط، العصابية، أو الكذب، مما يشير إلى أن تكيف النظام لم يتأثر بشكل كبير بهذه السمات. تتماشى هذه النتيجة مع الأدبيات الموجودة حول تفاعل الإنسان مع الروبوت، مما يشير إلى أن تفضيلات المستخدم لأساليب التفاعل يمكن أن تعتمد على السياق وقد تفضل نهجًا متناقضًا بدلاً من التوافق المباشر مع سمات الشخصية.

المناقشة

تناقش الورقة البحثية نظامًا مصممًا للتعرف على المشاعر الوجهية في الوقت الحقيقي والتفاعل التكيفي باستخدام التعلم المعزز. تستخدم وحدة التعرف على المشاعر الوجهية مصنف تعلم عميق لتحديد سبع مشاعر أساسية – غاضب، اشمئزاز، خوف، سعيد، حزين، مفاجأة، ومحايد – بناءً على شبكة عصبية تلافيفية تم تدريبها على مجموعة بيانات كبيرة من تعبيرات الوجه. تعالج هذه الوحدة الصور الملتقطة أثناء تفاعلات المستخدم لتقدير الحالات العاطفية، محققة دقة تصل إلى 80.35% على مجموعة التحقق. تعدل وحدة التكيف القائم على التعلم المعزز أسلوب التواصل الخاص بالوكيل ديناميكيًا، مختارةً النهج الأكثر ملاءمة بناءً على ردود الفعل العاطفية للمستخدم، التي يتم قياسها من خلال إشارة مكافأة مستمدة من متوسط القيمة العاطفية للتعبيرات الوجهية المكتشفة.

يتم تأطير اختيار أسلوب التفاعل كمشكلة متعددة الأذرع، باستخدام تقنية Thompson Sampling لتحقيق توازن بين الاستكشاف والاستغلال لأساليب الاتصال المختلفة. يدير مدير الحوار التفاعل اللفظي، مولدًا عبارات إما بأسلوب محايد أو متحمس، مع ضمان أن المحتوى الدلالي يظل دون تغيير. تشير مقاييس التقييم إلى أنه بينما أثارت كل من الأساليب التفاعلية التكيفية والثابتة استجابات عاطفية مماثلة، أظهر النظام التكيفي اتجاهًا طفيفًا نحو درجات قيمة أعلى، مما يشير إلى تجربة أكثر إيجابية. بشكل عام، تسلط النتائج الضوء على إمكانيات الأنظمة التكيفية في تخصيص تفاعلات المستخدم دون فرض أعباء معرفية إضافية، لا سيما في السيناريوهات الأطول أو الأكثر تعقيدًا.

القيود

تسلط قيود هذه الدراسة الضوء على عدة عوامل حاسمة قد تؤثر على تفسير النتائج وقابليتها للتعميم. كان استخدام تصميم بين الموضوعات مع مجموعتين غير متداخلتين (10 مشاركين لكل حالة) ضروريًا للحفاظ على نزاهة إشارة التعلم المعزز وتجنب آثار الحمل الزائد. ومع ذلك، يقيّد هذا التصميم القدرة على تقييم تفضيلات الأفراد للطرائق المختلفة مباشرة، حيث تم تقييم التخصيص بشكل غير مباشر من خلال سلوك النظام التكيفي وارتباطه بسمات الشخصية. بالإضافة إلى ذلك، قد يكون السيناريو التفاعلي المحكوم، بينما يوفر سياقًا مستقرًا لمراقبة ديناميات التعلم، قد قيد طبيعية التعبيرات العاطفية، مما قد يحد من تباين الإشارات العاطفية وقدرة الوكيل على التكيف.

تتعلق المزيد من القيود بمنهجية استشعار العواطف وصياغة المكافآت. اعتمدت آلية التعلم المعزز فقط على تغييرات القيمة العاطفية الوجهية، مع افتراض أن الزيادات أو الاستقرار في القيمة تشير إلى تحسين الانخراط. هذا النهج، على الرغم من كونه عمليًا، يلتقط فقط جزءًا من الطبيعة متعددة الأبعاد للانخراط، متجاهلاً عوامل مثل الجهد المعرفي والانتباه. علاوة على ذلك، فإن أداء وحدة التعرف على المشاعر الوجهية عرضة للتأثيرات البيئية، مما قد يهدد موثوقيتها في البيئات الأقل تحكمًا. لم تأخذ الدراسة أيضًا في الاعتبار العبء العاطفي الداخلي لعناصر الاستبيان، والتي قد تثير استجابات عاطفية متباينة بشكل مستقل. يجب على الأبحاث المستقبلية استكشاف دمج طرائق إضافية، مثل نغمة الكلام والقياسات الفسيولوجية، لتعزيز فهم انخراط المستخدم والنظر في السياق الدلالي لعناصر التفاعل لتحسين قوة النتائج في سيناريوهات أكثر صحة بيئيًا.

Journal: Frontiers in Digital Health, Volume: 7
DOI: https://doi.org/10.3389/fdgth.2025.1680605
PMID: https://pubmed.ncbi.nlm.nih.gov/41550353
Publication Date: 2026-01-02
Author(s): Christian Tamantini et al.
Primary Topic: Emotion and Mood Recognition

Overview

This research paper presents a reinforcement learning-based framework designed to enhance human-agent interactions by dynamically adapting communication styles to maximize user emotional engagement. The study involved a user experiment with 20 participants who interacted with either an adaptive speech-based agent or a static screen-based interface while completing the URICA questionnaire. The adaptive agent utilized Thompson Sampling to switch between enthusiastic and neutral communication styles based on real-time facial emotion recognition, aiming to reinforce the style that positively influenced user affective valence. Results indicated that the system effectively tailored its communication based on individual emotional feedback, with a significant correlation between users’ Psychoticism scores and the reinforcement of the neutral style, suggesting sensitivity to personality traits.

The findings underscore the potential of adaptive agents to personalize interaction strategies in emotionally charged contexts, even when user experiences remain comparable to static systems. The framework’s ability to infer style-affect relationships from interaction data offers a flexible, domain-independent approach to personalized communication. Although no significant differences were reported in user experience between the two conditions, trends indicated a slight preference for the adaptive system, which maintained usability without imposing additional cognitive burdens. The study establishes a foundation for future research to explore more ecologically valid scenarios and enhance the reinforcement learning model by integrating additional user signals, ultimately aiming to improve long-term user engagement and adherence in various applications.

Introduction

The introduction of the research paper discusses the role of Behavior Change Interventions (BCIs) in facilitating sustainable lifestyle improvements, particularly through the use of digital and robotic systems. These systems enhance user engagement and enable effective monitoring and feedback, often utilizing standardized questionnaires like the University of Rhode Island Change Assessment Scale (URICA) to assess readiness for change. The paper highlights the increasing use of artificial agents in delivering structured interactions across various fields, including healthcare and education, which can reduce clinician workload and improve user experience. However, the success of these agents hinges on their adaptability to user preferences, as positive perceptions of interactions are crucial for sustained engagement.

The authors note that while previous research has explored different interaction styles and personality traits in agents, most approaches lack real-time adaptation mechanisms, relying instead on static definitions and post hoc evaluations. To address this limitation, the paper introduces a novel framework for affective adaptation in human-agent interactions, employing a lightweight reinforcement learning mechanism. This framework enables agents to dynamically adjust their communication style based on real-time emotion perception and user feedback, thereby enhancing engagement and trust. The proposed system is evaluated in a controlled scenario where the agent functions as a virtual coach during an initial profiling session, allowing for an in-depth examination of the adaptive mechanism’s effectiveness and user-specific learning patterns.

Methods

In this study, the authors propose a novel architecture for adaptive virtual agent-based interaction, consisting of three key modules: Facial Emotion Recognition, Reinforcement Learning-based Adaptation, and Dialogue Manager. The Facial Emotion Recognition module analyzes users’ facial expressions to gauge their emotional states, which informs the agent’s communicative behavior. The Reinforcement Learning-based Adaptation module employs Thompson Sampling to optimize interaction styles—either neutral or enthusiastic—based on users’ emotional feedback. The Dialogue Manager orchestrates the verbal interaction, ensuring that the content remains consistent while adapting the expression to the user’s inferred emotional state.

The experimental validation involved 20 participants who were randomly assigned to either an adaptive speech-based condition or a static screen-based condition for administering the URICA questionnaire. The adaptive condition utilized a virtual agent that dynamically adjusted its communication style, while the static condition employed a standard Google Forms interface without interaction. The study aimed to assess the effectiveness of the adaptive system in enhancing user engagement and emotional resonance compared to traditional methods. Participants completed various questionnaires to profile personality traits and evaluate their emotional responses, including the Eysenck Personality Questionnaire (EPQ) and the Self-Assessment Manikin (SAM). Additionally, the Subjective Assessment of Speech System Interfaces (SASSI) was used to gauge user perceptions of the speech interface in the adaptive condition. The findings are expected to provide insights into the emotional impact of adaptive interactions in user profiling tasks and inform the design of future behavior change coaching agents.

Results

The results of the study demonstrate the effectiveness of the proposed reinforcement learning (RL) system in adapting its interaction style to individual users, as evidenced by the variability in the final $a$ values assigned to neutral and enthusiastic communication styles. Analysis of the adaptive speech-based condition revealed that the system did not converge on a single style but instead tailored its approach based on users’ emotional responses, with some participants showing a preference for the enthusiastic style while others favored the neutral style. Notably, three participants exhibited no clear preference, indicating a balanced emotional response to both styles. This variability highlights the system’s flexibility and its ability to adjust dynamically to user-specific feedback rather than adhering to a static policy.

Further correlation analyses between participants’ personality traits, measured using the Eysenck Personality Questionnaire (EPQ), and the final $a$ values revealed a significant negative correlation between Psychoticism and the enthusiastic style ($r = -0.74$, $p = 0.02$), alongside a positive correlation with the neutral style ($r = 0.70$, $p = 0.04$). This suggests that individuals with higher Psychoticism levels responded better to a neutral interaction style, potentially due to reduced cognitive load and a preference for more predictable communication. In contrast, no significant correlations were found for Extraversion, Neuroticism, or Lie, indicating that the system’s adaptation was not strongly influenced by these traits. This finding aligns with existing literature on human-robot interaction, suggesting that user preferences for interaction styles can be context-dependent and may favor contrasting approaches rather than direct alignment with personality traits.

Discussion

The research paper discusses a system designed for real-time facial emotion recognition and adaptive interaction using reinforcement learning. The Facial Emotion Recognition module employs a deep learning classifier to identify seven basic emotions—Angry, Disgust, Fear, Happy, Sad, Surprise, and Neutral—based on a convolutional neural network trained on a large dataset of facial expressions. This module processes images captured during user interactions to estimate emotional states, achieving an accuracy of 80.35% on the validation set. The reinforcement learning-based adaptation module adjusts the agent’s communication style dynamically, selecting the most suitable approach based on the user’s emotional responses, quantified through a reward signal derived from the average valence of detected facial expressions.

The interaction style selection is framed as a multi-armed bandit problem, utilizing Thompson Sampling to balance exploration and exploitation of different communication styles. The Dialogue Manager orchestrates the verbal interaction, generating utterances in either a neutral or enthusiastic style, while ensuring that the semantic content remains unchanged. Evaluation metrics indicate that while both adaptive and static interaction modalities elicited similar emotional responses, the adaptive system showed a slight trend toward higher valence scores, suggesting a more positively perceived experience. Overall, the findings highlight the potential of adaptive systems to personalize user interactions without imposing additional cognitive burdens, particularly in longer or more complex scenarios.

Limitations

The limitations of this study highlight several critical factors that may affect the interpretation and generalizability of the findings. The use of a between-subjects design with two nonoverlapping groups (10 participants per condition) was essential to maintain the integrity of the reinforcement learning signal and avoid carryover effects. However, this design restricts the ability to assess individual preferences for different modalities directly, as personalization was evaluated indirectly through the system’s adaptive behavior and its correlation with personality traits. Additionally, the controlled interaction scenario, while providing a stable context for observing learning dynamics, may have constrained the naturalness of emotional expressions, potentially limiting the variability of affective cues and the agent’s adaptability.

Further limitations pertain to the affective sensing methodology and reward formulation. The reinforcement learning mechanism relied solely on facial valence changes, assuming that increases or stability in valence indicate improved engagement. This approach, while practical, captures only a fraction of the multidimensional nature of engagement, neglecting factors such as cognitive effort and attention. Moreover, the facial emotion recognition module’s performance is susceptible to environmental influences, which may compromise reliability in less controlled settings. The study also did not account for the intrinsic emotional load of the questionnaire items, which could independently evoke varying affective responses. Future research should explore integrating additional modalities, such as speech prosody and physiological measures, to enhance the understanding of user engagement and consider the semantic context of interaction items to improve the robustness of findings in more ecologically valid scenarios.