DOI: https://doi.org/10.1145/3708359.3712145
تاريخ النشر: 2025-03-19
المؤلف: Hoang Phuoc Ho وآخرون
الموضوع الرئيسي: تفاعل الروبوتات الاجتماعية والتفاعل بين الإنسان والروبوت
نظرة عامة
تستكشف هذه الورقة دمج الإدراك البصري في الوكلاء المحادثين (CAs) ضمن معارض الفن لتعزيز تفاعل الزوار وفهمهم للأعمال الفنية. بينما يمكن أن توفر التفاعلات الصوتية التقليدية معلومات سياقية، فإن إقامة اتصال شخصي أعمق مع الفن لا تزال تمثل تحديًا. يقدم المؤلفون وكيلًا محادثيًا يعتمد على الصوت معززًا بالقدرات البصرية من خلال نموذج لغة كبير متعدد الوسائط (MLLM)، مما يمكّن من الإدراك والتفسير والنقاش في الوقت الحقيقي حول الأعمال الفنية. يستخدم النظام بنية مبسطة لتوليد معزز للاسترجاع (RAG) لمعالجة المدخلات الصوتية، واسترجاع المعلومات ذات الصلة من رسم بياني للمعرفة، وتوليد ردود محادثة، والتي يتم التعبير عنها صوتيًا.
تضمنت دراسة مستخدمين شملت 36 مشاركًا مقارنة النظام المحسن مع قاعدة بيانات تفتقر إلى المدخلات البصرية. أظهرت النتائج أن الوكيل المحادثي المعزز بصريًا قد حسّن بشكل كبير من تفاعل الزوار وإدراكهم، مما سهل مجموعة أوسع من المواضيع الحوارية ونقاشات أعمق تتعلق بالأعمال الفنية. تشير النتائج إلى أن دمج القدرات البصرية يسمح بتفاعلات أغنى وأكثر صلة بالسياق، مما يعزز في النهاية التفاعل الأكثر معنى مع الفن. تسلط الأبحاث الضوء على إمكانيات الوكلاء المحادثين متعدد الوسائط لتحويل التجارب الثقافية، وتحسين الوصول للزوار ذوي الإعاقة البصرية، ومعالجة التحديات المتعلقة بالتحيزات والموثوقية في الأنظمة المعتمدة على LLM، وبالتالي تعزيز واجهات الذكاء الاصطناعي المسؤولة والمركزية حول الإنسان في المؤسسات الثقافية.
مقدمة
تؤكد مقدمة ورقة البحث على أهمية معارض الفن كمنصات للتبادل الثقافي والتعليمي، مع تسليط الضوء على دور تجارب الجمهور في تشكيل الاعتراف بالفنانين والرسائل التي تنقلها الأعمال الفنية. تشير إلى أن التجارب التفاعلية في المتاحف يمكن أن تعزز تفاعل الزوار، خاصة من خلال دمج التكنولوجيا، مثل الوكلاء المحادثين (CAs)، الذين يسهلون الحوار الطبيعي ويقدمون معلومات سياقية حول الأعمال الفنية. ومع ذلك، تواجه الوكلاء المحادثون المعتمدون على الصوت قيودًا في البيئات الغنية بصريًا مثل المتاحف، حيث لا يمكنهم إدراك أو تفسير العناصر البصرية الضرورية لتقدير الفن.
تقترح الدراسة وكيلًا محادثيًا متعدد الوسائط يدمج بين القدرات الصوتية والبصرية، مما يمكّن من الإدراك والتفسير في الوقت الحقيقي للأعمال الفنية. يستخدم هذا الوكيل بنية توليد معزز للاسترجاع (RAG) لتعزيز تفاعل المستخدم من خلال تعزيز نقاشات أعمق وأكثر دقة حول الفن. تتناول الأبحاث سؤالين رئيسيين بشأن تأثير دمج الإدراك البصري على تفاعل المستخدم وطبيعة التفاعلات. تشير النتائج الأولية من دراسة مستخدمين شملت 36 مشاركًا إلى أن الوكيل متعدد الوسائط يحسن بشكل كبير من تفاعل الزوار ويؤدي إلى مواضيع حوارية أكثر تنوعًا وإدراكات أعمق للأعمال الفنية. تهدف الورقة إلى المساهمة في تطوير واجهات الذكاء الاصطناعي الموجهة نحو الإنسان في الإعدادات الثقافية، مع تفاصيل الأقسام اللاحقة حول الأبحاث ذات الصلة، والمنهجية، والنتائج، والاتجاهات المستقبلية.
الطرق
في هذا القسم، يوضح المؤلفون تصميم وتنفيذ وكيل محادثي يعتمد على الصوت يعزز تفاعل المستخدم في معارض الفن من خلال دمج المدخلات البصرية والنصية. تؤكد المنهجية على قدرة النظام على تسهيل التجارب التفاعلية، مما يسمح للمستخدمين بالتفاعل بشكل أعمق مع الفن المعروض.
بالإضافة إلى ذلك، يصف المؤلفون دراسة المستخدم التي أجريت لتقييم فعالية الوكيل المحادثي. تهدف هذه التقييم إلى قياس رضا المستخدم والأثر العام للنظام على تجربة المعرض، مما يوفر رؤى حول فوائده المحتملة ومجالات التحسين.
النتائج
تتناول قسم النتائج دراسة مستخدمين تهدف إلى تقييم آثار دمج الإدراك البصري في الوكلاء المحادثين (CAs) على تفاعل المستخدم، وقابلية الاستخدام، والإدراك العام. تمت الموافقة على الدراسة من قبل لجنة الأخلاقيات في جامعة توينتي (رقم الموافقة 240561)، وشملت 36 مشاركًا من جنسيات مختلفة، بما في ذلك الأمريكية، والتشيكية، والهولندية، والفرنسية، واليونانية، والهندية، والسريلانكية، والفيتنامية. كان جميع المشاركين يتحدثون الإنجليزية بطلاقة ولديهم خبرة سابقة مع معارض الفن أو المتاحف، مما يضمن سياقًا ذا صلة للدراسة. تم تقسيمهم بالتساوي بين مجموعتين: مجموعة الوكيل متعدد الوسائط (MMA) ومجموعة الوكيل ذو المدخل الواحد (SIA).
شمل تصميم الدراسة فحصًا مسبقًا لتأكيد معرفة المشاركين بالروبوتات المحادثة والمساعدين الصوتيين، مما من المحتمل أن يعزز جودة تفاعلهم مع الوكلاء المحادثين. تم الحفاظ على المعايير الأخلاقية بدقة، بما في ذلك الموافقة المستنيرة وخصوصية المشاركين، كما هو موضح في منهجية الدراسة. يتم تقديم الخصائص الديموغرافية للمشاركين في الجدول 1، مما يوفر نظرة شاملة على عينة السكان.
المناقشة
تستعرض قسم المناقشة في ورقة البحث الأدبيات الموجودة حول التجارب الجمالية في المتاحف، ودور التقنيات التفاعلية، وتوصيات التصميم للوكلاء المحادثين (CAs) الهادفة إلى تعزيز تفاعل الزوار. تؤكد على أن تقدير الفن هو تجربة شخصية وحسية عميقة، وغالبًا ما يتم تعزيزها من خلال الملاحظة المطولة والتفاعل مع الأعمال الفنية. ومع ذلك، تعتمد الوكلاء المحادثون الحاليون بشكل أساسي على التفاعلات الثابتة وتفتقر إلى القدرة على تفسير العناصر البصرية للفن، مما يحد من فعاليتها في تعزيز الروابط المعنوية بين الزوار والأعمال الفنية. يبرز هذا الفجوة الحاجة إلى الوكلاء المحادثين الذين يدمجون قدرات الإدراك البصري لتعزيز تجربة الزائر.
تستكشف الورقة أيضًا تطبيق التقنيات التفاعلية، وخاصة الوكلاء المحادثين، في المتاحف، مشيرة إلى أن الأنظمة الغامرة والمعتمدة على الحوار يمكن أن تحسن بشكل كبير من تفاعل الزوار. أظهرت الدراسات السابقة أن الوكلاء المحادثين يمكن أن يسهلوا التعلم التفاعلي ويقدموا معلومات ذات صلة بالسياق، ومع ذلك، فإن العديد من الأنظمة الحالية لا تستفيد من البيانات البصرية، والتي تعتبر ضرورية لتفسير الفن. يقترح المؤلفون وكيلًا محادثيًا متعدد الوسائط يجمع بين التفاعل الصوتي والإدراك البصري، بهدف خلق تجربة أكثر ديناميكية وشخصية لزوار المتحف. تستند هذه المقاربة المبتكرة إلى مبادئ تصميم راسخة وتهدف إلى معالجة قيود الأنظمة الحالية من خلال دمج القدرات البصرية جنبًا إلى جنب مع الوظائف المحادثة، مما يعزز في النهاية عمق تفاعل الزوار مع الفن.
القيود
تقدم الدراسة الحالية حول الوكيل المحادثي (CA) عدة قيود تقنية تؤثر على فعاليتها. بشكل أساسي، يعتمد تركيز النظام على أوصاف الأعمال الفنية على التجربة والخطأ لتطوير المطالبات، مما يفتقر إلى نهج هندسي منهجي. سيكون من التحسينات الكبيرة تنفيذ آلية كشف تلقائية للعمل الفني المحدد الذي يتم ملاحظته، مما سيبسط تفاعلات المستخدم من خلال إزالة الحاجة إلى تقديم أسماء أو أوصاف الأعمال الفنية. تشمل التحديات الإضافية تباين المحتوى، وزمن الاستجابة، وانقطاعات المستخدم، والحفاظ على اتصال مستقر، وكلها تعيق التفاعلات السلسة. يجب أن تهدف الأبحاث المستقبلية إلى جمع مجموعة بيانات أكبر من نصوص المحادثات وإجراء تحليلات دلالية لتحديد أنماط الاستجابة، مما قد يؤدي إلى مطالبات أكثر تخصيصًا وتحسين تفاعل المستخدم.
علاوة على ذلك، فإن مقاييس التقييم المستخدمة في دراسة المستخدم لها قيود، لا سيما استبعاد التجسيد من استبيان Godspeed. يحد هذا الاستبعاد من نطاق التقييم، حيث يمكن أن يؤثر التجسيد بشكل كبير على إدراك المستخدم وجودة التفاعل في الأنظمة المحادثة. ستتناول الدراسات المستقبلية هذا من خلال دمج التجسيد لضمان تقييم أكثر شمولاً. بينما تلتقط المقاييس الحالية جوانب أساسية من قابلية الاستخدام والتفاعل، سيكون توسيع إطار التقييم ليشمل مقاييس رضا المستخدم على المدى الطويل ونتائج التعلم أمرًا حاسمًا لتقدم الوكيل المحادثي في التكرارات اللاحقة.
DOI: https://doi.org/10.1145/3708359.3712145
Publication Date: 2025-03-19
Author(s): Hoang Phuoc Ho et al.
Primary Topic: Social Robot Interaction and HRI
Overview
This paper explores the integration of visual perception into conversational agents (CAs) within art exhibitions to enhance visitor engagement and understanding of artworks. While traditional voice interactions can provide contextual information, establishing a deeper personal connection with art remains challenging. The authors present a voice-based CA augmented with visual capabilities through a multimodal large language model (MLLM), enabling real-time perception, interpretation, and discussion of artworks. The system employs a simplified Retrieval-Augmented Generation (RAG) architecture to process voice inputs, retrieve relevant information from a knowledge graph, and generate conversational responses, which are then vocalized.
A user study involving 36 participants compared the enhanced system with a baseline lacking visual input. Results indicated that the visually enhanced CA significantly improved visitor engagement and perception, facilitating a broader range of conversational topics and deeper discussions related to the artworks. The findings suggest that integrating visual capabilities allows for richer, contextually relevant interactions, ultimately fostering more meaningful engagement with art. The research highlights the potential of multimodal CAs to transform cultural experiences, improve accessibility for visually impaired visitors, and address challenges related to biases and reliability in LLM-based systems, thereby promoting responsible, human-centered AI interfaces in cultural institutions.
Introduction
The introduction of the research paper emphasizes the significance of art exhibitions as platforms for cultural and educational exchange, highlighting the role of audience experiences in shaping the recognition of artists and the messages conveyed through artworks. It notes that interactive museum experiences can enhance visitor engagement, particularly through the integration of technology, such as Conversational Agents (CAs), which facilitate natural dialogue and provide contextual information about artworks. However, traditional voice-based CAs face limitations in visually rich environments like museums, as they cannot perceive or interpret visual elements crucial for art appreciation.
The study proposes a multimodal conversational agent that incorporates both voice and visual capabilities, enabling real-time perception and interpretation of artworks. This agent utilizes a Retrieval-Augmented Generation (RAG) architecture to enhance user engagement by fostering deeper, more nuanced discussions about art. The research addresses two key questions regarding the impact of visual perception integration on user engagement and the nature of interactions. Preliminary findings from a user study with 36 participants indicate that the multimodal agent significantly improves visitor engagement and leads to more diverse conversational topics and deeper perceptions of artworks. The paper aims to contribute to the development of human-centered AI interfaces in cultural settings, with subsequent sections detailing relevant research, methodology, results, and future directions.
Methods
In this section, the authors detail the design and implementation of a voice-based conversational agent that enhances user engagement in art exhibitions by integrating visual and textual inputs. The methodology emphasizes the system’s capability to facilitate interactive experiences, allowing users to engage more deeply with the exhibited art.
Additionally, the authors describe the user study conducted to assess the effectiveness of the conversational agent. This evaluation aims to measure user satisfaction and the overall impact of the system on the exhibition experience, providing insights into its potential benefits and areas for improvement.
Results
The results section details a user study aimed at assessing the effects of incorporating visual perception into conversational agents (CAs) on user engagement, usability, and overall perception. The study, approved by the Ethics Committee at the University of Twente (approval number 240561), involved 36 participants from various nationalities, including American, Czech, Dutch, French, Greek, Indian, Sri Lankan, and Vietnamese. All participants were fluent in English and had prior experience with art exhibitions or museums, ensuring a relevant context for the study. They were evenly split between two groups: the Multi-Modal Agent (MMA) group and the Single-Input Agent (SIA).
The study’s design included pre-screening to confirm participants’ familiarity with chatbots and voice assistants, which likely enhanced their interaction quality with the CAs. Ethical standards were strictly maintained, including informed consent and participant anonymity, as outlined in the study’s methodology. The demographic characteristics of the participants are presented in Table 1, providing a comprehensive overview of the sample population.
Discussion
The discussion section of the research paper reviews existing literature on aesthetic experiences in museums, the role of interactive technologies, and design recommendations for conversational agents (CAs) aimed at enhancing visitor engagement. It emphasizes that art appreciation is a deeply personal and sensory experience, which is often enriched through prolonged observation and interaction with artworks. Current CAs, however, primarily rely on static interactions and lack the ability to interpret visual elements of art, limiting their effectiveness in fostering meaningful connections between visitors and artworks. This gap highlights the need for CAs that integrate visual perception capabilities to enhance the visitor experience.
The paper further explores the application of interactive technologies, particularly CAs, in museums, noting that immersive and dialogue-based systems can significantly improve visitor engagement. Prior studies have shown that CAs can facilitate interactive learning and provide contextually relevant information, yet many existing systems do not leverage visual data, which is crucial for art interpretation. The authors propose a multimodal CA that combines voice interaction with visual perception, aiming to create a more dynamic and personalized experience for museum visitors. This innovative approach is grounded in established design principles and aims to address the limitations of current systems by integrating visual capabilities alongside conversational functionalities, ultimately enhancing the depth of visitor engagement with art.
Limitations
The current study on the conversational agent (CA) presents several technical limitations that impact its effectiveness. Primarily, the system’s focus on artwork descriptions relies on trial-and-error for prompt development, lacking a systematic engineering approach. A significant enhancement would involve implementing an automatic detection mechanism for the specific artwork being observed, which would streamline user interactions by removing the need for users to provide artwork names or descriptions. Additional challenges include variability in content, response latency, user interruptions, and maintaining stable connectivity, all of which hinder seamless interactions. Future research should aim to collect a larger dataset of conversation transcripts and perform semantic analyses to identify response patterns, which could lead to more tailored prompts and improved user engagement.
Moreover, the evaluation metrics employed in the user study have limitations, notably the exclusion of anthropomorphism from the Godspeed Questionnaire. This omission restricts the evaluation’s scope, as anthropomorphism can significantly affect user perception and interaction quality in conversational systems. Future studies will address this by incorporating anthropomorphism to ensure a more comprehensive assessment. While the current metrics capture essential aspects of usability and engagement, expanding the evaluation framework to include measures of long-term user satisfaction and learning outcomes will be crucial for the advancement of the CA in subsequent iterations.
