iTrace: تصور التركيز القائم على النقر على جهاز Apple Vision Pro
iTrace: Click‑Based Gaze Visualization on the Apple Vision Pro

المجلة: Human-Centric Intelligent Systems
DOI: https://doi.org/10.1007/s44230-026-00143-8
تاريخ النشر: 2026-04-06
المؤلف: Esra Mehmedova وآخرون
الموضوع الرئيسي: تتبع النظر والتكنولوجيا المساعدة

نظرة عامة

تقدم هذه الدراسة iTrace، وهو تطبيق مبتكر مصمم لاستخراج بيانات النظر من Apple Vision Pro، متجاوزًا القيود المتعلقة بالخصوصية التي تحد من الوصول المباشر إلى معلومات تتبع العين المستمرة. يستخدم iTrace تقنيات استخراج النظر القائمة على النقر اليدوي والآلي، بما في ذلك إيماءات القرص والتحكم في مدة النظر، ضمن بنية عميل-خادم. يلتقط هذا النظام إحداثيات النظر ويحولها إلى خرائط حرارية ديناميكية، مما يسهل تحليل أنماط الانتباه الفردية والجماعية أثناء مشاهدة الفيديو والتنقل المكاني. أظهرت دراسة مستخدمين مع 20 مشاركًا أن وحدة التحكم 8BitDo تفوقت بشكل كبير على التحكم في مدة النظر في معدلات جمع البيانات (14.22 نقرة/ثانية مقابل 0.45 نقرة/ثانية)، مما أدى إلى تصورات خرائط حرارية أكثر كثافة ومعلوماتية.

تكشف النتائج عن أنماط انتباه مميزة، مثل الانخراط المركز أثناء مقاطع الفيديو التعليمية وسلوكيات المسح الأوسع أثناء مهام حل المشكلات، مع الحفاظ على دقة نظر تبلغ 91%. على الرغم من القيود المفروضة من قبل سياسات الخصوصية لشركة Apple، يظهر iTrace وعدًا لتطبيقات متنوعة، بما في ذلك الانخراط التعليمي، وتقييم تصميم البيئة، وتحليل التسويق، والتقييم المعرفي السريري. تضع هذه الدراسة الأساس لدراسات تتبع العين المستقبلية على Apple Vision Pro، داعيةً لاستخدام iTrace بشكل أساسي في السياقات البحثية.

مقدمة

تناقش مقدمة هذه الورقة البحثية أهمية تتبع العين كطريقة لتسجيل حركات النظر، والتي يمكن أن توفر رؤى حول انتباه المستخدم والعمليات المعرفية. يُعزى تزايد شعبية تتبع العين إلى التقدم في تكنولوجيا التتبع، لا سيما ظهور الأجهزة القابلة للارتداء بأسعار معقولة التي تسهل جمع البيانات في البيئات الواقعية. يمثل Apple Vision Pro، وهو سماعة واقع مختلط مزودة بكاميرات تحت الحمراء، مثالًا على هذا الاتجاه، حيث يقدم قدرات تتبع العين التي تنافس تلك الخاصة بأجهزة الواقع الافتراضي المتخصصة. ومع ذلك، تحد القيود المتعلقة بالخصوصية من وصول المطورين إلى بيانات النظر الخام، مما يطرح تحديات للبحث.

لمعالجة هذه القيود، يقترح المؤلفون نهجًا جديدًا لجمع وتصوير بيانات النظر باستخدام طريقة قائمة على النقر على Apple Vision Pro. يقدمون تطبيق iTrace، الذي يستخدم تقنيات نقر متنوعة – مثل إيماءات القرص والتحكم في مدة النظر – لاستخراج بيانات تتبع العين بشكل فعال. ينتج النظام خرائط حرارية ديناميكية لتصوير أنماط انتباه المستخدمين بمرور الوقت، مما يسهل كل من التحليل الفردي والجماعي لسلوك النظر. يعزز هذا العمل الأدوات المتاحة لتحليل النظر في بيئات الواقع المختلط، مما يساهم في المجال الأوسع لبحوث تتبع العين. يتم توفير كود التطبيق علنًا على GitHub، مما يعزز المزيد من الاستكشاف والتطوير في هذا المجال.

طرق البحث

في هذه الدراسة، طور المؤلفون نظامًا قائمًا على النقر لالتقاط وتصوير بيانات النظر بشكل فعال على Vision Pro، متجاوزين قيود المنصة المتعلقة بالوصول المباشر إلى بيانات النظر. تضمنت المنهجية إجراء اختبارات المعايرة وتوليد خرائط حرارية لتقييم طرق التفاعل المختلفة، وبالتالي تحليل أنماط الانتباه في كل من السياقات الفيديو والواقعية.

تسلط الدراسة الضوء على المساومات المرتبطة بطرق النقر المختلفة لجمع بيانات النظر. قد يؤدي القرص بالأصابع إلى تعب المستخدم أثناء الاستخدام المطول، بينما يتطلب استخدام وحدة تحكم الألعاب من المستخدمين تذكر الحفاظ على ضغط الزر. بدلاً من ذلك، تقلل طريقة التحكم في مدة النظر من تعب المستخدم ولكنها تؤدي إلى معدل نقر أقل وتقدم مؤشرًا بصريًا عند النقر، مما قد يشتت انتباه بعض المستخدمين. تؤكد هذه النتائج على أهمية اختيار طرق التفاعل المناسبة لتحسين تجربة المستخدم ودقة البيانات في تطبيقات تتبع النظر.

النتائج

تكشف نتائج دراسة المستخدمين عن رؤى مهمة حول دقة المعايرة، ومعدلات جمع البيانات القائمة على النقر، والإخراج البصري للخرائط الحرارية المولدة. تُظهر التحليل المقارن بين التحكم في مدة النظر وتفاعلات وحدة التحكم في الألعاب اختلافات واضحة في تأثيرها على كثافة ودقة تصورات النظر. تشير هذه النتائج إلى أن اختيار طريقة التفاعل يلعب دورًا حاسمًا في تعزيز فعالية تقنيات جمع وتصوير بيانات النظر.

المناقشة

تسلط قسم المناقشة في الورقة البحثية الضوء على مجموعة متنوعة من الأجهزة المستخدمة في تتبع العين، مع التأكيد على التقدم في التكنولوجيا الذي يعزز الوصول والدقة في أبحاث النظر. أشار كادوك وآخرون إلى أن الأنظمة المعتمدة على كاميرات الويب، على الرغم من كونها مريحة، تفتقر إلى دقة الأجهزة المتخصصة في المختبر مثل EyeLink 100. بالمقابل، توفر نظارات تتبع العين، مثل تلك من Pupil Labs وTobii، التنقل ودقة محسنة في البيئات الواقعية، على الرغم من أنها تواجه تحديات في رسم إحداثيات النظر ثنائية الأبعاد إلى بيئات ثلاثية الأبعاد. أظهرت التطورات الأخيرة في شاشات العرض المثبتة على الرأس (HMDs)، لا سيما Apple Vision Pro، نتائج واعدة في دقة تتبع النظر، متجاوزة النظارات التقليدية، مما يفتح آفاق جديدة لتحليل النظر في كل من السياقات الافتراضية والواقعية.

يناقش القسم أيضًا تقنيات التصوير المختلفة لبيانات النظر، كما استعرضها بلاسشيك وآخرون، والتي تشمل الخرائط الحرارية، وخرائط الانتباه، وتصوير مسارات المسح. يمثل GazeRecorder تتبع العين القائم على الويب، حيث يولد مقاطع فيديو خرائط حرارية ديناميكية ولكنه يفتقر إلى الوصول إلى بيانات النظر الخام. اقترح غنانراج وآخرون نهجًا قائمًا على التعلم العميق لاستخراج نقاط النظر من هذه الفيديوهات، مما يبرز أهمية البيانات الخام للتحليل الشامل. تتناول الورقة أيضًا تنفيذ نظام جديد لتتبع العين باستخدام Apple Vision Pro، الذي يلتقط بيانات النظر ويصورها في بيئات الواقع المختلط. يستخدم هذا النظام بنية عميل-خادم لمعالجة البيانات والتصوير، مما يمكّن من تحليل مفصل لأنماط نظر المستخدم من خلال خرائط حرارية ديناميكية وتتبع العين المكاني، مما يساهم في فهم الانتباه البصري في البيئات الغامرة.

القيود

تكون قدرات تتبع العين في Apple Vision Pro مقيدة بشكل كبير بواسطة اللوائح المتعلقة بالخصوصية التي تمنع المطورين من الوصول إلى بيانات النظر الخام بشكل مستمر. يجب على المستخدمين التفاعل بنشاط مع الجهاز – عادةً من خلال النظر إلى كائن وتنفيذ نقرة بإصبع – لكي تتلقى التطبيقات معلومات النظر. تعيق هذه القيود الإمكانية لإجراء تحليل سلوكي شامل، حيث يعتمد البحث التقليدي في تتبع العين على معدلات أخذ عينات عالية التردد. وبالتالي، اعتمدت الدراسة طريقة استخراج نظر قائمة على النقر، والتي تستخدم قدرة الجهاز على توفير إحداثيات النظر أثناء تفاعلات المستخدم. على الرغم من أن هذا النهج يحد من تكرار جمع البيانات مقارنةً بالتتبع المستمر، إلا أنه لا يزال الحل الأكثر قابلية للتطبيق في إطار الخصوصية الحالي، مما يسمح بالحصول على رؤى ذات مغزى حول سلوك النظر على الرغم من القيود الكامنة.

Journal: Human-Centric Intelligent Systems
DOI: https://doi.org/10.1007/s44230-026-00143-8
Publication Date: 2026-04-06
Author(s): Esra Mehmedova et al.
Primary Topic: Gaze Tracking and Assistive Technology

Overview

The research introduces iTrace, an innovative application designed to extract gaze data from the Apple Vision Pro, circumventing privacy restrictions that limit direct access to continuous eye-tracking information. iTrace employs both manual and automatic click-based gaze extraction techniques, including pinch gestures and dwell control, within a client-server architecture. This system captures gaze coordinates and converts them into dynamic heatmaps, facilitating the analysis of individual and collective attention patterns during video viewing and spatial navigation. A user study with 20 participants demonstrated that the 8BitDo controller significantly outperformed dwell control in data collection rates (14.22 clicks/s vs. 0.45 clicks/s), resulting in denser and more informative heatmap visualizations.

The findings reveal distinct attention patterns, such as focused engagement during lecture videos and broader scanning behaviors during problem-solving tasks, while maintaining a gaze precision of 91%. Despite the limitations imposed by Apple’s privacy policies, iTrace shows promise for diverse applications, including educational engagement, environmental design assessment, marketing analysis, and clinical cognitive evaluation. This research lays the groundwork for future eye-tracking studies on the Apple Vision Pro, advocating for the use of iTrace primarily in research contexts.

Introduction

The introduction of this research paper discusses the significance of eye tracking as a method for recording gaze movements, which can yield insights into user attention and cognitive processes. The growing popularity of eye tracking is attributed to advancements in tracking technology, particularly the emergence of affordable wearable devices that facilitate data collection in real-world settings. The Apple Vision Pro, a mixed reality headset equipped with infrared cameras, exemplifies this trend, offering eye-tracking capabilities that rival those of specialized VR devices. However, privacy restrictions limit developers’ access to raw gaze data, posing challenges for research.

To address these limitations, the authors propose a novel approach for collecting and visualizing gaze data using a click-based method on the Apple Vision Pro. They introduce the iTrace application, which employs various clicking techniques—such as pinch gestures and dwell control—to extract eye-tracking data effectively. The system generates dynamic heatmaps to visualize users’ attention patterns over time, facilitating both individual and collective analysis of gaze behavior. This work enhances the tools available for gaze analysis in mixed reality environments, contributing to the broader field of eye tracking research. The application code is made publicly available on GitHub, promoting further exploration and development in this area.

Methods

In this study, the authors developed a click-based system to effectively capture and visualize gaze data on the Vision Pro, navigating the platform’s limitations regarding direct gaze data access. The methodology involved conducting calibration tests and generating heatmaps to evaluate various interaction methods, thereby analyzing attention patterns in both video and real-world contexts.

The research highlights the trade-offs associated with different clicking methods for gaze data collection. Pinching with fingers may lead to user fatigue during extended use, while utilizing a gaming controller requires users to remember to maintain button pressure. Alternatively, the dwell control method mitigates user fatigue but results in a lower click rate and introduces a visual indicator upon clicking, which may distract some users. These findings underscore the importance of selecting appropriate interaction methods to optimize user experience and data accuracy in gaze tracking applications.

Results

The results of the user study reveal significant insights into calibration precision, click-based data collection rates, and the visual output of generated heat maps. A comparative analysis between dwell control and gaming controller interactions demonstrates distinct differences in their impact on the density and accuracy of gaze visualizations. These findings suggest that the choice of interaction method plays a crucial role in enhancing the effectiveness of gaze data collection and visualization techniques.

Discussion

The discussion section of the research paper highlights the diverse range of devices utilized for eye tracking, emphasizing the advancements in technology that enhance accessibility and accuracy in gaze research. Kaduk et al. noted that webcam-based systems, while convenient, lack the precision of specialized laboratory devices like the EyeLink 100. In contrast, eye-tracking glasses, such as those from Pupil Labs and Tobii, offer mobility and improved accuracy in real-world settings, although they face challenges in mapping 2D gaze coordinates to 3D environments. Recent developments in head-mounted displays (HMDs), particularly the Apple Vision Pro, have shown promising results in gaze tracking accuracy, surpassing traditional glasses, thus opening new avenues for gaze analysis in both virtual and real-world contexts.

The section also discusses various visualization techniques for gaze data, as reviewed by Blascheck et al., which include heatmaps, attention maps, and scanpath visualizations. GazeRecorder exemplifies web-based eye tracking, generating dynamic heatmap videos but lacking access to raw gaze data. Gnanaraj et al. proposed a deep learning approach to extract gaze points from these videos, underscoring the importance of raw data for comprehensive analysis. The paper further details the implementation of a novel eye-tracking system using the Apple Vision Pro, which captures gaze data and visualizes it in mixed reality environments. This system employs a client-server architecture for data processing and visualization, enabling detailed analysis of user gaze patterns through dynamic heatmaps and spatial eye tracking, thereby contributing to the understanding of visual attention in immersive settings.

Limitations

The Apple Vision Pro’s eye-tracking capabilities are significantly constrained by privacy regulations that prevent developers from accessing raw gaze data continuously. Users must actively engage with the device—typically by looking at an object and executing a finger tap—for applications to receive gaze information. This restriction hampers the potential for comprehensive behavioral analysis, as traditional eye-tracking research relies on high-frequency gaze sampling rates. Consequently, the research adopted a click-based gaze extraction method, which utilizes the device’s ability to provide gaze coordinates during user interactions. Although this approach limits data collection frequency compared to continuous tracking, it remains the most feasible solution under the current privacy framework, allowing for meaningful insights into gaze behavior despite inherent limitations.