DOI: https://doi.org/10.1145/3772318.3791270
تاريخ النشر: 2026-04-13
المؤلف: Yaxiong Lei وآخرون
الموضوع الرئيسي: تتبع النظر والتكنولوجيا المساعدة
نظرة عامة
تستعرض هذه الورقة البحثية منهجية من مرحلتين تهدف إلى تطوير مجموعة أوامر تعتمد على إيماءات النظر تركز على المستخدم لتقنية تتبع العين في الأجهزة المحمولة. تضمنت المرحلة الأولى ورشة تصميم مشترك مع 20 مشاركًا غير متخصص، مما أدى إلى توليد 102 مفهوم أولي، تم تنقيحه إلى 59 إيماءة فريدة من خلال إزالة التكرار بين المجموعات. في المرحلة الثانية، تم إجراء عملية مراجعة نظراء خبراء منظمة، مما أسفر عن توافق حول 32 إيماءة تم التحقق منها بعد تقييمات مستقلة، وتحليل موضوعي، وتطوير دليل رمزي. تشمل المخرجات النهائية مجموعة الإيماءات، ومعايير التقييم، ومبادئ التصميم.
تسلط الدراسة الضوء على التعاون الفعال بين المستخدمين غير المتخصصين والخبراء في المجال، كاشفة أن غير المتخصصين يمكنهم المساهمة بشكل كبير في تصميم التفاعل من خلال إنشاء إيماءات بديهية مدفوعة بالاستعارات وتأسيس قواعد تركيبية للتفاعل (مثل، تفعيل ثم تأكيد). تعالج هذه المقاربة مشكلة لمسة ميداس، مما يضمن القصدية في استخدام الإيماءات. كما يضمن التقييم من قبل الخبراء أن الإيماءات المختارة سليمة من الناحية الهندسية ومناسبة للتعرف الموثوق به من قبل الآلات. تقدم الأبحاث ثلاث مساهمات رئيسية: توفر مجموعة إيماءات مستمدة تجريبيًا محسّنة للاستخدام المحمول، وتؤسس التركيبية كمبدأ تصميم أساسي، وتستخلص مبادئ تصميم قابلة للتنفيذ تربط بين حدس المستخدم والتنفيذ العملي. يتم تشجيع الأبحاث المستقبلية على تنفيذ مجموعة الإيماءات هذه في أنظمة العالم الحقيقي لتقييم فعاليتها عبر مجموعات مستخدمين متنوعة.
مقدمة
تسلط مقدمة الورقة البحثية الضوء على التطور السريع لتقنية تتبع العين، التي انتقلت من إعدادات المختبر المتخصصة إلى الأجهزة الاستهلاكية السائدة، مثل Vision Pro من Apple وQuest Pro من Meta. مع إدخال إدخال النظر في iOS 18، من المتوقع أن يتضاعف سوق تتبع العين أكثر من الضعف بحلول عام 2030، مدفوعًا بتقدم كبير في خوارزميات تقدير النظر وتقنيات التعلم الآلي. أظهرت هذه التطورات وعدًا، خاصة للمستخدمين ذوي الإعاقات الحركية وللتفاعلات بدون استخدام اليدين في بيئات الواقع الافتراضي والمعزز. ومع ذلك، على الرغم من هذه التقدمات التقنية، لا تزال قابلية استخدام إيماءات النظر تمثل تحديًا، حيث غالبًا ما تفشل قواميس الإيماءات الحالية في عكس تفضيلات ونماذج التفكير لدى المستخدمين النهائيين.
لمعالجة هذه الفجوة، تهدف الدراسة إلى إنشاء مفردات إيماءات نظر محددة من قبل المستخدم من خلال نهج بحثي من مرحلتين. في المرحلة الأولى، تولدت ورش التصميم المشترك مع 20 مشاركًا غير متخصص 102 مفهوم فريد لإيماءات النظر، والتي تم تنقيحها إلى مجموعة نهائية من 59 إيماءة. تضمنت المرحلة الثانية تقييم الخبراء، مما أسفر عن مجموعة مختارة من 32 إيماءة تعتبر قابلة للتطبيق ومريحة. تقدم الدراسة أيضًا مفهوم “قواعد النظر التركيبية”، التي تحدد نمط تفاعل التفعيل ثم التأكيد، مما يوفر إطار عمل منظم للأوامر المعتمدة على النظر. بشكل عام، تسهم الأبحاث في رؤى قيمة حول تفاعلات النظر المحددة من قبل المستخدم وتقدم مبادئ تصميم قابلة للتنفيذ لتطوير واجهات الهواتف المحمولة المعتمدة على النظر من الجيل التالي.
طرق البحث
في هذه الدراسة، استخدم المؤلفون منهجية تصميم مشترك من مرحلتين لاستكشاف تصميم تفاعل النظر. تضمنت المرحلة الأولى تجنيد 20 مشاركًا من خلال وسائل التواصل الاجتماعي وقوائم البريد الجامعية، الذين تم فحصهم بناءً على العمر وإجادة اللغة الإنجليزية. شارك هؤلاء المشاركون في ورش عمل استمرت في المتوسط 66.3 دقيقة، حيث قاموا بتوليد مفاهيم إيماءات مبتكرة لتفاعل النظر، مثل استخدام “X” للدلالة على الإغلاق وإشارات SOS المعتمدة على الوميض. أظهرت النتائج أن المستخدمين يمكنهم بشكل فعال ابتكار تفاعلات ذات معنى مع الحد الأدنى من الإرشادات، مما يشير إلى أن الفجوة المعرفية المدركة في تصميم تفاعلات النظر أضيق مما كان يُعتقد سابقًا.
في المرحلة الثانية، تم تجنيد لجنة من أربعة خبراء في تفاعل النظر لتقييم الإيماءات التي أنشأها المستخدمون. قدم هؤلاء الخبراء، الذين تم اختيارهم بناءً على تاريخ نشرهم وخبرتهم في أبحاث المستخدمين، ملاحظات نقدية أدت إلى تنقيح المفاهيم الأولية مع ضمان الجدوى التقنية والراحة. أبرزت المقاربة ذات المرحلتين التآزر بين إبداع المستخدم ونقد الخبراء، مما يظهر أن نموذج التعاون يمكن أن يقلل الحواجز أمام الدخول في تصميم تفاعل النظر. لا تعزز هذه العملية الشاملة الابتكار فحسب، بل تهدف أيضًا إلى تحسين إمكانية الوصول لتطبيقات النظر، خاصة للمستخدمين ذوي الإعاقات الحركية.
النتائج
تنقسم نتائج الدراسة إلى مرحلتين: ورش التصميم المشترك وتقييمات الخبراء. في المرحلة الأولى، أنتجت أربع ورش عمل مع مشاركين غير متخصصين مجموعة متنوعة من إيماءات النظر، كاشفة أن المشاركين طوروا نماذج عقلية متطورة للتحكم في النظر تأثرت بقيود الأجهزة المحمولة والاستعارات المألوفة. كما قاموا بإنشاء معدلات عالمية لتعزيز قابلية الاستخدام. في المرحلة الثانية، أدت تقييمات الخبراء إلى دمج إيماءات مشابهة في 32 شكلًا تمثيليًا، حيث حدد الخبراء ثلاثة أهداف رئيسية لإيماءات النظر الناجحة: العوامل البشرية، تصميم التفاعل، والعوامل التقنية والسياقية.
أشارت التحليلات الكمية إلى اتفاق منخفض حول قابلية الاستخدام وقابلية التعلم، واتفاق معتدل حول الجدة بين الخبراء. وُجد تباين ملحوظ بين تفضيلات الخبراء والمشاركين، حيث فضل المشاركون الإيماءات القصيرة والبديهية بينما أعطى الخبراء الأولوية للتميز والتحكم لتقليل الإيجابيات الكاذبة. تسلط الدراسة الضوء على التوتر بين قابلية الاستخدام الفورية والموثوقية على المدى الطويل، مما يشير إلى أن إطار التصميم الفعال يجب أن يدمج الإيماءات المفضلة من قبل المشاركين، والتي تكون صديقة للحركات السريعة، مع الضمانات المعتمدة من قبل الخبراء، مثل قيود التوقيت وقواعد التركيب. يؤدي هذا التركيب إلى أربعة مبادئ أساسية لتصميم إيماءات النظر التي تركز على المستخدم، تهدف إلى إنشاء مفردات تفاعل نظر بديهية وموثوقة وآمنة للتطبيقات العملية.
المناقشة
في مناقشة تفاعل النظر ومفردات الإيماءات، تسلط الورقة الضوء على التحديات المستمرة مثل انحراف المعايرة، والدقة المكانية المحدودة، وعدم اليقين الناتج عن الحركة التي تعيق فعالية تقنيات النقطة والنقر التقليدية. للتغلب على هذه القضايا، طور الباحثون طرق تفاعل نظر بديلة، مصنفة إلى اختيار وقت السكون، وطرق تعتمد على المطاردة، وإيماءات النظر. تعالج كل طريقة قيود النظام الحركي البصري والتحكم الحركي البشري، مع كون إيماءات النظر مفيدة بشكل خاص بسبب اعتمادها على الحركة النسبية، مما يقلل من عدم دقة المعايرة. على الرغم من التقدم، لا تزال قواميس الإيماءات الحالية مدفوعة إلى حد كبير من قبل الخبراء، مما يفتقر إلى مدخلات المستخدم، مما قد يتجاهل الإيماءات البديهية والثقافية ذات الصلة.
تدعو الورقة إلى التصميم التشاركي في استنباط الإيماءات، مشددة على الحاجة إلى إيماءات محددة من قبل المستخدم تعكس التجارب اليومية. باستخدام منهجية من مرحلتين، شارك الدراسة المشاركين غير المتخصصين في ورش تصميم مشترك لتوليد مفردات متنوعة من الإيماءات، تلتها تقييمات الخبراء لتنقيحها إلى مجموعة عملية. لا تعزز هذه المقاربة فقط الصلاحية البيئية، بل تضمن أيضًا أن تكون الإيماءات متجذرة في توقعات المستخدم ومصادق عليها من قبل تدقيق الخبراء. تشير النتائج إلى أن المشاركين فضلوا الإيماءات التي تعكس تفاعلات مادية مألوفة، مع إعطاء الأولوية لقابلية الاستخدام وقابلية التعلم، مما يبرز أهمية دمج ملاحظات المستخدم في تصميم أنظمة تفاعل النظر على منصات الهواتف المحمولة.
القيود
تسلط قيود هذه الدراسة المشتركة الضوء على عدة عوامل قد تؤثر على صلاحية وعمومية النتائج. أولاً، يؤدي الاعتماد على البيانات المبلغ عنها ذاتيًا إلى إدخال احتمال وجود تحيز الرغبة الاجتماعية، على الرغم من الجهود المبذولة لتثليث هذه البيانات مع الملاحظات الملاحظة ورؤى الميسر. قد تكون المعرفة المحدودة للمشاركين بتفاعل النظر قد قيدت عمق مقترحات تصميمهم، وقد يحد العينة المتجانسة—المستمدة أساسًا من المجتمعات الجامعية—من قابلية تطبيق النتائج على مجموعة سكانية أوسع. يجب أن تهدف الأبحاث المستقبلية إلى تضمين مجموعة أكثر تنوعًا من المشاركين، خاصة كبار السن والأفراد ذوي مستويات مختلفة من محو الأمية الرقمية.
بالإضافة إلى ذلك، بينما قدمت مراجعة الخبراء في المرحلة الثانية رؤى قيمة حول جدوى الإيماءات، قد تكون تركيبة اللجنة—المكونة فقط من أكاديميين—قد قيدت وجهات النظر إلى الأطر النظرية بدلاً من التطبيقات العملية. قد تكون الديناميات الجماعية خلال المناقشات قد أثرت أيضًا على التوافق، على الرغم من الجهود المنظمة لتخفيف تحيز الهيمنة. قد يكون تركيز الدراسة على شبكة محددة مسبقًا من 9 نقاط لتصميم الإيماءات المحمولة، بينما يسهل المقارنة، قد قيد استكشاف أشكال الإيماءات الأكثر ابتكارًا. علاوة على ذلك، كانت مقاييس التقييم المستخدمة تعتمد أساسًا على حكم الخبراء وتقييمات ورش العمل، مما يفتقر إلى مقاييس أداء شاملة مثل معدلات الأخطاء على مستوى الأوامر أو قابلية الاستخدام على المدى الطويل. وبالتالي، يجب أن تُعتبر قواميس الإيماءات المقترحة كمرشحين أوليين للتصميم بدلاً من معايير نهائية، مع توصية الأبحاث المستقبلية لاستكشاف أطر أكثر مرونة ونماذج أولية في الوقت الحقيقي عبر سياقات ومجموعات مستخدمين متنوعة.
DOI: https://doi.org/10.1145/3772318.3791270
Publication Date: 2026-04-13
Author(s): Yaxiong Lei et al.
Primary Topic: Gaze Tracking and Assistive Technology
Overview
This research paper outlines a two-phase methodology aimed at developing a user-centered gaze gesture command set for eye-tracking technology in mobile devices. Phase 1 involved a co-design workshop with 20 non-expert participants, leading to the generation of 102 initial concepts, which were refined to 59 unique gestures through cross-group deduplication. In Phase 2, a structured expert peer-review process was conducted, resulting in a consensus on 32 validated gestures after independent evaluations, thematic analysis, and codebook development. The final output includes the gesture set, evaluation criteria, and design principles.
The study highlights the effective collaboration between non-expert users and domain experts, revealing that non-specialists can contribute significantly to interaction design by creating intuitive, metaphor-driven gestures and establishing a compositional grammar of interaction (e.g., activate-then-confirm). This approach addresses the Midas Touch problem, ensuring intentionality in gesture use. The expert evaluation further ensures that the selected gestures are ergonomically sound and suitable for reliable machine recognition. The research makes three key contributions: it provides an empirically derived gesture set optimized for mobile use, formalizes compositionality as a foundational design principle, and distills actionable design principles that connect user intuition with practical implementation. Future research is encouraged to implement this gesture set in real-world systems to assess its effectiveness across diverse user populations.
Introduction
The introduction of the research paper highlights the rapid evolution of eye-tracking technology, transitioning from specialized laboratory settings to mainstream consumer devices, such as Apple’s Vision Pro and Meta’s Quest Pro. With the introduction of gaze input in iOS 18, the eye-tracking market is projected to more than double by 2030, driven by significant advancements in gaze estimation algorithms and machine learning techniques. These developments have shown promise, particularly for users with motor impairments and for hands-free interactions in virtual and augmented reality environments. However, despite these technical advancements, the usability of gaze gestures remains a challenge, as existing gesture vocabularies often fail to reflect the preferences and mental models of end-users.
To address this gap, the study aims to establish a user-defined vocabulary of gaze gestures through a two-phase research approach. In Phase 1, co-design workshops with 20 non-expert participants generated 102 unique gaze gesture concepts, which were refined to a final set of 59 gestures. Phase 2 involved expert evaluation, resulting in a curated set of 32 gestures that are deemed feasible and ergonomic. The study also introduces the concept of a “compositional gaze grammar,” which delineates an activation-then-confirmation interaction pattern, providing a structured framework for gaze-based commands. Overall, the research contributes valuable insights into user-defined gaze interactions and offers actionable design principles for developing next-generation gaze-enabled mobile interfaces.
Methods
In this study, the authors employed a two-phase co-design methodology to explore gaze interaction design. Phase 1 involved recruiting 20 participants through social media and university mailing lists, who were screened based on age and English proficiency. These participants engaged in workshops lasting an average of 66.3 minutes, during which they generated innovative gesture concepts for gaze interaction, such as using an “X” to signify closing and blink-based SOS signals. The findings indicated that users could effectively ideate meaningful interactions with minimal guidance, suggesting that the perceived knowledge gap in designing gaze interactions is narrower than previously thought.
In Phase 2, a panel of four experts in gaze interaction was recruited to evaluate the user-generated gestures. These experts, selected based on their publication history and experience in user research, provided critical feedback that refined the initial concepts while ensuring technical feasibility and comfort. The two-phase approach highlighted the synergy between user creativity and expert critique, demonstrating that a collaborative model can lower barriers to entry in gaze interaction design. This inclusive process not only fosters innovation but also aims to enhance the accessibility of gaze-enabled applications, particularly for users with motor impairments.
Results
The results from the study are divided into two phases: co-design workshops and expert evaluations. In Phase 1, four workshops with non-expert participants generated a diverse set of gaze gestures, revealing that participants developed sophisticated mental models for gaze control influenced by mobile device constraints and familiar metaphors. They also created universal modifiers to enhance usability. In Phase 2, expert evaluations led to the consolidation of similar gestures into 32 representative forms, with experts identifying three key objectives for successful gaze gestures: Human Factors, Interaction Design, and Technical & Contextual Factors.
Quantitative analysis indicated low agreement on Usability and Learnability, and moderate agreement on Novelty among experts. A notable divergence was found between expert and participant preferences, with participants favoring short, intuitive gestures while experts prioritized distinctiveness and control to minimize false positives. The study highlights the tension between immediate usability and long-term reliability, suggesting that an effective design framework should integrate participant-preferred, saccade-friendly gestures with expert-endorsed safeguards, such as timing constraints and compositional grammar. This synthesis leads to four foundational principles for user-centric gaze gesture design, aimed at creating intuitive, reliable, and safe gaze interaction vocabularies for practical applications.
Discussion
In the discussion of gaze interaction and gesture vocabularies, the paper highlights persistent challenges such as calibration drift, limited spatial precision, and motion-induced uncertainties that hinder the effectiveness of traditional point-and-click techniques. To overcome these issues, researchers have developed alternative gaze interaction methods, categorized into dwell-time selection, pursuit-based methods, and gaze gestures. Each method addresses the constraints of the oculomotor system and human motor control, with gaze gestures particularly advantageous due to their reliance on relative motion, which mitigates calibration inaccuracies. Despite advancements, existing gesture vocabularies remain largely expert-driven, lacking user input, which may overlook intuitive and culturally relevant gestures.
The paper advocates for participatory design in gesture elicitation, emphasizing the need for user-defined gestures that reflect everyday experiences. Utilizing a two-phase methodology, the study engaged non-expert participants in co-design workshops to generate a diverse vocabulary of gestures, followed by expert evaluation to refine these into a practical set. This approach not only enhances ecological validity but also ensures that the gestures are grounded in user expectations and validated by expert scrutiny. The findings indicate that participants favored gestures that mirrored familiar physical interactions, prioritizing usability and learnability, which underscores the importance of integrating user feedback in the design of gaze interaction systems for mobile platforms.
Limitations
The limitations of this co-design study highlight several factors that may affect the validity and generalizability of the findings. Firstly, the reliance on self-reported data introduces the potential for social desirability bias, despite efforts to triangulate this data with observational notes and facilitator insights. Participants’ limited familiarity with gaze interaction may have restricted the depth of their design proposals, and the homogeneous sample—primarily drawn from university communities—could limit the applicability of results to a broader population. Future research should aim to include a more diverse participant pool, particularly older adults and individuals with varying levels of digital literacy.
Additionally, while expert review in Phase 2 provided valuable insights into gesture feasibility, the panel’s composition—consisting solely of academics—may have constrained perspectives to theoretical frameworks rather than practical applications. Group dynamics during discussions could also have influenced consensus, despite structured efforts to mitigate dominance bias. The study’s focus on a predefined 9-point grid for mobile gesture design, while facilitating comparison, may have limited the exploration of more innovative gesture forms. Furthermore, the evaluation metrics employed were primarily based on expert judgment and workshop ratings, lacking comprehensive performance measures such as command-level error rates or long-term usability. Thus, the proposed gesture vocabularies should be viewed as preliminary candidates for design rather than definitive standards, with future work recommended to explore more flexible frameworks and real-time prototyping across diverse contexts and user groups.
