الشبكات العصبية التلافيفية، والشبكات العصبية المتكررة، والمحولات في التعرف على الحركة البشرية: استعراض ونموذج هجين
CNNs, RNNs and Transformers in human action recognition: a survey and a hybrid model

المجلة: Artificial Intelligence Review، المجلد: 58، العدد: 12
DOI: https://doi.org/10.1007/s10462-025-11388-3
تاريخ النشر: 2025-10-17
المؤلف: Khaled Alomar وآخرون
الموضوع الرئيسي: التعرف على وضع الجسم والحركة

نظرة عامة

تقدم هذه القسم نظرة عامة على التعرف على أفعال الإنسان (HAR)، مع تسليط الضوء على أهميته في مجالات مختلفة مثل التطبيقات الطبية والتعليمية والمراقبة. لقد تأثر تقدم HAR بشكل كبير بتبني الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs)، التي حسنت استخراج وفهم البيانات المعقدة. مؤخرًا، ظهرت المحولات البصرية (ViTs) كبديل قوي، مما يدل على فعاليتها ليس فقط في تحليل الصور ولكن أيضًا في المهام المتعلقة بالفيديو. على الرغم من هذه التقدمات، لا يزال HAR يواجه تحديات، بما في ذلك التباينات في حركة الإنسان، والاحتلالات، والحاجة إلى استخراج ميزات مكانية وزمنية بكفاءة، إلى جانب التوازن بين كفاءة الحساب ودقة التعرف.

تهدف الدراسة إلى تلخيص الأدبيات الموجودة حول CNNs وRNNs وViTs، culminating in the introduction of a novel hybrid model that integrates the spatial strengths of CNNs with the temporal capabilities of ViTs. This hybrid approach seeks to overcome the limitations inherent in using each architecture independently, potentially enhancing the accuracy and efficiency of action recognition tasks. The paper identifies ongoing challenges and opportunities in HAR, particularly the integration of spatial and temporal information from video data. It advocates for further research into optimizing hybrid models and their applications across various domains, laying a foundation for future studies to advance the capabilities of HAR technologies in real-world scenarios.

مقدمة

تتناول مقدمة هذه الورقة البحثية المجال الحرج للتعرف على أفعال الإنسان (HAR)، والذي يتضمن تصنيف أفعال معينة في مقاطع الفيديو، بالإضافة إلى اكتشاف الأفعال وتقسيمها، التي تركز على تحديد الأفعال الفردية داخل محتوى الفيديو. تؤكد الورقة على الدور المهم لنماذج التعلم العميق في التقاط التعقيدات المكانية والزمنية لبيانات الفيديو، مشيرة إلى أن الأبحاث السابقة كانت تركز بشكل أساسي على الشبكات العصبية التلافيفية (CNNs) وطرق التعلم الآلي التقليدية. ومع ذلك، فإن ظهور هياكل المحولات قد بدأ تحولًا جذريًا في منهجيات التعلم العميق، لا سيما بسبب آليات الانتباه الذاتي متعددة الرؤوس التي تعزز جودة التمثيل بينما تقلل من المتطلبات الحسابية.

تحدد الورقة مساهماتها الرئيسية، بما في ذلك مراجعة شاملة لـ CNNs وRNNs وVision Transformers (ViTs)، إلى جانب فحص موسع للأدبيات الموجودة حول HAR. تقترح نموذج هجين جديد يدمج نقاط القوة في CNNs وViTs، مما يظهر أداءً محسناً في مهام HAR المعقدة. بالإضافة إلى ذلك، تناقش الورقة الاتجاهات الناشئة والاتجاهات المستقبلية في تقنيات HAR، مع التأكيد على أهمية النماذج الهجينة لتعزيز قابلية تفسير أنظمة HAR ومرونتها. كما يتم توضيح هيكل الورقة، مما يشير إلى استكشاف شامل للمفاهيم الأساسية، ومراجعة الأعمال ذات الصلة، والنموذج الهجين المقترح، ومناقشة التحديات المستقبلية في هذا المجال.

النتائج

تظهر النتائج من الدراسة حول التعرف على الأفعال باستخدام ثلاثة نماذج متميزة—CNN، ViT-only، ونموذج هجين CNN-ViT—على مجموعة بيانات KTH رؤى مهمة حول أدائها عبر أطوال سياق مختلفة (12، 18، و24 إطارًا). أظهر نموذج CNN انخفاضًا في الدقة مع زيادة طول الإطار، حيث حقق 94.35% لـ 12 إطارًا، و93.91% لـ 18 إطارًا، و93.49% لـ 24 إطارًا. تشير هذه الاتجاهات إلى تحديات في معالجة التسلسلات الأطول، على الأرجح بسبب الإفراط في التكيف أو الصعوبات في الاحتفاظ بالميزات الزمنية. على العكس من ذلك، أظهر نموذج ViT دقة محسنة مع التسلسلات الأطول، حيث سجل 92.44%، و92.82%، و93.69% لأطوال الإطار المعنية، مما يدل على فعاليته في إدارة الديناميات الزمنية من خلال آليات الانتباه الذاتي.

تفوق نموذج CNN-ViT الهجين على كلا النموذجين الفرديين، محققًا معدلات دقة تبلغ 94.12%، و94.56%، و95.78% لـ 12، و18، و24 إطارًا، على التوالي. يجمع هذا النموذج بشكل تآزري بين نقاط القوة في استخراج الميزات المكانية لـ CNNs مع قدرات المعالجة الزمنية لـ ViTs، مما يؤدي إلى أداء متفوق في مهام التعرف على الأفعال. من الجدير بالذكر أن النموذج الهجين حقق دقة مثيرة للإعجاب تبلغ 97.89%، مما يضعه بين النماذج الرائدة ويتجاوز المعايير السابقة في الأدبيات. تؤكد النتائج على إمكانيات الهياكل الهجينة في تعزيز كل من المعالجة المكانية والزمنية في بيانات الفيديو، مما يقترح طرقًا للبحث المستقبلي لتحسين كفاءة النموذج وقابليته للتوسع عبر مجموعات بيانات متنوعة.

المناقشة

تحدد قسم المناقشة في الورقة تطور وتقدم الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs)، culminating in the development of attention-based Transformers. Initially, CNNs were designed for static image processing, excelling in tasks like object recognition and image classification. Key milestones include the Neocognitron, LeNet-5, and AlexNet, which leveraged large datasets and improved computational power to enhance performance. The introduction of architectures such as VGGNet, GoogLeNet, and ResNet further solidified CNNs as foundational tools in deep learning, extending their applications beyond image processing.

As researchers sought to apply CNNs to temporal data, spatio-temporal CNNs emerged, integrating temporal components to analyze dynamic behaviors in video and time-series data. Various approaches, including 3D convolutions and two-stream networks, were developed to effectively capture both spatial and temporal features. The transition from RNNs to Transformers marked a significant shift in handling sequential data, with Transformers utilizing self-attention mechanisms to efficiently process and capture long-range dependencies without the limitations of traditional RNNs. This evolution highlights the importance of attention mechanisms in enhancing model performance across various applications, particularly in natural language processing and machine translation.

Journal: Artificial Intelligence Review, Volume: 58, Issue: 12
DOI: https://doi.org/10.1007/s10462-025-11388-3
Publication Date: 2025-10-17
Author(s): Khaled Alomar et al.
Primary Topic: Human Pose and Action Recognition

Overview

The section provides an overview of human action recognition (HAR), highlighting its significance across various fields such as medical, educational, and surveillance applications. The advancement of HAR has been significantly influenced by the adoption of convolutional neural networks (CNNs) and recurrent neural networks (RNNs), which have improved the extraction and understanding of complex data. Recently, Vision Transformers (ViTs) have emerged as a powerful alternative, demonstrating their effectiveness not only in image analysis but also in video-related tasks. Despite these advancements, HAR continues to face challenges, including variations in human motion, occlusions, and the need for efficient spatio-temporal feature extraction, alongside the trade-off between computational efficiency and recognition accuracy.

The survey aims to synthesize existing literature on CNNs, RNNs, and ViTs, culminating in the introduction of a novel hybrid model that integrates the spatial strengths of CNNs with the temporal capabilities of ViTs. This hybrid approach seeks to overcome the limitations inherent in using each architecture independently, potentially enhancing the accuracy and efficiency of action recognition tasks. The paper identifies ongoing challenges and opportunities in HAR, particularly the integration of spatial and temporal information from video data. It advocates for further research into optimizing hybrid models and their applications across various domains, laying a foundation for future studies to advance the capabilities of HAR technologies in real-world scenarios.

Introduction

The introduction of this research paper addresses the critical area of Human Action Recognition (HAR), which involves classifying specific actions in videos, as well as action detection and segmentation, which focus on localizing individual actions within video content. The paper emphasizes the significant role of deep learning models in capturing the spatial and temporal complexities of video data, noting that previous research has predominantly centered on convolutional neural networks (CNNs) and traditional machine learning approaches. However, the emergence of Transformer architectures has initiated a transformative shift in deep learning methodologies, particularly due to their multi-head self-attention mechanisms that enhance representation quality while reducing computational demands.

The paper outlines its main contributions, including a comprehensive review of CNNs, recurrent neural networks (RNNs), and Vision Transformers (ViTs), alongside an extensive examination of existing literature on HAR. It proposes a novel hybrid model that integrates the strengths of CNNs and ViTs, demonstrating improved performance in complex HAR tasks. Additionally, the paper discusses emerging trends and future directions in HAR technologies, emphasizing the importance of hybrid models for enhancing the interpretability and robustness of HAR systems. The structure of the paper is also outlined, indicating a thorough exploration of foundational concepts, a review of related works, the proposed hybrid model, and a discussion on future challenges in the field.

Results

The results from the study on action recognition using three distinct models—CNN, ViT-only, and a hybrid CNN-ViT model—on the KTH dataset reveal significant insights into their performance across varying context lengths (12, 18, and 24 frames). The CNN model exhibited a decline in accuracy with increasing frame length, achieving 94.35% for 12 frames, 93.91% for 18 frames, and 93.49% for 24 frames. This trend suggests challenges in processing longer sequences, likely due to overfitting or difficulties in retaining temporal features. Conversely, the ViT model showed improved accuracy with longer sequences, recording 92.44%, 92.82%, and 93.69% for the respective frame lengths, indicating its effectiveness in managing temporal dynamics through self-attention mechanisms.

The hybrid CNN-ViT model outperformed both individual models, achieving accuracy rates of 94.12%, 94.56%, and 95.78% for 12, 18, and 24 frames, respectively. This model synergistically combines the spatial feature extraction strengths of CNNs with the temporal processing capabilities of ViTs, resulting in superior performance in action recognition tasks. Notably, the hybrid model achieved an impressive 97.89% accuracy, positioning it among state-of-the-art models and surpassing previous benchmarks in the literature. The findings underscore the potential of hybrid architectures in enhancing both spatial and temporal processing in video data, suggesting avenues for future research to optimize model efficiency and scalability across diverse datasets.

Discussion

The discussion section of the paper outlines the evolution and advancements in Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs), culminating in the development of attention-based Transformers. Initially, CNNs were designed for static image processing, excelling in tasks like object recognition and image classification. Key milestones include the Neocognitron, LeNet-5, and AlexNet, which leveraged large datasets and improved computational power to enhance performance. The introduction of architectures such as VGGNet, GoogLeNet, and ResNet further solidified CNNs as foundational tools in deep learning, extending their applications beyond image processing.

As researchers sought to apply CNNs to temporal data, spatio-temporal CNNs emerged, integrating temporal components to analyze dynamic behaviors in video and time-series data. Various approaches, including 3D convolutions and two-stream networks, were developed to effectively capture both spatial and temporal features. The transition from RNNs to Transformers marked a significant shift in handling sequential data, with Transformers utilizing self-attention mechanisms to efficiently process and capture long-range dependencies without the limitations of traditional RNNs. This evolution highlights the importance of attention mechanisms in enhancing model performance across various applications, particularly in natural language processing and machine translation.