نموذج هجين جديد من CNN-Transformer لاكتشاف عدم انتظام ضربات القلب دون تحديد قمة R باستخدام تحويل ستوكويل A novel hybrid CNN-transformer model for arrhythmia detection without R-peak identification using stockwell transform

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-92582-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40050678
تاريخ النشر: 2025-03-06
المؤلف: Donghyeon Kim وآخرون
الموضوع الرئيسي: مراقبة وتحليل تخطيط القلب الكهربائي

نظرة عامة

تقدم هذه الدراسة نموذج تعلم عميق هجين جديد مصمم لتصنيف اضطرابات النظم القلبية من إشارات تخطيط القلب الكهربائي (ECG)، باستخدام تحويل ستوكويل لاستخراج الميزات بشكل فعال. من خلال تحويل إشارات ECG، التي هي بيانات زمنية بطبيعتها، إلى مجال التردد، يلتقط النموذج الميزات ذات الصلة بشكل أكثر فعالية. تجمع البنية بين شبكة عصبية تلافيفية (CNN) لتحديد الأنماط المحلية ومحولات لتعلم الاعتماديات طويلة المدى، مما يميزها عن النماذج التقليدية المعتمدة على CNN التي تعتمد على اكتشاف قمة R.

يظهر النموذج المقترح أداءً ملحوظًا، حيث يحقق دقة تبلغ 97.8% على مجموعة بيانات Icentia11k مع أربع فئات من اضطرابات النظم القلبية و99.58% على مجموعة بيانات MIT-BIH مع خمس فئات من اضطرابات النظم القلبية. تشير هذه النتائج إلى تقدم كبير في دقة تشخيص اضطرابات النظم القلبية المعتمدة على ECG، مع تطبيقات محتملة في أنظمة المراقبة في الوقت الحقيقي.

الطرق

في هذه الدراسة، تم تطوير نموذج هجين لتصنيف اضطرابات النظم القلبية باستخدام ECG وتم تحسينه من خلال ضبط عدة معلمات فرعية. استخدم النموذج مُحسِّن RAdam بمعدل تعلم قدره $3 \times 10^{-4}$ وطبق تدريبًا مختلط الدقة عبر GradScaler الخاص بـ PyTorch لتعزيز كفاءة GPU. لمعالجة عدم توازن الفئات، تم تنفيذ خسارة Focal بدلاً من الانتروبيا المتقاطعة القياسية. كانت بيانات الإدخال تتكون من تمثيلات زمنية-ترددية مستمدة من تحويل S، مع اختبار أحجام دفعات قدرها 64 و256 على مدى 200 دورة كحد أقصى، مع تضمين معيار إيقاف مبكر (صبر = 15) لمنع الإفراط في التكيف. تم تقييم عدة مجدولات لمعدل التعلم، بما في ذلك CosineAnnealingWarmRestarts وExponentialLR، لضمان تقارب مستقر. تجمع البنية بين CNN المعتمد على ResNeXt مع وحدات Squeeze-and-Excitation (SE) ومشفّر Transformer لالتقاط الاعتماديات طويلة المدى. تم تقييم أداء النموذج باستخدام مصفوفات الارتباك ودرجات F1، مع توفير جميع تعريفات النموذج ونصوص التدريب لضمان إمكانية التكرار.

تمت مقارنة النموذج المقترح مع عدة طرق راسخة، كما هو موضح في الجدول 4. أظهرت النتائج أنه تفوق على جميع الطرق السابقة من حيث الدقة (Acc) والقيمة التنبؤية الإيجابية (PPV) والحساسية (Se)، مما يثبت تفوقه في مهام التصنيف. من الجدير بالذكر أن العديد من الطرق الحالية لم تستخدم مجموعة البيانات بالكامل، وغالبًا ما استبعدت فئات حاسمة مثل N أو Q، مما حد من المقارنات العادلة. بالمقابل، حقق النموذج المقترح معدل دقة قدره 99.58% مع تضمين جميع التسميات من قاعدة بيانات MIT-BIH. على الرغم من أنه أظهر أداءً أقل قليلاً في فئة N مقارنة بنموذج Fei-Yan، إلا أنه تفوق بشكل كبير في فئات S وV وF، التي تعتبر حيوية لتحديد اضطرابات النظم القلبية الشديدة. هذه القدرة حاسمة في الإعدادات السريرية، حيث يمكن أن يمنع التشخيص الدقيق وفي الوقت المناسب الأحداث القلبية الخطيرة، مما يبرز الفائدة العملية للنموذج على الرغم من التنازل الطفيف في فئة N.

النتائج

تظهر نتائج الدراسة أن تطبيق تحويل S على إشارات ECG قد حسّن بشكل كبير من استخراج الميزات وأداء التصنيف للكشف عن اضطرابات النظم القلبية. من خلال توفير تمثيل زمني-ترددي محلي، تمكن تحويل S من التقاط المعلومات الزمنية والطيفية بشكل فعال، مما سمح بتحديد التغيرات الطفيفة في إشارات ECG. تفوق هذه الطريقة على التقنيات التقليدية، مثل تحويل فورييه وتحويل الموجات، مما أدى إلى تحسين دقة التصنيف.

علاوة على ذلك، حققت البنية الهجينة للتعلم العميق، التي تجمع بين الشبكات العصبية التلافيفية (CNNs) لاكتشاف الميزات المحلية والمحولات لنمذجة الاعتماديات طويلة المدى، نتائج ملحوظة، حيث حققت دقة قدرها 97.8% على مجموعة بيانات Icentia11k و99.58% على مجموعة بيانات MIT-BIH. تتجاوز هذه النتائج تلك الخاصة بالمنهجيات السابقة، على الرغم من أن مجموعات البيانات تركز بشكل أساسي على اضطرابات النظم القلبية الشائعة التي تكون عادةً أسهل في التشخيص. تضع الدراسة الأساس للبحوث المستقبلية التي تهدف إلى تطبيق هذا النموذج للتعلم العميق على اضطرابات النظم القلبية الأكثر تعقيدًا، مثل الرجفان الأذيني وتسارع القلب البطيني، مما يساعد أطباء القلب في التعامل مع سيناريوهات التشخيص الأكثر تحديًا.

المناقشة

تسلط المناقشة الضوء على تعقيد وحساسية إشارات ECG للضوضاء، مما يبرز ضرورة وجود تقنيات معالجة مسبقة قوية لضمان تحليل دقيق. تركز الطرق التقليدية بشكل أساسي على تقليل الضوضاء من خلال تقنيات تصفية متنوعة، بينما أظهرت الأساليب غير الخطية مثل تحويل الموجات فعاليتها في الحفاظ على خصائص الإشارة. أدى الانتقال من نماذج التعلم الآلي التقليدية إلى طرق التعلم العميق، وخاصة CNNs وLSTMs، إلى تحسين تصنيف ECG من خلال السماح للنماذج بتعلم الميزات ذات الصلة مباشرة من البيانات. وقد عزز إدخال نماذج Transformer الأداء بشكل أكبر من خلال التقاط الاعتماديات بعيدة المدى في بيانات السلاسل الزمنية بشكل فعال. تقترح هذه الدراسة إطارًا هجينًا يجمع بين استخراج الميزات المعتمد على تحويل S مع بنية CNN-Transformer، بهدف الاستفادة من كل من الخصائص المحلية والعالمية للإشارة لتحسين دقة تصنيف اضطرابات النظم القلبية.

تستخدم الدراسة مجموعات بيانات MIT-BIH Arrhythmia وIcentia11k، التي توفر أساسًا شاملاً لتقييم أداء النموذج المقترح. تشمل عملية المعالجة المسبقة عدة خطوات، مثل إزالة الضوضاء، وتقليل العينة، وتطبيق تحويل S، والتي تعزز بشكل جماعي جودة إشارات ECG للتحليل. تشير النتائج إلى أن النموذج الهجين يتفوق بشكل كبير على البنى التقليدية، محققًا معدلات دقة عالية عبر كلا مجموعتي البيانات. تؤكد النتائج على أهمية دمج تقنيات المعالجة المسبقة المتقدمة وهياكل التعلم العميق لمعالجة تحديات تحليل إشارات ECG، مما يؤدي في النهاية إلى تصنيف أكثر موثوقية لاضطرابات النظم القلبية.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-92582-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40050678
Publication Date: 2025-03-06
Author(s): Donghyeon Kim et al.
Primary Topic: ECG Monitoring and Analysis

Overview

This study introduces a novel hybrid deep learning model designed for the classification of arrhythmias from electrocardiogram (ECG) signals, employing the Stockwell transform for effective feature extraction. By converting ECG signals, which are inherently time-series data, into the frequency domain, the model captures relevant features more effectively. The architecture combines a Convolutional Neural Network (CNN) to identify local patterns and a transformer to learn long-term dependencies, distinguishing itself from traditional CNN-based models that rely on R-peak detection.

The proposed model demonstrates remarkable performance, achieving an accuracy of 97.8% on the Icentia11k dataset with four arrhythmia classes and 99.58% on the MIT-BIH dataset with five arrhythmia classes. These findings indicate significant advancements in the accuracy of ECG-based arrhythmia diagnosis, with potential applications in real-time monitoring systems.

Methods

In this study, a hybrid model for ECG arrhythmia classification was developed and optimized through the adjustment of multiple hyperparameters. The model utilized the RAdam optimizer with a learning rate of $3 \times 10^{-4}$ and employed mixed-precision training via PyTorch’s GradScaler to enhance GPU efficiency. To address class imbalance, Focal Loss was implemented instead of standard cross-entropy. The input data consisted of S-transform-derived time-frequency representations, with batch sizes of 64 and 256 tested over a maximum of 200 epochs, incorporating an early stopping criterion (patience = 15) to prevent overfitting. Various learning rate schedulers, including CosineAnnealingWarmRestarts and ExponentialLR, were evaluated to ensure stable convergence. The architecture combined a ResNeXt-based CNN with Squeeze-and-Excitation (SE) modules and a Transformer encoder to capture long-term dependencies. The model’s performance was assessed using confusion matrices and F1-scores, with all model definitions and training scripts made available for reproducibility.

The proposed model was compared against several established methods, as detailed in Table 4. Results demonstrated that it outperformed all prior methods in terms of accuracy (Acc), positive predictive value (PPV), and sensitivity (Se), establishing its superiority in classification tasks. Notably, many existing methods did not utilize the entire dataset, often excluding critical classes such as N or Q, which limited fair comparisons. In contrast, the proposed model achieved an accuracy rate of 99.58% while incorporating all labels from the MIT-BIH database. Although it showed slightly lower performance in the N category compared to Fei-Yan’s model, it significantly excelled in the S, V, and F categories, which are vital for identifying severe arrhythmias. This capability is crucial for clinical settings, where accurate and timely diagnosis can prevent serious cardiac events, highlighting the model’s practical utility despite a minor compromise in the N category.

Results

The results of the study demonstrate that the application of the S-transform on ECG signals significantly improved feature extraction and classification performance for arrhythmia detection. By providing a localized time-frequency representation, the S-transform effectively captured both temporal and spectral information, allowing for the identification of subtle variations in ECG signals. This method outperformed traditional techniques, such as Fourier and Wavelet Transforms, leading to enhanced classification accuracy.

Furthermore, the hybrid deep learning architecture, which combines Convolutional Neural Networks (CNNs) for localized feature detection and Transformers for modeling long-term dependencies, achieved remarkable results, attaining an accuracy of 97.8% on the Icentia11k dataset and 99.58% on the MIT-BIH dataset. These results surpass those of previous methodologies, although the datasets primarily focus on common arrhythmias that are generally easier to diagnose. The study sets the stage for future research aimed at applying this deep learning model to more complex arrhythmias, such as atrial fibrillation and ventricular tachycardia, thereby assisting cardiologists in tackling more challenging diagnostic scenarios.

Discussion

The discussion highlights the complexity and noise sensitivity of ECG signals, emphasizing the necessity for robust preprocessing techniques to ensure accurate analysis. Traditional methods primarily focus on noise reduction through various filtering techniques, while nonlinear approaches like Wavelet Transform have shown effectiveness in preserving signal characteristics. The transition from conventional machine learning models to deep learning methods, particularly CNNs and LSTMs, has improved ECG classification by allowing models to learn relevant features directly from the data. The introduction of Transformer models has further enhanced performance by effectively capturing long-range dependencies in time-series data. This study proposes a hybrid framework that combines S-transform-based feature extraction with a CNN-Transformer architecture, aiming to leverage both local and global signal characteristics for improved arrhythmia classification accuracy.

The research utilizes the MIT-BIH Arrhythmia and Icentia11k datasets, which provide a comprehensive basis for evaluating the proposed model’s performance. The preprocessing pipeline includes several steps, such as noise removal, downsampling, and S-transform application, which collectively enhance the quality of the ECG signals for analysis. The results indicate that the hybrid model significantly outperforms traditional architectures, achieving high accuracy rates across both datasets. The findings underscore the importance of integrating advanced preprocessing techniques and deep learning architectures to address the challenges of ECG signal analysis, ultimately leading to more reliable arrhythmia classification.