DOI: https://doi.org/10.1038/s41598-025-96950-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40204799
تاريخ النشر: 2025-04-09
المؤلف: Ifrah Naeem وآخرون
الموضوع الرئيسي: اضطرابات الصوت والكلام
نظرة عامة
تبحث الورقة البحثية في إمكانية استخدام القياسات الصوتية كمؤشرات للتشخيص المبكر لمرض باركنسون (PD)، وهو اضطراب عصبي يتميز بنقص الدوبامين مما يؤدي إلى ضعف في الوظائف الحركية. تستخدم الدراسة نماذج تعلم الآلة المختلفة، بما في ذلك آلة الدعم الشعاعي (SVM)، وغابة عشوائية (RF)، والانحدار اللوجستي (LR)، وشجرة القرار (DT)، لتحليل مجموعة بيانات تتكون من 195 تسجيلًا صوتيًا من 31 مريضًا. لمعالجة عدم توازن الفئات، يتم استخدام تقنية الزيادة الاصطناعية للأقليات (SMOTE)، ويتم تطبيق تحليل المكونات الرئيسية (PCA) لاختيار الميزات.
تكشف النتائج أن نموذج الغابة العشوائية يتفوق على الآخرين، حيث حقق دقة بنسبة 94% ودقة بنسبة 94%. تليه SVM بدقة 92% ودقة 91%. ومع ذلك، عند تطبيق PCA، تنخفض أداء SVM وRF، مع درجات دقة تبلغ 89% و92% على التوالي، بينما تحقق DT 87%. تؤكد الدراسة على أهمية الميزات الصوتية بالتزامن مع تقنيات تعلم الآلة المتقدمة للكشف المبكر الموثوق عن مرض باركنسون، مما يعالج التحديات المرتبطة بالتشخيص في الوقت المناسب وقد يعزز جودة الحياة للأفراد المتأثرين.
طرق
تهدف المنهجية المقترحة إلى تصنيف المرضى المصابين بمرض باركنسون (PD) من خلال تحليل إشارات الصوت من مجموعة بيانات PD باستخدام بايثون على منصة Google Collaboratory. تتضمن مجموعة البيانات، المستمدة من برنامج الصوت متعدد الأبعاد (MDVP)، معلمات صوتية رئيسية تتعلق بنطق الحروف المتحركة. لضمان وضوح الخصائص، يتم إجراء معالجة مسبقة وتحليل وتصوير. تعالج المنهجية عدم توازن الفئات من خلال تقنية الزيادة الاصطناعية للأقليات (SMOTE)، التي تولد عينات اصطناعية. يتم استخدام تحليل المكونات الرئيسية (PCA) لتقليل الأبعاد، ويتم تدريب أربعة نماذج تعلم آلة—الانحدار اللوجستي (LR)، وآلة الدعم الشعاعي (SVM)، والغابة العشوائية (RF)، وشجرة القرار (DT)—على 80% من البيانات للتمييز بين إشارات الصوت الخاصة بـ PD والصحية بناءً على تغييرات التردد. يتم حجز 20% المتبقية من البيانات للاختبار، مع تقييم أداء النموذج باستخدام مقاييس مختلفة.
تم إجراء دراسة إلغاء لتحديد تأثيرات طرق المعالجة المسبقة المختلفة على أداء النموذج. تقيم هذه الدراسة تأثير كل تقنية على مقاييس التقييم مثل دقة التصنيف، ودرجة F1، والدقة، والاسترجاع. تم اختبار ثلاثة ظروف تجريبية: (1) نموذج أساسي يستخدم جميع الميزات الأصلية دون SMOTE أو PCA، (2) نموذج مدرب باستخدام SMOTE لتحقيق توازن مجموعة البيانات، و(3) نموذج يستخدم PCA لتقليل الأبعاد. ستوفر النتائج من هذه التجارب رؤى حول فعالية تقنيات المعالجة المسبقة في تحسين أداء النموذج.
نتائج
في النموذج الأساسي، استخدمت الدراسة مجموعة بيانات مرض باركنسون (PD) الكاملة، التي تتكون من 22 خاصية، بعد إجراء معالجة مسبقة للبيانات لمعالجة التكرارات والقيم الفارغة. تم تقسيم مجموعة البيانات إلى 80% للاختبار و20% للتدريب، مع تطبيق التوحيد باستخدام وظيفة Standard Scaler. تم تقييم نماذج تصنيف مختلفة، بما في ذلك آلة الدعم الشعاعي (SVM)، والغابة العشوائية (RF)، والانحدار اللوجستي (LR)، وشجرة القرار (DT). تفوق نموذج RF على الآخرين، حيث حقق دقة بنسبة 92%، مع دقة 93%، واسترجاع 96%، ودرجة F1 تبلغ 95%. في المقابل، حققت SVM وLR وDT دقة تبلغ 89%، مع درجات دقة واسترجاع متفاوتة.
تشير النتائج إلى تحسين كبير في أداء النموذج عند استخدام تقنية الزيادة الاصطناعية للأقليات (SMOTE) لمعالجة عدم توازن الفئات، مما يبرز أهميتها للتصنيف الدقيق. على الرغم من أن تحليل المكونات الرئيسية (PCA) قد حسن من كفاءة النموذج، إلا أنه أيضًا قد يعرض ميزات تمييزية حاسمة للخطر. تشير النتائج إلى أن دمج PCA لاختيار الميزات مع SMOTE لتحقيق توازن الفئات يمكن أن يؤدي إلى تحسين أداء النموذج، مما يزيد من موثوقية أساليب تعلم الآلة في الكشف عن PD من خلال العلامات الحيوية الصوتية.
مناقشة
في الأبحاث الحديثة حول الكشف المبكر عن مرض باركنسون (PD)، تم تطبيق تقنيات تعلم الآلة المختلفة لتحليل الميزات الصوتية وغيرها من العلامات الحيوية. بشكل ملحوظ، اقترح علي وآخرون استراتيجية تجميعية، EOFSC، تجمع بين الشبكات العصبية العميقة واختيار الميزات، محققة تحسينًا بنسبة 6.5% في دقة الكشف مقارنة بالطرق التقليدية. ومع ذلك، تثير اعتماد النموذج على مجموعات بيانات محددة مخاوف بشأن قابليته للتعميم. استكشفت دراسات أخرى، مثل تلك التي أجراها نيجاوان وآخرون وسيد وآخرون، قراءات عسر الصوت وخوارزميات تعلم الآلة المختلفة، على التوالي، مع ظهور LightGBM كطريقة فعالة بشكل خاص، محققة دقة تبلغ 96%. على الرغم من هذه التقدمات، لا تزال هناك قيود، بما في ذلك حجم مجموعة البيانات ومشكلات عدم التوازن، التي يمكن أن تؤثر على أداء النموذج.
تسلط المناقشة الضوء على أهمية اختيار الميزات والتحديات التي تطرحها عدم توازن الفئات في مجموعات البيانات. استخدمت العديد من الدراسات تقنيات مثل SMOTE لمعالجة هذه القضايا، ومع ذلك، لا يزال التركيز على مجموعة محدودة من الميزات الصوتية عيبًا شائعًا. تهدف الأبحاث الحالية إلى سد هذه الفجوات من خلال استخدام تحليل المكونات الرئيسية (PCA) لاختيار الميزات ومقارنة نماذج التصنيف المتعددة، بما في ذلك آلات الدعم الشعاعي (SVM)، والغابة العشوائية، والانحدار اللوجستي. تشير النتائج إلى أن الميزات الصوتية يمكن أن تكون مؤشرات قوية لمرض PD، مما يبرز إمكانيات تعلم الآلة في تعزيز دقة التشخيص وسهولة الوصول للكشف المبكر عن المرض.
القيود
تعترف الدراسة بعدة قيود قد تؤثر على قابلية تعميم نتائجها بشأن استخدام القياسات الصوتية كمؤشرات للتشخيص الأولي لمرض باركنسون (PD) من خلال تعلم الآلة. بشكل ملحوظ، تتكون مجموعة البيانات من قياسات صوتية حيوية من 31 فردًا فقط، وهو عدد غير كافٍ لالتقاط التنوع الموجود بين سكان PD الأوسع. يثير حجم العينة المحدود مخاوف بشأن قابلية تطبيق النتائج. بالإضافة إلى ذلك، على الرغم من أن النماذج أظهرت أداءً قويًا ضمن هذه المجموعة من البيانات، إلا أن فعاليتها في مجموعات بيانات أكبر وأكثر تنوعًا لا تزال غير مختبرة. تحدد الدراسة أيضًا التحديات المحتملة في التطبيقات الواقعية، مثل الضوضاء الخلفية، وظروف التسجيل المتغيرة، والتنوع الفطري في الكلام.
لمعالجة هذه القيود، يجب أن تركز الأبحاث المستقبلية على توسيع مجموعة البيانات لتشمل سكانًا أكثر تنوعًا ودمج النماذج المطورة في أدوات دعم اتخاذ القرار السريرية. قد يؤدي دمج علامات حيوية أخرى، مثل مسح التصوير بالرنين المغناطيسي، وتحليل المشي، والكتابة اليدوية، جنبًا إلى جنب مع القياسات الصوتية، إلى تحسين دقة التشخيص. علاوة على ذلك، قد تعزز تقنيات التعلم العميق استخراج الميزات ودقة التصنيف. من خلال معالجة هذه الجوانب، يمكن أن تسد الدراسات المستقبلية الفجوة بين النتائج التجريبية والتنفيذ العملي، مما يحسن موثوقية الكشف عن PD المعتمد على الذكاء الاصطناعي في إعدادات الطب عن بُعد.
DOI: https://doi.org/10.1038/s41598-025-96950-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40204799
Publication Date: 2025-04-09
Author(s): Ifrah Naeem et al.
Primary Topic: Voice and Speech Disorders
Overview
The research paper investigates the potential of vocal measures as indicators for the early diagnosis of Parkinson’s disease (PD), a neurological disorder characterized by dopamine deficiency leading to motor function impairment. The study employs various machine learning models, including Support Vector Machine (SVM), Random Forest (RF), Logistic Regression (LR), and Decision Tree (DT), to analyze a dataset comprising 195 vocal recordings from 31 patients. To address class imbalance, the Synthetic Minority Over-Sampling Technique (SMOTE) is utilized, and Principal Component Analysis (PCA) is applied for feature selection.
The findings reveal that the Random Forest model outperforms others, achieving an accuracy of 94% and precision of 94%. SVM follows with an accuracy of 92% and precision of 91%. However, when PCA is applied, the performance of SVM and RF declines, with accuracy scores of 89% and 92%, respectively, while DT achieves 87%. The study underscores the importance of vocal features in conjunction with advanced machine learning techniques for the reliable early detection of Parkinson’s disease, addressing the challenges associated with timely diagnosis and potentially enhancing the quality of life for affected individuals.
Methods
The proposed methodology aims to classify patients with Parkinson’s Disease (PD) by analyzing voice signals from a PD dataset using Python on the Google Collaboratory platform. The dataset, sourced from the Multidimensional Voice Program (MDVP), includes key vocal parameters related to vowel phonation. To ensure clarity in the attributes, preprocessing, analysis, and visualization are conducted. The methodology addresses class imbalance through the Synthetic Minority Over-sampling Technique (SMOTE), which generates synthetic samples. Principal Component Analysis (PCA) is employed for dimensionality reduction, and four machine learning models—Logistic Regression (LR), Support Vector Machine (SVM), Random Forest (RF), and Decision Tree (DT)—are trained on 80% of the data to differentiate between PD and healthy audio signals based on frequency changes. The remaining 20% of the data is reserved for testing, with model performance evaluated using various metrics.
An ablation study is conducted to investigate the effects of different preprocessing methods on model performance. This study assesses the impact of each technique on evaluation metrics such as classification accuracy, F1-score, precision, and recall. Three experimental conditions are tested: (1) a baseline model using all original features without SMOTE or PCA, (2) a model trained with SMOTE for dataset balancing, and (3) a model utilizing PCA for dimensionality reduction. The findings from these experiments will provide insights into the effectiveness of preprocessing techniques in enhancing model performance.
Results
In the baseline model, the study utilized the complete Parkinson’s Disease (PD) dataset, comprising 22 attributes, after conducting data preprocessing to address duplicates and null values. The dataset was divided into 80% for testing and 20% for training, with standardization applied using the Standard Scaler function. Various classification models, including Support Vector Machine (SVM), Random Forest (RF), Logistic Regression (LR), and Decision Tree (DT), were evaluated. The RF model outperformed others, achieving an accuracy of 92%, with a precision of 93%, recall of 96%, and an F1 score of 95%. In contrast, SVM, LR, and DT achieved accuracies of 89%, with varying precision and recall scores.
The results indicate a significant enhancement in model performance when employing Synthetic Minority Over-sampling Technique (SMOTE) to address class imbalance, underscoring its importance for accurate classification. Although Principal Component Analysis (PCA) improved model efficiency, it also risked discarding critical discriminative features. The findings suggest that integrating PCA for feature selection with SMOTE for class balancing can lead to improved model performance, thereby increasing the reliability of machine learning approaches for detecting PD through voice biomarkers.
Discussion
In recent research on the early detection of Parkinson’s Disease (PD), various machine learning techniques have been applied to analyze vocal features and other biomarkers. Notably, Ali et al. proposed an ensemble strategy, EOFSC, which combines deep neural networks and feature selection, achieving a 6.5% improvement in detection accuracy over traditional methods. However, the model’s reliance on specific datasets raises concerns about its generalizability. Other studies, such as those by Nijhawan et al. and Sayed et al., have explored dysphonia readings and various machine learning algorithms, respectively, with LightGBM emerging as a particularly effective method, achieving an accuracy of 96%. Despite these advancements, limitations persist, including dataset size and imbalance issues, which can skew model performance.
The discussion highlights the importance of feature selection and the challenges posed by class imbalance in datasets. Many studies have utilized techniques like SMOTE to address these issues, yet the focus on a limited set of voice features remains a common drawback. The current research aims to bridge these gaps by employing Principal Component Analysis (PCA) for feature selection and comparing multiple classification models, including Support Vector Machines (SVM), Random Forest, and Logistic Regression. The findings suggest that vocal features can serve as robust predictors for PD, emphasizing the potential of machine learning in enhancing diagnostic accuracy and accessibility for early-stage identification of the disease.
Limitations
The study acknowledges several limitations that may impact the generalizability of its findings regarding the use of vocal measures as predictors for the initial diagnosis of Parkinson’s Disease (PD) through machine learning. Notably, the dataset comprises biomedical voice measurements from only 31 individuals, which is insufficient to capture the diversity present among the broader PD population. This limited sample size raises concerns about the applicability of the results. Additionally, while the models demonstrated strong performance within this dataset, their effectiveness in larger, more diverse datasets remains untested. The study also identifies potential challenges in real-world applications, such as background noise, varying recording conditions, and inherent speech variability.
To address these limitations, future research should focus on expanding the dataset to include a more diverse population and integrating the developed models into clinical decision-support tools. Incorporating other biomarkers, such as MRI scans, gait analysis, and handwriting, alongside vocal measures may yield improved diagnostic accuracy. Furthermore, exploring deep learning techniques could enhance feature extraction and classification precision. By addressing these aspects, future studies can bridge the gap between experimental findings and practical implementation, thereby improving the reliability of AI-based PD detection in telemedicine settings.
