تعزيز فعالية تصنيف سرطان الرئة من خلال آلة الدعم الشعاعي المعدلة بالمعلمات الفائقة Enhancing Lung Cancer Classification Effectiveness Through Hyperparameter-Tuned Support Vector Machine

المجلة: Journal of Computing Theories and Applications، المجلد: 1، العدد: 4
DOI: https://doi.org/10.62411/jcta.10106
تاريخ النشر: 2024-03-25
المؤلف: Fita Sheila Gomiasti وآخرون
الموضوع الرئيسي: الذكاء الاصطناعي في الرعاية الصحية

نظرة عامة

تبحث هذه الدراسة في تحسين تصنيف سرطان الرئة باستخدام آلات الدعم الشعاعي (SVM) مع ضبط المعلمات، مع التركيز بشكل خاص على استخدام نوى دالة القاعدة الشعاعية (RBF) لمعالجة تحديات التصنيف غير الخطي. استخدمت الدراسة البحث العشوائي للشبكة لتحسين المعلمات، وحددت الإعدادات المثلى لـ $ C = 10 $، $ \gamma = 10 $، وتمكين تقديرات الاحتمالية. تشير النتائج إلى تحسين كبير في الدقة (0.99)، والدقة (1.00)، والخصوصية (1.00)، ودرجة F1 (0.99)، على الرغم من ملاحظة انخفاض طفيف في الاسترجاع (0.98). تسلط النتائج الضوء على التوازن الحرج بين الاسترجاع والخصوصية في التشخيصات الطبية، خاصة في مجموعات البيانات غير المتوازنة.

في الختام، توضح الدراسة أن SVM مع ضبط المعلمات يمكن أن يميز بفعالية بين حالات سرطان الرئة وغير سرطان الرئة، مما يعزز قدرات الكشف المبكر. تفوقت SVM المضبوطة على النماذج السابقة باستخدام نفس مجموعة البيانات، مما يبرز إمكانياتها في التطبيقات الطبية. ومن الجدير بالذكر أن البحث وجد أن العينة العشوائية الزائدة لم تؤثر بشكل كبير على الأداء، مما يشير إلى أن الدراسات المستقبلية يجب أن تستكشف تقنيات العينة الزائدة البديلة التي تتجنب تكرار البيانات. تسهم هذه العمل في تقديم رؤى قيمة لتحسين تشخيص سرطان الرئة وتؤكد على دور ضبط المعلمات في تحقيق دقة تصنيف عالية.

مقدمة

تسلط مقدمة ورقة البحث الضوء على التأثير العالمي الحرج للسرطان، وخاصة سرطان الرئة، الذي سجل 34,783 حالة جديدة و30,843 حالة وفاة في إندونيسيا في عام 2020. تم الإشارة إلى أن خطر الإصابة بسرطان الرئة مدى الحياة هو 6.2% للرجال و5.8% للنساء، مع كون التدخين هو العامل الرئيسي المسؤول عن حوالي 80% من وفيات سرطان الرئة. تؤكد الورقة على أهمية التشخيص المبكر، الذي غالبًا ما تعيقه اكتشافات المرحلة المتأخرة، وتقترح أن التقدم في تقنيات استخراج البيانات يمكن أن يعزز تشخيص الأمراض من خلال تقنيات التصنيف.

تركز الدراسة على استخدام خوارزميات التعلم الآلي المختلفة لتصنيف سرطان الرئة، مع التأكيد بشكل خاص على آلة الدعم الشعاعي (SVM) بسبب دقتها الفائقة في الأبحاث السابقة، حيث حققت دقة تصل إلى 95.56% مقارنة بأساليب أخرى مثل الجار الأقرب (KNN) والشبكات العصبية التلافيفية (CNN). تناقش الورقة مزايا وقيود SVM، بما في ذلك فعاليتها في الفضاءات عالية الأبعاد وضرورة ضبط المعلمات لتحسين الأداء. تهدف البحث إلى تعزيز فعالية تصنيف سرطان الرئة من خلال دمج العينة العشوائية الزائدة مع ضبط المعلمات، وقياس الأداء من خلال مقاييس مثل الدقة، والدقة، والاسترجاع، ودرجة F1، والخصوصية، والمساحة تحت المنحنى (AUC). تم توضيح هيكل الورقة، مما يشير إلى نهج شامل للموضوع من خلال مراجعة الأدبيات، والمنهجية، والنتائج، والمناقشة.

النتائج

في هذه الدراسة، تم تطوير نموذج آلة الدعم الشعاعي (SVM) لتصنيف سرطان الرئة باستخدام بايثون ومكتبات مختلفة لمعالجة البيانات، والتصنيف، والتصور. تم تحسين أداء SVM من خلال ضبط المعلمات، مع ضبط معلمات مثل $C$، $\gamma$، والاحتمالية، وتم تحديد القيم المثلى عبر البحث العشوائي للشبكة. كانت أفضل المعلمات المحددة هي $C=10$، $\gamma=10$، وتم تعيين الاحتمالية إلى صحيحة، مما أدى إلى نموذج يوازن بين التعقيد المعتدل وحدود القرار الحادة. تم استخدام نواة دالة القاعدة الشعاعية (RBF) للتعامل بفعالية مع العلاقات غير الخطية داخل مجموعة البيانات.

أظهر نموذج SVM أداءً استثنائيًا، حيث حقق دقة 99%، واسترجاع 98%، ودقة 100%، وخصوصية 100%، ودرجة F1 99%، و99% AUC، كما هو موضح في النتائج. أظهر تحليل مصفوفة الارتباك أن النموذج حدد بدقة الغالبية العظمى من الحالات الإيجابية الحقيقية والسلبية الحقيقية، مع وجود حالة سلبية خاطئة واحدة فقط. كشفت دراسة الإزالة أن ضبط المعلمات عزز بشكل كبير أداء النموذج، بينما لم تؤدي العينة العشوائية الزائدة إلى فوائد إضافية. أكدت المقارنات مع الأبحاث ذات الصلة أن نموذج SVM تفوق على الآخرين في نفس مجموعة البيانات، مما يبرز قدرته على إدارة البيانات المعقدة وتقديم توقعات دقيقة للأمراض. تؤكد الدراسة على أهمية الاسترجاع والخصوصية في تقييم النماذج لتصنيف الأمراض، خاصة لتخفيف المخاطر المرتبطة بالحالات السلبية الخاطئة وسوء تحديد الحالات السلبية.

المناقشة

تسلط المناقشة الضوء على التقدم في تصنيف سرطان الرئة باستخدام تقنيات التعلم الآلي (ML)، مع التركيز بشكل خاص على الدراسات المختلفة التي استخدمت خوارزميات ومنهجيات مختلفة. من الجدير بالذكر أن دراسة استخدمت طريقة الغابة الدوارة حققت AUC مثير للإعجاب قدره 99.3%، بينما حققت دراسة أخرى تستخدم استراتيجية الطي الجيني مع SVM دقة قدرها 96.2%. بالإضافة إلى ذلك، أظهر مصنف شجرة القرار دقة قدرها 95.16% عند عمق أقصى قدره 15. بالمقارنة، تفوقت خوارزمية الغابة العشوائية على الآخرين بدقة 97% في تقييم متعدد الخوارزميات. تؤكد الأبحاث على التحديات التي تطرحها مجموعات البيانات غير المتوازنة، والتي عالجتها عدة دراسات من خلال تقنيات العينة العشوائية الزائدة لتعزيز أداء التصنيف.

تتضمن الطريقة المقترحة في هذه الدراسة نهجًا منظمًا يتكون من جمع مجموعة البيانات، ومعالجة البيانات، وتصنيف SVM، والتقييم. تم اختيار مجموعة بيانات مسح سرطان الرئة، التي تتكون من 309 صفوف و16 عمودًا، لاستخدامها الواسع، مما يسهل التحليل المقارن. ضمنت معالجة البيانات الجودة من خلال القضاء على التكرارات وترميز المتغيرات الفئوية، بينما تم تطبيق تقنية العينة العشوائية الزائدة لمعالجة عدم توازن الفئات. تم اختيار مصنف SVM لفعاليته في التعامل مع مجموعات البيانات المعقدة، وتم إجراء ضبط المعلمات باستخدام البحث العشوائي للشبكة لتحسين المعلمات مثل معلمة التنظيم $C$ ومعامل النواة $\gamma$. شملت مقاييس التقييم الدقة، والدقة، والاسترجاع، ودرجة F1، والخصوصية، والمساحة تحت المنحنى (AUC)، مما يؤكد على قوة النموذج في التمييز بين حالات سرطان الرئة وغير سرطان الرئة.

في الختام، أثبتت الدراسة بنجاح فعالية SVM مع ضبط المعلمات لتصنيف سرطان الرئة، محققة مقاييس تقييم عالية. تشير النتائج إلى أنه بينما حسنت العينة العشوائية الزائدة توازن البيانات، إلا أنها لم تعزز بشكل كبير أداء النموذج، مما يشير إلى الحاجة إلى تقنيات عينة زائدة بديلة في الأبحاث المستقبلية. تسهم هذه العمل في مجال التشخيص الطبي من خلال التأكيد على الدور الحاسم لضبط المعلمات في تعزيز دقة التصنيف للكشف المبكر عن سرطان الرئة.

Journal: Journal of Computing Theories and Applications, Volume: 1, Issue: 4
DOI: https://doi.org/10.62411/jcta.10106
Publication Date: 2024-03-25
Author(s): Fita Sheila Gomiasti et al.
Primary Topic: Artificial Intelligence in Healthcare

Overview

This research investigates the enhancement of lung cancer classification using Support Vector Machines (SVM) with hyperparameter tuning, specifically employing Radial Basis Function (RBF) kernels to address non-linear classification challenges. The study utilized Random Grid Search for hyperparameter optimization, identifying optimal settings of $ C = 10 $, $ \gamma = 10 $, and enabling probability estimates. The results indicate a significant improvement in accuracy (0.99), precision (1.00), specificity (1.00), and F1 score (0.99), although a minor decrease in recall (0.98) was observed. The findings highlight the critical balance between recall and specificity in medical diagnostics, particularly in imbalanced datasets.

In conclusion, the study demonstrates that SVM with hyperparameter tuning can effectively differentiate between lung cancer and non-lung cancer cases, thereby enhancing early detection capabilities. The tuned SVM outperformed previous models using the same dataset, underscoring its potential in medical applications. Notably, the research found that random over-sampling did not significantly impact performance, suggesting that future studies should explore alternative oversampling techniques that avoid data duplication. This work contributes valuable insights into improving lung cancer diagnostics and emphasizes the role of hyperparameter tuning in achieving high classification accuracy.

Introduction

The introduction of the research paper highlights the critical global impact of cancer, particularly lung cancer, which accounted for 34,783 new cases and 30,843 deaths in Indonesia in 2020. The lifetime risk of developing lung cancer is noted to be 6.2% for men and 5.8% for women, with smoking being the primary risk factor responsible for approximately 80% of lung cancer deaths. The paper emphasizes the importance of early diagnosis, often hindered by late-stage detection, and suggests that advancements in data mining technologies can enhance disease diagnosis through classification techniques.

The study focuses on employing various machine learning algorithms for lung cancer classification, particularly emphasizing Support Vector Machine (SVM) due to its superior accuracy in previous research, achieving up to 95.56% accuracy compared to other methods like K-Nearest Neighbor (KNN) and Convolutional Neural Networks (CNN). The paper discusses the advantages and limitations of SVM, including its effectiveness in high-dimensional spaces and the necessity for hyperparameter tuning to optimize performance. The research aims to enhance lung cancer classification effectiveness by integrating random oversampling with hyperparameter tuning, measuring performance through metrics such as accuracy, precision, recall, F1-score, specificity, and Area Under the Curve (AUC). The structure of the paper is outlined, indicating a comprehensive approach to the topic through literature review, methodology, results, and discussion.

Results

In this study, a Support Vector Machine (SVM) model was developed for lung cancer classification using Python and various libraries for data processing, classification, and visualization. The SVM’s performance was optimized through hyperparameter tuning, specifically adjusting parameters such as $C$, $\gamma$, and probability, with optimal values determined via Random Grid Search. The best parameters identified were $C=10$, $\gamma=10$, and probability set to true, which resulted in a model that balances moderate complexity with sharp decision boundaries. The Radial Basis Function (RBF) kernel was employed to effectively handle non-linear relationships within the dataset.

The SVM model demonstrated exceptional performance, achieving 99% accuracy, 98% recall, 100% precision, 100% specificity, 99% F1-score, and 99% AUC, as detailed in the results. A confusion matrix analysis indicated that the model accurately identified the majority of true positive and true negative cases, with only one false negative. An ablation study revealed that hyperparameter tuning significantly enhanced model performance, while random oversampling did not yield additional benefits. Comparisons with related research confirmed that the SVM model outperformed others on the same dataset, underscoring its capability to manage complex data and provide accurate disease predictions. The study emphasizes the importance of recall and specificity in evaluating models for disease classification, particularly to mitigate the risks associated with false negatives and misidentification of negative cases.

Discussion

The discussion highlights the advancements in lung cancer classification using machine learning (ML) techniques, specifically focusing on various studies that employed different algorithms and methodologies. Notably, a study utilizing the Rotation Forest method achieved an impressive AUC of 99.3%, while another employing the Genetic Folding Strategy with SVM reached an accuracy of 96.2%. Additionally, the Decision Tree classifier demonstrated a 95.16% accuracy at a maximum depth of 15. Comparatively, the Random Forest algorithm outperformed others with a 97% accuracy in a multi-algorithm evaluation. The research underscores the challenges posed by imbalanced datasets, which several studies addressed through random oversampling techniques to enhance classification performance.

The proposed method in this study involves a structured approach comprising dataset collection, data pre-processing, SVM classification, and evaluation. The Lung Cancer Survey dataset, consisting of 309 rows and 16 columns, was selected for its widespread use, facilitating comparative analysis. Data pre-processing ensured quality by eliminating duplicates and encoding categorical variables, while the random oversampling technique was applied to address class imbalance. The SVM classifier was chosen for its efficacy in handling complex datasets, with hyperparameter tuning performed using Random Grid Search to optimize parameters such as the regularization parameter $C$ and the kernel coefficient $\gamma$. Evaluation metrics included accuracy, precision, recall, F1-score, specificity, and the Area Under the Curve (AUC), confirming the model’s robustness in differentiating between lung cancer and non-lung cancer cases.

In conclusion, the study successfully demonstrated the effectiveness of SVM with hyperparameter tuning for lung cancer classification, achieving high evaluation metrics. The findings indicate that while random oversampling improved data balance, it did not significantly enhance model performance, suggesting the need for alternative oversampling techniques in future research. This work contributes to the field of medical diagnostics by emphasizing the critical role of hyperparameter tuning in enhancing classification accuracy for early lung cancer detection.