النمذجة الكيميائية والحاسوبية للأدوية المغلفة بالبوليسكاريد لتوصيل الأدوية إلى القولون
Chemometric and computational modeling of polysaccharide coated drugs for colonic drug delivery

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-99823-x
PMID: https://pubmed.ncbi.nlm.nih.gov/40287592
تاريخ النشر: 2025-04-26
المؤلف: Ahmed Al‐Omari وآخرون
الموضوع الرئيسي: ذوبانية الأدوية وأنظمة التوصيل

نظرة عامة

تقدم هذه الدراسة منهجية تستخدم تحليل المكونات الرئيسية (PCA) والانحدار باستخدام التعلم الآلي (ML) للتنبؤ بإطلاق حمض 5-أمينوساليسيليك من تركيبات مغلفة بالبوليسكاريد. تم جمع البيانات الطيفية باستخدام طريقة رامان وكانت مدخلات لثلاثة نماذج تعلم آلي: الشبكة المرنة (EN)، والانحدار الجماعي (GRR)، والبيرسيبترون متعدد الطبقات (MLP). تتكون مجموعة البيانات من 155 عينة تحتوي على أكثر من 1500 ميزة طيفية، والتي خضعت للتطبيع، وتحليل المكونات الرئيسية لتقليل الأبعاد، واكتشاف القيم الشاذة عبر مسافة كوك. تم تنفيذ ضبط المعلمات الفائقة باستخدام خوارزمية العفن الطحلبي (SMA)، وتم تقييم أداء النموذج من خلال التحقق المتقاطع باستخدام k-fold (k = 3).

أشارت النتائج إلى أن نموذج MLP تفوق بشكل كبير على كل من EN و GRR عبر جميع مقاييس الأداء. على وجه التحديد، حقق MLP معامل تحديد ($R^2$) قدره 0.9989، مقارنة بـ $R^2$ الخاص بـ EN الذي بلغ 0.9760 و $R^2$ الخاص بـ GRR الذي بلغ 0.7137. بالإضافة إلى ذلك، أظهر MLP أقل قيمة لجذر متوسط مربع الخطأ (RMSE) ومتوسط الخطأ المطلق (MAE) عند 0.0084 و 0.0067، على التوالي، بينما أظهرت EN و GRR معدلات خطأ أعلى. أكدت مخططات التماثل ومنحنيات التعلم أيضًا موثوقية MLP التنبؤية، حيث أظهرت الحد الأدنى من الإفراط في التكيف وتوافقًا وثيقًا بين القيم الفعلية والمتوقعة. تؤسس هذه النتائج نموذج MLP كأداة قوية لنمذجة البيانات الطيفية المعقدة بدقة، مع آثار كبيرة على تحسين أنظمة توصيل الأدوية القولونية. قد تركز الأبحاث المستقبلية على تحسين هياكل الشبكات العصبية واستكشاف مجموعات بيانات أكبر لتحسين الدقة التنبؤية بشكل أكبر.

طرق

تصف المنهجية الموضحة في هذا القسم نهجًا منهجيًا للنمذجة، كما هو موضح في الشكل 2. تبدأ العملية بالتطبيع القياسي لمجموعة البيانات لضمان أن جميع الميزات على مقياس متسق، وهو أمر أساسي للنماذج التي تكون حساسة لمقياس الميزات. بعد ذلك، يتم استخدام تحليل المكونات الرئيسية (PCA) لتقليل أبعاد مساحة الميزات، مع الحفاظ على أكبر تباين مهم مع تبسيط مجموعة البيانات. يتم ترميز المتغيرات الفئوية لتكون متوافقة مع خوارزميات التعلم الآلي، ويتم إجراء اكتشاف القيم الشاذة باستخدام مسافة كوك لتحديد وإدارة النقاط البيانية المؤثرة.

بعد هذه الخطوات المسبقة، يتم تنفيذ ضبط المعلمات الفائقة باستخدام خوارزمية العفن الطحلبي (SMA) لتعزيز أداء النموذج. يتم تدريب ثلاثة نماذج تعلم آلي—الشبكة المرنة (EN)، والانحدار الجماعي (GRR)، والبيرسيبترون متعدد الطبقات (MLP)—على مجموعة البيانات المعدة. لضمان تقييم قوي للنماذج، يتم استخدام التحقق المتقاطع باستخدام k-fold (مع \( k = 3 \))، مما يساعد على تقليل الإفراط في التكيف ويوفر تقديرًا موثوقًا للأداء عبر مجموعات بيانات فرعية مختلفة. يتم تقييم النماذج النهائية باستخدام مقاييس مثل \( R^2 \)، RMSE، و MAE لتقييم دقتها وقدراتها التنبؤية.

نتائج

يقيم قسم النتائج أداء ثلاثة نماذج تنبؤية: الشبكة المرنة (EN)، والانحدار الجماعي (GRR)، والبيرسيبترون متعدد الطبقات (MLP) في التنبؤ بالمتغير المستهدف، الإطلاق. تم حساب مقاييس الأداء الرئيسية، بما في ذلك معامل التحديد ($R^2$)، وجذر متوسط مربع الخطأ (RMSE)، ومتوسط الخطأ المطلق (MAE)، لكل من مجموعات بيانات التدريب والاختبار (80% تدريب، 20% اختبار). تفوق نموذج MLP على كل من EN و GRR، محققًا $R^2$ قدره 0.999258 على مجموعة التدريب و 0.998904 على مجموعة الاختبار، مقارنة بـ $R^2$ الخاص بـ EN الذي بلغ 0.976016 و $R^2$ الخاص بـ GRR الذي بلغ 0.713703. بالإضافة إلى ذلك، أظهر MLP أقل RMSE (0.008369) و MAE (0.006719) على مجموعة الاختبار، مما يشير إلى دقة تنبؤية متفوقة.

تضمن هيكل نموذج MLP طبقة مخفية تحتوي على 250 خلية عصبية واستخدم دالة تنشيط ‘الهوية’، مما يعزز الأداء من خلال محلل ‘lbfgs’ مع تحمل قدره 0.0023611 وحد أقصى من 20,000 تكرار. أكدت التمثيلات المرئية، مثل مخططات التماثل ومنحنيات التعلم، هذه النتائج، حيث أظهر MLP توافقًا شبه مثالي على طول خط التماثل وأقل إفراط في التكيف. كما شمل التحليل شكلًا يوضح العلاقة بين الوقت وسلوك الإطلاق، مما يشير إلى أن إطلاق الدواء ينخفض مع مرور الوقت بسبب تراجع تدرجات التركيز. بشكل عام، تم تحديد نموذج MLP كنموذج الأكثر فعالية وموثوقية للتنبؤ بالمتغير المستهدف في هذه الدراسة.

مناقشة

في هذه الدراسة، تم استخدام مجموعة بيانات تتكون من 155 عينة لنمذجة سلوك الإطلاق لحمض 5-أمينوساليسيليك (5-ASA) باستخدام تقنيات تعلم آلي متنوعة. تتكون مجموعة البيانات من أكثر من 1500 ميزة طيفية مستمدة من تحليل رامان، إلى جانب متغيرات فئوية تمثل الظروف البيئية وأنواع تغليف الأدوية. شملت خطوات المعالجة المسبقة التطبيع القياسي، وتحليل المكونات الرئيسية (PCA) لتقليل الأبعاد، واكتشاف القيم الشاذة عبر مسافة كوك، والتي عززت بشكل جماعي جودة البيانات وقابليتها للتفسير. استخدمت الدراسة نماذج الشبكة المرنة (EN)، والانحدار الجماعي (GRR)، والبيرسيبترون متعدد الطبقات (MLP)، مع إجراء تحسين المعلمات الفائقة باستخدام خوارزمية العفن الطحلبي (SMA).

أشارت النتائج إلى أن نموذج MLP تفوق بشكل كبير على كل من EN و GRR عبر جميع مقاييس الأداء، محققًا R² قدره 0.9989، مقارنة بـ 0.9760 لـ EN و 0.7137 لـ GRR. بالإضافة إلى ذلك، أظهر MLP أقل RMSE للاختبار وMAE، مما يدل على دقة تنبؤية متفوقة. أظهرت مخططات التماثل توافقًا شبه مثالي بين القيم الفعلية والمتوقعة لنموذج MLP، بينما أشارت منحنيات التعلم إلى تعلم فعال مع الحد الأدنى من الإفراط في التكيف. تؤكد هذه النتائج فعالية نموذج MLP في التنبؤ بسلوكيات إطلاق الأدوية في مجموعات البيانات الطيفية، مما يشير إلى إمكانيته للتطبيقات المستقبلية في النمذجة التنبؤية الدقيقة. قد تشمل اتجاهات البحث المستقبلية استكشاف هياكل الشبكات العصبية المتنوعة ومجموعات بيانات أكبر لتعزيز أداء النموذج بشكل أكبر.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-99823-x
PMID: https://pubmed.ncbi.nlm.nih.gov/40287592
Publication Date: 2025-04-26
Author(s): Ahmed Al‐Omari et al.
Primary Topic: Drug Solubulity and Delivery Systems

Overview

This study presents a methodology utilizing Principal Component Analysis (PCA) and machine learning (ML) regression to predict the release of 5-aminosalicylic acid from polysaccharide-coated formulations. Spectral data were collected using the Raman method and served as inputs for three ML models: Elastic Net (EN), Group Ridge Regression (GRR), and Multilayer Perceptron (MLP). The dataset comprised 155 samples with over 1500 spectral features, which underwent normalization, PCA for dimensionality reduction, and outlier detection via Cook’s Distance. Hyperparameter tuning was performed using the Slime Mould Algorithm (SMA), and model performance was assessed through k-fold cross-validation (k = 3).

The results indicated that the MLP model significantly outperformed both EN and GRR across all performance metrics. Specifically, MLP achieved a coefficient of determination ($R^2$) of 0.9989, compared to EN’s $R^2$ of 0.9760 and GRR’s $R^2$ of 0.7137. Additionally, MLP exhibited the lowest root mean square error (RMSE) and mean absolute error (MAE) values at 0.0084 and 0.0067, respectively, while EN and GRR showed higher error rates. Parity plots and learning curves further confirmed MLP’s predictive reliability, demonstrating minimal overfitting and close alignment between actual and predicted values. These findings establish the MLP model as a robust tool for accurately modeling complex spectral data, with significant implications for enhancing colonic drug delivery systems. Future research may focus on optimizing neural network architectures and exploring larger datasets to further improve predictive accuracy.

Methods

The methodology outlined in this section describes a systematic approach to modeling, as illustrated in Figure 2. The process begins with standard normalization of the dataset to ensure that all features are on a consistent scale, which is essential for models that are sensitive to feature scaling. Following this, Principal Component Analysis (PCA) is employed to reduce the dimensionality of the feature space, preserving the most significant variance while simplifying the dataset. Categorical variables are encoded for compatibility with machine learning algorithms, and outlier detection is conducted using Cook’s Distance to identify and manage influential data points.

Subsequent to these preprocessing steps, hyperparameter tuning is executed using the Slime Mould Algorithm (SMA) to enhance model performance. Three machine learning models—Elastic Net (EN), Group Ridge Regression (GRR), and Multilayer Perceptron (MLP)—are trained on the prepared dataset. To ensure a robust evaluation of the models, k-fold cross-validation (with \( k = 3 \)) is utilized, which helps mitigate overfitting and provides a reliable estimate of performance across various data subsets. The final models are assessed using metrics such as \( R^2 \), RMSE, and MAE to evaluate their accuracy and predictive capabilities.

Results

The results section evaluates the performance of three predictive models: Elastic Net (EN), Group Ridge Regression (GRR), and Multilayer Perceptron (MLP) in forecasting the target variable, release. Key performance metrics, including the coefficient of determination ($R^2$), root mean square error (RMSE), and mean absolute error (MAE), were calculated for both training and test datasets (80% train, 20% test). The MLP model outperformed both EN and GRR, achieving an $R^2$ of 0.999258 on the training set and 0.998904 on the test set, compared to EN’s $R^2$ of 0.976016 and GRR’s $R^2$ of 0.713703. Additionally, MLP exhibited the lowest RMSE (0.008369) and MAE (0.006719) on the test set, indicating superior predictive accuracy.

The MLP model’s architecture included a hidden layer with 250 neurons and utilized an ‘identity’ activation function, optimizing performance through the ‘lbfgs’ solver with a tolerance of 0.0023611 and a maximum of 20,000 iterations. Visual representations, such as parity plots and learning curves, further corroborated these findings, with MLP showing a near-perfect alignment along the parity line and minimal overfitting. The analysis also included a figure illustrating the relationship between time and release behavior, indicating that drug release decreases over time due to diminishing concentration gradients. Overall, the MLP model is identified as the most effective and reliable model for predicting the target variable in this study.

Discussion

In this study, a dataset of 155 samples was utilized to model the release behavior of 5-aminosalicylic acid (5-ASA) using various machine learning techniques. The dataset comprised over 1500 spectral features derived from Raman analysis, alongside categorical variables representing environmental conditions and drug coating types. Preprocessing steps included standard normalization, Principal Component Analysis (PCA) for dimensionality reduction, and outlier detection via Cook’s Distance, which collectively enhanced data quality and interpretability. The study employed Elastic Net (EN), Group Ridge Regression (GRR), and Multilayer Perceptron (MLP) models, with hyperparameter optimization conducted using the Slime Mould Algorithm (SMA).

The results indicated that the MLP model significantly outperformed both EN and GRR across all performance metrics, achieving an R² of 0.9989, compared to EN’s 0.9760 and GRR’s 0.7137. Additionally, MLP exhibited the lowest test Root Mean Square Error (RMSE) and Mean Absolute Error (MAE), demonstrating superior predictive accuracy. The parity plots illustrated a near-perfect alignment between actual and predicted values for the MLP model, while the learning curve indicated effective learning with minimal overfitting. These findings affirm the MLP model’s efficacy for predicting drug release behaviors in spectral datasets, suggesting its potential for future applications in precise predictive modeling. Future research directions may include exploring diverse neural network architectures and larger datasets to further enhance model performance.