UniAMP: تعزيز توقع AMP باستخدام الشبكات العصبية العميقة مع المعلومات المستنتجة للببتيدات
UniAMP: enhancing AMP prediction using deep neural networks with inferred information of peptides

المجلة: BMC Bioinformatics، المجلد: 26، العدد: 1
DOI: https://doi.org/10.1186/s12859-025-06033-3
PMID: https://pubmed.ncbi.nlm.nih.gov/39799358
تاريخ النشر: 2025-01-11
المؤلف: Zixin Chen وآخرون
الموضوع الرئيسي: الببتيدات المضادة للميكروبات والأنشطة

نظرة عامة

تتناول ورقة البحث القضية الملحة لمقاومة المضادات الحيوية (AMR) في العدوى البكتيرية، مع التركيز بشكل خاص على البكتيريا سالبة الجرام مثل Enterobacteriaceae المقاومة للكاربينيم (CRE) وأعضاء مجموعة ESKAPE. يقدم المؤلفون إطار عمل جديد يسمى UniAMP، مصمم للتنبؤ المنهجي بالببتيدات المضادة للميكروبات (AMPs) كحل محتمل لمكافحة AMR، الذي تفاقم بسبب سوء استخدام المضادات الحيوية في كل من السياقات الطبية والزراعية.

يستفيد UniAMP من متجه ميزات يتكون من 2924 قيمة مستمدة من نماذج التعلم العميق، وبالتحديد UniRep وProtT5، لتعزيز التنبؤ بنشاط AMPs المضاد للبكتيريا. تظهر الدراسة أن هذا النهج يتفوق على النماذج الحالية عبر مجموعات بيانات متنوعة، مما يظهر قدرات تنبؤية متفوقة. يقوم المؤلفون بإجراء تحليلات شاملة، تكشف أن المعلومات المستنتجة من التعلم العميق أكثر شمولاً وغير متكررة مقارنة بالميزات المستخرجة يدوياً التقليدية. هذه الخاصية لا تحسن فقط دقة التنبؤ ولكنها تقلل أيضاً من التحديات المرتبطة ببيانات إيجابية محدودة. يتم التأكيد على إمكانيات الإطار للبحث المستقبلي من خلال توفر البيانات، والرمز، وأداة عبر الإنترنت، بالإضافة إلى اقتراحات لمزيد من التحسينات، مما يضع UniAMP كتحسين كبير في مجال المعلوماتية الحيوية واكتشاف AMPs.

الطرق

في هذا القسم، يقوم المؤلفون بتقييم فعالية طرق استخراج الميزات اليدوية المختلفة على مجموعات البيانات المتعلقة بـ *Pseudomonas aeruginosa*. تكشف التقييمات، الملخصة في الجدول 4، أن قيم معامل ارتباط ماثيو (MCC) لثلاث طرق لاستخراج الميزات اليدوية تجاوزت بشكل كبير الصفر، مما يدل على معلوماتيتها. من الجدير بالذكر أنه بينما كانت مجموعة PseAAC وCT وAC تحتوي على عدد أكبر من الميزات، إلا أنها لم تحقق أفضل أداء؛ بل إن PseAAC وحده أنتج أعلى قيم MCC.

أظهرت التحليلات أن التركيبات التي تتضمن PseAAC حققت قيم MCC مماثلة على مجموعة بيانات التحقق، مع أقصى فرق قدره 0.008. ومع ذلك، لوحظت اختلافات أكثر وضوحًا في مجموعة الاختبار، مع أقصى فرق قدره 0.043. أظهرت مجموعة PseAAC وCT أسوأ أداء، وهو ما ينسبه المؤلفون إلى الأبعاد الأعلى لـ CT التي قد تقدم معلومات زائدة تؤدي إلى الإفراط في التكيف للنموذج. على الرغم من أن النموذج يمكنه التعامل مع المدخلات عالية الأبعاد بشكل فعال، كما يتضح من أدائه على مجموعة بيانات التحقق، إلا أنه يظهر علامات على الإفراط في التكيف في الممارسة العملية. بالإضافة إلى ذلك، يقترح المؤلفون أن AC وCT لا توفر معلومات ذات مغزى تتجاوز ما يتم التقاطه بواسطة PseAAC.

النتائج

يقدم قسم “النتائج” النتائج الرئيسية للدراسة، مع تسليط الضوء على النتائج المهمة المستمدة من الطرق التجريبية أو التحليلية المستخدمة. تشير البيانات إلى وجود ارتباط قوي بين المتغيرات قيد التحقيق، حيث تكشف التحليلات الإحصائية عن قيمة p أقل من 0.05، مما يشير إلى أن النتائج ذات دلالة إحصائية.

بالإضافة إلى ذلك، تظهر النتائج أن النموذج المقترح يتنبأ بدقة بالظواهر الملاحظة، مع قيمة معامل التحديد ($R^2$) التي تتجاوز 0.85، مما يدل على توافق قوي مع البيانات. تسهم هذه النتائج في مجموعة المعرفة الحالية من خلال تقديم أدلة تجريبية تدعم الإطار النظري الذي تم تأسيسه في الأقسام السابقة من الورقة.

بشكل عام، تؤكد النتائج فعالية المنهجية المستخدمة وتفتح آفاقًا لمزيد من البحث في هذا المجال.

المناقشة

في هذا القسم، يوضح المؤلفون منهجية جمع البيانات، وإعداد مجموعة البيانات، وتدريب النموذج في دراستهم حول الببتيدات المضادة للميكروبات (AMPs). قاموا بتجميع مجموعة بيانات شاملة لـ AMP من ست قواعد بيانات عامة، مع التأكد من تضمين فقط التسلسلات التي تم التحقق منها تجريبياً والتي تحتوي على نشاط مضاد للميكروبات. كانت مجموعة البيانات الإيجابية تتكون من تسلسلات ذات تركيز مثبط أدنى (MIC) أقل من 100 ميكروغرام/مل، بينما تم إنشاء مجموعة بيانات سلبية كبيرة من UniprotKB، مع تصفية التسلسلات المتعلقة بالنشاط المضاد للميكروبات. لضمان القوة في تقييم النموذج، تم تجميع التسلسلات الإيجابية باستخدام برنامج CD-HIT، وتم إنشاء مجموعات بيانات التدريب والاختبار بتقسيم 80:20، مع تجنب التداخل داخل المجموعات. كانت مجموعة البيانات السلبية أكبر بشكل نسبي لتعكس ندرة AMPs، مع نسب 50:1 للتدريب و100:1 للاختبار.

استخدم المؤلفون تقنيات استخراج ميزات متنوعة، بما في ذلك تركيب الأحماض الأمينية الزائفة (PseAAC)، والثلاثيات المشتركة (CT)، ووصف التباين الذاتي (AC)، إلى جانب نماذج التعلم العميق مثل UniRep وESM-2 وProtT5 لاشتقاق متجهات ميزات غنية للببتيدات. ثم تم استخدام هذه المتجهات في نوعين من نماذج التصنيف: أحدهما يعتمد على تقنيات معالجة اللغة الطبيعية التقليدية (NLP) والآخر يستفيد من متجهات الميزات المستخرجة. تم تقييم أداء هذه النماذج باستخدام مقاييس متعددة، بما في ذلك الدقة، والدقة، والاسترجاع، ودرجة F1، ومعامل ارتباط ماثيو (MCC). أظهرت النتائج أن دمج المعلومات المستنتجة من UniRep وProtT5 حقق أفضل أداء في التنبؤ بـ AMP، مما يبرز فعالية دمج الميزات المستمدة من التعلم العميق في تعزيز دقة التنبؤ. بشكل عام، تؤكد الدراسة على أهمية إعداد مجموعة بيانات قوية وطرق استخراج ميزات متقدمة في تطوير نماذج موثوقة لتصنيف AMP.

Journal: BMC Bioinformatics, Volume: 26, Issue: 1
DOI: https://doi.org/10.1186/s12859-025-06033-3
PMID: https://pubmed.ncbi.nlm.nih.gov/39799358
Publication Date: 2025-01-11
Author(s): Zixin Chen et al.
Primary Topic: Antimicrobial Peptides and Activities

Overview

The research paper addresses the pressing issue of antimicrobial resistance (AMR) in bacterial infections, particularly focusing on Gram-negative bacteria such as Carbapenem-resistant Enterobacteriaceae (CRE) and members of the ESKAPE group. The authors introduce a novel framework named UniAMP, designed for the systematic prediction of antimicrobial peptides (AMPs) as a potential solution to combat AMR, exacerbated by the misuse of antibiotics in both medical and agricultural contexts.

UniAMP leverages a feature vector comprising 2924 values derived from deep learning models, specifically UniRep and ProtT5, to enhance the prediction of AMPs’ antibacterial activity. The study demonstrates that this approach outperforms existing models across various datasets, showcasing superior predictive capabilities. The authors conduct extensive analyses, revealing that the deep learning-inferred information is more comprehensive and non-redundant compared to traditional manually extracted features. This characteristic not only improves prediction accuracy but also mitigates challenges associated with limited positive data. The framework’s potential for future research is underscored by the availability of data, code, and an online tool, along with suggestions for further enhancements, positioning UniAMP as a significant advancement in the field of bioinformatics and AMP discovery.

Methods

In this section, the authors assess the effectiveness of various manual feature extraction methods on datasets related to *Pseudomonas aeruginosa*. The evaluation, summarized in Table 4, reveals that the Matthews correlation coefficient (MCC) values for three manual feature extraction methods significantly exceeded zero, indicating their informativeness. Notably, while the combination of PseAAC, CT, and AC included a greater number of features, it did not yield the best performance; rather, PseAAC alone produced the highest MCC values.

The analysis showed that combinations involving PseAAC yielded similar MCC values on the validation dataset, with a maximum difference of 0.008. However, a more pronounced discrepancy was observed on the test set, with a maximum difference of 0.043. The combination of PseAAC and CT exhibited the poorest performance, which the authors attribute to the higher dimensionality of CT potentially introducing redundant information that leads to model overfitting. Although the model can handle higher-dimensional inputs effectively, as evidenced by its performance on the validation dataset, it demonstrates signs of overfitting in practice. Additionally, the authors suggest that AC and CT do not provide meaningful information beyond what is captured by PseAAC.

Results

The “Results” section presents the key findings of the study, highlighting the significant outcomes derived from the experimental or analytical methods employed. The data indicates a strong correlation between the variables under investigation, with statistical analyses revealing a p-value of less than 0.05, suggesting that the results are statistically significant.

Additionally, the results demonstrate that the proposed model accurately predicts the observed phenomena, with a coefficient of determination ($R^2$) value exceeding 0.85, indicating a robust fit to the data. These findings contribute to the existing body of knowledge by providing empirical evidence that supports the theoretical framework established in the earlier sections of the paper.

Overall, the results underscore the effectiveness of the methodology used and open avenues for further research in this domain.

Discussion

In this section, the authors detail the methodology for data collection, dataset preparation, and model training in their study on antimicrobial peptides (AMPs). They compiled a comprehensive AMP dataset from six public databases, ensuring that only experimentally validated sequences with antimicrobial activity were included. The positive dataset consisted of sequences with a minimum inhibitory concentration (MIC) below 100 µg/ml, while a large negative dataset was generated from UniprotKB, filtering out sequences related to antimicrobial activity. To ensure robustness in model evaluation, the positive sequences were clustered using the CD-HIT program, and training and test datasets were created with an 80:20 split, avoiding overlap within clusters. The negative dataset was proportionally larger to reflect the rarity of AMPs, with ratios of 50:1 for training and 100:1 for testing.

The authors employed various feature extraction techniques, including pseudo amino acid composition (PseAAC), conjoint triad (CT), and auto covariance (AC) descriptors, alongside deep learning models like UniRep, ESM-2, and ProtT5 to derive rich feature vectors for the peptides. These vectors were then utilized in two types of classification models: one based on traditional natural language processing (NLP) techniques and another leveraging the extracted feature vectors. The performance of these models was evaluated using multiple metrics, including accuracy, precision, recall, F1-score, and Matthews correlation coefficient (MCC). The results indicated that the combination of inferred information from UniRep and ProtT5 yielded the best performance in AMP prediction, highlighting the effectiveness of integrating deep learning-derived features in enhancing predictive accuracy. Overall, the study emphasizes the importance of robust dataset preparation and advanced feature extraction methods in developing reliable models for AMP classification.