DTIAM: إطار موحد للتنبؤ بتفاعلات الأدوية مع الأهداف، والألفة المرتبطة بها وآليات الأدوية DTIAM: a unified framework for predicting drug-target interactions, binding affinities and drug mechanisms

المجلة: Nature Communications، المجلد: 16، العدد: 1
DOI: https://doi.org/10.1038/s41467-025-57828-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40089473
تاريخ النشر: 2025-03-15
المؤلف: Zhangli Lu وآخرون
الموضوع الرئيسي: طرق اكتشاف الأدوية الحاسوبية

طرق

يتكون إطار عمل DTIAM من ثلاثة مكونات رئيسية: تعلم تمثيل الجزيئات ذاتية الإشراف، تعلم تمثيل البروتينات غير المراقب، ودمج التمثيل لمهام استنتاج الأدوية والأهداف عبر التعلم الآلي الآلي (AutoML). يستخدم تعلم تمثيل الجزيئات ذاتية الإشراف نهجًا على غرار BERT من خلال نموذج يسمى BERMol، الذي يتعلم تمثيلات متجهية للتركيبات الجزيئية من بيانات غير مصنفة على نطاق واسع، تم تدريبها مسبقًا على مجموعة بيانات GuacaMol التي تحتوي على 1.6 مليون مركب. يعامل BERMol التركيبات الجزيئية كـ “كلمات” والجزيئات كـ “جمل”، مستخدمًا خوارزمية مورغان لاستخراج التركيبات ويستخدم بنية Transformer لتوليد تمثيلات منخفضة الرتبة. يتم تدريب النموذج باستخدام ثلاث مهام ذاتية الإشراف: نمذجة اللغة المMasked (MLM)، توقع الوصف الجزيئي (MDP)، وتوقع مجموعة الوظائف الجزيئية (MFGP)، مع كون دالة الخسارة العامة هي مجموع مرجح لخسائر المهام الفردية.

بالنسبة لتعلم تمثيل البروتينات غير المراقب، يستخدم الإطار ESM-2، وهو نموذج لغة بروتينات على نطاق واسع، لاستخراج التضمينات من البروتينات المستهدفة. يتم تدريب ESM-2 على قاعدة بيانات تسلسل البروتين UniRef ويستخدم هدف نمذجة اللغة المMasked للتنبؤ بالأحماض الأمينية المMasked بناءً على سياقها. بالإضافة إلى ذلك، يمكنه التنبؤ بخرائط الاتصال بين البقايا وتوليد هياكل بروتينية ثلاثية الأبعاد عالية الدقة. يتم تقييم إطار عمل DTIAM تحت ثلاثة إعدادات للتحقق المتبادل: بدء دافئ، بدء بارد للأدوية، وبدء بارد للأهداف، كل منها مصمم لتقييم قدرة النموذج على التنبؤ بتفاعلات الأدوية والأهداف تحت ظروف مختلفة من المعرفة السابقة حول الأدوية والأهداف. يتم إجراء تقييم تنبؤات DTI باستخدام التحقق المتبادل 10-fold، بينما يتم تقييم تنبؤات DTA وMoA باستخدام التحقق المتبادل 5-fold.

نتائج

يقدم قسم “النتائج” من ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات التي تم إجراؤها. يوضح بشكل منهجي النتائج، مع تسليط الضوء على الاتجاهات البيانية الهامة والتحليلات الإحصائية التي تدعم الفرضيات. غالبًا ما يتم توضيح النتائج من خلال الأشكال والجداول، التي توفر تمثيلات بصرية للبيانات، مما يسهل تفسير العلاقات المعقدة.

قد يتضمن القسم أيضًا مقارنات بين المجموعات التجريبية، موضحًا أي آثار أو ارتباطات تم ملاحظتها. على سبيل المثال، إذا كانت الدراسة تحقق في فعالية علاج معين، ستقوم النتائج بت quantifying تأثير العلاج، ربما باستخدام مقاييس مثل الفروق المتوسطة أو قيم p لتحديد الأهمية الإحصائية. بشكل عام، يخدم هذا القسم لتأكيد أسئلة البحث المطروحة في المقدمة من خلال تقديم أدلة تجريبية تدعم أو تنفي الفرضيات الأولية.

مناقشة

إطار عمل DTIAM هو نموذج شامل مصمم للتنبؤ بتفاعلات الأدوية والأهداف (DTI)، وميول الأدوية للأهداف (DTA)، وآليات العمل (MoA) من خلال نهج التعلم الذاتي الإشراف. يتكون من ثلاثة وحدات رئيسية: وحدة تدريب مسبق لجزيئات الأدوية تستخدم التعلم الذاتي المتعدد المهام لاستخراج الميزات من الرسوم البيانية الجزيئية؛ وحدة تدريب مسبق للبروتين المستهدف تستخدم خرائط انتباه Transformer لاشتقاق الميزات من تسلسلات البروتين؛ ووحدة تنبؤ موحدة للأدوية والأهداف تدمج الميزات المتعلمة للتنبؤ بـ DTI وDTA وMoA. تستفيد البنية من آليات الانتباه لإعطاء الأولوية للتركيبات والعلاقات ذات الصلة، مما يمكّن من تعلم تمثيل فعال من مجموعات بيانات غير مصنفة كبيرة.

في تقييمات الأداء، أظهر DTIAM قدرات تنبؤية متفوقة عبر مهام ومجموعات بيانات مختلفة، بما في ذلك Yamanishi_08 وHetionet لتنبؤ DTI، ومجموعات بيانات Kinase وKIBA لتنبؤ DTA. من الجدير بالذكر أن DTIAM تفوق على الطرق الأساسية في كل من سيناريوهات البدء الدافئ والبارد، محققًا تحسينات كبيرة في منطقة تحت منحنى الدقة-الاسترجاع (AUPR). بالنسبة لتنبؤ MoA، برع DTIAM أيضًا، خاصة في التمييز بين تأثيرات التنشيط والتثبيط، مما يظهر قوته في التعامل مع مجموعات بيانات غير متوازنة. علاوة على ذلك، نجح DTIAM في تحديد مثبطات محتملة لـ TMEM16A وتنبؤ التفاعلات لـ EGFR وCDK 4/6، مما يثبت قابليته للتطبيق في الفحص الافتراضي للأدوية ويبرز إمكانيته في اكتشاف الأدوية.

Journal: Nature Communications, Volume: 16, Issue: 1
DOI: https://doi.org/10.1038/s41467-025-57828-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40089473
Publication Date: 2025-03-15
Author(s): Zhangli Lu et al.
Primary Topic: Computational Drug Discovery Methods

Methods

The DTIAM framework comprises three primary components: self-supervised molecular representation learning, unsupervised protein representation learning, and representation integration for drug-target inference tasks via automated machine learning (AutoML). The self-supervised molecular representation learning utilizes a BERT-style approach through a model named BERMol, which learns vector representations of molecular substructures from large-scale unlabeled data, specifically pre-trained on the GuacaMol dataset containing 1.6 million compounds. BERMol treats molecular substructures as “words” and molecules as “sentences,” employing the Morgan algorithm to extract substructures and utilizing a Transformer architecture to generate low-rank representations. The model is trained using three self-supervised tasks: Masked Language Modeling (MLM), Molecular Descriptor Prediction (MDP), and Molecular Functional Group Prediction (MFGP), with the overall loss function being a weighted sum of the individual task losses.

For unsupervised protein representation learning, the framework employs ESM-2, a large-scale protein language model, to extract embeddings from target proteins. ESM-2 is trained on the UniRef protein sequence database and utilizes a masked language modeling objective to predict masked amino acids based on their context. Additionally, it can predict residue-residue contact maps and generate high-resolution three-dimensional protein structures. The DTIAM framework is evaluated under three cross-validation settings: warm start, drug cold start, and target cold start, each designed to assess the model’s ability to predict drug-target interactions under varying conditions of prior knowledge about drugs and targets. The evaluation of DTI predictions is conducted using 10-fold cross-validation, while DTA and MoA predictions are assessed using 5-fold cross-validation.

Results

The “Results” section of the research paper presents key findings derived from the conducted experiments or analyses. It systematically outlines the outcomes, highlighting significant data trends and statistical analyses that support the hypotheses. The results are often illustrated through figures and tables, which provide visual representations of the data, enabling easier interpretation of complex relationships.

The section may also include comparisons between experimental groups, detailing any observed effects or correlations. For instance, if the study investigates a specific treatment’s efficacy, the results would quantify the treatment’s impact, possibly using metrics such as mean differences or p-values to establish statistical significance. Overall, this section serves to validate the research questions posed in the introduction by providing empirical evidence that either supports or refutes the initial hypotheses.

Discussion

The DTIAM framework is a comprehensive model designed for predicting drug-target interactions (DTI), drug-target affinities (DTA), and mechanisms of action (MoA) through a self-supervised learning approach. It comprises three main modules: a drug molecular pre-training module that utilizes multi-task self-supervised learning to extract features from molecular graphs; a target protein pre-training module that employs Transformer attention maps to derive features from protein sequences; and a unified drug-target prediction module that integrates the learned features to predict DTI, DTA, and MoA. The architecture leverages attention mechanisms to prioritize relevant substructures and relationships, enabling effective representation learning from large unlabeled datasets.

In performance evaluations, DTIAM demonstrated superior predictive capabilities across various tasks and datasets, including Yamanishi_08 and Hetionet for DTI prediction, and the Kinase and KIBA datasets for DTA prediction. Notably, DTIAM outperformed baseline methods in both warm and cold start scenarios, achieving significant improvements in area under the precision-recall curve (AUPR) metrics. For MoA prediction, DTIAM also excelled, particularly in distinguishing between activation and inhibition effects, showcasing its robustness in handling imbalanced datasets. Furthermore, DTIAM successfully identified potential inhibitors for TMEM16A and predicted interactions for EGFR and CDK 4/6, validating its applicability in virtual drug screening and highlighting its potential in drug discovery.