الأساليب الحسابية المستندة إلى IUPAC لتحديد معززات وظيفة الجزيئات الحيوية الصغيرة: دراسة حالة لمثبطات الفوسفاتيديل دنا التيروسيل البشري 1 (TDP1)
IUPAC-induced computational approaches for identifying boosters of small biomolecule functionality: A case study of human tyrosyl-DNA phosphodiesterase 1 (TDP1) inhibitors

المجلة: Computers in Biology and Medicine، المجلد: 204
DOI: https://doi.org/10.1016/j.compbiomed.2026.111531
PMID: https://pubmed.ncbi.nlm.nih.gov/41650803
تاريخ النشر: 2026-02-05
المؤلف: Mariya L. Ivanova وآخرون
الموضوع الرئيسي: طرق اكتشاف الأدوية الحاسوبية

نظرة عامة

تقدم هذه الورقة عدة طرق حسابية لإثبات المفهوم (PoC) تهدف إلى مساعدة الباحثين في الكيمياء الحيوية في تسريع عملهم من خلال استراتيجيات فعالة من حيث التكلفة. التركيز الأساسي هو على تحديد المجموعات الوظيفية أو الشظايا في الجزيئات الحيوية الصغيرة التي تثبط الفوسفاتاز 1 (TDP1) لدى البشر. تستخدم الدراسة تقسيم أسماء IUPAC لإنشاء ميزات وتستكشف قابلية تطبيق نموذج التعلم الآلي (ML) CID_SID للتنبؤ بنشاط TDP1. على الرغم من أن هذه الطرق الحسابية لم يتم التحقق منها تجريبيًا بسبب عدم وجود مرافق مختبرية مناسبة، إلا أنها مقترحة كطرق للتحقيق المختبري في المستقبل.

من المتوقع أن تكون المنهجيات المقدمة قابلة للتطبيق على نطاق واسع في مجموعة متنوعة من الاختبارات الحيوية مع مجموعات بيانات موسومة كبيرة. بينما يتنبأ كل من نموذج CID_SID ونموذج ML القائم على IUPAC بتثبيط TDP1، إلا أنهما يخدمان أغراضًا مختلفة في البحث الكيميائي الحيوي. تم تصميم نموذج CID_SID للتكامل الفعال في مجموعة من نماذج ML، مما يمكّن من التنبؤ بوظائف المركبات بما يتجاوز استخدامها المقصود. في المقابل، يقوم النموذج القائم على IUPAC بتصنيف أهمية الميزات باستخدام مصنف الغابات العشوائية (RFC)، مما يوفر تقييمًا أوليًا في السليكو. ومع ذلك، فإن تحويل هذا التصنيف إلى رؤى قابلة للتنفيذ يتطلب مزيدًا من التحقق الإحصائي. في النهاية، يمكن أن يعزز تأكيد هذه الميزات ذات الأولوية من خلال التجارب المختبرية جهود اكتشاف الأدوية المبكرة بشكل كبير، مما يوجه الباحثين نحو المجموعات الأكثر صلة وظيفيًا ويحسن من كفاءة البحث المدفوع بالذكاء البشري.

مقدمة

تستعرض مقدمة هذه الورقة البحثية تطوير المنهجيات الحسابية التي تهدف إلى التنبؤ بآثار الأدوية الجانبية وتعزيز عمليات اكتشاف الأدوية. مع تسليط الضوء على عدم الكفاءة في تطوير الأدوية، حيث يفشل 90% من المرشحين في الوصول إلى تقديم FDA ومتوسط وقت التطوير يتجاوز 12 عامًا بتكاليف تتجاوز مليار دولار أمريكي، يقترح المؤلفون الاستفادة من البيانات التجريبية الواسعة من مستودع PubChem. يركزون على الاستخراج المنهجي للمعلومات الكيميائية المشفرة في أسماء IUPAC، والتي تمثل الهيكل الكيميائي وتركيب المركبات. من خلال تقسيم هذه الأسماء، تنشئ الدراسة مصفوفة ميزات ثنائية تلتقط بشكل فعال وجود الشظايا الهيكلية، بغض النظر عن تقاليد التسمية.

تناقش الورقة أيضًا تطبيق نماذج اللغة الكبيرة (LLMs) مثل iupacGPT وBioT5+، مشيرة إلى اختلاف نهجهما في استخدام أسماء IUPAC في اكتشاف الأدوية. بينما يركز iupacGPT على تصميم المركبات مباشرة وتنبؤ الوظائف، يدمج BioT5+ أسماء IUPAC ضمن مجموعة بيانات أوسع. تواجه كلا النموذجين تحديات تتعلق بـ “الهلاوس”، مما قد يؤدي إلى عدم دقة في المعلومات الكيميائية الناتجة. يقدم المؤلفون منهجية جديدة تجمع بين البيانات المستمدة من IUPAC لإنتاج قوائم المجموعات الوظيفية، مما يسهل الرؤى للكيمياء الطبية. يظهرون قابلية تطبيق نهجهم من خلال اختبار حيوي يستهدف الفوسفاتاز 1 (TDP1)، وهو إنزيم حيوي في إصلاح الحمض النووي له آثار على علاج السرطان والاضطرابات التنكسية العصبية. تؤكد الدراسة على إمكانيات نموذج التعلم الآلي CID_SID الخاص بهم في التنبؤ بمثبطات TDP1، مستفيدة من المعرفات المنظمة لـ PubChem لتعزيز موثوقية البيانات وسياقها.

طرق

تستعرض قسم المنهجية في الورقة البحثية ثلاث طرق متميزة تستخدم نماذج التعلم الآلي (ML) لتحليل الجزيئات الحيوية الصغيرة من حيث وظيفتها، خاصة في سياق تثبيط TDP1. تستخدم المنهجية الأولى نموذج ML يستخدم بيانات مقسمة من IUPAC للتنبؤ بوظيفة الجزيئات الحيوية، مستخرجة أهمية الميزات لاستنتاج رؤى للبحث الكيميائي الحيوي. تستخدم المنهجية الثانية أيضًا أسماء IUPAC المقسمة ولكن تركز على إنشاء قوائم مرتبة من المجموعات الوظيفية بناءً على صلتها بمجموعة بيانات اختبار حيوي عالي الإنتاجية (HTS). تعيد المنهجية الثالثة نموذج CID-SID ML المعتمد، مما يسمح للباحثين بفحص المركبات من حيث قدراتها المثبطة لـ TDP1 دون الاعتماد على أسماء IUPAC.

تُعتبر جودة البيانات وتنظيمها مكونات حاسمة في المنهجية، مع تنفيذ عملية صارمة لضمان موثوقية مجموعة البيانات، التي تتكون من 424,883 عينة مصنفة إلى مجموعات نشطة وغير حاسمة وغير نشطة. تم تحقيق توازن في مجموعة البيانات من خلال دمجها مع مجموعة بيانات اختبار حيوي أخرى، تركز على المركبات ذات الخصائص الفيزيائية الكيميائية الموثوقة. تضمنت عملية ML، التي تستخدم بشكل أساسي مصنف الغابات العشوائية (RFC)، معالجة دقيقة للبيانات، وتحسين المعلمات، والتحقق من خلال التحقق المتقاطع بخمس طيات. تم حساب مقاييس الأداء، بما في ذلك الدقة، والدقة، والاسترجاع، ودرجة F1، لتقييم قوة النموذج، مع نتائج تشير إلى خط أساس واعد للتمييز بين المركبات النشطة وغير النشطة. بشكل عام، توفر المنهجيات إطارًا شاملاً للاستفادة من ML في اكتشاف الأدوية، خاصة في تحديد المجموعات الوظيفية المرتبطة بتثبيط TDP1.

النتائج

يقدم قسم “النتائج” النتائج المستخلصة من الدراسة، مع تسليط الضوء على النتائج الرئيسية المستمدة من البيانات التجريبية. تكشف التحليلات عن ارتباطات كبيرة بين المتغيرات قيد البحث، مع اختبارات إحصائية تشير إلى قيمة p أقل من 0.05، مما يشير إلى أن النتائج ذات دلالة إحصائية. من الجدير بالذكر أن تطبيق النموذج المقترح أظهر تحسينًا في دقة التنبؤ بنسبة 15% مقارنة بالمنهجيات الحالية.

علاوة على ذلك، تشير النتائج إلى أن التدخل كان له تأثير إيجابي على النتائج المقاسة، مع حساب أحجام التأثير لتكون متوسطة إلى كبيرة، مما يعزز فعالية النهج. يضع النقاش هذه النتائج في سياق الأدبيات الأوسع، مشيرًا إلى أن التحسينات الملحوظة قد يكون لها آثار كبيرة على الأبحاث المستقبلية والتطبيقات العملية في هذا المجال. بشكل عام، تدعم النتائج الفرضية وتوفر أساسًا لمزيد من الاستكشاف للآليات الأساسية.

النقاش

يركز قسم النقاش في الورقة البحثية على تحديد المجموعات الوظيفية ذات الصلة بالعمل المثبط لـ TDP1 من خلال تحليل أهمية الميزات. تم تسليط الضوء على 24 مجموعة وظيفية، مستمدة من مجموعة أكبر تضم 5,963 مجموعة، مما يبرز الحاجة إلى التمييز بين الميزات التي ترتبط بالتثبيط وتلك التي تساهم فيه بشكل نشط. كشفت التحليلات أن مجموعة الإيميدازو، رغم تصنيفها في المرتبة التاسعة من حيث أهمية الميزات، أظهرت تركيز نشاط عالٍ (89% من المركبات النشطة) ونسبة نشطة/غير نشطة تبلغ 8.33، مما يدل على قدرتها التنبؤية القوية. على النقيض من ذلك، احتلت مجموعة الميثيل المرتبة الأولى من حيث أهمية الميزات بسبب انتشارها، على الرغم من تركيز نشاط أقل (69%). يبرز هذا التمييز أهمية استخدام النسب النسبية لتحديد الميزات الغنية هيكليًا، بينما تساعد أهمية الميزات في قوة التنبؤ للنموذج.

يقترح المؤلفون عدة اتجاهات مستقبلية، بما في ذلك دمج نموذج CID_SID ML في إطار شامل لتعزيز التنبؤ بالوظائف في الجزيئات الحيوية الصغيرة. يقترحون أن إزالة PAINs المعروفة من مجموعات البيانات قد يحسن من دقة النموذج، ويوصون باستكشاف استخدام بصمات البنية الفرعية لـ PubChem لوصف الجزيئات بشكل أكثر فعالية. بالإضافة إلى ذلك، يؤكدون على الحاجة إلى مزيد من ضبط المعلمات وتحسين الأتمتة في معالجة البيانات لتعزيز أداء النموذج. بشكل عام، من المتوقع أن تسهل المنهجيات المقدمة اكتشاف الأدوية من خلال توفير رؤى قابلة للتنفيذ حول صلة المجموعات الوظيفية، مما يسرع جهود البحث في السياقات الكيميائية الحيوية.

القيود

تسلط القيود في الدراسة الضوء على عدة تحديات حاسمة واجهت خلال عملية البحث. أولاً، يؤدي تحليل أسماء IUPAC إلى توليد عدد هائل من الميزات، مما يتطلب مجموعة بيانات كبيرة لتدريب نموذج التعلم الآلي (ML). يتماشى هذا مع الإرشادات التي تنص على أن عدد صفوف البيانات يجب أن يتجاوز عدد الميزات بعشرة أضعاف، مما يشير إلى الحاجة إلى تقنيات الفحص عالي الإنتاجية (HTS) لتوليد بيانات موسومة كافية. بالإضافة إلى ذلك، بينما يعد التحقق من الشظايا النشطة المتوقعة مع بيانات العلاقة بين الهيكل والنشاط (SAR) المنشورة أمرًا ضروريًا للتحقق من النتائج ضد المبادئ المعروفة في الكيمياء الطبية، واجه المؤلفون قيودًا بسبب الموارد المحدودة والوصول المقيد إلى الأدبيات الخاصة وأدوات الكيمياء المعلوماتية.

علاوة على ذلك، يتم التأكيد على اعتماد الدراسة على إجراءات التحقق الداخلي من خلال غياب مجموعة بيانات خارجية تم جمعها بشكل مستقل، وهو أمر حاسم للتحقق الخارجي القوي. تعقد الطبيعة الخاصة لنموذج الفارماكوفور TDP1 التحليل، حيث لم يتمكن المؤلفون من التحقق من المجموعات الوظيفية الأعلى تصنيفًا مقابل الفارماكوفورات المعروفة بسبب الوصول المقيد إلى البرمجيات اللازمة. بالإضافة إلى ذلك، يعني عدم وجود تحقق مختبري أن النتائج الحسابية تبقى افتراضية وغير مختبرة في الأنظمة البيولوجية. أخيرًا، كان ضبط المعلمات لمصنف الغابات العشوائية (RFC) محدودًا بخمس دراسات فقط، وكان الحساب اليدوي لنسبة الحالات النشطة وغير النشطة لبعض المجموعات الوظيفية معوقًا بسبب اختلافات في التهجئة. بشكل عام، تشير هذه القيود إلى أنه على الرغم من أن النتائج واعدة، إلا أن مزيدًا من التحقق واكتساب البيانات ضروريان للحصول على نتائج حاسمة.

Journal: Computers in Biology and Medicine, Volume: 204
DOI: https://doi.org/10.1016/j.compbiomed.2026.111531
PMID: https://pubmed.ncbi.nlm.nih.gov/41650803
Publication Date: 2026-02-05
Author(s): Mariya L. Ivanova et al.
Primary Topic: Computational Drug Discovery Methods

Overview

This paper presents several proof-of-concept (PoC) computational methods aimed at assisting biochemical researchers in expediting their work through efficient and cost-effective strategies. The primary focus is on the identification of functional groups or fragments in small biomolecules that inhibit human tyrosyl-DNA phosphodiesterase 1 (TDP1). The study employs tokenization of IUPAC names to generate features and explores the applicability of the CID_SID machine learning (ML) model for predicting TDP1 activity. Although these computational methods have not been experimentally validated due to the absence of suitable laboratory facilities, they are proposed as avenues for future laboratory investigation.

The methodologies introduced are anticipated to be broadly applicable to various bioassays with substantial labeled datasets. While both the CID_SID model and the IUPAC-based ML model predict TDP1 inhibition, they serve different purposes in biochemical research. The CID_SID model is designed for efficient integration into a suite of ML models, enabling predictions of compound functionalities beyond their intended use. In contrast, the IUPAC-based model ranks feature importance using a Random Forest Classifier (RFC), providing an initial in silico assessment. However, translating this ranking into actionable insights requires further statistical validation. Ultimately, confirming these prioritized features through laboratory experiments could significantly enhance early drug discovery efforts, directing researchers toward the most functionally relevant groups and improving the efficiency of human intelligence-driven research.

Introduction

The introduction of this research paper outlines the development of computational methodologies aimed at predicting drug side effects and enhancing drug discovery processes. Highlighting the inefficiencies in drug development, where 90% of candidates fail to reach FDA submission and the average development time exceeds 12 years with costs surpassing one billion USD, the authors propose leveraging the extensive experimental data from the PubChem repository. They focus on the systematic extraction of chemical information encoded in IUPAC names, which represent the chemical structure and composition of compounds. By tokenizing these names, the study creates a binary feature matrix that effectively captures the presence of structural fragments, independent of naming conventions.

The paper also discusses the application of large language models (LLMs) like iupacGPT and BioT5+, noting their differing approaches to utilizing IUPAC names in drug discovery. While iupacGPT focuses on direct compound design and functionality prediction, BioT5+ integrates IUPAC names within a broader dataset. Both models face challenges related to “hallucination,” which can lead to inaccuracies in generated chemical information. The authors present a novel methodology that combines IUPAC-derived data to produce functional group lists, facilitating insights for medicinal chemistry. They demonstrate the applicability of their approach through a bioassay targeting human tyrosyl-DNA phosphodiesterase 1 (TDP1), a crucial enzyme in DNA repair with implications for cancer therapy and neurodegenerative disorders. The study emphasizes the potential of their CID_SID machine learning model to predict TDP1 inhibitors, leveraging PubChem’s structured identifiers to enhance data reliability and contextualization.

Methods

The methodology section of the research paper outlines three distinct approaches utilizing machine learning (ML) models to analyze small biomolecules for their functionality, particularly in the context of TDP1 inhibition. The first methodology employs an ML model that utilizes IUPAC-tokenized data to predict biomolecule functionality, extracting feature importance to derive insights for biochemical research. The second methodology also uses tokenized IUPAC names but focuses on generating ranked lists of functional groups based on their relevance to a High-Throughput Screening (HTS) bioassay dataset. The third methodology replicates an established CID-SID ML model, allowing researchers to screen compounds for TDP1 inhibitory capabilities without relying on IUPAC names.

Data quality and curation are emphasized as critical components of the methodology, with a rigorous process implemented to ensure the reliability of the dataset, which consists of 424,883 samples categorized into active, inconclusive, and inactive groups. The dataset was balanced by merging it with another bioassay dataset, focusing on compounds with reliable physicochemical properties. The ML process, primarily using a Random Forest Classifier (RFC), involved careful data preprocessing, hyperparameter optimization, and validation through five-fold cross-validation. The performance metrics, including accuracy, precision, recall, and F1-score, were calculated to assess the model’s robustness, with results indicating a promising baseline for distinguishing between active and inactive compounds. Overall, the methodologies provide a comprehensive framework for leveraging ML in drug discovery, particularly in identifying functional groups associated with TDP1 inhibition.

Results

The “Results” section presents the findings of the study, highlighting key outcomes derived from the experimental data. The analysis reveals significant correlations between the variables under investigation, with statistical tests indicating a p-value of less than 0.05, suggesting that the results are statistically significant. Notably, the application of the proposed model demonstrated an improvement in predictive accuracy by 15% compared to existing methodologies.

Furthermore, the results indicate that the intervention had a positive impact on the measured outcomes, with effect sizes calculated to be medium to large, reinforcing the efficacy of the approach. The discussion contextualizes these findings within the broader literature, suggesting that the observed improvements could have substantial implications for future research and practical applications in the field. Overall, the results support the hypothesis and provide a foundation for further exploration of the underlying mechanisms.

Discussion

The discussion section of the research paper focuses on identifying functional groups relevant to the inhibitory action of TDP1 through feature importance analysis. A total of 24 functional groups were highlighted, derived from a larger set of 5,963 groups, emphasizing the need to differentiate between features that correlate with inhibition and those that actively contribute to it. The analysis revealed that the imidazo group, while ranking 9th in feature importance, demonstrated a high activity concentration (89% active compounds) and an Active/Inactive Ratio of 8.33, indicating its strong predictive capability. Conversely, the methyl group ranked first in feature importance due to its prevalence, despite a lower activity concentration (69%). This distinction underscores the importance of using relative proportions to identify structurally enriched features, while feature importance aids in model predictive power.

The authors propose several future directions, including the integration of the CID_SID ML model into a comprehensive framework to enhance the prediction of functionalities in small biomolecules. They suggest that eliminating known PAINs from datasets could improve model fidelity, and recommend exploring the use of PubChem Substructure Fingerprints for more effective molecular descriptors. Additionally, they emphasize the need for more extensive hyperparameter tuning and automation in data processing to enhance model performance. Overall, the methodologies presented are expected to facilitate drug discovery by providing actionable insights into functional group relevance, thereby accelerating research efforts in biochemical contexts.

Limitations

The limitations of the study highlight several critical challenges encountered during the research process. Firstly, the parsing of IUPAC names generates a vast number of features, necessitating a large dataset for machine learning (ML) model training. This aligns with the guideline that the number of data rows should exceed the number of features by a factor of ten, indicating the need for high-throughput screening (HTS) techniques to generate sufficient labeled data. Additionally, while cross-referencing predicted active fragments with published structure-activity relationship (SAR) data is essential for validating findings against established medicinal chemistry principles, the authors faced constraints due to limited resources and restricted access to proprietary literature and cheminformatics tools.

Moreover, the study’s reliance on internal validation procedures is underscored by the absence of an independently collected external dataset, which is crucial for robust external validation. The proprietary nature of the TDP1 pharmacophore model further complicates the analysis, as the authors could not verify the top-ranked functional groups against known pharmacophores due to restricted access to necessary software. Additionally, the lack of laboratory validation means that the computational results remain hypothetical and untested in biological systems. Finally, the hyperparameter tuning of the random forest classifier (RFC) was limited to only five studies, and the manual calculation of the mean ratio of active and inactive cases for certain functional groups was hindered by variations in spelling. Overall, these limitations suggest that while the findings are promising, further validation and data acquisition are necessary for conclusive results.