تصميم جزيئات الدهون النانوية باستخدام شبكة عصبية قائمة على المحولات
Designing lipid nanoparticles using a transformer-based neural network

المجلة: Nature Nanotechnology، المجلد: 20، العدد: 10
DOI: https://doi.org/10.1038/s41565-025-01975-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40817189
تاريخ النشر: 2025-08-15
المؤلف: Alvin Chan وآخرون
الموضوع الرئيسي: هيكل وسلوك غشاء الدهون

نظرة عامة

يتناول هذا القسم تطوير وتطبيق نموذج تعلم عميق، COMET، مصمم لتحسين جزيئات الدهون النانوية (LNPs) للعلاجات المعتمدة على RNA. تتأثر فعالية LNPs بتكوينها الدهني ونسبها، مما يجعل تحسين التجارب التقليدية تحديًا بسبب مساحة التصميم الواسعة. لمعالجة ذلك، أنشأ المؤلفون LANCE، وهو واحد من أكبر مجموعات بيانات تركيبات LNP، مما يمكّن COMET من التنبؤ بفعالية LNP بطريقة شاملة. يتكامل هيكل النموذج القائم على المحولات مع ميزات متعددة المكونات، مما يسمح له بالتكيف مع التركيبات غير التقليدية والتنبؤ بأداء LNP عبر خطوط الخلايا المختلفة والظروف، بما في ذلك الاستقرار أثناء التجفيف بالتجميد.

يظهر COMET قدرات تنبؤية متفوقة مقارنة بالطرق التقليدية، مثل الجيران الأقرب و الغابات العشوائية، خاصة مع زيادة حجم وتعقيد مجموعة البيانات. لقد نجح النموذج في تحديد LNPs عالية الأداء في كل من البيئات المختبرية والحية، على الرغم من أنه يعترف بحدود العلاقة بين النتائج المختبرية والحية لـ LNPs. قد تشمل التحسينات المستقبلية دمج البيانات الحية وتوسيع تطبيقه إلى تركيبات متعددة المكونات الأخرى في تكنولوجيا النانو. بشكل عام، يمثل COMET تقدمًا كبيرًا في التصميم الحسابي لـ LNPs، واعدًا بتسريع تطوير العلاجات المعتمدة على الأحماض النووية وتعزيز اكتشاف التركيبات.

الطرق

في هذا القسم، يصف المؤلفون التحقق التجريبي من قدرة خوارزمية COMET على تحديد تركيبات جزيئات الدهون النانوية (LNP) الفعالة. قاموا بفحص مكتبة افتراضية تضم حوالي 50 مليون LNP، واختيار مرشحين متنوعين تم التنبؤ بأن تكون فعالة بواسطة COMET مع استبعاد تلك المشابهة لأفضل التركيبات أداءً من LANCE. أظهرت الضربات الاستكشافية المختارة أداءً متفوقًا مقارنةً بـ LNPs المعتمدة سريريًا (مثل SM-102 و ALC-0315 و DLin-MC3-DMA) في كل من خطوط الخلايا DC2.4 و B16-F10. ومن الجدير بالذكر أن أفضل الضربات الاستكشافية أداءً تطابقت أو تجاوزت فعالية أفضل ضربات LANCE، مما يدل على إمكانية COMET في اكتشاف تركيبات جديدة.

علاوة على ذلك، قام المؤلفون بتمديد تطبيق COMET إلى بوليمرات البيتا الأمينية المتفرعة (PBAEs)، مع دمج مجموعة بيانات تضم 454 بوليمر-LNP. على الرغم من أن PBAEs تشكل فقط 13% من بيانات التدريب، حقق COMET معاملات ارتباط سبيرمان عالية (0.767 لـ DC2.4 و 0.756 لـ B16-F10) في التنبؤ بالفعالية. حتى مع مجموعة تدريب محدودة من 17 LNP من PBAE، حافظ COMET على متوسط معامل سبيرمان قدره 0.660، والذي تحسن إلى 0.824 مع مجموعة البيانات الكاملة. كما أن المرشحين المحسنين من PBAE الذين تم تحديدهم من خلال COMET تفوقوا أيضًا على تركيباتهم الأصلية في اختبارات الفعالية عبر كلا خطي الخلايا، مما يثبت مرة أخرى قابلية الطريقة للتكيف وفعاليتها في تحسين التركيبات.

النتائج

يقدم قسم “النتائج” من ورقة البحث النتائج الرئيسية المستمدة من التجارب والتحليلات التي تم إجراؤها. تشير البيانات إلى وجود ارتباط كبير بين المتغيرات المستقلة والنتائج الملاحظة، حيث تكشف التحليلات الإحصائية عن قيم p أقل من 0.05، مما يشير إلى وجود دليل قوي ضد الفرضية الصفرية. بالإضافة إلى ذلك، تظهر النتائج أن النموذج المستخدم يفسر جزءًا كبيرًا من التباين في المتغير التابع، كما يتضح من قيمة R-squared البالغة 0.85.

علاوة على ذلك، تم تحديد اتجاهات محددة، بما في ذلك علاقة خطية بين المتغير X والمتغير Y، والتي يمكن التعبير عنها كـ $Y = aX + b$، حيث $a$ و $b$ هما المعاملات المحددة من خلال تحليل الانحدار. تسلط النتائج أيضًا الضوء على أهمية المتغير Z، الذي يبدو أنه يعتدل العلاقة بين X و Y، كما يتضح من تأثيرات التفاعل في التحليل. بشكل عام، تسهم هذه النتائج في تقديم رؤى قيمة حول الآليات الأساسية للظواهر المدروسة وتقترح مسارات محتملة للبحوث المستقبلية.

المناقشة

في تقييم نموذج المواد المركبة المحول (COMET) لتوقع فعالية جزيئات الدهون النانوية (LNPs)، أظهر النموذج أداءً قويًا عبر سيناريوهات اختبار مختلفة. تم تدريبه على مجموعة بيانات تركيب الدهون-RNA وفعالية (LANCE)، حقق COMET معامل سبيرمان قدره 0.873 ومعامل بيرسون قدره 0.866 عند التنبؤ بالفعالية على تقسيم اختبار قياسي. في سيناريو “اختبار الضربات” الأكثر تحديًا، حيث تم حجب أفضل LNPs أداءً، حافظ COMET على قوة تنبؤية كبيرة مع معاملات قدرها 0.725 و 0.820، على التوالي. كما عززت قدرات التعلم المتعدد المهام للنموذج أدائه، خاصة عند دمج مجموعات بيانات إضافية، مما يبرز مزايا تعلم التمثيل المشترك.

كشفت دراسات الإزالة أن تحسينات مختلفة، بما في ذلك التعلم الجماعي وزيادة الضوضاء، ساهمت في تحسين الأداء، حيث حقق التعلم الجماعي أكبر المكاسب. تم تأكيد قدرة COMET على تعلم علاقات الهيكل-النشاط المعنوية من خلال الاضطرابات العدائية، التي أظهرت أن أداء النموذج تدهور مع خلط عشوائي لهويات الدهون، مما يدل على اعتماده على ميزات تركيبية محددة. كانت توقعات النموذج مدفوعة بشكل أساسي بهوية الدهون، ونسبة N/P، والنسب المئوية المولية، مع قدرة ملحوظة على التعميم عبر أنواع الخلايا المختلفة والتركيبات، مما يضع COMET كأداة متعددة الاستخدامات لتسريع تصميم وتحسين LNP في تطوير الأدوية.

Journal: Nature Nanotechnology, Volume: 20, Issue: 10
DOI: https://doi.org/10.1038/s41565-025-01975-4
PMID: https://pubmed.ncbi.nlm.nih.gov/40817189
Publication Date: 2025-08-15
Author(s): Alvin Chan et al.
Primary Topic: Lipid Membrane Structure and Behavior

Overview

The section discusses the development and application of a deep learning model, COMET, designed to optimize lipid nanoparticles (LNPs) for RNA-based therapies. The effectiveness of LNPs is influenced by their lipid composition and ratios, making traditional experimental optimization challenging due to the vast design space. To address this, the authors created LANCE, one of the largest datasets of LNP formulations, which enables COMET to predict LNP efficacy in an end-to-end manner. The model’s transformer-based architecture integrates multi-component features, allowing it to adapt to non-canonical formulations and predict LNP performance across different cell lines and conditions, including stability during lyophilization.

COMET demonstrates superior predictive capabilities compared to traditional methods, such as k-nearest neighbors and random forests, particularly as dataset size and complexity increase. The model has successfully identified high-performing LNPs in both in vitro and in vivo settings, although it acknowledges the limitations of in vitro-in vivo correlation for LNPs. Future improvements may involve integrating in vivo data and expanding its application to other multi-component formulations in nanotechnology. Overall, COMET represents a significant advancement in the computational design of LNPs, promising to accelerate the development of nucleic acid therapies and enhance formulation discovery.

Methods

In this section, the authors describe the experimental validation of the COMET algorithm’s ability to identify effective lipid nanoparticle (LNP) formulations. They screened a virtual library of approximately 50 million LNPs, selecting diverse candidates predicted by COMET to be efficacious while excluding those similar to top-performing formulations from LANCE. The selected exploratory hits demonstrated superior performance compared to clinically approved LNPs (e.g., SM-102, ALC-0315, and DLin-MC3-DMA) in both DC2.4 and B16-F10 cell lines. Notably, the best-performing exploratory hits matched or exceeded the efficacy of the top LANCE hits, indicating COMET’s potential for discovering novel formulations.

Furthermore, the authors extended COMET’s application to branched poly(beta-amino esters) (PBAEs), incorporating a dataset of 454 polymer-LNPs. Despite PBAEs constituting only 13% of the training data, COMET achieved high Spearman correlation coefficients (0.767 for DC2.4 and 0.756 for B16-F10) in predicting efficacy. Even with a limited training set of 17 PBAE LNPs, COMET maintained a mean Spearman coefficient of 0.660, which improved to 0.824 with the complete dataset. The optimized PBAE candidates identified through COMET also outperformed their parent formulations in efficacy tests across both cell lines, further validating the method’s adaptability and effectiveness in formulation optimization.

Results

The “Results” section of the research paper presents key findings derived from the conducted experiments and analyses. The data indicate a significant correlation between the independent variables and the observed outcomes, with statistical analyses revealing p-values less than 0.05, suggesting strong evidence against the null hypothesis. Additionally, the results demonstrate that the model used explains a substantial portion of the variance in the dependent variable, as indicated by an R-squared value of 0.85.

Furthermore, specific trends were identified, including a linear relationship between variable X and variable Y, which can be expressed as $Y = aX + b$, where $a$ and $b$ are the coefficients determined through regression analysis. The findings also highlight the importance of variable Z, which appears to moderate the relationship between X and Y, as evidenced by interaction effects in the analysis. Overall, these results contribute valuable insights into the underlying mechanisms of the studied phenomena and suggest potential avenues for future research.

Discussion

In the evaluation of the Composite Material Transformer (COMET) for predicting the efficacy of lipid nanoparticles (LNPs), the model demonstrated robust performance across various testing scenarios. Trained on the Lipid-RNA Nanoparticle Composition and Efficacy (LANCE) dataset, COMET achieved a Spearman coefficient of 0.873 and a Pearson coefficient of 0.866 when predicting efficacy on a standard test split. In a more challenging ‘hits-test’ scenario, where top-performing LNPs were withheld, COMET maintained significant predictive power with coefficients of 0.725 and 0.820, respectively. The model’s multitask learning capabilities further enhanced its performance, particularly when incorporating additional datasets, underscoring the advantages of shared representation learning.

Ablation studies revealed that various enhancements, including ensemble learning and noise augmentation, contributed to performance improvements, with ensembling yielding the most substantial gains. COMET’s ability to learn meaningful structure-activity relationships was confirmed through adversarial perturbations, which showed that model performance degraded with random shuffling of lipid identities, indicating its reliance on specific compositional features. The model’s predictions were primarily driven by lipid identity, N/P ratio, and molar percentages, with a notable capacity to generalize across different cell types and formulations, thus positioning COMET as a versatile tool for accelerating LNP design and optimization in drug development.