DOI: https://doi.org/10.1038/s41467-025-56261-7
PMID: https://pubmed.ncbi.nlm.nih.gov/39837861
تاريخ النشر: 2025-01-21
المؤلف: Yuki Kagaya وآخرون
الموضوع الرئيسي: آليات تخليق RNA والبروتين
نظرة عامة
تناقش هذه الفقرة الدور المحوري لـ RNA في العمليات البيولوجية، مع التأكيد على وظائفه كـ RNA رسول (mRNA) و RNAs غير المشفرة (ncRNAs). على الرغم من أهمية فهم الهياكل الثلاثية لـ RNA لتوضيح آلياتها الوظيفية، فإن التحديد التجريبي لهذه الهياكل محدود ويتطلب موارد كبيرة، مما يؤدي إلى فجوة كبيرة في البيانات الهيكلية المتاحة. لمعالجة هذه المشكلة، يقدم المؤلفون NuFold، وهو نهج حسابي جديد يستخدم تقنيات التعلم العميق المتقدمة للتنبؤ بالهياكل الثلاثية لـ RNA من التسلسلات.
يستخدم NuFold شبكة عصبية عميقة مدربة من البداية إلى النهاية، تتضمن تمثيل مركز النيوكليو بيس الذي يسمح بتكوينات مرنة لحلقة الريبوز. تظهر دراسات المعايير أن NuFold يتفوق على الطرق التقليدية المعتمدة على الطاقة ويحقق نتائج قابلة للمقارنة مع الأساليب المتقدمة الحالية في التعلم العميق، حيث يتفوق بشكل خاص في نمذجة الهندسة المحلية لـ RNA بدقة. يتم تعزيز أداء NuFold بشكل أكبر من خلال استخدام تسلسلات الميتاجينوم لمحاذاة التسلسلات المتعددة وزيادة عدد دورات إعادة التدوير. بالإضافة إلى ذلك، فإن NuFold قادر على التنبؤ بهياكل المجمعات المتعددة من خلال ربط التسلسلات المدخلة، مما يوفر أداة شاملة للتنبؤ بهياكل RNA في ظل محدودية توفر البيانات المستمدة تجريبيًا.
الطرق
في هذا القسم، يقارن المؤلفون أداء نمذجة طريقتهم، NuFold، ضد خمسة طرق موجودة للتنبؤ بهياكل RNA، مصنفة إلى تقنيات تقليل الطاقة (SimRNA و FARFAR2) وطرق قائمة على التعلم العميق (DeepFoldRNA و trRosettaRNA و RhoFold). شملت التقييم 36 هدفًا من مجموعة الاختبار، مع تقديم النتائج لكل من طريقة NuFold الأساسية وإصدار محسّن يستخدم محاذاة التسلسلات المتعددة (MSAs) التي تدمج بيانات الميتاجينوم واستراتيجيات إعادة التدوير. تضمنت مقاييس الأداء الرئيسية التشابه العام والمحلي للهيكل العظمي (RMSD و lDDT)، بالإضافة إلى دقة شبكة التفاعل (INF)، التي تقيم دقة تفاعلات القواعد داخل هيكل RNA.
تشير النتائج إلى أن NuFold تفوق بشكل كبير على الطرق التقليدية SimRNA و FARFAR2 عبر جميع المقاييس التي تم تقييمها. بينما أظهر أداءً أقل قليلاً في مقاييس الهيكل العام والمحلي مقارنة ببعض طرق التعلم العميق، تفوق NuFold في درجات INF، محققًا أعلى متوسط درجات لكل من INF_stack و INF_all. يُعزى هذا الأداء المتفوق إلى تمثيل مركز النيوكليو بيس المبتكر في NuFold، الذي يركز على موضع القواعد بالنسبة لذرة C1’، مما يعزز تركيز النموذج على وضع القواعد بدقة في هياكل RNA.
النتائج
يقدم قسم “النتائج” من ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات التي تم إجراؤها. يسلط الضوء على النتائج المهمة التي تدعم الفرضيات أو أسئلة البحث المطروحة في الدراسة. عادةً ما يتم توضيح البيانات من خلال أشكال مختلفة من التمثيل، مثل الجداول أو الرسوم البيانية أو المخططات، مما يسهل فهم النتائج بشكل أوضح.
قد يتضمن القسم أيضًا تحليلات إحصائية تتحقق من النتائج، مشيرةً إلى مستوى الأهمية وفترات الثقة المرتبطة بالنتائج. يتم مناقشة أي اتجاهات أو ارتباطات أو أنماط ملحوظة بالنسبة للإطار النظري الذي تم تأسيسه سابقًا في الورقة، مما يوفر نظرة شاملة حول كيفية مساهمة النتائج في الجسم المعرفي القائم في هذا المجال.
المناقشة
تعتبر بنية NuFold نموذج تعلم عميق من البداية إلى النهاية مصمم للتنبؤ بالهيكل الثلاثي لجميع الذرات لـ RNA من تسلسله. يتكون من ثلاثة وحدات رئيسية: وحدة معالجة مسبقة للبيانات المدخلة، كتل Evoformer لتوليد تمثيلات من محاذاة التسلسلات المتعددة (MSA) ومعلومات الأزواج المتبقية، ووحدة هيكلية تقوم ببناء نماذج ثلاثية الأبعاد لـ RNA. يستخدم النموذج تمثيل مركز النيوكليو بيس المرن لإعادة إنتاج تكوينات النيوكليوتيدات بدقة، محققًا انحراف متوسط مربع الجذر (RMSD) قدره 0.04 Å و 0.03 Å لتكوينات السكر C3′-endo و C2′-endo، على التوالي. تم تدريب NuFold على مجموعة بيانات تتكون من 2860 سلسلة RNA، وتم التحقق منها على 48 سلسلة، واختبارها على 36 تسلسل RNA غير متكرر، مما يظهر أداءً قويًا في التنبؤ بالهياكل.
تم تقييم أداء NuFold بناءً على مقاييس RMSD ودرجة الاختبار العالمي (GDT-TS)، مع نتائج تشير إلى أن النماذج التي تركز على RMSD و GDT-TS أدت بشكل مشابه في مجموعة الاختبار، حيث تم طي 25 هدفًا من RNA ضمن RMSD قدره 6 Å. استكشفت الدراسة أيضًا تأثيرات عوامل مختلفة على دقة النمذجة، مثل طول الهدف، عمق MSA، وعدد دورات إعادة التدوير. من الجدير بالذكر أن زيادة عمق MSAs وعدد دورات إعادة التدوير عمومًا حسنت الدقة، على الرغم من ملاحظة عوائد متناقصة بعد نقطة معينة. كما أن دمج تسلسلات الميتاجينوم في MSAs عزز أداء النمذجة، مما أسفر عن تحسين متوسط RMSD قدره 0.3 Å. بالإضافة إلى ذلك، وُجد أن دقة التنبؤات الهيكلية الثانوية ترتبط بشكل معتدل مع الدقة العامة للنمذجة، مما يبرز أهمية المعلومات الدقيقة حول الهيكل الثانوي في التنبؤ بالهيكل الثلاثي لـ RNA.
DOI: https://doi.org/10.1038/s41467-025-56261-7
PMID: https://pubmed.ncbi.nlm.nih.gov/39837861
Publication Date: 2025-01-21
Author(s): Yuki Kagaya et al.
Primary Topic: RNA and protein synthesis mechanisms
Overview
The section discusses the pivotal role of RNA in biological processes, emphasizing its functions as both messenger RNA (mRNA) and non-coding RNAs (ncRNAs). Despite the importance of understanding RNA tertiary structures for elucidating their functional mechanisms, the experimental determination of these structures is limited and resource-intensive, resulting in a significant gap in available structural data. To address this issue, the authors introduce NuFold, a novel computational approach that employs advanced deep learning techniques to predict RNA tertiary structures from sequences.
NuFold utilizes a deep neural network trained end-to-end, incorporating a nucleobase center representation that allows for flexible ribose ring conformations. Benchmark studies demonstrate that NuFold outperforms traditional energy-based methods and achieves results comparable to existing state-of-the-art deep learning approaches, particularly excelling in accurately modeling local RNA geometries. The performance of NuFold is further enhanced by employing metagenome sequences for multiple sequence alignment and increasing the number of recycling iterations. Additionally, NuFold is capable of predicting multimer complex structures by linking input sequences, thereby offering a comprehensive tool for RNA structure prediction amidst the limited availability of experimentally derived data.
Methods
In this section, the authors compare the modeling performance of their method, NuFold, against five existing RNA structure prediction methods, categorized into energy-minimization techniques (SimRNA and FARFAR2) and deep learning-based approaches (DeepFoldRNA, trRosettaRNA, and RhoFold). The evaluation involved 36 test set targets, with results presented for both the baseline NuFold method and an enhanced version utilizing multiple sequence alignments (MSAs) that integrate metagenomic data and recycling strategies. Key performance metrics included global and local backbone similarity (RMSD and lDDT), as well as the Interaction Network Fidelity (INF), which assesses the accuracy of base interactions within the RNA structure.
The findings indicate that NuFold significantly outperformed the conventional methods SimRNA and FARFAR2 across all evaluated metrics. While it exhibited slightly lower performance in global and local structure metrics compared to some deep learning methods, NuFold excelled in INF scores, achieving the highest average scores for both INF_stack and INF_all. This superior performance is attributed to NuFold’s innovative nucleobase center representation, which emphasizes the positioning of bases relative to the C1′ atom, thereby enhancing the model’s focus on accurate base placement in RNA structures.
Results
The “Results” section of the research paper presents the key findings derived from the conducted experiments or analyses. It highlights the significant outcomes that support the hypotheses or research questions posed in the study. The data is typically illustrated through various forms of representation, such as tables, graphs, or charts, which facilitate a clearer understanding of the results.
The section may also include statistical analyses that validate the findings, indicating the level of significance and the confidence intervals associated with the results. Any observed trends, correlations, or patterns are discussed in relation to the theoretical framework established earlier in the paper, providing a comprehensive overview of how the results contribute to the existing body of knowledge in the field.
Discussion
The NuFold architecture is an end-to-end deep learning model designed for predicting the all-atom tertiary structure of RNA from its sequence. It comprises three main modules: a preprocessing module for input data, Evoformer blocks for generating embeddings from multiple sequence alignments (MSA) and residue pairwise information, and a structure module that constructs 3D models of RNA. The model utilizes a Flexible Nucleobase Center Representation to accurately reproduce nucleotide conformations, achieving a root mean square deviation (RMSD) of 0.04 Å and 0.03 Å for C3′-endo and C2′-endo sugar conformations, respectively. NuFold was trained on a dataset of 2860 RNA chains, validated on 48 chains, and tested on 36 non-redundant RNA sequences, demonstrating robust performance in structure prediction.
The performance of NuFold was evaluated based on RMSD and Global Distance Test-Total Score (GDT-TS) metrics, with results indicating that both RMSD-centric and GDT-TS-centric models performed comparably on the test set, folding 25 RNA targets within an RMSD of 6 Å. The study also explored the effects of various factors on modeling accuracy, such as target length, MSA depth, and the number of recycling iterations. Notably, increasing the depth of MSAs and the number of recycling iterations generally improved accuracy, although diminishing returns were observed beyond a certain point. The incorporation of metagenomic sequences into MSAs further enhanced modeling performance, yielding an average RMSD improvement of 0.3 Å. Additionally, the accuracy of secondary structure predictions was found to moderately correlate with the overall modeling accuracy, underscoring the importance of accurate secondary structure information in RNA tertiary structure prediction.
