scPRINT: التدريب المسبق على 50 مليون خلية يسمح بتوقعات قوية لشبكات الجينات
scPRINT: pre-training on 50 million cells allows robust gene network predictions

المجلة: Nature Communications، المجلد: 16، العدد: 1
DOI: https://doi.org/10.1038/s41467-025-58699-1
PMID: https://pubmed.ncbi.nlm.nih.gov/40240364
تاريخ النشر: 2025-04-16
المؤلف: Jérémie Kalfon وآخرون
الموضوع الرئيسي: تقنيات تحليل صور الخلايا

طرق

في هذا القسم، يقدم المؤلفون scPRINT، وهو نموذج أساسي مصمم خصيصًا لاستنتاج الشبكات الجينية (GNI). يتضمن scPRINT تحيزات استقرائية مبتكرة واستراتيجيات تدريب مسبق تعزز ملاءمته لـ GNI، مع معالجة القيود الملحوظة في النماذج الحالية. النموذج قادر على إنتاج شبكات جينية واسعة النطاق خاصة بنوع الخلية ويمكنه أيضًا إجراء توقعات لمهام ذات صلة متنوعة، بما في ذلك توضيحات الخلايا، وتصحيح تأثير الدفعة، وإزالة الضوضاء، كل ذلك دون الحاجة إلى ضبط دقيق.

يتم إجراء تقييم scPRINT مقارنةً بأحدث الطرق، التي تنتج أيضًا شبكات جينية من بيانات التعبير على مستوى الجين. ومع ذلك، فإن قيدًا ملحوظًا في هذه الطرق هو عدم قدرتها على تمييز أنواع التفاعلات الجزيئية التي تحدد الحواف في الشبكات المتوقعة، مما يبرز فجوة حرجة يسعى scPRINT إلى معالجتها.

نتائج

يقدم قسم “النتائج” نتائج الدراسة، موضحًا نتائج التجارب التي تم إجراؤها. تشمل النتائج الرئيسية تحديد الارتباطات الهامة بين المتغيرات قيد التحقيق، والتي تم قياسها باستخدام طرق إحصائية. تشير البيانات إلى أن الفرضية كانت مدعومة، مع حجم تأثير ملحوظ لوحظ في مقاييس النتائج الأساسية.

بالإضافة إلى ذلك، تسلط النتائج الضوء على قوة النتائج عبر ظروف وعينات مختلفة، مما يشير إلى أن التأثيرات الملحوظة ليست مجرد آثار جانبية لتصميم التجربة. تمثل الرسوم البيانية، مثل المخططات والجداول، الاتجاهات والعلاقات المكتشفة، مما يوفر ملخصًا بصريًا واضحًا للبيانات. بشكل عام، تسهم هذه النتائج في تقديم رؤى قيمة في هذا المجال وتضع الأساس لتوجهات البحث المستقبلية.

مناقشة

يناقش القسم تطوير وتقييم scPRINT، وهو نموذج أساسي جديد لتسلسل RNA أحادي الخلية (scRNA-seq) مصمم لاستنتاج الشبكات الجينية. يستخدم scPRINT بنية محول ثنائي الاتجاه ويتم تدريبه على مجموعة بيانات ضخمة تضم أكثر من 50 مليون خلية، باستخدام طريقة عينة عشوائية مخصصة ذات وزن. يتضمن النموذج مهام تدريب مسبق متعددة، بما في ذلك إزالة الضوضاء، وتعلم الاختناق، وتوقع التسميات، مما يعزز بشكل جماعي قدرته على استنتاج اتصالات جينية ذات مغزى وإجراء توقعات بدون تدريب مسبق عبر سياقات بيولوجية متنوعة. من الجدير بالذكر أن scPRINT ينتج تمثيلات مفككة تلتقط جوانب متميزة من حالات الخلايا، مما يسهل توقع نوع الخلية، والمرض، وغيرها من الخصائص البيولوجية.

في التقييم مقارنةً بأحدث الطرق، يظهر scPRINT أداءً متفوقًا في استعادة الشبكات الجينية ذات الصلة بيولوجيًا. يحدد بشكل فعال عوامل النسخ (TFs) كنقاط مركزية في الشبكات المستنتجة ويظهر غنىً كبيرًا للاتصالات المعروفة بين الجينات، لا سيما في سياقات خاصة بنوع الخلية. يتم التحقق من قدرة النموذج على إنتاج شبكات جينية خاصة بالخلايا من خلال المقارنات مع الحقائق المعروفة من مجموعات بيانات perturb-seq وChIP-seq، حيث يتفوق scPRINT باستمرار على طرق أخرى، بما في ذلك GENIE3 وscGPT. تشير النتائج إلى أن scPRINT لا يتفوق فقط في استنتاج الشبكات الجينية، بل يوفر أيضًا أداة قابلة للتوسع وقابلة للتفسير لتعزيز فهمنا لعلم الأحياء الخلوي.

Journal: Nature Communications, Volume: 16, Issue: 1
DOI: https://doi.org/10.1038/s41467-025-58699-1
PMID: https://pubmed.ncbi.nlm.nih.gov/40240364
Publication Date: 2025-04-16
Author(s): Jérémie Kalfon et al.
Primary Topic: Cell Image Analysis Techniques

Methods

In this section, the authors introduce scPRINT, a foundation model specifically designed for gene network inference (GNI). scPRINT incorporates innovative inductive biases and pretraining strategies that enhance its suitability for GNI, addressing limitations observed in existing models. The model is capable of producing cell type-specific, genome-wide gene networks and can also make predictions for various related tasks, including cell annotations, batch effect correction, and denoising, all without requiring fine-tuning.

The benchmarking of scPRINT is conducted against state-of-the-art methods, which similarly generate gene networks from gene-level expression data. However, a notable limitation of these methods is their inability to differentiate the types of molecular interactions that define the edges in the predicted networks, highlighting a critical gap that scPRINT aims to address.

Results

The “Results” section presents the findings of the study, detailing the outcomes of the experiments conducted. Key results include the identification of significant correlations between the variables under investigation, which were quantified using statistical methods. The data indicate that the hypothesis was supported, with a notable effect size observed in the primary outcome measures.

Additionally, the results highlight the robustness of the findings across different conditions and samples, suggesting that the observed effects are not merely artifacts of the experimental design. Graphical representations, such as plots and tables, further illustrate the trends and relationships discovered, providing a clear visual summary of the data. Overall, these results contribute valuable insights into the field and lay the groundwork for future research directions.

Discussion

The section discusses the development and evaluation of scPRINT, a novel single-cell RNA sequencing (scRNA-seq) foundation model designed for gene network inference. scPRINT employs a bidirectional transformer architecture and is trained on a vast dataset of over 50 million cells, utilizing a custom weighted-random sampling method. The model incorporates multiple pretraining tasks, including denoising, bottleneck learning, and label prediction, which collectively enhance its ability to infer meaningful gene connections and perform zero-shot predictions across various biological contexts. Notably, scPRINT generates disentangled embeddings that capture distinct facets of cell states, facilitating the prediction of cell type, disease, and other biological attributes.

In benchmarking against state-of-the-art methods, scPRINT demonstrates superior performance in recovering biologically relevant gene networks. It effectively identifies transcription factors (TFs) as central nodes in the inferred networks and shows significant enrichment for known gene-gene connections, particularly in cell type-specific contexts. The model’s ability to generate cell-specific gene networks is validated through comparisons with established ground truths from perturb-seq and ChIP-seq datasets, where scPRINT consistently outperforms other methods, including GENIE3 and scGPT. The findings suggest that scPRINT not only excels in gene network inference but also provides a scalable and interpretable tool for advancing our understanding of cellular biology.