DOI: https://doi.org/10.1038/s41586-025-08592-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40011791
تاريخ النشر: 2025-02-26
المؤلف: Marc Feuermann وآخرون
الموضوع الرئيسي: المعلوماتية الحيوية والشبكات الجينومية
نظرة عامة
تستعرض الورقة البحثية جهدًا دوليًا كبيرًا من قبل اتحاد علم الجينات لإنشاء تمثيل شامل وقابل للحساب لوظائف الجينات البشرية، مع دمج النتائج من أكثر من 175,000 منشور. تهدف هذه المبادرة إلى تعزيز فهمنا لمجموعة الوظائف الوظيفية لجينات البروتين البشرية، وهو أمر حاسم لتقدم علم الأحياء والبحث الطبي الحيوي. استخدم المؤلفون نهجًا لنمذجة التطور تم تنسيقه بواسطة خبراء، مما أسفر عن مجموعة بيانات تشمل 68,667 وظيفة جينية مدمجة، تغطي حوالي 82% من جينات البروتين البشرية. تكشف التحليلات عن هيمنة الوظائف التنظيمية الجزيئية وتوفر رؤى حول الأصول التطورية لهذه الوظائف الجينية.
تستند الدراسة إلى محاولات سابقة لوصف وظائف الجينات البشرية، والتي أفادت بخصائص وظيفية لنسبة تتراوح بين 40% إلى 58% من الجينات، وغالبًا ما تفتقر إلى أدلة تجريبية مفصلة. بالمقابل، تقدم الأعمال الحالية تمثيلًا أكثر دقة، حيث ترتبط كل خاصية وظيفية ببيانات تجريبية قابلة للتتبع وتمثل بمصطلحات من علم الجينات. لا يحسن هذا التقدم فقط دقة تعيين وظائف الجينات، بل يعزز أيضًا فائدة تحليل إثراء علم الجينات. المجموعة الكاملة من وظائف الجينات البشرية متاحة للجمهور، مما يسهل المراجعة المجتمعية المستمرة وتحسين هذه المورد الحيوي لفهم علم الأحياء البشري وعلاج الأمراض.
الطرق
في هذا القسم، يوضح المؤلفون المنهجية المستخدمة لتحليل الأدلة التجريبية التي تدعم تعليقات PAN-GO لجينات البشر. من بين 68,667 تعليقًا، كان هناك 25,997 (38%) مدعومة مباشرة بأدلة تجريبية من جينات البشر، بينما تم اشتقاق الـ 42,670 المتبقية (62%) من استنتاجات التشابه، مما يشير إلى أن التعليقات المستندة إلى التشابه ساهمت تقريبًا بمقدار 1.8 مرة أكثر من التعليقات التجريبية المباشرة. من الجدير بالذكر أن 21,098 من هذه التعليقات المستندة إلى التشابه كانت مدعومة فقط ببيانات من الكائنات النموذجية، مما يبرز الدور المهم للكائنات النموذجية في فهم وظائف الجينات البشرية. كما كشفت التحليلات أن المساهمات من الكائنات النموذجية تختلف بناءً على المسافة التطورية بينها وبين البشر، حيث دعمت بيانات الفئران حوالي 60% من التعليقات، بينما ساهمت الإشريكية القولونية بحوالي 3%.
تشمل المنهجية أيضًا تقييم اتساق الفئات الوظيفية الجزيئية (MF) والعمليات البيولوجية (BP) والمكونات الخلوية (CC) عبر سلالات الجينات ذات الصلة لاستنتاج العلاقات التطورية. يستخدم القيمون موارد إضافية، مثل قواعد بيانات الكائنات النموذجية وUniProtKB/Swiss-Prot، للتحقق من التعليقات وتحديد السلالات الفرعية المتسقة التي قد تكون قد تطورت بوظائف مميزة. يتم تصنيف تحليل الأدلة التجريبية بدقة، مع الحفاظ على سجلات مفصلة لكل كائن نموذجي، مما يبرز أهمية كل من الأدلة المباشرة والمستنتجة في بناء فهم شامل لوظائف الجينات عبر الأنواع.
المناقشة
تناقش قسم الورقة البحثية تطوير مجموعة شاملة من وظائف الجينات البشرية من خلال طريقة تُسمى التعليق النشوي باستخدام علم الجينات (PAN-GO). يدمج هذا العملية تنسيق الخبراء والدعم الحاسوبي لإنشاء توليفة من تعليقات علم الجينات الأساسية (GO)، التي تربط الجينات بالخصائص الوظيفية بناءً على الأدلة التجريبية. التعليقات الأساسية، المستمدة من أكثر من 175,000 منشور، محدودة في نطاقها وغالبًا ما تعكس سياقات تجريبية محددة بدلاً من فهم كامل لوظائف الجينات. لمعالجة هذه القيود، تستعرض طريقة PAN-GO الأدلة الوظيفية بشكل منهجي عبر الجينات ذات الصلة، وتبني نماذج تطورية، وتوفر تعليقات مدمجة لجينات البشر بناءً على الحفظ التطوري.
أسفرت طريقة PAN-GO عن 68,667 تعليقًا مدمجًا لـ 17,079 جينًا بشريًا مشفرًا للبروتين، تغطي الوظائف الجزيئية (MF) والعمليات البيولوجية (BP) والمكونات الخلوية (CC). من الجدير بالذكر أن PAN-GO أضاف 43,206 تعليقًا جديدًا، مما يعزز التفاصيل الوظيفية ونطاق وظائف الجينات مقارنةً بمجموعات البيانات الحالية. كشفت التحليلات أن ما يقرب من نصف الجينات المعروفة بوظائفها الجزيئية (MF) تشارك في وظائف تنظيمية، مما يشير إلى شبكة معقدة من التفاعلات بين البروتينات. علاوة على ذلك، توفر النماذج التطورية التي تم بناؤها من خلال PAN-GO رؤى حول أصول وظائف الجينات البشرية، مما يبرز فترات مهمة من الابتكار الوظيفي عبر التاريخ التطوري، لا سيما خلال تطور حقيقيات النوى والفقرات. بشكل عام، يمثل إطار عمل PAN-GO تقدمًا كبيرًا في فهم وظائف الجينات البشرية من خلال الاستفادة من العلاقات التطورية ودمج بيانات تجريبية متنوعة.
DOI: https://doi.org/10.1038/s41586-025-08592-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40011791
Publication Date: 2025-02-26
Author(s): Marc Feuermann et al.
Primary Topic: Bioinformatics and Genomic Networks
Overview
The research paper outlines a significant international effort by the Gene Ontology Consortium to create a comprehensive and computable representation of human gene functions, integrating findings from over 175,000 publications. This initiative aims to enhance our understanding of the functional repertoire of human protein-coding genes, which is crucial for advancing biology and biomedical research. The authors employed an expert-curated, explicit evolutionary modeling approach, resulting in a dataset that encompasses 68,667 integrated gene functions, covering approximately 82% of human protein-coding genes. The analysis reveals a predominance of molecular regulatory functions and provides insights into the evolutionary origins of these gene functions.
The study builds on previous attempts to characterize human gene functions, which reported functional characteristics for only 40% to 58% of genes, often lacking detailed experimental evidence. In contrast, the current work offers a more nuanced representation, with each functional characteristic linked to traceable experimental data and represented by terms from the Gene Ontology. This advancement not only improves the accuracy of gene function assignments but also enhances the utility of Gene Ontology enrichment analysis. The complete set of human gene functions is publicly accessible, facilitating ongoing community review and improvement of this vital resource for understanding human biology and disease treatment.
Methods
In this section, the authors detail the methodology used to analyze experimental evidence supporting the PAN-GO annotations for human genes. Out of 68,667 annotations, only 25,997 (38%) were directly supported by experimental evidence from human genes, while the remaining 42,670 (62%) were derived from homology inference, indicating that homology-based annotations contributed nearly 1.8 times more than direct experimental annotations. Notably, 21,098 of these homology-based annotations were solely supported by data from model organisms, underscoring the significant role of model organisms in understanding human gene functions. The analysis also revealed that contributions from model organisms varied based on their evolutionary distance from humans, with mouse data supporting approximately 60% of annotations, while Escherichia coli contributed about 3%.
The methodology further involves assessing the consistency of molecular function (MF), biological process (BP), and cellular component (CC) classes across related gene clades to infer evolutionary relationships. Curators utilize additional resources, such as model organism databases and UniProtKB/Swiss-Prot, to validate annotations and identify consistent subclades that may have evolved distinct functions. The analysis of experimental evidence is meticulously categorized, with detailed records maintained for each model organism, highlighting the importance of both direct and inferred evidence in constructing a comprehensive understanding of gene functions across species.
Discussion
The research paper section discusses the development of a comprehensive set of human gene functions through a method called phylogenetic annotation using Gene Ontology (PAN-GO). This process integrates expert curation and computational support to create a synthesis of primary Gene Ontology (GO) annotations, which link genes to functional characteristics based on experimental evidence. The primary annotations, derived from over 175,000 publications, are limited in scope and often reflect specific experimental contexts rather than a complete understanding of gene functions. To address these limitations, the PAN-GO approach systematically reviews functional evidence across related genes, constructs evolutionary models, and provides integrated annotations for human genes based on evolutionary conservation.
The PAN-GO method resulted in 68,667 integrated GO annotations for 17,079 human protein-coding genes, covering molecular functions (MF), biological processes (BP), and cellular components (CC). Notably, PAN-GO added 43,206 new annotations, enhancing the functional detail and breadth of gene functions compared to existing datasets. The analysis revealed that nearly half of the genes with known MF are involved in regulatory functions, indicating a complex network of interactions among proteins. Furthermore, the evolutionary models constructed through PAN-GO provide insights into the origins of human gene functions, highlighting significant periods of functional innovation throughout evolutionary history, particularly during the evolution of eukaryotes and vertebrates. Overall, the PAN-GO framework represents a significant advancement in understanding human gene functions by leveraging evolutionary relationships and integrating diverse experimental data.
