كتالوج عميق للتنوع الجيني للبروتينات في 983,578 فردًا
A deep catalogue of protein-coding variation in 983,578 individuals

المجلة: Nature، المجلد: 631، العدد: 8021
DOI: https://doi.org/10.1038/s41586-024-07556-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38768635
تاريخ النشر: 2024-05-20
المؤلف: Kathie Sun وآخرون
الموضوع الرئيسي: علم الوراثة والمعلوماتية الحيوية والبحوث الطبية الحيوية

نظرة عامة

تقدم هذه الدراسة كتالوجًا شاملاً لمتغيرات البروتين البشري المشفرة المشتقة من تسلسل الإكسوم لـ 983,578 فردًا، تشمل مجموعة متنوعة من الأنساب. تُعرف هذه المجموعة البيانية باسم مركز جينيات ريجينيرون مليون إكسوم (RGC-ME)، وتتضمن أكثر من 10.4 مليون متغير من نوع الميسنس و1.1 مليون متغير متوقع لفقدان الوظيفة (pLOF). من الجدير بالذكر أن الدراسة تحدد متغيرات pLOF نادرة ثنائية الأليل في 4,848 جينًا، مع 1,751 من هذه الجينات تم الإبلاغ عنها حديثًا. تكشف التحليلات عن 3,988 جينًا غير متسامح لفقدان الوظيفة، بما في ذلك 86 تم تصنيفها سابقًا على أنها متسامحة، وتبرز 1,482 جينًا تحتوي على مناطق خالية من متغيرات الميسنس على الرغم من التسامح مع متغيرات pLOF.

تؤكد النتائج على أهمية مجموعات البيانات الجينية واسعة النطاق لفهم وظيفة الجين وتسهيل الطب الدقيق. تقدر الدراسة أن 3% من الأفراد يمتلكون متغيرات جينية قابلة للتطبيق سريريًا، بينما من المحتمل أن تكون 11,773 متغيرًا في ClinVar ذات أهمية غير معروفة ضارة لمواقع الربط الخفية. لتعزيز تفسير المتغيرات ودعم الطب الدقيق المستند إلى الجينات، جعل المؤلفون مجموعة بيانات RGC-ME متاحة للجمهور من خلال متصفح تردد الأليل المتغير. من المتوقع أن تسرع هذه المورد اكتشاف الجينات المرتبطة بالأمراض وتوجه التدخلات الصيدلانية، كما يتضح من ارتباط فقدان وظيفة PCSK9 بمستويات الكوليسترول المنخفضة.

نقاش

في هذا القسم، يناقش المؤلفون تداعيات تسلسل الجينوم على نطاق السكان لفهم قيود الجينات وعلاقتها بالأمراض. يقدمون مقاييس مختلفة لتقييم قيود الجينات، مع التركيز بشكل خاص على متغيرات pLOF (فقدان الوظيفة الناتج عن تقصير البروتين). من خلال تحليل مجموعة بيانات تضم حوالي 822,000 فرد، يقدر المؤلفون معامل الاختيار ($s_{het}$) لـ 16,710 جينًا مشفرًا للبروتين، ويجدون قيمة متوسطة تبلغ 0.073، مما يشير إلى أن متغيرات pLOF غير المتجانسة تقلل من اللياقة التطورية بمعدل 7.3%. تكشف هذه التحليلات أن الجينات المرتبطة بالأمراض المندلية تظهر قيم $s_{het}$ أعلى، مما يشير إلى قيود أقوى على هذه الجينات مقارنةً بالآخرين. تحدد الدراسة 3,988 جينًا مقيدًا بشدة، مع نسبة كبيرة مرتبطة بأمراض معروفة، مما يبرز أهميتها المحتملة في أبحاث الأمراض.

علاوة على ذلك، يستكشف المؤلفون مفهوم “الضربات البشرية”، حيث يحددون 4,848 جينًا تحتوي على متغيرات pLOF ثنائية الأليل، مما يوفر رؤى حول وظيفة الجين من خلال التوصيف الظاهري. يؤكدون على فائدة هذه المتغيرات في اكتشاف الأدوية، حيث قد تمثل الجينات التي تحتوي على متغيرات pLOF متماثلة الأليل أهدافًا دوائية قابلة للتطبيق مع آثار جانبية قليلة. يناقش القسم أيضًا توضيح المتغيرات المؤثرة على الربط، وتحسين أدوات التنبؤ لتحديد المتغيرات الضارة بناءً على تأثيرها على الربط. تؤكد النتائج على أهمية كل من مقاييس قيود الجين والمناطق في توضيح الأهمية الوظيفية للمتغيرات الجينية، مما يسهم في فهم أعمق لعلاقات الجين-المرض.

Journal: Nature, Volume: 631, Issue: 8021
DOI: https://doi.org/10.1038/s41586-024-07556-0
PMID: https://pubmed.ncbi.nlm.nih.gov/38768635
Publication Date: 2024-05-20
Author(s): Kathie Sun et al.
Primary Topic: Genetics, Bioinformatics, and Biomedical Research

Overview

The research presents a comprehensive catalogue of human protein-coding variants derived from exome sequencing of 983,578 individuals, encompassing a diverse range of ancestries. This dataset, known as the Regeneron Genetics Center Million Exome (RGC-ME), includes over 10.4 million missense variants and 1.1 million predicted loss-of-function (pLOF) variants. Notably, the study identifies rare biallelic pLOF variants in 4,848 genes, with 1,751 of these genes being newly reported. The analysis reveals 3,988 loss-of-function intolerant genes, including 86 previously classified as tolerant, and highlights 1,482 genes with regions depleted of missense variants despite tolerance to pLOF variants.

The findings underscore the importance of large-scale genetic datasets for understanding gene function and facilitating precision medicine. The study estimates that 3% of individuals possess clinically actionable genetic variants, while 11,773 variants in ClinVar with unknown significance are likely to be deleterious cryptic splice sites. To enhance variant interpretation and support genetics-informed precision medicine, the authors have made the RGC-ME dataset publicly accessible through a variant allele frequency browser. This resource is expected to accelerate the discovery of disease-associated genes and inform pharmacological interventions, exemplified by the association of PCSK9 loss-of-function with reduced cholesterol levels.

Discussion

In this section, the authors discuss the implications of population-scale sequencing for understanding gene constraint and its relationship to disease. They introduce various metrics for assessing the constraint of genes, particularly focusing on the pLOF (protein-truncating loss-of-function) variants. By analyzing a dataset of approximately 822,000 individuals, the authors estimate the selection coefficient ($s_{het}$) for 16,710 protein-coding genes, finding a mean value of 0.073, indicating that heterozygous pLOF variants reduce evolutionary fitness by an average of 7.3%. This analysis reveals that genes associated with Mendelian diseases exhibit higher $s_{het}$ values, suggesting a stronger constraint on these genes compared to others. The study identifies 3,988 highly constrained genes, with a significant proportion linked to known diseases, highlighting their potential importance in disease research.

Furthermore, the authors explore the concept of “human knockouts,” identifying 4,848 genes with biallelic pLOF variants, which provide insights into gene function through phenotypic characterization. They emphasize the utility of these variants in drug discovery, as genes with homozygous pLOF variants may represent viable drug targets with minimal side effects. The section also discusses the annotation of splice-affecting variants, optimizing prediction tools to identify deleterious splice variants based on their impact on splicing. The findings underscore the importance of both gene-level and regional constraint metrics in elucidating the functional significance of genetic variants, ultimately contributing to a deeper understanding of gene-disease relationships.