تحوير الطفرات في مواقع التشبع لـ 500 مجال بروتين بشري
Site-saturation mutagenesis of 500 human protein domains

المجلة: Nature، المجلد: 637، العدد: 8047
DOI: https://doi.org/10.1038/s41586-024-08370-4
PMID: https://pubmed.ncbi.nlm.nih.gov/39779847
تاريخ النشر: 2025-01-08
المؤلف: Antoni Beltran وآخرون
الموضوع الرئيسي: علم الجينوم والأمراض النادرة

نظرة عامة

في هذا القسم، يصف المؤلفون بناء مكتبة شاملة من متغيرات الأحماض الأمينية لمجالات البروتين البشري باستخدام تقنية التخليق الضخم المتوازي المستندة إلى الشرائح الدقيقة (mMPS). المكتبة، التي تُسمى Human Domainome 1، تتكون من 1,230,584 متغير عبر 1,248 مجال بروتين متنوع هيكليًا، مع تحويل كل موضع حمض أميني إلى جميع الأحماض الأمينية الأخرى الـ19. تشير نتائج التسلسل إلى مكتبة عالية الجودة، حيث تحقق تغطية بنسبة 91% من استبدالات الأحماض الأمينية المقصودة.

لتقييم تأثير هذه الطفرات على استقرار المجال، استخدم المؤلفون اختبار تكامل شظايا البروتين بوفرة (aPCA)، الذي يعمل كنظام اختيار داخل الخلايا. تتيح هذه الطريقة قياس تأثيرات الاستقرار لمختلف استبدالات الأحماض الأمينية داخل مجالات البروتين، مما يوفر رؤى حول الآثار الوظيفية للطفرات في البروتينات البشرية.

مقدمة

في هذا القسم، يوسع المؤلفون تحليلهم لنماذج طاقة بولتزمان إلى 26 عائلة من مجالات البروتين ضمن Human Domainome، محققين معامل ارتباط بيرسون الوسيط بقيمة $r = 0.80$ وتباين قابل للتفسير بنسبة 80.7%. أظهرت النماذج أداءً تنبؤيًا قويًا، خاصةً بالنسبة للأقارب المرتبطة ارتباطًا وثيقًا بمجموعة بيانات التدريب، مع الحفاظ على دقة معقولة للتسلسلات الأكثر تباينًا. ومن الجدير بالذكر أن هذه النماذج الطاقية تفوقت على ThermoMPNN، المتنبئ الرائد للاستقرار، وأظهرت ارتباطًا جيدًا مع مسحات الطفرات العميقة للاستقرار. تشير النتائج إلى أن التأثيرات المتبادلة تساهم بشكل ضئيل في استقرار البروتين عبر تباينات التسلسل المختلفة، على الرغم من أن الانخفاض في الأداء التنبؤي مع زيادة التباين يشير إلى دورها المحتمل في تطور البروتين.

استخدم المؤلفون MoCHI لتناسب نماذج الديناميكا الحرارية ذات الحالتين للعائلات التي تحتوي على أقارب كافية، باستخدام بنية شبكة عصبية تتضمن طاقات طي مشتركة وتحويلًا يعتمد على توزيع بولتزمان. تم التحقق من أداء النموذج من خلال التحقق المتقاطع بعشرة أضعاف، مما كشف عن ارتباط عالٍ مع طاقات نموذج بولتزمان الأصلية. حدد تحليل المتغيرات المتبادلة 25,410 طفرة ذات بقايا كبيرة، غنية في النوى المدفونة لمجالات البروتين، مما يشير إلى أن التفاعلات الجينية أكثر أهمية في هذه المناطق مقارنةً بالمخلفات المعرضة للمذيب. تؤكد هذه الأبحاث على أهمية فهم التفاعلات المتبادلة في سياق استقرار البروتين وتطوره.

طرق

يستعرض قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في سؤال البحث. استخدمت الدراسة نهجًا كميًا، يتضمن تحليلات إحصائية لتقييم البيانات المجمعة من تجارب مختلفة. شملت المنهجيات المحددة تجارب مختبرية خاضعة للرقابة، حيث تم التلاعب بالمتغيرات بشكل منهجي لتقييم تأثيراتها على النتائج ذات الصلة.

شمل جمع البيانات مزيجًا من الاستطلاعات والقياسات المباشرة، مما يضمن مجموعة بيانات شاملة للتحليل. تم تطبيق اختبارات إحصائية، مثل ANOVA وتحليل الانحدار، لتحديد أهمية النتائج واستكشاف العلاقات بين المتغيرات. يبرز القسم صرامة الطرق المستخدمة، مشددًا على أهمية القابلية للتكرار والصلاحية في عملية البحث. بشكل عام، أسس الإطار المنهجي قاعدة قوية للنتائج والاستنتاجات اللاحقة التي تم التوصل إليها في الدراسة.

مناقشة

في هذه الدراسة، يقدم المؤلفون تحليلًا شاملاً لاستقرار البروتين وآثاره على النمو الخلوي، واللياقة التطورية، والمرضية. استخدموا التسلسل عالي الإنتاجية لتقييم تأثيرات العديد من المتغيرات على وفرة البروتين عبر 563,534 متغير في 522 مجال بروتين، كاشفين عن ارتباط قوي بين استقرار البروتين ومعدلات النمو الخلوي. أظهرت مجموعة البيانات قابلية عالية للتكرار، مع معامل ارتباط بيرسون الوسيط بقيمة $r = 0.85$ بين النسخ البيولوجية. ومن الجدير بالذكر أن تغييرات الاستقرار شكلت وسطاء بنسبة 30% من التباين في لياقة البروتين، مع إظهار المجالات الكاملة من بيتا مساهمة أعلى (40%) مقارنةً بالمجالات الكاملة من ألفا والمختلطة (25%).

تسلط الأبحاث الضوء أيضًا على دور الاستقرار في المرضية، حيث تحدد أن 61% من المتغيرات المعلنة سريريًا تؤدي إلى عدم استقرار البروتينات، مع تركيز نسبة كبيرة من المتغيرات المرضية في مجالات معينة. وجد المؤلفون أن العلاقة بين الاستقرار والمرضية تختلف عبر عائلات المجالات، حيث تظهر بعض المجالات، مثل مجال LIM، ارتباطًا قويًا بين عدم الاستقرار والمرضية، بينما تظهر مجالات أخرى، مثل مجال ربط الميثيل MECP2، متغيرات مرضية لا تؤدي إلى عدم استقرار كبير في البروتين. يشير هذا إلى أنه بينما يعد الاستقرار عاملًا حاسمًا في العديد من الأمراض، قد تلعب آليات جزيئية أخرى أيضًا أدوارًا مهمة، خاصةً في الاضطرابات السائدة. بشكل عام، تؤكد النتائج على أهمية استقرار البروتين في فهم كل من اللياقة التطورية والأساس الجزيئي للأمراض.

Journal: Nature, Volume: 637, Issue: 8047
DOI: https://doi.org/10.1038/s41586-024-08370-4
PMID: https://pubmed.ncbi.nlm.nih.gov/39779847
Publication Date: 2025-01-08
Author(s): Antoni Beltran et al.
Primary Topic: Genomics and Rare Diseases

Overview

In this section, the authors describe the construction of a comprehensive library of amino acid variants for human protein domains using microchip-based massive in parallel synthesis (mMPS) technology. The library, termed the Human Domainome 1, comprises 1,230,584 variants across 1,248 structurally diverse protein domains, with each amino acid position mutated to all other 19 amino acids. The sequencing results indicate a high-quality library, achieving 91% coverage of the intended amino acid substitutions.

To assess the impact of these mutations on domain stability, the authors employed an abundance protein fragment complementation assay (aPCA), which serves as an in-cell selection system. This approach allows for the quantification of the stability effects of the various amino acid substitutions within the protein domains, providing insights into the functional implications of mutagenesis in human proteins.

Introduction

In this section, the authors extend their analysis of Boltzmann energy models to 26 protein domain families within the Human Domainome, achieving a median Pearson’s correlation coefficient of $r = 0.80$ and an explainable variance of 80.7%. The models demonstrated strong predictive performance, particularly for homologues closely related to the training dataset, while still maintaining reasonable accuracy for more divergent sequences. Notably, these energy models outperformed ThermoMPNN, the leading stability predictor, and showed good correlation with stability deep mutagenesis scans. The findings suggest that epistasis contributes minimally to protein stability across varying sequence divergences, although the decay in predictive performance with increasing divergence indicates its potential role in protein evolution.

The authors employed MoCHI to fit two-state thermodynamic models for families with sufficient homologues, utilizing a neural network architecture that incorporates shared folding energies and a transformation based on the Boltzmann distribution. The model’s performance was validated through tenfold cross-validation, revealing high correlation with original Boltzmann model energies. The analysis of epistatic variants identified 25,410 mutations with significant residuals, enriched in the buried cores of protein domains, indicating that genetic interactions are more critical in these regions compared to solvent-exposed residues. This research underscores the importance of understanding epistatic interactions in the context of protein stability and evolution.

Methods

The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research question. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from various experiments. Specific methodologies included controlled laboratory experiments, where variables were systematically manipulated to assess their effects on the outcomes of interest.

Data collection involved a combination of surveys and direct measurements, ensuring a comprehensive dataset for analysis. Statistical tests, such as ANOVA and regression analysis, were applied to determine the significance of the findings and to explore relationships between variables. The section emphasizes the rigor of the methods used, highlighting the importance of replicability and validity in the research process. Overall, the methodological framework established a robust basis for the subsequent results and conclusions drawn in the study.

Discussion

In this study, the authors present a comprehensive analysis of protein stability and its implications for cellular growth, evolutionary fitness, and pathogenicity. They utilized high-throughput sequencing to assess the effects of numerous variants on protein abundance across 563,534 variants in 522 protein domains, revealing a strong correlation between protein stability and cellular growth rates. The dataset demonstrated high reproducibility, with a median Pearson’s correlation coefficient of $r = 0.85$ among biological replicates. Notably, stability changes accounted for a median of 30% of the variance in protein fitness, with all-beta domains showing a higher contribution (40%) compared to all-alpha and mixed domains (25%).

The research also highlights the role of stability in pathogenicity, identifying that 61% of clinically annotated variants destabilize proteins, with a significant proportion of pathogenic variants concentrated in specific domains. The authors found that the relationship between stability and pathogenicity varies across domain families, with some domains, such as the LIM domain, showing a strong correlation between destabilization and pathogenicity, while others, like the methyl-binding domain of MECP2, exhibit pathogenic variants that do not significantly destabilize the protein. This suggests that while stability is a crucial factor in many diseases, other molecular mechanisms may also play significant roles, particularly in dominant disorders. Overall, the findings underscore the importance of protein stability in understanding both evolutionary fitness and the molecular basis of diseases.