MaveDB 2024: قاعدة بيانات مجتمعية مُنسقة تحتوي على أكثر من سبعة ملايين تأثير متغير من اختبارات وظيفية متعددة. MaveDB 2024: a curated community database with over seven million variant effects from multiplexed functional assays

المجلة: Genome biology، المجلد: 26، العدد: 1
DOI: https://doi.org/10.1186/s13059-025-03476-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39838450
تاريخ النشر: 2025-01-21
المؤلف: Alan F. Rubin وآخرون
الموضوع الرئيسي: التطور والديناميات الجينية

نظرة عامة

تحديث 2024 لـ MaveDB، وهو مورد محوري للاختبارات المتعددة لتأثير المتغيرات (MAVEs)، يقدم تحسينات كبيرة تهدف إلى تحسين الوصول إلى بيانات المتغيرات الجينية واستخدامها. تشمل التطورات الرئيسية دمج أكثر من 7 ملايين قياس لتأثير المتغيرات، ونموذج بيانات مطور يستوعب أنواع الاختبارات المختلفة مثل تحرير الجينوم المشبع، وتقديم أدوات جديدة للاستكشاف والتصور. بالإضافة إلى ذلك، تم تطوير واجهات برمجة التطبيقات القوية لتسهيل تجميع البيانات وتبسيط كل من الإرسال والوصول، مما يعزز من مكانة MaveDB كمركز رئيسي لتحليل وتوزيع MAVE.

تؤكد الاستنتاجات على ضرورة التخزين المستقر والمعياري لمجموعات بيانات MAVE، جنبًا إلى جنب مع البيانات الوصفية الأساسية للتطبيقات الفعالة في المستقبل. يعكس تحديث 2024 تحسينات كبيرة في إدارة البيانات، مما يمكن من تخزين ومعيار وتقديم مجموعات بيانات MAVE المتنوعة بشكل أفضل. يُعزى هذا التقدم إلى جهود هندسة البرمجيات الواسعة ويضع MaveDB في وضع يمكنه من التكيف مع الابتكارات المستمرة في تقنيات MAVE. كما يسلط التحديث الضوء على مبادرة تنسيق كبيرة قد أغنت قاعدة البيانات بنحو نصف جميع بيانات MAVE المنشورة، إلى جانب زيادة المشاركة من المجتمع البحثي، مما يُتوقع أن يعزز من المساهمات الإضافية ويعزز من وظائف المنصة للتطبيقات في توقع تأثير المتغيرات، واكتشاف الأدوية، والطب الدقيق.

مقدمة

تسلط المقدمة الضوء على التعرف السريع على المتغيرات الجينية من خلال التقدم في تكنولوجيا تسلسل الحمض النووي، لا سيما ضمن مجموعة بيانات gnomAD v4، التي تشمل حوالي 786 مليون متغير صغير من 800,000 فرد. من بين هذه المتغيرات، هناك 16 مليون متغير غير صحيح، ومع ذلك تم توضيح 1 مليون فقط في ClinVar، مع نسبة كبيرة مصنفة كمتغيرات ذات دلالة غير مؤكدة. وهذا يبرز التحدي في فهم الآثار الوظيفية لهذه المتغيرات على الظواهر، وهو أمر حاسم لعلم الجينوم.

لمعالجة هذا التحدي، ظهرت الاختبارات المتعددة لتأثير المتغيرات (MAVEs)، مما يسمح بالتقييم التجريبي المتزامن لآلاف المتغيرات، مما يؤدي إلى خرائط شاملة لتأثير المتغيرات. هذه الخرائط قيمة لتوضيح المتغيرات السريرية، واستكشاف وظيفة البروتين، وتوضيح تنظيم الجينات. تناقش الورقة تطوير MaveDB، وهو مستودع عام لبيانات MAVE، الذي شهد تحسينات كبيرة للتغلب على القيود السابقة، بما في ذلك زيادة بمقدار ستة أضعاف في قياسات تأثير المتغيرات وتحسين التوافق مع تصاميم تجريبية متنوعة. الآن، يتميز MaveDB المحدث بنموذج بيانات مصقول، وقدرات بحث محسنة، وواجهات سهلة الاستخدام لإرسال البيانات، مما يسهل الوصول الأوسع إلى معلومات تأثير المتغيرات ويدعم الأبحاث المستمرة في علم الجينوم.

مناقشة

شهدت قاعدة بيانات MaveDB تحسينات كبيرة لتحسين تخزين البيانات، والوصول إليها، واستخدامها لبيانات الوظائف المتعددة للمتغيرات. تم إطلاق MaveDB في البداية مع 54 مجموعة بيانات في عام 2019، وقد توسعت لتشمل 1,884 مجموعة بيانات و7 ملايين قياس لتأثير المتغيرات اعتبارًا من نوفمبر 2024، ويرجع ذلك إلى جهد تنسيق منسق يشمل مساهمات من مؤسسات متعددة. تم تحسين عملية التنسيق لضمان دقة واكتمال البيانات الوصفية، التي تشمل الآن أوصافًا مفصلة للطرق التجريبية والمراجع لقواعد بيانات ذات صلة. ومن الجدير بالذكر أن MaveDB قد نفذت هيكل بيانات هرمي يسمح بتنظيم أفضل لمجموعات الدرجات، والتجارب، ومجموعات التجارب، مما يسهل تحسين إمكانية الاكتشاف وسلامة البيانات.

بالإضافة إلى التحسينات الهيكلية، انتقل MaveDB إلى واجهة ويب حديثة وواجهة برمجة التطبيقات، مما يعزز تجربة المستخدم ويمكّن من إرسال البيانات برمجيًا. تتيح الواجهة الجديدة التصورات التفاعلية وتحميل البيانات بشكل مبسط، بينما تدعم واجهة برمجة التطبيقات إصدارات البيانات بالجملة والتحقق المحلي من مجموعات البيانات. تعمل قاعدة البيانات الآن بموجب ترخيص المجال العام CC0 من Creative Commons، مما يعزز الوصول المفتوح إلى بيانات MAVE. هذه التحسينات تجعل MaveDB موردًا حيويًا للباحثين في توقع تأثير المتغيرات والطب الدقيق، مما يعزز من مشاركة المجتمع وتعاونه في هذا المجال. يهدف الالتزام المستمر بتنسيق البيانات والميزات سهلة الاستخدام إلى تعزيز فائدة وتأثير MaveDB في المجتمع العلمي.

Journal: Genome biology, Volume: 26, Issue: 1
DOI: https://doi.org/10.1186/s13059-025-03476-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39838450
Publication Date: 2025-01-21
Author(s): Alan F. Rubin et al.
Primary Topic: Evolution and Genetic Dynamics

Overview

The 2024 update to MaveDB, a pivotal resource for multiplexed assays of variant effect (MAVEs), introduces significant enhancements aimed at improving the accessibility and utility of genetic variant data. Key advancements include the incorporation of over 7 million variant effect measurements, an upgraded data model that accommodates various assay types such as saturation genome editing, and the introduction of new exploration and visualization tools. Additionally, robust APIs have been developed to facilitate data federation and streamline both submission and access, reinforcing MaveDB’s position as a central hub for MAVE analysis and dissemination.

The conclusions emphasize the necessity for stable and standardized storage of MAVE datasets, along with essential metadata for effective downstream applications. The 2024 update reflects substantial improvements in data management, enabling better storage, standardization, and presentation of diverse MAVE datasets. This progress is attributed to extensive software engineering efforts and positions MaveDB to adapt to ongoing innovations in MAVE technologies. The update also highlights a significant curation initiative that has enriched the database with nearly half of all published MAVE data, alongside increased engagement from the research community, which is expected to foster further contributions and enhance the platform’s functionality for applications in variant effect prediction, drug discovery, and precision medicine.

Introduction

The introduction highlights the rapid identification of genetic variants through advancements in DNA sequencing technology, particularly within the gnomAD v4 dataset, which includes approximately 786 million small variants from 800,000 individuals. Among these, 16 million are missense variants, yet only 1 million have been annotated in ClinVar, with a significant proportion classified as variants of uncertain significance. This underscores the challenge of understanding the functional implications of these variants on phenotypes, which is critical for genomics.

To address this challenge, multiplexed assays of variant effect (MAVEs) have emerged, allowing the simultaneous experimental assessment of thousands of variants, resulting in comprehensive variant effect maps. These maps are valuable for clarifying clinical variants, probing protein function, and elucidating gene regulation. The paper discusses the development of MaveDB, a public repository for MAVE data, which has undergone significant enhancements to overcome previous limitations, including a six-fold increase in variant effect measurements and improved compatibility with diverse experimental designs. The updated MaveDB now features a refined data model, enhanced search capabilities, and user-friendly interfaces for data submission, facilitating broader access to variant effect information and supporting ongoing research in genomics.

Discussion

The MaveDB database has undergone significant enhancements to improve the storage, accessibility, and usability of multiplexed variant functional data. Initially launched with 54 datasets in 2019, MaveDB has expanded to include 1,884 datasets and 7 million variant effect measurements as of November 2024, largely due to a concerted curation effort involving contributions from multiple institutions. The curation process has been refined to ensure the accuracy and completeness of metadata, which now includes detailed descriptions of experimental methods and references to related databases. Notably, MaveDB has implemented a hierarchical data structure that allows for better organization of score sets, experiments, and experiment sets, facilitating improved discoverability and data integrity.

In addition to structural improvements, MaveDB has transitioned to a modern web interface and API, enhancing user experience and enabling programmatic data submission. The new interface allows for interactive visualizations and simplified data uploads, while the API supports bulk data releases and local validation of datasets. The database now operates under a Creative Commons CC0 public domain license, promoting open access to MAVE data. These advancements position MaveDB as a vital resource for researchers in variant effect prediction and precision medicine, fostering greater community engagement and collaboration in the field. The ongoing commitment to data curation and user-friendly features aims to further enhance the utility and impact of MaveDB in the scientific community.