DOI: https://doi.org/10.1038/s42256-024-00974-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40008295
تاريخ النشر: 2025-01-16
المؤلف: Samson Mataraso وآخرون
الموضوع الرئيسي: دراسات الميتابولوميات وقياس الطيف الكتلي
طرق
قسم “الطرق” يوضح الإجراءات التجريبية والتحليلية المستخدمة في الدراسة. استخدم الباحثون مجموعة من الأساليب الكمية والنوعية لجمع البيانات، مما يضمن تحليلًا شاملاً للموضوع. تضمنت المنهجيات المحددة تجارب محكومة، ونمذجة إحصائية، ومحاكاة للتحقق من النتائج.
شملت جمع البيانات تقنيات أخذ عينات منهجية، مع التركيز على تقليل التحيز وضمان التمثيل. تم إجراء التحليل باستخدام برامج إحصائية متقدمة، مما مكن الباحثين من تطبيق اختبارات ونماذج متنوعة لتفسير النتائج بدقة. يبرز القسم صرامة الطرق المستخدمة، مشددًا على ملاءمتها لمعالجة أسئلة البحث المطروحة.
نتائج
تشير النتائج إلى أن إطار عمل COMET فعال عندما تكون بيانات السجلات الصحية الإلكترونية (EHR) متاحة لمجموعة كبيرة من المرضى، بينما تكون بيانات الأوميكس متاحة لمجموعة فرعية أصغر. تتضمن المنهجية تدريب نموذج مسبقًا على بيانات EHR (مجموعة التدريب المسبق) ومن ثم نقل أوزانه إلى شبكة متعددة الأنماط، والتي يتم ضبطها لاحقًا باستخدام كل من بيانات EHR وبيانات الأوميكس من مجموعة “الأوميكس” الأصغر. يتم توضيح هذه العملية في الأشكال المرفقة.
تم تطبيق COMET على مجموعتين مستقلتين: مجموعة الحمل من رعاية ستانفورد الصحية ومجموعة السرطان من بنك المملكة المتحدة الحيوي. في كلا الحالتين، أظهر COMET أداءً متقدمًا في التنبؤ بالنتائج السريرية ذات الصلة—تحديدًا، الأيام حتى بدء المخاض ومعدل الوفيات لجميع الأسباب على مدى ثلاث سنوات. تم إجراء تجارب النمذجة 25 مرة مع تقسيمات تدريب واختبار وتحقق متغيرة، وتم اشتقاق مقاييس الأداء من متوسط التنبؤات لمجموعة التحقق، مما يبرز قوة النتائج.
مناقشة
أظهر إطار عمل COMET تقدمًا كبيرًا في النمذجة التنبؤية لكل من بدء المخاض ووفيات السرطان من خلال دمج السجلات الصحية الإلكترونية (EHR) بفعالية مع بيانات البروتيوميات. في دراسة شملت 30,904 فردًا حاملًا، تنبأ COMET بدقة بتوقيت بدء المخاض وكشف عن رؤى بيولوجية ذات مغزى من خلال ارتباط ميزات EHR وميزات البروتيوميات. من الجدير بالذكر أن النموذج حدد البروتينات المرتبطة بمضاعفات الحمل وتوقيت المخاض، مثل مستقبلات الإنترلوكين-1 الشبيهة 1 والسيستاتين C، المعروفة بتأثيرها على نتائج الحمل. أبرز التحليل أنه بينما أظهرت العديد من البروتينات ارتباطات كبيرة مع ميزات EHR، قدمت نسبة كبيرة (46.5%) معلومات فريدة، مما يبرز الطبيعة التكميلية لأساليب البيانات.
علاوة على ذلك، عند تطبيقه على توقعات السرطان في مجموعة من 36,901 مريضًا من بنك المملكة المتحدة الحيوي، تفوق COMET على النماذج التقليدية، محققًا منطقة تحت منحنى التشغيل الاستقبالي (AUROC) تبلغ 0.842. تم إثبات قدرة النموذج على مواءمة بيانات EHR مع البروتيوميات من خلال عدد أكبر من الارتباطات المهمة مقارنة بالنماذج الأساسية، مما يشير إلى أن COMET يلتقط المعلومات البيولوجية ذات الصلة بشكل أكثر فعالية. خلصت الدراسة إلى أن COMET لا يعزز الأداء التنبؤي فحسب، بل يسهل أيضًا اكتشاف العلامات الحيوية السريرية ذات الصلة، مما يمهد الطريق لفهم أفضل للحالات الصحية المعقدة من خلال دمج البيانات متعددة الأنماط. ستركز الأبحاث المستقبلية على تقييم قابلية تعميم COMET عبر هياكل وبيانات مختلفة، بالإضافة إلى استكشاف أساليب التعلم الذاتي لتعزيز قدراته بشكل أكبر.
DOI: https://doi.org/10.1038/s42256-024-00974-9
PMID: https://pubmed.ncbi.nlm.nih.gov/40008295
Publication Date: 2025-01-16
Author(s): Samson Mataraso et al.
Primary Topic: Metabolomics and Mass Spectrometry Studies
Methods
The “Methods” section outlines the experimental and analytical procedures employed in the study. The researchers utilized a combination of quantitative and qualitative approaches to gather data, ensuring a comprehensive analysis of the subject matter. Specific methodologies included controlled experiments, statistical modeling, and simulations to validate the findings.
Data collection involved systematic sampling techniques, with a focus on minimizing bias and ensuring representativeness. The analysis was conducted using advanced statistical software, enabling the researchers to apply various tests and models to interpret the results accurately. The section emphasizes the rigor of the methods used, highlighting their appropriateness for addressing the research questions posed.
Results
The results indicate that the COMET framework is effective when electronic health record (EHR) data is available for a large patient cohort, while omics data is accessible for a smaller sub-cohort. The methodology involves pretraining a model on the EHR data (the ‘pretraining cohort’) and subsequently transferring its weights to a multimodal network, which is then fine-tuned using both EHR and omics data from the smaller ‘omics cohort’. This process is illustrated in the accompanying figures.
COMET was applied to two independent cohorts: a pregnancy cohort from Stanford Health Care and a cancer cohort from the UK Biobank. In both cases, COMET demonstrated state-of-the-art performance in predicting clinically relevant outcomes—specifically, the days to the onset of labor and three-year all-cause mortality. The modeling experiments were conducted 25 times with varying train, test, and validation splits, and performance metrics were derived from the average predictions of the validation set, underscoring the robustness of the findings.
Discussion
The COMET framework demonstrated significant advancements in predictive modeling for both labor onset and cancer mortality by effectively integrating electronic health records (EHR) with proteomics data. In a study involving 30,904 pregnant individuals, COMET accurately predicted the timing of labor onset and revealed meaningful biological insights through the correlation of EHR and proteomics features. Notably, the model identified proteins associated with pregnancy complications and labor timing, such as interleukin-1 receptor-like 1 and cystatin C, which are known to influence gestational outcomes. The analysis highlighted that while many proteins showed significant correlations with EHR features, a substantial portion (46.5%) provided unique information, underscoring the complementary nature of the data modalities.
Furthermore, when applied to cancer prognosis in a cohort of 36,901 patients from the UK Biobank, COMET outperformed traditional models, achieving an area under the receiver operating characteristic curve (AUROC) of 0.842. The model’s ability to align EHR data with proteomics was evidenced by a higher number of significant correlations compared to baseline models, indicating that COMET captures biologically relevant information more effectively. The study concluded that COMET not only enhances predictive performance but also facilitates the discovery of clinically relevant biomarkers, paving the way for improved understanding of complex health conditions through multimodal data integration. Future research will focus on assessing the generalizability of COMET across different architectures and data structures, as well as exploring self-supervised learning approaches to further enhance its capabilities.
