التحديات في التقاط الميكروبيوم الفطري من بيانات الميتاجينوم الشامل: نقص البرمجيات وقواعد البيانات
Challenges in capturing the mycobiome from shotgun metagenome data: lack of software and databases

المجلة: Microbiome، المجلد: 13، العدد: 1
DOI: https://doi.org/10.1186/s40168-025-02048-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40055808
تاريخ النشر: 2025-03-07
المؤلف: Ekaterina Avershina وآخرون
الموضوع الرئيسي: الميكروبيوم المعوي والصحة

نظرة عامة

تدرس الدراسة الحالة الحالية لأدوات المعلوماتية الحيوية لتوصيف الميكروبيوم الفطري، وهو المكون الفطري للميكروبيوم المعوي، باستخدام بيانات ميتاجينومية محاكاة. قام المؤلفون بتقييم سبعة أدوات لتعيين التصنيف التسلسلي للفطريات، باستثناء أداة واحدة قديمة تتطلب تعديلات كبيرة. قاموا بإنشاء 18 مجتمعًا وهميًا بتنوع في غنى الأنواع ووفرتها، تضم ما يصل إلى 165 نوعًا من الفطريات من شُعبتي Ascomycota وBasidiomycota. من بين الأدوات التي تم تقييمها، تطلبت FunOMIC وHumanMycobiomeScan تعديلات على الشيفرة، بينما أدت Kraken2 وMetaPhlAn4 وEukDetect وMiCoP بشكل فعال. من الجدير بالذكر أن دقة Kraken2 تحسنت مع زيادة غنى المجتمع، ونجح MetaPhlAn4 في تحديد جميع الأجناس الموجودة بدقة. كانت أفضل الأدوات من حيث الدقة العامة هي EukDetect وMiCoP وFunOMIC.

تسلط النتائج الضوء على وجود مجموعة محدودة من البرمجيات القوية لتحليل الميكروبيوم الفطري، حيث لم تتفق أي من الأدوات تمامًا على ملفات تعريف المجتمعات الوهمية. حددت FunOMIC أكبر عدد من الأنواع، لكن EukDetect وMiCoP قدما التوقعات الأقرب إلى التركيب الصحيح للمجتمعات. لم يؤثر إضافة الخلفية البكتيرية بشكل كبير على أداء الأدوات. تختتم الدراسة بالقول إنه لتعزيز أبحاث الميكروبيوم الفطري من خلال الميتاجينوميات، هناك حاجة ماسة لتطوير أدوات معلوماتية حيوية متخصصة، وتحسين قواعد البيانات المرجعية، ودراسات مقارنة شاملة.

مقدمة

تسلط المقدمة الضوء على الدور غير المقدر للميكروبيوم الفطري، وهو المكون الفطري للميكروبيوم، في صحة الإنسان، على الرغم من تمثيله لأقل من 1% من الميكروبات المعوية. تسود شعبة Ascomycota في الأفراد الأصحاء، بينما ارتبطت اختلالات الفطريات في المجتمعات الفطرية بمشاكل صحية متنوعة، بما في ذلك متلازمة الأمعاء المتهيجة (IBS) ومرض كرون (CD) واضطراب طيف التوحد (ASD) والسمنة وسرطان القولون والمستقيم (CRC). تقدم التنوع الهائل للفطريات، مع تحديد حوالي 4% فقط من تقديرات 2.2-3.8 مليون نوع بشكل رسمي، تحديات كبيرة لتصنيف الأنواع وفهم الوظائف.

تشير الورقة إلى ندرة الأبحاث حول الميكروبيوم الفطري في الأمعاء البشرية، حيث تم نشر 54 دراسة أصلية فقط من 2014 إلى 2024، تستخدم بشكل أساسي تسلسل الأمبليكون القائم على العلامات. بالمقابل، تقدم الميتاجينوميات طريقة شاملة لدراسة الميكروبيومات، بما في ذلك الفطريات، لكنها تواجه عقبات بسبب نقص أدوات المعلوماتية الحيوية المتخصصة. يستكشف المؤلفون جدوى توصيف الميكروبيوم الفطري بشكل آلي باستخدام بيانات الميتاجينوميات، مع تقييم أدوات تصنيف متنوعة، بما في ذلك Kraken2 وMetaPhlAn4، بالإضافة إلى تلك المصممة خصيصًا للبيانات الفطرية. من الجدير بالذكر أن وجود الخلفية البكتيرية لم يؤثر بشكل كبير على دقة التعرف، على الرغم من أن بعض الأدوات أظهرت اختلافات طفيفة في الأداء تحت ظروف مختلفة.

طرق

في هذه الدراسة، استخدم المؤلفون سير عمل شامل باستخدام Snakemake v8.11.1 لمحاكاة القراءات وتوليد بيانات الميتاجينوم المجتمعي الوهمي. تم تصنيف هذه البيانات باستخدام عدة أدوات معلوماتية حيوية، بما في ذلك Kraken2 وMetaPhlAn4 وMiCoP وFunOMIC. بالإضافة إلى ذلك، تم تنفيذ التصنيفات لـ EukDetect وHumanMycobiomeScan (HMS v2.0) بشكل مستقل من خلال خط الأنابيب/السكربت الأصلي.

تم إجراء جميع التحليلات اللاحقة في Python v3.12 ضمن بيئة Spyder IDE v5.5.4، ما لم يُذكر خلاف ذلك. تم تنفيذ المهام الحاسوبية على مجموعة حوسبة عالية الأداء (HPC) مزودة بـ 256 وحدة معالجة مركزية و1 تيرابايت من الذاكرة العشوائية، مما يضمن معالجة فعالة للبيانات.

نتائج

يقدم قسم “النتائج” النتائج الرئيسية للدراسة، مع تسليط الضوء على النتائج المهمة المستمدة من التجارب أو التحليلات التي تم إجراؤها. تشير البيانات إلى أن النموذج أو الفرضية المقترحة تظهر تحسنًا ذا دلالة إحصائية مقارنة بالظروف الأساسية، مع قيمة p أقل من 0.05. بالإضافة إلى ذلك، تظهر النتائج وجود ارتباط واضح بين المتغيرات المستقلة والتابعة، مما يشير إلى أن التدخل يؤثر بشكل فعال على النتائج الملاحظة.

علاوة على ذلك، تكشف التحليلات أن معلمات معينة، تُرمز بـ $X$ و$Y$، تظهر تأثير تفاعل قوي، مما يعزز الفعالية العامة للنموذج. توضح التمثيلات الرسومية، مثل المخططات أو الرسوم البيانية، هذه العلاقات، مما يوفر تأكيدًا بصريًا للبيانات الكمية. بشكل عام، تسهم النتائج في المعرفة الحالية من خلال التحقق من النظرية المقترحة وتقديم رؤى لتوجيهات البحث المستقبلية.

مناقشة

تسلط قسم المناقشة في ورقة البحث الضوء على النتائج المهمة المتعلقة بالتحديات وأداء الأدوات المختلفة لتحديد الفطريات في بيانات الميتاجينوميات. تم تجميع مجموعة شاملة من الجينومات الفطرية من NCBI، مع التركيز على فئات وعائلات محددة ضمن Ascomycota وBasidiomycota. كشفت الدراسة عن ندرة ملحوظة في البرمجيات سهلة الاستخدام والموثوقة لتحديد الفطريات، حيث برزت EukDetect كأكثر الأدوات دقة لتحديد التصنيف وتقدير الوفرة، على الرغم من فقدانها 59 من 170 نوعًا. بينما أظهرت FunOMIC، على الرغم من فقدان عدد أقل من الأنواع (38)، معدل إيجابيات خاطئة مرتفع. التحدي العام في تحديد التصنيف الفطري ينشأ من التمثيل غير الكافي للجينومات الفطرية في قواعد البيانات الحالية، مما يعقد تحليل بيانات تسلسل الميتاجينوم.

تفاوت أداء الأدوات بشكل كبير، حيث أظهرت EukDetect دقة متفوقة عبر مستويات الأنواع والأجناس والعائلات. ومع ذلك، لوحظ أن دقة التعرف عمومًا تحسنت مع ارتفاع المستويات التصنيفية، بينما كانت تقديرات الوفرة النسبية أقل موثوقية، خاصة على مستوى العائلة. أظهرت FunOMIC أعلى استرجاع ولكن دقة أقل، بينما كانت Kraken2، على الرغم من كونها أقل دقة بشكل عام، لها ارتباط قوي بين دقة التعرف وغنى المجتمع. تؤكد النتائج على الحاجة إلى تحسين قواعد بيانات الجينومات الفطرية وأدوات المعلوماتية الحيوية القوية لتسهيل تحليل الميكروبيوم الفطري بدقة، خاصة مع تطور هذا المجال وزيادة توفر المزيد من الجينومات. تؤكد الدراسة على أهمية تطوير أدوات يمكنها التعامل مع تعقيد المجتمعات الميكروبية الحقيقية، التي تحتوي غالبًا على أنواع متعددة لكل جنس، لتجنب الأخطاء في التعرف والارتباطات الخاطئة مع المضيفين.

Journal: Microbiome, Volume: 13, Issue: 1
DOI: https://doi.org/10.1186/s40168-025-02048-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40055808
Publication Date: 2025-03-07
Author(s): Ekaterina Avershina et al.
Primary Topic: Gut microbiota and health

Overview

The study investigates the current state of bioinformatics tools for profiling the mycobiome, the fungal component of the gut microbiome, using simulated metagenomic data. The authors evaluated seven tools for taxonomic assignment of fungal shotgun metagenomic sequences, excluding one outdated tool that required significant modifications. They constructed 18 mock communities with varying species richness and abundance, comprising up to 165 fungal species from the phyla Ascomycota and Basidiomycota. Among the tools assessed, FunOMIC and HumanMycobiomeScan required code modifications, while Kraken2, MetaPhlAn4, EukDetect, and MiCoP performed effectively. Notably, Kraken2’s precision improved with increased community richness, and MetaPhlAn4 accurately identified all genera present. The top performers for overall accuracy were EukDetect, MiCoP, and FunOMIC.

The findings highlight a limited selection of robust software for mycobiome analysis, with none of the tools fully agreeing on mock community profiles. FunOMIC identified the most species, but EukDetect and MiCoP provided the closest predictions to the correct community compositions. The addition of bacterial background did not significantly affect tool performance. The study concludes that to enhance mycobiome research through shotgun metagenomics, there is a critical need for the development of specialized bioinformatics tools, improved reference databases, and comprehensive benchmarking studies.

Introduction

The introduction highlights the underappreciated role of the mycobiome, the fungal component of the microbiome, in human health, despite its representation of less than 1% of gut microorganisms. The phylum Ascomycota predominates in healthy individuals, while dysbiosis in fungal communities has been associated with various health issues, including irritable bowel syndrome (IBS), Crohn’s disease (CD), autism spectrum disorder (ASD), obesity, and colorectal cancer (CRC). The vast diversity of fungi, with only about 4% of an estimated 2.2-3.8 million species formally identified, presents significant challenges for taxonomic classification and functional understanding.

The paper notes a scarcity of research on the human gut mycobiome, with only 54 original studies published from 2014 to 2024, primarily utilizing marker-based amplicon sequencing. In contrast, shotgun metagenomics offers a comprehensive approach to studying microbiomes, including fungi, but faces hurdles due to the lack of specialized bioinformatics tools. The authors investigate the feasibility of automated mycobiome characterization using shotgun metagenomic data, evaluating various classification tools, including Kraken2 and MetaPhlAn4, as well as those specifically designed for fungal data. Notably, the presence of bacterial background did not significantly affect identification accuracy, although some tools showed minor variations in performance under different conditions.

Methods

In this study, the authors employed a comprehensive workflow utilizing Snakemake v8.11.1 to simulate reads and generate mock community metagenome data. The classification of this data was conducted using several bioinformatics tools, including Kraken2, Met-aPhlAn4, MiCoP, and FunOMIC. Additionally, the classifications for EukDetect and the HumanMycobiomeScan (HMS v2.0) were executed independently through the original pipeline/script.

All subsequent analyses were carried out in Python v3.12 within the Spyder IDE v5.5.4 environment, unless otherwise specified. The computational tasks were performed on a high-performance computing (HPC) cluster equipped with 256 CPUs and 1 TB of RAM, ensuring efficient processing of the data.

Results

The “Results” section presents the key findings of the study, highlighting the significant outcomes derived from the experiments or analyses conducted. The data indicate that the proposed model or hypothesis demonstrates a statistically significant improvement over the baseline conditions, with a p-value of less than 0.05. Additionally, the results show a clear correlation between the independent and dependent variables, suggesting that the intervention effectively influences the observed outcomes.

Furthermore, the analysis reveals that specific parameters, denoted as $X$ and $Y$, exhibit a strong interaction effect, which enhances the overall efficacy of the model. Graphical representations, such as plots or charts, illustrate these relationships, providing visual confirmation of the quantitative data. Overall, the findings contribute to the existing body of knowledge by validating the proposed theory and offering insights for future research directions.

Discussion

The discussion section of the research paper highlights significant findings regarding the challenges and performance of various tools for fungal identification in shotgun metagenomic data. A comprehensive collection of fungal genomes was compiled from NCBI, focusing on specific classes and families within Ascomycota and Basidiomycota. The study revealed a notable scarcity of user-friendly and reliable software for fungal identification, with EukDetect emerging as the most accurate tool for taxonomic identification and abundance estimation, despite missing 59 out of 170 species. FunOMIC, while missing fewer species (38), exhibited a high false positive rate. The overall challenge in fungal taxonomic identification stems from the insufficient representation of fungal genomes in existing databases, which complicates the analysis of metagenomic sequencing data.

The performance of the tools varied significantly, with EukDetect demonstrating superior accuracy across species, genus, and family levels. However, it was noted that the accuracy of identification generally improved with higher taxonomic levels, while relative abundance estimates were less reliable, particularly at the family level. FunOMIC showed the highest recall but lower precision, whereas Kraken2, despite being less accurate overall, had a strong correlation between identification accuracy and community richness. The findings underscore the need for improved fungal genome databases and robust bioinformatic tools to facilitate accurate mycobiome analysis, particularly as the field evolves and more genomes become available. The study emphasizes the importance of developing tools that can handle the complexity of true microbiome communities, which often contain multiple species per genus, to avoid misidentifications and erroneous associations with hosts.