منصة جالاكسي للتحليلات البيانية القابلة للوصول، القابلة للتكرار، والتعاونية: تحديث 2024 The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update

المجلة: Nucleic Acids Research، المجلد: 52
DOI: https://doi.org/10.1093/nar/gkae410
PMID: https://pubmed.ncbi.nlm.nih.gov/38769056
تاريخ النشر: 2024-05-20

منصة جالاكسي للتحليلات البيانية القابلة للوصول، القابلة للتكرار، والتعاونية: تحديث 2024

مجتمع المجرة**يجب توجيه المراسلات إلى – غاريث برايس. الهاتف: +6173365 7534؛ البريد الإلكتروني: g.price@uq.edu.auيمكن أيضًا توجيه المراسلات إلى أنطون نيكروتينكو. البريد الإلكتروني: anton@nekrut.orgيمكن أيضًا توجيه المراسلات إلى بيورن أ. غرينينغ. البريد الإلكتروني: bjoern.gruening@gmail.comيمكن أيضًا توجيه المراسلات إلى مايكل سي. شاتز. البريد الإلكتروني: mschatz@cs.jhu.edu

الملخص

مجموعة نجومhttps://galaxyproject.org) يتم نشره عالميًا، بشكل أساسي من خلال خدمات مجانية الاستخدام، داعمًا الأبحاث المدفوعة من قبل المستخدمين التي تتوسع في نطاقها كل عام. يجذب المستخدمين إلى خدمات Galaxy العامة استقرار المنصة، وتنوع الأدوات ومجموعات البيانات المرجعية، والتدريب، والدعم، والتكامل، مما يمكّن من تحليل البيانات المعقدة والقابلة للتكرار والمشاركة. تطبيق مبادئ تصميم تجربة المستخدم (UXD) قد دفع تحسينات في إمكانية الوصول، واكتشاف الأدوات من خلال مختبرات Galaxy / النطاقات الفرعية، وإعادة تصميم Galaxy ToolShed. تتقدم قدرات أدوات Galaxy في اتجاهين استراتيجيين: دمج الوصول إلى وحدات المعالجة الرسومية العامة (GPGPU) للطرق المتطورة، ودعم الأدوات المرخصة. يتم زيادة المشاركة مع اتحادات البحث العالمية من خلال تطوير المزيد من سير العمل في Galaxy ومن خلال توفير خدمات Galaxy العامة لتشغيلها. لقد نما محفظة شبكة تدريب Galaxy (GTN) من حيث الحجم، وإمكانية الوصول، من خلال مسارات التعلم والتكامل المباشر مع أدوات Galaxy التي تظهر في الدورات التدريبية. يستمر تطوير الشيفرة بما يتماشى مع خارطة طريق مشروع Galaxy، مع تحسينات في جدولة الوظائف وواجهة المستخدم. كما أن تقييم الأثر البيئي يساعد أيضًا في جذب المستخدمين والمطورين، مذكرًا إياهم بدورهم في الاستدامة، من خلال عرض التقديرات الانبعاثات الناتجة عن كل وظيفة في جالاكسي.

ملخص رسومي

مقدمة

أدى الطلب المتزايد من المستخدمين على خدمة تحليل البيانات سهلة الوصول، التي تم نشرها على بنية تحتية حاسوبية قادرة على تلبية احتياجات الحوسبة المعقدة في البحث، إلى دعم مشروع جالاكسي، في عامه التاسع عشر من التشغيل المستمر، لزيادة سريعة في الإنتاجية على مستوى العالم. توفر Galaxy أدوات تحليلية يمكن استخدامها بشكل فردي أو ربطها في سير عمل معقد مع مخرجات بيانات وسيطة قادرة على تفعيل شروط منطقية داخل سير العمل. تسمح التحسينات الأخيرة للباحثين بتشغيل سير العمل على بيانات ذات جودة متغيرة، وأن يكون سير العمل مخزنًا لاستكشاف التباين التجريبي بشكل منهجي.https://gxy.io/GTN:T00164). البحث على نطاق واسع يتطلب بالضرورة التعاون، وقدرة جالاكسي على مشاركة ونشر البيانات وتدفقات العمل بشكل آمن تدعم التعاون الفعال، والتدريب، وإعادة استخدام البيانات. التغييرات الأخيرة في جالاكسي
واجهة المستخدم التي تم مناقشتها أدناه جعلت المشاركة أكثر وضوحًا.
مجتمعة، لقد جمعت خدمات usegalaxy.* في الولايات المتحدة وأستراليا وأوروبا المستخدمون المسجلون، ويدعم المستخدمين الأفراد الذين يقومون بتشغيل وظائف في المتوسط كل شهر من عام 2023. إحصائيات خدمة Usegalaxy.* متاحة للجمهور على https://status.galaxyproject.org/، مع بيانات تشغيلية مفصلة لأستراليا وأوروبا فيhttps://stats.usegalaxy.org.au/ و https://stats.galaxyproject.eu/على التوالي. يتمتع المستخدمون بالوصول إلى أدوات علمية، داعمة أنواع مختلفة من بيانات الإدخال، مما يتيح مجموعة واسعة من التحليلات في كل من علوم الحياة والعلوم الفيزيائية، بما في ذلك علم الفلك، وعلم الجينوم، وعلم البروتينات، وعلم الأيض، وعلوم المواد، والتصوير، وعلم الخلايا. يمكن إنشاء خطوط تحليلية معقدة فعالة وقابلة للتكرار من خلال دمج الأدوات من أي مجال مع
‘النودلز’ على لوحة سير العمل. يمكن استكشاف مخرجات التحليل باستخدام أكثر من 50 نوعًا من التصورات المدمجة، ويمكن مشاركة عنوان URL بسيط مع المتعاونين، والذي يتضمن جميع البيانات وإعدادات التحليل وإصدارات الأدوات وسير العمل اللازمة للتكرار.

حلول مدفوعة بالبحث

تجعل Galaxy الآلاف من حزم التحليل مفتوحة المصدر من الطرف الثالث سهلة الاستخدام، وقابلة للتشغيل المتبادل دون الحاجة إلى أي كود يقدمه المستخدم. لكي تصبح أي حزمة تحليل جديدة أداة، يقوم المطور بإعداد غلاف Galaxy مرة واحدة، ويقوم بتحميله إلى متجر أدوات Galaxy العالمي القابل للمشاركة المعروف باسم Galaxy Toolshed.https://toolshed.g2.bx.psu.edu/“). تدعم كل خدمة من خدمات جالاكسي مجموعة أدوات أساسية مشتركة، وتقدم مجموعة واسعة من الأدوات الأخرى، يتم تحديد التركيبة الدقيقة لها بناءً على طلب المستخدم. ثم يتم تصنيف الأدوات حسب الاستخدام العلمي و/أو أنواع البيانات المعنية. علاوة على ذلك، فإن خيار استضافة الأدوات على جالاكسي مشروط بالاحتياجات الحاسوبية للأدوات (مثل GPGPUs، الذاكرة العالية)، وشروط ترخيص استخدام الأدوات، والقدرة على أن يتم تغليفها كأداة قياسية أو تفاعلية، وقد تم تحسين كل ذلك في آخر تحديثات جالاكسي (https://docs.galaxyproject.org/en/master/الإصدارات/index.html).

مختبرات جالاكسي/المواقع/النطاقات الفرعية

تستضيف أدوات جالاكسي الآن أكثر من 9500 حزمة برمجية متميزة وقابلة للتعديل، أي أدوات، متاحة لمشرفي جالاكسي لتسهيل التثبيت على أي خدمة جالاكسي. يمكن أن تضيف مجموعة الخيارات التحليلية المتاحة كأدوات مثبتة قيمة للمستخدمين النهائيين، لكنها قد تكون أيضًا مربكة. لقد حددت ملاحظات المستخدمين، سواء من خلال الوثائق الرسمية لتجربة المستخدم النشطة أو من خلال الملاحظات التي يبدأها المستخدمون بشكل غير نشط، أن حتى جزءًا صغيرًا من الأدوات المستضافة على خدمة جالاكسي يمكن أن يربك عملية العثور على أي أداة محددة. على سبيل المثال، يتعين على المستخدم الذي يبحث عن أداة واحدة على خوادم usegalaxy.* التنقل عبر مجموعات من 1770 أداة (جالاكسي الولايات المتحدة)، 3320 أداة (جالاكسي الاتحاد الأوروبي) و1730 أداة (جالاكسي أستراليا). يمكن أن يكون هذا مرهقًا، حتى عند الأخذ في الاعتبار المساعدة المقدمة من خلال تصنيف الأدوات وتسميات علم الأنساق EDAM.
قدمت جالاكسي أوروبا أولاً حلاً لتمكين الباحثين الذين لديهم اهتمامات مشتركة أو الذين يقومون بمجموعة من الأنشطة بشكل متكرر. تركز المجالات الفرعية على مجال بحث معين أو نمط تكنولوجي (الشكل 1). المحتوى والأدوات والموارد المتاحة ‘مخصصة’ لكل مجال – أي التأكد من أن الموارد تناسب الممارسات البحثية الروتينية في العالم الحقيقي. كما أن جالاكسي أستراليا تستخدم الآن هذا الخيار، مسمّية عرضها جالاكسي لابز (الشكل 1). تقدم هذه المختبرات تركيزًا على الأدوات، وسير العمل، والموارد مما يسمح للممارسين الجدد والمنتظمين في هذا المجال بالوصول السريع إلى الخيارات الأكثر شيوعًا التي يحتاجونها، مع الاستمرار في تقديم جميع ميزات جالاكسي الأخرى التي يمكنهم استخدامها. من المهم أن يكون لدى المستخدم الذي قام بتسجيل الدخول في عرض جالاكسي للمختبرات/المجالات الفرعية وصول كامل إلى بياناته (التواريخ)، وسير العمل، والبيانات المشتركة، عبر جميع المختبرات وصفحة الخدمة الرئيسية. كما تتماشى جالاكسي لابز مع المبادرة الاستراتيجية لمشروع جالاكسي لدعم التحالفات البحثية العالمية، مثل مشروع جينوم الفقاريات (VGP) (4) ومشروع الأرض البيوجينوم (EBP) (5). تشمل الأمثلة الإقليمية المهمة اعتماد جالاكسي ضمن الشراكة الأوروبية لتقييم المخاطر الناتجة عن المواد الكيميائية (EU-
بارك؛https://www.eu-parc.eu/“) (6)، WP4 المهمة 4.3.1.d، كمنصة مفضلة لمعالجة مجموعات بيانات مطيافية الكتلة للجزيئات الصغيرة، وبشكل منفصل لمعالجة مجموعات بيانات مطيافية الكتلة التي تم إنشاؤها عبر العقدة التشيكية (المنسق) للبنية التحتية للبحث في تقييم التعرض البيئي الأوروبي (EIRENE-CZ؛https://www.eireneri.eu/). في أستراليا، تستخدم مبادرة الأنواع المهددة خدمة جالاكسي أستراليا كخدمة التحليل الجينومي الرئيسية لها (https://threatenedspeciesinitiative.com/genome-assembly/).

أدوات مدعومة من GPGPU

تظهر زيادة تعقيد الأدوات وسعتها في Galaxy من خلال العروض الجديدة للأدوات التي تستخدم بنية GPGPU التحتية. إن موارد بيئة تنفيذ الأدوات ليست اعتبارًا لمستخدمي Galaxy ولكن يمكن تكوينها بسهولة من قبل مزودي بنية Galaxy التحتية. الأدوات المعتمدة على GPGPU (AlphaFold2.0/multimer (7)، ChatGPT (8) والأدوات المعتمدة على الذكاء الاصطناعي التي تعمل في JupyterLab (7)) مطلوبة بشدة ويتم تقديمها من خلال الوصول المحلي إلى GPGPU أو من خلال توفير سحابي تجاري، عبر خدمات usegalaxy.*. في حالة Galaxy أستراليا، تطلب هذا العمل نشر Pulsar على النسخة الأسترالية من Microsoft Azure. لقد تفرعت الطلبات على AlphaFold2.0/multimer في أستراليا إلى استخدام وحدات معالجة الرسوميات NVIDIA ومؤخراً تم تعديل الكود ليعمل أيضًا على وحدات معالجة الرسوميات AMD، لفصل استخدام الأداة عن مجموعة محددة من متطلبات الأجهزة والسماح بنشر الأداة على مجموعة أكبر من تكوينات عقد العمل. داخل الولايات المتحدة، تستفيد Galaxy من GPGPU وموارد الحوسبة الأخرى عبر شبكة ACCESS-CI المدعومة من NSF، وتدعم الآن خوارزميات AlphaFold/CollabFold المستخدمة على نطاق واسع (9)، وأدوات معالجة الإشارات المعتمدة على GPU لبيانات تسلسل ONT (10)، وغيرها من الأدوات المعتمدة على GPU المطلوبة بشدة. دعمًا لاتحادات تجميع الجينوم العالمية، تم نشر أداة GPGPU Helixer على خدمات usegalaxy.* ومن المتوقع أن تعزز استخدام GPGPU لدعم برامج مثل خريطة الجينوم المرجعية الأوروبية (ERGA،https://www.ergabiodiversity.eu/) ومشروع جالاكسي المستقبلي. من المتوقع أن تستخدم تحديثات مشروع جالاكسي المستقبلية بشكل متزايد أدوات تعتمد على GPGPU ووحدات معالجة التنسور (TPU).

أدوات مرخصة

كان أحد المحركات الرئيسية لنجاح Galaxy هو تأسيسه على مبادئ تطوير البرمجيات مفتوحة المصدر. ومع ذلك، فقد قيد ذلك تنفيذ الأدوات لـ Galaxy التي لديها ترتيبات ترخيص غير مفتوحة المصدر. في بعض الحالات، يكون تطوير معادل مفتوح المصدر بعد توفر الحلول التجارية بفترة زمنية قصيرة؛ MaxQuant (11) كأداة شاملة للبروتيوميات هو أحد هذه الأمثلة. في حالات نادرة حيث لا يمكن لتطوير البرمجيات مفتوحة المصدر مواكبة الحلول التجارية أو مطالب المستخدمين، اتجهت Galaxy بشكل متزايد إلى تقديم خيارات مرخصة، على سبيل المثال: CellRanger و FGeneSH++. . يعمل هذا في مصلحة المستخدمين، حيث يوفر حلاً، وهو الهدف الأساسي. يتضمن عبئًا إداريًا محليًا في التحكم في الوصول واتفاقيات الترخيص. تأمل مجتمع جالاكسي أن تكون الأدلة الكافية على الفائدة سببًا مقنعًا للبائعين لإعادة النظر في اتفاقيات الترخيص الخاصة بهم لزيادة التعرض لأدواتهم (وعلامتهم التجارية) من خلال استخدام جالاكسي الذي يعترف بمساهمتهم.
الشكل 1. أمثلة على مختبرات جالاكسي / النطاقات الفرعية. يمكن للباحثين الوصول بسرعة إلى تركيز من الأدوات المحددة للنطاق، وسير العمل، والدعم، والتدريب من خلال مختبرات جالاكسي أو النطاقات الفرعية لجالاكسي. الأعلى: مختبر الجينوم ومختبر البروتيوميات على جالاكسي أستراليا، https://genome.usegalaxy.org.au و https://proteomics.usegalaxy.org.au. الأسفل: النطاق الفرعي لعلوم الخلايا المفردة على جالاكسي أوروبا، https://singlecell.usegalaxy.eu/ و https://hicexplorer.usegalaxy.eu.

الاكتشاف

أي أداة فردية أو سير عمل تكون مفيدة فقط إذا كان يمكن اكتشافها في المقام الأول، ويمتد هذا الاكتشاف إلى الوظائف الأساسية للبرمجيات. في الواقع، يجب أن يكون الباحث قادرًا على اكتشاف حل تحليلي باستخدام إما اسم البرمجيات المحددة والبيانات الوصفية المرتبطة بها، أو بناءً على أنهم يبحثون عن وظيفة معينة. في كلتا الحالتين، أصبح اكتشاف بيانات الأداة وسير العمل أكثر أهمية بشكل متزايد لكل من المستخدمين والمسؤولين عن Galaxy. ستزيد القدرة الحالية على مشاركة هذه البيانات الوصفية عبر مجالات علوم الحياة التي تستخدم Galaxy بشكل كبير من التأثير العلمي لهذه التحسينات. تم تطوير حل للأدوات الفردية مؤخرًا، مع تركيز أولي على علم الأحياء الدقيقة، وهو فيhttps://galaxyproject.org/community/sig/microbial/#tools. هذه الجدول التفاعلي القابل للبحث يجمع البيانات الوصفية المستمدة من أغلفة أدوات Galaxy (عبر Planemo)، وواجهات برمجة تطبيقات مثيلات Galaxy (مضافةً إليها توفر الأدوات)، وELIXIR bio.tools (https://bio.tools/) (إضافة مصطلحات بيانات وطرق EMBRACE (EDAM) (3)، BioConda (14) (التحقق مما إذا كانت الأدوات محدثة)، وورقة عمل تم تنسيقها من قبل المجتمع (الإشارة إلى الأدوات التي يجب استبعادها). تدعم Galaxy بالفعل النسخ من خلال محرر سير العمل (أي اللوحة). ومع ذلك، فإن الحاجة إلى مشاركة سير العمل بشكل تعاوني باستخدام معرفات دائمة، والتوافق مع مبادئ FAIR لبرامج البحث (15)، قد أدت إلى التكامل مع سجلات سير العمل مثل WorkflowHub (https://workflowhub.eu/) و Dockstore
(16). من WorkflowHub، يمكن للباحثين اختيار ‘تشغيل علىusegalaxy.euالذي يُفعّل استيراد سير العمل إلى جالاكسي أوروبا؛ من دوكستور، يمكن استيراد سير عمل جالاكسي إلى أي من الخوادم الثلاثة الرئيسية usegalaxy.*. داخل جالاكسي، يمكن للمستخدم البحث إما في WorkflowHub أو Dockstore باستخدام تنفيذات خدمة تسجيل أدوات GA4GH (TRS) (17)، إلى جانب الخيارات الحالية لاستيراد سير العمل من الملفات المحلية وعناوين URL العامة.

شبكة تدريب جالاكسي

تعتبر القدرة على تقديم تدريب سهل الوصول ومريح وقابل للتكرار بشكل كبير، في برامج مدعومة من المدربين المجدولة، أو كتعلم نشط موجه ذاتيًا، ميزة أساسية وطويلة الأمد في جالاكسي. شبكة تدريب جالاكسي (GTN؛http://training.galaxyproject.org) (18) هي الخدمة التكميلية التي تستضيف الدروس الإرشادية والأدلة والبنية التحتية للتعليقات/التحسينات على المحتوى. تقدم GTN أكثر من 400 درس إرشادي عبر 25 موضوعًا علميًا و6 مواضيع تقنية، كتبها المساهمون.

مواد GTN

يسعى GTN للحفاظ على الدروس التعليمية، مع الحفاظ على تزامنها مع التغييرات في ممارسات البحث، وتحديث 366 درسًا تعليمياً. في العام الماضي فقط. تم إضافة تسعة مواضيع جديدة بما في ذلك تحليل الخلية المفردة، SARS-CoV-2، واحد
الصحة، التطور، علوم المواد، والبيولوجيا الاصطناعية. لقد توسع التركيز الموضوعي من مواضيع علمية بحتة ليشمل مواضيع أوسع مثل موضوع ‘تحليل البيانات FAIR’ الجديد، الذي يهدف إلى توجيه المتعلمين لجعل بياناتهم وعملياتهم أكثر توافقًا مع مبادئ FAIR من خلال دروس عملية. بالإضافة إلى ذلك، تم إضافة موضوع ‘علوم البيانات’ الذي يغطي أساسيات بايثون، R، SQL وsnakemake (19) باستخدام دفاتر تفاعلية يمكن تشغيلها داخل Galaxy كأدوات تفاعلية، أو بشكل مستقل عن Galaxy. وقد تم دعم هذا العمل من خلال إضافة أكثر من 70 مساهمًا جديدًا إلى GTN في العامين الماضيين، مما ساهم مع مجتمع المساهمين الحالي في إضافة ما مجموعه 133 درسًا إلى Galaxy منذ أبريل 2022. أخيرًا، تم التعاون الاستكشافي مع AI4Life (https://ai4life.eurobioimaging.eu/لقد أنتجت ) عدة مجموعات شرائح تقدم للمتعلمين نموذج BioimageModelZoo. تستضيف GTN هذه المواد التدريبية على صفحات مخصصة تحمل علامة تجارية لتوفير وسيلة للتجمعات العلمية لاستضافة موادها التدريبية مع الحد الأدنى من عبء الصيانة، على الرغم من عدم وجود اتصال مباشر مع Galaxy.

إطار عمل GTN

بالإضافة إلى الزيادة المستمرة في عدد الدروس، يتم أيضًا تحسين الإطار نفسه باستمرار. يتم تطوير ميزات جديدة لدعم فائدة الشبكة التعليمية العالمية لكل من المتعلمين والمعلمين. وتشمل هذه:
  • شرائح الفيديو الآلية: عندما يتم توفير ملاحظات شاملة للمتحدث مع مجموعة الشرائح، سيقوم إطار عمل GTN تلقائيًا بإنشاء محاضرة فيديو بناءً على الشرائح، باستخدام برنامج تحويل النص إلى كلام (TTS) الآلي. هذه مورد مفيد للمتعلمين، بالإضافة إلى المعلمين الذين يستعدون لتدريس مجموعة الشرائح. أخيرًا، فإن عبء الصيانة أقل بكثير مقارنة بالفيديوهات المباشرة، حيث إن أي تغيير في الشرائح أو ملاحظات المتحدث سيؤدي إلى إعادة بناء الفيديوهات تلقائيًا.
  • تحديد مسارات التعلم: تصف مسارات التعلم رحلة حول موضوع أو مجموعة من المواضيع، توجه المتعلمين من المواد التمهيدية إلى الدروس المتقدمة بشكل متزايد. يمكن أن تشمل هذه المسارات التعليمية مواد من مواضيع مختلفة في شبكة التعلم العالمية وتسمح بالتجميع في وحدات. تدعم مسارات التعلم المتعلمين الذين يحاولون العثور على دروس مناسبة لتحقيق أهدافهم التعليمية، بالإضافة إلى المعلمين في صياغة المناهج الدراسية. عادةً ما كانت هذه المسارات التعليمية مبنية على دورات تدريبية تستمر لمدة أسبوع تنظمها المجتمع.
  • دعم الدروس المودولية / دروس اختر مغامرتك الخاصة: أصبح من الممكن الآن تقديم خيار للمتعلمين، وبناءً على اختيارهم، يتم تغيير محتويات الدرس. تم استخدام هذا الخيار بطرق متنوعة، على سبيل المثال لتقديم خيار لأدوات محاذاة مختلفة في درس RNA-seq، أو لتعديل مستوى أو طول درس الميتاجينوميات 16 S، حيث يمكن للمستخدمين اختيار ما إذا كانوا يريدون نظرة عامة على الموضوع من خلال تشغيل مجموعة من خمسة سير عمل، أو إذا كانوا يريدون الغوص في تعقيد الخيارات التحليلية وصيغ الملفات، وتشغيل كل من الخطوات يدويًا.
  • دعم للدروس التعليمية التفاعلية المعتمدة على دفاتر الملاحظات: يمكن عرض هذه الدروس إما في عرض GTN التقليدي كصفحة ويب ثابتة، حيث يقوم المتعلمون بتشغيل Rstudio أو Jupyter وتنفيذ التعليمات العملية. بالإضافة إلى ذلك، يمكن لإطار عمل GTN أيضًا تحويل هذه الدروس إلى دفاتر ملاحظات Jupyter كاملة.
    حيث يمكن للمستخدم أداء المهام العملية مباشرة داخل دفتر الملاحظات التعليمي، مع تحميل الدرس الكامل (التفسيرات العلمية، صناديق الأسئلة، إلخ) في دفتر الملاحظات.
  • دعم GTN داخل Galaxy: أصبح من الممكن الآن الوصول إلى مواد GTN مباشرة من داخل واجهة ويب Galaxy. عند الوصول إلى المواد بهذه الطريقة، يتم تفعيل سير العمل وأدوات GTN القابلة للتشغيل بنقرة واحدة، حيث يمكن للمستخدمين النقر على أسماء الأدوات/سير العمل في الدروس لفتحها تلقائيًا داخل جلسة Galaxy المفتوحة.
  • تحسينات بان جي تي إن: معرفات دائمة (PURLs) للدروس التعليمية، واجهة برمجة التطبيقات (API) الخاصة بـ GTN، دعم لترجمات الدروس التعليمية التي تم تنسيقها يدويًا، ثيمات الموقع، وتحسين وظيفة البحث.

فعاليات GTN

بالإضافة إلى الفعاليات التدريبية المتكررة التي تنظمها مجتمع جالاكسي الأوسع، تم تكرار حدث التدريب العالمي الكبير جالاكسي سمورغاسبورد، الذي بدأ في عام 2021، في العامين الماضيين، حيث جذب 3082 تسجيلًا في عام 2022 و2965 تسجيلًا في عام 2023. قدمت هذه الفعاليات تعلمًا عن بُعد بالكامل، ومرنًا للغاية، وغير متزامن، قائمًا على الفيديو مع دعم من مجتمع جالاكسي على سلاك. كان بإمكان المتعلمين تصميم برنامجهم الخاص بناءً على تجربتهم واهتماماتهم، وتحديد جداولهم الزمنية بناءً على قيود الوقت الخاصة بهم.

البنية التحتية للتدريب كخدمة (TlaaS)

دعماً لفعاليات التدريب المعتمدة على GTN وGalaxy من حيث موارد الحوسبة، قمنا بتطوير وإصدار بنية تحتية للتدريب كخدمة (TIaaS) (20). تتيح TIaaS لمشرفي Galaxy حجز موارد الحوسبة لفعاليات التدريب، لتقليل أوقات الانتظار للمشاركين. كما يحصل المعلمون على الوصول إلى لوحة تحكم تعرض نظرة عامة على حالة تشغيل أدوات المشاركين، مما يسمح لهم بمشاهدة التقدم بسهولة وتحديد المشكلات، حتى في بيئة التعليم عن بُعد. على مدار السبعين شهراً الماضية، استخدمت أكثر من 500 فعالية تدريبية مع أكثر من 24000 متعلم TIaaS لتدريب Galaxy.

ميزات وتحسينات تركز على المستخدم

تمت مضاهاة العروض المتزايدة التعقيد ضمن Galaxy مع التحسينات على قابلية استخدام Galaxy، من خلال تطبيق تصميم مدفوع بالمستخدم (UXD). بدءًا من GTN واعترافًا بهدف Galaxy في تلبية احتياجات جميع الباحثين من جميع مناطق العالم ومع جميع أنواع احتياجات الوصول، قامت Galaxy بنشر العديد من الميزات لتعزيز الوصول. تشمل هذه الميزات:
  • قابلية القراءة: اعتمد كل من GTN وجالاكسي خط أتكينسون هايبرليجبيل، وهو خط صممه معهد برايل.https://brailleinstitute.org/freefont) التي تهدف إلى تحسين قابلية القراءة لذوي الرؤية المنخفضة من خلال جعل أشكال الحروف سهلة التعرف عليها حتى عند كونها غير واضحة. تساعد هذه التغييرات في تحقيق هدفنا المتمثل في توفير منصة ميسرة وجعل علم البيانات متاحًا للجميع، بما في ذلك ذوي الإعاقات البصرية. لدى GTN التزام طويل الأمد تجاه الوصول، وتقوم بانتظام باختبار واجهتها باستخدام قارئ الشاشة، مما ساعد في اكتشاف العديد من مشكلات الوصول التي قد لا يتم ملاحظتها.
    من قبل المتعلمين المبصرين، كل ذلك لصالح مجتمع أكبر وأكثر شمولاً. أطلقت جالاكسي مؤخرًا جهدًا مشابهًا لتحسين إمكانية الوصول إلى قارئ الشاشة لواجهتها، محققة خطوات كبيرة في تقليل عدد سير العمل المعتمد على الفأرة فقط وتحسين التنقل عبر لوحة المفاتيح.
  • أنظمة الألوان: قامت جالاكسي بتنفيذ إطار يسمح بتخصيص ألوان النظام وواجهة المستخدم، مما يتيح لكل نشر لجالاكسي تخصيص ألوانه لتتناسب مع علامته التجارية، مع دعم تخصيص الشعارات وتلوين العنوان الرئيسي.https://galaxyproject.org/news/2023-04-25-themes-in-galaxy. وجدت شبكة النقل العامة (GTN) مشكلات في تنفيذها الحالي وقامت بفصل التغييرات التجميلية عن المحاور الأكثر أهمية المتعلقة بالوصول، مثل وضع الظلام/الضوء التلقائي الذي يستجيب لتفضيلات المستخدم في متصفح الويب بشأن نظام الألوان والتباين، مما يسمح للمستخدمين باختيار أي موضوع تجميلي بشكل منفصل عن احتياجاتهم البصرية.
  • بحث أدوات بان-جالاكتيك: بدأت شبكة GTN في جمع قوائم من سير العمل المشتركة علنًا (https://training.galaxyproject.org/training-material/ workflows/list.html) والأدوات (https://gxy.io/GTN: N00055) عبر خدمات جالاكسي العامة، مما يمكّن كل من المتعلمين والباحثين من اكتشاف الموارد المتاحة والوصول إليها بسهولة أكبر.
  • انقر للتشغيلWorkflowHub.euو Dockstore كلاهما مدمجان في Galaxy عبر واجهة برمجة التطبيقات GA4GH TRS التي توفر للمستخدمين تجربة ‘نقر للتشغيل’. يمكنهم تحديد سير العمل في مركزهم المفضل، ثم بنقرة (أو نقرتين) يتم إعادة توجيههم إلى Galaxy المفضل لديهم لبدء سير العمل. داخل GTN، قمنا بتنفيذ ميزة مشابهة، أي أن أي سير عمل داخل GTN يمكن أيضًا تشغيله مباشرة في Galaxy المفضل للمستخدم عبر واجهة برمجة التطبيقات TRS. عند الوصول إلى هذه الروابط من داخل مثيل Galaxy عبر ‘وضع الدروس التعليمية’، يتم تشغيل سير العمل مباشرة في Galaxy النشط للمستخدم بنقرة واحدة. هذه الأنواع من التحسينات تعزز بشكل كبير تجربة المتعلم من خلال إزالة الحواجز والمشتتات من متابعة المواد التعليمية العملية، مما يسمح لهم بالتركيز على المحتوى والعلم.
  • لغة العرض: يمكن تكوين اللغة من خلال خيار التوطين في إدارة التفضيلات. يمكن للمستخدمين التنقل بسهولة في خيارات جالاكسي بلغتهم المفضلة، حيث يمكنهم الاختيار حاليًا من: الصينية، الإنجليزية، الفرنسية، اليابانية والإسبانية.

ميزات البرمجيات والتحسينات

تتراوح تحديثات Galaxy من تغييرات واجهة المستخدم إلى تجديدات أساسية في قاعدة الشيفرة واعتماد أفضل الممارسات. هنا يتم وصف الميزات التي تم نشرها لتمكين جميع التحسينات في فائدة Galaxy الموصوفة أعلاه.

تحسين الخدمة

  • دوامة المنظور الكلي (TPV): TPV هي مكتبة لتحديد حجم وظائف Galaxy بشكل مناسب وجدولة الميتا في بيئات الحوسبة المتنوعة.https://doi.org/10. 48550/arXiv.2312.02060). يسمح TPV بتفصيل دقيق
    التحكم في تخصيص الموارد للوظائف الفردية، بما في ذلك القدرة على اتخاذ القرارات باستخدام بيانات الموارد الحية. ميزة رئيسية لـ TPV هي قاعدة بيانات تم تنسيقها من قبل المجتمع لأول مرة تحتوي على متطلبات الموارد الافتراضية لما يقرب من 1000 أداة بيولوجية معلوماتية شائعة.https://github.com/galaxyproject/tpv-shareddatabase). هذه المورد المتاحة للجمهور قد أوصت بتخصيص الموارد وقواعد التوسع للأدوات بتنسيق YAML بسيط، مما يزيل الحاجة إلى تكوين الموارد بشكل فردي من قبل المسؤولين، وغالبًا ما يخمنون متطلبات موارد الوظائف لكل نشر Galaxy. يمكن تكوين TPV بسهولة على أي نسخة حديثة من Galaxy وقد تم نشره على Galaxy AU و EU، حيث تمت معالجة أكثر من عشرة ملايين وظيفة منذ نشره الأول في نوفمبر 2021.
  • دعم GA4GH: من خلال دعم واجهات برمجة التطبيقات التي طورتها GA4GH (17)، يساعد مشروع Galaxy في ضمان أن البيانات متاحة بسهولة وقابلة للتشغيل المتبادل، ويمكن تحليلها بسرعة وسهولة من قبل الباحثين والأطباء. هذا ملحوظ بشكل خاص في مجتمع الجينوميات لتقدم البحث الطبي وتحسين رعاية المرضى. لذلك، تساعد التعاون بين GA4GH ومشروع Galaxy في تحقيق الهدف المشترك المتمثل في جعل بيانات الجينوم موردًا قيمًا لفائدة الإنسانية. يدعم Galaxy حاليًا العديد من واجهات برمجة التطبيقات الرئيسية، بما في ذلك خدمة مستودع البيانات (DRS) لاستيراد وتصدير البيانات المستضافة داخل Galaxy؛ خدمة تنفيذ المهام (TES) التي تعرض موارد Pulsar لتنفيذ تحليلات واسعة النطاق بكفاءة؛ وخدمة تسجيل الأدوات (TRS) لمشاركة وتوزيع سير العمل. كما أن Galaxy لديه دعم أولي لـ Beacon، الذي يسمح باكتشاف بيانات الجينوم من خلال الاستعلام عما إذا كان هناك متغير معين موجود في مجموعة بيانات، والعديد من واجهات برمجة التطبيقات الأخرى لـ GA4GH.
  • حلول مجموعة البيانات البعيدة المؤجلة: تعتبر مجموعات البيانات المؤجلة ميزة تسمح بجلب مجموعات البيانات فقط عند تشغيل الوظيفة التي تستخدمها، مما قد يقلل من أوقات الانتظار للتحليل. يمكن تنفيذ الأدوات وسير العمل بكفاءة، حيث سيقوم Galaxy بتنزيل مجموعة البيانات البعيدة فقط عند الحاجة إليها لوظيفة معينة. نظرًا لأن البيانات لا يتم تخزينها بواسطة Galaxy حتى تكون مطلوبة، فإن مجموعة البيانات لا تساهم في حصة تخزين المستخدم.

تحسينات تجربة المستخدم

تمت إضافة مجموعة من الميزات الجديدة إلى Galaxy دعمًا مباشرًا لجعل واجهة مستخدم Galaxy أكثر بديهية وأكثر صلة بالمعلومات المعروضة. تشمل هذه:
  • نظام الإشعارات: يسهل نظام الإشعارات الجديد إرسال إشعارات حول مجموعة واسعة من السيناريوهات مثل إكمال الوظائف، ومشاركة العناصر، وتحديثات الخدمة، والمزيد. تظهر الإشعارات داخل خدمة Galaxy كنقاط حمراء مرقمة تنقل إلى لوحة الإشعارات (الشكل 2). لدى المستخدمين السيطرة على إشعاراتهم، بما في ذلك خيار الاشتراك/إلغاء الاشتراك في أنواع معينة من الإشعارات. يدعم نظام الإشعارات الجديد أيضًا الإشعارات العامة، مما يسمح للمسؤولين بإرسال إعلانات على مستوى الخادم، مثل صيانة الخادم أو إشعارات التوقف.
  • تسجيل الدخول من خلال تحسينات OpenIDConnect (OIDC): أصبحت أدوات Galaxy والوظائف الآن قادرة على استخدام هويات OIDC المرتبطة لتنفيذ إجراءات نيابة عن المستخدمين. هذا
الشكل 2. الإشعارات والبث وجهات نظر المسؤول والمستخدم في Galaxy. الأعلى: عرض المسؤول في Galaxy لإشعارات المستخدم الفردية والبث على مستوى الخدمة. الأسفل: مثال على دمج الإشعارات والبث الذي سيختبره المستخدم.
يمكّن الأدوات وسير العمل من الحصول على قدرات تسجيل دخول موحد لتجربة مستخدم سلسة. يمكن لمؤلفي الأدوات الاستفادة من هذه القدرات لتقليل الاحتكاك للمستخدمين حيث كان من الممكن أن يتطلب الأمر سابقًا تكرار المطالبة ببيانات اعتماد المستخدم.
  • واجهة التاريخ: تم تحديث عنصر Galaxy الأساسي، تاريخ المستخدم للبيانات المدخلة والنتائج، للسماح بالبحث عن مجموعات البيانات المدخلة بسهولة، والتبديل السريع بين التاريخ، وعرض متعدد للتاريخ، والسحب والإفلات متعدد الاتجاهات في عارض التاريخ المتعدد، وعمليات جماعية مثل وضع علامات على العناصر وتغييرات مفاتيح قاعدة البيانات.
  • بحث الأدوات: تم تحديثه ليشمل بحث الأدوات المتقدم، مما يسمح بالتصفية حسب القسم، والمعرف، ونص المساعدة بالإضافة إلى الاسم.

إدارة بيانات البحث

يخزن Galaxy كل من بيانات المستخدم وبيانات المرجع نيابة عن الباحثين. من المهم توفير فهم واضح للمستخدمين حول ملف تخزينهم على خدمة Galaxy في إدارة التزامات الخدمة لتخزين البيانات. لتوفير إدارة بيانات أكثر إبلاغًا، تم توفير هذه الميزات الجديدة
الشكل 3. لوحة معلومات تخزين المستخدم. لوحة معلومات تخزين المستخدم، المتاحة من الإصدار 22.05، وتم تحسينها وتوسيعها في الإصدار 23.1. أعلى اليسار: نظرة عامة رئيسية على اللوحة. أعلى اليمين: قسم إدارة التخزين حيث يمكن للمستخدم اكتشاف وتحرير مساحة القرص بسرعة. أسفل اليسار: تمثيل بصري لأعلى 10 تواريخ حسب الحجم. أسفل اليمين: مثال على الخيارات المتاحة لتخزين كائنات التاريخ الخاصة بك.
للمشغلين الخدمة وللمستخدمين لتمكين اتخاذ القرار بشأن تخزين البيانات.
  • إدارة التاريخ غير المستخدمة: يجب أن تكون مسؤولية إدارة بيانات المستخدم مع المستخدم، ومع ذلك، عادة ما تكون هناك حاجة إلى تذكيرات نشطة حول اقتراب حدود الحصة لمساعدة المستخدمين في هذه المهمة. خيار، تم نشره حاليًا على Galaxy Australia، هو تنبيه عبر البريد الإلكتروني للتواريخ التي لم يتم تعديلها في الـ 52 أسبوعًا الماضية والحد من حذف هذه التواريخ في غضون أسبوعين إضافيين. يسرد البريد الإلكتروني جميع التواريخ مع روابط مباشرة إلى التواريخ، مما يسمح للمستخدم باتخاذ أي إجراء مطلوب بسهولة، مدعومًا بحجم كل تاريخ وروابط إلى أدلة الدعم لتنزيل والحفاظ على التاريخ خارج Galaxy.
  • رؤية التخزين: يمكن أن تشمل رحلة بيانات الباحث على Galaxy بيانات التدريب، وبيانات التحسين، والبيانات الخام وبيانات المرجع الفردية. يمكن تجميع كل من هذه التصنيفات البيانية حسب متطلباتها للتخزين/الاسترجاع. على سبيل المثال، يمكن الوصول إلى بيانات تدريب GTN المخزنة على Zenodo (https://zenodo.org/communities/ galaxy-training/) بشكل متكرر إذا تم تخزينها مؤقتًا على خدمة Galaxy فردية. ومع ذلك، قد تحتاج البيانات الخام إلى التخزين حتى يتم نشر النتائج المرتبطة وتخزين البيانات حسب متطلبات النشر. تساعد لوحة معلومات تخزين المستخدم وخيارات التخزين
    الباحثين في إدارة ملف تخزينهم الإجمالي. تعتبر لوحة معلومات التخزين مكانًا مركزيًا حيث يتم تقديم نظرة عامة للمستخدم حول استخدام تخزين القرص الخاص بهم (الشكل 3). كما أنها توفر وسيلة سهلة وسريعة لاستعادة المساحة من التواريخ أو مجموعات البيانات التي من المحتمل أن تكون غير مستخدمة. يمكن للمستخدمين تصور استخدام القرص لتواريخهم المجمعة، مع عرض أعلى 10 أو 20 أو 50 تاريخًا مقاسة حسب إجمالي التخزين المطلوب على مخطط صندوق (الشكل 3). يمكن العثور على مزيد من التفاصيل لمجموعات البيانات الفردية، مما يسمح للمستخدمين بإدارة ملف تخزينهم الإجمالي وما البيانات التي تتطلب تصديرًا أو حذفًا. تتيح خيارات تخزين كائنات التاريخ المفضلة للمستخدم اختيار مكان تخزين البيانات حسب احتياجاتهم، وتختلف على كل خادم Galaxy عام.
  • تصدير البيانات: كان بإمكان مستخدمي Galaxy تصدير عنصر (عناصر) التاريخ أو تواريخ كاملة، لغرض الأرشفة أو إعادة الاستخدام لاحقًا. ومع ذلك، لم يتم تتبع أصل الصادرات، وقد تم تحسين ذلك. الآن تتبع التواريخ متى وأين تم تصديرها. يمكن أن تكون الصادرات دائمة أو مؤقتة. تدعم الصادرات الدائمة إعادة الاستيراد السريع والسهل إلى Galaxy من ‘ملحق مصدر الملف’ المكون على خادم Galaxy، مثل S3، Zenodo، Dropbox. الصادرات المؤقتة هي روابط قصيرة العمر تسمح للمستخدمين بتنزيل التواريخ، مما يجعل من الممكن تحميلها يدويًا واستيرادها لاحقًا حسب الحاجة. يمكن تصدير التواريخ
الشكل 4. تصدير البيانات الهيكلية لكائنات Galaxy. أعلى اليسار: مثال على تصدير التاريخ – استدعاء المتغيرات إلى ROcrate، مع تتبع الأحداث السابقة للتصدير. أعلى اليمين: تصدير استدعاء سير العمل إلى تنسيقات أرشيفية متعددة. الأسفل: تصدير InvenioRDM، يدعم الاتصال السهل بـ Zenodo.
كأرشيفات مضغوطة، أو ككائنات RO-Crate (21)، وهو تنسيق أرشفة FAIR للأشياء البحثية بناءً على schema.orgو Bioschemas (الشكل 4). يمكن تصدير استدعاءات سير العمل (أو التشغيلات) إلى عدة تنسيقات، بما في ذلك RO-Crate، بالإضافة إلى BioComputeObjects، وهو معيار (IEEE 2791-2020) لتتبع معلومات الأصل لسلاسل البيانات الحيوية الخاصة بالتسلسل عالي الإنتاجية والتي تحتوي على بيانات وصفية إضافية تتعلق بتنفيذ سير العمل (الشكل 4). تم توسيع بنية تصدير سير العمل لدعم معايير تنسيق جديدة، من خلال إضافة جديدة سهلة للملحقات إلى الميزة. مثال بارز هو الملحق الجديد InvenioRDM. يتيح هذا الملحق للمستخدمين تصدير/استيراد مجموعات بيانات فردية أو تواريخ إلى أي مثيل InvenioRDM (الشكل 4). InvenioRDM هو حل مستودع لإدارة بيانات البحث (RDM) جاهز تم تطويره بواسطة CERN. إنه النظام الأساسي الأساسي المستخدم من قبل Zenodo، الذي بدوره يسمح باستيراد/تصدير البيانات بسهولة من Galaxy إلى Zenodo.

مجتمع عالمي نابض بالحياة

مشروع جالاكسي مدعوم من قبل مئات المساهمين النشطين في الشيفرة والأدوات وسير العمل والتدريب. يتيح هذا الانخراط لمجتمع المستخدمين أن يلعب دورًا رسميًا مهمًا في تخطيط الاتجاهات المستقبلية لمشروع جالاكسي. تشمل أدلة هذا الانخراط الاعتراف بجالاكسي في الوثائق العامة، مع الأوراق التي تذكر جالاكسي بين عامي 2022 و2024. المتابعون على خدمات المدونات الصغيرة هم مقياس آخر. وصل مشروع جالاكسي إلى أكثر من 14000 متابع على X (المعروف سابقًا بتويتر)، قبل أن تؤدي القواعد والسياسات المتغيرة في X إلى عدم توافقها مع قيم المشاركين، مما أدى إلى تخلي مشروع جالاكسي عن الاعتماد على X للتواصل. اعتبارًا من عام 2024، تم اعتماد نهج متعدد الخدمات، مع ماستودون (https://mstdn.science/@galaxyproject), مصفوفة (https://app. element.io/#/room/#galaxyproject_Lobby:gitter.imبلو سكاىhttps://bsky.app/profile/galaxyproject.bsky.social) ولينكد إن (https://www.linkedin.com/company/galaxyproject/جميع الوجهات لرسائل مشاريع جالاكسي.
الشكل 5. مثال على التقدير الإنتاج المرتبط بوظيفة Galaxy. تم الحصول عليه من وظيفة MSstats على Galaxy أستراليا (https://usegalaxy.org.au)، التي تعمل بإصدار كود Galaxy 23.1.
يأتي الانخراط أيضًا من التواصل الواضح والمفتوح داخل مشروع جالاكسي. تم مراجعة الحوكمة ومجموعات العمل ومجموعات الاهتمام الخاصة (SIGs) لتوفير رعاية مناسبة لمشروع جالاكسي في المستقبل.

حوكمة مشروع جالاكسي

يتم إدارة مشروع المجرة من خلال الحكم الذاتي التشاركي. تشمل الهياكل الحكومية الرسمية مجلس إدارة المجرة التنفيذي (GEB) ومجلس مجتمع المجرة (GCB) ومجلس التقنية للمجرة (GTB) ومكتب إدارة المشروع (PMO).https://galaxyproject.org/community/تهدف GEB إلى تعزيز تمثيلها الدولي من خلال استقبال باحثين رئيسيين جدد وذوي خبرة من خلفيات متنوعة. يُنظر إلى هذا التوسع على أنه أمر حيوي لتعزيز مجتمع بحثي أوسع وأكثر شمولاً مع نمو Galaxy من مشاريع محلية إلى مبادرة عالمية.
تعتبر SIGs مجموعات من المتخصصين، يتعاونون ويتفاعلون ويساهمون في Galaxy، من خلال تطوير ومشاركة الموارد المتخصصة، ومن خلال توضيح والمساهمة في احتياجاتهم على المدى الطويل في تخطيط المشروع.//galaxyproject.org/community/sig/مدفوعة بالكامل من قبل مجتمعات المستخدمين، تم إعادة تنظيم المجموعات الخاصة (SIGs) بشكل كبير مؤخرًا لاستيعاب النمو، ناشئة من مجموعات المجتمع، التي تحدد نفسها حسب اللغة أو المناطق الجغرافية (مثل GTÑEspañol)، المشاريع العلمية (مثل الاستجابات لـ COVID-19)، ومجتمعات الممارسات البحثية المشتركة، مثل طرق تحليل الخلايا المفردة.
لقد نظمت هذه المجموعات الخاصة (SIGs) نفسها في مجموعة GCB، من أجل وضع أفضل الممارسات، وتطوير البنية التحتية والإرشادات لأنفسهم، وبناء تمثيل للمستخدمين. الهدف هو تبسيط جهود المجتمع وتوفير صوت موحد كجزء من حوكمة Galaxy. في الواقع، ومع الاعتراف بالفجوة المتزايدة بين المستخدمين والمطورين داخل مجتمع Galaxy المتوسع، أنشأت فريق واجهة المستخدم/تجربة المستخدم (UI/UX) اتصالًا قويًا مع هذه المجموعات الخاصة، من خلال إجراء مقابلات مع المستخدمين، وتأسيس معايير تجربة المستخدم على المنصة واختبار التدخلات. يتم توجيه الرؤى التي تم جمعها من أحداث التدريب – التي غالبًا ما تُدار جزئيًا من قبل المجموعات الخاصة – مرة أخرى إلى فريق UI/UX من خلال المقابلات والعروض التقديمية في الاجتماعات، مما يعزز دورة تحسين مستمرة.
تشمل بعض الأمثلة الحديثة لمخرجات SIG ما يلي:
  • مشروع جينوم الفقاريات: أظهرت جالاكسي فائدتها في دعم مشروع VGP من خلال نشر سير العمل الخاص بتجميع النسخة 2.1 من VGP (22). باستخدام بيانات من VGP وERGA، أنشأ سير العمل 51 جينومًا، من 4 أنواع من البرمائيات، 15 نوعًا من الطيور، 10 أنواع من الأسماك، 14 نوعًا من الثدييات و8 أنواع من الزواحف.
  • البروتيوميات الحاسوبية: بالتعاون الوثيق مع AnalystSuite، تتوفر أدوات تفاعلية، مثل LFQanalyst، لتصور واستكشاف البيانات على Galaxy (23).
  • علم الوراثة البشرية: زادت جالاكسي من الدعم لعلم الوراثة البشرية، خاصة مع تدفقات العمل الجديدة لاكتشاف وتفسير التvariations الجينية لاستخدامها ضمن بيئات NHGRI AnVIL (24) وNCI Firecloud (25).

الأثر البيئي

كموفر خدمة مسؤول لمجتمع عالمي كثيف الموارد، يساعد مشروع جالاكسي في توضيح الأثر البيئي لإجراء الأبحاث، من خلال عرض الإنتاج المقدر لـ لكل وظيفة تم تنفيذها (الشكل 5).

خطط المستقبل

تواصل جالاكسي التقدم في تقنيات البرمجيات الجديدة، وأنواع البيانات العلمية الجديدة والتطبيقات، ونماذج جديدة للبحث التعاوني. يشمل ذلك؛ خوادم بلسار المشتركة، واستخدام تخزين مؤقت، وتوسيع دعم مجالات البحث. في النهاية، يتم دفع ذلك بقيم أساسية لدعم البحث القابل للوصول، القابل للتكرار، والشفاف المدفوع من قبل المستخدمين. يشمل ذلك ضمان أن جالاكسي يمكن أن يتكامل مع مصادر البيانات الخارجية، والبنية التحتية الحاسوبية، وأدوات التحليل من الأطراف الثالثة، وبناء مجتمع قوي ومرحب وتعاوني من المستخدمين والمطورين وأصحاب المصلحة الذين يساهمون في التحسين المستمر لمنصة جالاكسي ونظامها البيئي. يعتمد مشروع جالاكسي بشكل كبير على مجتمع المستخدمين النشط لدينا، ونحن نراقب باستمرار، ونتكيف ونتطور لتلبية الاحتياجات المتغيرة لمجتمع البحث العلمي المفتوح.

توفر البيانات

جالاكسي متاح مجانًا علىhttps://galaxyproject.org.

شكر وتقدير

إن نمو مشروع جالاكسي أصبح ممكنًا بفضل مجتمع متزايد من المستخدمين والمطورين ومديري الأنظمة والمعلمين من جميع أنحاء العالم. يعترف المجتمع بالخسارة المؤسفة الأخيرة للراحل سايمون غلادمان، المطور الرئيسي النشيط والشغوف لجالاكسي أستراليا من 2012 حتى نوفمبر 2022، والراحل جيمس جونسون، عضو طويل الأمد في مجتمع جالاكسي وقائد جالاكسي-بي ستار، واللذان سيفتقدان بشدة لمساهماتهما. يتم تذكرهما جنبًا إلى جنب مع جيمس تايلور (26) (https://github.com/usegalaxy-au/infrastructure/pull/1092) وستستمر أعمالهم في المجرة.
نحن ممتنون للغاية لمركز ACCESS-CI ومركز تكساس للحوسبة المتقدمة (TACC) لاستضافتهم https://usegalaxy.orgde.NBI-Cloud (البنية التحتية الوطنية الألمانية للبحث في المعلوماتية الحيوية) وUFR-RZ للاستضافةhttps://usegalaxy.eu، و BioCommons الأسترالية والشركاء (AARNet، QCIF، جامعة ملبورن، باوزي وNCI) لاستضافتهمhttps://usegalaxy.org.au.

تمويل

NIH [U41 HG006620، U24 HG010263، U24 CA231877، U01 CA253481]؛ مؤسسة العلوم الوطنية الأمريكية [1661497، 1758800، 2216612]؛ الموارد الحاسوبية مقدمة من نظام تنسيق البنية التحتية المتقدمة (ACCESS-CI)، مركز تكساس للحوسبة المتقدمة، وسحابة JetStream2 العلمية. تمويل رسوم الوصول المفتوح: NIH.
ELIXIR هو ومنح السفر؛ برنامج الاتحاد الأوروبي هورايزون أوروبا [HORIZON-INFRA-2021-EOSC-01-04، 101057388]؛ برنامج الاتحاد الأوروبي هورايزون أوروبا تحت برنامج التنوع البيولوجي والاقتصاد الدائري والبيئة (REA.B.3، BGE 101059492)؛ وزارة التعليم والبحث الفيدرالية الألمانية، BMBF [031
A538A de.NBI-RBC]; وزارة العلوم والبحث والفنون بادن-فورتمبيرغ (MWK) في إطار LIBIS/de.NBI فرايبورغ.
تدعم جالاكسي أستراليا الأسترالية بيوكومونز، الذي يتم تمويله من خلال استثمارات الحكومة الأسترالية في NCRIS من بيوبلاتفورمز أستراليا والأسترالية للبيانات البحثية، بالإضافة إلى استثمار من برنامج RICF التابع لحكومة كوينزلاند.

بيان تضارب المصالح

دي.با.، د.ب.، ج.س.، ن.س.، ج.ج.، أ.ج. و أ.ن. لديهم مصلحة مالية كبيرة في GalaxyWorks، وهي شركة قد تكون لها مصلحة تجارية في نتائج هذا البحث والتكنولوجيا.

References

  1. Giardine,B., Riemer,C., Hardison,R.C., Burhans,R., Elnitski,L., Shah,P., Zhang,Y., Blankenberg,D., Albert,I., Taylor,J., et al. (2005) Galaxy: a platform for interactive large-scale genome analysis. Genome Res., 15, 1451-1455.
  2. Galaxy Community (2022) The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update. Nucleic Acids Res., 50, W345-W351.
  3. Black,M., Lamothe,L., Eldakroury,H., Kierkegaard,M., Priya,A., Machinda,A., Khanduja,U.S., Patoliya,D., Rathi,R., Nico,T.P.C., et al. (2022) EDAM: the bioscientific data analysis ontology (update 2021). F1000Research, https://doi.org/10.7490/f1000research.1118900.1.
  4. Rhie,A., McCarthy,S.A., Fedrigo,O., Damas,J., Formenti,G., Koren,S., Uliano-Silva,M., Chow,W., Fungtammasan,A., Kim,J., et al. (2021) Towards complete and error-free genome assemblies of all vertebrate species. Nature, 592, 737-746.
  5. Lewin,H.A., Robinson,G.E., Kress,W.J., Baker,W.J., Coddington,J., Crandall,K.A., Durbin,R., Edwards,S.V., Forest,F., Gilbert,M.T.P., et al. (2018) Earth BioGenome Project: sequencing life for the future of life. Proc. Natl. Acad. Sci. U.S.A., 115, 4325-4333.
  6. Marx-Stoelting,P., Rivière,G., Luijten,M., Aiello-Holden,K., Bandow,N., Baken,K., Cañas,A., Castano,A., Denys,S., Fillol,C., et al. (2023) A walk in the PARC: developing and implementing 21st century chemical risk assessment in Europe. Arch. Toxicol., 97, 893-908.
  7. Jumper,J., Evans,R., Pritzel,A., Green,T., Figurnov,M., Ronneberger,O., Tunyasuvunakool,K., Bates,R., Žídek,A., Potapenko,A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589.
  8. OpenAI,A.J., Adler,S., Agarwal,S., Ahmad,L., Akkaya,I., Aleman,F.L., Almeida,D., Altenschmidt,J., Altman,S., et al. (2023) GPT-4 technical report. arXiv doi: https://arxiv.org/abs/2303.08774, 15 March 2023, preprint: not peer reviewed.
  9. Mirdita,M., Schütze,K., Moriwaki,Y., Heo,L., Ovchinnikov,S. and Steinegger,M. (2022) ColabFold: making protein folding accessible to all. Nat. Methods, 19, 679-682.
  10. de Koning,W., Miladi,M., Hiltemann,S., Heikema,A., Hays,J.P., Flemming,S., van den Beek,M., Mustafa,D.A., Backofen,R., Grüning,B., et al. (2020) NanoGalaxy: nanopore long-read sequencing data analysis in Galaxy. Gigascience, 9, giaa105.
  11. Cox,J. and Mann,M. (2008) MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat. Biotechnol., 26, 1367-1372.
  12. Zheng,G.X.Y., Terry,J.M., Belgrader,P., Ryvkin,P., Bent,Z.W., Wilson,R., Ziraldo,S.B., Wheeler,T.D., McDermott,G.P., Zhu,J., et al. (2017) Massively parallel digital transcriptional profiling of single cells. Nat. Commun., 8, 14049.
  13. Solovyev,V., Kosarev,P., Seledsov,I. and Vorobyev,D. (2006) Automatic annotation of eukaryotic genes, pseudogenes and promoters. Genome Biol., 7, S10.
  14. Grüning,B., Dale,R., Sjödin,A., Chapman,B.A., Rowe,J., Tomkins-Tinch,C.H., Valieris,R., Köster,J. and Bioconda TeamBioconda Team (2018) Bioconda: sustainable and comprehensive software distribution for the life sciences. Nat. Methods, 15, 475-476.
  15. Wilkinson,M.D., Dumontier,M., Aalbersberg,I.J.J., Appleton,G., Axton,M., Baak,A., Blomberg,N., Boiten,J.-W., da Silva Santos,L.B., Bourne,P.E., et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3, 160018.
  16. Yuen,D., Cabansay,L., Duncan,A., Luu,G., Hogue,G., Overbeck,C., Perez,N., Shands,W., Steinberg,D., Reid,C., et al. (2021) The Dockstore: enhancing a community platform for sharing reproducible and accessible computational protocols. Nucleic Acids Res., 49, W624-W632.
  17. Rehm,H.L., Page,A.J.H., Smith,L., Adams,J.B., Alterovitz,G., Babb,L.J., Barkley,M.P., Baudis,M., Beauvais,M.J.S., Beck,T., et al. (2021) GA4GH: international policies and standards for data sharing across genomic research and healthcare. Cell Genom, 1, 100029.
  18. Hiltemann,S., Rasche,H., Gladman,S., Hotz,H.-R., Larivière,D., Blankenberg,D., Jagtap,P.D., Wollmann,T., Bretaudeau,A., Goué,N., et al. (2023) Galaxy Training: a powerful framework for teaching! PLoS Comput. Biol., 19, e1010752.
  19. Mölder,F., Jablonski,K.P., Letcher,B., Hall,M.B., Tomkins-Tinch,C.H., Sochat,V., Forster,J., Lee,S., Twardziok,S.O., Kanitz,A., et al. (2021) Sustainable data analysis with Snakemake. F1000Res., 10, 33.
  20. Rasche,H., Hyde,C., Davis,J., Gladman,S., Coraor,N., Bretaudeau,A., Cuccuru,G., Bacon,W., Serrano-Solano,B., Hillman-Jackson,J., et al. (2022) Training infrastructure as a service. Gigascience, 12, giad048.
  21. Soiland-Reyes,S., Sefton,P., Crosas,M., Castro,L.J., Coppens,F., Fernández,J.M., Garijo,D., Grüning,B., La Rosa,M., Leo,S., et al. (2022) Packaging research artefacts with RO-Crate. Data Sci, 5, 97-138.
  22. Larivière,D., Abueg,L., Brajuka,N., Gallardo-Alba,C., Grüning,B., Ko,B.J., Ostrovsky,A., Palmada-Flores,M., Pickett,B.D., Rabbani,K., et al. (2024) Scalable, accessible and reproducible reference genome assembly and evaluation in Galaxy. Nat. Biotechnol., 42, 367-370.
  23. Mehta,S., Bernt,M., Chambers,M., Fahrner,M., Föll,M.C., Gruening,B., Horro,C., Johnson,J.E., Loux,V., Rajczewski,A.T., et al. (2023) A galaxy of informatics resources for MS-based proteomics. Expert Rev. Proteomics, 20, 251-266.
  24. Schatz,M.C., Philippakis,A.A., Afgan,E., Banks,E., Carey,V.J., Carroll,R.J., Culotti,A., Ellrott,K., Goecks,J., Grossman,R.L., et al. (2022) Inverting the model of genomics data sharing with the NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space. Cell Genom, 2, 100085.
  25. Birger,C., Hanna,M., Salinas,E., Neff,J., Saksena,G., Livitz,D., Rosebrock,D., Stewart,C., Leshchiner,I., Baumann,A., et al. (2017) FireCloud, a scalable cloud-based platform for collaborative genome analysis: strategies for reducing and controlling costs. bioRxiv doi: https://doi.org/10.1101/209494, 03 Novemberv 2017, preprint: not peer reviewed.
  26. Nekrutenko,A. and Schatz,M.C. (2020) In memory of James Taylor: the birth of Galaxy. Genome Biol., 21, 105.

الملحق

المؤلف المراسل: غاريث برايسg.price@uq.edu.auالمؤلفون المشاركون: أنطون نيكروتينكوanton@nekrut.org), بيورن أ. غرينينغ (بجو-
ern.gruening@gmail.com), مايكل سي. شاتز (mschatz@cs.jhu.edu)
المساهمون (بالترتيب الأبجدي)
لينيل آن ل أبوغ إنيس أفغان أوليفييه ألار أحمد ح عوان ويندي أ. باكون دانون بيكر مادلين باسيتّي بيرينيس باتو ماتياس بيرنت دانيال بلانكنبرغ أوريليانو بومبارلي أنتوني بريتودو كاثرين ج. برومهيد ميليسا إل بيرك باتريك ك كابون مارتن تشيك ماريا تشافيرو-دييز جون م. تشيلتون تايلر ج. كولينز فريدريك كوبينس نات كوراور جيانماورو كوكورو فابيو كومبو جون ديفيس بول ف دي جيست ويليم دي كونينغ مارتن ديمكو أسونتا دي سانتو خوسيه مانويل دومينغيز بيخينس ماريا أ. دويل بيرت دروزبيك أنيكا إيركسليبن-إيجنهوفر ميلاني سي فول جوليو فورمنتي آن فويليو رنداني غانغازه تانغي جينتون جيريمي غوكز أليخاندرا ن غونزاليس بيلتران نيوان أ. غوناسيكيرا ناديا غوي تيموثي ج. غريفين بيورن أ. غرينينغ أيسام غويرلر سفينونغ غوندرسن أوفي يوهان راغنار غوستافسون كريستينا هول توماس و. هاروب هيلغ هيشت عليرضا حيدري تيلمان هايسنر فلوريان هايل ساسكيا هيلتيمان هانس-رودولف هوتز كاميرون ج. هايد براتيك دي جاجتاب جوليا جاكيلا جيمس إي جونسون جاياديف جوشي ماري جوزيه خالد جمعة ماتوش كلاش كاتارزينا كامينيتسكا تونك كايكجي أوغلو ماركوس كونكول ليونيد كوستريكين ناتالي كوتشر أنوب كومار ميرا كونتس دلفين لارييفير روس لازاروس إيفان لو برا جيلداس لو كورغي جاستن لي سيمون ليو لياندرو ليبوري روماني ليبوان ديفيد لوبيز تابيرنيرو لوسيل لوبيز-ديليسل ليلى إس لوس ألكسندرو محمود إيغور ماكونين بيير مارين سبينا ميهتا ويني موك بابلو أ. مورينو فرانسوا مورييه-جينود ستيفن موشر تيريزا مولر إنجي نصر أنتون نيكروتينكو تيفاني م. نيلسون أسيما جي أوبا ألكسندر أوستروفسكي بولينا ف. بولونينا كريستوف بوتيرلوفيتش إليوت جي برايس غاريث ر. برايس هيلينا راش براين راوبينولت كولين رويال لوك سارجنت ميشيل تي سافاج فولوديمير سافشينكو دينيس سافشينكو مايكل سي شاتز بولين سيغينو بياتريس سيرانو-سولانو نيكولا سورانزو سانجاي كومار سريكولام كيث سوديرمان آنا إي سايم ماركو أنطونيو تانغارو جوناثان أ تيدز محمد تكمان واي تشينغ (مايك) ثانغ أنيل إس ثانكي مايكل أول ماريوس فان دن بيك ديبتي فارشني جين فيسيو بافانكومار فيدم غريغ فون كوستر غريغوري ر. واتسون ناتالي ويتاكر-ألين أوفي وينتر مارتن وولستنكروفت فيديريكو زامبيلي بول زيريب راندا زعبي
الانتماءات
  1. البحث في المعلومات الجغرافية الشمالية، شمال الراين-وستفاليا 48147، ألمانيا
  2. AARNet، كوينزلاند 4104، أستراليا
  3. جامعة ألبرت لودفيغ في فرايبورغ، بادن-فورتمبيرغ 79110، ألمانيا
  4. أسترازينيكا، كامبريدجشير CB2 0AA، المملكة المتحدة
  5. بيوكومونز الأسترالية، فيكتوريا 3052، أستراليا
  6. مركز برشلونة supercomputing، كاتالونيا 08902، إسبانيا
  7. جامعة كليرمونت أوفيرن، أوفيرن-رون-ألب 63000، فرنسا
  8. عيادة كليفلاند، أوهايو 44106، الولايات المتحدة الأمريكية
  9. CNRS – Data Terra، بريتاني 29200، فرنسا
  10. CRS4، كالياري 09050، إيطاليا
  11. معهد إيرلهام، شرق إنجلترا وشرق أنجليا NR4 7UZ، المملكة المتحدة
  12. المدرسة الفيدرالية Polytechnic في لوزان (EPFL)، فود 1015، سويسرا
  13. إليكسير، كامبريدجشير CB10 1SD، المملكة المتحدة
  14. EMBL، بادن-فورتمبيرغ 69117، ألمانيا
  15. معهد المعلوماتية الحيوية الأوروبي التابع لـ EMBL (EMBLEBI)، كامبريدجشير CB10 1SD، المملكة المتحدة
  16. EPFL، فود 1004، سويسرا
  17. مركز إيراسموس الطبي، جنوب هولندا 3015 GD، هولندا
  18. المعهد الفرنسي للمعلوماتية الحيوية، أوفيرن-رون ألب 63170، فرنسا
  19. معهد فريدريش ميسشر للبحوث الحيوية، بازل-شتات 4058، سويسرا
  20. مشروع جالاكسي، نيو ساوث ويلز 2026، أستراليا
  21. مركز أبحاث السرطان الألماني، بادن-فورتمبيرغ 69120، ألمانيا
  22. جامعة غريفيث، نيو ساوث ويلز 2299، أستراليا
  23. كلية الطب بجامعة هارفارد، ماساتشوستس 01082، الولايات المتحدة الأمريكية
  24. جامعة هايدلبرغ، بادن-فورتمبيرغ 69120، ألمانيا
  25. هيومان تيكنوبول، لومباردي 20157، إيطاليا
  26. IGEPP، INRAE، معهد أغرو، جامعة رين، بريتاني 35042، فرنسا
  27. معهد البيولوجيا الخلوية والجزيئية للنباتات (IBMCP)، فالنسيا 46001، إسبانيا
  28. معهد الأغشية الحيوية والطاقة الحيوية والتقنيات الحيوية الجزيئية، المجلس الوطني للبحوث (CNR)، بوليا 70126، إيطاليا
  29. إيريسا، بريتاني 35042، فرنسا
  30. جامعة جيمس كوك، كوينزلاند 4814، أستراليا
  31. جامعة جونز هوبكنز، ماريلاند 21218، الولايات المتحدة الأمريكية
  32. معهد ليرنر للبحوث، عيادة كليفلاند، أوهايو 44106، الولايات المتحدة الأمريكية
  33. جامعة ماساريك، جنوب مورافيا 60200، جمهورية التشيك
  34. مركز موفيت للسرطان، فلوريدا 33612، الولايات المتحدة الأمريكية
  35. المتحف الوطني للتاريخ الطبيعي، بريتاني 29900، فرنسا
  36. مختبر أوك ريدج الوطني، تينيسي 37380، الولايات المتحدة الأمريكية
  37. جامعة أوريغون للصحة والعلوم، أوريغون 97239، الولايات المتحدة الأمريكية
  38. جامعة ولاية بنسلفانيا، بنسلفانيا 16802، الولايات المتحدة الأمريكية
  39. مؤسسة البنية التحتية السيبرانية في كوينزلاند، كوينزلاند 4072، أستراليا
  40. مختبر رذرفورد أبلتون، UKRI، أكسفوردشاير OX11 0QX، المملكة المتحدة
  41. مجلس مرافق العلوم والتكنولوجيا، أكسفوردشاير OX11 0QX، المملكة المتحدة
  42. مختبر أبحاث سيمولا، أوسلو 0164، النرويج
  43. جامعة السوربون، بريتاني 29900، فرنسا
  44. محطة بيولوجية روسكوف – جامعة السوربون/المركز الوطني للبحث العلمي، بريتاني 29680، فرنسا
  45. الجامعة المفتوحة، باكينغهامشير MK7 6AA، المملكة المتحدة
  46. جامعة روكفلر، نيويورك 10021، الولايات المتحدة الأمريكية
  47. جامعة برادفورد، ويست يوركشاير BD7 1DP، المملكة المتحدة
  48. جامعة إدنبرة، إدنبرة EH9 3FJ، المملكة المتحدة
  49. جامعة ملبورن، فيكتوريا 3052، أستراليا
  50. جامعة كوينزلاند، كوينزلاند 4072، أستراليا
  51. UFZ لايبزيغ، ساكسونيا 04318، ألمانيا
  52. UGent، شرق فلاندرز 9000، بلجيكا
  53. جامعة باريس سيت، إيل دو فرانس 75013، فرنسا
  54. جامعة بيرغن، فيستلان 5008، النرويج
  55. جامعة ليمريك، مونستر V94 T9PX، أيرلندا
  56. جامعة مايدوغوري، ولاية بورنو 600004، نيجيريا
  57. جامعة ميلانو، لومبارديا 20133، إيطاليا
  58. جامعة مينيسوتا، مينيسوتا 55455، الولايات المتحدة الأمريكية
  59. جامعة أوسلو، أوسلو 0316، النرويج
  60. المعهد الفلمنكي للتكنولوجيا الحيوية، شرق فلاندرز 9000، بلجيكا

  1. تاريخ الاستلام: 11 مارس 2024. تاريخ المراجعة: 18 أبريل 2024. القرار التحريري: 1 مايو 2024. تاريخ القبول: 2 مايو 2024.
    © المؤلفون 2024. نُشر بواسطة مطبعة جامعة أكسفورد نيابةً عن أبحاث الأحماض النووية.
    هذه مقالة مفتوحة الوصول موزعة بموجب شروط ترخيص المشاع الإبداعي للنسب (https://creativecommons.org/licenses/by/4.0/الذي يسمح بإعادة الاستخدام والتوزيع والاستنساخ غير المقيد في أي وسيلة، بشرط أن يتم الاستشهاد بالعمل الأصلي بشكل صحيح.

Journal: Nucleic Acids Research, Volume: 52
DOI: https://doi.org/10.1093/nar/gkae410
PMID: https://pubmed.ncbi.nlm.nih.gov/38769056
Publication Date: 2024-05-20

The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update

The Galaxy Community**To whom correspondence should be addressed – Gareth Price. Tel: +6173365 7534; Email: g.price@uq.edu.auCorrespondence may also be addressed to Anton Nekrutenko. Email: anton@nekrut.orgCorrespondence may also be addressed to Björn A. Grüning. Email: bjoern.gruening@gmail.comCorrespondence may also be addressed to Michael C. Schatz. Email: mschatz@cs.jhu.edu

Abstract

Galaxy (https://galaxyproject.org) is deployed globally, predominantly through free-to-use services, supporting user-driven research that broadens in scope each year. Users are attracted to public Galaxy services by platform stability, tool and reference dataset diversity, training, support and integration, which enables complex, reproducible, shareable data analysis. Applying the principles of user experience design (UXD), has driven improvements in accessibility, tool discoverability through Galaxy Labs/subdomains, and a redesigned Galaxy ToolShed. Galaxy tool capabilities are progressing in two strategic directions: integrating general purpose graphical processing units (GPGPU) access for cutting-edge methods, and licensed tool support. Engagement with global research consortia is being increased by developing more workflows in Galaxy and by resourcing the public Galaxy services to run them. The Galaxy Training Network (GTN) portfolio has grown in both size, and accessibility, through learning paths and direct integration with Galaxy tools that feature in training courses. Code development continues in line with the Galaxy Project roadmap, with improvements to job scheduling and the user interface. Environmental impact assessment is also helping engage users and developers, reminding them of their role in sustainability, by displaying estimated emissions generated by each Galaxy job.

Graphical abstract

Introduction

User demand for an easily accessible data analytics service, deployed on computing infrastructure capable of meeting the needs of complex computing in research, has resulted in the Galaxy Project supporting, in its 19th year of ongoing operation, a rapid increase in throughput globally . Galaxy provides analytical tools that can be used individually or linked into complex workflows with intermediate data outputs capable of triggering logic conditionals within the workflow. Recent enhancements allow researchers to run workflows on data of variable quality, and have the workflow buffered to systematically explore experimental variability (https://gxy.io/GTN:T00164). Large scale research is necessarily collaborative, and Galaxy’s capacity to both securely share and publish data and workflows supports efficient collaboration, training, and data reuse. Recent changes to the Galaxy
user interface discussed below have made sharing more visible.
Collectively, the usegalaxy.* services in the United States, Australia, and Europe have amassed registered users, and supports individual users running jobs on average each month of 2023. Usegalaxy.* service statistics are publicly available at https: //status.galaxyproject.org/, with detailed operational data for Australia and Europe at https://stats.usegalaxy.org.au/ and https://stats.galaxyproject.eu/, respectively. Users have access to scientific tools, supporting different types of input data, enabling a wide variety of analyses in both the life and physical sciences, including astronomy, genomics, proteomics, metabolomics, materials science, imaging, and cytometry. Efficient, reproducible complex analytical pipelines can be created by joining tools from any domain with
‘noodles’ on the workflow canvas. Analysis outputs can be explored with >50 types of inbuilt visualizations, and a simple URL can be shared with collaborators, which encapsulates all the data, analyses settings, tool versions, and workflows needed for replication.

Research driven Solutions

Galaxy makes thousands of third-party open-source analysis packages easy to use, and interoperable without any user supplied code. For any new analysis package to become a tool, a developer prepares a Galaxy wrapper once, and uploads it to the sharable Galaxy global tool ‘appstore’ called the Galaxy Toolshed (https://toolshed.g2.bx.psu.edu/). Each Galaxy service supports a core common tool set, and offers a wide range of other tools, the exact combination of which is driven by user demand. The tools are then categorized by scientific use and/or datatypes involved. Further, the option to host tools on Galaxy is conditional on the tools’ computational needs (e.g. GPGPUs, high-memory), licence stipulations of tool use, and the ability for it to be wrapped as a standard or interactive tool, all of which have been improved in the latest Galaxy updates (https://docs.galaxyproject.org/en/master/ releases/index.html).

Galaxy Labs/sites/subdomains

The Galaxy Toolshed now hosts over 9500 distinct and modular software packages, i.e. tools, available to Galaxy Administrators for easy installation on any Galaxy service. The breadth of analytical options available as installed tools can add value for end users but can also be overwhelming. User feedback, both active formal UX documentation and passive user-initiated feedback, have identified that even a fraction of the tools hosted on a Galaxy service can confuse the process of finding any specific tool. For example, a user looking for a singular tool on the usegalaxy.* servers have to navigate through sets of 1770 (Galaxy US), 3320 (Galaxy EU) and 1730 (Galaxy AU) tools. This can be daunting, even when considering the help provided through tool categorisation and EDAM ontology labels (3).
Galaxy Europe first provided a solution to empower researchers with a common interest or who undertake a set of activities frequently. The subdomains focus on a particular research domain or technology modality (Figure 1). The content, tools and resources available are ‘tailored’ to each domain – i.e. making sure that the resources are a good fit for routine real-world research practice. Galaxy Australia also now makes use of this option, naming its offering Galaxy Labs (Figure 1). These labs offer a concentration of tools, workflows, and resources allowing new and regular practitioners of that field ready access to the most common options they need, whilst still offering all the other Galaxy features they could use. Importantly, a user logged in on a Galaxy offering labs/subdomains has full access to their data (histories), workflows, shared data, across all labs and the main service page. Galaxy Labs also align with Galaxy Project’s strategic initiative to support global research consortia, such as the Vertebrate Genome Project (VGP) (4) and Earth BioGenome Project (EBP) (5). Important regional examples include the adoption of Galaxy within the European Partnership for the Assessment of Risks from Chemicals (EU-
PARC; https://www.eu-parc.eu/) (6), WP4 Task 4.3.1.d, as a platform of choice for processing small molecule mass spectrometry datasets, and separately for processing of mass spectrometry datasets generated via the Czech node (coordinator) of the European Environmental Exposure Assessment Research Infrastructure (EIRENE-CZ; https://www.eireneri.eu/). In Australia, the Threatened Species Initiative uses Galaxy Australia as its primary genomics analytical service (https://threatenedspeciesinitiative.com/genome-assembly/).

GPGPU-supported tools

Increased tool complexity and capacity is evident in Galaxy through recent tool offerings utilising GPGPU infrastructure. Tool execution environment resourcing is not a consideration for Galaxy users but is easily configured by Galaxy infrastructure providers. GPGPU-based tools (AlphaFold2.0/multimer (7), ChatGPT (8) and AI-based tools run in JupyterLab (7)) are highly requested and are delivered through local access to GPGPU or through commercial cloud provision, across the usegalaxy.* services. In the case of Galaxy Australia, this work necessitated the deployment of a Pulsar on the Australian instance of Microsoft Azure. The demand for AlphaFold2.0/multimer in Australia has branched into utilization of NVIDIA GPUs and more recently the code has been adapted to also work on AMD GPUs, to decouple the tool use from a specific set of hardware requirements and to allow the tool to be deployed on a greater range of worker node configurations. Within the US, Galaxy leverages GPGPU and other compute resources via the NSFsponsored ACCESS-CI network, and now supports the widely used AlphaFold/CollabFold algorithms (9), GPU-based signal processing tools for ONT sequencing data (10), and other highly requested GPU tools. In support of global genome assembly consortiums, the GPGPU tool Helixer has been deployed onto usegalaxy.* services and is expected to drive GPGPU utilisation in support of programs such as the European Reference Genome Atlas (ERGA, https://www.ergabiodiversity.eu/) and VGP. Future Galaxy Project updates are predicted to increasingly utilize GPGPU and tensor processing unit (TPU)-dependent tools.

Licenced tools

A primary driver for Galaxy’s success has been its foundation in the principles of open-source development. However, this has limited the implementation of tools for Galaxy that have a non-open-source licensing arrangement. In some cases, development of an open-source equivalent has minimal delay after commercial solutions become available; MaxQuant (11) as a pan-proteomics tool is one such example. In rare cases where open-source development cannot keep pace with commercial solutions or user demands, Galaxy has increasingly turned to offering licenced options, for example: CellRanger and FGeneSH++ . Working in the interest of users, this provides a solution, which is the primary goal. It involves a local administrative burden in controlling access and licence agreements. The Galaxy community hopes that sufficient evidence of utility will make a compelling case for vendors to reconsider their licensing agreements to increase exposure to their tools (and brand) through Galaxy usage that acknowledges their contribution.
Figure 1. Examples of Galaxy Labs/subdomains. Researchers can quickly access a concentration of domain-specific tools, workflows, support, and training through Galaxy Labs or Galaxy subdomains. Top: the Genome Lab and Proteomics Lab on Galaxy Australia, https://genome.usegalaxy.org.au and https://proteomics.usegalaxy.org.au. Bottom: the Single Cell Omics subdomain on Galaxy Europe, https://singlecell.usegalaxy.eu/ and https://hicexplorer.usegalaxy.eu.

Discoverability

Any individual tool or workflow is only useful if it can be discovered in the first place, and this discoverability extends to the core functions of the software. In effect, a researcher should be able to discover an analytical solution using either the specific software name and associated metadata, or on the basis that they are seeking a particular functionality. In either case, the discovery of tool and workflow metadata has become increasingly important for both users and administrators of Galaxy. Existing capacity to share this metadata across life science domains that make use of Galaxy will greatly increase the scientific impact of these improvements. A solution for individual tools recently developed, with an initial focus on microbiology, is at https://galaxyproject.org/ community/sig/microbial/#tools. This interactive searchable table combines metadata sourced from Galaxy tool wrappers (via Planemo), Galaxy instance APIs (adding tool availability), ELIXIR bio.tools (https://bio.tools/) (adding EMBRACE Data And Methods’ (EDAM terms (3)), BioConda (14) (checking if tools are current), and a community-curated worksheet (flagging tools to be excluded). Galaxy already supports versioning through the Workflow editor (i.e. the canvas). However, the need to share workflows collaboratively using persistent identifiers, and to align with the FAIR principles for research software (15), has led to integration with workflow registries like WorkflowHub (https://workflowhub.eu/) and Dockstore
(16). From WorkflowHub, researchers can select a ‘Run on usegalaxy.eu‘, which triggers workflow import to Galaxy Europe; from Dockstore, a Galaxy workflow can be imported into any of the three major usegalaxy.* servers. Within Galaxy, a user can search either WorkflowHub or Dockstore using their GA4GH Tool Registry Service (TRS) implementations (17), alongside existing options for workflow import from local files and public URLs.

Galaxy Training Network

A long-standing and core feature of Galaxy is its ability to deliver accessible, convenient and highly reproducible training, in scheduled trainer-supported programs, or as selfdirected active learning. The Galaxy Training Network (GTN; http://training.galaxyproject.org) (18) is the complementary service that hosts tutorials, guides, and infrastructure for feedback/improvements on content. The GTN offers >400 tutorials across 25 scientific and 6 technical topics, written by contributors.

GTN materials

The GTN strives to maintain tutorials, keeping them synchronized with changes in research practice, updating 366 tutorials ( ) in the past year alone. Nine new topics have been added including Single Cell Analysis, SARS-CoV-2, One
Health, Evolution, Materials Science, and Synthetic Biology. The topic focus has expanded from purely scientific topics to include broader topics such as the new ‘FAIR data analysis’ topic, which aims to guide learners to make their data and workflows FAIRer via hands-on tutorials. Additionally, a ‘Data science’ topic has been added covering basics of Python, R, SQL and snakemake (19) using interactive notebooks which can be run inside Galaxy as interactive tools, or independently of Galaxy. This work has been supported by the addition of over 70 new contributors to the GTN in the past 2 years, which alongside the existing contributor community have added a total of 133 tutorials to Galaxy since April 2022. Finally, an exploratory collaboration with AI4Life (https://ai4life.eurobioimaging.eu/) has produced several slide decks introducing learners to the BioimageModelZoo. The GTN hosts these training materials on custom-branded pages to provide scientific consortia with a way to host their training materials with minimal maintenance burden, even though they have no direct connection with Galaxy.

GTN framework

Alongside the steady increase in tutorial numbers, the framework itself is also continually improved. New features are developed, to support the utility of the GTN for both learners and educators. These include:
  • Automated video slides: When comprehensive speaker notes are provided with a slide deck, the GTN framework will automatically create a video lecture based on the slides, using automated text-to-speech (TTS) software. This is a useful resource for learners, as well as educators preparing to teach the slide deck. Finally, the maintenance burden is significantly lower than for live videos, as any change in the slides or speaker notes will trigger an automatic rebuild of the videos.
  • Defining learning pathways: Learning paths describe a journey around a topic or set of topics, that guide learners from introductory materials to increasingly advanced tutorials. These learning pathways can include materials from different GTN topics and allow grouping into modules. Learning pathways support learners trying to find suitable tutorials to achieve their learning objectives, as well as educators in crafting a curriculum. These learning pathways have been typically based on week-long training courses organised by the community.
  • Support for modular lessons/choose-your-own-adventure tutorials: It is now possible to present learners with a choice and depending on their choice, the tutorial contents are changed. This option has been used in various ways, for example to offer a choice of different alignment tools in the RNA-seq tutorial, or to adjust the level or length of the 16 S metagenomics tutorial, where users can choose if they want an higher-level view of the topic by running a set of five workflows, or if they want to dive into the complexity of analytical options and file formats, and run each of the steps manually.
  • Support for interactive notebook-based coding tutorials: These tutorials can be viewed either in the traditional GTN view as a static web page, where learners launch Rstudio or Jupyter and perform the hands-on instructions. In addition, the GTN framework can also convert these tutorials into fully-fledged Jupyter notebooks,
    where the user can perform the hands-on tasks directly inside the tutorial notebook, while also having the full tutorial (scientific explanations, question boxes, etc.) loaded in the notebook.
  • GTN support inside Galaxy: Accessing GTN materials is now possible directly from within the Galaxy Web interface. When the materials are accessed in this manner, it enables the GTN’s click-to-run workflows and tools integration, whereby users can click on tool/workflow names in the tutorials to automatically open them inside their open Galaxy session.
  • Pan GTN improvements: Persistent identifiers (PURLs) for tutorials, GTN API, support for manually curated tutorial translations, website themes and improved search functionality.

GTN events

In addition to the frequent training events organized by the broader Galaxy community, the large-scale global Galaxy Smörgåsbord training event, started in 2021, has been repeated in the past two years, attracting 3082 (2022) and 2965 (2023) registrations. These events offered fully remote, highly flexible, asynchronous, video-based learning with support from the Galaxy community on Slack. Learners could design their own program based on their own experience and interests, and determine their own schedules based on their own time constraints.

Training infrastructure as a service (TlaaS)

In support of GTN and Galaxy-based training events in terms of compute resources, we have developed and released Training-Infrastructure-as-a-Server (TIaaS) (20). TIaaS allows Galaxy administrators to reserve compute resources for training events, to minimise queue times for participants. Educators additionally get access to a dashboard that shows an overview of the status of participant’s tool runs, allowing them to easily view progress and identify problems, even in a remote teaching setting. In the past 70 months, over 500 training events with over 24000 learners have used TIaaS for Galaxy training.

User-focused features and enhancements

The increasingly complex offerings within Galaxy have been matched by the improvements to the usability of Galaxy, through the application of user-driven design (UXD). Beginning in the GTN and in recognition of Galaxy’s aim to cater to all researchers from all regions of the global and with all manner of accessibility needs, Galaxy has deployed several features to enhance accessibility. These include:
  • Legibility: Both the GTN and Galaxy have adopted Atkinson Hyperligible, a font designed by the Braille Institute (https://brailleinstitute.org/freefont) that aims to improve legibility for low-vision readers by making letterforms easy to recognize even when blurry. This change helps us meet our goal of an accessible platform and making data science accessible for everyone, including those with visual impairments. The GTN has a longstanding commitment to accessibility and regularly tests its interface with a screen reader which has helped catch numerous accessibility issues that would not be noticed
    by sighted learners, all to the benefit of a larger more inclusive community. Galaxy has recently launched a similar effort to improve the screen reader accessibility of its interface, making large strides in reducing the number of mouse-only workflows and improving keyboard navigation.
  • Colourschemes: Galaxy has implemented a framework allowing for customization of system colours and the user interface, allowing individual Galaxy deployments to customise their colours to match their branding, supporting customizing logos and the masthead colouring (https://galaxyproject.org/news/2023-04-25-themes-in-galaxy). The GTN found issues in its existing implementation and separated out cosmetic changes from the more important accessibility axes of automatic dark/light mode responding to the user’s browser preferences for colour scheme and contrast, allowing users to choose any cosmetic theme separately from their visual needs.
  • Pan-Galactic Tool Search: The GTN has begun collecting lists of publicly shared workflows (https://training.galaxyproject.org/training-material/ workflows/list.html) and tools (https://gxy.io/GTN: N00055) across public Galaxy services, enabling both learners and researchers to more easily discover both what resources and where those resources are available to access.
  • ‘Click to run’: WorkflowHub.eu and Dockstore are both integrated into Galaxy via the GA4GH TRS API which gives users a ‘click to run’ experience. They can identify a workflow in their preferred hub, and then with a click (or two) be redirected to their preferred Galaxy to launch the workflow. Within the GTN we implemented a similar feature, any workflows inside the GTN are likewise launchable directly in the user’s preferred Galaxy via the TRS API. When these links are accessed from within a Galaxy instance via the ‘Tutorial Mode’, the workflow is launched directly in the user’s active Galaxy with one click. These sorts of enhancement significantly improve the learner’s experience by removing barriers and distractions from following hands-on learning materials, allowing them to focus on the content and the science.
  • Display language: Language configuration is possible through the Localization option in Manage Preferences. Users can easily navigate Galaxy options in their preferred language, currently selecting from: Chinese, English, French, Japanese and Spanish.

Software features and enhancements

Galaxy updates range from user interface changes to fundamental code base refreshes and best practice adoption. Herein are described the features deployed to enable all the improvements in the utility of Galaxy described above.

Service optimization

  • Total Perspective Vortex (TPV): TPV is a library for right-sizing and meta-scheduling Galaxy jobs in heterogeneous compute environments (https://doi.org/10. 48550/arXiv.2312.02060). TPV allows fine-grained
    control over resource allocation for individual jobs, including the ability to make decisions using live resource data. A key advantage of TPV is a firstever community-curated database of default resource requirements for nearly 1000 popular bioinformatics tools (https://github.com/galaxyproject/tpv-shareddatabase). This publicly available resource has recommended resource allocations and scaling rules for tools in a simple YAML format, that takes away the need for administrators to individually configure, and often guess, job resource requirements per Galaxy deployment. TPV can be easily configured on any modern Galaxy instance and has been deployed on Galaxy AU and EU, processing over ten million jobs since its initial deployment in November 2021.
  • GA4GH support: By supporting the APIs developed by GA4GH (17), the Galaxy Project helps to ensure that data are easily accessible and interoperable, and can be quickly and easily analyzed by researchers and clinicians. This is particularly notable in the genomics community to advance medical research and improve patient care. The collaboration between GA4GH and the Galaxy Project therefore helps to achieve the mutual goal of making genomic data a valuable resource for the benefit of humanity. Galaxy currently supports several major APIs, including the Data Repository Service (DRS) for import and export of data hosted within Galaxy; the Task Execution Service (TES) which exposes Pulsar resources to efficiently execute large scale analyses; and the Tool Registry Service (TRS) to share and distribute workflows. Galaxy also has preliminary support for Beacon, which allows for the discovery of genome data by querying if a specific variant is present in a dataset, and several other GA4GH APIs.
  • Deferred remote dataset resolution: Deferred datasets is a feature that allows datasets to be fetched only when the job using them is run, potentially reducing waiting times for analysis. Tools and workflows can be executed efficiently, Galaxy will download the remote dataset only when it’s needed for a specific job. Since the data isn’t stored by Galaxy until required, the dataset does not contribute to a user’s storage quota.

User experience improvements

A suite of new features have been added to Galaxy in direct support of making the Galaxy UI more intuitive and more relevant in the information displayed. These include:
  • Notification system: The new notification system facilitates sending notifications about a wide variety of scenarios like job completion, artifact sharing, service updates, and more. Notifications appear within the Galaxy service as red enumerated dots that navigate to the notification panel (Figure 2). Users have control over their notifications, including the option to subscribe/unsubscribe from certain types of notifications. The new notification system also supports broadcast notifications, allowing administrators to send server-wide announcements, such as server maintenance or downtime notifications.
  • Login throughOpenIDConnect (OIDC) enhancements: Galaxy tools and jobs are now able to use linked OIDC identities to carry out actions on behalf of users. This
Figure 2. Notifications and Broadcasts Galaxy administrator and user views. Top: Galaxy administrator view for individual user Notifications and service-wide Broadcasts. Bottom: an example of the combination of Notifications and Broadcasts a user will experience.
enables tools and workflows to have single-sign-on capabilities for a seamless user experience. Tool authors are able to utilise these capabilities to reduce friction for users where previously, repeated prompting for user credentials may have been required.
  • History interface: A core Galaxy element, the user History of input data and results, was updated to allow easier dataset input searching, quick History switching, multihistory viewer, multi-directional drag and drop in the multi-history viewer, and bulk operations such as item tagging and database key changes.
  • Tool search: Updated to include Advanced Tool search, allowing filtering by Section, ID and Help Text in addition to Name.

Research data management

Galaxy stores both user data and reference data on behalf of researchers. Providing users with a clear understanding of their storage profile on a Galaxy service is important in managing the service obligations for storing data. To provide more informed data management these new features have
Figure 3. User Storage Dashboard. The User Storage Dashboard, available from release 22.05, and improved and extended on release 23.1. Top left: dashboard main overview. Top right: storage management section where a user can quickly discover and free up disk space. Bottom left: visual representation of the top 10 histories by size. Bottom right: example of possible available options to store your history objects.
been made available to service operators and to users to empower decision making on data storage .
  • Unused history management: The responsibility of managing user data should reside with the user, however active reminders of approaching quota limits are usually needed to help users in this task. An option, currently deployed on Galaxy Australia, is an email alert of histories that have not been modified in the past 52 weeks and the pending deletion of such histories in 2 additional week’s time. The email lists all histories with hyperlinks directly to the histories, allowing the user to easily take any action required, supported by each history size and links to support guides for downloading and preserving the history outside of Galaxy.
  • Storage visibility: A researcher data journey on Galaxy can include training data, optimization data, raw data and individual reference data. Each of these data classifications can be grouped by their requirement for storage/retrieval. For example, GTN training data stored on Zenodo (https://zenodo.org/communities/ galaxy-training/) can be repeatedly accessed if stored temporarily on an individual Galaxy service. However raw data may need to be stored until associated results are published and data stored as required by publication. The User Storage Dashboard and Storage options
    help researchers manage their total storage profile. The Storage Dashboard is a central place where the user is presented with an overview of their disk storage usage (Figure 3). It also provides an easy and quick way to recover space from likely unused histories or datasets. Users can visualize the disk usage of their collected histories, with the top 10, 20 or 50 histories measured by total storage required displayed on a box plot (Figure 3). More detail can be found for individual datasets, allowing users to manage their total storage profile and what data requires export or deletion. The History Preferred Object Store storage options let the user select where to store the data depending on their needs, and differs on each public Galaxy server.
  • Data export: Galaxy users have been able to export History item(s) or complete histories, for the purpose of archiving or later reuse. The provenance of exports however was not tracked, and this has been improved. Histories now track when and where they were exported. Exports can be permanent or temporary. Permanent exports support quick and easy re-import into Galaxy from the ‘File Source Plugin’ configured on the Galaxy server, such as S3, Zenodo, Dropbox. Temporary exports are short lived links that allow users to download histories, making it possible to manually upload and import them later as needed. Histories can be exported
Figure 4. Structured data export of Galaxy objects. Top left: example of history—variant calling export to ROcrate, with tracking on prior export events. Top right: export of workflow invocation to multiple archival formats. Bottom: InvenioRDM export, supporting easy connection to Zenodo.
as compressed archives, or as RO-Crate objects (21), a FAIR archiving format of Research Objects based on schema.org and Bioschemas (Figure 4). Workflow invocations (or runs) can be exported to multiple formats, including RO-Crate, as well as BioComputeObjects, a standard (IEEE 2791-2020) for tracking provenance information of bioinformatics pipelines for highthroughput sequencing containing additional metadata pertaining to the workflow execution (Figure 4). Workflow export infrastructure has been extended to support new format standards, through the easy addition of new plugins to the feature. A significant example is the new InvenioRDM plugin. This plugin allows users to export/import single datasets or histories to any InvenioRDM instance (Figure 4). InvenioRDM is a turn-key research data management (RDM) repository solution developed by CERN. It is the underlying platform used by Zenodo, which in turn allows for easy import/export data from Galaxy to Zenodo.

A vibrant global community

The Galaxy Project is supported by hundreds of active contributors to the code, tools, workflows, and training. This engagement allows the user community to play an important formal role in planning the future directions of Galaxy Project. Evidence of this engagement includes acknowledgment of Galaxy in public documentation, with papers citing Galaxy between 2022 and 2024. Followers on microblogging services are another metric. Galaxy Project reached over 14000 followers on X (formerly Twitter), before changed rules and policies at X ceased to align with the values of participants, leading to Galaxy Project abandoning reliance on X for communication. From 2024, a multi-service approach has been adopted, with Mastodon (https://mstdn.science/@galaxyproject), Matrix (https://app. element.io/#/room/#galaxyproject_Lobby:gitter.im), BlueSky (https://bsky.app/profile/galaxyproject.bsky.social) and LinkedIn (https://www.linkedin.com/company/galaxyproject/) all destinations for Galaxy Projects messaging.
Figure 5. Example of estimated production associated with a Galaxy job. Sourced from a MSstats job on Galaxy Australia (https://usegalaxy.org.au), running Galaxy code release 23.1.
Engagement also comes from clear and open communication within Galaxy Project. The governance, working group and special interest groups (SIGs) have been revised to provide appropriate custodianship of Galaxy into the future.

Galaxy Project governance

The Galaxy Project is managed by participatory selfgovernance. Formal governance structures include the Galaxy Executive Board (GEB), Galaxy Community Board (GCB), Galaxy Technical Board (GTB) and the Project Management Office (PMO) (https://galaxyproject.org/community/ governance/). The GEB aims to enhance its international representation by welcoming new and experienced principal investigators from diverse backgrounds. This expansion is viewed as crucial for fostering a broader and more inclusive research community with the growth of Galaxy from local projects to a global initiative.
SIGs are groups of specialists, collaborating, engaging with and contributing to Galaxy, through development and sharing of specialized resources, and by clarifying and contributing their longer term needs to Project planning (https: //galaxyproject.org/community/sig/). Entirely driven by user communities, SIGs have recently been reorganized extensively to accommodate growth, emerging from community groups, self-identified by language or geographic regions (e.g. GTÑEspañol), scientific projects (e.g. responses to COVID-19), and communities of shared research practice, such as single-cell analyses methods.
These SIGs have self-organized into the GCB, to establish best practices, develop infrastructure and guidelines for themselves, and build user representation. The goal is to streamline community efforts and provide a unified voice as part of the Galaxy governance. Indeed, recognizing the growing gap between users and developers within the expanding Galaxy community, the User Interface/User Experience (UI/UX) team has established a strong connection with these SIGs, interviewing users, establishing platform user experience benchmarking and testing interventions. Insights gathered from training events-often, if not always run in part by SIGs-are then channelled back to the UI/UX team through interviews and presentations at meetings, fostering a continuous improvement cycle.
A few recent examples of SIG outputs include:
  • Vertebrate Genome Project: Galaxy has demonstrated its utility in support of the VGP through the publication of the version 2.1 VGP assembly workflow (22). Using data from VGP and ERGA, the workflow has generated 51 genomes, from 4 amphibian, 15 bird, 10 fish, 14 mammal and 8 reptile species.
  • Computational proteomics: In close collaboration with AnalystSuite, interactive tools, such as LFQanalyst, for the visualisation and exploration of data are available on Galaxy (23).
  • Human genetics: Galaxy has increased support for human genetics, especially with new workflows for discovering and interpreting genetic variations for use within the NHGRI AnVIL (24) and NCI Firecloud (25) environments.

Environmental impact

As a responsible service provider to a resource intensive global community, the Galaxy Project helps clarify the environmental impact of conducting research, by showing the estimated production of for every job executed (Figure 5).

Future plans

Galaxy continues to advance on new software technologies, new scientific datatypes and applications, and new paradigms for collaborative research. This includes; shared Pulsar servers, utilization of scratch storage and broadening research domain support. Ultimately this is driven by the core values to support accessible, reproducible, and transparent user-driven research. This includes ensuring that Galaxy can integrate with external data sources, computational infrastructure and third party analysis tools, and building a strong, welcoming, collaborative community of users, developers, and stakeholders who contribute to the ongoing improvement of the Galaxy platform and ecosystem. The Galaxy Project relies extensively on our vibrant user community, and we continuously monitor, adapt and evolve to meet the changing needs of the open science research community.

Data availability

Galaxy is freely available at https://galaxyproject.org.

Acknowledgements

The growth of the Galaxy project is made possible by a growing community of world-wide users, developers, system administrators, and educators. The community acknowledges the recent sad loss of the late Simon Gladman, energetic and passionate lead developer of Galaxy Australia from 2012 to November 2022, and the late James Johnson, long standing member of the Galaxy Community and leader of Galaxy-P Star, both of whom will be sorely missed for their contributions. They are remembered alongside James Taylor (26) (https://github.com/usegalaxy-au/infrastructure/pull/ 1092) and their work will live on in Galaxy.
We are extremely grateful to the ACCESS-CI, Texas Advanced Computing Center (TACC) for hosting https: //usegalaxy.org, de.NBI-Cloud (German National Bioinformatic Research Infrastructure) and the UFR-RZ for hosting https://usegalaxy.eu, and the Australian BioCommons and partners (AARNet, QCIF, University of Melbourne, Pawsey and NCI) for hosting https://usegalaxy.org.au.

Funding

NIH [U41 HG006620, U24 HG010263, U24 CA231877, U01 CA253481]; US National Science Foundation [1661497, 1758800, 2216612]; computational resources are provided by the Advanced Cyberinfrastructure Coordination Ecosystem (ACCESS-CI), Texas Advanced Computing Center, and the JetStream2 scientific cloud. Funding for open access charge: NIH.
ELIXIR IS and Travel grants; EU Horizon Europe [HORIZON-INFRA-2021-EOSC-01-04, 101057388]; EU Horizon Europe under the Biodiversity, Circular Economy and Environment program (REA.B.3, BGE 101059492); German Federal Ministry of Education and Research, BMBF [031
A538A de.NBI-RBC]; Ministry of Science, Research and the Arts Baden-Württemberg (MWK) within the framework of LIBIS/de.NBI Freiburg.
Galaxy Australia is supported by the Australian BioCommons which is funded through Australian Government NCRIS investments from Bioplatforms Australia and the Australian Research Data Commons, as well as investment from the Queensland Government RICF program.

Conflict of interest statement

D.Ba., D.Bl., J.C., N.C., J.G., A.G. and A.N. have a significant financial interest in GalaxyWorks, a company that may have a commercial interest in the results of this research and technology.

References

  1. Giardine,B., Riemer,C., Hardison,R.C., Burhans,R., Elnitski,L., Shah,P., Zhang,Y., Blankenberg,D., Albert,I., Taylor,J., et al. (2005) Galaxy: a platform for interactive large-scale genome analysis. Genome Res., 15, 1451-1455.
  2. Galaxy Community (2022) The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update. Nucleic Acids Res., 50, W345-W351.
  3. Black,M., Lamothe,L., Eldakroury,H., Kierkegaard,M., Priya,A., Machinda,A., Khanduja,U.S., Patoliya,D., Rathi,R., Nico,T.P.C., et al. (2022) EDAM: the bioscientific data analysis ontology (update 2021). F1000Research, https://doi.org/10.7490/f1000research.1118900.1.
  4. Rhie,A., McCarthy,S.A., Fedrigo,O., Damas,J., Formenti,G., Koren,S., Uliano-Silva,M., Chow,W., Fungtammasan,A., Kim,J., et al. (2021) Towards complete and error-free genome assemblies of all vertebrate species. Nature, 592, 737-746.
  5. Lewin,H.A., Robinson,G.E., Kress,W.J., Baker,W.J., Coddington,J., Crandall,K.A., Durbin,R., Edwards,S.V., Forest,F., Gilbert,M.T.P., et al. (2018) Earth BioGenome Project: sequencing life for the future of life. Proc. Natl. Acad. Sci. U.S.A., 115, 4325-4333.
  6. Marx-Stoelting,P., Rivière,G., Luijten,M., Aiello-Holden,K., Bandow,N., Baken,K., Cañas,A., Castano,A., Denys,S., Fillol,C., et al. (2023) A walk in the PARC: developing and implementing 21st century chemical risk assessment in Europe. Arch. Toxicol., 97, 893-908.
  7. Jumper,J., Evans,R., Pritzel,A., Green,T., Figurnov,M., Ronneberger,O., Tunyasuvunakool,K., Bates,R., Žídek,A., Potapenko,A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589.
  8. OpenAI,A.J., Adler,S., Agarwal,S., Ahmad,L., Akkaya,I., Aleman,F.L., Almeida,D., Altenschmidt,J., Altman,S., et al. (2023) GPT-4 technical report. arXiv doi: https://arxiv.org/abs/2303.08774, 15 March 2023, preprint: not peer reviewed.
  9. Mirdita,M., Schütze,K., Moriwaki,Y., Heo,L., Ovchinnikov,S. and Steinegger,M. (2022) ColabFold: making protein folding accessible to all. Nat. Methods, 19, 679-682.
  10. de Koning,W., Miladi,M., Hiltemann,S., Heikema,A., Hays,J.P., Flemming,S., van den Beek,M., Mustafa,D.A., Backofen,R., Grüning,B., et al. (2020) NanoGalaxy: nanopore long-read sequencing data analysis in Galaxy. Gigascience, 9, giaa105.
  11. Cox,J. and Mann,M. (2008) MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat. Biotechnol., 26, 1367-1372.
  12. Zheng,G.X.Y., Terry,J.M., Belgrader,P., Ryvkin,P., Bent,Z.W., Wilson,R., Ziraldo,S.B., Wheeler,T.D., McDermott,G.P., Zhu,J., et al. (2017) Massively parallel digital transcriptional profiling of single cells. Nat. Commun., 8, 14049.
  13. Solovyev,V., Kosarev,P., Seledsov,I. and Vorobyev,D. (2006) Automatic annotation of eukaryotic genes, pseudogenes and promoters. Genome Biol., 7, S10.
  14. Grüning,B., Dale,R., Sjödin,A., Chapman,B.A., Rowe,J., Tomkins-Tinch,C.H., Valieris,R., Köster,J. and Bioconda TeamBioconda Team (2018) Bioconda: sustainable and comprehensive software distribution for the life sciences. Nat. Methods, 15, 475-476.
  15. Wilkinson,M.D., Dumontier,M., Aalbersberg,I.J.J., Appleton,G., Axton,M., Baak,A., Blomberg,N., Boiten,J.-W., da Silva Santos,L.B., Bourne,P.E., et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3, 160018.
  16. Yuen,D., Cabansay,L., Duncan,A., Luu,G., Hogue,G., Overbeck,C., Perez,N., Shands,W., Steinberg,D., Reid,C., et al. (2021) The Dockstore: enhancing a community platform for sharing reproducible and accessible computational protocols. Nucleic Acids Res., 49, W624-W632.
  17. Rehm,H.L., Page,A.J.H., Smith,L., Adams,J.B., Alterovitz,G., Babb,L.J., Barkley,M.P., Baudis,M., Beauvais,M.J.S., Beck,T., et al. (2021) GA4GH: international policies and standards for data sharing across genomic research and healthcare. Cell Genom, 1, 100029.
  18. Hiltemann,S., Rasche,H., Gladman,S., Hotz,H.-R., Larivière,D., Blankenberg,D., Jagtap,P.D., Wollmann,T., Bretaudeau,A., Goué,N., et al. (2023) Galaxy Training: a powerful framework for teaching! PLoS Comput. Biol., 19, e1010752.
  19. Mölder,F., Jablonski,K.P., Letcher,B., Hall,M.B., Tomkins-Tinch,C.H., Sochat,V., Forster,J., Lee,S., Twardziok,S.O., Kanitz,A., et al. (2021) Sustainable data analysis with Snakemake. F1000Res., 10, 33.
  20. Rasche,H., Hyde,C., Davis,J., Gladman,S., Coraor,N., Bretaudeau,A., Cuccuru,G., Bacon,W., Serrano-Solano,B., Hillman-Jackson,J., et al. (2022) Training infrastructure as a service. Gigascience, 12, giad048.
  21. Soiland-Reyes,S., Sefton,P., Crosas,M., Castro,L.J., Coppens,F., Fernández,J.M., Garijo,D., Grüning,B., La Rosa,M., Leo,S., et al. (2022) Packaging research artefacts with RO-Crate. Data Sci, 5, 97-138.
  22. Larivière,D., Abueg,L., Brajuka,N., Gallardo-Alba,C., Grüning,B., Ko,B.J., Ostrovsky,A., Palmada-Flores,M., Pickett,B.D., Rabbani,K., et al. (2024) Scalable, accessible and reproducible reference genome assembly and evaluation in Galaxy. Nat. Biotechnol., 42, 367-370.
  23. Mehta,S., Bernt,M., Chambers,M., Fahrner,M., Föll,M.C., Gruening,B., Horro,C., Johnson,J.E., Loux,V., Rajczewski,A.T., et al. (2023) A galaxy of informatics resources for MS-based proteomics. Expert Rev. Proteomics, 20, 251-266.
  24. Schatz,M.C., Philippakis,A.A., Afgan,E., Banks,E., Carey,V.J., Carroll,R.J., Culotti,A., Ellrott,K., Goecks,J., Grossman,R.L., et al. (2022) Inverting the model of genomics data sharing with the NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space. Cell Genom, 2, 100085.
  25. Birger,C., Hanna,M., Salinas,E., Neff,J., Saksena,G., Livitz,D., Rosebrock,D., Stewart,C., Leshchiner,I., Baumann,A., et al. (2017) FireCloud, a scalable cloud-based platform for collaborative genome analysis: strategies for reducing and controlling costs. bioRxiv doi: https://doi.org/10.1101/209494, 03 Novemberv 2017, preprint: not peer reviewed.
  26. Nekrutenko,A. and Schatz,M.C. (2020) In memory of James Taylor: the birth of Galaxy. Genome Biol., 21, 105.

Appendix

Corresponding author: Gareth Price (g.price@uq.edu.au) Co-corresponding authors: Anton Nekrutenko (anton@nekrut.org), Björn A. Grüning (bjo-
ern.gruening@gmail.com), Michael C. Schatz (mschatz@cs.jhu.edu)
Contributors (alphabetical)
Linelle Ann L Abueg , Enis Afgan , Olivier Allart , Ahmed H Awan , Wendi A Bacon , Dannon Baker , Madeline Bassetti , Bérénice Batut , Matthias Bernt , Daniel Blankenberg , Aureliano Bombarely , Anthony Bretaudeau , Catherine J Bromhead , Melissa L Burke , Patrick K Capon , Martin Čech , María Chavero-Díez , John M Chilton , Tyler J Collins , Frederik Coppens , Nate Coraor , Gianmauro Cuccuru , Fabio Cumbo , John Davis , Paul F De Geest , Willem de Koning , Martin Demko , Assunta DeSanto , José Manuel Domínguez Begines , Maria A Doyle , Bert Droesbeke , Anika Erxleben-Eggenhofer , Melanie C Föll , Giulio Formenti , Anne Fouilloux , Rendani Gangazhe , Tanguy Genthon , Jeremy Goecks , Alejandra N Gonzalez Beltran , Nuwan A Goonasekera , Nadia Goué , Timothy J Griffin , Björn A Grüning Aysam Guerler , Sveinung Gundersen , Ove Johan Ragnar Gustafsson , Christina Hall , Thomas W Harrop , Helge Hecht , Alireza Heidari , Tillman Heisner , Florian Heyl , Saskia Hiltemann , Hans-Rudolf Hotz , Cameron J Hyde , Pratik D Jagtap , Julia Jakiela , James E Johnson , Jayadev Joshi , Marie Jossée , Khaled Jum’ah , Matúš Kalaš , Katarzyna Kamieniecka , Tunc Kayikcioglu , Markus Konkol , Leonid Kostrykin , Natalie Kucher , Anup Kumar , Mira Kuntz , Delphine Lariviere , Ross Lazarus , Yvan Le Bras , Gildas Le Corguillé , Justin Lee , Simone Leo , Leandro Liborio , Romane Libouban , David López Tabernero , Lucille Lopez-Delisle , Laila S Los , Alexandru Mahmoud , Igor Makunin , Pierre Marin , Subina Mehta , Winnie Mok , Pablo A Moreno , François Morier-Genoud , Stephen Mosher , Teresa Müller , Engy Nasr , Anton Nekrutenko , Tiffanie M Nelson , Asime J Oba , Alexander Ostrovsky , Polina V Polunina , Krzysztof Poterlowicz , Elliott J Price , Gareth R Price , Helena Rasche , Bryan Raubenolt , Coline Royaux , Luke Sargent , Michelle T Savage , Volodymyr Savchenko , Denys Savchenko , Michael C Schatz , Pauline Seguineau , Beatriz Serrano-Solano , Nicola Soranzo , Sanjay Kumar Srikakulam , Keith Suderman , Anna E Syme , Marco Antonio Tangaro , Jonathan A Tedds , Mehmet Tekman , Wai Cheng (Mike) Thang , Anil S Thanki , Michael Uhl , Marius van den Beek , Deepti Varshney , Jenn Vessio , Pavankumar Videm , Greg Von Kuster , Gregory R Watson , Natalie Whitaker-Allen , Uwe Winter , Martin Wolstencroft , Federico Zambelli , Paul Zierep , Rand Zoabi
Affiliations
  1. North Spatial Information Research, North RhineWestphalia 48147, Germany
  2. AARNet, Queensland 4104, Australia
  3. Albert-Ludwigs-Universität Freiburg, Baden Württemberg 79110, Germany
  4. AstraZeneca, Cambridgeshire CB2 0AA, UK
  5. Australian Biocommons, Victoria 3052, Australia
  6. Barcelona Supercomputing Center, Catalonia 08902, Spain
  7. Clermont Auvergne University, Auvergne-Rhône-Alpes 63000, France
  8. Cleveland Clinic, Ohio 44106, USA
  9. CNRS – Data Terra, Brittany 29200, France
  10. CRS4, Cagliari 09050, Italy
  11. Earlham Institute, East of England and East Anglia NR4 7UZ, UK
  12. Ecole Polytechnique Fédérale de Lausanne (EPFL), Vaud 1015, Switzerland
  13. ELIXIR, Cambridgeshire CB10 1SD, UK
  14. EMBL, Baden-Württemberg 69117, Germany
  15. EMBL’s European Bioinformatics Institute (EMBLEBI), Cambridgeshire CB10 1SD, UK
  16. EPFL, Vaud 1004, Switzerland
  17. Erasmus Medical Center, South Holland 3015 GD, The Netherlands
  18. French Institute of Bioinformatics, Auvergne-RhôneAlpes 63170, France
  19. Friedrich Miescher Institute for Biomedical Research, Basel-Stadt 4058, Switzerland
  20. Galaxy Project, New South Wales 2026, Australia
  21. German Cancer Research Center, Baden-Württemberg 69120, Germany
  22. Griffith University, New South Wales 2299, Australia
  23. Harvard Medical School, Massachusetts 01082, USA
  24. Heidelberg University, Baden-Württemberg 69120, Germany
  25. HumanTechnopole, Lombardy 20157, Italy
  26. IGEPP, INRAE, Institut Agro, Univ Rennes, Brittany 35042, France
  27. Institute for Plant Cellular and Molecular Biology (IBMCP), Valencia 46001, Spain
  28. Institute of Biomembranes, Bioenergetics and Molecular Biotechnologies, National Research Council (CNR), Apulia 70126, Italy
  29. IRISA, Brittany 35042, France
  30. James Cook University, Queensland 4814, Australia
  31. Johns Hopkins University, Maryland 21218, USA
  32. Lerner Research Institute, Cleveland Clinic, Ohio 44106, USA
  33. Masaryk University, South Moravian 60200, Czech Republic
  34. Moffitt Cancer Center, Florida 33612, USA
  35. Museum national d’Histoire naturelle, Brittany 29900, France
  36. Oak Ridge National Laboratory, Tennessee 37380, USA
  37. Oregon Health & Science University, Oregon 97239, USA
  38. Pennsylvania State University, Pennsylvania 16802, USA
  39. Queensland Cyber Infrastructure Foundation, Queensland 4072, Australia
  40. Rutherford Appleton Laboratory, UKRI, Oxfordshire OX11 0QX, UK
  41. Science and Technology Facilities Council, Oxfordshire OX11 0QX, UK
  42. Simula Research Laboratory, Oslo 0164, Norway
  43. Sorbonne Université, Brittany 29900, France
  44. Station Biologique de Roscoff – Sorbonne Université/CNRS, Brittany 29680, France
  45. The Open University, Buckinghamshire MK7 6AA, UK
  46. The Rockefeller University, New York 10021, USA
  47. The University of Bradford, West Yorkshire BD7 1DP, UK
  48. The University of Edinburgh, Edinburgh EH9 3FJ, UK
  49. The University of Melbourne, Victoria 3052, Australia
  50. The University of Queensland, Queensland 4072, Australia
  51. UFZ Leipzig, Saxony 04318, Germany
  52. UGent, East Flanders 9000, Belgium
  53. Université Paris Cité, Île-de-France 75013, France
  54. University of Bergen, Vestland 5008, Norway
  55. University of Limerick, Munster V94 T9PX, Ireland
  56. University of Maiduguri, Borno State 600004, Nigeria
  57. University of Milan, Lombardy 20133, Italy
  58. University of Minnesota, MN 55455, USA
  59. University of Oslo, Oslo 0316, Norway
  60. Vlaams Instituut voor Biotechnologie, East Flanders 9000, Belgium

  1. Received: March 11, 2024. Revised: April 18, 2024. Editorial Decision: May 1, 2024. Accepted: May 2, 2024
    © The Author(s) 2024. Published by Oxford University Press on behalf of Nucleic Acids Research.
    This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0/), which permits unrestricted reuse, distribution, and reproduction in any medium, provided the original work is properly cited.