DOI: https://doi.org/10.1093/nar/gkae410
PMID: https://pubmed.ncbi.nlm.nih.gov/38769056
تاريخ النشر: 2024-05-20
منصة جالاكسي للتحليلات البيانية القابلة للوصول، القابلة للتكرار، والتعاونية: تحديث 2024
الملخص
مجموعة نجومhttps://galaxyproject.org) يتم نشره عالميًا، بشكل أساسي من خلال خدمات مجانية الاستخدام، داعمًا الأبحاث المدفوعة من قبل المستخدمين التي تتوسع في نطاقها كل عام. يجذب المستخدمين إلى خدمات Galaxy العامة استقرار المنصة، وتنوع الأدوات ومجموعات البيانات المرجعية، والتدريب، والدعم، والتكامل، مما يمكّن من تحليل البيانات المعقدة والقابلة للتكرار والمشاركة. تطبيق مبادئ تصميم تجربة المستخدم (UXD) قد دفع تحسينات في إمكانية الوصول، واكتشاف الأدوات من خلال مختبرات Galaxy / النطاقات الفرعية، وإعادة تصميم Galaxy ToolShed. تتقدم قدرات أدوات Galaxy في اتجاهين استراتيجيين: دمج الوصول إلى وحدات المعالجة الرسومية العامة (GPGPU) للطرق المتطورة، ودعم الأدوات المرخصة. يتم زيادة المشاركة مع اتحادات البحث العالمية من خلال تطوير المزيد من سير العمل في Galaxy ومن خلال توفير خدمات Galaxy العامة لتشغيلها. لقد نما محفظة شبكة تدريب Galaxy (GTN) من حيث الحجم، وإمكانية الوصول، من خلال مسارات التعلم والتكامل المباشر مع أدوات Galaxy التي تظهر في الدورات التدريبية. يستمر تطوير الشيفرة بما يتماشى مع خارطة طريق مشروع Galaxy، مع تحسينات في جدولة الوظائف وواجهة المستخدم. كما أن تقييم الأثر البيئي يساعد أيضًا في جذب المستخدمين والمطورين، مذكرًا إياهم بدورهم في الاستدامة، من خلال عرض التقديرات
ملخص رسومي

مقدمة
واجهة المستخدم التي تم مناقشتها أدناه جعلت المشاركة أكثر وضوحًا.
حلول مدفوعة بالبحث
مختبرات جالاكسي/المواقع/النطاقات الفرعية
أدوات مدعومة من GPGPU
أدوات مرخصة

الاكتشاف
(16). من WorkflowHub، يمكن للباحثين اختيار ‘تشغيل علىusegalaxy.euالذي يُفعّل استيراد سير العمل إلى جالاكسي أوروبا؛ من دوكستور، يمكن استيراد سير عمل جالاكسي إلى أي من الخوادم الثلاثة الرئيسية usegalaxy.*. داخل جالاكسي، يمكن للمستخدم البحث إما في WorkflowHub أو Dockstore باستخدام تنفيذات خدمة تسجيل أدوات GA4GH (TRS) (17)، إلى جانب الخيارات الحالية لاستيراد سير العمل من الملفات المحلية وعناوين URL العامة.
شبكة تدريب جالاكسي
مواد GTN
إطار عمل GTN
- شرائح الفيديو الآلية: عندما يتم توفير ملاحظات شاملة للمتحدث مع مجموعة الشرائح، سيقوم إطار عمل GTN تلقائيًا بإنشاء محاضرة فيديو بناءً على الشرائح، باستخدام برنامج تحويل النص إلى كلام (TTS) الآلي. هذه مورد مفيد للمتعلمين، بالإضافة إلى المعلمين الذين يستعدون لتدريس مجموعة الشرائح. أخيرًا، فإن عبء الصيانة أقل بكثير مقارنة بالفيديوهات المباشرة، حيث إن أي تغيير في الشرائح أو ملاحظات المتحدث سيؤدي إلى إعادة بناء الفيديوهات تلقائيًا.
- تحديد مسارات التعلم: تصف مسارات التعلم رحلة حول موضوع أو مجموعة من المواضيع، توجه المتعلمين من المواد التمهيدية إلى الدروس المتقدمة بشكل متزايد. يمكن أن تشمل هذه المسارات التعليمية مواد من مواضيع مختلفة في شبكة التعلم العالمية وتسمح بالتجميع في وحدات. تدعم مسارات التعلم المتعلمين الذين يحاولون العثور على دروس مناسبة لتحقيق أهدافهم التعليمية، بالإضافة إلى المعلمين في صياغة المناهج الدراسية. عادةً ما كانت هذه المسارات التعليمية مبنية على دورات تدريبية تستمر لمدة أسبوع تنظمها المجتمع.
- دعم الدروس المودولية / دروس اختر مغامرتك الخاصة: أصبح من الممكن الآن تقديم خيار للمتعلمين، وبناءً على اختيارهم، يتم تغيير محتويات الدرس. تم استخدام هذا الخيار بطرق متنوعة، على سبيل المثال لتقديم خيار لأدوات محاذاة مختلفة في درس RNA-seq، أو لتعديل مستوى أو طول درس الميتاجينوميات 16 S، حيث يمكن للمستخدمين اختيار ما إذا كانوا يريدون نظرة عامة على الموضوع من خلال تشغيل مجموعة من خمسة سير عمل، أو إذا كانوا يريدون الغوص في تعقيد الخيارات التحليلية وصيغ الملفات، وتشغيل كل من
الخطوات يدويًا. - دعم للدروس التعليمية التفاعلية المعتمدة على دفاتر الملاحظات: يمكن عرض هذه الدروس إما في عرض GTN التقليدي كصفحة ويب ثابتة، حيث يقوم المتعلمون بتشغيل Rstudio أو Jupyter وتنفيذ التعليمات العملية. بالإضافة إلى ذلك، يمكن لإطار عمل GTN أيضًا تحويل هذه الدروس إلى دفاتر ملاحظات Jupyter كاملة.
حيث يمكن للمستخدم أداء المهام العملية مباشرة داخل دفتر الملاحظات التعليمي، مع تحميل الدرس الكامل (التفسيرات العلمية، صناديق الأسئلة، إلخ) في دفتر الملاحظات. - دعم GTN داخل Galaxy: أصبح من الممكن الآن الوصول إلى مواد GTN مباشرة من داخل واجهة ويب Galaxy. عند الوصول إلى المواد بهذه الطريقة، يتم تفعيل سير العمل وأدوات GTN القابلة للتشغيل بنقرة واحدة، حيث يمكن للمستخدمين النقر على أسماء الأدوات/سير العمل في الدروس لفتحها تلقائيًا داخل جلسة Galaxy المفتوحة.
- تحسينات بان جي تي إن: معرفات دائمة (PURLs) للدروس التعليمية، واجهة برمجة التطبيقات (API) الخاصة بـ GTN، دعم لترجمات الدروس التعليمية التي تم تنسيقها يدويًا، ثيمات الموقع، وتحسين وظيفة البحث.
فعاليات GTN
البنية التحتية للتدريب كخدمة (TlaaS)
ميزات وتحسينات تركز على المستخدم
- قابلية القراءة: اعتمد كل من GTN وجالاكسي خط أتكينسون هايبرليجبيل، وهو خط صممه معهد برايل.https://brailleinstitute.org/freefont) التي تهدف إلى تحسين قابلية القراءة لذوي الرؤية المنخفضة من خلال جعل أشكال الحروف سهلة التعرف عليها حتى عند كونها غير واضحة. تساعد هذه التغييرات في تحقيق هدفنا المتمثل في توفير منصة ميسرة وجعل علم البيانات متاحًا للجميع، بما في ذلك ذوي الإعاقات البصرية. لدى GTN التزام طويل الأمد تجاه الوصول، وتقوم بانتظام باختبار واجهتها باستخدام قارئ الشاشة، مما ساعد في اكتشاف العديد من مشكلات الوصول التي قد لا يتم ملاحظتها.
من قبل المتعلمين المبصرين، كل ذلك لصالح مجتمع أكبر وأكثر شمولاً. أطلقت جالاكسي مؤخرًا جهدًا مشابهًا لتحسين إمكانية الوصول إلى قارئ الشاشة لواجهتها، محققة خطوات كبيرة في تقليل عدد سير العمل المعتمد على الفأرة فقط وتحسين التنقل عبر لوحة المفاتيح. - أنظمة الألوان: قامت جالاكسي بتنفيذ إطار يسمح بتخصيص ألوان النظام وواجهة المستخدم، مما يتيح لكل نشر لجالاكسي تخصيص ألوانه لتتناسب مع علامته التجارية، مع دعم تخصيص الشعارات وتلوين العنوان الرئيسي.https://galaxyproject.org/news/2023-04-25-themes-in-galaxy. وجدت شبكة النقل العامة (GTN) مشكلات في تنفيذها الحالي وقامت بفصل التغييرات التجميلية عن المحاور الأكثر أهمية المتعلقة بالوصول، مثل وضع الظلام/الضوء التلقائي الذي يستجيب لتفضيلات المستخدم في متصفح الويب بشأن نظام الألوان والتباين، مما يسمح للمستخدمين باختيار أي موضوع تجميلي بشكل منفصل عن احتياجاتهم البصرية.
- بحث أدوات بان-جالاكتيك: بدأت شبكة GTN في جمع قوائم من سير العمل المشتركة علنًا (https://training.galaxyproject.org/training-material/ workflows/list.html) والأدوات (https://gxy.io/GTN: N00055) عبر خدمات جالاكسي العامة، مما يمكّن كل من المتعلمين والباحثين من اكتشاف الموارد المتاحة والوصول إليها بسهولة أكبر.
- انقر للتشغيلWorkflowHub.euو Dockstore كلاهما مدمجان في Galaxy عبر واجهة برمجة التطبيقات GA4GH TRS التي توفر للمستخدمين تجربة ‘نقر للتشغيل’. يمكنهم تحديد سير العمل في مركزهم المفضل، ثم بنقرة (أو نقرتين) يتم إعادة توجيههم إلى Galaxy المفضل لديهم لبدء سير العمل. داخل GTN، قمنا بتنفيذ ميزة مشابهة، أي أن أي سير عمل داخل GTN يمكن أيضًا تشغيله مباشرة في Galaxy المفضل للمستخدم عبر واجهة برمجة التطبيقات TRS. عند الوصول إلى هذه الروابط من داخل مثيل Galaxy عبر ‘وضع الدروس التعليمية’، يتم تشغيل سير العمل مباشرة في Galaxy النشط للمستخدم بنقرة واحدة. هذه الأنواع من التحسينات تعزز بشكل كبير تجربة المتعلم من خلال إزالة الحواجز والمشتتات من متابعة المواد التعليمية العملية، مما يسمح لهم بالتركيز على المحتوى والعلم.
- لغة العرض: يمكن تكوين اللغة من خلال خيار التوطين في إدارة التفضيلات. يمكن للمستخدمين التنقل بسهولة في خيارات جالاكسي بلغتهم المفضلة، حيث يمكنهم الاختيار حاليًا من: الصينية، الإنجليزية، الفرنسية، اليابانية والإسبانية.
ميزات البرمجيات والتحسينات
تحسين الخدمة
- دوامة المنظور الكلي (TPV): TPV هي مكتبة لتحديد حجم وظائف Galaxy بشكل مناسب وجدولة الميتا في بيئات الحوسبة المتنوعة.https://doi.org/10. 48550/arXiv.2312.02060). يسمح TPV بتفصيل دقيق
التحكم في تخصيص الموارد للوظائف الفردية، بما في ذلك القدرة على اتخاذ القرارات باستخدام بيانات الموارد الحية. ميزة رئيسية لـ TPV هي قاعدة بيانات تم تنسيقها من قبل المجتمع لأول مرة تحتوي على متطلبات الموارد الافتراضية لما يقرب من 1000 أداة بيولوجية معلوماتية شائعة.https://github.com/galaxyproject/tpv-shareddatabase). هذه المورد المتاحة للجمهور قد أوصت بتخصيص الموارد وقواعد التوسع للأدوات بتنسيق YAML بسيط، مما يزيل الحاجة إلى تكوين الموارد بشكل فردي من قبل المسؤولين، وغالبًا ما يخمنون متطلبات موارد الوظائف لكل نشر Galaxy. يمكن تكوين TPV بسهولة على أي نسخة حديثة من Galaxy وقد تم نشره على Galaxy AU و EU، حيث تمت معالجة أكثر من عشرة ملايين وظيفة منذ نشره الأول في نوفمبر 2021. - دعم GA4GH: من خلال دعم واجهات برمجة التطبيقات التي طورتها GA4GH (17)، يساعد مشروع Galaxy في ضمان أن البيانات متاحة بسهولة وقابلة للتشغيل المتبادل، ويمكن تحليلها بسرعة وسهولة من قبل الباحثين والأطباء. هذا ملحوظ بشكل خاص في مجتمع الجينوميات لتقدم البحث الطبي وتحسين رعاية المرضى. لذلك، تساعد التعاون بين GA4GH ومشروع Galaxy في تحقيق الهدف المشترك المتمثل في جعل بيانات الجينوم موردًا قيمًا لفائدة الإنسانية. يدعم Galaxy حاليًا العديد من واجهات برمجة التطبيقات الرئيسية، بما في ذلك خدمة مستودع البيانات (DRS) لاستيراد وتصدير البيانات المستضافة داخل Galaxy؛ خدمة تنفيذ المهام (TES) التي تعرض موارد Pulsar لتنفيذ تحليلات واسعة النطاق بكفاءة؛ وخدمة تسجيل الأدوات (TRS) لمشاركة وتوزيع سير العمل. كما أن Galaxy لديه دعم أولي لـ Beacon، الذي يسمح باكتشاف بيانات الجينوم من خلال الاستعلام عما إذا كان هناك متغير معين موجود في مجموعة بيانات، والعديد من واجهات برمجة التطبيقات الأخرى لـ GA4GH.
- حلول مجموعة البيانات البعيدة المؤجلة: تعتبر مجموعات البيانات المؤجلة ميزة تسمح بجلب مجموعات البيانات فقط عند تشغيل الوظيفة التي تستخدمها، مما قد يقلل من أوقات الانتظار للتحليل. يمكن تنفيذ الأدوات وسير العمل بكفاءة، حيث سيقوم Galaxy بتنزيل مجموعة البيانات البعيدة فقط عند الحاجة إليها لوظيفة معينة. نظرًا لأن البيانات لا يتم تخزينها بواسطة Galaxy حتى تكون مطلوبة، فإن مجموعة البيانات لا تساهم في حصة تخزين المستخدم.
تحسينات تجربة المستخدم
- نظام الإشعارات: يسهل نظام الإشعارات الجديد إرسال إشعارات حول مجموعة واسعة من السيناريوهات مثل إكمال الوظائف، ومشاركة العناصر، وتحديثات الخدمة، والمزيد. تظهر الإشعارات داخل خدمة Galaxy كنقاط حمراء مرقمة تنقل إلى لوحة الإشعارات (الشكل 2). لدى المستخدمين السيطرة على إشعاراتهم، بما في ذلك خيار الاشتراك/إلغاء الاشتراك في أنواع معينة من الإشعارات. يدعم نظام الإشعارات الجديد أيضًا الإشعارات العامة، مما يسمح للمسؤولين بإرسال إعلانات على مستوى الخادم، مثل صيانة الخادم أو إشعارات التوقف.
- تسجيل الدخول من خلال تحسينات OpenIDConnect (OIDC): أصبحت أدوات Galaxy والوظائف الآن قادرة على استخدام هويات OIDC المرتبطة لتنفيذ إجراءات نيابة عن المستخدمين. هذا

- واجهة التاريخ: تم تحديث عنصر Galaxy الأساسي، تاريخ المستخدم للبيانات المدخلة والنتائج، للسماح بالبحث عن مجموعات البيانات المدخلة بسهولة، والتبديل السريع بين التاريخ، وعرض متعدد للتاريخ، والسحب والإفلات متعدد الاتجاهات في عارض التاريخ المتعدد، وعمليات جماعية مثل وضع علامات على العناصر وتغييرات مفاتيح قاعدة البيانات.
- بحث الأدوات: تم تحديثه ليشمل بحث الأدوات المتقدم، مما يسمح بالتصفية حسب القسم، والمعرف، ونص المساعدة بالإضافة إلى الاسم.
إدارة بيانات البحث

- إدارة التاريخ غير المستخدمة: يجب أن تكون مسؤولية إدارة بيانات المستخدم مع المستخدم، ومع ذلك، عادة ما تكون هناك حاجة إلى تذكيرات نشطة حول اقتراب حدود الحصة لمساعدة المستخدمين في هذه المهمة. خيار، تم نشره حاليًا على Galaxy Australia، هو تنبيه عبر البريد الإلكتروني للتواريخ التي لم يتم تعديلها في الـ 52 أسبوعًا الماضية والحد من حذف هذه التواريخ في غضون أسبوعين إضافيين. يسرد البريد الإلكتروني جميع التواريخ مع روابط مباشرة إلى التواريخ، مما يسمح للمستخدم باتخاذ أي إجراء مطلوب بسهولة، مدعومًا بحجم كل تاريخ وروابط إلى أدلة الدعم لتنزيل والحفاظ على التاريخ خارج Galaxy.
- رؤية التخزين: يمكن أن تشمل رحلة بيانات الباحث على Galaxy بيانات التدريب، وبيانات التحسين، والبيانات الخام وبيانات المرجع الفردية. يمكن تجميع كل من هذه التصنيفات البيانية حسب متطلباتها للتخزين/الاسترجاع. على سبيل المثال، يمكن الوصول إلى بيانات تدريب GTN المخزنة على Zenodo (https://zenodo.org/communities/ galaxy-training/) بشكل متكرر إذا تم تخزينها مؤقتًا على خدمة Galaxy فردية. ومع ذلك، قد تحتاج البيانات الخام إلى التخزين حتى يتم نشر النتائج المرتبطة وتخزين البيانات حسب متطلبات النشر. تساعد لوحة معلومات تخزين المستخدم وخيارات التخزين
الباحثين في إدارة ملف تخزينهم الإجمالي. تعتبر لوحة معلومات التخزين مكانًا مركزيًا حيث يتم تقديم نظرة عامة للمستخدم حول استخدام تخزين القرص الخاص بهم (الشكل 3). كما أنها توفر وسيلة سهلة وسريعة لاستعادة المساحة من التواريخ أو مجموعات البيانات التي من المحتمل أن تكون غير مستخدمة. يمكن للمستخدمين تصور استخدام القرص لتواريخهم المجمعة، مع عرض أعلى 10 أو 20 أو 50 تاريخًا مقاسة حسب إجمالي التخزين المطلوب على مخطط صندوق (الشكل 3). يمكن العثور على مزيد من التفاصيل لمجموعات البيانات الفردية، مما يسمح للمستخدمين بإدارة ملف تخزينهم الإجمالي وما البيانات التي تتطلب تصديرًا أو حذفًا. تتيح خيارات تخزين كائنات التاريخ المفضلة للمستخدم اختيار مكان تخزين البيانات حسب احتياجاتهم، وتختلف على كل خادم Galaxy عام. - تصدير البيانات: كان بإمكان مستخدمي Galaxy تصدير عنصر (عناصر) التاريخ أو تواريخ كاملة، لغرض الأرشفة أو إعادة الاستخدام لاحقًا. ومع ذلك، لم يتم تتبع أصل الصادرات، وقد تم تحسين ذلك. الآن تتبع التواريخ متى وأين تم تصديرها. يمكن أن تكون الصادرات دائمة أو مؤقتة. تدعم الصادرات الدائمة إعادة الاستيراد السريع والسهل إلى Galaxy من ‘ملحق مصدر الملف’ المكون على خادم Galaxy، مثل S3، Zenodo، Dropbox. الصادرات المؤقتة هي روابط قصيرة العمر تسمح للمستخدمين بتنزيل التواريخ، مما يجعل من الممكن تحميلها يدويًا واستيرادها لاحقًا حسب الحاجة. يمكن تصدير التواريخ

مجتمع عالمي نابض بالحياة

حوكمة مشروع جالاكسي
- مشروع جينوم الفقاريات: أظهرت جالاكسي فائدتها في دعم مشروع VGP من خلال نشر سير العمل الخاص بتجميع النسخة 2.1 من VGP (22). باستخدام بيانات من VGP وERGA، أنشأ سير العمل 51 جينومًا، من 4 أنواع من البرمائيات، 15 نوعًا من الطيور، 10 أنواع من الأسماك، 14 نوعًا من الثدييات و8 أنواع من الزواحف.
- البروتيوميات الحاسوبية: بالتعاون الوثيق مع AnalystSuite، تتوفر أدوات تفاعلية، مثل LFQanalyst، لتصور واستكشاف البيانات على Galaxy (23).
- علم الوراثة البشرية: زادت جالاكسي من الدعم لعلم الوراثة البشرية، خاصة مع تدفقات العمل الجديدة لاكتشاف وتفسير التvariations الجينية لاستخدامها ضمن بيئات NHGRI AnVIL (24) وNCI Firecloud (25).
الأثر البيئي
خطط المستقبل
توفر البيانات
شكر وتقدير
تمويل
بيان تضارب المصالح
References
- Giardine,B., Riemer,C., Hardison,R.C., Burhans,R., Elnitski,L., Shah,P., Zhang,Y., Blankenberg,D., Albert,I., Taylor,J., et al. (2005) Galaxy: a platform for interactive large-scale genome analysis. Genome Res., 15, 1451-1455.
- Galaxy Community (2022) The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update. Nucleic Acids Res., 50, W345-W351.
- Black,M., Lamothe,L., Eldakroury,H., Kierkegaard,M., Priya,A., Machinda,A., Khanduja,U.S., Patoliya,D., Rathi,R., Nico,T.P.C., et al. (2022) EDAM: the bioscientific data analysis ontology (update 2021). F1000Research, https://doi.org/10.7490/f1000research.1118900.1.
- Rhie,A., McCarthy,S.A., Fedrigo,O., Damas,J., Formenti,G., Koren,S., Uliano-Silva,M., Chow,W., Fungtammasan,A., Kim,J., et al. (2021) Towards complete and error-free genome assemblies of all vertebrate species. Nature, 592, 737-746.
- Lewin,H.A., Robinson,G.E., Kress,W.J., Baker,W.J., Coddington,J., Crandall,K.A., Durbin,R., Edwards,S.V., Forest,F., Gilbert,M.T.P., et al. (2018) Earth BioGenome Project: sequencing life for the future of life. Proc. Natl. Acad. Sci. U.S.A., 115, 4325-4333.
- Marx-Stoelting,P., Rivière,G., Luijten,M., Aiello-Holden,K., Bandow,N., Baken,K., Cañas,A., Castano,A., Denys,S., Fillol,C., et al. (2023) A walk in the PARC: developing and implementing 21st century chemical risk assessment in Europe. Arch. Toxicol., 97, 893-908.
- Jumper,J., Evans,R., Pritzel,A., Green,T., Figurnov,M., Ronneberger,O., Tunyasuvunakool,K., Bates,R., Žídek,A., Potapenko,A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589.
- OpenAI,A.J., Adler,S., Agarwal,S., Ahmad,L., Akkaya,I., Aleman,F.L., Almeida,D., Altenschmidt,J., Altman,S., et al. (2023) GPT-4 technical report. arXiv doi: https://arxiv.org/abs/2303.08774, 15 March 2023, preprint: not peer reviewed.
- Mirdita,M., Schütze,K., Moriwaki,Y., Heo,L., Ovchinnikov,S. and Steinegger,M. (2022) ColabFold: making protein folding accessible to all. Nat. Methods, 19, 679-682.
- de Koning,W., Miladi,M., Hiltemann,S., Heikema,A., Hays,J.P., Flemming,S., van den Beek,M., Mustafa,D.A., Backofen,R., Grüning,B., et al. (2020) NanoGalaxy: nanopore long-read sequencing data analysis in Galaxy. Gigascience, 9, giaa105.
- Cox,J. and Mann,M. (2008) MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat. Biotechnol., 26, 1367-1372.
- Zheng,G.X.Y., Terry,J.M., Belgrader,P., Ryvkin,P., Bent,Z.W., Wilson,R., Ziraldo,S.B., Wheeler,T.D., McDermott,G.P., Zhu,J., et al. (2017) Massively parallel digital transcriptional profiling of single cells. Nat. Commun., 8, 14049.
- Solovyev,V., Kosarev,P., Seledsov,I. and Vorobyev,D. (2006) Automatic annotation of eukaryotic genes, pseudogenes and promoters. Genome Biol., 7, S10.
- Grüning,B., Dale,R., Sjödin,A., Chapman,B.A., Rowe,J., Tomkins-Tinch,C.H., Valieris,R., Köster,J. and Bioconda TeamBioconda Team (2018) Bioconda: sustainable and comprehensive software distribution for the life sciences. Nat. Methods, 15, 475-476.
- Wilkinson,M.D., Dumontier,M., Aalbersberg,I.J.J., Appleton,G., Axton,M., Baak,A., Blomberg,N., Boiten,J.-W., da Silva Santos,L.B., Bourne,P.E., et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3, 160018.
- Yuen,D., Cabansay,L., Duncan,A., Luu,G., Hogue,G., Overbeck,C., Perez,N., Shands,W., Steinberg,D., Reid,C., et al. (2021) The Dockstore: enhancing a community platform for sharing reproducible and accessible computational protocols. Nucleic Acids Res., 49, W624-W632.
- Rehm,H.L., Page,A.J.H., Smith,L., Adams,J.B., Alterovitz,G., Babb,L.J., Barkley,M.P., Baudis,M., Beauvais,M.J.S., Beck,T., et al. (2021) GA4GH: international policies and standards for data sharing across genomic research and healthcare. Cell Genom, 1, 100029.
- Hiltemann,S., Rasche,H., Gladman,S., Hotz,H.-R., Larivière,D., Blankenberg,D., Jagtap,P.D., Wollmann,T., Bretaudeau,A., Goué,N., et al. (2023) Galaxy Training: a powerful framework for teaching! PLoS Comput. Biol., 19, e1010752.
- Mölder,F., Jablonski,K.P., Letcher,B., Hall,M.B., Tomkins-Tinch,C.H., Sochat,V., Forster,J., Lee,S., Twardziok,S.O., Kanitz,A., et al. (2021) Sustainable data analysis with Snakemake. F1000Res., 10, 33.
- Rasche,H., Hyde,C., Davis,J., Gladman,S., Coraor,N., Bretaudeau,A., Cuccuru,G., Bacon,W., Serrano-Solano,B., Hillman-Jackson,J., et al. (2022) Training infrastructure as a service. Gigascience, 12, giad048.
- Soiland-Reyes,S., Sefton,P., Crosas,M., Castro,L.J., Coppens,F., Fernández,J.M., Garijo,D., Grüning,B., La Rosa,M., Leo,S., et al. (2022) Packaging research artefacts with RO-Crate. Data Sci, 5, 97-138.
- Larivière,D., Abueg,L., Brajuka,N., Gallardo-Alba,C., Grüning,B., Ko,B.J., Ostrovsky,A., Palmada-Flores,M., Pickett,B.D., Rabbani,K., et al. (2024) Scalable, accessible and reproducible reference genome assembly and evaluation in Galaxy. Nat. Biotechnol., 42, 367-370.
- Mehta,S., Bernt,M., Chambers,M., Fahrner,M., Föll,M.C., Gruening,B., Horro,C., Johnson,J.E., Loux,V., Rajczewski,A.T., et al. (2023) A galaxy of informatics resources for MS-based proteomics. Expert Rev. Proteomics, 20, 251-266.
- Schatz,M.C., Philippakis,A.A., Afgan,E., Banks,E., Carey,V.J., Carroll,R.J., Culotti,A., Ellrott,K., Goecks,J., Grossman,R.L., et al. (2022) Inverting the model of genomics data sharing with the NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space. Cell Genom, 2, 100085.
- Birger,C., Hanna,M., Salinas,E., Neff,J., Saksena,G., Livitz,D., Rosebrock,D., Stewart,C., Leshchiner,I., Baumann,A., et al. (2017) FireCloud, a scalable cloud-based platform for collaborative genome analysis: strategies for reducing and controlling costs. bioRxiv doi: https://doi.org/10.1101/209494, 03 Novemberv 2017, preprint: not peer reviewed.
- Nekrutenko,A. and Schatz,M.C. (2020) In memory of James Taylor: the birth of Galaxy. Genome Biol., 21, 105.
الملحق
ern.gruening@gmail.com), مايكل سي. شاتز (mschatz@cs.jhu.edu)
لينيل آن ل أبوغ
-
البحث في المعلومات الجغرافية الشمالية، شمال الراين-وستفاليا 48147، ألمانيا - AARNet، كوينزلاند 4104، أستراليا
- جامعة ألبرت لودفيغ في فرايبورغ، بادن-فورتمبيرغ 79110، ألمانيا
- أسترازينيكا، كامبريدجشير CB2 0AA، المملكة المتحدة
- بيوكومونز الأسترالية، فيكتوريا 3052، أستراليا
- مركز برشلونة supercomputing، كاتالونيا 08902، إسبانيا
- جامعة كليرمونت أوفيرن، أوفيرن-رون-ألب 63000، فرنسا
- عيادة كليفلاند، أوهايو 44106، الولايات المتحدة الأمريكية
- CNRS – Data Terra، بريتاني 29200، فرنسا
- CRS4، كالياري 09050، إيطاليا
- معهد إيرلهام، شرق إنجلترا وشرق أنجليا NR4 7UZ، المملكة المتحدة
- المدرسة الفيدرالية Polytechnic في لوزان (EPFL)، فود 1015، سويسرا
- إليكسير، كامبريدجشير CB10 1SD، المملكة المتحدة
- EMBL، بادن-فورتمبيرغ 69117، ألمانيا
- معهد المعلوماتية الحيوية الأوروبي التابع لـ EMBL (EMBLEBI)، كامبريدجشير CB10 1SD، المملكة المتحدة
- EPFL، فود 1004، سويسرا
- مركز إيراسموس الطبي، جنوب هولندا 3015 GD، هولندا
- المعهد الفرنسي للمعلوماتية الحيوية، أوفيرن-رون ألب 63170، فرنسا
- معهد فريدريش ميسشر للبحوث الحيوية، بازل-شتات 4058، سويسرا
- مشروع جالاكسي، نيو ساوث ويلز 2026، أستراليا
- مركز أبحاث السرطان الألماني، بادن-فورتمبيرغ 69120، ألمانيا
- جامعة غريفيث، نيو ساوث ويلز 2299، أستراليا
- كلية الطب بجامعة هارفارد، ماساتشوستس 01082، الولايات المتحدة الأمريكية
- جامعة هايدلبرغ، بادن-فورتمبيرغ 69120، ألمانيا
- هيومان تيكنوبول، لومباردي 20157، إيطاليا
- IGEPP، INRAE، معهد أغرو، جامعة رين، بريتاني 35042، فرنسا
- معهد البيولوجيا الخلوية والجزيئية للنباتات (IBMCP)، فالنسيا 46001، إسبانيا
- معهد الأغشية الحيوية والطاقة الحيوية والتقنيات الحيوية الجزيئية، المجلس الوطني للبحوث (CNR)، بوليا 70126، إيطاليا
- إيريسا، بريتاني 35042، فرنسا
- جامعة جيمس كوك، كوينزلاند 4814، أستراليا
- جامعة جونز هوبكنز، ماريلاند 21218، الولايات المتحدة الأمريكية
- معهد ليرنر للبحوث، عيادة كليفلاند، أوهايو 44106، الولايات المتحدة الأمريكية
- جامعة ماساريك، جنوب مورافيا 60200، جمهورية التشيك
- مركز موفيت للسرطان، فلوريدا 33612، الولايات المتحدة الأمريكية
- المتحف الوطني للتاريخ الطبيعي، بريتاني 29900، فرنسا
- مختبر أوك ريدج الوطني، تينيسي 37380، الولايات المتحدة الأمريكية
- جامعة أوريغون للصحة والعلوم، أوريغون 97239، الولايات المتحدة الأمريكية
- جامعة ولاية بنسلفانيا، بنسلفانيا 16802، الولايات المتحدة الأمريكية
- مؤسسة البنية التحتية السيبرانية في كوينزلاند، كوينزلاند 4072، أستراليا
- مختبر رذرفورد أبلتون، UKRI، أكسفوردشاير OX11 0QX، المملكة المتحدة
- مجلس مرافق العلوم والتكنولوجيا، أكسفوردشاير OX11 0QX، المملكة المتحدة
- مختبر أبحاث سيمولا، أوسلو 0164، النرويج
- جامعة السوربون، بريتاني 29900، فرنسا
- محطة بيولوجية روسكوف – جامعة السوربون/المركز الوطني للبحث العلمي، بريتاني 29680، فرنسا
- الجامعة المفتوحة، باكينغهامشير MK7 6AA، المملكة المتحدة
- جامعة روكفلر، نيويورك 10021، الولايات المتحدة الأمريكية
- جامعة برادفورد، ويست يوركشاير BD7 1DP، المملكة المتحدة
- جامعة إدنبرة، إدنبرة EH9 3FJ، المملكة المتحدة
- جامعة ملبورن، فيكتوريا 3052، أستراليا
- جامعة كوينزلاند، كوينزلاند 4072، أستراليا
- UFZ لايبزيغ، ساكسونيا 04318، ألمانيا
- UGent، شرق فلاندرز 9000، بلجيكا
- جامعة باريس سيت، إيل دو فرانس 75013، فرنسا
- جامعة بيرغن، فيستلان 5008، النرويج
- جامعة ليمريك، مونستر V94 T9PX، أيرلندا
- جامعة مايدوغوري، ولاية بورنو 600004، نيجيريا
- جامعة ميلانو، لومبارديا 20133، إيطاليا
- جامعة مينيسوتا، مينيسوتا 55455، الولايات المتحدة الأمريكية
- جامعة أوسلو، أوسلو 0316، النرويج
- المعهد الفلمنكي للتكنولوجيا الحيوية، شرق فلاندرز 9000، بلجيكا
- تاريخ الاستلام: 11 مارس 2024. تاريخ المراجعة: 18 أبريل 2024. القرار التحريري: 1 مايو 2024. تاريخ القبول: 2 مايو 2024.
© المؤلفون 2024. نُشر بواسطة مطبعة جامعة أكسفورد نيابةً عن أبحاث الأحماض النووية.
هذه مقالة مفتوحة الوصول موزعة بموجب شروط ترخيص المشاع الإبداعي للنسب (https://creativecommons.org/licenses/by/4.0/الذي يسمح بإعادة الاستخدام والتوزيع والاستنساخ غير المقيد في أي وسيلة، بشرط أن يتم الاستشهاد بالعمل الأصلي بشكل صحيح.
DOI: https://doi.org/10.1093/nar/gkae410
PMID: https://pubmed.ncbi.nlm.nih.gov/38769056
Publication Date: 2024-05-20
The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update
Abstract
Galaxy (https://galaxyproject.org) is deployed globally, predominantly through free-to-use services, supporting user-driven research that broadens in scope each year. Users are attracted to public Galaxy services by platform stability, tool and reference dataset diversity, training, support and integration, which enables complex, reproducible, shareable data analysis. Applying the principles of user experience design (UXD), has driven improvements in accessibility, tool discoverability through Galaxy Labs/subdomains, and a redesigned Galaxy ToolShed. Galaxy tool capabilities are progressing in two strategic directions: integrating general purpose graphical processing units (GPGPU) access for cutting-edge methods, and licensed tool support. Engagement with global research consortia is being increased by developing more workflows in Galaxy and by resourcing the public Galaxy services to run them. The Galaxy Training Network (GTN) portfolio has grown in both size, and accessibility, through learning paths and direct integration with Galaxy tools that feature in training courses. Code development continues in line with the Galaxy Project roadmap, with improvements to job scheduling and the user interface. Environmental impact assessment is also helping engage users and developers, reminding them of their role in sustainability, by displaying estimated
Graphical abstract

Introduction
user interface discussed below have made sharing more visible.
Research driven Solutions
Galaxy Labs/sites/subdomains
GPGPU-supported tools
Licenced tools

Discoverability
(16). From WorkflowHub, researchers can select a ‘Run on usegalaxy.eu‘, which triggers workflow import to Galaxy Europe; from Dockstore, a Galaxy workflow can be imported into any of the three major usegalaxy.* servers. Within Galaxy, a user can search either WorkflowHub or Dockstore using their GA4GH Tool Registry Service (TRS) implementations (17), alongside existing options for workflow import from local files and public URLs.
Galaxy Training Network
GTN materials
GTN framework
- Automated video slides: When comprehensive speaker notes are provided with a slide deck, the GTN framework will automatically create a video lecture based on the slides, using automated text-to-speech (TTS) software. This is a useful resource for learners, as well as educators preparing to teach the slide deck. Finally, the maintenance burden is significantly lower than for live videos, as any change in the slides or speaker notes will trigger an automatic rebuild of the videos.
- Defining learning pathways: Learning paths describe a journey around a topic or set of topics, that guide learners from introductory materials to increasingly advanced tutorials. These learning pathways can include materials from different GTN topics and allow grouping into modules. Learning pathways support learners trying to find suitable tutorials to achieve their learning objectives, as well as educators in crafting a curriculum. These learning pathways have been typically based on week-long training courses organised by the community.
- Support for modular lessons/choose-your-own-adventure tutorials: It is now possible to present learners with a choice and depending on their choice, the tutorial contents are changed. This option has been used in various ways, for example to offer a choice of different alignment tools in the RNA-seq tutorial, or to adjust the level or length of the 16 S metagenomics tutorial, where users can choose if they want an higher-level view of the topic by running a set of five workflows, or if they want to dive into the complexity of analytical options and file formats, and run each of the
steps manually. - Support for interactive notebook-based coding tutorials: These tutorials can be viewed either in the traditional GTN view as a static web page, where learners launch Rstudio or Jupyter and perform the hands-on instructions. In addition, the GTN framework can also convert these tutorials into fully-fledged Jupyter notebooks,
where the user can perform the hands-on tasks directly inside the tutorial notebook, while also having the full tutorial (scientific explanations, question boxes, etc.) loaded in the notebook. - GTN support inside Galaxy: Accessing GTN materials is now possible directly from within the Galaxy Web interface. When the materials are accessed in this manner, it enables the GTN’s click-to-run workflows and tools integration, whereby users can click on tool/workflow names in the tutorials to automatically open them inside their open Galaxy session.
- Pan GTN improvements: Persistent identifiers (PURLs) for tutorials, GTN API, support for manually curated tutorial translations, website themes and improved search functionality.
GTN events
Training infrastructure as a service (TlaaS)
User-focused features and enhancements
- Legibility: Both the GTN and Galaxy have adopted Atkinson Hyperligible, a font designed by the Braille Institute (https://brailleinstitute.org/freefont) that aims to improve legibility for low-vision readers by making letterforms easy to recognize even when blurry. This change helps us meet our goal of an accessible platform and making data science accessible for everyone, including those with visual impairments. The GTN has a longstanding commitment to accessibility and regularly tests its interface with a screen reader which has helped catch numerous accessibility issues that would not be noticed
by sighted learners, all to the benefit of a larger more inclusive community. Galaxy has recently launched a similar effort to improve the screen reader accessibility of its interface, making large strides in reducing the number of mouse-only workflows and improving keyboard navigation. - Colourschemes: Galaxy has implemented a framework allowing for customization of system colours and the user interface, allowing individual Galaxy deployments to customise their colours to match their branding, supporting customizing logos and the masthead colouring (https://galaxyproject.org/news/2023-04-25-themes-in-galaxy). The GTN found issues in its existing implementation and separated out cosmetic changes from the more important accessibility axes of automatic dark/light mode responding to the user’s browser preferences for colour scheme and contrast, allowing users to choose any cosmetic theme separately from their visual needs.
- Pan-Galactic Tool Search: The GTN has begun collecting lists of publicly shared workflows (https://training.galaxyproject.org/training-material/ workflows/list.html) and tools (https://gxy.io/GTN: N00055) across public Galaxy services, enabling both learners and researchers to more easily discover both what resources and where those resources are available to access.
- ‘Click to run’: WorkflowHub.eu and Dockstore are both integrated into Galaxy via the GA4GH TRS API which gives users a ‘click to run’ experience. They can identify a workflow in their preferred hub, and then with a click (or two) be redirected to their preferred Galaxy to launch the workflow. Within the GTN we implemented a similar feature, any workflows inside the GTN are likewise launchable directly in the user’s preferred Galaxy via the TRS API. When these links are accessed from within a Galaxy instance via the ‘Tutorial Mode’, the workflow is launched directly in the user’s active Galaxy with one click. These sorts of enhancement significantly improve the learner’s experience by removing barriers and distractions from following hands-on learning materials, allowing them to focus on the content and the science.
- Display language: Language configuration is possible through the Localization option in Manage Preferences. Users can easily navigate Galaxy options in their preferred language, currently selecting from: Chinese, English, French, Japanese and Spanish.
Software features and enhancements
Service optimization
- Total Perspective Vortex (TPV): TPV is a library for right-sizing and meta-scheduling Galaxy jobs in heterogeneous compute environments (https://doi.org/10. 48550/arXiv.2312.02060). TPV allows fine-grained
control over resource allocation for individual jobs, including the ability to make decisions using live resource data. A key advantage of TPV is a firstever community-curated database of default resource requirements for nearly 1000 popular bioinformatics tools (https://github.com/galaxyproject/tpv-shareddatabase). This publicly available resource has recommended resource allocations and scaling rules for tools in a simple YAML format, that takes away the need for administrators to individually configure, and often guess, job resource requirements per Galaxy deployment. TPV can be easily configured on any modern Galaxy instance and has been deployed on Galaxy AU and EU, processing over ten million jobs since its initial deployment in November 2021. - GA4GH support: By supporting the APIs developed by GA4GH (17), the Galaxy Project helps to ensure that data are easily accessible and interoperable, and can be quickly and easily analyzed by researchers and clinicians. This is particularly notable in the genomics community to advance medical research and improve patient care. The collaboration between GA4GH and the Galaxy Project therefore helps to achieve the mutual goal of making genomic data a valuable resource for the benefit of humanity. Galaxy currently supports several major APIs, including the Data Repository Service (DRS) for import and export of data hosted within Galaxy; the Task Execution Service (TES) which exposes Pulsar resources to efficiently execute large scale analyses; and the Tool Registry Service (TRS) to share and distribute workflows. Galaxy also has preliminary support for Beacon, which allows for the discovery of genome data by querying if a specific variant is present in a dataset, and several other GA4GH APIs.
- Deferred remote dataset resolution: Deferred datasets is a feature that allows datasets to be fetched only when the job using them is run, potentially reducing waiting times for analysis. Tools and workflows can be executed efficiently, Galaxy will download the remote dataset only when it’s needed for a specific job. Since the data isn’t stored by Galaxy until required, the dataset does not contribute to a user’s storage quota.
User experience improvements
- Notification system: The new notification system facilitates sending notifications about a wide variety of scenarios like job completion, artifact sharing, service updates, and more. Notifications appear within the Galaxy service as red enumerated dots that navigate to the notification panel (Figure 2). Users have control over their notifications, including the option to subscribe/unsubscribe from certain types of notifications. The new notification system also supports broadcast notifications, allowing administrators to send server-wide announcements, such as server maintenance or downtime notifications.
- Login throughOpenIDConnect (OIDC) enhancements: Galaxy tools and jobs are now able to use linked OIDC identities to carry out actions on behalf of users. This

- History interface: A core Galaxy element, the user History of input data and results, was updated to allow easier dataset input searching, quick History switching, multihistory viewer, multi-directional drag and drop in the multi-history viewer, and bulk operations such as item tagging and database key changes.
- Tool search: Updated to include Advanced Tool search, allowing filtering by Section, ID and Help Text in addition to Name.
Research data management

- Unused history management: The responsibility of managing user data should reside with the user, however active reminders of approaching quota limits are usually needed to help users in this task. An option, currently deployed on Galaxy Australia, is an email alert of histories that have not been modified in the past 52 weeks and the pending deletion of such histories in 2 additional week’s time. The email lists all histories with hyperlinks directly to the histories, allowing the user to easily take any action required, supported by each history size and links to support guides for downloading and preserving the history outside of Galaxy.
- Storage visibility: A researcher data journey on Galaxy can include training data, optimization data, raw data and individual reference data. Each of these data classifications can be grouped by their requirement for storage/retrieval. For example, GTN training data stored on Zenodo (https://zenodo.org/communities/ galaxy-training/) can be repeatedly accessed if stored temporarily on an individual Galaxy service. However raw data may need to be stored until associated results are published and data stored as required by publication. The User Storage Dashboard and Storage options
help researchers manage their total storage profile. The Storage Dashboard is a central place where the user is presented with an overview of their disk storage usage (Figure 3). It also provides an easy and quick way to recover space from likely unused histories or datasets. Users can visualize the disk usage of their collected histories, with the top 10, 20 or 50 histories measured by total storage required displayed on a box plot (Figure 3). More detail can be found for individual datasets, allowing users to manage their total storage profile and what data requires export or deletion. The History Preferred Object Store storage options let the user select where to store the data depending on their needs, and differs on each public Galaxy server. - Data export: Galaxy users have been able to export History item(s) or complete histories, for the purpose of archiving or later reuse. The provenance of exports however was not tracked, and this has been improved. Histories now track when and where they were exported. Exports can be permanent or temporary. Permanent exports support quick and easy re-import into Galaxy from the ‘File Source Plugin’ configured on the Galaxy server, such as S3, Zenodo, Dropbox. Temporary exports are short lived links that allow users to download histories, making it possible to manually upload and import them later as needed. Histories can be exported

A vibrant global community

Galaxy Project governance
- Vertebrate Genome Project: Galaxy has demonstrated its utility in support of the VGP through the publication of the version 2.1 VGP assembly workflow (22). Using data from VGP and ERGA, the workflow has generated 51 genomes, from 4 amphibian, 15 bird, 10 fish, 14 mammal and 8 reptile species.
- Computational proteomics: In close collaboration with AnalystSuite, interactive tools, such as LFQanalyst, for the visualisation and exploration of data are available on Galaxy (23).
- Human genetics: Galaxy has increased support for human genetics, especially with new workflows for discovering and interpreting genetic variations for use within the NHGRI AnVIL (24) and NCI Firecloud (25) environments.
Environmental impact
Future plans
Data availability
Acknowledgements
Funding
Conflict of interest statement
References
- Giardine,B., Riemer,C., Hardison,R.C., Burhans,R., Elnitski,L., Shah,P., Zhang,Y., Blankenberg,D., Albert,I., Taylor,J., et al. (2005) Galaxy: a platform for interactive large-scale genome analysis. Genome Res., 15, 1451-1455.
- Galaxy Community (2022) The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update. Nucleic Acids Res., 50, W345-W351.
- Black,M., Lamothe,L., Eldakroury,H., Kierkegaard,M., Priya,A., Machinda,A., Khanduja,U.S., Patoliya,D., Rathi,R., Nico,T.P.C., et al. (2022) EDAM: the bioscientific data analysis ontology (update 2021). F1000Research, https://doi.org/10.7490/f1000research.1118900.1.
- Rhie,A., McCarthy,S.A., Fedrigo,O., Damas,J., Formenti,G., Koren,S., Uliano-Silva,M., Chow,W., Fungtammasan,A., Kim,J., et al. (2021) Towards complete and error-free genome assemblies of all vertebrate species. Nature, 592, 737-746.
- Lewin,H.A., Robinson,G.E., Kress,W.J., Baker,W.J., Coddington,J., Crandall,K.A., Durbin,R., Edwards,S.V., Forest,F., Gilbert,M.T.P., et al. (2018) Earth BioGenome Project: sequencing life for the future of life. Proc. Natl. Acad. Sci. U.S.A., 115, 4325-4333.
- Marx-Stoelting,P., Rivière,G., Luijten,M., Aiello-Holden,K., Bandow,N., Baken,K., Cañas,A., Castano,A., Denys,S., Fillol,C., et al. (2023) A walk in the PARC: developing and implementing 21st century chemical risk assessment in Europe. Arch. Toxicol., 97, 893-908.
- Jumper,J., Evans,R., Pritzel,A., Green,T., Figurnov,M., Ronneberger,O., Tunyasuvunakool,K., Bates,R., Žídek,A., Potapenko,A., et al. (2021) Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589.
- OpenAI,A.J., Adler,S., Agarwal,S., Ahmad,L., Akkaya,I., Aleman,F.L., Almeida,D., Altenschmidt,J., Altman,S., et al. (2023) GPT-4 technical report. arXiv doi: https://arxiv.org/abs/2303.08774, 15 March 2023, preprint: not peer reviewed.
- Mirdita,M., Schütze,K., Moriwaki,Y., Heo,L., Ovchinnikov,S. and Steinegger,M. (2022) ColabFold: making protein folding accessible to all. Nat. Methods, 19, 679-682.
- de Koning,W., Miladi,M., Hiltemann,S., Heikema,A., Hays,J.P., Flemming,S., van den Beek,M., Mustafa,D.A., Backofen,R., Grüning,B., et al. (2020) NanoGalaxy: nanopore long-read sequencing data analysis in Galaxy. Gigascience, 9, giaa105.
- Cox,J. and Mann,M. (2008) MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nat. Biotechnol., 26, 1367-1372.
- Zheng,G.X.Y., Terry,J.M., Belgrader,P., Ryvkin,P., Bent,Z.W., Wilson,R., Ziraldo,S.B., Wheeler,T.D., McDermott,G.P., Zhu,J., et al. (2017) Massively parallel digital transcriptional profiling of single cells. Nat. Commun., 8, 14049.
- Solovyev,V., Kosarev,P., Seledsov,I. and Vorobyev,D. (2006) Automatic annotation of eukaryotic genes, pseudogenes and promoters. Genome Biol., 7, S10.
- Grüning,B., Dale,R., Sjödin,A., Chapman,B.A., Rowe,J., Tomkins-Tinch,C.H., Valieris,R., Köster,J. and Bioconda TeamBioconda Team (2018) Bioconda: sustainable and comprehensive software distribution for the life sciences. Nat. Methods, 15, 475-476.
- Wilkinson,M.D., Dumontier,M., Aalbersberg,I.J.J., Appleton,G., Axton,M., Baak,A., Blomberg,N., Boiten,J.-W., da Silva Santos,L.B., Bourne,P.E., et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3, 160018.
- Yuen,D., Cabansay,L., Duncan,A., Luu,G., Hogue,G., Overbeck,C., Perez,N., Shands,W., Steinberg,D., Reid,C., et al. (2021) The Dockstore: enhancing a community platform for sharing reproducible and accessible computational protocols. Nucleic Acids Res., 49, W624-W632.
- Rehm,H.L., Page,A.J.H., Smith,L., Adams,J.B., Alterovitz,G., Babb,L.J., Barkley,M.P., Baudis,M., Beauvais,M.J.S., Beck,T., et al. (2021) GA4GH: international policies and standards for data sharing across genomic research and healthcare. Cell Genom, 1, 100029.
- Hiltemann,S., Rasche,H., Gladman,S., Hotz,H.-R., Larivière,D., Blankenberg,D., Jagtap,P.D., Wollmann,T., Bretaudeau,A., Goué,N., et al. (2023) Galaxy Training: a powerful framework for teaching! PLoS Comput. Biol., 19, e1010752.
- Mölder,F., Jablonski,K.P., Letcher,B., Hall,M.B., Tomkins-Tinch,C.H., Sochat,V., Forster,J., Lee,S., Twardziok,S.O., Kanitz,A., et al. (2021) Sustainable data analysis with Snakemake. F1000Res., 10, 33.
- Rasche,H., Hyde,C., Davis,J., Gladman,S., Coraor,N., Bretaudeau,A., Cuccuru,G., Bacon,W., Serrano-Solano,B., Hillman-Jackson,J., et al. (2022) Training infrastructure as a service. Gigascience, 12, giad048.
- Soiland-Reyes,S., Sefton,P., Crosas,M., Castro,L.J., Coppens,F., Fernández,J.M., Garijo,D., Grüning,B., La Rosa,M., Leo,S., et al. (2022) Packaging research artefacts with RO-Crate. Data Sci, 5, 97-138.
- Larivière,D., Abueg,L., Brajuka,N., Gallardo-Alba,C., Grüning,B., Ko,B.J., Ostrovsky,A., Palmada-Flores,M., Pickett,B.D., Rabbani,K., et al. (2024) Scalable, accessible and reproducible reference genome assembly and evaluation in Galaxy. Nat. Biotechnol., 42, 367-370.
- Mehta,S., Bernt,M., Chambers,M., Fahrner,M., Föll,M.C., Gruening,B., Horro,C., Johnson,J.E., Loux,V., Rajczewski,A.T., et al. (2023) A galaxy of informatics resources for MS-based proteomics. Expert Rev. Proteomics, 20, 251-266.
- Schatz,M.C., Philippakis,A.A., Afgan,E., Banks,E., Carey,V.J., Carroll,R.J., Culotti,A., Ellrott,K., Goecks,J., Grossman,R.L., et al. (2022) Inverting the model of genomics data sharing with the NHGRI Genomic Data Science Analysis, Visualization, and Informatics Lab-space. Cell Genom, 2, 100085.
- Birger,C., Hanna,M., Salinas,E., Neff,J., Saksena,G., Livitz,D., Rosebrock,D., Stewart,C., Leshchiner,I., Baumann,A., et al. (2017) FireCloud, a scalable cloud-based platform for collaborative genome analysis: strategies for reducing and controlling costs. bioRxiv doi: https://doi.org/10.1101/209494, 03 Novemberv 2017, preprint: not peer reviewed.
- Nekrutenko,A. and Schatz,M.C. (2020) In memory of James Taylor: the birth of Galaxy. Genome Biol., 21, 105.
Appendix
ern.gruening@gmail.com), Michael C. Schatz (mschatz@cs.jhu.edu)
Linelle Ann L Abueg
-
North Spatial Information Research, North RhineWestphalia 48147, Germany - AARNet, Queensland 4104, Australia
- Albert-Ludwigs-Universität Freiburg, Baden Württemberg 79110, Germany
- AstraZeneca, Cambridgeshire CB2 0AA, UK
- Australian Biocommons, Victoria 3052, Australia
- Barcelona Supercomputing Center, Catalonia 08902, Spain
- Clermont Auvergne University, Auvergne-Rhône-Alpes 63000, France
- Cleveland Clinic, Ohio 44106, USA
- CNRS – Data Terra, Brittany 29200, France
- CRS4, Cagliari 09050, Italy
- Earlham Institute, East of England and East Anglia NR4 7UZ, UK
- Ecole Polytechnique Fédérale de Lausanne (EPFL), Vaud 1015, Switzerland
- ELIXIR, Cambridgeshire CB10 1SD, UK
- EMBL, Baden-Württemberg 69117, Germany
- EMBL’s European Bioinformatics Institute (EMBLEBI), Cambridgeshire CB10 1SD, UK
- EPFL, Vaud 1004, Switzerland
- Erasmus Medical Center, South Holland 3015 GD, The Netherlands
- French Institute of Bioinformatics, Auvergne-RhôneAlpes 63170, France
- Friedrich Miescher Institute for Biomedical Research, Basel-Stadt 4058, Switzerland
- Galaxy Project, New South Wales 2026, Australia
- German Cancer Research Center, Baden-Württemberg 69120, Germany
- Griffith University, New South Wales 2299, Australia
- Harvard Medical School, Massachusetts 01082, USA
- Heidelberg University, Baden-Württemberg 69120, Germany
- HumanTechnopole, Lombardy 20157, Italy
- IGEPP, INRAE, Institut Agro, Univ Rennes, Brittany 35042, France
- Institute for Plant Cellular and Molecular Biology (IBMCP), Valencia 46001, Spain
- Institute of Biomembranes, Bioenergetics and Molecular Biotechnologies, National Research Council (CNR), Apulia 70126, Italy
- IRISA, Brittany 35042, France
- James Cook University, Queensland 4814, Australia
- Johns Hopkins University, Maryland 21218, USA
- Lerner Research Institute, Cleveland Clinic, Ohio 44106, USA
- Masaryk University, South Moravian 60200, Czech Republic
- Moffitt Cancer Center, Florida 33612, USA
- Museum national d’Histoire naturelle, Brittany 29900, France
- Oak Ridge National Laboratory, Tennessee 37380, USA
- Oregon Health & Science University, Oregon 97239, USA
- Pennsylvania State University, Pennsylvania 16802, USA
- Queensland Cyber Infrastructure Foundation, Queensland 4072, Australia
- Rutherford Appleton Laboratory, UKRI, Oxfordshire OX11 0QX, UK
- Science and Technology Facilities Council, Oxfordshire OX11 0QX, UK
- Simula Research Laboratory, Oslo 0164, Norway
- Sorbonne Université, Brittany 29900, France
- Station Biologique de Roscoff – Sorbonne Université/CNRS, Brittany 29680, France
- The Open University, Buckinghamshire MK7 6AA, UK
- The Rockefeller University, New York 10021, USA
- The University of Bradford, West Yorkshire BD7 1DP, UK
- The University of Edinburgh, Edinburgh EH9 3FJ, UK
- The University of Melbourne, Victoria 3052, Australia
- The University of Queensland, Queensland 4072, Australia
- UFZ Leipzig, Saxony 04318, Germany
- UGent, East Flanders 9000, Belgium
- Université Paris Cité, Île-de-France 75013, France
- University of Bergen, Vestland 5008, Norway
- University of Limerick, Munster V94 T9PX, Ireland
- University of Maiduguri, Borno State 600004, Nigeria
- University of Milan, Lombardy 20133, Italy
- University of Minnesota, MN 55455, USA
- University of Oslo, Oslo 0316, Norway
- Vlaams Instituut voor Biotechnologie, East Flanders 9000, Belgium
- Received: March 11, 2024. Revised: April 18, 2024. Editorial Decision: May 1, 2024. Accepted: May 2, 2024
© The Author(s) 2024. Published by Oxford University Press on behalf of Nucleic Acids Research.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0/), which permits unrestricted reuse, distribution, and reproduction in any medium, provided the original work is properly cited.
