تصميم الذكاء الاصطناعي التوليدي القائم على التسلسل لإنزيمات التريبتوفان المتنوعة
Sequence-based generative AI design of versatile tryptophan synthases

المجلة: Nature Communications، المجلد: 17، العدد: 1
DOI: https://doi.org/10.1038/s41467-026-68384-6
PMID: https://pubmed.ncbi.nlm.nih.gov/41535686
تاريخ النشر: 2026-01-14
المؤلف: T Lambert وآخرون
الموضوع الرئيسي: المنتجات الطبيعية الميكروبية والتخليق الحيوي

نظرة عامة

تناقش هذه section القيود في تطبيق الإنزيمات كعوامل حفازة، لا سيما في سياق تحسين نقاط البداية لاكتشاف العوامل البيوكيميائية. يتناول المؤلفون هذا التحدي من خلال استخدام نموذج لغة البروتين GenSLM لتوليد وحدات β فرعية جديدة من إنزيمات تريبتوفان سينثاز (TrpB). هذه الإنزيمات المهندسة، المعبر عنها في *Escherichia coli*، تظهر استقرارًا ونشاطًا حفازًا، حيث يظهر العديد منها تعددية ركائز كبيرة تسمح لها بتجاوز نظرائها الطبيعيين وحتى المتغيرات التي تم تطويرها في المختبر.

تكشف النتائج أن أكثر إنزيمات TrPbs نشاطًا وتعددية تم توليدها من خلال هذا النهج تمتلك تنوعًا معززًا غير موجود في أقرب نظائرها الطبيعية. وهذا يبرز إمكانيات النماذج التوليدية في الحفاظ على الهيكل والوظيفة الطبيعية للإنزيمات وأيضًا في منح خصائص غير طبيعية. تضع النتائج النماذج التوليدية كأدوات قيمة لتقدم اكتشاف وهندسة العوامل البيوكيميائية، مما يبرز دورها في التغلب على الاختناقات الحالية في تحسين الإنزيمات.

مقدمة

تسلط المقدمة الضوء على أهمية الإنزيمات كعوامل حفازة فعالة وانتقائية للإنتاج المستدام لمجموعة متنوعة من المواد الكيميائية والوقود والأدوية. على الرغم من إمكانياتها، فإن تحسين الإنزيمات للتطبيقات الصناعية غالبًا ما يتطلب نهجًا مخصصًا، حيث تعتبر التطور الموجه (DE) استراتيجية بارزة. يتضمن DE الطفرات المتكررة والفحص لتعزيز وظائف الإنزيمات ولكنه مقيد بضرورة البدء بإنزيم يظهر نشاطًا قابلًا للقياس. تعتمد الطرق الحالية لتحديد مثل هذه الإنزيمات إلى حد كبير على التجريب، مستندة إلى النشاط الحفاز أو تعددية الركائز، مما يقدم تحديات من حيث الكفاءة ومعدلات النجاح.

للتغلب على هذه القيود، يقترح المؤلفون استخدام نماذج لغة البروتين (PLMs) لتوليد مكتبات إنزيمات متنوعة لفحص الأنشطة المستهدفة. يمكن لنماذج PLMs استكشاف مساحات التسلسل التي تتجاوز البروتينات المعروفة ودمج الميزات المرغوبة، مما يوفر مزايا على الطرق التقليدية. تركز الدراسة على الوحدة الفرعية β من إنزيم تريبتوفان سينثاز (TrpB)، وهو إنزيم نموذجي للدراسات الميكانيكية، وتظهر أن نموذج GenSLM يمكن أن ينتج نظائر TrpB مستقرة، قابلة للتعبير، وتظهر نشاطًا حفازًا عاليًا وتعددية ركائز. تشير هذه النتائج إلى أن الإنزيمات التي تم توليدها بواسطة PLM يمكن أن تتجاوز المتغيرات الطبيعية، مما يقدم طريقًا واعدًا لتسريع اكتشاف وتطوير العوامل البيوكيميائية في التطبيقات الصناعية.

طرق

في هذه الدراسة، تضمنت الطرق التجريبية العامة استخدام لوحات عميقة مهتزة بسرعة 220 دورة في الدقيقة ورطوبة 80% باستخدام جهاز INFORS HT Multitron Shaker، مع الحفاظ على درجة حرارة محددة. تم إجراء عزل البلازميد باستخدام مجموعة Monarch Miniprep Kit (NEB، Ipswich، MA)، وفقًا لتعليمات الشركة المصنعة. لتسهيل التنقية بالاستقطاب، تم هندسة جميع الإنزيمات المستخدمة في التجارب لتشمل علامة 6×His في الطرف C. يضمن هذا الإطار المنهجي العزل الفعال والتنقية للإنزيمات المستهدفة للتحليلات اللاحقة.

نتائج

يقدم قسم “النتائج” من ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات التي تم إجراؤها. يبرز الاتجاهات البيانية المهمة، والنتائج الإحصائية، وأي علاقات ملحوظة بين المتغيرات. غالبًا ما يتم توضيح النتائج من خلال الجداول أو الرسوم البيانية أو الأشكال، التي توفر تمثيلًا بصريًا للبيانات وتسهيل التفسير.

قد يتضمن القسم أيضًا نتائج عددية محددة، مثل المتوسطات والانحرافات المعيارية أو قيم p، مما يشير إلى الأهمية الإحصائية للنتائج. بشكل عام، يخدم هذا القسم لتلخيص الأدلة التجريبية التي تم جمعها خلال الدراسة، مما يمهد الطريق للنقاش والتفسير اللاحقين في الأقسام اللاحقة من الورقة.

نقاش

تناقش البحث تطوير إنزيمات TrpB باستخدام نموذج اللغة على نطاق الجينوم (GenSLM)، وهو إطار ذكاء اصطناعي توليدي يعمل على مستوى الكودون، مما يسمح بإدخال الاستبدالات المتجانسة وتوقع التأثيرات على مستوى البروتين. تم تدريب GenSLM على مجموعة بيانات تتكون من حوالي 110 مليون تسلسل جيني بدائي، وتم ضبطه بدقة باستخدام مجموعة بيانات من 30,000 تسلسل trpB فريد. تم إخضاع إنزيمات TrpBs الناتجة لعملية تصفية تركزت على السلامة الهيكلية والتنوع، مما أسفر عن 105 تسلسل مرشح تم تصنيعه وتقييمه لنشاطه الحفاز في تخليق التريبتوفان. من الجدير بالذكر أن العديد من إنزيمات GenSLM-TrpBs أظهرت أداءً مشابهًا أو متفوقًا على إنزيمات TrpB الطبيعية والمطورة في المختبر، لا سيما في درجات الحرارة المرتفعة.

تشير النتائج إلى أن GenSLM-TrpBs لم تحتفظ فقط بالميزات الهيكلية الرئيسية ولكن أيضًا أظهرت تعددية ركائز معززة مقارنة بالنظائر الطبيعية. على سبيل المثال، أظهر الإنزيم المسمى 230 نشاطًا ملحوظًا عبر مجموعة من الركائز غير القياسية، متفوقًا على نظيره الطبيعي الأقرب، Nd TrpB، لا سيما في ظروف درجات الحرارة العالية. وهذا يشير إلى أن خصائص GenSLM-TrpBs تمتد إلى ما هو أبعد من مجرد تكرار التنوع الطبيعي، ربما بسبب الخصائص الفريدة للنموذج التوليدي وبيانات تدريبه. تبرز الدراسة الإمكانيات التحويلية للذكاء الاصطناعي في هندسة البروتين، مقدمة طريقًا سريعًا وفعالًا لتصميم إنزيمات ذات خصائص وظيفية مرغوبة، وبالتالي معالجة التحديات في تطوير العوامل البيوكيميائية للتطبيقات الصناعية.

Journal: Nature Communications, Volume: 17, Issue: 1
DOI: https://doi.org/10.1038/s41467-026-68384-6
PMID: https://pubmed.ncbi.nlm.nih.gov/41535686
Publication Date: 2026-01-14
Author(s): T Lambert et al.
Primary Topic: Microbial Natural Products and Biosynthesis

Overview

This section discusses the limitations in the application of enzymes as catalysts, particularly in the context of optimizing starting points for biocatalyst discovery. The authors address this challenge by employing the GenSLM protein language model to generate novel β-subunits of tryptophan synthase (TrpB) enzymes. These engineered enzymes, expressed in *Escherichia coli*, exhibit stability and catalytic activity, with many demonstrating significant substrate promiscuity that allows them to outperform both their natural counterparts and even laboratory-evolved variants.

The findings reveal that the most active and promiscuous TrPbs generated through this approach possess enhanced versatility not found in their closest natural homologs. This underscores the potential of generative models in not only preserving the natural structure and function of enzymes but also in imparting non-natural properties. The results position generative models as valuable tools for advancing biocatalyst discovery and engineering, highlighting their role in overcoming existing bottlenecks in enzyme optimization.

Introduction

The introduction highlights the significance of enzymes as efficient and selective catalysts for the sustainable production of various chemicals, fuels, and pharmaceuticals. Despite their potential, the optimization of enzymes for industrial applications often requires tailored approaches, with directed evolution (DE) being a prominent strategy. DE involves iterative mutagenesis and screening to enhance enzyme functions but is constrained by the necessity of starting with an enzyme that exhibits measurable activity. Current methods for identifying such enzymes are largely empirical, relying on catalytic or substrate promiscuity, which presents challenges in terms of efficiency and success rates.

To overcome these limitations, the authors propose utilizing protein language models (PLMs) to generate diverse enzyme libraries for screening target activities. PLMs can explore sequence spaces beyond known proteins and incorporate desirable features, thus offering advantages over traditional methods. The study focuses on the β-subunit of tryptophan synthase (TrpB), a model enzyme for mechanistic studies, and demonstrates that the GenSLM model can produce TrpB homologs that are stable, expressible, and exhibit high catalytic activity and substrate promiscuity. These findings suggest that PLM-generated enzymes can surpass natural variants, presenting a promising avenue for accelerating biocatalyst discovery and development in industrial applications.

Methods

In this study, general experimental methods involved the use of deep-well plates shaken at 220 rpm and 80% humidity using an INFORS HT Multitron Shaker, maintained at a specified temperature. Plasmid isolation was performed utilizing the Monarch Miniprep Kit (NEB, Ipswich, MA), following the manufacturer’s instructions. To facilitate affinity purification, all enzymes employed in the experiments were engineered to include a C-terminal 6×His tag. This methodological framework ensures the effective isolation and purification of the target enzymes for subsequent analyses.

Results

The “Results” section of the research paper presents key findings derived from the conducted experiments or analyses. It highlights significant data trends, statistical outcomes, and any observed relationships between variables. The results are often illustrated through tables, graphs, or figures, which provide a visual representation of the data and facilitate interpretation.

The section may also include specific numerical results, such as means, standard deviations, or p-values, indicating the statistical significance of the findings. Overall, this section serves to summarize the empirical evidence gathered during the study, laying the groundwork for subsequent discussion and interpretation in later sections of the paper.

Discussion

The research discusses the development of TrpB enzymes using the Genome-Scale Language Model (GenSLM), a generative AI framework that operates at the codon level, allowing for the incorporation of synonymous substitutions and the prediction of protein-level effects. Trained on a dataset of approximately 110 million prokaryotic gene sequences, GenSLM was fine-tuned with a curated dataset of 30,000 unique trpB sequences. The generated TrpBs were subjected to a filtering process focused on structural integrity and diversity, resulting in 105 candidate sequences that were synthesized and evaluated for their catalytic activity in tryptophan synthesis. Notably, several GenSLM-TrpBs exhibited performance comparable to or exceeding that of well-characterized natural and laboratory-evolved TrpB enzymes, particularly at elevated temperatures.

The findings indicate that GenSLM-TrpBs not only retained key structural features but also displayed enhanced substrate promiscuity compared to natural homologs. For instance, the enzyme designated as 230 demonstrated remarkable activity across a range of non-canonical substrates, outperforming its closest natural counterpart, Nd TrpB, particularly in high-temperature conditions. This suggests that the properties of GenSLM-TrpBs extend beyond mere replication of natural diversity, potentially due to the unique characteristics of the generative model and its training data. The study highlights the transformative potential of AI in protein engineering, offering a rapid and efficient pathway for designing enzymes with desirable functional traits, thereby addressing challenges in biocatalyst development for industrial applications.