مجموعة بيانات لخطوات نقل البروتون المحتملة لآليات الدفع السهمي
A Dataset of Plausible Proton Transfer Steps for Arrow-Pushing Mechanisms

المجلة: Scientific Data، المجلد: 13، العدد: 1
DOI: https://doi.org/10.1038/s41597-025-06490-8
PMID: https://pubmed.ncbi.nlm.nih.gov/41519828
تاريخ النشر: 2026-01-10
المؤلف: Alexander E. Dashuta وآخرون
الموضوع الرئيسي: آليات الأكسدة المحفزة بالمعادن

نظرة عامة

تقدم الدراسة مجموعة بيانات شاملة تركز على خطوات نقل البروتون، والتي تعتبر حاسمة في آليات التفاعل القطبي. تم توليد أكثر من 51 مليون خطوة نقل بروتون قابلة للحركة من حوالي 8,000 حمض وقواعد مترافقة، تغطي مجموعة واسعة من قيم pK_a المائية التجريبية من -15 إلى +37. استخدمت الدراسة معادلة إيغن المبسطة لتقدير عوامل المعدل عند 25 درجة مئوية، مستبعدة العوامل الإحصائية، وشملت فقط تلك الخطوات التي كانت لديها ثوابت معدل مقدرة لا تقل عن $10^3 \, \text{M}^{-1} \, \text{s}^{-1}$. بالإضافة إلى ذلك، تم تقدير 5,043 خطوة نقل بروتون تتضمن أحماض كربونية باستخدام معادلة إيغن-بيرناسكوني، مع تضمين ثوابت المعدل الجوهرية وقيم برونستيد β.

تُشدد مجموعة البيانات النهائية، التي تبرز التنوع الهيكلي عبر ظروف مختلفة، على ترميز كل إدخال في تنسيق SMIRKS لتسهيل تطبيقات التعلم الآلي. من المتوقع أن تكون ثوابت المعدل المحسوبة موثوقة في البيئات المائية، مما يجعل هذه المجموعة من البيانات موردًا قيمًا لتطوير نماذج تنبؤية لمسارات آلية خطوة بخطوة في التفاعلات الكيميائية.

مقدمة

تسلط المقدمة الضوء على أهمية خطوات نقل البروتون في مسارات آلية مختلفة ذات صلة بالتركيب العضوي، والعمليات البيوكيميائية، وكيمياء البيئة. تشير إلى أن جزءًا كبيرًا من التحولات القطبية – أكثر من 70% في نص كيمياء عضوية مرجعي – يتضمن آليات خطوة بخطوة تشمل على الأقل نقل بروتون واحد. على الرغم من وجود العديد من مجموعات البيانات التي تفصل الأنواع الحمضية وقيم pK_a التوازنية الخاصة بها، إلا أن هناك نقصًا ملحوظًا في مجموعات البيانات الشاملة التي تركز على نقل البروتونات في طور المحلول، والتي تعتبر ضرورية للتدريب والتعلم في هذا المجال.

تناقش النصوص أيضًا قواعد البيانات الموجودة، مثل قاعدة بيانات كينتيك الحلول لمختبر إشعاع نوتردام (NDRL) / NIST، التي، على الرغم من غناها ببيانات المعدل، تحتوي على سجلات محدودة تتعلق بنقل البروتونات. على وجه التحديد، تذكر أنه من بين 23,675 سجلًا، فإن القليل جدًا يتعلق بنقل البروتونات، مع عدم وجود أي سجلات للبيريدين وسجل واحد فقط لحمض الأسيتيك. بالإضافة إلى ذلك، فإن مجموعة بيانات Reaxys الخاصة، على الرغم من مجموعتها الواسعة من ثوابت المعدل، تفتقر أيضًا إلى بيانات كافية حول تفاعلات نقل البروتون. يبرز هذا الفجوة الحاجة إلى مزيد من مجموعات البيانات القوية لتسهيل البحث وفهم آليات نقل البروتون.

طرق

في هذا القسم، يصف المؤلفون التحقق من ثوابت المعدل المحسوبة ($\log k_1$) لتفاعلات نقل البروتون من خلال مقارنتها بالقيم المقاسة تجريبيًا. تُظهر مجموعة البيانات التي تم توليدها باستخدام المعادلة (1) أن قيم $\log k_1$ المحسوبة لنقل البروتونات في المذيبات البروتونية تتماشى عمومًا مع البيانات التجريبية، حيث تقع ضمن عامل 10 M$^{-1}$ s$^{-1}$ (وحدة لوغاريتمية واحدة) لمعدلات حول $k_1 = 10^6$ M$^{-1}$ s$^{-1}$. بالإضافة إلى ذلك، تكشف المقارنات بين قيم $\log k_1$ المحسوبة لنقل البروتونات من الأحماض الكربونية إلى القيم التجريبية المنشورة في المذيبات المائية عند 20-25 درجة مئوية عن توافق مشابه، حيث تقع معظم القيم ضمن ترتيب من حيث الحجم من النتائج التجريبية.

يقدم المؤلفون مقارنات مفصلة في الجدول 3، مع تسليط الضوء على حالات محددة من قيم $\log k_1$ المحسوبة مقابل التجريبية لخطوات نقل البروتون المختلفة. على الرغم من أن القيم المحسوبة لا تحقق الدقة العالية لقيم pK$_a$ في الأدبيات، إلا أنها تعتبر كافية لتدريب الأنظمة على التمييز بين نقل البروتونات القابلة للتصديق وغير القابلة للتصديق. بشكل عام، تشير النتائج إلى أن علاقة إيغن توفر إطارًا موثوقًا لتقدير معدلات نقل البروتون في السياقات المدروسة.

مناقشة

تسلط قسم المناقشة في ورقة البحث الضوء على مزايا استخدام مجموعات البيانات العامة على المعادلات العامة في دراسة الحركيات الكيميائية، خاصة في سياق تفاعلات نقل البروتون. تؤكد على الاتجاه الأخير نحو إنشاء مجموعات بيانات تركز على خطوات آلية فردية بدلاً من مجرد التحولات. تشمل المساهمات الملحوظة قاعدة بيانات الحركيات الكيميائية NIST ومجموعات بيانات مختلفة تم تطويرها بواسطة باحثين مثل فرانكلش وكولي، والتي توفر معلومات مفصلة حول خطوات التفاعل الأساسية وثوابت المعدل، خاصة لعمليات الاحتراق. يهدف المؤلفون إلى تجميع مجموعة بيانات شاملة من خطوات نقل البروتون القابلة للتصديق، المحددة بقيم pK_a التوازنية المائية، لتقدير ثوابت المعدل لهذه التفاعلات.

تتضمن مجموعة البيانات نقل البروتونات بين الذرات غير الكربونية والكربون، مع التركيز على ضمان الاحتفاظ فقط بالتفاعلات القابلة للتصديق. يطبق المؤلفون حدًا محافظًا لثوابت المعدل، تحديدًا log k₁ ≥ 3، لتعزيز موثوقية مجموعة البيانات. يوضحون تجميع هذه المجموعة، التي تتكون من أكثر من 51 مليون خطوة نقل بروتون، حيث تتضمن الغالبية الذرات غير الكربونية. تم ترميز مجموعة البيانات في تنسيق SMIRKS، مما يجعلها مناسبة لتطبيقات التعلم الآلي. بالإضافة إلى ذلك، يعترف المؤلفون بالقيود في البيانات المتاحة للأحماض الكربونية والعوامل الإحصائية التي تؤثر على ثوابت المعدل، والتي تم أخذها في الاعتبار في بناء مجموعة البيانات. بشكل عام، يقدم العمل موردًا كبيرًا لتوقع وفهم آليات نقل البروتون في سياقات كيميائية متنوعة.

Journal: Scientific Data, Volume: 13, Issue: 1
DOI: https://doi.org/10.1038/s41597-025-06490-8
PMID: https://pubmed.ncbi.nlm.nih.gov/41519828
Publication Date: 2026-01-10
Author(s): Alexander E. Dashuta et al.
Primary Topic: Metal-Catalyzed Oxygenation Mechanisms

Overview

The research presents a comprehensive dataset focused on proton transfer steps, which are critical in polar reaction mechanisms. A total of over 51 million kinetically plausible proton transfer steps were generated from approximately 8,000 acids and conjugate bases, covering a wide range of experimental aqueous pK_a values from -15 to +37. The study employed a simplified Eigen equation to estimate rate factors at 25 °C, excluding statistical factors, and included only those steps with estimated rate constants of at least $10^3 \, \text{M}^{-1} \, \text{s}^{-1}$. Additionally, 5,043 proton transfer steps involving carbon acids were estimated using the Eigen-Bernasconi equation, incorporating intrinsic rate constants and Brønsted β values.

The final dataset, which emphasizes structural diversity over varying conditions, encodes each entry in SMIRKS format to facilitate machine learning applications. The calculated rate constants are anticipated to be reliable in aqueous environments, making this dataset a valuable resource for developing predictive models of stepwise mechanistic pathways in chemical reactions.

Introduction

The introduction highlights the significance of proton transfer steps in various mechanistic pathways relevant to organic synthesis, biochemical processes, and environmental chemistry. It notes that a substantial portion of polar transformations—over 70% in a referenced organic chemistry text—entails stepwise mechanisms that include at least one proton transfer. Despite the existence of numerous datasets detailing acidic species and their equilibrium pK_a values, there is a notable lack of comprehensive datasets focused on solution phase acid-base proton transfers, which are essential for training and learning in this field.

The text further discusses existing databases, such as the Notre Dame Radiation Laboratory (NDRL) / NIST Solution Kinetics Database, which, while rich in rate data, contains limited records related to proton transfers. Specifically, it mentions that among 23,675 records, very few pertain to proton transfers, with none for pyridine and only one for acetic acid. Additionally, the proprietary Reaxys dataset, despite its extensive collection of rate constants, similarly lacks sufficient data on proton transfer reactions. This gap underscores the need for more robust datasets to facilitate research and understanding of proton transfer mechanisms.

Methods

In this section, the authors describe the validation of calculated rate constants ($\log k_1$) for proton transfer reactions by comparing them to experimentally measured values. The dataset generated using equation (1) shows that the calculated $\log k_1$ values for proton transfers in protic solvents are generally consistent with experimental data, falling within a factor of 10 M$^{-1}$ s$^{-1}$ (one log unit) for rates around $k_1 = 10^6$ M$^{-1}$ s$^{-1}$. Additionally, comparisons of calculated $\log k_1$ values for proton transfers from carbon acids to published experimental values in aqueous solvents at 20-25 °C reveal similar agreement, with most values within an order of magnitude of the experimental results.

The authors present detailed comparisons in Table 3, highlighting specific instances of calculated versus experimental $\log k_1$ values for various proton transfer steps. While the calculated values do not achieve the high precision of literature pK$_a$ values, they are deemed sufficient for training systems to differentiate plausible from implausible proton transfers. Overall, the findings indicate that the Eigen relationship provides a reliable framework for estimating proton transfer rates in the studied contexts.

Discussion

The discussion section of the research paper highlights the advantages of using public datasets over general equations in the study of chemical kinetics, particularly in the context of proton transfer reactions. It emphasizes the recent trend towards creating datasets that focus on individual mechanistic steps rather than just transformations. Notable contributions include the NIST Chemical Kinetics database and various datasets developed by researchers like Frenklach and Coley, which provide detailed information on elementary reaction steps and rate constants, particularly for combustion processes. The authors aim to compile a comprehensive dataset of plausible proton transfer steps, defined by equilibrium aqueous pK_a values, to estimate rate constants for these reactions.

The dataset includes proton transfers between heteroatoms and carbon, with a focus on ensuring that only plausible reactions are retained. The authors apply a conservative cutoff for rate constants, specifically log k₁ ≥ 3, to enhance the reliability of the dataset. They detail the assembly of this dataset, which comprises over 51 million proton transfer steps, with the majority involving heteroatoms. The dataset is encoded in SMIRKS format, making it suitable for machine learning applications. Additionally, the authors acknowledge the limitations in available data for carbon acids and the statistical factors influencing rate constants, which were considered in the dataset’s construction. Overall, the work presents a significant resource for predicting and understanding proton transfer mechanisms in various chemical contexts.