الاختبار الأعمى السابع لتوقع بنية البلورات: طرق توليد البنية
The seventh blind test of crystal structure prediction: structure generation methods

المجلة: Acta Crystallographica Section B Structural Science Crystal Engineering and Materials، المجلد: 80، العدد: 6
DOI: https://doi.org/10.1107/s2052520624007492
PMID: https://pubmed.ncbi.nlm.nih.gov/39405196
تاريخ النشر: 2024-10-15
المؤلف: Lily M. Hunnisett وآخرون
الموضوع الرئيسي: علم البلورات والتفاعلات الجزيئية

نظرة عامة

اختبار العمى السابع في توقع بنية البلورات (CSP) شمل 150 باحثًا من 28 مجموعة عبر 14 دولة، مما يمثل أكبر مشاركة حتى الآن. سلطت هذه المبادرة الضوء على الاهتمام المتزايد في CSP، خاصة مع دمج التعلم الآلي والحسابات الكيميائية الكمية في سير العمل. ومن الجدير بالذكر أن المجموعة 20 حققت توقعات صحيحة لجميع المركبات المستهدفة، بينما نجحت المجموعة 10 في جميعها باستثناء واحدة، مما يبرز فعالية التقنيات الحاسوبية المتقدمة مثل مجالات القوة المصممة وعينات التوافق الفعالة. ومع ذلك، فإن التداخل المحدود بشكل عام في مجموعات الهياكل المولدة يشير إلى التحديات المستمرة داخل CSP، خاصة في التنبؤ بدقة بالهياكل من بيانات منخفضة الجودة ومعالجة الاضطراب البلوري.

كما كشف الاختبار عن التعقيدات المرتبطة بالهياكل البلورية غير المرتبة، مما يعقد كل من التنبؤ والتحليل. حققت المجموعتان 20 و24 تقدمًا كبيرًا من خلال التنبؤ بنجاح بالهياكل غير المرتبة باستخدام طرق مبتكرة. تؤكد النتائج على ضرورة وجود ممارسات موحدة في تصنيف الهياكل البلورية وأهمية الاعتبارات الأخلاقية في استخدام الموارد الحاسوبية. لا تُظهر نتائج هذا الاختبار الأعمى فقط إمكانيات طرق CSP الحالية، بل تبرز أيضًا الحاجة إلى الابتكار المستمر والتعاون، مما يشير إلى أن البيانات المفتوحة والبرمجيات ستكون حيوية للتقدمات المستقبلية في هذا المجال.

مقدمة

تناقش مقدمة ورقة البحث أهمية توقع بنية البلورات (CSP) في تحديد الهياكل البلورية المحتملة للمركبات بناءً فقط على تركيبها الكيميائي. تعتبر هذه القدرة حاسمة لتصميم مواد جزيئية جديدة ولفهم خصائص المركبات الموجودة. منذ التسعينيات، تم تطوير طرق حسابية متنوعة لمعالجة تعقيدات CSP، والتي تتضمن عادة بحثًا حسابيًا عن تعبئات بلورية محتملة وتقدير استقرارها الديناميكي الحراري، وغالبًا ما يتم تمثيله بالطاقة التماسك. بينما يُتوقع أن تكون الهيكل ذو الطاقة الأقل هو الشكل المستقر ديناميكيًا حراريًا، قد توجد هياكل أخرى كأشكال بوليمورفية مستقرة. ومن الجدير بالذكر أن حركيات النواة والنمو لا تُدرج عادة في حسابات CSP القياسية.

تقدم الورقة نتائج الاختبار الأعمى السابع لـ CSP الذي نظمته مركز بيانات البلورات كامبريدج (CCDC)، والذي قدم مستوى أعلى من التعقيد مع سبعة مركبات مستهدفة متنوعة. تم إجراء هذا الاختبار على مرحلتين: توليد الهيكل وترتيب الطاقة، على مدى 18 شهرًا. يبرز المؤلفون النجاحات والتحديات التي واجهت في توليد هياكل بلورية محتملة وتوافقها مع الأشكال البوليمورفية التي لوحظت تجريبيًا. تقيّم الدراسة الحالة الحالية لتوليد الهياكل البلورية وطرق المطابقة، وتناقش الآثار المترتبة على تطويرات CSP المستقبلية. يتم توفير معلومات إضافية، بما في ذلك تحليلات مفصلة، ومنهجيات من المجموعات المشاركة، وتحديدات الهياكل التجريبية، وقاموس للاختصارات للطرق الحاسوبية المستخدمة في الدراسة.

طرق

ت outlines القسم طرق حسابية متنوعة لتوليد الهياكل البلورية، والتي تعتبر أساسية لتوقع بنية البلورات (CSP). تشمل الطرق الرئيسية التي تم مناقشتها الطرق المعتمدة على الشبكة، والطرق المعتمدة على السينثون، والعشوائية، وشبه العشوائية، والتبريد المحاكى، والتسخين المتوازي، والخوارزميات الجينية. تتضمن الطرق المعتمدة على الشبكة أخذ عينات من معلمات الشبكة والاتجاهات على شبكة منتظمة، مما يجعلها بسيطة للمركبات الصلبة الصغيرة ولكن أقل فعالية للمركبات المرنة. تبني الطرق المعتمدة على السينثون الهياكل الجزيئية بشكل منهجي من السينثونات المحددة، مع إمكانية دمج التأثيرات الحركية لتفضيل النواة. تولد الطرق العشوائية التوافقات الجزيئية باستخدام تسلسلات شبه عشوائية أو عشوائية، حيث توفر الأخيرة توزيعًا أفضل في فضاء البحث.

يستكشف التبريد المحاكى، المستوحى من علم المعادن، فضاء البحث من خلال الاضطرابات العشوائية لهياكل أولية، وقبول التكوينات الجديدة بناءً على معيار ميتروبوليس، بينما يعزز التسخين المتوازي ذلك من خلال السماح بتبادلات درجة الحرارة بين المحاكاة. تحاكي الخوارزميات الجينية الانتقاء الطبيعي لتطوير الهياكل البلورية من خلال عمليات التقاطع، والطفرات، والاختيار. بغض النظر عن الطريقة المستخدمة، فإن نظام تسجيل فعال أمر حاسم، حيث تعتبر طاقة الشبكة هي المقياس الأساسي. بينما تُفضل نظرية الكثافة الوظيفية المصححة بالتشتت (DFT-D) لتقييم طاقة الشبكة، فإن كثافتها الحاسوبية تتطلب طرق ترتيب بديلة، مثل مجالات القوة المصممة، والاحتمالات المستفادة من التعلم الآلي، والاحتمالات الإحصائية المستندة إلى قاعدة بيانات كامبريدج الهيكلية (CSD).

نتائج

في الاختبار الأعمى السابع، شاركت 28 مجموعة، حيث قدمت 22 مجموعة نتائج خلال مرحلة توليد الهيكل. ومن الجدير بالذكر أن الجزيء XXIX جذب أكبر قدر من الاهتمام، حيث حاولت 19 مجموعة تقديم توقعات، بينما كان للجزيء XXVIII أقل عدد من التقديمات بثمانية، على الأرجح بسبب نشر هيكله البلوري بشكل مستقل خلال الاختبار. على الرغم من ذلك، سمح المنظمون بتقديمات للجزيء XXVIII، وتُبلغ النتائج مع التحذير بأن الهيكل التجريبي كان متاحًا للجمهور قبل الموعد النهائي.

يتضمن قسم النتائج ملخصًا مفصلًا للمجموعات المشاركة ومعدلات نجاحها لكل مركب مستهدف، كما هو موضح في الجدول 3. بالإضافة إلى ذلك، قدم المنظمون تحليلات للهياكل البلورية التجريبية لكل جزيء مستهدف، جنبًا إلى جنب مع مقارنات للنتائج من تقييمات COMPACK عبر تطوير الطرق وفئات الأدوية/الكيماويات الزراعية، الملخصة في الجداول 4 و5 و6. يمكن العثور على مزيد من التفاصيل في القسم 1 من المعلومات التكميلية (SI-A).

مناقشة

ت outlines قسم المناقشة في ورقة البحث تطور الاختبارات العمياء في توقع بنية البلورات (CSP) منذ بدايتها في 1998-1999 وحتى الآن. سلطت الاختبارات الأولية الضوء على قيود المنهجيات المبكرة، خاصة في التنبؤ بهياكل الجزيئات المرنة وتلك التي تحتوي على مكونات متعددة في الوحدة غير المتماثلة. أظهرت الاختبارات اللاحقة تحسينات في القدرات التنبؤية، والتي تُعزى إلى التقدم في نماذج الطاقة والموارد الحاسوبية. ومن الجدير بالذكر أن الاختبار الأعمى الخامس كان نقطة تحول، حيث أظهر أن CSP يمكن تطبيقه بشكل موثوق على الجزيئات المعقدة المماثلة لتلك المستخدمة في تطوير الأدوية، مما أدى إلى زيادة الاهتمام التجاري في منهجيات CSP.

تؤكد الورقة أيضًا على التحديات المستمرة في CSP، مثل مشكلة الإفراط في التنبؤ والحاجة إلى نمذجة أفضل للاضطراب في الهياكل البلورية. تشمل التطورات الأخيرة استخدام تقنيات حسابية متقدمة، مثل الديناميات الجزيئية على نطاق واسع ومحاكاة مونت كارلو الحدية، لتحسين التنبؤات وتقليل عدد الأشكال البوليمورفية المولدة. قدم الاختبار الأعمى السابع تحديات جديدة تعكس التطبيقات الواقعية، بما في ذلك التنبؤ بالهياكل من بيانات حيود الأشعة السينية البودرة، مما تطلب طرقًا قوية لمقارنة التنبؤات الحاسوبية مع النتائج التجريبية. بشكل عام، تستمر مجتمع CSP في التطور، مع تركيز متزايد على التطبيقات العملية في الأدوية والمواد الوظيفية، بينما تعالج أيضًا تعقيدات الاضطراب الجزيئي والبوليمورفية.

Journal: Acta Crystallographica Section B Structural Science Crystal Engineering and Materials, Volume: 80, Issue: 6
DOI: https://doi.org/10.1107/s2052520624007492
PMID: https://pubmed.ncbi.nlm.nih.gov/39405196
Publication Date: 2024-10-15
Author(s): Lily M. Hunnisett et al.
Primary Topic: Crystallography and molecular interactions

Overview

The seventh blind test in crystal structure prediction (CSP) involved 150 researchers from 28 groups across 14 countries, marking the largest participation to date. This initiative highlighted the growing interest in CSP, particularly with the integration of machine learning and quantum chemical calculations into the workflow. Notably, Group 20 achieved correct predictions for all target compounds, while Group 10 succeeded with all but one, underscoring the effectiveness of advanced computational techniques such as tailored force fields and efficient conformational sampling. However, the overall limited overlap in generated structure sets indicates the ongoing challenges within CSP, particularly in accurately predicting structures from low-quality data and addressing crystallographic disorder.

The test also revealed the complexities associated with disordered crystal structures, which complicate both prediction and analysis. Groups 20 and 24 made significant strides by successfully predicting disordered structures using innovative methods. The findings emphasize the necessity for standardized practices in classifying crystal structures and the importance of ethical considerations in computational resource usage. The outcomes of this blind test not only demonstrate the potential of current CSP methods but also highlight the need for continued innovation and collaboration, suggesting that open data and software will be vital for future advancements in the field.

Introduction

The introduction of the research paper discusses the significance of crystal structure prediction (CSP) in determining the likely crystal structures of compounds based solely on their chemical composition. This capability is crucial for the design of new molecular materials and for understanding the properties of existing compounds. Since the 1990s, various computational methods have been developed to address the complexities of CSP, which typically involves a computational search for potential crystal packings and an estimation of their thermodynamic stability, often represented by cohesive energy. While the lowest energy structure is anticipated to be the thermodynamically stable form, other structures may exist as metastable polymorphs. Notably, the kinetics of nucleation and growth are not typically included in standard CSP calculations.

The paper presents the results of the seventh CSP blind test organized by the Cambridge Crystallographic Data Centre (CCDC), which introduced a higher level of complexity with seven diverse target compounds. This test was conducted in two phases: structure generation and energy ranking, over a span of 18 months. The authors highlight the successes and challenges encountered in generating potential crystal structures and aligning them with experimentally observed polymorphs. The study assesses the current state of crystal structure generation and matching methods, discussing implications for future CSP developments. Supplementary information is provided, including detailed analyses, methodologies from participating groups, experimental structure determinations, and a glossary of acronyms for computational methods used in the study.

Methods

The section outlines various computational methods for generating crystal structures, which are essential for crystal structure prediction (CSP). Key methods discussed include grid-based, synthon-based, random, quasi-random, simulated annealing, parallel tempering, and genetic algorithms. Grid-based methods involve sampling lattice parameters and orientations on a regular grid, making them straightforward for small rigid molecules but less effective for flexible ones. Synthon-based methods systematically build molecular structures from identified synthons, potentially incorporating kinetic effects to favor nucleation. Random methods generate molecular conformations using pseudo-random or quasi-random sequences, with the latter providing better distribution in the search space.

Simulated annealing, inspired by metallurgy, explores the search space through random perturbations of an initial structure, accepting new configurations based on the Metropolis criterion, while parallel tempering enhances this by allowing temperature exchanges between simulations. Genetic algorithms mimic natural selection to evolve crystal structures through crossover, mutation, and selection processes. Regardless of the method employed, an efficient scoring system is crucial, with lattice energy being the primary metric. While dispersion-corrected density functional theory (DFT-D) is favored for evaluating lattice energy, its computational intensity necessitates alternative ranking methods, such as tailored force fields, machine-learned potentials, and statistical potentials based on the Cambridge Structural Database (CSD).

Results

In the seventh blind test, 28 groups participated, with 22 submitting results during the structure generation phase. Notably, Molecule XXIX attracted the most attention, with 19 groups attempting predictions, while Molecule XXVIII had the fewest submissions at eight, likely due to its crystal structure being published independently during the test. Despite this, the organizers permitted submissions for Molecule XXVIII, and the results are reported with the caveat that the experimental structure was publicly available prior to the deadline.

The results section includes a detailed summary of the participating groups and their success rates for each target compound, as presented in Table 3. Additionally, the organizers provided analyses of the experimental crystal structures for each target molecule, along with comparisons of results from the COMPACK evaluations across methods development and pharmaceutical/agrochemical categories, summarized in Tables 4, 5, and 6. Further details can be found in Section 1 of the supplementary information (SI-A).

Discussion

The discussion section of the research paper outlines the evolution of blind tests in crystal structure prediction (CSP) from their inception in 1998-1999 to the present. The initial tests highlighted the limitations of early methodologies, particularly in predicting structures of flexible molecules and those with multiple components in the asymmetric unit. Subsequent tests demonstrated improvements in predictive capabilities, attributed to advancements in energy models and computational resources. Notably, the fifth blind test marked a turning point, as it showed that CSP could be reliably applied to complex molecules akin to those in pharmaceutical development, leading to increased commercial interest in CSP methodologies.

The paper also emphasizes the ongoing challenges in CSP, such as the overprediction problem and the need for better modeling of disorder in crystal structures. Recent developments include the use of advanced computational techniques, such as large-scale molecular dynamics and threshold Monte Carlo simulations, to refine predictions and reduce the number of polymorphs generated. The seventh blind test introduced new challenges reflective of real-world applications, including the prediction of structures from powder X-ray diffraction data, which necessitated robust methods for comparing computational predictions with experimental results. Overall, the CSP community continues to evolve, with a growing emphasis on practical applications in pharmaceuticals and functional materials, while also addressing the complexities of molecular disorder and polymorphism.