DOI: https://doi.org/10.1038/s41597-026-06628-2
PMID: https://pubmed.ncbi.nlm.nih.gov/41639080
تاريخ النشر: 2026-02-04
المؤلف: Vahe Gharakhanyan وآخرون
الموضوع الرئيسي: تعلم الآلة في علوم المواد
نظرة عامة
يقدم القسم مجموعة بيانات البلورات الجزيئية المفتوحة 2025 (OMC25)، التي تتناول تحدي محدودية مجموعات البيانات المتاحة للجمهور لتوقع بنية وخصائص البلورات الجزيئية. تتكون OMC25 من أكثر من 27 مليون بنية بلورية جزيئية، تضم 12 عنصرًا وتستوعب خلايا وحدات تحتوي على ما يصل إلى 300 ذرة. تم إنشاء مجموعة البيانات من خلال تحسين أكثر من 230,000 بنية بلورية جزيئية تم إنشاؤها عشوائيًا، تمثل حوالي 50,000 جزيء عضوي، باستخدام نظرية الكثافة الوظيفية الشاملة للتشتت (DFT) مع دالة التبادل والتفاعل Perdew-Burke-Ernzerhof (PBE) وتصحيح التشتت D3 من Grimme (PBE+D3).
تتميز مجموعة البيانات بتنوع مجموعة من المركبات الكيميائية التي تظهر تفاعلات بين الجزيئات وأنماط تعبئة بلورية متنوعة. يقدم المؤلفون معلومات مفصلة بشأن بناء مجموعة البيانات، وتكوينها، وخصائصها. للتحقق من جودة مجموعة البيانات وقابليتها للتطبيق، قاموا بتدريب وتقييم إمكانات التعلم الآلي بين الذرات الحديثة مفتوحة المصدر. من خلال جعل OMC25 متاحة للجمهور، يهدف المؤلفون إلى تسهيل تقدم نماذج التعلم الآلي الدقيقة والفعالة للبلورات الجزيئية.
مقدمة
تسلط مقدمة ورقة البحث الضوء على أهمية البلورات الجزيئية، التي تتميز بترتيباتها الجزيئية المنظمة ولها تطبيقات في الأدوية والإلكترونيات العضوية. يقدم المؤلفون مجموعة بيانات البلورات الجزيئية المفتوحة 2025 (OMC25)، وهي مورد شامل مصمم لتدريب إمكانات التعلم الآلي بين الذرات (MLIPs) الخاصة بالبلورات الجزيئية. تشمل هذه المجموعة أكثر من 27 مليون بنية بلورية جزيئية، تضم 12 عنصرًا مختلفًا وخلايا وحدات تحتوي على ما يصل إلى 300 ذرة. يتم توضيح كل بنية بقيم الطاقة الكلية، والقوى الذرية، وقيم إجهاد خلايا الوحدة، المستمدة من حسابات نظرية الكثافة الوظيفية الشاملة للتشتت (DFT) باستخدام دالة التبادل والتفاعل Perdew-Burke-Ernzerhof (PBE) مع تصحيح التشتت D3 من Grimme.
تم بناء مجموعة بيانات OMC25 من مسارات الاسترخاء DFT لأكثر من 230,000 بلورة جزيئية محتملة، مأخوذة من 50,000 جزيء فريد في مجموعة بيانات OE62. استخدم المؤلفون برنامج Genarris 3.0 لتحقيق تنوع في عينات ترتيبات التعبئة الجزيئية عبر مجموعات الفضاء المختلفة. يؤكدون على إمكانية مجموعة البيانات في تعزيز البحث في بنية البلورات الجزيئية وتوقع الخصائص من خلال توفير الوصول المفتوح إلى مجموعة البيانات، ونقاط تفتيش النموذج، وكود التقييم بموجب ترخيص CC BY 4.0، مما يعزز القابلية للتكرار والتقدمات الإضافية في هذا المجال.
طرق
في هذا القسم، يوضح المؤلفون المنهجية المستخدمة لإنشاء مجموعة بيانات شاملة، تُسمى مجموعة بيانات OMC25، تهدف إلى تعزيز استخدام إمكانات التعلم الآلي بين الذرات (MLIPs) في أبحاث البلورات الجزيئية. تضمنت العملية نهجًا متعدد الخطوات لتنسيق، ومعالجة مسبقة، ووضع علامات، والتحقق من مجموعة متنوعة من الهياكل البلورية الجزيئية، مع ضمان التمثيل عبر تركيبات كيميائية مختلفة، وأنظمة بلورية، ومجموعات فضاء. تم بدء مجموعة البيانات من مجموعة بيانات OE62، التي تتكون من 61,489 جزيء مأخوذ من قاعدة بيانات كامبريدج الهيكلية (CSD) وتم تحسينها باستخدام نظرية الكثافة الوظيفية (DFT) مع دالة Perdew وBecke وErnzerhof (PBE) وتصحيح التشتت Tkatchenko-Scheffler (TS).
لتنقيح مجموعة البيانات، تم تطبيق عدة معايير تصفية لاستبعاد الجزيئات المحتملة النشطة، بما في ذلك تلك التي لم يكن بالإمكان تحليلها بواسطة RDKit بسبب SMILES غير الصالحة، والمواد النشطة المعروفة، والجزيئات ذات النسب العالية من النيتروجين إلى الكربون أو الروابط النشطة المحددة. أدت هذه الفلاتر إلى مجموعة نهائية من حوالي 50,000 جزيء فريد. يشير المؤلفون إلى أنه بسبب محدودية توفر المتغيرات المميزة لكل جزيء في مجموعة بيانات OE62، تم الاحتفاظ عادةً بمتغير واحد فقط، مما يسمح بتغييرات شكلية طفيفة أثناء الاسترخاء النهائي للهندسة في البنية البلورية.
نقاش
في هذا القسم، يوضح المؤلفون المنهجية المستخدمة لتوليد والتحقق من مجموعة بيانات متنوعة من الهياكل البلورية الجزيئية، تُسمى OMC25، باستخدام برنامج Genarris 3.0. تضمنت عملية التوليد أخذ عينات عشوائية من الهياكل البلورية الجزيئية بناءً على المتغيرات المدخلة وأرقام Z المختارة، مع التركيز على تحقيق كل من التكوينات ذات التعبئة الفضفاضة والمضغوطة. تم تحسين الهياكل باستخدام خوارزمية Rigid Press، مما يضمن أن المسافات بين الذرات تلتزم بالقيود الفيزيائية. تم أخذ عينات من إجمالي 27 مليون بنية من مسارات الاسترخاء، مع عملية تصفية صارمة لاستبعاد التكوينات غير الواقعية، مما يضمن جودة بيانات عالية وسلامة هيكلية.
يتم التأكيد على تنوع مجموعة البيانات من خلال تمثيلها لـ 12 عنصرًا شائعًا من قاعدة بيانات كامبريدج الهيكلية (CSD) و167 مجموعة فضاء مميزة عبر أنظمة بلورية مختلفة. يبرز المؤلفون الفروق الكبيرة في انتشار بعض مجموعات الفضاء في OMC25 مقارنةً بـ CSD، مما يشير إلى أخذ عينات أوسع من التنوع الكيميائي والهيكلي. تم تقسيم مجموعة البيانات النهائية إلى مجموعات تدريب، والتحقق، والاختبار، مع التركيز على منع تسرب البيانات. تم تقييم أداء إمكانات التعلم الآلي بين الذرات (MLIPs) المدربة على هذه المجموعة، مما يظهر قوة مجموعة البيانات وقابليتها للتطبيق في توقع خصائص البلورات الجزيئية. يؤكد المؤلفون أن مجموعة بيانات OMC25 تلتقط الفيزياء الأساسية والتنوع الكيميائي، مما يجعلها موردًا قيمًا للبحث المستقبلي في نمذجة البلورات الجزيئية.
DOI: https://doi.org/10.1038/s41597-026-06628-2
PMID: https://pubmed.ncbi.nlm.nih.gov/41639080
Publication Date: 2026-02-04
Author(s): Vahe Gharakhanyan et al.
Primary Topic: Machine Learning in Materials Science
Overview
The section presents the Open Molecular Crystals 2025 (OMC25) dataset, which addresses the challenge of limited publicly available datasets for predicting the structure and properties of molecular crystals. OMC25 consists of over 27 million molecular crystal structures, incorporating 12 elements and accommodating unit cells with up to 300 atoms. The dataset was generated by optimizing more than 230,000 randomly constructed molecular crystal structures, representing approximately 50,000 organic molecules, using dispersion-inclusive density functional theory (DFT) with the Perdew-Burke-Ernzerhof (PBE) exchange-correlation functional and Grimme’s D3 dispersion correction (PBE+D3).
The dataset features a diverse array of chemical compounds that exhibit various intermolecular interactions and crystal packing motifs. The authors provide detailed information regarding the dataset’s construction, composition, and properties. To validate the dataset’s quality and applicability, they trained and evaluated state-of-the-art open-source machine learning interatomic potentials. By making OMC25 publicly accessible, the authors aim to facilitate the advancement of accurate and efficient machine learning models for molecular crystals.
Introduction
The introduction of the research paper highlights the significance of molecular crystals, which are characterized by their orderly molecular arrangements and have applications in pharmaceuticals and organic electronics. The authors present the Open Molecular Crystals 2025 (OMC25) dataset, a comprehensive resource designed for training machine learning interatomic potentials (MLIPs) specific to molecular crystals. This dataset includes over 27 million molecular crystal structures, featuring 12 different elements and unit cells containing up to 300 atoms. Each structure is annotated with total energy, atomic forces, and unit cell stress values, derived from dispersion-inclusive density functional theory (DFT) calculations using the Perdew-Burke-Ernzerhof (PBE) exchange-correlation functional with Grimme D3 dispersion correction.
The OMC25 dataset was constructed from the DFT relaxation trajectories of more than 230,000 potential molecular crystals, sourced from 50,000 unique molecules in the OE62 dataset. The authors utilized the Genarris 3.0 software to achieve diverse sampling of molecular packing arrangements across various space groups. They emphasize the dataset’s potential to enhance research in molecular crystal structure and property prediction by providing open access to the dataset, model checkpoints, and evaluation code under a CC BY 4.0 license, thereby fostering reproducibility and further advancements in the field.
Methods
In this section, the authors outline the methodology employed to create a comprehensive dataset, termed the OMC25 dataset, aimed at advancing the use of machine learning interatomic potentials (MLIPs) in molecular crystal research. The process involved a multi-step approach to curate, pre-process, label, and validate a diverse array of molecular crystal structures, ensuring representation across various chemical compositions, crystal systems, and space groups. The dataset was initiated from the OE62 dataset, which comprises 61,489 molecules sourced from the Cambridge Structural Database (CSD) and optimized using density functional theory (DFT) with the Perdew, Becke, and Ernzerhof (PBE) functional and Tkatchenko-Scheffler (TS) dispersion correction.
To refine the dataset, several filtering criteria were applied to exclude potentially energetic molecules, including those that could not be parsed by RDKit due to invalid SMILES, known energetic materials, and molecules with high nitrogen-to-carbon ratios or specific energetic bonds. These filters resulted in a final set of approximately 50,000 unique molecules. The authors note that due to the limited availability of distinct conformers for each molecule in the OE62 dataset, only one conformer was typically retained, allowing for minimal conformational changes during the final geometry relaxation in the crystal structure.
Discussion
In this section, the authors detail the methodology for generating and validating a diverse dataset of molecular crystal structures, termed OMC25, using the Genarris 3.0 software. The generation process involved random sampling of molecular crystal structures based on input conformers and selected Z numbers, with a focus on achieving both loosely packed and close-packed configurations. The structures were optimized using the Rigid Press algorithm, ensuring that interatomic distances adhered to physical constraints. A total of 27 million structures were sampled from relaxation trajectories, with a rigorous filtering process to eliminate unrealistic configurations, ensuring high data quality and structural integrity.
The dataset’s diversity is underscored by its representation of 12 common elements from the Cambridge Structural Database (CSD) and 167 distinct space groups across various crystal systems. The authors highlight significant differences in the prevalence of certain space groups in OMC25 compared to the CSD, indicating a broader sampling of chemical and structural diversity. The final dataset was split into training, validation, and test sets, with a focus on preventing data leakage. The performance of machine learning interatomic potentials (MLIPs) trained on this dataset was evaluated, demonstrating the dataset’s robustness and applicability for predicting molecular crystal properties. The authors emphasize that the OMC25 dataset captures essential physics and chemical diversity, making it a valuable resource for future research in molecular crystal modeling.
