نموذج توليدي لتصميم المواد غير العضوية A generative model for inorganic materials design

المجلة: Nature، المجلد: 639، العدد: 8055
DOI: https://doi.org/10.1038/s41586-025-08628-5
PMID: https://pubmed.ncbi.nlm.nih.gov/39821164
تاريخ النشر: 2025-01-16

معاينة المقال المعجلة

نموذج توليدي لتصميم المواد غير العضوية

تاريخ الاستلام: 17 يناير 2024
تاريخ القبول: 10 يناير 2025
معاينة المقال المعجلة
استشهد بهذا المقال كالتالي: زيني، سي. وآخرون. نموذج توليدي لتصميم المواد غير العضوية. الطبيعة https://doi.org/10.1038/s41586-025-08628-5 (2025)
كلوديو زيني، روبرت بينسلر، دانيال زوغنر، أندرو فاولر، ماثيو هورتون، شيانغ فو، زيلونغ وانغ، ألياكساندرا شيسيا، جوناثان كرابيه، شوكو أوييدا، روبرتو سورديلو، ليشين سون، جيك سميث، بيشليين نغوين، هانز شولتز، سارة لويس، تشين-وي هوانغ، زيهينغ لو، يي تشي تشو، هان يانغ، هونغشيا هاو، جييلان لي، تشونلي يانغ، وينجي لي، ريوتا توميوكا وتيان شيا
هذا ملف PDF لمقال تمت مراجعته من قبل الأقران وتم قبوله للنشر. على الرغم من أنه غير محرر، إلا أن المحتوى قد خضع لتنسيق أولي. تقدم الطبيعة هذه النسخة المبكرة من المقال المنسق كخدمة لمؤلفينا وقرائنا. ستخضع النصوص والأشكال للتدقيق اللغوي ومراجعة النسخة قبل نشر المقال في شكله النهائي. يرجى ملاحظة أنه خلال عملية الإنتاج قد يتم اكتشاف أخطاء قد تؤثر على المحتوى، وتطبق جميع إخلاءات المسؤولية القانونية.

نموذج توليدي لتصميم المواد غير العضوية

كلوديو زيني ® , روبرت بينسلر ® , دانيال زوغنر ® , أندرو فاولر ® , ماثيو هورتون ® , شيانغ فو ® , زيلونغ وانغ ® , ألياكساندرا شيسيا , جوناثان كرابيه ® , شوكو أوييدا , روبرتو سورديلو , ليشين سون , جيك سميث , بيشليين نغوين , هانز شولتز , سارة لويس , تشين-وي هوانغ , زيهينغ لو , يي تشي تشو , هان يانغ , هونغشيا هاو , جييلان لي , تشونلي يانغ , وينجي لي , ريوتا توميوكا ® , تيان شيا (1) أبحاث مايكروسوفت AI للعلوم، كامبريدج، المملكة المتحدة. أبحاث مايكروسوفت AI للعلوم، برلين، ألمانيا. أبحاث مايكروسوفت AI للعلوم، ريدموند، الولايات المتحدة الأمريكية. أبحاث مايكروسوفت AI للعلوم، شنغهاي، الصين. أبحاث مايكروسوفت AI للعلوم، بكين، الصين. أبحاث مايكروسوفت AI للعلوم، أمستردام، هولندا. معهد شنتشن للتكنولوجيا المتقدمة، الأكاديمية الصينية للعلوم، شنتشن 518055، الصين.*المؤلف(ون) المراسل(ون). البريد الإلكتروني: ryoto@microsoft.com; tianxie@microsoft.com;

مساهمة متساوية؛ المؤلفون غير المراسلين مدرجون بترتيب عشوائي.

الملخص

تصميم المواد الوظيفية ذات الخصائص المرغوبة أمر أساسي في دفع التقدم التكنولوجي في مجالات مثل تخزين الطاقة، التحفيز، والتقاط الكربون [1-3]. توفر النماذج التوليدية نموذجًا جديدًا لتصميم المواد من خلال توليد مواد جديدة مباشرةً وفقًا لقيود الخصائص المرغوبة، ولكن الطرق الحالية لديها معدل نجاح منخفض في اقتراح بلورات مستقرة أو يمكنها فقط تلبية مجموعة محدودة من قيود الخصائص [4-11]. هنا، نقدم MatterGen، نموذجًا يولد مواد غير عضوية مستقرة ومتنوعة عبر الجدول الدوري ويمكن ضبطه بشكل أكبر لتوجيه التوليد نحو مجموعة واسعة من قيود الخصائص. مقارنةً بالنماذج التوليدية السابقة [4، 12]، فإن الهياكل التي تنتجها

الملخص

MatterGen أكثر من ضعف احتمالية أن تكون جديدة ومستقرة، وأكثر من 10 مرات أقرب إلى الحد الأدنى للطاقة المحلية. بعد الضبط الدقيق، يقوم MatterGen بنجاح بتوليد مواد مستقرة وجديدة ذات كيمياء مرغوبة، تماثل، بالإضافة إلى خصائص ميكانيكية وإلكترونية ومغناطيسية. كدليل على المفهوم، نقوم بتخليق أحد الهياكل المولدة ونقيس قيمة خاصيته لتكون ضمن من هدفنا. نعتقد أن جودة المواد المولدة ونطاق قدرات MatterGen تمثل تقدمًا كبيرًا نحو إنشاء نموذج توليدي أساسي لتصميم المواد.

1 المقدمة

معدل اكتشافنا لمواد أفضل له تأثير كبير على وتيرة الابتكار التكنولوجي في مجالات مثل التقاط الكربون، تصميم أشباه الموصلات، وتخزين الطاقة [1-3]. تقليديًا، تم اكتشاف معظم المواد من خلال التجريب والحدس البشري، مما يحد من عدد المرشحين الذين يمكن اختبارهم ويتسبب في دورات تكرارية طويلة. بفضل تقدم الفحص عالي الإنتاجية [13]، قواعد بيانات المواد المفتوحة [14-17]، المتنبئين بالخصائص المعتمدين على التعلم الآلي [18، 19]، وحقول القوة المعتمدة على التعلم الآلي (MLFFs) [20، 21]، أصبح من الممكن فحص مئات الآلاف من المواد لتحديد المرشحين الواعدين [22، 23]. ومع ذلك، لا تزال الطرق المعتمدة على الفحص محدودة أساسًا بعدد المواد المعروفة. أكبر الاستكشافات للمواد البلورية غير المعروفة سابقًا هي في حدود المواد [21، 23-25]، وهو جزء صغير فقط من عدد المركبات غير العضوية المستقرة المحتملة [26]. علاوة على ذلك، لا يمكن توجيه هذه الطرق بكفاءة نحو العثور على مواد ذات خصائص مستهدفة.
نظرًا لهذه القيود، كان هناك اهتمام كبير في التصميم العكسي للمواد [27، 28]. الهدف من التصميم العكسي هو توليد هياكل المواد مباشرةً التي تلبي قيود الخصائص المستهدفة، على سبيل المثال، عبر النماذج التوليدية [4، 8، 11]، والخوارزميات التطورية [29]، والتعلم المعزز [30]. تعتبر النماذج التوليدية واعدة لأنها يمكن أن تستكشف الهياكل الجديدة بكفاءة ويمكن تعديلها بمرونة لمهام مختلفة. ومع ذلك، غالبًا ما تفشل النماذج التوليدية الحالية في إنتاج مواد مستقرة وفقًا لحسابات نظرية الكثافة الوظيفية (DFT) [4،5،31]، وتكون مقيدة بمجموعة ضيقة من العناصر [7،9]، و/أو يمكنها فقط تحسين مجموعة محدودة جدًا من الخصائص، بشكل رئيسي طاقة التكوين [4، 5، 8، 11، 31، 32].
في هذه الدراسة، نقدم MatterGen، نموذج توليدي يعتمد على الانتشار يولد مواد غير عضوية مستقرة ومتنوعة عبر الجدول الدوري ويمكن ضبطه نحو مجموعة واسعة من المهام اللاحقة لتصميم المواد العكسي (الشكل 1). لتمكين ذلك، نقدم عملية انتشار تولد هياكل بلورية من خلال تحسين تدريجي لأنواع الذرات، والإحداثيات، والشبكة الدورية. نقدم أيضًا وحدات محول لتمكين الضبط الدقيق على التركيب الكيميائي المرغوب، والتماثل، وقيود الخصائص العددية مثل الكثافة المغناطيسية. مقارنةً بالنماذج التوليدية السابقة الرائدة في تصميم المواد [4، 12]، فإن MatterGen يزيد من نسبة المواد المستقرة والفريدة والجديدة (S.U.N.) التي تم توليدها، وينتج هياكل أقرب بأكثر من 10 مرات إلى هياكلها الحقيقية عند الحد الأدنى للطاقة المحلية في DFT (الشكل 2). قدرات التكييف الواسعة لـ MatterGen
الشكل 1: تصميم المواد غير العضوية باستخدام MatterGen. (أ) يقوم MatterGen بتوليد مواد مستقرة من خلال عكس عملية الفساد من خلال إزالة الضوضاء بشكل تدريجي من هيكل عشوائي. تقوم عملية الانتشار الأمامية بتخريب أنواع الذرات بشكل مستقل , الإحداثيات , والشبكة نحو توزيع مدفوع جسديًا للمواد العشوائية. (ب) يتم تدريب شبكة درجات متساوية مسبقًا على مجموعة بيانات كبيرة من هياكل المواد المستقرة لإزالة الضوضاء بشكل مشترك لأنواع الذرات، والإحداثيات، والشبكة. ثم يتم ضبط شبكة الدرجات بدقة باستخدام مجموعة بيانات موسومة من خلال وحدة محول تتكيف مع النموذج باستخدام الخاصية المشفرة . (ج) النموذج المضبوط بدقة يولد مواد ذات كيمياء، وتماثل، أو قيود خصائص عددية مرغوبة.
mمكن تصميم المواد العكسية لمجموعة أوسع بكثير من المشكلات مقارنة بالنماذج التوليدية السابقة. عند الضبط الدقيق، غالبًا ما ينتج MatterGen المزيد من المواد S.U.N. في الأنظمة الكيميائية المستهدفة مقارنةً بالطرق المعروفة مثل الاستبدال والبحث عن الهياكل العشوائية (RSS) (الشكل 3)، وهو قادر على توليد هياكل متجانسة للغاية نظرًا لمجموعات الفضاء المرغوبة (الشكل D8)، وينتج مباشرةً مواد S.U.N. تلبي قيود الخصائص الميكانيكية والإلكترونية والمغناطيسية المستهدفة (الشكل 4). كما أن MatterGen قادر على تصميم مواد وفقًا لعدة قيود خصائص، على سبيل المثال، كثافة مغناطيسية عالية وتركيب كيميائي مع مخاطر منخفضة في سلسلة التوريد (الشكل 5). كدليل على المفهوم، نتحقق من قدرات تصميم MatterGen من خلال تخليق مادة مولدة وقياس خاصيتها لتكون ضمن من هدفنا (الشكل 6).

2 النتائج

2.1 عملية الانتشار للمواد

MatterGen هو نموذج انتشار مصمم لتصميم المواد البلورية عبر الجدول الدوري (الشكل 1(أ)). تولد نماذج الانتشار عينات عن طريق عكس عملية فساد ثابتة عبر شبكة درجات متعلمة [33-35]. عادةً ما تضيف عمليات الفساد للصور ضوضاء غاوسية، لكن المواد البلورية لها هيكل دوري فريد وتناظر يتطلب عملية انتشار مخصصة. نعرف المادة البلورية بوحدتها المتكررة، أي، خلية الوحدة الخاصة بها، التي تتكون من أنواع الذرات، (أي، العناصر الكيميائية)، الإحداثيات، ، والشبكة الدورية، (المكمل A. 1 و A.2). لكل مكون، نحدد عملية فساد تأخذ في الاعتبار هندستها الخاصة ولها توزيع ضوضاء محدد بدافع فيزيائي. يحترم انتشار الإحداثيات الحدود الدورية عبر توزيع طبيعي ملفوف ويقترب من توزيع موحد عند حد الضوضاء. نقوم بتعديل تأثير حجم الخلية على انتشار الإحداثيات الكسرية في الفضاء الكارتيزي عن طريق ضبط حجم الضوضاء وفقًا لذلك (المكمل A.6). يأخذ انتشار شبكتنا شكلًا متناظرًا ويقترب من توزيع يكون متوسطه شبكة مكعبة بكثافة ذرية متوسطة من بيانات التدريب (المكمل A.7). يتم نشر أنواع الذرات في الفضاء الفئوي حيث يتم فساد الذرات الفردية إلى حالة مقنعة (المكمل A.5). لعكس عملية الفساد، نتعلم شبكة درجات تنتج درجات متساوية لأنواع الذرات، والإحداثيات، والشبكة، مما يزيل الحاجة إلى تعلم التناظرات من البيانات (المكمل A. 8 و A.9).
لتصميم مواد ذات قيود خصائص مرغوبة، نقدم وحدات محول لضبط نموذج الدرجات على مجموعة بيانات إضافية مع تسميات الخصائص (الشكل 1(ب)، المكمل B). وحدات المحول هي مكونات قابلة للتعديل يتم حقنها في كل طبقة من النموذج الأساسي لتغيير مخرجاته اعتمادًا على تسمية الخصائص المعطاة [36]. يعد الضبط الدقيق جذابًا لأنه لا يزال يعمل بشكل جيد إذا كانت مجموعة البيانات المعلّمة صغيرة مقارنة بمجموعات بيانات الهياكل غير المعلّمة، كما هو الحال غالبًا بسبب التكلفة الحسابية العالية لحساب الخصائص. يتم استخدام النموذج المضبوط بدقة بالاشتراك مع توجيه خالٍ من المصنفات [37] لتوجيه التوليد نحو قيود الخصائص المستهدفة. نطبق هذا النهج على أنواع متعددة من القيود، مما ينتج مجموعة من النماذج المضبوطة بدقة التي يمكن أن تولد مواد بتكوين كيميائي مستهدف، أو تناظر، أو خصائص عددية مثل الكثافة المغناطيسية (الشكل 1(ج)). تعتبر هذه القدرات الواسعة في التكييف، جنبًا إلى جنب مع التحسينات في عملية الانتشار مقارنة بالأعمال السابقة [4،12]، مفتاحًا لمعالجة مجموعة واسعة من مشاكل التصميم العكسي (المكمل A.11).

2.2 توليد مواد مستقرة ومتنوعة

نقوم بصياغة تعلم نموذج توليدي لتصميم المواد العكسية كعملية من خطوتين، حيث نقوم أولاً بتدريب نموذج أساسي عام لتوليد بلورات مستقرة ومتنوعة عبر الجدول الدوري، ثم نقوم بضبط هذا النموذج نحو مهام مختلفة لاحقة. لتدريب النموذج الأساسي، نقوم بتجميع مجموعة بيانات كبيرة ومتنوعة، Alex-MP-20، تتكون من 607,683 هيكلًا مستقرًا مع ما يصل إلى 20 ذرة تم إعادة حسابها من مشروع المواد (MP) [14] ومجموعات بيانات الإسكندرية [25، 38] (المكمل C).
في هذا القسم، نركز على قدرة نموذج MatterGen الأساسي على توليد مواد مستقرة ومتنوعة، والتي نعتبرها شرطًا مسبقًا لمعالجة أي مهمة تصميم مواد عكسية. نظرًا لأن التنوع من الصعب قياسه مباشرة، نلجأ إلى قياس قدرة MatterGen على توليد مواد S.U.N. (المكمل D.3)، ونقدم تحليلًا إضافيًا لجودة وتنوع الهياكل المولدة. نعتبر الهيكل مستقرًا إذا كانت طاقته لكل ذرة بعد الاسترخاء عبر DFT ضمن ذرة فوق السطح المحدب المحدد بواسطة مجموعة بيانات مرجعية، Alex-MPICSD، التي تتكون من 850,384 هيكلًا فريدًا تم إعادة حسابه من مجموعات بيانات MP [14]، الإسكندرية [25، 38]، وقاعدة بيانات الهياكل البلورية غير العضوية (ICSD) [39] (المكمل C). نعتبر الهيكل فريدًا إذا لم يتطابق مع أي هيكل آخر تم توليده بنفس الطريقة. نعتبر الهيكل جديدًا إذا لم يتطابق مع أي هيكل موجود في نسخة موسعة من Alex-MP-ICSD تحتوي على 117,652 هيكلًا ICSD غير منظم بالإضافة إلى 850,384 هيكلًا منظمًا تم استخدامها لحساب السطح المحدب المرجعي. لأخذ تأثيرات الاضطراب التكويني في الاعتبار [40]، نقوم بمطابقة الهياكل بناءً على مطابقة الهياكل المنظمة وغير المنظمة المقترحة حديثًا (المكمل D.4). نتبنى هذه التعريفات طوال الوقت ما لم يُذكر خلاف ذلك.
يوضح الشكل 2(أ) عدة عينات عشوائية تم توليدها بواسطة MatterGen، مع ميزات بيئات التنسيق النموذجية للمواد غير العضوية؛ انظر المكمل D.5.3 لمزيد من التحليل التفصيلي. لتقييم الاستقرار، نقوم بإجراء حسابات DFT على 1024 هيكلًا تم توليدها. يوضح الشكل 2(ب) أن من الهياكل المولدة تقع تحت عتبة 0.1 eV /ذرة ( تحت ذرة ) من السطح المحدب لـ MP، بينما تقع تحت عتبة ذرة ( تحت ذرة ) من السطح المشترك لـ Alex-MP-ICSD. علاوة على ذلك، من الهياكل المولدة لديها RMSD بالنسبة لـ
الشكل 2: توليد مواد غير عضوية مستقرة وفريدة وجديدة. (أ) تصور لأربعة بلورات تم اختيارها عشوائيًا تم توليدها بواسطة MatterGen، مع الصيغة المخفضة المناسبة ومجموعة الفضاء. (ب) توزيع قيم الطاقة فوق السطح للهياكل المولدة باستخدام مجموعات بيانات MP و Alex-MP-ICSD كمراجع للطاقة، على التوالي. (ج) توزيع الإزاحة الجذرية المتوسطة المربعة (RMSD) بين الهياكل المولدة أوليًا والمسترخية عبر DFT. (د) نسبة الهياكل الفريدة والجديدة كدالة لعدد الهياكل المولدة. (هـ-و) نسبة هياكل S.U.N. (هـ) ومتوسط RMSD بين الهياكل الأولية والمسترخية عبر DFT (و) لـ MatterGen و MatterGen-MP وعدة نماذج أساسية، بما في ذلك DiffCSP [12] و CDVAE [4] و P-G-SchNet و G-SchNet [41] و FTCP [31]. مجموعات بيانات التدريب في الأقواس.
الهياكل المسترخية عبر DFT التي تقل عن (الشكل 2(ج))، وهو أقل تقريبًا من ترتيب واحد من حجم الذرة لذرة الهيدروجين . تشير هذه النتائج إلى أن الغالبية العظمى من الهياكل التي تم توليدها بواسطة MatterGen مستقرة، وقريبة جدًا من الحد الأدنى للطاقة المحلية لـ DFT.
نستكشف أيضًا ما إذا كان بإمكان MatterGen توليد كمية كبيرة من المواد الفريدة والجديدة. نجد أن نسبة الهياكل الفريدة هي عند توليد 1000 هيكل وتنخفض فقط إلى بعد توليد عشرة ملايين هيكل، بينما من الهياكل المولدة جديدة (الشكل 2(د)). يشير هذا إلى أن MatterGen قادر على توليد هياكل متنوعة دون تشبع كبير حتى على نطاق واسع، وأن الغالبية العظمى من تلك الهياكل جديدة بالنسبة لـ Alex-MPICSD. من المRemarkably، نجد أيضًا أن MatterGen قد أعاد اكتشاف أكثر من 2000 هيكل تم التحقق منه تجريبيًا من ICSD لم يتم رؤيته أثناء التدريب (المكمل D.5.4)، مما يظهر قدرته على توليد مواد قابلة للتصنيع.
بعد ذلك، نقوم بتقييم MatterGen مقابل نماذج توليد سابقة للمواد ونظهر تحسنًا كبيرًا في الأداء. نركز على مقياسين متوسطين على 1000 عينة مولدة من كل طريقة: (1) نسبة مواد S.U.N. بين العينات المولدة، مما يقيس معدل نجاح توليد مرشحين واعدين، و (2) متوسط RMSD بين العينات المولدة وهياكلها المسترخية عبر DFT، مما يقيس المسافة إلى التوازن (المكمل D.5.1). نقارن أيضًا مع MatterGen-MP، وهو نموذج MatterGen تم تدريبه فقط على MP-20، أي، نفس مجموعة البيانات الأصغر المستخدمة من قبل النماذج الأساسية الأخرى. مقارنةً بالطرق السابقة الرائدة CDVAE [4] و DiffCSP [12]، يولد MatterGen-MP المزيد من الهياكل S.U.N. بينما متوسط RMSD للهياكل المولدة هو أدنى (الشكل 2 (هـ-و)). نجد أن خيارات تصميم نموذجنا حاسمة للأداء المحسن (المكمل A.10). عند مقارنة MatterGen مع MatterGenMP، نلاحظ زيادة بنسبة 70% في نسبة هياكل S.U.N. وانخفاض بمقدار خمس مرات في RMSD نتيجة لتوسيع مجموعة بيانات التدريب.
من خلال الجمع بين تحسينات النموذج والبيانات، ينتج MatterGen هياكل تزيد احتمالية كونها S.U.N. بأكثر من الضعف مقارنة بالنماذج التوليدية السابقة بينما تكون الهياكل الناتجة أقرب إلى الحد الأدنى للطاقة المحلية بمقدار يصل إلى ترتيب من حيث الحجم. بعد ذلك، نقوم بضبط النموذج الأساسي المدرب مسبقًا لـ MatterGen نحو تطبيقات مختلفة، بما في ذلك الكيمياء المستهدفة (القسم 2.3) وقيود الخصائص القياسية (الأقسام 2.4 و2.5)، مع تحقق تجريبي إضافي.
الشكل 3: توليد المواد في نظام كيميائي مستهدف. (أ-ب) النسبة المئوية المتوسطة لهياكل S.U.N. التي تم توليدها بواسطة MatterGen والمعايير الأساسية لـ 27 نظامًا كيميائيًا، مقسمة حسب نوع النظام (أ) وعدد العناصر (ب). تشير أشرطة الخطأ إلى فترات النسبة المئوية . عدد الهياكل الموجودة على القبة المحدبة المجمعة التي وجدتها كل طريقة وفي مجموعة بيانات Alex-MP-ICSD، مقسمة حسب نوع النظام (ج) وعدد العناصر (د). (هـ) مخطط القبة المحدبة لـ V-Sr-O، وهو نظام ثلاثي تم استكشافه جيدًا. تشير النقاط إلى الهياكل الموجودة على القبة، وتظهر إحداثياتها نسبة العناصر في تركيبها، ولونها يشير إلى الطريقة التي تم اكتشافها بها. (و-ي) أربع هياكل اكتشفها MatterGen (تم إعادة اكتشافها في حالة (و)) على قبة V-Sr-O الموضحة في (هـ)، مع صيغتها المختزلة ومجموعة الفضاء.
في القسم 2.6. النتائج الخاصة بضبط التوافق مع قيود التناظر موجودة في المكمل D.7.

2.3 التصميم الموجه بالكيمياء

إيجاد أكثر هياكل المواد استقرارًا في نظام كيميائي مستهدف (مثل Li-Co-O) أمر حاسم لتحديد القبة المحدبة الحقيقية المطلوبة لتقييم الاستقرار، وهو بالفعل أحد التحديات الرئيسية في تصميم المواد [42]. أكثر الطرق شمولاً لهذه المهمة هي RSS من البداية [43]، والتي تم استخدامها لاكتشاف العديد من المواد الجديدة التي تم تصنيعها لاحقًا تجريبيًا [42]. أكبر عيب في RSS هو تكلفته الحسابية، حيث أن الاستكشاف الشامل حتى لمركب ثلاثي يمكن أن يتطلب مئات الآلاف من استرخاءات DFT. في السنوات الأخيرة، أثبت الجمع بين توليد الهياكل عبر RSS، أو طرق الاستبدال أو التطور مع MLFFs نجاحه في استكشاف الأنظمة الكيميائية [21، 23، 44].
هنا، نقيم قدرة MatterGen على استكشاف الأنظمة الكيميائية المستهدفة من خلال مقارنتها مع الاستبدال وRSS. نجهز جميع الطرق بـ MatterSim [45] MLFF لإعادة الاسترخاء مسبقًا وتصنيف الهياكل المولدة حسب استقرارها المتوقع قبل إجراء حسابات DFT الأكثر تكلفة. نقوم بضبط نموذج MatterGen الأساسي (المكمل B.1) ونتجه بالتوليد نحو أنظمة كيميائية مستهدفة مختلفة وطاقة أعلى من القبة بمقدار ذرة. نقيم الطرق على تسع أنظمة كيميائية ثلاثية، وتسع رباعية، وتسع خماسية. لكل من هذه المجموعات الثلاث، نختار ثلاث أنظمة كيميائية عشوائيًا من الفئات التالية: تم استكشافها جيدًا، تم استكشافها جزئيًا، ولم يتم استكشافها (المكمل D.6).
ينتج MatterGen أعلى نسبة من هياكل S.U.N. لكل نوع من الأنظمة ولكل تعقيد كيميائي (الشكل 3 (أ-ب)). بالإضافة إلى ذلك، يجد MatterGen أعلى عدد من الهياكل الفريدة على القبة المحدبة المجمعة في (1) الأنظمة ‘المستكشفة جزئيًا’، حيث تم توفير الهياكل المعروفة الموجودة بالقرب من القبة أثناء التدريب، و(2) ‘الأنظمة المستكشفة جيدًا’، حيث تُعرف الهياكل القريبة من القبة ولكن لم يتم توفيرها في التدريب (الشكل 3 (ج)). بينما يقدم الاستبدال طريقة قابلة للمقارنة أو أكثر كفاءة لتوليد الهياكل على القبة للأنظمة الثلاثية والرباعية، يحقق MatterGen أداءً أفضل على الأنظمة الخماسية (الشكل 3 (د)). من المRemarkably، تم تحقيق الأداء القوي لـ MatterGen في الأنظمة الخماسية مع 10,240 عينة مولدة فقط، مقارنةً بـ عينات للاستبدال و600,000 لـ RSS. هذا يبرز المكاسب الهائلة في الكفاءة التي يمكن
الشكل 4: تصميم المواد بخصائص مغناطيسية وإلكترونية وميكانيكية مستهدفة. (أ-ج) كثافة قيم الخصائص بين (1) عينات S.U.N. التي تم توليدها بواسطة MatterGen، و(2) الهياكل في مجموعة بيانات الضبط الدقيقة المسمى لخاصية مغناطيسية وإلكترونية وميكانيكية، على التوالي. الهدف الخاصية لـ MatterGen موضح كخط متقطع أسود. تم استبعاد قيم الكثافة المغناطيسية في (أ) من البيانات المسمى لتحسين قابلية القراءة. (د-و) تصور لهياكل S.U.N. مع أفضل قيم الخصائص التي تم توليدها بواسطة MatterGen لكثافة مغناطيسية (د)، فجوة نطاق (هـ)، ومرونة الحجم (و)، مع صيغتها المختزلة، مجموعة الفضاء، وقيمة الخاصية. (ز-ح) عدد هياكل S.U.N. التي تلبي القيود المستهدفة التي وجدها MatterGen والمعايير الأساسية عبر ميزانيات حساب خصائص DFT.
يمكن تحقيقها مع النماذج التوليدية من خلال اقتراح مرشحين أوليين أفضل. أخيرًا، نوضح أن MatterGen يجد ثلاث هياكل جديدة (أربعة بشكل عام) على القبة المجمعة لـ V-Sr-O – مثال على نظام ثلاثي تم استكشافه جيدًا – بينما يجد الاستبدال ثلاث (خمسة بشكل عام)، وRSS واحدة فقط (اثنان بشكل عام) (الشكل 3 (هـ)). الهياكل التي اكتشفها MatterGen موضحة في الشكل 3 (و-ي)، وتم تحليلها في المكمل D.6.2.

2.4 التصميم الموجه بالخصائص

هناك حاجة هائلة للمواد ذات الخصائص المحسنة عبر العديد من التطبيقات، بما في ذلك تخزين الطاقة، التحفيز، والتقاط الكربون [1-3]. تبدأ الطريقة التقليدية المعتمدة على الفحص من مجموعة من المرشحين وتختار الأفضل من حيث الخصائص المتوقعة، لكن الفحص لا يمكنه استكشاف الهياكل خارج مجموعة المواد المعروفة. هنا، نوضح قدرة MatterGen على توليد مواد S.U.N. مباشرة مع قيود مستهدفة في ثلاث مهام تصميم عكسي مختلفة، تتميز بمجموعة متنوعة من الخصائص – مغناطيسية، إلكترونية، وميكانيكية – مع درجات متفاوتة من البيانات المسمى المتاحة لضبط النموذج. في المهمة الأولى، نهدف إلى توليد مواد ذات كثافة مغناطيسية عالية، وهي شرط مسبق للمغناطيسات الدائمة. نقوم بضبط النموذج على 605,000 هيكل مع تسميات كثافة مغناطيسية DFT (محسوبة على افتراض ترتيب مغناطيسي) ونولد هياكل بقيمة كثافة مغناطيسية مستهدفة قدرها . ثانيًا، نقوم بضبط النموذج على 42,000 هيكل مع تسميات فجوة نطاق DFT ونعمل على عينات من المواد بقيمة فجوة نطاق مستهدفة قدرها 3.0 eV. أخيرًا، نستهدف هياكل ذات مرونة حجمية عالية – وهي خاصية مهمة للمواد فائقة الصلابة. نقوم بضبط النموذج على 5,000 هيكل فقط، ونعمل على عينات بقيمة مستهدفة قدرها 400 GPa. بينما تم اختيار هذه المهام لتقييم عمومية النموذج، ستكون هناك حاجة لمزيد من التحقيقات لتقييم ملاءمة هذه المواد لتطبيقات محددة، على سبيل المثال، تحتاج المادة فائقة الصلابة إلى أن تكون لها مرونة قص عالية، ويحتاج المغناطيس الدائم إلى ترتيب مغناطيسي مناسب ودرجة حرارة حرجة. مزيد من التفاصيل التجريبية موجودة في المكمل D.8.
في الشكل 4 (أ-ج)، نلاحظ تحولًا كبيرًا في توزيع قيم الخصائص بين عينات S.U.N. التي تم توليدها بواسطة MatterGen نحو الأهداف المرغوبة، حتى عندما تكون الأهداف في ذيل توزيع البيانات. هذا لا يزال صحيحًا بالنسبة للخصائص التي يكون فيها عدد تسميات DFT المتاحة لضبط النموذج أصغر بكثير من حجم بيانات التدريب غير المسمى. في الشكل 4 (د-و) نعرض هياكل S.U.N.
مع أفضل قيم الخصائص المتوقعة التي تم توليدها بواسطة MatterGen لكل مهمة، مع تحليل إضافي في المكمل D.8.2.
علاوة على ذلك، نقيم عدد هياكل S.U.N. التي تلبي قيود الخصائص القصوى التي يمكن العثور عليها بواسطة MatterGen عندما يتم منحها ميزانية محدودة لحسابات خصائص DFT. كخط أساسي، نعد عدد المواد في مجموعة البيانات المعنونة للتعديل الدقيق التي تلبي القيد. نقارن أيضًا مع نهج الفحص، الذي يقوم بمسح المواد غير المعنونة سابقًا للبحث عن مرشحين واعدين. على عكس التجربة السابقة، نقوم بتعديل MatterGen بدقة باستخدام تسميات تم التنبؤ بها بواسطة متنبئ خصائص التعلم الآلي – نفس المتنبئ المستخدم لخط الأساس الفحص – عندما لا تكون مجموعة البيانات معنونة بالكامل. MatterGen قادر على العثور على ما يصل إلى 18 هيكل S.U.N. بكثافة مغناطيسية أعلى من باستخدام 180 حسابًا لخصائص DFT فقط (الشكل 4(ز)). نظرًا لأن مجموعة البيانات معنونة بالكامل، فلا يوجد خط أساس للفحص متاح. كما أن MatterGen يجد عددًا أكبر بكثير من مواد S.U.N. ذات معامل الحجم العالي مقارنة بالفحص (الشكل 4(ح)). بينما يتشبع عدد الهياكل التي تم العثور عليها بواسطة الفحص مع زيادة الميزانية، تواصل MatterGen اكتشاف هياكل S.U.N. بمعدل شبه ثابت. بالنظر إلى ميزانية قدرها 180 حسابًا لخصائص DFT، نجد 106 هياكل S.U.N. (مع 95 تركيبة مميزة)، وهو أكثر من ضعف العدد الذي تم العثور عليه باستخدام نهج الفحص (40.28 تركيبات مميزة). بالمقابل، هناك مادتان فقط في مجموعة البيانات المعنونة للتعديل الدقيق ذات قيم معامل حجم عالية كهذه. لاحظ أن كل من MatterGen والفحص ينتجان هياكل متعددة لكل نظام كيميائي تعتبر فريدة وفقًا لتعريفنا (الملحق D.4) ولكن يمكن أن تكون سبائك مع ستوكيوكيميائيات مختلفة [40].

2.5 تصميم مغناطيسات ذات مخاطر سلسلة إمداد منخفضة

تتطلب معظم مشاكل تصميم المواد العثور على هياكل تلبي قيود خصائص متعددة. بينما يمكن تعديل MatterGen بدقة لأي مجموعة من القيود، هنا نركز على تصميم مغناطيسات ذات مخاطر سلسلة إمداد منخفضة. نظرًا لأن العديد من المغناطيسات الدائمة عالية الأداء الحالية تحتوي على عناصر أرضية نادرة تشكل مخاطر على سلسلة الإمداد، فقد زاد الاهتمام في اكتشاف مغناطيسات دائمة خالية من العناصر الأرضية النادرة [46]. نبسط هذه المهمة للعثور على مواد ذات كثافة مغناطيسية عالية من ومؤشر هيرفيندال-هيرشمان (HHI) منخفض يبلغ 1250، حيث تعتبر المادة التي تحتوي على درجة HHI أقل من 1500 ذات مخاطر سلسلة إمداد منخفضة [47] (تفاصيل تجريبية في الملحق D.9.1)؛ في الممارسة العملية، يجب تلبية خصائص إضافية مثل القوة المغناطيسية العالية، والترتيب المغناطيسي المناسب، ودرجة الحرارة الحرجة.
الشكل 5: تصميم مغناطيسات ذات مخاطر سلسلة إمداد منخفضة. (أ) توزيع هياكل S.U.N. التي تم إنشاؤها بواسطة MatterGen عند تعديلها بدقة على درجة HHI (فردية) وعلى كل من درجة HHI وكثافة المغناطيسية (مشتركة)، بالإضافة إلى الهياكل من مجموعة البيانات المعنونة للتعديل الدقيق. الهدف الخاص بخصائص MatterGen موضح كصليب أسود. (ب) حدوث العناصر الأكثر تكرارًا في هياكل S.U.N. لنموذجي MatterGen المعدلين بدقة. (ج) هياكل S.U.N. على جبهة باريتو للنموذج المعدل بدقة بشكل مشترك، مع صيغها المختصرة، مجموعة الفضاء، كثافة المغناطيسية، ودرجة HHI.
في الشكل 5(أ)، نلاحظ أن MatterGen ينتج هياكل S.U.N. التي تتوزع بشكل ضيق حول القيم المستهدفة، على الرغم من أن بيانات التعديل المعنونة نادرة للغاية في تلك المنطقة. مقارنةً بنموذج يستهدف فقط قيم الكثافة المغناطيسية العالية (فردية)، فإن استهداف كلا الخصائص (مشتركة) يحول توزيع درجات HHI أقرب نحو القيمة المستهدفة المرغوبة مع الاحتفاظ بقيم الكثافة المغناطيسية العالية. بسبب درجات HHI المنخفضة، تم القضاء تقريبًا على العناصر التي توجد غالبًا في المغناطيسات التي تعاني من مشاكل في سلسلة الإمداد، مثل الكوبالت (Co) والغادولينيوم (Gd)، من الهياكل التي تم إنشاؤها بواسطة النموذج المعدل بدقة بشكل مشترك (الشكل 5(ب)). نعرض بعض هذه الهياكل في الشكل 5(ج) ونحللها بمزيد من التفصيل في الملحق D.9.2. أخيرًا، نجد أن MatterGen قد أعاد اكتشاف 67 هيكلًا غير منظم تم تصنيعه سابقًا من ICSD لم يتم رؤيته أثناء التدريب، العديد منها مشابه للمواد المغناطيسية الدائمة المعروفة (الملحق D.9.3).

2.6 التحقق التجريبي

كإثبات للمفهوم، نقوم بتصنيع مادة تم تصميمها بواسطة MatterGen ونظهر أن الخاصية المقاسة تجريبيًا قريبة من هدف تصميمنا. نقوم بإنشاء 8192 مرشحًا باستخدام نموذج تم تعديله بدقة على معامل الحجم لكل من قيم معامل الحجم الأربعة المستهدفة: ، و200 جيجا باسكال (الملحق D.10.1). نقوم بإجراء عدة جولات من التصفية بناءً على (1) التفرد والجدة، (2) الطاقة فوق استقرار القشرة من MatterSim [45] وDFT، (3) استقرار الفونون من MatterSim [45]، و(4) ما إذا كانت المادة تحتوي على الأكسجين (الملحق D.10.3). تضيق التصفية عدد المرشحين إلى 75، نختار منها أربعة للتصنيع التجريبي بعد الفحص من قبل الخبراء. كانت عملية التصنيع ناجحة لأحد المرشحين الأربعة (الملحق D.10.4 وD.10.5). وفقًا لتحليل تحسين ريتفيلد، فإن المادة المصنعة هي ، نسخة غير منظمة من الهيكل المنظم الذي توقعه MatterGen (الشكل 6(أ-ج)، الملحق D.10.6). تم إنشاء هذا الهيكل من خلال استهداف قيمة معامل الحجم 200 جيجا باسكال؛ نتوقع قيمة 222 جيجا باسكال باستخدام DFT للهيكل المنظم الذي تم إنشاؤه بواسطة MatterGen، وقيم معامل الحجم المماثلة (219 جيجا باسكال) لاثنين من التقريبات المنظمة الأخرى التي تتوافق مع نفس الهيكل غير المنظم (الشكل 6(ج)). نقوم أيضًا بقياس معامل يونغ للعينة تجريبيًا عبر النانو-indent، ونقدر معامل الحجم باستخدام نسبة بواسون المحسوبة بواسطة DFT والتي تبلغ 0.30. معامل الحجم المقدر يصل إلى 169 جيجا باسكال بعد أربع قياسات ، حيث أن الحد الأقصى من القياسات الأربع هو أفضل تقدير لدينا نظرًا لأن عينة المسحوق التجريبية من المحتمل أن تكون غير مضغوطة (الملحق D.10.8).
من خلال فحص العينات الأصلية البالغ عددها 8192 التي تم إنشاؤها لكل من القيم الأربعة المستهدفة، نجد أن MatterGen قد أعاد اكتشاف مركبات ICSD التي تم التحقق منها تجريبيًا والتي لم تكن موجودة في مجموعة التدريب لدينا (الملحق D.10.2). نحدد 101 تطابقًا وفقًا لمطابق هيكلنا المنظم-غير المنظم (الملحق D.4)، ونحسب بنجاح قيم معامل الحجم DFT لـ 95 منها (الشكل 6(د)). تتماشى القيم المحسوبة بواسطة DFT بشكل جيد مع القيم المستهدفة المستخدمة للتوليد الشرطي، مع متوسط خطأ مطلق يبلغ 23 جيجا باسكال وخطأ جذر متوسط مربع يبلغ 32 جيجا باسكال.
الشكل 6: التحقق التجريبي للهياكل المولدة. (أ) تحسين ريتفيلد للعينة التجريبية التي نصنعها، بما في ذلك طيف حيود الأشعة السينية المقاس (XRD) (نقاط صفراء)، الملاءمة النظرية (خط أسود)، والفرق بين الاثنين (خط أزرق). تبرز العلامات الرأسية (بنفسجي) القمم الرئيسية لـ و . تم تضمين صورة للعينة. (ب) عرضان للهيكل الذي تم إنشاؤه بواسطة MatterGen والذي نستخدمه كهدف للتصنيع، مع الصيغة المختصرة، مجموعة الفضاء، وقيمة معامل الحجم DFT. (ج) عرضان للهيكل غير المنظم الذي نصنعه تجريبيًا. (د) قيم معامل الحجم DFT للهياكل التي تم إنشاؤها بواسطة MatterGen والتي تتطابق مع الهياكل التي تم التحقق منها تجريبيًا من ICSD والتي لم تكن موجودة في مجموعة بيانات التدريب، عبر أربعة قيم مختلفة لمعامل الحجم المستهدف. مثلث أصفر يشير إلى الهيكل المولد من (ب).

3 المناقشة

تعد النماذج التوليدية واعدة في معالجة مهام التصميم العكسي حيث يمكنها استكشاف الهياكل الجديدة بكفاءة مع الخصائص المرغوبة. ومع ذلك، فإن توليد الهيكل ثلاثي الأبعاد للمواد البلورية المستقرة يمثل تحديًا بسبب دوريتها والتفاعل بين أنواع الذرات والإحداثيات والشبكة. يحسن MatterGen من قيود الطرق السابقة من خلال تقديم عملية انتشار مشتركة لأنواع الذرات والإحداثيات والشبكة، والتي – بالاقتران مع مجموعة بيانات تدريب أكبر بكثير – تزيد بشكل كبير من الاستقرار والتفرد والجدة للمواد المولدة. يمكن ضبط MatterGen بدقة لتوليد هياكل S.U.N. التي تلبي القيود المستهدفة عبر مجموعة واسعة من الخصائص، مع تحسينات في الأداء مقارنة بالطرق المستخدمة على نطاق واسع مثل RSS المدعوم بـ MLFF والاستبدال، بالإضافة إلى الفحص المدعوم بـ ML. لقد تحققنا من أن MatterGen قادر على توليد هياكل قابلة للتصنيع من خلال تصنيع هيكل مأخوذ عشوائيًا تجريبيًا وإعادة اكتشاف مواد تم تصنيعها سابقًا لم يرها النموذج.
على الرغم من هذه التقدمات، لا يزال يمكن تحسين MatterGen بعدة طرق. على سبيل المثال، نلاحظ أن النموذج يولد بشكل غير متناسب هياكل ذات تناظر P1 مقارنة ببيانات التدريب، مما يشير إلى ميل لتوليد هياكل أقل تناظرًا، خاصة بالنسبة للبلورات الأكبر (المكمل D.2). نفترض أن تحسينات إضافية على عملية إزالة الضوضاء، وهندسة العمود الفقري، وتوسيع مجموعة بيانات التدريب يمكن أن تمكن النموذج من التغلب على مثل هذه القضايا. كما نعترف بأن تقييماتنا تغطي فقط بعض المعايير المطلوبة للتطبيق في العالم الحقيقي، مع كون التحقق التجريبي والتوصيف هو الاختبار النهائي [40]. نناقش التحديات في تقييم جودة المواد البلورية من النماذج التوليدية في المكمل D.2.
نعتقد أن نطاق قدرات MatterGen وجودة المواد المولدة تمثل تقدمًا كبيرًا نحو إنشاء نموذج توليدي عالمي للمواد. نظرًا للتأثير الهائل للنماذج التوليدية في مجالات مثل توليد الصور [48] وتصميم البروتينات [49]، نتخيل أن نماذج مثل MatterGen ستغير أيضًا تصميم المواد في السنوات القادمة. وبالتالي، نحن متحمسون للعديد من الاتجاهات التي يمكن توسيع MatterGen فيها. على سبيل المثال، يمكن توسيع MatterGen لتغطية فئة أوسع من المواد تتراوح من أسطح المحفزات إلى الهياكل العضوية المعدنية، مما يمكننا من معالجة مشاكل صعبة
مثل تثبيت النيتروجين [50] والتقاط الكربون [3]. يمكن توسيع قيود الخصائص لتشمل كميات غير عددية مثل هيكل النطاق أو طيف XRD، مما سيمكن التطبيقات من هندسة النطاق إلى التنبؤ بالهياكل الذرية لطيف XRD المقاس تجريبيًا لعينات غير معروفة.

References

[1] Zhao, Q., Stalin, S., Zhao, C.-Z., Archer, L.A.: Designing solid-state electrolytes for safe, energy-dense batteries. Nature Reviews Materials 5(3), 229-252 (2020)
[2] Zhao, Z.-J., Liu, S., Zha, S., Cheng, D., Studt, F., Henkelman, G., Gong, J.: Theory-guided design of catalytic materials using scaling relationships and reactivity descriptors. Nature Reviews Materials 4(12), 792-804 (2019)
[3] Sumida, K., Rogow, D.L., Mason, J.A., McDonald, T.M., Bloch, E.D., Herm, Z.R., Bae, T.-H., Long, J.R.: Carbon dioxide capture in metal-organic frameworks. Chemical reviews 112(2), 724-781 (2012)
[4] Xie, T., Fu, X., Ganea, O.-E., Barzilay, R., Jaakkola, T.S.: Crystal diffusion variational autoencoder for periodic material generation. In: International Conference on Learning Representations (2022)
[5] Zhao, Y., Siriwardane, E.M.D., Wu, Z., Fu, N., Al-Fahdi, M., Hu, M., Hu, J.: Physics guided deep learning for generative design of crystal materials with symmetry constraints. npj Computational Materials 9(1), 38 (2023)
[6] Kim, S., Noh, J., Gu, G.H., Aspuru-Guzik, A., Jung, Y.: Generative adversarial networks for crystal structure prediction. ACS central science 6(8), 1412-1420 (2020)
[7] Zheng, S., He, J., Liu, C., Shi, Y., Lu, Z., Feng, W., Ju, F., Wang, J., Zhu, J., Min, Y., et al.: Towards predicting equilibrium distributions for molecular systems with deep learning. arXiv preprint arXiv:2306.05445 (2023)
[8] Yang, M., Cho, K., Merchant, A., Abbeel, P., Schuurmans, D., Mordatch, I., Cubuk, E.D.: Scalable diffusion for materials generation. arXiv preprint arXiv:2311.09235 (2023)
[9] Noh, J., Kim, J., Stein, H.S., Sanchez-Lengeling, B., Gregoire, J.M., AspuruGuzik, A., Jung, Y.: Inverse design of solid-state materials via a continuous representation. Matter 1(5), 1370-1384 (2019)
[10] Antunes, L.M., Butler, K.T., Grau-Crespo, R.: Crystal structure generation with autoregressive large language modeling. arXiv preprint arXiv:2307.04340 (2023)
[11] Mila AI4Science, Hernandez-Garcia, A., Duval, A., Volokhova, A., Bengio, Y., Sharma, D., Carrier, P.L., Koziarski, M., Schmidt, V.: Crystal-GFN:
sampling crystals with desirable properties and constraints. arXiv preprint arXiv:2310.04925 (2023)
[12] Jiao, R., Huang, W., Lin, P., Han, J., Chen, P., Lu, Y., Liu, Y.: Crystal structure prediction by joint equivariant diffusion. In: Thirty-seventh Conference on Neural Information Processing Systems (2023). https://openreview.net/forum? id=DNdN26m2Jk
[13] Curtarolo, S., Hart, G.L., Nardelli, M.B., Mingo, N., Sanvito, S., Levy, O.: The high-throughput highway to computational materials design. Nature materials 12(3), 191-201 (2013)
[14] Jain, A., Ong, S.P., Hautier, G., Chen, W., Richards, W.D., Dacek, S., Cholia, S., Gunter, D., Skinner, D., Ceder, G., Persson, K.A.: Commentary: The Materials Project: A materials genome approach to accelerating materials innovation. APL materials 1(1), 011002 (2013)
[15] Curtarolo, S., Setyawan, W., Hart, G.L., Jahnatek, M., Chepulskii, R.V., Taylor, R.H., Wang, S., Xue, J., Yang, K., Levy, O., et al.: AFLOW: An automatic framework for high-throughput materials discovery. Computational Materials Science 58, 218-226 (2012)
[16] Kirklin, S., Saal, J.E., Meredig, B., Thompson, A., Doak, J.W., Aykol, M., Rühl, S., Wolverton, C.: The Open Quantum Materials Database (OQMD): assessing the accuracy of DFT formation energies. npj Computational Materials 1(1), 1-15 (2015)
[17] Talirz, L., Kumbhar, S., Passaro, E., Yakutovich, A.V., Granata, V., Gargiulo, F., Borelli, M., Uhrin, M., Huber, S.P., Zoupanos, S., et al.: Materials Cloud, a platform for open computational science. Scientific data 7(1), 299 (2020)
[18] Xie, T., Grossman, J.C.: Crystal graph convolutional neural networks for an accurate and interpretable prediction of material properties. Physical review letters 120(14), 145301 (2018)
[19] Chen, C., Ye, W., Zuo, Y., Zheng, C., Ong, S.P.: Graph networks as a universal machine learning framework for molecules and crystals. Chemistry of Materials 31(9), 3564-3572 (2019)
[20] Unke, O.T., Chmiela, S., Sauceda, H.E., Gastegger, M., Poltavsky, I., Schütt, K.T., Tkatchenko, A., Müller, K.-R.: Machine learning force fields. Chemical Reviews 121(16), 10142-10186 (2021)
[21] Chen, C., Ong, S.P.: A universal graph deep learning interatomic potential for the periodic table. Nature Computational Science 2(11), 718-728 (2022)
[22] Zhong, M., Tran, K., Min, Y., Wang, C., Wang, Z., Dinh, C.-T., De Luna,
P., Yu, Z., Rasouli, A.S., Brodersen, P., et al.: Accelerated discovery of CO2 electrocatalysts using active machine learning. Nature 581(7807), 178-183 (2020)
[23] Merchant, A., Batzner, S., Schoenholz, S.S., Aykol, M., Cheon, G., Cubuk, E.D.: Scaling deep learning for materials discovery. Nature (2023)
[24] Shen, J., Griesemer, S.D., Gopakumar, A., Baldassarri, B., Saal, J.E., Aykol, M., Hegde, V.I., Wolverton, C.: Reflections on one million compounds in the open quantum materials database (OQMD). Journal of Physics: Materials 5(3), 031001 (2022)
[25] Schmidt, J., Hoffmann, N., Wang, H.-C., Borlido, P., Carriço, P.J., Cerqueira, T.F., Botti, S., Marques, M.A.: Large-scale machine-learning-assisted exploration of the whole materials space. arXiv preprint arXiv:2210.00579 (2022)
[26] Davies, D.W., Butler, K.T., Jackson, A.J., Morris, A., Frost, J.M., Skelton, J.M., Walsh, A.: Computational screening of all stoichiometric inorganic materials. Chem 1(4), 617-627 (2016)
[27] Sanchez-Lengeling, B., Aspuru-Guzik, A.: Inverse molecular design using machine learning: Generative models for matter engineering. Science 361(6400), 360-365 (2018)
[28] Schmidt, J., Marques, M.R., Botti, S., Marques, M.A.: Recent advances and applications of machine learning in solid-state materials science. npj Computational Materials 5(1), 83 (2019)
[29] Allahyari, Z., Oganov, A.R.: Coevolutionary search for optimal materials in the space of all possible compounds. npj Computational Materials 6(1), 55 (2020)
[30] Law, J.N., Pandey, S., Gorai, P., St. John, P.C.: Upper-bound energy minimization to search for stable functional materials with graph neural networks. JACS Au 3(1), 113-123 (2022)
[31] Ren, Z., Tian, S.I.P., Noh, J., Oviedo, F., Xing, G., Li, J., Liang, Q., Zhu, R., Aberle, A.G., Sun, S., et al.: An invertible crystallographic representation for general inverse design of inorganic crystals with targeted properties. Matter 5(1), 314-335 (2022)
[32] Sultanov, A., Crivello, J.-C., Rebafka, T., Sokolovska, N.: Data-driven score-based models for generating stable structures with adaptive crystal cells. Journal of Chemical Information and Modeling 63(22), 6986-6997 (2023)
[33] Song, Y., Ermon, S.: Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems 32 (2019)
[34] Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Advances
in Neural Information Processing Systems 33, 6840-6851 (2020)
[35] Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: International Conference on Learning Representations (2021)
[36] Zhang, L., Rao, A., Agrawala, M.: Adding conditional control to text-to-image diffusion models. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836-3847 (2023)
[37] Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)
[38] Schmidt, J., Wang, H.-C., Cerqueira, T.F., Botti, S., Marques, M.A.: A dataset of 175 k stable and metastable materials calculated with the PBEsol and SCAN functionals. Scientific Data 9(1), 64 (2022)
[39] Zagorac, D., Müller, H., Ruehl, S., Zagorac, J., Rehme, S.: Recent developments in the inorganic crystal structure database: theoretical crystal structure data and related features. Journal of Applied Crystallography 52(5), 918-925 (2019)
[40] Leeman, J., Liu, Y., Stiles, J., Lee, S.B., Bhatt, P., Schoop, L.M., Palgrave, R.G.: Challenges in high-throughput inorganic materials prediction and autonomous synthesis. PRX Energy 3(1), 011002 (2024)
[41] Gebauer, N., Gastegger, M., Schütt, K.: Symmetry-adapted generation of 3D point sets for the targeted discovery of molecules. Advances in Neural Information Processing Systems 32 (2019)
[42] Oganov, A.R., Pickard, C.J., Zhu, Q., Needs, R.J.: Structure prediction drives materials discovery. Nature Reviews Materials 4(5), 331-348 (2019)
[43] Pickard, C.J., Needs, R.J.: Ab initio random structure searching. Journal of Physics: Condensed Matter 23(5), 053201 (2011)
[44] Ferreira, P.P., Conway, L.J., Cucciari, A., Di Cataldo, S., Giannessi, F., Kogler, E., Eleno, L.T., Pickard, C.J., Heil, C., Boeri, L.: Search for ambient superconductivity in the Lu-NH system. Nature Communications 14(1), 5367 (2023)
[45] Yang, H., Hu, C., Zhou, Y., Liu, X., Shi, Y., Li, J., Li, G., Chen, Z., Chen, S., Zeni, C., et al.: MatterSim: A deep learning atomistic model across elements, temperatures and pressures. arXiv preprint arXiv:2405.04967 (2024)
[46] Cui, J., Kramer, M., Zhou, L., Liu, F., Gabay, A., Hadjipanayis, G., Balasubramanian, B., Sellmyer, D.: Current progress and future challenges in rare-earth-free permanent magnets. Acta Materialia 158, 118-137 (2018)
[47] Gaultois, M.W., Sparks, T.D., Borg, C.K., Seshadri, R., Bonificio, W.D., Clarke,
D.R.: Data-driven review of thermoelectric materials: performance and resource considerations. Chemistry of Materials 25(15), 2911-2920 (2013)
[48] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., Chen, M.: Hierarchical textconditional image generation with CLIP latents. arXiv preprint arXiv:2204.06125 1(2), 3 (2022)
[49] Watson, J.L., Juergens, D., Bennett, N.R., Trippe, B.L., Yim, J., Eisenach, H.E., Ahern, W., Borst, A.J., Ragotte, R.J., Milles, L.F., et al.: De novo design of protein structure and function with RFdiffusion. Nature (7976), 1089-1100 (2023)
[50] Guo, W., Zhang, K., Liang, Z., Zou, R., Xu, Q.: Electrochemical nitrogen fixation and utilization: theories, advanced catalyst materials and system design. Chemical Society Reviews 48(24), 5658-5716 (2019)

توفر البيانات

تتوفر مجموعات بيانات Alex-MP لتدريب وضبط نموذج MatterGen على https://github.com/microsoft/mattergen، جنبًا إلى جنب مع ملفات CIF للهياكل البلورية المقدمة في المخطوطة، وملفات عمق التحميل لقياسات النانو، وملف XRD المقاس، وتحسين Rietveld لـ العينة. هياكل MP (v2022.10.28) مأخوذة من https://materialsproject.org وهياكل الإسكندرية مأخوذة من https://doi.org/10.24435/materialscloud:m7-50، كلاهما تحت ترخيص CC BY 4.0. يتم توفير معرفات هياكل ICSD (الإصدار 2023.1) المستخدمة كجزء من مجموعة الاختبار الخاصة بنا في المعلومات التكميلية؛ الهياكل متاحة على https://icsd.products.fiz-karlsruhe.de تحت ترخيص تجاري.

توفر الشيفرة

يتوفر الشيفرة المصدرية لـ MatterGen على https://github.com/microsoft/mattergen.
الشكر نتقدم بالشكر لزملائنا من Microsoft Research AI for Science على مساهماتهم ودعمهم، بما في ذلك أندرو فونغ، باس فيلينغ، يو شيا، كارين شتراوس، كيكوانغ يان، كريستيان بودنار، ريان فان دن بيرغ، فرانك نو، ماروين سيجلر، إليز فان دير بول، ماكس ويلينغ، راشيل هوارد، تي-يان ليو، بوني كروفت، وكريس بيشوب؛ فريق Microsoft Azure Quantum بما في ذلك تشي تشين، ليوبولد تاليرز وناثان بيكر، فريق مشروع المواد، وكريس بيكارد لتقديم الملاحظات؛ وفريق AI على Xbox لتوفير جزء من الحوسبة.
مساهمات المؤلفين AF، MH، RP، RT، TX، CZ وDZ (مرتبة أبجديًا) تصوروا الدراسة، نفذوا الطرق، أجروا تجارب حسابية، وكتبوا المخطوطة. قاد XF تطوير وحدات المحول. قاد ZW، CY، WL التخليق التجريبي والتوصيفات. نفذ AS وأدار توليد الشروط المتناظرة. نفذ JS سير العمل الخاص بفجوة النطاق. اقترح BN مهمة المغناطيسات ذات المخاطر المنخفضة في سلسلة التوريد. طور ZL، YZ، HY، HH، وJL مجال القوة التعلم الآلي. ساعد XF، SS، JC، LS، JS، BN، HS، SL، CWH، ZL، YZ، HY، HH، وJL في تنفيذ الطرق، وإجراء التجارب الحسابية، وكتابة المخطوطة. عمل SU وRS كمديري مشروع. قاد TX وRT البحث.
المصالح المتنافسة AF، MH، RP، RT، TX، CZ وDZ هم مخترعون لطلب براءة الاختراع المعلقة، غير المؤقت 18/759،208 باسم Microsoft Technology Licensing LLC، المتعلقة بالنماذج التوليدية لتصميم المواد الحسابية. يعلن المؤلفون الآخرون عدم وجود مصالح متنافسة.

معلومات إضافية

المعلومات التكميلية متاحة لهذه الورقة.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى تيان شيا أو ريوتا توميوكا.

معلومات مراجعة الأقران

تتوفر معلومات إعادة الطبع والأذونات على www.nature.com/reprints.








C




(C2/m)










Ta Cr O
قيمة معامل الحجم المستهدف [GPa]

Journal: Nature, Volume: 639, Issue: 8055
DOI: https://doi.org/10.1038/s41586-025-08628-5
PMID: https://pubmed.ncbi.nlm.nih.gov/39821164
Publication Date: 2025-01-16

Accelerated Article Preview

A generative model for inorganic materials design

Received: 17 January 2024
Accepted: 10 January 2025
Accelerated Article Preview
Cite this article as: Zeni, C. et al. A generative model for inorganic materials design. Nature https://doi.org/10.1038/s41586-025-08628-5 (2025)
Claudio Zeni, Robert Pinsler, Daniel Zügner, Andrew Fowler, Matthew Horton, Xiang Fu, Zilong Wang, Aliaksandra Shysheya, Jonathan Crabbé, Shoko Ueda, Roberto Sordillo, Lixin Sun, Jake Smith, Bichlien Nguyen, Hannes Schulz, Sarah Lewis, Chin-Wei Huang, Ziheng Lu, Yichi Zhou, Han Yang, Hongxia Hao, Jielan Li, Chunlei Yang, Wenjie Li, Ryota Tomioka & Tian Xie
This is a PDF file of a peer-reviewed paper that has been accepted for publication. Although unedited, the content has been subjected to preliminary formatting. Nature is providing this early version of the typeset paper as a service to our authors and readers. The text and figures will undergo copyediting and a proof review before the paper is published in its final form. Please note that during the production process errors may be discovered which could affect the content, and all legal disclaimers apply.

A generative model for inorganic materials design

Claudio Zeni ® , Robert Pinsler ® , Daniel Zügner ® , Andrew Fowler ® , Matthew Horton ® , Xiang Fu ® , Zilong Wang ® , Aliaksandra Shysheya , Jonathan Crabbé ® , Shoko Ueda , Roberto Sordillo , Lixin Sun , Jake Smith , Bichlien Nguyen , Hannes Schulz , Sarah Lewis , Chin-Wei Huang , Ziheng Lu , Yichi Zhou , Han Yang , Hongxia Hao , Jielan Li , Chunlei Yang , Wenjie Li , Ryota Tomioka ® , Tian Xie (1) Microsoft Research AI for Science, Cambridge, UK. Microsoft Research AI for Science, Berlin, Germany. Microsoft Research AI for Science, Redmond, USA. Microsoft Research AI for Science, Shanghai, China. Microsoft Research AI for Science, Beijing, China. Microsoft Research AI for Science, Amsterdam, Netherlands. Shenzhen Institute of Advanced Technology, Chinese Academy of Science, Shenzhen 518055, China.*Corresponding author(s). E-mail(s): ryoto@microsoft.com; tianxie@microsoft.com;

Equal contribution; non-corresponding authors are listed in random order.

Abstract

The design of functional materials with desired properties is essential in driving technological advances in areas like energy storage, catalysis, and carbon capture [1-3]. Generative models provide a new paradigm for materials design by directly generating novel materials given desired property constraints, but current methods have low success rate in proposing stable crystals or can only satisfy a limited set of property constraints [4-11]. Here, we present MatterGen, a model that generates stable, diverse inorganic materials across the periodic table and can further be fine-tuned to steer the generation towards a broad range of property constraints. Compared to prior generative models [4, 12], structures produced by

Abstract

MatterGen are more than twice as likely to be novel and stable, and more than 10 times closer to the local energy minimum. After fine-tuning, MatterGen successfully generates stable, novel materials with desired chemistry, symmetry, as well as mechanical, electronic and magnetic properties. As a proof of concept, we synthesize one of the generated structures and measure its property value to be within of our target. We believe that the quality of generated materials and the breadth of MatterGen’s capabilities represent a major advancement towards creating a foundational generative model for materials design.

1 Introduction

The rate at which we can discover better materials has a major impact on the pace of technological innovation in areas such as carbon capture, semiconductor design, and energy storage [1-3]. Traditionally, most materials have been discovered through experimentation and human intuition, limiting the number of candidates that can be tested and causing long iteration cycles. Thanks to the advance of high-throughput screening [13], open material databases [14-17], machine-learning-based property predictors [18, 19], and machine learning force fields (MLFFs) [20, 21], it has become possible to screen hundreds of thousands of materials to identify promising candidates [22, 23]. However, screening-based methods are still fundamentally limited by the number of known materials. The largest explorations of previously unknown crystalline materials are in the orders of materials [21, 23-25], which is only a tiny fraction of the number of potential stable inorganic compounds [26]. Moreover, these methods cannot be efficiently steered towards finding materials with target properties.
Given these limitations, there has been great interest in the inverse design of materials [27, 28]. The aim of inverse design is to directly generate material structures that satisfy target property constraints, e.g., via generative models [4, 8, 11], evolutionary algorithms [29], and reinforcement learning [30]. Generative models are promising since they can efficiently explore new structures and be flexibly adapted to different downstream tasks. However, current generative models often fall short of producing stable materials according to density functional theory (DFT) calculations [4,5,31], are constrained by a narrow subset of elements [7,9], and/or can only optimize a very limited set of properties, mainly formation energy [4, 5, 8, 11, 31, 32].
In this study, we present MatterGen, a diffusion-based generative model that generates stable, diverse inorganic materials across the periodic table and can be fine-tuned towards a wide range of downstream tasks for inverse materials design (Fig. 1). To enable this, we introduce a diffusion process that generates crystal structures by gradually refining atom types, coordinates, and the periodic lattice. We further introduce adapter modules to enable fine-tuning on desired chemical composition, symmetry, and scalar property constraints like magnetic density. Compared to previous state-of-the-art generative models for materials [4, 12], MatterGen more than doubles the percentage of generated stable, unique, and novel (S.U.N.) materials, and generates structures that are more than 10 times closer to their ground-truth structures at the DFT local energy minimum (Fig. 2). MatterGen’s broad conditioning capabilities
Fig. 1: Inorganic materials design with MatterGen. (a) MatterGen generates stable materials by reversing a corruption process through iteratively denoising a random structure. The forward diffusion process independently corrupts atom types , coordinates , and the lattice towards a physically motivated distribution of random materials. (b) An equivariant score network is pre-trained on a large dataset of stable material structures to jointly denoise atom types, coordinates, and the lattice. The score network is then fine-tuned with a labeled dataset through an adapter module that adapts the model using the encoded property . (c) The fine-tuned model generates materials with desired chemistry, symmetry, or scalar property constraints.
enable inverse materials design for a much wider range of problems than prior generative models. When fine-tuned, MatterGen often generates more S.U.N. materials in target chemical systems than well-established methods like substitution and random structure search (RSS) (Fig. 3), is capable of generating highly symmetric structures given desired space groups (Fig. D8), and directly generates S.U.N. materials that satisfy target mechanical, electronic, and magnetic property constraints (Fig. 4). MatterGen is also able to design materials given multiple property constraints, e.g., high magnetic density and a chemical composition with low supply-chain risk (Fig. 5). As a proof of concept, we validate MatterGen’s design capabilities by synthesizing a generated material and measuring its property to be within of our target (Fig. 6).

2 Results

2.1 Diffusion process for materials

MatterGen is a a diffusion model tailored for designing crystalline materials across the periodic table (Fig. 1(a)). Diffusion models generate samples by reversing a fixed corruption process via a learned score network [33-35]. Corruption processes for images typically add Gaussian noise but crystalline materials have unique periodic structure and symmetries which demand a customized diffusion process. We define a crystalline material by its repeating unit, i.e., its unit cell, comprising the atom types (i.e., chemical elements), coordinates , and periodic lattice (Supplementary A. 1 and A.2). For each component, we define a corruption process that considers its particular geometry and has a physically motivated limiting noise distribution. The coordinate diffusion respects the periodic boundary via a wrapped Normal distribution and approaches a uniform distribution at the noisy limit. We adjust for the effect of cell size on the fractional coordinate diffusion in Cartesian space by scaling the noise magnitude accordingly (Supplementary A.6). Our lattice diffusion takes a symmetric form and approaches a distribution whose mean is a cubic lattice with average atomic density from the training data (Supplementary A.7). Atom types are diffused in categorical space where individual atoms are corrupted into a masked state (Supplementary A.5). To reverse the corruption process, we learn a score network that outputs equivariant scores for atom types, coordinates, and lattice, removing the need to learn symmetries from data (Supplementary A. 8 and A.9).
To design materials with desired property constraints, we introduce adapter modules for fine-tuning the score model on an additional dataset with property labels (Fig. 1(b), Supplementary B). The adapter modules are tunable components injected into each layer of the base model to alter its output depending on the given property label [36]. Fine-tuning is appealing as it still works well if the labeled dataset is small compared to unlabeled structure datasets, as is often the case due to the high computational cost of calculating properties. The fine-tuned model is used in combination with classifier-free guidance [37] to steer the generation towards target property constraints. We apply this approach to multiple types of constraints, producing a set of fine-tuned models that can generate materials with target chemical composition, symmetry, or scalar properties such as magnetic density (Fig. 1(c)). These broad conditioning capabilities combined with the improvements in the diffusion process over prior work [4,12] are key for addressing a wide range of inverse design problems (Supplementary A.11).

2.2 Generating stable, diverse materials

We formulate learning a generative model for inverse materials design as a two-step process, where we first pre-train a general base model for generating stable, diverse crystals across the periodic table, and then we fine-tune this model towards different downstream tasks. To train the base model, we curate a large and diverse dataset, Alex-MP-20, comprising 607,683 stable structures with up to 20 atoms recomputed from the Materials Project (MP) [14] and Alexandria [25, 38] datasets (Supplementary C).
In this section, we focus on the ability of MatterGen’s base model to generate stable, diverse materials, which we argue is a prerequisite for addressing any inverse materials design task. Since diversity is difficult to measure directly, we resort to quantifying MatterGen’s ability to generate S.U.N. materials (Supplementary D.3), and provide an additional analysis of the quality and diversity of generated structures. We consider a structure to be stable if its energy per atom after relaxation via DFT is within atom above the convex hull defined by a reference dataset, Alex-MPICSD, comprising 850,384 unique structures recomputed from the MP [14], Alexandria [25, 38], and Inorganic Crystal Structure Database (ICSD) [39] datasets (Supplementary C). We consider a structure to be unique if it does not match any other structure generated by the same method. We consider a structure to be novel if it does not match any structure present in an extended version of Alex-MP-ICSD containing 117,652 disordered ICSD structures in addition to the 850,384 ordered structures used to compute the reference convex hull. To account for compositional disorder effects [40], we match structures based on a newly proposed ordered-disordered structure matcher (Supplementary D.4). We adopt these definitions throughout unless stated otherwise.
Fig. 2(a) shows several random samples generated by MatterGen, featuring typical coordination environments of inorganic materials; see Supplementary D.5.3 for a more detailed analysis. To assess stability, we perform DFT calculations on 1024 generated structures. Fig. 2(b) shows that of generated structures fall below the 0.1 eV /atom threshold ( below atom ) of MP’s convex hull, while fall below the atom threshold ( below atom ) of the combined Alex-MP-ICSD hull. Further, of generated structures have an RMSD w.r.t. their
Fig. 2: Generating stable, unique and novel inorganic materials. (a) Visualization of four randomly selected crystals generated by MatterGen, with corresponding reduced formula and space group. (b) Distribution of energy above hull values of generated structures using MP and Alex-MP-ICSD datasets as energy references, respectively. (c) Distribution of root mean squared displacement (RMSD) between initial generated and DFT-relaxed structures. (d) Percentage of unique, novel structures as a function of number of generated structures. (e-f) Percentage of S.U.N. structures (e) and average RMSD between initial and DFT-relaxed structures (f) for MatterGen, MatterGen-MP and several baseline models, including DiffCSP [12], CDVAE [4], P-G-SchNet, G-SchNet [41], and FTCP [31]. Training datasets are in parentheses.
DFT-relaxed structures that is below (Fig. 2(c)), which is almost one order of magnitude smaller than the atomic radius of the hydrogen atom . These results indicate that the majority of structures generated by MatterGen are stable, and very close to the DFT local energy minimum.
We further investigate whether MatterGen can generate a substantial amount of unique and novel materials. We find that the percentage of unique structures is when generating 1000 structures and only drops to after generating ten million structures, while of generated structures are novel (Fig. 2(d)). This suggests that MatterGen is able to generate diverse structures without significant saturation even at a large scale, and that the majority of those structures are novel w.r.t. Alex-MPICSD. Remarkably, we also find that MatterGen has re-discovered more than 2000 experimentally verified structures from ICSD not seen during training (Supplementary D.5.4), showing its ability to generate synthesizable materials.
Next, we benchmark MatterGen against previous generative models for materials and show a significant performance improvement. We focus on two metrics averaged over 1000 generated samples from each method: (1) the percentage of S.U.N. materials among generated samples, measuring the success rate of generating promising candidates, and (2) the average RMSD between generated samples and their DFTrelaxed structures, measuring the distance to equilibrium (Supplementary D.5.1). We also compare to MatterGen-MP, which is a MatterGen model trained only on MP-20, i.e., the same, smaller, dataset used by the other baselines. Compared to the previous state-of-the-art methods CDVAE [4] and DiffCSP [12], MatterGen-MP generates more S.U.N. structures while the average RMSD of the generated structures is lower (Fig. 2(e-f)). We find that our model design choices are crucial for the improved performance (Supplementary A.10). When comparing MatterGen with MatterGenMP, we observe a further 70 % increase in the percentage of S.U.N. structures and a five times decrease in RMSD as a result of scaling up the training dataset.
Combining both model and data improvements, MatterGen generates structures that are more than twice as likely to be S.U.N. compared to previous generative models while the generated structures are up to an order of magnitude closer to their local energy minimum. Next, we fine-tune the pre-trained base model of MatterGen towards different downstream applications, including target chemistry (Section 2.3) and scalar property constraints (Sections 2.4 and 2.5), with additional experimental validation
Fig. 3: Generating materials in target chemical system. (a-b) Mean percentage of S.U.N. structures generated by MatterGen and baselines for 27 chemical systems, grouped by system type (a) and number of elements (b). Error bars denote percentile intervals . Number of structures on the combined convex hull found by each method and in the Alex-MP-ICSD dataset, grouped by system type (c) and number of elements (d). (e) Convex hull diagram for V-Sr-O, a well-explored ternary system. Dots denote structures on the hull, their coordinates show the element ratio of their composition, and their color indicates by which method they were discovered. (f-i) Four structures MatterGen discovered (re-discovered in the case of (f)) on the V-Sr-O hull depicted in (e), along with their reduced formula and space group.
in Section 2.6. Results for fine-tuning on symmetry constraints are in Supplementary D.7.

2.3 Chemistry-guided design

Finding the most stable material structures in a target chemical system (e.g., Li-Co-O) is crucial to define the true convex hull required for assessing stability, and indeed is one of the major challenges in materials design [42]. The most comprehensive approach for this task is ab initio RSS [43], which has been used to discover many novel materials that were later experimentally synthesized [42]. The biggest drawback of RSS is its computational cost, as the thorough exploration of even a ternary compound can require hundreds of thousands of DFT relaxations. In recent years, the combination of generating structures via RSS, substitution or evolutionary methods with MLFFs has proven successful in exploring chemical systems [21, 23, 44].
Here, we evaluate MatterGen’s ability to explore target chemical systems by comparing it with substitution and RSS. We equip all methods with the MatterSim [45] MLFF to pre-relax and filter the generated structures by their predicted stability before running more expensive DFT calculations. We fine-tune the MatterGen base model (Supplementary B.1) and steer the generation towards different target chemical systems and an energy above hull of atom. We evaluate the methods on nine ternary, nine quaternary, and nine quinary chemical systems. For each of these three groups, we pick three chemical systems at random from the following categories: well explored, partially explored, and not explored (Supplementary D.6).
MatterGen generates the highest percentage of S.U.N. structures for every system type and every chemical complexity (Fig. 3(a-b)). In addition, MatterGen finds the highest number of unique structures on the combined convex hull in (1) ‘partially explored’ systems, where existing known structures near the hull were provided during training, and in (2) ‘well-explored systems’, where structures near the hull are known but were not provided in training (Fig. 3(c)). While substitution offers a comparable or more efficient way to generate structures on the hull for ternary and quaternary systems, MatterGen achieves better performance on quinary systems (Fig. 3(d)). Remarkably, the strong performance of MatterGen in quinary systems was achieved with only 10,240 generated samples, compared to samples for substitution and 600,000 for RSS. This underscores the enormous efficiency gains that can
Fig. 4: Designing materials with target magnetic, electronic, and mechanical properties. (a-c) Density of property values among (1) S.U.N. samples generated by MatterGen, and (2) structures in the labeled fine-tuning dataset for a magnetic, electronic, and mechanical property, respectively. The property target for MatterGen is shown as a black dashed line. Magnetic density values in (a) are excluded from the labeled data to improve readability. (d-f) Visualization of S.U.N. structures with the best property values generated by MatterGen for magnetic density (d), band gap (e), and bulk modulus (f), along with their reduced formula, space group, and property value. (g-h) Number of S.U.N. structures that satisfy target constraints found by MatterGen and baselines across DFT property calculation budgets.
be realized with generative models by proposing better initial candidates. Finally, we show that MatterGen finds three novel (four overall) structures on the combined hull for V-Sr-O-an example of a well-explored ternary system-while substitution finds three (five overall), and RSS only one (two overall) (Fig. 3(e)). Structures discovered by MatterGen are shown in Fig. 3(f-i), and are analyzed in Supplementary D.6.2.

2.4 Property-guided design

There is an enormous need for materials with improved properties across many applications, including energy storage, catalysis, and carbon capture [1-3]. The classical screening-based approach starts from a set of candidates and selects the ones with the best predicted properties, but screening cannot explore structures beyond the set of known materials. Here, we demonstrate MatterGen’s ability to directly generate S.U.N. materials with target constraints on three different inverse design tasks, featuring a diverse set of properties-magnetic, electronic, and mechanical-with varying degrees of available labeled data for fine-tuning the model. In the first task, we aim to generate materials with high magnetic density, a prerequisite for permanent magnets. We fine-tune the model on 605,000 structures with DFT magnetic density labels (calculated assuming ferromagnetic ordering) and generate structures with a target magnetic density value of . Second, we fine-tune the model on 42,000 structures with DFT band gap labels and sample materials with a target band gap value of 3.0 eV . Finally, we target structures with high bulk modulus – an important property for superhard materials. We fine-tune the model on only 5,000 labeled structures, and sample with a target value of 400 GPa . While these tasks were chosen to evaluate the model’s generality, further investigations would be required to assess the suitability of these materials for specific applications, e.g., a superhard material needs to have a high shear modulus, and a permanent magnet needs a suitable magnetic order and critical temperature. Further experimental details are in Supplementary D.8.
In Fig. 4(a-c), we observe a significant shift in the distribution of property values among S.U.N. samples generated by MatterGen towards the desired targets, even when the targets are at the tail of the data distribution. This still holds true for properties where the number of DFT labels available for fine-tuning the model is substantially smaller than the size of the unlabeled training data. In Fig. 4(d-f) we depict the S.U.N.
structures with the best predicted property values generated by MatterGen for each task, with additional analysis in Supplementary D.8.2.
Moreover, we assess how many S.U.N. structures satisfying extreme property constraints can be found by MatterGen when given a limited budget for DFT property calculations. As a baseline, we count the number of materials in the labeled fine-tuning dataset that satisfy the constraint. We also compare with a screening approach, which scans previously unlabeled materials for promising candidates. In contrast to the previous experiment, we fine-tune MatterGen with labels predicted by a machine learning property predictor – the same used for the screening baseline – when the dataset is not fully labeled. MatterGen is able to find up to 18 S.U.N. structures with magnetic density above using only 180 DFT property calculations (Fig. 4(g)). Since the dataset is fully labeled, there is no screening baseline available. MatterGen also finds substantially more S.U.N. materials with high bulk modulus than screening (Fig. 4(h)). While the number of structures found by screening saturates with increasing budget, MatterGen keeps discovering S.U.N. structures at an almost constant rate. Given a budget of 180 DFT property calculations, we find 106 S.U.N. structures (with 95 distinct compositions), more than double the number found with a screening approach ( 40,28 distinct compositions). In contrast, there are only two materials in the labeled fine-tuning dataset with such high bulk modulus values. Note that both MatterGen and screening produce multiple structures per chemical system that are unique according to our definition (Supplementary D.4) but could potentially be alloys with different stoichiometries [40].

2.5 Designing low-supply-chain-risk magnets

Most materials design problems require finding structures satisfying multiple property constraints. While MatterGen can be fine-tuned for any combination of constraints, here we focus on designing low-supply-chain-risk magnets. Since many existing highperforming permanent magnets contain rare earth elements that pose supply chain risks, there has been increasing interest in discovering rare-earth-free permanent magnets [46]. We simplify this task to finding materials with a high magnetic density of and a low Herfindahl-Hirschman index (HHI) score of 1250, where a material with an HHI score below 1500 is considered to have low supply chain risk [47] (experimental details in Supplementary D.9.1); in practice, additional properties like high coercivity, suitable magnetic order and critical temperature need to be satisfied.
Fig. 5: Designing low-supply-chain-risk magnets. (a) Distribution of S.U.N. structures generated by MatterGen when fine-tuned on the HHI score (single) and on both HHI score and magnetic density (joint), as well as structures from the labeled fine-tuning dataset. MatterGen’s property target is shown as a black cross. (b) Occurrence of most frequent elements in S.U.N. structures for the two fine-tuned MatterGen models. (c) S.U.N. structures on the Pareto front for the jointly fine-tuned model, along with their reduced formula, space group, magnetic density, and HHI score.
In Fig. 5(a), we observe that MatterGen generates S.U.N. structures that are narrowly distributed around the target values, despite the labeled fine-tuning data being extremely scarce in that region. Compared to a model that only targets high magnetic density values (single), targeting both properties (joint) shifts the distribution of HHI scores closer towards the desired target value while retaining high magnetic density values. Due to the lower HHI scores, elements often found in magnets that have supply chain issues, e.g., Cobalt (Co) and Gadolinium (Gd), have been almost completely eliminated from the structures generated by the jointly fine-tuned model (Fig. 5(b)). We show some of these structures in Fig. 5(c) and analyze them in more detail in Supplementary D.9.2. Finally, we find that MatterGen has re-discovered 67 previously synthesized, disordered structures from ICSD that were unseen during training, many of which are similar to known permanent magnetic materials (Supplementary D.9.3).

2.6 Experimental validation

As a proof of concept, we experimentally synthesize a material designed by MatterGen and show that the experimentally measured property is close to our design target. We generate 8192 candidates using a model fine-tuned on bulk modulus for each of the four target bulk modulus values: , and 200 GPa (Supplementary D.10.1). We perform multiple rounds of filtering based on (1) uniqueness and novelty, (2) energy above the hull stability from MatterSim [45] and DFT, (3) phonon stability from MatterSim [45], and (4) whether the material contains oxygen (Supplementary D.10.3). The filtering narrows the number of candidates down to 75 , from which we select four for experimental synthesis after expert inspection. Synthesis was successful for one of the four candidates (Supplementary D.10.4 and D.10.5). According to the Rietveld refinement analysis, the synthesized material is , a compositionally disordered version of the ordered structure predicted by MatterGen (Fig. 6(a-c), Supplementary D.10.6). This structure was generated by targeting a bulk modulus value of 200 GPa ; we predict a value of 222 GPa using DFT for the ordered structure generated by MatterGen, and similar bulk modulus values ( 219 GPa ) for two other ordered approximations corresponding to the same disordered structure (Fig. 6(c)). We also experimentally measure the sample’s Young’s modulus via nanoindentation, and estimate its bulk modulus using the DFT-computed Poisson ratio of 0.30 . The estimated bulk modulus is up to 169 GPa after four measurements , where the maximum of the four measurements is our best estimate given that the experimental powder sample is likely non-compact (Supplementary D.10.8).
By examining the original 8192 samples generated for each of the four target values, we find that MatterGen has re-discovered experimentally verified ICSD compounds not present in our training set (Supplementary D.10.2). We identify 101 matches according to our ordered-disordered structure matcher (Supplementary D.4), and successfully compute DFT bulk modulus values for 95 of them (Fig. 6(d)). The DFT-computed values align well with the target values used for conditional generation, with a mean absolute error of 23 GPa and a root mean squared error of 32 GPa .
Fig. 6: Experimental validation of generated structures. (a) Rietveld refinement for the experimental sample we synthesize, including the measured x-ray diffraction (XRD) spectra (yellow dots), the theoretical fit (black line), and the difference between the two (teal line). Vertical ticks (purple) highlight the major peaks of and . A picture of the sample is included. (b) Two views of the structure generated by MatterGen that we use as a synthesis target, along with the reduced formula, space group, and DFT bulk modulus value. (c) Two views of the disordered structure we experimentally synthesize. (d) DFT bulk modulus values of structures generated by MatterGen that match experimentally verified ICSD structures not present in the training dataset, across four different target bulk modulus values. The yellow triangle indicates the generated structure from (b).

3 Discussion

Generative models are promising for tackling inverse design tasks as they can efficiently explore novel structures with desired properties. However, generating the 3D structure of stable crystalline materials is challenging due to their periodicity and the interplay between atom types, coordinates, and lattice. MatterGen improves upon limitations of previous methods by introducing a joint diffusion process for atom types, coordinates, and lattice, which-combined with a substantially larger training dataset-drastically increases the stability, uniqueness, and novelty of generated materials. MatterGen can be fine-tuned to generate S.U.N. structures satisfying target constraints across a wide range of properties, with performance improvements over widely-employed methods such as MLFF-assisted RSS and substitution, as well as ML-assisted screening. We verified that MatterGen is able to generate synthesizable structures by experimentally synthesizing a sampled structure and by re-discovering previously synthesized materials that were unseen by the model.
Despite these advances, MatterGen could still be improved in several ways. For example, we observe that the model disproportionately generates structures with P1 symmetry compared to the training data, indicating a tendency for generating less symmetric structures, especially for larger crystals (Supplementary D.2). We hypothesize that further improvements on the denoising process, the backbone architecture, and the expansion of the training dataset could enable the model to overcome such issues. We also acknowledge that our evaluations only cover some of the criteria required for real-world applicability, with experimental validation and characterization being the ultimate test [40]. We discuss challenges in evaluating the quality of crystalline materials from generative models in Supplementary D.2.
We believe that the breadth of MatterGen’s capabilities and the quality of generated materials represent a major advance towards creating a universal generative model for materials. Given the enormous impact of generative models in domains like image generation [48] and protein design [49], we envision that models like MatterGen will equally transform materials design in the coming years. As such, we are excited about the many directions in which MatterGen could be extended. For instance, MatterGen could be expanded to cover a broader class of materials ranging from catalyst surfaces to metal organic frameworks, enabling us to tackle challenging problems
like nitrogen fixation [50] and carbon capture [3]. The property constraints can be extended to non-scalar quantities like the band structure or XRD spectrum, which would enable applications ranging from band engineering to the prediction of atomic structures of experimentally-measured XRD spectra of unknown samples.

References

[1] Zhao, Q., Stalin, S., Zhao, C.-Z., Archer, L.A.: Designing solid-state electrolytes for safe, energy-dense batteries. Nature Reviews Materials 5(3), 229-252 (2020)
[2] Zhao, Z.-J., Liu, S., Zha, S., Cheng, D., Studt, F., Henkelman, G., Gong, J.: Theory-guided design of catalytic materials using scaling relationships and reactivity descriptors. Nature Reviews Materials 4(12), 792-804 (2019)
[3] Sumida, K., Rogow, D.L., Mason, J.A., McDonald, T.M., Bloch, E.D., Herm, Z.R., Bae, T.-H., Long, J.R.: Carbon dioxide capture in metal-organic frameworks. Chemical reviews 112(2), 724-781 (2012)
[4] Xie, T., Fu, X., Ganea, O.-E., Barzilay, R., Jaakkola, T.S.: Crystal diffusion variational autoencoder for periodic material generation. In: International Conference on Learning Representations (2022)
[5] Zhao, Y., Siriwardane, E.M.D., Wu, Z., Fu, N., Al-Fahdi, M., Hu, M., Hu, J.: Physics guided deep learning for generative design of crystal materials with symmetry constraints. npj Computational Materials 9(1), 38 (2023)
[6] Kim, S., Noh, J., Gu, G.H., Aspuru-Guzik, A., Jung, Y.: Generative adversarial networks for crystal structure prediction. ACS central science 6(8), 1412-1420 (2020)
[7] Zheng, S., He, J., Liu, C., Shi, Y., Lu, Z., Feng, W., Ju, F., Wang, J., Zhu, J., Min, Y., et al.: Towards predicting equilibrium distributions for molecular systems with deep learning. arXiv preprint arXiv:2306.05445 (2023)
[8] Yang, M., Cho, K., Merchant, A., Abbeel, P., Schuurmans, D., Mordatch, I., Cubuk, E.D.: Scalable diffusion for materials generation. arXiv preprint arXiv:2311.09235 (2023)
[9] Noh, J., Kim, J., Stein, H.S., Sanchez-Lengeling, B., Gregoire, J.M., AspuruGuzik, A., Jung, Y.: Inverse design of solid-state materials via a continuous representation. Matter 1(5), 1370-1384 (2019)
[10] Antunes, L.M., Butler, K.T., Grau-Crespo, R.: Crystal structure generation with autoregressive large language modeling. arXiv preprint arXiv:2307.04340 (2023)
[11] Mila AI4Science, Hernandez-Garcia, A., Duval, A., Volokhova, A., Bengio, Y., Sharma, D., Carrier, P.L., Koziarski, M., Schmidt, V.: Crystal-GFN:
sampling crystals with desirable properties and constraints. arXiv preprint arXiv:2310.04925 (2023)
[12] Jiao, R., Huang, W., Lin, P., Han, J., Chen, P., Lu, Y., Liu, Y.: Crystal structure prediction by joint equivariant diffusion. In: Thirty-seventh Conference on Neural Information Processing Systems (2023). https://openreview.net/forum? id=DNdN26m2Jk
[13] Curtarolo, S., Hart, G.L., Nardelli, M.B., Mingo, N., Sanvito, S., Levy, O.: The high-throughput highway to computational materials design. Nature materials 12(3), 191-201 (2013)
[14] Jain, A., Ong, S.P., Hautier, G., Chen, W., Richards, W.D., Dacek, S., Cholia, S., Gunter, D., Skinner, D., Ceder, G., Persson, K.A.: Commentary: The Materials Project: A materials genome approach to accelerating materials innovation. APL materials 1(1), 011002 (2013)
[15] Curtarolo, S., Setyawan, W., Hart, G.L., Jahnatek, M., Chepulskii, R.V., Taylor, R.H., Wang, S., Xue, J., Yang, K., Levy, O., et al.: AFLOW: An automatic framework for high-throughput materials discovery. Computational Materials Science 58, 218-226 (2012)
[16] Kirklin, S., Saal, J.E., Meredig, B., Thompson, A., Doak, J.W., Aykol, M., Rühl, S., Wolverton, C.: The Open Quantum Materials Database (OQMD): assessing the accuracy of DFT formation energies. npj Computational Materials 1(1), 1-15 (2015)
[17] Talirz, L., Kumbhar, S., Passaro, E., Yakutovich, A.V., Granata, V., Gargiulo, F., Borelli, M., Uhrin, M., Huber, S.P., Zoupanos, S., et al.: Materials Cloud, a platform for open computational science. Scientific data 7(1), 299 (2020)
[18] Xie, T., Grossman, J.C.: Crystal graph convolutional neural networks for an accurate and interpretable prediction of material properties. Physical review letters 120(14), 145301 (2018)
[19] Chen, C., Ye, W., Zuo, Y., Zheng, C., Ong, S.P.: Graph networks as a universal machine learning framework for molecules and crystals. Chemistry of Materials 31(9), 3564-3572 (2019)
[20] Unke, O.T., Chmiela, S., Sauceda, H.E., Gastegger, M., Poltavsky, I., Schütt, K.T., Tkatchenko, A., Müller, K.-R.: Machine learning force fields. Chemical Reviews 121(16), 10142-10186 (2021)
[21] Chen, C., Ong, S.P.: A universal graph deep learning interatomic potential for the periodic table. Nature Computational Science 2(11), 718-728 (2022)
[22] Zhong, M., Tran, K., Min, Y., Wang, C., Wang, Z., Dinh, C.-T., De Luna,
P., Yu, Z., Rasouli, A.S., Brodersen, P., et al.: Accelerated discovery of CO2 electrocatalysts using active machine learning. Nature 581(7807), 178-183 (2020)
[23] Merchant, A., Batzner, S., Schoenholz, S.S., Aykol, M., Cheon, G., Cubuk, E.D.: Scaling deep learning for materials discovery. Nature (2023)
[24] Shen, J., Griesemer, S.D., Gopakumar, A., Baldassarri, B., Saal, J.E., Aykol, M., Hegde, V.I., Wolverton, C.: Reflections on one million compounds in the open quantum materials database (OQMD). Journal of Physics: Materials 5(3), 031001 (2022)
[25] Schmidt, J., Hoffmann, N., Wang, H.-C., Borlido, P., Carriço, P.J., Cerqueira, T.F., Botti, S., Marques, M.A.: Large-scale machine-learning-assisted exploration of the whole materials space. arXiv preprint arXiv:2210.00579 (2022)
[26] Davies, D.W., Butler, K.T., Jackson, A.J., Morris, A., Frost, J.M., Skelton, J.M., Walsh, A.: Computational screening of all stoichiometric inorganic materials. Chem 1(4), 617-627 (2016)
[27] Sanchez-Lengeling, B., Aspuru-Guzik, A.: Inverse molecular design using machine learning: Generative models for matter engineering. Science 361(6400), 360-365 (2018)
[28] Schmidt, J., Marques, M.R., Botti, S., Marques, M.A.: Recent advances and applications of machine learning in solid-state materials science. npj Computational Materials 5(1), 83 (2019)
[29] Allahyari, Z., Oganov, A.R.: Coevolutionary search for optimal materials in the space of all possible compounds. npj Computational Materials 6(1), 55 (2020)
[30] Law, J.N., Pandey, S., Gorai, P., St. John, P.C.: Upper-bound energy minimization to search for stable functional materials with graph neural networks. JACS Au 3(1), 113-123 (2022)
[31] Ren, Z., Tian, S.I.P., Noh, J., Oviedo, F., Xing, G., Li, J., Liang, Q., Zhu, R., Aberle, A.G., Sun, S., et al.: An invertible crystallographic representation for general inverse design of inorganic crystals with targeted properties. Matter 5(1), 314-335 (2022)
[32] Sultanov, A., Crivello, J.-C., Rebafka, T., Sokolovska, N.: Data-driven score-based models for generating stable structures with adaptive crystal cells. Journal of Chemical Information and Modeling 63(22), 6986-6997 (2023)
[33] Song, Y., Ermon, S.: Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems 32 (2019)
[34] Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Advances
in Neural Information Processing Systems 33, 6840-6851 (2020)
[35] Song, Y., Sohl-Dickstein, J., Kingma, D.P., Kumar, A., Ermon, S., Poole, B.: Score-based generative modeling through stochastic differential equations. In: International Conference on Learning Representations (2021)
[36] Zhang, L., Rao, A., Agrawala, M.: Adding conditional control to text-to-image diffusion models. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3836-3847 (2023)
[37] Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)
[38] Schmidt, J., Wang, H.-C., Cerqueira, T.F., Botti, S., Marques, M.A.: A dataset of 175 k stable and metastable materials calculated with the PBEsol and SCAN functionals. Scientific Data 9(1), 64 (2022)
[39] Zagorac, D., Müller, H., Ruehl, S., Zagorac, J., Rehme, S.: Recent developments in the inorganic crystal structure database: theoretical crystal structure data and related features. Journal of Applied Crystallography 52(5), 918-925 (2019)
[40] Leeman, J., Liu, Y., Stiles, J., Lee, S.B., Bhatt, P., Schoop, L.M., Palgrave, R.G.: Challenges in high-throughput inorganic materials prediction and autonomous synthesis. PRX Energy 3(1), 011002 (2024)
[41] Gebauer, N., Gastegger, M., Schütt, K.: Symmetry-adapted generation of 3D point sets for the targeted discovery of molecules. Advances in Neural Information Processing Systems 32 (2019)
[42] Oganov, A.R., Pickard, C.J., Zhu, Q., Needs, R.J.: Structure prediction drives materials discovery. Nature Reviews Materials 4(5), 331-348 (2019)
[43] Pickard, C.J., Needs, R.J.: Ab initio random structure searching. Journal of Physics: Condensed Matter 23(5), 053201 (2011)
[44] Ferreira, P.P., Conway, L.J., Cucciari, A., Di Cataldo, S., Giannessi, F., Kogler, E., Eleno, L.T., Pickard, C.J., Heil, C., Boeri, L.: Search for ambient superconductivity in the Lu-NH system. Nature Communications 14(1), 5367 (2023)
[45] Yang, H., Hu, C., Zhou, Y., Liu, X., Shi, Y., Li, J., Li, G., Chen, Z., Chen, S., Zeni, C., et al.: MatterSim: A deep learning atomistic model across elements, temperatures and pressures. arXiv preprint arXiv:2405.04967 (2024)
[46] Cui, J., Kramer, M., Zhou, L., Liu, F., Gabay, A., Hadjipanayis, G., Balasubramanian, B., Sellmyer, D.: Current progress and future challenges in rare-earth-free permanent magnets. Acta Materialia 158, 118-137 (2018)
[47] Gaultois, M.W., Sparks, T.D., Borg, C.K., Seshadri, R., Bonificio, W.D., Clarke,
D.R.: Data-driven review of thermoelectric materials: performance and resource considerations. Chemistry of Materials 25(15), 2911-2920 (2013)
[48] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., Chen, M.: Hierarchical textconditional image generation with CLIP latents. arXiv preprint arXiv:2204.06125 1(2), 3 (2022)
[49] Watson, J.L., Juergens, D., Bennett, N.R., Trippe, B.L., Yim, J., Eisenach, H.E., Ahern, W., Borst, A.J., Ragotte, R.J., Milles, L.F., et al.: De novo design of protein structure and function with RFdiffusion. Nature (7976), 1089-1100 (2023)
[50] Guo, W., Zhang, K., Liang, Z., Zou, R., Xu, Q.: Electrochemical nitrogen fixation and utilization: theories, advanced catalyst materials and system design. Chemical Society Reviews 48(24), 5658-5716 (2019)

Data availability

Alex-MP datasets for training and fine-tuning the MatterGen model are available at https://github.com/microsoft/mattergen, along with CIF files for crystal structures presented in the manuscript, load-depth profiles for nanoindentation measurements, the measured XRD profile, and the Rietveld refinement for the sample. MP structures (v2022.10.28) are from https://materialsproject.org and Alexandria structures are from https://doi.org/10.24435/materialscloud:m7-50, both under CC BY 4.0 license. Identifiers of ICSD structures (release 2023.1) used as part of our test set are provided in the Supplementary Information; structures are available at https://icsd.products.fiz-karlsruhe.de under a commercial license.

Code availability

Source code for MatterGen is available at https://github.com/microsoft/mattergen.
Acknowledgments We thank our colleagues from Microsoft Research AI for Science for their contributions and support, including Andrew Foong, Bas Veeling, Yu Xie, Karin Strauss, Keqiang Yan, Cristian Bodnar, Rianne van den Berg, Frank Noé, Marwin Segler, Elise van der Pol, Max Welling, Rachel Howard, Tie-Yan Liu, Bonnie Kruft, and Chris Bishop; the Microsoft Azure Quantum team including Chi Chen, Leopold Talirz and Nathan Baker, the Materials Project team, and Chris Pickard for providing feedback; and the AI on Xbox team for providing part of the compute.
Author contributions AF, MH, RP, RT, TX, CZ and DZ (alphabetically ordered) conceived the study, implemented the methods, performed computational experiments, and wrote the manuscript. XF led the development of the adapter modules. ZW, CY, WL led the experimental synthesis and characterizations. AS implemented and ran the symmetry conditioned generation. JS implemented the band gap workflow. BN proposed the task of low-supply-chain risk magnets. ZL, YZ, HY, HH, and JL developed the machine learning force field. XF, SS, JC, LS, JS, BN, HS, SL, CWH, ZL, YZ, HY, HH, and JL helped with implementing the methods, conducting computational experiments, and writing the manuscript. SU and RS acted as project managers. TX and RT led the research.
Competing interests AF, MH, RP, RT, TX, CZ and DZ are inventors of the pending, non-provisional patent application 18/759,208 in the name of Microsoft Technology Licensing LLC, relating to generative models for the computational design of materials. The other authors declare no competing interests.

Additional information

Supplementary information is available for this paper.
Correspondence and requests for materials should be addressed to Tian Xie or Ryota Tomioka.

Peer review information

Reprints and permissions information is available at www.nature.com/reprints.








C




(C2/m)










Ta Cr O
Target bulk modulus value [GPa]