Metaが1億件以上の分子構造データを含む大規模量子化学データセット「OMol25」とAIモデル「Universal Model for Atoms(UMA)」をリリース
MetaのFAIR(Fundamental AI Research)チームと複数の研究機関による共同研究チームが、非常に大規模かつ高精度な量子化学データセット「Open Molecules 2025(OMol25)」と、それを基に学習したAIモデル「Universal Model for Atoms(UMA)」を発表しました。
[2505.08762] The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models
https://arxiv.org/abs/2505.08762Sharing new breakthroughs and artifacts supporting molecular property prediction, language processing, and neuroscience
https://ai.meta.com/blog/meta-fair-science-new-open-source-releases/Computational Chemistry Unlocked: A Record-Breaking Dataset to Train AI Models has Launched - Berkeley Lab – Berkeley Lab News Center
https://newscenter.lbl.gov/2025/05/14/computational-chemistry-unlocked-a-record-breaking-dataset-to-train-ai-models-has-launched/UMA: A Family of Universal Models for Atoms | Research - AI at Meta
https://ai.meta.com/research/publications/uma-a-family-of-universal-models-for-atoms/OMol25は、分子化学における機械学習モデルの開発と評価に資することを目的として、密度汎関数理論(DFT)による1億件以上の単一分子構造に対する計算結果を収録したデータセットです。最大350原子の分子サンプルをはじめとする約8300万種類のユニークな分子構造と83種類の元素情報を含む多様な分子系が収録されており、計算には「ωB97M-V/def2-TZVPD」という高精度な手法が採用されています。
さらにOMol25には系統的な評価のため、エネルギーや力、スピン、電荷、軌道エネルギー、フォック演算子、電子密度などの多様な物理量が収録されており、それぞれの構造に対して詳細な化学的情報が付与されています。
データは、バイオ分子、金属錯体、電解質、既存コミュニティデータセットの再計算を含む複数の領域に分類されており、それぞれに適した構造生成法や分子動力学手法が適用されているとのこと。さらに、リガンド結合エネルギーや構造再最適化など、分子モデリングにおける実用的なベンチマークタスクが定義され、これに基づくモデル評価も行われています。
OMol25の構築には約60億コア時間が費やされており、Metaの内部クラウド資源を活用した大規模分散計算によって実現されているとのこと。データは、学術利用と商用利用の両方を想定して、オープンライセンスで公開されています。
facebook/OMol25 · Hugging Face
https://huggingface.co/facebook/OMol25 そして、UMA(Universal Models for Atoms)は、このOMol25を含む過去5年間にMeta FAIRが公開した全てのデータセットを学習データとすることで構築された、大規模かつ汎用的な原子間ポテンシャルモデル群で、化学や材料科学の多様な分野において、原子レベルの性質や挙動を高精度かつ高速に予測することができます。記事作成時点ではモデルの規模に応じてUMA-smallとUMA-mediumの2種類が公開されています。 UMAは、分子、材料、触媒など化学の複数領域を横断的にカバーすることを目指しており、50億個以上の原子を含む3D構造を訓練データとして用いて構築されています。特に、モデルアーキテクチャには「Mixture of Linear Experts」と呼ばれる新しい構造が採用されており、計算効率を損なわずにモデル容量を拡大することを可能にしているとのこと。たとえば、UMAのmediumモデルは全体で14億パラメータを有しながらも、1構造あたりの計算に用いられるパラメータ数は約5000万に抑えられています。これにより、UMAは大規模モデルでありながら推論速度が非常に高速となっています。 UMAは、事前学習のみでファインチューニングなしに多様な化学タスクに対応可能であることが確認されており、既存の特化型モデルと同等あるいはそれ以上の性能を示すことが報告されています。これにより、分子特性予測、材料設計、触媒開発、エネルギー貯蔵、半導体製造など、広範な応用において迅速かつ精密な計算が可能となります。
UMAは、コード・学習済みモデル・関連データがすべて公開されており、研究者や技術者が自分の計算ワークフローに自由に組み込むことが可能。今後の原子レベルモデリングの加速に資する基盤モデルとしての位置付けがなされています。
facebook/UMA · Hugging Face
https://huggingface.co/facebook/UMA・関連記事 AIを用いた研究でアルツハイマー病の原因解明へ一歩前進、新たな治療候補の特定を実現 - GIGAZINE
AIを用いた研究でアルツハイマー病の原因解明へ一歩前進、新たな治療候補の特定を実現 - GIGAZINE
OpenAIがタンパク質設計モデル「GPT-4b micro」を開発、iPS細胞に関与するタンパク質の再設計を目指す - GIGAZINE
AIを使ってヘビ毒をブロックするタンパク質を設計する試み - GIGAZINE
Google DeepMind共同創設者のデミス・ハサビス氏らがノーベル化学賞を受賞、「AlphaFold」などタンパク質構造予測AIの研究が高く評価される - GIGAZINE
Google DeepMindがAIですべての生命分子の構造と相互作用を予測できる「AlphaFold 3」をオープンソース化、科学的発見と創薬の加速へ - GIGAZINE