PubChemQCプロジェクト:
分子データベース構築と機械学習
による電子構造の推定
中田真秀1 (NAKATA Maho)
島崎智実2 (SHIMAZAKI Tomomi)
1 ACCC RIKEN, 2 AICS RIKEN
2017/9/17 10:58-11:16
第11回分子科学討論会@仙台 (東北大学)
背景
• 解決の難しい社会問題
地球温暖化、環境汚染問題、エネルギー問題、創薬、食糧問題など
• 化学はこのような問題の解決に重要な役割を果た
すだろう
• 量子化学/計算化学の立場から
– 大量の量子化学計算+データベース構築+クエリ環境構築+機械学習に
よる分子の性質の予測(電子状態、物性値など)
– サービス提供に依る化学者間の連携
• 理論さえ知っていればすべてわかるわけではない
• Give and Take
量子化学計算
データベース構築
社会問題+化学者機械学習
正確な計算
データベースにない Xxxという候補分子
教師データ
種分子提供
物性予想
材料は全て揃っている
• 基礎理論は大体ok
– “the fundamental laws necessary for the
mathematical treatment of a large part of physics
and the whole of chemistry are thus completely
known”
– Hartree Fock, DFT, MP2, … , PM3, PM6, AM1…
• 成熟した実装は多数あり、同じ結果を出す
– GAMESS, Gaussian, Qchem, Molpro….
• コンピューターリソース: 理研の施設
• データベース構築と、サービス提供
– 励起エネルギー、HOMO-LUMOギャップなどによる
「波動関数による」クエリー
• 化学的直感による補完、予測
aka. 機械学習
主たる結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHOMO-LUMOギャップの予想
• http://pccdb.org/ 上記の分子のサーチエンジ
ン+ウェブベースの化学ツール提供
データベースの種類
• PubChem: 90,000,000 分子。アメリカNIHが作成。 著作
権フリー、キュレーションが弱い (カタログなどから取っ
ている)、ネットからダウンロード可能
• ChemSpider : 28,000,000 分子。手でキュレーションを
している。ftpによりダウンロード可、制限有り。
• Web-GDB13 : 900,000,000 以上、ただし組み合わせの
手法で全網羅、重要な分子はかなり少ない。
• Zinc, CheMBL, DrugBank …
• CAS : 70,000,000分子。商用なので二次利用不可
を分子源として用いることにした。
The PubChem
Ex. A molecule listed in PubChem
分子とはなんぞや!?!?
• 現実的には「分子の名前」から分子のそれらしい初期構造を生成
せねばならない
• 分子の厳密な定義は無い
• 量子化学計算パッケージ的定義
– 原子の(x, y, z)座標
– 原子核の種類
– スピンの数
– 電荷
– 人間には読みにくい
• IUPAC命名法
– 小さい分子のみ人間に判別可能
– より厳密ではない。さらに例外も多数。
• 機械的な処理が可能な分子の表記方法が必要
– SMILES : Simplified molecular input line entry specification
syntax
– InChI : International Chemical Identifier
かなり厳密だが、時と場合によっては厳密すぎる
しかしながらこれでも足りない場合も。
分子とはなんぞや!?!?
• まず認めるべきことは
– どんな命名法、定義、符号化も完全ではない。
– 量子化学プログラムパッケージ的定義さえ、曖昧
さを含むことさえある。
– ケースバイケースで定義は変えなければならな
い。
• SMILES/InChIの範囲内でどれだけ行けるか、
それだけでさえ人間が追えないくらい多い…
SMILESによる分子の符号化
Encoding molecule
SMILES is a good encoding method for molecules
IUPAC nomenclature
tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)
methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-
2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-
6-oxo-1-phenylhexan-2-yl]carbamate
We can encode molecule
• SMILES
CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24
…
SMILESとは?
• Simplified Molecular Input Line Entry System
– ASCII文字を使った分子の符号化
– コンフォーマー、幾何異性体なども表現可能
– 人間にもプログラムからも読める
– だいたい「分子」と一対一対応する(universal SMILES
を用いることで)
• SMILESの発明者: David Weininger at USEPA Mid-Continent Ecology Division
Laboratory
Example by SMILES
http://en.wikipedia.org/wiki/SMILES
分子 構造 SMILES
Nitrogen molecule N≡N N#N
copper sulfate Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
oenanthotoxin CCC[C@@H](O)CCC=CC=C
C#CC#CC=CCO
Vitamin B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C
)nc(N)2
Aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c
2cc(OC)c4c3OC(=O)C5=C4CC
C(=O)5
SMILESで表現できない例
Ferroceneには二つの表現の仕方がある
• C12C3C4C5C1[Fe]23451234C5C1C2C3C45
• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]
符号化、命名法で表現しづらい例
• 複雑な金属錯体
– そもそも量子化学計算でできるか?
– 右上図鉄のスピン状態を様々に変
化させ人工光合成させる
• 分子量の大きな分子
– 分子は大きくなる傾向あり?
https://www.ims.ac.jp/news/2016/02/12_3396.html
http://www.apc.titech.ac.jp/~tmurahashi/research.ht
新規な物質を計算化学から創出するこ
とは可能か? 命名主義は良くないのか?
色々なフォーマットの違い
InChI SMILES CAS Number QC input file
入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free
プログラムが読
めるか?
Yes Yes No No (can be
converted)
人間が読める
か
かなり努力すると読める InChIよりはマシ No No
水素 陰に陽に、浮動的指定可 大抵陰に指定する No 陽に指定する
量子数 No No No Yes, partially
Google 検索 InChI keyで可能 ほぼ無理 運が良ければ No
正規化、標準化 オフィシャルサポート有り 無し(幾つかの可能
性)
No No
互変異性体、光
学異性体
Yes Isomeric SMILES で
可能
No No
曖昧さを入れる Yes Yes Yes No
有機金属 一部可能、標準的ではな
い。
一部可能、標準的
ではない。
Yes Yes
PubChemQC/PCCDB project
The PubChemQC project
http://pubchemqc.riken.jp/
The PubChemQC project
http://pubchemqc.riken.jp/
• PubChemの分子を計算できたらそのまま
uploadするサイト
• Gamess input/outputがただ羅列されている
• Gaussian/Firefly/Smash/nwchemのインプット
ファイルも出している。
– 誰でも簡単に試せるように
– これらはアクセスが有ったときに生成される
PubChemQC
http://pubchemqc.riken.jp/
PubChemQC
http://pubchemqc.riken.jp/
どうやってPubChem Compoundの分
子を計算してるか
aflatoxin
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
第一原理計算を
OpenBABEL
で
計算のフローチャート
分子量分布と
PubChem Compouds
We are still here
Lipinski limit MW=500
We are still here
Lipinsky Rule
双極子モーメントの分布
HOMO-LUMO gapの
ヒストグラムと励起エネルギー
HOMO-LUMO gap と
励起エネルギーの関係
HOMO-LUMO ギャップの
機械学習に依る予測
Preliminary – さらなる結果は投稿中…
Python : scikit-learn
• 二つの機械学習の手法を試した
– サポートベクターマシン
– Ridge regression
機械学習と
HOMO-LUMO ギャップの予測
• 選択 : 100万分子 4.5 to 6.5 eV HOMO-LUMO ギャップ
がある分子をランダムに
• その中から2万分子: 教師データ
次の関数を機械学習により作った
f(SMILES) = HOMO-LUMO gap
• HOMO-LUMOギャップはGAMESS TDDFT/B3LYP/6-
31+G*
• 特徴ベクトルに、topological fingerprint (1024bit)を利
用。
• 分子の幾何構造はSMILESの段階では考慮なし。教師
データを通じて陰に考慮されている
機械学習と
HOMO-LUMO ギャップの予測
• Topological fingerprintとは
– Fingerprintは化学構造をビット列に落とし込む手
法一般のこと
– RDKitに入っているfingerprint “RDKit” fingerprint
– 部分構造、原子種類、結合の種類など
• 他にもfingerprintはあり試行中(投稿中)
http://www.rdkit.org/UGM/2012/Landrum_RDKit_UGM.Fingerprints.Final.pptx.pdf
参照
機械学習と
HOMO-LUMO ギャップの予測
Method Kernel RMSE [eV]
SVM regression RBF 0.36
second-order polynomial 0.39
third-order polynomial 0.43
Ridge regression RBF 0.37
second-order polynomial 0.38
third-order polynomial 0.36
fourth-order polynomial 0.48
機械学習と
HOMO-LUMO ギャップの予測
• HOMO-LUMO の精度は誤差が 0.3 to 0.4eV
低尾であった
• Topological fingerprint (1024bit)を特徴ベクト
ルとすることで、良い精度が得られたと考えら
れる。
PCCDB.org と検索エンジン
Public Computer Chemistry DataBase project
http://pccdb.org/search_pubchemqc/query
PCCDB.org と検索エンジン
3D構造
吸収スペクトル
分子軌道と静電ポテンシャルも
見れます
分子の構造式
PCCDB.org と検索エンジン
• 検索キーは
– HOMO-LUMO ギャップ
– HOMO エネルギー or LUMO エネルギー
– 励起エネルギー
– 振動子強度
– 双極子モーメント
– あいまい検索 (Partial/Similarity) by SMILESと
fingerprint
http://pccdb.org/ 試してみてね
TODO:
HOMO-LUMOアッセイ
機械学習に依る提案
今回の結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHOMO-LUMOギャップの予想
• http://pccdb.org/ 上記の分子のサーチエンジ
ン+ウェブベースの化学ツール提供
Computer Resources
• RICC : Intel Xeon 5570 Westmere, 2.93GHz 8
cores/node) x 1000
– 1000-10000 molecules/day (MW 160)
– Heavily depend on conditions of other users
– Time limit: 8 hours
• Quest : Intel Core2 duo (1.6GHz/node) x 700
– 3000-8000 molecules / day (MW 160)
– 100-1000 molecules / day (MW 200-300)
– Time limit: 20 hours
• Some compounds fail to calculate are ignored for
this time.
Molecular weight and Lipinski Rule
• Lipinski’s five rule (Pfizer's rule of five): rule of
thumb for drug discovery
• No more than 5 hydrogen bond donors
• Not more than 10 hydrogen bond acceptors
• A molecular mass less than 500 daltons
• An octanol-water partition coefficient log P not greater than 5
• Molecular weight should be smaller than 500 is
very good for computational chemistry
– For routine calculations without experimental data
other than molecular formula
– If larger than 500, secondary or higher structure
becomes important. E.g., protein

第11回分子科学 2017/9/17 Pubchemqcプロジェクト