第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PubChemQCプロジェクト:
分子データベース構築と機械学習
による電子構造の推定
中田真秀1 (NAKATA Maho)
島崎智実2 (SHIMAZAKI Tomomi)
1 ACCC RIKEN, 2 AICS RIKEN
2017/9/17 10:58-11:16
第11回分子科学討論会@仙台 (東北大学)

背景
• 解決の難しい社会問題
地球温暖化、環境汚染問題、エネルギー問題、創薬、食糧問題など
• 化学はこのような問題の解決に重要な役割を果た
すだろう
• 量子化学/計算化学の立場から
– 大量の量子化学計算+データベース構築+クエリ環境構築+機械学習に
よる分子の性質の予測(電子状態、物性値など)
– サービス提供に依る化学者間の連携
• 理論さえ知っていればすべてわかるわけではない
• Give and Take
量子化学計算
データベース構築
社会問題+化学者機械学習
正確な計算
データベースにない Xxxという候補分子
教師データ
種分子提供
物性予想

材料は全て揃っている
• 基礎理論は大体ok
– “the fundamental laws necessary for the
mathematical treatment of a large part of physics
and the whole of chemistry are thus completely
known”
– Hartree Fock, DFT, MP2, … , PM3, PM6, AM1…
• 成熟した実装は多数あり、同じ結果を出す
– GAMESS, Gaussian, Qchem, Molpro….
• コンピューターリソース: 理研の施設
• データベース構築と、サービス提供
– 励起エネルギー、HOMO-LUMOギャップなどによる
「波動関数による」クエリー
• 化学的直感による補完、予測
aka. 機械学習

主たる結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHOMO-LUMOギャップの予想
• http://pccdb.org/ 上記の分子のサーチエンジ
ン＋ウェブベースの化学ツール提供

データベースの種類
• PubChem: 90,000,000 分子。アメリカNIHが作成。著作
権フリー、キュレーションが弱い (カタログなどから取っ
ている)、ネットからダウンロード可能
• ChemSpider : 28,000,000 分子。手でキュレーションを
している。ftpによりダウンロード可、制限有り。
• Web-GDB13 : 900,000,000 以上、ただし組み合わせの
手法で全網羅、重要な分子はかなり少ない。
• Zinc, CheMBL, DrugBank …
• CAS : 70,000,000分子。商用なので二次利用不可
を分子源として用いることにした。

Ex. A molecule listed in PubChem

分子とはなんぞや!?!?
• 現実的には「分子の名前」から分子のそれらしい初期構造を生成
せねばならない
• 分子の厳密な定義は無い
• 量子化学計算パッケージ的定義
– 原子の(x, y, z)座標
– 原子核の種類
– スピンの数
– 電荷
– 人間には読みにくい
• IUPAC命名法
– 小さい分子のみ人間に判別可能
– より厳密ではない。さらに例外も多数。
• 機械的な処理が可能な分子の表記方法が必要
– SMILES : Simplified molecular input line entry specification
syntax
– InChI : International Chemical Identifier
かなり厳密だが、時と場合によっては厳密すぎる
しかしながらこれでも足りない場合も。

分子とはなんぞや!?!?
• まず認めるべきことは
– どんな命名法、定義、符号化も完全ではない。
– 量子化学プログラムパッケージ的定義さえ、曖昧
さを含むことさえある。
– ケースバイケースで定義は変えなければならな
い。
• SMILES/InChIの範囲内でどれだけ行けるか、
それだけでさえ人間が追えないくらい多い…

SMILESによる分子の符号化
Encoding molecule
SMILES is a good encoding method for molecules
IUPAC nomenclature
tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)
methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-
2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-
6-oxo-1-phenylhexan-2-yl]carbamate
We can encode molecule
• SMILES
CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24
…

SMILESとは?
• Simplified Molecular Input Line Entry System
– ASCII文字を使った分子の符号化
– コンフォーマー、幾何異性体なども表現可能
– 人間にもプログラムからも読める
– だいたい「分子」と一対一対応する(universal SMILES
を用いることで)
• SMILESの発明者: David Weininger at USEPA Mid-Continent Ecology Division
Laboratory

Example by SMILES
http://en.wikipedia.org/wiki/SMILES
分子構造 SMILES
Nitrogen molecule N≡N N#N
copper sulfate Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
oenanthotoxin CCC[C@@H](O)CCC=CC=C
C#CC#CC=CCO
Vitamin B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C
)nc(N)2
Aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c
2cc(OC)c4c3OC(=O)C5=C4CC
C(=O)5

SMILESで表現できない例
Ferroceneには二つの表現の仕方がある
• C12C3C4C5C1[Fe]23451234C5C1C2C3C45
• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]

符号化、命名法で表現しづらい例
• 複雑な金属錯体
– そもそも量子化学計算でできるか?
– 右上図鉄のスピン状態を様々に変
化させ人工光合成させる
• 分子量の大きな分子
– 分子は大きくなる傾向あり?
https://www.ims.ac.jp/news/2016/02/12_3396.html
http://www.apc.titech.ac.jp/~tmurahashi/research.ht
新規な物質を計算化学から創出するこ
とは可能か? 命名主義は良くないのか?

色々なフォーマットの違い
InChI SMILES CAS Number QC input file
入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free
プログラムが読
めるか?
Yes Yes No No (can be
converted)
人間が読める
か
かなり努力すると読める InChIよりはマシ No No
水素陰に陽に、浮動的指定可大抵陰に指定する No 陽に指定する
量子数 No No No Yes, partially
Google 検索 InChI keyで可能ほぼ無理運が良ければ No
正規化、標準化オフィシャルサポート有り無し(幾つかの可能
性)
No No
互変異性体、光
学異性体
Yes Isomeric SMILES で
可能
No No
曖昧さを入れる Yes Yes Yes No
有機金属一部可能、標準的ではな
い。
一部可能、標準的
ではない。
Yes Yes

The PubChemQC project
http://pubchemqc.riken.jp/

The PubChemQC project
• PubChemの分子を計算できたらそのまま
uploadするサイト
• Gamess input/outputがただ羅列されている
• Gaussian/Firefly/Smash/nwchemのインプット
ファイルも出している。
– 誰でも簡単に試せるように
– これらはアクセスが有ったときに生成される

PubChemQC

どうやってPubChem Compoundの分
子を計算してるか
aflatoxin
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
第一原理計算を
OpenBABEL
で

計算のフローチャート

分子量分布と
PubChem Compouds
We are still here
Lipinski limit MW=500
We are still here
Lipinsky Rule

双極子モーメントの分布

HOMO-LUMO gapの
ヒストグラムと励起エネルギー

HOMO-LUMO gap と
励起エネルギーの関係

HOMO-LUMO ギャップの
機械学習に依る予測
Preliminary – さらなる結果は投稿中…
Python : scikit-learn
• 二つの機械学習の手法を試した
– サポートベクターマシン
– Ridge regression

機械学習と
HOMO-LUMO ギャップの予測
• 選択 : 100万分子 4.5 to 6.5 eV HOMO-LUMO ギャップ
がある分子をランダムに
• その中から2万分子: 教師データ
次の関数を機械学習により作った
f(SMILES) = HOMO-LUMO gap
• HOMO-LUMOギャップはGAMESS TDDFT/B3LYP/6-
31+G*
• 特徴ベクトルに、topological fingerprint (1024bit)を利
用。
• 分子の幾何構造はSMILESの段階では考慮なし。教師
データを通じて陰に考慮されている

機械学習と
• Topological fingerprintとは
– Fingerprintは化学構造をビット列に落とし込む手
法一般のこと
– RDKitに入っているfingerprint “RDKit” fingerprint
– 部分構造、原子種類、結合の種類など
• 他にもfingerprintはあり試行中(投稿中)
http://www.rdkit.org/UGM/2012/Landrum_RDKit_UGM.Fingerprints.Final.pptx.pdf
参照

機械学習と
Method Kernel RMSE [eV]
SVM regression RBF 0.36
second-order polynomial 0.39
third-order polynomial 0.43
Ridge regression RBF 0.37
second-order polynomial 0.38
third-order polynomial 0.36
fourth-order polynomial 0.48

機械学習と
• HOMO-LUMO の精度は誤差が 0.3 to 0.4eV
低尾であった
• Topological fingerprint (1024bit)を特徴ベクト
ルとすることで、良い精度が得られたと考えら
れる。

PCCDB.org と検索エンジン
Public Computer Chemistry DataBase project
http://pccdb.org/search_pubchemqc/query

3D構造
吸収スペクトル
分子軌道と静電ポテンシャルも
見れます
分子の構造式

• 検索キーは
– HOMO-LUMO ギャップ
– HOMO エネルギー or LUMO エネルギー
– 励起エネルギー
– 振動子強度
– 双極子モーメント
– あいまい検索 (Partial/Similarity) by SMILESと
fingerprint
http://pccdb.org/ 試してみてね
TODO:
HOMO-LUMOアッセイ
機械学習に依る提案

今回の結果
• http://pubchemqc.riken.jp/ PubChemに掲載され
ている分子のうち400万分子程度の構造最適化
済input/outputファイルを提供
• 上記結果を用いた機械学習に依るSMILES表記
からHOMO-LUMOギャップの予想
• http://pccdb.org/ 上記の分子のサーチエンジ
ン＋ウェブベースの化学ツール提供

Computer Resources
• RICC : Intel Xeon 5570 Westmere, 2.93GHz 8
cores/node) x 1000
– 1000-10000 molecules/day (MW 160)
– Heavily depend on conditions of other users
– Time limit: 8 hours
• Quest : Intel Core2 duo (1.6GHz/node) x 700
– 3000-8000 molecules / day (MW 160)
– 100-1000 molecules / day (MW 200-300)
– Time limit: 20 hours
• Some compounds fail to calculate are ignored for
this time.

Molecular weight and Lipinski Rule
• Lipinski’s five rule (Pfizer's rule of five): rule of
thumb for drug discovery
• No more than 5 hydrogen bond donors
• Not more than 10 hydrogen bond acceptors
• A molecular mass less than 500 daltons
• An octanol-water partition coefficient log P not greater than 5
• Molecular weight should be smaller than 500 is
very good for computational chemistry
– For routine calculations without experimental data
other than molecular formula
– If larger than 500, secondary or higher structure
becomes important. E.g., protein

第11回分子科学 2017/9/17 Pubchemqcプロジェクト

More Related Content

What's hot

Similar to 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

More from Maho Nakata

第11回分子科学 2017/9/17 Pubchemqcプロジェクト