材料は全て揃っている
• 基礎理論は大体ok
– “thefundamental laws necessary for the
mathematical treatment of a large part of physics
and the whole of chemistry are thus completely
known”
– Hartree Fock, DFT, MP2, … , PM3, PM6, AM1…
• 成熟した実装は多数あり、同じ結果を出す
– GAMESS, Gaussian, Qchem, Molpro….
• コンピューターリソース: 理研の施設
• データベース構築と、サービス提供
– 励起エネルギー、HOMO-LUMOギャップなどによる
「波動関数による」クエリー
• 化学的直感による補完、予測
aka. 機械学習
SMILESによる分子の符号化
Encoding molecule
SMILES isa good encoding method for molecules
IUPAC nomenclature
tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)
methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-
2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-
6-oxo-1-phenylhexan-2-yl]carbamate
We can encode molecule
• SMILES
CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24
…
11.
SMILESとは?
• Simplified MolecularInput Line Entry System
– ASCII文字を使った分子の符号化
– コンフォーマー、幾何異性体なども表現可能
– 人間にもプログラムからも読める
– だいたい「分子」と一対一対応する(universal SMILES
を用いることで)
• SMILESの発明者: David Weininger at USEPA Mid-Continent Ecology Division
Laboratory
色々なフォーマットの違い
InChI SMILES CASNumber QC input file
入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free
プログラムが読
めるか?
Yes Yes No No (can be
converted)
人間が読める
か
かなり努力すると読める InChIよりはマシ No No
水素 陰に陽に、浮動的指定可 大抵陰に指定する No 陽に指定する
量子数 No No No Yes, partially
Google 検索 InChI keyで可能 ほぼ無理 運が良ければ No
正規化、標準化 オフィシャルサポート有り 無し(幾つかの可能
性)
No No
互変異性体、光
学異性体
Yes Isomeric SMILES で
可能
No No
曖昧さを入れる Yes Yes Yes No
有機金属 一部可能、標準的ではな
い。
一部可能、標準的
ではない。
Yes Yes
Computer Resources
• RICC: Intel Xeon 5570 Westmere, 2.93GHz 8
cores/node) x 1000
– 1000-10000 molecules/day (MW 160)
– Heavily depend on conditions of other users
– Time limit: 8 hours
• Quest : Intel Core2 duo (1.6GHz/node) x 700
– 3000-8000 molecules / day (MW 160)
– 100-1000 molecules / day (MW 200-300)
– Time limit: 20 hours
• Some compounds fail to calculate are ignored for
this time.
38.
Molecular weight andLipinski Rule
• Lipinski’s five rule (Pfizer's rule of five): rule of
thumb for drug discovery
• No more than 5 hydrogen bond donors
• Not more than 10 hydrogen bond acceptors
• A molecular mass less than 500 daltons
• An octanol-water partition coefficient log P not greater than 5
• Molecular weight should be smaller than 500 is
very good for computational chemistry
– For routine calculations without experimental data
other than molecular formula
– If larger than 500, secondary or higher structure
becomes important. E.g., protein