Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

分子のグラフ表現と機械学習

917 views

Published on

異分野融合ワークショップ「データ科学との融合による化学の新展開」

近年、情報科学、理論・計算科学、実験科学を融合することで、機能性材料の開発の加速を狙う研究分野
(マテリアルズ・インフォマティクス)が注目を集めています。しかし、これらの分野の交流は少なく、特に化学分野においては、融合・連携が進んでいないのが現状です。そこで、本ワークショップでは、ケモインフォマティクス・バイオインフォマティクスの分野で活躍する研究者や、理論・計算・実験科学からインフォマティクス分野への参入を狙う研究者をお招きし、お互いの研究について議論することで、本融合領域の活性化を目指します。

日 時:2018年3月13日(火)~14日(水)
会 場:奈良先端科学技術大学院大学 物質創成科学研究科 F105小講義室
参加費:無料

プログラム
作村 諭一(NAIST) 「膜電位時系列を用いた細胞内シグナル経路推定」
本郷 研太(JAIST・JSTさきがけ) 「第一原理計算の進展とインフォマティクスとの融合展開」
山西 芳裕(九州大学・JSTさきがけ) 「AI創薬:多様な疾患に対するデータ駆動型の新薬開発」
瀧川 一学(北海道大学・JSTさきがけ) 「分子のグラフ表現と機械学習」
吉田 亮(統計数理研究所)「物質構造の表現・学習・生成・合成」
小林 正人(北海道大学・JSTさきがけ) 「反応経路探索とインフォマティクス:触媒・表面吸着系計算への応用
畑中 美穂(NAIST ・JSTさきがけ) 「反応経路自動探索:機械学習による高効率化を目指して」
懇親会 (融合棟2号館2階 大学会館特別会議室)

3月14日 (水)
小野 直亮(NAIST) 「グラフ畳み込みネットワークを用いたアルカロイド化合物の代謝パスウェイの分類」
金子 弘昌(明治大学)「データ駆動型モデルの適用範囲を考慮して効率的に分子設計・材料設計する方法」
観山 正道(東北大学)「スパースモデリングをもちいたSTMトポグラフィデータの解析」
小原 真司(NIMS ・JSTさきがけ)「実験・理論・先端数理学の融合によるガラス科学の進化と深化」

Published in: Technology
  • Be the first to comment

分子のグラフ表現と機械学習

  1. 1. 😊 😆 😊
  2. 2. 
 
 

  3. 3.
  4. 4. 
 
 CH3 N H3C H NS N O CH3 N OH x ˆyˆy = f✓(x)
  5. 5. N NH OO HH H H H H H H H H H H H H H H H H H H H H H H H O O O O O O Cl H H H H H HH H H H H H H H H H H Br Br O P O O Br Br O Br Br H H H H H H H H H H HH H HH N S N N H H H H H H H H H H H H H H H O N O O H H H O O H H N O O Cl ClCl H H H H H H H N O O H H H H H H H H H N O O H H H H H H H N H N O O N O O H H H H H H H H N CH3 O O H N Cl Cl Cl Cl Cl H3C O O O O O O H3C CH3 CH2 O HN O O NH CH3 HO OH CH3 N O O CH3 N N H N H H3C N H3C H3C NH O N O NO CH3 O N NH2 O CH3 Br CH3 N H3C H NS N O CH3 N OH CH3 CH3N N N CH3H3C H2N NH2 H OH O HO CH3 H H O CH3 H O OH3C HH H O H3C S CH3 O H H O CH3 CH3 OO HO H3CH HO F H O H3C NH2 O N HO HO O H H O O OH3C O O O CH3 O CH3 HO CH3 H O O CH3 H H N H N O H3C O O O
  6. 6. CH3 N H3C H NS N O CH3 N OH n f✓ ✓ x 7! y x ˆyˆy = f✓(x) (x1, y1), (x2, y2), . . . , (xn, yn) ˆyi = f✓(xi)min ✓ nX i=1 error(yi, ˆyi) yiˆyi
  7. 7. CH3 N H3C H NS N O CH3 N OH x ˆyˆy = f✓(x) @<TRIPOS>MOLECULE ***** 13 13 0 0 0 SMALL GASTEIGER @<TRIPOS>ATOM 1 C -2.5458 -9.4750 0.0000 C.2 1 UNL1 0.3080 2 C -3.3708 -9.4750 0.0000 C.2 1 UNL1 0.2529 3 C -2.2875 -8.6917 0.0000 C.2 1 UNL1 0.3838 4 C -3.6208 -8.6917 0.0000 C.3 1 UNL1 0.2067 5 O -2.9583 -8.2042 0.0000 O.3 1 UNL1 -0.4441 6 C -4.3583 -8.3125 0.0000 C.3 1 UNL1 0.2245 7 O -1.5000 -8.4375 0.0000 O.2 1 UNL1 -0.2412 8 O -2.0583 -10.1417 0.0000 O.2 1 UNL1 -0.2764 9 O -3.8500 -10.1417 0.0000 O.2 1 UNL1 -0.2843 10 O -5.0500 -8.7542 0.0000 O.3 1 UNL1 -0.2164 11 O -3.6958 -7.0417 0.0000 O.3 1 UNL1 -0.2174 12 C -4.3958 -7.4875 0.0000 C.3 1 UNL1 0.2185 13 H -4.2083 -9.2667 0.0000 H 1 UNL1 0.0853 @<TRIPOS>BOND 1 2 1 2 2 3 1 1 3 4 2 1 4 5 3 1 5 6 4 1 6 7 3 2 7 8 1 1 8 9 2 1 9 6 10 1 10 11 12 1 11 12 6 1 12 4 13 1 13 5 4 1 OC[C@H](O)[C@H]1OC(=O)C(=C1O)O InChI=1S/C6H8O6/ c7-1-2(8)5-3(9)4(10)6(11)12-5/ h2,5,7-10H,1H2/t2-,5+/m0/s1 CIWBSHSKHKDKBQ-JLAZNSOCSA-N 1 2 3 4 5 6 7 8 9 10 11 12 13
  8. 8. O N N NH NHN N N CH3 CH3 1 2 3 284 Atom + Bond SYBYL MOL2 Pharmacophore 分⼦グラフ表現 … 
 

  9. 9. 物性値構造式 基底状態構造 電⼦状態計算 原⼦化エネルギ 電⼦状態 基本振動 電⼦の空間分布 分⼦グラフ •頂点に原⼦不変量 •辺や頂点対に原⼦対不変量 記述⼦ 量⼦化学計算なしでML予測したい (3次元や表⾯形状の幾何的量など) (表⾯や堆積など⽴体依存量など) (原⼦の種類,電⼦配置,電荷など) (原⼦間の距離,結合の種類など) エネルギーや ⽴体選択性?
  10. 10.
  11. 11. SVM, LogReg, GPR, RF, etc. 
 … … 

  12. 12. • Descriptors • Descriptors3D • GraphDescriptors • Fingerprints • ChemicalFeatures • ChemicalForceFields rdkit.Chem rdkit.ML.Descriptors
  13. 13. 
 

  14. 14. 
 
 

  15. 15. x =  x1 x2 y x1 x2 y 1 1 w0 ji w00 i wkj 1 x b W h h = ReLU(Wx + b) bk b0 j b00 i
  16. 16. min ✓ L(✓) L(✓) = nX i=1 error(yi, f✓(xi)) ✓t+1 ✓t ⌘ · r✓L(✓t) r✓L(✓t) = 2 6 4 @L(✓)/@✓1 |✓=✓t @L(✓)/@✓2 |✓=✓t ... 3 7 5
  17. 17. ✓t+1 ✓t ⌘ · r✓L(✓t) L(✓) = Pn i=1 error(yi, f✓(xi)) Li(✓) = error(yi, f✓(xi))✓t+1 ✓t ⌘ · r✓Li(✓t) Lm i (✓) = Pi+m k=i error(yk, f✓(xk))✓t+1 ✓t ⌘ · r✓Lm i (✓t) 
 

  18. 18. x = 2 6 6 6 6 4 x1 x2 x3 x4 x5 3 7 7 7 7 5 y = 2 4 y1 y2 y3 3 5 x 7! y y = f✓(x) x1 x2 x3 x4 x5 y1 y2 y3 wij ! wij + w yk ! yk + y wij @f✓(x) @wij = @yk @wij ✓
  19. 19. a c b d e add mult add 1 c = a + b d = b + 1 e = c ⇤ d add mult add 1 a 2 b 1 a = 2 b = 1 c = 3 d = 2 e = 6
  20. 20. add mult add 1a = 2 b = 1 c = 3 d = 2 e = 6 @e @c = 2 @c @a = 1 @c @b = 1 @d @b = 1 @e @d = 3 add mult add 1 @e @c = 2 @c @a = 1 @c @b = 1 @d @b = 1 @e @d = 3 add mult add 1 @e @c = 2 @c @a = 1 @c @b = 1 @d @b = 1 @e @d = 3 @a @b = 0 @c @b = 1 @b @b = 1 @d @b = 1 @e @b = 5 @e @e = 1 @e @c = 2 @e @d = 3 @e @b = 5 @e @a = 2 @e @b = @e @c @c @b + @e @d @d @b
  21. 21. x(t) h(t) y(t) x(1) x(2) y(2)y(1) h(0) h(1) h(2) x(t) y(t) h(t) 
 h(t) y(t) x(t) h(t 1) x(t) ⇥ + ⇥ tanh(·) (·)tanh(·)(·)(·) ⇥ y(t) x(t) (·)(·) tanh(·) 1 · ⇥ +⇥ ⇥ y(t) x(t) {x(t)} 7! {y(t)}
  22. 22. 
 w1 i j w1 w2 w3 w4 i j
  23. 23. 
f : Rn ! Rm x yx y ✓ f✓ f✓ ✓
  24. 24.
  25. 25. 
 
 

  26. 26. 
 
 

  27. 27. CH3 N H3C H NS N O CH3 N OH n f✓ ✓ x 7! y x ˆyˆy = f✓(x) (x1, y1), (x2, y2), . . . , (xn, yn) ˆyi = f✓(xi)min ✓ nX i=1 error(yi, ˆyi) yiˆyi
  28. 28. Donor 1 0 1 0 0 Acceptor 0 1 1 0 0 Aromatic 0 0 0 1 0 Halogen 0 0 0 0 0 Basic 0 0 1 0 0 Acidic 0 0 0 0 1 例) アントラニル酸 トポロジ (グラフ構造) 原⼦不変量の例 (FCFP-like)原⼦不変量の例 (ECFP-like) • By Chemical Features: Donor, Acceptor, Aromatic, Halogen, Basic, Acidic 頂点や頂点対/辺の不変量(多変量): RDKitの例 • By Connectivity: atomic number, total degree, #Hs, formal charge, isotope, inRing Implicit Hydrogens Explicit HydrogensStructural Formula 分⼦グラフへ エンコーディング atomic number 8 8 7 6 6 6 total degree 2 1 3 3 3 3 #Hs 1 0 2 0 0 1 formal charge 0 0 0 0 0 0 isotope 0 0 0 0 0 0 in Ring? 0 0 0 1 0 1
  29. 29. • the number of immediate neighbors who are “heavy” (non-hydrogen) atoms • the valence minus the number of hydrogens • the atomic number • the atomic mass • the atomic charge • the number of attached hydrogens • whether the atom is contained in at least one ring • hydrogen-bond acceptor or not? • hydrogen-bond donor or not? • negatively ionizable or not? • positively ionizable or not? • aromatic or not? • halogen or not? Rogers+, Extended-Connectivity Fingerprints. J. Chem. Inf. Model., 2010, 50 (5), pp 742–754 Faber+, Prediction Errors of Molecular Machine Learning Models Lower than Hybrid DFT Error. J. Chem. Theory Comput., 2017, 13 (11), pp 5255–5264
  30. 30. 000100001010001000000010000100100101000010010001010010002 1 0 3 4 5 6 7 8 9 Layer-0 (直径 0) Layer-1 (直径 2) Layer-2 (直径 4) 0 1 2 3 4 5 6 7 8 9 3 0 4 7 1 5 8 2 6 9 847957139 3217380708 3218693969 3218693969 3218693969 3218693969 864942730 2246699815 864662311 3217380708 1510328189 2784506312 1533864325 4158944142 2309124039 951226070 951226070 98513984 98513984 1083852209 2784506312 132611095 2784506312 916604632 3450167988 2987120039 1171638766 3999906991 3999906991 4158944142 予め決めた⻑さ(例えば2048bit)でfolding
  31. 31.
  32. 32. v hv h(t 1) v a(t) v h(t 1) v a(t) v h(t) v v tanh X v2V (yv) tanh(zv) ! yv zv  h (T ) v xv
  33. 33. M M vv hv N(v) m U U R
  34. 34. American Chemical Society
  35. 35. 
 
 


×