Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ハッピーハッピー構造生成ま
つり’67
2017.07.08
@fmkz___
自己紹介
• kzfm (@fmkz___)
– blog.kzfmix.com
– Shizuoka.py(次回未定)
• 分子設計と機械学習やってます
• 健康のためにPokemon Go再開し
ました
AI創薬?
• 従来の創薬方法に機械学習(特にDeep
Learning)をONしたものに新しい名前を
つけたものという理解でだいたいOK
• きちんとした定義を見たことはナイ
– ターゲット探索
– ドラッグ・リポジショニング
– SBDD,...
AI創薬のすごいところ
とりあえずDeep Learningつかっておけば…
Deep Leaning in Drug Design
• 普通のDNN
– 普通に機械学習っぽい活性予測
– これは前回のハンズオンでやった
• Convolutional Neural Network(CNN)
– 構造生成(なんかすごい感...
今日の話
• Autoencoder を利用してSMILESを発生し
てみた
• 論文と実装はこちらを参考にした
– https://github.com/maxhodak/keras-molecules
Autoencoder
• ニューラルネットを使って次元圧縮する
https://blog.keras.io/building-autoencoders-in-
keras.html
discrete -> continuous
https://blog.keras.io/building-autoencoders-in-
keras.html
画像から文字列
• SMILES
– 化学構造の文字列表現
• ドラッグライクなSMILES をAutoencoder
で圧縮表現してみたら?
– https://github.com/maxhodak/keras-molecules
こんな感じ
https://github.com/maxhodak/keras-
molecules
訓練訓練
• dataはChEMBLの500,000件SMILES
• epochは50
– (minibatch sizeがデフォルトの半分しかのせられ
なかったから)
• GTX1080でEpoch30まわすのに7-8hoursらし
い
•...
潜在空間に何かが宿る!
Random sampling
SMILES SPACE
(discreate space)
LATENT SPACE(continuous)
https://arxiv.org/pdf/1610.02415.pdf
Interpolation
SMILES SPACE
(discreate space)
LATENT SPACE(continuous)
• gleevecから
sitagliptinへのなめ
らかな経路
うまくいかない
• 同じような文字列しか出ない
– sparseだった
– これはデータが足りないってのはわかる
• invalidなsmiles出過ぎ
– 括弧の対応取れないとか
– まぁこれもデータ足りないんだろうなと
ところで、色々いじってて気がつ
いた
• これってこの中にない文字だと潜在空間
でどうなるの?
• Δとか
• 新規化合物のSMILESは?
• あれあれあれ?
夢破れた
Q. ラブライブ電車のいいところは
なんですか?
A. Deep Learningにつ
いてアツく語れる
トゥギャッチ風味で
<登場人物>
fmkzちゃん
会社でDLしたりTwitterでDLしたりするDL
pen先輩
fmkzがミスしたときに「コラ~!」と言う先輩
今日のVAEの件なんだけどさーSMILESの文字
列のとこってワンホットベクター使ってんで
しょ?
だったらClとかまとめておけば分割される心配
なくていいんじゃないの?
あと置換基もある程度ワンホットベクターにい
れちゃうとか
そうなんだけど...
結局Deep Learningで構造生成ってどこで使え
んのかねー
まぁでもGANでやるくらいだったらMMPから
の変換ルールで構造生成するやつのほう
がまともな感じがするしなー
んー
うーん、構造空間がどうなってるかにも依存
するんじゃないか...
やってみた感じ
• まともな順に
– MMPからの変換ルール
– bioisoster RXNみたいな
– Brood
– VAE, GAN
– de novo SBDD
• 今のとこtoy toolって感じはする
まとめ
• VAEちょっとやってみたけどなかなか使い
どころが難しそう
• 文字列だけでドラッグデザインとか無理
ありすぎ感はする
• みんなでAI創薬を盛り上げていきましょう
ハッピーハッピー構造生成まつり’67
Upcoming SlideShare
Loading in …5
×

ハッピーハッピー構造生成まつり’67

1,560 views

Published on

ハッピーハッピー構造生成まつり’67

Published in: Technology
  • Be the first to comment

ハッピーハッピー構造生成まつり’67

  1. 1. ハッピーハッピー構造生成ま つり’67 2017.07.08 @fmkz___
  2. 2. 自己紹介 • kzfm (@fmkz___) – blog.kzfmix.com – Shizuoka.py(次回未定) • 分子設計と機械学習やってます • 健康のためにPokemon Go再開し ました
  3. 3. AI創薬? • 従来の創薬方法に機械学習(特にDeep Learning)をONしたものに新しい名前を つけたものという理解でだいたいOK • きちんとした定義を見たことはナイ – ターゲット探索 – ドラッグ・リポジショニング – SBDD,LBDD – 構造生成
  4. 4. AI創薬のすごいところ とりあえずDeep Learningつかっておけば…
  5. 5. Deep Leaning in Drug Design • 普通のDNN – 普通に機械学習っぽい活性予測 – これは前回のハンズオンでやった • Convolutional Neural Network(CNN) – 構造生成(なんかすごい感ある) – 活性予測 (なんか今のところ精度出てない) • Recurrent Neural Network(RNN) • Long short-term memory(LSTM) – 構造生成(なんかすごい感ある)
  6. 6. 今日の話 • Autoencoder を利用してSMILESを発生し てみた • 論文と実装はこちらを参考にした – https://github.com/maxhodak/keras-molecules
  7. 7. Autoencoder • ニューラルネットを使って次元圧縮する https://blog.keras.io/building-autoencoders-in- keras.html
  8. 8. discrete -> continuous https://blog.keras.io/building-autoencoders-in- keras.html
  9. 9. 画像から文字列 • SMILES – 化学構造の文字列表現 • ドラッグライクなSMILES をAutoencoder で圧縮表現してみたら? – https://github.com/maxhodak/keras-molecules
  10. 10. こんな感じ https://github.com/maxhodak/keras- molecules
  11. 11. 訓練訓練 • dataはChEMBLの500,000件SMILES • epochは50 – (minibatch sizeがデフォルトの半分しかのせられ なかったから) • GTX1080でEpoch30まわすのに7-8hoursらし い • 僕のは1050なので4倍くらい遅かった – 速いマシン欲しくなるw
  12. 12. 潜在空間に何かが宿る!
  13. 13. Random sampling SMILES SPACE (discreate space) LATENT SPACE(continuous) https://arxiv.org/pdf/1610.02415.pdf
  14. 14. Interpolation SMILES SPACE (discreate space) LATENT SPACE(continuous) • gleevecから sitagliptinへのなめ らかな経路
  15. 15. うまくいかない • 同じような文字列しか出ない – sparseだった – これはデータが足りないってのはわかる • invalidなsmiles出過ぎ – 括弧の対応取れないとか – まぁこれもデータ足りないんだろうなと
  16. 16. ところで、色々いじってて気がつ いた • これってこの中にない文字だと潜在空間 でどうなるの? • Δとか • 新規化合物のSMILESは? • あれあれあれ?
  17. 17. 夢破れた
  18. 18. Q. ラブライブ電車のいいところは なんですか? A. Deep Learningにつ いてアツく語れる
  19. 19. トゥギャッチ風味で <登場人物> fmkzちゃん 会社でDLしたりTwitterでDLしたりするDL pen先輩 fmkzがミスしたときに「コラ~!」と言う先輩
  20. 20. 今日のVAEの件なんだけどさーSMILESの文字 列のとこってワンホットベクター使ってんで しょ? だったらClとかまとめておけば分割される心配 なくていいんじゃないの? あと置換基もある程度ワンホットベクターにい れちゃうとか そうなんだけどさー どっちにしろ括弧の対応とれないから invalidなSMILESはでてきちゃうからなー 置換基ワンホットベクターにするならGANみ たいな方向のがいいんじゃないの? 論文でも9割くらいまともなSMILESでるって 書いてたしさー あーたしかに
  21. 21. 結局Deep Learningで構造生成ってどこで使え んのかねー まぁでもGANでやるくらいだったらMMPから の変換ルールで構造生成するやつのほう がまともな感じがするしなー んー うーん、構造空間がどうなってるかにも依存 するんじゃないかなー フラグメント空間みたいなのだったらVAEや る価値あるんじゃないかなー 終点着、ここまでラブライブ度0
  22. 22. やってみた感じ • まともな順に – MMPからの変換ルール – bioisoster RXNみたいな – Brood – VAE, GAN – de novo SBDD • 今のとこtoy toolって感じはする
  23. 23. まとめ • VAEちょっとやってみたけどなかなか使い どころが難しそう • 文字列だけでドラッグデザインとか無理 ありすぎ感はする • みんなでAI創薬を盛り上げていきましょう

×