SAR精度70% その先へ
@fmkz___
自己紹介
• 色々やります
• インフォマティクスとビジュアライゼー
ションに興味がある
• 梅雨のエヴァコラボでモンストに飽きた
けど最近のエヴァコラボ第二弾で復活w
その先へ☆
Deep Learningの何がアツイか?
• 特徴の抽出をやってくれる
• (画像認識だとSIFTとか)cLogPとか職人が
よく考えて構築した特徴量を使わなくて
も、もっとプリミティブなデータからう
まく特徴量を学習してくれるのが一番大
きいと思う。
画像認識だと
http://www.slideshare.net/fullscreen/takmin/
building-highlevelfeatures/1
特徴量抽出を簡単に説明すると
次元の圧縮
詳しくはこれを読むといい
Merck Molecular Activity
Challenge
Kaggleのコンテスト
特徴量の抽出やってない…
SVMと精度変わらんし、、、
特徴量抽出で大きく精度改善
するのかな?
データ見てみよう
データを見る
一万次元以上あるけどやたら疎
多分これ
AP and DP
• AP
– ペア(下の)
– 元素名、隣接した重原子の数、π電子数によ
り識別された原子
• DP
– カチオンとかアニオンとかドナーとアクセプ
ターの7種の識別
情報結構落ちてるんじゃない
の?
この状況下で特徴量の抽出したと
して精度が向上するかは非常に疑
問
改めてSARにおける認識とは
• 画像認識は画像の画素のベクトル(RGB)が
与えられ認識する
• SARにおける認識は、化合物が与えられ
た場合にそれを何らかのベクトル表現と
して与え、それから認識する
• また、ヒトが似ている似ていないを判断
するのではなく認識するのはタンパク質
であるところも異なる
分子認識
• 分子が認識するための特徴量抽出のため
の情報をインプットとして入力する必要
があるんじゃないのか?
• グラフ情報でいいのか?
重ね合わせの問題
• 実際にはタンパク質と化合物の結合状態
を考慮する必要があるが
• 学習させる過程で解決するのか
• インプットの段階でよろしくやっておく
のか
• という問題も残る
プリミティブな記述子?
• 量子化学計算から出てきた軌道の型とそ
の係数をそのまま使うというのはどうだ
ろうか?
• コンフォメーションの問題は残るが…
– 結合空間の静電場が特殊で、真空中では取ら
ないコンフォメーションで結合していたりす
る
SARでDeepLearningするには
• Inputをどうするか?
– 重ね合わせの問題
– 効果的な特徴量抽出のできるような
• どういうモデルにするか
– 深さとか
まとめ
• SARにおけるDeepLearningは夢があると
思う
• 次回はTensorFlowとかChainerのハンズオ
ンでもやりたい
• 誰かよろしくw

SAR精度70% その先へ