SlideShare a Scribd company logo
Kosuke Nakago
Preferred Networks, Inc.
合成経路探索
~ 論文まとめ ~
目次
• 合成経路・逆合成経路探索とは
• 研究の流れ
• アプローチ
– 古典的特徴量抽出 + NN
– Graph Conv系列
– seq2seq系列
• 課題・考察
2
合成経路・逆合成経路
• 反応 (Reaction)
– 反応物 Reactant + 触媒 Reagent → 生成物 Product
• 合成経路 :順方向な合成
– Reactant, Reagent が与えられたときにどのようなProductができるか
• 逆合成経路:逆方向な合成
– Product が与えられたとき、どのようなReactant, Reagentができるか
– 一意とは限らない
3
逆合成経路探索
• 逆合成経路探索
– “商用利用可能な” Reactant, Reagentを用いて、
所望のProduct を合成したい
– 逆合成経路予測を複数ステップ行う必要がある
4
https://arxiv.org/pdf/1708.04202.pdf
Reaction SMILESについて
• Mixed: Reactant.Reagent >> Product
• Separated: Reactant > Reagent > Product というような形式で記載
– 触媒が明示的に分けられている Separated の方が情報量は多い
5
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
Reaction SMILESについて
• Reactant >> Product
• Reactant > Reagent > Product というような形式で記載
• 複数分子が存在するので “.” で区切られている
• どのAtomが反応前後でどの部分に行ったのかの対応を取るために、各Atomにidが
振られている場合が多い (Atom-mapping)
※ USPTO Datasetの mapping は自動生成されたもので間違っているものもあるので注意!
• RDKitで扱える。可視化など ↓
6
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
Datasetについて
• USPTO Dataset ができてから機械学習の適用トレンドが生まれた。
• Lowe が集めたものを Jin et al. などがそれぞれ自身のタスクようにFilterし
独自のSub setのデータセットを作成・評価している
7
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
研究の流れ
Molecular Transormer
Molecular Transformer for Chemical
Reaction Prediction and Uncertainty
Estimation
seq2seq, Schwaller IBM
“Found in Translation": Predicting Outcomes
of Complex Organic Chemistry Reactions
using Neural Sequence-to-Sequence Models
2017
2016
2019
NLP系
8
Neural Symbolic ML
- Neural‐Symbolic Machine Learning for
Retrosynthesis and Reaction Prediction
AlphaChem
- Towards "AlphaChem": Chemical Synthesis Planning
with Tree Search and Deep Neural Network Policies
- AlphaChem: Planning chemical syntheses with deep
neural networks and symbolic AI
- Learning to Plan Chemical Syntheses
Computer Assisted Retrosynthesis
Computer-Assisted Retrosynthesis Based on
Molecular Similarity
WLDN / WLDN5
- Predicting Organic Reaction Outcomes with
Weisfeiler-Lehman Network
- A graph-convolutional neural network model for
the prediction of chemical reactivity
ELECTRO
A GENERATIVE MODEL FOR ELECTRON
PATHS
seq2seq, Liu Stanford
Retrosynthetic reaction prediction using
neural sequence-to-sequence models
seq2seq, Nam&Kim
Linking the Neural Machine Translation and
the Prediction of Organic Chemistry Reactions
Molecule CHEF
Generating Molecules via Chemical Reactions
Graph conv特徴量抽出+NN
GTPN
GRAPH TRANSFORMATION POLICY
NETWORK FOR CHEMICAL REACTION
PREDICTION
2018
研究の流れ
研究を進められている組織は少なく、限られている印象
• ドイツの機関:Marwin Segler, John BradShaw et al.
• MIT:Jin, Connor Coley et al.
• IBM:Phillipe Schwaller et al.
9
手法の比較
• 調べた限りでは NLP 系列がSOTA。
Graph convよりいろいろと使いやすい性質がある
10
特徴量抽出+NN NLP系 Graph Conv
メリット 反応を事前列挙している場合は、
逆合成経路探索に使用できる
・Atom mappingの情報無くてもよ
い
・STEREO: Chiralityが文字列とし
て扱える(@,@@ など)
・SMILESと違い、化合物
に対応するグラフは一意に
決まる
デメリット 事前に反応ルールを作っておく
必要があることが多い
・同じ化合物に対してSMILESは一
意には決まらない(Canonical
SMILESは一意)
・予測結果として出てくるSMILESの
文法が正しいとは限らない。
別で工夫が必要。
・Atom mappingの情報が
必要な場合が多い
- Symmetryどう扱うか?
研究の流れ
• これまではTemplate-basedな手法
– ルールを人手で列挙してきた。(→最近は自動列挙する研究もある)
– 問題点1:新規の反応に対応するには、新しいルールを足していく必要がある。
– 問題点2:精度が低い ← Templateの範囲しか見ないため、全体の分子のコンテキストか
らより起こりそうな反応を重視するといったことができない。
– 問題点3:Sub Graph isomorphism matching をすべてのルールに対して適用する必要が
あるため、時間がかかる。
11
研究の流れ
• AlphaChem のあたりで 特徴量抽出+NN をはじめとした、
合成経路探索のMLアプローチが出てきた
• 機械学習を活用した template-free な手法へ
• Jin et alがUSPTOデータセットを公開してから急激に進んでいる
• シンプルなNNから徐々にGraphConv 勢 VS NLP 勢 へ移行してきている
– 一方で難しい逆合成経路探索はいったん保留して、
まずは簡単な順合成予測を解いている研究が最近のトレンド
12
特徴量抽出+NN
• AlphaChem のあたりで 特徴量抽出+NN をはじめとした、
合成経路探索のMLアプローチが出てきた。
– ただしend-to-end ではなくどこかにルールで制限を加えている
• 反応はルールを列挙
• 記述子は学習ベースではなくECFPを使う など。
13
Neural Symbolic ML
• 逆合成経路探索。事前に反応の種類を列挙。以下2種類で実験
– Hand code した場合:103 rules
– Data-drivenで自動抽出:8720 rules (手法の詳細はかかれていない? 。。)
• Product を入力として、反応の種類を分類予測
– これまでのルールベースのものと異なり、分子全体のコンテキストからより起
こりそうな反応を予測したい。
14
Neural Symbolic ML
• ProductをECFP4で特徴量抽出して MLP へ入れて分類問題解く
• 疑問点:反応の種類さえわかれば、逆合成経路が記述できる?
– どの位置で反応するかなどの情報無くてもよいのか?
15
AlphaChem
• 概要:Productの反応分類をNNで行い、MCTSで探索することでこれまで
より高精度・高速な逆合成経路探索を可能にした。
• MCTS探索のアイデアはAlpha Goから来ている
– Expansion Policy → In-scope filter → Rollout Policy を用いて探索
16
https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• MCTS探索のアイデアはAlpha Goから来ている
– Expansion Policy & Rollout Policy を用いて探索
– Expansion policy
• 精度よく展開したい
• 広いルールを探索
– Rollout policy
• 高速に計算
• 少ないルールで探索
17https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• データセット:Reaxysを使用。12.4M single step の合成データ
– Transformation rulesは”Neural Symbolic ML” の時の手法を用いて自動抽出。
– Expansion policy: 30171 rules
– Rollout policy: 17134 rules
• 予測に使うNetworkは先行研究同様、軽いMLP or Linear regression。
18https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• In Scope Filter
– Expansion policy のTop-Kのそれぞれが本当に”起こるかどうか”を二値分類で
予測する
– Product & Reactionを入力として二値分類結果を出力
AUC: 0.99 出たらしい!
• データの負例の作り方に工夫:
– データベースにあるものが正例
– 負例の作り方は以下2通り
1.Productで起こりえる反応のうち、
データベースの反応以外の反応は負例とした
(反応はパターンとして書かれるので,
ある化合物が複数のパターンにマッチする)
2.正例 (ρi, φi) に対して、 (ρi, φi)を負例とした
19https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• 結果:既知の合成経路をきちんと見つけることができた
20
AlphaChem
• 課題:
– ECFPで特徴量抽出しているところは
Graph convなど使って精度上げる方法がありそう。
– ルールの列挙が数が多い?
21
Computer Assisted Retrosynthesis
• Morgan fingerprint + Tanimoto similarity でデータベースから似ている例を
見つけて、その反応ルールを適用するだけで十分よい精度で逆合成経路探
索ができるという主張
• NNなどの学習はなし。
22
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 逆合成経路は複数あるという例
– 複数の中からどれが一番よさそうかランキングしたい
23
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 上のTarget Productの逆合成経路予測
• 左にあるように先行例 “Precedent”
をデータベースから抽出
Similarity: s_prod
• 先行例と同じ反応した場合の反応物を算出
その “precursor” とのSimilarity も算出
Similarity: s_reac
• 最終スコアは s_prod * s_reac で算出
大きいものから順にランク付けする。
• これだけシンプルな手法で十分らしい。
24
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 結果:先行研究の seq2seq [Liu] よりは精度良い
• 既知のProductの逆合成経路探索もできた。
25
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
seq2seq 系
• Reactant > Reagent > Product で記載されるReaction
SMILESを文字列として扱い、NLPで研究されている翻
訳タスクと同じ問題へ落とす
– NLPの成果・コードを流用できる
– seq2seq, transformer (multi-head attention)…
• beam search
26
seq2seq, Nam&Kim
• seq2seq のモデルを使って順方向の合成経路予測をする初期研究
• 以下2つのデータセットで学習・評価
– USPTO
– Wade
reaction templates in an
organic chemistry textbook
27
https://arxiv.org/abs/1612.09529
seq2seq, Liu
• seq2seq のモデルを使って逆合成経路予測
• SMARTS 記法で retrosynthesis prediction
– 逆合成なので、順方向より難しいタスク
28
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq
model を流用 (https://github.com/google/seq2seq)
– Reaction SMILES の product を入力して、 reactant を出力するように学習
– reaction type は固定
29
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq
model を流用 (https://github.com/google/seq2seq)
– 推論時はBeam searchで、最も確率が高いものTop-Kを選ぶ
(論文ではbeam width 5, K=5, decode length 140 char)
30
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• 結果
• template base の baseline と比較して、精度はよい・悪い傾向
のものがそれぞれあったらしい。 "leaving group" 脱離基 がかな
り大きいものを使うようなタイプの合成方法だと rule base で
template matching した方が精度がよいらしい。
• 逆に単一のルールベースで書きづらいような全体をみつつ反応
が決まるようなものはMLの方が得意
31
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
考察:NNの間違い方は以下の3通り
1. SMILESの文法として間違っている
2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど)
3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、
データセットとは違う
32
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
考察:NNの間違い方は以下の3通り
1. SMILESの文法として間違っている
2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど)
3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、
データセットとは違う
33
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Schwaller
• 順方向の Reaction を seq2seq (BiLSTM + attention使用)で予測
• Reaction smiles は reactant, reagent(触媒) に前処理で分けた後、
reagent に関してはパターンが有限で限られているので頻出する76個を
tokenize
34
https://arxiv.org/pdf/1711.04810.pdf
seq2seq, Schwaller
• Attentionが効いていることが直感的にわかる図
– 基本的には大体の部分は同じままで、反応する部分だけを少し変えたような生
成物を作るように“翻訳”できればよい
35
https://arxiv.org/pdf/1711.04810.pdf
seq2seq, Schwaller
• データセットはLowe‘s dataset, Jin’s USPTO, Pistachio database を使用
• 結果
– 先行研究のWLDNより精度よく予測できたとのこと
36
https://arxiv.org/pdf/1711.04810.pdf
Molecular Transformer
• 順方向の合成経路予測:Multihead attention を張るタイプのseq2seq で
reaction smiles を予測しているだけのシンプルな手法
• code: https://github.com/pschwllr/MolecularTransformer
• slide: https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
• Free web service: https://rxn.res.ibm.com/
– IBM RXNとして公開
– APIまで公開してる
37
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Molecular Transformer
• 結果:様々なデータセット、先行研究モデルと比較
– 2019.6時点ではSOTAか
– 触媒を明示的に分けたSeparated方が精度はよい
38
https://arxiv.org/pdf/1811.02633.pdf
Molecular Transformer
• 結果:複雑な文字列の変更もきちんと予測できている。
39
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Molecular Transformer
• IBM RXN https://rxn.res.ibm.com/
40
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Graph Conv系
41
WLDN
• 1. Reaction center prediction (atom pair):反応中心の予測
• 2. Candidate generation:列挙
• 3. Ranking
3段階で順方向の反応を予測。1, 3 でGraph convを用いる。
42
https://arxiv.org/pdf/1709.04555.pdf
WLDN
1. Reaction center prediction (atom pair):反応中心の予測
• 反応前後でBond 情報が変わっているところを1、
同じところは0となるように予測する
– Atom mappingの情報が必要
• 手法
– Weiffeiler-Lehman Networkを使用
• Local Model:atom u, v および 辺 uv の情報から予測
• Global Model:全体からAttention score (softmaxではなくsigmoid使って
いるのでGateっぽい) 計算した後に予測→触媒の情報も入る
– N atom について N^2 の pair に対して予測
• binary_cross_entropy で学習
• Top-K を採用
43
https://arxiv.org/pdf/1709.04555.pdf
WLDN
2. Candidate generation:列挙
• 1. での予測結果からのTop-K の中から k個 (1~K) 選んで、その部分が変化
した場合の生成物(Product) として可能なものを全列挙
– この部分はルールベースで、学習要素はなし
– 全列挙しても現実的には valency condition などでかなり数は絞られる
– 結果で示すように、templated-based なものよりは候補少なくなっていて、
十分に候補は絞られている
• Practical には K=6くらいで十分なよう
44
https://arxiv.org/pdf/1709.04555.pdf
WLDN
3. Ranking
• 2. で列挙されたProductの候補
のうちどれが一番もっともらしいかを予測する。
• 各Product 候補 に対してスコアを算出。 r が元のreactant。2通り実験
– WLN: r と のEmbedding vectorの差 から算出
– WLDN: に対して Difference vector を割り当てたGraphに対して
からWL Networkを適用してスコアを計算する
• Softmaxで分類問題として学習
– を入力とし、正解である を予測できるように
45
https://arxiv.org/pdf/1709.04555.pdf
𝑝0, … 𝑝 𝑚
𝑝𝑖
𝑝𝑖 𝑑 𝑣
𝑝 𝑖
𝑝𝑖 𝑑 𝑣
𝑝 𝑖
𝑝0, … 𝑝 𝑚 𝑝0
WLDN
• 結果:
– 予測精度を USPTO-15K Dataset で評価
– 化学者との合成結果予測実験では、人をOut performした。
46
https://arxiv.org/pdf/1709.04555.pdf
1
2
3
WLDN5
• 内容は WLDNとほぼ同じ?
– 第一・第二著者(Wengong Jin, Connor W. Coley)が入れ替わっている
– Network を少し変えた?
– 1. atom pair prediction時に
どの bond に変わるかも予測。(u, v, b)
47
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• n=5 で十分現実の反応をカバーできるので、n=5までの列挙としたらしい。
• 1. のNetwork の上位 K=16 から 5個を選んで列挙する
48
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• 学習時間
– 1. WLN: Titan X で 19時間
– 3. WLDN: Titan X で 72時間
• 結果:精度比較
– WLDNやseq2seq (Schwaller) よりも良い精度
– ELECTRO (後述) と同等くらいの精度
49
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• 正しく予測できているものの例:わりと複雑なものまで扱えている印象
• Appendixにもっと詳細な考察あり(割愛)
50https://chemrxiv.org/articles/A_Graph-Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Reactivity/7163189/1
ELECTRO
• Electron path を sequential に予測することで順方向の反応を予測
– “Mechanistic” であることが特徴
– 電子の移動には
LEF: Linear Electron Flow 表記を採用
52
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• Algorithm 概要:3 step に分けて Sequentialに予測していく
2. & 3. は終了するまでループする。
– 1. Starting Location
– 2. Electron Movement
• t odd: Remove location
• t even: Add location
– 3. Continue / Termination classification
53
https://arxiv.org/pdf/1805.10970.pdf
t: oddのRemoveで終わるときは、
電気的に偏って終了する?
ELECTRO
Algorithm 詳細
• Graph convのArchはGGNN使用
訓練
• 各ステップ t 毎に学習
• t 時点の正解分子構造 から
正解Atom (start, add, remove) を予測
推論
• 合計のパスの尤度
beam search で求めてTop- Kを算出
• 全てのステップを確率値で算出
しているため各パスの尤度が計算可能
• AppendixにAlgorithm記載あり。
54
1
2
3
𝑀𝑡
∗
𝑎 𝑡
∗
log 𝑝 𝜃 𝑃0:𝑇 𝑀0, 𝑀𝑒)
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• LEFの構成方法
– USPTOのデータセット自体にはLEF情報無いので前処理して作り出す
• 反応前後で変わった部分から算出
• 電気陰性度の順で並べると、start→end のOrderがわかるらしい
– USPTOの中のうち、きちんとLEFが取り出せたもののみを評価に使用
→Subset のみしか扱えない(電子1個移動する場合しか扱えない?) ”USPTO_LEF” と呼ぶ
55
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• 結果 (ELECTRO-LITEは触媒情報 を入れなかったもの)
– Mechanism prediction:割愛
– Product prediction
• Electron pathが違っても結果が同じProductとなる場合があるらしい
最終Productがあって入ればOKというSetting(他の論文もこちらの基準を採用)
• WLDN, Seq2Seq (Schwaller) よりはよく、WLDN5と同等の精度
56
https://arxiv.org/pdf/1805.10970.pdf
𝑀𝑒
ELECTRO
• Appendix
– (左) Symmetry があるため一意に決まらないものの例
– (右) ELECTRO-LITE の予測例
57
https://arxiv.org/pdf/1805.10970.pdf
GTPN:Graph Transformation Policy Network
• 順方向の合成経路予測を強化学習 (policy gradient) を用いてアプローチ
– 先行研究のグラフ生成モデルGCPN: Graph Convolutional Policy Network がベースアイデア
• 反応前後を “可変長のボンドのつなぎ変え” 操作だとみなし、その可変長のActionを
policy gradient で学習していく
– Action (ξ, u, v, b) の系列からなる
– 辺 (u, v) を Bond b に変更する。ξ : stop flag 1になったらそこで終了。
58https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• Network 構成:3つのNetworkを使用
– GNN:Graph Neural Network
– NPPN:Node Pair Prediction Network
– PN:Policy Network
59
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• 推論時のbeam search
– Action 系列の尤度が高い方からTop-Nを算出
– Beam 幅が広いと常に精度がいいとは限らない。
• 以下の例ではBeam 幅 1 の精度74.49 を超えるためには
beam 幅20 まで上げる必要があった
65
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• 結果
– 精度は ELECTROと同等か多少劣るくらい
66
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• エラー内容の分析
– Atom pair predictionでの間違いが一番多い。
– symmetry で間違えたことになってしまっているのは全体の 5.7%
67
https://arxiv.org/pdf/1812.09441.pdf
左から、1. reactant, 2. incorrect prediction,
3. ground truth, 4. product.
Molecule Chef
• “合成可能な分子” のみを生成するグラフ生成モデルを提案
[発想の転換]
• これまでのようにproduct を直接出すのではなく、 bag of reactants を生成する
• 先行研究で出てきた順方向のreaction prediction model を使用することで割と精度
よく予測できることを利用 → 現状SOTAの Molecular Transformer を使用。
68
https://openreview.net/pdf?id=BJlQEILY_N
可変長のReactants のセット
Molecule Chef
• 生成モデル
– GGNN Encoder + RNN decoder のVAE
– bag of reactants を生成
• Encoder 側
– GGNNで各Reactantを別々に潜在空間にMapping
– Sum とって (Readout)、最終的な “bag of reactants” の 表現 z を得る
69
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Decoder 側
– USPTOで計15回以上出てくる reactant のみをtokenize (3180個)
– RNNで可変長のReactantを生成
– Halt signal が選ばれたらストップ
– 学習時はRandom にOrderを決めて、Teacher forcingした
70
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Dataset
– 簡単な設定としたいため USPTO全体ではなく USPTO_LEF で学習
– USPTOで計15回以上出てくる reactant のみをtokenize
• 3180 reactants
• 21928 products
– Reagent は今回は Filter outして、未使用
72
Molecule Chef
• 結果
– 生成する空間を「よく使われているReactantから合成可能なProduct」
に限定しているためValidity がとても高い
73
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• 結果
– 直接対象分子を生成するモデルと比べて、安定な分子が生成できる
74
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• 結果:Optimization
– 本来の目的であった Molecular search も当然可能
75
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Retro synthesisへの応用
– z → “bag of reactants” のDecoderはすでに学習済み
– product → z という 新しいEncoder を学習すれば、逆合成経路探索にも使える
– product →(New encoder) z →(Decoder) “bag of reactants”
→(Molecular Transformer) product’
となるため 本当に作りたいproduct と実際にできると予測される product’が一
致する保証はないが、似ている product は作れる
76
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Retro synthesisへの応用
– 例:(b), (c) では別のものができてしまっている。
– 逆合成をメインとした論文ではないので、あくまでのおまけの使い方として可能性の紹介
77
https://openreview.net/pdf?id=BJlQEILY_N
手法の比較
• 今のところ seq2seq 系列がSOTA。
Graph convよりいろいろと使いやすい性質がある
78
特徴量抽出+NN NLP系 Graph Conv
メリット 反応を事前列挙している場合は、
逆合成経路探索に使用できる
・Atom mappingの情報無くてもよ
い
・STEREO: Chiralityが文字列とし
て扱える(@,@@ など)
・SMILESと違い、化合物
に対応するグラフは一意に
決まる
デメリット 事前に反応ルールを作っておく
必要があることが多い
・同じ化合物に対してSMILESは一
意には決まらない(Canonical
SMILESは一意)
・予測結果として出てくるSMILESの
文法が正しいとは限らない。
別で工夫が必要。
・Atom mappingの情報が
必要な場合が多い
- Symmetryどう扱うか?
79

More Related Content

What's hot

Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
KnowledgeGraph
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
Preferred Networks
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズムTakuya Akiba
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
順也 山口
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 

What's hot (20)

Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 

Similar to 合成経路探索 -論文まとめ- (PFN中郷孝祐)

Rokko チュートリアル
Rokko チュートリアルRokko チュートリアル
Rokko チュートリアル
Computational Materials Science Initiative
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
Yusuke Uchida
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crfShuyo Nakatani
 
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageKink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageTaku Miyakawa
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
sleepy_yoshi
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira Imakura
Suurist
 
Fundamentals of Relational Database Management Systems chapter19
Fundamentals of Relational Database Management Systems chapter19Fundamentals of Relational Database Management Systems chapter19
Fundamentals of Relational Database Management Systems chapter19
Keisuke Suzuki
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino
 
RcppEigen and SVD
RcppEigen and SVDRcppEigen and SVD
RcppEigen and SVDXiangze
 

Similar to 合成経路探索 -論文まとめ- (PFN中郷孝祐) (12)

Rokko チュートリアル
Rokko チュートリアルRokko チュートリアル
Rokko チュートリアル
 
Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
 
Web本文抽出 using crf
Web本文抽出 using crfWeb本文抽出 using crf
Web本文抽出 using crf
 
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based languageKink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based language
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
Akira Imakura
Akira ImakuraAkira Imakura
Akira Imakura
 
Fundamentals of Relational Database Management Systems chapter19
Fundamentals of Relational Database Management Systems chapter19Fundamentals of Relational Database Management Systems chapter19
Fundamentals of Relational Database Management Systems chapter19
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
 
RcppEigen and SVD
RcppEigen and SVDRcppEigen and SVD
RcppEigen and SVD
 

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Preferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
Preferred Networks
 

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

合成経路探索 -論文まとめ- (PFN中郷孝祐)

  • 1. Kosuke Nakago Preferred Networks, Inc. 合成経路探索 ~ 論文まとめ ~
  • 2. 目次 • 合成経路・逆合成経路探索とは • 研究の流れ • アプローチ – 古典的特徴量抽出 + NN – Graph Conv系列 – seq2seq系列 • 課題・考察 2
  • 3. 合成経路・逆合成経路 • 反応 (Reaction) – 反応物 Reactant + 触媒 Reagent → 生成物 Product • 合成経路 :順方向な合成 – Reactant, Reagent が与えられたときにどのようなProductができるか • 逆合成経路:逆方向な合成 – Product が与えられたとき、どのようなReactant, Reagentができるか – 一意とは限らない 3
  • 4. 逆合成経路探索 • 逆合成経路探索 – “商用利用可能な” Reactant, Reagentを用いて、 所望のProduct を合成したい – 逆合成経路予測を複数ステップ行う必要がある 4 https://arxiv.org/pdf/1708.04202.pdf
  • 5. Reaction SMILESについて • Mixed: Reactant.Reagent >> Product • Separated: Reactant > Reagent > Product というような形式で記載 – 触媒が明示的に分けられている Separated の方が情報量は多い 5 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 6. Reaction SMILESについて • Reactant >> Product • Reactant > Reagent > Product というような形式で記載 • 複数分子が存在するので “.” で区切られている • どのAtomが反応前後でどの部分に行ったのかの対応を取るために、各Atomにidが 振られている場合が多い (Atom-mapping) ※ USPTO Datasetの mapping は自動生成されたもので間違っているものもあるので注意! • RDKitで扱える。可視化など ↓ 6 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 7. Datasetについて • USPTO Dataset ができてから機械学習の適用トレンドが生まれた。 • Lowe が集めたものを Jin et al. などがそれぞれ自身のタスクようにFilterし 独自のSub setのデータセットを作成・評価している 7 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 8. 研究の流れ Molecular Transormer Molecular Transformer for Chemical Reaction Prediction and Uncertainty Estimation seq2seq, Schwaller IBM “Found in Translation": Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models 2017 2016 2019 NLP系 8 Neural Symbolic ML - Neural‐Symbolic Machine Learning for Retrosynthesis and Reaction Prediction AlphaChem - Towards "AlphaChem": Chemical Synthesis Planning with Tree Search and Deep Neural Network Policies - AlphaChem: Planning chemical syntheses with deep neural networks and symbolic AI - Learning to Plan Chemical Syntheses Computer Assisted Retrosynthesis Computer-Assisted Retrosynthesis Based on Molecular Similarity WLDN / WLDN5 - Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network - A graph-convolutional neural network model for the prediction of chemical reactivity ELECTRO A GENERATIVE MODEL FOR ELECTRON PATHS seq2seq, Liu Stanford Retrosynthetic reaction prediction using neural sequence-to-sequence models seq2seq, Nam&Kim Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions Molecule CHEF Generating Molecules via Chemical Reactions Graph conv特徴量抽出+NN GTPN GRAPH TRANSFORMATION POLICY NETWORK FOR CHEMICAL REACTION PREDICTION 2018
  • 9. 研究の流れ 研究を進められている組織は少なく、限られている印象 • ドイツの機関:Marwin Segler, John BradShaw et al. • MIT:Jin, Connor Coley et al. • IBM:Phillipe Schwaller et al. 9
  • 10. 手法の比較 • 調べた限りでは NLP 系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 10 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  • 11. 研究の流れ • これまではTemplate-basedな手法 – ルールを人手で列挙してきた。(→最近は自動列挙する研究もある) – 問題点1:新規の反応に対応するには、新しいルールを足していく必要がある。 – 問題点2:精度が低い ← Templateの範囲しか見ないため、全体の分子のコンテキストか らより起こりそうな反応を重視するといったことができない。 – 問題点3:Sub Graph isomorphism matching をすべてのルールに対して適用する必要が あるため、時間がかかる。 11
  • 12. 研究の流れ • AlphaChem のあたりで 特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた • 機械学習を活用した template-free な手法へ • Jin et alがUSPTOデータセットを公開してから急激に進んでいる • シンプルなNNから徐々にGraphConv 勢 VS NLP 勢 へ移行してきている – 一方で難しい逆合成経路探索はいったん保留して、 まずは簡単な順合成予測を解いている研究が最近のトレンド 12
  • 13. 特徴量抽出+NN • AlphaChem のあたりで 特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた。 – ただしend-to-end ではなくどこかにルールで制限を加えている • 反応はルールを列挙 • 記述子は学習ベースではなくECFPを使う など。 13
  • 14. Neural Symbolic ML • 逆合成経路探索。事前に反応の種類を列挙。以下2種類で実験 – Hand code した場合:103 rules – Data-drivenで自動抽出:8720 rules (手法の詳細はかかれていない? 。。) • Product を入力として、反応の種類を分類予測 – これまでのルールベースのものと異なり、分子全体のコンテキストからより起 こりそうな反応を予測したい。 14
  • 15. Neural Symbolic ML • ProductをECFP4で特徴量抽出して MLP へ入れて分類問題解く • 疑問点:反応の種類さえわかれば、逆合成経路が記述できる? – どの位置で反応するかなどの情報無くてもよいのか? 15
  • 16. AlphaChem • 概要:Productの反応分類をNNで行い、MCTSで探索することでこれまで より高精度・高速な逆合成経路探索を可能にした。 • MCTS探索のアイデアはAlpha Goから来ている – Expansion Policy → In-scope filter → Rollout Policy を用いて探索 16 https://arxiv.org/pdf/1708.04202.pdf
  • 17. AlphaChem • MCTS探索のアイデアはAlpha Goから来ている – Expansion Policy & Rollout Policy を用いて探索 – Expansion policy • 精度よく展開したい • 広いルールを探索 – Rollout policy • 高速に計算 • 少ないルールで探索 17https://arxiv.org/pdf/1708.04202.pdf
  • 18. AlphaChem • データセット:Reaxysを使用。12.4M single step の合成データ – Transformation rulesは”Neural Symbolic ML” の時の手法を用いて自動抽出。 – Expansion policy: 30171 rules – Rollout policy: 17134 rules • 予測に使うNetworkは先行研究同様、軽いMLP or Linear regression。 18https://arxiv.org/pdf/1708.04202.pdf
  • 19. AlphaChem • In Scope Filter – Expansion policy のTop-Kのそれぞれが本当に”起こるかどうか”を二値分類で 予測する – Product & Reactionを入力として二値分類結果を出力 AUC: 0.99 出たらしい! • データの負例の作り方に工夫: – データベースにあるものが正例 – 負例の作り方は以下2通り 1.Productで起こりえる反応のうち、 データベースの反応以外の反応は負例とした (反応はパターンとして書かれるので, ある化合物が複数のパターンにマッチする) 2.正例 (ρi, φi) に対して、 (ρi, φi)を負例とした 19https://arxiv.org/pdf/1708.04202.pdf
  • 21. AlphaChem • 課題: – ECFPで特徴量抽出しているところは Graph convなど使って精度上げる方法がありそう。 – ルールの列挙が数が多い? 21
  • 22. Computer Assisted Retrosynthesis • Morgan fingerprint + Tanimoto similarity でデータベースから似ている例を 見つけて、その反応ルールを適用するだけで十分よい精度で逆合成経路探 索ができるという主張 • NNなどの学習はなし。 22 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 23. Computer Assisted Retrosynthesis • 逆合成経路は複数あるという例 – 複数の中からどれが一番よさそうかランキングしたい 23 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 24. Computer Assisted Retrosynthesis • 上のTarget Productの逆合成経路予測 • 左にあるように先行例 “Precedent” をデータベースから抽出 Similarity: s_prod • 先行例と同じ反応した場合の反応物を算出 その “precursor” とのSimilarity も算出 Similarity: s_reac • 最終スコアは s_prod * s_reac で算出 大きいものから順にランク付けする。 • これだけシンプルな手法で十分らしい。 24 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 25. Computer Assisted Retrosynthesis • 結果:先行研究の seq2seq [Liu] よりは精度良い • 既知のProductの逆合成経路探索もできた。 25 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 26. seq2seq 系 • Reactant > Reagent > Product で記載されるReaction SMILESを文字列として扱い、NLPで研究されている翻 訳タスクと同じ問題へ落とす – NLPの成果・コードを流用できる – seq2seq, transformer (multi-head attention)… • beam search 26
  • 27. seq2seq, Nam&Kim • seq2seq のモデルを使って順方向の合成経路予測をする初期研究 • 以下2つのデータセットで学習・評価 – USPTO – Wade reaction templates in an organic chemistry textbook 27 https://arxiv.org/abs/1612.09529
  • 28. seq2seq, Liu • seq2seq のモデルを使って逆合成経路予測 • SMARTS 記法で retrosynthesis prediction – 逆合成なので、順方向より難しいタスク 28 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 29. seq2seq, Liu • Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – Reaction SMILES の product を入力して、 reactant を出力するように学習 – reaction type は固定 29 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 30. seq2seq, Liu • Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – 推論時はBeam searchで、最も確率が高いものTop-Kを選ぶ (論文ではbeam width 5, K=5, decode length 140 char) 30 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 31. seq2seq, Liu • 結果 • template base の baseline と比較して、精度はよい・悪い傾向 のものがそれぞれあったらしい。 "leaving group" 脱離基 がかな り大きいものを使うようなタイプの合成方法だと rule base で template matching した方が精度がよいらしい。 • 逆に単一のルールベースで書きづらいような全体をみつつ反応 が決まるようなものはMLの方が得意 31 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 32. seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 32 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 33. seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 33 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 34. seq2seq, Schwaller • 順方向の Reaction を seq2seq (BiLSTM + attention使用)で予測 • Reaction smiles は reactant, reagent(触媒) に前処理で分けた後、 reagent に関してはパターンが有限で限られているので頻出する76個を tokenize 34 https://arxiv.org/pdf/1711.04810.pdf
  • 35. seq2seq, Schwaller • Attentionが効いていることが直感的にわかる図 – 基本的には大体の部分は同じままで、反応する部分だけを少し変えたような生 成物を作るように“翻訳”できればよい 35 https://arxiv.org/pdf/1711.04810.pdf
  • 36. seq2seq, Schwaller • データセットはLowe‘s dataset, Jin’s USPTO, Pistachio database を使用 • 結果 – 先行研究のWLDNより精度よく予測できたとのこと 36 https://arxiv.org/pdf/1711.04810.pdf
  • 37. Molecular Transformer • 順方向の合成経路予測:Multihead attention を張るタイプのseq2seq で reaction smiles を予測しているだけのシンプルな手法 • code: https://github.com/pschwllr/MolecularTransformer • slide: https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf • Free web service: https://rxn.res.ibm.com/ – IBM RXNとして公開 – APIまで公開してる 37 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  • 38. Molecular Transformer • 結果:様々なデータセット、先行研究モデルと比較 – 2019.6時点ではSOTAか – 触媒を明示的に分けたSeparated方が精度はよい 38 https://arxiv.org/pdf/1811.02633.pdf
  • 40. Molecular Transformer • IBM RXN https://rxn.res.ibm.com/ 40 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  • 42. WLDN • 1. Reaction center prediction (atom pair):反応中心の予測 • 2. Candidate generation:列挙 • 3. Ranking 3段階で順方向の反応を予測。1, 3 でGraph convを用いる。 42 https://arxiv.org/pdf/1709.04555.pdf
  • 43. WLDN 1. Reaction center prediction (atom pair):反応中心の予測 • 反応前後でBond 情報が変わっているところを1、 同じところは0となるように予測する – Atom mappingの情報が必要 • 手法 – Weiffeiler-Lehman Networkを使用 • Local Model:atom u, v および 辺 uv の情報から予測 • Global Model:全体からAttention score (softmaxではなくsigmoid使って いるのでGateっぽい) 計算した後に予測→触媒の情報も入る – N atom について N^2 の pair に対して予測 • binary_cross_entropy で学習 • Top-K を採用 43 https://arxiv.org/pdf/1709.04555.pdf
  • 44. WLDN 2. Candidate generation:列挙 • 1. での予測結果からのTop-K の中から k個 (1~K) 選んで、その部分が変化 した場合の生成物(Product) として可能なものを全列挙 – この部分はルールベースで、学習要素はなし – 全列挙しても現実的には valency condition などでかなり数は絞られる – 結果で示すように、templated-based なものよりは候補少なくなっていて、 十分に候補は絞られている • Practical には K=6くらいで十分なよう 44 https://arxiv.org/pdf/1709.04555.pdf
  • 45. WLDN 3. Ranking • 2. で列挙されたProductの候補 のうちどれが一番もっともらしいかを予測する。 • 各Product 候補 に対してスコアを算出。 r が元のreactant。2通り実験 – WLN: r と のEmbedding vectorの差 から算出 – WLDN: に対して Difference vector を割り当てたGraphに対して からWL Networkを適用してスコアを計算する • Softmaxで分類問題として学習 – を入力とし、正解である を予測できるように 45 https://arxiv.org/pdf/1709.04555.pdf 𝑝0, … 𝑝 𝑚 𝑝𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝0, … 𝑝 𝑚 𝑝0
  • 46. WLDN • 結果: – 予測精度を USPTO-15K Dataset で評価 – 化学者との合成結果予測実験では、人をOut performした。 46 https://arxiv.org/pdf/1709.04555.pdf 1 2 3
  • 47. WLDN5 • 内容は WLDNとほぼ同じ? – 第一・第二著者(Wengong Jin, Connor W. Coley)が入れ替わっている – Network を少し変えた? – 1. atom pair prediction時に どの bond に変わるかも予測。(u, v, b) 47 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 48. WLDN5 • n=5 で十分現実の反応をカバーできるので、n=5までの列挙としたらしい。 • 1. のNetwork の上位 K=16 から 5個を選んで列挙する 48 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 49. WLDN5 • 学習時間 – 1. WLN: Titan X で 19時間 – 3. WLDN: Titan X で 72時間 • 結果:精度比較 – WLDNやseq2seq (Schwaller) よりも良い精度 – ELECTRO (後述) と同等くらいの精度 49 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 51. ELECTRO • Electron path を sequential に予測することで順方向の反応を予測 – “Mechanistic” であることが特徴 – 電子の移動には LEF: Linear Electron Flow 表記を採用 52 https://arxiv.org/pdf/1805.10970.pdf
  • 52. ELECTRO • Algorithm 概要:3 step に分けて Sequentialに予測していく 2. & 3. は終了するまでループする。 – 1. Starting Location – 2. Electron Movement • t odd: Remove location • t even: Add location – 3. Continue / Termination classification 53 https://arxiv.org/pdf/1805.10970.pdf t: oddのRemoveで終わるときは、 電気的に偏って終了する?
  • 53. ELECTRO Algorithm 詳細 • Graph convのArchはGGNN使用 訓練 • 各ステップ t 毎に学習 • t 時点の正解分子構造 から 正解Atom (start, add, remove) を予測 推論 • 合計のパスの尤度 beam search で求めてTop- Kを算出 • 全てのステップを確率値で算出 しているため各パスの尤度が計算可能 • AppendixにAlgorithm記載あり。 54 1 2 3 𝑀𝑡 ∗ 𝑎 𝑡 ∗ log 𝑝 𝜃 𝑃0:𝑇 𝑀0, 𝑀𝑒) https://arxiv.org/pdf/1805.10970.pdf
  • 54. ELECTRO • LEFの構成方法 – USPTOのデータセット自体にはLEF情報無いので前処理して作り出す • 反応前後で変わった部分から算出 • 電気陰性度の順で並べると、start→end のOrderがわかるらしい – USPTOの中のうち、きちんとLEFが取り出せたもののみを評価に使用 →Subset のみしか扱えない(電子1個移動する場合しか扱えない?) ”USPTO_LEF” と呼ぶ 55 https://arxiv.org/pdf/1805.10970.pdf
  • 55. ELECTRO • 結果 (ELECTRO-LITEは触媒情報 を入れなかったもの) – Mechanism prediction:割愛 – Product prediction • Electron pathが違っても結果が同じProductとなる場合があるらしい 最終Productがあって入ればOKというSetting(他の論文もこちらの基準を採用) • WLDN, Seq2Seq (Schwaller) よりはよく、WLDN5と同等の精度 56 https://arxiv.org/pdf/1805.10970.pdf 𝑀𝑒
  • 56. ELECTRO • Appendix – (左) Symmetry があるため一意に決まらないものの例 – (右) ELECTRO-LITE の予測例 57 https://arxiv.org/pdf/1805.10970.pdf
  • 57. GTPN:Graph Transformation Policy Network • 順方向の合成経路予測を強化学習 (policy gradient) を用いてアプローチ – 先行研究のグラフ生成モデルGCPN: Graph Convolutional Policy Network がベースアイデア • 反応前後を “可変長のボンドのつなぎ変え” 操作だとみなし、その可変長のActionを policy gradient で学習していく – Action (ξ, u, v, b) の系列からなる – 辺 (u, v) を Bond b に変更する。ξ : stop flag 1になったらそこで終了。 58https://arxiv.org/pdf/1812.09441.pdf
  • 58. GTPN:Graph Transformation Policy Network • Network 構成:3つのNetworkを使用 – GNN:Graph Neural Network – NPPN:Node Pair Prediction Network – PN:Policy Network 59 https://arxiv.org/pdf/1812.09441.pdf
  • 59. GTPN:Graph Transformation Policy Network • 推論時のbeam search – Action 系列の尤度が高い方からTop-Nを算出 – Beam 幅が広いと常に精度がいいとは限らない。 • 以下の例ではBeam 幅 1 の精度74.49 を超えるためには beam 幅20 まで上げる必要があった 65 https://arxiv.org/pdf/1812.09441.pdf
  • 60. GTPN:Graph Transformation Policy Network • 結果 – 精度は ELECTROと同等か多少劣るくらい 66 https://arxiv.org/pdf/1812.09441.pdf
  • 61. GTPN:Graph Transformation Policy Network • エラー内容の分析 – Atom pair predictionでの間違いが一番多い。 – symmetry で間違えたことになってしまっているのは全体の 5.7% 67 https://arxiv.org/pdf/1812.09441.pdf 左から、1. reactant, 2. incorrect prediction, 3. ground truth, 4. product.
  • 62. Molecule Chef • “合成可能な分子” のみを生成するグラフ生成モデルを提案 [発想の転換] • これまでのようにproduct を直接出すのではなく、 bag of reactants を生成する • 先行研究で出てきた順方向のreaction prediction model を使用することで割と精度 よく予測できることを利用 → 現状SOTAの Molecular Transformer を使用。 68 https://openreview.net/pdf?id=BJlQEILY_N 可変長のReactants のセット
  • 63. Molecule Chef • 生成モデル – GGNN Encoder + RNN decoder のVAE – bag of reactants を生成 • Encoder 側 – GGNNで各Reactantを別々に潜在空間にMapping – Sum とって (Readout)、最終的な “bag of reactants” の 表現 z を得る 69 https://openreview.net/pdf?id=BJlQEILY_N
  • 64. Molecule Chef • Decoder 側 – USPTOで計15回以上出てくる reactant のみをtokenize (3180個) – RNNで可変長のReactantを生成 – Halt signal が選ばれたらストップ – 学習時はRandom にOrderを決めて、Teacher forcingした 70 https://openreview.net/pdf?id=BJlQEILY_N
  • 65. Molecule Chef • Dataset – 簡単な設定としたいため USPTO全体ではなく USPTO_LEF で学習 – USPTOで計15回以上出てくる reactant のみをtokenize • 3180 reactants • 21928 products – Reagent は今回は Filter outして、未使用 72
  • 66. Molecule Chef • 結果 – 生成する空間を「よく使われているReactantから合成可能なProduct」 に限定しているためValidity がとても高い 73 https://openreview.net/pdf?id=BJlQEILY_N
  • 67. Molecule Chef • 結果 – 直接対象分子を生成するモデルと比べて、安定な分子が生成できる 74 https://openreview.net/pdf?id=BJlQEILY_N
  • 68. Molecule Chef • 結果:Optimization – 本来の目的であった Molecular search も当然可能 75 https://openreview.net/pdf?id=BJlQEILY_N
  • 69. Molecule Chef • Retro synthesisへの応用 – z → “bag of reactants” のDecoderはすでに学習済み – product → z という 新しいEncoder を学習すれば、逆合成経路探索にも使える – product →(New encoder) z →(Decoder) “bag of reactants” →(Molecular Transformer) product’ となるため 本当に作りたいproduct と実際にできると予測される product’が一 致する保証はないが、似ている product は作れる 76 https://openreview.net/pdf?id=BJlQEILY_N
  • 70. Molecule Chef • Retro synthesisへの応用 – 例:(b), (c) では別のものができてしまっている。 – 逆合成をメインとした論文ではないので、あくまでのおまけの使い方として可能性の紹介 77 https://openreview.net/pdf?id=BJlQEILY_N
  • 71. 手法の比較 • 今のところ seq2seq 系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 78 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  • 72. 79