Kosuke Nakago
Preferred Networks, Inc.
合成経路探索
~ 論文まとめ ~
目次
• 合成経路・逆合成経路探索とは
• 研究の流れ
• アプローチ
– 古典的特徴量抽出 + NN
– Graph Conv系列
– seq2seq系列
• 課題・考察
2
合成経路・逆合成経路
• 反応 (Reaction)
– 反応物 Reactant + 触媒 Reagent → 生成物 Product
• 合成経路 :順方向な合成
– Reactant, Reagent が与えられたときにどのようなProductができるか
• 逆合成経路:逆方向な合成
– Product が与えられたとき、どのようなReactant, Reagentができるか
– 一意とは限らない
3
逆合成経路探索
• 逆合成経路探索
– “商用利用可能な” Reactant, Reagentを用いて、
所望のProduct を合成したい
– 逆合成経路予測を複数ステップ行う必要がある
4
https://arxiv.org/pdf/1708.04202.pdf
Reaction SMILESについて
• Mixed: Reactant.Reagent >> Product
• Separated: Reactant > Reagent > Product というような形式で記載
– 触媒が明示的に分けられている Separated の方が情報量は多い
5
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
Reaction SMILESについて
• Reactant >> Product
• Reactant > Reagent > Product というような形式で記載
• 複数分子が存在するので “.” で区切られている
• どのAtomが反応前後でどの部分に行ったのかの対応を取るために、各Atomにidが
振られている場合が多い (Atom-mapping)
※ USPTO Datasetの mapping は自動生成されたもので間違っているものもあるので注意!
• RDKitで扱える。可視化など ↓
6
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
Datasetについて
• USPTO Dataset ができてから機械学習の適用トレンドが生まれた。
• Lowe が集めたものを Jin et al. などがそれぞれ自身のタスクようにFilterし
独自のSub setのデータセットを作成・評価している
7
https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
研究の流れ
Molecular Transormer
Molecular Transformer for Chemical
Reaction Prediction and Uncertainty
Estimation
seq2seq, Schwaller IBM
“Found in Translation": Predicting Outcomes
of Complex Organic Chemistry Reactions
using Neural Sequence-to-Sequence Models
2017
2016
2019
NLP系
8
Neural Symbolic ML
- Neural‐Symbolic Machine Learning for
Retrosynthesis and Reaction Prediction
AlphaChem
- Towards "AlphaChem": Chemical Synthesis Planning
with Tree Search and Deep Neural Network Policies
- AlphaChem: Planning chemical syntheses with deep
neural networks and symbolic AI
- Learning to Plan Chemical Syntheses
Computer Assisted Retrosynthesis
Computer-Assisted Retrosynthesis Based on
Molecular Similarity
WLDN / WLDN5
- Predicting Organic Reaction Outcomes with
Weisfeiler-Lehman Network
- A graph-convolutional neural network model for
the prediction of chemical reactivity
ELECTRO
A GENERATIVE MODEL FOR ELECTRON
PATHS
seq2seq, Liu Stanford
Retrosynthetic reaction prediction using
neural sequence-to-sequence models
seq2seq, Nam&Kim
Linking the Neural Machine Translation and
the Prediction of Organic Chemistry Reactions
Molecule CHEF
Generating Molecules via Chemical Reactions
Graph conv特徴量抽出+NN
GTPN
GRAPH TRANSFORMATION POLICY
NETWORK FOR CHEMICAL REACTION
PREDICTION
2018
研究の流れ
研究を進められている組織は少なく、限られている印象
• ドイツの機関:Marwin Segler, John BradShaw et al.
• MIT:Jin, Connor Coley et al.
• IBM:Phillipe Schwaller et al.
9
手法の比較
• 調べた限りでは NLP 系列がSOTA。
Graph convよりいろいろと使いやすい性質がある
10
特徴量抽出+NN NLP系 Graph Conv
メリット 反応を事前列挙している場合は、
逆合成経路探索に使用できる
・Atom mappingの情報無くてもよ
い
・STEREO: Chiralityが文字列とし
て扱える(@,@@ など)
・SMILESと違い、化合物
に対応するグラフは一意に
決まる
デメリット 事前に反応ルールを作っておく
必要があることが多い
・同じ化合物に対してSMILESは一
意には決まらない(Canonical
SMILESは一意)
・予測結果として出てくるSMILESの
文法が正しいとは限らない。
別で工夫が必要。
・Atom mappingの情報が
必要な場合が多い
- Symmetryどう扱うか?
研究の流れ
• これまではTemplate-basedな手法
– ルールを人手で列挙してきた。(→最近は自動列挙する研究もある)
– 問題点1:新規の反応に対応するには、新しいルールを足していく必要がある。
– 問題点2:精度が低い ← Templateの範囲しか見ないため、全体の分子のコンテキストか
らより起こりそうな反応を重視するといったことができない。
– 問題点3:Sub Graph isomorphism matching をすべてのルールに対して適用する必要が
あるため、時間がかかる。
11
研究の流れ
• AlphaChem のあたりで 特徴量抽出+NN をはじめとした、
合成経路探索のMLアプローチが出てきた
• 機械学習を活用した template-free な手法へ
• Jin et alがUSPTOデータセットを公開してから急激に進んでいる
• シンプルなNNから徐々にGraphConv 勢 VS NLP 勢 へ移行してきている
– 一方で難しい逆合成経路探索はいったん保留して、
まずは簡単な順合成予測を解いている研究が最近のトレンド
12
特徴量抽出+NN
• AlphaChem のあたりで 特徴量抽出+NN をはじめとした、
合成経路探索のMLアプローチが出てきた。
– ただしend-to-end ではなくどこかにルールで制限を加えている
• 反応はルールを列挙
• 記述子は学習ベースではなくECFPを使う など。
13
Neural Symbolic ML
• 逆合成経路探索。事前に反応の種類を列挙。以下2種類で実験
– Hand code した場合:103 rules
– Data-drivenで自動抽出:8720 rules (手法の詳細はかかれていない? 。。)
• Product を入力として、反応の種類を分類予測
– これまでのルールベースのものと異なり、分子全体のコンテキストからより起
こりそうな反応を予測したい。
14
Neural Symbolic ML
• ProductをECFP4で特徴量抽出して MLP へ入れて分類問題解く
• 疑問点:反応の種類さえわかれば、逆合成経路が記述できる?
– どの位置で反応するかなどの情報無くてもよいのか?
15
AlphaChem
• 概要:Productの反応分類をNNで行い、MCTSで探索することでこれまで
より高精度・高速な逆合成経路探索を可能にした。
• MCTS探索のアイデアはAlpha Goから来ている
– Expansion Policy → In-scope filter → Rollout Policy を用いて探索
16
https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• MCTS探索のアイデアはAlpha Goから来ている
– Expansion Policy & Rollout Policy を用いて探索
– Expansion policy
• 精度よく展開したい
• 広いルールを探索
– Rollout policy
• 高速に計算
• 少ないルールで探索
17https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• データセット:Reaxysを使用。12.4M single step の合成データ
– Transformation rulesは”Neural Symbolic ML” の時の手法を用いて自動抽出。
– Expansion policy: 30171 rules
– Rollout policy: 17134 rules
• 予測に使うNetworkは先行研究同様、軽いMLP or Linear regression。
18https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• In Scope Filter
– Expansion policy のTop-Kのそれぞれが本当に”起こるかどうか”を二値分類で
予測する
– Product & Reactionを入力として二値分類結果を出力
AUC: 0.99 出たらしい!
• データの負例の作り方に工夫:
– データベースにあるものが正例
– 負例の作り方は以下2通り
1.Productで起こりえる反応のうち、
データベースの反応以外の反応は負例とした
(反応はパターンとして書かれるので,
ある化合物が複数のパターンにマッチする)
2.正例 (ρi, φi) に対して、 (ρi, φi)を負例とした
19https://arxiv.org/pdf/1708.04202.pdf
AlphaChem
• 結果:既知の合成経路をきちんと見つけることができた
20
AlphaChem
• 課題:
– ECFPで特徴量抽出しているところは
Graph convなど使って精度上げる方法がありそう。
– ルールの列挙が数が多い?
21
Computer Assisted Retrosynthesis
• Morgan fingerprint + Tanimoto similarity でデータベースから似ている例を
見つけて、その反応ルールを適用するだけで十分よい精度で逆合成経路探
索ができるという主張
• NNなどの学習はなし。
22
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 逆合成経路は複数あるという例
– 複数の中からどれが一番よさそうかランキングしたい
23
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 上のTarget Productの逆合成経路予測
• 左にあるように先行例 “Precedent”
をデータベースから抽出
Similarity: s_prod
• 先行例と同じ反応した場合の反応物を算出
その “precursor” とのSimilarity も算出
Similarity: s_reac
• 最終スコアは s_prod * s_reac で算出
大きいものから順にランク付けする。
• これだけシンプルな手法で十分らしい。
24
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
Computer Assisted Retrosynthesis
• 結果:先行研究の seq2seq [Liu] よりは精度良い
• 既知のProductの逆合成経路探索もできた。
25
https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
seq2seq 系
• Reactant > Reagent > Product で記載されるReaction
SMILESを文字列として扱い、NLPで研究されている翻
訳タスクと同じ問題へ落とす
– NLPの成果・コードを流用できる
– seq2seq, transformer (multi-head attention)…
• beam search
26
seq2seq, Nam&Kim
• seq2seq のモデルを使って順方向の合成経路予測をする初期研究
• 以下2つのデータセットで学習・評価
– USPTO
– Wade
reaction templates in an
organic chemistry textbook
27
https://arxiv.org/abs/1612.09529
seq2seq, Liu
• seq2seq のモデルを使って逆合成経路予測
• SMARTS 記法で retrosynthesis prediction
– 逆合成なので、順方向より難しいタスク
28
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq
model を流用 (https://github.com/google/seq2seq)
– Reaction SMILES の product を入力して、 reactant を出力するように学習
– reaction type は固定
29
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• Model は Britz et alが公開している Bidirectional LSTM を用いた seq2seq
model を流用 (https://github.com/google/seq2seq)
– 推論時はBeam searchで、最も確率が高いものTop-Kを選ぶ
(論文ではbeam width 5, K=5, decode length 140 char)
30
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
• 結果
• template base の baseline と比較して、精度はよい・悪い傾向
のものがそれぞれあったらしい。 "leaving group" 脱離基 がかな
り大きいものを使うようなタイプの合成方法だと rule base で
template matching した方が精度がよいらしい。
• 逆に単一のルールベースで書きづらいような全体をみつつ反応
が決まるようなものはMLの方が得意
31
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
考察:NNの間違い方は以下の3通り
1. SMILESの文法として間違っている
2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど)
3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、
データセットとは違う
32
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Liu
考察:NNの間違い方は以下の3通り
1. SMILESの文法として間違っている
2. SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど)
3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、
データセットとは違う
33
https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
seq2seq, Schwaller
• 順方向の Reaction を seq2seq (BiLSTM + attention使用)で予測
• Reaction smiles は reactant, reagent(触媒) に前処理で分けた後、
reagent に関してはパターンが有限で限られているので頻出する76個を
tokenize
34
https://arxiv.org/pdf/1711.04810.pdf
seq2seq, Schwaller
• Attentionが効いていることが直感的にわかる図
– 基本的には大体の部分は同じままで、反応する部分だけを少し変えたような生
成物を作るように“翻訳”できればよい
35
https://arxiv.org/pdf/1711.04810.pdf
seq2seq, Schwaller
• データセットはLowe‘s dataset, Jin’s USPTO, Pistachio database を使用
• 結果
– 先行研究のWLDNより精度よく予測できたとのこと
36
https://arxiv.org/pdf/1711.04810.pdf
Molecular Transformer
• 順方向の合成経路予測:Multihead attention を張るタイプのseq2seq で
reaction smiles を予測しているだけのシンプルな手法
• code: https://github.com/pschwllr/MolecularTransformer
• slide: https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
• Free web service: https://rxn.res.ibm.com/
– IBM RXNとして公開
– APIまで公開してる
37
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Molecular Transformer
• 結果:様々なデータセット、先行研究モデルと比較
– 2019.6時点ではSOTAか
– 触媒を明示的に分けたSeparated方が精度はよい
38
https://arxiv.org/pdf/1811.02633.pdf
Molecular Transformer
• 結果:複雑な文字列の変更もきちんと予測できている。
39
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Molecular Transformer
• IBM RXN https://rxn.res.ibm.com/
40
https://rxn.res.ibm.com/wp-
content/uploads/2019/05/acs
_orlando_presentation.pdf
Graph Conv系
41
WLDN
• 1. Reaction center prediction (atom pair):反応中心の予測
• 2. Candidate generation:列挙
• 3. Ranking
3段階で順方向の反応を予測。1, 3 でGraph convを用いる。
42
https://arxiv.org/pdf/1709.04555.pdf
WLDN
1. Reaction center prediction (atom pair):反応中心の予測
• 反応前後でBond 情報が変わっているところを1、
同じところは0となるように予測する
– Atom mappingの情報が必要
• 手法
– Weiffeiler-Lehman Networkを使用
• Local Model:atom u, v および 辺 uv の情報から予測
• Global Model:全体からAttention score (softmaxではなくsigmoid使って
いるのでGateっぽい) 計算した後に予測→触媒の情報も入る
– N atom について N^2 の pair に対して予測
• binary_cross_entropy で学習
• Top-K を採用
43
https://arxiv.org/pdf/1709.04555.pdf
WLDN
2. Candidate generation:列挙
• 1. での予測結果からのTop-K の中から k個 (1~K) 選んで、その部分が変化
した場合の生成物(Product) として可能なものを全列挙
– この部分はルールベースで、学習要素はなし
– 全列挙しても現実的には valency condition などでかなり数は絞られる
– 結果で示すように、templated-based なものよりは候補少なくなっていて、
十分に候補は絞られている
• Practical には K=6くらいで十分なよう
44
https://arxiv.org/pdf/1709.04555.pdf
WLDN
3. Ranking
• 2. で列挙されたProductの候補
のうちどれが一番もっともらしいかを予測する。
• 各Product 候補 に対してスコアを算出。 r が元のreactant。2通り実験
– WLN: r と のEmbedding vectorの差 から算出
– WLDN: に対して Difference vector を割り当てたGraphに対して
からWL Networkを適用してスコアを計算する
• Softmaxで分類問題として学習
– を入力とし、正解である を予測できるように
45
https://arxiv.org/pdf/1709.04555.pdf
𝑝0, … 𝑝 𝑚
𝑝𝑖
𝑝𝑖 𝑑 𝑣
𝑝 𝑖
𝑝𝑖 𝑑 𝑣
𝑝 𝑖
𝑝0, … 𝑝 𝑚 𝑝0
WLDN
• 結果:
– 予測精度を USPTO-15K Dataset で評価
– 化学者との合成結果予測実験では、人をOut performした。
46
https://arxiv.org/pdf/1709.04555.pdf
1
2
3
WLDN5
• 内容は WLDNとほぼ同じ?
– 第一・第二著者(Wengong Jin, Connor W. Coley)が入れ替わっている
– Network を少し変えた?
– 1. atom pair prediction時に
どの bond に変わるかも予測。(u, v, b)
47
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• n=5 で十分現実の反応をカバーできるので、n=5までの列挙としたらしい。
• 1. のNetwork の上位 K=16 から 5個を選んで列挙する
48
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• 学習時間
– 1. WLN: Titan X で 19時間
– 3. WLDN: Titan X で 72時間
• 結果:精度比較
– WLDNやseq2seq (Schwaller) よりも良い精度
– ELECTRO (後述) と同等くらいの精度
49
https://chemrxiv.org/articles/A_Graph-
Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea
ctivity/7163189/1
WLDN5
• 正しく予測できているものの例:わりと複雑なものまで扱えている印象
• Appendixにもっと詳細な考察あり(割愛)
50https://chemrxiv.org/articles/A_Graph-Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Reactivity/7163189/1
ELECTRO
• Electron path を sequential に予測することで順方向の反応を予測
– “Mechanistic” であることが特徴
– 電子の移動には
LEF: Linear Electron Flow 表記を採用
52
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• Algorithm 概要:3 step に分けて Sequentialに予測していく
2. & 3. は終了するまでループする。
– 1. Starting Location
– 2. Electron Movement
• t odd: Remove location
• t even: Add location
– 3. Continue / Termination classification
53
https://arxiv.org/pdf/1805.10970.pdf
t: oddのRemoveで終わるときは、
電気的に偏って終了する?
ELECTRO
Algorithm 詳細
• Graph convのArchはGGNN使用
訓練
• 各ステップ t 毎に学習
• t 時点の正解分子構造 から
正解Atom (start, add, remove) を予測
推論
• 合計のパスの尤度
beam search で求めてTop- Kを算出
• 全てのステップを確率値で算出
しているため各パスの尤度が計算可能
• AppendixにAlgorithm記載あり。
54
1
2
3
𝑀𝑡
∗
𝑎 𝑡
∗
log 𝑝 𝜃 𝑃0:𝑇 𝑀0, 𝑀𝑒)
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• LEFの構成方法
– USPTOのデータセット自体にはLEF情報無いので前処理して作り出す
• 反応前後で変わった部分から算出
• 電気陰性度の順で並べると、start→end のOrderがわかるらしい
– USPTOの中のうち、きちんとLEFが取り出せたもののみを評価に使用
→Subset のみしか扱えない(電子1個移動する場合しか扱えない?) ”USPTO_LEF” と呼ぶ
55
https://arxiv.org/pdf/1805.10970.pdf
ELECTRO
• 結果 (ELECTRO-LITEは触媒情報 を入れなかったもの)
– Mechanism prediction:割愛
– Product prediction
• Electron pathが違っても結果が同じProductとなる場合があるらしい
最終Productがあって入ればOKというSetting(他の論文もこちらの基準を採用)
• WLDN, Seq2Seq (Schwaller) よりはよく、WLDN5と同等の精度
56
https://arxiv.org/pdf/1805.10970.pdf
𝑀𝑒
ELECTRO
• Appendix
– (左) Symmetry があるため一意に決まらないものの例
– (右) ELECTRO-LITE の予測例
57
https://arxiv.org/pdf/1805.10970.pdf
GTPN:Graph Transformation Policy Network
• 順方向の合成経路予測を強化学習 (policy gradient) を用いてアプローチ
– 先行研究のグラフ生成モデルGCPN: Graph Convolutional Policy Network がベースアイデア
• 反応前後を “可変長のボンドのつなぎ変え” 操作だとみなし、その可変長のActionを
policy gradient で学習していく
– Action (ξ, u, v, b) の系列からなる
– 辺 (u, v) を Bond b に変更する。ξ : stop flag 1になったらそこで終了。
58https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• Network 構成:3つのNetworkを使用
– GNN:Graph Neural Network
– NPPN:Node Pair Prediction Network
– PN:Policy Network
59
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• 推論時のbeam search
– Action 系列の尤度が高い方からTop-Nを算出
– Beam 幅が広いと常に精度がいいとは限らない。
• 以下の例ではBeam 幅 1 の精度74.49 を超えるためには
beam 幅20 まで上げる必要があった
65
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• 結果
– 精度は ELECTROと同等か多少劣るくらい
66
https://arxiv.org/pdf/1812.09441.pdf
GTPN:Graph Transformation Policy Network
• エラー内容の分析
– Atom pair predictionでの間違いが一番多い。
– symmetry で間違えたことになってしまっているのは全体の 5.7%
67
https://arxiv.org/pdf/1812.09441.pdf
左から、1. reactant, 2. incorrect prediction,
3. ground truth, 4. product.
Molecule Chef
• “合成可能な分子” のみを生成するグラフ生成モデルを提案
[発想の転換]
• これまでのようにproduct を直接出すのではなく、 bag of reactants を生成する
• 先行研究で出てきた順方向のreaction prediction model を使用することで割と精度
よく予測できることを利用 → 現状SOTAの Molecular Transformer を使用。
68
https://openreview.net/pdf?id=BJlQEILY_N
可変長のReactants のセット
Molecule Chef
• 生成モデル
– GGNN Encoder + RNN decoder のVAE
– bag of reactants を生成
• Encoder 側
– GGNNで各Reactantを別々に潜在空間にMapping
– Sum とって (Readout)、最終的な “bag of reactants” の 表現 z を得る
69
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Decoder 側
– USPTOで計15回以上出てくる reactant のみをtokenize (3180個)
– RNNで可変長のReactantを生成
– Halt signal が選ばれたらストップ
– 学習時はRandom にOrderを決めて、Teacher forcingした
70
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Dataset
– 簡単な設定としたいため USPTO全体ではなく USPTO_LEF で学習
– USPTOで計15回以上出てくる reactant のみをtokenize
• 3180 reactants
• 21928 products
– Reagent は今回は Filter outして、未使用
72
Molecule Chef
• 結果
– 生成する空間を「よく使われているReactantから合成可能なProduct」
に限定しているためValidity がとても高い
73
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• 結果
– 直接対象分子を生成するモデルと比べて、安定な分子が生成できる
74
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• 結果:Optimization
– 本来の目的であった Molecular search も当然可能
75
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Retro synthesisへの応用
– z → “bag of reactants” のDecoderはすでに学習済み
– product → z という 新しいEncoder を学習すれば、逆合成経路探索にも使える
– product →(New encoder) z →(Decoder) “bag of reactants”
→(Molecular Transformer) product’
となるため 本当に作りたいproduct と実際にできると予測される product’が一
致する保証はないが、似ている product は作れる
76
https://openreview.net/pdf?id=BJlQEILY_N
Molecule Chef
• Retro synthesisへの応用
– 例:(b), (c) では別のものができてしまっている。
– 逆合成をメインとした論文ではないので、あくまでのおまけの使い方として可能性の紹介
77
https://openreview.net/pdf?id=BJlQEILY_N
手法の比較
• 今のところ seq2seq 系列がSOTA。
Graph convよりいろいろと使いやすい性質がある
78
特徴量抽出+NN NLP系 Graph Conv
メリット 反応を事前列挙している場合は、
逆合成経路探索に使用できる
・Atom mappingの情報無くてもよ
い
・STEREO: Chiralityが文字列とし
て扱える(@,@@ など)
・SMILESと違い、化合物
に対応するグラフは一意に
決まる
デメリット 事前に反応ルールを作っておく
必要があることが多い
・同じ化合物に対してSMILESは一
意には決まらない(Canonical
SMILESは一意)
・予測結果として出てくるSMILESの
文法が正しいとは限らない。
別で工夫が必要。
・Atom mappingの情報が
必要な場合が多い
- Symmetryどう扱うか?
79

合成経路探索 -論文まとめ- (PFN中郷孝祐)

  • 1.
    Kosuke Nakago Preferred Networks,Inc. 合成経路探索 ~ 論文まとめ ~
  • 2.
    目次 • 合成経路・逆合成経路探索とは • 研究の流れ •アプローチ – 古典的特徴量抽出 + NN – Graph Conv系列 – seq2seq系列 • 課題・考察 2
  • 3.
    合成経路・逆合成経路 • 反応 (Reaction) –反応物 Reactant + 触媒 Reagent → 生成物 Product • 合成経路 :順方向な合成 – Reactant, Reagent が与えられたときにどのようなProductができるか • 逆合成経路:逆方向な合成 – Product が与えられたとき、どのようなReactant, Reagentができるか – 一意とは限らない 3
  • 4.
    逆合成経路探索 • 逆合成経路探索 – “商用利用可能な”Reactant, Reagentを用いて、 所望のProduct を合成したい – 逆合成経路予測を複数ステップ行う必要がある 4 https://arxiv.org/pdf/1708.04202.pdf
  • 5.
    Reaction SMILESについて • Mixed:Reactant.Reagent >> Product • Separated: Reactant > Reagent > Product というような形式で記載 – 触媒が明示的に分けられている Separated の方が情報量は多い 5 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 6.
    Reaction SMILESについて • Reactant>> Product • Reactant > Reagent > Product というような形式で記載 • 複数分子が存在するので “.” で区切られている • どのAtomが反応前後でどの部分に行ったのかの対応を取るために、各Atomにidが 振られている場合が多い (Atom-mapping) ※ USPTO Datasetの mapping は自動生成されたもので間違っているものもあるので注意! • RDKitで扱える。可視化など ↓ 6 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 7.
    Datasetについて • USPTO Datasetができてから機械学習の適用トレンドが生まれた。 • Lowe が集めたものを Jin et al. などがそれぞれ自身のタスクようにFilterし 独自のSub setのデータセットを作成・評価している 7 https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf
  • 8.
    研究の流れ Molecular Transormer Molecular Transformerfor Chemical Reaction Prediction and Uncertainty Estimation seq2seq, Schwaller IBM “Found in Translation": Predicting Outcomes of Complex Organic Chemistry Reactions using Neural Sequence-to-Sequence Models 2017 2016 2019 NLP系 8 Neural Symbolic ML - Neural‐Symbolic Machine Learning for Retrosynthesis and Reaction Prediction AlphaChem - Towards "AlphaChem": Chemical Synthesis Planning with Tree Search and Deep Neural Network Policies - AlphaChem: Planning chemical syntheses with deep neural networks and symbolic AI - Learning to Plan Chemical Syntheses Computer Assisted Retrosynthesis Computer-Assisted Retrosynthesis Based on Molecular Similarity WLDN / WLDN5 - Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network - A graph-convolutional neural network model for the prediction of chemical reactivity ELECTRO A GENERATIVE MODEL FOR ELECTRON PATHS seq2seq, Liu Stanford Retrosynthetic reaction prediction using neural sequence-to-sequence models seq2seq, Nam&Kim Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions Molecule CHEF Generating Molecules via Chemical Reactions Graph conv特徴量抽出+NN GTPN GRAPH TRANSFORMATION POLICY NETWORK FOR CHEMICAL REACTION PREDICTION 2018
  • 9.
    研究の流れ 研究を進められている組織は少なく、限られている印象 • ドイツの機関:Marwin Segler,John BradShaw et al. • MIT:Jin, Connor Coley et al. • IBM:Phillipe Schwaller et al. 9
  • 10.
    手法の比較 • 調べた限りでは NLP系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 10 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  • 11.
    研究の流れ • これまではTemplate-basedな手法 – ルールを人手で列挙してきた。(→最近は自動列挙する研究もある) –問題点1:新規の反応に対応するには、新しいルールを足していく必要がある。 – 問題点2:精度が低い ← Templateの範囲しか見ないため、全体の分子のコンテキストか らより起こりそうな反応を重視するといったことができない。 – 問題点3:Sub Graph isomorphism matching をすべてのルールに対して適用する必要が あるため、時間がかかる。 11
  • 12.
    研究の流れ • AlphaChem のあたりで特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた • 機械学習を活用した template-free な手法へ • Jin et alがUSPTOデータセットを公開してから急激に進んでいる • シンプルなNNから徐々にGraphConv 勢 VS NLP 勢 へ移行してきている – 一方で難しい逆合成経路探索はいったん保留して、 まずは簡単な順合成予測を解いている研究が最近のトレンド 12
  • 13.
    特徴量抽出+NN • AlphaChem のあたりで特徴量抽出+NN をはじめとした、 合成経路探索のMLアプローチが出てきた。 – ただしend-to-end ではなくどこかにルールで制限を加えている • 反応はルールを列挙 • 記述子は学習ベースではなくECFPを使う など。 13
  • 14.
    Neural Symbolic ML •逆合成経路探索。事前に反応の種類を列挙。以下2種類で実験 – Hand code した場合:103 rules – Data-drivenで自動抽出:8720 rules (手法の詳細はかかれていない? 。。) • Product を入力として、反応の種類を分類予測 – これまでのルールベースのものと異なり、分子全体のコンテキストからより起 こりそうな反応を予測したい。 14
  • 15.
    Neural Symbolic ML •ProductをECFP4で特徴量抽出して MLP へ入れて分類問題解く • 疑問点:反応の種類さえわかれば、逆合成経路が記述できる? – どの位置で反応するかなどの情報無くてもよいのか? 15
  • 16.
    AlphaChem • 概要:Productの反応分類をNNで行い、MCTSで探索することでこれまで より高精度・高速な逆合成経路探索を可能にした。 • MCTS探索のアイデアはAlphaGoから来ている – Expansion Policy → In-scope filter → Rollout Policy を用いて探索 16 https://arxiv.org/pdf/1708.04202.pdf
  • 17.
    AlphaChem • MCTS探索のアイデアはAlpha Goから来ている –Expansion Policy & Rollout Policy を用いて探索 – Expansion policy • 精度よく展開したい • 広いルールを探索 – Rollout policy • 高速に計算 • 少ないルールで探索 17https://arxiv.org/pdf/1708.04202.pdf
  • 18.
    AlphaChem • データセット:Reaxysを使用。12.4M singlestep の合成データ – Transformation rulesは”Neural Symbolic ML” の時の手法を用いて自動抽出。 – Expansion policy: 30171 rules – Rollout policy: 17134 rules • 予測に使うNetworkは先行研究同様、軽いMLP or Linear regression。 18https://arxiv.org/pdf/1708.04202.pdf
  • 19.
    AlphaChem • In ScopeFilter – Expansion policy のTop-Kのそれぞれが本当に”起こるかどうか”を二値分類で 予測する – Product & Reactionを入力として二値分類結果を出力 AUC: 0.99 出たらしい! • データの負例の作り方に工夫: – データベースにあるものが正例 – 負例の作り方は以下2通り 1.Productで起こりえる反応のうち、 データベースの反応以外の反応は負例とした (反応はパターンとして書かれるので, ある化合物が複数のパターンにマッチする) 2.正例 (ρi, φi) に対して、 (ρi, φi)を負例とした 19https://arxiv.org/pdf/1708.04202.pdf
  • 20.
  • 21.
    AlphaChem • 課題: – ECFPで特徴量抽出しているところは Graphconvなど使って精度上げる方法がありそう。 – ルールの列挙が数が多い? 21
  • 22.
    Computer Assisted Retrosynthesis •Morgan fingerprint + Tanimoto similarity でデータベースから似ている例を 見つけて、その反応ルールを適用するだけで十分よい精度で逆合成経路探 索ができるという主張 • NNなどの学習はなし。 22 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 23.
    Computer Assisted Retrosynthesis •逆合成経路は複数あるという例 – 複数の中からどれが一番よさそうかランキングしたい 23 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 24.
    Computer Assisted Retrosynthesis •上のTarget Productの逆合成経路予測 • 左にあるように先行例 “Precedent” をデータベースから抽出 Similarity: s_prod • 先行例と同じ反応した場合の反応物を算出 その “precursor” とのSimilarity も算出 Similarity: s_reac • 最終スコアは s_prod * s_reac で算出 大きいものから順にランク付けする。 • これだけシンプルな手法で十分らしい。 24 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 25.
    Computer Assisted Retrosynthesis •結果:先行研究の seq2seq [Liu] よりは精度良い • 既知のProductの逆合成経路探索もできた。 25 https://pubs.acs.org/doi/pdf/10.1021/acscentsci.7b00355
  • 26.
    seq2seq 系 • Reactant> Reagent > Product で記載されるReaction SMILESを文字列として扱い、NLPで研究されている翻 訳タスクと同じ問題へ落とす – NLPの成果・コードを流用できる – seq2seq, transformer (multi-head attention)… • beam search 26
  • 27.
    seq2seq, Nam&Kim • seq2seqのモデルを使って順方向の合成経路予測をする初期研究 • 以下2つのデータセットで学習・評価 – USPTO – Wade reaction templates in an organic chemistry textbook 27 https://arxiv.org/abs/1612.09529
  • 28.
    seq2seq, Liu • seq2seqのモデルを使って逆合成経路予測 • SMARTS 記法で retrosynthesis prediction – 逆合成なので、順方向より難しいタスク 28 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 29.
    seq2seq, Liu • Modelは Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – Reaction SMILES の product を入力して、 reactant を出力するように学習 – reaction type は固定 29 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 30.
    seq2seq, Liu • Modelは Britz et alが公開している Bidirectional LSTM を用いた seq2seq model を流用 (https://github.com/google/seq2seq) – 推論時はBeam searchで、最も確率が高いものTop-Kを選ぶ (論文ではbeam width 5, K=5, decode length 140 char) 30 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 31.
    seq2seq, Liu • 結果 •template base の baseline と比較して、精度はよい・悪い傾向 のものがそれぞれあったらしい。 "leaving group" 脱離基 がかな り大きいものを使うようなタイプの合成方法だと rule base で template matching した方が精度がよいらしい。 • 逆に単一のルールベースで書きづらいような全体をみつつ反応 が決まるようなものはMLの方が得意 31 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 32.
    seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2.SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 32 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 33.
    seq2seq, Liu 考察:NNの間違い方は以下の3通り 1. SMILESの文法として間違っている 2.SMILESの文法は合っているが、反応前後で矛盾(原子数違うなど) 3. 反応前後で矛盾もなく、実際に起こりそうな反応だが、 データセットとは違う 33 https://arxiv.org/ftp/arxiv/papers/1706/1706.01643.pdf
  • 34.
    seq2seq, Schwaller • 順方向のReaction を seq2seq (BiLSTM + attention使用)で予測 • Reaction smiles は reactant, reagent(触媒) に前処理で分けた後、 reagent に関してはパターンが有限で限られているので頻出する76個を tokenize 34 https://arxiv.org/pdf/1711.04810.pdf
  • 35.
    seq2seq, Schwaller • Attentionが効いていることが直感的にわかる図 –基本的には大体の部分は同じままで、反応する部分だけを少し変えたような生 成物を作るように“翻訳”できればよい 35 https://arxiv.org/pdf/1711.04810.pdf
  • 36.
    seq2seq, Schwaller • データセットはLowe‘sdataset, Jin’s USPTO, Pistachio database を使用 • 結果 – 先行研究のWLDNより精度よく予測できたとのこと 36 https://arxiv.org/pdf/1711.04810.pdf
  • 37.
    Molecular Transformer • 順方向の合成経路予測:Multiheadattention を張るタイプのseq2seq で reaction smiles を予測しているだけのシンプルな手法 • code: https://github.com/pschwllr/MolecularTransformer • slide: https://rxn.res.ibm.com/wp-content/uploads/2019/05/acs_orlando_presentation.pdf • Free web service: https://rxn.res.ibm.com/ – IBM RXNとして公開 – APIまで公開してる 37 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  • 38.
    Molecular Transformer • 結果:様々なデータセット、先行研究モデルと比較 –2019.6時点ではSOTAか – 触媒を明示的に分けたSeparated方が精度はよい 38 https://arxiv.org/pdf/1811.02633.pdf
  • 39.
  • 40.
    Molecular Transformer • IBMRXN https://rxn.res.ibm.com/ 40 https://rxn.res.ibm.com/wp- content/uploads/2019/05/acs _orlando_presentation.pdf
  • 41.
  • 42.
    WLDN • 1. Reactioncenter prediction (atom pair):反応中心の予測 • 2. Candidate generation:列挙 • 3. Ranking 3段階で順方向の反応を予測。1, 3 でGraph convを用いる。 42 https://arxiv.org/pdf/1709.04555.pdf
  • 43.
    WLDN 1. Reaction centerprediction (atom pair):反応中心の予測 • 反応前後でBond 情報が変わっているところを1、 同じところは0となるように予測する – Atom mappingの情報が必要 • 手法 – Weiffeiler-Lehman Networkを使用 • Local Model:atom u, v および 辺 uv の情報から予測 • Global Model:全体からAttention score (softmaxではなくsigmoid使って いるのでGateっぽい) 計算した後に予測→触媒の情報も入る – N atom について N^2 の pair に対して予測 • binary_cross_entropy で学習 • Top-K を採用 43 https://arxiv.org/pdf/1709.04555.pdf
  • 44.
    WLDN 2. Candidate generation:列挙 •1. での予測結果からのTop-K の中から k個 (1~K) 選んで、その部分が変化 した場合の生成物(Product) として可能なものを全列挙 – この部分はルールベースで、学習要素はなし – 全列挙しても現実的には valency condition などでかなり数は絞られる – 結果で示すように、templated-based なものよりは候補少なくなっていて、 十分に候補は絞られている • Practical には K=6くらいで十分なよう 44 https://arxiv.org/pdf/1709.04555.pdf
  • 45.
    WLDN 3. Ranking • 2.で列挙されたProductの候補 のうちどれが一番もっともらしいかを予測する。 • 各Product 候補 に対してスコアを算出。 r が元のreactant。2通り実験 – WLN: r と のEmbedding vectorの差 から算出 – WLDN: に対して Difference vector を割り当てたGraphに対して からWL Networkを適用してスコアを計算する • Softmaxで分類問題として学習 – を入力とし、正解である を予測できるように 45 https://arxiv.org/pdf/1709.04555.pdf 𝑝0, … 𝑝 𝑚 𝑝𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝𝑖 𝑑 𝑣 𝑝 𝑖 𝑝0, … 𝑝 𝑚 𝑝0
  • 46.
    WLDN • 結果: – 予測精度をUSPTO-15K Dataset で評価 – 化学者との合成結果予測実験では、人をOut performした。 46 https://arxiv.org/pdf/1709.04555.pdf 1 2 3
  • 47.
    WLDN5 • 内容は WLDNとほぼ同じ? –第一・第二著者(Wengong Jin, Connor W. Coley)が入れ替わっている – Network を少し変えた? – 1. atom pair prediction時に どの bond に変わるかも予測。(u, v, b) 47 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 48.
    WLDN5 • n=5 で十分現実の反応をカバーできるので、n=5までの列挙としたらしい。 •1. のNetwork の上位 K=16 から 5個を選んで列挙する 48 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 49.
    WLDN5 • 学習時間 – 1.WLN: Titan X で 19時間 – 3. WLDN: Titan X で 72時間 • 結果:精度比較 – WLDNやseq2seq (Schwaller) よりも良い精度 – ELECTRO (後述) と同等くらいの精度 49 https://chemrxiv.org/articles/A_Graph- Convolutional_Neural_Network_Model_for_the_Prediction_of_Chemical_Rea ctivity/7163189/1
  • 50.
  • 51.
    ELECTRO • Electron pathを sequential に予測することで順方向の反応を予測 – “Mechanistic” であることが特徴 – 電子の移動には LEF: Linear Electron Flow 表記を採用 52 https://arxiv.org/pdf/1805.10970.pdf
  • 52.
    ELECTRO • Algorithm 概要:3step に分けて Sequentialに予測していく 2. & 3. は終了するまでループする。 – 1. Starting Location – 2. Electron Movement • t odd: Remove location • t even: Add location – 3. Continue / Termination classification 53 https://arxiv.org/pdf/1805.10970.pdf t: oddのRemoveで終わるときは、 電気的に偏って終了する?
  • 53.
    ELECTRO Algorithm 詳細 • GraphconvのArchはGGNN使用 訓練 • 各ステップ t 毎に学習 • t 時点の正解分子構造 から 正解Atom (start, add, remove) を予測 推論 • 合計のパスの尤度 beam search で求めてTop- Kを算出 • 全てのステップを確率値で算出 しているため各パスの尤度が計算可能 • AppendixにAlgorithm記載あり。 54 1 2 3 𝑀𝑡 ∗ 𝑎 𝑡 ∗ log 𝑝 𝜃 𝑃0:𝑇 𝑀0, 𝑀𝑒) https://arxiv.org/pdf/1805.10970.pdf
  • 54.
    ELECTRO • LEFの構成方法 – USPTOのデータセット自体にはLEF情報無いので前処理して作り出す •反応前後で変わった部分から算出 • 電気陰性度の順で並べると、start→end のOrderがわかるらしい – USPTOの中のうち、きちんとLEFが取り出せたもののみを評価に使用 →Subset のみしか扱えない(電子1個移動する場合しか扱えない?) ”USPTO_LEF” と呼ぶ 55 https://arxiv.org/pdf/1805.10970.pdf
  • 55.
    ELECTRO • 結果 (ELECTRO-LITEは触媒情報を入れなかったもの) – Mechanism prediction:割愛 – Product prediction • Electron pathが違っても結果が同じProductとなる場合があるらしい 最終Productがあって入ればOKというSetting(他の論文もこちらの基準を採用) • WLDN, Seq2Seq (Schwaller) よりはよく、WLDN5と同等の精度 56 https://arxiv.org/pdf/1805.10970.pdf 𝑀𝑒
  • 56.
    ELECTRO • Appendix – (左)Symmetry があるため一意に決まらないものの例 – (右) ELECTRO-LITE の予測例 57 https://arxiv.org/pdf/1805.10970.pdf
  • 57.
    GTPN:Graph Transformation PolicyNetwork • 順方向の合成経路予測を強化学習 (policy gradient) を用いてアプローチ – 先行研究のグラフ生成モデルGCPN: Graph Convolutional Policy Network がベースアイデア • 反応前後を “可変長のボンドのつなぎ変え” 操作だとみなし、その可変長のActionを policy gradient で学習していく – Action (ξ, u, v, b) の系列からなる – 辺 (u, v) を Bond b に変更する。ξ : stop flag 1になったらそこで終了。 58https://arxiv.org/pdf/1812.09441.pdf
  • 58.
    GTPN:Graph Transformation PolicyNetwork • Network 構成:3つのNetworkを使用 – GNN:Graph Neural Network – NPPN:Node Pair Prediction Network – PN:Policy Network 59 https://arxiv.org/pdf/1812.09441.pdf
  • 59.
    GTPN:Graph Transformation PolicyNetwork • 推論時のbeam search – Action 系列の尤度が高い方からTop-Nを算出 – Beam 幅が広いと常に精度がいいとは限らない。 • 以下の例ではBeam 幅 1 の精度74.49 を超えるためには beam 幅20 まで上げる必要があった 65 https://arxiv.org/pdf/1812.09441.pdf
  • 60.
    GTPN:Graph Transformation PolicyNetwork • 結果 – 精度は ELECTROと同等か多少劣るくらい 66 https://arxiv.org/pdf/1812.09441.pdf
  • 61.
    GTPN:Graph Transformation PolicyNetwork • エラー内容の分析 – Atom pair predictionでの間違いが一番多い。 – symmetry で間違えたことになってしまっているのは全体の 5.7% 67 https://arxiv.org/pdf/1812.09441.pdf 左から、1. reactant, 2. incorrect prediction, 3. ground truth, 4. product.
  • 62.
    Molecule Chef • “合成可能な分子”のみを生成するグラフ生成モデルを提案 [発想の転換] • これまでのようにproduct を直接出すのではなく、 bag of reactants を生成する • 先行研究で出てきた順方向のreaction prediction model を使用することで割と精度 よく予測できることを利用 → 現状SOTAの Molecular Transformer を使用。 68 https://openreview.net/pdf?id=BJlQEILY_N 可変長のReactants のセット
  • 63.
    Molecule Chef • 生成モデル –GGNN Encoder + RNN decoder のVAE – bag of reactants を生成 • Encoder 側 – GGNNで各Reactantを別々に潜在空間にMapping – Sum とって (Readout)、最終的な “bag of reactants” の 表現 z を得る 69 https://openreview.net/pdf?id=BJlQEILY_N
  • 64.
    Molecule Chef • Decoder側 – USPTOで計15回以上出てくる reactant のみをtokenize (3180個) – RNNで可変長のReactantを生成 – Halt signal が選ばれたらストップ – 学習時はRandom にOrderを決めて、Teacher forcingした 70 https://openreview.net/pdf?id=BJlQEILY_N
  • 65.
    Molecule Chef • Dataset –簡単な設定としたいため USPTO全体ではなく USPTO_LEF で学習 – USPTOで計15回以上出てくる reactant のみをtokenize • 3180 reactants • 21928 products – Reagent は今回は Filter outして、未使用 72
  • 66.
    Molecule Chef • 結果 –生成する空間を「よく使われているReactantから合成可能なProduct」 に限定しているためValidity がとても高い 73 https://openreview.net/pdf?id=BJlQEILY_N
  • 67.
    Molecule Chef • 結果 –直接対象分子を生成するモデルと比べて、安定な分子が生成できる 74 https://openreview.net/pdf?id=BJlQEILY_N
  • 68.
    Molecule Chef • 結果:Optimization –本来の目的であった Molecular search も当然可能 75 https://openreview.net/pdf?id=BJlQEILY_N
  • 69.
    Molecule Chef • Retrosynthesisへの応用 – z → “bag of reactants” のDecoderはすでに学習済み – product → z という 新しいEncoder を学習すれば、逆合成経路探索にも使える – product →(New encoder) z →(Decoder) “bag of reactants” →(Molecular Transformer) product’ となるため 本当に作りたいproduct と実際にできると予測される product’が一 致する保証はないが、似ている product は作れる 76 https://openreview.net/pdf?id=BJlQEILY_N
  • 70.
    Molecule Chef • Retrosynthesisへの応用 – 例:(b), (c) では別のものができてしまっている。 – 逆合成をメインとした論文ではないので、あくまでのおまけの使い方として可能性の紹介 77 https://openreview.net/pdf?id=BJlQEILY_N
  • 71.
    手法の比較 • 今のところ seq2seq系列がSOTA。 Graph convよりいろいろと使いやすい性質がある 78 特徴量抽出+NN NLP系 Graph Conv メリット 反応を事前列挙している場合は、 逆合成経路探索に使用できる ・Atom mappingの情報無くてもよ い ・STEREO: Chiralityが文字列とし て扱える(@,@@ など) ・SMILESと違い、化合物 に対応するグラフは一意に 決まる デメリット 事前に反応ルールを作っておく 必要があることが多い ・同じ化合物に対してSMILESは一 意には決まらない(Canonical SMILESは一意) ・予測結果として出てくるSMILESの 文法が正しいとは限らない。 別で工夫が必要。 ・Atom mappingの情報が 必要な場合が多い - Symmetryどう扱うか?
  • 72.