© 2018 IBM Corporation
化学構造式のための
ハイパーグラフ文法
JSAI 2018; [3E1] AI応用-バイオ・ケミカルインフォマティクス; 2018年6月7日(木) 13:50〜15:10 E会場 (4Fクィーン)
論文: https://confit.atlas.jp/guide/event-img/jsai2018/3E1-04/public/pdf?type=in
IBM Research – Tokyo
梶野 洸
© 2018 IBM Corporation
原子価を守った構造式を表現できる文脈自由文法を
データから構成する方法を提案します
目的: 分子の構造式の生成モデルが欲しい
課題: {グラフ, 構造式}の生成モデルは難しい
–グラフのどこから生成していいのかわからない
–特に、原子価を守った構造式の生成は非自明
解決法: グラフ文法に従ってグラフを生成する
本研究の貢献: 以下の性質のグラフ文法構成アルゴリズム
–構造式のデータセットから自動的にグラフ文法を学習
–学習されたグラフ文法が生成する構造式は原子価を守る
2
概要
© 2018 IBM Corporation
所望の物性を持つ新物質の発見のために
構造式の生成モデルが必要である
構造式の生成モデル 𝑝 𝐺 𝒛) を作りたい
–入力: 潜在ベクトル 𝒛 ∈ ℝ 𝐷
–出力: 構造式 𝐺(ノードラベル付きグラフ)
–用途: 所望の物性 𝒙⋆
∈ 𝒳 を持つ構造式の生成
3
背景
潜在的な
連続空間
𝑝 𝐺 𝒛)
構造式空間
物性値空間 𝒳
𝒙 = 𝑓(𝒛)
𝑝 𝐺 𝑓−1(𝒙⋆))
Fig from https://openi.nlm.nih.gov/detailedresult.php?img=PMC3403880_1758-2946-4-12-7&req=4
水への溶けやすさ
特定のタンパク質へ
結合するかどうか
𝒙⋆
𝑓−1
(𝒙⋆
)
© 2018 IBM Corporation
構造式は原子価の制約があるため生成が難しい
構造式の生成は非自明
–グラフの生成モデル自体非自明
環の生成が非自明
• 隣接行列を生成するアプローチ [Simonovsky+, 18]
• 逐次的な生成 [Li+, 18]
–特に構造式は原子価の制約がある
• ノードのラベルに応じて次数が決まる
4
課題
© 2018 IBM Corporation
SMILES という構造式のテキスト形式を用いることが一般的
既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16]
–利点: sequence の生成は既存の系列モデルで対応可能
5
既存手法
潜在的な
連続空間
𝑝 𝑆 𝒛)
構造式空間
SMILES空間
c1c(C=O)cccc1 𝐺 = 𝑔(𝑆)
SMILESの
文法
系列モデル
© 2018 IBM Corporation
SMILES という構造式のテキスト形式を用いることが一般的
既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16]
–利点: sequence の生成は既存の系列モデルで対応可能
–欠点: SMILES の文法が複雑&原子価の制約を守るのが困難
6
既存手法
c1c(C=O)cccc1
環の始点と終点を同じ数字にする
© 2018 IBM Corporation
SMILES という構造式のテキスト形式を用いることが一般的
既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16]
–利点: sequence の生成は既存の系列モデルで対応可能
–欠点: SMILES の文法が複雑&原子価の制約を守るのが困難
7
既存手法
c1c(C=O)cccc1
枝分かれは括弧でくくる
© 2018 IBM Corporation
SMILES という構造式のテキスト形式を用いることが一般的
既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16]
–利点: sequence の生成は既存の系列モデルで対応可能
–欠点: SMILES の文法が複雑&原子価の制約を守るのが困難
8
既存手法
CC(C)(O)C#Cc1ccc(C[NH2+][C@H]2CCCN(c3nc4ccccc4s3)C2)s1
大変
© 2018 IBM Corporation
SMILES という構造式のテキスト形式を用いることが一般的
既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16]
–利点: sequence の生成は既存の系列モデルで対応可能
–欠点: SMILES の文法が複雑&原子価の制約を守るのが困難
9
既存手法
c1c(C=O)(C)cccc1
この原子の原子価が5
※ SMILES は文脈依存文法
© 2018 IBM Corporation
グラフの文脈自由文法で、原子価を守るものが構成できれば
より容易に構造式を生成できる
本研究のアイデア
SMILES の代わりにグラフ文法を用いる
–グラフ生成を構文木生成に帰着可能
⇒ グラフ文法で必ず原子価の制約を守るものを構成できればよい
(=Molecular Hypergraph Grammar; MHG)
10
提案手法
𝑝 𝑇 𝒛)
MHG
構文木空間
𝐺 = 𝑚(𝑇)
MHG木モデル
[Kusner+, 17]
© 2018 IBM Corporation
提案手法は、ハイパーエッジ置換文法を元に、
原子価の制約を守った構造式を必ず生成可能な文法を構成する
本研究の位置付け
11
提案手法
表現方法 文法の複雑さ 原子価の制約 構成アルゴリズム
SMILES 文脈依存文法 必ずしも守られない ー
ハイパーエッジ
置換文法(HRG)
文脈自由文法 必ずしも守られない [Aguiñaga+, 16]
提案手法(MHG) 文脈自由文法 必ず守られる 本研究
学習の難易度に寄与する
拡張
© 2018 IBM Corporation
既存のグラフ文法学習アルゴリズムをベースに
提案アルゴリズムを紹介する
既存研究の話
–ハイパーエッジ置換文法(HRG)の紹介
–HRGをデータから構成するアルゴリズムの紹介
グラフの木分解をもとにしたアルゴリズム
本研究の話
–構造式のハイパーグラフ表現の導入
–分子ハイパーグラフ文法をデータから構成するアルゴリズム
グラフの非冗長木分解をもとにしたアルゴリズム
12
以降の話
© 2018 IBM Corporation
ハイパーエッジ置換文法は、非終端記号のハイパーエッジを
ハイパーグラフで置換してハイパーグラフを生成する
ハイパーエッジ置換文法 (HRG) 𝒢 = (𝑁, 𝑇, 𝑆, 𝑃)
–𝑁: 非終端記号の集合
–𝑇: 終端記号の集合
–𝑆: 開始記号
–𝑃: 生成規則の集合
– 非終端記号でラベル付されたハイパーエッジをハイパーグラフで置換する規則
13
準備
1C
2
H
H1N
2
N
N
NS
ハイパーエッジについたラベル
ハイパーエッジ
ノード
© 2018 IBM Corporation
木分解はグラフを木状に分解する方法である
木分解
–木分解には元のグラフのすべてのノード・エッジが含まれる
–元のグラフの各ノードは、木分解では連結(木らしさの表現)
※ 木分解は何種類も考えられる
14
準備
1
3
2
1
3
4
3C
4
H
H
3 C
2
H
H
1C
4
H
H 1 C
2
H
H
C C H
HH
H
C C
H
HH
H
※数字はノードの対応関係を意味する
© 2018 IBM Corporation
木分解の親・私・子が生成規則に対応している
HRGをデータから構成するアルゴリズム [Aguiñaga+, 16]
15
準備
1
3
4
N
N
1
4 N
=
ここに非終端記号がついている前提で
𝑣 𝑇をくっつけたい
© 2018 IBM Corporation
木分解の親・私・子が生成規則に対応している
HRGをデータから構成するアルゴリズム [Aguiñaga+, 16]
16
準備
1
3
4
N
N
1
4 N
=
子のハイパーグラフをつけるための
非終端をつけておく
© 2018 IBM Corporation
木分解からHRGの生成規則を抽出することで
入力したハイパーグラフを表現可能なHRGを構成できる
HRGをデータから構成するアルゴリズム [Aguiñaga+, 16]
–入力: ハイパーグラフ集合
–出力: HRG
• 入力ハイパーグラフ集合はすべて表現可能
• 原子価は保存されない
17
準備
1. 各ハイパーグラフを木分解する
2. 各木分解から生成規則を抽出する
3. 得られた生成規則の和集合を取りHRGを構成
© 2018 IBM Corporation
構造式の表現として分子ハイパーグラフを用いる
技術的貢献(1/2): 分子ハイパーグラフ
–原子=ハイパーエッジ、結合=ノード
各ノードに接続するエッジ数が2ならば通常のグラフに変換可能
–HRGを構成するときに原子価を保存できる
18
提案手法
H HC
H
C
H
H HC
H
C
H
C C
H
H
HH
H
H
C C H
HH
H
C C
H
HH
H
ハイパーエッジ
ノード
© 2018 IBM Corporation
分子ハイパーグラフを用いると、
構造式に戻せないハイパーグラフが生成されることがある
技術的貢献(1/2): 分子ハイパーグラフ
19
提案手法
H
C C H
HH
H
C C
H
HH
H
H
C C H
HH
H
C C
H
HH
H
ひとつのノードに
3つのハイパーエッジがついてしまい、
グラフに戻せない
© 2018 IBM Corporation
非冗長木分解を用いることで、生成されるハイパーグラフが
構造式に変換可能であることを保証できる
技術的貢献(2/2): 非冗長木分解
–元のグラフの各ノードは、木分解でパスとなるような木分解
–任意の木分解は、多項式時間で非冗長木分解へ変換可能
20
提案手法
1
3
2
1
3
4
3C
4
H
H
3 C
2
H
H
1C
4
H
H 1 C
2
H
H
4
冗長非冗長
© 2018 IBM Corporation
分子ハイパーグラフを用いることで原子価を保存し、
非冗長木分解を用いることで通常のグラフ表現への変換を保証可能
MHGをデータから構成するアルゴリズム
–入力: 構造式集合
–出力: MHG
• 生成される分子ハイパーグラフは構造式へ常に変換可能
• 入力グラフ集合はすべて表現可能
• 原子価は保存されることが証明できる
21
提案手法
1. 各構造式を分子ハイパーグラフに変換する
2. 各グラフを木分解する
3. 各木分解を非冗長なものへ変換する
4. 各木分解から生成規則を抽出する
5. 得られた生成規則の和集合を取りHRGを構成
© 2018 IBM Corporation
構造式の生成モデルを作る上での要素技術となる
分子ハイパーグラフ文法を開発した
分子ハイパーグラフ文法(MHG)の構成方法を開発した
–原子価の制約を満たす構造式を生成できる
技術的には以下の2つが重要
• 分子ハイパーグラフでの表現 → 原子価を保存
• 非冗長木分解 → 生成されたハイパーグラフをグラフに変換
–データから自動で学習できる
• 文法を手動で書く必要がない
• 入力データのすべてを再現可能
22
まとめ

化学構造式のためのハイパーグラフ文法(JSAI2018)

  • 1.
    © 2018 IBMCorporation 化学構造式のための ハイパーグラフ文法 JSAI 2018; [3E1] AI応用-バイオ・ケミカルインフォマティクス; 2018年6月7日(木) 13:50〜15:10 E会場 (4Fクィーン) 論文: https://confit.atlas.jp/guide/event-img/jsai2018/3E1-04/public/pdf?type=in IBM Research – Tokyo 梶野 洸
  • 2.
    © 2018 IBMCorporation 原子価を守った構造式を表現できる文脈自由文法を データから構成する方法を提案します 目的: 分子の構造式の生成モデルが欲しい 課題: {グラフ, 構造式}の生成モデルは難しい –グラフのどこから生成していいのかわからない –特に、原子価を守った構造式の生成は非自明 解決法: グラフ文法に従ってグラフを生成する 本研究の貢献: 以下の性質のグラフ文法構成アルゴリズム –構造式のデータセットから自動的にグラフ文法を学習 –学習されたグラフ文法が生成する構造式は原子価を守る 2 概要
  • 3.
    © 2018 IBMCorporation 所望の物性を持つ新物質の発見のために 構造式の生成モデルが必要である 構造式の生成モデル 𝑝 𝐺 𝒛) を作りたい –入力: 潜在ベクトル 𝒛 ∈ ℝ 𝐷 –出力: 構造式 𝐺(ノードラベル付きグラフ) –用途: 所望の物性 𝒙⋆ ∈ 𝒳 を持つ構造式の生成 3 背景 潜在的な 連続空間 𝑝 𝐺 𝒛) 構造式空間 物性値空間 𝒳 𝒙 = 𝑓(𝒛) 𝑝 𝐺 𝑓−1(𝒙⋆)) Fig from https://openi.nlm.nih.gov/detailedresult.php?img=PMC3403880_1758-2946-4-12-7&req=4 水への溶けやすさ 特定のタンパク質へ 結合するかどうか 𝒙⋆ 𝑓−1 (𝒙⋆ )
  • 4.
    © 2018 IBMCorporation 構造式は原子価の制約があるため生成が難しい 構造式の生成は非自明 –グラフの生成モデル自体非自明 環の生成が非自明 • 隣接行列を生成するアプローチ [Simonovsky+, 18] • 逐次的な生成 [Li+, 18] –特に構造式は原子価の制約がある • ノードのラベルに応じて次数が決まる 4 課題
  • 5.
    © 2018 IBMCorporation SMILES という構造式のテキスト形式を用いることが一般的 既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16] –利点: sequence の生成は既存の系列モデルで対応可能 5 既存手法 潜在的な 連続空間 𝑝 𝑆 𝒛) 構造式空間 SMILES空間 c1c(C=O)cccc1 𝐺 = 𝑔(𝑆) SMILESの 文法 系列モデル
  • 6.
    © 2018 IBMCorporation SMILES という構造式のテキスト形式を用いることが一般的 既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16] –利点: sequence の生成は既存の系列モデルで対応可能 –欠点: SMILES の文法が複雑&原子価の制約を守るのが困難 6 既存手法 c1c(C=O)cccc1 環の始点と終点を同じ数字にする
  • 7.
    © 2018 IBMCorporation SMILES という構造式のテキスト形式を用いることが一般的 既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16] –利点: sequence の生成は既存の系列モデルで対応可能 –欠点: SMILES の文法が複雑&原子価の制約を守るのが困難 7 既存手法 c1c(C=O)cccc1 枝分かれは括弧でくくる
  • 8.
    © 2018 IBMCorporation SMILES という構造式のテキスト形式を用いることが一般的 既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16] –利点: sequence の生成は既存の系列モデルで対応可能 –欠点: SMILES の文法が複雑&原子価の制約を守るのが困難 8 既存手法 CC(C)(O)C#Cc1ccc(C[NH2+][C@H]2CCCN(c3nc4ccccc4s3)C2)s1 大変
  • 9.
    © 2018 IBMCorporation SMILES という構造式のテキスト形式を用いることが一般的 既存手法: テキスト表現(SMILES)で代用 [Gómez-Bombarelli+, 16] –利点: sequence の生成は既存の系列モデルで対応可能 –欠点: SMILES の文法が複雑&原子価の制約を守るのが困難 9 既存手法 c1c(C=O)(C)cccc1 この原子の原子価が5 ※ SMILES は文脈依存文法
  • 10.
    © 2018 IBMCorporation グラフの文脈自由文法で、原子価を守るものが構成できれば より容易に構造式を生成できる 本研究のアイデア SMILES の代わりにグラフ文法を用いる –グラフ生成を構文木生成に帰着可能 ⇒ グラフ文法で必ず原子価の制約を守るものを構成できればよい (=Molecular Hypergraph Grammar; MHG) 10 提案手法 𝑝 𝑇 𝒛) MHG 構文木空間 𝐺 = 𝑚(𝑇) MHG木モデル [Kusner+, 17]
  • 11.
    © 2018 IBMCorporation 提案手法は、ハイパーエッジ置換文法を元に、 原子価の制約を守った構造式を必ず生成可能な文法を構成する 本研究の位置付け 11 提案手法 表現方法 文法の複雑さ 原子価の制約 構成アルゴリズム SMILES 文脈依存文法 必ずしも守られない ー ハイパーエッジ 置換文法(HRG) 文脈自由文法 必ずしも守られない [Aguiñaga+, 16] 提案手法(MHG) 文脈自由文法 必ず守られる 本研究 学習の難易度に寄与する 拡張
  • 12.
    © 2018 IBMCorporation 既存のグラフ文法学習アルゴリズムをベースに 提案アルゴリズムを紹介する 既存研究の話 –ハイパーエッジ置換文法(HRG)の紹介 –HRGをデータから構成するアルゴリズムの紹介 グラフの木分解をもとにしたアルゴリズム 本研究の話 –構造式のハイパーグラフ表現の導入 –分子ハイパーグラフ文法をデータから構成するアルゴリズム グラフの非冗長木分解をもとにしたアルゴリズム 12 以降の話
  • 13.
    © 2018 IBMCorporation ハイパーエッジ置換文法は、非終端記号のハイパーエッジを ハイパーグラフで置換してハイパーグラフを生成する ハイパーエッジ置換文法 (HRG) 𝒢 = (𝑁, 𝑇, 𝑆, 𝑃) –𝑁: 非終端記号の集合 –𝑇: 終端記号の集合 –𝑆: 開始記号 –𝑃: 生成規則の集合 – 非終端記号でラベル付されたハイパーエッジをハイパーグラフで置換する規則 13 準備 1C 2 H H1N 2 N N NS ハイパーエッジについたラベル ハイパーエッジ ノード
  • 14.
    © 2018 IBMCorporation 木分解はグラフを木状に分解する方法である 木分解 –木分解には元のグラフのすべてのノード・エッジが含まれる –元のグラフの各ノードは、木分解では連結(木らしさの表現) ※ 木分解は何種類も考えられる 14 準備 1 3 2 1 3 4 3C 4 H H 3 C 2 H H 1C 4 H H 1 C 2 H H C C H HH H C C H HH H ※数字はノードの対応関係を意味する
  • 15.
    © 2018 IBMCorporation 木分解の親・私・子が生成規則に対応している HRGをデータから構成するアルゴリズム [Aguiñaga+, 16] 15 準備 1 3 4 N N 1 4 N = ここに非終端記号がついている前提で 𝑣 𝑇をくっつけたい
  • 16.
    © 2018 IBMCorporation 木分解の親・私・子が生成規則に対応している HRGをデータから構成するアルゴリズム [Aguiñaga+, 16] 16 準備 1 3 4 N N 1 4 N = 子のハイパーグラフをつけるための 非終端をつけておく
  • 17.
    © 2018 IBMCorporation 木分解からHRGの生成規則を抽出することで 入力したハイパーグラフを表現可能なHRGを構成できる HRGをデータから構成するアルゴリズム [Aguiñaga+, 16] –入力: ハイパーグラフ集合 –出力: HRG • 入力ハイパーグラフ集合はすべて表現可能 • 原子価は保存されない 17 準備 1. 各ハイパーグラフを木分解する 2. 各木分解から生成規則を抽出する 3. 得られた生成規則の和集合を取りHRGを構成
  • 18.
    © 2018 IBMCorporation 構造式の表現として分子ハイパーグラフを用いる 技術的貢献(1/2): 分子ハイパーグラフ –原子=ハイパーエッジ、結合=ノード 各ノードに接続するエッジ数が2ならば通常のグラフに変換可能 –HRGを構成するときに原子価を保存できる 18 提案手法 H HC H C H H HC H C H C C H H HH H H C C H HH H C C H HH H ハイパーエッジ ノード
  • 19.
    © 2018 IBMCorporation 分子ハイパーグラフを用いると、 構造式に戻せないハイパーグラフが生成されることがある 技術的貢献(1/2): 分子ハイパーグラフ 19 提案手法 H C C H HH H C C H HH H H C C H HH H C C H HH H ひとつのノードに 3つのハイパーエッジがついてしまい、 グラフに戻せない
  • 20.
    © 2018 IBMCorporation 非冗長木分解を用いることで、生成されるハイパーグラフが 構造式に変換可能であることを保証できる 技術的貢献(2/2): 非冗長木分解 –元のグラフの各ノードは、木分解でパスとなるような木分解 –任意の木分解は、多項式時間で非冗長木分解へ変換可能 20 提案手法 1 3 2 1 3 4 3C 4 H H 3 C 2 H H 1C 4 H H 1 C 2 H H 4 冗長非冗長
  • 21.
    © 2018 IBMCorporation 分子ハイパーグラフを用いることで原子価を保存し、 非冗長木分解を用いることで通常のグラフ表現への変換を保証可能 MHGをデータから構成するアルゴリズム –入力: 構造式集合 –出力: MHG • 生成される分子ハイパーグラフは構造式へ常に変換可能 • 入力グラフ集合はすべて表現可能 • 原子価は保存されることが証明できる 21 提案手法 1. 各構造式を分子ハイパーグラフに変換する 2. 各グラフを木分解する 3. 各木分解を非冗長なものへ変換する 4. 各木分解から生成規則を抽出する 5. 得られた生成規則の和集合を取りHRGを構成
  • 22.
    © 2018 IBMCorporation 構造式の生成モデルを作る上での要素技術となる 分子ハイパーグラフ文法を開発した 分子ハイパーグラフ文法(MHG)の構成方法を開発した –原子価の制約を満たす構造式を生成できる 技術的には以下の2つが重要 • 分子ハイパーグラフでの表現 → 原子価を保存 • 非冗長木分解 → 生成されたハイパーグラフをグラフに変換 –データから自動で学習できる • 文法を手動で書く必要がない • 入力データのすべてを再現可能 22 まとめ