Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
子どもたちの未来を支える機械学習
定量的構造活性相関による有機ハロゲン化合物の母子間移行率予測
第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りー
1/16@フリークアウト様
@siero53351	
OpenStax	
  ...
自己紹介
Twitter ID: @siero5335
仕事: 化学物質曝露影響の解析
   化学分析法の開発
   専門: 環境化学、分析化学
興味: 生理活性物質の一斉分析
hoxo-m
2
「続・わかりやすいパターン認識」読書会
無事完走!
3
環境化学:どんな目的での研究が多い?
汚染実態の解析(どこにどのくらいどんな物質があるのか)
→測定値とその他調査データから汚染源・汚染の広がりを解明
毒性の調査(毒性があるのか・あるならどんな毒性か)
→細胞や動物に汚染物質を投与して影響を見...
今日紹介させていただく論文
5	
h;p://link.springer.com/arOcle/10.1007%2Fs11356-­‐015-­‐5436-­‐0	
PCBs: (Polychlorinated biphenyls, ポリ塩化ビ...
体内に残留する有機ハロゲン化合物
ポリ塩化ビフェニル(PCBs)!
カネミ油症事件
ポリ臭化ビフェニルエーテル(PBDEs)!
難燃剤として電化製品等に添加
ダイオキシン!
(枯葉剤の不純物・焼却炉で生成)!
ヘキサクロロ!
ベンゼン!
(殺菌...
胎児への影響
Environmental	
   exposure	
   to	
   polychlorinated	
   biphenyls	
   and	
   quality	
   of	
   the	
  
home	
  ...
汚染物質の母子間移行率予測モデル
胎児は母体から胎盤を通じて栄養素などを得ることで成長
同時に化学物質も母体から移行
化学物質の物理化学的性質から移行率をどの程度予測できるのか
移行しやすい物質の特徴は?
8
汚染物質の母子間移行率予測モデル
胎児は母体から胎盤を通じて栄養素などを得ることで成長
同時に化学物質も母体から移行
化学物質の物理化学的性質から移行率をどの程度予測できるのか
移行しやすい物質の特徴は?
臍帯血など、胎児由来の試料を採取するこ...
汚染物質の母子間移行率予測モデル
胎児は母体から胎盤を通じて栄養素などを得ることで成長
同時に化学物質も母体から移行
化学物質の物理化学的性質から移行率をどの程度予測できるのか
移行しやすい物質の特徴は?
臍帯血など、胎児由来の試料を採取するこ...
目的
1.  有機ハロゲン化合物各種の母子間移行率を
定量的構造活性相関 (QSAR) により予測し、
2. 予測モデル内において重要な変数を抽出することで、
母子間移行率に関連する分子情報を特定する
11
?	
12	
定量的構造活性相関 (QSAR)
定量的構造活性相関 (QSAR)
定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学
物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。
これにより構造的に類似した化合物の動態・性質について予測すること
を目的とす...
定量的構造活性相関 (QSAR)
定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学
物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。
これにより構造的に類似した化合物の動態・性質について予測すること
を目的とす...
定量的構造活性相関 (QSAR)
定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学
物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。
これにより構造的に類似した化合物の動態・性質について予測すること
を目的とす...
血液脳関門
SchemaOc	
  sketch	
  showing	
  the	
  blood-­‐brain	
  barrier.	
  From	
  the	
  brain	
  down	
  to	
  the	
  Og...
血液脳関門
SchemaOc	
  sketch	
  showing	
  the	
  blood-­‐brain	
  barrier.	
  From	
  the	
  brain	
  down	
  to	
  the	
  Og...
血液胎盤関門
OpenStax	
  College	
  -­‐	
  Anatomy	
  &	
  Physiology,	
  Connexions	
  Web	
  site.	
  h;p://cnx.org/content/co...
文献数の違い
Web of Science (Thomson Reuters社文献検索システム)
1月8日調べ
Blood brain barrier (血液脳関門): 約39000件
Blood placental barrier (血液胎盤...
血液胎盤関門
OpenStax	
  College	
  -­‐	
  Anatomy	
  &	
  Physiology,	
  Connexions	
  Web	
  site.	
  h;p://cnx.org/content/co...
定量的構造物性相関 (QSPR)
定量的構造物性相関(ていりょうてきこうぞうかっせいそうかん)は化学
物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。
これにより構造的に類似した化合物の動態・性質について予測すること
を目的とす...
試料と方法
22
測定対象物質
ポリ塩化ビフェニル(PCBs)	
  
カネミ油症事件
ポリ臭化ビフェニルエーテル(PBDEs)	
  
難燃剤として電化製品等に添加
ダイオキシン	
  
(枯葉剤の不純物・焼却炉で生成)	
  
ヘキサクロロ	
  
ベンゼン...
測定検体
PCBs, 有機塩素系農薬: 29 pairs
Dioxins, dioxin-like PCBs: 41 pairs
PBDEs: 9 pairs
高分解能ガスクロマトグラフ質量分析計により
母体血・臍帯血中の上記汚染物質を定量
2...
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法
機械学習で言うところのsemi-supervised learning
実験値など、既知の値を使って構造を最適化する
25
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法
機械学習で言うところのsemi-supervised learning
実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model num...
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法
機械学習で言うところのsemi-supervised learning
実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model num...
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法
機械学習で言うところのsemi-supervised learning
実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model num...
EPI Suiteによる分子情報の取得
アメリカ合衆国環境保護庁	
  (EPA)	
  が開発したソフトウェア	
  
化学構造から物性を算出する(親水性、生物濃縮性など)	
  
正式名称はThe	
  EsOmaOons	
  Progr...
EPI Suiteによる分子情報の取得
アメリカ合衆国環境保護庁	
  (EPA)	
  が開発したソフトウェア	
  
化学構造から物性を算出する(親水性、生物濃縮性など)	
  
正式名称はThe	
  EsOmaOons	
  Progr...
ダイオキシン毒性等価係数 (Toxic equivalency factor: TEF)
塩素のつき方・構造の違いにより	
  
419種類の異性体が存在	
  
うち毒性が強いものが17種類	
  
丸のところに塩素が入ってると毒性が強い	
...
データ解析
データの要約
→ 主成分分析
回帰モデルの構築
→ 重回帰分析(with 変数選択)
ランダムフォレスト (RF)
の2つの手法を比較
回帰モデル構築にはRのパッケージであるcaretを使用
32
データ解析
データ全体を訓練データと検証データに分割して
検証することで、未知データに対応可能か確認
データサイエンティスト養成読本R活用編	
  P45参照	
データ
訓練
データ
検証
データ
モデル構築
モデル検証
予測モデル
10	
 ...
•  訓練データ24物質:	
  	
  
 HCB,	
  HCH,	
  Heptachlor	
  epoxide,	
  	
  
 1.2.3.7.8.PeCDD, 1.2.3.6.7.8.HxCDD,	
  1.2.3.4.6.7....
Transfer ratio	
Molecular weight	
TEF	
LogKow	
LogKoA	
Water solubility	
LogBCF	
LogBAF	
Half life	
Final heat of formatio...
Transfer ratio	
Molecular weight	
TEF	
LogKow	
LogKoA	
Water solubility	
LogBCF	
LogBAF	
Half life	
Final heat of formatio...
Molec
ular
weight TEF
Log
Kow
Log
KoA
Water
solubility
Log
BCF
Log
BAF
Half
life
Final heat
of
formation
Total
energy
Elec...
予測モデルの構築
回帰モデルの構築
→ 重回帰分析(with 変数選択)
ランダムフォレスト (RF)
の2つの手法を比較
回帰モデル構築にはRのパッケージであるcaretを使用
38
データをtraining, testに分割し、training setを10-fold
cross validationでチューニング
チューニングしたモデルをtest setにあてはめ
Random forestが良好な結果を示した。
予測値...
Validation setでもrandom forestは良好な性能を示したし
これでいいやろ?
→Reviewer 3: 駄目です
予測値	
実測値	
訓練データ	
 検証データ 	
Random	
  forest	
  
R2
cv	
...
実測値と予測値の比較2
Tropsha’s	
  validaOon	
  factorで評価するように	
Tropsha	
  A	
  (2010)	
  Best	
  pracOces	
  for	
  QSAR	
  model	
...
実測値と予測値の比較2
R2
pred	
  =	
  0.519	
  
R2
EXT	
  =	
  0.508	
  
R2
EXT-­‐R2
0/R2
EXT	
  =	
  0.0062	
  
k	
  =	
  1.033	
Tr...
実測値と予測値の比較3
APD	
  (applicaOon	
  of	
  domain)で評価するように	
  	
  
	
  
APD	
  (applicaOon	
  of	
  domain)	
  =<d>+Zσ	
  [Z:...
実測値と予測値の比較3
必ずしもvalidaOon	
  setへの当てはまりが良いわけではなかった…	
Zhang	
  SX,	
  Golbraikh	
  A,	
  Oloff	
  S,	
  Kohn	
  H,	
  Tropsh...
実測値と予測値の比較3
Zhang	
  SX,	
  Golbraikh	
  A,	
  Oloff	
  S,	
  Kohn	
  H,	
  Tropsha	
  A	
  (2006)	
  A	
  novel	
  automat...
予測モデルの構築に関わる因子の抽出
46
モデル中の変数重要度比較
RF MLR
Variable
importance t-value
q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032
HOMO 65.79 HOMO 5.683
Fi...
モデル中の変数重要度比較
過去の文献では分子量が重要と言われているが…
RF MLR
Variable
importance t-value
q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032
H...
過去の文献では分子量が重要と言われているが…
電荷の偏り、反応性が重要?
RF MLR
Variable
importance t-value
q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032
...
ダイオキシンの毒性等量 (TEF) が移行率と関係
→胎盤で発現する薬物代謝酵素の影響?
RF MLR
Variable
importance t-value
q- 100 LogBAF 7.912
Total dipole 72.48 TEF...
既存研究では特徴量として余り注目されていなかった
因子が移行率に関係している可能性を示唆
RF MLR
Variable
importance t-value
q- 100 LogBAF 7.912
Total dipole 72.48 TEF...
まとめ
ランダムフォレストモデルにより、化学物質の
母子間移行率を高精度で予測
既報にある分子量に加え、電荷の偏り、物質の
反応性、ダイオキシンとしての毒性等が母子移
行率と関係していることを示唆
52
Upcoming SlideShare
Loading in …5
×

子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

6,222 views

Published on

第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りーでの発表資料です

Published in: Data & Analytics
  • Be the first to comment

子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

  1. 1. 子どもたちの未来を支える機械学習 定量的構造活性相関による有機ハロゲン化合物の母子間移行率予測 第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りー 1/16@フリークアウト様 @siero53351 OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p:// cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The   Placenta-­‐02.jpg
  2. 2. 自己紹介 Twitter ID: @siero5335 仕事: 化学物質曝露影響の解析    化学分析法の開発    専門: 環境化学、分析化学 興味: 生理活性物質の一斉分析 hoxo-m 2
  3. 3. 「続・わかりやすいパターン認識」読書会 無事完走! 3
  4. 4. 環境化学:どんな目的での研究が多い? 汚染実態の解析(どこにどのくらいどんな物質があるのか) →測定値とその他調査データから汚染源・汚染の広がりを解明 毒性の調査(毒性があるのか・あるならどんな毒性か) →細胞や動物に汚染物質を投与して影響を見るなど 健康・生態系への影響調査(アウトカムとの関係は?) →癌・免疫・アレルギー・知能…etc と曝露の関係解析 環境中・体内での動態・毒性予測(物質の構造・性質から予測) →化学物質の物理化学的性質から動態・毒性を予測 4
  5. 5. 今日紹介させていただく論文 5 h;p://link.springer.com/arOcle/10.1007%2Fs11356-­‐015-­‐5436-­‐0 PCBs: (Polychlorinated biphenyls, ポリ塩化ビフェニル) OCPs: (Organohalogen pesticides, 有機塩素系農薬) PBDEs: (Polybrominated diphenyl ether, ポリ臭化ジフェニルエーテル)
  6. 6. 体内に残留する有機ハロゲン化合物 ポリ塩化ビフェニル(PCBs)! カネミ油症事件 ポリ臭化ビフェニルエーテル(PBDEs)! 難燃剤として電化製品等に添加 ダイオキシン! (枯葉剤の不純物・焼却炉で生成)! ヘキサクロロ! ベンゼン! (殺菌剤)! ヘキサクロロ シクロヘキサン (殺虫剤) トランスノナクロル! (殺虫剤)! ヘプタクロル! エポキシド! (殺虫剤)! 高次生物に高蓄積! 発がん性・催奇形性! 甲状腺ホルモンかく乱・神経毒性などが報告 6
  7. 7. 胎児への影響 Environmental   exposure   to   polychlorinated   biphenyls   and   quality   of   the   home  environment:  effects  on  psychodevelopment  in  early  childhood Intellectual  Impairment  in  Children  Exposed  to   Polychlorinated  Biphenyls  in  Utero 日本でも環境要因が子供の成長に与える影響の   解明を目的とした大規模疫学調査がスタート     とは言え化学物質測定するのも難しい   IQ下がる→人類全体の平均知能が落ちて損失   7
  8. 8. 汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 8
  9. 9. 汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる 9
  10. 10. 汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる 化学物質のどんな特徴が移行率に関わるのか、   特徴からどの程度移行率を予測できるかについて   解析した研究は限られている   10
  11. 11. 目的 1.  有機ハロゲン化合物各種の母子間移行率を 定量的構造活性相関 (QSAR) により予測し、 2. 予測モデル内において重要な変数を抽出することで、 母子間移行率に関連する分子情報を特定する 11
  12. 12. ? 12 定量的構造活性相関 (QSAR)
  13. 13. 定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学 物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。 これにより構造的に類似した化合物の動態・性質について予測すること を目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B %E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 13
  14. 14. 定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学 物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。 これにより構造的に類似した化合物の動態・性質について予測すること を目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構 造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占 軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述 子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と 動態との関係を検討する。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B %E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 14
  15. 15. 定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学 物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。 これにより構造的に類似した化合物の動態・性質について予測すること を目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構 造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占 軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述 子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と 動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移 行率の関係を解析することで、移行しやすい物質を特定したり、その構 造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B %E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 15
  16. 16. 血液脳関門 SchemaOc  sketch  showing  the  blood-­‐brain  barrier.  From  the  brain  down  to  the  Oght  juncOons.  ©  von  Kuebi  =  Armin  Kübelbeck,  and  for  the   brain:  Patrick  J.  Lynch  [CC-­‐BY-­‐3.0  (h;p://creaOvecommons.org/licenses/by/3.0)],  via  Wikimedia  Commons 化学物質が血液から脳に直接運ばれないようにするための機構が存在 16
  17. 17. 血液脳関門 SchemaOc  sketch  showing  the  blood-­‐brain  barrier.  From  the  brain  down  to  the  Oght  juncOons.  ©  von  Kuebi  =  Armin  Kübelbeck,  and  for  the   brain:  Patrick  J.  Lynch  [CC-­‐BY-­‐3.0  (h;p://creaOvecommons.org/licenses/by/3.0)],  via  Wikimedia  Commons うつ病の薬・脳への悪影響への考慮などから移行率に関する研究が進んでいる 17
  18. 18. 血液胎盤関門 OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p://cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The   Placenta-­‐02.jpg 胎盤にも同様の機構が存在することは知られているが、 血液脳関門に比べると研究の数が少なくマイナー 18
  19. 19. 文献数の違い Web of Science (Thomson Reuters社文献検索システム) 1月8日調べ Blood brain barrier (血液脳関門): 約39000件 Blood placental barrier (血液胎盤関門): 約 560件 19
  20. 20. 血液胎盤関門 OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p://cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The   Placenta-­‐02.jpg 汚染物質は児の発達に影響すると言われているが、移行しやすい物質は不明 移行率に関わる因子としては分子量くらいしかよく知られた指標がない 20
  21. 21. 定量的構造物性相関 (QSPR) 定量的構造物性相関(ていりょうてきこうぞうかっせいそうかん)は化学 物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。 これにより構造的に類似した化合物の動態・性質について予測すること を目的とする。英語ではQSPR(=Quantitative Structure- Property Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構 造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占 軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述 子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と 動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移 行率の関係を解析することで、移行しやすい物質を特定したり、その構 造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B %E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 21
  22. 22. 試料と方法 22
  23. 23. 測定対象物質 ポリ塩化ビフェニル(PCBs)   カネミ油症事件 ポリ臭化ビフェニルエーテル(PBDEs)   難燃剤として電化製品等に添加 ダイオキシン   (枯葉剤の不純物・焼却炉で生成)   ヘキサクロロ   ベンゼン   (殺菌剤)   ヘキサクロロ シクロヘキサン (殺虫剤) トランスノナクロル   (殺虫剤)   ヘプタクロル   エポキシド   (殺虫剤)  23
  24. 24. 測定検体 PCBs, 有機塩素系農薬: 29 pairs Dioxins, dioxin-like PCBs: 41 pairs PBDEs: 9 pairs 高分解能ガスクロマトグラフ質量分析計により 母体血・臍帯血中の上記汚染物質を定量 24
  25. 25. 半経験的分子軌道法による分子状態の計算 半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する 25
  26. 26. 半経験的分子軌道法による分子状態の計算 半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最 適化後、11種類の分子情報を取得 26
  27. 27. 半経験的分子軌道法による分子状態の計算 半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最 適化後、11種類の分子情報を取得 分子量・生成熱・全エネルギー・電子エネルギー・全核間 反発エネルギー・最高被占軌道, 最低空軌道のエネルギーお よびその差分・双極子モーメント・部分電荷の最大最小値 27
  28. 28. 半経験的分子軌道法による分子状態の計算 半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最 適化後、11種類の分子情報を取得 分子量・結合エネルギー・反応性・電荷の偏り 28
  29. 29. EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁  (EPA)  が開発したソフトウェア   化学構造から物性を算出する(親水性、生物濃縮性など)   正式名称はThe  EsOmaOons  Programs  Interface  for  Windows     下記URLから入手可能   h;p://www.epa.gov/tsca-­‐screening-­‐tools/epi-­‐suitetm-­‐ esOmaOon-­‐program-­‐interface     6種類の分子情報を取得 LogKow,  LogKoA,  Water  solubility,  LogBCF,  LogBAF,  Half  life   29
  30. 30. EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁  (EPA)  が開発したソフトウェア   化学構造から物性を算出する(親水性、生物濃縮性など)   正式名称はThe  EsOmaOons  Programs  Interface  for  Windows     下記URLから入手可能   h;p://www.epa.gov/tsca-­‐screening-­‐tools/epi-­‐suitetm-­‐ esOmaOon-­‐program-­‐interface     6種類の分子情報を取得 オクタノール/水分配係数、オクタノール/空気分配係数、   水溶性、生物濃縮性2種、生体内半減期   30
  31. 31. ダイオキシン毒性等価係数 (Toxic equivalency factor: TEF) 塩素のつき方・構造の違いにより   419種類の異性体が存在   うち毒性が強いものが17種類   丸のところに塩素が入ってると毒性が強い 塩素のつき方によって   209種類のPCBsが存在   平面性を持つPCBsはダイオキシン としての毒性が強い(12種類) Polychlorinated dibenzo-p-dioxins TCDD PeCDD 1,6-HxCDD 1,4-HxCDD 1,9-HxCDD 1,4,6-HpCDD OCDD 1 1 0.1 0.1 0.1 0.01 0.0003               Polychlorinated dibenzofurans TCDF 1-PeCDF 4-PeCDF 1,4-HxCDF 1,6-HxCDF 1,9-HxCDF   0.1 0.03 0.3 0.1 0.1 0.1   4,6-HxCDF 1,4,6-HpCDF 1,4,9-HpCDF OCDF       0.1 0.01 0.01 0.0003                     Coplanar pcb PCB 77 PCB 81 PCB 105 PCB 114 PCB 118 PCB 123   0.0001 0.0003 0.00003 0.00003 0.00003 0.00003   PCB 126 PCB 156 PCB 157 PCB 167 PCB 169 PCB 189   0.1 0.00003 0.00003 0.00003 0.03 0.00003   31
  32. 32. データ解析 データの要約 → 主成分分析 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF) の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用 32
  33. 33. データ解析 データ全体を訓練データと検証データに分割して 検証することで、未知データに対応可能か確認 データサイエンティスト養成読本R活用編  P45参照 データ 訓練 データ 検証 データ モデル構築 モデル検証 予測モデル 10  fold  cross  validaNon 33
  34. 34. •  訓練データ24物質:      HCB,  HCH,  Heptachlor  epoxide,      1.2.3.7.8.PeCDD, 1.2.3.6.7.8.HxCDD,  1.2.3.4.6.7.8.HpCDD,      OCDD,  2.3.4.7.8.PeCDF,  1.2.3.4.6.7.8.HpCDF,      CB77,  CB126,  CB169,  CB114,  CB118,  CB123,  CB156,  CB157,    CB167,  TetraCB,  PentaCB,  HexaCB,  OctaCB,      BDE47,  BDE153     •  検証データ7物質:      Trans-­‐nonachlor,      1.2.3.4.7.8.HxCDF,  1.2.3.6.7.8.HxCDF,      CB105,  CB189,  HeptaCB,      BDE100   訓練データ・検証データ分割 34
  35. 35. Transfer ratio Molecular weight TEF LogKow LogKoA Water solubility LogBCF LogBAF Half life Final heat of formation Total energy Electronic energy Core-Core repulsion EHomo ELumo q- q+ Ehomo-Elumo Total dipole -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 PC1  (33.7%) PC2  (17.1%) HCB HCH Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD 1.2.3.6.7.8.HxCDD 1.2.3.4.6.7.8.HpCDD OCDD 2.3.4.7.8.PeCDF 1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF CB77 CB126 CB169 CB105 CB114 CB118 CB123 CB156 CB157 CB167 CB189 TetraCB PentaCB HexaCB HeptaCB OctaCB BDE47 BDE100 BDE153 -8 -6 -4 -2 0 2 4 -8 -6 -4 -2 0 2 4 6 t[1] 主成分分析によるデータの要約 横軸:分子量、反応性, 縦軸: 生物蓄積性、水溶性 PCBs dioxin-­‐like  PCBs PCDD/Fs OCPs PBDEs 35
  36. 36. Transfer ratio Molecular weight TEF LogKow LogKoA Water solubility LogBCF LogBAF Half life Final heat of formation Total energy Electronic energy Core-Core repulsion EHomo ELumo q- q+ Ehomo-Elumo Total dipole -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 PCBs dioxin-­‐like  PCBs PCDD/Fs OCPs PBDEs PC1  (33.7%) PC2  (17.1%) HCB HCH Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD 1.2.3.6.7.8.HxCDD 1.2.3.4.6.7.8.HpCDD OCDD 2.3.4.7.8.PeCDF 1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF CB77 CB126 CB169 CB105 CB114 CB118 CB123 CB156 CB157 CB167 CB189 TetraCB PentaCB HexaCB HeptaCB OctaCB BDE47 BDE100 BDE153 -8 -6 -4 -2 0 2 4 -8 -6 -4 -2 0 2 4 6 t[1] 主成分分析によるデータの要約 PCBs, Dioxins, OCPsが分子情報により分類36
  37. 37. Molec ular weight TEF Log Kow Log KoA Water solubility Log BCF Log BAF Half life Final heat of formation Total energy Electronic energy Core- Core repulsion EHo mo ELu mo q- q+ Ehomo- Elumo Total dipole Molecular weight 1.00                                   TEF -0.08 1.00                                 LogKow 0.68 0.31 1.00                               LogKoA 0.74 0.25 0.84 1.00                             Water solubility -0.79 -0.27 -0.92 -0.91 1.00                           LogBCF -0.55 -0.35 -0.77 -0.80 0.81 1.00                         LogBAF -0.19 -0.26 -0.05 -0.02 0.24 0.52 1.00                       Half life 0.03 -0.36 0.15 -0.02 0.07 0.26 0.85 1.00                     Final heat of formation -0.17 -0.28 -0.23 -0.09 0.23 0.39 0.53 0.43 1.00                   Total energy -0.71 -0.33 -0.71 -0.61 0.74 0.59 0.32 0.12 0.65 1.00                 Electronic energy -0.74 -0.03 -0.59 -0.47 0.58 0.39 0.13 -0.03 0.43 0.79 1.00               Core-Core repulsion 0.82 0.14 0.68 0.62 -0.71 -0.54 -0.26 -0.03 -0.57 -0.95 -0.87 1.00             EHomo 0.09 0.49 0.24 0.34 -0.38 -0.32 -0.32 -0.41 0.05 -0.16 0.05 0.08 1.00           ELumo -0.33 -0.56 -0.77 -0.6 0.70 0.64 0.23 0.14 0.50 0.66 0.45 -0.54 -0.21 1.00         q- -0.53 -0.34 -0.34 -0.49 0.52 0.42 0.38 0.39 0.04 -0.43 0.32 -0.42 -0.45 0.211.00       q+ 0.54 -0.04 0.32 0.53 0.58 -0.45 -0.35 -0.34 -0.06 -0.4 -0.29 0.38 0.37 -0.17 -0.6 3 1.00     Ehomo- Elumo 0.39 0.53 0.83 0.67 -0.79 -0.7 -0.21 -0.10 -0.41 -0.69 -0.45 0.58 0.52 -0.87 -0.3 0 0.32 1.00   Total dipole -0.20 -0.05 -0.21 -0.30 0.31 0.34 0.46 0.48 0.41 0.22 0.03 -0.18 -0.19 0.300.06-0.20 -0.25 1.00 多重共線性の排除 相関の強い因子(太字: R > 0.7)を予測モデルの因子から排除37
  38. 38. 予測モデルの構築 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF) の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用 38
  39. 39. データをtraining, testに分割し、training setを10-fold cross validationでチューニング チューニングしたモデルをtest setにあてはめ Random forestが良好な結果を示した。 予測値 実測値 訓練データ 検証データ Random  forest   R2 cv  =  0.566   R2 pred  =  0.519 線形重回帰モデル   R2 cv  =  0.425   R2 pred  =  0.129 実測値と予測値の比較 39
  40. 40. Validation setでもrandom forestは良好な性能を示したし これでいいやろ? →Reviewer 3: 駄目です 予測値 実測値 訓練データ 検証データ Random  forest   R2 cv  =  0.566   R2 pred  =  0.519 線形重回帰モデル   R2 cv  =  0.425   R2 pred  =  0.129 実測値と予測値の比較 40
  41. 41. 実測値と予測値の比較2 Tropsha’s  validaOon  factorで評価するように Tropsha  A  (2010)  Best  pracOces  for  QSAR  model  development,  validaOon,  and  exploitaOon.  Mol  Inf  29:476–488   Tropsha  A,  and  Golbraikh  A  (2002)  Beware  of  Q2.  J  Mol  Graph  Model  20.4:  269-­‐276.   Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:   method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem   Inf  Model  46:  1984–1995   R 2 EXT = 1 − !!"#$!!!"# !! !!! !!"#$!!!" !! !!! , where!!!"!is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R 2 CV k = !!"# ! !!! ∗!!"#$ !!"#$ !! !!! R 2 0 = 1 − (!!"#$!!∗!!"#)!! !!! (!!"#$!!!"#)!! !!! , where !!"# is the mean over all predictive values by R 2 pred 41
  42. 42. 実測値と予測値の比較2 R2 pred  =  0.519   R2 EXT  =  0.508   R2 EXT-­‐R2 0/R2 EXT  =  0.0062   k  =  1.033 Tropsha’s  validaOon  factorで評価するように Tropsha  A  (2010)  Best  pracOces  for  QSAR  model  development,  validaOon,  and  exploitaOon.  Mol  Inf  29:476–488   Tropsha  A,  and  Golbraikh  A  (2002)  Beware  of  Q2.  J  Mol  Graph  Model  20.4:  269-­‐276.   Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:   method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem   Inf  Model  46:  1984–1995   R 2 EXT = 1 − !!"#$!!!"# !! !!! !!"#$!!!" !! !!! , where!!!"!is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R 2 CV k = !!"# ! !!! ∗!!"#$ !!"#$ !! !!! R 2 0 = 1 − (!!"#$!!∗!!"#)!! !!! (!!"#$!!!"#)!! !!! , where !!"# is the mean over all predictive values by R 2 pred 42
  43. 43. 実測値と予測値の比較3 APD  (applicaOon  of  domain)で評価するように       APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5     <d>,  σ  予測値と実測値のユークリッド距離の平均、分散 Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:   method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem   Inf  Model  46:  1984–1995   Distance* (APD = 0.109) 1.2.3.4.7.8.HxCDF 0.139 1.2.3.6.7.8.HxCDF 0.120 CB105 0.106 CB189 0.0819 HeptaCB 0.102 BDE100 0.183 Trans-nonachlor 0.143 43
  44. 44. 実測値と予測値の比較3 必ずしもvalidaOon  setへの当てはまりが良いわけではなかった… Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:   method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem   Inf  Model  46:  1984–1995   44 APD  (applicaOon  of  domain)で評価するように       APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5     <d>,  σ  予測値と実測値のユークリッド距離の平均、分散 Distance* (APD = 0.109) 1.2.3.4.7.8.HxCDF 0.139 1.2.3.6.7.8.HxCDF 0.120 CB105 0.106 CB189 0.0819 HeptaCB 0.102 BDE100 0.183 Trans-nonachlor 0.143
  45. 45. 実測値と予測値の比較3 Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:   method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem   Inf  Model  46:  1984–1995   45 APD  (applicaOon  of  domain)で評価するように       APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5     <d>,  σ  予測値と実測値のユークリッド距離の平均、分散 Distance* (APD = 0.109) 1.2.3.4.7.8.HxCDF 0.139 1.2.3.6.7.8.HxCDF 0.120 CB105 0.106 CB189 0.0819 HeptaCB 0.102 BDE100 0.183 Trans-nonachlor 0.143 必ずしもvalidaOon  setへの当てはまりが良いわけではなかった…   が、正直にそう書いたらその後修正は求められず
  46. 46. 予測モデルの構築に関わる因子の抽出 46
  47. 47. モデル中の変数重要度比較 RF MLR Variable importance t-value q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683 Final heat of formation 56.84 Molecular weight -3.979 Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28 LogBAF 42.33 LogBCF 39.23 TEF 22.47 Molecular weight 15.32 47
  48. 48. モデル中の変数重要度比較 過去の文献では分子量が重要と言われているが… RF MLR Variable importance t-value q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683 Final heat of formation 56.84 Molecular weight -3.979 Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28 LogBAF 42.33 LogBCF 39.23 TEF 22.47 Molecular weight 15.32 分子量 48
  49. 49. 過去の文献では分子量が重要と言われているが… 電荷の偏り、反応性が重要? RF MLR Variable importance t-value q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683 Final heat of formation 56.84 Molecular weight -3.979 Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28 LogBAF 42.33 LogBCF 39.23 TEF 22.47 Molecular weight 15.32 モデル中の変数重要度比較 電荷の偏り 反応性 電荷の偏り 反応性 電荷の偏り エネルギー 49
  50. 50. ダイオキシンの毒性等量 (TEF) が移行率と関係 →胎盤で発現する薬物代謝酵素の影響? RF MLR Variable importance t-value q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683 Final heat of formation 56.84 Molecular weight -3.979 Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28 LogBAF 42.33 LogBCF 39.23 TEF 22.47 Molecular weight 15.32 モデル中の変数重要度比較 ダイオキシン毒性等量 50
  51. 51. 既存研究では特徴量として余り注目されていなかった 因子が移行率に関係している可能性を示唆 RF MLR Variable importance t-value q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683 Final heat of formation 56.84 Molecular weight -3.979 Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28 LogBAF 42.33 LogBCF 39.23 TEF 22.47 Molecular weight 15.32 モデル中の変数重要度比較 ダイオキシン毒性等量 51
  52. 52. まとめ ランダムフォレストモデルにより、化学物質の 母子間移行率を高精度で予測 既報にある分子量に加え、電荷の偏り、物質の 反応性、ダイオキシンとしての毒性等が母子移 行率と関係していることを示唆 52

×