Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
離散と連続の入り混じった相互情報量を推定して、
SNP と遺伝子発現量の因果関係をさぐる
Joe Suzuki
(prof-joe)
応用数理学会 2016年度 年会
2016年9月14日
鈴木譲 (大阪大学)
研究の目的と貢献
2015年8月13日-17日
International Journal of Approximate Reasoning
Joe Suzuki
A novel Chow–Liu algorithm and its appli...
ロードマップ
1. 相互情報量の推定(離散)
2. 既存研究の紹介
3. 相互情報量の推定(連続、一般)
4. 因果を表現する森を生成する
5. 遺伝子発現量の森の生成
6. 遺伝子発現量とSNPの森の生成
6. まとめ
Chow-Liuアルゴリズム
ループができない限り、相互情報量が大きい順に辺を結んでいく
分布既知 真の分布とのK-L情報量最小の近似
分布未知 サンプルから、尤度最大の木を生成
変数が独立なのに辺を結んでよいの? (Suzuki ‘93)
X,Yが独立でも、
正の値をとってしまう
これが正解
(木ではなく森)
独立性が検出
できていない
離散の相互情報量の推定 (Suzuki 93)
MDL原理に基づく
MDL(minimum description length)
適合性 + 簡潔性 → 最適
(-1) x 尤度 + ペナルティ項 → 最小
ニュートン
運動の3法則
マクセル
方程式
記述長が最小のモデルを選ぶ
情報量基準
最尤法は、大きくなりがち(過学習)
最尤法
MDL (Suzuki, 93)
bnlearn パッケージAsiaで、 Chow-Liu アルゴリズム
既存研究: X,Yが連続のとき正規分布を仮定 (Edwards, 2010)
遺伝子発現量、およびその対数は、正規分布にはしたがわない
既存研究: Xが連続、Yが離散のとき
混合正規分布を仮定 (Edwards, 2010)
非対称性ゆえ、一般の森を生成できない
相互情報量を推定できても、
確率モデルに矛盾
離散 正規 離散正規
離散 正規 離散
離散 正規 離散
衝突
離散 正規 離散
離散 正規 離散
離散 正規 離散
は、以下のいずれか
記述長や尤度の計算は、
条件付き独立性を仮定して、一方向
根
根から葉に向かって合計していく (根の選び方によらない)
既存研究の問題点:離散と離散の間に正規変数を含まない森の構築
離散変数
正規変数
(Edwards, 2010)
SNP
(一塩基多型)
遺伝子の発現量
提案方式: 離散や連続を仮定しない
XY平面をメッシュで区切り、離散の相互情報量を計算し、その最大値をとる
(データのパーセンタイル)
n=1000, 8x8のメッシュの場合
Xの頻度
Yの頻度
(X, Y) の同時頻度
連続でも、離散でもよい
u,v=1,2,…,sについて、
クラスタ内のサンプルを前半と後半にわけていく
(分ける前後で値が同じ場合、そこの分割は避ける)
数学的に証明できたこと
• 最適なメッシュの上限が、サンプル数nに対して
• 独立であることと、相互情報量の推定値が0であることが、同値
実験から、正しいと予想されること
大きなnで、相互情報量の推定値が真の値に収束する
メッシュへの近似と、ビ...
実験1: 乳がん患者の遺伝子発現量
• p53 遺伝子突然変異をもつ(58サンプル)、もたない(192サンプル)
• 1000個の遺伝子の 発現量
遺伝子どうしの関係をみないで、B補正や、FDRを適用するだけでよいのか
ほとんどの遺伝子で、発現量の正規性が棄却
case/controlノードは、1遺伝子としか結合しない
108 (CDC20),209 (GPR19),213 (CENPA),554 (C10orf3) ,
739 (CDCA5)がcase/controlから距離3以内
1000遺伝子の発現量と
case/controlの変量
(1001ノード)
p値の小さい変数は、
森でもハブになっている。
実験2: 遺伝子発現200, SNP 200の400変数
• Utah州の住民で、北西欧州に起源をもつ90名のSNP (HapMap)
• R library (BioConductor) GGData
ftp://ftp.sanger.ac....
青: 遺伝子発現量
赤: SNP
遺伝子発現とSNPが
分離されていない
まとめ
• 相互情報量の推定 (離散と連続を区別しない)
• Chow-Liuアルゴリズムへの適用
• 変異解析 (実験1)
• SNPと遺伝子発現量が混在したグラフィカルモデルの定式化
今後の課題
• eQTLの既存の方法との比較
• 医学的...
謝辞
鈴木貴教授 (大阪大学基礎工学部)
岡田髄象教授 (大阪大学医学部)
井元清哉教授 (東京大学医科学研究所)
植野真臣教授 (電気通信大学)
Prof. Cassio P. de Campos(Queen's University Bel...
離散と連続の入り混じった相互情報量を推定して、SNP と遺伝子発現量の因果関係をさぐる
離散と連続の入り混じった相互情報量を推定して、SNP と遺伝子発現量の因果関係をさぐる
Upcoming SlideShare
Loading in …5
×

離散と連続の入り混じった相互情報量を推定して、 SNP と遺伝子発現量の因果関係をさぐる

1,094 views

Published on

応用数理学会 2016年度年会

Published in: Science
  • Be the first to comment

  • Be the first to like this

離散と連続の入り混じった相互情報量を推定して、 SNP と遺伝子発現量の因果関係をさぐる

  1. 1. 離散と連続の入り混じった相互情報量を推定して、 SNP と遺伝子発現量の因果関係をさぐる Joe Suzuki (prof-joe) 応用数理学会 2016年度 年会 2016年9月14日 鈴木譲 (大阪大学)
  2. 2. 研究の目的と貢献 2015年8月13日-17日 International Journal of Approximate Reasoning Joe Suzuki A novel Chow–Liu algorithm and its application to gene differential analysis Pages 1-18 (Volume 80) (2016年7月27日に採択が決定) • 離散でも連続でも適用できる相互情報量の推定方法を提案 • メリットといえる性能を数学的に証明する • 遺伝子発現量、SNPの間の因果関係を見出す
  3. 3. ロードマップ 1. 相互情報量の推定(離散) 2. 既存研究の紹介 3. 相互情報量の推定(連続、一般) 4. 因果を表現する森を生成する 5. 遺伝子発現量の森の生成 6. 遺伝子発現量とSNPの森の生成 6. まとめ
  4. 4. Chow-Liuアルゴリズム ループができない限り、相互情報量が大きい順に辺を結んでいく 分布既知 真の分布とのK-L情報量最小の近似 分布未知 サンプルから、尤度最大の木を生成
  5. 5. 変数が独立なのに辺を結んでよいの? (Suzuki ‘93) X,Yが独立でも、 正の値をとってしまう これが正解 (木ではなく森) 独立性が検出 できていない
  6. 6. 離散の相互情報量の推定 (Suzuki 93) MDL原理に基づく
  7. 7. MDL(minimum description length) 適合性 + 簡潔性 → 最適 (-1) x 尤度 + ペナルティ項 → 最小 ニュートン 運動の3法則 マクセル 方程式 記述長が最小のモデルを選ぶ 情報量基準
  8. 8. 最尤法は、大きくなりがち(過学習)
  9. 9. 最尤法 MDL (Suzuki, 93) bnlearn パッケージAsiaで、 Chow-Liu アルゴリズム
  10. 10. 既存研究: X,Yが連続のとき正規分布を仮定 (Edwards, 2010) 遺伝子発現量、およびその対数は、正規分布にはしたがわない
  11. 11. 既存研究: Xが連続、Yが離散のとき 混合正規分布を仮定 (Edwards, 2010) 非対称性ゆえ、一般の森を生成できない
  12. 12. 相互情報量を推定できても、 確率モデルに矛盾 離散 正規 離散正規 離散 正規 離散 離散 正規 離散 衝突 離散 正規 離散 離散 正規 離散 離散 正規 離散 は、以下のいずれか
  13. 13. 記述長や尤度の計算は、 条件付き独立性を仮定して、一方向 根 根から葉に向かって合計していく (根の選び方によらない)
  14. 14. 既存研究の問題点:離散と離散の間に正規変数を含まない森の構築 離散変数 正規変数 (Edwards, 2010) SNP (一塩基多型) 遺伝子の発現量
  15. 15. 提案方式: 離散や連続を仮定しない XY平面をメッシュで区切り、離散の相互情報量を計算し、その最大値をとる (データのパーセンタイル)
  16. 16. n=1000, 8x8のメッシュの場合 Xの頻度 Yの頻度 (X, Y) の同時頻度
  17. 17. 連続でも、離散でもよい u,v=1,2,…,sについて、 クラスタ内のサンプルを前半と後半にわけていく (分ける前後で値が同じ場合、そこの分割は避ける)
  18. 18. 数学的に証明できたこと • 最適なメッシュの上限が、サンプル数nに対して • 独立であることと、相互情報量の推定値が0であることが、同値 実験から、正しいと予想されること 大きなnで、相互情報量の推定値が真の値に収束する メッシュへの近似と、ビンの中のサンプル数とのバランス (MDL原理)
  19. 19. 実験1: 乳がん患者の遺伝子発現量 • p53 遺伝子突然変異をもつ(58サンプル)、もたない(192サンプル) • 1000個の遺伝子の 発現量 遺伝子どうしの関係をみないで、B補正や、FDRを適用するだけでよいのか
  20. 20. ほとんどの遺伝子で、発現量の正規性が棄却
  21. 21. case/controlノードは、1遺伝子としか結合しない 108 (CDC20),209 (GPR19),213 (CENPA),554 (C10orf3) , 739 (CDCA5)がcase/controlから距離3以内
  22. 22. 1000遺伝子の発現量と case/controlの変量 (1001ノード) p値の小さい変数は、 森でもハブになっている。
  23. 23. 実験2: 遺伝子発現200, SNP 200の400変数 • Utah州の住民で、北西欧州に起源をもつ90名のSNP (HapMap) • R library (BioConductor) GGData ftp://ftp.sanger.ac.uk/pub/genevar/CEU_parents_norm_march2007.zip 離散変数 正規変数 (Edwards, 2010) SNP (一塩基多型) 遺伝子の発現量3値
  24. 24. 青: 遺伝子発現量 赤: SNP 遺伝子発現とSNPが 分離されていない
  25. 25. まとめ • 相互情報量の推定 (離散と連続を区別しない) • Chow-Liuアルゴリズムへの適用 • 変異解析 (実験1) • SNPと遺伝子発現量が混在したグラフィカルモデルの定式化 今後の課題 • eQTLの既存の方法との比較 • 医学的な解釈を参照して、極めて行く
  26. 26. 謝辞 鈴木貴教授 (大阪大学基礎工学部) 岡田髄象教授 (大阪大学医学部) 井元清哉教授 (東京大学医科学研究所) 植野真臣教授 (電気通信大学) Prof. Cassio P. de Campos(Queen's University Belfast, United Kingdom) Bing Zhang, Ph.D. and Qi Liu, Ph.D. (Vanderbilt University) 文科省 研究拠点形成事業A (代表: 鈴木貴)

×