• Like
バイオインフォマティクスによる遺伝子発現解析
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

バイオインフォマティクスによる遺伝子発現解析

  • 6,255 views
Published

第2回数理生物サマーレクチャーコース@理研CDB,講義資料. 2013/07/30

第2回数理生物サマーレクチャーコース@理研CDB,講義資料. 2013/07/30

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
6,255
On SlideShare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
91
Comments
0
Likes
15

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. バイオインフォマティクスによる 遺伝子発現解析 東京工業大学 大学院情報理工学研究科 計算工学専攻 瀬々 潤 sesejun@cs.titech.ac.jp 第2回 数理生物サマーレクチャーコース @ RIKEN CDB
  • 2. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 2
  • 3. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 3
  • 4. DNA(ゲノム) mRNA 遺伝子 タンパク質 細胞 Illustrations are © 2011 DBCLS Licensed under a Creative Commons 表示 2.1 日本 License 4
  • 5. 遺伝子発現 • 細胞が異なれば,遺伝子の転写量が異なる • 遺伝子の転写量を調べることは,細胞の個性を知るための,そ れなりに良い指標になるだろう. • 実験が比較的容易 • 網羅的解析も可能:マイクロアレイ, RNA-seq • 今後は大規模にたんぱく質や代謝物質が取れるようになると思う のが,現時点では,規模・定量性の面で不十分なので,mRNAを 用いている. 5 ゲノム mRNA 遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2
  • 6. 何が比較できるか 6 ゲノム mRNA 遺伝子 1 遺伝子 2 遺伝子 1 遺伝子 2 Aさんの心臓 Bさんの心臓 Aさんの血液 Aさんの大脳 同一個体,組織が異なる 朝の血液 夜の血液 同一個体,同一組織,採取時期が異なる 組織は同一だが,個人が異なる
  • 7. 7 wound healing genes cholesterol biosynthesis genes Cluster analysis and display of genome-wide expression patterns Eisen et al. PNAS 95:14863, 1998 An integrated encyclopedia of DNA elements in the human genome. The ENCODE Project Consortium Nature 489:57, 2012 cell cycle Removed Removed
  • 8. 発現量大規模取得法の歴史 • 大きく分けて2通り • タグ(シーケンス)を利用 • 遺伝子の特定箇所をシーケンス.これをタグと呼ぶ. • その配列がどの遺伝子由来であるかを調べる • BodyMap, SAGE, MPSS, CAGE, RNA-seq • ハイブリダイゼーションを利用 • Microarray • 採取できるのでは大量の遺伝子の発現「スナップショット」 制限酵素等で切断 切断した端を読む(タグ) Gene X タグが由来する ゲノム上(遺伝子上)の 位置を特定する. 各遺伝子に由来するタグが 何個あったかを数える =発現量 8
  • 9. マイクロアレイ • 遺伝子発現を大規模 に観測(ほぼ全遺伝子 or 全exon) • Agilent社の場合,各遺伝子60塩基のプローブ • 相補鎖の配列を持つ遺伝子が観測できる M icroarray ATGCCAG ATGCCAG CATGTACGGTCGATCAG Probes in a spot A probe Cells mRNAs
  • 10. Golub et al. Science, 286 (5439), 531-537, 1999. 10 Removed
  • 11. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 11
  • 12. 遺伝子発現解析の流れ 異なる組織,異なる刺激,異なる時間 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 12
  • 13. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 13
  • 14. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 14
  • 15. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, Pathway Phenotype, 疾患 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 15
  • 16. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, Pathway Phenotype, 疾患 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 16
  • 17. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, Pathway Phenotype, 疾患 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 観測(データ) 前処理 解析 パタン抽出 知識 17
  • 18. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 18
  • 19. • 各Sampleが1点.遺伝子が次元. • 細胞の分類 • 疾患の分類 19 Genes Sam ple 1 Sam ple 2 Sam ple 3 • 各遺伝子が1点.サンプルが次元. • 遺伝子の分類,機能予測 Sample Gene 1 Gene 2 Gene 3 ... 解析手法としては,どちらも多次元上の点 (ベクトル)が多数ある状態なので, 変化なし. 行列
  • 20. 前処理 • 正規化←「単位」を合わせる • 特徴選択←信頼に足らないデータを除く • サンプル,遺伝子共に 20 Genes Samples Genes Samples
  • 21. 正規化(Nomalization) • 異なるサンプル間(replicateも含む)は独立した実験 • 抽出溶液の濃さ,等に依存した「ズレ」が生じているかも • 互いに比較がしたいので,なるべく妥当な比較ができるように変換 を行う • 良く行われるのは,平均や四分位点を合わせるように平行移動. • ただし,外れ値の影響を除くため,上位&下位 x%は除いて計算 される事も多い (trimmed mean). • スケート等の採点でみられる方法と同様. 発現量 個数 21
  • 22. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 22
  • 23. 特徴選択 • 必ずしもデータ全てに意味があるわけではない. • 無関係なデータは省いてから,解析を行いたい. • 健常者50名とガン患者50名から,遺伝子発現を観測 • 患者の分類に関係無さそうな遺伝子を除外して解析 • 各遺伝子に関して,その発現量と{健常,患者}に相関が あるかを調べる(t-検定,Mann-Whitney U,級間分 散,情報量等) • 無関係の無いものを除外し,解析をスタート • 「特徴選択」と呼ばれる • 特徴選択をすると,データの「ノイズ」が減るので,解 析性能が向上するケースがある • 逆に,本当は必要だった情報を削ぎ落してしまうことも あるので,注意. 23
  • 24. (似て非なるもの) 特徴抽出 • 代表的なものとして,PCA(主成分分析)やICA(独立成分分析) • 特徴を選択するのではなく,新しい特徴を創りだす • 前処理として行われることもあるが,可視化が目的の場合も多い • 高次元のデータを,低次元に落として,様子を観察できる • 改めて,「次元の解釈」をする必要あり. x1 x2 y1 y2 24
  • 25. その他の前処理 • 必要に応じて行う(実験計画に依存) • (基準となる細胞があれば)基準に比べて何倍発現量が上 がった or 下がったか,に変換する. • その後,必要に応じて Z変換 • 各遺伝子毎の発現量が,平均0, 分散1になるように変 換を行う. • 取得したいずれのサンプルでも発現量の低いものを除く • 本当に発現していないのかもしれないし,遺伝子領域やプ ローブが誤っているのかもしれない • 目的とは異なる変動を示すと予想されている遺伝子群を除く • 例えば日変動を見たい時に,日内変動が大きい事が知られ ている遺伝子は除外するなど. 25
  • 26. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 26
  • 27. 蓄積から解析へ • データベースにデータが蓄積されている • 蓄積されたデータは,有効活用したい! • データを有効活用して,解析を行う データマイニング+αの例 • Amazonの推奨システム • GoogleやYahooの検索ランキングや広告配信 • ここでは • 疾患予測や遺伝子機能予測に向けた技術を考える 27
  • 28. データ解析は シミュレーションとは異なる • シミュレーション • 観測できないデータの物理法則・モデルによる補完 • 例:気象予報 • 予測 • 物理法則の詳細はわからないけど,精度良く当てる • 例:ガン発症予測,余命の予測,商品の購入予測,顔認識 • 分析 • データ内に潜む傾向を調べる. • 例:同時に購入した商品を調べる • シミュレーションは物理法則を必要とする • 予測,分析は多様かつ信頼の出来るデータを必要とする • ここでは,「予測」と「分析」を行います 28
  • 29. 医学系の例 患者さんから採取した発現量とその後の追跡結果から 新たに来た患者の疾病を予測したい. 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? P 0.42 1.59 -0.15 -0.74 ? 29
  • 30. 量の採取 5 サンプルの時間 10 分 20 分 30 分 40 分 遺伝子 1 0.74 0.76 1.34 1.75 遺伝子 2 2.01 2.62 0.87 0.69 遺伝子 3 0.87 0.60 1.83 1.90 遺伝子 4 1.73 1.83 0.96 0.93 遺伝子発現量データの例.各行が一つの遺伝子,各列が採取 した時間を表している.値は 0 分のサンプルに対して,何倍 の発現を有しているかを示す. 遺伝子の使われ方を調べる 遺伝子2,4 が類似. 遺伝子1,3も類似 株価や為替の変動なども同様 30
  • 31. データマイニング・機械学習 • 教師あり学習 (Supervised Learning, クラス分類, Classification) • 予測をする • 遺伝子発現から患者の病態,術後経過を予測 • 遺伝子発現から遺伝子の機能を予測 • 教師なし学習 (Unsupervised Learning) • 分析(分類)をする • クラスタリング (Clustering) • 「似ている」グループを発見する • 刺激に対して同様に応答する遺伝子群の発見 • 相関ルール (Association Rule) • 84塩基目と98塩基目のSNPが同時に起こりやすい 31
  • 32. 利用方法 • 最近は,様々な環境で実装されている • R • Numpy/Scipy (Python) • Weka (Java) • Matlab • いずれも,ほぼGUIでは操作できないが,データを入力し,手 法を選択した後,パラメータを調整すれば,計算してくれる • 手法がどのようなもので,パラメータは何であるかを知るこ とが重要. • 発現解析に特化したソフトウエアではGUIで使える場合もある • GeneSpring • Spotfire • とはいえ,手法やパラメータは自分で選択する必要あり 32
  • 33. 教師あり(教師つき)学習 • データが訓練データとテストデータに分けられる. • 各訓練データにはクラス(=答え)が存在している. • テストデータのクラスを当てたい 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? P 0.42 1.59 -0.15 -0.74 ? クラス 訓練データ (Training Data) テストデータ (Test Data) 属性(特徴量) 33
  • 34. 教師あり(教師つき)学習 • 患者の疾患を予測 • データ=患者,属性=遺伝子,クラス=疾患の有無 • 遺伝子の機能を予測 • データ=遺伝子,属性=サンプル,クラス=機能 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? 5.1. クラス分類問題 123 サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 A -0.43 1.39 0.87 0.79 B -0.4 -0.45 1.07 0.87 × C 0.63 0.23 -2.56 0.45 D -0.42 1.59 -0.15 -0.74 × E 0.23 -0.86 0.39 -0.55 × F -0.43 -0.7 1.69 0.25 × G 0.26 0.21 0.29 0.34 H 0.42 -0.27 0.86 0.58 × I -0.63 -0.58 -0.25 -0.19 × J -0.92 0.51 0.64 -0.32 × K -0.53 0.25 -0.23 0.3 L 0.21 -0.12 -0.28 -0.46 表 5.1 クラス分類問題の訓練データ サンプル番号 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 発病 M -0.43 1.39 0.87 0.79 ? N 0.63 -0.45 1.07 0.87 ? O -0.4 0.23 -2.56 0.45 ? P 0.42 1.59 -0.15 -0.74 ? クラス 訓練データ (Training Data) テストデータ (Test Data) 属性(特徴量) 34
  • 35. k-最近点分類 (Nearest Neighbor) • 最も近いk点のクラスを調べ,多数決を取る. • 下図では,Qの点のクラスが丸か四角かを予想したい • 3-最近点分類であれば,E,F,Jが最も近い3点で,丸が 2点含まれるので,Qは丸と予測する. 遺伝子1の 発現量 遺伝子2の発現量 3-NN 遺伝子1の 発現量 遺伝子2の発現量 (A) 訓練データ (B) サンプルのクラス予測 A B C D E F G I L J K H Q A B C D E F G I L J K H Q 35
  • 36. 決定木 • 雑誌の裏にある「占い」の様な感じのもの • データを与えると,決定木アルゴリズムは,訓練データでの正答率が高 くなるように決定木を作成する. • テストデータを決定木に当てはめ,予測を決定する • 決定木を複数組み合わせるランダムフォレストも利用される • 利点:Gene signature (状況を表す遺伝子群)が見つかる.シンプル. • パラメータ:木の作成時に利用する関数.木の高さの調整項目. 遺伝子1の発現は 5以上? 遺伝子3の発現は 7以上? Yes No 発病する発病しない Yes No 発病しない 例えば: 新たな患者の属性値 ・遺伝子1: 8.2 ・遺伝子2: 10.4 ・遺伝子3: 9.5 ・遺伝子4: 3.1 木を辿ってみると・・・ 36
  • 37. SVM (Support Vector Machine) • 機械学習分野を席巻した手法 • 理論的な面白さと同時に,簡単に利用できるプログラムが出回 り,精度が高いことが実証されていった. ⃝と△の境界線を決めたい.色々な引き方が可能 ・Fisherの線形判別(古典的な方法) ・重心が遠く,かつ,クラス内の分散が小さくなるような境界 ・SVM ・「溝」が大きくなるような境界 37
  • 38. カーネル化 • SVMの「線形分離可能」は非常に強い仮定 • 工夫1:ソフトマージン.誤分類している点があったら,その分 ペナルティを加える.Cで表される. • 工夫2:カーネル化 • SVMの計算では「点の位置」より「点と点の距離」の方が本質 的.距離情報に変換することで,線形分離可能な空間を作る. • 線形カーネル,ガウスカーネル,シグモイドカーネル等 • K-最近点分類も,基本的に距離しか使わない • 距離は文字列間や化合物間も定義可能なので,より汎用的 38
  • 39. その他の主なクラス分類手法 • ベイズの定理を用いたもの • ナイーブベイズ等 • 複数のクラス分類手法を組み合わせるもの • ブースティング • ニューラルネットワーク • ディープネット 39
  • 40. クラス分類と回帰問題 • 2つのクラスがある時に,それらを分類する手法を紹介した. • 紹介しなかった方法としてベイズの定理を用いた方法や,複数 の手法を組み合わせる方法(ブースティング)など.きりがな い・・・ • 同様の方法は「3つ以上のクラスがある場合(他クラス分類)」 や「数値の予測の場合(回帰問題)」にも適用できる. • 回帰問題は,(一般化)線形回帰などと繋がっていて,非線形 の回帰を可能にする. • 冒頭に挙げた発現量予測は,回帰の一種. 40
  • 41. クロスバリデーション・精度の検証 • クラス分類手法には,精度評価が必須. • どの方法がよいのか? • 同一の方法でも,どのパラメータが良いのか? • どれくらい正解している見込みのある予測なのか? • 予測できたとしても,正答率が高くないかもしれない. • 答えの分かる「テストデータ」を用意して,予測結果の精度を 測れば良い • 一般に「答えの分かるテストデータ」を用意することは出来な いので,与えられた訓練データを擬似的な「訓練データ」と 「テストデータ」に分割して精度評価する. • クロスバリデーション 41
  • 42. n-fold cross validation • サンプル全体を重ならないようにN分割する • N回モデル作成を実行して,精度を測る • 下記の例では,9個中何個正解するかを調べる • 特にn=Nの時,leave-one-out cross validationと呼ぶ 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 78 9 A B C 訓練データ テストデータ 24 5 A 6 78 B 139 C 13 6 78 9 B C 24 5 A 24 5 A 139 C 6 78 B 3-fold cross validation の例 42
  • 43. クラスタリング • グループ=クラスタを見つける • 似ているものを同一グループに • 異なるものを異なるグループに • 点(サンプル)=個体の場合 • 疾患の種類を分類(3種類の疾患がある,等) • 近縁種のグループ分け • 点(サンプル)=遺伝子の場合 • 遺伝子を機能毎に分類 43
  • 44. クラスタリング • グループ=クラスタを見つける • 主として2通り • 非階層型クラスタリング • クラスタを作る個数を指定して,クラスタを作成する • 階層型クラスタリング • 系統樹の様な階層構造と共に,クラスタを生成する • いずれの方法でも,ポイントは点(クラスタ)の間の距離 の測り方. 44
  • 45. 点の間の距離の定義 • 各点はサンプルあるいは遺伝子 • それぞれ,次元は,遺伝子もしくはサンプル • 一般的な距離の定義 • 直線距離,マンハッタン距離 • 点と点の間の類似度(類似度が高→距離が近い) • コサイン角度,相関係数 • 情報量(Kullback-Leibler or Jensen-Shannon divergence等) x y (A) 直線距離 (ユークリッド(ノルム)距離) (B) マンハッタン距離 x1 x2 dx1 dx2 dx2 1 + dx2 2 |dx1| + |dx2| x y x1 x2 dx1 dx2 x1 (C) コサイン距離 x2 θ 45
  • 46. k-means クラスタリング • 非階層型クラスタリング. • k はクラスタの個数.予め決める必要あり. • 初期値鋭敏性有り(初期値に依存して結果が変わる) m(1) m(2) x m(1) m(2) 仮のクラスタの中心を適当に2点決める (ここでは与えられた点から2点選んだ) 各点を,最も近い中心のクラスタに 所属すると考えて,割当を決める. 46
  • 47. k-means クラスタリング (2) • 最も近い点「だけ」に属するのではなく,距離に従った「属し度合い」を定義す れば,1点が複数のクラスタに属するような「ゆるい」方法が作れる • Soft k-means 現在のクラスタ割当を基に, 各クラスタの中心を求める. クラスタの割当を解消する ・・・ 収束する(or 一定回数終了) まで繰り返す. 47
  • 48. 階層型クラスタリング • 階層的にクラスタを生成するクラスタ生成手法 • クラスタ間の距離の測り方で,単連結法(最短距離法), 完全連結法(最長距離法),Ward法等がある. • 系統樹作成法との関連を考えるのも良い • 基本的な手順は全て同じ. 48 E (A) B,C及びD,Fの併合 (B) 点A,Eのクラスターへの併合 (C) 単連結法で生成したデンドログラム A B C D E F G A B C D F G A B C DE F G 4 3 6 5 2 1 1 2 3 4
  • 49. 距離法 クラスタ X クラスタ Y クラスタ間 の距離 クラスタ X クラスタ Y クラスタ間 の距離 (A) 単連結法での距離 最も近い点の距離 (B) 完全連結法での距離 最も遠い点の距離 (C) 平均結合法 全点対間の距離の平均 (D) ウォード法(Ward s method) クラスタ中心までの距離の和 49
  • 50. 階層型クラスタリング Hierarchical clustering k-means クラスタリング D'haeseleer P. 2005. How does gene expression clustering work? Nature Biotechnology 23: 1499–1501. 50 Removed Removed
  • 51. NMF:非負行列因子分解 (Non-negative Matrix Factorization) • 非負の行列から,頻出するパタンをまとめていく. • 発現のクラスタリングの代わりに用いられることがある • Kがクラスタ数.行と列の両方のクラスタが求まるのが嬉しい J I J I= K K 1 1 2 3 1 0 1 0 1 1 2 0 4 4 0 3 0 6 6 0 1 0 2 2 0 0 1 0 1 10 1 1 1 2 0 3 0 = Lee DD, Seung HS. 1999. Learning the parts of objects by non-negative matrix factorization. Nature 401: 788–791. 電子情報通信学会誌 Vol.95 No.9 pp.829-833 2012年9月 より例を転載 51
  • 52. 共発現ネットワーク • 発現パタンの近い遺伝子に線を引いたネットワークを作る • そのネットワークを可視化,(ネットワークの上で)ク ラスタリング,クリークの発見,次数の解析などを行 なって,解析する Nayak RR, et al. 2009. Coexpression network based on natural variation in human gene expression reveals gene interactions and functions. Genome Research 19: 1953–1962. 52 Removed
  • 53. 遺伝子発現解析の流れ 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, PathwayPhenotype 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象 53
  • 54. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 54
  • 55. クラスタ生成後の解析 • 状況 • 遺伝子のグループは求まった • 疾患と相関高い遺伝子群は求まった • 問題 • その遺伝子群が,どのように働いているのかを知りたい • 遺伝子群と既存知識との対応付けを取りたい • 解法 • その遺伝子群と,知られた機能との対応を順に取っていく • 10遺伝子中 5遺伝子が膜タンパクに関連していること は,よくあるだろうか? • 10遺伝子中 9遺伝子がTCAサイクルに関わることは, よくあるだろうか? • そんなことはめったに起こらない対応を求める • =その機能は,遺伝子群に関連深い 55
  • 56. 超幾何分布 • 全部で N個の玉が入った箱を考える. • 内,N0個が赤,N-N0個が青だとする. • n回引いた時に,x回以上 赤を引く確率は?(非復元抽出) • Nが十分大きいと,非復元と復元に差異がなくなるので, 二項分布(母比率p=N0/N)と一致. • 全 N遺伝子中, N0 遺伝子が調べたい機能Fを有している. • (着目する)クラスタに n遺伝子が入っている. • x遺伝子以上が機能Fを有している確率は? N0 x N N0 n x N n . N0X x0=x N0 x0 N N0 n x0 N n .丁度x回の場合 x回以上なので 56
  • 57. 「機能」の種類 • 遺伝子の機能,そのたんぱく質の局在 • クラスタ内の遺伝子に共通する機能や局在があるか?もし存在 すれば,特定の機能が誘導されている事が分かる.あるいは, 特定の機能が,どのような発現パタンを取るかが分かる. • パスウエイ • クラスタ内の遺伝子が共通したパスウエイに関わっているか? 特定のパスウエイが使われている事が分かる. • 転写因子結合モチーフ配列 • クラスタ内の遺伝子の上流に共通するモチーフ配列があるか? もし存在すれば,上流の転写因子が予測できる • たんぱく質ドメイン • クラスタ内の遺伝子が共通して持つドメインがあるか?特定 の機能が誘導されている事が分かる. 57
  • 58. Gene Ontology • Term は全ての種で共通 • 各Termに種毎に遺伝子が関連付けられている • なるべく下の階層に配置されていることに注意 http://www.yeastgenome.org/help/gotutorial.html ADAMTS13 NCSTN PPP4R2 RABGGTB ICMT BAP1 ARPC4 TTLL1 ... 計60遺伝子 58
  • 59. 多重検定補正 • たくさん検定を行うと,偽陽性が高い確率で生まれる • 例えば,p-value < 0.05 の検定を100個の機能に対して行えば 99.4% の確率で,関連する機能が見つかってしまう • 「うそ」の発見が起こる • Natureの投稿規定にも,「(必要なときには)多重検定補正を行うこ と」と触れられている • よく使われる補正方法が2通り • FWER: 1つでも偽陽性が生まれる確率を α以下にする • 通常用いられる補正方法 • Bonferroni 補正,Holmの改良等 • Bonferroni: 元のp-value * 検定数 を補正後のp-valueとする • FDR: 検出された中で,擬陽性が α以下になるように補正する • 生命科学のデータでは,FWERはキツすぎることがあるので,導 入された方法 • Benjamini-Hochberg, Storey-Tibshirani 等. 59
  • 60. Gene Set Enrichment Analysis High Low High Low 理想 現実 統計的に有意 有意にならない, 結構変化あるのに・・・ High Low 高いところだけで判断したい. ランダムに遺伝子ー機能の関係を入れ替えて,ESが,元のデータ以上になる確率を計算する →これをp-valueとする. Enrichment Score (ES) 着目する機能に含まれている遺伝子に はプラスポイントを与え,それ以外の 遺伝子にはマイナスポイントを与える グラフを作る.この山の高さ(谷の深 さ)をEnrichment Score とする. 60 Subramanian et al. PNAS. 2005.
  • 61. まとめ 61 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, Pathway Phenotype, 疾患 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象
  • 62. 目次 • イントロダクション • 遺伝子発現の取得と意味 • データ解析の流れ • 前処理 • 正規化 • 特徴選択,群間差のある遺伝子群の抽出 • データ解析(データマイニング,機械学習) • クラス分類手法 • クラスタリング • 結果の解釈 • 解析結果と生物学的・医学的な知識との関連付け • 新型シーケンサのデータ解析に関して 62
  • 63. RNA-seq • 遺伝子の量をリードの数を数えることで定量化 DNA mRNA 次世代シーケンサ から得られるリード (100塩基程度の塩基配列) リードのマッピング (リードをゲノムの 領域に対応付ける) 発現量 63
  • 64. RNA-seqのワークフロー • 基礎的な要素技術は作成された • 実用面で,もう少し改良されても良い状況. リード ・DESeq, EdgeR, Cuffdiff 環境は2つ?それとも,3つ以上? Splicingを見たいか? 発現差異のある遺伝子群の同定 ・replicate が必須. ・正規化は必要なし 正規化 ・RPKM, FPKM クラス分類,クラスタリング •基本的に,マイクロアレイと同じ 方法が利用可能 •RNA-seqの「タグ」を活かした 方法について,論文は出ている が,広まって行くかは不明. 全遺伝子の発現量 64
  • 65. RPKM (Reads Per Kilobase per Million mapped reads) • 遺伝子1と遺伝子2の発現量を求めたい 14本のリード 14本のリード 遺伝子1 遺伝子2 発現量は同一? => No 単位長さあたりの発現量 RPKM が利用される [Montazavi et al., 2008 ] RPKM=Reads Per Kilobase of exon model per Million mapped reads 遺伝子(Exon)上の全リード 実験で読まれた全リード(100万単位) * 遺伝子(Exon)長(KB) 正規化 65
  • 66. FPKM (Fragments Per Kilobase per Million mapped reads) • 基本的にRPKMと同じ • 配列をPaired-endで取得することが増えてきた • 2本の配列が1本の配列に由来している • 各readではなく,paired-end 1つで1個とカウントする. • 利点: • Paired-endの距離には目安がある(実験プロトコルに寄る が,大体180-200bpを中心とする分布)ので,この距離から 誤ってmapされたものを発見し,取り除く事ができる. • Alternative splicing の発現を求める方法も出ている 正規化 66
  • 67. DESeq, EdgeR, Cuffdiff • マイクロアレイの時同様,「発現が2倍以上の遺伝子」「半分 以下の遺伝子」等を求めたい. • マイクロアレイと異なって,「タグ」が数えられる. • 発現が100の遺伝子が200になるのは,必然性があるよう に思えるが,発現が1の遺伝子が2になるのは,偶然の可能 性が高いかもしれない. • 遺伝子の発現は,ランダムサンプリングとして統計的に定式 化できるだろう. • ランダムにタグを取ってきたら,目的の遺伝子からのタ グが取れる個数の分布を考える. • Poisson分布に従うはず. • Poisson分布は,平均=分散 発現差異の同定 67
  • 68. 過分散 (Overdispersion) • Poisson分布なら,得られた点は紫の線が中心になるまず • 実際には,特に発現量の大きい遺伝子で,分散が大きい • Poisson分布に分散を加えたモデル=負の二項分布 (Negative Binomial Distribution) を利用 • p: 母比率,k: 観測回数,r: パラメータ • r回失敗を許した時の,Poisson分布 NB(r, p) = ✓ k + r 1 k ◆ · (1 p)r pk pr 1 p pr (1 p)2平均 分散 In Supporting text of Anders S, Huber W. 2010. Differential expression analysis for sequence count data. Genome Biology 11: R106. 68 Removed
  • 69. その他 • マイクロアレイに比べての利点 • 費用は,恐らく同じくらいか,少し安いくらい • 定量性は高いと考えられている • Splicing variant を見ることが可能 • 非モデル生物でも利用可能 • 欠点 • 過去の蓄積が無いので,比較検討が難しい • 解析に時間がかかる • 今まで見えなかったものが見える. • Splicing の問題,変異の問題,遺伝子領域以外の発現 • モデル生物で,単に発現が知りたい,かつ,周辺に設備が 整っているなら,現時点ではマイクロアレイの方がよいかも • スプライシングが見たい,非モデル生物を扱いたい場合は, RNA-seq 69
  • 70. まとめ 70 発現の観測(定量化)異なる組織,異なる刺激,異なる時間 発現差のある遺伝子群の抽出 (Differential Expressed Genes) データマイニング,機械学習 手法を用いた解析 (Clustering, Classification) Gene Ontology, Pathway Phenotype, 疾患 転写制御領域 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 細胞間の働きの違いの同定 (刺激等に対する)応答の理解 観測対象