言いたいことと言えること talk at ATR 神谷研セミナ 2008年12月

遺伝子発現量解析：
言いたいことと言えること
大羽成征（おおばしげゆき）
京都大学情報学研究科,JST
@ATRセミナー
「神経科学の言いたいことと言えること」

自己紹介
 雷,火山,地震
 脳
 遺伝子
 癌
 観測
 直感
 統計

本日の話題
 遺伝子発現量解析に基づく癌研究
 癌診断とその先にある言いたいこと
 教師付解析の情報漏洩
 特徴選択過程の危険性
 検定多重性への「対処」と
検定多重性の「利用」
 経験ベイズ検定
 Optimal Discovery Procedure

本日の結論
「言えることは目的次第」
研究開発におけるデータ解析は一般に、
（１）探索を目的とする、
（２）説明を目的とする、そして
（３）検証を目的とする場合に分けられる。
結論（言えること）
目的（言いたいこと）
前提
＋
データ
目的の的確な理解・上手な設定が鍵
「医学・薬学データの統計解析」
広津千尋著東京大学出版会

マイクロアレイに基づく
遺伝子発現量解析の話

遺伝子発現量とマイクロアレイ
 セントラルドグマ
 DNA→RNA→タンパク質
 細胞内外環境の影響
 環境変動
→シグナル分子
→DNAの特定領域転写
→特定RNA量変動
→特定タンパク質濃度変動
→細胞挙動変動
→...
＊RNAを特定するにはデジタル配列を決めればOK
＊特定RNAに対応する cDNA プローブは合成可能
＊スライドグラス上に多種プローブをならべれば
いいんじゃないの？→ マイクロアレイ

二色式マイクロアレイの原理
mRNA
scan
Cells
in a tissue A
Cells
in a tissue B
cDNA
RT and dye
DNA microarray
hybridization
Target Control
赤色：Target＞＞Control
黄色：Target ～ Control
緑色：Target＜＜Control

（参考）プロテオミクス
 作られたタンパク質のその後の挙動は、
RNA量だけからではわからない！
プロテインチップを用いた質量分析

遺伝子発現量の網羅的計測の結果を
新たな癌マーカーにする研究
 診断に使える単一遺伝子って無いの？
 複数遺伝子の組み合わせだったらどう？
 発現パターンを比較することはできないの？
診断
予後良
予後悪
？
癌細胞組織標本
測定
目的

教師付解析の目的
 分類できる YO！分類精度が良い YO！
 正解率９０％以上だよ
 既知マーカーよりも良いよ
 すくなくともランダムよりも良いよ
 分類できるっていうことはメカニズムに対しても
さらに言えることがあるっていうことだ YO！
 遺伝子発現量にはノイズ以上の情報が含まれているよ
 発現量から既知マーカーとは独立の情報が得られているよ
 具体的にはこの遺伝子（遺伝子群）が効いてるよ
 具体的にはこの遺伝子（遺伝子群）がこのようにはたらいて
いるせいで悪性／良性になってるよ

某論文の結果
 5000遺伝子チップのマイクロアレイの測定と、判別分析
 5年時点予後を 89%の精度で予測
 中間例14例に限っても 86%の精度で予測
 新たに厳選した低コスト 200遺伝子 CHIPを作成し、新規
50 症例に適用。
 5年時点予後を 90% の精度で予測できることを確認。
（Ohira, Oba, et al. Cancer Cell 2005）

136症例
良性例
悪性例中間例
目的を誤ると危険な図！
クラスタリングで言えることは少ない

某論文の手法
 ナイーブベイズ法
 （目的）判別器の教師付設計手法。あえて非線形手法を避けた。
 ペアワイズ遺伝子選択
 （目的）他と組み合わせた場合に意味のある遺伝子を高く評価。
評価の高い遺伝子から順に N 個だけナイーブベイズ法に参加
させる。
 Leave Two Out 交差検証
 （目的）遺伝子数選択と判別性能見積もりの両立
 
i
iijij xxwh )( 0
j-th patient’s score
i-th gene’s weight
gene expression

訓練誤差とテスト誤差
有意遺伝子を順位付ける
判別器をつくる学習用データ
判別器を評価するテスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 10%, 12%
判別器を選択する
過適応(over fitting)
誤差過小評価＝
情報漏洩による
性能の過大評価

バリデーション誤差
判別器をつくる
学習用データ
判別器を評価するテスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 10%, 12%
バリデーション用
データ
バリデーション
誤差
14%, 6%, 11%
判別器を評価する

交差検証 (cross validation)
交差検証用
データ
テスト用データ
テスト誤差
15%, 10%, 12%
誤差
18%, 6%, 8%

よくあるタイプの間違った交差検証
(incomplete cross validation)
有意遺伝子を絞り込む
交差検証用
データ
テスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 5%, 10%
誤差
18%, 6%, 8%
全部使う

Leave Two Out 交差検証
遺伝子順位付＋
判別器構成
判別器を評価しつつ選択
選択された判別器を
再評価
訓練誤差
選択された最良の
バリデーション誤差
再評価誤差
< < ～真の性能
誤差が最小になるように
学習
複数の候補のなかから
誤差最小のものを選択
唯一の候補を評価

敏感性(sensitivity)と
特異性(specificity)
 敏感性：
 悪性のものを誤って良性と判定しないこと
 大事をとること
 特異性：
 良性のものを悪性と判定しないこと
 踊らされないこと
どちらも大事だが矛盾

The receiver operating characteristic (ROC) curves
Accuracy of predicting favorable tumors
Accuracyofpredictingunfavorabletumors
sensitivity (96%)
specificity (90%)
Microarray
Microarray
+age+stage+MYCN
sensitivity (92%)
specificity (96%)
★この数字はバリデーション前のものであり
過大評価を含むので注意
★さらに標本数が少ないことによる
バリエーションも含むので注意
発現量による診断が
様々な単一因子と比べて優れている
ことを主張する図。

言いたいこと vs. 言えること
Mr. 言いたいこと
要するに90％の正解率ってことだね。
9割と書けるとインパクトあるね。
Mr. 言えること
このデータは生存例８割死亡例２割と
いうアンバランスなものですので
正解率は判別関数のしきい値次第で
どうにでも変動してしまいます。
じゃぁ、敏感性と特異性両方とも90％
になるようなしきい値でいこう
後付けでしきい値を決めることに
なるので情報漏洩があります。ついで
にバリアンスもあります。
70個の有意遺伝子リストもつけよう
例のクラスタリングの図もよろしく
最適分類器がたまたま70個の遺伝子を使っていただ
けで、統計的有意なわけではないですよ。
クラスタリングは可視化以上の意味はありません。

言ったこと
 5000遺伝子チップ×136症例
 5年時点予後を 89%の精度で予測
 中間例14例に限っても 86%の精度で予測
 遺伝子選択まで含めたLTOで情報漏洩なしを主張
 しきい値はゼロとした（しきい値選択について最適化はし
ていない）
 70遺伝子のクラスタリング図
 「可視化のためのクラスタリング」と注意を書きつつ
分かりやすい図を作成した
 低コスト 200遺伝子チップ×新規50症例
 5年時点予後を 90% の精度で予測
 独立症例なので情報漏洩なし
 バリアンスを考えれば、今後の症例で90％の精度が得
られる保証はない
（Ohira, Oba, et al. Cancer Cell 2005）

大腸癌 vs. 正常な大腸組織
（Zhan et al., Nature 2001）
 62症例 (正常 22 vs. 癌 40)
 教師付遺伝子選択で上位3遺伝子を選択
 その後にClassification Tree法を適用
 性能を5-foldで評価
3遺伝子の選択を前提とした
間違ったクロスバリデーション

乳癌の予後悪 vs. 良
 van de Veer et al. Nature 2002
 78 症例 (34 予後悪 vs. 44 予後良)
 70遺伝子に基づく予後予測器を構成
 本文 method には不完全交差検証の方法
付録に、完全な交差検証の方法が記載
 比較：予後悪の予測誤差を10%に揃えたとき
完全交差検証での予後良の正解率 27%
不完全交差検証での予後良の正解率 44%
 van de Veer et al. NEJM 2002
 Nature 論文で構成した予後予測器のテスト
 295 症例 (180予後悪 vs. 115 予後良)
 Kaplan-Meyerの生存曲線で比較
（正解率の数字は出さずに二群間生存曲線相違の
「統計的有意性」を主張）

乳癌の予後悪 vs. 良
Van’t Veer et al. Nature 2002
 Method of supervised classification
 We developed a method for classifying breast
tumours into prognostic or diagnostic categories
based on gene expression profiles. This method
includes the following three steps: (1) selection
of discriminating candidate genes by their
correlation with the category; (2) determination
of the optimal set of reporter genes using a
leave-one-out cross validation procedure; (3)
prognostic or diagnostic prediction based on the
gene expression of the optimal set of reporter
genes

Van’t Veer 2002 詳細
付録情報より（１）
 サンプル数78, 遺伝子数5000
 遺伝子とラベルの相関係数 r の絶対値が 0.3 以
上の遺伝子 231 個をとった
 ラベルをランダムに入れ替えたモンテカルロサンプ
リングを行ったところ |r|>0.3 であったものの割
合は0.3％であった。この割合は 231個のうち36
個の遺伝子は偶然に混入した null 遺伝子というこ
と。

付録情報より（２）
 遺伝子231個のうち上位から
5, 10, 15, ..., 231個だけを選んで
判別器を構成し LOO error を調べた。
 N=70程度のときに
最高の性能が得られた。

付録情報より（３）
 遺伝子選択時の情報漏洩を防ぐために、
LOOの内側で
 （１） |r|>Threshold の遺伝子を選択
 （２）それを全て使って判別器構成
までを行い、オリジナルと比較
Info.Leak無し Original
Type I err. = 3
で揃えて比較
Info.Leak
の影響

van’t Veer 2002 NEJM 続報
 既存の予後予測基準よりもよく分かれていると主張している。
 症例数295に基づく独立データなので、情報漏洩の危険なし。
 「正解率」の数字をあえて示していない
 プロの仕事＝
 言えることしか言わない。言えないことが言えないとも言わない

情報漏洩について気をつけるべきこと
 情報漏洩を完璧に防ぐ手法を使おう
 教師信号を必要とするものすべて
 特徴抽出・特徴選択・カーネル選択
 モデル選択・しきい値
を外から交差検証するべし
 なおかつなるべく多くの
独立テストデータを用意して検証するべし

情報漏洩について気をつけるべきこと
 van de Veer et al. Nature 2002に学ぶべき点
 情報漏洩を恐れ過ぎない論法を使っては？
 議論を煩雑にする完璧防御は自重するべし
 van de Veer の論法：
（１）「情報漏洩を恐れない手法」で分かりやすい結論を示
し、
（２）正しい手法で「情報漏洩の影響の大きさ」を見積もり、
（３）結論（１）の信頼性を議論して、注意喚起する
 批判
 重要な議論が supplement に回っているのはま
ずい（Simon, R. 2003 British J. of Cancer）

予後予測のための semi-supervised 法
 教師付遺伝子選択
 生存期間データとの相関で遺伝子順位付け
 上位 N 遺伝子を採択
 教師無しクラス分類
 K-平均法 K=2 → 予後良／予後悪
 クロスバリデーションで N を決定
Bair, E. and Tibshirani, R. (2004). Semi-supervised methods to predict patient survival
from gene expression data. PLoS Biology, 2, 511--522.
Cox 比例ハ
ザードモデル
「少数の上位遺伝子を選び出した後は、
遺伝子発現量データに語らせる」
「クラス分類境界を最適化しない」

教師ラベルを重視しすぎない分類
教師ラベル
教師ラベルとの
相関の高い上位遺伝子
教師無し分類に基づく
クラスラベル
症例
遺伝子

注意：機械学習における
Semi-supervised learning の定義
 教師信号（サンプルにつけたラベル）
を使う → supervised
使わない → unsupervised
 ラベルのついているサンプル
ついていないサンプルのデータを
両方とも使う → semi-supervised

言いたいことと言えること talk at ATR 神谷研セミナ 2008年12月

Recommended

Recommended

More Related Content

Similar to 言いたいことと言えること talk at ATR 神谷研セミナ 2008年12月

Similar to 言いたいことと言えること talk at ATR 神谷研セミナ 2008年12月 (20)