SlideShare a Scribd company logo
1 of 34
遺伝子発現量解析:
言いたいことと言えること
大羽成征(おおばしげゆき)
京都大学情報学研究科,JST
@ATRセミナー
「神経科学の言いたいことと言えること」
自己紹介
 雷,火山,地震
 脳
 遺伝子
 癌
 観測
 直感
 統計
本日の話題
 遺伝子発現量解析に基づく癌研究
 癌診断とその先にある言いたいこと
 教師付解析の情報漏洩
 特徴選択過程の危険性
 検定多重性への 「対処」 と
検定多重性の 「利用」
 経験ベイズ検定
 Optimal Discovery Procedure
本日の結論
「言えることは目的次第」
研究開発におけるデータ解析は一般に、
(1)探索を目的とする、
(2)説明を目的とする、そして
(3)検証を目的とする場合に分けられる。
結論(言えること)
目的(言いたいこと)
前提
+
データ
目的の的確な理解・上手な設定が鍵
「医学・薬学データの統計解析」
広津千尋著 東京大学出版会
マイクロアレイに基づく
遺伝子発現量解析の話
遺伝子発現量とマイクロアレイ
 セントラルドグマ
 DNA→RNA→タンパク質
 細胞内外環境の影響
 環境変動
→シグナル分子
→DNAの特定領域転写
→特定RNA量変動
→特定タンパク質濃度変動
→細胞挙動変動
→...
*RNAを特定するにはデジタル配列を決めればOK
*特定RNAに対応する cDNA プローブは合成可能
*スライドグラス上に多種プローブをならべれば
いいんじゃないの?→ マイクロアレイ
二色式マイクロアレイの原理
mRNA
scan
Cells
in a tissue A
Cells
in a tissue B
cDNA
RT and dye
DNA microarray
hybridization
Target Control
赤色:Target>>Control
黄色:Target ~ Control
緑色:Target<<Control
(参考) プロテオミクス
 作られたタンパク質のその後の挙動は、
RNA量だけからではわからない!
プロテインチップを用いた質量分析
遺伝子発現量の網羅的計測の結果を
新たな癌マーカーにする研究
 診断に使える単一遺伝子って無いの?
 複数遺伝子の組み合わせだったらどう?
 発現パターンを比較することはできないの?
診断
予後良
予後悪
?
癌細胞組織標本
測定
目的
教師付解析の目的
 分類できる YO! 分類精度が良い YO!
 正解率90%以上だよ
 既知マーカーよりも良いよ
 すくなくともランダムよりも良いよ
 分類できるっていうことはメカニズムに対しても
さらに言えることがあるっていうことだ YO!
 遺伝子発現量にはノイズ以上の情報が含まれているよ
 発現量から既知マーカーとは独立の情報が得られているよ
 具体的にはこの遺伝子(遺伝子群)が効いてるよ
 具体的にはこの遺伝子(遺伝子群)がこのようにはたらいて
いるせいで悪性/良性になってるよ
某論文の結果
 5000遺伝子チップのマイクロアレイの測定と、判別分析
 5年時点予後を 89%の精度で予測
 中間例14例に限っても 86%の精度で予測
 新たに厳選した低コスト 200遺伝子 CHIPを作成し、新規
50 症例に適用。
 5年時点予後を 90% の精度で予測できることを確認。
(Ohira, Oba, et al. Cancer Cell 2005)
136症例
良性例
悪性例中間例
目的を誤ると危険な図!
クラスタリングで言えることは少ない
某論文の手法
 ナイーブベイズ法
 (目的) 判別器の教師付設計手法。あえて非線形手法を避けた。
 ペアワイズ遺伝子選択
 (目的) 他と組み合わせた場合に意味のある遺伝子を高く評価。
評価の高い遺伝子から順に N 個だけナイーブベイズ法に参加
させる。
 Leave Two Out 交差検証
 (目的) 遺伝子数選択 と 判別性能見積もり の両立
 
i
iijij xxwh )( 0
j-th patient’s score
i-th gene’s weight
gene expression
訓練誤差とテスト誤差
有意遺伝子を順位付ける
判別器をつくる学習用データ
判別器を評価するテスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 10%, 12%
判別器を選択する
過適応(over fitting)
誤差過小評価 =
情報漏洩による
性能の過大評価
バリデーション誤差
有意遺伝子を順位付ける
判別器をつくる
学習用データ
判別器を評価するテスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 10%, 12%
判別器を選択する
バリデーション用
データ
バリデーション
誤差
14%, 6%, 11%
判別器を評価する
交差検証 (cross validation)
有意遺伝子を順位付ける
判別器をつくる
交差検証用
データ
テスト用データ
テスト誤差
15%, 10%, 12%
バリデーション
誤差
18%, 6%, 8%
判別器を評価する
判別器を選択する
判別器を評価する
よくあるタイプの間違った交差検証
(incomplete cross validation)
有意遺伝子を絞り込む
判別器をつくる
交差検証用
データ
テスト用データ
訓練誤差
テスト誤差
0%, 5%, 10%
15%, 5%, 10%
バリデーション
誤差
18%, 6%, 8%
判別器を評価する
判別器を選択する
判別器を評価する
全部使う
Leave Two Out 交差検証
遺伝子順位付+
判別器構成
判別器を評価しつつ選択
選択された判別器を
再評価
訓練誤差
選択された最良の
バリデーション誤差
再評価誤差
< < ~ 真の性能
誤差が最小になるように
学習
複数の候補のなかから
誤差最小のものを選択
唯一の候補を評価
敏感性(sensitivity)と
特異性(specificity)
 敏感性:
 悪性のものを誤って良性と判定しないこと
 大事をとること
 特異性:
 良性のものを悪性と判定しないこと
 踊らされないこと
どちらも大事だが矛盾
The receiver operating characteristic (ROC) curves
Accuracy of predicting favorable tumors
Accuracyofpredictingunfavorabletumors
sensitivity (96%)
specificity (90%)
Microarray
Microarray
+age+stage+MYCN
sensitivity (92%)
specificity (96%)
★この数字はバリデーション前のものであり
過大評価を含むので注意
★さらに標本数が少ないことによる
バリエーションも含むので注意
発現量による診断が
様々な単一因子と比べて優れている
ことを主張する図。
言いたいこと vs. 言えること
Mr. 言いたいこと
要するに90%の正解率ってことだね。
9割と書けるとインパクトあるね。
Mr. 言えること
このデータは生存例8割死亡例2割と
いうアンバランスなものですので
正解率は判別関数のしきい値次第で
どうにでも変動してしまいます。
じゃぁ、敏感性と特異性両方とも90%
になるようなしきい値でいこう
後付けでしきい値を決めることに
なるので情報漏洩があります。ついで
にバリアンスもあります。
70個の有意遺伝子リストもつけよう
例のクラスタリングの図もよろしく
最適分類器がたまたま70個の遺伝子を使っていただ
けで、統計的有意なわけではないですよ。
クラスタリングは可視化以上の意味はありません。
言ったこと
 5000遺伝子チップ×136症例
 5年時点予後を 89%の精度で予測
 中間例14例に限っても 86%の精度で予測
 遺伝子選択まで含めたLTOで情報漏洩なしを主張
 しきい値はゼロとした(しきい値選択について最適化はし
ていない)
 70遺伝子のクラスタリング図
 「可視化のためのクラスタリング」と注意を書きつつ
分かりやすい図を作成した
 低コスト 200遺伝子チップ×新規50症例
 5年時点予後を 90% の精度で予測
 独立症例なので情報漏洩なし
 バリアンスを考えれば、今後の症例で90%の精度が得
られる保証はない
(Ohira, Oba, et al. Cancer Cell 2005)
大腸癌 vs. 正常な大腸組織
(Zhan et al., Nature 2001)
 62症例 (正常 22 vs. 癌 40)
 教師付遺伝子選択で上位3遺伝子を選択
 その後にClassification Tree法を適用
 性能を5-foldで評価
3遺伝子の選択を前提とした
間違ったクロスバリデーション
乳癌の予後悪 vs. 良
 van de Veer et al. Nature 2002
 78 症例 (34 予後悪 vs. 44 予後良)
 70遺伝子に基づく予後予測器を構成
 本文 method には不完全交差検証の方法
付録に、完全な交差検証の方法が記載
 比較:予後悪の予測誤差を10%に揃えたとき
完全交差検証での予後良の正解率 27%
不完全交差検証での予後良の正解率 44%
 van de Veer et al. NEJM 2002
 Nature 論文で構成した予後予測器のテスト
 295 症例 (180予後悪 vs. 115 予後良)
 Kaplan-Meyerの生存曲線で比較
(正解率の数字は出さずに二群間生存曲線相違の
「統計的有意性」を主張)
乳癌の予後悪 vs. 良
Van’t Veer et al. Nature 2002
 Method of supervised classification
 We developed a method for classifying breast
tumours into prognostic or diagnostic categories
based on gene expression profiles. This method
includes the following three steps: (1) selection
of discriminating candidate genes by their
correlation with the category; (2) determination
of the optimal set of reporter genes using a
leave-one-out cross validation procedure; (3)
prognostic or diagnostic prediction based on the
gene expression of the optimal set of reporter
genes
Van’t Veer 2002 詳細
付録情報より(1)
 サンプル数78, 遺伝子数5000
 遺伝子とラベルの相関係数 r の絶対値が 0.3 以
上の遺伝子 231 個をとった
 ラベルをランダムに入れ替えたモンテカルロサンプ
リングを行ったところ |r|>0.3 であったものの割
合は0.3%であった。この割合は 231個のうち36
個の遺伝子は偶然に混入した null 遺伝子というこ
と。
Van’t Veer 2002 詳細
付録情報より(2)
 遺伝子231個のうち上位から
5, 10, 15, ..., 231個だけを選んで
判別器を構成し LOO error を調べた。
 N=70程度のときに
最高の性能が得られた。
Van’t Veer 2002 詳細
付録情報より(3)
 遺伝子選択時の情報漏洩を防ぐために、
LOOの内側で
 (1) |r|>Threshold の遺伝子を選択
 (2) それを全て使って判別器構成
までを行い、オリジナルと比較
Info.Leak無し Original
Type I err. = 3
で揃えて比較
Info.Leak
の影響
van’t Veer 2002 NEJM 続報
 既存の予後予測基準よりもよく分かれていると主張している。
 症例数295に基づく独立データなので、情報漏洩の危険なし。
 「正解率」の数字をあえて示していない
 プロの仕事=
 言えることしか言わない。言えないことが言えないとも言わない
情報漏洩について気をつけるべきこと
 情報漏洩を完璧に防ぐ手法を使おう
 教師信号を必要とするものすべて
 特徴抽出・特徴選択・カーネル選択
 モデル選択・しきい値
を外から交差検証するべし
 なおかつなるべく多くの
独立テストデータを用意して検証するべし
情報漏洩について気をつけるべきこと
 van de Veer et al. Nature 2002に学ぶべき点
 情報漏洩を恐れ過ぎない論法を使っては?
 議論を煩雑にする完璧防御は自重するべし
 van de Veer の論法:
(1)「情報漏洩を恐れない手法」で分かりやすい結論を示
し、
(2)正しい手法で「情報漏洩の影響の大きさ」を見積もり、
(3)結論(1)の信頼性を議論して、注意喚起する
 批判
 重要な議論が supplement に回っているのはま
ずい(Simon, R. 2003 British J. of Cancer)
予後予測のための semi-supervised 法
 教師付遺伝子選択
 生存期間データとの相関で遺伝子順位付け
 上位 N 遺伝子を採択
 教師無しクラス分類
 K-平均法 K=2 → 予後良/予後悪
 クロスバリデーションで N を決定
Bair, E. and Tibshirani, R. (2004). Semi-supervised methods to predict patient survival
from gene expression data. PLoS Biology, 2, 511--522.
Cox 比例ハ
ザードモデル
「少数の上位遺伝子を選び出した後は、
遺伝子発現量データに語らせる」
「クラス分類境界を最適化しない」
教師ラベルを重視しすぎない分類
教師ラベル
教師ラベルとの
相関の高い上位遺伝子
教師無し分類に基づく
クラスラベル
症例
遺伝子
注意:機械学習における
Semi-supervised learning の定義
 教師信号(サンプルにつけたラベル)
を使う → supervised
使わない → unsupervised
 ラベルのついているサンプル
ついていないサンプルのデータを
両方とも使う → semi-supervised

More Related Content

Similar to 言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月

「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門yokomitsuken5
 
ベイズ入門
ベイズ入門ベイズ入門
ベイズ入門Zansa
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。Takashi Fujiwara
 
STARD2015に学ぶ「診断精度の分析」の書き方
 STARD2015に学ぶ「診断精度の分析」の書き方 STARD2015に学ぶ「診断精度の分析」の書き方
STARD2015に学ぶ「診断精度の分析」の書き方Yoshitake Takebayashi
 
2012心臓リハビリ
2012心臓リハビリ2012心臓リハビリ
2012心臓リハビリNaoki Nago
 
子宮頸癌検診(院内勉強会)
子宮頸癌検診(院内勉強会)子宮頸癌検診(院内勉強会)
子宮頸癌検診(院内勉強会)hiroshiiga
 
介入研究の質のアセスメント
介入研究の質のアセスメント介入研究の質のアセスメント
介入研究の質のアセスメントSenshu University
 
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...Takehiko Ito
 
観察研究の系統的レビューのガイドライン.pdf
観察研究の系統的レビューのガイドライン.pdf観察研究の系統的レビューのガイドライン.pdf
観察研究の系統的レビューのガイドライン.pdfAtsushi Goto
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方Yuki Yamada
 
Social listening1
Social listening1 Social listening1
Social listening1 tobyo_init
 
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きるkinosita1316
 
臨床家が知っておくべき臨床疫学・統計
臨床家が知っておくべき臨床疫学・統計臨床家が知っておくべき臨床疫学・統計
臨床家が知っておくべき臨床疫学・統計Yasuaki Sagara
 
6診断精度のメタアナリシス
6診断精度のメタアナリシス6診断精度のメタアナリシス
6診断精度のメタアナリシスSR WS
 
Social listening1
Social listening1 Social listening1
Social listening1 tobyo_init
 
201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアスSR WS
 
研究の質を評価する重要性
研究の質を評価する重要性研究の質を評価する重要性
研究の質を評価する重要性Yasuyuki Okumura
 

Similar to 言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月 (20)

「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門
 
ベイズ入門
ベイズ入門ベイズ入門
ベイズ入門
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。
 
STARD2015に学ぶ「診断精度の分析」の書き方
 STARD2015に学ぶ「診断精度の分析」の書き方 STARD2015に学ぶ「診断精度の分析」の書き方
STARD2015に学ぶ「診断精度の分析」の書き方
 
2012心臓リハビリ
2012心臓リハビリ2012心臓リハビリ
2012心臓リハビリ
 
tadano m
tadano mtadano m
tadano m
 
子宮頸癌検診(院内勉強会)
子宮頸癌検診(院内勉強会)子宮頸癌検診(院内勉強会)
子宮頸癌検診(院内勉強会)
 
介入研究の質のアセスメント
介入研究の質のアセスメント介入研究の質のアセスメント
介入研究の質のアセスメント
 
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...
R112 城丸瑞恵・伊藤武彦・下田美保子・仲松知子・宮坂真紗規・堤千鶴子・久保田まり (2008). 腹部の手術を受ける患者のコーピングに関する実態調査:...
 
TMDU bioresource center seminor
TMDU bioresource center seminorTMDU bioresource center seminor
TMDU bioresource center seminor
 
観察研究の系統的レビューのガイドライン.pdf
観察研究の系統的レビューのガイドライン.pdf観察研究の系統的レビューのガイドライン.pdf
観察研究の系統的レビューのガイドライン.pdf
 
事前登録のやり方
事前登録のやり方事前登録のやり方
事前登録のやり方
 
Social listening1
Social listening1 Social listening1
Social listening1
 
がんと共に生きる
がんと共に生きるがんと共に生きる
がんと共に生きる
 
臨床家が知っておくべき臨床疫学・統計
臨床家が知っておくべき臨床疫学・統計臨床家が知っておくべき臨床疫学・統計
臨床家が知っておくべき臨床疫学・統計
 
6診断精度のメタアナリシス
6診断精度のメタアナリシス6診断精度のメタアナリシス
6診断精度のメタアナリシス
 
StatGenSummerSchool2023_GenomeDataAnalysis2.pdf
StatGenSummerSchool2023_GenomeDataAnalysis2.pdfStatGenSummerSchool2023_GenomeDataAnalysis2.pdf
StatGenSummerSchool2023_GenomeDataAnalysis2.pdf
 
Social listening1
Social listening1 Social listening1
Social listening1
 
201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス201707srws第六回その2メタアナリシス・異質性・出版バイアス
201707srws第六回その2メタアナリシス・異質性・出版バイアス
 
研究の質を評価する重要性
研究の質を評価する重要性研究の質を評価する重要性
研究の質を評価する重要性
 

言いたいことと言えること talk at ATR 神谷研 セミナ 2008年12月