Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
弘毅 露崎
PDF, PPTX
1,187 views
Large-scale imputation of epigenetic datasets for systematic annotation of diverse human tissues
2015/3/17のEpigenomic Roadmap輪読会での発表資料
Science
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 15
2
/ 15
3
/ 15
4
/ 15
5
/ 15
6
/ 15
7
/ 15
8
/ 15
9
/ 15
10
/ 15
11
/ 15
12
/ 15
13
/ 15
14
/ 15
15
/ 15
More Related Content
PDF
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
by
弘毅 露崎
PDF
DARM勉強会第3回 (missing data analysis)
by
Masaru Tokuoka
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
by
Hajime Sasaki
PDF
多重代入法の書き方 公開用
by
Koichiro Gibo
PPTX
傾向スコアマッチと多重補完法の解説 その1
by
Atsushi Shiraishi
PDF
数式を使わずイメージで理解するEMアルゴリズム
by
裕樹 奥田
PDF
バイオインフォ分野におけるtidyなデータ解析の最新動向
by
弘毅 露崎
PDF
大規模テンソルデータに適用可能なeinsumの開発
by
弘毅 露崎
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
by
弘毅 露崎
DARM勉強会第3回 (missing data analysis)
by
Masaru Tokuoka
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
by
Hajime Sasaki
多重代入法の書き方 公開用
by
Koichiro Gibo
傾向スコアマッチと多重補完法の解説 その1
by
Atsushi Shiraishi
数式を使わずイメージで理解するEMアルゴリズム
by
裕樹 奥田
バイオインフォ分野におけるtidyなデータ解析の最新動向
by
弘毅 露崎
大規模テンソルデータに適用可能なeinsumの開発
by
弘毅 露崎
More from 弘毅 露崎
PDF
データベースとデータ解析の融合
by
弘毅 露崎
PDF
PRML10章
by
弘毅 露崎
PDF
ISMB読み会 2nd graph kernel
by
弘毅 露崎
PDF
非負値テンソル分解を用いた細胞間コミュニケーション検出
by
弘毅 露崎
PDF
WACODE
by
弘毅 露崎
PDF
1細胞オミックスのための新GSEA手法
by
弘毅 露崎
PDF
LRBase × scTensorで細胞間コミュニケーションの検出
by
弘毅 露崎
PDF
カーネル法を利用した異常波形検知
by
弘毅 露崎
PDF
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
by
弘毅 露崎
PDF
Exploring the phenotypic consequences of tissue specific gene expression vari...
by
弘毅 露崎
PDF
Rによる統計解析と可視化
by
弘毅 露崎
PDF
変分法
by
弘毅 露崎
PDF
PCAの最終形態GPLVMの解説
by
弘毅 露崎
PDF
Identification of associations between genotypes and longitudinal phenotypes ...
by
弘毅 露崎
PDF
A novel method for discovering local spatial clusters of genomic regions with...
by
弘毅 露崎
PDF
scTGIFの鬼QC機能の追加
by
弘毅 露崎
PDF
Predicting drug-induced transcriptome responses of a wide range of human cell...
by
弘毅 露崎
PDF
ビール砲の放ち方
by
弘毅 露崎
PDF
20191204 mbsj2019
by
弘毅 露崎
PDF
R-4.0の解説
by
弘毅 露崎
データベースとデータ解析の融合
by
弘毅 露崎
PRML10章
by
弘毅 露崎
ISMB読み会 2nd graph kernel
by
弘毅 露崎
非負値テンソル分解を用いた細胞間コミュニケーション検出
by
弘毅 露崎
WACODE
by
弘毅 露崎
1細胞オミックスのための新GSEA手法
by
弘毅 露崎
LRBase × scTensorで細胞間コミュニケーションの検出
by
弘毅 露崎
カーネル法を利用した異常波形検知
by
弘毅 露崎
文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ
by
弘毅 露崎
Exploring the phenotypic consequences of tissue specific gene expression vari...
by
弘毅 露崎
Rによる統計解析と可視化
by
弘毅 露崎
変分法
by
弘毅 露崎
PCAの最終形態GPLVMの解説
by
弘毅 露崎
Identification of associations between genotypes and longitudinal phenotypes ...
by
弘毅 露崎
A novel method for discovering local spatial clusters of genomic regions with...
by
弘毅 露崎
scTGIFの鬼QC機能の追加
by
弘毅 露崎
Predicting drug-induced transcriptome responses of a wide range of human cell...
by
弘毅 露崎
ビール砲の放ち方
by
弘毅 露崎
20191204 mbsj2019
by
弘毅 露崎
R-4.0の解説
by
弘毅 露崎
Large-scale imputation of epigenetic datasets for systematic annotation of diverse human tissues
1.
Large-scale imputation of
epigenetic datasets for systematic annotation of diverse human tissues 2015/3/17 Epigenome Roadmap 輪読会 RIKEN ACCC BiT 露崎弘毅
2.
欠損値について そのまま扱う = サンプルサイズがばらばら 削除して完全データにする
= 著しく情報が損失 ? ? ? ? ? ? なんらかの理由で観測されない場合がある データ 特徴量 例: 遺伝子発現量、 蛍光強度 例: 実験、組織、細胞 ? ? ? ? ? ? ? ? ? ? ? ? 現実のデータはたびたび欠損値がある不完全データ ? ? ? ? ? ? AはBより有意と言って いいのか? A B 検定 p=0.01 p=0.03 列単位で削除 行単位で削除 DNAマイクロアレイ : ゴミで蛍光が観測されないプローブがある SNPアレイ : チップが対応していないSNPが存在(メタ解析で関係) NGS : リード数が少ない
3.
欠損値補完 = Imputation ? ? ?
? ? ? 2.4 1.3 0.5 1.4 1.4 3.5 欠損値を予測する Imputation そのための根拠(古典的な統計学) - 平均値代入、回帰代入、Hot-deck代入(似たデータから補完)、Cold-deck 代入(同じデータの違う状況下でのデータから補完)、Average the available items, Last observation carried forward, Stochastic回帰代入 - 欠損メカニズムをモデル化 - 最近の方法 : Full Information maximum likelehood(FIML)、多重代入法 …etc 欠損値に関するメモ(オミックス研究と関連して) どれも一長一短
4.
? ? ? ? ? ? 似たデータを参考にするという方針(尺度:
相関係数、LDブロックなど) 2.4 2.5 2.3 ? ? ? ? ? 2.1 ? 1.9 ? ? ? ? 2.1 2.3 列を似せる 行を似せる オミックス解析でのImputation 列利用の方が結果が良いという比較研究はあるが大分データ依存的だとは思う (Celton, M. et. al., 2010) 似たデータ内にも欠損値があったりするので、EMアルゴリズムで逐次的に推定する
5.
この論文でImputeしたもの sample(n=127) mark (n=4315) Figure 1a Roadmap Epigenomics Project
(n=111) ENCODE Project (n=16) 著者らが sample-mark matrix と言っているもの mark : 25bpの各サイトにマップされたリード のカバレッジ sample : 細胞、組織データ ヒストン修飾、DNAアクセシビリティ、 メチル化、RNA-seqなどを見た
6.
この論文でのImputationの方針 行も列も使おう! i) 同じサンプル内の異なるmarkからの情報 (あるmarkのカバレッジは周囲のmarkに似ているだろうという仮定) ii) 異なるサンプル間でのターゲットmarkからの情報 (あるmarkのカバレッジは他のサンプルでも似ているだろうという仮定) sample
c ? mark m sample c ? mark m mark m mark m sample c sample c
7.
提案手法 : ChromImpute法 sample
c ? mark m sample c mark m sample c mark m ? 周囲500bpくらい 推定するときの重み(カバレッジが厚いところほど優先) カバレッジ ポジション 周りのマッピング状況から、欠損値を回帰モデルで推測する
8.
補足 : アンサンブル回帰木 回帰木
: 区間毎に値を推定する(非線形な回帰をやりたかったから使った) scikit-learn 1.8 Decision Treesより アンサンブル回帰木 : 木を沢山書いて、平均をとる 要するにバギング、ブートストラップ集約(Random Forestではない?) Regression tree ensembles in the perspective of kernel-based methodsより 1個の回帰木 100個の回帰木の平均
9.
結果 sampleレベルで他と似ている markレベルで他と似ている Figure 1b,c 1.
他のデータに似せる事ができた ランダムに200kbとってきて も似てる Figure 2a Figure 2c 相関係数計算して も似てる
10.
結果 2. H3K4me3のTSS(PromRecov) Figure 3ac この縦軸の値はSupplementary Figで説明しているらしいのだが、 壊れてて見れない>< カバレッジが観測データと似てる
11.
結果 3. H3K36me3のGeneBody(GeneRecov) Figure 3bd よくわからない><
カバレッジが観測データと似てる
12.
4. NHGRI GWASカタログとの比較 結果 Imputationで有意な SNPが増えた 行と列の情報を両方使ったほうがより有意に
13.
結果 5. Quality control あえて似てないデータだけを 使ってImputationした Worst10を使った Imputationの結果の 良し悪しは実験のQC の参考になる 結果は悪くなった 同じサンプルでもデー タのクオリティによっ ては結果が悪くなる
14.
結果 6. クロマチン状態 著者らは過去にChromHMMという手法で クロマチン状態の予測を行った (Ernst, J.
& Kellis M., 2012) 欠損値があるところは予測精度が悪かった 欠損値がある箇所を削除すると データがかなり減ってしまった 今回、ChromImputeと組み合わせる事で、 精度が改善された (これが一番やりたかった事では?)
15.
まとめ ・Epigenomics RoadmapとENCODEデータの Imputationを行った ・sampleレベル、markレベルで類似度が高くなるよ うに欠損値を推定するChromImpute法を提案した ・他のデータに似せることができた ・評価が難しい話しだけど、色々なデータから察する に多分良い推定ができた
Download