Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
DI
Uploaded by
Daisuke Ichikawa
7,397 views
Maeshori missing
Read more
19
Save
Share
Embed
Embed presentation
Download
Downloaded 98 times
1
/ 38
2
/ 38
3
/ 38
4
/ 38
5
/ 38
6
/ 38
7
/ 38
8
/ 38
9
/ 38
10
/ 38
11
/ 38
12
/ 38
13
/ 38
14
/ 38
15
/ 38
16
/ 38
17
/ 38
18
/ 38
19
/ 38
20
/ 38
21
/ 38
22
/ 38
23
/ 38
24
/ 38
25
/ 38
26
/ 38
27
/ 38
28
/ 38
29
/ 38
30
/ 38
31
/ 38
32
/ 38
33
/ 38
34
/ 38
35
/ 38
36
/ 38
37
/ 38
38
/ 38
More Related Content
PDF
多変量解析を用いたメタボロームデータ解析
by
h_yama2396
PPTX
Partial least squares回帰と画像認識への応用
by
Shohei Kumagai
PPTX
ベイズファクターとモデル選択
by
kazutantan
PDF
Rでコンジョイント分析
by
osamu morimoto
PDF
楽天における機械学習アルゴリズムの活用
by
Rakuten Group, Inc.
PPTX
変数同士の関連_MIC
by
Shushi Namba
PDF
DNAマイクロアレイの解析と多重検定補正
by
弘毅 露崎
PPTX
How to use in R model-agnostic data explanation with DALEX & iml
by
Satoshi Kato
多変量解析を用いたメタボロームデータ解析
by
h_yama2396
Partial least squares回帰と画像認識への応用
by
Shohei Kumagai
ベイズファクターとモデル選択
by
kazutantan
Rでコンジョイント分析
by
osamu morimoto
楽天における機械学習アルゴリズムの活用
by
Rakuten Group, Inc.
変数同士の関連_MIC
by
Shushi Namba
DNAマイクロアレイの解析と多重検定補正
by
弘毅 露崎
How to use in R model-agnostic data explanation with DALEX & iml
by
Satoshi Kato
What's hot
PPTX
項目反応理論による尺度運用
by
Yoshitake Takebayashi
PPTX
統計的検定と例数設計の基礎
by
Senshu University
PPTX
Single-cell pseudo-temporal ordering 近年の技術動向
by
Ryohei Suzuki
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
PDF
DARM勉強会第3回 (missing data analysis)
by
Masaru Tokuoka
PDF
ロジスティック回帰分析の書き方
by
Sayuri Shimizu
PPTX
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
by
KCS Keio Computer Society
PPTX
15分でわかる(範囲の)ベイズ統計学
by
Ken'ichi Matsui
PDF
強化学習その1
by
nishio
PDF
機械学習システムのアーキテクチャアラカルト
by
BrainPad Inc.
PDF
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
by
Kenyu Uehara
PDF
非ガウス性を利用した因果構造探索
by
Shiga University, RIKEN
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
PDF
マーク付き点過程
by
Yoshiaki Sakakura
PPTX
マルコフ連鎖モンテカルロ法と多重代入法
by
Koichiro Gibo
PPTX
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
by
Hiroshi Shimizu
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
PPTX
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
by
ssuserca2822
PDF
21世紀の手法対決 (MIC vs HSIC)
by
Toru Imai
PPTX
マルチレベルモデル講習会 理論編
by
Hiroshi Shimizu
項目反応理論による尺度運用
by
Yoshitake Takebayashi
統計的検定と例数設計の基礎
by
Senshu University
Single-cell pseudo-temporal ordering 近年の技術動向
by
Ryohei Suzuki
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
DARM勉強会第3回 (missing data analysis)
by
Masaru Tokuoka
ロジスティック回帰分析の書き方
by
Sayuri Shimizu
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
by
KCS Keio Computer Society
15分でわかる(範囲の)ベイズ統計学
by
Ken'ichi Matsui
強化学習その1
by
nishio
機械学習システムのアーキテクチャアラカルト
by
BrainPad Inc.
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
by
Kenyu Uehara
非ガウス性を利用した因果構造探索
by
Shiga University, RIKEN
不均衡データのクラス分類
by
Shintaro Fukushima
マーク付き点過程
by
Yoshiaki Sakakura
マルコフ連鎖モンテカルロ法と多重代入法
by
Koichiro Gibo
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
by
Hiroshi Shimizu
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
by
ssuserca2822
21世紀の手法対決 (MIC vs HSIC)
by
Toru Imai
マルチレベルモデル講習会 理論編
by
Hiroshi Shimizu
Viewers also liked
PDF
生物成長曲線予測の事例
by
yoshi_flt
PDF
rChartsによるインタラクティブな可視化表現
by
Yasuyuki Sugai
PDF
10分で分かるr言語入門ver2.7
by
Nobuaki Oshiro
PDF
Rで学ぶ離散選択モデル
by
宏喜 佐野
PDF
Rで部屋探し For slide share
by
Shota Yasui
PDF
20140329 tokyo r lt 「カーネルとsvm」
by
tetsuro ito
PPTX
Feature Selection with R / in JP
by
Sercan Ahi
PDF
Rで学ぶデータマイニングI 第8章〜第13章
by
Prunus 1350
PPTX
Tokyo r #37 Rubin's Rule
by
Hiroki Matsui
PDF
多重代入法の書き方 公開用
by
Koichiro Gibo
PDF
はじめてのShiny
by
Kazuya Wada
PPTX
Data preprocessing
by
Likit Preeyanon
PDF
sampling
by
Daisuke Ichikawa
PDF
AshiAto ---Web閲覧履歴可視化ツール
by
Jun Obana
PDF
B2B Lead Generation & Lead Nurturing
by
Jun Obana
PDF
日本仮想化技術 提供サービスのご紹介
by
VirtualTech Japan Inc.
KEY
B2Bベンチャー勉強会
by
Joji Hori
PPTX
日本仮想化技術 OpenStackサービスメニューのご紹介
by
VirtualTech Japan Inc.
PPTX
Tokyo r.28.lt.ss
by
Hiroki Matsui
PDF
哲学者のための確率入門
by
mznkn
生物成長曲線予測の事例
by
yoshi_flt
rChartsによるインタラクティブな可視化表現
by
Yasuyuki Sugai
10分で分かるr言語入門ver2.7
by
Nobuaki Oshiro
Rで学ぶ離散選択モデル
by
宏喜 佐野
Rで部屋探し For slide share
by
Shota Yasui
20140329 tokyo r lt 「カーネルとsvm」
by
tetsuro ito
Feature Selection with R / in JP
by
Sercan Ahi
Rで学ぶデータマイニングI 第8章〜第13章
by
Prunus 1350
Tokyo r #37 Rubin's Rule
by
Hiroki Matsui
多重代入法の書き方 公開用
by
Koichiro Gibo
はじめてのShiny
by
Kazuya Wada
Data preprocessing
by
Likit Preeyanon
sampling
by
Daisuke Ichikawa
AshiAto ---Web閲覧履歴可視化ツール
by
Jun Obana
B2B Lead Generation & Lead Nurturing
by
Jun Obana
日本仮想化技術 提供サービスのご紹介
by
VirtualTech Japan Inc.
B2Bベンチャー勉強会
by
Joji Hori
日本仮想化技術 OpenStackサービスメニューのご紹介
by
VirtualTech Japan Inc.
Tokyo r.28.lt.ss
by
Hiroki Matsui
哲学者のための確率入門
by
mznkn
Similar to Maeshori missing
PDF
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
by
Hajime Sasaki
PDF
20141224_水曜セミナー
by
Tomoshige Nakamura
PDF
【論文レベルで理解しよう!】 欠測値処理編
by
ARISE analytics
PDF
データ入力が終わってから分析前にすること
by
Masaru Tokuoka
PDF
第4回DARM勉強会 (構造方程式モデリング)
by
Yoshitake Takebayashi
PDF
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
by
KazuhiroSato8
PDF
Casual datascience vol2
by
KazuhiroSato8
PDF
FIT2012招待講演「異常検知技術のビジネス応用最前線」
by
Shohei Hido
PDF
異常行動検出入門 – 行動データ時系列のデータマイニング –
by
Yohei Sato
PDF
dplyr と purrrを用いたデータハンドリング
by
Somatori Keita
PDF
外れ値
by
Shintaro Fukushima
PDF
R Study Tokyo03
by
Yohei Sato
PDF
Oshasta em
by
Naotaka Yamada
PDF
第2回DARM勉強会
by
Masaru Tokuoka
PDF
構造方程式モデルによる因果探索と非ガウス性
by
Shiga University, RIKEN
PDF
外国語教育研究におけるRを用いた統計処理入門
by
Yusaku Kawaguchi
PDF
Rで学ぶロバスト推定
by
Shintaro Fukushima
PDF
Tokyor24 doradora09
by
Nobuaki Oshiro
PDF
星野「調査観察データの統計科学」第1&2章
by
Shuyo Nakatani
PDF
Tokyo r15 異常検知入門
by
Yohei Sato
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
by
Hajime Sasaki
20141224_水曜セミナー
by
Tomoshige Nakamura
【論文レベルで理解しよう!】 欠測値処理編
by
ARISE analytics
データ入力が終わってから分析前にすること
by
Masaru Tokuoka
第4回DARM勉強会 (構造方程式モデリング)
by
Yoshitake Takebayashi
エクテック カジュアル勉強会 データサイエンスを学ぶ第2回
by
KazuhiroSato8
Casual datascience vol2
by
KazuhiroSato8
FIT2012招待講演「異常検知技術のビジネス応用最前線」
by
Shohei Hido
異常行動検出入門 – 行動データ時系列のデータマイニング –
by
Yohei Sato
dplyr と purrrを用いたデータハンドリング
by
Somatori Keita
外れ値
by
Shintaro Fukushima
R Study Tokyo03
by
Yohei Sato
Oshasta em
by
Naotaka Yamada
第2回DARM勉強会
by
Masaru Tokuoka
構造方程式モデルによる因果探索と非ガウス性
by
Shiga University, RIKEN
外国語教育研究におけるRを用いた統計処理入門
by
Yusaku Kawaguchi
Rで学ぶロバスト推定
by
Shintaro Fukushima
Tokyor24 doradora09
by
Nobuaki Oshiro
星野「調査観察データの統計科学」第1&2章
by
Shuyo Nakatani
Tokyo r15 異常検知入門
by
Yohei Sato
More from Daisuke Ichikawa
PDF
R25LT
by
Daisuke Ichikawa
PDF
母集団と標本
by
Daisuke Ichikawa
PDF
Tokyor23
by
Daisuke Ichikawa
PDF
Tokyor20
by
Daisuke Ichikawa
PDF
Tokyor18
by
Daisuke Ichikawa
PDF
Tokyor17
by
Daisuke Ichikawa
PDF
Tokyor16
by
Daisuke Ichikawa
PDF
Saku110716
by
Daisuke Ichikawa
PDF
Tokyor15mod
by
Daisuke Ichikawa
PDF
世界のR(仮)
by
Daisuke Ichikawa
PDF
Tokyo r11caret
by
Daisuke Ichikawa
KEY
ggplot2できれいなグラフ
by
Daisuke Ichikawa
R25LT
by
Daisuke Ichikawa
母集団と標本
by
Daisuke Ichikawa
Tokyor23
by
Daisuke Ichikawa
Tokyor20
by
Daisuke Ichikawa
Tokyor18
by
Daisuke Ichikawa
Tokyor17
by
Daisuke Ichikawa
Tokyor16
by
Daisuke Ichikawa
Saku110716
by
Daisuke Ichikawa
Tokyor15mod
by
Daisuke Ichikawa
世界のR(仮)
by
Daisuke Ichikawa
Tokyo r11caret
by
Daisuke Ichikawa
ggplot2できれいなグラフ
by
Daisuke Ichikawa
Maeshori missing
1.
∼シリーズ前処理2013∼
欠測への対応 @dichika
2.
自己紹介 • @dichika • 現代史に興味があります
– ジャニーズ – プロレス – 参考書籍があれば教えて下さい
3.
前処理とは • 手元にある観測データを、意図する分析手法
が適用できる形にまでもっていく方法、と広く 定義します。 • たとえば
4.
たとえば •
欠測値への対応 • 連続データの離散化 • 外れ値処理 • 単位の変換(標準化) • サンプリング • 不均衡データ • 属性抽出 • データ形式の変換(時系列、グラフ等)
5.
俺たちの日常 やりたかった分析
前処理
6.
シリーズ前処理について • 一説では、データ分析の8-9割の時間を占め
るといわれながら、その方法についてはあまり 語られることのない前処理について迫っていく シリーズです。 • 私の発表をたたき台にして、「ぼくのかんがえ たさいきょうのまえしょり」をみんな共有してく れると嬉しいです。 • 一人で続けるのはしんどいので、誰か続いてく れると嬉しいです。
7.
これまでの前処理@Tokyo.R • Rで学ぶロバスト推定(第13回)
– 外れ値 • xtsパッケージで時系列解析(第15回) – データ形式の変換 • Rを用いた地理的情報解析(第16回) – データ形式の変換 • 不均衡データのクラス分類(第20回) – 不均衡データ • 二部グラフを使ったソーシャルネットワーク(第21回) – データ形式の変換 • 抽出・推定・誤差評価(第27回) – サンプリング
8.
ということで
9.
本日は 欠測への対応
10.
最初に • 欠測とは、データの欠落を想定しています • R
in Actionの第15章超おすすめなので欠測 の扱いについて手っ取り早く知りたければここ を読むのがオススメ 身長 体重 145 42 168 65 192 89 158 NA
11.
欠測への対応はこれだ! 欠測の可視化
どのように欠測しているか可視化 欠測について ランダムな欠測かどうか判断する 考える 欠測処理を 欠測に合わせた手法を選ぶ 選ぶ
12.
まずは可視化から 欠測の可視化
どのように欠測しているか可視化 欠測について ランダムな欠測かどうか判断する 考える 欠測処理を 欠測に合わせた手法を選ぶ 選ぶ
13.
欠測の可視化 • sleepデータを例に取る –
VIMパッケージに含まれている – 哺乳類の睡眠に関するデータ – 体重、脳の重さ、睡眠時間、レム睡眠の時間等1 0種類の変数 – 今回はレム睡眠(Dream)に着目
14.
VIM(vimではない)で可視化 • VIMパッケージが便利 –
matrixplot • 各列に対して標準化を行った上で図示 • 標準化により、文字列は欠測扱いになるので注意 – marginplot • 2変数を散布図+箱ひげ図で図示 • 箱ひげ図は、もう一方の変数が欠測している/いない 場合での比較になっている
15.
Index
0 10 20 30 40 50 60 BodyWgt BrainWgt NonD Dream Sleep Span Gest matrixplot Pred Exp Danger
16.
Index
0 10 20 30 40 50 60 BodyWgt BrainWgt に欠測しやすい NonDとDreamは共 NonD Dream Sleep Span Gest Pred Exp Danger 並び替えて欠測パターンを確認
17.
marginplot
100 80 60 Dreamが Span 40 欠測した場合 の箱ひげ図が 赤 20 0 Spanの 4 欠測数 1 12 0 1 2 3 4 5 6 共通した 欠測数 Dream Dreamの 欠測数
18.
ちょっと考える 欠測の可視化
どのように欠測しているか可視化 欠測について ランダムな欠測かどうか判断する 考える 欠測処理を 欠測に合わせた手法を選ぶ 選ぶ
19.
欠測はランダムか • MCAR(Missing Completely At
Random) – 欠測が完全にランダム • MAR (Missing At Random) – 欠測をデータ内で統制すればランダム • これを仮定することが多い • NMAR (Not Missing At Random) – 欠測がランダムではない • 欠測メカニズムをモデル化して組み込む必要あり • 難しいので今回は扱わない
20.
よろしい、ならばMARだ • 原則、MARとして対応するのが無難 –
後述する多重代入法もしくは最尤法で対応 • 事前知識及び可視化の結果からNMARの疑 いがある場合のみ対応を考える – 欠測をモデリング • Heckmanモデル等 – 感度分析 • モデルや特定のパラメータを変えてどの推定結果が変 わるか – かなりめんどくさい
21.
考えたところで手法を選ぶ 欠測の可視化
どのように欠測しているか可視化 欠測について ランダムな欠測かどうか判断する 考える 欠測処理を 欠測に合わせた手法を選ぶ 選ぶ
22.
欠測処理を選ぶ
推定したパラメータにバイアス 欠測処理 内容 が生じるどうか MCAR MAR NMAR 欠測データを行単位で リストワイズ 削除 ○ 削除 分析に用いた変数の範 ペアワイズ 囲で欠測データを行単 ○ 位で削除 欠測を考慮した形で最 最尤法 尤法を適用する(EMア ○ ○ △ ルゴリズム等適用) 平均値や、他の変数に 単一代入法 よる予測値を代入 ○ 代入 多重代入法 この後説明 ○ ○
23.
削除はバイアスが生じる
推定したパラメータにバイアス 欠測処理 内容 が生じるどうか MCAR MAR NMAR 欠測データを行単位で リストワイズ 削除 ○ 削除 分析に用いた変数の範 ペアワイズ 囲で欠測データを行単 ○ 位で削除 欠測を考慮した形で最 最尤法 尤法を適用する(EMア ○ ○ △ ルゴリズム等適用) 平均値や、他の変数に 単一代入法 よる予測値を代入 ○ 代入 多重代入法 この後説明 ○ ○
24.
ぶっちゃけ最尤法か多重代入法 • MARを前提に考えると削除は無い
10%は • 欠測の割合に着目 目安 – 10%未満→リストワイズでも良いという話も – 10%以上→最尤法か多重代入法 • 最尤法と多重代入法どっちを選ぶかは好み – 欠測の教科書など読む時には、この人は最尤法 推しなんだなとか考えて読む必要がある
25.
せっかくだから俺はmiceをえらぶぜ • 多重代入法の方が直観的にわかりやすかった –
個人の感想です – 最尤法もmvnmleパッケージを使えばできるが理解 が間に合わなかった – あと、なんとなくRubinリスペクト • 多重代入法にはいくつかアルゴリズムがある – 今回はMICEアルゴリズム • miceパッケージとして実装されている
26.
ここでRubin伝説 • ハーバードの統計学の教授 • Educational
Testing Service(ETS)に勤めて いた数年であげた業績 – Rubinの因果推論モデル – 傾向スコア – 多重代入法 – EMアルゴリズム
27.
多重代入法(MICEアルゴリズム)
分析 代入 統合
28.
多重代入法(MICEアルゴリズム) 1. 代入
– なんらかの方法で欠測値を予測し、その結果を代 入したデータを複数作る • 初期設定はPredictive mean matching 2. 分析 – 作ったデータそれぞれに対して目的とする分析手 法の適用 • 例えば回帰分析 3. 統合 – 分析で求めたパラメータを統合する
29.
Predictive mean matching •
他の変数を使って、欠測値を予測する • 予測値に近い値を欠測していない値からもっ てくる • もってきた値からランダムに1つ取り出して欠 測値を補完する • これを全ての欠測値に対して適用する
30.
実際の使用例 library(mice) data(sleep, package =
"VIM") imp <- mice(sleep) # 代入 fit <- with(imp, lm(Dream ~ Span + Gest)) # 分析 pooled <- pool(fit) # 統合 summary(pooled) # 結果の確認
31.
実際の使用例
with mice pool
32.
補足事項 • 作成するデータセットの数を指定できる –
mice(data, m = 5) • miceを適用した結果から単一のデータセットを 抽出できる 作成した データセットの – complete(imp, action = 3) 範囲内の数を指定 • with関数で使用できる分析手法 – 線形回帰がメイン – lm、glm、gam、nbrm
33.
まとめ • 欠測はMARのつもりで最尤法か多重代入法 • 理論(特にバイアス)はすっとばしたので参考
資料をご覧ください • Rubinすごい
34.
参考資料(書籍) 文献名
著者 出版社等 コメント R in Action Robert Manning, 15章が実にわかりやすい。忙しい人はこ Kabacoff 2011 れだけ読んでおけば良い。 Flexible Stef van CRC Press, multiple imputationについて網羅されて Imputation of Buuren 2012 る。 Missing Data 不完全データの 岩崎 学 エコノミスト 新しくはないが日本語で網羅されている。 統計解析 社, 2002 おすすめ。 欠測データ解析 逸見 昌之 統計数理 統計数理研究所の公開講座。NMARに踏 法(講義資料) 星野 崇宏 研究所, み込んだ解説あり。資料は非公開。 2012
35.
参考資料(web その1) 文献名
著者 出版社等 コメント 欠測値データ解析 狩野裕 https://sites.google.com/ 日本語かつケーススタディあ の意味と有効性 site/ksp397kano/ り。おすすめ。 Handling Missing Paul D. http:// MIと最尤法の比較あり。この Data by Maximum Allison www.statisticalhorizons.com 人は最尤法推し。この人も欠 Likelihood /wp-content/uploads/ 測データに関して教科書を書 MissingDataByML.pdf いている。 Missing Data and http://www.upa.pdx.edu/ SEMに関しての文献だが簡潔 Missing Data IOA/newsom/semclass/ にまとまってるので復習する Estimation ho_missing.pdf 時にチートシートっぽく使える。 何があっても割り付 佐藤俊哉 http://www.kbs.med.kyoto- 医学系の例。 けどおりに解析する 松岡淨 u.ac.jp/01Sep15.pdf
36.
参考資料(web その2) 文献名
著者 出版社等 コメント Missing data 村山航 http://www4.ocn.ne.jp/ 日本語。最尤法と多重代 analysis ~murakou/ 入法の丁寧な説明あり。 missing_data.pdf おすすめ。 CRAN Task View http://cran.r- Rでパッケージを探すとき (Multivariate→ project.org/web/views/ はまずここから。 Missing data) Multivariate.html
37.
今後のシリーズ前処理 • 最終的には、チェックリストを作りたい • 欲しいデータ形式に向けてサンプルデータをひ
たすら綺麗にしていくデータ前処理ハッカソン をしてもよいかもしれない
38.
enjoy!!!
Download