SlideShare a Scribd company logo
1 of 18
Download to read offline
Rで連続データを離散化
#51 Tokyo.R
2015/10/10
ニフティ株式会社
伊藤 徹郎 (@tetsuroito)
食欲の秋、ハロウィンですね
最近運動不足気味
自己紹介
ありがたいご恵贈の数々
近況
みなさんの素晴らしい
成果によって
日々助けられてます
ありがとうございます
データ分析よくあるパターン
1. WindowsのGUIアプリやWebサービスの管理画面
2. Windows上でのプログラミング
3. Linux上でのコマンド操作
4. Linux上でのプログラミング
5. DBとかKVSとかを自前で用意する
6. Hiveとか、最近だとMPP
7. Hadoop/Sparkなどの環境下でのプログラミング
上記2,3のギャップを埋める書籍です。
コマンドラインでの記述がメインですが、
Rも関連したコマンドラインの紹介もあります
ggplot2の話もいっぱい
もうこの会では何度も紹介されてきた名著
Rの基礎から可視化、データ加工、分析、
パッケージ作成までを網羅した1冊!
現在、第3版!
最新版はさらに内容がよくなっているそうです!
もう説明は不要ですよね?
Tokyo.Rテキストシリーズで採用しても良さそう!
よくあるデータ分析の手法
(多変量解析、機械学習)の解説書ではなく
適切な分析計画の立案、データ収集・蓄積、
データ加工やデータ変換などの前処理、
その後の分析手法の適用、活用までを
幅広く解説したall in oneの書籍
本日のLTはこちらから
「連続データの離散化」の箇所を紹介します
データの離散化のメリット
データ記述の簡略
データ及びその処理結果に対する理解向上
多くの数値属性を含むデータ処理の実行
データ離散化の手法の分類
・・・・・・・・・
・・・・・・・・・
・・・・・・・・・
トップダウンアプローチ ボトムアップアプローチ
・・・・・・・・・
全データを1区間からスタート
逐次的に分割
・・・・・・・・・
・・・・・・・・・
複数区間からスタート
必要に応じて区間を併合
連続データの離散化手法
教師データなし 教師データあり
トップダウン
等間隔区間による
離散化(EWD)
等頻度区間による
離散化(EFD)など
エントロピーを用いた
離散化
(CAIM,CACC,Aeva)
最小記述長原理による
離散化(MDLP)など
ボトムアップ k-meansなど カイマージ、カイ2など
k-meansは割愛します
連続データ離散化を実現するRパッケージ
discretization パッケージ
infotheo パッケージ
>install.packages("infotheo",quiet=TRUE)
>install.packages("discretization",quiet=TRUE)
等間隔区間による離散化
irisデータで試してみる
分割数はnbins引数で指定可能
等頻度区間による離散化
irisデータで試してみる
分割数はnbins引数で指定可能
引数を変更
カイマージによる離散化
カイマージとは‥
χ二乗検定を用いて分割点を決定するもの
具体的には‥
属性を離散化して隣接する区間で各クラスの確率に
有意な違いはないと判断されたら2区間を併合する
discretization パッケージ
chiM関数で実行可能
カイマージによる離散化
irisデータで試してみる
情報エントロピーを用いた離散化
おそらく、5分で説明するには時間が足らない
と思うので、知りたい方は書籍を読んでください
最小記述長原理を用いた離散化
http://d.hatena.ne.jp/sfchaos/20131208/p1
もしくは著者のブログをチェック!
Enjoy!

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

What's hot (20)

関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
Rによるやさしい統計学第20章「検定力分析によるサンプルサイズの決定」
 
Rパッケージ recipes の紹介 「うまい飯を作る」
Rパッケージ recipes の紹介 「うまい飯を作る」Rパッケージ recipes の紹介 「うまい飯を作る」
Rパッケージ recipes の紹介 「うまい飯を作る」
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤
 
for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力for関数を使った繰り返し処理によるヒストグラムの一括出力
for関数を使った繰り返し処理によるヒストグラムの一括出力
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
Deep Learningによる株価変動の予想
Deep Learningによる株価変動の予想Deep Learningによる株価変動の予想
Deep Learningによる株価変動の予想
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~ Rで計量時系列分析~CRANパッケージ総ざらい~
Rで計量時系列分析~CRANパッケージ総ざらい~
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 

Similar to TokyoR LT Rで連続データを離散化

2011年10月21日
2011年10月21日2011年10月21日
2011年10月21日
nukaemon
 
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミングDLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
terurou
 

Similar to TokyoR LT Rで連続データを離散化 (20)

20150217 イタンジプログラミング講座テキスト第3回
20150217 イタンジプログラミング講座テキスト第3回20150217 イタンジプログラミング講座テキスト第3回
20150217 イタンジプログラミング講座テキスト第3回
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
Rubyの仕事で食べていくために僕らは!
Rubyの仕事で食べていくために僕らは!Rubyの仕事で食べていくために僕らは!
Rubyの仕事で食べていくために僕らは!
 
PHPerのためのpostgresqlチューニングmini
PHPerのためのpostgresqlチューニングminiPHPerのためのpostgresqlチューニングmini
PHPerのためのpostgresqlチューニングmini
 
YAPC::Hokkaido 2016 「普段使い言語環境」更新によるスキルリセットサバイバルガイド
YAPC::Hokkaido 2016 「普段使い言語環境」更新によるスキルリセットサバイバルガイドYAPC::Hokkaido 2016 「普段使い言語環境」更新によるスキルリセットサバイバルガイド
YAPC::Hokkaido 2016 「普段使い言語環境」更新によるスキルリセットサバイバルガイド
 
20170527 inside .NET Core on Linux
20170527 inside .NET Core on Linux20170527 inside .NET Core on Linux
20170527 inside .NET Core on Linux
 
"Continuous Publication" with Python: Another Approach
"Continuous Publication" with Python: Another Approach"Continuous Publication" with Python: Another Approach
"Continuous Publication" with Python: Another Approach
 
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
 
2011年10月21日
2011年10月21日2011年10月21日
2011年10月21日
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話Rubyの会社でPythonistaが3ヶ月生き延びた話
Rubyの会社でPythonistaが3ヶ月生き延びた話
 
Rubyの会社でPythonistaが三ヶ月生き延びた話
Rubyの会社でPythonistaが三ヶ月生き延びた話Rubyの会社でPythonistaが三ヶ月生き延びた話
Rubyの会社でPythonistaが三ヶ月生き延びた話
 
今から始めるDocument db
今から始めるDocument db今から始めるDocument db
今から始めるDocument db
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
nomlab_okayamaruby_slide
nomlab_okayamaruby_slidenomlab_okayamaruby_slide
nomlab_okayamaruby_slide
 
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミングDLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
 
Nishimotz pycon2011jan
Nishimotz pycon2011janNishimotz pycon2011jan
Nishimotz pycon2011jan
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
私とOSSの25年
私とOSSの25年私とOSSの25年
私とOSSの25年
 

More from tetsuro ito

20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt
tetsuro ito
 
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」
tetsuro ito
 
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
tetsuro ito
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svm
tetsuro ito
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
tetsuro ito
 
第31回TokyoR LT資料
第31回TokyoR LT資料第31回TokyoR LT資料
第31回TokyoR LT資料
tetsuro ito
 
集合知プログラミング5章発表
集合知プログラミング5章発表集合知プログラミング5章発表
集合知プログラミング5章発表
tetsuro ito
 
集合知プログラミング11章
集合知プログラミング11章集合知プログラミング11章
集合知プログラミング11章
tetsuro ito
 

More from tetsuro ito (20)

[Up用]rでqr
[Up用]rでqr[Up用]rでqr
[Up用]rでqr
 
20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5 20170912 data analyst meetup tokyo vol.5
20170912 data analyst meetup tokyo vol.5
 
DataOps in Moneyforward
DataOps in Moneyforward DataOps in Moneyforward
DataOps in Moneyforward
 
20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料20170207 bigdata analytics_tokyo講演資料
20170207 bigdata analytics_tokyo講演資料
 
20161029 dots machine learning in money forward
20161029 dots machine learning in money forward20161029 dots machine learning in money forward
20161029 dots machine learning in money forward
 
20160906 bq sushi
20160906 bq sushi20160906 bq sushi
20160906 bq sushi
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
 
20150303続パタ5章後半
20150303続パタ5章後半20150303続パタ5章後半
20150303続パタ5章後半
 
PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)PRML読書会1スライド(公開用)
PRML読書会1スライド(公開用)
 
20140614 tokyo r lt
20140614 tokyo r lt 20140614 tokyo r lt
20140614 tokyo r lt
 
20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」20140329 tokyo r lt 「カーネルとsvm」
20140329 tokyo r lt 「カーネルとsvm」
 
20140204はじパタlt
20140204はじパタlt20140204はじパタlt
20140204はじパタlt
 
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
Japan.r 2013 「実ビジネスデータへのrの活用とその限界」
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svm
 
Tokyo R LT 20131109
Tokyo R LT 20131109Tokyo R LT 20131109
Tokyo R LT 20131109
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
 
第31回TokyoR LT資料
第31回TokyoR LT資料第31回TokyoR LT資料
第31回TokyoR LT資料
 
集合知プログラミング5章発表
集合知プログラミング5章発表集合知プログラミング5章発表
集合知プログラミング5章発表
 
集合知プログラミング11章
集合知プログラミング11章集合知プログラミング11章
集合知プログラミング11章
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
 

TokyoR LT Rで連続データを離散化