Advertisement
Advertisement

More Related Content

Similar to TokyoR LT Rで連続データを離散化(20)

Advertisement
Advertisement

TokyoR LT Rで連続データを離散化

  1. Rで連続データを離散化 #51 Tokyo.R 2015/10/10 ニフティ株式会社
  2. 伊藤 徹郎 (@tetsuroito) 食欲の秋、ハロウィンですね 最近運動不足気味 自己紹介
  3. ありがたいご恵贈の数々 近況
  4. みなさんの素晴らしい 成果によって 日々助けられてます
  5. ありがとうございます
  6. データ分析よくあるパターン 1. WindowsのGUIアプリやWebサービスの管理画面 2. Windows上でのプログラミング 3. Linux上でのコマンド操作 4. Linux上でのプログラミング 5. DBとかKVSとかを自前で用意する 6. Hiveとか、最近だとMPP 7. Hadoop/Sparkなどの環境下でのプログラミング 上記2,3のギャップを埋める書籍です。 コマンドラインでの記述がメインですが、 Rも関連したコマンドラインの紹介もあります ggplot2の話もいっぱい
  7. もうこの会では何度も紹介されてきた名著 Rの基礎から可視化、データ加工、分析、 パッケージ作成までを網羅した1冊! 現在、第3版! 最新版はさらに内容がよくなっているそうです! もう説明は不要ですよね? Tokyo.Rテキストシリーズで採用しても良さそう!
  8. よくあるデータ分析の手法 (多変量解析、機械学習)の解説書ではなく 適切な分析計画の立案、データ収集・蓄積、 データ加工やデータ変換などの前処理、 その後の分析手法の適用、活用までを 幅広く解説したall in oneの書籍 本日のLTはこちらから 「連続データの離散化」の箇所を紹介します
  9. データの離散化のメリット データ記述の簡略 データ及びその処理結果に対する理解向上 多くの数値属性を含むデータ処理の実行
  10. データ離散化の手法の分類 ・・・・・・・・・ ・・・・・・・・・ ・・・・・・・・・ トップダウンアプローチ ボトムアップアプローチ ・・・・・・・・・ 全データを1区間からスタート 逐次的に分割 ・・・・・・・・・ ・・・・・・・・・ 複数区間からスタート 必要に応じて区間を併合
  11. 連続データの離散化手法 教師データなし 教師データあり トップダウン 等間隔区間による 離散化(EWD) 等頻度区間による 離散化(EFD)など エントロピーを用いた 離散化 (CAIM,CACC,Aeva) 最小記述長原理による 離散化(MDLP)など ボトムアップ k-meansなど カイマージ、カイ2など k-meansは割愛します
  12. 連続データ離散化を実現するRパッケージ discretization パッケージ infotheo パッケージ >install.packages("infotheo",quiet=TRUE) >install.packages("discretization",quiet=TRUE)
  13. 等間隔区間による離散化 irisデータで試してみる 分割数はnbins引数で指定可能
  14. 等頻度区間による離散化 irisデータで試してみる 分割数はnbins引数で指定可能 引数を変更
  15. カイマージによる離散化 カイマージとは‥ χ二乗検定を用いて分割点を決定するもの 具体的には‥ 属性を離散化して隣接する区間で各クラスの確率に 有意な違いはないと判断されたら2区間を併合する discretization パッケージ chiM関数で実行可能
  16. カイマージによる離散化 irisデータで試してみる
  17. 情報エントロピーを用いた離散化 おそらく、5分で説明するには時間が足らない と思うので、知りたい方は書籍を読んでください 最小記述長原理を用いた離散化 http://d.hatena.ne.jp/sfchaos/20131208/p1 もしくは著者のブログをチェック!
  18. Enjoy!
Advertisement