• Save
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
Upcoming SlideShare
Loading in...5
×
 

[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門

on

  • 24,120 views

データマイニング+WEB勉強会 第1回(2010/02/13)での講義資料です。「はじめてでもわかる統計解析・データマイニングR言語入門」 hamadakoichi ...

データマイニング+WEB勉強会 第1回(2010/02/13)での講義資料です。「はじめてでもわかる統計解析・データマイニングR言語入門」 hamadakoichi 濱田晃一。途中、質問・議論をはさむ双方向形式で進行し、1時間30分の講義を行いました。
Blog: http://d.hatena.ne.jp/hamadakoichi/20100220/p1

Statistics

Views

Total Views
24,120
Views on SlideShare
16,320
Embed Views
7,800

Actions

Likes
28
Downloads
0
Comments
0

11 Embeds 7,800

http://d.hatena.ne.jp 7703
http://www.slideshare.net 79
http://webcache.googleusercontent.com 7
http://a0.twimg.com 3
http://marketing-jp.com 2
http://translate.baiducontent.com 1
http://us-w1.rockmelt.com 1
http://twitter.com 1
https://roxy4happy.appspot.com 1
http://static.slidesharecdn.com 1
http://static.slideshare.net 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門 [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門 Presentation Transcript

  • 統計解析・データマイニング R 言語入門 2010/02/13 濱田 晃一 データマイニング +WEB 勉強会 第1回 hamadakoichi はじめてでもわかる
  • 自己紹介 ・ ID: hamadakoichi (Hatena/Twitter/YouTube/Skype)  濱田晃一 ・専門:理論物理学(量子統計場の理論) . 博士( 2004.3 )   Ph.D.Thesis : http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf ・業務:業務プロセスに関する統計解析・実行制御など ・趣味: Hip Hop Dance/ House Dance を 13 年   Youtube: http://www.youtube.com/hamadakoichi ・ Blog: http:// d.hatena.ne.jp/hamadakoichi ・ Twitter: http:// twitter.com/hamadakoichi
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • オープンソースの 統計解析・データマイニング環境 R とは ・ Open Source ・ Free Software ・統計解析の言語・開発実行環境 ・ R oss Ihaka and R obert Gentleman (1996) ・ S 言語クローン . 高速 ・各種 Interface : SAS, SPSS, S-PLUS, RDBMS… ・ Object 型言語
  • R とは 各種統計解析・データマイニングが容易に行えます 例:時系列解析 ソースコード 実行結果
  • R とは R Console や Eclipse 上で実行できます R Console Eclipse R Graphic Window StatET Eclipse plug-in R-Script 実行
  • 各種環境設定の方法 R とは ・ R のインストール・環境設定   http://d.hatena.ne.jp/hamadakoichi/20100103/1262511121 ・ R を Eclipse で使う方法   http://d.hatena.ne.jp/hamadakoichi/20100110/1263127663 ・ Java R Interface (JRI) を用い 統計解析環境 R を Java から使用する   http://d.hatena.ne.jp/hamadakoichi/20100111/1263227076
  • 本資料内で挙げてある R ソースコードは 以下のエントリに記載しています 本資料内の R ソースコード hamadakoichi blog : http:// d.hatena.ne.jp/hamadakoichi R言語プログラミング: 基本統計量の算出 基本統計量 算出 R言語プログラミング: データ結合 R言語プログラミング: 基本演算子・初等関数 データ演算 R言語プログラミング: データ入出力 データ入出力 R言語プログラミング: データ型・操作 データ構造 内容 リンク
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • データ構造 R のデータ型 配列 array 整数 integer 実数 numerical 論理値 logical 文字 character 複素数 complex 行列(同一型要素) matrix 行列(任意型要素) data frame リスト list vector 型 ベクトル 概要
  • データ構造 Vector 1次元のデータセット
  • データ構造 Matrix 同一型要素の行列
  • データ構造 Matrix 同一型要素の行列
  • データ構造 Data Frame 任意型要素の行列
  • データ構造 Array 配列
  • データ構造 List リスト
  • データ構造 データ型の確認
  • データ構造 データ型の確認
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • データの入出力 Data Frame を出力(テキスト)。テキストは” ”で囲まれ、数値データはそのまま出力 write.table sink write.csv write 他 scan read.csv read.table fix edit 関数 出力 入力 種類 コンソールに返される内容を出力 エディタで編集。保存には代入が必要 エディタ入力 エディタで編集 小・中規模データの読込みに適している (テキスト) ファイル読込 小・中規模データの読込みに適している ( CSV ) 大規模データの読込みに適している foreign package で SAS, SPASS, Stata,S-PLUS ファイル形式もサポート 通常の出力 ファイル出力 Data Frame を出力( CSV ) 方法 説明
  • データの入出力 Data Frame を出力(テキスト)。テキストは” ”で囲まれ、数値データはそのまま出力 write.table sink write.csv write 他 scan read.csv read.table fix edit 関数 出力 入力 種類 コンソールに返される内容を出力 エディタで編集。保存には代入が必要 エディタ入力 エディタで編集 小・中規模データの読込みに適している (テキスト) ファイル読込 小・中規模データの読込みに適している ( CSV ) 大規模データの読込みに適している foreign package で SAS, SPASS, Stata,S-PLUS ファイル形式もサポート 通常の出力 ファイル出力 Data Frame を出力( CSV ) 方法 説明
  • 引数 price は変更されない 代入先の price2 が変更される edit 表計算風のエディタで編集できる。保存には代入が必要 エディタによる編集
  • fix 表計算風のエディタで編集できる エディタによる編集 引数 price が変更される
  • データの入出力 Data Frame を出力(テキスト)。テキストは” ”で囲まれ、数値データはそのまま出力 write.table sink write.csv write 他 scan read.csv read.table fix edit 関数 出力 入力 種類 コンソールに返される内容を出力 エディタで編集。保存には代入が必要 エディタ入力 エディタで編集 小・中規模データの読込みに適している (テキスト) ファイル読込 小・中規模データの読込みに適している ( CSV ) 大規模データの読込みに適している foreign package で SAS, SPASS, Stata,S-PLUS ファイル形式もサポート 通常の出力 ファイル出力 Data Frame を出力( CSV ) 方法 説明
  • read.table 小・中規模データの読込みに適している(テキストファイル) ファイル読込み
  • read.csv 小・中規模データの読込みに適している( CSV ファイル) ファイル読込み
  • scan 大規模データの読込みに適している ファイル読込み
  • データの入出力 Data Frame を出力(テキスト)。テキストは” ”で囲まれ、数値データはそのまま出力 write.table sink write.csv write 他 scan read.csv read.table fix edit 関数 出力 入力 種類 コンソールに返される内容を出力 エディタで編集。保存には代入が必要 エディタ入力 エディタで編集 小・中規模データの読込みに適している (テキスト) ファイル読込 小・中規模データの読込みに適している ( CSV ) 大規模データの読込みに適している foreign package で SAS, SPASS, Stata,S-PLUS ファイル形式もサポート 通常の出力 ファイル出力 Data Frame を出力( CSV ) 方法 説明
  • write 通常の出力 ファイル読込み
  • ファイル読込み sink コンソールに返される内容を出力
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • 算術演算子 データ演算 剰余 整数除算 べき算 除算 乗算 減算 加算 演算 %% %/% ^ / * - + 演算子 a%%b a%/%b a^b a/b a*b a-b a+b 記述例
  • 比較演算子 データ演算 論理値ベクトル 比較可能ベクトル 比較可能ベクトル a>=b >= 以上 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 第2引数 b a!=b a==b a<=b a<b a>b 例 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 比較可能ベクトル 第1引数 a 等しくない 等しい 以下 より小さい より大きい 演算 != == <= < > 演算子 論理値ベクトル 論理値ベクトル 論理値ベクトル 論理値ベクトル 論理値ベクトル 返り値
  • 比較演算子 データ演算
  • 論理演算子 データ演算 論理値ベクトル - 論理値ベクトル !x ! 否定 論理値ベクトル 論理値ベクトル 論理値ベクトル xor(x,y) xor 排他的論理輪 論理値ベクトル 論理値ベクトル 論理値ベクトル x & y & ベクトル化論理積 論理値ベクトル 論理値ベクトル 論理値ベクトル 第2引数 y x | y x || y x && y 例 論理値ベクトル 論理値ベクトル 論理値ベクトル 第1引数 x ベクトル化論理和 論理和 論理積 演算 | || && 演算子 論理値ベクトル 論理値 論理値 返り値
  • 論理演算子 データ演算
  • 初等関数 データ演算 round(a,3) round 四捨五入 cos(a), sin(a), tan(a) cos, sin, tan 三角関数 acos(a), asin(a), atan(a) acos, asin, atan 逆三角関数 abs(a) abs 絶対値 log(a) log 自然対数 log10(a) sqrt(a) exp(a) 例 常用対数 平方根 自然指数 演算 log10 sqrt exp 演算子
  • 初等関数 データ演算
  • 初等関数 データ演算
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • 基本統計量の算出関数 基本統計量 算出 quantile 分位数 summary 統計要約 sum 合計 mean 算術平均 max 最大値 min 最小値 range 範囲 (最大値 -最小値) median 中央値 var 分散 sd 標準偏差 基本統計量 関数
  • 基本統計量 算出の実行例 基本統計量 算出
  • Apply 関数を用い データセットの行や列ごとの統計量を算出できる Apply 関数 apply(X, MARGIN, FUN, ...) X: データ MARGIN: 行ごとの場合1、列ごとの場合2 FUN: 統計関数や算出式
  • iris( アヤメ ) データ よい性質を持ち よく使用される データ Iris Sanguinea 花葉 花びら 種
  • データの列ごとの統計量算出 Apply 関数
  • データの列ごとの統計量算出 Apply 関数
  • データの列ごとの統計量算出 Apply 関数
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • グラフ描画関数 統計データの視覚化 plot 散布図 matplot 折れ線グラフ pairs 対散布図 barplot 棒グラフ pie 円グラフ boxplot 箱ひげ図 hist ヒストグラム グラフ よく使われる関数
  • barplot(c(20,100,30,10,20,45,70,30)) pie(c(25,20,15,15,10,5)) 統計データの視覚化 hist(c(5,20,5,10,10,15,30,60,10,15)) ヒストグラム 棒グラフ 円グラフ boxplot(count~spray,data=InsectSprays) 箱ひげ図
  • plot(iris[,1],iris[,3]) 統計データの視覚化 散布図 matplot(c(1,40,15,8,16,32,64,30,10,0),type=&quot;l&quot;) 折れ線グラフ pairs(iris[1:4]) 対散布図
    • R とは
    • データ構造
    • データ入出力
    • データ演算
    • 基本統計量算出
    • 統計データの視覚化
    • 統計解析・データマイニングの種類
    AGENDA
  • 統計解析・データマイニングの種類 因子・分類・回帰・判別・時系列などの 各種統計解析・データマイニング手法 主成分分析 因子分析 対応分析 多次元尺度法 クラスター分析 自己組織化マップ 線形回帰分析 非線形回帰分析 線形判別 非線形判別 時系列分析 生存分析 樹木モデル ニューラルネットワーク 集団学習 アソシエーション分析 カーネル法 サポートベクターマシン
  • 統計解析・データマイニングの種類 因子・分類・回帰・判別・時系列などの 各種統計解析・データマイニング手法 主成分分析 因子分析 対応分析 多次元尺度法 クラスター分析 自己組織化マップ 線形回帰分析 非線形回帰分析 アソシエーション分析 カーネル法 サポートベクターマシン 線形判別 非線形判別 時系列分析 生存分析 樹木モデル ニューラルネットワーク 集団学習
  • 統計解析・データマイニングの種類 例: R による時系列分析 ソースコード 実行結果
  • 推薦文献
  • 推薦文献リンク R によるデータサイエンス ~データ解析の基礎から最新手法まで ~ R による統計解析 R グラフィックス ~ R で思いどおりのグラフを作図するために~
  • Fin.
  • 講義後の 参加者の声 (抜粋)
  • 講義後の参加者の声(抜粋) ・変数定義など初歩的な部分から理解でき分かりやすい講義でした。  今後、高度な分析に関する講義を聞きたいと思います。  (コンサルタント Y さん) ・丁寧な説明で分かりやすかったです。  データの取り方、実践的な内容を知りたくなりました。  ( 3 次元グラフィックス エンジニア M さん) ・基礎から聞け、内容が分かりやすかったです。   R が便利なことを理解できました。  今後、具体的な用途に関して知りたいです。  ( Web 会議システムエンジニア T さん) ・内容が分かりやすかった。  今度は、具体的な統計分析・データマイニング手法の内容に関し  知りたくなりました。  (制御システム・インフラ エンジニア S さん)