More Related Content
PDF
10分で分かるr言語入門ver2.10 14 1101 PDF
PDF
PDF
constexpr関数はコンパイル時処理。これはいい。実行時が霞んで見える。cpuの嬌声が聞こえてきそうだ PDF
PPTX
PDF
Randomforestで高次元の変数重要度を見る #japanr LT PDF
最近のRのランダムフォレストパッケージ -ranger/Rborist- What's hot
PDF
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん PPTX
PDF
PDF
PPTX
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition PDF
PDF
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11 PDF
RのffとbigmemoryとRevoScaleRとを比較してみた PDF
PDF
2 5 2.一般化線形モデル色々_ロジスティック回帰 PDF
PDF
PDF
KEY
PDF
PDF
PDF
PPTX
[DL輪読会]Learning quadrupedal locomotion over challenging terrain PDF
PDF
Viewers also liked
PDF
PPTX
PDF
PDF
PDF
PPTX
PPTX
8つの魔法の習得 -RとRubyによるデータ解析入門より- PDF
PDF
PPT
Similar to 第1回Rを使って統計分析を勉強する会
PDF
PDF
PDF
外国語教育メディア学会第54回全国研究大会ワークショップ「Rによる外国語教育データの分析と可視化の基本」 PDF
10分で分かるr言語入門ver2.9 14 0920 PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
統計解析環境Rによる統計処理の基本―検定と視覚化― PPTX
PDF
PDF
PDF
PDF
第1回Rを使って統計分析を勉強する会
- 1.
- 2.
- 3.
- 4.
- 5.
R にしろ Excelにしろ
道具です。 R が使えるからと言って、統計分
析ができるというわけでは、残念ながらあり
ません。
というわけで、この勉強会では、 R の使い方
に加えて、統計分析の考え方についてもちょ
くちょく触れていきたいと思います。
- 6.
- 7.
- 8.
- 9.
- 10.
こんな流れで進めます
「データ可視化の 7 ステップ」
(出典『ビジュアライジング・データ』 )
1.Acquire : データをゲットします
2.Parse : 整形します
3.Filter : 必要なサブセットを抜き出します
4.Mine : 分析します
5.Represent : 分析結果を出力します
6.Refine : 省略
7.Interaction : 省略
- 11.
- 12.
- 13.
- 14.
- 15.
一体何を読み込んだのか?
R には大きく 5つのデータ構造があります
1.vector :基本。 1 次元配列。
2.matrix :行列。 2 次元配列。
3.array :配列。 n 次元配列。
4.data frame :重要。表。さっき読み込んだ
5.list :柔軟で便利。
- 16.
- 17.
matrix, array
matrix はあまり使いません
arrayはもっと使いません(経験上)
> m1 <- matrix(v1, nrow=2)
> m1[1, 2] # 行 , 列の順で指定
> m1[, 2] # 省略すると全指定
> a1 <- array(v1, dim=c(2, 1, 2)
> a1
> a1[1, 1, 1]
- 18.
- 19.
list
柔軟なので便利。各要素の要素数が異なって
いても大丈夫( data fameはダメ)
私は色々な分析結果を 1 オブジェクトにまと
めるときに使ったりします
# data frmae 同様列名を付けられます
> li <- list(elem1=c(1, 2), elem2=c("a", "b", "c"))
> li
> li[[1]] # 要素へのアクセスには癖があります
> li$elem1 # 要素名でのアクセスは同じ
- 20.
- 21.
- 22.
文字列を因子に
文字列 "A" と選択肢"A, B, AB, O" の "A" と
選択肢 "A, B, C" の "A" を正しく扱おう、と
いう話です。
> sample <- c("A", "B")
> blood <- factor(sample,
levels=C("A", "B", "AB", "O"))
> choice <- factor(sample,
levels=c("A", "B", "C"))
# == はクラスを意識しないので、 identical で比較
# Java の == と equlas のようなものです
> identical(sample[1], blood[1])
> identical(sample[1], choice[1])
> identical(blood[1], choice[1])
- 23.
その他の型 (1/2)
代表的な Parse先
● numeric: 数値 (1, -2, 0.1)
● character: 文字列 ("Hello World")
●
logical: 論理値 (TRUE, FALSE)
> c(1, -2, 0.1)
> c("Andy", "Bob", "Chris")
> c(TRUE, FALSE, TRUE)
- 24.
その他の型 (2/2)
代表的な Parse先
● factor: 因子
● Date: 日付
●
NA: 欠損値
> as.factor(c("A", "B"), levels=c("A", "B", "AB",
"O"))
> as.Date(c("2014/4/24", "2014/4/25"))
> c(1, 5, NA, 6)
- 25.
- 26.
- 27.
名義尺度
カテゴリ。背番号とか。 R ではfactor に相
当。
● 演算する意味ない
例)アンケートだとこんな設問
設問 1 あなたの役割を教えて下さい。
1. 開発
2. 営業
3. スタッフ
4. その他
- 28.
順序尺度
よくみる 5 段階評価とか。Rではorder=TRUE
オプション付の factor に相当。
● 意味があるのは順序だけ。足し引き意味ない
例)アンケートだとこんな設問
設問 2 この勉強会には満足していますか?
1. 満足している
2. やや満足している
3. ふつう
4. やや不満である
5. 不満である
- 29.
- 30.
- 31.
- 32.
Enterprise での利用
Google はR でプロトタイピングして C で実装
Oracle のデータも R で分析できる(らしい)
● Companies Using R | Revolution Analytics
●
Oracle R Enterprise