SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Dummiesパッケージ
Report
weda654
Follow
Sep. 1, 2014
•
0 likes
•
16,241 views
1
of
11
Dummiesパッケージ
Sep. 1, 2014
•
0 likes
•
16,241 views
Download Now
Download to read offline
Report
Data & Analytics
Tokyo.Rの42回にて、かんたんにダミー変数がつくれるパッケージを試してみた
weda654
Follow
Recommended
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
1.9K views
•
20 slides
再現性問題は若手研究者の突破口
Yuki Yamada
8.9K views
•
106 slides
グラフィカルモデル入門
Kawamoto_Kazuhiko
116.6K views
•
67 slides
pymcとpystanでベイズ推定してみた話
Classi.corp
1.6K views
•
21 slides
関数データ解析の概要とその方法
Hidetoshi Matsui
9.4K views
•
156 slides
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
20.8K views
•
204 slides
More Related Content
What's hot
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
3.6K views
•
40 slides
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
72.1K views
•
76 slides
RでGARCHモデル - TokyoR #21
horihorio
15.7K views
•
52 slides
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
24.6K views
•
60 slides
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
13.9K views
•
20 slides
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
12.7K views
•
132 slides
What's hot
(20)
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
•
3.6K views
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
•
72.1K views
RでGARCHモデル - TokyoR #21
horihorio
•
15.7K views
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
•
24.6K views
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
•
13.9K views
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
•
12.7K views
研究効率化Tips Ver.2
cvpaper. challenge
•
19.3K views
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
•
20K views
比例ハザードモデルはとってもtricky!
takehikoihayashi
•
81.9K views
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
•
1.1K views
クラスタリングとレコメンデーション資料
洋資 堅田
•
10.1K views
[DL輪読会]Weakly-Supervised Disentanglement Without Compromises
Deep Learning JP
•
1.1K views
最適輸送の計算アルゴリズムの研究動向
ohken
•
7.9K views
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
•
25K views
【解説】 一般逆行列
Kenjiro Sugimoto
•
80K views
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
•
2.6K views
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜
SSII
•
6.1K views
最尤推定法(NNでの応用)
MatsuiRyo
•
1.9K views
PCAの最終形態GPLVMの解説
弘毅 露崎
•
23.7K views
全力解説!Transformer
Arithmer Inc.
•
8.9K views
Viewers also liked
R入門(dplyrでデータ加工)-TokyoR42
Atsushi Hayakawa
19.2K views
•
39 slides
20170923 excelユーザーのためのr入門
Takashi Kitano
3.7K views
•
103 slides
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
3.5K views
•
43 slides
Mxnetで回帰 #TokyoR 53th
Akifumi Eguchi
5.7K views
•
19 slides
Rで潜在ランク分析
Hiroshi Shimizu
6.7K views
•
37 slides
20140625 rでのデータ分析(仮) for_tokyor
Takashi Kitano
2.7K views
•
71 slides
Viewers also liked
(20)
R入門(dplyrでデータ加工)-TokyoR42
Atsushi Hayakawa
•
19.2K views
20170923 excelユーザーのためのr入門
Takashi Kitano
•
3.7K views
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
•
3.5K views
Mxnetで回帰 #TokyoR 53th
Akifumi Eguchi
•
5.7K views
Rで潜在ランク分析
Hiroshi Shimizu
•
6.7K views
20140625 rでのデータ分析(仮) for_tokyor
Takashi Kitano
•
2.7K views
20150303ぞくパタLT-ゆるふわ構造学習
Toru Imai
•
4.8K views
Rcppのすすめ
Masaki Tsuda
•
14K views
データサイエンティスト必見!M-1グランプリ
Satoshi Kitajima
•
24.8K views
R を起動するその前に
Kosei ABE
•
17.6K views
TokyoR42_around_chaining
TokorosawaYoshio
•
18.9K views
マルコフ連鎖モンテカルロ法入門-1
Nagi Teramo
•
74.6K views
Rで代数統計 TokyoR #42 LT
Toru Imai
•
12.3K views
最強のハードディスクはどれだ?
Atsushi Hayakawa
•
9.1K views
ggplot2再入門(2015年バージョン)
yutannihilation
•
65.3K views
Tokyor42_r_datamining_18
Yohei Sato
•
13.2K views
Tokyor42 ggplot2
Yohei Sato
•
20.5K views
Tokyo r33 beginner
Takashi Minoda
•
17.8K views
Tokyo r30 anova
Takashi Minoda
•
15.2K views
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
•
36.3K views
More from weda654
Juliaで前処理
weda654
4.9K views
•
27 slides
わかりやすいパターン認識_3章
weda654
18.4K views
•
40 slides
わかりやすいパターン認識_2章
weda654
25.1K views
•
31 slides
続・わかりやすいパターン認識_3章
weda654
7.6K views
•
28 slides
わかパタ 1章
weda654
6.2K views
•
31 slides
Mコマンド入門
weda654
5.5K views
•
39 slides
More from weda654
(7)
Juliaで前処理
weda654
•
4.9K views
わかりやすいパターン認識_3章
weda654
•
18.4K views
わかりやすいパターン認識_2章
weda654
•
25.1K views
続・わかりやすいパターン認識_3章
weda654
•
7.6K views
わかパタ 1章
weda654
•
6.2K views
Mコマンド入門
weda654
•
5.5K views
Data frameあれこれ
weda654
•
3.6K views
Dummiesパッケージ
1.
dummiesパッケージ 1 @weda_654
2.
自己紹介 Twitter
ID : @weda_654 勤務先: Google MapとAWSの会社 お仕事: データ分析をやっています 2 (社会人1年目) 近況: 会社の自分の席が正式になくなる (デスクレス)
3.
dummiesパッケージをつかうと 概要 かんたんにダミー変数がつくれるらしいから
とりあえず使ってみた 3
4.
ダミー変数とは 4
ある1個の変数がm個のカテゴリーを持つとき,これ をm個の変数D1,D2,…,Dmで表したもの. 例: 血液型 A,B,O,ABの4つのカテゴリー ↓ 変数A,変数B,変数O,変数ABの4つの変数 (変数A,変数B,変数Oの3つの変数でも表現は可能)
5.
いままでのダミー変数作成 data.frameから対象ベクトルを抜き出す なんやかんやする
data.frameに結合+列名の修正 _人人人人人人人_ > めんどい! <  ̄Y^Y^Y^Y^Y^Y ̄ 5
6.
なんやかんや 6 tmp
<- function(vec){ result <- NULL items <- unique(vec) for(i in items){ dummy <- ifelse(vec %in% i, 1, 0) result <- cbind(result, dummy) } return(result) }
7.
dummy関数 ベクトルからダミー変数を生成
install.packages(“dummies”) library(dummies) blood <- c("A", "AB", "B", "A", "O", "A") d.blood <- dummy(blood) 表1 : 実行結果 bloodA bloodAB bloodB bloodO 1 0 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 0 0 7
8.
dummy.data.frame関数(1) data.frame内の質的変数(文字列・順序なし因子)列
からダミー変数を生成 irisデータで試してみる • irisデータには質的変数Speciesがある d.iris <- dummy.data.frame(iris, sep=“:”) rdm <- sample(1:nrow(d.iris), 10) d.iris[rdm, ] 8
9.
dummy.data.frame関数(2) 表2 :
ダミー変数を追加したirisデータ Sepal.Length Sepal.Width Petal.Length Petal.Width Species:setosa Species:versicolor Species:virginica 5 3.3 1.4 0.2 1 0 0 4.9 2.4 3.3 1 0 1 0 5 2.3 3.3 1 0 1 0 5.5 2.6 4.4 1.2 0 1 0 5.6 2.8 4.9 2 0 0 1 6.7 3 5.2 2.3 0 0 1 6 2.7 5.1 1.6 0 1 0 5.4 3 4.5 1.5 0 1 0 6.7 2.5 5.8 1.8 0 0 1 5.7 3 4.2 1.2 0 1 0 生成→結合(置換)をひとまとめにできる 9
10.
get.dummy, which.dummy
get.dummy • 生成したダミー変数を表示する which.dummy • 生成したダミー変数の列番号を表示する 10
11.
11 より良いダミー変数生成ライフ?を もっとイケてる生成方法があったら
教えて下さい!
Editor's Notes
それ以上でも、それ以下でもない 無味無臭なLT
性別とかもよくきくのでは
きっと、みなさんはこんな非効率なことをしてはいないと思いますが… 忘れたそばからやってくる
関数はこれだけ もっと詳しく知りたい方はhelpをみましょう