Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Report
tokyorgirls
Follow
Jul. 22, 2014
•
0 likes
4 likes
×
Be the first to like this
Show More
•
1,303 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
Pythonでターミナルに画像表示
Masato Fujitake
OSS Study#19_LT
NaoY-2501
WindowsでPython
drillan
S03 t1 python_learningdiary#3
Takeshi Akutsu
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
pythonでemlファイルを扱う話
Satoshi Yamada
コボラーがPython始めてみた話
Yuuki Nakajima
1
of
39
Top clipped slide
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Jul. 22, 2014
•
0 likes
4 likes
×
Be the first to like this
Show More
•
1,303 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Data & Analytics
2014/07/12 Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」by @a_macbee
tokyorgirls
Follow
Advertisement
Advertisement
Advertisement
Recommended
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
8.4K views
•
64 slides
本気でPythonで宛名書きした話
Satoshi Yamada
3.2K views
•
30 slides
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
21.2K views
•
38 slides
S01 t1 tsuji_pylearn_ut_01
Takeshi Akutsu
2.1K views
•
11 slides
Rの導入とRStudio事始め(改訂版)
Takashi Yamane
28.8K views
•
25 slides
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
30.4K views
•
52 slides
More Related Content
Slideshows for you
(20)
Pythonでターミナルに画像表示
Masato Fujitake
•
3K views
OSS Study#19_LT
NaoY-2501
•
1.2K views
WindowsでPython
drillan
•
10.8K views
S03 t1 python_learningdiary#3
Takeshi Akutsu
•
1.6K views
S20 t1 stapyのこれまでとこれから
Takeshi Akutsu
•
1.1K views
S10 t1 spc_by_nowfromnow
Takeshi Akutsu
•
732 views
pythonでemlファイルを扱う話
Satoshi Yamada
•
14K views
コボラーがPython始めてみた話
Yuuki Nakajima
•
2.3K views
DBエンジニアに必要だったPythonのスキル
Satoshi Yamada
•
2.2K views
Requestsで始める5分前帰社
Satoshi Yamada
•
5.4K views
RFinanceJはじめました
Nagi Teramo
•
5.2K views
S09 t4 wrapup
Takeshi Akutsu
•
747 views
オレオレ言語実装に役立つプル型ASTウォーカーAPI
隆行 神戸
•
2.2K views
ゲームマップのためのグラフAPIの設計
隆行 神戸
•
2.2K views
Python学習奮闘記#07 webapp
Takeshi Akutsu
•
2K views
S09 t0 orientation
Takeshi Akutsu
•
977 views
S08 t0 orientation
Takeshi Akutsu
•
1.1K views
RubyエンジニアがPythonをdisるためにPythonを勉強してみた
Yusuke Kon
•
27.7K views
S18 t0 introduction
Takeshi Akutsu
•
1.2K views
Orientation
Takeshi Akutsu
•
419 views
Similar to Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
(20)
Debug Hacks - 第4回つくらぐ勉強会
University of Tsukuba Linux User Group
•
792 views
211120 他人の書いたPythonスクリプトをステップ実行で理解する
Takuya Nishimoto
•
1.2K views
システム開発素人が深層学習を用いた画像認識で麻雀点数計算するLINEbotを作ったハナシ
BrainPad Inc.
•
3.5K views
PyConJP2018_LT_mahjong_180918
Rio Kurihara
•
261 views
プログラミング初心者の壁の越え方
Yuichi Kato
•
6.5K views
Why python
Mikio Kubo
•
652 views
MTプラグイン入門以前
Hiroshi Yamato
•
2.5K views
Clojureの世界と実際のWeb開発
Tsutomu Yano
•
39.8K views
Rでを作る
Nagi Teramo
•
3.6K views
goパッケージで型情報を用いたソースコード検索を実現する
Takuya Ueda
•
3K views
Python for Beginners ( #PyLadiesKyoto Meetup )
Ai Makabi
•
790 views
グラフデータベース「Neo4j」の 導入の導入
Hisao Soyama
•
20.9K views
TRPGオンラインセッション環境とルール&シナリオ記述言語
隆行 神戸
•
2.7K views
TOPPERS as an IoT OS(kernel)
Kiyoshi Ogawa
•
906 views
【Ltech#11】ディープラーニングで間取り図を3Dにする
LIFULL Co., Ltd.
•
3.5K views
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
Toshinori Sato
•
5.4K views
PyPy 紹介
shoma h
•
8.2K views
Rubyの会社でPythonistaが3ヶ月生き延びた話
Tokoroten Nakayama
•
9.2K views
Rubyの会社でPythonistaが三ヶ月生き延びた話
Drecom Co., Ltd.
•
3.7K views
Why python
Mikio Kubo
•
925 views
Advertisement
Recently uploaded
(20)
★可查可存档〖制作曼尼托巴大学文凭证书毕业证〗
tujjj
•
2 views
★可查可存档〖制作普利茅斯大学文凭证书毕业证〗
vgfg1
•
2 views
#学位证靠谱办基尔大学文凭证书全套
qghfsvkwiqiubridge
•
2 views
《尼皮辛大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
2 views
《麦吉尔大学毕业证|学位证书校内仿真版本》
124hdjkhas
•
3 views
#专业办证《Griffith毕业证学位证原版精仿》
ee61223771acdrman
•
2 views
#学位证靠谱办Winnipeg文凭证书全套
76p522i4nqmocom
•
2 views
#全套原版1:1精仿Baylor学位证成绩单
mejadib55aviom
•
2 views
★可查可存档〖制作密苏里大学堪萨斯分校文凭证书毕业证〗
fgfg45
•
2 views
★可查可存档〖制作圣地亚哥大学文凭证书毕业证〗
vvvvv24
•
3 views
#学位证靠谱办Columbia文凭证书全套
buxvunsvjiujzternetk
•
2 views
★可查可存档〖制作亚利桑那大学文凭证书毕业证〗
vvvvv24
•
2 views
#学位证靠谱办Hofstra文凭证书全套
buxvunsvjiujzternetk
•
2 views
#学位证靠谱办U of U文凭证书全套
buxvunsvjiujzternetk
•
2 views
★可查可存档〖制作阿苏萨太平洋大学文凭证书毕业证〗
fgfg45
•
2 views
#全套原版1:1精仿太平洋学位证成绩单
mejadib55aviom
•
2 views
5cladba wiki
Viya18
•
0 views
#专业办证《Dal毕业证学位证原版精仿》
mibiri4418mevor
•
2 views
《范莎学院毕业证|学位证书校内仿真版本》
hj123saf
•
2 views
Drive-by Sensingによる都市のモニタリング
Takuma Oda
•
0 views
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
で始める データ解析の超基礎 Tokyo.R 女子部
#4 @a_macbee
@a_macbee is 誰
@a_macbee ! 渋谷で働く新米データサイ エンティスト ・広告ログ解析の仕事 ・普段仕事で利用してる 言語はPython ・Tokyo.R 女子部 #3 初参加 ! ・
初心者
の便利機能 の紹介 等はしません (出来ません(汗) の標準機能 +ggplot2 のみを 利用します ※詰まったらどなたか助けて下さい
本日目指すこと Rを使って データの雰囲気を つかむ術を学ぶ
本日の資料 https://github.com/amacbee/tokyorgirls Download → 解凍 20140712/
以下に あります
ヒストグラム について学びます
データの全体像 がつかめる! ←日本の人口分布 ↓テストの点数分布
何はともあれやってみる ! ! # ggplot2の読み込み library(ggplot2) ! ! ! ! ! ! ヒストグラムを 描画するために 必要です!
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price)
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) データを読み込んで data.frameに入れる
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) head()で囲むと データの上から 6行くらいを表示
何はともあれやってみる ! # データの読み込み data.path =
/path/to/file/ramen_prices.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # データの中身の確認 head(data.frame) ! # ラーメンの値段の平均 mean(data.frame$Price) mean()で囲むと データの 平均値を表示
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! !
こんなのが 出るはず
750 650 850 950 550 ラーメンの 平均的な値段は 750円くらい
何はともあれやってみる ! # ラーメンの値段のヒストグラム ggplot(data.frame, aes(x=data.frame$Price))
+ geom_histogram(binwidth=100) ! ! ! ! ! ! 範囲の指定 この場合,100円の範囲で 値をまとめてくれる x軸の指定
ヒストグラムの 良いところ
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_1.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 1組のテストの平均点 mean(data.frame$Score) ! # 1組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
2つのヒストグラムの比較 ! # データの読み込み data.path =
/path/to/file/test_scores_2.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 2組のテストの平均点 mean(data.frame$Score) ! # 2組のテストの点数のヒストグラム ggplot(data.frame, aes(x=data.frame$Score)) + geom_histogram(binwidth=5)
平均点は? どちらも同じくらい A組: 約51点 B組: 約50点
ヒストグラムは?
A 組
B 組
平均点は同じでも ヒストグラムはかなり違う ↓ データの性質が全然違う
大事なこと ヒストグラムを書くことで データの全体像がつかめる
binwidth に注意
元のデータは こちらからお借りしています ! https://github.com/johnmyleswhite/ ML_for_Hackers
! # データの読み込み data.path =
/path/to/file/body_data.txt data.frame <- read.table(data.path, header=TRUE, sep= ,') ! # 平均身長 mean(data.frame$Height) ! # 身長のヒストグラム(binwidth=5, 0.001, 1) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=5) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=0.001) ggplot(data.frame, aes(x=data.frame$Height)) + geom_histogram(binwidth=1)
binの幅が 広すぎる =過剰な平滑化 binwidth=5
binの幅が 小さすぎる =平滑化の不足 binwidth=0.001
binwidth=1
滑らか binwidth=1
大事なこと binwidthの値を変えて ヒストグラムを確認すること
おまけ1(Rの高度な機能) もとの形状に 近い形で 描画できる
おまけ2(Rの高度な機能) 男女で 分けてみたり
! 参考図書.1 マンガでわかる 統計学 / 高橋
信 ! http://goo.gl/mzuQ ! ※オススメ!
! 参考図書.2 入門 機械学習 / D.,
Conway ! http://goo.gl/0zNev ! ※かなり難しい!
Thank you!
Advertisement