SlideShare a Scribd company logo
Rで野球データ解析がしたい
@gg_hatano
自己紹介
• はたむ@就活終わった	

• TwitterID: gg_hatano 	

• とにかく野球のデータが欲しい

投球のデータが欲しい
3
4
Pitch f/xとは
• MLB 全投球の軌道追跡システム	

• 初期位置, 初速, 回転, etc…	

• すぐにデータが欲しい → library(pitchRx)
pitchRxで野球データ解析
!
• ダルビッシュの投球軌道を3D描画	

http://www7275uo.sakura.ne.jp/webGL/
pitchRxで野球データ解析
• 初球の重要性を調査	

http://gg-hogehoge.hatenablog.com/entry/2014/01/27/224946	

• 投球テンポと援護率の関係	

http://gg-hogehoge.hatenablog.com/entry/2014/01/17/230927	

• スピンの効いた球を調査	

http://gg-hogehoge.hatenablog.com/entry/2014/03/07/035245	

!
打者のデータが欲しい
retrosheetで野球データ解析
• 全ての試合結果データ(1921~)	

http://www.retrosheet.org/game.htm
シーズン成績データが欲しい
Lahmanで野球データ解析
• シーズン成績まとめ: http://seanlahman.com	

• すぐにデータが欲しい → library(Lahman)
0.01
0.02
0.03
1920 1950 1980 2010
year
rate
season−HR rate
Lahmanで野球データ解析
• ホームラン率の推移	

→ドーピング? ルール変更?
https://gist.github.com/gghatano/10616962
まとめ
投球 打席 シーズン
データ pitch f/x retrosheet Lahman
パッケージ pitchRx なし Lahman
Future work
• 野手用データ取得パッケージを作りたい	

• シェルスクリプトなら	

https://github.com/gghatano/analyze_mlbdata_with_R.git
Enjoy Baseball!
参考文献
• Analyzing baseball data with R	

• Exploring Baseball Data with R	

• 300億円欲しい

More Related Content

What's hot

Developer Report 2021 (Published: January 2022)
Developer Report 2021 (Published: January 2022)Developer Report 2021 (Published: January 2022)
Developer Report 2021 (Published: January 2022)
Maria Xinhe Shen
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
DataRobotJP
 
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
Takashi Iba
 
データベース10 - 正規化
データベース10 - 正規化データベース10 - 正規化
データベース10 - 正規化
Kenta Oku
 
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターンどや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
Iwao Harada
 
Rユーザのためのspark入門
Rユーザのためのspark入門Rユーザのためのspark入門
Rユーザのためのspark入門Shintaro Fukushima
 
JSFとJAX-RSで作る Thin Server Architecture #glassfishjp
JSFとJAX-RSで作る Thin Server Architecture #glassfishjpJSFとJAX-RSで作る Thin Server Architecture #glassfishjp
JSFとJAX-RSで作る Thin Server Architecture #glassfishjpToshiaki Maki
 
物語の中の人工知能、 人工知能が作り出す物語
物語の中の人工知能、人工知能が作り出す物語物語の中の人工知能、人工知能が作り出す物語
物語の中の人工知能、 人工知能が作り出す物語
Youichiro Miyake
 
RによるBox-Cox変換
RによるBox-Cox変換RによるBox-Cox変換
RによるBox-Cox変換wada, kazumi
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成弘毅 露崎
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
Hirotaka Hachiya
 
ツイートID生成とツイッターリアルタイム検索システムの話
ツイートID生成とツイッターリアルタイム検索システムの話ツイートID生成とツイッターリアルタイム検索システムの話
ツイートID生成とツイッターリアルタイム検索システムの話Preferred Networks
 
【早稲田大学向け】ソフトウェア開発に必要な職種
【早稲田大学向け】ソフトウェア開発に必要な職種【早稲田大学向け】ソフトウェア開発に必要な職種
【早稲田大学向け】ソフトウェア開発に必要な職種
Takuya Oikawa
 
MySQLと正規形のはなし
MySQLと正規形のはなしMySQLと正規形のはなし
MySQLと正規形のはなし
yoku0825
 
契約理論って何だろう?
契約理論って何だろう?契約理論って何だろう?
契約理論って何だろう?
Yosuke YASUDA
 
厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について
Deep Learning Lab(ディープラーニング・ラボ)
 
テスト自動化の現場から~落とし穴に気を付けよう~
テスト自動化の現場から~落とし穴に気を付けよう~テスト自動化の現場から~落とし穴に気を付けよう~
テスト自動化の現場から~落とし穴に気を付けよう~
Satsuki Urayama
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
Rakuten Group, Inc.
 
論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.
Analytics2014
 
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニングTokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
Hiroko Onari
 

What's hot (20)

Developer Report 2021 (Published: January 2022)
Developer Report 2021 (Published: January 2022)Developer Report 2021 (Published: January 2022)
Developer Report 2021 (Published: January 2022)
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
 
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
国際学会発表と、論文の書き方(パターン・ランゲージを発表するパターン論文を中心として)
 
データベース10 - 正規化
データベース10 - 正規化データベース10 - 正規化
データベース10 - 正規化
 
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターンどや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
どや!?おやつ神社 実践しているおやつ神社を通して見るカイゼンパターン
 
Rユーザのためのspark入門
Rユーザのためのspark入門Rユーザのためのspark入門
Rユーザのためのspark入門
 
JSFとJAX-RSで作る Thin Server Architecture #glassfishjp
JSFとJAX-RSで作る Thin Server Architecture #glassfishjpJSFとJAX-RSで作る Thin Server Architecture #glassfishjp
JSFとJAX-RSで作る Thin Server Architecture #glassfishjp
 
物語の中の人工知能、 人工知能が作り出す物語
物語の中の人工知能、人工知能が作り出す物語物語の中の人工知能、人工知能が作り出す物語
物語の中の人工知能、 人工知能が作り出す物語
 
RによるBox-Cox変換
RによるBox-Cox変換RによるBox-Cox変換
RによるBox-Cox変換
 
RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成RとSQLiteで気軽にデータベース作成
RとSQLiteで気軽にデータベース作成
 
データ解析10 因子分析の基礎
データ解析10 因子分析の基礎データ解析10 因子分析の基礎
データ解析10 因子分析の基礎
 
ツイートID生成とツイッターリアルタイム検索システムの話
ツイートID生成とツイッターリアルタイム検索システムの話ツイートID生成とツイッターリアルタイム検索システムの話
ツイートID生成とツイッターリアルタイム検索システムの話
 
【早稲田大学向け】ソフトウェア開発に必要な職種
【早稲田大学向け】ソフトウェア開発に必要な職種【早稲田大学向け】ソフトウェア開発に必要な職種
【早稲田大学向け】ソフトウェア開発に必要な職種
 
MySQLと正規形のはなし
MySQLと正規形のはなしMySQLと正規形のはなし
MySQLと正規形のはなし
 
契約理論って何だろう?
契約理論って何だろう?契約理論って何だろう?
契約理論って何だろう?
 
厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について厚生労働分野におけるAI技術の利活用について
厚生労働分野におけるAI技術の利活用について
 
テスト自動化の現場から~落とし穴に気を付けよう~
テスト自動化の現場から~落とし穴に気を付けよう~テスト自動化の現場から~落とし穴に気を付けよう~
テスト自動化の現場から~落とし穴に気を付けよう~
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
 
論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.
 
Tokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニングTokyo webmining 複雑ネットワークとデータマイニング
Tokyo webmining 複雑ネットワークとデータマイニング
 

Viewers also liked

Rで野球データ解析がしたい ( pitchRxを使う )
Rで野球データ解析がしたい ( pitchRxを使う )Rで野球データ解析がしたい ( pitchRxを使う )
Rで野球データ解析がしたい ( pitchRxを使う )
Takuma Hatano
 
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
Takuma Hatano
 
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Takuma Hatano
 
ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)
Shinichi Nakagawa
 
CaboChaでバイク川崎バイクbot作りました
CaboChaでバイク川崎バイクbot作りましたCaboChaでバイク川崎バイクbot作りました
CaboChaでバイク川崎バイクbot作りました
Takuma Hatano
 
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
Shinichi Nakagawa
 
1億5000万円欲しい (ロト6のデータで遊ぶ)
1億5000万円欲しい (ロト6のデータで遊ぶ)1億5000万円欲しい (ロト6のデータで遊ぶ)
1億5000万円欲しい (ロト6のデータで遊ぶ)
Takuma Hatano
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
Takashi Kitano
 
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Shinichi Nakagawa
 
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
Koichi Hamada
 
ビックデータとPythonではじめる野球の統計分析 #pyconjp
ビックデータとPythonではじめる野球の統計分析 #pyconjpビックデータとPythonではじめる野球の統計分析 #pyconjp
ビックデータとPythonではじめる野球の統計分析 #pyconjp
Shinichi Nakagawa
 
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
Nagi Teramo
 
データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)hoxo_m
 
User Happyをささえるアジャイルのココロとスクラムのキホン
User HappyをささえるアジャイルのココロとスクラムのキホンUser Happyをささえるアジャイルのココロとスクラムのキホン
User Happyをささえるアジャイルのココロとスクラムのキホン
Shinichi Nakagawa
 
てかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanRてかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanR
cancolle
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
Shota Yasui
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnetNagi Teramo
 
Tidyverseとは
TidyverseとはTidyverseとは
Tidyverseとは
yutannihilation
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
 
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリングベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
宏喜 佐野
 

Viewers also liked (20)

Rで野球データ解析がしたい ( pitchRxを使う )
Rで野球データ解析がしたい ( pitchRxを使う )Rで野球データ解析がしたい ( pitchRxを使う )
Rで野球データ解析がしたい ( pitchRxを使う )
 
巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)巨人の勝率を上げたい (スクレイピングとデータ集計)
巨人の勝率を上げたい (スクレイピングとデータ集計)
 
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
Rでセイバーメトリクス (イチローと松井 どっちが凄い?)
 
ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)ビックデータとPythonではじめる野球の統計分析(α)
ビックデータとPythonではじめる野球の統計分析(α)
 
CaboChaでバイク川崎バイクbot作りました
CaboChaでバイク川崎バイクbot作りましたCaboChaでバイク川崎バイクbot作りました
CaboChaでバイク川崎バイクbot作りました
 
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
野球Hack!(続き)~Pythonを用いた野球サービス構築 #bpstudy
 
1億5000万円欲しい (ロト6のデータで遊ぶ)
1億5000万円欲しい (ロト6のデータで遊ぶ)1億5000万円欲しい (ロト6のデータで遊ぶ)
1億5000万円欲しい (ロト6のデータで遊ぶ)
 
20150329 tokyo r47
20150329 tokyo r4720150329 tokyo r47
20150329 tokyo r47
 
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
Big Data Baseball with Python - Ichiro Suzuki hacks! #kwsk01
 
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
 
ビックデータとPythonではじめる野球の統計分析 #pyconjp
ビックデータとPythonではじめる野球の統計分析 #pyconjpビックデータとPythonではじめる野球の統計分析 #pyconjp
ビックデータとPythonではじめる野球の統計分析 #pyconjp
 
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』~knitr+pandocではじめる~『R MarkdownでReproducible Research』
~knitr+pandocではじめる~『R MarkdownでReproducible Research』
 
データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)データの不備を統計的に見抜く (Gelman’s secret weapon)
データの不備を統計的に見抜く (Gelman’s secret weapon)
 
User Happyをささえるアジャイルのココロとスクラムのキホン
User HappyをささえるアジャイルのココロとスクラムのキホンUser Happyをささえるアジャイルのココロとスクラムのキホン
User Happyをささえるアジャイルのココロとスクラムのキホン
 
てかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanRてかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanR
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
Tidyverseとは
TidyverseとはTidyverseとは
Tidyverseとは
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリングベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
 

Rで野球のデータ解析がしたい (データが欲しい)