Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
データ分析に使える野球データまとめ
Shinichi Nakagawa@shinyorke
PyData.Tokyo meetup #6 2015/10/23
Who am I ?
• Shinichi Nakagawa(@shinyorke)
• Recruit Sumai Company, Ltd.
• Pythonでやきうの人/Agile大好き
• 贔屓チーム
• 北海道日本ハムファイターズ
•...
野球Hack~Pythonを用いたデータ分析と可視化
http://www.slideshare.net/shinyorke/hackpython-pyconjp
野球Hackの反響
• 60席+立ち見&床席40人ちょっと(推定)

→発表時の聴衆の皆さま(感謝!)
• 15,049

→slideshareのPV数
• 221

→はてなブックマークの数
とても興奮している. ありがとう!
※なお、カノーさんはシアトルに来てから(ry
Today’s Starting Member
• 野球Hack質問・コメントあるある
• 使える野球データの紹介
• まとめ
野球Hack
質問・コメントあるある

※調査対象:1名
“日本の野球で使えるデータは
無いんでしょうか?”
使えるデータ=ライセンス問題ない&使い易い
(と、いう意味だと思われる)
【答】ありません!(断言)
• 「ここにデータあるから使ってイイよ!」

的なデータは公式・非公式共に存在しない. 
• NPB公式は歴史的経緯上色々アレ.
• 個人系のサイトは頑張って自分で集めてるっぽい(拍手)
• 欲しいデータは自分で取り...
“NPBやWebサイトのDataが
オープンになりませんか?”
【答】絶対無いです!(断言)
• プロ野球・MLB、ひいては他のスポーツも、データを扱うの
は非常にコストがかかる

→人件費・システム構築・運用とかとか
• Webサイトやアプリのログと同じで、データそのものが宝
物、タダでオマイラに使わせる...
“サッカーとか、他のスポーツ
でデータがあったりとか?”
しらんがな(怒)

(意訳:野球以外興味ない)
使える野球データ(難易度順)
• 【初級】Sean Lahman Database
• 【上級】Retrosheet
• 【プロ】pitchRx
全部メジャーリーグです!
Sean Lahman - 野球選手DB
• http://www.seanlahman.com/baseball-archive/statistics/
• MLB選手のプロフィールと年度別成績、一年に一度更新(CSV/SQL/MS Acce...
Retrosheet - 試合と選手の歴史
• http://retrosheet.org/
• MLBの試合と打席の詳細データ、投球・打撃結果・観客etc…情報凄い
• CSVだが、 なフォーマットで構成
• スコアラー・審判一歩手前の野球ド...
pitchRx - pitchingを丸裸にする
• https://cran.r-project.org/web/packages/pitchRx/index.html
• Pitch f/xという、超高性能版スピードガンで取得した投球データ...
まとめ
• 日本の野球データは(今のところ)期待出来ない.

→将来は別だと思う(又は別だと信じたい)
• メジャーリーグは充実している.

野球ドメイン知識を鍛えて使ってみよう!
• 他のスポーツは正直しらん.

興味ある人探して&情報共有よ...
ゲームセット!!!
ご清聴ありがとうございました.
Shinichi Nakagawa(Twitter/Facebook/hatena:@shinyorke)
Upcoming SlideShare
Loading in …5
×

データ分析に使える野球データまとめ #PyDataTokyo meetup 2015/10/23

3,607 views

Published on

今まで調べた野球データのまとめ(と本音)

Published in: Data & Analytics

データ分析に使える野球データまとめ #PyDataTokyo meetup 2015/10/23

  1. 1. データ分析に使える野球データまとめ Shinichi Nakagawa@shinyorke PyData.Tokyo meetup #6 2015/10/23
  2. 2. Who am I ? • Shinichi Nakagawa(@shinyorke) • Recruit Sumai Company, Ltd. • Pythonでやきうの人/Agile大好き • 贔屓チーム • 北海道日本ハムファイターズ • オークランド・アスレチックス
  3. 3. 野球Hack~Pythonを用いたデータ分析と可視化 http://www.slideshare.net/shinyorke/hackpython-pyconjp
  4. 4. 野球Hackの反響 • 60席+立ち見&床席40人ちょっと(推定)
 →発表時の聴衆の皆さま(感謝!) • 15,049
 →slideshareのPV数 • 221
 →はてなブックマークの数
  5. 5. とても興奮している. ありがとう! ※なお、カノーさんはシアトルに来てから(ry
  6. 6. Today’s Starting Member • 野球Hack質問・コメントあるある • 使える野球データの紹介 • まとめ
  7. 7. 野球Hack 質問・コメントあるある
 ※調査対象:1名
  8. 8. “日本の野球で使えるデータは 無いんでしょうか?” 使えるデータ=ライセンス問題ない&使い易い (と、いう意味だと思われる)
  9. 9. 【答】ありません!(断言) • 「ここにデータあるから使ってイイよ!」
 的なデータは公式・非公式共に存在しない.  • NPB公式は歴史的経緯上色々アレ. • 個人系のサイトは頑張って自分で集めてるっぽい(拍手) • 欲しいデータは自分で取りに行くしかない.
 Pythonの場合、Beautifulsoupあたりで,,,あっ(察し
  10. 10. “NPBやWebサイトのDataが オープンになりませんか?”
  11. 11. 【答】絶対無いです!(断言) • プロ野球・MLB、ひいては他のスポーツも、データを扱うの は非常にコストがかかる
 →人件費・システム構築・運用とかとか • Webサイトやアプリのログと同じで、データそのものが宝 物、タダでオマイラに使わせるわけねーだろ!、が本音(と思 われる) • ちなみにMLBでは、野球選手そのものがゲームアイテムや金融 商品化している(ぐらいにデータがメッチャ大事)
  12. 12. “サッカーとか、他のスポーツ でデータがあったりとか?”
  13. 13. しらんがな(怒)
 (意訳:野球以外興味ない)
  14. 14. 使える野球データ(難易度順) • 【初級】Sean Lahman Database • 【上級】Retrosheet • 【プロ】pitchRx
  15. 15. 全部メジャーリーグです!
  16. 16. Sean Lahman - 野球選手DB • http://www.seanlahman.com/baseball-archive/statistics/ • MLB選手のプロフィールと年度別成績、一年に一度更新(CSV/SQL/MS Access) • 前処理ほぼ不要、カラムを読むだけで使える(と思われる)
  17. 17. Retrosheet - 試合と選手の歴史 • http://retrosheet.org/ • MLBの試合と打席の詳細データ、投球・打撃結果・観客etc…情報凄い • CSVだが、 なフォーマットで構成 • スコアラー・審判一歩手前の野球ドメイン知識必要
  18. 18. pitchRx - pitchingを丸裸にする • https://cran.r-project.org/web/packages/pitchRx/index.html • Pitch f/xという、超高性能版スピードガンで取得した投球データを公開&ライブラリあり(なおR) • 日本で使ってるのは専門の野球アナリストor 野球Hackの先駆者@gg_hatano氏ぐらいと思われる • @gg_hatanoさんのブログで知りました http://gg-hogehoge.hatenablog.com/entry/2013/12/21/075023
  19. 19. まとめ • 日本の野球データは(今のところ)期待出来ない.
 →将来は別だと思う(又は別だと信じたい) • メジャーリーグは充実している.
 野球ドメイン知識を鍛えて使ってみよう! • 他のスポーツは正直しらん.
 興味ある人探して&情報共有よろしくオナシャス!
  20. 20. ゲームセット!!! ご清聴ありがとうございました. Shinichi Nakagawa(Twitter/Facebook/hatena:@shinyorke)

×