20150421 日経ビッグデータカンファレンス

Akira Shibata
Akira ShibataChief Data Scientist
Copyright 2014 Shiroyagi Corporation. All rights reserved.
シバタアキラ, Ph.D.
世界最大級分析モデルコンペ
「Kaggle」の最新動向
白ヤギコーポレーション
堅田洋資
白ヤギコーポレーション
田中秀樹
PyData.Tokyo
Copyright 2015 Shiroyagi Corporation. All rights reserved. 2
PyData.Tokyoかなり盛り上がってます
シバタアキラ, Ph.D. @madyagi
• 2013 -:CEO @白ヤギコーポレーション
• カメリオ : 人工知能型キュレーションニュースアプリ
• カメリオ API: コンテンツレコメンデーション API
• 2010 - 2013: 戦略コンサルティング @BCG
• 2007 - 2010: データサイエンティスト @NYU
• ヒッグス粒子の発見のためのデータ解析 @LHC, CERN
• 2004 - 2007: Ph.D. 高エネルギー物理学 @London大学
Copyright 2014 Shiroyagi Corporation. All rights reserved. 3
ビッグデータ
データ 機械学習
ディープラーニング
KPI
人工知能
Hadoop
AWS
統計モデリング
IoT
オープンデータ
予測モデル
データサイエンティスト
自然言語処理
Apache Spark 統計学
ニューラルネットワーク
ニューラルネットワーク
ログ解析
Python
グロースハック
Copyright 2015 Shiroyagi Corporation. All rights reserved. 4
PyData.Tokyo:

データサイエンティストのためのコミュニティー
Copyright 2015 Shiroyagi Corporation. All rights reserved. 5
これまでの活動
30人の座席にに毎回百人近い応募
• ディープラーニング
• 分散型機械学習
• データ解析インフラ
などの旬なテーマを扱い、毎回その
分野で活躍するデータサイエンティ
ストにご登壇いただいています。
実際に現場で活躍するデータサイエ
ンティストによる「濃い」議論が毎
回繰り広げられます。
Copyright 2015 Shiroyagi Corporation. All rights reserved. 6
イベントは渋谷のデンソーアイティーラボラトリにて開催
PyData.Tokyoチュートリアルの様子
Copyright 2015 Shiroyagi Corporation. All rights reserved. 7
タイタニックの生存者予測
Copyright 2015 Shiroyagi Corporation. All rights reserved. 8
イベント詳細は連載中
Copyright 2015 Shiroyagi Corporation. All rights reserved. 9
Kaggleとは(kaggle.com)
企業とデータサイエンティストとをつなぐ新しい仕組み
Copyright 2015 Shiroyagi Corporation. All rights reserved. 10
Kaggleのコンペの種類(一部)
Featured: 企業がデータを公開し、参加者は予測モデルの精度
を競う。チームでの参加も可能で、上位参加者には賞金。
Research: 科学的なデータの分析コンペ。入賞者は、賞金に
加え学会へ招待されることも。
Masters: 総合ランキング上位のデータサイエンティストが招
待参加。ほぼ全員に報酬が支払われる。
Recruiting: 企業が採用目的で行うコンペ。参加者は匿名的に
エントリーすることができる。
Copyright 2015 Shiroyagi Corporation. All rights reserved. 11
現在のアクティブコンペ
Featured
Recruiting
Research
Copyright 2015 Shiroyagi Corporation. All rights reserved. 12
データサイエンティスト
@白ヤギコーポレーション
その他 15コンペに参加
• Kaggle歴: 2年
• University of San Franciscoの

MS in Analyticsに留学
• 大学ではデータサイエンス専攻
堅田 洋資
Copyright 2015 Shiroyagi Corporation. All rights reserved. 13
田中 秀樹 上位0.1%
Copyright 2015 Shiroyagi Corporation. All rights reserved. 14
たった137店舗のデータで100,000店舗の売上を予測
賞金:$30,000 (約360万円)
参加者:1,714チーム(4/17時点)
ファストフードレストランの売上予測
Copyright 2015 Shiroyagi Corporation. All rights reserved. 15
・・・
丁寧な異常値除去で現在97位/1714位
Copyright 2015 Shiroyagi Corporation. All rights reserved. 16
ヒッグス機械学習チャレンジ
Copyright 2015 Shiroyagi Corporation. All rights reserved. 17
ヒッグス機械学習チャレンジ
Copyright 2015 Shiroyagi Corporation. All rights reserved. 18
犬 vs 猫
Copyright 2015 Shiroyagi Corporation. All rights reserved. 19
Training
Test
: 25,000 images
: 12,500 images
Copyright 2015 Shiroyagi Corporation. All rights reserved. 20
Deep Learningの研究者@NYU
GPUのエンジニア@NVIDIA
Deep Learningの研究者
Deep Learningで圧倒的な成果
Copyright 2015 Shiroyagi Corporation. All rights reserved. 21
Walmartの商品の売上予測
過去の実績と天気から
店舗別・日別・アイテム別で販売個数を予測する
賞品:ウォルマートでのデータサイエンティスト職(※インタビュー後)
参加者:194チーム(4/17時点)
Copyright 2015 Shiroyagi Corporation. All rights reserved. 22
Skills	
  required:	
  	
  
• Knowledge	
  of	
  applied	
  statistics,	
  including	
  regression	
  models.	
  	
  
• Knowledge	
  of	
  SQL	
  and	
  Python.	
  	
  
• Knowledge	
  of	
  data	
  analysis	
  with	
  Python	
  or	
  R.	
  	
  
• Knowledge	
  of	
  Java.	
  	
  
• Experience	
  in	
  Hadoop	
  or	
  other	
  MapReduce	
  paradigms	
  and	
  
associated	
  languages	
  such	
  as	
  Hive	
  or	
  Pig.
ウォルマート(US) Data scientistに求めるスキル
Kaggleを採用活動に使うメリット
ツールが使える人材は増えてきた
結果が出せる人材はどこにいるか?
Copyright 2015 Shiroyagi Corporation. All rights reserved. 23
Job Board
Copyright 2015 Shiroyagi Corporation. All rights reserved. 24
@
一緒にプレイしてくれる
データサイエンティストを募集中!
1 of 24

Recommended

LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT) by
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)Akira Shibata
6.7K views79 slides
PyData.Tokyo Hackathon#2 TensorFlow by
PyData.Tokyo Hackathon#2 TensorFlowPyData.Tokyo Hackathon#2 TensorFlow
PyData.Tokyo Hackathon#2 TensorFlowAkira Shibata
2.6K views17 slides
Akira shibata at developer summit 2016 by
Akira shibata at developer summit 2016Akira shibata at developer summit 2016
Akira shibata at developer summit 2016Akira Shibata
4.9K views37 slides
20150128 cross2015 by
20150128 cross201520150128 cross2015
20150128 cross2015Akira Shibata
983 views20 slides
2018 e-patentトークセッション資料 株式会社ライズ by
2018 e-patentトークセッション資料 株式会社ライズ2018 e-patentトークセッション資料 株式会社ライズ
2018 e-patentトークセッション資料 株式会社ライズtomoro_azu
1K views25 slides
Sano hmm 20150512 by
Sano hmm 20150512Sano hmm 20150512
Sano hmm 20150512Masakazu Sano
9K views24 slides

More Related Content

Viewers also liked

人工知能をビジネスに活かす by
人工知能をビジネスに活かす人工知能をビジネスに活かす
人工知能をビジネスに活かすAkira Shibata
3.6K views46 slides
DataRobot活用状況@リクルートテクノロジーズ by
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズRecruit Technologies
6.3K views10 slides
リクルートにおけるデータのインフラ化への取組 by
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組Recruit Technologies
6.4K views34 slides
Analysis Software Development by
Analysis Software DevelopmentAnalysis Software Development
Analysis Software DevelopmentAkira Shibata
826 views33 slides
PyData Tokyo Tutorial & Hackathon #1 by
PyData Tokyo Tutorial & Hackathon #1PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1Akira Shibata
13.3K views63 slides
素人がDeep Learningと他の機械学習の性能を比較してみた by
素人がDeep Learningと他の機械学習の性能を比較してみた素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみたToru Imai
26.3K views15 slides

Viewers also liked(20)

人工知能をビジネスに活かす by Akira Shibata
人工知能をビジネスに活かす人工知能をビジネスに活かす
人工知能をビジネスに活かす
Akira Shibata3.6K views
DataRobot活用状況@リクルートテクノロジーズ by Recruit Technologies
DataRobot活用状況@リクルートテクノロジーズDataRobot活用状況@リクルートテクノロジーズ
DataRobot活用状況@リクルートテクノロジーズ
リクルートにおけるデータのインフラ化への取組 by Recruit Technologies
リクルートにおけるデータのインフラ化への取組リクルートにおけるデータのインフラ化への取組
リクルートにおけるデータのインフラ化への取組
Analysis Software Development by Akira Shibata
Analysis Software DevelopmentAnalysis Software Development
Analysis Software Development
Akira Shibata826 views
PyData Tokyo Tutorial & Hackathon #1 by Akira Shibata
PyData Tokyo Tutorial & Hackathon #1PyData Tokyo Tutorial & Hackathon #1
PyData Tokyo Tutorial & Hackathon #1
Akira Shibata13.3K views
素人がDeep Learningと他の機械学習の性能を比較してみた by Toru Imai
素人がDeep Learningと他の機械学習の性能を比較してみた素人がDeep Learningと他の機械学習の性能を比較してみた
素人がDeep Learningと他の機械学習の性能を比較してみた
Toru Imai26.3K views
あなたの業務に機械学習を活用する5つのポイント by Shohei Hido
あなたの業務に機械学習を活用する5つのポイントあなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido50.7K views
機械学習チュートリアル@Jubatus Casual Talks by Yuya Unno
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno735.9K views
『人工知能のための哲学塾』刊行記念イベント〜「人工知能×ビジネス」〜 by Youichiro Miyake
『人工知能のための哲学塾』刊行記念イベント〜「人工知能×ビジネス」〜『人工知能のための哲学塾』刊行記念イベント〜「人工知能×ビジネス」〜
『人工知能のための哲学塾』刊行記念イベント〜「人工知能×ビジネス」〜
Youichiro Miyake3.3K views
人工知能はビジネスを変えるのか by Kohki Obata
人工知能はビジネスを変えるのか人工知能はビジネスを変えるのか
人工知能はビジネスを変えるのか
Kohki Obata1.8K views
Top Cross Section Measurement by Akira Shibata
Top Cross Section MeasurementTop Cross Section Measurement
Top Cross Section Measurement
Akira Shibata815 views
The LHC Explained by CNN by Akira Shibata
The LHC Explained by CNNThe LHC Explained by CNN
The LHC Explained by CNN
Akira Shibata641 views
niconicoにおける継続的なデータ活用のためのHadoop運用事例 by Makoto SHIMURA
niconicoにおける継続的なデータ活用のためのHadoop運用事例niconicoにおける継続的なデータ活用のためのHadoop運用事例
niconicoにおける継続的なデータ活用のためのHadoop運用事例
Makoto SHIMURA1.6K views
Map reduce programming model to solve graph problems by Nishant Gandhi
Map reduce programming model to solve graph problemsMap reduce programming model to solve graph problems
Map reduce programming model to solve graph problems
Nishant Gandhi5.9K views
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか by Shiroyagi Corporation
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
20161112 第17回 全脳アーキテクチャ若手の会 勉強会 カジュアルトーク 「AI技術をサービスで活用するには?」 アディッシュ池谷 by Masao Ikeya
20161112 第17回 全脳アーキテクチャ若手の会 勉強会 カジュアルトーク 「AI技術をサービスで活用するには?」 アディッシュ池谷20161112 第17回 全脳アーキテクチャ若手の会 勉強会 カジュアルトーク 「AI技術をサービスで活用するには?」 アディッシュ池谷
20161112 第17回 全脳アーキテクチャ若手の会 勉強会 カジュアルトーク 「AI技術をサービスで活用するには?」 アディッシュ池谷
Masao Ikeya2.8K views
ログ分析で支えるゲームパラメータ設計 #denatechcon by DeNA
ログ分析で支えるゲームパラメータ設計 #denatechconログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechcon
DeNA10.2K views
AiとIoTによる産業最適化と社会問題解決 by Osaka University
AiとIoTによる産業最適化と社会問題解決AiとIoTによる産業最適化と社会問題解決
AiとIoTによる産業最適化と社会問題解決
Osaka University5.7K views

Similar to 20150421 日経ビッグデータカンファレンス

「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史 by
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史Leading Edge Co.,Ltd.
1.3K views47 slides
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day by
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study DayRidge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study DayDeep Learning Lab(ディープラーニング・ラボ)
487 views21 slides
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの... by
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...Deep Learning Lab(ディープラーニング・ラボ)
2.8K views30 slides
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料 by
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料Ridge-i
957 views42 slides
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例 by
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例秀 齊藤
5.9K views29 slides
オープンデータのAPI利用と開発 by
オープンデータのAPI利用と開発オープンデータのAPI利用と開発
オープンデータのAPI利用と開発Hiroyuki Ichikawa
579 views14 slides

Similar to 20150421 日経ビッグデータカンファレンス(20)

「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史 by Leading Edge Co.,Ltd.
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料 by Ridge-i
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料
[GTC 2018] GTCテクニカルセッション_0913 Ridge-i発表資料
Ridge-i957 views
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例 by 秀 齊藤
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
秀 齊藤5.9K views
オープンデータのAPI利用と開発 by Hiroyuki Ichikawa
オープンデータのAPI利用と開発オープンデータのAPI利用と開発
オープンデータのAPI利用と開発
Hiroyuki Ichikawa579 views
Startup science 2018 4 ビジネスモデルの型とPlanAの作成 by Masa Tadokoro
Startup science 2018 4 ビジネスモデルの型とPlanAの作成Startup science 2018 4 ビジネスモデルの型とPlanAの作成
Startup science 2018 4 ビジネスモデルの型とPlanAの作成
Masa Tadokoro133.7K views
[GTC 2018] Inception Award Ridge-i発表資料 by Ridge-i
[GTC 2018] Inception Award Ridge-i発表資料[GTC 2018] Inception Award Ridge-i発表資料
[GTC 2018] Inception Award Ridge-i発表資料
Ridge-i454 views
保育園でAIを使ってみた! by 佳孝 中田
保育園でAIを使ってみた!保育園でAIを使ってみた!
保育園でAIを使ってみた!
佳孝 中田396 views
Tableau Developers Club Season2 - 外部サービス連携デモ by Kenji Noguchi
Tableau Developers Club Season2 - 外部サービス連携デモ Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
Kenji Noguchi895 views
2015 07-23 Tokyo Realm Meetup by Niko Yuwono
2015 07-23 Tokyo Realm Meetup2015 07-23 Tokyo Realm Meetup
2015 07-23 Tokyo Realm Meetup
Niko Yuwono1.5K views
Tableau data science_20190627_distribute by Masabumi Furuhata
Tableau data science_20190627_distributeTableau data science_20190627_distribute
Tableau data science_20190627_distribute
Masabumi Furuhata1.7K views
拝啓、プロダクトオーナー様。 by toshihiro ichitani
拝啓、プロダクトオーナー様。拝啓、プロダクトオーナー様。
拝啓、プロダクトオーナー様。
拝啓、プロダクトオーナー様。 by GuildWorks
拝啓、プロダクトオーナー様。拝啓、プロダクトオーナー様。
拝啓、プロダクトオーナー様。
GuildWorks280 views
2016年度コーポレートフェローシップ活動報告(山本さん) by Code for Japan
2016年度コーポレートフェローシップ活動報告(山本さん)2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)
Code for Japan747 views
2018年12月15日 AITC女子会 顔認識を活用したセミナー参加者の満足度分析 by aitc_jp
2018年12月15日 AITC女子会 顔認識を活用したセミナー参加者の満足度分析2018年12月15日 AITC女子会 顔認識を活用したセミナー参加者の満足度分析
2018年12月15日 AITC女子会 顔認識を活用したセミナー参加者の満足度分析
aitc_jp334 views
20190606_ml_and_buisiness by Yoichi Tokita
20190606_ml_and_buisiness20190606_ml_and_buisiness
20190606_ml_and_buisiness
Yoichi Tokita240 views

More from Akira Shibata

W&B monthly meetup#7 Intro.pdf by
W&B monthly meetup#7 Intro.pdfW&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdfAkira Shibata
738 views14 slides
20230705 - Optuna Integration (to share).pdf by
20230705 - Optuna Integration (to share).pdf20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdfAkira Shibata
103 views15 slides
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf by
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfAkira Shibata
759 views29 slides
LLM Webinar - シバタアキラ to share.pdf by
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfAkira Shibata
332 views10 slides
W&B Seminar #4.pdf by
W&B Seminar #4.pdfW&B Seminar #4.pdf
W&B Seminar #4.pdfAkira Shibata
448 views11 slides
Kaggle and data science by
Kaggle and data scienceKaggle and data science
Kaggle and data scienceAkira Shibata
1.1K views29 slides

More from Akira Shibata(11)

W&B monthly meetup#7 Intro.pdf by Akira Shibata
W&B monthly meetup#7 Intro.pdfW&B monthly meetup#7 Intro.pdf
W&B monthly meetup#7 Intro.pdf
Akira Shibata738 views
20230705 - Optuna Integration (to share).pdf by Akira Shibata
20230705 - Optuna Integration (to share).pdf20230705 - Optuna Integration (to share).pdf
20230705 - Optuna Integration (to share).pdf
Akira Shibata103 views
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf by Akira Shibata
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
Akira Shibata759 views
LLM Webinar - シバタアキラ to share.pdf by Akira Shibata
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdf
Akira Shibata332 views
Kaggle and data science by Akira Shibata
Kaggle and data scienceKaggle and data science
Kaggle and data science
Akira Shibata1.1K views
PyData NYC by Akira Shibata by Akira Shibata
PyData NYC by Akira ShibataPyData NYC by Akira Shibata
PyData NYC by Akira Shibata
Akira Shibata31.2K views
20141127 py datatokyomeetup2 by Akira Shibata
20141127 py datatokyomeetup220141127 py datatokyomeetup2
20141127 py datatokyomeetup2
Akira Shibata1.5K views
Analysis Software Benchmark by Akira Shibata
Analysis Software BenchmarkAnalysis Software Benchmark
Analysis Software Benchmark
Akira Shibata732 views
Top quark physics at the LHC by Akira Shibata
Top quark physics at the LHCTop quark physics at the LHC
Top quark physics at the LHC
Akira Shibata1.4K views

20150421 日経ビッグデータカンファレンス

  • 1. Copyright 2014 Shiroyagi Corporation. All rights reserved. シバタアキラ, Ph.D. 世界最大級分析モデルコンペ 「Kaggle」の最新動向 白ヤギコーポレーション 堅田洋資 白ヤギコーポレーション 田中秀樹 PyData.Tokyo
  • 2. Copyright 2015 Shiroyagi Corporation. All rights reserved. 2 PyData.Tokyoかなり盛り上がってます シバタアキラ, Ph.D. @madyagi • 2013 -:CEO @白ヤギコーポレーション • カメリオ : 人工知能型キュレーションニュースアプリ • カメリオ API: コンテンツレコメンデーション API • 2010 - 2013: 戦略コンサルティング @BCG • 2007 - 2010: データサイエンティスト @NYU • ヒッグス粒子の発見のためのデータ解析 @LHC, CERN • 2004 - 2007: Ph.D. 高エネルギー物理学 @London大学
  • 3. Copyright 2014 Shiroyagi Corporation. All rights reserved. 3 ビッグデータ データ 機械学習 ディープラーニング KPI 人工知能 Hadoop AWS 統計モデリング IoT オープンデータ 予測モデル データサイエンティスト 自然言語処理 Apache Spark 統計学 ニューラルネットワーク ニューラルネットワーク ログ解析 Python グロースハック
  • 4. Copyright 2015 Shiroyagi Corporation. All rights reserved. 4 PyData.Tokyo:
 データサイエンティストのためのコミュニティー
  • 5. Copyright 2015 Shiroyagi Corporation. All rights reserved. 5 これまでの活動 30人の座席にに毎回百人近い応募 • ディープラーニング • 分散型機械学習 • データ解析インフラ などの旬なテーマを扱い、毎回その 分野で活躍するデータサイエンティ ストにご登壇いただいています。 実際に現場で活躍するデータサイエ ンティストによる「濃い」議論が毎 回繰り広げられます。
  • 6. Copyright 2015 Shiroyagi Corporation. All rights reserved. 6 イベントは渋谷のデンソーアイティーラボラトリにて開催 PyData.Tokyoチュートリアルの様子
  • 7. Copyright 2015 Shiroyagi Corporation. All rights reserved. 7 タイタニックの生存者予測
  • 8. Copyright 2015 Shiroyagi Corporation. All rights reserved. 8 イベント詳細は連載中
  • 9. Copyright 2015 Shiroyagi Corporation. All rights reserved. 9 Kaggleとは(kaggle.com) 企業とデータサイエンティストとをつなぐ新しい仕組み
  • 10. Copyright 2015 Shiroyagi Corporation. All rights reserved. 10 Kaggleのコンペの種類(一部) Featured: 企業がデータを公開し、参加者は予測モデルの精度 を競う。チームでの参加も可能で、上位参加者には賞金。 Research: 科学的なデータの分析コンペ。入賞者は、賞金に 加え学会へ招待されることも。 Masters: 総合ランキング上位のデータサイエンティストが招 待参加。ほぼ全員に報酬が支払われる。 Recruiting: 企業が採用目的で行うコンペ。参加者は匿名的に エントリーすることができる。
  • 11. Copyright 2015 Shiroyagi Corporation. All rights reserved. 11 現在のアクティブコンペ Featured Recruiting Research
  • 12. Copyright 2015 Shiroyagi Corporation. All rights reserved. 12 データサイエンティスト @白ヤギコーポレーション その他 15コンペに参加 • Kaggle歴: 2年 • University of San Franciscoの
 MS in Analyticsに留学 • 大学ではデータサイエンス専攻 堅田 洋資
  • 13. Copyright 2015 Shiroyagi Corporation. All rights reserved. 13 田中 秀樹 上位0.1%
  • 14. Copyright 2015 Shiroyagi Corporation. All rights reserved. 14 たった137店舗のデータで100,000店舗の売上を予測 賞金:$30,000 (約360万円) 参加者:1,714チーム(4/17時点) ファストフードレストランの売上予測
  • 15. Copyright 2015 Shiroyagi Corporation. All rights reserved. 15 ・・・ 丁寧な異常値除去で現在97位/1714位
  • 16. Copyright 2015 Shiroyagi Corporation. All rights reserved. 16 ヒッグス機械学習チャレンジ
  • 17. Copyright 2015 Shiroyagi Corporation. All rights reserved. 17 ヒッグス機械学習チャレンジ
  • 18. Copyright 2015 Shiroyagi Corporation. All rights reserved. 18 犬 vs 猫
  • 19. Copyright 2015 Shiroyagi Corporation. All rights reserved. 19 Training Test : 25,000 images : 12,500 images
  • 20. Copyright 2015 Shiroyagi Corporation. All rights reserved. 20 Deep Learningの研究者@NYU GPUのエンジニア@NVIDIA Deep Learningの研究者 Deep Learningで圧倒的な成果
  • 21. Copyright 2015 Shiroyagi Corporation. All rights reserved. 21 Walmartの商品の売上予測 過去の実績と天気から 店舗別・日別・アイテム別で販売個数を予測する 賞品:ウォルマートでのデータサイエンティスト職(※インタビュー後) 参加者:194チーム(4/17時点)
  • 22. Copyright 2015 Shiroyagi Corporation. All rights reserved. 22 Skills  required:     • Knowledge  of  applied  statistics,  including  regression  models.     • Knowledge  of  SQL  and  Python.     • Knowledge  of  data  analysis  with  Python  or  R.     • Knowledge  of  Java.     • Experience  in  Hadoop  or  other  MapReduce  paradigms  and   associated  languages  such  as  Hive  or  Pig. ウォルマート(US) Data scientistに求めるスキル Kaggleを採用活動に使うメリット ツールが使える人材は増えてきた 結果が出せる人材はどこにいるか?
  • 23. Copyright 2015 Shiroyagi Corporation. All rights reserved. 23 Job Board
  • 24. Copyright 2015 Shiroyagi Corporation. All rights reserved. 24 @ 一緒にプレイしてくれる データサイエンティストを募集中!