SlideShare a Scribd company logo
勉強会
データ分析チュートリアル
Kaggleのコンペに参加してみよう
齊藤 史明
総合科学技術研究科 情報学専攻 1年
saito@design.inf.shizuoka.ac.jp 2019年11月5日
1
今回やること
説明
–Kaggleとは?
–どうやって参加するの?
実践:Titanic問題に取り組んでみよう
–PandasのDataFrameを使う
–データの前処理
–scikit-learnを使って機械学習を行う
–特徴量について考える
–matplotlibを使ってグラフを書く
2
今回やらないこと
交差検定とは?
欠損値の詳しい扱い方
機械学習アルゴリズムの解説
精度の出るハイパーパラメータの探索方法
機械学習を学ぶ上で必要ですが
今回は省きます
3
参考文献
コードやコードの説明は下記サイト・
Kernelから引用・一部改変しています
Kaggleに登録したら次にやること ~ これだけやれば十分
闘える!Titanicの先へ行く入門 10 Kernel ~
https://qiita.com/upura/items/3c10ff6fed4e7c3d70f0
4
Kaggleとは?
機械学習のモデルの性能を競うサイト
問題について予測モデルを作る
–価格・売上予測
–スポーツの結果予測
–病気の特定
–交通量予測
50万ドルの賞金が付いた予測モデルも
2017年にGoogleが買収
5
Kaggleとは?
データ分析の勉強に向いている
–学習データが提供される
–参加無料
–コミュニティで相談・先人のコードが見られる
6
どうやって参加するの?
コンペに参加する
説明を読む・データをダウンロード
作業
–特徴量エンジニアリング
–機械学習
など
提出・スコア確認
7
繰り返す
コンペに参加する
8
様々なテーマのコンペが開催されています。
今回は有名なタイタニックの問題に取り組みます。
説明を読む・データをダウンロード
9
ダウンロードできる
データの説明です。
問題の概要です。
データ・特徴量についての
説明です。
タイタニック沈没事故
1912年にイギリスからニューヨークへ
出発した客船が氷山の衝突により沈没した
用意していた避難ボートが少なく
多くの人が犠牲に
女性や子供の脱出を優先したため
性別や年齢による生存率の差がある
10
Titanic問題の概要
ある乗客が事故から生存したかどうかを
データから予測
–名前
–性別
–部屋のクラス
–年齢
など
モデルの予測精度を競う
11
実際の作業
予測モデルを作るために行うこと(簡単に)
データの前処理
–データを機械学習用に変換
–欠損値の処理
特徴量エンジニアリング
–データから使えそうなものを探す
機械学習
–作ったデータで学習器を作る
–作った学習器の性能を測る(今回は触れない)
12
演習
実際に問題を解いてみましょう !
Githubからファイルをダウンロード
https://github.com/FumiakiSaito38/Lab_study_Kaggle
Kaggleの用意している実行環境
「Kernel」にも同様のプログラムがあります
13

More Related Content

What's hot

Hadoopソースリーディング第1回アジェンダ
Hadoopソースリーディング第1回アジェンダHadoopソースリーディング第1回アジェンダ
Hadoopソースリーディング第1回アジェンダ
Shinpei Ohtani
 
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
IchinoseShugo
 

What's hot (19)

アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
Team ai 3
Team ai 3Team ai 3
Team ai 3
 
Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)Rの導入とRStudio事始め(改訂版)
Rの導入とRStudio事始め(改訂版)
 
End to end training with deep visiomotor
End to end training with deep visiomotorEnd to end training with deep visiomotor
End to end training with deep visiomotor
 
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
統計を始める方へ①_データ環境Rの基本的なプログラミング|データアーティスト
 
Sano hmm 20150512
Sano hmm 20150512Sano hmm 20150512
Sano hmm 20150512
 
[第2版] Python機械学習プログラミング 第1章
[第2版] Python機械学習プログラミング 第1章[第2版] Python機械学習プログラミング 第1章
[第2版] Python機械学習プログラミング 第1章
 
Kaggle Drivenな顧客予測への挑戦
Kaggle Drivenな顧客予測への挑戦Kaggle Drivenな顧客予測への挑戦
Kaggle Drivenな顧客予測への挑戦
 
PyData.Fukuoka #1 fixed
PyData.Fukuoka #1 fixedPyData.Fukuoka #1 fixed
PyData.Fukuoka #1 fixed
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
18 minitus発表資料
18 minitus発表資料18 minitus発表資料
18 minitus発表資料
 
機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython機械学習ゴリゴリ派のための数学とPython
機械学習ゴリゴリ派のための数学とPython
 
元BIエバンジェリストが語る!脱獄matplot!
元BIエバンジェリストが語る!脱獄matplot!元BIエバンジェリストが語る!脱獄matplot!
元BIエバンジェリストが語る!脱獄matplot!
 
Hadoop Conference Japan 2009 #2
Hadoop Conference Japan 2009 #2Hadoop Conference Japan 2009 #2
Hadoop Conference Japan 2009 #2
 
Hadoopソースリーディング第1回アジェンダ
Hadoopソースリーディング第1回アジェンダHadoopソースリーディング第1回アジェンダ
Hadoopソースリーディング第1回アジェンダ
 
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
Kincetを用いた鍬動作の初心者と熟練者の比較分析手法の試作
 
Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室Kaggle&競プロ紹介 in 中田研究室
Kaggle&競プロ紹介 in 中田研究室
 
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
 

Similar to 研究室勉強会資料「データ分析チュートリアル」

Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
Yosuke Onoue
 

Similar to 研究室勉強会資料「データ分析チュートリアル」 (20)

「Python 機械学習プログラミング」 の挫折しない読み方
「Python 機械学習プログラミング」の挫折しない読み方「Python 機械学習プログラミング」の挫折しない読み方
「Python 機械学習プログラミング」 の挫折しない読み方
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
 
Un supervised learning
Un supervised learningUn supervised learning
Un supervised learning
 
アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用
 
ChatGPTの驚くべき対話能力 20230414APR.pdf
ChatGPTの驚くべき対話能力 20230414APR.pdfChatGPTの驚くべき対話能力 20230414APR.pdf
ChatGPTの驚くべき対話能力 20230414APR.pdf
 
欠損値について
欠損値について欠損値について
欠損値について
 
TokyoR102_BeginnersSession.pdf
TokyoR102_BeginnersSession.pdfTokyoR102_BeginnersSession.pdf
TokyoR102_BeginnersSession.pdf
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたLLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
 
数理最適化とPython
数理最適化とPython数理最適化とPython
数理最適化とPython
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
 
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
 
AI理論とビジネス 中井眞人氏 20171122
AI理論とビジネス 中井眞人氏 20171122AI理論とビジネス 中井眞人氏 20171122
AI理論とビジネス 中井眞人氏 20171122
 
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
 
テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門テーブルコンペと比べて分かる画像コンペ入門
テーブルコンペと比べて分かる画像コンペ入門
 
[第2版] Python機械学習プログラミング 第3章(~4節)
[第2版] Python機械学習プログラミング 第3章(~4節)[第2版] Python機械学習プログラミング 第3章(~4節)
[第2版] Python機械学習プログラミング 第3章(~4節)
 
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
 

More from ymmt3-lab

ゲーム実況動画のハイライト自動検出
ゲーム実況動画のハイライト自動検出ゲーム実況動画のハイライト自動検出
ゲーム実況動画のハイライト自動検出
ymmt3-lab
 
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
ymmt3-lab
 
DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)
ymmt3-lab
 

More from ymmt3-lab (20)

IR Reading 2020「Studying How Health Literacy Influences Attention during Onli...
IR Reading 2020「Studying How Health Literacy Influences Attention during Onli...IR Reading 2020「Studying How Health Literacy Influences Attention during Onli...
IR Reading 2020「Studying How Health Literacy Influences Attention during Onli...
 
IR Reading 2020春「Effects of Past Interactions on User Experience with Recom...
IR Reading 2020春「Effects of Past Interactions on  User Experience  with Recom...IR Reading 2020春「Effects of Past Interactions on  User Experience  with Recom...
IR Reading 2020春「Effects of Past Interactions on User Experience with Recom...
 
ゲーム実況動画のハイライト自動検出
ゲーム実況動画のハイライト自動検出ゲーム実況動画のハイライト自動検出
ゲーム実況動画のハイライト自動検出
 
卒業研究審査会2019_伊藤
卒業研究審査会2019_伊藤卒業研究審査会2019_伊藤
卒業研究審査会2019_伊藤
 
Soro2019 murata
Soro2019 murataSoro2019 murata
Soro2019 murata
 
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
2019年度卒業研究審査会 発表資料「確証バイアスとウェブ検索行動の関係分析」
 
Research 20200206 nagano
Research 20200206 naganoResearch 20200206 nagano
Research 20200206 nagano
 
Journalclub 20191211 nagano
Journalclub 20191211 naganoJournalclub 20191211 nagano
Journalclub 20191211 nagano
 
Journalclub sato 20191218
Journalclub sato 20191218Journalclub sato 20191218
Journalclub sato 20191218
 
Journal club 20191211_murata
Journal club 20191211_murataJournal club 20191211_murata
Journal club 20191211_murata
 
Journal_club_1120
Journal_club_1120Journal_club_1120
Journal_club_1120
 
ジャーナルクラブ_20191120
ジャーナルクラブ_20191120ジャーナルクラブ_20191120
ジャーナルクラブ_20191120
 
Journalclub sato 20191031
Journalclub sato 20191031Journalclub sato 20191031
Journalclub sato 20191031
 
静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習静岡大学 山本研究室 勉強会資料 機械学習
静岡大学 山本研究室 勉強会資料 機械学習
 
Journal club 20191030 ito
Journal club 20191030 itoJournal club 20191030 ito
Journal club 20191030 ito
 
Journalclub 20191023 nagano
Journalclub 20191023 naganoJournalclub 20191023 nagano
Journalclub 20191023 nagano
 
Journal club 20191023_murata
Journal club 20191023_murataJournal club 20191023_murata
Journal club 20191023_murata
 
DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)DEIM2019発表資料(藤堂晶輝)
DEIM2019発表資料(藤堂晶輝)
 
DEIM2019_horiuchi
DEIM2019_horiuchiDEIM2019_horiuchi
DEIM2019_horiuchi
 
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
DEIM2019 発表資料 「飲食店レビュー情報の集合知分析と意思決定支援」
 

研究室勉強会資料「データ分析チュートリアル」