SlideShare a Scribd company logo
1 of 15
Download to read offline
本(提案)書に含まれる情報は、貴社内部のご検討、評価の目的のために提供されるものです。貴社内でのご使用、複製、開示はこの目的のために必要な範囲でのみお願いいたします。 貴社との間で正式な契約が成立した場合には、
それに従ってこれをお取り扱い願います。なお、貴社にて既に取得されている情報については、これらの制限は及びません。
Copyright © 2018 ITOCHU Techno-Solutions Corporation
2018年11月14日
TDAを使ったタイタニック生存者予測
Page 0
Copyright © 2018 ITOCHU Techno-Solutions Corporation
タイタニックについて
Page 1
タイタニックについて
 映画にもなっている、有名な『タイタニック』です。
 1912年の航海中、氷山に接触し沈没しました。
 約2500人の乗客の中で、犠牲者数は約1500人。
Copyright © 2018 ITOCHU Techno-Solutions Corporation
 図形や空間の本質(普遍性)をとらえる
何をもって同相とみなすか。。
合同 ⇒大きさ/長さ/角度
相似 ⇒長さの比/角度
TDAについて
Page 2
 位相的幾何学を使った分析手法
TDA(Topological Data Analysis)とは
 図形や空間の性質を考えること
タイタニック
タイタニック
一緒
一緒
一緒
トポロジーで考えると。。
位相 ⇒可逆性(有限性/連続性/穴の数)
Copyright © 2018 ITOCHU Techno-Solutions Corporation
今回のテーマ
 タイタニック号の乗客データをTDAで分析しました。
Page 3
TDAタイタニック
Copyright © 2018 ITOCHU Techno-Solutions Corporation
1. データを作ります
Page 4
Copyright © 2018 ITOCHU Techno-Solutions Corporation
データプリパレーション
Kaggleの「タイタニック生存者予
測」のデータセットを使います。
Page 5
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
8 Survived 生死 int64 0:No, 1:Yes
目
説
 データ件数:712
 説明変数項目:7
 目的変数:1
目的変数と関係
ない変数は除外
欠損値を含
む行は削除
Copyright © 2018 ITOCHU Techno-Solutions Corporation
データ
ヒストグラムの確認
Page 6
Copyright © 2018 ITOCHU Techno-Solutions Corporation
2. TDAで可視化します
Page 7
2. 分析
Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 8
TDAをどう使うか
55
60
65
70
75
80
85
90
140 160 180 200
身長
体重
単純なデータは
可視化できる
項目が多い複雑
なデータは?
TDAで可視化
Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 9
Survived
タイタニックの
データ
TDAで可視化
複雑なデータを位相空間で可視化する
⇒データの持つ特徴の距離が近いものを集合として可視化
TDAの使い方
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
Survived 生死 int64 0:No, 1:Yes
データの形と
色の付き方で
見る
Copyright © 2018 ITOCHU Techno-Solutions Corporation Page 10
Female
Survived
Fare
TDA(PCA ⇒TDA )
男/女で
色付け
運賃で
色付け
生/死で
色付け
色の付き方が似ている
⇒「性別」と「運賃」に相関がありそう
Copyright © 2018 ITOCHU Techno-Solutions Corporation
3. Deep Learningによる分析
Page 11
Copyright © 2018 ITOCHU Techno-Solutions Corporation
confusion_matrix:
[[ 39 4 ]
[ 11 18 ]]
classification_report:
Precision recall f1-score support
0 0.78 0.91 0.84 43
1 0.82 0.62 0.71 29
avg / total 0.80 0.79 0.79 72
生/死予測
Page 12
# model
sequential = rm.Sequential([
rm.Dense(30),
rm.BatchNormalize(),
rm.Dropout(dropout_ratio=0.5),
rm.Relu(),
rm.Dense(5),
rm.BatchNormalize(),
rm.Relu(),
rm.Dense(2),
])
DeepLearningで分類
Pclass Age SibSp Parch Fare female male C Q S
1 58 0 1 153.4625 1 0 0 0 1
1 23 0 1 63.3583 0 1 1 0 0
1 36 0 0 135.6333 1 0 1 0 0
1 23 3 2 263 1 0 0 0 1
2 4 1 1 23 1 0 0 0 1
1 38 1 0 71.2833 1 0 1 0 0
3 29 0 2 15.2458 1 0 1 0 0
1 16 0 1 39.4 1 0 0 0 1
3 0.75 2 1 19.2583 1 0 1 0 0
1 18 1 0 227.525 1 0 1 0 0
1 21 2 2 262.375 1 0 1 0 0
1 22 0 0 151.55 1 0 0 0 1
1 18 0 2 79.65 1 0 0 0 1
3 31 0 0 8.6833 1 0 0 0 1
2 0.67 1 1 14.5 0 1 0 0 1
1 36 0 1 512.3292 0 1 1 0 0
1 36 1 2 120 1 0 0 0 1
1 52 1 0 78.2667 1 0 1 0 0
性別と運賃の影
響をある程度学
習できている
予測:arrive
実際:arrive
Copyright © 2018 ITOCHU Techno-Solutions Corporation
まとめ
Page 13
データ加工
TDAによる可視化
分類/予測
データ加工
分類/予測
TDAとは
TDAの意味/メリット
 データ分析の計画ができる(仮説ができる)
 高次元的にデータの特徴/関連性が可視化できる
仮説、分析方針
PCA TDA
Copyright © 2018 ITOCHU Techno-Solutions Corporation
ありがとうございました
Page 14

More Related Content

More from Yutaka Terasawa

More from Yutaka Terasawa (6)

20180717 unsupervised learning
20180717 unsupervised learning20180717 unsupervised learning
20180717 unsupervised learning
 
20180717 zeal
20180717 zeal20180717 zeal
20180717 zeal
 
20180717 the average
20180717 the average20180717 the average
20180717 the average
 
20180717 opening
20180717 opening20180717 opening
20180717 opening
 
Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713Wg for ai_dev_ops_20180713
Wg for ai_dev_ops_20180713
 
Wg for edu_20180713
Wg for edu_20180713Wg for edu_20180713
Wg for edu_20180713
 

Recently uploaded

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (14)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

20181114 TDAを使ったタイタニック生存者分析

  • 2. Copyright © 2018 ITOCHU Techno-Solutions Corporation タイタニックについて Page 1 タイタニックについて  映画にもなっている、有名な『タイタニック』です。  1912年の航海中、氷山に接触し沈没しました。  約2500人の乗客の中で、犠牲者数は約1500人。
  • 3. Copyright © 2018 ITOCHU Techno-Solutions Corporation  図形や空間の本質(普遍性)をとらえる 何をもって同相とみなすか。。 合同 ⇒大きさ/長さ/角度 相似 ⇒長さの比/角度 TDAについて Page 2  位相的幾何学を使った分析手法 TDA(Topological Data Analysis)とは  図形や空間の性質を考えること タイタニック タイタニック 一緒 一緒 一緒 トポロジーで考えると。。 位相 ⇒可逆性(有限性/連続性/穴の数)
  • 4. Copyright © 2018 ITOCHU Techno-Solutions Corporation 今回のテーマ  タイタニック号の乗客データをTDAで分析しました。 Page 3 TDAタイタニック
  • 5. Copyright © 2018 ITOCHU Techno-Solutions Corporation 1. データを作ります Page 4
  • 6. Copyright © 2018 ITOCHU Techno-Solutions Corporation データプリパレーション Kaggleの「タイタニック生存者予 測」のデータセットを使います。 Page 5 変数 意味 型 内訳 PassengerId ID int64 1~891 1 Pclass 客室グレード int64 1~3 Name 名前 object 2 Sex 性別 object male:男, female:女 3 Age 年齢 float64 0.42~80 4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8 5 Parch 乗船していた親・子供の数 int64 0~6 Ticket チケット番号 object 6 Fare 運賃 float64 0~512.3292 Cabin 客室番号 object 7 Embarked 乗船した港 object C:Cherbourg(フランス) Q:Queenstown(アイルランド) S:Southampton(アメリカ) 8 Survived 生死 int64 0:No, 1:Yes 目 説  データ件数:712  説明変数項目:7  目的変数:1 目的変数と関係 ない変数は除外 欠損値を含 む行は削除
  • 7. Copyright © 2018 ITOCHU Techno-Solutions Corporation データ ヒストグラムの確認 Page 6
  • 8. Copyright © 2018 ITOCHU Techno-Solutions Corporation 2. TDAで可視化します Page 7 2. 分析
  • 9. Copyright © 2018 ITOCHU Techno-Solutions Corporation TDAを使った可視化 Page 8 TDAをどう使うか 55 60 65 70 75 80 85 90 140 160 180 200 身長 体重 単純なデータは 可視化できる 項目が多い複雑 なデータは? TDAで可視化
  • 10. Copyright © 2018 ITOCHU Techno-Solutions Corporation TDAを使った可視化 Page 9 Survived タイタニックの データ TDAで可視化 複雑なデータを位相空間で可視化する ⇒データの持つ特徴の距離が近いものを集合として可視化 TDAの使い方 変数 意味 型 内訳 PassengerId ID int64 1~891 1 Pclass 客室グレード int64 1~3 Name 名前 object 2 Sex 性別 object male:男, female:女 3 Age 年齢 float64 0.42~80 4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8 5 Parch 乗船していた親・子供の数 int64 0~6 Ticket チケット番号 object 6 Fare 運賃 float64 0~512.3292 Cabin 客室番号 object 7 Embarked 乗船した港 object C:Cherbourg(フランス) Q:Queenstown(アイルランド) S:Southampton(アメリカ) Survived 生死 int64 0:No, 1:Yes データの形と 色の付き方で 見る
  • 11. Copyright © 2018 ITOCHU Techno-Solutions Corporation Page 10 Female Survived Fare TDA(PCA ⇒TDA ) 男/女で 色付け 運賃で 色付け 生/死で 色付け 色の付き方が似ている ⇒「性別」と「運賃」に相関がありそう
  • 12. Copyright © 2018 ITOCHU Techno-Solutions Corporation 3. Deep Learningによる分析 Page 11
  • 13. Copyright © 2018 ITOCHU Techno-Solutions Corporation confusion_matrix: [[ 39 4 ] [ 11 18 ]] classification_report: Precision recall f1-score support 0 0.78 0.91 0.84 43 1 0.82 0.62 0.71 29 avg / total 0.80 0.79 0.79 72 生/死予測 Page 12 # model sequential = rm.Sequential([ rm.Dense(30), rm.BatchNormalize(), rm.Dropout(dropout_ratio=0.5), rm.Relu(), rm.Dense(5), rm.BatchNormalize(), rm.Relu(), rm.Dense(2), ]) DeepLearningで分類 Pclass Age SibSp Parch Fare female male C Q S 1 58 0 1 153.4625 1 0 0 0 1 1 23 0 1 63.3583 0 1 1 0 0 1 36 0 0 135.6333 1 0 1 0 0 1 23 3 2 263 1 0 0 0 1 2 4 1 1 23 1 0 0 0 1 1 38 1 0 71.2833 1 0 1 0 0 3 29 0 2 15.2458 1 0 1 0 0 1 16 0 1 39.4 1 0 0 0 1 3 0.75 2 1 19.2583 1 0 1 0 0 1 18 1 0 227.525 1 0 1 0 0 1 21 2 2 262.375 1 0 1 0 0 1 22 0 0 151.55 1 0 0 0 1 1 18 0 2 79.65 1 0 0 0 1 3 31 0 0 8.6833 1 0 0 0 1 2 0.67 1 1 14.5 0 1 0 0 1 1 36 0 1 512.3292 0 1 1 0 0 1 36 1 2 120 1 0 0 0 1 1 52 1 0 78.2667 1 0 1 0 0 性別と運賃の影 響をある程度学 習できている 予測:arrive 実際:arrive
  • 14. Copyright © 2018 ITOCHU Techno-Solutions Corporation まとめ Page 13 データ加工 TDAによる可視化 分類/予測 データ加工 分類/予測 TDAとは TDAの意味/メリット  データ分析の計画ができる(仮説ができる)  高次元的にデータの特徴/関連性が可視化できる 仮説、分析方針 PCA TDA
  • 15. Copyright © 2018 ITOCHU Techno-Solutions Corporation ありがとうございました Page 14