More Related Content
More from Yutaka Terasawa
More from Yutaka Terasawa (6)
20181114 TDAを使ったタイタニック生存者分析
- 2. Copyright © 2018 ITOCHU Techno-Solutions Corporation
タイタニックについて
Page 1
タイタニックについて
映画にもなっている、有名な『タイタニック』です。
1912年の航海中、氷山に接触し沈没しました。
約2500人の乗客の中で、犠牲者数は約1500人。
- 3. Copyright © 2018 ITOCHU Techno-Solutions Corporation
図形や空間の本質(普遍性)をとらえる
何をもって同相とみなすか。。
合同 ⇒大きさ/長さ/角度
相似 ⇒長さの比/角度
TDAについて
Page 2
位相的幾何学を使った分析手法
TDA(Topological Data Analysis)とは
図形や空間の性質を考えること
タイタニック
タイタニック
一緒
一緒
一緒
トポロジーで考えると。。
位相 ⇒可逆性(有限性/連続性/穴の数)
- 4. Copyright © 2018 ITOCHU Techno-Solutions Corporation
今回のテーマ
タイタニック号の乗客データをTDAで分析しました。
Page 3
TDAタイタニック
- 6. Copyright © 2018 ITOCHU Techno-Solutions Corporation
データプリパレーション
Kaggleの「タイタニック生存者予
測」のデータセットを使います。
Page 5
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
8 Survived 生死 int64 0:No, 1:Yes
目
説
データ件数:712
説明変数項目:7
目的変数:1
目的変数と関係
ない変数は除外
欠損値を含
む行は削除
- 8. Copyright © 2018 ITOCHU Techno-Solutions Corporation
2. TDAで可視化します
Page 7
2. 分析
- 9. Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 8
TDAをどう使うか
55
60
65
70
75
80
85
90
140 160 180 200
身長
体重
単純なデータは
可視化できる
項目が多い複雑
なデータは?
TDAで可視化
- 10. Copyright © 2018 ITOCHU Techno-Solutions Corporation
TDAを使った可視化
Page 9
Survived
タイタニックの
データ
TDAで可視化
複雑なデータを位相空間で可視化する
⇒データの持つ特徴の距離が近いものを集合として可視化
TDAの使い方
変数 意味 型 内訳
PassengerId ID int64 1~891
1 Pclass 客室グレード int64 1~3
Name 名前 object
2 Sex 性別 object male:男, female:女
3 Age 年齢 float64 0.42~80
4 SibSp 乗船していた兄弟・配偶者の数 int64 0~8
5 Parch 乗船していた親・子供の数 int64 0~6
Ticket チケット番号 object
6 Fare 運賃 float64 0~512.3292
Cabin 客室番号 object
7 Embarked 乗船した港 object C:Cherbourg(フランス)
Q:Queenstown(アイルランド)
S:Southampton(アメリカ)
Survived 生死 int64 0:No, 1:Yes
データの形と
色の付き方で
見る
- 11. Copyright © 2018 ITOCHU Techno-Solutions Corporation Page 10
Female
Survived
Fare
TDA(PCA ⇒TDA )
男/女で
色付け
運賃で
色付け
生/死で
色付け
色の付き方が似ている
⇒「性別」と「運賃」に相関がありそう
- 12. Copyright © 2018 ITOCHU Techno-Solutions Corporation
3. Deep Learningによる分析
Page 11
- 13. Copyright © 2018 ITOCHU Techno-Solutions Corporation
confusion_matrix:
[[ 39 4 ]
[ 11 18 ]]
classification_report:
Precision recall f1-score support
0 0.78 0.91 0.84 43
1 0.82 0.62 0.71 29
avg / total 0.80 0.79 0.79 72
生/死予測
Page 12
# model
sequential = rm.Sequential([
rm.Dense(30),
rm.BatchNormalize(),
rm.Dropout(dropout_ratio=0.5),
rm.Relu(),
rm.Dense(5),
rm.BatchNormalize(),
rm.Relu(),
rm.Dense(2),
])
DeepLearningで分類
Pclass Age SibSp Parch Fare female male C Q S
1 58 0 1 153.4625 1 0 0 0 1
1 23 0 1 63.3583 0 1 1 0 0
1 36 0 0 135.6333 1 0 1 0 0
1 23 3 2 263 1 0 0 0 1
2 4 1 1 23 1 0 0 0 1
1 38 1 0 71.2833 1 0 1 0 0
3 29 0 2 15.2458 1 0 1 0 0
1 16 0 1 39.4 1 0 0 0 1
3 0.75 2 1 19.2583 1 0 1 0 0
1 18 1 0 227.525 1 0 1 0 0
1 21 2 2 262.375 1 0 1 0 0
1 22 0 0 151.55 1 0 0 0 1
1 18 0 2 79.65 1 0 0 0 1
3 31 0 0 8.6833 1 0 0 0 1
2 0.67 1 1 14.5 0 1 0 0 1
1 36 0 1 512.3292 0 1 1 0 0
1 36 1 2 120 1 0 0 0 1
1 52 1 0 78.2667 1 0 1 0 0
性別と運賃の影
響をある程度学
習できている
予測:arrive
実際:arrive
- 14. Copyright © 2018 ITOCHU Techno-Solutions Corporation
まとめ
Page 13
データ加工
TDAによる可視化
分類/予測
データ加工
分類/予測
TDAとは
TDAの意味/メリット
データ分析の計画ができる(仮説ができる)
高次元的にデータの特徴/関連性が可視化できる
仮説、分析方針
PCA TDA