SlideShare a Scribd company logo
1 of 40
Download to read offline
各都道府県における
がんと健康に関する分析
概要
• 平成25年における40~74歳男性のがんによる死亡者数および
特定検診の診断結果を都道府県ごとに分析し、がんと健康の
関係性を考察する。
• ⼈⼝100⼈あたりのがんによる死亡者数と、それに関連があり
そうな診断結果5項⽬を変数として、どの項⽬がより死亡者数
に影響しているかを考察する。
変数の説明
使⽤した変数は以下の通り。
・⼈⼝100⼈あたりのがんによる死亡者数
・BMI
・拡張期⾎圧
・中性脂肪 特定検診の診断結果
・LDLコレステロール
・ガンマGT
単回帰分析
設定
• 100⼈あたりのがんによる死亡者数を
⽬的変数として、BMI、拡張期⾎圧、
中性脂肪、LDLコレステロールおよび
ガンマGTの診断結果を説明変数とする。
分析結果
BMI 拡張期⾎圧 中性脂肪
分析結果
LDLコレステロール ガンマGT
考察
• グラフより、ガンマGTが⽬的変数に最も影響を与えやすいと考
えられる。また、グラフが右肩上がりであることから、ガンマ
GTの数値が⾼いほどがんによる死亡率も⾼くなるといえる。
• 右の表の⾃由度調整済み寄与率を
⾒ても、ガンマGTが他の4変数に
⽐べて極めて強い影響⼒を持って
いることがわかる。
変数 p値 有意性(% ) 自由度調整済み寄与率
B M I 0.8409 -0.0213
拡張期血圧 0.154 0.0234
中性脂肪 0.2401 0.008989
LD Lコレステロール 0.3064 10 0.001529
ガンマG T 1.57×10-7
0.1 0.4488
重回帰分析
分析結果
Call:
lm(formula = math$平均 ~ math$BMI + math$拡張期血圧 + math$中性脂肪 +
math$LDLコレステロール + math$ガンマ GT)
Residuals:
Min 1Q Median 3Q Max
-5.011e-04 -1.555e-04 3.116e-05 1.491e-04 4.392e-04
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.512e-03 6.986e-03 1.218 0.2300
math$BMI -2.984e-04 1.700e-04 -1.755 0.0867 .
math$拡張期血圧 -3.444e-05 4.911e-05 -0.701 0.4871
math$中性脂肪 -7.465e-07 1.247e-05 -0.060 0.9525
math$LDLコレステロール 4.696e-06 2.719e-05 0.173 0.8637
math$ガンマ GT 7.983e-05 1.326e-05 6.023 4.02e-07 ***
---
Signif. codes: 0 ʻ***ʼ 0.001 ʻ**ʼ 0.01 ʻ*ʼ 0.05 ʻ.ʼ 0.1 ʻ ʼ 1
Residual standard error: 0.000231 on 41 degrees of freedom
Multiple R-squared: 0.5216, Adjusted R-squared: 0.4633
F-statistic: 8.942 on 5 and 41 DF, p-value: 8.334e-06
*** : 0.1%有意, ** :1%有意, * : 5%有意, . : 10%有意
考察
• グラフを⾒ると、⼤まかに右肩
上がりの直線が引けるような
分布になっていることがわかる。
このことから、今後のがんによる
死亡者数のデータを予測できる
と考えられる。
考察
• 右下の表より、ガンマGTのt値が最も⾼く、これが平均への
寄与率が最も⾼い成分であることが読み取れる。
• P値も4.02e-07 ***と有意⽔準の⾼い数値であるため、
ガンマGTは⽬的変数の
予測に極めて有効な
成分であるといえる。
変数 Estim ate Std.Error(標準偏差) tvalue(i値) p値
(Intercept) 8.512E-03 6.986E-03 1.218 0.2300
B M I -2.984E-04 1.700E-04 -1.755 0.0867
拡張期血圧 -3.444E-05 4.911E-05 -0.701 0.4871
中性脂肪 -7.465E-07 1.247E-05 -0.060 0.9525
LD Lコレステロール 4.696E-06 2.719E-05 0.173 0.8637
ガンマG T 7.983E-05 1.326E-05 6.023 4.02e-07 ***
考察
• 100⼈あたりのがんによる死亡者数はガンマGTの診断結果に
よって最も説明できる。
• ガンマGTの次に寄与率が⾼い項⽬はBMIであると考えられる。
主成分分析
分析結果
第1主成分 第2主成分 第3主成分 第4主成分 第5主成分
固有値 2.350574 1.104867 0.658039 0.540144 0.346376
寄与率 0.470115 0.220973 0.131608 0.108029 0.069275
累積寄与率 0.470115 0.691088 0.822696 0.930725 1
検査値5変数での主成分分析の結果
選択基準に従い、第2主成分まで選択
分析結果
因⼦負荷量散布図 主成分得点散布図
※●は東京都
考察
因⼦負荷量散布図より
1)LDLが第1主成分に与える影響が最も強い。しかし、他変数についてはど
とんど相関がない。
2)拡張期⾎圧が第2主成分に与える影響が最も強く、2番⽬にガンマGTが
強い。
主成分得点散布図より
3)⿊丸で⽰す東京都は平均的な分布である。
考察
⼀般にLDLが⾼い原因としてアルコール
摂取量のとり過ぎや、⾁や脂質の多い⾷
⽣活が挙げられる。従って、第1主成分
の軸解釈はアルコールや脂質のとり過ぎ
であると推測する。
また、拡張期⾎圧の主な原因は脂質異常
である。ガンマGTは肝機能障害であるた
め、第2主成分の軸解釈は⽣活習慣病で
あると考える。
判別分析
概要
がんによる死亡の要因って何?
概要
健康診断は毎年受けてるけど…
がん検診も受けたほうがいい?
概要
知りたい…
知りたい…
知りたい…
知りたい…
知りたい…
知りたい…
概要
そうだ…判別分析しよう!!
概要
群の境界:都道府県別⼈⼝当たりの
がんによる死亡者数の平均値
平均値以上・・・1群(22サンプル)
平均値未満・・・2群(25サンプル)
1変数による判別分析
どの変数が最も判別に
寄与しているか?
結果は次のスライドへ
変数名 誤判別率 判別効率
B M I 0.4478 0.0690 0.8071
腹囲 0.4702 0.0223 0.2609
空腹時血糖 0.2723 1.4677 17.1749
H bA 1C (N G SP ) 0.4543 0.0528 0.6181
収縮期血圧 0.3491 0.6012 7.0349
拡張期血圧 0.4915 0.0018 0.0212
中性脂肪 0.3772 0.3917 4.5841
HDLコレステロール 0.4942 0.0009 0.0100
LDLコレステロール 0.3762 0.3978 4.6556
G O T(AST) 0.2822 1.3283 15.5439
G P T(A LT) 0.3740 0.4130 4.8333
γ-G T(γ-G TP ) 0.2652 1.5738 18.4165
ヘモグロビン 0.4793 0.0108 0.1265
1変数による判別分析
結論
誤判別率が低く判別効率が⾼い変数は
γ-GT 空腹時⾎糖 GOT
の順であった
2変数による判別分析
2変数を使うことで
判別精度は向上するのか?
2変数による判別分析
判別に寄与していると考えられる
γ-GT 空腹時⾎糖 GOT
の中から2変数を⽤いる
結果は次のスライドへ
2変数による判別分析
結果⼀覧表
F( 1, 22+25-1-1-1 ; 0.05 )=F( 1, 44 ; 0.05 )=4.06
X1 X2
γ-G T 空腹時血糖 0.2365 2.0589 18.4165 3.8185
γ-G T G O T 0.2583 1.6829 18.4165 0.8589
空腹時血糖 G O T 0.2409 1.9786 17.1749 4.0989
組み合わせた2変数
誤判別率 判別効率 ( X1 ) ( X1 取込後)
( X1 ) ( X2 )
• γ-GT と 空腹時⾎糖
• γ-GT と GOT
• 空腹時⾎糖 と GOT
𝐹"( X1 取込後)= 3.82 < 4.06
→ X2 は判別に寄与しているとはいえない
𝐹"( X1 取込後)= 0.86 < 4.06
→ X2 は判別に寄与しているとはいえない
𝐹"( X1 取込後)= 4.10 > 4.06
→ X2 は判別に寄与している
2変数による判別分析
2変数による判別分析
結論
空腹時⾎糖 と GOT の組み合わせのみ
判別精度が向上したといえる
2変数による判別分析
結果⼀覧表【再掲】
しかし誤判別率と判別効率で考えたとき
γ-GT と 空腹時⾎糖 の2変数を⽤いたときが
最もよい結果となっていた
X1 X2
γ-G T 空腹時血糖 0.2365 2.0589 18.4165 3.8185
γ-G T G O T 0.2583 1.6829 18.4165 0.8589
空腹時血糖 G O T 0.2409 1.9786 17.1749 4.0989
組み合わせた2変数
誤判別率 判別効率 ( X1 ) ( X1 取込後)
考察
1変数で最も判別に寄与していると考えられる
γ-GT と
2変数で最も判別効率が良かった γ-GT と
空腹時⾎糖 の組み合わせと
2変数で判別精度が向上した 空腹時⾎糖 と
GOT の組み合わせで
それぞれの判別表を⽐較した
考察
1変数 γ-GT による判別表
判別的中率:( 15 + 18 ) / 47 = 0.702128 ≈ 70.2 %
平均値以上(1群) 平均値未満(2群)
平均値以上(1群) 15 7 22
平均値未満(2群) 7 18 25
計 22 25 47
判別結果
データ結果 計
考察
2変数 γ-GT と 空腹時⾎糖 による判別表
判別的中率:( 17 + 19 ) / 47 = 0.765957 ≈ 76.6 %
平均値以上(1群) 平均値未満(2群)
平均値以上(1群) 17 5 22
平均値未満(2群) 6 19 25
計 23 24 47
データ結果
判別結果
計
考察
2変数 空腹時⾎糖 と GOT による判別表
判別的中率:( 18 + 19 ) / 47 = 0.787234 ≈ 78.7 %
平均値以上(1群) 平均値未満(2群)
平均値以上(1群) 18 4 22
平均値未満(2群) 6 19 25
計 24 23 47
データ結果
判別結果
計
考察
結果
空腹時⾎糖 と GOT の2変数を
⽤いたときが判別的中率が⾼かった
まとめ
結論
空腹時⾎糖 と GOT の2変数を⽤いることで
精度の⾼い判別分析を⾏うことができる
まとめ
健康診断の結果、
空腹時⾎糖 と GOT の値が
どちらも正常値ではなかったら、
⼀度がん検診を受けてみてください‼

More Related Content

More from Tomoyuki Hioki

【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
Tomoyuki Hioki
 

More from Tomoyuki Hioki (10)

【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 
PRML1.2
PRML1.2PRML1.2
PRML1.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 

Analysis of cancer and health in each prefecture