SlideShare a Scribd company logo
生命保険数理と
Medical Data Science
RGAリインシュアランスカンパニー
データアクチュアリー 青木智広
2019/06/19 PyData.Tokyo #20
1
2
• 青木智広 [Tomohiro Aoki]
• RGAリインシュアランスカンパニー
という再保険会社の日本支店で
『データアクチュアリー』として働く
(2015年7月~)
• 『匿名加工医療データから
生命保険に関連する Insight を抽出し
生命保険商品を開発する』
自己紹介
写真は2018年11月
RGA商品開発セミナー2018登壇時
年2回ほど
生命保険会社向けセミナーに登壇
最近の悩み
GWに作った『Bistro Tokyo』という
YouTubeチャンネルの登録数の
増やし方が分からないこと。
テーマを Cooking Science に
変更予定!(多分)
自己紹介
• 青木智広 [Tomohiro Aoki]
• RGAリインシュアランスカンパニー
という再保険会社の日本支店で
『データアクチュアリー』として働く
(2015年7月~)
• 『匿名加工医療データから
生命保険に関連する Insight を抽出し
生命保険商品を開発する』
3
写真は2018年11月
RGA商品開発セミナー2018登壇時
年2回ほど
生命保険会社向けセミナーに登壇
最近の悩み
GWに作った『Bistro Tokyo』という
YouTubeチャンネルの登録数の
増やし方が分からないこと。
テーマを Cooking Science に
変更予定!(多分)
• ビジネスにおける将来のリスクや不確実性の分析、評価等を専門と
する専門職。[Wikipedia]
• 保険数理に基づく商品開発、収益分析
• 保険負債(責任準備金)の計算、会社の健全性維持
• 準会員になるのに5科目の試験、
正会員になるのにさらに2科目の試験に合格する必要あり。
(学習時間は1科目200~300時間)
4
アクチュアリー
アクチュアリー
• ビジネスにおける将来のリスクや不確実性の分析、評価等を専門と
する専門職。[Wikipedia]
• 保険数理に基づく商品開発、収益分析
• 保険負債(責任準備金)の計算、会社の健全性維持
• 準会員になるのに5科目の試験、
正会員になるのにさらに2科目の試験に合格する必要あり。
(学習時間は1科目200~300時間)
5
保険商品開発(発生率)
• 保険事故の給付事由の発生率を計算する
発生率 𝑟 = 𝑃 保険事故 条件
性別、年齢、体況・既往歴、生活習慣などの『条件』によって
保険事故発生率が変わる。
死亡保険  38歳男性の死亡率
医療保険  25歳女性の入院発生率 など
例
6
保険商品開発(発生率)
• 保険事故の給付事由の発生率を計算する
発生率 𝑟 = 𝑃 保険事故 条件
性別、年齢、体況・既往歴、生活習慣などの『条件』によって
保険事故発生率が変わる。
死亡保険  38歳男性の死亡率
医療保険  25歳女性の入院発生率 など
例
7
保険商品開発(医務査定)
8
1 最近3ヶ月以内の健康状態 最近3ヶ月以内に、医師の診察・検査・治療・投薬を受けたことがありますか?
2 過去5年以内の健康状態
過去5年以内に、病気やケガまたは検査で、以下①~③のいずれかに該当したことがありますか?
①継続して7日以上の入院をしたこと、または手術を受けたこと(正常分娩による入院は除く)
②別表の病気による、医師の診察・検査・治療・投薬
③別表にかかげる以下の病気やケガによる、
初診日から終診日まで7日以上にわたる医師の診察・検査・治療、あるいは7日分以上の薬の処方
3 過去2年以内の健康診断
過去2年以内に、健康診断・ガン検診・人間ドックを受けて、以下の検査項目で、異常を指摘されたことがありますか?
異常には、要再検査・要精密検査・要治療を含み、要経過観察は含みません。
4 ガンについて 現在および今までに、ガンにかかったことがありますか?
5 身体の状況
現在、視力・聴力・言語・そしゃく機能に障害がありますか?
または、手・足・指・関節・背骨(脊柱)についての欠損・変形または機能の障害がありますか?
6 妊娠・分娩について 過去5年以内に、妊娠・分娩に伴う異常で、入院したり手術を受けたことがありますか?
7 妊娠・分娩について 現在妊娠していますか?
告知項目例
保険商品開発(保険料)
• 38歳男性の死亡率は0.1%とする。 発生率
• 死亡したら1,000万円を遺族に給付する。
• 38歳男性を1,000人集めて、1人1万円保険料を徴収すると
1,000万円集まる。
• 1年後、1,000人の内1人が死亡する予定、集めた1,000万円を支払う。
9
保険商品開発(保険料)
• 38歳男性の死亡率は0.1%とする。 発生率
• 死亡したら1,000万円を遺族に給付する。
• 38歳男性を1,000人集めて、1人1万円保険料を徴収すると
1,000万円集まる。
• 1年後、1,000人の内1人が死亡する予定、集めた1,000万円を支払う。
• このままだと保険会社の利益がないため、
1人あたり24,000円/年=2,000円/月を徴収。
• 2,400万円 - 1,000万円 = 1,400万円が保険会社の期待粗利益。
(販売手数料・システム開発コスト・人件費等の原資)
• 年2人以上死亡する恐れもある!10
保険商品開発(保険料)
• 38歳男性の死亡率は0.1%とする。 発生率(予定発生率)
• 死亡したら1,000万円を遺族に給付する。
• 38歳男性を1,000人集めて、1人1万円保険料を徴収すると
1,000万円集まる。
• 1年後、1,000人の内1人が死亡する予定、集めた1,000万円を支払う。
• このままだと保険会社の利益がないため、
1人あたり24,000円/年=2,000円/月を徴収。
• 2,400万円 - 1,000万円 = 1,400万円が保険会社の期待粗利益。
(販売手数料・システム開発コスト・人件費等の原資)
• 年2人以上死亡する恐れもある! 実績発生率(≠予定発生率)11
再保険
『ギャップのある場所で金は動く』
• 需給ギャップ(求められるものが売られていない)
• 技術ギャップ(やりたいけど出来ない・出来るけどやりたくない)
• 税制・法令ギャップ(相続税など)
• 収益の見積もりギャップ(株式投資など)
12
再保険
『ギャップのある場所で金は動く』
• 需給ギャップ(求められるものが売られていない)
• 技術ギャップ(やりたいけど出来ない・出来るけどやりたくない)
 技術提供(情報ソース・分析能力)
• 税制・法令ギャップ(相続税など)
 日本 vs. 米国、日本 vs. タックスヘイブン
• 収益の見積もりギャップ(株式投資など)
 予定発生率の見積もりギャップ
13
再保険会社が
カバーしうる範囲
生命保険
保険料
P = 2,400円
契約者
(生存時)
保険会社
14
生命保険
保険金
S = 1,000万円
契約者
(死亡時)
保険会社
𝑟 𝐷
15
生命保険
保険金
S = 1,000万円
契約者
(死亡時)
保険会社
𝑟 𝐷
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
16
生命保険
確定収入
P 円
𝑟 𝐷
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
17
再保険(危険保険料式)
確定収入
P 円
𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
18
再保険会社
再保険(危険保険料式)
確定収入
P 円
𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待収益を
実現化
できた!
19
再保険会社
再保険(危険保険料式)
確定収入
P 円
確定収入
S𝑟 𝐷円
𝑟𝑅 < 𝑟 𝐷 𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待支出 𝐶
𝐸 𝐶 = S𝑟𝑅 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
20
再保険(危険保険料式)
確定収入
P 円
確定収入
S𝑟 𝐷円
𝑟𝑅 < 𝑟 𝐷 𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待支出 𝐶
𝐸 𝐶 = S𝑟𝑅 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
予定発生率の見積もりギャップ
再保険会社期待収支
S𝑟𝐷 − 𝐸 𝐶 = S 𝑟𝐷 − 𝑟𝑅 円
予定発生率の見積もりギャップ
21
再保険(危険保険料式)
確定収入
P 円
確定収入
S𝑟 𝐷円
𝑟𝑅 < 𝑟 𝐷 𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待支出 𝐶
𝐸 𝐶 = S𝑟𝑅 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
予定発生率の見積もりギャップ
再保険会社期待収支
S𝑟𝐷 − 𝐸 𝐶 = S 𝑟𝐷 − 𝑟𝑅 円
予定発生率の見積もりギャップ
•保険会社の発生率見積もり 𝒓 𝑫 よりも、
再保険会社の見積もり 𝒓 𝑹 が小さければ
𝑺 𝒓 𝑫 − 𝒓 𝑹 が再保険会社の期待収益となり、
リスク移転を受ける価値がある。
•精緻な推定のために保険会社の持っていない
データ・情報・分析能力が必要となる。
22
再保険(危険保険料式)
確定収入
P 円
確定収入
S𝑟 𝐷円
𝑟𝑅 < 𝑟 𝐷 𝑟 𝐷
確定支出
S𝑟 𝐷円
期待支出 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
期待支出 𝐶
𝐸 𝐶 = S𝑟𝑅 円
期待収入 𝐶
𝐸 𝐶 = S𝑟 𝐷 円
予定発生率の見積もりギャップ
再保険会社期待収支
S𝑟𝐷 − 𝐸 𝐶 = S 𝑟𝐷 − 𝑟𝑅 円
予定発生率の見積もりギャップ
23
•保険会社の発生率見積もり 𝒓 𝑫 よりも、
再保険会社の見積もり 𝒓 𝑹 が小さければ
𝑺 𝒓 𝑫 − 𝒓 𝑹 が再保険会社の期待収益となり、
リスク移転を受ける価値がある。
•精緻な推定のために保険会社の持っていない
データ・情報・分析能力が必要となる。
24
キーワードを
整理しましょう!
発生率 𝒓 = 𝑃 保険事故 条件 。クレーム 𝐶 は発生率の分子。
予定発生率 実績発生率の予想 (+ 予定収益)
体況・既往歴 発生率の条件。
医務査定によりフィルタし、実績発生率を安定化する。
商品開発 給付事由、契約可能条件、予定発生率、
これらに基づく保険料を作ること。
保険会社 予定発生率と実績発生率のギャップを収益の源泉とするビジネス
再保険 予定発生率の見積もりギャップを収益の源泉とするビジネス
アクチュアリー 保険数理のプロ
Insight 発生率 𝑟 = 𝑃 保険事故 条件 に係る保険会社・再保険会社の収益の源泉。
アクチュアリーによって発見・利用される。
保険数理* 頻度統計・モデリング等に基づき発展した保険・金融に特化した学問分
野。生命保険数理、損害保険数理、年金数理がある。
匿名加工医療データ 匿名加工された医療データ。Insight の源泉のひとつ。
分析能力 分析手法と分析環境に分けられる。
* 終身契約など、超長期にわたり保険料を固定するため、保険料にかかる一つの意思決定が長期にわたり会社の損失を生み続ける恐れがある。
そのため導出プロセスが分かりやすく、意思決定者が意思決定しやすい頻度統計が今後も主流となり続けると講演者は考えている。
頻度統計は機械学習やAIと異なり、責任者や責任の範囲 (許容損失額) が明確になりやすいというメリットもある。
発生率 𝒓 = 𝑃 保険事故 条件 。クレーム 𝐶 は発生率の分子。
予定発生率 実績発生率の予想 (+ 予定収益)
体況・既往歴 発生率の条件。
医務査定によりフィルタし、実績発生率を安定化する。
商品開発 給付事由、契約可能条件、予定発生率、
これらに基づく保険料を作ること。
保険会社 予定発生率と実績発生率のギャップを収益の源泉とするビジネス
再保険 予定発生率の見積もりギャップを収益の源泉とするビジネス
アクチュアリー 保険数理のプロ
Insight 発生率 𝑟 = 𝑃 保険事故 条件 に係る保険会社・再保険会社の収益の源泉。
アクチュアリーによって発見・利用される。
保険数理* 頻度統計・モデリング等に基づき発展した保険・金融に特化した学問分
野。生命保険数理、損害保険数理、年金数理がある。
匿名加工医療データ 匿名加工された医療データ。Insight の源泉のひとつ。
分析能力 分析手法と分析環境に分けられる。
* 終身契約など、超長期にわたり保険料を固定するため、保険料にかかる一つの意思決定が長期にわたり会社の損失を生み続ける恐れがある。
そのため導出プロセスが分かりやすく、意思決定者が意思決定しやすい頻度統計が今後も主流となり続けると講演者は考えている。
頻度統計は機械学習やAIと異なり、責任者や責任の範囲 (許容損失額) が明確になりやすいというメリットもある。
匿名加工医療データ
27
匿名加工医療データ
医療機関ベース 保険者ベース28
データバイアス(対国民)
患者データ
勤労者+
扶養家族データ
•健康
•所得水準 高
•健診受診頻度 高
29
データバイアス(対国民)
患者データ
勤労者+
扶養家族データ
•健康
•所得水準 高
•健診受診頻度 高
診断発生率 高
入院発生率 低
入院期間 短
30
データバイアス(対国民)
患者データ
勤労者+
扶養家族データ
•不健康
•医療水準 高
31
•健康
•所得水準 高
•健診受診頻度 高
診断発生率 高
入院発生率 低
入院期間 短
データバイアス(対国民)
患者データ
勤労者+
扶養家族データ
•不健康
•医療水準 高
 入院期間 短
•健康
•所得水準 高
•健診受診頻度 高
診断発生率 高
入院発生率 低
入院期間 短
32
患者データ
勤労者+
扶養家族データ
•不健康
•医療水準 高
 入院期間 短
•健康
•所得水準 高
•健診受診頻度 高
診断発生率 高
入院発生率 低
入院期間 短
以下を理解していない人の分析は信頼できない!
• データの生成背景
• データ入力者の入力慣習(クセ)
• 過去の誤入力の遡及修正の有無
例)上皮内新生物であっても診断確定していない初月は
悪性新生物として登録されるケースがある。
データバイアス(対真実)
33
データ打ち切り事由
医療機関ベース 保険者ベース
•転退職
•死亡
•データ提供者と
匿名加工データプ
ロバイダーの契約
終了
34
データ打ち切り事由
医療機関ベース 保険者ベース
•転退院
•死亡
•データ提供者と
匿名加工データプロバイ
ダーの契約終了
•転退職
•死亡
•データ提供者と
匿名加工データプ
ロバイダーの契約
終了
35
データ打ち切り事由
医療機関ベース 保険者ベース
•転退院 •転退職
死亡前は働けない
ため、比較的健康
な者が観察される。
 観測死亡率 低
36
データ打ち切り事由
医療機関ベース 保険者ベース
•転退院 •転退職
死亡前は働けない
ため、比較的健康
な者が観察される。
 観測死亡率 低
一部傷病の長期観察不可
リハビリなどによる
転院後は追跡不能
37
( )
データ打ち切り事由
医療機関ベース 保険者ベース
•転退院 •転退職
死亡前は働けない
ため、比較的健康
な者が観察される。
 観測死亡率 低
一部傷病の長期観察不可
リハビリなどによる
転院後は追跡不能
さらにExposureが不明。
38
( )
Bio Inc. に学ぶ疫学
Plague Inc.
もオススメ
☞
39
Bio Inc. に学ぶ疫学
Risk Factors
Diseases Unhealthy
Healthy
40
Plague Inc.
もオススメ
☞
曝露
Exposure
① 疾病発生以前に存在する測定可能性を考慮しない全ての状
態。性別、年齢、遺伝的要因以外にも、「毎日30分以上散
歩する」「スーツで出勤する」という日常生活習慣も曝露
の一種。
危険因子
Risk Factors
曝露の内、疾病発生率に影響を与えるもの。
例として、喫煙は肺がんの危険因子。
通常は性別、年齢、人種は無条件に危険因子として考慮される。
危険因子(Risk Factors)と曝露 (Exposure)
41
出典:「基礎から学ぶ 楽しい疫学 第3版 (中村好一) 」医学書院
曝露
Exposure
① 疾病発生以前に存在する測定可能性を考慮しない全ての状
態。性別、年齢、遺伝的要因以外にも、「毎日30分以上散
歩する」「スーツで出勤する」という日常生活習慣も曝露
の一種。
危険因子
Risk Factors
曝露の内、疾病発生率に影響を与えるもの。
例として、喫煙は肺がんの危険因子。
通常は性別、年齢、人種は無条件に危険因子として考慮される。
危険因子(Risk Factors)と曝露 (Exposure)
𝑃[疾病罹患|曝露あり] > 𝑃[疾病罹患|曝露なし]
 その曝露は危険因子
42
出典:「基礎から学ぶ 楽しい疫学 第3版 (中村好一) 」医学書院
曝露
Exposure
① 疾病発生以前に存在する測定可能性を考慮しない全ての状
態。性別、年齢、遺伝的要因以外にも、「毎日30分以上散
歩する」「スーツで出勤する」という日常生活習慣も曝露
の一種。
② 観察対象集団の各人の観察期間の合計で、発生率の分母。
単位は「人年」。
危険因子
Risk Factors
曝露の内、疾病発生率に影響を与えるもの。
例として、喫煙は肺がんの危険因子。
通常は性別、年齢、人種は無条件に危険因子として考慮される。
出典:「基礎から学ぶ 楽しい疫学 第3版 (中村好一) 」医学書院
危険因子(Risk Factors)と曝露 (Exposure)
𝑃[疾病罹患|曝露あり] > 𝑃[疾病罹患|曝露なし]
 その曝露は危険因子
43
データ打ち切り事由
保険者ベース
•転退職
死亡前は働けない
ため、比較的健康
な者が観察される。
 観測死亡率 低
リハビリなどによる
転院後は追跡不能。
 一部傷病の長期観察不可
さらにExposureが不明。
44
医療機関ベース
•転退院
一部傷病の長期観察不可
リハビリなどによる
転院後は追跡不能
さらにExposureが不明。
( )
Exposure と Claim の数え方と
発生率の推定方法
 観測死亡率
 観測入院発生率
45
Exposure と Claim の数え方と
発生率の推定方法
 観測
初回入院発生率
46
Exposure と Claim の数え方と
発生率の推定方法
47
発生率の推定方法 ~ 生命保険数理
• 男女別・契約年齢別に保険料を計算するため
男女別・年齢別の発生率 𝑟 𝑠𝑒𝑥,𝑎𝑔𝑒 を作成する必要がある。
• 場合によっては [性別, 年齢, 喫煙習慣, 血圧, BMI] など
パラメタがさらに増え、組み合わせ爆発を起こしうる。
• 各パラメタごとの Exposure や Claim が疎であっても
合理的な発生率を推定する必要がある。
48
発生率の推定方法 ~ 生命保険数理
• 男女別・契約年齢別に保険料を計算するため
男女別・年齢別の発生率 𝑟 𝑠𝑒𝑥,𝑎𝑔𝑒 を作成する必要がある。
• 場合によっては [性別, 年齢, 喫煙習慣, 血圧, BMI] など
パラメタがさらに増え、組み合わせ爆発を起こしうる。
• 各パラメタごとの Exposure や Claim が疎であっても
合理的な発生率を推定する必要がある。
Not 滑らかな発生率曲線
But 社会的背景や病理学的に整合的な発生率
49
疫学的合理性 (死亡率)
50
疫学的合理性 (死亡率)
男性のみ15~18歳の死亡率急増
なぜ?
51
疫学的合理性 (死亡率)
男性のみ15~18歳の死亡率急増
なぜ?
死因別死亡率を確認すると
交通事故が多いことが確認できる。
52
発生率の推定方法 ~ 生命保険数理
• 男女別・契約年齢別に保険料を計算するため
男女別・年齢別の発生率 𝑟 𝑠𝑒𝑥,𝑎𝑔𝑒 を作成する必要がある。
• 場合によっては [性別, 年齢, 喫煙習慣, 血圧, BMI] など
パラメタがさらに増え、組み合わせ爆発を起こしうる。
• 各パラメタごとの Exposure や Claim が疎であっても
合理的な発生率を推定する必要がある。
• 脱退事由が複数ある場合は観測発生率は真の発生率より低く
なる。
53
発生率の推定方法 ~ 生命保険数理
(脱退事由が複数ある場合)
数理的に、(期待)観測発生率 𝑞 𝑥, 𝑟𝑥 は
真の発生率 𝑞 𝑥, 𝑟𝑥 より低くなる
ことが約束されている。
上式のように真の発生率を
観測発生率から推定する必要がある。
54
𝑙 𝑥+1 = 𝑙 𝑥 1 − 𝑞 𝑥 1 − 𝑟𝑥 = 𝑙 𝑥 − 𝑑 𝑥 − ℎ 𝑥
𝑑 𝑥 = 𝑙 𝑥 𝑞 𝑥 −
𝑞 𝑥 𝑟𝑥
2
ℎ 𝑥 = 𝑙 𝑥 𝑟𝑥 −
𝑞 𝑥 𝑟𝑥
2
𝑞 𝑥 =
𝑑 𝑥
𝑙 𝑥
𝑟𝑥 =
ℎ
𝑙 𝑥
𝑞 𝑥 =
2+ 𝑞 𝑥− 𝑟 𝑥 − 2+ 𝑞 𝑥− 𝑟 𝑥
2−8 𝑞 𝑥
2
𝑟𝑥 =
2+ 𝑟 𝑥− 𝑞 𝑥 − 2+ 𝑟 𝑥− 𝑞 𝑥
2−8 𝑟 𝑥
2
発生率の推定方法 ~ 生命保険数理
(脱退事由が複数ある場合)
数理的に、(期待)観測発生率 𝑞 𝑥, 𝑟𝑥 は
真の発生率 𝑞 𝑥, 𝑟𝑥 より低くなる
ことが約束されている。
上式のように真の発生率を
観測発生率から推定する必要がある。
55
𝑙 𝑥+1 = 𝑙 𝑥 1 − 𝑞 𝑥 1 − 𝑟𝑥 = 𝑙 𝑥 − 𝑑 𝑥 − ℎ 𝑥
𝑑 𝑥 = 𝑙 𝑥 𝑞 𝑥 −
𝑞 𝑥 𝑟𝑥
2
ℎ 𝑥 = 𝑙 𝑥 𝑟𝑥 −
𝑞 𝑥 𝑟𝑥
2
𝑞 𝑥 =
𝑑 𝑥
𝑙 𝑥
𝑟𝑥 =
ℎ
𝑙 𝑥
𝑞 𝑥 =
2+ 𝑞 𝑥− 𝑟 𝑥 − 2+ 𝑞 𝑥− 𝑟 𝑥
2−8 𝑞 𝑥
2
𝑟𝑥 =
2+ 𝑟 𝑥− 𝑞 𝑥 − 2+ 𝑟 𝑥− 𝑞 𝑥
2−8 𝑟 𝑥
2
発生率 𝑞 = 0.1, 𝑟 = 0.2 で
死亡と初回入院を乱数生成し
観測死亡数 𝑑 と
観測入院発生数 ℎ より
観測発生率 𝑞, 𝑟 を作成。
発生率の推定方法 ~ 生命保険数理
(脱退事由が複数ある場合)
数理的に、(期待)観測発生率 𝑞 𝑥, 𝑟𝑥 は
真の発生率 𝑞 𝑥, 𝑟𝑥 より低くなる
ことが約束されている。
上式のように真の発生率を
観測発生率から推定する必要がある。
56
発生率 𝑞 = 0.1, 𝑟 = 0.2 で
死亡と初回入院を乱数生成し
観測死亡数 𝑑 と
観測入院発生数 ℎ より
観測発生率 𝑞, 𝑟 を作成。
𝑙 𝑥+1 = 𝑙 𝑥 1 − 𝑞 𝑥 1 − 𝑟𝑥 = 𝑙 𝑥 − 𝑑 𝑥 − ℎ 𝑥
𝑑 𝑥 = 𝑙 𝑥 𝑞 𝑥 −
𝑞 𝑥 𝑟𝑥
2
ℎ 𝑥 = 𝑙 𝑥 𝑟𝑥 −
𝑞 𝑥 𝑟𝑥
2
𝑞 𝑥 =
𝑑 𝑥
𝑙 𝑥
𝑟𝑥 =
ℎ
𝑙 𝑥
𝑞 𝑥 =
2+ 𝑞 𝑥− 𝑟 𝑥 − 2+ 𝑞 𝑥− 𝑟 𝑥
2−8 𝑞 𝑥
2
𝑟𝑥 =
2+ 𝑟 𝑥− 𝑞 𝑥 − 2+ 𝑟 𝑥− 𝑞 𝑥
2−8 𝑟 𝑥
2観測死亡率
推定死亡率
観測発生率
推定発生率
生命保険数理(商品開発)
商品開発
• 発生率 𝑟𝑥 = 𝑃 保険事故 条件 の点推定・区間推定
• 発生率を下げる(選択効果を高める)ための条件発見
• 発生率の分散を下げるための条件発見
• 発生率からの保険料作成
• 保険負債(責任準備金)の計算
商品開発以外に、収益分析、保険計理(会計)、リスク管理等もアクチュアリーの仕事。
Insight
57
保険商品開発(発生率)
触りたく
なっちゃった?
(データに)
58
保険商品開発(発生率)
まだ早いでしょ~
59
商店街のクジを 10 回引いたら 3 回当たりが出た。
このクジに含まれる当たりの割合 𝑝 を検討せよ。
(ただしクジは無限に引くことができるものとする。)
• 試行回数 𝑛 = 10
• 観測された当たりの数 𝑑 = 3
尤度関数を次の通り定義する。𝐿 = 𝑝 𝑑 1 − 𝑝 𝑛−𝑑 = 𝑝3 1 − 𝑝 7
尤度関数を最大化する 𝑝 を最も尤もらしい(一番それっぽい)
値として採用する。
最尤推定法
もっと
さいゆう
60
尤度関数 𝐿 = 𝑝 𝑑
1 − 𝑝 𝑛−𝑑
= 𝑝3
1 − 𝑝 7
𝑙 = ln 𝐿 = 3 ln 𝑝 + 7 ln 1 − 𝑝
𝜕𝑙
𝜕𝑝
=
3
𝑝
+
7
1−𝑝
= 0 を満たす
𝑝 =
3
10
は尤度関数を最大化する。
最尤推定法
さいゆう
61
尤度関数 𝐿 = 𝑝 𝑑
1 − 𝑝 𝑛−𝑑
= 𝑝3
1 − 𝑝 7
𝑙 = ln 𝐿 = 3 ln 𝑝 + 7 ln 1 − 𝑝
𝜕𝑙
𝜕𝑝
=
3
𝑝
+
7
1−𝑝
= 0 を満たす
𝑝 =
3
10
は尤度関数を最大化する。
最尤推定法
さいゆう
• この分かりやすさ・利便性からGLM(一般化線形モデル)などに
利用されることが多い。
• 𝑛 が小さい時、一般に最尤推定量は不偏推定量でない。
尤度関数を最大化する 𝜃 を 𝜃 𝑛 とする時
真のパラメタ𝜃∗
≤ 𝜃 𝑛 𝜃∗
≥ 𝜃 𝑛
• 最尤推定量は一致推定量である。 lim
𝑛→∞
𝜃 𝑛 = 𝜃∗
62
で生存時間解析
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
26
26日目の死亡
累積生存率
Δ 𝑑 𝑥
𝑙 𝑥
(age 𝑥)63
で生存時間解析
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥
傾き
1
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥 Δ𝑥→0
𝜇 𝑥
(age 𝑥)64
で生存時間解析
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥
傾き
1
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥 Δ𝑥→0
𝜇 𝑥
(age 𝑥)
ハザード(死力)=累積生存率の傾き
1
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥 Δ𝑥→0
𝜇 𝑥
Δ𝑥 = 1 とすると 𝜇 𝑥 ≃ 𝑞 𝑥 となり
年齢 𝑥 における死亡率 𝑞 𝑥 はハザード 𝜇 𝑥 で近似できる。
65
で Weibull fitting
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
(age 𝑥)
Weibull Model
𝜇 𝑥 =
𝜌
𝜆
𝑥
𝜆
𝜌−1
66
で Weibull fitting
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
(age 𝑥)
Weibull Model
𝜇 𝑥 =
𝜌
𝜆
𝑡
𝜆
𝜌−1
リスクファクターによってどのくらい
ハザード(死にやすさ)が異なるの?
Cox 比例ハザードモデル
被験者 𝑖 の risk factors (健診結果など)を数値化したベクトルを 𝕙𝑖 とし
𝕙𝑖 に対する重みベクトルを 𝕨 とする。このとき
被験者 𝑖 の年齢 𝑥 におけるハザードを 𝜇 𝑥,𝕙 𝑖
= 𝜇0 𝑥 𝑒 𝕨 𝕙𝑖
と定義(年齢 𝑥 とベクトル 𝕙𝑖 を分離)できるとする。
67
で Weibull fitting
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
(age 𝑥)
Weibull Model
𝜇 𝑥 =
𝜌
𝜆
𝑡
𝜆
𝜌−1
実際の死亡は 𝑞 𝑥,𝕙 𝑖
≃ 𝜇0 𝑥 𝑒 𝕨 𝕙𝑖 のベルヌイ分布に従うと考えられるため
被験者 𝑖 が脱退した時刻 𝑡𝑖 において、以下のように尤度関数を定義できる。
ただしここで 𝛿 𝑡 𝑖,𝑗 = 𝑖 == 𝑗 × 1 である。
𝐿 𝑡 𝑖
=
𝑗=1
𝑁
𝑞 𝑥+𝑡 𝑖,𝕙 𝑗
𝑗
𝑁
𝑞 𝑥+𝑡 𝑖,𝕙 𝑗
𝛿 𝑡 𝑖,𝑗
=
𝑗=1
𝑁
𝑒 𝕨 𝕙𝑖
𝑗
𝑁
𝑒 𝕨 𝕙𝑖
𝛿 𝑡 𝑖,𝑗
例えば死亡率が (0.1, 0.2, 0.3) の3人 (A, B, C) がいた場合、
最初にAが死亡する確率は
0.1
0.1+0.2+0.3
である。
ハザード(死力)=累積生存率の傾き
1
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥 Δ𝑥→0
𝜇 𝑥
Δ𝑡 = 1 とすると 𝜇 𝑡 ≃ 𝑞𝑡 となり
時刻 𝑡 における死亡率 𝑞𝑡 はハザード 𝜇 𝑡 で近似できる。
Cox 比例ハザードモデル
被験者 𝑖 の健診結果などを数値化したベクトルを 𝕙𝑖 とし
𝕙𝑖 に対する重みベクトルを 𝕨 とする。このとき
被験者 𝑖 の年齢 𝑥 におけるハザードを 𝜇 𝑥,𝕙 𝑖
= 𝜇0 𝑥 𝑒 𝕨 𝕙𝑖
と定義(年齢 𝑥 とベクトル 𝕙𝑖 を分離)できるとする。
68
で Weibull fitting
Kaplan-Meier 曲線
ショウジョウバエの遺伝子型と生存日数
累積生存率
(age 𝑥)
Weibull Model
𝜇 𝑥 =
𝜌
𝜆
𝑡
𝜆
𝜌−1
実際の死亡は 𝑞 𝑥,𝕙 𝑖
≃ 𝜇0 𝑥 𝑒 𝕨 𝕙𝑖 のベルヌイ分布に従うと考えられるため
被験者 𝑖 が脱退した時刻 𝑡𝑖 において、右のように尤度関数を定義できる。
ただしここで 𝛿 𝑡 𝑖,𝑗 = 𝑖 == 𝑗 × 1 である。
𝐿 𝑡 𝑖
=
𝑗=1
𝑁
𝑞 𝑥+𝑡 𝑖,𝕙 𝑗
𝑗
𝑁
𝑞 𝑥+𝑡 𝑖,𝕙 𝑗
𝛿 𝑡 𝑖,𝑗
=
𝑗=1
𝑁
𝑒 𝕨 𝕙𝑖
𝑗
𝑁
𝑒 𝕨 𝕙𝑖
𝛿 𝑡 𝑖,𝑗
例えば死亡率が (0.1, 0.2, 0.3) の3人 (A, B, C) がいた場合
最初にAが死亡する確率は
0.1
0.1+0.2+0.3
である。
Cox 比例ハザードモデルにより、概形の分からない 𝜇 𝑥 を尤度関数から除外できた!
これより全脱退者を考慮した尤度関数は以下の通り定義できる。
𝐿 =
𝑖=1
𝑁
𝐿 𝑡 𝑖
この 𝐿 を最大化する 𝕨 を求めれば、ハザード比(≃ 死亡率比)を得ることができる。
ハザード(死力)=累積生存率の傾き
1
Δ𝑥
Δ 𝑑 𝑥
𝑙 𝑥 Δ𝑥→0
𝜇 𝑥
Δ𝑡 = 1 とすると 𝜇 𝑡 ≃ 𝑞𝑡 となり
時刻 𝑡 における死亡率 𝑞𝑡 はハザード 𝜇 𝑡 で近似できる。
Cox 比例ハザードモデル
被験者 𝑖 の健診結果などを数値化したベクトルを 𝕙𝑖 とし
𝕙𝑖 に対する重みベクトルを 𝕨 とする。このとき
被験者 𝑖 の年齢 𝑥 におけるハザードを 𝜇 𝑥,𝕙 𝑖
= 𝜇0 𝑥 𝑒 𝕨 𝕙𝑖
と定義(年齢 𝑥 とベクトル 𝕙𝑖 を分離)できるとする。
69
で Cox回帰分析
Cox回帰係数と95%信頼区間
変数 var1, var3 は有意に Risk Factor であることが確認できる。
70
で Cox回帰分析
Cox回帰係数と95%信頼区間
変数 var1, var3 は有意に Risk Factor であることが確認できる。
71
これで安心してはいけない!
• Cox比例ハザードモデルが当てはめるのに妥当なモデルなのか
確認する必要がある。
2グループの場合、log-log 生存率グラフ
(横軸に時間 𝑡、縦軸に生存関数の二重対数 log − log 𝑆 𝑡 をプロット)が
上下に平行移動した状態であれば、比例ハザード性が成立するとみなせる。
• 説明変数が独立とみなせるか確認する必要がある。
全ての説明変数の組み合わせの相関係数が1の時、
重みは均等に割り振られる。
説明変数同士の因果関係を疑い、
因果推論におけるバックドア基準を検討する必要がある。
まとめ
1. データ分析の結論の影響を考えよう!
(ビジネス vs. 患者への介入)
2. データの生成背景を理解しよう!
3. 発生率分析には医療統計必須!
4. LIFELINES超便利!
ご清聴ありがとうございました。
72
本資料は講演者「青木智広」の個人的な見解を表したものであり、所属先の見解とは異なることがあります。

More Related Content

Featured

Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
 
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
 
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 

Featured (20)

Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
 
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
 
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 

PyDataプレゼン資料 20190619_配布用