SlideShare a Scribd company logo
1 of 54
Download to read offline
Statistics for justice and fairness
ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์
ผู้อานวยการหลักสูตร
Ph.D. and M.Sc. in Business Analytics and Data Science
อาจารย์ประจาสาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
Roles of statistics in fairness and justice
• Facilitate fairness
• Detect anomaly and fraud
• Prevent crime and anomaly
• Regulatory Impact Assessment
Test Fairness
Differential Item Functioning
There is no crime without any trace!
-Large deviation from normal or average man or cluster.
-Large deviation from past behavior.
-Inconsistency with themselves and surroundings.
-Repeated anomaly pattern.
-Caution on statistical detection of cheating and anomalous detection
Anomaly Detection
Outlier Analysis
0
Percent
Loss
Large deviation from normal or average man or cluster.
Large deviation from normal or average man or cluster.
v
58
Severity
Frequency58
Loss58 = f(Frequency57, Severity57, ICD-1057, ICD-957
,ICD-1058, ICD-958, age, gender)
Loss58
58
Predictors
Under Predict (Fraud or abuse)
v
vvvvv
vvvvv
vvvvv
vv
vv
v
v
vv
v
vv
Large deviation from past behavior.
Large deviation from past behavior.
TOEFL time 2
TOEFL time 1
Under Predict (Fraud or abuse)
v
v
vv
vv
vv
vvv
vv
vvv
vv
vv
v
v
vv
v
v
v
Inconsistency with themselves and surroundings.
-Low ability test taker can answer difficult item.
-K-index for copying! Eight dimensions
-Scoring test with contaminated response vector
-Influence function + Robust estimators
-5 -4 -3 -2 -1 0 1 2 3
0
10
20
Pseudovalue Distribution for an Optima Examinee
Proficiency
Estimaate
Frequency
From Incorrect
Responses
From Correct
Responses
Repeated anomaly pattern.
Predictor
Probability
Y =
0 normal claim
1 Abuse claim
จาก สพตร.
Y = ICD10, ICD9, TMT, gender, age, Severityt-1
, Frequencyt-1, Severityt, Frequencyt,
Caution on statistical detection of cheating
PredictorCutoff 1 Cutoff2
Performance
• Positive Predictive Value: PPV
Caution on statistical detection of cheating
64.76 % 99.30%
• Statistical evidence as a red flag or warning
• Physical evidence is always needed.
• Early detection, protection, and prevention.
• Bayesian flip is needed.
Caution on statistical detection of cheating
P(Cheating=Yes|Detection=Yes)
P(Detection=Yes|Cheating=Yes)
P(Cheating=No|Detection=No)
P(Detection=No|Cheating=No)
P(Cheating=Yes|Detection=Yes)=P(Detection=Yes|Cheating=Yes)*P(Cheating=Yes)
P(Detection=Yes)
การสร้างแบบจาลองรายการชาระเงินผิดปกติของ
กรมธรรม์ประกันชีวิตโดยการใช้เทคนิค Local
Outlier Factor(LOF)
ปัณณวิชญ์ วิศัลยาวัฒน์์
ประกันชีวิตพื้นฐาน
ที่มา : http://www.checkraka.com/saving/advertorial/10052/
การฟอกเงินในประกันชีวิต
ตัวอย่างการฟอกเงิ์ใ์ประกั์ชีวิต
• ซื้อกองทุ์ลงทุ์ประกั์ชีวิตที่จ่ายครั้งเดียว(มีความเสี่ยงที่จะฟอกเงิ์มากที่สุดจากการ์าเงิ์สกปรก
ก้อ์ใหญ่มาลงทุ์)
• ซื้อประกั์ชีวิตรายปีที่มีการจ่ายปั์ผล(ได้รับเงิ์สะอาดเป็์งวดๆ)
• ซื้อประกั์ชีวิตแบบประจาที่มีเบี้ยสูงหรือเบี้ยปกติหลายกรมธรรม์(เพื่อลดความส์ใจ)
• การไถ่ถอ์เงิ์ก่อ์ครบสัญญาแม้จะได้เงิ์คื์์้อยกว่าเดิม
• ซื้อกรมธรรม์เบี้ย์้อยให้ผ่า์ก่อ์แล้วเพิ่มเติมเบี้ย(เพื่อให้ไม่มีการตรวจสอบ)
• กู้เงิ์จากกรมธรรม์โดยไม่ผ่อ์จ่ายคื์(ปล่อยกรมธรรม์หมดอายุไปเอง)
• เปลี่ย์มือกรมธรรม์ของเจ้าของหรือผู้รับผลประโยช์์
• ใช้กรมธรรม์เป็์หลักทรัพย์ใ์การกู้เงิ์จากธ์าคาร
ที่มา : http://www.acamstoday.org/what-is-real-money-laundering-risk-in-life-insurance/
Global versus Local Outlier
Mahalanobis Distance
K Nearest Neighbors
Cluster Analysis
Local Outlier Factor (LOF)
ที่มา : http://www.slideshare.net/Med_KU/20130318-f-rac-24695067
เป็์วิธีการที่ใช้ใ์การตรวจสอบค่าผิดปกติด้วยวิธีการ
ตรวจความห์าแ์่์รอบรัศมีของจุดที่ส์ใจ
ข้อมูลที่มีค่าผิดปกติจะมีคะแ์์ที่สูง ซึ่ง
จะไม่มีเกณฑ์ใ์ตัดที่ตายตัว
ข้อมูลที่มีค่าปกติจะมีคะแ์์ประมาณ 1
• LOF = Local density of k neighbor/Local density of its own point
• The Higher LOF = the more extreme local outlier!!!!
• Determine sigma (radius / reachable distance around point) so
that we can count k neighbor.
• Local density for point = numbers of points within reachable
distance/sum of distance between points and all k neighbors
LOF
วิธีดาเนินการวิจัย
ผลการวิเคราะห์
N 145,842
Minimum 1.0529
Lower Quartile 3.8028
Mean 6.6356
Median 5.6134
Upper Quartile 8.3377
Maximum 50.6028
Skewness 1.8527
Std Dev 3.9917
Std Error 0.0105
Median+2.5(Q3-Q1) 16.9508
สูตรคำนวณหำจุดตัด จุดตัด รูปแบบปกติ รูปแบบผิดปกติ %รูปแบบที่ผิดปกติ
Median+2.5(Q3-Q1) 16.9508 142,170 3,672 3%
0 10 20 30 40 50
0.000.050.100.15
density.default(x = Cust_txn$lofavg)
N = 145842 Bandwidth = 0.2824
Density
16.95
ผลการวิเคราะห์
Max cluster Cluster Frequency
RMS
Standard
Deviation
Maximum
Distance from
Seed to
Observation
Radius
Exceeded
Nearest
Cluster
Distance
Between
Cluster
Centroids
3
1 3,406 0.6395 13.9509 > Radius 3 5.5332
2 97 2.8941 28.1499 > Radius 1 7.8612
3 169 1.4675 27.3884 > Radius 1 5.5332
Pseudo
F Statistic
Observed
R-Squared
Over-All
Approx. Expected
R-Squared
Over-All
Cubic
Clustering
Criterion
477.1300 0.2064 0.1047 108.2590
ผลการวิเคราะห์
Cluster group Normal 1 2 3
สัดส่วนเงินที่จ่ายจริงเมื่อเทียบก ับเงินที่ต้องจ่ายสูงสุด 0.0002 -0.0207 0.0219 0.2042
สัดส่วนเงินที่จ่ายจริงเมื่อเทียบก ับเงินที่ต้องจ่ายต่าสุด 0.0003 -0.0079 -0.0291 -0.0677
จานวนชนิดช่องทางการจ่ายผ่านตัวแทน 0.0004 -0.1296 4.1856 -0.0965
จานวนประเภทการจ่ายแบบที่1 -0.0001 -0.2101 0.7697 3.8544
จานวนประเภทการจ่ายแบบที่2 0.0002 -0.0965 3.2309 -0.0368
จานวนธนาคารที่ทาการจ่าย -0.0003 -0.1955 1.4258 3.3523
จานวนรูปแบบการจ่ายเบี้ย 0.0001 -0.0788 1.7666 0.4684
จานวนช่องทางที่ลูกค้าซื้อกรมธรรม์ 0.0000 -0.0931 3.4216 -0.0931
จานวนครั้งที่จ่ายเบี้ยประก ันที่มีการจ่าย -0.0003 -0.0352 0.6315 0.5852
จานวนกรมธรรม์ที่จ่ายแบบรายปี -0.0001 -0.0456 1.3903 0.1983
จานวนกรมธรรม์ที่จ่ายแบบรายครึ่งปี -0.0006 0.0012 0.1840 0.3477
จานวนกรมธรรม์ที่จ่ายแบบรายสามเดือน 0.0000 -0.0195 0.3312 0.1681
จานวนกรมธรรม์ที่จ่ายแบบรายเดือน -0.0001 -0.0216 0.5261 0.1808
เบี้ยประก ันท ั้งปี รวมทุกกรมธรรม์ที่มีการจ่าย -0.0003 -0.0350 1.2317 0.2602
ทุนประก ันชีวิตรวมทุกกรมธรรม์ที่มีการจ่าย -0.0008 -0.0195 1.6847 0.0972
จานวนกรมธรรม์ที่มีการจ่าย 0 0 2 1
จานวนลูกค้า 142,170 3,406 97 169
• Normal
กลุ่มลูกค้าที่มีจานวนกรมธรรม์เฉลี่ยเพียง 1 กรมธรรม์ ลูกค้ามีการจ่ายเบี้ยประกันทุกชนิด (รายเดือน,ราย
สามเดือน,รายหกเดือนและรายปี) และเป็นการจ่ายแบบเต็มจานวนด้วยช่องทางเดียว
• Cluster 1
มีรูปแบบเดียวกับกลุ่ม Normal
• Cluster 2
กลุ่มลูกค้าที่มีจานวนกรมธรรม์ประกันชีวิตเฉลี่ยมากกว่า 2 กรมธรรม์ ซึ่งลูกค้าเน้นการจ่ายเบี้ยแบบราย
เดือนและรายปีโดยเป็นการจ่ายแบบเต็มจานวนในหลายๆ ช่องทางการจ่ายกับตัวแทนขายประกัน
• Cluster 3
ลูกค้าที่มีจานวนกรมธรรม์ประกันชีวิตเฉลี่ยมากกว่า 1 กรมธรรม์เป็นกลุ่มที่เน้นการจ่ายเบี้ยแบบราย
สามเดือนและรายหกเดือนและเป็นการจ่ายแบบเกินจานวนในหลายๆ ช่องทางการชาระเงิน เช่น เงินสดหรือบัตร
เครดิต
สรุปผมการวิเคราะห์
เจาะลึกการ์าเทคโ์โลยีบล็อกเช์ใช้กับด้า์
แรงงา์ต่างด้าว
มาตรา 77 ของรัฐธรรมนูญ
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness
Statistics and big data for justice and fairness

More Related Content

More from BAINIDA

Advent of ds and stat adjustment
Advent of ds and stat adjustmentAdvent of ds and stat adjustment
Advent of ds and stat adjustmentBAINIDA
 
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร BAINIDA
 
Data visualization. map
Data visualization. map Data visualization. map
Data visualization. map BAINIDA
 
Dark data by Worapol Alex Pongpech
Dark data by Worapol Alex PongpechDark data by Worapol Alex Pongpech
Dark data by Worapol Alex PongpechBAINIDA
 
Deepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDADeepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDABAINIDA
 
Professionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data ScienceProfessionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data ScienceBAINIDA
 
Deep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr SanparitDeep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr SanparitBAINIDA
 
Visualizing for impact final
Visualizing for impact finalVisualizing for impact final
Visualizing for impact finalBAINIDA
 
Python programming workshop
Python programming workshopPython programming workshop
Python programming workshopBAINIDA
 
Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...BAINIDA
 
Second prize data analysis @ the First NIDA business analytics and data scie...
Second prize data analysis @ the First NIDA  business analytics and data scie...Second prize data analysis @ the First NIDA  business analytics and data scie...
Second prize data analysis @ the First NIDA business analytics and data scie...BAINIDA
 
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...BAINIDA
 
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...BAINIDA
 
Oracle Enterprise Performance Management Overview
Oracle Enterprise Performance Management OverviewOracle Enterprise Performance Management Overview
Oracle Enterprise Performance Management OverviewBAINIDA
 
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญCurrent trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญBAINIDA
 
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...BAINIDA
 
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...BAINIDA
 
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)  วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA) BAINIDA
 
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญCurrent trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญBAINIDA
 
Agile Development for Startup โดย ผศ.ดร.รัฐกร พูลทรัพย์
Agile Development for Startup โดย ผศ.ดร.รัฐกร  พูลทรัพย์Agile Development for Startup โดย ผศ.ดร.รัฐกร  พูลทรัพย์
Agile Development for Startup โดย ผศ.ดร.รัฐกร พูลทรัพย์BAINIDA
 

More from BAINIDA (20)

Advent of ds and stat adjustment
Advent of ds and stat adjustmentAdvent of ds and stat adjustment
Advent of ds and stat adjustment
 
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
 
Data visualization. map
Data visualization. map Data visualization. map
Data visualization. map
 
Dark data by Worapol Alex Pongpech
Dark data by Worapol Alex PongpechDark data by Worapol Alex Pongpech
Dark data by Worapol Alex Pongpech
 
Deepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDADeepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDA
 
Professionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data ScienceProfessionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data Science
 
Deep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr SanparitDeep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr Sanparit
 
Visualizing for impact final
Visualizing for impact finalVisualizing for impact final
Visualizing for impact final
 
Python programming workshop
Python programming workshopPython programming workshop
Python programming workshop
 
Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...
 
Second prize data analysis @ the First NIDA business analytics and data scie...
Second prize data analysis @ the First NIDA  business analytics and data scie...Second prize data analysis @ the First NIDA  business analytics and data scie...
Second prize data analysis @ the First NIDA business analytics and data scie...
 
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...
แผนธุรกิจ ของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analytics and Dat...
 
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...
ผลการวิเคราะห์ข้อมูลของทีมที่ได้รางวัลชนะเลิศ The First NIDA Business Analyti...
 
Oracle Enterprise Performance Management Overview
Oracle Enterprise Performance Management OverviewOracle Enterprise Performance Management Overview
Oracle Enterprise Performance Management Overview
 
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญCurrent trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
 
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...
ปัจจัยที่มีอิทธิพลต่อการเปลี่ยนแปลงการใช้จ่ายของครัวเรือนไทย โดย รศ.ดร.เดือนเ...
 
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
 
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)  วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
 
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญCurrent trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
Current trends in information security โดย ผศ.ดร.ปราโมทย์ กั่วเจริญ
 
Agile Development for Startup โดย ผศ.ดร.รัฐกร พูลทรัพย์
Agile Development for Startup โดย ผศ.ดร.รัฐกร  พูลทรัพย์Agile Development for Startup โดย ผศ.ดร.รัฐกร  พูลทรัพย์
Agile Development for Startup โดย ผศ.ดร.รัฐกร พูลทรัพย์
 

Statistics and big data for justice and fairness

  • 1. Statistics for justice and fairness ผศ.ดร.อานนท์ ศักดิ์วรวิชญ์ ผู้อานวยการหลักสูตร Ph.D. and M.Sc. in Business Analytics and Data Science อาจารย์ประจาสาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. Roles of statistics in fairness and justice • Facilitate fairness • Detect anomaly and fraud • Prevent crime and anomaly • Regulatory Impact Assessment
  • 7.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15. There is no crime without any trace! -Large deviation from normal or average man or cluster. -Large deviation from past behavior. -Inconsistency with themselves and surroundings. -Repeated anomaly pattern. -Caution on statistical detection of cheating and anomalous detection Anomaly Detection
  • 16. Outlier Analysis 0 Percent Loss Large deviation from normal or average man or cluster.
  • 17. Large deviation from normal or average man or cluster. v 58 Severity Frequency58
  • 18. Loss58 = f(Frequency57, Severity57, ICD-1057, ICD-957 ,ICD-1058, ICD-958, age, gender) Loss58 58 Predictors Under Predict (Fraud or abuse) v vvvvv vvvvv vvvvv vv vv v v vv v vv Large deviation from past behavior.
  • 19. Large deviation from past behavior. TOEFL time 2 TOEFL time 1 Under Predict (Fraud or abuse) v v vv vv vv vvv vv vvv vv vv v v vv v v v
  • 20. Inconsistency with themselves and surroundings. -Low ability test taker can answer difficult item. -K-index for copying! Eight dimensions -Scoring test with contaminated response vector -Influence function + Robust estimators
  • 21.
  • 22. -5 -4 -3 -2 -1 0 1 2 3 0 10 20 Pseudovalue Distribution for an Optima Examinee Proficiency Estimaate Frequency From Incorrect Responses From Correct Responses
  • 23.
  • 24. Repeated anomaly pattern. Predictor Probability Y = 0 normal claim 1 Abuse claim จาก สพตร. Y = ICD10, ICD9, TMT, gender, age, Severityt-1 , Frequencyt-1, Severityt, Frequencyt,
  • 25. Caution on statistical detection of cheating
  • 27.
  • 28. • Positive Predictive Value: PPV Caution on statistical detection of cheating 64.76 % 99.30%
  • 29. • Statistical evidence as a red flag or warning • Physical evidence is always needed. • Early detection, protection, and prevention. • Bayesian flip is needed. Caution on statistical detection of cheating P(Cheating=Yes|Detection=Yes) P(Detection=Yes|Cheating=Yes) P(Cheating=No|Detection=No) P(Detection=No|Cheating=No) P(Cheating=Yes|Detection=Yes)=P(Detection=Yes|Cheating=Yes)*P(Cheating=Yes) P(Detection=Yes)
  • 32. การฟอกเงินในประกันชีวิต ตัวอย่างการฟอกเงิ์ใ์ประกั์ชีวิต • ซื้อกองทุ์ลงทุ์ประกั์ชีวิตที่จ่ายครั้งเดียว(มีความเสี่ยงที่จะฟอกเงิ์มากที่สุดจากการ์าเงิ์สกปรก ก้อ์ใหญ่มาลงทุ์) • ซื้อประกั์ชีวิตรายปีที่มีการจ่ายปั์ผล(ได้รับเงิ์สะอาดเป็์งวดๆ) • ซื้อประกั์ชีวิตแบบประจาที่มีเบี้ยสูงหรือเบี้ยปกติหลายกรมธรรม์(เพื่อลดความส์ใจ) • การไถ่ถอ์เงิ์ก่อ์ครบสัญญาแม้จะได้เงิ์คื์์้อยกว่าเดิม • ซื้อกรมธรรม์เบี้ย์้อยให้ผ่า์ก่อ์แล้วเพิ่มเติมเบี้ย(เพื่อให้ไม่มีการตรวจสอบ) • กู้เงิ์จากกรมธรรม์โดยไม่ผ่อ์จ่ายคื์(ปล่อยกรมธรรม์หมดอายุไปเอง) • เปลี่ย์มือกรมธรรม์ของเจ้าของหรือผู้รับผลประโยช์์ • ใช้กรมธรรม์เป็์หลักทรัพย์ใ์การกู้เงิ์จากธ์าคาร ที่มา : http://www.acamstoday.org/what-is-real-money-laundering-risk-in-life-insurance/
  • 33. Global versus Local Outlier Mahalanobis Distance K Nearest Neighbors Cluster Analysis
  • 34. Local Outlier Factor (LOF) ที่มา : http://www.slideshare.net/Med_KU/20130318-f-rac-24695067 เป็์วิธีการที่ใช้ใ์การตรวจสอบค่าผิดปกติด้วยวิธีการ ตรวจความห์าแ์่์รอบรัศมีของจุดที่ส์ใจ ข้อมูลที่มีค่าผิดปกติจะมีคะแ์์ที่สูง ซึ่ง จะไม่มีเกณฑ์ใ์ตัดที่ตายตัว ข้อมูลที่มีค่าปกติจะมีคะแ์์ประมาณ 1
  • 35. • LOF = Local density of k neighbor/Local density of its own point • The Higher LOF = the more extreme local outlier!!!! • Determine sigma (radius / reachable distance around point) so that we can count k neighbor. • Local density for point = numbers of points within reachable distance/sum of distance between points and all k neighbors LOF
  • 37. ผลการวิเคราะห์ N 145,842 Minimum 1.0529 Lower Quartile 3.8028 Mean 6.6356 Median 5.6134 Upper Quartile 8.3377 Maximum 50.6028 Skewness 1.8527 Std Dev 3.9917 Std Error 0.0105 Median+2.5(Q3-Q1) 16.9508 สูตรคำนวณหำจุดตัด จุดตัด รูปแบบปกติ รูปแบบผิดปกติ %รูปแบบที่ผิดปกติ Median+2.5(Q3-Q1) 16.9508 142,170 3,672 3% 0 10 20 30 40 50 0.000.050.100.15 density.default(x = Cust_txn$lofavg) N = 145842 Bandwidth = 0.2824 Density 16.95
  • 38. ผลการวิเคราะห์ Max cluster Cluster Frequency RMS Standard Deviation Maximum Distance from Seed to Observation Radius Exceeded Nearest Cluster Distance Between Cluster Centroids 3 1 3,406 0.6395 13.9509 > Radius 3 5.5332 2 97 2.8941 28.1499 > Radius 1 7.8612 3 169 1.4675 27.3884 > Radius 1 5.5332 Pseudo F Statistic Observed R-Squared Over-All Approx. Expected R-Squared Over-All Cubic Clustering Criterion 477.1300 0.2064 0.1047 108.2590
  • 39. ผลการวิเคราะห์ Cluster group Normal 1 2 3 สัดส่วนเงินที่จ่ายจริงเมื่อเทียบก ับเงินที่ต้องจ่ายสูงสุด 0.0002 -0.0207 0.0219 0.2042 สัดส่วนเงินที่จ่ายจริงเมื่อเทียบก ับเงินที่ต้องจ่ายต่าสุด 0.0003 -0.0079 -0.0291 -0.0677 จานวนชนิดช่องทางการจ่ายผ่านตัวแทน 0.0004 -0.1296 4.1856 -0.0965 จานวนประเภทการจ่ายแบบที่1 -0.0001 -0.2101 0.7697 3.8544 จานวนประเภทการจ่ายแบบที่2 0.0002 -0.0965 3.2309 -0.0368 จานวนธนาคารที่ทาการจ่าย -0.0003 -0.1955 1.4258 3.3523 จานวนรูปแบบการจ่ายเบี้ย 0.0001 -0.0788 1.7666 0.4684 จานวนช่องทางที่ลูกค้าซื้อกรมธรรม์ 0.0000 -0.0931 3.4216 -0.0931 จานวนครั้งที่จ่ายเบี้ยประก ันที่มีการจ่าย -0.0003 -0.0352 0.6315 0.5852 จานวนกรมธรรม์ที่จ่ายแบบรายปี -0.0001 -0.0456 1.3903 0.1983 จานวนกรมธรรม์ที่จ่ายแบบรายครึ่งปี -0.0006 0.0012 0.1840 0.3477 จานวนกรมธรรม์ที่จ่ายแบบรายสามเดือน 0.0000 -0.0195 0.3312 0.1681 จานวนกรมธรรม์ที่จ่ายแบบรายเดือน -0.0001 -0.0216 0.5261 0.1808 เบี้ยประก ันท ั้งปี รวมทุกกรมธรรม์ที่มีการจ่าย -0.0003 -0.0350 1.2317 0.2602 ทุนประก ันชีวิตรวมทุกกรมธรรม์ที่มีการจ่าย -0.0008 -0.0195 1.6847 0.0972 จานวนกรมธรรม์ที่มีการจ่าย 0 0 2 1 จานวนลูกค้า 142,170 3,406 97 169
  • 40. • Normal กลุ่มลูกค้าที่มีจานวนกรมธรรม์เฉลี่ยเพียง 1 กรมธรรม์ ลูกค้ามีการจ่ายเบี้ยประกันทุกชนิด (รายเดือน,ราย สามเดือน,รายหกเดือนและรายปี) และเป็นการจ่ายแบบเต็มจานวนด้วยช่องทางเดียว • Cluster 1 มีรูปแบบเดียวกับกลุ่ม Normal • Cluster 2 กลุ่มลูกค้าที่มีจานวนกรมธรรม์ประกันชีวิตเฉลี่ยมากกว่า 2 กรมธรรม์ ซึ่งลูกค้าเน้นการจ่ายเบี้ยแบบราย เดือนและรายปีโดยเป็นการจ่ายแบบเต็มจานวนในหลายๆ ช่องทางการจ่ายกับตัวแทนขายประกัน • Cluster 3 ลูกค้าที่มีจานวนกรมธรรม์ประกันชีวิตเฉลี่ยมากกว่า 1 กรมธรรม์เป็นกลุ่มที่เน้นการจ่ายเบี้ยแบบราย สามเดือนและรายหกเดือนและเป็นการจ่ายแบบเกินจานวนในหลายๆ ช่องทางการชาระเงิน เช่น เงินสดหรือบัตร เครดิต สรุปผมการวิเคราะห์
  • 41.
  • 43.
  • 44.
  • 45.