Anomaly detection and anti-money laundering โดย ปัณณวิชญ์ วิศัลยาวัฒน์ อาจารย์ ดร.อานนท์ ศักดิ์วรวิชญ์
ในงาน THE FIRST NIDA BUSINESS ANALYTICS AND DATA SCIENCES CONTEST/CONFERENCE จัดโดย คณะสถิติประยุกต์และ DATA SCIENCES THAILAND
1. Anomaly detection and anti-money laundering
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
อาจารย์ ดร.อานนท์ ศักดิ์วรวิชญ์
สาขาวิชา Business Analytics and Intelligence
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
นวมินทราธิราช 3002 วันที่ 1 กันยายน 2559 13.30-14.30 น.
ปัณณวิชญ์ วิศัลยาวัฒน์ วทม. (NIDA)
-หลักการในการตรวจสอบความผิดปกติ -การตรวจจับ pattern ของความผิดปกติ
-การตรวจจับ Outlier ตัวแปรเดียว สองตัวแปร และหลายตัวแปร
-การวิเคราะห์ส่วนเหลือ (Residual) สาหรับการตรวจสอบความผิดปกติ
-การวิเคราะห์ outlier เพื่อตรวจจับการฟอกเงินในการซื้อประกันภัย
-เราจะเชื่อได้แค่ไหนว่าหลักสถิติใช้ในการตรวจสอบการทุจริตได้จริง
2. Anomaly Detection
Arnond Sakworawich Ph.D.
Business Analytics and Intelligence Program
Actuarial Sciences and Risk Management Program
Graduate School of Arts and Sciences
National Institute of Development Administration
3. There is no crime without any trace!
-Large deviation from normal or average man or cluster.
-Large deviation from past behavior.
-Inconsistency with themselves and surroundings.
-Repeated anomaly pattern.
-Caution on statistical detection of cheating and anomalous detection
Anomaly Detection
6. Loss58 = f(Frequency57, Severity57, ICD-1057, ICD-957
,ICD-1058, ICD-958, age, gender)
Loss58
58
Predictors
Under Predict (Fraud or abuse)
v
vvvvv
vvvvv
vvvvv
vv
vv
v
v
vv
v
vv
Large deviation from past behavior.
7. Large deviation from past behavior.
TOEFL time 2
TOEFL time 1
Under Predict (Fraud or abuse)
v
v
vv
vv
vv
vvv
vv
vvv
vv
vv
v
v
vv
v
v
v
8. Inconsistency with themselves and surroundings.
-Low ability test taker can answer difficult item.
-K-index for copying! Eight dimensions
-Scoring test with contaminated response vector
-Influence function + Robust estimators
9.
10. -5 -4 -3 -2 -1 0 1 2 3
0
10
20
Pseudovalue Distribution for an Optima Examinee
Proficiency
Estimaate
Frequency
From Incorrect
Responses
From Correct
Responses
16. • Positive Predictive Value: PPV
Caution on statistical detection of cheating
64.76 % 99.30%
17. • Statistical evidence as a red flag or warning
• Physical evidence is always needed.
• Early detection, protection, and prevention.
• Bayesian flip is needed.
Caution on statistical detection of cheating
P(Cheating=Yes|Detection=Yes)
P(Detection=Yes|Cheating=Yes)
P(Cheating=No|Detection=No)
P(Detection=No|Cheating=No)
P(Cheating=Yes|Detection=Yes)=P(Detection=Yes|Cheating=Yes)*P(Cheating=Yes)
P(Detection=Yes)
23. • LOF = Local density of k neighbor/Local density of its own point
• The Higher LOF = the more extreme local outlier!!!!
• Determine sigma (radius / reachable distance around point) so
that we can count k neighbor.
• Local density for point = numbers of points within reachable
distance/sum of distance between points and all k neighbors
LOF