09 anomaly detection

บทที่ 9 การตรวจจับความผิดปกติ
(ANOMALY DETECTION)
โดย ดร. หทัยรัตน์ เกตุมณีชัยรัตน์
ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ
1

เนื้อหา
 ความหมายของการตรวจจับความผิดปกติ
 ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
 ปัญหาของการตรวจจับความผิดปกติ
 เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
2

ความหมายของการตรวจจับความผิดปกติ
 การตรวจจับความผิดปกติ เป็นการกล่าวถึงรูปแบบการตรวจจับสิ่งที่ไม่
สอดคล้องกับพฤติกรรมปกติที่ถูกสร้างขึ้นในชุดข้อมูล ซึ่งเป็นการตรวจจับ
การบุกรุกกิจกรรมที่ผิดแปลกไปจากพฤติกรรมปกติที่สร้างขึ้น
 ตัวอย่างเช่น เด็กมี IQ ได้195 น้าหนักของคน 220 กิโลกรัม ความสูงของ
คน 210 ซ.ม. ซึ่งถือว่ามีความผิดปกติจากลุ่มข้อมูลทั่วไป
3

 ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ
1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน
2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไปจากกลุ่มจริง
ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้นได้เสมอ จึงควรมีการ
ตรวจสอบข้อมูลให้ถูกต้องก่อนวิเคราะห์สถิติใด ๆ เสียก่อน
ความหมายของการตรวจจับความผิดปกติ
4

ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
ตัวอย่างของความผิดปกติที่เกิดขึ้นในชีวิตจริง
 การตรวจจับการบุกรุกทางเครือข่าย
 การตรวจสอบการทุจริตบัตรเครดิต
 ทางด้านการแพทย์ การวินิจฉัยโรค
 การประมวลผลภาพหรือการตรวจสอบทางด้านกล้องวงจรปิด
5

Fraud Detection
การตรวจจับการบุกรุกทางเครือข่าย
6

การใช้ NIDS ใน
การตรวจสอบ
ความผิดปกติ ใน
ระบบเครือข่าย
โดยตรวจสอบจาก
Hardware
Instruction Detection
7

ตัวอย่าง ภาพการระบุตาแหน่งสภาพพื้นที่เกิดหิมะในเขตที่สนใจ
Ecosystem Disturbance
8

ปัญหาทางด้านการตรวจจับความผิดปกติ ได้แก่
1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
2. ประเภทของความผิดปกติ (type of anomaly)
3. ลาเบลข้อมูล (Data Label)
4. ผลลัพธ์ของการตรวจจับความผิดปกติ (Output of anomaly detection)
ปัญหาทางด้านการตรวจจับความผิดปกติ
9

1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
เป็นการรวบรวมโดยทั่ว ๆ ไปของตัวข้อมูล ที่เรียกว่า
object record
point vector
pattern event
case sample
observation entity
รูปแบบของข้อมูลส่วนใหญ่จะเป็นแบบระเบียน (Record)
10

รูปแบบของข้อมูลที่นาเข้าแบ่งออกเป็น 2 ประเภทใหญ่ ๆ คือ
1.Univariate 2.Multivariate
11

1. ธรรมชาติของข้อมูลนาเข้า(Nature of Input Data)
ตัวข้อมูลสามารถอธิบายได้โดยใช้กลุ่มของคุณลักษณะ ที่เรียกว่า
variable characteristic
feature field
dimension
คุณลักษณะของข้อมูล มีรูปแบบดังนี้
1. Binary
2. Categorical
3. Continuous
4. Hybrid
12

Tid SrcIP Duration Dest IP
Number
of bytes
Internal
1 206.163.37.81 0.10 160.94.179.208 150 No
2 206.163.37.99 0.27 160.94.179.235 208 No
3 160.94.123.45 1.23 160.94.179.221 195 Yes
4 206.163.37.37 112.03 160.94.179.253 199 No
5 206.163.37.41 0.32 160.94.179.244 181 No
13

 2. ประเภทของความผิดปกติ (type of anomaly)
ความผิดปกติสามารถแบ่งออกได้เป็น 3 ประเภท
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
14

2. ประเภทของความผิดปกติ (type of anomaly)
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
N1 , N2 เป็นพื้นที่ของพฤติกรรมปกติ
O1 , O2 เป็นตำแหน่งที่มีควำมผิดปกติ
ตำแหน่งที่อยู่ภำยในขอบเขต O3
จะเป็นตำแหน่งที่มีควำมผิดปกติดววย
15

2. ประเภทของความผิดปกติ (type of anomaly)
ถ้าตัวข้อมูลเป็นความผิดปกติในบริบทเฉพาะ ดังนั้นข้อมูลส่วนดังกล่าว
จะตกอยู่ในส่วนของบริบทที่มีความผิดปกติ
อธิบายข้อมูลโดยใช้กลุ่มของคุณลักษณะ 2 กลุ่ม คือ
1. คุณลักษณะบริบท (Contextual attributes)
2. คุณลักษณะพฤติกรรม (Behavioral attributes)
16

1. คุณลักษณะบริบท (Contextual attributes)
เป็นการใช้เพื่อกาหนดบริบท (หรือบริเวณใกล้เคียง) สาหรับตัวอย่าง เช่น ใน
ชุดข้อมูลเกี่ยวกับอากาศ ตาแหน่งของลองติจูดและ ละติจูดจะมีลักษณะเป็น
คุณลักษณะบริบท ในข้อมูลอนุกรมเวลาส่วนของเวลาจะมีคุณลักษณะบริบท
ซึ่งกาหนดตาแหน่งของตัวอย่างบนอนุกรมทั้งหมด
17

2. คุณลักษณะพฤติกรรม (Behavioral attributes)
 2. ความผิดปกติตามบริบท (Contextual Anomalies)
จะอธิบายข้อมูลที่ไม่เป็นคุณลักษณะบริบท เช่น ชุดข้อมูลเกี่ยวกับอากาศที่
อธิบายค่าเฉลี่ยปริมาณน้าฝนทั้งโลก จานวนของปริมาณน้าฝนทุกตาแหน่ง จะเป็น
คุณลักษณะพฤติกรรม
พฤติกรรมผิดปกติเป็นการกาหนดโดยใช้ค่าสาหรับคุณลักษณะพฤติกรรม
ภายในบริบทจาเพาะ
18

 2. ประเภทของความผิดปกติ (type of anomaly)
จากภาพ อุณหภูมิที่เวลา t1 และ t2 จะเหมือนกัน แต่เกิดในบริบทที่แตกต่างกัน
ในกรณีนี้ อุณหภูมิที่เวลา t2 จะถูกพิจารณาเป็นความผิดปกติ 19

เป็นความผิดปกติของตัวข้อมูลที่เกิดจากการเก็บรวบรวมตัวข้อมูลที่เกี่ยวข้องทั้งหมด
ตัวข้อมูลในความผิดปกติจากการรวบรวมอาจจะไม่เป็นความผิดปกติโดยตัวมันเอง
แต่การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ หรือทาให้ตัวข้อมูลที่ทาการ
รวบรวมเกิดความผิดปกติขึ้น
มีความเกี่ยวข้องกับข้อมูลประเภทที่เป็น
- ข้อมูลที่เป็นแบบอนุกรม , ข้อมูลที่เกี่ยวกับระยะ , ข้อมูลที่เป็นแบบกราฟ
20

จากภาพ การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ ทาให้ตัวข้อมูล
ที่ทาการรวบรวมเกิดความผิดปกติขึ้น
21

ลาเบลเกี่ยวข้องกับตัวข้อมูล ถ้าข้อมูลเป็นความปกติหรือความผิดปกติ
ตัวข้อมูลควรจะได้รับลาเบลข้อมูลที่ถูกต้อง และเป็นตัวแทนของประเภท
พฤติกรรมทั้งหมด
การได้รับลาเบลของกลุ่มข้อมูลผิดปกติทั้งหมด เป็นเรื่องที่ทาได้ยากกว่า
การรับลาเบลของกลุ่มข้อมูลที่ปกติ
เทคนิคตรวจจับความผิดปกติที่ดาเนินการในรูปแบบนี้มี 3 รูปแบบคือ
1. Supervised anomaly detection
2. Semi-Supervised anomaly detection
3. Unsupervised anomaly detection
22

1. Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีการกาหนดลาเบลให้กับข้อมูลทั้งกลุ่ม
ข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ วิธีการโดยทั่วไปของเทคนิคนี้เป็นการสร้าง
รูปแบบทานายสาหรับกลุ่มของความปกติ และผิดปกติ
2. Semi-Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีลาเบลข้อมูลสาหรับกลุ่มของความปกติ
เพียงอย่างเดียว โดยกลุ่มของความผิดปกติจะไม่ต้องการลาเบลกากับ
23

3. Unsupervised anomaly detection
เทคนิคนี้ดาเนินการโดยไม่ต้องการชุดข้อมูลการสอน และเป็นเทคนิคที่มี
ความเหมาะสมมากที่สุด เทคนิคนี้จะสร้างสมมติฐาน โดยข้อมูลปกติจะมี
ความถี่มากกว่าข้อมูลผิดปกติในชุดข้อมูลทดสอบ ถ้าหากสมมติฐานนี้
ไม่เป็นจริงจะเกิดอัตรา False alarm สูง
24

4. ผลลัพธ์ของการตรวจจับความผิดปกติ
(Output of Anomaly Detection)
1. Label
เป็นการกาหนดลาเบล (ปกติหรือผิดปกติ) ให้กับแต่ละข้อมูลทดสอบ
2. Score
เป็นการกาหนดคะแนนความผิดปกติให้กับข้อมูลในชุดข้อมูลทดสอบ
โดยขึ้นอยู่กับระดับของข้อมูลที่ถูกพิจารณาความผิดปกติ ผลลัพธ์ของ
เทคนิคนี้เป็นรายการระดับชั้นของความผิดปกติ การวิเคราะห์อาจจะเลือก
วิเคราะห์ความผิดปกติที่อยู่บนสุด หรือใช้threshold เพื่อเลือกความผิดปกติ 25

เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ แบ่งออกเป็น 4 เทคนิค ได้แก่
1. Statistical Anomaly Detection
2. Classification Based Anomaly Detection Techniques
3. Clustering Based Anomaly Detection Techniques
4. Nearest Neighbor Based Anomaly Detection Techniques
26

1. Statistical Anomaly Detection
 วิธีการทางด้านสถิติสาหรับการตรวจจับความผิดปกติ
 สถิติ หมายถึง วิธีการที่ว่าด้วยการเก็บรวบรวมข้อมูล การนาเสนอ
ข้อมูล การวิเคราะห์ข้อมูล และการตีความหมายข้อมูล สถิติใน
ความหมายนี้เป็นทั้งวิทยาศาสตร์และศิลปศาสตร์ เรียกว่า "สถิติศาสตร์
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
27

สถิติแบ่งออกเป็น 2 ประเภท
1. สถิติพรรณนา (Descriptive Statistics)
 เป็นสถิติที่ใช้อธิบายคุณลักษณะต่าง ๆ ของสิ่งที่ต้องการศึกษาในกลุ่มใดกลุ่มหนึ่ง
 วิธีการทางสถิติที่อยู่ในประเภทนี้ เช่น
 การจัดกระทากับข้อมูลโดยนาเสนอในรูปของตารางหรือรูปภาพ
 การแปลงคะแนนให้อยู่ในรูปแบบอื่น ๆ เช่น เปอร์เซ็นต์ไทล์คะแนนมาตรฐาน ฯ
 การคานวณหาค่าเฉลี่ยหรือการกระจายของข้อมูล เช่น มัชฌิมเลขคณิต มัธยฐาน
 ส่วนเบี่ยงเบนมาตรฐาน พิสัย ฯ
28

 เป็นสถิติที่ใช้อธิบายคุณลักษณะของสิ่งที่ต้องการศึกษาในกลุ่มใดกลุ่มหนึ่งแล้ว
สามารถอ้างอิงไปยังกลุ่มอื่น ๆ ได้โดยกลุ่มที่นามาศึกษาจะต้องเป็นตัวแทนที่ดีของ
ประชากร ตัวแทนที่ดีของประชากรได้มาโดยวิธีการสุ่มตัวอย่าง และตัวแทนที่ดีของ
ประชากรจะเรียกว่า "กลุ่มตัวอย่าง"
2. สถิติอ้างอิง (Inferential Statistics)
29

 สถิติอ้างอิงสามารถแบ่งออกได้เป็น 2 ประเภทย่อย คือ
1. สถิติมีพารามิเตอร์ (Parametric Statistics)
• ตัวแปรที่ต้องการวัดจะต้องอยู่ในมาตราการวัดระดับช่วงขึ้นไป (Interval
Scale)
• ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างจะต้องมีการแจกแจงเป็นโค้งปกติ
• กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาจะต้องมีความแปรปรวนเท่ากัน
30

 2. สถิติไร้พารามิเตอร์ (Nonparametric Statistics)
 ตัวแปรที่ต้องการวัดอยู่ในมาตราการวัดระดับใดก็ได้ (Norminal Scale,
Ordinal Scale, Interval Scale, RatioScale)
 ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างมีการแจกแจงแบบใดก็ได้
 กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาไม่จาเป็นต้องมีความแปรปรวน
เท่ากัน
สถิติไร้พารามิเตอร์ เช่น ไคสแควร์, Median Test, Sign test ฯลฯ
31

การทดสอบสัดส่วนประชากรว่าเท่ากับที่คาดหวังหรือไม่
 0 : P1 : P2 … : Pk = P10 : P20 … : Pk0
 1 : Pi  Pi0 อย่างน้อย 1 ค่า ; i = 1, 2 ,…k
โดยที่ Pi0 = สัดส่วนที่คาดว่าจะเป็น ซึ่งเป็นค่าคงที่ อยู่ระหว่าง 0 – 1
สถิติที่ใช้ทดสอบคือ
n
 2 =   i i ) 2
i=1 i 32

เมื่อ  2 = สัญลักษณ์ของไคสแควร์
 = ความถี่ที่แจงนับได้
 = ความถี่ที่คาดหวังหรือที่กาหนด
n = จานวน
สูตรคานวณ  = n pi0
เขตปฏิเสธ จะปฏิเสธ  0 เมื่อ  2   2
 : k-1
33

การทดสอบสัดส่วนประชากรว่าเท่ากับที่คาดหวังหรือไม่
ตัวอย่าง
ยาแก้ปวดศีรษะชนิดหนึ่ง บริษัทอ้างว่ารักษาผู้ป่วยหายภายใน 3 ชั่วโมง
ร้อยละ 90 เพื่อทดสอบสรรพคุณของยาชนิดนี้ จึงเลือกผู้ป่วยมา 400 คน
และให้กินยาดังกล่าวพบว่าหายภายใน 3 ชั่วโมง 320 คนยาชนิดนี้สรรพคุณ
ตามที่อ้างหรือไม่
34

การคานวณ
ถ้ายานี้มีสรรพคุณที่อ้างผู้ป่วย 100 คน จะต้องหาย 90 ฉะนั้นถ้าทดลอง
กับผู้ป่วย 400 คน จะต้องหาย 360 คน และไม่หาย 40 คน จากหลักการนี้
สามารถ คานวณหาค่าไคสแควร์ ดังนี้
สมมติฐาน สัดส่วนการหายปวด : ไม่หายปวด = 90 : 10
หรือ  0 : P1 : P2 = 90 : 10
 1 : P1 : P2  90 : 10
 = np 35

36

ฉะนั้น  2 = 44.44 นาไปเปรียบเทียบกับค่า  2
ในตาราง df = 2-1 = 1
และ  =0.05 =3.84 แสดงว่าค่า  2
ที่คานวณได้มากกว่าค่าในตาราง หมายความว่า
ยานี้ให้ผลต่างจากร้อยละ 90 นั้น คือ ไม่มีสรรพคุณตามที่อ้างไว้
อนึ่ง ในการคานวณค่า  2 ถ้า df = 1 หรือ ค่า  น้อยกว่า 5
ควรปรับสูตรด้วยการเอา 0.5 ลบออกจากผลที่ได้ไม่ติดเครื่องหมายก่อน
แล้วจึงยกกาลังสองจึงจะทาให้ค่า  2 ที่ได้ตรงกับความเป็นจริงมากขึ้น 37

Mahalanobis distances
General Concepts:
D2 = (x - m)T c-1 (x - m)
D2 = Mahalanobis distance
x = Vecter of data
m = Vecter of mean values of indepndent variables
C-1 = Inverse Covariance matrix of independent variable
38

Variable X: mean = 500
Variable Y: mean = 500
39

Covariance Matrix
X Y
X 6291.55737 3754.32851
Y 3754.32851 6280.77066
40

Given that Mahalanobis Distance D2 = (x - m)T c-1 (x - m)
(x – m) = 410 – 500 = -90
400 - 500 -100
C-1 = 6291.55737 3754.32851 -1 = 0.00025 - 0.00015
3754.32851 6280.77066 -0.00015 - 0.00025
Therefore D2 = (-90 -100)
*
0.00025 - 0.00015
*
-90
-0.00015 0.00025 -100
= 1.825 # answer
41

42

43

44

45

2. Classification Based Anomaly Detection Techniques
การจัดแบ่งประเภทได้รับการนามาใช้ เพื่อเรียนรู้รูปแบบจากกลุ่มของลาเบลข้อมูล
(การสอน) และจัดกลุ่มข้อมูลทดสอบเพื่อใช้ในการทดสอบ
เทคนิคในกลุ่มนี้มีการดาเนินใน 2 ขั้นตอนที่มีลักษณะคล้ายคลึงกับขั้นตอนการสอน
ตัวจัดแบ่งประเภทจะเรียนรู้โดยใช้ลาเบลข้อมูลการสอนที่ได้รับจากขั้นตอนที่สอง
ตัวจัดแบ่งประเภทจะทาการจัดกลุ่มข้อมูลทดสอบออกเป็นกลุ่มปกติ หรือผิดปกติ
เทคนิคในกลุ่มนี้สามารถแบ่งออกเป็น 2 กลุ่มคือ multi-class และ one-class
46

Multi-class
จะถือว่า ข้อมูลการสอนประกอบด้วยลาเบลข้อมูลที่เป็นของกลุ่มปกติหลายๆ กลุ่ม
ตัวจาแนกจะทาการเรียนรู้เพื่อจาแนกความแตกต่างระหว่างกลุ่มปกติกับกลุ่มที่เหลือ
ข้อมูลทดสอบจะถูกพิจารณาว่าเป็นความผิดปกติ
ถ้าไม่ถูกจัดกลุ่มว่าเป็นความปกติโดยทุกตัวจัดแบ่ง
เทคนิคอื่นๆ ในกลุ่มนี้เกี่ยวข้องกับการใช้คะแนนความเชื่อมั่นด้วยสร้างการทานาย
โดยตัวจัดแบ่ง
ถ้าตัวจัดแบ่งเชื่อมั่นในการจัดแบ่งกลุ่ม ข้อมูลทดสอบจะถูกกาหนดเป็นความผิดปกติ
แต่ถ้ากลุ่มข้อมูลทดสอบมีคะแนนความเชื่อมั่นต่าจะถูกกพิจารณาเป็นความผิดปกติ
47

one-class
จะถือว่าข้อมูลการสอนทั้งหมดจะมีกลุ่มลาเบลเพียงกลุ่มเดียว และทาการเรียนรู้โดย
แยกแยะขอบเขตรอบๆ ข้อมูลปกติโดยใช้one-classification algorithm เช่น
one-class SVMs และ oneclass Kernel Fisher Discriminates เป็นต้น
ทุก ๆ ข้อมูลทดสอบที่ไม่ตกอยู่ภายในขอบเขตที่เรียนรู้ว่าเป็น ความปกติ
จะถูกประกาศเป็นความผิดปกติ
48

การจัดแบ่งกลุ่มแบบ multi-class
(Varun Chandola และคณะ, 2007)
49

การจัดแบ่งกลุ่มแบบ one-class
(Varun Chandola และคณะ, 2007) 50

Neural network
ข่ายงานประสาท (Neural Networks) คือการจาลองรูปแบบการทางานของ
เซลล์สมองมนุษย์ที่เรียกว่า ตัวเซลล์ (Cell Body) หรือ นิวรอน (Neural)
โดยข่ายงานประสาทเทียมสามารถเรียนรู้จากประสบการณ์ และสามารถ
อนุมานจากสิ่งที่เรียนรู้ไปสู่สิ่งที่ไม่เคยเรียนรู้มาก่อน ที่เรียกว่า
ความสามารถในการบ่งชี้ทั่วไป (Generalization)
51

ข่ายงานประสาทมีคุณสมบัติ 2 ประการคือ
-การเรียนรู้หรือการสอน (Learning or Training)
- การระลึก หรือจดจาได้(Recall)
52

Supervised Learning
การเรียนแบบมีการสอน
53

Unsupervised Learning
การเรียนแบบไม่มีการสอน
54

Beyesian network
ข่ายงาน Bayesian ถูกนามาใช้สาหรับการตรวจจับความผิดปกติในวิธีการแบบ
multi-class โดยข่ายงาน Bayesian เป็นกราฟอวัฏจักรระบุทิศทาง
(directed acyclic graph: DAG)
ข่ายงาน Bayesian เป็นเครื่องมือที่สาคัญชนิดหนึ่งในการสร้างตัวแปร
แบบความน่าจะเป็นโดยการผสมผสานระหว่างทฤษฏีความน่าจะเป็น และทฤษฏีกราฟ
ทาให้การทางานมีประสิทธิภาพมากยิ่งขึ้น
55

X
56

Support vector machines
ประยุกต์ใช้ในการตรวจจับความผิดปกติในวิธีการ One-class และเกี่ยวข้องกับ
วิธีการการเรียนรู้แบบมีผู้สอนถูกนามาใช้สาหรับการแบ่งประเภทและ
การถอยกลับ SVM จะสร้างระนาบเกินหรือกลุ่มของระนาบเกินในพื้นที่ข้อมูล
มิติสูง โดยเทคนิคนี้จะทาการแบ่งกลุ่มข้อมูลโดยหาผลลัพธ์เป็นเส้นแบ่งข้อมูล
2 กลุ่มคือ กลุ่มข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ ออกจากกันในรูปแบบของ
ระนาบหลายมิติเชิงเส้น
57

ผลลัพธ์ในรูปแบบของระนาบหลายมิติจะมีคุณสมบัติ
เป็นระนาบหลายมิติที่ทาให้ระยะห่างระหว่างกลุ่มข้อมูลทั้งสอง
(ระยะทางที่ใกล้ที่สุดที่เป็นไปได้จากจุด 2 จุดในคนละกลุ่มกัน)
เป็นระยะห่างที่มากที่สุด หรือเรียกว่า ระยะขอบมากสุด (Maximum Margin)
ในการเรียนรู้ของ SVM จะใช้การเรียนรู้เพียงกลุ่มเดียว และเรียนรู้ขอบเขต
ในส่วนของข้อมูลการสอนที่เป็นความปกติ
58

59

60

61

Rule Based
เทคนิค Rule Based มีการประยุกต์ใช้ในวิธีการแบบ multi-class
และแบบ one-class ซึ่งกฎสร้างขึ้นจากการเรียนรู้พฤติกรรมปกติของระบบ
ข้อมูลที่ไม่ครอบคลุมโดยทุกๆ กฎจะถูกพิจารณาเป็นความผิดปกติ
เทคนิคที่ขึ้นกับ Multi-class rule การทางานประกอบด้วย 2 ขั้นตอน
ขั้นตอนแรก
เป็นการเรียนรู้กฎจากชุดข้อมูลการสอนโดยใช้อัลกอริทึม
rule learning อย่างเช่น RIPPER และ Decision Treesเป็นต้น 62

Rule Based
ขั้นตอนที่สอง
เป็นการค้นหาข้อมูลทดสอบที่มีคะแนนความผิดปกติ หรือค่าความเชื่อมั่นน้อย
จะถูกระบุเป็นความผิดปกติ
63

Rule Based
กฎความสัมพันธ์ (Association Rule Mining) เป็นวิธีการค้นหากฎ
ความสัมพันธ์ของข้อมูลโดยค้นหาความสัมพันธ์ของข้อมูลสองชุดข้อมูลหรือ
มากกว่าสองชุดข้อมูลขึ้นไปไว้ด้วยกัน กฎจะทาการวัดโดยใช้ข้อมูล 2 ตัว
ด้วยกันคือค่าสนับสนุน (Support) ซึ่งเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎ
สามารถนาไปใช้ หรือเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎที่ใช้มีความ
ถูกต้อง และข้อมูลค่าความมั่นใจ (Confidence) ซึ่งเป็นจานวนของกรณีที่กฎ
ถูกต้องโดยสัมพันธ์กับจานวนของกรณีที่กฎสามารถนาไปใช้ได้
64

Rule Based
ความซับซ้อนในการคานวณของเทคนิคนี้จะขึ้นอยู่กับอัลกอริทึมจัดแบ่งประเภท
(classification algorithm) ที่นามาใช้งาน
65

3. Clustering Based Anomaly Detection Techniques
 การจัดกลุ่มก้อน (Clustering) คือการแบ่งวัตถุใดๆ ออกเป็นกลุ่มต่างๆ โดยที่
สมาชิกในกลุ่มเดียวกัน มีความคล้ายคลึงกัน (Similarity) มากกว่าสมาชิกต่างกลุ่ม
 การจัดกลุ่มแบ่งตามลักษณะวิธีได้ 5 วิธีหลัก
 วิธีแบ่งส่วน (Partitioning)
 วิธีลาดับขั้น (Hierarchical)
 วิธีใช้ความหนาแน่น (Density-Based)
 วิธีใช้ตาราง (Grid-Based)
 วิธีใช้แบบจาลอง (Model-Based)
66

เทคนิคในกลุ่มนี้สามารถแบ่งตามสมมุติฐานออกเป็น 2 กลุ่มดังนี้
กลุ่มแรก ขึ้นอยู่กับสมมุติฐานที่ว่า “ข้อมูลปกติเป็นข้อมูลของ cluster
ขณะที่ความผิดปกติไม่เป็นของ cluster ใดๆ”ซึ่งเทคนิคในกลุ่มแรกนี้มี
การประยุกต์ใช้ clustering algorithm เพื่อเรียนรู้ชุดข้อมูล และการ
ประกาศข้อมูลใดๆ ที่ไม่เป็นของ cluster ที่เป็นความผิดปกติ เช่น
DBSCAN, ROCK และ SNN clustering เป็นต้น
67

 กลุ่มที่สอง ขึ้นอยู่กับสมมุติฐานที่ว่า “ข้อมูลปกติจะอยู่ใกล้กับตาแหน่ง
ตรงกลางของ cluster ของตัวข้อมูลเอง ขณะที่ความผิดปกติจะอยู่ไกล
ออกไปจากตาแหน่งตรงกลาง Cluster ของตัวข้อมูล”
 เทคนิคในกลุ่มที่สองนี้ประกอบด้วย 2 ขั้นตอน คือ
- ขั้นตอนแรก ข้อมูลถูกจัดกลุ่มก้อนโดยใช้Clustering algorithm
- ขั้นตอนที่สอง สาหรับข้อมูลทดสอบ โดยระยะห่างจากตาแหน่ง
ตรงกลาง Cluster ของตัวข้อมูลจะถูกพิจารณาเป็นคะแนนความผิดปกติ
68

เทคนิคที่ใช้ใน 2 วิธีการนี้ เช่น
- Self-Organizing Map (SOM)
- K-means Clustering
- Expectation Maximization (EM) เป็นต้น
ความซับซ้อนในการคานวณของเทคนิคนี้ขึ้นอยู่กับ Clustering
algorithm ที่นามาใช้ในการสร้าง cluster จากข้อมูล และในส่วน
ของประสิทธิภาพในการทางานจะขึ้นอยู่กับ clustering algorithm
ที่นามาใช้งานด้วยเช่นกัน
69

วิธีทั่วไปของการทา Clustering
 กลุ่มของข้อมูลเกี่ยวกับจานวนจากัดของกลุ่ม
 การวิเคราะห์ข้อมูลแต่ละข้อมูล ซึ่งเกี่ยวข้องกับแต่ละกลุ่มที่มีความ
ใกล้เคียงที่สุด
 กรณีการตรวจสอบความผิดปกติ
- กรณีข้อมูลที่ไม่เหมาะสมในกลุ่มใดๆ(ส่วนเหลือจาก clustering)
- กรณีข้อมูลในกลุ่มเล็กๆ
- กรณีข้อมูลในกลุ่มความหนาแน่นต่า
- กรณีข้อมูลที่อยู่ไกลจากจุดอื่นๆในกลุ่มเดียวกัน 70

รูปการตรวจจับความผิดปกติที่ขึ้นโดยวิธี CLUSTERING
71

FINDOUT ALGORITHM
คือขั้นตอนวิธีการที่หาออกมาโดยใช้ (WaveCluster) คลื่นในการ
แบ่งกลุ่ม
การแปลงข้อมูลกลายเป็นสัญญาณหลายลักษณะ
(multidimensional signals) โดยใช้คลื่นลูกเล็ก(wavelet)ในการ
แปลง
72

FINDOUT ALGORITHM
ความถี่สูงของสัญญาณจะสอดคล้องกับพื้นที่ เนื่องจากการเปลี่ยนแปลง
อย่างรวดเร็วของการกระจาย
เป็นเครื่องแบ่งเขตของการแบ่งกลุ่ม
ส่วนความถี่ต่าจะตรงกับพื้นที่
ที่เป็นข้อมูลที่เข้ม
73

เมื่อความถี่สูงและต่าความถี่เหล่านี้ถูกRemove และส่วนที่เหลือทั้งหมด
จะกลายเป็นจุดที่อยู่ข้างนอก
FINDOUT ALGORITHM
74

 ข้อดี
- ไม่มีการควบคุม
- ขั้นตอนวิธีที่มีอยู่ในกลุ่มสามารถเชื่อมเข้าได้
 ข้อเสีย
- ถ้าหากข้อมูลไม่มีกลุ่มหรือขั้นตอนวิธีของกลุ่มไม่สามารถตรวจพบได้นั้น
วิธีการอาจล้มเหลว
- การคานวณที่มีราคาแพง
- โดยใช้โครงสร้างเป็นตัววัดหรือตัวบ่งชี้อาจทาให้เกิดปัญหานี้ได้
- ในช่องว่างที่มีมิติสูง
- ข้อมูลจะเบาบางและระยะทางระหว่างข้อมูลทั้งสองข้อมูลที่มีการบันทึกอาจมี
ความคล้ายกันมาก
75

4. Nearest Neighbor Based Anomaly Detection Techniques
หลักการ
เป็นการแบ่งประเภทของข้อมูล ในส่วนของการ classification โดยการแบ่ง
ประเภทของข้อมูลนั้น ขึ้นอยู่กับ Attributes และ Trainning Samples
ในที่นี้ เราจะกาหนดจุดการค้นหา ค่า k ซึ่งเป็น การหาระยะทางที่ใกล้
ระหว่างจุด query instance (จุดที่หาค่า,จุดที่สนใจ) และtraining samples
76

K nearest neighbor algorithm
คือ สิ่งที่เข้าใจได้ง่าย ทางานบนพื้นฐานของระยะห่างที่น้อยที่สุดจาก
ตัวอย่างคาถาม (query instance) ถึง training samples เพื่อพิจารณา
K-nearest neighbors. หลังจากการรวมกลุ่มของ K nearest neighbors
เราจะสนใจองค์ประกอบใหญ่เดียว สิ่งนี้ K-nearest neighbors สามารถ
พยากรณ์ตัวอย่างคาถามได้
77

ตัวอย่างการนาไปใช้
จากข้อมูลเรามี ข้อมูลที่เป็น training data และต้องการทานาย ค่า
ในตาราง y ในที่นี้ เราให้เป็นคลาส
คลาส คือ ค่าที่เราจะทานาย ว่า ข้อมูลนั้นจะถูกแบ่งออกมาได้เป็นสอง
คลาส คือ บวก(+) และ ลบ(-) คล้าย ๆ กับหลักการของ K-mean
78

79

80

เราไม่อาจทราบว่า ค่าที่เราจะทานายนั้น จะเป็นค่า บวก หรือค่าลบ จึงต้อง
นาหลักการทาง Nearest Neighbor algorithm มาทาการทานาย โดยเราจะ
กาหนดค่า k =8 หรือ (เราให้มีเพื่อนบ้านที่ใกล้ที่สุดที่เป็นไปได้
มีค่าเท่ากับ 8) เป็นพารามิเตอร์เพื่อที่จะใช้คานวณระยะทางระหว่าง จุด
query instance กับ training samples ให้ ใช้ค่าที่วัดได้เป็น Xi
เราจะได้
query instance = xq
1,xq
2 เป็นระบบพิกัดจุดหรือระบบcoordinate และจะได้
training data = xt
1,xt
2
ดังนั้นจะเขียนเป็นสมการได้ว่า
81

เราสามารถใช้ Euclidean distance ในการหาระยะทาง ของ Xi
ได้
*ค่า Xi คือ ค่าที่ระยะทางที่จุดกระจายอยู่ในแต่ละจุด
82

เมื่อทราบจุดที่สั้นที่สุดแล้ว ก็จะดาเนินการดังภาพ (KNN) 83

การใช้ KNN เข้ามาจัดการจาแนกข้อมูล 84

การประยุกต์ใช้
เรามีข้อมูลจากการสารวจแบบสอบถาม (ขอความคิดเห็นคน) และการ
ทดสอบวัตถุประสงค์สองลักษณะ (ทนกรดและความแข็งแรง)
เพื่อแยกประเภทว่าเนื้อเยื่อกระดาษพิเศษดีหรือไม่.
เราสามารถคาดเดาสิ่งที่จาแนกเนื้อเยื่อใหม่นี้คืออะไร
ข้อดีของ algorithm นี้ (KNN)
- ช่วยให้คุณสามารถคาดการณ์ประเภทของปัญหานี้.
85

การเชื่อมโยงกับ Intrusion Detection
การตรวจสอบการบุกรุก การบุกรุกหลัก ๆ มีอยู่สองประเภท คือ
เครือข่ายการใช้(NIDS)
ยกตัวอย่างการตรวจสอบสภาพการจราจร
อุปกรณ์เชื่อมต่อทางเครือข่าย เช่น สวิตซ์ หรือ ฮับ หรือการตรวจสอบ การ
ไหลของน้าในท่อประปาว่ามีการรั่วซึมหรือไม่
86

แผนผังการตรวจจับความผิดปกติ
87

HW#9
 จงอธิบายความหมายของการตรวจจับความผิดปกติ
 จงยกตัวอย่างความผิดปกติที่เกิดขึ้นในชีวิตประจาวัน
 จงอธิบายปัญหาทางด้านการตรวจจับความผิดปกติ
 จงบอกเทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 บริษัท Aroma ขายน้าหอมสาหรับรถยนต์แห่งหนึ่งโฆษณาว่า รถยนต์ 90% จะใช้
น้าหอมที่ผลิตจากบริษัทนี้ และจากคากล่าวอ้างดังกล่าวทาให้บริษัทคู่แข่งซึ่งชื่อว่า
Botta ยอมรับไม่ได้จึงทาการสารวจตลาดโดยได้ทาการสุ่มตัวอย่างรถยนต์ 400 คันพบว่า
ใช้น้าหอมของบริษัท Aroma 320 คัน คากล่าวอ้างของบริษัท Aroma เป็นจริงหรือไม่ ณ
ระดับนัยสาคัญ 0.05
89

09 anomaly detection

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

09 anomaly detection