09 anomaly detection4. ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ
1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน
2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไปจากกลุ่มจริง
ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้นได้เสมอ จึงควรมีการ
ตรวจสอบข้อมูลให้ถูกต้องก่อนวิเคราะห์สถิติใด ๆ เสียก่อน
ความหมายของการตรวจจับความผิดปกติ
4
10. 1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
ปัญหาทางด้านการตรวจจับความผิดปกติ
เป็นการรวบรวมโดยทั่ว ๆ ไปของตัวข้อมูล ที่เรียกว่า
object record
point vector
pattern event
case sample
observation entity
รูปแบบของข้อมูลส่วนใหญ่จะเป็นแบบระเบียน (Record)
10
12. 1. ธรรมชาติของข้อมูลนาเข้า(Nature of Input Data)
ตัวข้อมูลสามารถอธิบายได้โดยใช้กลุ่มของคุณลักษณะ ที่เรียกว่า
variable characteristic
feature field
dimension
คุณลักษณะของข้อมูล มีรูปแบบดังนี้
1. Binary
2. Categorical
3. Continuous
4. Hybrid
ปัญหาทางด้านการตรวจจับความผิดปกติ
12
13. 1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
ปัญหาทางด้านการตรวจจับความผิดปกติ
Tid SrcIP Duration Dest IP
Number
of bytes
Internal
1 206.163.37.81 0.10 160.94.179.208 150 No
2 206.163.37.99 0.27 160.94.179.235 208 No
3 160.94.123.45 1.23 160.94.179.221 195 Yes
4 206.163.37.37 112.03 160.94.179.253 199 No
5 206.163.37.41 0.32 160.94.179.244 181 No
13
14. 2. ประเภทของความผิดปกติ (type of anomaly)
ความผิดปกติสามารถแบ่งออกได้เป็น 3 ประเภท
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
ปัญหาทางด้านการตรวจจับความผิดปกติ
14
15. 2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
N1 , N2 เป็นพื้นที่ของพฤติกรรมปกติ
O1 , O2 เป็นตำแหน่งที่มีควำมผิดปกติ
ตำแหน่งที่อยู่ภำยในขอบเขต O3
จะเป็นตำแหน่งที่มีควำมผิดปกติดววย
15
16. 2. ประเภทของความผิดปกติ (type of anomaly)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
ถ้าตัวข้อมูลเป็นความผิดปกติในบริบทเฉพาะ ดังนั้นข้อมูลส่วนดังกล่าว
จะตกอยู่ในส่วนของบริบทที่มีความผิดปกติ
อธิบายข้อมูลโดยใช้กลุ่มของคุณลักษณะ 2 กลุ่ม คือ
1. คุณลักษณะบริบท (Contextual attributes)
2. คุณลักษณะพฤติกรรม (Behavioral attributes)
ปัญหาทางด้านการตรวจจับความผิดปกติ
16
17. 2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
2. ความผิดปกติตามบริบท (Contextual Anomalies)
1. คุณลักษณะบริบท (Contextual attributes)
เป็นการใช้เพื่อกาหนดบริบท (หรือบริเวณใกล้เคียง) สาหรับตัวอย่าง เช่น ใน
ชุดข้อมูลเกี่ยวกับอากาศ ตาแหน่งของลองติจูดและ ละติจูดจะมีลักษณะเป็น
คุณลักษณะบริบท ในข้อมูลอนุกรมเวลาส่วนของเวลาจะมีคุณลักษณะบริบท
ซึ่งกาหนดตาแหน่งของตัวอย่างบนอนุกรมทั้งหมด
17
18. ปัญหาทางด้านการตรวจจับความผิดปกติ
2. คุณลักษณะพฤติกรรม (Behavioral attributes)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
จะอธิบายข้อมูลที่ไม่เป็นคุณลักษณะบริบท เช่น ชุดข้อมูลเกี่ยวกับอากาศที่
อธิบายค่าเฉลี่ยปริมาณน้าฝนทั้งโลก จานวนของปริมาณน้าฝนทุกตาแหน่ง จะเป็น
คุณลักษณะพฤติกรรม
พฤติกรรมผิดปกติเป็นการกาหนดโดยใช้ค่าสาหรับคุณลักษณะพฤติกรรม
ภายในบริบทจาเพาะ
18
19. 2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
2. ความผิดปกติตามบริบท (Contextual Anomalies)
จากภาพ อุณหภูมิที่เวลา t1 และ t2 จะเหมือนกัน แต่เกิดในบริบทที่แตกต่างกัน
ในกรณีนี้ อุณหภูมิที่เวลา t2 จะถูกพิจารณาเป็นความผิดปกติ 19
20. 2. ประเภทของความผิดปกติ (type of anomaly)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
เป็นความผิดปกติของตัวข้อมูลที่เกิดจากการเก็บรวบรวมตัวข้อมูลที่เกี่ยวข้องทั้งหมด
ตัวข้อมูลในความผิดปกติจากการรวบรวมอาจจะไม่เป็นความผิดปกติโดยตัวมันเอง
แต่การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ หรือทาให้ตัวข้อมูลที่ทาการ
รวบรวมเกิดความผิดปกติขึ้น
มีความเกี่ยวข้องกับข้อมูลประเภทที่เป็น
- ข้อมูลที่เป็นแบบอนุกรม , ข้อมูลที่เกี่ยวกับระยะ , ข้อมูลที่เป็นแบบกราฟ
ปัญหาทางด้านการตรวจจับความผิดปกติ
20
21. 2. ประเภทของความผิดปกติ (type of anomaly)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
จากภาพ การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ ทาให้ตัวข้อมูล
ที่ทาการรวบรวมเกิดความผิดปกติขึ้น
ปัญหาทางด้านการตรวจจับความผิดปกติ
21
22. ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
ลาเบลเกี่ยวข้องกับตัวข้อมูล ถ้าข้อมูลเป็นความปกติหรือความผิดปกติ
ตัวข้อมูลควรจะได้รับลาเบลข้อมูลที่ถูกต้อง และเป็นตัวแทนของประเภท
พฤติกรรมทั้งหมด
การได้รับลาเบลของกลุ่มข้อมูลผิดปกติทั้งหมด เป็นเรื่องที่ทาได้ยากกว่า
การรับลาเบลของกลุ่มข้อมูลที่ปกติ
เทคนิคตรวจจับความผิดปกติที่ดาเนินการในรูปแบบนี้มี 3 รูปแบบคือ
1. Supervised anomaly detection
2. Semi-Supervised anomaly detection
3. Unsupervised anomaly detection
22
23. ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
1. Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีการกาหนดลาเบลให้กับข้อมูลทั้งกลุ่ม
ข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ วิธีการโดยทั่วไปของเทคนิคนี้เป็นการสร้าง
รูปแบบทานายสาหรับกลุ่มของความปกติ และผิดปกติ
2. Semi-Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีลาเบลข้อมูลสาหรับกลุ่มของความปกติ
เพียงอย่างเดียว โดยกลุ่มของความผิดปกติจะไม่ต้องการลาเบลกากับ
23
24. ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
3. Unsupervised anomaly detection
เทคนิคนี้ดาเนินการโดยไม่ต้องการชุดข้อมูลการสอน และเป็นเทคนิคที่มี
ความเหมาะสมมากที่สุด เทคนิคนี้จะสร้างสมมติฐาน โดยข้อมูลปกติจะมี
ความถี่มากกว่าข้อมูลผิดปกติในชุดข้อมูลทดสอบ ถ้าหากสมมติฐานนี้
ไม่เป็นจริงจะเกิดอัตรา False alarm สูง
24
25. ปัญหาทางด้านการตรวจจับความผิดปกติ
4. ผลลัพธ์ของการตรวจจับความผิดปกติ
(Output of Anomaly Detection)
1. Label
เป็นการกาหนดลาเบล (ปกติหรือผิดปกติ) ให้กับแต่ละข้อมูลทดสอบ
2. Score
เป็นการกาหนดคะแนนความผิดปกติให้กับข้อมูลในชุดข้อมูลทดสอบ
โดยขึ้นอยู่กับระดับของข้อมูลที่ถูกพิจารณาความผิดปกติ ผลลัพธ์ของ
เทคนิคนี้เป็นรายการระดับชั้นของความผิดปกติ การวิเคราะห์อาจจะเลือก
วิเคราะห์ความผิดปกติที่อยู่บนสุด หรือใช้threshold เพื่อเลือกความผิดปกติ 25
26. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ แบ่งออกเป็น 4 เทคนิค ได้แก่
1. Statistical Anomaly Detection
2. Classification Based Anomaly Detection Techniques
3. Clustering Based Anomaly Detection Techniques
4. Nearest Neighbor Based Anomaly Detection Techniques
26
27. 1. Statistical Anomaly Detection
วิธีการทางด้านสถิติสาหรับการตรวจจับความผิดปกติ
สถิติ หมายถึง วิธีการที่ว่าด้วยการเก็บรวบรวมข้อมูล การนาเสนอ
ข้อมูล การวิเคราะห์ข้อมูล และการตีความหมายข้อมูล สถิติใน
ความหมายนี้เป็นทั้งวิทยาศาสตร์และศิลปศาสตร์ เรียกว่า "สถิติศาสตร์
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
27
28. สถิติแบ่งออกเป็น 2 ประเภท
1. สถิติพรรณนา (Descriptive Statistics)
เป็นสถิติที่ใช้อธิบายคุณลักษณะต่าง ๆ ของสิ่งที่ต้องการศึกษาในกลุ่มใดกลุ่มหนึ่ง
วิธีการทางสถิติที่อยู่ในประเภทนี้ เช่น
การจัดกระทากับข้อมูลโดยนาเสนอในรูปของตารางหรือรูปภาพ
การแปลงคะแนนให้อยู่ในรูปแบบอื่น ๆ เช่น เปอร์เซ็นต์ไทล์คะแนนมาตรฐาน ฯ
การคานวณหาค่าเฉลี่ยหรือการกระจายของข้อมูล เช่น มัชฌิมเลขคณิต มัธยฐาน
ส่วนเบี่ยงเบนมาตรฐาน พิสัย ฯ
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
28
30. สถิติอ้างอิงสามารถแบ่งออกได้เป็น 2 ประเภทย่อย คือ
1. สถิติมีพารามิเตอร์ (Parametric Statistics)
• ตัวแปรที่ต้องการวัดจะต้องอยู่ในมาตราการวัดระดับช่วงขึ้นไป (Interval
Scale)
• ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างจะต้องมีการแจกแจงเป็นโค้งปกติ
• กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาจะต้องมีความแปรปรวนเท่ากัน
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
30
31. 2. สถิติไร้พารามิเตอร์ (Nonparametric Statistics)
ตัวแปรที่ต้องการวัดอยู่ในมาตราการวัดระดับใดก็ได้ (Norminal Scale,
Ordinal Scale, Interval Scale, RatioScale)
ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างมีการแจกแจงแบบใดก็ได้
กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาไม่จาเป็นต้องมีความแปรปรวน
เท่ากัน
สถิติไร้พารามิเตอร์ เช่น ไคสแควร์, Median Test, Sign test ฯลฯ
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
31
37. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ฉะนั้น 2 = 44.44 นาไปเปรียบเทียบกับค่า 2
ในตาราง df = 2-1 = 1
และ =0.05 =3.84 แสดงว่าค่า 2
ที่คานวณได้มากกว่าค่าในตาราง หมายความว่า
ยานี้ให้ผลต่างจากร้อยละ 90 นั้น คือ ไม่มีสรรพคุณตามที่อ้างไว้
อนึ่ง ในการคานวณค่า 2 ถ้า df = 1 หรือ ค่า น้อยกว่า 5
ควรปรับสูตรด้วยการเอา 0.5 ลบออกจากผลที่ได้ไม่ติดเครื่องหมายก่อน
แล้วจึงยกกาลังสองจึงจะทาให้ค่า 2 ที่ได้ตรงกับความเป็นจริงมากขึ้น 37
38. Mahalanobis distances
General Concepts:
D2 = (x - m)T c-1 (x - m)
D2 = Mahalanobis distance
x = Vecter of data
m = Vecter of mean values of indepndent variables
C-1 = Inverse Covariance matrix of independent variable
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
38
40. Covariance Matrix
X Y
X 6291.55737 3754.32851
Y 3754.32851 6280.77066
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
40
41. Given that Mahalanobis Distance D2 = (x - m)T c-1 (x - m)
(x – m) = 410 – 500 = -90
400 - 500 -100
C-1 = 6291.55737 3754.32851 -1 = 0.00025 - 0.00015
3754.32851 6280.77066 -0.00015 - 0.00025
Therefore D2 = (-90 -100)
*
0.00025 - 0.00015
*
-90
-0.00015 0.00025 -100
= 1.825 # answer
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
41
46. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
2. Classification Based Anomaly Detection Techniques
การจัดแบ่งประเภทได้รับการนามาใช้ เพื่อเรียนรู้รูปแบบจากกลุ่มของลาเบลข้อมูล
(การสอน) และจัดกลุ่มข้อมูลทดสอบเพื่อใช้ในการทดสอบ
เทคนิคในกลุ่มนี้มีการดาเนินใน 2 ขั้นตอนที่มีลักษณะคล้ายคลึงกับขั้นตอนการสอน
ตัวจัดแบ่งประเภทจะเรียนรู้โดยใช้ลาเบลข้อมูลการสอนที่ได้รับจากขั้นตอนที่สอง
ตัวจัดแบ่งประเภทจะทาการจัดกลุ่มข้อมูลทดสอบออกเป็นกลุ่มปกติ หรือผิดปกติ
เทคนิคในกลุ่มนี้สามารถแบ่งออกเป็น 2 กลุ่มคือ multi-class และ one-class
46
47. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Multi-class
จะถือว่า ข้อมูลการสอนประกอบด้วยลาเบลข้อมูลที่เป็นของกลุ่มปกติหลายๆ กลุ่ม
ตัวจาแนกจะทาการเรียนรู้เพื่อจาแนกความแตกต่างระหว่างกลุ่มปกติกับกลุ่มที่เหลือ
ข้อมูลทดสอบจะถูกพิจารณาว่าเป็นความผิดปกติ
ถ้าไม่ถูกจัดกลุ่มว่าเป็นความปกติโดยทุกตัวจัดแบ่ง
เทคนิคอื่นๆ ในกลุ่มนี้เกี่ยวข้องกับการใช้คะแนนความเชื่อมั่นด้วยสร้างการทานาย
โดยตัวจัดแบ่ง
ถ้าตัวจัดแบ่งเชื่อมั่นในการจัดแบ่งกลุ่ม ข้อมูลทดสอบจะถูกกาหนดเป็นความผิดปกติ
แต่ถ้ากลุ่มข้อมูลทดสอบมีคะแนนความเชื่อมั่นต่าจะถูกกพิจารณาเป็นความผิดปกติ
47
51. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Neural network
ข่ายงานประสาท (Neural Networks) คือการจาลองรูปแบบการทางานของ
เซลล์สมองมนุษย์ที่เรียกว่า ตัวเซลล์ (Cell Body) หรือ นิวรอน (Neural)
โดยข่ายงานประสาทเทียมสามารถเรียนรู้จากประสบการณ์ และสามารถ
อนุมานจากสิ่งที่เรียนรู้ไปสู่สิ่งที่ไม่เคยเรียนรู้มาก่อน ที่เรียกว่า
ความสามารถในการบ่งชี้ทั่วไป (Generalization)
51
55. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Beyesian network
ข่ายงาน Bayesian ถูกนามาใช้สาหรับการตรวจจับความผิดปกติในวิธีการแบบ
multi-class โดยข่ายงาน Bayesian เป็นกราฟอวัฏจักรระบุทิศทาง
(directed acyclic graph: DAG)
ข่ายงาน Bayesian เป็นเครื่องมือที่สาคัญชนิดหนึ่งในการสร้างตัวแปร
แบบความน่าจะเป็นโดยการผสมผสานระหว่างทฤษฏีความน่าจะเป็น และทฤษฏีกราฟ
ทาให้การทางานมีประสิทธิภาพมากยิ่งขึ้น
55
57. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Support vector machines
ประยุกต์ใช้ในการตรวจจับความผิดปกติในวิธีการ One-class และเกี่ยวข้องกับ
วิธีการการเรียนรู้แบบมีผู้สอนถูกนามาใช้สาหรับการแบ่งประเภทและ
การถอยกลับ SVM จะสร้างระนาบเกินหรือกลุ่มของระนาบเกินในพื้นที่ข้อมูล
มิติสูง โดยเทคนิคนี้จะทาการแบ่งกลุ่มข้อมูลโดยหาผลลัพธ์เป็นเส้นแบ่งข้อมูล
2 กลุ่มคือ กลุ่มข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ ออกจากกันในรูปแบบของ
ระนาบหลายมิติเชิงเส้น
57
62. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
เทคนิค Rule Based มีการประยุกต์ใช้ในวิธีการแบบ multi-class
และแบบ one-class ซึ่งกฎสร้างขึ้นจากการเรียนรู้พฤติกรรมปกติของระบบ
ข้อมูลที่ไม่ครอบคลุมโดยทุกๆ กฎจะถูกพิจารณาเป็นความผิดปกติ
เทคนิคที่ขึ้นกับ Multi-class rule การทางานประกอบด้วย 2 ขั้นตอน
ขั้นตอนแรก
เป็นการเรียนรู้กฎจากชุดข้อมูลการสอนโดยใช้อัลกอริทึม
rule learning อย่างเช่น RIPPER และ Decision Treesเป็นต้น 62
64. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
กฎความสัมพันธ์ (Association Rule Mining) เป็นวิธีการค้นหากฎ
ความสัมพันธ์ของข้อมูลโดยค้นหาความสัมพันธ์ของข้อมูลสองชุดข้อมูลหรือ
มากกว่าสองชุดข้อมูลขึ้นไปไว้ด้วยกัน กฎจะทาการวัดโดยใช้ข้อมูล 2 ตัว
ด้วยกันคือค่าสนับสนุน (Support) ซึ่งเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎ
สามารถนาไปใช้ หรือเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎที่ใช้มีความ
ถูกต้อง และข้อมูลค่าความมั่นใจ (Confidence) ซึ่งเป็นจานวนของกรณีที่กฎ
ถูกต้องโดยสัมพันธ์กับจานวนของกรณีที่กฎสามารถนาไปใช้ได้
64
66. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
3. Clustering Based Anomaly Detection Techniques
การจัดกลุ่มก้อน (Clustering) คือการแบ่งวัตถุใดๆ ออกเป็นกลุ่มต่างๆ โดยที่
สมาชิกในกลุ่มเดียวกัน มีความคล้ายคลึงกัน (Similarity) มากกว่าสมาชิกต่างกลุ่ม
การจัดกลุ่มแบ่งตามลักษณะวิธีได้ 5 วิธีหลัก
วิธีแบ่งส่วน (Partitioning)
วิธีลาดับขั้น (Hierarchical)
วิธีใช้ความหนาแน่น (Density-Based)
วิธีใช้ตาราง (Grid-Based)
วิธีใช้แบบจาลอง (Model-Based)
66
68. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
กลุ่มที่สอง ขึ้นอยู่กับสมมุติฐานที่ว่า “ข้อมูลปกติจะอยู่ใกล้กับตาแหน่ง
ตรงกลางของ cluster ของตัวข้อมูลเอง ขณะที่ความผิดปกติจะอยู่ไกล
ออกไปจากตาแหน่งตรงกลาง Cluster ของตัวข้อมูล”
เทคนิคในกลุ่มที่สองนี้ประกอบด้วย 2 ขั้นตอน คือ
- ขั้นตอนแรก ข้อมูลถูกจัดกลุ่มก้อนโดยใช้Clustering algorithm
- ขั้นตอนที่สอง สาหรับข้อมูลทดสอบ โดยระยะห่างจากตาแหน่ง
ตรงกลาง Cluster ของตัวข้อมูลจะถูกพิจารณาเป็นคะแนนความผิดปกติ
68
69. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เทคนิคที่ใช้ใน 2 วิธีการนี้ เช่น
- Self-Organizing Map (SOM)
- K-means Clustering
- Expectation Maximization (EM) เป็นต้น
ความซับซ้อนในการคานวณของเทคนิคนี้ขึ้นอยู่กับ Clustering
algorithm ที่นามาใช้ในการสร้าง cluster จากข้อมูล และในส่วน
ของประสิทธิภาพในการทางานจะขึ้นอยู่กับ clustering algorithm
ที่นามาใช้งานด้วยเช่นกัน
69
70. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
วิธีทั่วไปของการทา Clustering
กลุ่มของข้อมูลเกี่ยวกับจานวนจากัดของกลุ่ม
การวิเคราะห์ข้อมูลแต่ละข้อมูล ซึ่งเกี่ยวข้องกับแต่ละกลุ่มที่มีความ
ใกล้เคียงที่สุด
กรณีการตรวจสอบความผิดปกติ
- กรณีข้อมูลที่ไม่เหมาะสมในกลุ่มใดๆ(ส่วนเหลือจาก clustering)
- กรณีข้อมูลในกลุ่มเล็กๆ
- กรณีข้อมูลในกลุ่มความหนาแน่นต่า
- กรณีข้อมูลที่อยู่ไกลจากจุดอื่นๆในกลุ่มเดียวกัน 70
75. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ข้อดี
- ไม่มีการควบคุม
- ขั้นตอนวิธีที่มีอยู่ในกลุ่มสามารถเชื่อมเข้าได้
ข้อเสีย
- ถ้าหากข้อมูลไม่มีกลุ่มหรือขั้นตอนวิธีของกลุ่มไม่สามารถตรวจพบได้นั้น
วิธีการอาจล้มเหลว
- การคานวณที่มีราคาแพง
- โดยใช้โครงสร้างเป็นตัววัดหรือตัวบ่งชี้อาจทาให้เกิดปัญหานี้ได้
- ในช่องว่างที่มีมิติสูง
- ข้อมูลจะเบาบางและระยะทางระหว่างข้อมูลทั้งสองข้อมูลที่มีการบันทึกอาจมี
ความคล้ายกันมาก
75
76. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
4. Nearest Neighbor Based Anomaly Detection Techniques
หลักการ
เป็นการแบ่งประเภทของข้อมูล ในส่วนของการ classification โดยการแบ่ง
ประเภทของข้อมูลนั้น ขึ้นอยู่กับ Attributes และ Trainning Samples
ในที่นี้ เราจะกาหนดจุดการค้นหา ค่า k ซึ่งเป็น การหาระยะทางที่ใกล้
ระหว่างจุด query instance (จุดที่หาค่า,จุดที่สนใจ) และtraining samples
76
77. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
K nearest neighbor algorithm
คือ สิ่งที่เข้าใจได้ง่าย ทางานบนพื้นฐานของระยะห่างที่น้อยที่สุดจาก
ตัวอย่างคาถาม (query instance) ถึง training samples เพื่อพิจารณา
K-nearest neighbors. หลังจากการรวมกลุ่มของ K nearest neighbors
เราจะสนใจองค์ประกอบใหญ่เดียว สิ่งนี้ K-nearest neighbors สามารถ
พยากรณ์ตัวอย่างคาถามได้
77
81. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เราไม่อาจทราบว่า ค่าที่เราจะทานายนั้น จะเป็นค่า บวก หรือค่าลบ จึงต้อง
นาหลักการทาง Nearest Neighbor algorithm มาทาการทานาย โดยเราจะ
กาหนดค่า k =8 หรือ (เราให้มีเพื่อนบ้านที่ใกล้ที่สุดที่เป็นไปได้
มีค่าเท่ากับ 8) เป็นพารามิเตอร์เพื่อที่จะใช้คานวณระยะทางระหว่าง จุด
query instance กับ training samples ให้ ใช้ค่าที่วัดได้เป็น Xi
เราจะได้
query instance = xq
1,xq
2 เป็นระบบพิกัดจุดหรือระบบcoordinate และจะได้
training data = xt
1,xt
2
ดังนั้นจะเขียนเป็นสมการได้ว่า
81
86. เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การเชื่อมโยงกับ Intrusion Detection
การตรวจสอบการบุกรุก การบุกรุกหลัก ๆ มีอยู่สองประเภท คือ
เครือข่ายการใช้(NIDS)
ยกตัวอย่างการตรวจสอบสภาพการจราจร
อุปกรณ์เชื่อมต่อทางเครือข่าย เช่น สวิตซ์ หรือ ฮับ หรือการตรวจสอบ การ
ไหลของน้าในท่อประปาว่ามีการรั่วซึมหรือไม่
86
89. HW#9
จงอธิบายความหมายของการตรวจจับความผิดปกติ
จงยกตัวอย่างความผิดปกติที่เกิดขึ้นในชีวิตประจาวัน
จงอธิบายปัญหาทางด้านการตรวจจับความผิดปกติ
จงบอกเทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
บริษัท Aroma ขายน้าหอมสาหรับรถยนต์แห่งหนึ่งโฆษณาว่า รถยนต์ 90% จะใช้
น้าหอมที่ผลิตจากบริษัทนี้ และจากคากล่าวอ้างดังกล่าวทาให้บริษัทคู่แข่งซึ่งชื่อว่า
Botta ยอมรับไม่ได้จึงทาการสารวจตลาดโดยได้ทาการสุ่มตัวอย่างรถยนต์ 400 คันพบว่า
ใช้น้าหอมของบริษัท Aroma 320 คัน คากล่าวอ้างของบริษัท Aroma เป็นจริงหรือไม่ ณ
ระดับนัยสาคัญ 0.05
89