SlideShare a Scribd company logo
1 of 90
บทที่ 9 การตรวจจับความผิดปกติ
(ANOMALY DETECTION)
โดย ดร. หทัยรัตน์ เกตุมณีชัยรัตน์
ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ
1
เนื้อหา
 ความหมายของการตรวจจับความผิดปกติ
 ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
 ปัญหาของการตรวจจับความผิดปกติ
 เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
2
ความหมายของการตรวจจับความผิดปกติ
 การตรวจจับความผิดปกติ เป็นการกล่าวถึงรูปแบบการตรวจจับสิ่งที่ไม่
สอดคล้องกับพฤติกรรมปกติที่ถูกสร้างขึ้นในชุดข้อมูล ซึ่งเป็นการตรวจจับ
การบุกรุกกิจกรรมที่ผิดแปลกไปจากพฤติกรรมปกติที่สร้างขึ้น
 ตัวอย่างเช่น เด็กมี IQ ได้195 น้าหนักของคน 220 กิโลกรัม ความสูงของ
คน 210 ซ.ม. ซึ่งถือว่ามีความผิดปกติจากลุ่มข้อมูลทั่วไป
3
 ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ
1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน
2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไปจากกลุ่มจริง
ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้นได้เสมอ จึงควรมีการ
ตรวจสอบข้อมูลให้ถูกต้องก่อนวิเคราะห์สถิติใด ๆ เสียก่อน
ความหมายของการตรวจจับความผิดปกติ
4
ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
ตัวอย่างของความผิดปกติที่เกิดขึ้นในชีวิตจริง
 การตรวจจับการบุกรุกทางเครือข่าย
 การตรวจสอบการทุจริตบัตรเครดิต
 ทางด้านการแพทย์ การวินิจฉัยโรค
 การประมวลผลภาพหรือการตรวจสอบทางด้านกล้องวงจรปิด
5
Fraud Detection
ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
การตรวจจับการบุกรุกทางเครือข่าย
6
การใช้ NIDS ใน
การตรวจสอบ
ความผิดปกติ ใน
ระบบเครือข่าย
โดยตรวจสอบจาก
Hardware
Instruction Detection
ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
7
ตัวอย่าง ภาพการระบุตาแหน่งสภาพพื้นที่เกิดหิมะในเขตที่สนใจ
Ecosystem Disturbance
ตัวอย่างการนาไปใช้ในงานด้านต่างๆ
8
ปัญหาทางด้านการตรวจจับความผิดปกติ ได้แก่
1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
2. ประเภทของความผิดปกติ (type of anomaly)
3. ลาเบลข้อมูล (Data Label)
4. ผลลัพธ์ของการตรวจจับความผิดปกติ (Output of anomaly detection)
ปัญหาทางด้านการตรวจจับความผิดปกติ
9
1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
ปัญหาทางด้านการตรวจจับความผิดปกติ
เป็นการรวบรวมโดยทั่ว ๆ ไปของตัวข้อมูล ที่เรียกว่า
object record
point vector
pattern event
case sample
observation entity
รูปแบบของข้อมูลส่วนใหญ่จะเป็นแบบระเบียน (Record)
10
ปัญหาทางด้านการตรวจจับความผิดปกติ
1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
รูปแบบของข้อมูลที่นาเข้าแบ่งออกเป็น 2 ประเภทใหญ่ ๆ คือ
1.Univariate 2.Multivariate
11
1. ธรรมชาติของข้อมูลนาเข้า(Nature of Input Data)
ตัวข้อมูลสามารถอธิบายได้โดยใช้กลุ่มของคุณลักษณะ ที่เรียกว่า
variable characteristic
feature field
dimension
คุณลักษณะของข้อมูล มีรูปแบบดังนี้
1. Binary
2. Categorical
3. Continuous
4. Hybrid
ปัญหาทางด้านการตรวจจับความผิดปกติ
12
1. ธรรมชาติของข้อมูลนาเข้า (Nature of Input Data)
ปัญหาทางด้านการตรวจจับความผิดปกติ
Tid SrcIP Duration Dest IP
Number
of bytes
Internal
1 206.163.37.81 0.10 160.94.179.208 150 No
2 206.163.37.99 0.27 160.94.179.235 208 No
3 160.94.123.45 1.23 160.94.179.221 195 Yes
4 206.163.37.37 112.03 160.94.179.253 199 No
5 206.163.37.41 0.32 160.94.179.244 181 No
13
 2. ประเภทของความผิดปกติ (type of anomaly)
ความผิดปกติสามารถแบ่งออกได้เป็น 3 ประเภท
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
ปัญหาทางด้านการตรวจจับความผิดปกติ
14
2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
1. ความผิดปกติตามตาแหน่ง (Point anomaly)
N1 , N2 เป็นพื้นที่ของพฤติกรรมปกติ
O1 , O2 เป็นตำแหน่งที่มีควำมผิดปกติ
ตำแหน่งที่อยู่ภำยในขอบเขต O3
จะเป็นตำแหน่งที่มีควำมผิดปกติดววย
15
2. ประเภทของความผิดปกติ (type of anomaly)
2. ความผิดปกติตามบริบท (Contextual Anomalies)
ถ้าตัวข้อมูลเป็นความผิดปกติในบริบทเฉพาะ ดังนั้นข้อมูลส่วนดังกล่าว
จะตกอยู่ในส่วนของบริบทที่มีความผิดปกติ
อธิบายข้อมูลโดยใช้กลุ่มของคุณลักษณะ 2 กลุ่ม คือ
1. คุณลักษณะบริบท (Contextual attributes)
2. คุณลักษณะพฤติกรรม (Behavioral attributes)
ปัญหาทางด้านการตรวจจับความผิดปกติ
16
2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
2. ความผิดปกติตามบริบท (Contextual Anomalies)
1. คุณลักษณะบริบท (Contextual attributes)
เป็นการใช้เพื่อกาหนดบริบท (หรือบริเวณใกล้เคียง) สาหรับตัวอย่าง เช่น ใน
ชุดข้อมูลเกี่ยวกับอากาศ ตาแหน่งของลองติจูดและ ละติจูดจะมีลักษณะเป็น
คุณลักษณะบริบท ในข้อมูลอนุกรมเวลาส่วนของเวลาจะมีคุณลักษณะบริบท
ซึ่งกาหนดตาแหน่งของตัวอย่างบนอนุกรมทั้งหมด
17
ปัญหาทางด้านการตรวจจับความผิดปกติ
2. คุณลักษณะพฤติกรรม (Behavioral attributes)
 2. ความผิดปกติตามบริบท (Contextual Anomalies)
จะอธิบายข้อมูลที่ไม่เป็นคุณลักษณะบริบท เช่น ชุดข้อมูลเกี่ยวกับอากาศที่
อธิบายค่าเฉลี่ยปริมาณน้าฝนทั้งโลก จานวนของปริมาณน้าฝนทุกตาแหน่ง จะเป็น
คุณลักษณะพฤติกรรม
พฤติกรรมผิดปกติเป็นการกาหนดโดยใช้ค่าสาหรับคุณลักษณะพฤติกรรม
ภายในบริบทจาเพาะ
18
 2. ประเภทของความผิดปกติ (type of anomaly)
ปัญหาทางด้านการตรวจจับความผิดปกติ
2. ความผิดปกติตามบริบท (Contextual Anomalies)
จากภาพ อุณหภูมิที่เวลา t1 และ t2 จะเหมือนกัน แต่เกิดในบริบทที่แตกต่างกัน
ในกรณีนี้ อุณหภูมิที่เวลา t2 จะถูกพิจารณาเป็นความผิดปกติ 19
2. ประเภทของความผิดปกติ (type of anomaly)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
เป็นความผิดปกติของตัวข้อมูลที่เกิดจากการเก็บรวบรวมตัวข้อมูลที่เกี่ยวข้องทั้งหมด
ตัวข้อมูลในความผิดปกติจากการรวบรวมอาจจะไม่เป็นความผิดปกติโดยตัวมันเอง
แต่การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ หรือทาให้ตัวข้อมูลที่ทาการ
รวบรวมเกิดความผิดปกติขึ้น
มีความเกี่ยวข้องกับข้อมูลประเภทที่เป็น
- ข้อมูลที่เป็นแบบอนุกรม , ข้อมูลที่เกี่ยวกับระยะ , ข้อมูลที่เป็นแบบกราฟ
ปัญหาทางด้านการตรวจจับความผิดปกติ
20
2. ประเภทของความผิดปกติ (type of anomaly)
3. ความผิดปกติจากการรวบรวม (Collective Anomalies)
จากภาพ การรวบรวมข้อมูลที่เกิดขึ้นเป็นการรวบรวมที่ผิดปกติ ทาให้ตัวข้อมูล
ที่ทาการรวบรวมเกิดความผิดปกติขึ้น
ปัญหาทางด้านการตรวจจับความผิดปกติ
21
ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
ลาเบลเกี่ยวข้องกับตัวข้อมูล ถ้าข้อมูลเป็นความปกติหรือความผิดปกติ
ตัวข้อมูลควรจะได้รับลาเบลข้อมูลที่ถูกต้อง และเป็นตัวแทนของประเภท
พฤติกรรมทั้งหมด
การได้รับลาเบลของกลุ่มข้อมูลผิดปกติทั้งหมด เป็นเรื่องที่ทาได้ยากกว่า
การรับลาเบลของกลุ่มข้อมูลที่ปกติ
เทคนิคตรวจจับความผิดปกติที่ดาเนินการในรูปแบบนี้มี 3 รูปแบบคือ
1. Supervised anomaly detection
2. Semi-Supervised anomaly detection
3. Unsupervised anomaly detection
22
ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
1. Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีการกาหนดลาเบลให้กับข้อมูลทั้งกลุ่ม
ข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ วิธีการโดยทั่วไปของเทคนิคนี้เป็นการสร้าง
รูปแบบทานายสาหรับกลุ่มของความปกติ และผิดปกติ
2. Semi-Supervised anomaly detection
เทคนิคนี้ต้องการชุดข้อมูลการสอนที่มีลาเบลข้อมูลสาหรับกลุ่มของความปกติ
เพียงอย่างเดียว โดยกลุ่มของความผิดปกติจะไม่ต้องการลาเบลกากับ
23
ปัญหาทางด้านการตรวจจับความผิดปกติ
3. ลาเบลข้อมูล (Data Label)
3. Unsupervised anomaly detection
เทคนิคนี้ดาเนินการโดยไม่ต้องการชุดข้อมูลการสอน และเป็นเทคนิคที่มี
ความเหมาะสมมากที่สุด เทคนิคนี้จะสร้างสมมติฐาน โดยข้อมูลปกติจะมี
ความถี่มากกว่าข้อมูลผิดปกติในชุดข้อมูลทดสอบ ถ้าหากสมมติฐานนี้
ไม่เป็นจริงจะเกิดอัตรา False alarm สูง
24
ปัญหาทางด้านการตรวจจับความผิดปกติ
4. ผลลัพธ์ของการตรวจจับความผิดปกติ
(Output of Anomaly Detection)
1. Label
เป็นการกาหนดลาเบล (ปกติหรือผิดปกติ) ให้กับแต่ละข้อมูลทดสอบ
2. Score
เป็นการกาหนดคะแนนความผิดปกติให้กับข้อมูลในชุดข้อมูลทดสอบ
โดยขึ้นอยู่กับระดับของข้อมูลที่ถูกพิจารณาความผิดปกติ ผลลัพธ์ของ
เทคนิคนี้เป็นรายการระดับชั้นของความผิดปกติ การวิเคราะห์อาจจะเลือก
วิเคราะห์ความผิดปกติที่อยู่บนสุด หรือใช้threshold เพื่อเลือกความผิดปกติ 25
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ แบ่งออกเป็น 4 เทคนิค ได้แก่
1. Statistical Anomaly Detection
2. Classification Based Anomaly Detection Techniques
3. Clustering Based Anomaly Detection Techniques
4. Nearest Neighbor Based Anomaly Detection Techniques
26
1. Statistical Anomaly Detection
 วิธีการทางด้านสถิติสาหรับการตรวจจับความผิดปกติ
 สถิติ หมายถึง วิธีการที่ว่าด้วยการเก็บรวบรวมข้อมูล การนาเสนอ
ข้อมูล การวิเคราะห์ข้อมูล และการตีความหมายข้อมูล สถิติใน
ความหมายนี้เป็นทั้งวิทยาศาสตร์และศิลปศาสตร์ เรียกว่า "สถิติศาสตร์
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
27
สถิติแบ่งออกเป็น 2 ประเภท
1. สถิติพรรณนา (Descriptive Statistics)
 เป็นสถิติที่ใช้อธิบายคุณลักษณะต่าง ๆ ของสิ่งที่ต้องการศึกษาในกลุ่มใดกลุ่มหนึ่ง
 วิธีการทางสถิติที่อยู่ในประเภทนี้ เช่น
 การจัดกระทากับข้อมูลโดยนาเสนอในรูปของตารางหรือรูปภาพ
 การแปลงคะแนนให้อยู่ในรูปแบบอื่น ๆ เช่น เปอร์เซ็นต์ไทล์คะแนนมาตรฐาน ฯ
 การคานวณหาค่าเฉลี่ยหรือการกระจายของข้อมูล เช่น มัชฌิมเลขคณิต มัธยฐาน
 ส่วนเบี่ยงเบนมาตรฐาน พิสัย ฯ
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
28
 เป็นสถิติที่ใช้อธิบายคุณลักษณะของสิ่งที่ต้องการศึกษาในกลุ่มใดกลุ่มหนึ่งแล้ว
สามารถอ้างอิงไปยังกลุ่มอื่น ๆ ได้โดยกลุ่มที่นามาศึกษาจะต้องเป็นตัวแทนที่ดีของ
ประชากร ตัวแทนที่ดีของประชากรได้มาโดยวิธีการสุ่มตัวอย่าง และตัวแทนที่ดีของ
ประชากรจะเรียกว่า "กลุ่มตัวอย่าง"
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
2. สถิติอ้างอิง (Inferential Statistics)
29
 สถิติอ้างอิงสามารถแบ่งออกได้เป็น 2 ประเภทย่อย คือ
1. สถิติมีพารามิเตอร์ (Parametric Statistics)
• ตัวแปรที่ต้องการวัดจะต้องอยู่ในมาตราการวัดระดับช่วงขึ้นไป (Interval
Scale)
• ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างจะต้องมีการแจกแจงเป็นโค้งปกติ
• กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาจะต้องมีความแปรปรวนเท่ากัน
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
30
 2. สถิติไร้พารามิเตอร์ (Nonparametric Statistics)
 ตัวแปรที่ต้องการวัดอยู่ในมาตราการวัดระดับใดก็ได้ (Norminal Scale,
Ordinal Scale, Interval Scale, RatioScale)
 ข้อมูลที่เก็บรวบรวมได้จากกลุ่มตัวอย่างมีการแจกแจงแบบใดก็ได้
 กลุ่มประชากรแต่ละกลุ่มที่นามาศึกษาไม่จาเป็นต้องมีความแปรปรวน
เท่ากัน
สถิติไร้พารามิเตอร์ เช่น ไคสแควร์, Median Test, Sign test ฯลฯ
วิธีการตรวจจับความผิดปกติและเทคนิคต่างๆ
31
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การทดสอบสัดส่วนประชากรว่าเท่ากับที่คาดหวังหรือไม่
 0 : P1 : P2 … : Pk = P10 : P20 … : Pk0
 1 : Pi  Pi0 อย่างน้อย 1 ค่า ; i = 1, 2 ,…k
โดยที่ Pi0 = สัดส่วนที่คาดว่าจะเป็น ซึ่งเป็นค่าคงที่ อยู่ระหว่าง 0 – 1
สถิติที่ใช้ทดสอบคือ
n
 2 =   i i ) 2
i=1 i 32
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เมื่อ  2 = สัญลักษณ์ของไคสแควร์
 = ความถี่ที่แจงนับได้
 = ความถี่ที่คาดหวังหรือที่กาหนด
n = จานวน
สูตรคานวณ  = n pi0
เขตปฏิเสธ จะปฏิเสธ  0 เมื่อ  2   2
 : k-1
33
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การทดสอบสัดส่วนประชากรว่าเท่ากับที่คาดหวังหรือไม่
ตัวอย่าง
ยาแก้ปวดศีรษะชนิดหนึ่ง บริษัทอ้างว่ารักษาผู้ป่วยหายภายใน 3 ชั่วโมง
ร้อยละ 90 เพื่อทดสอบสรรพคุณของยาชนิดนี้ จึงเลือกผู้ป่วยมา 400 คน
และให้กินยาดังกล่าวพบว่าหายภายใน 3 ชั่วโมง 320 คนยาชนิดนี้สรรพคุณ
ตามที่อ้างหรือไม่
34
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การคานวณ
ถ้ายานี้มีสรรพคุณที่อ้างผู้ป่วย 100 คน จะต้องหาย 90 ฉะนั้นถ้าทดลอง
กับผู้ป่วย 400 คน จะต้องหาย 360 คน และไม่หาย 40 คน จากหลักการนี้
สามารถ คานวณหาค่าไคสแควร์ ดังนี้
สมมติฐาน สัดส่วนการหายปวด : ไม่หายปวด = 90 : 10
หรือ  0 : P1 : P2 = 90 : 10
 1 : P1 : P2  90 : 10
 = np 35
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
36
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ฉะนั้น  2 = 44.44 นาไปเปรียบเทียบกับค่า  2
ในตาราง df = 2-1 = 1
และ  =0.05 =3.84 แสดงว่าค่า  2
ที่คานวณได้มากกว่าค่าในตาราง หมายความว่า
ยานี้ให้ผลต่างจากร้อยละ 90 นั้น คือ ไม่มีสรรพคุณตามที่อ้างไว้
อนึ่ง ในการคานวณค่า  2 ถ้า df = 1 หรือ ค่า  น้อยกว่า 5
ควรปรับสูตรด้วยการเอา 0.5 ลบออกจากผลที่ได้ไม่ติดเครื่องหมายก่อน
แล้วจึงยกกาลังสองจึงจะทาให้ค่า  2 ที่ได้ตรงกับความเป็นจริงมากขึ้น 37
Mahalanobis distances
General Concepts:
D2 = (x - m)T c-1 (x - m)
D2 = Mahalanobis distance
x = Vecter of data
m = Vecter of mean values of indepndent variables
C-1 = Inverse Covariance matrix of independent variable
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
38
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Variable X: mean = 500
Variable Y: mean = 500
39
Covariance Matrix
X Y
X 6291.55737 3754.32851
Y 3754.32851 6280.77066
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
40
Given that Mahalanobis Distance D2 = (x - m)T c-1 (x - m)
(x – m) = 410 – 500 = -90
400 - 500 -100
C-1 = 6291.55737 3754.32851 -1 = 0.00025 - 0.00015
3754.32851 6280.77066 -0.00015 - 0.00025
Therefore D2 = (-90 -100)
*
0.00025 - 0.00015
*
-90
-0.00015 0.00025 -100
= 1.825 # answer
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
41
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
42
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
43
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
44
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
45
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
2. Classification Based Anomaly Detection Techniques
การจัดแบ่งประเภทได้รับการนามาใช้ เพื่อเรียนรู้รูปแบบจากกลุ่มของลาเบลข้อมูล
(การสอน) และจัดกลุ่มข้อมูลทดสอบเพื่อใช้ในการทดสอบ
เทคนิคในกลุ่มนี้มีการดาเนินใน 2 ขั้นตอนที่มีลักษณะคล้ายคลึงกับขั้นตอนการสอน
ตัวจัดแบ่งประเภทจะเรียนรู้โดยใช้ลาเบลข้อมูลการสอนที่ได้รับจากขั้นตอนที่สอง
ตัวจัดแบ่งประเภทจะทาการจัดกลุ่มข้อมูลทดสอบออกเป็นกลุ่มปกติ หรือผิดปกติ
เทคนิคในกลุ่มนี้สามารถแบ่งออกเป็น 2 กลุ่มคือ multi-class และ one-class
46
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Multi-class
จะถือว่า ข้อมูลการสอนประกอบด้วยลาเบลข้อมูลที่เป็นของกลุ่มปกติหลายๆ กลุ่ม
ตัวจาแนกจะทาการเรียนรู้เพื่อจาแนกความแตกต่างระหว่างกลุ่มปกติกับกลุ่มที่เหลือ
ข้อมูลทดสอบจะถูกพิจารณาว่าเป็นความผิดปกติ
ถ้าไม่ถูกจัดกลุ่มว่าเป็นความปกติโดยทุกตัวจัดแบ่ง
เทคนิคอื่นๆ ในกลุ่มนี้เกี่ยวข้องกับการใช้คะแนนความเชื่อมั่นด้วยสร้างการทานาย
โดยตัวจัดแบ่ง
ถ้าตัวจัดแบ่งเชื่อมั่นในการจัดแบ่งกลุ่ม ข้อมูลทดสอบจะถูกกาหนดเป็นความผิดปกติ
แต่ถ้ากลุ่มข้อมูลทดสอบมีคะแนนความเชื่อมั่นต่าจะถูกกพิจารณาเป็นความผิดปกติ
47
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
one-class
จะถือว่าข้อมูลการสอนทั้งหมดจะมีกลุ่มลาเบลเพียงกลุ่มเดียว และทาการเรียนรู้โดย
แยกแยะขอบเขตรอบๆ ข้อมูลปกติโดยใช้one-classification algorithm เช่น
one-class SVMs และ oneclass Kernel Fisher Discriminates เป็นต้น
ทุก ๆ ข้อมูลทดสอบที่ไม่ตกอยู่ภายในขอบเขตที่เรียนรู้ว่าเป็น ความปกติ
จะถูกประกาศเป็นความผิดปกติ
48
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การจัดแบ่งกลุ่มแบบ multi-class
(Varun Chandola และคณะ, 2007)
49
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การจัดแบ่งกลุ่มแบบ one-class
(Varun Chandola และคณะ, 2007) 50
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Neural network
ข่ายงานประสาท (Neural Networks) คือการจาลองรูปแบบการทางานของ
เซลล์สมองมนุษย์ที่เรียกว่า ตัวเซลล์ (Cell Body) หรือ นิวรอน (Neural)
โดยข่ายงานประสาทเทียมสามารถเรียนรู้จากประสบการณ์ และสามารถ
อนุมานจากสิ่งที่เรียนรู้ไปสู่สิ่งที่ไม่เคยเรียนรู้มาก่อน ที่เรียกว่า
ความสามารถในการบ่งชี้ทั่วไป (Generalization)
51
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ข่ายงานประสาทมีคุณสมบัติ 2 ประการคือ
-การเรียนรู้หรือการสอน (Learning or Training)
- การระลึก หรือจดจาได้(Recall)
52
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Supervised Learning
การเรียนแบบมีการสอน
53
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Unsupervised Learning
การเรียนแบบไม่มีการสอน
54
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Beyesian network
ข่ายงาน Bayesian ถูกนามาใช้สาหรับการตรวจจับความผิดปกติในวิธีการแบบ
multi-class โดยข่ายงาน Bayesian เป็นกราฟอวัฏจักรระบุทิศทาง
(directed acyclic graph: DAG)
ข่ายงาน Bayesian เป็นเครื่องมือที่สาคัญชนิดหนึ่งในการสร้างตัวแปร
แบบความน่าจะเป็นโดยการผสมผสานระหว่างทฤษฏีความน่าจะเป็น และทฤษฏีกราฟ
ทาให้การทางานมีประสิทธิภาพมากยิ่งขึ้น
55
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
X
56
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Support vector machines
ประยุกต์ใช้ในการตรวจจับความผิดปกติในวิธีการ One-class และเกี่ยวข้องกับ
วิธีการการเรียนรู้แบบมีผู้สอนถูกนามาใช้สาหรับการแบ่งประเภทและ
การถอยกลับ SVM จะสร้างระนาบเกินหรือกลุ่มของระนาบเกินในพื้นที่ข้อมูล
มิติสูง โดยเทคนิคนี้จะทาการแบ่งกลุ่มข้อมูลโดยหาผลลัพธ์เป็นเส้นแบ่งข้อมูล
2 กลุ่มคือ กลุ่มข้อมูลปกติ และกลุ่มข้อมูลผิดปกติ ออกจากกันในรูปแบบของ
ระนาบหลายมิติเชิงเส้น
57
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ผลลัพธ์ในรูปแบบของระนาบหลายมิติจะมีคุณสมบัติ
เป็นระนาบหลายมิติที่ทาให้ระยะห่างระหว่างกลุ่มข้อมูลทั้งสอง
(ระยะทางที่ใกล้ที่สุดที่เป็นไปได้จากจุด 2 จุดในคนละกลุ่มกัน)
เป็นระยะห่างที่มากที่สุด หรือเรียกว่า ระยะขอบมากสุด (Maximum Margin)
ในการเรียนรู้ของ SVM จะใช้การเรียนรู้เพียงกลุ่มเดียว และเรียนรู้ขอบเขต
ในส่วนของข้อมูลการสอนที่เป็นความปกติ
58
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
59
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
60
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
61
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
เทคนิค Rule Based มีการประยุกต์ใช้ในวิธีการแบบ multi-class
และแบบ one-class ซึ่งกฎสร้างขึ้นจากการเรียนรู้พฤติกรรมปกติของระบบ
ข้อมูลที่ไม่ครอบคลุมโดยทุกๆ กฎจะถูกพิจารณาเป็นความผิดปกติ
เทคนิคที่ขึ้นกับ Multi-class rule การทางานประกอบด้วย 2 ขั้นตอน
ขั้นตอนแรก
เป็นการเรียนรู้กฎจากชุดข้อมูลการสอนโดยใช้อัลกอริทึม
rule learning อย่างเช่น RIPPER และ Decision Treesเป็นต้น 62
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
ขั้นตอนที่สอง
เป็นการค้นหาข้อมูลทดสอบที่มีคะแนนความผิดปกติ หรือค่าความเชื่อมั่นน้อย
จะถูกระบุเป็นความผิดปกติ
63
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
กฎความสัมพันธ์ (Association Rule Mining) เป็นวิธีการค้นหากฎ
ความสัมพันธ์ของข้อมูลโดยค้นหาความสัมพันธ์ของข้อมูลสองชุดข้อมูลหรือ
มากกว่าสองชุดข้อมูลขึ้นไปไว้ด้วยกัน กฎจะทาการวัดโดยใช้ข้อมูล 2 ตัว
ด้วยกันคือค่าสนับสนุน (Support) ซึ่งเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎ
สามารถนาไปใช้ หรือเป็นเปอร์เซ็นต์ของการดาเนินการที่กฎที่ใช้มีความ
ถูกต้อง และข้อมูลค่าความมั่นใจ (Confidence) ซึ่งเป็นจานวนของกรณีที่กฎ
ถูกต้องโดยสัมพันธ์กับจานวนของกรณีที่กฎสามารถนาไปใช้ได้
64
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
Rule Based
ความซับซ้อนในการคานวณของเทคนิคนี้จะขึ้นอยู่กับอัลกอริทึมจัดแบ่งประเภท
(classification algorithm) ที่นามาใช้งาน
65
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
3. Clustering Based Anomaly Detection Techniques
 การจัดกลุ่มก้อน (Clustering) คือการแบ่งวัตถุใดๆ ออกเป็นกลุ่มต่างๆ โดยที่
สมาชิกในกลุ่มเดียวกัน มีความคล้ายคลึงกัน (Similarity) มากกว่าสมาชิกต่างกลุ่ม
 การจัดกลุ่มแบ่งตามลักษณะวิธีได้ 5 วิธีหลัก
 วิธีแบ่งส่วน (Partitioning)
 วิธีลาดับขั้น (Hierarchical)
 วิธีใช้ความหนาแน่น (Density-Based)
 วิธีใช้ตาราง (Grid-Based)
 วิธีใช้แบบจาลอง (Model-Based)
66
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เทคนิคในกลุ่มนี้สามารถแบ่งตามสมมุติฐานออกเป็น 2 กลุ่มดังนี้
กลุ่มแรก ขึ้นอยู่กับสมมุติฐานที่ว่า “ข้อมูลปกติเป็นข้อมูลของ cluster
ขณะที่ความผิดปกติไม่เป็นของ cluster ใดๆ”ซึ่งเทคนิคในกลุ่มแรกนี้มี
การประยุกต์ใช้ clustering algorithm เพื่อเรียนรู้ชุดข้อมูล และการ
ประกาศข้อมูลใดๆ ที่ไม่เป็นของ cluster ที่เป็นความผิดปกติ เช่น
DBSCAN, ROCK และ SNN clustering เป็นต้น
67
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 กลุ่มที่สอง ขึ้นอยู่กับสมมุติฐานที่ว่า “ข้อมูลปกติจะอยู่ใกล้กับตาแหน่ง
ตรงกลางของ cluster ของตัวข้อมูลเอง ขณะที่ความผิดปกติจะอยู่ไกล
ออกไปจากตาแหน่งตรงกลาง Cluster ของตัวข้อมูล”
 เทคนิคในกลุ่มที่สองนี้ประกอบด้วย 2 ขั้นตอน คือ
- ขั้นตอนแรก ข้อมูลถูกจัดกลุ่มก้อนโดยใช้Clustering algorithm
- ขั้นตอนที่สอง สาหรับข้อมูลทดสอบ โดยระยะห่างจากตาแหน่ง
ตรงกลาง Cluster ของตัวข้อมูลจะถูกพิจารณาเป็นคะแนนความผิดปกติ
68
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เทคนิคที่ใช้ใน 2 วิธีการนี้ เช่น
- Self-Organizing Map (SOM)
- K-means Clustering
- Expectation Maximization (EM) เป็นต้น
ความซับซ้อนในการคานวณของเทคนิคนี้ขึ้นอยู่กับ Clustering
algorithm ที่นามาใช้ในการสร้าง cluster จากข้อมูล และในส่วน
ของประสิทธิภาพในการทางานจะขึ้นอยู่กับ clustering algorithm
ที่นามาใช้งานด้วยเช่นกัน
69
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
วิธีทั่วไปของการทา Clustering
 กลุ่มของข้อมูลเกี่ยวกับจานวนจากัดของกลุ่ม
 การวิเคราะห์ข้อมูลแต่ละข้อมูล ซึ่งเกี่ยวข้องกับแต่ละกลุ่มที่มีความ
ใกล้เคียงที่สุด
 กรณีการตรวจสอบความผิดปกติ
- กรณีข้อมูลที่ไม่เหมาะสมในกลุ่มใดๆ(ส่วนเหลือจาก clustering)
- กรณีข้อมูลในกลุ่มเล็กๆ
- กรณีข้อมูลในกลุ่มความหนาแน่นต่า
- กรณีข้อมูลที่อยู่ไกลจากจุดอื่นๆในกลุ่มเดียวกัน 70
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
รูปการตรวจจับความผิดปกติที่ขึ้นโดยวิธี CLUSTERING
71
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
FINDOUT ALGORITHM
คือขั้นตอนวิธีการที่หาออกมาโดยใช้ (WaveCluster) คลื่นในการ
แบ่งกลุ่ม
การแปลงข้อมูลกลายเป็นสัญญาณหลายลักษณะ
(multidimensional signals) โดยใช้คลื่นลูกเล็ก(wavelet)ในการ
แปลง
72
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
FINDOUT ALGORITHM
ความถี่สูงของสัญญาณจะสอดคล้องกับพื้นที่ เนื่องจากการเปลี่ยนแปลง
อย่างรวดเร็วของการกระจาย
เป็นเครื่องแบ่งเขตของการแบ่งกลุ่ม
ส่วนความถี่ต่าจะตรงกับพื้นที่
ที่เป็นข้อมูลที่เข้ม
73
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เมื่อความถี่สูงและต่าความถี่เหล่านี้ถูกRemove และส่วนที่เหลือทั้งหมด
จะกลายเป็นจุดที่อยู่ข้างนอก
FINDOUT ALGORITHM
74
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 ข้อดี
- ไม่มีการควบคุม
- ขั้นตอนวิธีที่มีอยู่ในกลุ่มสามารถเชื่อมเข้าได้
 ข้อเสีย
- ถ้าหากข้อมูลไม่มีกลุ่มหรือขั้นตอนวิธีของกลุ่มไม่สามารถตรวจพบได้นั้น
วิธีการอาจล้มเหลว
- การคานวณที่มีราคาแพง
- โดยใช้โครงสร้างเป็นตัววัดหรือตัวบ่งชี้อาจทาให้เกิดปัญหานี้ได้
- ในช่องว่างที่มีมิติสูง
- ข้อมูลจะเบาบางและระยะทางระหว่างข้อมูลทั้งสองข้อมูลที่มีการบันทึกอาจมี
ความคล้ายกันมาก
75
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
4. Nearest Neighbor Based Anomaly Detection Techniques
หลักการ
เป็นการแบ่งประเภทของข้อมูล ในส่วนของการ classification โดยการแบ่ง
ประเภทของข้อมูลนั้น ขึ้นอยู่กับ Attributes และ Trainning Samples
ในที่นี้ เราจะกาหนดจุดการค้นหา ค่า k ซึ่งเป็น การหาระยะทางที่ใกล้
ระหว่างจุด query instance (จุดที่หาค่า,จุดที่สนใจ) และtraining samples
76
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
K nearest neighbor algorithm
คือ สิ่งที่เข้าใจได้ง่าย ทางานบนพื้นฐานของระยะห่างที่น้อยที่สุดจาก
ตัวอย่างคาถาม (query instance) ถึง training samples เพื่อพิจารณา
K-nearest neighbors. หลังจากการรวมกลุ่มของ K nearest neighbors
เราจะสนใจองค์ประกอบใหญ่เดียว สิ่งนี้ K-nearest neighbors สามารถ
พยากรณ์ตัวอย่างคาถามได้
77
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
ตัวอย่างการนาไปใช้
จากข้อมูลเรามี ข้อมูลที่เป็น training data และต้องการทานาย ค่า
ในตาราง y ในที่นี้ เราให้เป็นคลาส
คลาส คือ ค่าที่เราจะทานาย ว่า ข้อมูลนั้นจะถูกแบ่งออกมาได้เป็นสอง
คลาส คือ บวก(+) และ ลบ(-) คล้าย ๆ กับหลักการของ K-mean
78
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
79
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
80
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เราไม่อาจทราบว่า ค่าที่เราจะทานายนั้น จะเป็นค่า บวก หรือค่าลบ จึงต้อง
นาหลักการทาง Nearest Neighbor algorithm มาทาการทานาย โดยเราจะ
กาหนดค่า k =8 หรือ (เราให้มีเพื่อนบ้านที่ใกล้ที่สุดที่เป็นไปได้
มีค่าเท่ากับ 8) เป็นพารามิเตอร์เพื่อที่จะใช้คานวณระยะทางระหว่าง จุด
query instance กับ training samples ให้ ใช้ค่าที่วัดได้เป็น Xi
เราจะได้
query instance = xq
1,xq
2 เป็นระบบพิกัดจุดหรือระบบcoordinate และจะได้
training data = xt
1,xt
2
ดังนั้นจะเขียนเป็นสมการได้ว่า
81
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เราสามารถใช้ Euclidean distance ในการหาระยะทาง ของ Xi
ได้
*ค่า Xi คือ ค่าที่ระยะทางที่จุดกระจายอยู่ในแต่ละจุด
82
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
เมื่อทราบจุดที่สั้นที่สุดแล้ว ก็จะดาเนินการดังภาพ (KNN) 83
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การใช้ KNN เข้ามาจัดการจาแนกข้อมูล 84
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การประยุกต์ใช้
เรามีข้อมูลจากการสารวจแบบสอบถาม (ขอความคิดเห็นคน) และการ
ทดสอบวัตถุประสงค์สองลักษณะ (ทนกรดและความแข็งแรง)
เพื่อแยกประเภทว่าเนื้อเยื่อกระดาษพิเศษดีหรือไม่.
เราสามารถคาดเดาสิ่งที่จาแนกเนื้อเยื่อใหม่นี้คืออะไร
ข้อดีของ algorithm นี้ (KNN)
- ช่วยให้คุณสามารถคาดการณ์ประเภทของปัญหานี้.
85
เทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
การเชื่อมโยงกับ Intrusion Detection
การตรวจสอบการบุกรุก การบุกรุกหลัก ๆ มีอยู่สองประเภท คือ
เครือข่ายการใช้(NIDS)
ยกตัวอย่างการตรวจสอบสภาพการจราจร
อุปกรณ์เชื่อมต่อทางเครือข่าย เช่น สวิตซ์ หรือ ฮับ หรือการตรวจสอบ การ
ไหลของน้าในท่อประปาว่ามีการรั่วซึมหรือไม่
86
แผนผังการตรวจจับความผิดปกติ
87
END
88
HW#9
 จงอธิบายความหมายของการตรวจจับความผิดปกติ
 จงยกตัวอย่างความผิดปกติที่เกิดขึ้นในชีวิตประจาวัน
 จงอธิบายปัญหาทางด้านการตรวจจับความผิดปกติ
 จงบอกเทคนิคต่าง ๆ ที่ใช้ในการตรวจจับความผิดปกติ
 บริษัท Aroma ขายน้าหอมสาหรับรถยนต์แห่งหนึ่งโฆษณาว่า รถยนต์ 90% จะใช้
น้าหอมที่ผลิตจากบริษัทนี้ และจากคากล่าวอ้างดังกล่าวทาให้บริษัทคู่แข่งซึ่งชื่อว่า
Botta ยอมรับไม่ได้จึงทาการสารวจตลาดโดยได้ทาการสุ่มตัวอย่างรถยนต์ 400 คันพบว่า
ใช้น้าหอมของบริษัท Aroma 320 คัน คากล่าวอ้างของบริษัท Aroma เป็นจริงหรือไม่ ณ
ระดับนัยสาคัญ 0.05
89
HW#9
90

More Related Content

What's hot

1 seaborn introduction
1 seaborn introduction 1 seaborn introduction
1 seaborn introduction YuleiLi3
 
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methodsData Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methodsSalah Amean
 
Tutorial 1 (information retrieval basics)
Tutorial 1 (information retrieval basics)Tutorial 1 (information retrieval basics)
Tutorial 1 (information retrieval basics)Kira
 
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kambererror007
 
Big Data and Classification
Big Data and ClassificationBig Data and Classification
Big Data and Classification303Computing
 
Data Mining Concepts
Data Mining ConceptsData Mining Concepts
Data Mining ConceptsDung Nguyen
 
Knowledge discovery thru data mining
Knowledge discovery thru data miningKnowledge discovery thru data mining
Knowledge discovery thru data miningDevakumar Jain
 
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kambererror007
 
Classification with Naive Bayes
Classification with Naive BayesClassification with Naive Bayes
Classification with Naive BayesJosh Patterson
 
Chapter 4. Data Warehousing and On-Line Analytical Processing.ppt
Chapter 4. Data Warehousing and On-Line Analytical Processing.pptChapter 4. Data Warehousing and On-Line Analytical Processing.ppt
Chapter 4. Data Warehousing and On-Line Analytical Processing.pptSubrata Kumer Paul
 

What's hot (20)

Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 
1 seaborn introduction
1 seaborn introduction 1 seaborn introduction
1 seaborn introduction
 
Data mining
Data miningData mining
Data mining
 
TCS MODULE 6.pdf
TCS MODULE 6.pdfTCS MODULE 6.pdf
TCS MODULE 6.pdf
 
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methodsData Mining: Concepts and techniques classification _chapter 9 :advanced methods
Data Mining: Concepts and techniques classification _chapter 9 :advanced methods
 
Tutorial 1 (information retrieval basics)
Tutorial 1 (information retrieval basics)Tutorial 1 (information retrieval basics)
Tutorial 1 (information retrieval basics)
 
03 data mining : data warehouse
03 data mining : data warehouse03 data mining : data warehouse
03 data mining : data warehouse
 
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 6 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
 
Big Data and Classification
Big Data and ClassificationBig Data and Classification
Big Data and Classification
 
DWM-MODULE 6.pdf
DWM-MODULE 6.pdfDWM-MODULE 6.pdf
DWM-MODULE 6.pdf
 
Big data
Big dataBig data
Big data
 
FP-growth.pptx
FP-growth.pptxFP-growth.pptx
FP-growth.pptx
 
Data preprocessing
Data preprocessingData preprocessing
Data preprocessing
 
Data Mining Concepts
Data Mining ConceptsData Mining Concepts
Data Mining Concepts
 
Knowledge discovery thru data mining
Knowledge discovery thru data miningKnowledge discovery thru data mining
Knowledge discovery thru data mining
 
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & KamberChapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
Chapter - 7 Data Mining Concepts and Techniques 2nd Ed slides Han & Kamber
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Classification with Naive Bayes
Classification with Naive BayesClassification with Naive Bayes
Classification with Naive Bayes
 
Clustering - K-Means, DBSCAN
Clustering - K-Means, DBSCANClustering - K-Means, DBSCAN
Clustering - K-Means, DBSCAN
 
Chapter 4. Data Warehousing and On-Line Analytical Processing.ppt
Chapter 4. Data Warehousing and On-Line Analytical Processing.pptChapter 4. Data Warehousing and On-Line Analytical Processing.ppt
Chapter 4. Data Warehousing and On-Line Analytical Processing.ppt
 

Viewers also liked (9)

06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
02 data werehouse
02 data werehouse02 data werehouse
02 data werehouse
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
K means cluster in weka
K means cluster in wekaK means cluster in weka
K means cluster in weka
 
08 clustering
08 clustering08 clustering
08 clustering
 
04 association
04 association04 association
04 association
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification
 

09 anomaly detection