Time series data mining

2,039 views

Published on

Published in: Education, Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,039
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Time series data mining

  1. 1. Time sequence data mining using<br />time–frequency analysis<br />and soft computing techniques<br />
  2. 2. Time series data processing for feature extraction<br /><ul><li>ความสามารถในการแยกจากแรงดันไฟฟ้าที่ดีที่สุด คือการแยกจากจุดกำเนิดผ่านการวิเคราะห์ช่วงความถี่ที่มีประสิทธิภาพ
  3. 3. ซึ่งหลักการนี้ S-transform ได้นำมาใช้ โดยที่ S-transform เกิดจากความล้ำหน้าของเครื่องประมวลผลสัญญาณ 2 ตัว คือ
  4. 4. Short Time Fourier Transform (STFT)
  5. 5. Wavelet transform</li></li></ul><li>Short Time Fourier Transform<br />- S-transform ของเวลาที่สัญญาณแตกต่างกัน โดย h(t) จะได้เป็น <br />- ที่ฟังก์ชัน w(t,f) จะสามารถแทนด้วย <br />
  6. 6. Time series data processing for feature extraction<br /><ul><li>และ (f) เป็นฟังก์ชันความถี่
  7. 7. ฟังก์ชันที่เป็นปกติเป็น</li></li></ul><li>Time series data processing for feature extraction<br /><ul><li>ความไม่ต่อเนื่องตาม (1) ที่ได้รับ คือ
  8. 8. ที่ G(m,n) = e -2π2m2α2/n2 และ H(m, n) ขยับตาม discrete Fourier transform (DFT) ของ h(k) ตาม n ดังนั้น H(m) จะเป็น </li></li></ul><li>Time series data processing for feature extraction<br /><ul><li>Std1: ส่วนเบี่ยงเบนมาตรฐานของ contour ต่ำสุดไปสองครั้งความถี่พื้นฐานปกติ
  9. 9. Stdh: ส่วนเบี่ยงเบนมาตรฐาน ของฮิลแบร์ทการแปลงของสัญญาณ
  10. 10. Avg: เฉลี่ยค่าสัมบูรณ์ squared ของ S – matrix ที่ไปสามครั้งความถี่พื้นฐาน</li></li></ul><li>Time series data processing for feature extraction<br /><ul><li>Cf: Max(A) + Min(A) Max(B) Min(B), เมื่อ A คือ amplitude กับเวลากราฟ ของ S – matrix สำหรับสัญญาณที่ไม่ถูกรบกวน และ B สำหรับสัญญาณที่ถูกรบกวน
  11. 11. THD: ความเพี้ยนของฮาร์โมนิรวมสัญญาณที่ N คือจำนวนจุดใน FFT</li></li></ul><li>Time series data processing for feature extraction<br /><ul><li>Std2 (Cr): ส่วนเบี่ยงเบนมาตรฐานของ Cr, Cr ที่เป็น amplitude กับกราฟของ S -matrix สำหรับความถี่สูงกว่าสี่ครั้งความถี่พื้นฐาน; คุณลักษณะนี้จะ เรียกว่า Std.2
  12. 12. Kur (Cr): Kurtosis of Cr.
  13. 13. Sk (Cr): Skewness of Cr.
  14. 14. พลังงาน ของสัญญาณมอดูเลตจาก S – matrix ซึ่งสูตรทางสถิติคือส่วนเบี่ยงเบนมาตรฐาน </li></li></ul><li>Time series data processing for feature extraction<br />
  15. 15. Analysis of power network signal time sequence<br />
  16. 16. Analysis of power network signal time sequence<br />
  17. 17. Analysis of power network signal time sequence<br />
  18. 18. Analysis of power network signal time sequence<br />
  19. 19. Analysis of power network signal time sequence<br />
  20. 20. Analysis of power network signal time sequence<br />
  21. 21. Analysis of power network signal time sequence<br />
  22. 22. Analysis of power network signal time sequence<br />
  23. 23. Analysis of power network signal time sequence<br />
  24. 24. Analysis of power network signal time sequence<br />
  25. 25. Analysis of power network signal time sequence<br />
  26. 26. Analysis of power network signal time sequence<br />
  27. 27. Analysis of power network signal time sequence<br />
  28. 28. รูปแบบการเรียนรู้<br />
  29. 29. การเรียนรู้เครือข่ายนิวรอนแบบเวกเตอร์ควอนไทเซชัน<br />
  30. 30. LVQ classifier<br /><ul><li>เป็นเครือข่ายสำหรับหลายอินพุตและหลายเอาท์พุตภายในเครือข่ายเดียวกัน
  31. 31. มีวิธีการเรียนรู้ทั้งแบบการเรียนรู้แบบมีผู้ฝึกสอนและไม่มีผู้ฝึกสอน
  32. 32. ขั้นตอนการเรียนรู้แบบไม่มีผู้ฝึกสอน, คล้ายกับการเรียนรู้แบบ Kohonen</li></li></ul><li>Initialization<br /><ul><li>กำหนดค่าเริ่มต้นให้กับเวกเตอร์น้ำหนักประสาทและค่าคงที่การเรียนรู้ เวกเตอร์น้ำหนักจะหาได้จากสูตร</li></ul>t = 0<br />n = ขนาดของเวกเตอร์อินพุต<br />
  33. 33. Sampling<br /><ul><li>ตัวอย่าง : สามารถที่จะดึงมาจากตัวอย่างตามรูปที่ 11 แสดงในกรณีนี้เป็นเวกเตอร์ได้ดังนี้</li></ul>ตัวอย่าง<br />รูปที่ 11 รูปกำลังไฟฟ้าไม่คงที่<br />
  34. 34. Similarity matching<br /><ul><li>คำนวณหานิวรอนผู้ชนะ k จากความสัมพันธ์ได้โดยใช้ระยะทางยุคลิดเป็น</li></li></ul><li><ul><li>ทำซ้ำขั้นตอน (II) ซ้ำจนกว่าจะไม่มีการเปลี่ยนแปลงในค่าน้ำหนัก
  35. 35. การเรียนรู้ระยะที่สองจะใช้เทคนิค LVQ เพื่อเพิ่มประสิทธิภาพน้ำหนักด้วยวิธีดังนี้</li></li></ul><li>ระยะทางยูคลิเดียนแบบสั้นที่สุด<br />
  36. 36. <ul><li>หาจุดศูนย์กลาง ( ) ของแต่ละ class
  37. 37. ชั้นที่มีระยะทาง Euclidian ต่ำสุดจากการทดสอบเวกเตอร์จะถูกเลือกเป็น class </li></li></ul><li>เพอร์เซ็ปตรอนหลายชั้น<br />
  38. 38. หลักการทำงานของ MLP<br /><ul><li>Multilayer perceptron เป็นหนึ่งในสถาปัตยกรรมเครือข่ายประสาทที่นิยมใช้ในปัจจุบัน ซึ่งมีความใกล้เคียงความเป็นสากล และเป็นมาตรฐานเมื่อเปรียบเทียบกับเครือข่ายประสาทอื่น ๆ</li></li></ul><li>หลักการทำงานของ MLP <br /><ul><li>ในแต่ละชั้นของชั้นซ่อนตัว (Hidden Layer) จะมีฟังก์ชันสำหรับคำนวณเมื่อได้รับสัญญาณ (Output) จากโหนดในชั้นก่อนหน้า เรียกว่า Activation Function โดยในแต่ละชั้นไม่จำเป็นต้องเป็นฟังก์ชันเดียวกันก็ได้
  39. 39. ทำการเลือกค่าของ Output ที่มีค่าสูงกว่า (Neuron ที่มีค่าสูงกว่า) และทำการปรับค่าของ Error ให้อยู่ในช่วงที่รับได้ (Error น้อยกว่า Error ที่เรากำหนด)</li></li></ul><li>หลักการทำงานของ MLP <br /><ul><li>หลังจากให้ทำการรับข้อมูลชุดถัดไป แต่หากค่าของน้ำหนัก มากกว่าค่าที่ยอมรับได้ ให้ทำการปรับค่าน้ำหนักและ Biased ตามขั้นตอนที่ 2
  40. 40. ทำตามขั้นตอน 2 – 3 ซ้ำอีกรอบจนกระทั่งถึงข้อมูลชุดสุดท้าย
  41. 41. เมื่อทำข้อมูลชุดสุดท้ายเสร็จจะนับเป็น 1 รอบของการคำนวณ (1 Epoch)</li></li></ul><li>เครือข่ายเชื่อมโยงแนวรัศมีประสาท <br />
  42. 42. <ul><li>จะมีเครือข่ายประสาทมากกว่า RBF ทั่วไปเพราะประกอบด้วยทั้งเชิงเส้นและไม่เชิงเส้น</li></li></ul><li><ul><li>RBFLN เป็นเครือข่ายไปข้างหน้าประเภทหนึ่ง ที่ได้รับการยอมรับว่ามีประสิทธิภาพสูงเครือข่ายหนึ่ง เครือข่าย RBF แตกต่างไปจากเครือข่าย MLP ตรงที่เครือข่าย RBF นั้นมีชั้น hidden เพียงชั้นเดียว
  43. 43. RBFLN สามารถพิจารณาฟังก์ชั่นการส่ง (mapping function) ของความสัมพันธ์ระหว่างคู่รูปแบบอินพุตและเอาต์พุตได้ โดยการเรียนรู้ของเครือข่ายเป็นการปรับค่าน้ำหนักประสาทให้ได้ฟังก์ชันการส่งที่เหมาะที่สุด</li></li></ul><li>เพอร์เซ็ปตรอนหลายชั้นแบบคุมเครือ<br />
  44. 44. <ul><li>ในงานนี้ มีการแก้ไขกระบวนการอินพุต fuzzification เพียงเล็กน้อย ขึ้นอยู่กับคุณลักษณะคุณสมบัติที่สามารถแบ่งพาร์ติชันในหลายพื้นที่ไม่จำเป็นต้องจำกัด อยู่ที่ขนาดเล็กกลางและสูง โดยใช้ฟังก์ชันสมาชิกทั่วไปเช่นฟังก์ชัน S สมาชิก, ฟังก์ชัน Z สมาชิก, ฟังก์ชันสมาชิก Gaussian หรือฟังก์ชันสมาชิกที่เห็นว่ามีประโยชน์</li></li></ul><li>รูปแบบการจำแนกข้อมูล<br />
  45. 45. Rule generation<br />เครือข่ายประสาทเทียมใช้ในการสร้าง if – then เพื่อหาเหตุผลถึงการตัดสินใจในทุกกระบวนการประเมินขั้นตอนเพื่อสร้างกฎสำหรับกระจายข้อมูล<br /><ul><li>ขั้นตอนที่ 1. เลือกชั้นซ่อนที่มีผลกระทบออกแทนค่าwjk > 0 (j = ชั้นที่แสดงผล, k = ชั้นที่ซ่อน)
  46. 46. ขั้นตอนที่ 2. > 0.5 โดยมีการเชื่อมโยงค่าน้ำหนักสะสมสูงสุดไปยังค่า Output ค่าของชั้นที่ซ่อนจะมากกว่า 0
  47. 47. ขั้นตอนที่ 3 กฎ If – then นั้นจะถูกสร้างจากค่า Input และค่า Output
  48. 48. ขั้นตอนที่ 4 ขั้นตอนที่ 1-4 เป็นการซ้ำทั้งหมดในส่วน vectors
  49. 49. ขั้นตอนที่ 5 ยกเลิกกฎทั้งหมดที่มีคุณสมบัติน้อยกว่าหนึ่งในสามออกมาก่อน</li></li></ul><li>Rule generation <br />ผลลัพธ์ของกฎได้จากค่า PJ<br />ค่า Yj ที่เป็นผลลัพธ์ของ j รูปแบบที่ใช้เพื่อแสดงส่วนที่เป็นผลลัพธ์เป็น<br />
  50. 50. กฎของการตัดสินใจสรุปข้อมูลที่มีความถี่สูง<br />แสดง Output ข้อมูลความถี่สูง<br />
  51. 51. Fuzzy set สำหรับความถี่สูง<br />
  52. 52. กฎของการตัดสินใจสรุปข้อมูลที่มีความถี่ต่ำ<br />แสดง Output ของข้อมูลความถี่ต่ำ<br />
  53. 53. Fuzzy set สำหรับความถี่ต่ำ<br />
  54. 54. ตารางสรุปปริมาณความถูกต้อง<br />
  55. 55. สรุป<br />บทความนี้นำเสนอการเปรียบเทียบ Algorithm ในหลายรูปแบบเพื่อดูว่า Algorithm แบบใดจะเหมาะสมที่สุดในการเข้าถึงข้อมูลในแต่ละช่วงเวลา<br />
  56. 56. ข้อดี & ข้อเสีย<br />ข้อดี<br /><ul><li>บทความนี้แสดงให้เห็นถึงเทคนิคการทำวิเคราะห์ช่วงเวลาในการทำ Data mining
  57. 57. แสดงให้เห็นเทคนิคในการจำแนกรูปแบบของการเรียนรู้
  58. 58. การแสดงให้เห็นถึงการแยกช่วงเวลาของข้อมูลจากความสามารถที่มีและการวิเคราะห์ลำดับเวลาสัญญาณ</li></ul>ข้อเสีย<br /><ul><li>บทความนี้ใช้คำศัพท์เฉพาะทางทางด้านสัญญาณไฟฟ้าจึงยากต่อการเข้าใจบทความ
  59. 59. ใช้องค์ความรู้ในระดับที่สูงเกินไปทำให้ผู้ที่ต้องการศึกษาเพิ่มเติมต้องทำความเข้าใจและมีพื้นฐานทางด้าน neural network และสัญญาณไฟฟ้าเป็นอย่างดี</li></li></ul><li>ข้อเสนอแนะ<br /><ul><li>การจะเลือกใช้การเรียนชนิดใด ควรเลือกจากความสามารถที่นำมาแก้ปัญหาได้สูงสุด
  60. 60. การทำ fuzzy MLP เนื่องจากสามารถเข้าถึงข้อมูลเชิงลึกได้ แม้ว่าการระบุชุดเวลาไม่คงที่</li></li></ul><li>ความเป็นไปได้ในอนาคต<br /><ul><li> การนำเอาการเรียนรู้ไปประยุกต์ใช้ในงานประเภทอื่น ๆ เช่น ตลาดหุ้น
  61. 61. สามารถช่วยแก้ปัญหาความผิดพลาดที่เกิดขึ้นได้ ทำให้ปัญหาที่เกิดขึ้นจะลดลง</li>

×