Your SlideShare is downloading. ×
0
ETL Pentaho Data Integration<br />อาจารย์เรืองศักดิ์  ตระกูลพุทธิรักษ์<br />ruangsak@swu.ac.th<br />สาขาวิทยาการคอมพิวเตอร...
ETL<br />stands for extract, transform and load<br />a process in database usage and especially in data warehousing that i...
Example<br />
Input<br />
Transform<br />
Load<br />
Hands-on Experience<br />จำนวนนิสิตที่ลงทะเบียนในแต่ละรายวิชา<br />
Demo<br />
สร้างฐานข้อมูลไว้รองรับการทำงานของโปรแกรม Data Integration<br />โดยในที่นี้ได้สร้างฐานข้อมูลชื่อ repository<br />
เอาข้อมูลจากไหนมาทำ ETL ครับ<br />ฐานข้อมูล course2550<br />
สร้างฐานข้อมูลไว้เป็น input ของโจทย์<br />โดยในที่นี้จะสร้างฐานข้อมูลชื่อ course2550<br />
ระบุชื่อฐานข้อมูล course2550กดปุ่ม Create<br />
import<br />
Browse<br />
เลือกไฟล์ 02course2550_forETL.sql<br />
เริ่มโปรแกรม Data Integration<br />
Programs > Pentaho Enterprise Edition > Design Tools > Data Integration<br />
สร้าง RepositoryConnection ขึ้นใหม่<br />
เริ่มจริง...จริง แล้วนะครับ<br />
เลือก Repository ที่ได้สร้างไว้ Login เพื่อเข้าสู่หน้าจอการทำงาน<br />
File > New > Transformation<br />
ใช้ข้อมูลจากไหน?<br />แล้วทำอย่างไร?<br />
File > New > Database Connection<br />
เริ่มกระบวนการ ETL<br />
Input > Table input<br />
Double Click ที่ Table input แก้ชื่อ Table input> at_course_enrollmentคลิกปุ่ม Get SQL select statement…<br />
เลือกตาราง at_course_enrollment<br />
เพิ่ม ORDER BY course_id<br />
Statistics > Group by<br />กด Shift ค้างไว้และลากเม้าส์สร้างเส้นเชื่อมโยง<br />
Double Click ที่ Group by กดปุ่ม Get Fieldsกดปุ่ม Get lookup fields <br />
เพิ่ม Order By เพื่ออะไร?<br />
ทำ Group by เพื่ออะไร?<br />Aggregates / นับจำนวนผู้เรียน<br />
Transform > Select valuesสร้างเส้นเชื่อมโยง<br />
Double Click ที่ Select values กดปุ่ม Get fields to selectในช่อง Rename to เปลี่ยนชื่อ 		member_id เป็น num_enroll<br />
Selected Value เพื่ออะไร?<br />เปลี่ยนชื่อ Field<br />
Input > Table input<br />
Double Click ที่ Table input แก้ชื่อ Table input> at_coursesคลิกปุ่ม Get SQL select statement…<br />
เลือกตาราง at_courses<br />
เพิ่ม ORDER BY course_id<br />
Joins > Merge Join ลากเส้นเชื่อมโยง<br />
Double Click ที่ Merge Join กำหนดค่าต่างๆ กด Get key fields เพื่อเลือก Keys<br />
เพิ่ม Order By เพื่ออะไร?<br />
Transform > Select values สร้างเส้นเชื่อมโยง<br />
Double Click ที่ Select values 2 แถบเมนู Remove ช่อง Fieldname ให้ใส่ course_id_1ที่ต้องการลบทิ้ง<br />
Selected Value 2เพื่ออะไร?<br />ลบ Field ที่ไม่ต้องการ<br />
Output > Table outputสร้างเส้นเชื่อมโยง<br />
ผลลัพธ์เอาไว้ที่ไหน ?<br />ตาราง o_course<br />ฐานข้อมูล course2550<br />
Double Click ที่ Table outputกดปุ่ม Browse ที่ Target Tableสร้างตารางใหม่ขึ้นมาชื่อว่า o_course<br />
คลิกขวาตาราง at_courses (ใกล้เคียง)DDL > Use Current Connection<br />
เปลี่ยนคำสั่ง SQLกดปุ่ม Execute<br />
Refreshเลือกตาราง o_course<br />
เลือกช่อง Truncate table กดปุ่ม OK<br />
Action > Run กดปุ่ม Launch<br />
Save<br />
หากไม่มีข้อผิดพลาดใดๆ <br />
เข้าไปดูฐานข้อมูล MySQL ในตาราง o_course <br />
ลองดู feature อื่นๆเล็กน้อย ครับ<br />
Excel Output<br />
Google Docs<br />
Upcoming SlideShare
Loading in...5
×

Introduction to ETL - Pentaho

2,148

Published on

สมาคมศูนบ์วิชาการไทย-ออสเตรเลีย
การอบรม รุ่นที่ 1

Published in: Education, Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,148
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
115
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Introduction to ETL - Pentaho"

  1. 1. ETL Pentaho Data Integration<br />อาจารย์เรืองศักดิ์ ตระกูลพุทธิรักษ์<br />ruangsak@swu.ac.th<br />สาขาวิทยาการคอมพิวเตอร์<br />ภาควิชาคณิตศาสตร์ คณะวิทยาศาสตร์<br />มหาวิทยาลัยศรีนครินทรวิโรฒ<br />
  2. 2. ETL<br />stands for extract, transform and load<br />a process in database usage and especially in data warehousing that involves:<br />Extracting data from outside sources <br />Transforming it to fit operational needs (which can include quality levels) <br />Loading it into the end target (database or data warehouse) <br />
  3. 3. Example<br />
  4. 4. Input<br />
  5. 5. Transform<br />
  6. 6. Load<br />
  7. 7. Hands-on Experience<br />จำนวนนิสิตที่ลงทะเบียนในแต่ละรายวิชา<br />
  8. 8. Demo<br />
  9. 9. สร้างฐานข้อมูลไว้รองรับการทำงานของโปรแกรม Data Integration<br />โดยในที่นี้ได้สร้างฐานข้อมูลชื่อ repository<br />
  10. 10. เอาข้อมูลจากไหนมาทำ ETL ครับ<br />ฐานข้อมูล course2550<br />
  11. 11. สร้างฐานข้อมูลไว้เป็น input ของโจทย์<br />โดยในที่นี้จะสร้างฐานข้อมูลชื่อ course2550<br />
  12. 12. ระบุชื่อฐานข้อมูล course2550กดปุ่ม Create<br />
  13. 13. import<br />
  14. 14. Browse<br />
  15. 15. เลือกไฟล์ 02course2550_forETL.sql<br />
  16. 16.
  17. 17.
  18. 18. เริ่มโปรแกรม Data Integration<br />
  19. 19. Programs > Pentaho Enterprise Edition > Design Tools > Data Integration<br />
  20. 20. สร้าง RepositoryConnection ขึ้นใหม่<br />
  21. 21.
  22. 22.
  23. 23.
  24. 24.
  25. 25.
  26. 26.
  27. 27.
  28. 28. เริ่มจริง...จริง แล้วนะครับ<br />
  29. 29. เลือก Repository ที่ได้สร้างไว้ Login เพื่อเข้าสู่หน้าจอการทำงาน<br />
  30. 30. File > New > Transformation<br />
  31. 31. ใช้ข้อมูลจากไหน?<br />แล้วทำอย่างไร?<br />
  32. 32. File > New > Database Connection<br />
  33. 33. เริ่มกระบวนการ ETL<br />
  34. 34. Input > Table input<br />
  35. 35. Double Click ที่ Table input แก้ชื่อ Table input> at_course_enrollmentคลิกปุ่ม Get SQL select statement…<br />
  36. 36. เลือกตาราง at_course_enrollment<br />
  37. 37. เพิ่ม ORDER BY course_id<br />
  38. 38. Statistics > Group by<br />กด Shift ค้างไว้และลากเม้าส์สร้างเส้นเชื่อมโยง<br />
  39. 39. Double Click ที่ Group by กดปุ่ม Get Fieldsกดปุ่ม Get lookup fields <br />
  40. 40. เพิ่ม Order By เพื่ออะไร?<br />
  41. 41. ทำ Group by เพื่ออะไร?<br />Aggregates / นับจำนวนผู้เรียน<br />
  42. 42. Transform > Select valuesสร้างเส้นเชื่อมโยง<br />
  43. 43. Double Click ที่ Select values กดปุ่ม Get fields to selectในช่อง Rename to เปลี่ยนชื่อ member_id เป็น num_enroll<br />
  44. 44. Selected Value เพื่ออะไร?<br />เปลี่ยนชื่อ Field<br />
  45. 45. Input > Table input<br />
  46. 46. Double Click ที่ Table input แก้ชื่อ Table input> at_coursesคลิกปุ่ม Get SQL select statement…<br />
  47. 47. เลือกตาราง at_courses<br />
  48. 48. เพิ่ม ORDER BY course_id<br />
  49. 49. Joins > Merge Join ลากเส้นเชื่อมโยง<br />
  50. 50. Double Click ที่ Merge Join กำหนดค่าต่างๆ กด Get key fields เพื่อเลือก Keys<br />
  51. 51. เพิ่ม Order By เพื่ออะไร?<br />
  52. 52. Transform > Select values สร้างเส้นเชื่อมโยง<br />
  53. 53. Double Click ที่ Select values 2 แถบเมนู Remove ช่อง Fieldname ให้ใส่ course_id_1ที่ต้องการลบทิ้ง<br />
  54. 54. Selected Value 2เพื่ออะไร?<br />ลบ Field ที่ไม่ต้องการ<br />
  55. 55. Output > Table outputสร้างเส้นเชื่อมโยง<br />
  56. 56. ผลลัพธ์เอาไว้ที่ไหน ?<br />ตาราง o_course<br />ฐานข้อมูล course2550<br />
  57. 57. Double Click ที่ Table outputกดปุ่ม Browse ที่ Target Tableสร้างตารางใหม่ขึ้นมาชื่อว่า o_course<br />
  58. 58. คลิกขวาตาราง at_courses (ใกล้เคียง)DDL > Use Current Connection<br />
  59. 59. เปลี่ยนคำสั่ง SQLกดปุ่ม Execute<br />
  60. 60. Refreshเลือกตาราง o_course<br />
  61. 61. เลือกช่อง Truncate table กดปุ่ม OK<br />
  62. 62.
  63. 63. Action > Run กดปุ่ม Launch<br />
  64. 64. Save<br />
  65. 65. หากไม่มีข้อผิดพลาดใดๆ <br />
  66. 66. เข้าไปดูฐานข้อมูล MySQL ในตาราง o_course <br />
  67. 67. ลองดู feature อื่นๆเล็กน้อย ครับ<br />
  68. 68. Excel Output<br />
  69. 69.
  70. 70.
  71. 71. Google Docs<br />
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×