SlideShare a Scribd company logo
1 of 46
Chapter 2 
Data
Data management 
 Repository 
 เป็นที่เก็บข้อมูลและ process เพื่อใช้งานใน RapidMiner Stodio 6 
 ทา ให้ไม่ต้องโหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง 
 องค์ประกอบในส่วน Repository 
 ส่วนที่ 1 
 สาหรับสร้าง Repository ใหม่ 
 โหลดไฟล์ประเภทต่าง ๆ 
 สร้างโฟลเดอร์ใหม่ 
 ส่วนที่ 2 
 ข้อมูลและ process Sample ที่ RapidMiner เตรียมไว้ให้ 
 ข้อมูลที่เก็บอยู่ในแต่ละ Repository 
1 
2
Data management 
 สร้าง Repository ใหม่ 
 คลิกที่ 
 เลือก New local repository 
 กดปุ่ม Next 
1 2 
3
Data management 
 เปลี่ยนชื่อ Alias เป็น RapidMinerTraining 
 คลิกที่ Use standard location เพื่อเอาออก 
 คลิกที่ไอคอน Folder เพื่อเลือก Root directory ใหม่ 
4 
5 
6
Data management 
 คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์ใหม่ 
7
Data management 
 สร้างโฟลเดอร์ชื่อ RapidMinerTraining และกดปุ่ม OK 
 กด Finish 
8 
9 
10
CSV File 
 ไฟล์ประเภท CSV ย่อมาจาก Comma Separated Value 
 ใช้เครื่องหมาย , (comma) คั่นระหว่างแอตทริบิวต์ 
ID outlook humidity windy play 
1 sunny high FALSE no 
2 sunny high TRUE no 
3 overcast normal FALSE yes 
4 rainy high FALSE yes 
แถวแรกคือ header
CSV File 
 ไฟล์ CSV สามารถ export ได้จาก Excel หรือ database ต่าง ๆ 
 Export จาก Excel 
 เลือก File > Save As > CSV (Comma delimited)
Load CSV to RapidMiner 
 การโหลดไฟล์ csv เข้าไปใช้ใน RapidMiner ทา ได้ 2 แบบ คือ 
 1. ใช้การ import ในส่วนของ Repositories 
 โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด 
 ถ้าข้อมูลในไฟล์ csv มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การโหลดใหม่ 
 2. ใช้โอเปอร์เรเตอร์Read CSV 
 โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ csv ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
Import CSV 
 1. ใช้การ import ในส่วนของ Repositories 
 คลิก Repositories เลือก Import CSV File… 
 เลือกไฟล์ .csv 
 คลิก Next 
1 
2 
3 
4
Import CSV 
 ในส่วนของ Comma Separation เลือก Comma “,” 
5 
6
Import CSV 
 เลือกแถวแรกให้เป็น Name 
7 
8
Import CSV 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
9 
10
Import CSV 
 Save ชื่อว่า weater_nominal ไว้ที่ RapidMinerTraining 
11 
12 13
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของค่าสถิติ
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบกราฟต่างๆ
Read CSV 
 ในส่วนของ Operators พิมพ์คา ว่า Read CSV ในช่องค้นหา 
 ลาก โอเปอเรเตอร์ Read CSV มาไว้ในส่วน Process และเลือก Import Configuration 
Wizard… 
1 
2 
3 
4
Read CSV 
 เลือกไฟล์ .csv คลิก Next 
5 
6
Read CSV 
 ในส่วนของ Comma Separation เลือก Comma “,” 
7 
8
Read CSV 
 เลือกแถวแรกให้เป็น Name 
9 
10
Read CSV 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
12 
11
Read CSV 
 เชื่อมผลจากพอร์ต out ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res เพื่อแสดงผล 
 กดปุ่ม play 
14 
13
Read CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Write CSV 
 เขียนข้อมูลลงไฟล์ CSV ด้วยโอเปอเรเตอร์ Write CSV 
 ใช้ข้อมูลจาก Samples เพื่อเขียนเป็นไฟล์ CSV 
 1. Operators --> Write CSV --> ลากไปที่ process 
 2. Repositories --> Sample --> Data --> iris 
--> ลากไปที่ process 
 3. เชื่อมเส้น 
 4. Paramiter --> Column Separator 
เปลี่ยนจาก ; เป็น , (Comma) 
1 
2 
3 
4
Write CSV 
 บันทึกไฟล์ชื่อ iris.csv 
5 6
Write CSV 
 ไฟล์ iris.csv ที่สร้างได้
Load Excel to RapidMiner 
 1. ใช้การ import ในส่วนของ Repositories 
 โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด 
 ถ้าข้อมูลในไฟล์ Excel มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การ 
โหลดใหม่ 
 2. ใช้โอเปอร์เรเตอร์Read Excel 
 โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ Excel ทุกครั้ง เมื่อไฟล์อัพเดท 
ข้อมูลจะเปลี่ยนตาม
Import Excel 
 ในส่วนของ Repositories เลือก Import Excel Sheet… 
 เลือกไฟล์ .xlsx หรือ .xls 
1 
2 
3 
4
Import Excel 
 เลือก Sheet ที่ต้องการ Import จากไฟล์ Excel 
5 
6
Import Excel 
 เลือกแถวแรกให้เป็น Name 
7 
8
Import Excel 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
9 
10
Import Excel 
 Save ชื่อว่า weater_excel ไว้ที่ RapidMinerTraining 
11 12
Import Excel 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Write Excel 
 ใช้ข้อมูลจาก Sample เพื่อเขียนเป็นไฟล์ Excel 
 1. Repositories --> Iris --> ลากไปที่ process 
 2. Operators --> write Excel --> ลากไปที่ process 
 3. เชื่อมเส้น 
 4. คลิก Write Excel 
2 
 5. file format --> xls 
 6. คลิก 
1 
3
Write Excel 
 บันทึกไฟล์ ชื่อ iris.xls 
7 8
Write Excel 
 ไฟล์ iris.xls ที่สร้างได้
Data exploration 
 โหลดไฟล์ student.csv ไปไว้ใน Repositories ด้วยเมนูImport CSV File… 
 เปลี่ยน Column Separation เป็น Comma “,” 
1 
2
Data exploration 
 เปลี่ยนประเภทข้อมูลของแอตทริบิวต์Study ให้เป็นประเภท polynpmail 
และบันทึกลงใน Repositories 
3
Data exploration 
 แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ 
 1. ตาราง (Data) 
 2. ค่าสรุปทางสถิติ (Statistics) 
 3. กราฟรูปแบบต่างๆ (Charts) 
1 
2 
3
Data exploration 
 แสดงข้อมูลในรูปแบบตาราง 
 ExampleSet แสดงจา นวนข้อมูลทั้งหมดในไฟล์ 
 Filter แสดงจา นวนข้อมูลจากการกรอง (filter) ทา ได้ 5 แบบ 
 all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง) 
 no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ 
 missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ 
 no_missing_label แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล 
 missing_label แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล 
 แสดงข้อมูลในแต่ละแอตทริบิวต์คลิกที่ชื่อแอตทริบิวต์จะเป้นการเรียงลา ดับ 
 กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลา ดับมากกว่า 1 แอ 
ตทริบิวต์
Data exploration 
 แสดงค่าสรุปทางสถิติ มีคอลัมน์ต่าง ๆ ดังนี้ 
 Name แสดงชื่อแอตทริบิวต์ 
 Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์เช่น Integer 
 Miss. จา นวนข้อมูลที่มีค่าว่าง 
 ค่าทางสถิติอื่น ๆ เช่น Min, Max, Average, Deviation, Least, Most, Value
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟแท่ง
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟ Histogram
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟวงกลม
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟกระจายตัว

More Related Content

Similar to Chapter 2 data

Similar to Chapter 2 data (20)

Gisบี
GisบีGisบี
Gisบี
 
php5new
php5newphp5new
php5new
 
Gisครีม
GisครีมGisครีม
Gisครีม
 
คู่มือ Joomla
คู่มือ Joomlaคู่มือ Joomla
คู่มือ Joomla
 
Joomla
JoomlaJoomla
Joomla
 
โปรแกรม Microsoft Access 2007
โปรแกรม Microsoft Access 2007โปรแกรม Microsoft Access 2007
โปรแกรม Microsoft Access 2007
 
56170059
5617005956170059
56170059
 
Gisเป้
Gisเป้Gisเป้
Gisเป้
 
Hydro
HydroHydro
Hydro
 
Java Web Services and SOA Exercises [in Thai]
Java Web Services and SOA Exercises [in Thai]Java Web Services and SOA Exercises [in Thai]
Java Web Services and SOA Exercises [in Thai]
 
แนะนำการใช้โปรแกรมสำเร็จรูป Microsoft Access 2010
แนะนำการใช้โปรแกรมสำเร็จรูป Microsoft Access 2010แนะนำการใช้โปรแกรมสำเร็จรูป Microsoft Access 2010
แนะนำการใช้โปรแกรมสำเร็จรูป Microsoft Access 2010
 
56170253
5617025356170253
56170253
 
งานคอมกลุ่ม6
งานคอมกลุ่ม6งานคอมกลุ่ม6
งานคอมกลุ่ม6
 
Php mysql
Php mysqlPhp mysql
Php mysql
 
Exe2[1]
Exe2[1]Exe2[1]
Exe2[1]
 
Exe2[1]
Exe2[1]Exe2[1]
Exe2[1]
 
Exe2[1]
Exe2[1]Exe2[1]
Exe2[1]
 
Exe2[1]
Exe2[1]Exe2[1]
Exe2[1]
 
รูปทรงกลม
รูปทรงกลมรูปทรงกลม
รูปทรงกลม
 
Exe2[1]
Exe2[1]Exe2[1]
Exe2[1]
 

Chapter 2 data

  • 2. Data management  Repository  เป็นที่เก็บข้อมูลและ process เพื่อใช้งานใน RapidMiner Stodio 6  ทา ให้ไม่ต้องโหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง  องค์ประกอบในส่วน Repository  ส่วนที่ 1  สาหรับสร้าง Repository ใหม่  โหลดไฟล์ประเภทต่าง ๆ  สร้างโฟลเดอร์ใหม่  ส่วนที่ 2  ข้อมูลและ process Sample ที่ RapidMiner เตรียมไว้ให้  ข้อมูลที่เก็บอยู่ในแต่ละ Repository 1 2
  • 3. Data management  สร้าง Repository ใหม่  คลิกที่  เลือก New local repository  กดปุ่ม Next 1 2 3
  • 4. Data management  เปลี่ยนชื่อ Alias เป็น RapidMinerTraining  คลิกที่ Use standard location เพื่อเอาออก  คลิกที่ไอคอน Folder เพื่อเลือก Root directory ใหม่ 4 5 6
  • 5. Data management  คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์ใหม่ 7
  • 6. Data management  สร้างโฟลเดอร์ชื่อ RapidMinerTraining และกดปุ่ม OK  กด Finish 8 9 10
  • 7. CSV File  ไฟล์ประเภท CSV ย่อมาจาก Comma Separated Value  ใช้เครื่องหมาย , (comma) คั่นระหว่างแอตทริบิวต์ ID outlook humidity windy play 1 sunny high FALSE no 2 sunny high TRUE no 3 overcast normal FALSE yes 4 rainy high FALSE yes แถวแรกคือ header
  • 8. CSV File  ไฟล์ CSV สามารถ export ได้จาก Excel หรือ database ต่าง ๆ  Export จาก Excel  เลือก File > Save As > CSV (Comma delimited)
  • 9. Load CSV to RapidMiner  การโหลดไฟล์ csv เข้าไปใช้ใน RapidMiner ทา ได้ 2 แบบ คือ  1. ใช้การ import ในส่วนของ Repositories  โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด  ถ้าข้อมูลในไฟล์ csv มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การโหลดใหม่  2. ใช้โอเปอร์เรเตอร์Read CSV  โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ csv ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
  • 10. Import CSV  1. ใช้การ import ในส่วนของ Repositories  คลิก Repositories เลือก Import CSV File…  เลือกไฟล์ .csv  คลิก Next 1 2 3 4
  • 11. Import CSV  ในส่วนของ Comma Separation เลือก Comma “,” 5 6
  • 12. Import CSV  เลือกแถวแรกให้เป็น Name 7 8
  • 13. Import CSV  เปลี่ยนแอตทริบิวต์play ให้เป็น label 9 10
  • 14. Import CSV  Save ชื่อว่า weater_nominal ไว้ที่ RapidMinerTraining 11 12 13
  • 15. Import CSV  ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 16. Import CSV  ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของค่าสถิติ
  • 17. Import CSV  ข้อมูลที่โหลดเข้าไปแสดงรูปแบบกราฟต่างๆ
  • 18. Read CSV  ในส่วนของ Operators พิมพ์คา ว่า Read CSV ในช่องค้นหา  ลาก โอเปอเรเตอร์ Read CSV มาไว้ในส่วน Process และเลือก Import Configuration Wizard… 1 2 3 4
  • 19. Read CSV  เลือกไฟล์ .csv คลิก Next 5 6
  • 20. Read CSV  ในส่วนของ Comma Separation เลือก Comma “,” 7 8
  • 21. Read CSV  เลือกแถวแรกให้เป็น Name 9 10
  • 22. Read CSV  เปลี่ยนแอตทริบิวต์play ให้เป็น label 12 11
  • 23. Read CSV  เชื่อมผลจากพอร์ต out ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res เพื่อแสดงผล  กดปุ่ม play 14 13
  • 24. Read CSV  ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 25. Write CSV  เขียนข้อมูลลงไฟล์ CSV ด้วยโอเปอเรเตอร์ Write CSV  ใช้ข้อมูลจาก Samples เพื่อเขียนเป็นไฟล์ CSV  1. Operators --> Write CSV --> ลากไปที่ process  2. Repositories --> Sample --> Data --> iris --> ลากไปที่ process  3. เชื่อมเส้น  4. Paramiter --> Column Separator เปลี่ยนจาก ; เป็น , (Comma) 1 2 3 4
  • 26. Write CSV  บันทึกไฟล์ชื่อ iris.csv 5 6
  • 27. Write CSV  ไฟล์ iris.csv ที่สร้างได้
  • 28. Load Excel to RapidMiner  1. ใช้การ import ในส่วนของ Repositories  โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด  ถ้าข้อมูลในไฟล์ Excel มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การ โหลดใหม่  2. ใช้โอเปอร์เรเตอร์Read Excel  โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ Excel ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
  • 29. Import Excel  ในส่วนของ Repositories เลือก Import Excel Sheet…  เลือกไฟล์ .xlsx หรือ .xls 1 2 3 4
  • 30. Import Excel  เลือก Sheet ที่ต้องการ Import จากไฟล์ Excel 5 6
  • 31. Import Excel  เลือกแถวแรกให้เป็น Name 7 8
  • 32. Import Excel  เปลี่ยนแอตทริบิวต์play ให้เป็น label 9 10
  • 33. Import Excel  Save ชื่อว่า weater_excel ไว้ที่ RapidMinerTraining 11 12
  • 34. Import Excel  ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 35. Write Excel  ใช้ข้อมูลจาก Sample เพื่อเขียนเป็นไฟล์ Excel  1. Repositories --> Iris --> ลากไปที่ process  2. Operators --> write Excel --> ลากไปที่ process  3. เชื่อมเส้น  4. คลิก Write Excel 2  5. file format --> xls  6. คลิก 1 3
  • 36. Write Excel  บันทึกไฟล์ ชื่อ iris.xls 7 8
  • 37. Write Excel  ไฟล์ iris.xls ที่สร้างได้
  • 38. Data exploration  โหลดไฟล์ student.csv ไปไว้ใน Repositories ด้วยเมนูImport CSV File…  เปลี่ยน Column Separation เป็น Comma “,” 1 2
  • 39. Data exploration  เปลี่ยนประเภทข้อมูลของแอตทริบิวต์Study ให้เป็นประเภท polynpmail และบันทึกลงใน Repositories 3
  • 40. Data exploration  แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ  1. ตาราง (Data)  2. ค่าสรุปทางสถิติ (Statistics)  3. กราฟรูปแบบต่างๆ (Charts) 1 2 3
  • 41. Data exploration  แสดงข้อมูลในรูปแบบตาราง  ExampleSet แสดงจา นวนข้อมูลทั้งหมดในไฟล์  Filter แสดงจา นวนข้อมูลจากการกรอง (filter) ทา ได้ 5 แบบ  all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)  no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์  missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์  no_missing_label แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล  missing_label แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล  แสดงข้อมูลในแต่ละแอตทริบิวต์คลิกที่ชื่อแอตทริบิวต์จะเป้นการเรียงลา ดับ  กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลา ดับมากกว่า 1 แอ ตทริบิวต์
  • 42. Data exploration  แสดงค่าสรุปทางสถิติ มีคอลัมน์ต่าง ๆ ดังนี้  Name แสดงชื่อแอตทริบิวต์  Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์เช่น Integer  Miss. จา นวนข้อมูลที่มีค่าว่าง  ค่าทางสถิติอื่น ๆ เช่น Min, Max, Average, Deviation, Least, Most, Value
  • 43. Data visualization  เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟแท่ง
  • 44. Data visualization  เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟ Histogram
  • 45. Data visualization  เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟวงกลม
  • 46. Data visualization  เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟกระจายตัว