Chapter 2 
Data
Data management 
 Repository 
 เป็นที่เก็บข้อมูลและ process เพื่อใช้งานใน RapidMiner Stodio 6 
 ทา ให้ไม่ต้องโหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง 
 องค์ประกอบในส่วน Repository 
 ส่วนที่ 1 
 สาหรับสร้าง Repository ใหม่ 
 โหลดไฟล์ประเภทต่าง ๆ 
 สร้างโฟลเดอร์ใหม่ 
 ส่วนที่ 2 
 ข้อมูลและ process Sample ที่ RapidMiner เตรียมไว้ให้ 
 ข้อมูลที่เก็บอยู่ในแต่ละ Repository 
1 
2
Data management 
 สร้าง Repository ใหม่ 
 คลิกที่ 
 เลือก New local repository 
 กดปุ่ม Next 
1 2 
3
Data management 
 เปลี่ยนชื่อ Alias เป็น RapidMinerTraining 
 คลิกที่ Use standard location เพื่อเอาออก 
 คลิกที่ไอคอน Folder เพื่อเลือก Root directory ใหม่ 
4 
5 
6
Data management 
 คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์ใหม่ 
7
Data management 
 สร้างโฟลเดอร์ชื่อ RapidMinerTraining และกดปุ่ม OK 
 กด Finish 
8 
9 
10
CSV File 
 ไฟล์ประเภท CSV ย่อมาจาก Comma Separated Value 
 ใช้เครื่องหมาย , (comma) คั่นระหว่างแอตทริบิวต์ 
ID outlook humidity windy play 
1 sunny high FALSE no 
2 sunny high TRUE no 
3 overcast normal FALSE yes 
4 rainy high FALSE yes 
แถวแรกคือ header
CSV File 
 ไฟล์ CSV สามารถ export ได้จาก Excel หรือ database ต่าง ๆ 
 Export จาก Excel 
 เลือก File > Save As > CSV (Comma delimited)
Load CSV to RapidMiner 
 การโหลดไฟล์ csv เข้าไปใช้ใน RapidMiner ทา ได้ 2 แบบ คือ 
 1. ใช้การ import ในส่วนของ Repositories 
 โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด 
 ถ้าข้อมูลในไฟล์ csv มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การโหลดใหม่ 
 2. ใช้โอเปอร์เรเตอร์Read CSV 
 โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ csv ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
Import CSV 
 1. ใช้การ import ในส่วนของ Repositories 
 คลิก Repositories เลือก Import CSV File… 
 เลือกไฟล์ .csv 
 คลิก Next 
1 
2 
3 
4
Import CSV 
 ในส่วนของ Comma Separation เลือก Comma “,” 
5 
6
Import CSV 
 เลือกแถวแรกให้เป็น Name 
7 
8
Import CSV 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
9 
10
Import CSV 
 Save ชื่อว่า weater_nominal ไว้ที่ RapidMinerTraining 
11 
12 13
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของค่าสถิติ
Import CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบกราฟต่างๆ
Read CSV 
 ในส่วนของ Operators พิมพ์คา ว่า Read CSV ในช่องค้นหา 
 ลาก โอเปอเรเตอร์ Read CSV มาไว้ในส่วน Process และเลือก Import Configuration 
Wizard… 
1 
2 
3 
4
Read CSV 
 เลือกไฟล์ .csv คลิก Next 
5 
6
Read CSV 
 ในส่วนของ Comma Separation เลือก Comma “,” 
7 
8
Read CSV 
 เลือกแถวแรกให้เป็น Name 
9 
10
Read CSV 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
12 
11
Read CSV 
 เชื่อมผลจากพอร์ต out ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res เพื่อแสดงผล 
 กดปุ่ม play 
14 
13
Read CSV 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Write CSV 
 เขียนข้อมูลลงไฟล์ CSV ด้วยโอเปอเรเตอร์ Write CSV 
 ใช้ข้อมูลจาก Samples เพื่อเขียนเป็นไฟล์ CSV 
 1. Operators --> Write CSV --> ลากไปที่ process 
 2. Repositories --> Sample --> Data --> iris 
--> ลากไปที่ process 
 3. เชื่อมเส้น 
 4. Paramiter --> Column Separator 
เปลี่ยนจาก ; เป็น , (Comma) 
1 
2 
3 
4
Write CSV 
 บันทึกไฟล์ชื่อ iris.csv 
5 6
Write CSV 
 ไฟล์ iris.csv ที่สร้างได้
Load Excel to RapidMiner 
 1. ใช้การ import ในส่วนของ Repositories 
 โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด 
 ถ้าข้อมูลในไฟล์ Excel มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การ 
โหลดใหม่ 
 2. ใช้โอเปอร์เรเตอร์Read Excel 
 โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ Excel ทุกครั้ง เมื่อไฟล์อัพเดท 
ข้อมูลจะเปลี่ยนตาม
Import Excel 
 ในส่วนของ Repositories เลือก Import Excel Sheet… 
 เลือกไฟล์ .xlsx หรือ .xls 
1 
2 
3 
4
Import Excel 
 เลือก Sheet ที่ต้องการ Import จากไฟล์ Excel 
5 
6
Import Excel 
 เลือกแถวแรกให้เป็น Name 
7 
8
Import Excel 
 เปลี่ยนแอตทริบิวต์play ให้เป็น label 
9 
10
Import Excel 
 Save ชื่อว่า weater_excel ไว้ที่ RapidMinerTraining 
11 12
Import Excel 
 ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง 
label attribute
Write Excel 
 ใช้ข้อมูลจาก Sample เพื่อเขียนเป็นไฟล์ Excel 
 1. Repositories --> Iris --> ลากไปที่ process 
 2. Operators --> write Excel --> ลากไปที่ process 
 3. เชื่อมเส้น 
 4. คลิก Write Excel 
2 
 5. file format --> xls 
 6. คลิก 
1 
3
Write Excel 
 บันทึกไฟล์ ชื่อ iris.xls 
7 8
Write Excel 
 ไฟล์ iris.xls ที่สร้างได้
Data exploration 
 โหลดไฟล์ student.csv ไปไว้ใน Repositories ด้วยเมนูImport CSV File… 
 เปลี่ยน Column Separation เป็น Comma “,” 
1 
2
Data exploration 
 เปลี่ยนประเภทข้อมูลของแอตทริบิวต์Study ให้เป็นประเภท polynpmail 
และบันทึกลงใน Repositories 
3
Data exploration 
 แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ 
 1. ตาราง (Data) 
 2. ค่าสรุปทางสถิติ (Statistics) 
 3. กราฟรูปแบบต่างๆ (Charts) 
1 
2 
3
Data exploration 
 แสดงข้อมูลในรูปแบบตาราง 
 ExampleSet แสดงจา นวนข้อมูลทั้งหมดในไฟล์ 
 Filter แสดงจา นวนข้อมูลจากการกรอง (filter) ทา ได้ 5 แบบ 
 all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง) 
 no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ 
 missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ 
 no_missing_label แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล 
 missing_label แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล 
 แสดงข้อมูลในแต่ละแอตทริบิวต์คลิกที่ชื่อแอตทริบิวต์จะเป้นการเรียงลา ดับ 
 กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลา ดับมากกว่า 1 แอ 
ตทริบิวต์
Data exploration 
 แสดงค่าสรุปทางสถิติ มีคอลัมน์ต่าง ๆ ดังนี้ 
 Name แสดงชื่อแอตทริบิวต์ 
 Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์เช่น Integer 
 Miss. จา นวนข้อมูลที่มีค่าว่าง 
 ค่าทางสถิติอื่น ๆ เช่น Min, Max, Average, Deviation, Least, Most, Value
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟแท่ง
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟ Histogram
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟวงกลม
Data visualization 
 เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟกระจายตัว

Chapter 2 data

  • 1.
  • 2.
    Data management Repository  เป็นที่เก็บข้อมูลและ process เพื่อใช้งานใน RapidMiner Stodio 6  ทา ให้ไม่ต้องโหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง  องค์ประกอบในส่วน Repository  ส่วนที่ 1  สาหรับสร้าง Repository ใหม่  โหลดไฟล์ประเภทต่าง ๆ  สร้างโฟลเดอร์ใหม่  ส่วนที่ 2  ข้อมูลและ process Sample ที่ RapidMiner เตรียมไว้ให้  ข้อมูลที่เก็บอยู่ในแต่ละ Repository 1 2
  • 3.
    Data management สร้าง Repository ใหม่  คลิกที่  เลือก New local repository  กดปุ่ม Next 1 2 3
  • 4.
    Data management เปลี่ยนชื่อ Alias เป็น RapidMinerTraining  คลิกที่ Use standard location เพื่อเอาออก  คลิกที่ไอคอน Folder เพื่อเลือก Root directory ใหม่ 4 5 6
  • 5.
    Data management คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์ใหม่ 7
  • 6.
    Data management สร้างโฟลเดอร์ชื่อ RapidMinerTraining และกดปุ่ม OK  กด Finish 8 9 10
  • 7.
    CSV File ไฟล์ประเภท CSV ย่อมาจาก Comma Separated Value  ใช้เครื่องหมาย , (comma) คั่นระหว่างแอตทริบิวต์ ID outlook humidity windy play 1 sunny high FALSE no 2 sunny high TRUE no 3 overcast normal FALSE yes 4 rainy high FALSE yes แถวแรกคือ header
  • 8.
    CSV File ไฟล์ CSV สามารถ export ได้จาก Excel หรือ database ต่าง ๆ  Export จาก Excel  เลือก File > Save As > CSV (Comma delimited)
  • 9.
    Load CSV toRapidMiner  การโหลดไฟล์ csv เข้าไปใช้ใน RapidMiner ทา ได้ 2 แบบ คือ  1. ใช้การ import ในส่วนของ Repositories  โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด  ถ้าข้อมูลในไฟล์ csv มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การโหลดใหม่  2. ใช้โอเปอร์เรเตอร์Read CSV  โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ csv ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
  • 10.
    Import CSV 1. ใช้การ import ในส่วนของ Repositories  คลิก Repositories เลือก Import CSV File…  เลือกไฟล์ .csv  คลิก Next 1 2 3 4
  • 11.
    Import CSV ในส่วนของ Comma Separation เลือก Comma “,” 5 6
  • 12.
    Import CSV เลือกแถวแรกให้เป็น Name 7 8
  • 13.
    Import CSV เปลี่ยนแอตทริบิวต์play ให้เป็น label 9 10
  • 14.
    Import CSV Save ชื่อว่า weater_nominal ไว้ที่ RapidMinerTraining 11 12 13
  • 15.
    Import CSV ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 16.
    Import CSV ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของค่าสถิติ
  • 17.
    Import CSV ข้อมูลที่โหลดเข้าไปแสดงรูปแบบกราฟต่างๆ
  • 18.
    Read CSV ในส่วนของ Operators พิมพ์คา ว่า Read CSV ในช่องค้นหา  ลาก โอเปอเรเตอร์ Read CSV มาไว้ในส่วน Process และเลือก Import Configuration Wizard… 1 2 3 4
  • 19.
    Read CSV เลือกไฟล์ .csv คลิก Next 5 6
  • 20.
    Read CSV ในส่วนของ Comma Separation เลือก Comma “,” 7 8
  • 21.
    Read CSV เลือกแถวแรกให้เป็น Name 9 10
  • 22.
    Read CSV เปลี่ยนแอตทริบิวต์play ให้เป็น label 12 11
  • 23.
    Read CSV เชื่อมผลจากพอร์ต out ของโอเปอเรเตอร์ Read CSV ไปยังพอร์ต res เพื่อแสดงผล  กดปุ่ม play 14 13
  • 24.
    Read CSV ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 25.
    Write CSV เขียนข้อมูลลงไฟล์ CSV ด้วยโอเปอเรเตอร์ Write CSV  ใช้ข้อมูลจาก Samples เพื่อเขียนเป็นไฟล์ CSV  1. Operators --> Write CSV --> ลากไปที่ process  2. Repositories --> Sample --> Data --> iris --> ลากไปที่ process  3. เชื่อมเส้น  4. Paramiter --> Column Separator เปลี่ยนจาก ; เป็น , (Comma) 1 2 3 4
  • 26.
    Write CSV บันทึกไฟล์ชื่อ iris.csv 5 6
  • 27.
    Write CSV ไฟล์ iris.csv ที่สร้างได้
  • 28.
    Load Excel toRapidMiner  1. ใช้การ import ในส่วนของ Repositories  โหลดมาเก็บไว้ใน Repository และใช้งานได้ตลอด  ถ้าข้อมูลในไฟล์ Excel มีการเปลี่ยนแปลง ข้อมูลจะไม่ update ต้องทา การ โหลดใหม่  2. ใช้โอเปอร์เรเตอร์Read Excel  โหลดเข้ามาใช้งานโดยการอ่านจากไฟล์ Excel ทุกครั้ง เมื่อไฟล์อัพเดท ข้อมูลจะเปลี่ยนตาม
  • 29.
    Import Excel ในส่วนของ Repositories เลือก Import Excel Sheet…  เลือกไฟล์ .xlsx หรือ .xls 1 2 3 4
  • 30.
    Import Excel เลือก Sheet ที่ต้องการ Import จากไฟล์ Excel 5 6
  • 31.
    Import Excel เลือกแถวแรกให้เป็น Name 7 8
  • 32.
    Import Excel เปลี่ยนแอตทริบิวต์play ให้เป็น label 9 10
  • 33.
    Import Excel Save ชื่อว่า weater_excel ไว้ที่ RapidMinerTraining 11 12
  • 34.
    Import Excel ข้อมูลที่โหลดเข้าไปแสดงรูปแบบของตาราง label attribute
  • 35.
    Write Excel ใช้ข้อมูลจาก Sample เพื่อเขียนเป็นไฟล์ Excel  1. Repositories --> Iris --> ลากไปที่ process  2. Operators --> write Excel --> ลากไปที่ process  3. เชื่อมเส้น  4. คลิก Write Excel 2  5. file format --> xls  6. คลิก 1 3
  • 36.
    Write Excel บันทึกไฟล์ ชื่อ iris.xls 7 8
  • 37.
    Write Excel ไฟล์ iris.xls ที่สร้างได้
  • 38.
    Data exploration โหลดไฟล์ student.csv ไปไว้ใน Repositories ด้วยเมนูImport CSV File…  เปลี่ยน Column Separation เป็น Comma “,” 1 2
  • 39.
    Data exploration เปลี่ยนประเภทข้อมูลของแอตทริบิวต์Study ให้เป็นประเภท polynpmail และบันทึกลงใน Repositories 3
  • 40.
    Data exploration แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ  1. ตาราง (Data)  2. ค่าสรุปทางสถิติ (Statistics)  3. กราฟรูปแบบต่างๆ (Charts) 1 2 3
  • 41.
    Data exploration แสดงข้อมูลในรูปแบบตาราง  ExampleSet แสดงจา นวนข้อมูลทั้งหมดในไฟล์  Filter แสดงจา นวนข้อมูลจากการกรอง (filter) ทา ได้ 5 แบบ  all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)  no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์  missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์  no_missing_label แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล  missing_label แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล  แสดงข้อมูลในแต่ละแอตทริบิวต์คลิกที่ชื่อแอตทริบิวต์จะเป้นการเรียงลา ดับ  กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลา ดับมากกว่า 1 แอ ตทริบิวต์
  • 42.
    Data exploration แสดงค่าสรุปทางสถิติ มีคอลัมน์ต่าง ๆ ดังนี้  Name แสดงชื่อแอตทริบิวต์  Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์เช่น Integer  Miss. จา นวนข้อมูลที่มีค่าว่าง  ค่าทางสถิติอื่น ๆ เช่น Min, Max, Average, Deviation, Least, Most, Value
  • 43.
    Data visualization เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟแท่ง
  • 44.
    Data visualization เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟ Histogram
  • 45.
    Data visualization เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟวงกลม
  • 46.
    Data visualization เลือกเมนู Charts แสดงข้อมูลของแอตทริบิวส์ด้วยกราฟกระจายตัว