cluster analysis

3,648 views

Published on

cluster analysis

  1. 1. 1. บทนาเกี่ยวกับการวิเคราะห์จัดกลุ่ม Cluster Analysis Cluster Analysis เป็นเทคนิคที่ใช้จาแนกหรือแบ่ง Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือแบ่งตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่มเดียวกัน จะมีลักษณะที่เหมือนกันหรือคล้ายกันส่วน Case ที่อยู่ต่างกลุ่มกันจะมีลักษณะที่แตกต่างกัน ดังนั้น การพิจารณาเลือกลักษณะหรือตัวแปรที่จะนามาใช้ในการแบ่งกลุ่ม Case จึงมีความสาคัญ นอกจากนั้น Case ใด Case หนึ่งจะต้องอยู่ในกลุ่มหนึ่งเพียงกลุ่มเดียวถ้านาเทคนิค Cluster Analysis มาใช้ในการแบ่งกลุ่มตัวแปร จะให้ตัวแปรอยู่ในกลุ่มเดียวกันมีความสัมพันธ์กันมากกว่า ตัวแปรที่อยู่ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันมีความสัมพันธ์กันน้อยหรือไม่มีความสัมพันธ์กันเลย (กัลยา วานิชย์บัญชา 2544. : 123) การวิเคราะห์จัดกลุ่ม(Cluster Analysis)เป็นการวิเคราะห์เพื่อศึกษาว่าบุคคล (Cases) หรือ สิ่งต่างๆ (Objects) จะสามารถนามาจัดกลุ่มกันตามความเหมือน (Similarity) หรือความแตกต่าง (Dissimilarity or Distance) ของตัวแปร (Variables) ได้กี่กลุ่ม อย่างไรบ้าง บุคคลหรือสิ่งที่มีความ คล้ายคลึงกันในตัวแปรที่นามาวิเคราะห์จะถูกจัดอยู่ในกลุ่ม (Cluster) เดียวกัน ส่วนบุคคลหรือสิ่งที่ แตกต่างกันในตัวแปรจะถูกจัดอยู่คนละกลุ่มกันมีหลายเทคนิคการวิเคราะห์ 2. ความหมายของการวิเคราะห์จัดกลุ่ม Cluster Analysis เป็นเทคนิคการแบ่งกลุ่มหน่วยข้อมูล หรือเป็นการแบ่งคน สัตว์ สิ่งของ องค์กร ฯลฯ ออกเป็นกลุ่มย่อยอย่างน้อย 2 กลุ่ม โดยมีหลักเกณฑ์ในการแบ่งดังนี้ “ให้หน่วยที่อยู่ในกลุ่ม เดียวกันมีลักษณะที่สนใจเหมือนกันหรือคล้ายกัน แต่หน่วยที่อยู่ต่างกลุ่มกันจะมีลักษณะที่สนใจ ต่างกัน” คาว่าลักษณะที่สนใจอาจจะมีหลาย ๆ ตัวแปร เช่น ถ้าสนใจความคิดเห็นทางด้าน การเมือง จะมีคาถามหลาย ๆ คาถามด้านการเมือง และจะนาคาตอบเหล่านั้นมาแบ่งกลุ่ม (กัลยา วานิชย์บัญชา. 2552 : 286) การวิเคราะห์จัดกลุ่ม (Cluster Analysis)
  2. 2. 2 การจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือเป็นการจัดตัวแปร ออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่มเดียวกันจะมีลักษณะที่เหมือนกันหรือ คล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมีลักษณะที่แตกต่างกัน ตัวแปรที่อยู่ในกลุ่มเดียวกันจะมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันจะมีความสัมพันธ์กันน้อยหรือไม่มีความสัมพันธ์กันเลย ตัวอย่างที่ 1 ถ้าต้องการแบ่งกลุ่มคน 6 คน คือ นาย A,B,C,D,E,F โดยพิจารณาจากอายุและรายได้ โดยมีข้อมูลดังแสดงในตารางที่ 1 ตารางที่ 1 แสดงอายุและรายได้ ชื่อ รายได้(1,000 บาท) อายุ(ปี) A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39 ภาพที่ 1 แสดงการวิเคราะห์กลุ่มอายุและรายได้ (กัลยา วานิชย์บัญชา. 2552 : 286)
  3. 3. 3 จากตัวอย่างซึ่งเป็นกราฟ 2 มิติ คืออายุและรายได้ หรือ 2 ตัวแปร เป้าหมาย คือ จะแบ่ง 6 คน(n =6) เป็นกลุ่มย่อย โดยให้คนที่อยู่ในกลุ่มย่อยเดียวกันมีอายุและรายได้เท่ากันหรือ ใกล้เคียงกันส่วนคนที่อยู่ต่างกลุ่มกันจะมีอายุและรายได้แตกต่างกัน จากการพล็อตกราฟอายุ รายได้ในตารางที่ 1 ทาให้ตัดสินใจได้ว่า ควรจะเป็น 3 กลุ่ม กลุ่มที่ 1 : ประกอบด้วยนาย A และ B ซึ่งมีอายุน้อยและรายได้ต่า กลุ่มที่ 2 : ประกอบด้วยนาย C และ D ซึ่งมีอายุกลางคน (34-35 ปี)และรายได้ ปานกลาง กลุ่มที่ 3 : ประกอบด้วยนาย E และ F ซึ่งมีอายุกลางคน (39-40 ปี) และรายได้ มาก แต่จะพบว่าในทางปฏิบัติจานวนตัวแปรที่นามาพิจารณาในการแบ่งกลุ่มจะมากกว่า 2 ตัวแปร ทาให้เขียนกราฟหรือทาการแบ่งกลุ่มโดยใช้กราฟยากขึ้น จึงต้องศึกษาหรือแบ่งกลุ่มตัวอย่างหรือ ความคล้ายซึ่งจะได้กล่าวต่อไปในหัวข้อการวัดความคล้ายหรือความต่าง 3. วัตถุประสงค์ของการวิเคราะห์จัดกลุ่ม Cluster Analysis การวิเคราะห์กลุ่มเป็นเทคนิคที่ใช้ในการจัดกลุ่มโดยไม่ทราบมาก่อนว่าควรมีกี่กลุ่ม แต่จะแบ่งตามค่าของตัวแปรที่นามาใช้ในการแบ่ง โดยให้หน่วยที่อยู่ในกลุ่มเดียวกัน มีความ คล้ายกันในตัวแปรที่ศึกษา แต่หน่วยที่อยู่ต่างกลุ่มกันจะมีความต่างกัน ดังเช่นในตัวอย่างที่ 1 คน ที่อยู่ในกลุ่มเดียวกันมีอายุและรายได้ใกล้เคียงกัน สาหรับวัตถุประสงค์ของการแบ่งกลุ่มหรือจัด กลุ่มจะขึ้นกับสาขาที่จะนาไปประยุกต์ใช้ดังนี้ ด้านการแพทย์ 1. จัดกลุ่มคนไข้ตามอาการหรือความรุนแรงของโรค เพื่อใช้วิธีการรักษา ที่แตกต่างกันตามความรุนแรงของโรค 2. จัดกลุ่มโรงพยาบาลที่มีประสิทธิภาพคล้ายกันไว้ด้วยกัน 3. จัดกลุ่มประเทศต่าง ๆ ตามความเจริญด้านสาธารณสุข โดยใช้ตัวแปรหรือ ดัชนีด้านสาธารณสุข เช่น อัตราคนป่วยโรคต่าง ๆ อายุเฉลี่ย ค่ารักษาพยาบาลเฉลี่ยต่อ ประชากร 1 คน เป็นต้น
  4. 4. 4 ด้านการตลาด 1. แบ่งผู้บริโภคหรือลูกค้าตามพฤติกรรมการบริโภคสินค้าต่าง ๆ โดยให้ลูกค้า ที่มีพฤติกรรมการบริโภคหรือการซื้อสินค้าที่คล้ายกันอยู่ในกลุ่มเดียวกัน ส่วนลูกค้าที่มีพฤติกรรม การบริโภคต่างกันจะอยู่ต่างกลุ่มกัน เมื่อจัดกลุ่มแล้วจะทาให้สามารถวางแผน กลยุทธ์ทางการตลาดสาหรับลูกค้าแต่ละกลุ่มได้อย่างมีประสิทธิภาพ ตัวแปรที่นามาใช้ในการจัด กลุ่มอาจใช้ตัวแปรด้านพฤติกรรมต่าง ๆ ของลูกค้า 2. ใช้วางแผนทางด้านการตลาดในพื้นที่ที่แตกต่างกัน โดยเริ่มต้นด้วยการใช้ เทคนิคการวิเคราะห์กลุ่มแบ่งพื้นที่ หรือจังหวัดที่ประชากรมีพฤติกรรมการบริโภคคล้ายกัน หรือ มีลักษณะประชากรศาสตร์คล้ายกัน เช่น จานวนประชากร รายได้เฉลี่ย ขนาดพื้นที่ อาชีพ ทัศนคติของคนในพื้นที่ หรือเป็นพื้นที่ที่มีสภาพเศรษฐกิจคล้ายกันไว้ในกลุ่มเดียวกัน ด้านการศึกษา จัดกลุ่มนักเรียนตามผลการเรียน (GPAX) ระดับสติปัญญา (IQ) ระดับการศึกษาของผู้ปกครอง เพื่อให้ได้นักเรียนในกลุ่มเดียวกัน ผลการเรียน ระดับสติปัญญา และระดับการศึกษาของผู้ปกครองใกล้เคียงกัน ส่วนนักเรียนที่อยู่ต่างกลุ่มกันจะมีผลการเรียน ระดับสติปัญญา และการศึกษาของผู้ปกครองต่างกัน เพื่อให้ครูผู้สอนสามารถวางแผนหรือเลือก เนื้อหา วิธีการสอนตามความเหมาะสมของแต่ละกลุ่ม โดยต่างกลุ่มกันอาจต้องใช้ วิธีการสอนที่แตกต่างกัน เพื่อทาให้เกิดผลสัมฤทธิ์มากที่สุด การนาเทคนิคการวิเคราะห์กลุ่มไปใช้ในงานด้านต่าง ๆ นั้นจะพบว่าการเลือก ตัวแปรที่นามาใช้ในการจัดกลุ่มนั้นมีความสาคัญมาก ถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทาให้ คนที่อยู่ต่างกลุ่มกันมีความแตกต่างกันแล้ว จะทาให้ไม่สามารถจัดกลุ่มได้ถูกต้อง เช่น ด้านการตลาด ซึ่งเป็นการจัดกลุ่มพื้นที่หรือจังหวัด ผู้วิจัยจะต้องศึกษาว่า ตัวแปรใดบ้างที่มี อิทธิพลที่ทาให้กลุ่มต่าง เช่น จานวนประชากร รายได้เฉลี่ย อาชีพ สภาวะเศรษฐกิจ ฯลฯ เข้า มาใช้ในการจัดกลุ่ม หรือด้านการแพทย์ ซึ่งเป็นการจัดกลุ่มประเภท โดยใช้ข้อมูลด้าน สาธารณสุข ตัวแปรที่ใช้อาจเป็นจานวนแพทย์ต่อจานวนประชากร จานวนเภสัชกรและพยาบาล ต่อจานวนประชากร จานวนเตียงในโรงพยาบาลต่อจานวนประชากร อัตราคนป่วย อายุเฉลี่ย ค่ารักษาพยาบาล เป็นต้น โดยต้องการจัดกลุ่มประเทศที่มีระบบสาธารณสุขคล้ายกันอยู่ในกลุ่ม เดียวกัน เมื่อทาการจัดกลุ่มแล้ว ควรจะศึกษาลักษณะของบุคคล หรือขององค์กรที่อยู่ ในกลุ่มเดียวกัน เพื่อนามาใช้วางแผนงานต่อไป
  5. 5. 5 สุชาติ ประสิทธิรัฐสินธ์(2540) ได้กล่าวถึงวัตถุประสงค์ของ เทคนิควิธี Cluster Analysis ว่า เทคนิค Cluster Analysis มีวัตถุประสงค์ที่สาคัญอยู่ 2 ประการ คือ การจัดกลุ่มหน่วย วิเคราะห์ การจัดกลุ่มตัวแปร ซึ่งมีความสอดคล้องกับ กัลยา วานิชย์บัญชา (2548) และสามารถ กล่าวโดยรวมคือ เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้านต่าง ๆ เ ช่น การตลาด การแพทย์ การปกครอง ฯลฯ ดังตัวอย่างต่อไปนี้ ตัวอย่างที่ 1 ใช้ศึกษาพฤติกรรมการบริโภคของกลุ่มผู้บริโภคที่อยู่ต่างกลุ่มกัน ซึ่งจะทาให้สามารถวางกลยุทธ์ทางการตลาดได้อย่างมีประสิทธิภาพมากขึ้น การที่จะสามารถแยก กลุ่มผู้บริโภคออกเป็นกลุ่มย่อยได้ จะต้องพิจารณาถึงตัวแปรที่ใช้ในการจัดกลุ่มผู้บริโภค ที่จะทาให้ ผู้ที่อยู่ต่างกลุ่มกันมีพฤติกรรมการบริโภคที่แตกต่างกัน ตัวแปรดังกล่าวอาจจะประกอบด้วยอาชีพ อายุ รายได้ เป็นต้น ตัวอย่างที่ 2 ใช้วางแผนเพื่อการทดสอบตลาด เช่น อาจจะมีการจัดกลุ่มพื้นที่หรือ จังหวัดโดยรวมพื้นที่ หรือจังหวัดที่คล้ายกันไว้ด้วยกัน เพื่อจะได้กาหนดกลยุทธ์ทางการตลาด ที่แตกต่างกันสาหรับพื้นที่ที่อยู่ที่ต่างกลุ่มกัน สาหรับตัวแปรที่ควรนามาพิจารณาในการจัดกลุ่ม อาจจะเป็นจานวนประชากร รายได้เฉลี่ย อาชีพของคนในพื้นที่ พฤติกรรม ทัศนคติของคนใน พื้นที่ เป็นต้น ตัวอย่างที่ 3 การเปรียบเทียบรถยนต์ยี่ห้อต่าง ๆ โดยที่ 1 Case คือ รถยนต์ 1 ยี่ห้อ ซึ่งพิจารณาจากตัวแปร เช่น ความถี่ในการซ่อม ลูกสูบ ระบบเบรก ค่าใช้จ่ายต่อกิโลเมตร ราคา เป็นต้น ตัวอย่างที่ 4 การจัดกลุ่มประเทศ อาจใช้ดัชนีทางด้านสาธารณสุข เป็นตัวแปรที่ใช้ใน การจัดกลุ่ม เช่น จานวนแพทย์ เภสัชกร พยาบาล จานวนเตียงในโรงพยาบาล สัดส่วนของไขมัน และแป้งในอาหาร ในที่นี้ 1 Case คือ 1 ประเทศ โดยให้ประเทศที่มีระบบสาธารณสุขคล้ายกันอยู่ ด้วยกัน ถ้าประเทศที่มีระบบสาธารณสุขต่างกันจะอยู่ต่างกลุ่มกัน จากตัวอย่างที่ 1 และ 2 ข้างต้น จะพบว่าการเลือกตัวแปรเพื่อนามาใช้จัดกลุ่ม Case มีความสาคัญมาก เพราะถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทา Case แตกต่างกันแล้ว จะทาให้ ไม่สามารถจัดกลุ่มได้ถูกต้อง การเลือกจะต้องพิจารณาว่าตัวแปรใดบ้างที่มีอิทธิพลทาให้เกิดความ แตกต่าง ในตัวอย่างที่ 2 การจัดกลุ่มจังหวัด ถ้าไม่ได้นาตัวแปร จานวนประชากร รายได้ อาชีพ เข้ามาพิจารณาจัดกลุ่มก็อาจไม่สามารถสร้างเกณฑ์ในการจัดกลุ่มได้ถูกต้อง และเมื่อแบ่ง Case เป็นกลุ่มย่อยแล้ว จะสามารถศึกษาถึง Profile หรือลักษณะของกลุ่มย่อยแต่ละกลุ่มได้
  6. 6. 6 เพื่อนามาใช้วางแผนด้านการตลาดต่อไป (กรณีที่เป็นเรื่องการศึกษาพฤติกรรมผู้บริโภค) เมื่อใช้ จัดกลุ่มตัวแปร การจัดกลุ่มตัวแปรที่มีความสัมพันธ์กันไว้ด้วยกัน จะเป็นการลดจานวนข้อมูลที่มี จานวนมากให้น้อยลง ทาให้ง่ายต่อการวิเคราะห์ เช่น เดิมมี 100 Case 20 ตัวแปร รวมข้อมูล ทั้งหมด 2,000 ค่า (100 × 20) แต่ถ้าจัดกลุ่มตัวแปร 20 ตัว เหลือเพียง 3 กลุ่ม จะทาให้ข้อมูล ลดลงเหลือเพียง 300 ค่า (3 × 100) นอกจากนั้น การจัดกลุ่มตัวแปรทาให้ทราบว่าตัวแปรใดบ้างที่มีความสัมพันธ์กัน การเปลี่ยนแปลงของตัวแปรบางตัวย่อมมีผลกระทบต่อตัวแปรอื่น ๆ ที่มีความสัมพันธ์กับ ตัวแปรดังกล่าว 4. ข้อตกลงเบื้องต้นเกี่ยวกับการวิเคราะห์จัดกลุ่ม Cluster Analysis 1. ไม่ทราบจานวนกลุ่มมาก่อนว่ามีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่าหน่วยหรือคนใดจะอยู่กลุ่มใด 3. หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียงกลุ่มเดียว 4. ตัวแปรที่ใช้ในการแบ่งมีมากกว่า 1 ตัวและตัวแปรอาจจะเป็นตัวแปรที่มีค่าได้เพียง 1 ค่าหรือตัวแปรเชิงคุณภาพหรือตัวแปรเชิงปริมาณ 5. รายละเอียดเนื้อหาการวิเคราะห์จัดกลุ่ม Cluster Analysis 5.1 คุณสมบัติของเทคนิควิธี Cluster Analysis สุชาติ ประสิทธิรัฐสินธ์(2540) ได้กล่าวถึงคุณสมบัติของเทคนิควิธี Cluster Analysis ไว้หลายประการด้วยกันซึ่งมีรายละเอียดดังนี้ 5.1.1 ความต้องการทางด้านข้อมูล สาหรับการวิเคราะห์จัดกลุ่มหน่วยวิเคราะห์ผู้วิจัย อาจใช้ข้อมูลที่ระบุหน่วยวิเคราะห์และตัวแปรตามที่จัดเก็บมาได้เลย เช่น การวิเคราะห์ หมายเหตุ : ส่วนใหญ่จะใช้เทคนิค Cluster Analysis ในการจัดกลุ่ม Case มากกว่า การจัดกลุ่มตัวแปร การจัดกลุ่มตัวแปรจะใช้เทคนิค Factor Analysis ในที่นี้จึงจะแสดง ตัวอย่างเฉพาะการจัดกลุ่ม Case
  7. 7. 7 ที่ได้กล่าวมาแล้วข้องต้น ส่วนการวิเคราะห์จัดกลุ่มตัวแปร ผู้วิจัยไม่อาจจะใช้แฟ้มข้อมูลดังกล่าวได้ โดยใช้เมตริกแสดงความสัมพันธ์ระหว่างตัวแปร แทนได้ 5.1.2 แนวคิดพื้นฐาน สิ่งสาคัญที่สุดของการวิเคราะห์การจัดกลุ่มคือ ตัวแปรที่ใช้ หากผู้วิจัยไม่ได้เก็บข้อมูลเกี่ยวกับตัวแปรที่สาคัญ ๆ ผลที่ได้ก็จะไม่ดีหรือทาให้ไขว้เขวได้ ทั้งนี้ เพราะตัวแปร ที่เลือกไว้ตั้งแต่แรกจะเป็นสิ่งที่กาหนดคุณสมบัติของสิ่งที่ระบุความเป็นกลุ่มย่อย เช่น ในการจัดกลุ่มโรงเรียนในเมือง หากผู้วิจัยไม่เก็บข้อมูลเกี่ยวกับ จานวนนักเรียนและครู ขนาดของโรงเรียนก็ไม่อาจเป็นเกณฑ์ในการจัดกลุ่มได้ 5.1.3 ความคล้ายกันของหน่วย ความคิดเกี่ยวกับความคล้ายของหน่วยศึกษา เป็นเทคนิคของการวิเคราะห์ทางสถิติหลายวิธี โดยทั่วไปการวัดความคล้ายจะพิจารณาจาก ความห่างระหว่างวัตถุ หรือพิจารณาจากความคล้ายกัน 5.1.4 การวัดความห่าง วิธีการวัดความห่างสามารถวัดได้หลายวิธี วิธีการหนึ่งที่นิยม วัดกันมากก็คือ วิธีที่เรียกว่า ระยะห่างเชิงยูคลิดยกกาลังสอง (Squared Euclidean distance) คือ ผลรวมของผลต่างยกกาลังสองของทุกตัวแปร เช่น ต้องการดูความห่างกันของเบียร์ 2 ยี่ห้อ ซึ่งเราทราบราคาต้นทุน และแคลอรี่ของเบียร์ทั้ง 2 ยี่ห้อ ตารางที่ 2 แสดงค่าของแคลอรีและต้นทุน (สุชาติ ประสิทธิรัฐสินธ์ : 2540) แคลลอรี่ ต้นทุน บัดไวเซอร์ โลเวนบราว 114 157 43 48 ความแตกต่างระหว่างเบียร์ทั้ง 2 คือ (คือ (114 - 157)2 + (43 - 48)2 เท่ากับ 132 +52 หรือ 194 อย่างไรก็ดี ความแตกต่างระหว่างหน่วยของการวัดในแต่ละตัวแปรก็จะเป็นปัญหาในการ วัดค่าความห่าง ดังนั้น จึงจาเป็นที่จะต้อง ทาให้ตัวแปรทุกตัวอยู่ในมาตรวัดเดี่ยวกัน คือการทาให้ ตัวแปรทุกตัวมีค่าเฉลี่ยเป็น 0 และส่วนเบี่ยงแบนมาตาฐานเป็น 1 ซึ่งผลที่ได้คือ ค่าคะแนน มาตรฐาน ซึ้งจะได้เป็นค่า ดังตารางที่ 3
  8. 8. 8 ตารางที่ 3 แสดงคะแนนมาตรฐานของค่าของแคลอรีและต้นทุน(สุชาติ ประสิทธิรัฐสินธ์:2540) ยี่ห้อ แคลลอรี่ ต้นทุน บัดไวเซอร์ โลเวนบราว 0.38 0.81 -0.46 -0.11 ไม่ว่าจะทาการคานวณหาความห่างหรือความคล้ายด้วยวิธีใดก็ตาม ผู้วิจัยจะต้อง ตัดสินใจว่าจะปรับสเกลตัวใดบ้าง เพื่อทาให้ตัวแปรมีสเกลเหมือนกัน มิฉะนั้นแล้วค่าความห่างหรือ ความต่างจะขึ้นอยู่กับขนาดของมาตรวัดของตัวแปรที่มีขนาดใหญ่กว่า ซึ่งการปรับทาได้หลายวิธี เช่น การหารด้วยค่าเบี่ยงเบนมาตรฐาน ค่าพิสัย ค่าเฉลี่ย เมื่อทาการปรับค่ามาตรฐานแล้ว จึงคานวณหาค่าความต่างหรือความคล้ายกัน ชนิดต่าง ๆ ซึ่งวิธีต่าง ๆ นั้นจะให้น้าหนักของข้อมูลที่ต่างกัน ซึ่งจะกล่าวถึงรายละเอียดของ สูตรที่ใช้ในการวิเคราะห์แต่ละวิธีต่อไป 5.2 ประเภทของเทคนิค Cluster Analysis เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิคย่อย โดยเทคนิคที่ใช้ กันมากมี 2 เทคนิค คือ 5.2.1 Hierarchical Cluster Analysis 5.2.2 K-Means Cluster Analysis นอกจากนี้ ยังมีเทคนิค 2 Step Cluster Analysis และเทคนิคดังกล่าวมีวัตถุประสงค์ และวิธีการที่แตกต่างกัน ซึ่งจะได้กล่าวถึงเทคนิค Hierarchical Cluster Analysis และเทคนิค K-Means Cluster Analysis 5.2.1 Hierarchical Cluster Analysis เป็นเทคนิคที่นิยมใช้กันมากในการแบ่งกลุ่ม Case หรือแบ่งกลุ่มตัวแปร โดยมีเงื่อนไขดังนี้ 1. ในกรณีที่ใช้ในการแบ่ง Case นั้น จานวน Case ต้องไม่มากนัก (จานวน Case ควรต่ากว่า 200 ถ้าตั้งแต่ 200 ขึ้นไปใช้ K-Means Cluster) และจานวนตัวแปรต้องไม่มากเช่นกัน 2. ไม่จาเป็นต้องทราบจานวนกลุ่มมาก่อน 3. ไม่จาเป็นเป็นต้องทราบว่าตัวแปรใดหรือ Case ใดอยู่กลุ่มใดก่อน
  9. 9. 9 ขั้นตอนของเทคนิค Hierarchical Cluster สาหรับการแบ่งกลุ่ม Case ขั้นที่ 1 เลือกตัวแปรหรือปัจจัยที่คาดว่ามีอิทธิพลที่ทาให้ Case ต่างกัน นั้นคือ ตัวแปร นั้นจะทาให้สามารถแบ่งกลุ่ม Case ได้ชัดเจน ขั้นตอนนี้เป็นขั้นตอนที่สาคัญ ขั้นที่ 2 เลือกวิธีการวัดระยะห่างระหว่าง Case แต่ละคู่ หรือเลือกวิธีการคานวณเพื่อวัดค่า ความคล้ายของ Case แต่ละคู่ ขั้นที่ 3 เลือกหลักเกณฑ์ในการรวมกลุ่ม หรือรวม Cluster 5.3 การวัดความคล้าย (Similarity Measure) ดังที่ได้กล่าวมาแล้วถึงหลักเกณฑ์ ของเทคนิค Cluster ว่าจะใช้ในการจัด Case ที่คล้ายกันไว้ในกลุ่มเดียวกัน หรือจัดกลุ่มตัวแปรที่ สัมพันธ์กันไว้ในกลุ่มเดียวกัน นั่นคือ จะมีการวัดความคล้ายกันของ Case ทีละคู่ ในกรณีที่เป็นการ จัดกลุ่ม Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้ายของตัวแปรแต่ ละคู่ คือ การหาค่าสัมประสิทธิ์สหสัมพันธ์เมื่อต้องการจัดกลุ่ม Case จะต้องหาความคล้ายของ Case ถึง n C 2 คู่ เมื่อมีข้อมูล Case = n แต่ถ้าต้องการจัดกลุ่มตัวแปรจะต้องหาความสัมพันธ์ของ ตัวแปรทีละคู่รวมถึง k C 2 คู่ เมื่อมีตัวแปร k ตัว การวัดความคล้ายของ Case แต่ละคู่อาจจะวัด ด้วยระยะห่าง (Distance) หรือวัดด้วยค่าความคล้าย (Similarity) แต่การวัดความสัมพันธ์ของตัว แปรจะวัดด้วยค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน (Pearson correlation)สาหรับวิธีการคานวณ ระยะห่าง หรือค่าความคล้ายของ Case แต่ละคู่ จะแตกต่างกันเมื่อชนิดของข้อมูลต่างกัน ซึ่งชนิด ของข้อมูลหรือตัวแปรที่สามารถใช้เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ 1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกลอัตราส่วน (Ratio scale) 2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data) หมายเหตุ : เงื่อนไขในข้อ 2 และข้อ 3 จะตรงข้ามกับเงื่อนไขของเทคนิค Discriminant ซึ่งจาเป็นต้องทราบจานวนกลุ่มมาก่อนและต้องทราบ Case ใดอยู่กลุ่มไหนมาก่อน
  10. 10. 10 3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้ 2 ค่า คือ 0 กับ 1 หรือกล่าวได้ว่า ข้อมูลที่ นามาใช้ในเทคนิค Hierarchical จะเป็นข้อมูลชนิดตัวเลข หรือเป็นเชิงปริมาณ (Interval หรือ Ratio scale) หรือข้อมูลอยู่ในรูปความถี่ หรือ Binary กรณีที่วัดความคล้ายด้วยระยะห่าง ถ้าระยะห่างระหว่าง Case คู่ใดต่า แสดงว่า Case คู่นั้นอยู่ใกล้กัน หรือมีความคล้ายกัน ควรจะจัดให้อยู่ในกลุ่มหรือ Cluster เดียวกัน สาหรับวิธีการคานวณจะขึ้นอยู่กับชนิดของข้อมูลทั้ง 3 ชนิดข้างต้น กรณีที่วัดความคล้ายด้วยของ Case ถ้าค่าความคล้ายของ Case คู่ใดมีค่า มากแสดงว่า Case คู่นั้นคล้ายกันมาก จึงควรจัดให้อยู่ในกลุ่มเดียวกัน การคานวณค่าความคล้าย จะแตกต่างกัน ถ้าชนิดของข้อมูลแตกต่างกัน กรณีที่วัดความคล้ายของตัวแปรด้วยค่าสัมประสิทธิ์สหสัมพันธ์ ถ้าตัวแปร คู่ใด มีค่าสัมประสิทธิ์สหสัมพันธ์มาก แสดงว่าคู่นั้นสัมพันธ์กันมากควรจัดไว้ในกลุ่มเดียวกัน 5.4 หลักการการรวมกลุ่ม (Methods for Combining Cluster) สาหรับหลักการในการรวมกลุ่มของเทคนิค Hierarchical Cluster นั้นมีหลายวิธี วิธีที่นิยมกันมาก คือ Agglomerative Hierarchical Cluster Analysis หรือในโปรแกรม SPSS เรียกว่า Agglomerative Schedule ซึ่งหลักการเกณฑ์ของ Agglomerative schedule จะทา การรวมกลุ่ม Cluster อย่างเป็นขั้นตอนดังนี้ ก่อนทาการวิเคราะห์จะกาหนดให้ 1 กลุ่ม หรือ 1 Cluster มี Case 1 Case นั่นคือ ถือว่าแต่ละ Case เป็น 1 Cluster จึงมีจานวน Cluster เท่ากับจานวนข้อมูลหรือจานวน Case กรณี ที่มีจานวนข้อมูล n Case จะมี n Cluster หรือ n กลุ่ม ขั้นที่ 1 : รวม Case 2 Case ให้อยู่ในกลุ่มเดียวกัน หรือ Cluster เดียวกัน โดย พิจารณาจากค่าระยะห่างหรือค่าความคล้าย ขั้นที่ 2 : พิจารณาว่าควรจะรวม Case ที่ 3 เข้าอยู่ในกลุ่มเดียวกับ 2 Case แรก หรือควรจะรวม 2 Case ใหม่เข้าอยู่ในกลุ่มใหม่อีกกลุ่มหนึ่ง โดยพิจารณาจากค่าระยะห่าง หรือค่าความคล้าย ทาขั้นที่ 3, 4 , … โดยใช้เกณฑ์เดียวกับขั้นที่ 2 นั่นคือ ในแต่ละขั้นอาจจะรวม Case ใหม่เข้าไปในกลุ่มที่มีอยู่แล้ว หรือรวม Case ใหม่ 2 Case เป็นกลุ่มใหม่ ทาเช่นนี้ ไปเรื่อย ๆ จนกระทั่งได้ ทุก Case อยู่ในกลุ่มเดียวกัน นั่นคือ สุดท้ายมีเพียง 1 กลุ่มหรือ 1 Cluster และCase ใดที่ถูกจัดกลุ่มแล้วจะไม่มีการเปลี่ยนแปลง
  11. 11. 11 หลักเกณฑ์ในการรวมกลุ่ม หลักเกณฑ์ในการรวมกลุ่มในแต่ละขั้นตอนข้างต้นมีหลายวิธี ในที่นี้จะกล่าวถึง เฉพาะวิธีที่มีในโปรแกรม SPSS ซึ่งจะปรากฏในคาสั่ง Method ดังนี้ 1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average) ภาพที่ 2 Average Linkage (กัลยา วานิชย์บัญชา. 2550 : 217) พิจารณาว่า ควรรวม cluster ที่ i และ j ไว้ด้วยกันหรือรวม cluster ที่ i และ k หรือควร จะรวม cluster ที่ j และ k ไว้ด้วยกัน โดยพิจารณาระห่างเฉลี่ยระหว่าง cluster เช่น dij = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j dik = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j d jk = ระยะห่างเฉลี่ย ของ cluster ที่ i และ j Cluster ที่ i Cluster ที่ j Cluster ที่ k
  12. 12. 12 เลือกรวม cluster ที่มีระยะห่างเฉลี่ยต่าสุด เช่น จากตัวอย่างนี้ได้ค่าระหว่าง dik ต่าสุดก็ จะรวม cluster I และ k เข้าด้วยกัน 2. Within-group Linkage Technique หรือเรียกว่า Average Linkage Within Groups Method วิธีนี้จะรวม Cluster เข้าด้วยกันถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่าน้อยที่สุด 3. Nearest Neighbor หรือเรียกว่า Single Linkage ในที่นี้ dij ระยะห่างที่สั้นที่สุดของ cluster i และ j d ik ระยะห่างที่สั้นที่สุดของ cluster i และ k d jk ระยะห่างที่สั้นที่สุดของ cluster j และ k หาค่าต่าสุด d ij , d ik และ d jk , d ik ถ้าได้ว่า d jk ต่าสุดก็จะรวม cluster k และ j เข้าด้วยกัน ภาพที่ 3 Single Linkage (กัลยา วานิชย์บัญชา. 2550 : 218) d d Cluster ที่ i Cluster ที่ j Cluster ที่ k d
  13. 13. 13 4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage d ij ระยะห่างที่ยาวที่สุดของ cluster i และ j d ik ระยะห่างที่ยาวที่สุดของ cluster i และ k dkj ระยะห่างที่ยาวที่สุดของ cluster k และ j แล้วเปรียบเทียบค่า d ij ,d ik ,dkj เลือกค่าต่าสุด ถ้าได้ว่า d ik ต่าสุด ก็รวม cluster i และ k เข้า ด้วยกัน ภาพที่ 4 Complete Linkage (กัลยา วานิชย์บัญชา. 2550 : 218) 5. Centroid Clustering เป็นการรวม cluster 2 cluster เข้าด้วยกัน โดยพิจารณาจากระยะห่างของ จุดกลางของ cluster 2 cluster โดยที่ dij ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ j d ij ระยะห่างจุดกลางของ cluster ที่ i และ cluster ที่ k d ij ระยะห่างจุดกลางของ cluster ที่ j และ cluster ที่ k แล้วเลือกค่าระยะห่างที่ต่าสุด เช่น ถ้าได้ dkj ต่าสุด ก็จะรวม cluster k และ j เข้าด้วยกัน d Cluster ที่ i Cluster ที่ j Cluster ที่ k d d
  14. 14. 14 ภาพที่ 5 Centroid Clustering (กัลยา วานิชย์บัญชา. 2550 : 219) 6. Median Clustering วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster สาคัญเท่ากัน(ให้ น้าหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering จะให้ความสาคัญแก่ Cluster มีขนาดใหญ่ มากกว่า Cluster ที่มีขนาดเล็ก (ให้น้าหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่า กลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า Median เป็นค่ากลาง ของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Cluster คู่ใดต่าจะรวม Cluster คู่นั้นเข้าด้วยกัน 7. Ward’s Method หลักการของวิธีนี้จะพิจารณาจากค่า Sum of the squared within-cluster distance โดยจะรวม Cluster ที่ทาให้ค่า Sum of square within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster distance คือค่า Square Euclidean distance ของแต่ละ Case กับ Cluster Mean 5.2.2 K-Means Cluster Analysis 1) หลักการของเทคนิค K-Means Clusteringเป็นเทคนิคการจาแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจานวน Case มาก โดยจะต้องกาหนดจานวนกลุ่มหรือจานวน Cluster ที่ต้องการ เช่น กาหนดให้มี k กลุ่ม เทคนิค K-Means จะมีการทางานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะมีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่ม ที่ Case นั้นมีระยะห่างจากค่ากลางของกลุ่มน้อยที่สุด แล้วคานวณค่ากลางของกลุ่มใหม่ จะทา เช่นนี้จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจานวนรอบที่กาหนดไว้ Cluster ที่ i Cluster ที่ j Centroid
  15. 15. 15 2) ชนิดของตัวแปรที่ใช้ในเทคนิค K-Means Clustering ตัวแปรที่ใช้ใน เทคนิค K-Means Clustering จะต้องเป็นตัวแปรเชิงปริมาณ คือ เป็นสเกลอันตรภาค(Interval Scale) หรือสเกลอัตราส่วน(Ration Scale) โดยไม่สามารถใช้กับข้อมูลที่อยู่ในรูปความถี่ หรือ Binary เหมือนเทคนิค Hierarchical 3) ขั้นตอนการวิเคราะห์ของวิธี K-Means การวิเคราะห์จาแนกกลุ่มด้วย เทคนิควิธี K-Means Clustering สามารถสรุป ขั้นตอนของการวิเคราะห์ได้ 4 ขั้นตอนดังนี้ ขั้นที่ 1 จัดกลุ่มข้อมูลเป็น k กลุ่ม ซึ่งมีการแบ่งได้หลายวิธีดังนี้ - แบ่งอย่างสุ่ม - แบ่งด้วยผู้ศึกษาเอง ขั้นที่ 2 คานวณหาจุดกึ่งกลางกลุ่มของแต่ละกลุ่ม เช่น จุดกลางกลุ่มของกลุ่ม ที่ C คือ c x ขั้นที่ 3 มีวิธีการพิจารณา 2 แบบ โดยจะคานวณ แบบที่ 1 คานวณหาระยะห่างจากแต่ละหน่วยไปยังจุดกลางกลุ่มของทุกกลุ่ม และจะพิจารณาย้ายหน่วยไปยังกลุ่มที่มีระยะห่างต่าสุด แบบที่ 2 คานวณระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่มที่หน่วย นั้นอยู่ โดยให้ ESSZ(Error Sum Square) เท่ากับระยะห่างกาลังสองของแต่ละหน่วยไปยังจุดกลางกลุ่ม โดยที่ C ( i ) หมายถึง กลุ่มของหน่วยที่ i ESS = ผลบวกของระยะห่างจากแต่ละหน่วยในกลุ่มไปยังจุดกลางกลุ่มรวมทุก กลุ่ม กลุ่มใดที่มีค่า ESS ต่า แสดงว่าหน่วยที่อยู่ในกลุ่มนั้นมีความคล้ายคลึงกัน ขั้นที่ 4 การพิจารณาย้ายกลุ่ม จะใช้เกณฑ์การย้ายตามค่าที่คานวณได้ในขั้นที่ 3 แบบที่ 1 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ระยะห่างจากหน่วยที่ i ไปยัง จุดกลางกลุ่มมีค่าต่าสุด แบบที่ 2 จะทาการย้ายหน่วยที่ i ไปยังกลุ่มที่ทาให้ค่า ESS มีค่าต่าสุด
  16. 16. 16 ถ้าขั้นที่ 4 ไม่มีการย้ายกลุ่มอีกแล้ว แสดงว่ากลุ่มที่แบ่งได้นั้นเหมาะสมแล้ว แต่ถ้าในนั้นที่ 4 มีการย้ายกลุ่ม กลุ่มที่มีหน่วยย้ายเข้าหรือย้ายออกจะต้องทาการคานวณหาจุดกลางกลุ่มใหม่ นั่นคือต้องกลับไปทาขั้นที่ 2 4) ข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means กัลยา วานิชย์บัญชา (2548(ข)) ได้จาแนกข้อแตกต่างระหว่างเทคนิค Hierarchical กับวิธี K-Means ไว้ดังนี้ 1. เทคนิค K-Means ใช้เมื่อมีจานวน Case หรือจานวนข้อมูลมาก โดยทั่วไป นิยมใช้เมื่อ n ≥ 200 เพราะเมื่อ n มาก เทคนิค K-Means จะง่ายกว่า และใช้ระยะเวลาในการ คานวณน้อยกว่าการใช้เทคนิค Hierarchical หรือกล่าวได้ว่าเมื่อมีจานวน Case ไม่มากควรใช้ เทคนิค Hierarchical 2. เทคนิค K-Means นั้น ผู้ใช้จะต้องกาหนดจานวนกลุ่มที่แน่นอนไว้ ล่วงหน้ากรณีที่ผู้วิเคราะห์ยังไม่แน่ใจว่าควรมีกี่กลุ่มจึงจะเหมาะสม ผู้วิเคราะห์อาจจะใช้วิธีใดวิธี หนึ่งดังต่อไปนี้ - ทาการวิเคราะห์ด้วยวิธี K-Means หลาย ๆ ครั้ง แต่ละครั้งกาหนด จานวนกลุ่มแตกต่างกันไป เช่น เป็น 3, 4 หรือ 5 กลุ่ม แล้วพิจารณาหาจานวนกลุ่มที่เหมาะสม แต่ เมื่อมีข้อมูลมากวิธีนี้จะทาให้เสียเวลามาก - ใช้ข้อมูลบางส่วนทาการวิเคราะห์โดยวิธี Hierarchical เพื่อหาจานวน กลุ่มที่ควรจะเป็นจากนั้นจึงใช้เทคนิค K-Means กับข้อมูลทั้งหมดที่มี 3. เทคนิค Hierarchical นั้น ผู้วิเคราะห์จะ Standardized ข้อมูลหรือไม่ก็ได้ แต่โดยวิธี K-Means จะต้องทาการ Standardized ข้อมูลก่อนเสมอ 4. วิธี K-Means จะหาระยะห่างโดยวิธี Euclidean Distance โดยอัตโนมัติ ขณะที่ Hierarchical ผู้วิเคราะห์มีสิทธิ์ที่จะเลือกวิธีการคานวณระยะห่าง หรือความคล้ายได้
  17. 17. 17 ข้อแตกต่างระหว่างการจาแนกกลุ่มด้วยเทคนิค Cluster Analysis และเทคนิค Discriminant Analysis กัลยา วานิชย์บัญชา(2550)เทคนิคการแบ่งด้วย Cluster Analysis ซึ่งแบ่ง Case ที่คล้ายกันอยู่ในกลุ่มเดียวกัน และ Case ที่ต่างกันอยู่ต่างกลุ่มกัน ซึ่งคล้ายกับเทคนิค Discriminant Analysis แต่จะพบว่ายังมีข้อแตกต่างระหว่างเทคนิคทั้ง 2 ดังนี้ ตารางที่ 4 ความแตกต่างระหว่างเทคนิค Cluster & Discriminant Cluster Analysis Discriminant Analysis 1. ไม่จาเป็นต้องทราบก่อนว่ามีกี่กลุ่ม 1. ต้องทราบมาก่อนว่ามีกี่กลุ่ม โดยผู้วิจัยเป็น ผู้จัดกลุ่มเอง และกาหนดเองว่าจะมีกี่กลุ่ม 2. ไม่ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน 2. ทราบมาก่อนว่า Case ใดอยู่กลุ่มไหน เนื่องจากผู้วิจัยเป็นผู้จัดกลุ่มมาก่อน 3. ไม่มีสมการแสดงความสัมพันธ์ 3. มีสมการแสดงความสัมพันธ์
  18. 18. 18 ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Case เทคนิค Hierarchical Cluster เทคนิค K-Means
  19. 19. 19 1. ขั้นตอนการใช้ SPSS ในการจัดกลุ่ม Cases ด้วยเทคนิค Hierarchical Cluster ขั้นที่ 1 : สร้างแฟ้มข้อมูล ซึ่งอาจจะสร้างโดย ก) ใช้ข้อมูลจริงที่มี ซึ่งจะมีตัวแปรหลาย ๆ ตัวที่จะนามาใช้ในการแบ่ง Case หรือ แบ่งกลุ่มตัวแปรโดยให้คานวณหาค่าระยะห่าง หรือค่าความคล้ายของ Case แต่ละคู่ ถ้าหน่วยของ ตัวแปรต่างกัน อาจจะมีผลต่อค่าระยะห่าง และค่าความคล้าย ซึ่งทาให้เกิดผลต่อการจัดกลุ่มด้วย ตัวแปรที่มีค่ามากจะมีอิทธิพล ต่อค่าระยะห่างมากกว่าตัวแปรที่มีค่าน้อย (เนื่องจากหน่วยต่างกัน) เช่น ถ้าวัดความคล้ายของนางกัลยา และนายชาตรีโดยตัวแปรที่วัดคือ อายุ (ปี) และรายได้ (หน่วย : 10,000 บาท) ตารางที่ 5 ข้อมูลดิบ อายุ(ปี) รายได้(10,000บาท กัลยา ชาตรี 45 60 2 7 ตารางที่ 6 ข้อมูลที่ Standardized แล้ว อายุ(ปี) รายได้(10,000บาท กัลยา ชาตรี .707 -.707 -.707 .707 ถ้าในที่นี้ใช้ Euclidean Distance ในการหาระยะห่างระหว่างนางกัลยา และนายชาตรีโดยใช้ ข้อมูลในตารางที่ 5 ได้ระยะห่างของอายุและรายได้ = (45 – 60)2 + (2 – 7)2 = 225 + 25 = 250 นั่นคือ ระยะห่าง 250 นั้นเป็นอิทธิพลของตัวแปรอายุ = (255 / 250) x 100 = 90% อีก 10% เป็น อิทธิพลของตัวแปรรายได้ แต่ถ้าใช้ข้อมูลที่ทา Standardized แล้ว ในที่นี้คือ การทา Z-score จากตารางที่ 6 ได้ค่า ระยะห่างของ Euclidean distance ในรูป Z-score เป็น (-.707 – (-.707)2 + (-.707 - .707)2 = .999 ซึ่งเป็นผลจากอายุ และรายได้เท่า ๆ กัน คือ อย่างละ 50% จึงควรทาการเปลี่ยนแปลงข้อมูล ดิบของตัวแปรต่าง ๆ เพื่อกาจัดอิทธิพลของหน่วยที่ต่างกันออกไป
  20. 20. 20 ข) ใช้ข้อมูลที่เปลี่ยนแปลงแล้ว เช่น ข้อมูลที่ Standardized แล้ว หรือเปลี่ยนแปลงข้อมูล ของทุกตัวแปรให้มีค่าต่าสุดเป็น 0 และค่าสูงสุดเป็น 1 ในคาสั่งย่อยของ Hierarchical Cluster จะมี การให้เลือกวิธีการ Standardized หลายวิธี ซึ่งจะกล่าวถึงในตัวอย่างที่ 1ในกรณีที่ไม่ต้องการใช้ คาสั่งย่อยของคาสั่ง Hierarchical Cluster เพื่อคานวณค่า Z-score ของตัวแปรทุกตัวที่ต้องการ นามาใช้ในการจัดกลุ่ม แต่ต้องการทา Standardized ข้อมูลเองหลังจากที่มีการสร้างแฟ้มข้อมูล แล้ว ให้ใช้คาสั่ง ดังนี้ Analyze Descriptive statistics Descriptive จะแสดงหน้าจอ ดังภาพที่ 6 ภาพที่ 6 Descriptive statistics box
  21. 21. 21  ให้เลือกตัวแปรอย่างน้อย 1 ตัว ใส่ใน box ของ variable (s) สาหรับเทคนิค Cluster จะต้อง เลือกตัวแปรทุกตัวที่จะใช้แบ่งกลุ่ม Case แล้วเลือก  Save Standardized values as variables. ในกรณีนี้จะได้ตัวแปรใหม่อยู่ในรูป Z-score โดยตัวแปรใหม่ทุกตัวจะอยู่ในแฟ้มข้อมูลเดิม ต่อท้ายจากตัวแปรที่มีในแฟ้มเดิม และตัวแปรใหม่ทุกตัวจะมีชื่อเหมือนตัวแปรเดิมแต่นาหน้าด้วย ตัว Z ซึ่งหมายถึงตัวแปรเดิมที่คานวณให้อยู่ในรูป Z-score ดังแสดงในภาพที่ 7 ภาพที่ 7 Z-score
  22. 22. 22 ขั้นที่ 2 : ใช้คาสั่งการจัดกลุ่มใน ดังนี้ Analyze Classify Hierarchical Cluster ภาพที่ 8 Hierarchical Cluster Dialog box จากภาพที่ 8 อธิบายได้ดังนี้ ส่วนที่ 1 : Variable (s) box ถ้าต้องการจัดกลุ่ม Case จะต้องเลือกตัวแปรที่มีค่าเป็น ตัวเลข (Numeric variable) อย่างน้อย 1 ตัว แต่ถ้าต้องการจัดกลุ่มตัวแปร จะต้องเลือกตัวแปรที่มี ค่าเป็นตัวเลขอย่างน้อย 3 ตัว ส่วนที่ 2 : Label Case By เป็นการระบุชื่อ Case หรือความหมายของ Case เช่น ถ้าแบ่งกลุ่มจังหวัด กรณีนี้ 1 Case คือ 1 จังหวัด ถ้าสร้างตัวแปร Province ที่ระบุชื่อจังหวัด จะเลือกตัวแปร Province มาใส่ในนี้ โดยที่ตัวแปรที่จะอยู่ใน box ของ Label Cases by จะต้องเป็น ตัวแปร Nominal และเป็นชนิด String ถ้าไม่เลือกตัวแปรใส่ใน Box ของ Label Cases by ผลลัพธ์จะ ให้หมายเลข Case
  23. 23. 23 ส่วนที่ 3 : Cluster ผู้วิเคราะห์ต้องเลือกว่าต้องการจัดกลุ่ม Case หรือจัดกลุ่มตัวแปร อย่างใด อย่างหนึ่งเพียงอย่างเดียว  Cases เลือกทางเลือกนี้ ถ้าต้องการจัดกลุ่ม Case  Variables เลือกทางเลือกนี้ ถ้าต้องการจัดกลุ่มตัวแปร ส่วนที่ 4 : Display ผู้ใช้สามารถเลือกให้ผลลัพธ์แสดงทั้งค่าสถิติ และกราฟ หรืออาจเลือก ทางเลือกใดทางเลือกหนึ่งก็ได้  Statistics แสดงค่าสถิติในผลลัพธ์  Plots แสดงกราฟในผลลัพธ์ จากภาพที่ 8 เลือก จะได้หน้าจอดังภาพที่ 9 ภาพที่ 9 Hierarchical Cluster Analysis : Statistics จากภาพที่ 9 แบ่งเป็น 2 ส่วนดังนี้ ส่วนที่ 1 : ส่วนนี้มี 2 ทางเลือก ผู้ใช้สามารถเลือกทางเลือกใดทางเลือกหนึ่ง หรือ 2 ทางเลือกก็ได้ ดังนี้  Agglomeration schedule จะแสดงขั้นตอนการรวมกลุ่ม Case  Proximity matrix จะแสดง Matrix ของระยะห่างระหว่าง Case แต่ละคู่
  24. 24. 24 ส่วนที่ 2 : Cluster Membership จะแสดงว่าแต่ละ Case เป็นสมาชิกกลุ่มใด หรือ Cluster ใด ผู้ใช้สามารถเลือกใดทางเลือดหนึ่งจากต่อไปนี้  None ไม่แสดงการเป็นสมาชิกของ Case ทางเลือกนี้เป็น Default  Single solutions จะแสดงสมาชิกของ cluster โดยกาหนดจานวน Cluster (กลุ่ม) ที่ต้องการโดยต้องใส่เลขจานวนเต็มที่มีค่าตั้งแต่ 1 ขึ้นไป เช่น ถ้าต้องการสมาชิกของกลุ่ม 3 กลุ่ม ใส่หมายเลข 3 ลงใน  Range of solutions จะแสดงสมาชิกของ Cluster โดยกาหนดช่วงของจานวนกลุ่ม โดยต้องระบุจานวนกลุ่มต่าสุด และสูงสุด โดยเลขที่ใส่ใน ทั้งสองจะต้องเป็นเลข จานวนเต็ม มีค่าตั้งแต่ 2 ขึ้นไป และค่าแรกต้องน้อยกว่าค่าที่สองเสมอ จากหน้าจอภาพที่ 8 เลือก จะแสดงหน้าจอดังภาพ ภาพที่ 10 Hierarchical Cluster Analysis :Plots
  25. 25. 25 จากภาพที่ 10 แบ่งออกเป็น 3 ส่วน ดังนี้ ส่วนที่ 1 : Dendrogram จะให้กราฟ ซึ่งแสดงถึงการรวมกันของ Cluster และให้ค่า ระยะห่างในแต่ละขั้นตอนด้วย โดยจะเปลี่ยนหน่วยระยะห่างของข้อมูลเดิม เป็นระยะห่างมีค่า ในช่วง 1 ถึง 25 ส่วนที่ 2 : Icicle หมายถึง Icicle Plots ซึ่งมี 3 ทางเลือก ให้ผู้ใช้เลือกทางเลือกใดทางเลือกหนึ่ง  All Clusters แสดง Icicle Plot ของทุก Cluster  Specified range of clusters แสดง Icicle Plot ตามช่วงของจานวน Cluster ที่กาหนด โดยใส่เลขจานวนเต็มบวกในช่อง Start, Stop และ By โดย Start น้อยกว่า Stop ส่วน By หมายถึง การเพิ่มขึ้นครั้งละ เช่น ใส่เลข 3, 7 และ 2 จะทาให้ Icicle Plot แสดง 3, 5, 7 กลุ่มหรือ Cluster เป็นต้น  None ไม่แสดง Icicle Plot ส่วนที่ 3 : Orientation มีทางเลือกดังนี้  Vertical แสดง Icicle Plot ในแนวตั้ง  Horizontal แสดง Icicle Plot ในแนวนอน จากหน้าจอภาพที่ 8 เลือก จะแสดงหน้าจอดังภาพ ภาพที่ 11 Hierarchical Cluster Analysis : Method
  26. 26. 26 จากภาพที่ 11 แบ่งออกเป็น 4 ส่วน ส่วนที่ 1 : Cluster Method เลือกวิธีการรวมกลุ่ม Cluster ผู้ใช้สามารถคลิกเครื่องหมาย ซึ่งมีวิธีในการรวมกลุ่ม Cluster  Between-group linkage : Average linkage between groups (UPGMA)  Within-group linkage : Average linkage within groups  Nearest neighbor : Single linkage  Furthest neighbor : Complete linkage  Centroid clustering  Medain clustering  Ward’s method ส่วนที่ 2 : Measure วิธีการวัดระยะห่างและความคล้าย ซึ่งการเลือกวิธีการวัดระยะห่าง หรือความคล้ายจะขึ้นกับชนิดของข้อมูลที่แบ่งเป็น 3 ประเภท ดังนี้  Interval หมายถึง ข้อมูลชนิด Interval หรือ Radio scale จะคานวณหาระยะห่างและ ความคล้ายโดยผู้ใช้ต้องเลือกวิธีการโดยการคลิก จะได้ เพิ่มสูตร Count ใช้กับข้อมูลที่อยู่ในรูปความถี่ โดยวัดความแตกต่างหรือระยะห่าง โดยเลือก วิธีการทางสถิติ ดังนี้ เพิ่มสูตร  Binary ใช้กับข้อมูลที่มีค่าได้เพียง 2 ค่า โดย SPSS จะสร้างตาราง 2 X 2 ของ case ให้ A, b, c, d คือความถี่ วิธีการคานวณระยะห่างมีหลายวิธีดังนี้ เพิ่มสูตร ส่วนที่ 3 : Transform Value เมื่อต้องการเปลี่ยนแปลงค่าของ case หรือตัวแปรเพื่อทา ให้ตัวแปรมีความสาคัญเท่ากัน เมื่อข้อมูลเดิมมีสเกลต่างกัน โดยจะทาการ Standardize ข้อมูล  Standardize ก่อนจะทาการคานวณค่าระยะห่าง หรือความคล้าย สาหรับข้อมูลชนิด Interval หรือ Count เท่านั้น โดยผู้ใช้ต้องเลือก 1 ทางเลือก ดังต่อไปนี้  None ไม่ทาการ Standardize แต่ให้ใช้ข้อมูลเดิม
  27. 27. 27  Z score ทาการ Standardize ข้อมูลให้เป็น Z score ที่มีค่าเฉลี่ย 0 ค่าเบี่ยงเบน มาตรฐาน 1  Range – 1 to 1 ทา Standardize ข้อมูลให้มีค่าระหว่าง – 1 ถึง 1  Range 0 to 1 ทา Standardize ข้อมูลให้มีค่าระหว่าง 0 ถึง 1 ส่วนที่ 4 : Transform Measure ใช้เฉพาะข้อมูลชนิด Interval หรือ Count เท่านั้น ใช้ในการ Standardize ข้อมูลสาหรับ Case หรือค่าของข้อมูลก่อน ที่จะคานวณค่า proximity โดยมี ทางเลือกดังนี้  Absolute values จะคานวณค่าสัมบูรณ์ของระยะห่าง  Change sign เป็นการเปลี่ยนความคล้ายให้เป็นความไม่คล้าย (ความห่าง) หรือเปลี่ยน ความไม่คล้ายให้เป็นความคล้าย Rescale to 0 – 1 range เป็นการเปลี่ยนระยะห่างให้มีค่าในช่วง 0 ถึง 1 ซึ่งถือเป็นการทา Standardize อย่างหนึ่ง โดยการนาค่าระยะห่างที่สั้นที่สุดไปลบจาก ระยะห่างต่าง ๆ แล้วหารด้วยค่าพิสัยระยะห่างจากภาพที่ 8 คลิกปุ่มจะแสดงหน้าจอดังภาพ ภาพที่ 12 : Save
  28. 28. 28 ในหน้าจอภาพที่ 12 เป็นการให้ระบุกลุ่มที่ Case หรือตัวแปรเป็นสมาชิกอยู่ ในตาราง Cluster Membership ในผลลัพธ์ ซึ่งมีทางเลือกดังนี้  None ไม่ต้องการบันทึกเลขที่กลุ่ม  Single solution บันทึกเลขที่กลุ่มโดยที่ระบุจานวนกลุ่มที่แน่นอนเพียงค่าเดียว  Range of solutions ให้บันทึกเลขที่กลุ่มกรณีที่กาหนดว่าจานวนกลุ่มหลาย ๆ แบบ เช่น จานวนบันทึกเลขที่กลุ่มของแต่ละ case เมื่อแบ่งเป็น 2, 3, 4, 5 หมายถึงใส่ from เป็น 2 และ through เป็น 5 โดยที่ค่าที่ใส่ใน box ต้องเป็นเลขจานวนเต็มบวกที่มากกว่า 1 และเลขใน box ที่สอง ต้องมีค่ามากกว่า box แรก ตัวอย่างการใช้เทคนิค Hierarchical Cluster Analysis ตัวอย่างที่ 1 สาหรับตัวอย่างที่ 1 จะใช้เทคนิค Hieratchical Cluster แบ่งกลุ่มCaseโดยไม่ จาเป็นต้องทราบจานวนกลุ่มที่แน่นอน และไม่ต้องทราบว่าแต่ละ Case อยู่กลุ่มใดบ้าง สาหรับ ตัวอย่างนี้จะใช้ข้อมูลแค่ 20 Caseแรกในการจัดกลุ่ม เนื่องจากไม่ต้องการให้ผลลัพธ์ที่ได้ยาวเกินไป จนทาให้ไม่สะดวกในการอธิบายความหมาย โดยมีขั้นตอนดังนี้ ขั้นที่ 1 : สร้างแฟ้มข้อมูล ซึ่งจะมี case หรือตัวแปรหลายๆตัว ที่จะนามาใช้ในการแบ่ง case หรือแบ่งกลุ่มตัวแปร ซึ่งในที่นี้จะใช้แฟ้มข้อมูล cars ซึ่งมีอยู่ในโปรแกรม SPSS โดยใช้ข้อมูล แค่ 20 case แรกในการจัดกลุ่ม เนื่องจากไม่ต้องการให้ผลลัพธ์ที่ได้ยาวเกินไป ขั้นที่ 2 : เลือก Case ที่ 1 – 20 เพื่อใช้ในการวิเคราะห์ โดยใช้คาสั่ง Data Select Case จะได้หน้าจอภาพที่ 13
  29. 29. 29 ภาพที่ 13 Select Case ในหน้าจอภาพที่ 13 เลือก  Based on time or case range  คลิก จะได้หน้าจอภาพที่ 13  ใส่ ใน First case และ ใน box ของ Last case  คลิก และคลิก
  30. 30. 30 ขั้นที่ 3 : ทาการแบ่งกลุ่มด้วยเทคนิค Hierarchical Cluster โดยใช้คาสั่ง Analyze Classify Hierarchical Cluster … จะได้หน้าจอภาพที่ 14 ภาพที่ 14 : Hierarchical Cluster จากหน้าจอภาพที่ 14  เลือกตัวแปรที่คาดว่าจะทาให้มีความแตกต่างระหว่างกลุ่มแตกต่างกัน จึงเลือกตัว แปร 5 ตัวดังนี้ ใส่ใน box ของ Variables (s)  ในส่วนของ Cluster เลือก  Cases เนื่องจากต้องการจัดกลุ่ม (Case)  ในส่วน Display เลือก  Stratistics  Plots
  31. 31. 31 จากหน้าจอภาพที่ 14 คลิก จะได้หน้าจอภาพที่ 15 เลือก ภาพที่ 15 Statistics จากภาพที่ 15 เลือก  Agglomeration schedule  Proximity matrix  Range of solutions แล้วป้อนค่า  คลิก กลับไปหน้าจอภาพที่ 14
  32. 32. 32 จากหน้าจอภาพที่ 14 คลิก จะได้หน้าจอภาพที่ 16 ภาพที่ 16 : Plots เลือก  Dendogram  ในส่วนของ Icicle เลือก  All Clusters  คลิก จะกลับไปหน้าจอภาพที่ 14
  33. 33. 33 จากหน้าจอภาพที่ 14 คลิก จะได้หน้าจอภาพที่ 17 ภาพที่ 17 : Method  ในส่วน Cluster Method เลือก Between – groups Linkage  ในส่วนของ Measure เลือก  Interval เนื่องจากตัวแปรทั้ง 5 ตัวที่เลือก เป็นข้อมูล Ratio scale และเลือก Square Euclidean distance  ในส่วนของ Transform Values เลือก Z scores เนื่องจากตัวแปรทั้ง 4 ตัวข้างต้นมี หน่วยที่แตกต่างกัน และ  By Variable  คลิก จะกลับไปหน้าจอภาพที่ 14
  34. 34. 34 จากหน้าจอภาพที่ 14 คลิก จะได้หน้าจอภาพที่ 18 ภาพที่ 18 : Save  เลือก  Range of solution :  คลิก และ จะได้ผลลัพธ์ดังแสดงในตารางที่ ตารางที่ 7 Case Processing Summary a Case Processing Summary a Cases Valid Missing Total N Percent N Percent N Percent 14 70.0% 6 30.0% 20 100.0% a. Squared Euclidean Distance used
  35. 35. 35 จากตารางที่ 7 ระบุว่าจากข้อมูล 20 Case มีค่า Missing อยู่ 6 จึงมีจานวนCaseนามา วิเคราะห์เพียง 14 หรือคิดเป็น 70% (14/20) ตารางที่ 8 Proximity Matrix จากตารางที่ 8 : Proximity Matrix ค่าต่าง ๆ ในตารางที่ 8 เป็นระยะห่างของ Case แต่ละ คู่โดยระยะห่างที่ใช้คือ ค่า Squared Euclidean Distance เช่น case 1 และ case 9 ห่างกัน 28.593 ขณะที่ case 1 และ case 3 ห่างกันเพียง 1.024 ดังนั้น ควรจัดCase case 1 และ case 3 ให้อยู่ใน กลุ่มเดียวกัน นั่นคือ case 1 และ case 3 มีค่าตัวแปร 5 ตัว ดังกล่าวคล้ายกัน ในขณะเดียวกัน ควรจัด case 1 และ case 9 อยู่ต่างกลุ่มกัน หรือ case 1 และ case 3 มีความแตกต่างกันในตัวแปร ทั้ง 5 ตัว Case Squared Euclidean Distance 1:Case 1 2:Case 2 3:Case 3 4:Case 4 5:Case 5 9:Case 9 ………. 13:Case 19 14:Case 20 1:Case 1 .000 6.302 1.024 2.319 1.974 28.953 - 11.307 25.208 2:Case 2 6.302 .000 5.360 1.800 4.071 11.079 - 3.368 10.148 3:Case 3 1.024 5.360 .000 2.603 .797 23.971 - 8.191 19.213 4:Case 4 2.319 1.800 2.603 .000 1.952 21.153 - 7.471 16.350 5:Case 5 1.974 4.071 .797 1.952 .000 22.681 - 5.848 18.117 6:Case 6 18.914 6.407 14.979 13.892 13.962 1.354 - 4.288 10.073 7:Case 7 30.418 12.413 24.340 22.737 22.351 .663 - 7.722 9.576 8:Case 8 30.160 12.580 23.700 22.598 21.198 1.599 - 6.953 9.887 9:Case 9 28.953 11.079 23.971 21.153 22.681 .000 - 8.887 9.970 10:Case 10 17.610 6.643 11.987 12.417 9.635 5.954 - 2.094 7.362 11:Case 16 9.841 1.796 6.585 5.115 4.779 8.723 - .804 5.856 12:Case 17 18.698 8.074 13.644 12.353 9.079 13.552 - 3.079 11.370 13:Case 19 11.307 3.368 8.191 7.471 5.848 8.887 - .000 8.969 14:Case 20 25.208 10.148 19.213 16.350 18.117 9.970 - 8.969 .000 This is a dissimilarity matrix
  36. 36. 36 ตารางที่ 9 Agglomeration Schedule Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First Appears Next StageCluster 1 Cluster 2 Cluster 1 Cluster 2 1 7 8 .239 0 0 4 2 3 5 .797 0 0 5 3 11 13 .804 0 0 8 4 7 9 1.131 1 0 6 5 1 3 1.499 0 2 10 6 6 7 1.735 0 4 11 7 2 4 1.800 0 0 10 8 10 11 2.148 0 3 9 9 10 12 3.025 8 0 11 10 1 2 3.768 5 7 13 11 6 10 7.180 6 9 12 12 6 14 9.133 11 0 13 13 1 6 14.933 10 12 0 จากตารางที่ 9 เป็นผลจากการใช้วิธี Between – groups linkage ในหน้าจอภาพที่ 17 (หน้าจอ Method) ในการรวมกลุ่ม Case นั่นคือ ในแต่ละ Stage จะบอกว่ามีการรวม Case คู่ใดบ้าง ให้อยู่ในกลุ่มเดียวกัน เช่น Stage 1 : จะจัดที่ 7 และ Case ที่ 8 อยู่ในกลุ่มเดียวกัน เนื่องจากCase ที่ 7 และ 8 มีระยะห่างกันสั้นที่สุด (จากตารางที่ 9 ) ซึ่งระยะห่าง (ค่า Squared Euclidean Distance) คือค่าใน Column ของ Coefficients ซึ่งเท่ากับ .239 และค่า Next Stage ใน Column สุดท้าย = 4 หมายถึง กลุ่มหรือ Cluster ที่มีCaseที่ 7 และ 10 จะรวมกับ Case อื่นต่อไปใน stage ที่ 4 Stage 2 : มีการจัดให้ Case ที่ 3 และ Case ที่ 5 ให้อยู่ในกลุ่มหรือ Cluster เดียวกัน ซึ่ง Case ที่ 3 และ 5 มีระยะห่าง = .797 และกลุ่มที่มีCaseที่ 3 และ 5 อยู่จะรวมกับCaseอื่นอีกใน Stage ที่ 5 (Next Stage = 5)
  37. 37. 37 Stage 4 : มีการจัด Caseที่ 7 และ 9 ให้อยู่ในกลุ่มเดียวกัน แต่Caseที่ 7 อยู่กลุ่มเดียวกับ Caseที่ 8 ในขั้นที่ 1 แล้ว โดยพิจารณา Column ของ Stage Cluster First Appears ในส่วนของ Cluster 1 = 1 เป็นการระบุว่า Caseที่ 7 ถูกรวมกับCaseที่ 8 ใน Stage ที่ 1 แล้ว ดังนั้น Caseที่ 7 และ 8 และ 9 จะรวมอยู่ในกลุ่มเดียวกัน และจาก Column ของ Next Stage = 6 แสดงว่าจะมีCase ใหม่อีก 1 Case มารวมกับกลุ่มนี้ใน Stage ที่ 6 สาหรับการรวม Caseที่ 9 เข้าในกลุ่มเดิมที่มีอยู่แล้ว (กลุ่มที่มี Case 7 และ 8) จะใช้วิธี Between-groups linkage (Average Linkage) นั่นคือ ใช้ค่าเฉลี่ย ของระยะห่างระหว่างCase 9กับ Case 7 และระยะห่างระหว่างCase 9 และ 8 (จากตารางที่ 8 )    Stage 10 : จะมีการนา Case ที่ 2 มารวมกับกลุ่มที่มีCaseที่ 2 และ 4 อยู่แต่ Case ที่ 1 นี้ ถูก รวมอยู่ในกลุ่มที่มี Case ที่ 3 Stage ที่ 51 และเป็นเช่นนี้ไปเรื่อย ๆ จนถึง Stage ที่ 13 จะเป็นการ รวมทุก Case อยู่ในกลุ่มเดียวกันซึ่งจะแสดงด้วยกราฟในรูปที่ : Dendogram ดังที่ได้กล่าวแล้วว่า เทคนิค Cluster ในขั้นแรกจะให้ จานวนกลุ่ม = จานวน Case นั่นคือ ในตัวอย่างนี้มี 14 Case (เนื่องจากมีการ Missing 6 Case) จึงเริ่มต้นมี 14 กลุ่ม ๆ ละ 1 Case แล้วจึงค่อย ๆ รวม Case ทีละ คู่ ดังในตารางที่ 8 จนในที่สุดเหลือกลุ่มเดียว ดังนั้น การพิจารณาว่าควรแบ่งเป็นกี่กลุ่มย่อยจึงอยู่ ที่การพิจารณาของผู้วิเคราะห์โดยจะพิจารณาจากระยะห่าง หรือความคล้าย
  38. 38. 38 ตารางที่ 10 Cluster Membership Cluster Membership Case 4 Clusters 3 Clusters 2 Clusters 1:Case 1 1 1 1 2:Case 2 1 1 1 3:Case 3 1 1 1 4:Case 4 1 1 1 5:Case 5 1 1 1 6:Case 6 2 2 2 7:Case 7 2 2 2 8:Case 8 2 2 2 9:Case 9 2 2 2 10:Case 10 3 2 2 11:Case 16 3 2 2 12:Case 17 3 2 2 13:Case 19 3 2 2 14:Case 20 4 3 2 จากตารางที่ 10 เป็นการระบุว่าแต่ละ Case อยู่กลุ่มใดโดยแบ่งเป็น 3 รูปแบบ (ตามที่ระบุใน หน้าจอภาพที่ 18 ) ดังนี้ 1) กรณีที่มี 4 กลุ่ม (4 Clusters) เมื่อมี 4 กลุ่ม คือ กลุ่มที่ 1 : มี 5 Case คือ 1, 2, 3, 4 และ 5 กลุ่มที่ 2 : มี 4 Case คือ 6, 7, 8, และ 9 กลุ่มที่ 3 : มี 4 Case คือ 10, 16, 17 และ 19 กลุ่มที่ 4 : มี 1 Case คือ 20 2) กรณีที่มี 3 กลุ่ม (3 Clusters) เมื่อมี 3 กลุ่ม กลุ่มที่ 1 : มี 5 Case คือ 1, 2, 3, 4 และ 5 กลุ่มที่ 2 : มี 8 Case คือ 6, 7, 8, 9, 10, 16, 17 และ 19 กลุ่มที่ 3 : มี 1 Case คือ 20
  39. 39. 39 จะพบว่าทั้งกรณีที่มี 4 กลุ่มและ 3 กลุ่ม Case 20 จะเป็น Case เดียวที่ไม่สามารถ รวมกลุ่มกับCaseอื่น ๆ ได้ เนื่องจากแตกต่างจากCaseอื่น ๆ มาก (ระยะห่างมาก) 3) กรณีที่มี 2 กลุ่ม (2 Clusters) กลุ่มที่ 1 : มี Case คือ 1, 2, 3, 4 และ 5 กลุ่มที่ 2 : มี 13 Case คือ 6, 7, 8, 9, 10, 16, 17,19และ 20 จะพบว่ากรณีที่มี 3 กลุ่มและ 2 กลุ่ม กลุ่มที่ 2 จะเหมือนกัน กลุ่มที่ 1 ก็จะเหมือนกัน ยกเว้น Case 20 ที่ถ้าแบ่งเป็น 2 กลุ่มจะถูกจัดให้อยู่ในกลุ่มที่ 1 ทั้งนี้เนื่องจากระยะห่างเฉลี่ยของ Case 20 กับCaseอื่น ๆ ในกลุ่มที่ 1 สั้นกว่ากลุ่มที่ 2 หรือมีความคล้ายCaseอื่น ๆ ในกลุ่มที่ 1 มากกว่า การพิจารณาว่าควรจัดแบ่ง Case เป็นกี่กลุ่มจึงจะเหมาะสม จะพิจารณาจากระยะห่างในตาราง ที่ 8 ค่า Coefficient ในตารางที่ 9 ตารางที่ 10 ตารางที่ 11 ตารางที่ 11 เป็นผลจากการเลือก  All Clusters ในส่วน Icicle ของหน้าจอ Plots ภาพที่ 16 จะพบว่าถ้าในขั้นตอนใดมีการรวม Case ก็จะเชื่อมด้วยเครื่องหมาย X ซึ่งจะพบว่าจะพิจารณาค่อนข้างยาก ดังนั้น จึงจะปรับตารางที่ 11 เป็นภาพที่ 19 ทาให้ พิจารณาง่ายขึ้นกว่าในแต่ละขั้นมีการรวม Case ใดบ้าง
  40. 40. 40  การสร้างภาพที่ 19 มีขั้นตอนดังนี้ 1. เมื่ออยู่ที่หน้าจอผลลัพธ์ เลือก Edit Options 2. เลือก Scripts tab 3. ในส่วนของ Autoscripts เลือก  Enable Autoscripts 4. เลือก  Cluster_Table_Icicle_Create แล้วคลิก 5. ใช้คาสั่ง Hierarchical Cluster..ใหม่อีกครั้ง จะได้ผลลัพธ์ใหม่และตารางที่ 11 จะแสดงอยู่ในของภาพที่ 19 ภาพที่ 19 : Vertical Icicle จากภาพที่ 19  Block bar ที่อยู่ส่วนบนของตาราง หมายถึง แต่ละCase  ในแถวที่ 1 หรือเมื่อมี 1 กลุ่ม หรือ 1 Cluster จะเป็นสีดาหมด หมายถึงทุก Case เชื่อม กันหรือรวมอยู่ในกลุ่มเดียวกัน  ในแถวสุดท้ายหรือเมื่อมี 13 กลุ่มหรือ 18 Clusters จะพบว่าCaseที่ 7 กับ 8 จะรวมอยู่ ในกลุ่มเดียวกัน เนื่องจากมีการระบายสีดาเชื่อมCase 7 และ 8  ในแถวที่ 12 หรือเมื่อมี 17 Clusters จะรวม Caseที่ 3 และ 5 หรือCase 3และ 5 เข้าอยู่ในกลุ่มเดียวกัน เนื่องจากมีการระบายสีดาเชื่อม Case 3 และ 5  ในแถวที่ 11 หรือเมื่อมี 11 Clusters จะรวมCaseที่ 19 หรือCase 16
  41. 41. 41 การพิจารณาเลือกจานวนกลุ่มที่เหมาะสม ดังได้กล่าวมาแล้วว่า ผลลัพธ์ของเทคนิค Cluster ไม่ได้ให้ค่าสถิติ หรือผลการทดสอบ สมมติฐานเพื่อให้ตัดสินใจหาจานวนกลุ่มที่เหมาะสม ผู้วิเคราะห์จะต้องพิจารณาความเหมาะสมเอง โดยอาจใช้ระยะห่าง หรือความคล้าย โดยใช้ dendogram ซึ่งผู้วิเคราะห์จะสามารถพิจารณาจานวน กลุ่มจาก dendogram โดยการกาหนดตัวเลขระหว่าง หรือความคล้ายเป็นเกณฑ์ใน การตัดสินใจ 1) การใช้ Dendogram สาหรับ Dendogram ถ้ากาหนดระยะห่างระหว่างกลุ่ม เป็น หน่วยที่แตกต่างกันไปก็จะได้จานวน Cluster ที่แตกต่างกันไป คือยิ่งระห่างยิ่งมาก จานวน Cluster ก็จะ เพิ่มขึ้น 2) การพิจารณาลักษณะ (Profile) ของแต่ละกลุ่มย่อย จากการใช้คาสั่ง Save หน้าจอภาพที่ 14 เมื่อเลือก  Rang of solutions และใส่ จานวน Cluster เป็น 2 – 4 จะทาให้ โปรแกรม SPSS สร้างตัวแปรใหม่ในแฟ้มข้อมูลอีก 3 ตัวคือ clu4_1, clu3_1 และ clu2_1 โดยที่ clu4_1 หมายถึงตัวแปรที่แสดงเลขที่กลุ่มขอแต่ละ case ส่วนเลข 4 หมายถึง มี 4 กลุ่ม หรือ 4 clusters และ 1 หมายถึงการวิเคราะห์ครั้งที่ 1 clu2_1 เป็นตัวแปรที่แสดงเลขที่ Cluster ของแต่ละ case กรณีที่มี 2 clusters และเป็น การวิเคราะห์ครั้งที่ 1 ภาพที่ 20 แสดงค่าของตัวแปร clu4_1, clu3_1 และ clu2_1
  42. 42. 42 ถ้าในหน้าจอ Hierachical Cluster Analysis ภาพที่ 14 เลือกตัวแปร Company ใส่ใน Label cases by โปรแกรมจะไม่มีการ Save ตัวแปร clu4_1, clu3_1 และ clu2_1 ให้ แต่จะมี Warning ดังนี้ Warning ดังนั้นในหน้าจอ Hierarchical Clusters จะต้องไม่เลือกตัวแปรใส่ใน box ของ Label Cases by โปรแกรม SPSS จึงจะ Save ตัวแปร clu4_1, clu3_1 และ clu2_1 ให้ในแฟ้มข้อมูล ซึ่งถือว่า ตัวแปร clu4_1, clu3_1 clu2_1 เป็นตัวแปรใหม่ และสามารถนาตัวแปรเหล่านี้มาวิเคราะห์ต่อไปนี้ โดยมีขั้นตอนดังนี้ ขั้นที่ 1 : หาจานวนCase หรือ Cases ในแต่ละ Cluster โดยใช้คาสั่งดังนี้ Analyze Descriptive Statistics requencies … จะได้หน้าจอภาพที่ 21 ภาพที่ 21 Frequencies SAVE will not be performed, since original Case number unknown !! Warning ระบุว่าจะไม่มี การ save ให้ ตามที่เลือก ในหน้าจอ
  43. 43. 43  เลือกตัวแปร clu2_1, clu3_1 และ clu3_1 ใส่ใน box ของ Variable (s)  เลือก  Display frequency tables  คลิก จะได้ผลลัพธ์ดังตาราง Average Linkage (Between Groups) Frequency Percent Valid Percent Cumulative Percent Valid 1 5 1.2 35.7 35.7 2 9 2.2 64.3 100.0 Total 14 3.4 100.0 Missing System 392 96.6 Total 406 100.0 Average Linkage (Between Groups) Frequency Percent Valid Percent Cumulative Percent Valid 1 5 1.2 35.7 35.7 2 8 2.0 57.1 92.9 3 1 .2 7.1 100.0 Total 14 3.4 100.0 Missing System 392 96.6 Total 406 100.0

×