SlideShare a Scribd company logo
Ph ần 3 – Những phân tích căn bản 
8 – Thao tác chuyển đổi dữ liệu
T i sao ạ phải chuyển đổi (chế biến) dữ liệu? 
• Đôi khi bạn không thể tiến hành phân tích, kiểm định giả thuyết vơi số 
liệu thô (raw data) 
Do đó, tùy vào nghiên cứu cụ thể, bạn có thể phải xử lý số liệu thô theo một 
số cách sau: 
• Tính ra tổng giá trị cho biến đối với mỗi cases. Hãy nhớ lại biến 
Optimism 
• Chuyển một biến từ không chuẩn sang biến chuẩn 
• Chuyển (collapsing) biến liên tục thành biến nhóm (định danh) (Vd: biến 
age chia thành young, middle-aged, và old) để thực hiện một số phân tích 
như variance 
• Chuyển (tăng hoặc giảm) biến nhóm thành biến nhóm khác (vd: biến 
marital sẽ được chuyển thành biến marital1 chỉ có hai nhãn “in a 
relationship” và “not in a relationship”)
Ghi lại những gì đã thay đổi với số liệu 
• Những gì bạn làm thay đổi với số liệu sẽ làm cho Codebook trước đây còn 
rất ít giá trị tham khảo. 
• Do đó, hãy ghi lại những gì mình đã làm (thay đổi) với dữ liệu thô ban đầu 
• SPSS có thể giúp bạn qua việc sử dụng chức năng Syntax Editor 
• Để có file Syntax, thì trong bất kỳ thao tác nào (vd: vẽ biểu đồ), thay vì 
nhấn Ok để kết thúc, bạn hãy nhấn Paste để ghi lại những gì mình đã làm 
• Trong file Syntax bạn cũng có thể thêm comment (vd: bạn ghi chú thứ 
mình làm). Nhớ là phải có ít nhất một cách dòng giữa comment của bạn 
và câu lệnh (cả trên và dưới), bắt đầu comment của bạn bằng một ngôi 
sao (* - asterisk) 
• Hãy mở một file SPSS ra và thử làm với Syntax nhé!!!
TÍNH TỔNG CHO CÁC BIẾN (trong một biến lớn, với mỗi 
case) 
(CALCULATING TOTAL SCALE SCORES) 
• Trước khi thực hiện tính tổng, bạn cũng nên cân nhắc xem 
liệu có thể cộng tổng giá trị của các biến được không. Bạn 
cần phải hiểu về nghiên cứu của mình 
Bao gồm 2 bước: 
• Bước 1: Đảo ngược tất cả những biến được diễn tả theo 
chiều “tiêu cực”. Tôi cần giải thích chỗ này mới được!!!! 
• Bước 2: Ra lệnh cho SPSS tính ra tổng giá trị của biến (cho 
mỗi case). Giải thích???
TÍNH TỔNG CHO CÁC BIẾN 
BƯỚC 1: ĐẢO NGƯỢC BIẾN “TIÊU CỰC” 
Hãy mở codebook học buổi đầu tiên ra, xem kỹ biến Optimism, bạn 
sẽ thấy vài điều: 
•Biến này bao gồm 6 biến nhỏ (từ op1 đến op6) 
•Về thang điểm: tất cả các biến đều được sử dụng giá trị theo thang 
Likert 5 điểm (1 – strongly disagree, 5 – strongly agree) 
•Tuy nhiên, nếu cho rằng biến op1 đang đi theo chiều “tích cực”, thì 
những biến nào đang đi theo chiều tiêu cực??? op2, op3,op4, op5, 
op6??? 
•Chính vì sự khác biệt trong “tích cực” và “tiêu cực” đó, người ta sẽ 
không thể cộng tổng giá trị của các biến này để tạo nên giá trị cho 
biến lớn là Optimism được 
•Do đó, người ta phải tiến hành đảo ngược biến “tiêu cực”. Để làm 
gì???
TÍNH TỔNG CHO CÁC BIẾN 
BƯỚC 1: ĐẢO NGƯỢC BIẾN “TIÊU CỰC” 
1. Với các biến op2, op4, op6 thì đảo ngược thế nào? Chỉ cần đảo lại giá trị 
thang điểm là được 
2. Tiến hành như sau: 
3. Transform/Recode/ Into Different Variables 
4. Chọn biến tiêu cực muốn chuyển đưa vào hộp Input Variable – Output 
Variable 
5. Nhấn vào biến thứ nhất (op2) và đặt cho nó tên mới trong mục Output 
Variable (vd: đặt là revop2). Lặp lại với các biến khác 
6. Old and New Value 
7. Trong phần Old value, ghi 1; trong phần New value, ghi 5 
8. Ok 
9. Tiếp tục quá trình đó cho tất cả các giá trị trong thang đo (cho biến op2): 
– Old value = 2, New value = 4 
– … Old value = 5, New value = 1 
10. Continue/ Ok hoặc Paste để ghi lại Syntax
• Transform/ Compute 
• Đi n tên bi ề ến mới (biến tổng) vào hộp Target Variable. Tốt nhất là có chữ 
T đằng trước (total) 
Chú ý quan trọng: không được đặt tên biến mới trùng với bất kỳ tên 
biến nào đã có trong fiel dữ liệu, bạn sẽ mất hết dữ liệu cũ!!! 
• Type and Label/ ghi nhãn cho biến mới/ Continue 
• Chuyển các biến cần tính vào hộp Numeric Expression 
• Nhấn + trên hình máy tính 
• Tiếp tục quá trình trên đến khi hết các biến cần tính tổng 
• Hãy kiểm tra lại tất cả các thông tin về các biến, dấu + 
• Ok hoặc Paste để ghi lại Syntax 
Bây giờ, bạn hãy tính tổng cho biến optimism mà bạn đã chuẩn bị ở bước 
1 
TÍNH TỔNG CHO CÁC BIẾN 
BƯỚC 2: CỘNG TỔNG GIÁ TRỊ CÁC BIẾN 
(cho mỗi biến lớn, mỗi một case)
Suy nghĩ sau khi đã tính tổng cho biến 
• Biến tổng (toptim)sẽ bị missing nếu một trong các biến phụ 
(op1,…, revop6) bị missing 
• Đôi khi người ta cần tìm ra giá trị trung bình của một biến 
nhỏ, sau khi đã tính tổng của biến lớn (toptim/6) 
• Luôn ghi vào codebook những gì bạn đã làm với việc tính 
tổng của biến 
• Sau khi đã có biến mới, hãy chạy thử thống kê mô tả để 
check lại biến này (kiểm tra lỗi), kiểm tra outliers 
• So sánh giá trị mean mới với những gì đã có trong literature 
• Kiểm tra phân phối chuẩn,…
Đ I BI N (TRANSFORMING Ổ Ế VARIABLES) 
• Tại sao lại phải đổi biến??? 
• Có rất nhiều kỹ thuật thống kê đò hỏi điều kiện của dữ liệu (vd: 
phân tích Peason correlation, variance; Spearman’s rho, Kruskal 
Wallis đòi hỏi phân phối chuẩn) 
• Tuy nhiên, sau khi đã có file dữ liệu được làm sạch, check 
descriptive statistics bạn có thể thất vọng về đặc điểm của nó!!! 
• May thay có SPSS, nó sẽ giúp ta lấy lại hy vọng, bằng cách đổi biến 
(transforming). Để hiểu thêm về transforming variables đọc Ch.4 
Tabachnick and Fidell (2007) 
• Nhớ: các kỹ thuật chuyển biến được nêu ở đây vẫn là những chủ 
đề được tranh cãi gay gắt. Ta mặc kệ đi!!!
CÁC DẠNG CHUYỂN BIẾN ĐIỂN HÌNH
CÁC DẠNG CHUYỂN BIẾN ĐIỂN HÌNH (tiếp)
Các bước thực hiện đổi biến 
1. Transform/ Compute Variable 
2. Target Variable: hãy ghi tên biến mới. Chú ý trong tên biến mới cần có dấu hiệu thể 
hiện mình đã làm gì với biến cũ và tên biến cũ 
Vd: sqnetgaff thể hiện là biến căn bậc 2 của netgaff 
3. Function: hãy chọn một trong hàng loạt kỹ thuật tính toán mà bạn cho là phù hợp 
4. Đối với đổi biến liên quan đến square root hoặc logarithm, chọn Function group/ 
Arithmetic/ chọn hàm (SQRT hoặc LOG10) đưa vào hộp Numeric Expression 
5. Đối với đổi biến dùng Reflect (xem lại slide trước), bạn cần phải tìm ra giá trị K cho 
biến (có thể tìm thấy ở codebook). Đưa giá trị K vào hộp Numeric Expression 
6. Đối với đổi biến dùng Inverse, ghi 1/biến (vd: 1/tslfest) trong hộp Numeric Expression 
7. Check lại các công thức trong phần Numeric Expression, ghi lại những thông tin về giá 
trị cho biến mới được tạo lập 
8. Type and Label/ Label/ ghi vắn tắt thông tin về biến mới 
9. Kiểm tra lại phần Target Variable xem biến mới có trùng tên với biến nào không? Nếu 
trùng các dữ liệu về biến trùng sẽ mất sạch!!! 
10. Ok hoặc Paste 
11. Hãy chạy Frequencies để kiểm tra skewness và kurtosis hoặc chạy Frequencies/ Chart/ 
Histogram xem biến mới tạo ra đã tiến triển hơn biến cũ chưa?
CHIA BI N LIÊN Ế TỤC THÀNH BIẾN NHÓM 
(COLLAPSING VARIABLES) 
Sử dụng file survey5ED 
• Trong một số phân tích (vd: phân tích Variance), bạn cần 
phân tổ (phân nhóm) biến liên tục (vd: low income, medium 
income, and high income) 
• Trong SPSS 15 trở lên có công cụ Visual Binning để xác định 
điểm cut-off của dãy số liệu 
• Vd: bạn có thể chia tuổi thành 3 nhóm (theo biến mới với 3 
giá trị: trẻ, trung niên, già). Trong khi một điều thú vị là SPSS 
vẫn giữ lại thông tin về age như cũ trong file dữ liệu.
CHIA BIẾN LIÊN TỤC THÀNH BIẾN NHÓM 
1. Transform/ Visual Binning 
2. Ch n bi n liên t c (vd: age) đ a vào h p Variables ọ ế ụ ư ộ to Bin/ Continue 
3. Trong hộp Visual Binning, nhấn vào biến 
4. Trong hộp Binned Variable, ghi tên của biến phân nhóm mới (vd: agegp3) 
5. Make Cutpoints/ Ok/ Equal Percentiles Based on Scanned Cases 
6. Trong hộp Number of Cutpoints hãy ghi số “n-1”, trong đó n là số nhóm 
bạn muốn có. Chọn Apply 
7. Make Labels, nhãn biến sẽ được tự động tạo thành 
8. Ok hoặc Paste 
9. Chạy Analyse/ Fequencies đối với biến mới để biết về số lượng các nhóm 
và tỷ lệ % 
CÁC BƯỚC TIẾN HÀNH
GỘP BIẾN THEO NHÓM 
• Đôi khi bạn cần giảm số nhóm của biến định danh. 
• Vd: gộp biến marital thành 2 nhóm: in a relationship và not in a 
relationship 
• Hoặc sau khi bạn chạy Descriptive bạn thấy có quá ít giá trị rơi biến rơi 
vào một nhóm nào đó (vd: chỉ có 1 case của biến educaton vào primary 
school), bạn có thể bỏ nó đi, hoặc có thể gộp vào nhóm khác (secondary 
school) 
• Hoặc với hồi quy (regression) bạn cần có 1 = yes, 0 = no (trong khi số liệu 
thô của bạn là 1 = yes, 2 = no) 
• Ta sẽ tạo biến mới (additional variable) nên biến cũ vẫn được giữ nguyên
GỘP BIẾN THEO NHÓM 
Các bước tiến hành 
C n l y ví d gi i thích ầ ấ ụ ả trên bảng trước đã!!! 
1.Transform/ Recode/ Into Different Variables 
2.Chọn biến muốn đổi (vd: educ), ghi thêm tên biến nếu bạn muốn trong 
phần Label/ Change 
3.Old and New Values 
4.Old Value/ Value/ ghi giá trị của biến cũ (vd: 1); trong phần New Value, ghi 
giá trị biến mới (thông thường cũng là 1. vì sao???). Nhấn Add 
5.Với biến cũ thứ hai, ghi 2 vào Old Value, và ghi 1 vào New Value (tức là 
đưa nhóm 1 và 2 cũ thành nhóm 1 mới). Nhấn Add 
6.Với giá trị thứ 3 của biến cũ, làm tương tự, tùy việc bạn muốn đưa nó vào 
nhóm nào trong biến mới. Nhấn Add 
7.Tiếp tục với các biến còn lại 
8.Continue/ Ok, hoặc Paste để ghi lại Syntax 
9.Mở cửa sổ Variable View ra, bạn sẽ thấy thông tin về biến mới
Bài tập – Bài 1 - Business 
Mở file staffsurvey5ED 
1.Tìm ra giá trị tổng của biến Staff Satisfaction (các biến nhỏ gồm 
Q1a+Q2a+Q3a ... to Q10a). Đặt tên biến tổng là staffsatis 
2.Hãy dùng thống kê mô tả để xem xét biến mới (staffsatis). So sánh nó với 
biến cũ ( đã có sẵn trong file – biến totsatis) 
3.Giá trị lớn nhất, nhỏ nhất (có thể) của biến mới? 
4.Hãy kiểm tra phân bố (histogram) của biến service, bạn hãy làm gì đó cho 
nó chuẩn hơn. Check lại nhé! 
5.Hãy chia nhóm service thành 3 nhóm bằng việc sử dụng Visual Binning dựa 
trên cơ sở equal percentiles, tên biến mới là gp3 service. Hãy chạy 
frequencies xem có bao nhiêu cases trong mỗi nhóm?
Bài 2 - Health 
• Mở file sleep5ED ra 
• Hãy tính tổng cho biến Sleepiness and Associated Sensations Scale. Các 
biến nhỏ cho nó là fatigue, lethargy, tired, sleepy, energy. Biến mới của 
bạn sẽ là sleeptot. Chú ý: không có biến nào cần phải chuyển trước khi 
tính tổng 
• Hãy chạy thống kê mô tả cho biến mới trên, so sánh nó với biến totSAS 
• Giá trị lớn nhất, nhỏ nhất của biến mới? 
• Kiểm tra phân phối của biến smokenum. Bạn hãy làm gì đó để biến này 
trở nên chuẩn hơn nhé! Nhớ kiểm tra lại phân phối của biến mới (nếu có) 
• Chia biến age thành 3 nhóm bằng sử dụng Visual Binning. Biến mới hãy 
đặt tên là gp3age. Sau đó hãy chạy frequencies để xêm mỗi nhóm biến 
mới có bao nhiêu cases

More Related Content

What's hot

Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSS
BeriDang
 
Test thong ke
Test thong keTest thong ke
Test thong kethang_ph
 
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketingHuong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
osevenphi
 
SPSS là gì
SPSS là gìSPSS là gì
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệu
nguoitinhmenyeu
 
Huong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhungHuong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhung
Duy Vọng
 
Hdsd spss phan-1
Hdsd spss phan-1Hdsd spss phan-1
Hdsd spss phan-1
Mai Khanh Hung
 
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
Si Thinh Hoang
 
Giới thiệu về SPSS
Giới thiệu về SPSSGiới thiệu về SPSS
Giới thiệu về SPSS
kudos21
 
Dàn bài nghiên cứu khoa học
Dàn bài nghiên cứu khoa họcDàn bài nghiên cứu khoa học
Dàn bài nghiên cứu khoa học希夢 坂井
 
Marketing research ngo minh tam chapter 4
Marketing research ngo minh tam chapter 4Marketing research ngo minh tam chapter 4
Marketing research ngo minh tam chapter 4Tống Bảo Hoàng
 
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang doBai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
Nghiên Cứu Định Lượng
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo tatqphi
 
Nghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lườngNghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lường
kudos21
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
vinhthedang
 
Tạo form - Chuẩn bị dữ liệu
Tạo form - Chuẩn bị dữ liệu Tạo form - Chuẩn bị dữ liệu
Tạo form - Chuẩn bị dữ liệu
Yen Luong-Thanh
 
Phân tích dữ liệu thống kê
Phân tích dữ liệu thống kêPhân tích dữ liệu thống kê
Phân tích dữ liệu thống kêHọc Huỳnh Bá
 
Phân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stataPhân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stata
SoM
 

What's hot (19)

Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSS
 
Test thong ke
Test thong keTest thong ke
Test thong ke
 
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketingHuong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
Huong dan su_dung_spss_ung_dung_trong_nghien_cuu_marketing
 
SPSS là gì
SPSS là gìSPSS là gì
SPSS là gì
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệu
 
Huong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhungHuong dan spss_co_ban_nhung
Huong dan spss_co_ban_nhung
 
Hdsd spss phan-1
Hdsd spss phan-1Hdsd spss phan-1
Hdsd spss phan-1
 
Chapter 9
Chapter 9Chapter 9
Chapter 9
 
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
Spss lesson 4.4 checking reliability_of_scale (kiem tra do tin cay cua bien)
 
Giới thiệu về SPSS
Giới thiệu về SPSSGiới thiệu về SPSS
Giới thiệu về SPSS
 
Dàn bài nghiên cứu khoa học
Dàn bài nghiên cứu khoa họcDàn bài nghiên cứu khoa học
Dàn bài nghiên cứu khoa học
 
Marketing research ngo minh tam chapter 4
Marketing research ngo minh tam chapter 4Marketing research ngo minh tam chapter 4
Marketing research ngo minh tam chapter 4
 
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang doBai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
Bai 2 mo hinh nghien cuu va kiem dinh su tin cay thang do
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo ta
 
Nghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lườngNghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lường
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
 
Tạo form - Chuẩn bị dữ liệu
Tạo form - Chuẩn bị dữ liệu Tạo form - Chuẩn bị dữ liệu
Tạo form - Chuẩn bị dữ liệu
 
Phân tích dữ liệu thống kê
Phân tích dữ liệu thống kêPhân tích dữ liệu thống kê
Phân tích dữ liệu thống kê
 
Phân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stataPhân tích thống kê cơ bản với stata
Phân tích thống kê cơ bản với stata
 

Viewers also liked

Spss
SpssSpss
Spsscipno
 
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_KhaiquatSpss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
Si Thinh Hoang
 
Phân tích tương quan hồi quy
Phân tích tương quan hồi quyPhân tích tương quan hồi quy
Phân tích tương quan hồi quy
Si Thinh Hoang
 
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
Si Thinh Hoang
 
Đánh giá lựa chọn dự án đầu tư kinh doanh
Đánh giá lựa chọn dự án đầu tư kinh doanhĐánh giá lựa chọn dự án đầu tư kinh doanh
Đánh giá lựa chọn dự án đầu tư kinh doanh
Si Thinh Hoang
 

Viewers also liked (6)

Spss
SpssSpss
Spss
 
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_KhaiquatSpss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
Spss lesson 5 phan_tich_moi_quan_he_giua_cac_bien_Khaiquat
 
Phân tích tương quan hồi quy
Phân tích tương quan hồi quyPhân tích tương quan hồi quy
Phân tích tương quan hồi quy
 
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
SPSS Lesson #4.2 (Vietnamese - Biểu đồ_Graphs)
 
Đánh giá lựa chọn dự án đầu tư kinh doanh
Đánh giá lựa chọn dự án đầu tư kinh doanhĐánh giá lựa chọn dự án đầu tư kinh doanh
Đánh giá lựa chọn dự án đầu tư kinh doanh
 
Visual binning
Visual binningVisual binning
Visual binning
 

Similar to Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptxBAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
TruongQuyQuocBao
 
IC3 GS4 Excel
IC3 GS4 ExcelIC3 GS4 Excel
IC3 GS4 Excel
Dũng Nguyễn Văn
 
Chủ đề 4
Chủ đề 4Chủ đề 4
Chủ đề 4
minhhai07b08
 
Unit 5 using microsoft office excel 2007 vie
Unit 5 using microsoft office excel 2007 vieUnit 5 using microsoft office excel 2007 vie
Unit 5 using microsoft office excel 2007 vie
HG Rồng Con
 
Huong dan su dung medcalc
Huong dan su dung medcalcHuong dan su dung medcalc
Huong dan su dung medcalc
Huy Hoang
 
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
clbinternet.info
 
Ppnc8
Ppnc8Ppnc8
Ppnc8
NguynTy5
 
Bao cao Pro II
Bao cao Pro IIBao cao Pro II
Bao cao Pro II
Kiều Xuân Ảnh
 
Cau hoi gia thanh (suu tam 3)
Cau hoi gia thanh (suu tam 3)Cau hoi gia thanh (suu tam 3)
Cau hoi gia thanh (suu tam 3)
Bluesofts
 
Hướng Dẫn Sử Dụng excel 2010
Hướng Dẫn Sử Dụng excel 2010Hướng Dẫn Sử Dụng excel 2010
Hướng Dẫn Sử Dụng excel 2010xeroxk
 
Mot so thu thuat hay trong excel
Mot so thu thuat hay trong excelMot so thu thuat hay trong excel
Mot so thu thuat hay trong excelxuantb
 
Phan 4
Phan 4Phan 4
Phan 4
smallgaint
 
Excel 2007 bai 2-1
Excel 2007   bai 2-1Excel 2007   bai 2-1
Excel 2007 bai 2-1Trang Asa
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
Trang Nguyễn Thị
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
Nguyễn Duy Hưng
 
Tu hoc Excel 2018
Tu hoc Excel 2018Tu hoc Excel 2018
Tu hoc Excel 2018
HuuCuong3
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
tranvuthanhkhiet
 

Similar to Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data) (20)

Excel 2007
Excel 2007Excel 2007
Excel 2007
 
BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptxBAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx
 
IC3 GS4 Excel
IC3 GS4 ExcelIC3 GS4 Excel
IC3 GS4 Excel
 
Chủ đề 4
Chủ đề 4Chủ đề 4
Chủ đề 4
 
Unit 5 using microsoft office excel 2007 vie
Unit 5 using microsoft office excel 2007 vieUnit 5 using microsoft office excel 2007 vie
Unit 5 using microsoft office excel 2007 vie
 
Huong dan su dung medcalc
Huong dan su dung medcalcHuong dan su dung medcalc
Huong dan su dung medcalc
 
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
CLB Internet - iShare: Ky nang Excel cho moi nguoi - 240615
 
Access vba 052009
Access vba 052009Access vba 052009
Access vba 052009
 
Ppnc8
Ppnc8Ppnc8
Ppnc8
 
Bao cao Pro II
Bao cao Pro IIBao cao Pro II
Bao cao Pro II
 
Cau hoi gia thanh (suu tam 3)
Cau hoi gia thanh (suu tam 3)Cau hoi gia thanh (suu tam 3)
Cau hoi gia thanh (suu tam 3)
 
Hướng Dẫn Sử Dụng excel 2010
Hướng Dẫn Sử Dụng excel 2010Hướng Dẫn Sử Dụng excel 2010
Hướng Dẫn Sử Dụng excel 2010
 
Mot so thu thuat hay trong excel
Mot so thu thuat hay trong excelMot so thu thuat hay trong excel
Mot so thu thuat hay trong excel
 
Phan 4
Phan 4Phan 4
Phan 4
 
PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1
 
Excel 2007 bai 2-1
Excel 2007   bai 2-1Excel 2007   bai 2-1
Excel 2007 bai 2-1
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
 
Tu hoc Excel 2018
Tu hoc Excel 2018Tu hoc Excel 2018
Tu hoc Excel 2018
 
Tu hoc excel
Tu hoc excelTu hoc excel
Tu hoc excel
 

Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)

  • 1. Ph ần 3 – Những phân tích căn bản 8 – Thao tác chuyển đổi dữ liệu
  • 2. T i sao ạ phải chuyển đổi (chế biến) dữ liệu? • Đôi khi bạn không thể tiến hành phân tích, kiểm định giả thuyết vơi số liệu thô (raw data) Do đó, tùy vào nghiên cứu cụ thể, bạn có thể phải xử lý số liệu thô theo một số cách sau: • Tính ra tổng giá trị cho biến đối với mỗi cases. Hãy nhớ lại biến Optimism • Chuyển một biến từ không chuẩn sang biến chuẩn • Chuyển (collapsing) biến liên tục thành biến nhóm (định danh) (Vd: biến age chia thành young, middle-aged, và old) để thực hiện một số phân tích như variance • Chuyển (tăng hoặc giảm) biến nhóm thành biến nhóm khác (vd: biến marital sẽ được chuyển thành biến marital1 chỉ có hai nhãn “in a relationship” và “not in a relationship”)
  • 3. Ghi lại những gì đã thay đổi với số liệu • Những gì bạn làm thay đổi với số liệu sẽ làm cho Codebook trước đây còn rất ít giá trị tham khảo. • Do đó, hãy ghi lại những gì mình đã làm (thay đổi) với dữ liệu thô ban đầu • SPSS có thể giúp bạn qua việc sử dụng chức năng Syntax Editor • Để có file Syntax, thì trong bất kỳ thao tác nào (vd: vẽ biểu đồ), thay vì nhấn Ok để kết thúc, bạn hãy nhấn Paste để ghi lại những gì mình đã làm • Trong file Syntax bạn cũng có thể thêm comment (vd: bạn ghi chú thứ mình làm). Nhớ là phải có ít nhất một cách dòng giữa comment của bạn và câu lệnh (cả trên và dưới), bắt đầu comment của bạn bằng một ngôi sao (* - asterisk) • Hãy mở một file SPSS ra và thử làm với Syntax nhé!!!
  • 4. TÍNH TỔNG CHO CÁC BIẾN (trong một biến lớn, với mỗi case) (CALCULATING TOTAL SCALE SCORES) • Trước khi thực hiện tính tổng, bạn cũng nên cân nhắc xem liệu có thể cộng tổng giá trị của các biến được không. Bạn cần phải hiểu về nghiên cứu của mình Bao gồm 2 bước: • Bước 1: Đảo ngược tất cả những biến được diễn tả theo chiều “tiêu cực”. Tôi cần giải thích chỗ này mới được!!!! • Bước 2: Ra lệnh cho SPSS tính ra tổng giá trị của biến (cho mỗi case). Giải thích???
  • 5. TÍNH TỔNG CHO CÁC BIẾN BƯỚC 1: ĐẢO NGƯỢC BIẾN “TIÊU CỰC” Hãy mở codebook học buổi đầu tiên ra, xem kỹ biến Optimism, bạn sẽ thấy vài điều: •Biến này bao gồm 6 biến nhỏ (từ op1 đến op6) •Về thang điểm: tất cả các biến đều được sử dụng giá trị theo thang Likert 5 điểm (1 – strongly disagree, 5 – strongly agree) •Tuy nhiên, nếu cho rằng biến op1 đang đi theo chiều “tích cực”, thì những biến nào đang đi theo chiều tiêu cực??? op2, op3,op4, op5, op6??? •Chính vì sự khác biệt trong “tích cực” và “tiêu cực” đó, người ta sẽ không thể cộng tổng giá trị của các biến này để tạo nên giá trị cho biến lớn là Optimism được •Do đó, người ta phải tiến hành đảo ngược biến “tiêu cực”. Để làm gì???
  • 6. TÍNH TỔNG CHO CÁC BIẾN BƯỚC 1: ĐẢO NGƯỢC BIẾN “TIÊU CỰC” 1. Với các biến op2, op4, op6 thì đảo ngược thế nào? Chỉ cần đảo lại giá trị thang điểm là được 2. Tiến hành như sau: 3. Transform/Recode/ Into Different Variables 4. Chọn biến tiêu cực muốn chuyển đưa vào hộp Input Variable – Output Variable 5. Nhấn vào biến thứ nhất (op2) và đặt cho nó tên mới trong mục Output Variable (vd: đặt là revop2). Lặp lại với các biến khác 6. Old and New Value 7. Trong phần Old value, ghi 1; trong phần New value, ghi 5 8. Ok 9. Tiếp tục quá trình đó cho tất cả các giá trị trong thang đo (cho biến op2): – Old value = 2, New value = 4 – … Old value = 5, New value = 1 10. Continue/ Ok hoặc Paste để ghi lại Syntax
  • 7. • Transform/ Compute • Đi n tên bi ề ến mới (biến tổng) vào hộp Target Variable. Tốt nhất là có chữ T đằng trước (total) Chú ý quan trọng: không được đặt tên biến mới trùng với bất kỳ tên biến nào đã có trong fiel dữ liệu, bạn sẽ mất hết dữ liệu cũ!!! • Type and Label/ ghi nhãn cho biến mới/ Continue • Chuyển các biến cần tính vào hộp Numeric Expression • Nhấn + trên hình máy tính • Tiếp tục quá trình trên đến khi hết các biến cần tính tổng • Hãy kiểm tra lại tất cả các thông tin về các biến, dấu + • Ok hoặc Paste để ghi lại Syntax Bây giờ, bạn hãy tính tổng cho biến optimism mà bạn đã chuẩn bị ở bước 1 TÍNH TỔNG CHO CÁC BIẾN BƯỚC 2: CỘNG TỔNG GIÁ TRỊ CÁC BIẾN (cho mỗi biến lớn, mỗi một case)
  • 8. Suy nghĩ sau khi đã tính tổng cho biến • Biến tổng (toptim)sẽ bị missing nếu một trong các biến phụ (op1,…, revop6) bị missing • Đôi khi người ta cần tìm ra giá trị trung bình của một biến nhỏ, sau khi đã tính tổng của biến lớn (toptim/6) • Luôn ghi vào codebook những gì bạn đã làm với việc tính tổng của biến • Sau khi đã có biến mới, hãy chạy thử thống kê mô tả để check lại biến này (kiểm tra lỗi), kiểm tra outliers • So sánh giá trị mean mới với những gì đã có trong literature • Kiểm tra phân phối chuẩn,…
  • 9. Đ I BI N (TRANSFORMING Ổ Ế VARIABLES) • Tại sao lại phải đổi biến??? • Có rất nhiều kỹ thuật thống kê đò hỏi điều kiện của dữ liệu (vd: phân tích Peason correlation, variance; Spearman’s rho, Kruskal Wallis đòi hỏi phân phối chuẩn) • Tuy nhiên, sau khi đã có file dữ liệu được làm sạch, check descriptive statistics bạn có thể thất vọng về đặc điểm của nó!!! • May thay có SPSS, nó sẽ giúp ta lấy lại hy vọng, bằng cách đổi biến (transforming). Để hiểu thêm về transforming variables đọc Ch.4 Tabachnick and Fidell (2007) • Nhớ: các kỹ thuật chuyển biến được nêu ở đây vẫn là những chủ đề được tranh cãi gay gắt. Ta mặc kệ đi!!!
  • 10. CÁC DẠNG CHUYỂN BIẾN ĐIỂN HÌNH
  • 11. CÁC DẠNG CHUYỂN BIẾN ĐIỂN HÌNH (tiếp)
  • 12. Các bước thực hiện đổi biến 1. Transform/ Compute Variable 2. Target Variable: hãy ghi tên biến mới. Chú ý trong tên biến mới cần có dấu hiệu thể hiện mình đã làm gì với biến cũ và tên biến cũ Vd: sqnetgaff thể hiện là biến căn bậc 2 của netgaff 3. Function: hãy chọn một trong hàng loạt kỹ thuật tính toán mà bạn cho là phù hợp 4. Đối với đổi biến liên quan đến square root hoặc logarithm, chọn Function group/ Arithmetic/ chọn hàm (SQRT hoặc LOG10) đưa vào hộp Numeric Expression 5. Đối với đổi biến dùng Reflect (xem lại slide trước), bạn cần phải tìm ra giá trị K cho biến (có thể tìm thấy ở codebook). Đưa giá trị K vào hộp Numeric Expression 6. Đối với đổi biến dùng Inverse, ghi 1/biến (vd: 1/tslfest) trong hộp Numeric Expression 7. Check lại các công thức trong phần Numeric Expression, ghi lại những thông tin về giá trị cho biến mới được tạo lập 8. Type and Label/ Label/ ghi vắn tắt thông tin về biến mới 9. Kiểm tra lại phần Target Variable xem biến mới có trùng tên với biến nào không? Nếu trùng các dữ liệu về biến trùng sẽ mất sạch!!! 10. Ok hoặc Paste 11. Hãy chạy Frequencies để kiểm tra skewness và kurtosis hoặc chạy Frequencies/ Chart/ Histogram xem biến mới tạo ra đã tiến triển hơn biến cũ chưa?
  • 13. CHIA BI N LIÊN Ế TỤC THÀNH BIẾN NHÓM (COLLAPSING VARIABLES) Sử dụng file survey5ED • Trong một số phân tích (vd: phân tích Variance), bạn cần phân tổ (phân nhóm) biến liên tục (vd: low income, medium income, and high income) • Trong SPSS 15 trở lên có công cụ Visual Binning để xác định điểm cut-off của dãy số liệu • Vd: bạn có thể chia tuổi thành 3 nhóm (theo biến mới với 3 giá trị: trẻ, trung niên, già). Trong khi một điều thú vị là SPSS vẫn giữ lại thông tin về age như cũ trong file dữ liệu.
  • 14. CHIA BIẾN LIÊN TỤC THÀNH BIẾN NHÓM 1. Transform/ Visual Binning 2. Ch n bi n liên t c (vd: age) đ a vào h p Variables ọ ế ụ ư ộ to Bin/ Continue 3. Trong hộp Visual Binning, nhấn vào biến 4. Trong hộp Binned Variable, ghi tên của biến phân nhóm mới (vd: agegp3) 5. Make Cutpoints/ Ok/ Equal Percentiles Based on Scanned Cases 6. Trong hộp Number of Cutpoints hãy ghi số “n-1”, trong đó n là số nhóm bạn muốn có. Chọn Apply 7. Make Labels, nhãn biến sẽ được tự động tạo thành 8. Ok hoặc Paste 9. Chạy Analyse/ Fequencies đối với biến mới để biết về số lượng các nhóm và tỷ lệ % CÁC BƯỚC TIẾN HÀNH
  • 15. GỘP BIẾN THEO NHÓM • Đôi khi bạn cần giảm số nhóm của biến định danh. • Vd: gộp biến marital thành 2 nhóm: in a relationship và not in a relationship • Hoặc sau khi bạn chạy Descriptive bạn thấy có quá ít giá trị rơi biến rơi vào một nhóm nào đó (vd: chỉ có 1 case của biến educaton vào primary school), bạn có thể bỏ nó đi, hoặc có thể gộp vào nhóm khác (secondary school) • Hoặc với hồi quy (regression) bạn cần có 1 = yes, 0 = no (trong khi số liệu thô của bạn là 1 = yes, 2 = no) • Ta sẽ tạo biến mới (additional variable) nên biến cũ vẫn được giữ nguyên
  • 16. GỘP BIẾN THEO NHÓM Các bước tiến hành C n l y ví d gi i thích ầ ấ ụ ả trên bảng trước đã!!! 1.Transform/ Recode/ Into Different Variables 2.Chọn biến muốn đổi (vd: educ), ghi thêm tên biến nếu bạn muốn trong phần Label/ Change 3.Old and New Values 4.Old Value/ Value/ ghi giá trị của biến cũ (vd: 1); trong phần New Value, ghi giá trị biến mới (thông thường cũng là 1. vì sao???). Nhấn Add 5.Với biến cũ thứ hai, ghi 2 vào Old Value, và ghi 1 vào New Value (tức là đưa nhóm 1 và 2 cũ thành nhóm 1 mới). Nhấn Add 6.Với giá trị thứ 3 của biến cũ, làm tương tự, tùy việc bạn muốn đưa nó vào nhóm nào trong biến mới. Nhấn Add 7.Tiếp tục với các biến còn lại 8.Continue/ Ok, hoặc Paste để ghi lại Syntax 9.Mở cửa sổ Variable View ra, bạn sẽ thấy thông tin về biến mới
  • 17. Bài tập – Bài 1 - Business Mở file staffsurvey5ED 1.Tìm ra giá trị tổng của biến Staff Satisfaction (các biến nhỏ gồm Q1a+Q2a+Q3a ... to Q10a). Đặt tên biến tổng là staffsatis 2.Hãy dùng thống kê mô tả để xem xét biến mới (staffsatis). So sánh nó với biến cũ ( đã có sẵn trong file – biến totsatis) 3.Giá trị lớn nhất, nhỏ nhất (có thể) của biến mới? 4.Hãy kiểm tra phân bố (histogram) của biến service, bạn hãy làm gì đó cho nó chuẩn hơn. Check lại nhé! 5.Hãy chia nhóm service thành 3 nhóm bằng việc sử dụng Visual Binning dựa trên cơ sở equal percentiles, tên biến mới là gp3 service. Hãy chạy frequencies xem có bao nhiêu cases trong mỗi nhóm?
  • 18. Bài 2 - Health • Mở file sleep5ED ra • Hãy tính tổng cho biến Sleepiness and Associated Sensations Scale. Các biến nhỏ cho nó là fatigue, lethargy, tired, sleepy, energy. Biến mới của bạn sẽ là sleeptot. Chú ý: không có biến nào cần phải chuyển trước khi tính tổng • Hãy chạy thống kê mô tả cho biến mới trên, so sánh nó với biến totSAS • Giá trị lớn nhất, nhỏ nhất của biến mới? • Kiểm tra phân phối của biến smokenum. Bạn hãy làm gì đó để biến này trở nên chuẩn hơn nhé! Nhớ kiểm tra lại phân phối của biến mới (nếu có) • Chia biến age thành 3 nhóm bằng sử dụng Visual Binning. Biến mới hãy đặt tên là gp3age. Sau đó hãy chạy frequencies để xêm mỗi nhóm biến mới có bao nhiêu cases