SlideShare a Scribd company logo
1 of 37
NHẬP, LÀM SẠCH SỐ LIỆU
VÀ MÃ HÓA LẠI BIẾN SỐ
TIN HỌC ỨNG DỤNG
TRƯỜNG ĐẠI HỌC Y DƯỢC HUẾ
BỘ MÔN THỐNG KÊ Y TẾ – DÂN SỐ - SỨC KHỎE SINH SẢN
1
Mục tiêu
1. Ứng dụng kỹ thuật làm sạch số liệu để tìm ra các lỗi thông
thường trong bộ số liệu.
2. Sử dụng được lệnh mã hóa lại biến số từ các biến số có sẵn
trong bộ số liệu.
2
3
Nhập số liệu
Ô cần nhập
LÀM SẠCH SỐ LIỆU
4
1) Lỗi bỏ trống số liệu (Missing): những ô bắt buộc phải nhập số liệu thì
lại bỏ trống; không có giá trị (phân biệt với trường hợp bỏ trống do sự
ràng buộc giữa các biến số).
2) Lỗi nhập sai giá trị đã mã hóa (Ví dụ: biến giới tính được mã hóa 1:
nam, 2: nữ nhưng số liệu lại có những giá trị 3, 4, 5…).
3) Lỗi logic giữa các biến số. (Ví dụ: Tình trạng hút thuốc là không hút
nhưng số điếu hút là 10 điếu/ngày. Bệnh nhân không có BHYT nhưng
mục thanh toán lại ghi là thanh toán bằng BHYT. Tuổi của đối tượng
nghiên cứu là 5 nhưng nghề nghiệp là cán bộ công chức).
Một số lỗi thông thường
5
Lọc số liệu
6
Lọc số liệu
Lỗi bỏ trống số liệu
Lỗi nhập sai giá trị đã mã hóa
7
Lọc số liệu
Lỗi logic
8
Các bước làm sạch số liệu
Xác định vị trí
lỗi trong bộ
số liệu
Sử dụng các kỹ
thuật để phát hiện
lỗi trong bộ số liệu
Kiểm tra lại số liệu trên
phiếu phỏng vấn và sửa
lỗi số liệu trên phần mềm
• Sắp xếp số liệu (Sort Cases)
• Sử dụng bảng phân bố tần suất (Frequencies)
• Sử dụng bảng mô tả (Descriptives)
• Sử dụng bảng chéo (Crosstabs)
• Lựa chọn các trường hợp (Select Cases)
• Tách tập số liệu (Split File)
• Lệnh tìm kiếm (Find)
9
Một số kỹ thuật làm sạch số liệu
Sắp xếp số liệu (Sort Cases)
 Có thể sắp xếp giá trị của biến số theo thứ tự tăng dần hoặc giảm dần.
 Phát hiện giá trị bỏ trống hoặc giá trị nhập sai.
 Chọn lệnh Sort Cases theo đường dẫn Data  Sort Cases.
Biến số cần sắp xếp
Tăng dần
Giảm dần
Sắp xếp số liệu (Sort Cases)
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số tuổi
theo thứ tự tăng dần, các giá trị bỏ trống xuất hiện ở trên cùng hiển thị tại
màn hình Data View:
Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số giới
tính theo thứ tự giảm dần, phát hiện giá trị nhập sai là 3 so với giá trị mã
hóa ban đầu (1. Nam và 2. Nữ) hiển thị tại màn hình Data View:
Sử dụng bảng phân bố tần suất (Frequencies)
 Kiểm tra số liệu cho biến số định tính.
 Phát hiện lỗi bỏ trống số liệu, lỗi nhập sai giá trị đã mã hóa.
 Sử dụng câu lệnh Frequencies theo đường dẫn Analyze 
Descriptive Statistics  Frequencies. Đưa biến số cần kiểm tra vào
ô Variable(s) rồi nhấn OK.
 Kết quả hiển thị ở màn hình Output:
Giá trị nhập sai
Giá trị bỏ trống
(trường hợp kiểu
biến số là String)
Sử dụng bảng mô tả (Descriptives)
 Kiểm tra sơ bộ các biến số định lượng.
 Phát hiện lỗi bỏ trống số liệu hay giá trị quá lớn hoặc quá bé so với
trung bình chung của tổng thể.
 Sử dụng câu lệnh Descriptives theo đường dẫn Analyze  Descriptive
Statistics  Descriptives. Đưa biến số cần kiểm tra vào ô Variable(s)
rồi nhấn OK.
 Kết quả hiển thị ở màn hình Output:
Bỏ trống 2 trường
hợp (so với mẫu
nghiên cứu là 600)
Giá trị quá lớn so với
trung bình độ tuổi là 5,88
Sử dụng bảng chéo (Crosstabs)
Biến số ở hàng
Biến số ở cột
 Kiểm tra lỗi logic giữa các biến số.
 Sử dụng câu lệnh Crosstabs theo đường dẫn Analyze  Descriptive Statistics 
Crosstabs.
 Đưa biến số Biết cân nặng lúc sinh của trẻ (bietcnls) vào cột (Column).
 Đưa biến số Cân nặng lúc sinh của trẻ (cnls) vào hàng (Row).
 Nhấn OK.
Sử dụng bảng chéo (Crosstabs)
Lỗi logic
Lệnh tìm kiếm (Find)
Lệnh tìm kiếm (Find)
Bôi đen
biến cần tìm
Nhập giá trị
cần tìm
Chọn Entire cell nếu
muốn tìm chính xác giá
trị trong ô Find
Nhấn Find Next cho
đến khi tìm ra giá trị
cần tìm
1. Lựa chọn các trường hợp (Select Cases)
2. Chia tách số liệu (Split File)
 2 lệnh này sẽ chỉ hiển thị trên màn hình chứa kết quả (Output) khi
phân tích số liệu
18
Lọc số liệu
19
Lựa chọn các trường hợp (Select Cases)
Tích chọn If
condition is
satisfied
Tích chọn
If…
Lựa chọn các trường hợp (Select Cases)
Ô nhập điều kiện
cần lựa chọn
Lưu ý: nếu loại biến là string
thì giá trị đưa vào cần có
dấu ngoặc kép “ “
Các biểu thức so
sánh
21
Lựa chọn các trường hợp (Select Cases)
Lưu ý: nếu không sử
dụng Select Cases ta
trở lại lệnh Select
Cases và chọn All
cases hoặc nhấn nút
Reset.
22
Lọc số liệu
Chia tách dữ liệu (Split File)
Đưa biến vào
ô này để tách
nhóm dữ liệu
Kết quả sẽ được tách
theo nhóm nhưng nằm
trong một bảng
Kết quả sẽ được tách
theo nhóm và nằm ở các
bảng khác nhau
Nếu không dùng lệnh
Split File thì chọn lại
Analyze all cases
MÃ HÓA LẠI BIẾN SỐ
(RECODE)
23
Có 2 phương pháp chủ yếu:
1. Mã hóa số liệu cũ (Old value)  số liệu mới (New value)  lưu trữ trên
biến số gốc (số liệu cũ bị mất).
(Recode into same variable)
2. Mã hóa số liệu cũ  số liệu mới  lưu trữ trên biến số mới (lưu ý khai
báo biến số mới ở phần Output Variable)
(Recode into different variable)
24
Mã hóa lại biến số (Recode)
Thường sử dụng phương pháp 2 để tránh mất số liệu cũ.
Mã hóa lại biến số (Recode)
Recode into same variable Recode into different variable
Khai báo biến số
mới
Ví dụ: Chia chiều cao thành 4 nhóm
Nhóm 1: <75cm Nhóm 2: 75- <100cm
Nhóm 3: 100- <125cm Nhóm 4: ≥ 125cm
Sử dụng lệnh: Recode into different variable
Mã hóa lại biến số (Recode)
Ô chứa biến số
cần mã hóa
Đặt tên biến
số mới (lưu ý
quy định đặt
tên biến số)
Đặt nhãn biến
số
Mã hóa lại biến số (Recode)
Giá trị cũ Giá trị mới
Mã hóa lại biến số (Recode)
Mã hóa một giá trị
nhất định (1, 2, 3, 4…)
Mã hóa từ …đến…
(VD: 10-15 tuổi)
Mã hóa giá trị nhỏ nhất đến…
(VD: < 5 tuổi ta nhập vào 4
hoặc 4.9999)
Mã hóa từ… đến giá trị lớn nhất
(VD: > 10 tuổi ta nhập vào 11 hoặc 10.0001)
Mã hóa những
giá trị còn lại
Nhập giá trị mới
Ô chứa các giá trị đã mã hóa
Sau khi khai báo giá trị cũ và
mới ta nhấn Add để đưa vào ô
này, nhấn Change để thay đổi,
nhấn Remove để xóa
Tích chọn để biến số mới có
dạng chuỗi (string)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Mã hóa lại biến số (Recode)
Sử dụng bảng tần suất (Frequencies để kiểm tra lại biến số mới sau khi mã hóa
- Tổng số trường hợp có đúng so với biến số cũ?
- Số nhóm có đúng như mã hóa?
• Về nguyên tắc thực hiện giống với Recode into different
variable.
• Không khai báo biến số mới.
• Số liệu cũ sẽ bị mất.
Recode into same variables
32
Mã hóa lại biến số (Recode)
Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến: cân nặng,
chiều cao, vòng đầu, vòng ngực (đo lần 1), vòng ngực (đo lần 2), vòng
cánh tay, hồng cầu, Hemoglobin, huyết cầu tố.
1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên?
2. Lỗi sai xuất hiện trong những biến số trên?
3. Mã số phiếu chứa lỗi sai ở những biến số trên?
BÀI TẬP 1
33
Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến:
Nguồn thu nhập, các triệu chứng thiếu máu (da xanh xao, niêm
mạc mắt nhợt nhạt, lòng bàn tay nhợt nhạt, lưỡi mất gai, móng
tay nhợt nhạt, gan to).
1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên?
2. Lỗi sai xuất hiện trong những biến số trên?
3. Mã số phiếu chứa lỗi sai ở những biến số trên?
BÀI TẬP 2
34
 Kiểm tra tính logic của số liệu giữa 2 biến: Biết tuổi thai sinh
theo tuần (bietthai) và Tuổi thai sinh theo tuần (tuoithai).
 Kiểm tra tính logic của số liệu giữa 2 biến: Trình độ học vấn mẹ
(tdhv) và Nghề nghiệp mẹ (nghe).
1. Lệnh làm sạch số liệu được sử dụng trong trường hợp trên?
2. Mã số phiếu sai trong trường hợp trên?
BÀI TẬP 3
35
BÀI TẬP 4
Chia 5 nhóm cân nặng:
• nhóm 1: < 10 kg
• nhóm 2: 10 - <20 kg
• nhóm 3: 20 - <30 Kg
• nhóm 4: 30 - <40 Kg
• nhóm 5: ≥ 40 Kg
1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm?
2. Tỷ lệ cao nhất và thấp nhất thuộc nhóm nào?
3. Tỷ lệ trẻ nặng dưới 20 kg là bao nhiêu?
4. Hãy cho biết số lượng và tỷ lệ mỗi nhóm cân nặng theo giới
tính (nam/nữ)?
36
BÀI TẬP 5
Chia tuổi mẹ thành 5 nhóm tuổi:
• nhóm 1: 18-24
• nhóm 2: 25-29
• nhóm 3: 30-39
• nhóm 4: 40-49
• nhóm 5 : ≥ 50
Chia trình độ học vấn mẹ thành 3 nhóm:
• HV thấp : mù chữ + biết đọc, viết
• HV trung bình : tiểu học + THCS
• HV cao : THPT + TC, ĐH
1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm?
2. Hãy cho biết số lượng và tỷ lệ mỗi nhóm tuổi mẹ theo 3
nhóm học vấn?
37

More Related Content

Similar to BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx

Xử lý số liệu cơ bản với spss v.15
Xử lý số liệu cơ bản với spss v.15Xử lý số liệu cơ bản với spss v.15
Xử lý số liệu cơ bản với spss v.15phongnq
 
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)Si Thinh Hoang
 
Huong dan su dung medcalc
Huong dan su dung medcalcHuong dan su dung medcalc
Huong dan su dung medcalcHuy Hoang
 
THCS_W14_BaiDocThem
THCS_W14_BaiDocThemTHCS_W14_BaiDocThem
THCS_W14_BaiDocThemCNTT-DHQG
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptxMUyn25
 
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...Development and Policies Research Center (DEPOCEN)
 
Chon mau va co mau hvm
Chon mau va co mau hvmChon mau va co mau hvm
Chon mau va co mau hvmNgoc Hoang
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuvinhthedang
 
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPT
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPTBÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPT
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPTMasterCode.vn
 
Quy hoạch thực nghiệm (9)
Quy hoạch thực nghiệm (9)Quy hoạch thực nghiệm (9)
Quy hoạch thực nghiệm (9)Phạm Vấn
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdfJane213811
 
Bai 1 - Huong dan su dung phan mem Stata - Bai Giang.pdf
Bai 1 - Huong dan su dung phan mem Stata  - Bai Giang.pdfBai 1 - Huong dan su dung phan mem Stata  - Bai Giang.pdf
Bai 1 - Huong dan su dung phan mem Stata - Bai Giang.pdfBitoTrongTrng
 
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungHuong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungNguyễn Ngọc Trâm
 
Spss lesson5.1 phan tich_tuong_quan_correlation
Spss lesson5.1 phan tich_tuong_quan_correlationSpss lesson5.1 phan tich_tuong_quan_correlation
Spss lesson5.1 phan tich_tuong_quan_correlationSi Thinh Hoang
 

Similar to BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx (20)

Chapter 9
Chapter 9Chapter 9
Chapter 9
 
Xử lý số liệu cơ bản với spss v.15
Xử lý số liệu cơ bản với spss v.15Xử lý số liệu cơ bản với spss v.15
Xử lý số liệu cơ bản với spss v.15
 
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)
Spss lesson #4.3 quan ly file so lieu (phan 3 8 manipulating_data)
 
Tin 2
Tin 2Tin 2
Tin 2
 
Huong dan su dung medcalc
Huong dan su dung medcalcHuong dan su dung medcalc
Huong dan su dung medcalc
 
Giáo trình excel nâng cao tud
Giáo trình excel nâng cao   tudGiáo trình excel nâng cao   tud
Giáo trình excel nâng cao tud
 
THCS_W14_BaiDocThem
THCS_W14_BaiDocThemTHCS_W14_BaiDocThem
THCS_W14_BaiDocThem
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
 
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
(1) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 1: Giới th...
 
Chon mau va co mau hvm
Chon mau va co mau hvmChon mau va co mau hvm
Chon mau va co mau hvm
 
Bai giang
Bai giangBai giang
Bai giang
 
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫuBài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
Bài giảng và bài tập chọn mẫu và tính toán cỡ mẫu
 
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPT
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPTBÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPT
BÀI 4: Lệnh lựa chọn và quy trình phát triển phần mềm - Giáo trình FPT
 
Quy hoạch thực nghiệm (9)
Quy hoạch thực nghiệm (9)Quy hoạch thực nghiệm (9)
Quy hoạch thực nghiệm (9)
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdf
 
Kế toán Excel
Kế toán ExcelKế toán Excel
Kế toán Excel
 
Bai 1 - Huong dan su dung phan mem Stata - Bai Giang.pdf
Bai 1 - Huong dan su dung phan mem Stata  - Bai Giang.pdfBai 1 - Huong dan su dung phan mem Stata  - Bai Giang.pdf
Bai 1 - Huong dan su dung phan mem Stata - Bai Giang.pdf
 
PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1
 
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhungHuong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
Huong dan thuc_hanh_spss_th_s_pham_le_hong_nhung
 
Spss lesson5.1 phan tich_tuong_quan_correlation
Spss lesson5.1 phan tich_tuong_quan_correlationSpss lesson5.1 phan tich_tuong_quan_correlation
Spss lesson5.1 phan tich_tuong_quan_correlation
 

BAI 2 NHAP, LAM SACH VA MA HOA SO LIEU.pptx

  • 1. NHẬP, LÀM SẠCH SỐ LIỆU VÀ MÃ HÓA LẠI BIẾN SỐ TIN HỌC ỨNG DỤNG TRƯỜNG ĐẠI HỌC Y DƯỢC HUẾ BỘ MÔN THỐNG KÊ Y TẾ – DÂN SỐ - SỨC KHỎE SINH SẢN 1
  • 2. Mục tiêu 1. Ứng dụng kỹ thuật làm sạch số liệu để tìm ra các lỗi thông thường trong bộ số liệu. 2. Sử dụng được lệnh mã hóa lại biến số từ các biến số có sẵn trong bộ số liệu. 2
  • 3. 3 Nhập số liệu Ô cần nhập
  • 4. LÀM SẠCH SỐ LIỆU 4
  • 5. 1) Lỗi bỏ trống số liệu (Missing): những ô bắt buộc phải nhập số liệu thì lại bỏ trống; không có giá trị (phân biệt với trường hợp bỏ trống do sự ràng buộc giữa các biến số). 2) Lỗi nhập sai giá trị đã mã hóa (Ví dụ: biến giới tính được mã hóa 1: nam, 2: nữ nhưng số liệu lại có những giá trị 3, 4, 5…). 3) Lỗi logic giữa các biến số. (Ví dụ: Tình trạng hút thuốc là không hút nhưng số điếu hút là 10 điếu/ngày. Bệnh nhân không có BHYT nhưng mục thanh toán lại ghi là thanh toán bằng BHYT. Tuổi của đối tượng nghiên cứu là 5 nhưng nghề nghiệp là cán bộ công chức). Một số lỗi thông thường 5 Lọc số liệu
  • 6. 6 Lọc số liệu Lỗi bỏ trống số liệu Lỗi nhập sai giá trị đã mã hóa
  • 8. 8 Các bước làm sạch số liệu Xác định vị trí lỗi trong bộ số liệu Sử dụng các kỹ thuật để phát hiện lỗi trong bộ số liệu Kiểm tra lại số liệu trên phiếu phỏng vấn và sửa lỗi số liệu trên phần mềm
  • 9. • Sắp xếp số liệu (Sort Cases) • Sử dụng bảng phân bố tần suất (Frequencies) • Sử dụng bảng mô tả (Descriptives) • Sử dụng bảng chéo (Crosstabs) • Lựa chọn các trường hợp (Select Cases) • Tách tập số liệu (Split File) • Lệnh tìm kiếm (Find) 9 Một số kỹ thuật làm sạch số liệu
  • 10. Sắp xếp số liệu (Sort Cases)  Có thể sắp xếp giá trị của biến số theo thứ tự tăng dần hoặc giảm dần.  Phát hiện giá trị bỏ trống hoặc giá trị nhập sai.  Chọn lệnh Sort Cases theo đường dẫn Data  Sort Cases. Biến số cần sắp xếp Tăng dần Giảm dần
  • 11. Sắp xếp số liệu (Sort Cases) Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số tuổi theo thứ tự tăng dần, các giá trị bỏ trống xuất hiện ở trên cùng hiển thị tại màn hình Data View: Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số giới tính theo thứ tự giảm dần, phát hiện giá trị nhập sai là 3 so với giá trị mã hóa ban đầu (1. Nam và 2. Nữ) hiển thị tại màn hình Data View:
  • 12. Sử dụng bảng phân bố tần suất (Frequencies)  Kiểm tra số liệu cho biến số định tính.  Phát hiện lỗi bỏ trống số liệu, lỗi nhập sai giá trị đã mã hóa.  Sử dụng câu lệnh Frequencies theo đường dẫn Analyze  Descriptive Statistics  Frequencies. Đưa biến số cần kiểm tra vào ô Variable(s) rồi nhấn OK.  Kết quả hiển thị ở màn hình Output: Giá trị nhập sai Giá trị bỏ trống (trường hợp kiểu biến số là String)
  • 13. Sử dụng bảng mô tả (Descriptives)  Kiểm tra sơ bộ các biến số định lượng.  Phát hiện lỗi bỏ trống số liệu hay giá trị quá lớn hoặc quá bé so với trung bình chung của tổng thể.  Sử dụng câu lệnh Descriptives theo đường dẫn Analyze  Descriptive Statistics  Descriptives. Đưa biến số cần kiểm tra vào ô Variable(s) rồi nhấn OK.  Kết quả hiển thị ở màn hình Output: Bỏ trống 2 trường hợp (so với mẫu nghiên cứu là 600) Giá trị quá lớn so với trung bình độ tuổi là 5,88
  • 14. Sử dụng bảng chéo (Crosstabs) Biến số ở hàng Biến số ở cột  Kiểm tra lỗi logic giữa các biến số.  Sử dụng câu lệnh Crosstabs theo đường dẫn Analyze  Descriptive Statistics  Crosstabs.  Đưa biến số Biết cân nặng lúc sinh của trẻ (bietcnls) vào cột (Column).  Đưa biến số Cân nặng lúc sinh của trẻ (cnls) vào hàng (Row).  Nhấn OK.
  • 15. Sử dụng bảng chéo (Crosstabs) Lỗi logic
  • 17. Lệnh tìm kiếm (Find) Bôi đen biến cần tìm Nhập giá trị cần tìm Chọn Entire cell nếu muốn tìm chính xác giá trị trong ô Find Nhấn Find Next cho đến khi tìm ra giá trị cần tìm
  • 18. 1. Lựa chọn các trường hợp (Select Cases) 2. Chia tách số liệu (Split File)  2 lệnh này sẽ chỉ hiển thị trên màn hình chứa kết quả (Output) khi phân tích số liệu 18 Lọc số liệu
  • 19. 19 Lựa chọn các trường hợp (Select Cases) Tích chọn If condition is satisfied Tích chọn If…
  • 20. Lựa chọn các trường hợp (Select Cases) Ô nhập điều kiện cần lựa chọn Lưu ý: nếu loại biến là string thì giá trị đưa vào cần có dấu ngoặc kép “ “ Các biểu thức so sánh
  • 21. 21 Lựa chọn các trường hợp (Select Cases) Lưu ý: nếu không sử dụng Select Cases ta trở lại lệnh Select Cases và chọn All cases hoặc nhấn nút Reset.
  • 22. 22 Lọc số liệu Chia tách dữ liệu (Split File) Đưa biến vào ô này để tách nhóm dữ liệu Kết quả sẽ được tách theo nhóm nhưng nằm trong một bảng Kết quả sẽ được tách theo nhóm và nằm ở các bảng khác nhau Nếu không dùng lệnh Split File thì chọn lại Analyze all cases
  • 23. MÃ HÓA LẠI BIẾN SỐ (RECODE) 23
  • 24. Có 2 phương pháp chủ yếu: 1. Mã hóa số liệu cũ (Old value)  số liệu mới (New value)  lưu trữ trên biến số gốc (số liệu cũ bị mất). (Recode into same variable) 2. Mã hóa số liệu cũ  số liệu mới  lưu trữ trên biến số mới (lưu ý khai báo biến số mới ở phần Output Variable) (Recode into different variable) 24 Mã hóa lại biến số (Recode) Thường sử dụng phương pháp 2 để tránh mất số liệu cũ.
  • 25. Mã hóa lại biến số (Recode) Recode into same variable Recode into different variable Khai báo biến số mới
  • 26. Ví dụ: Chia chiều cao thành 4 nhóm Nhóm 1: <75cm Nhóm 2: 75- <100cm Nhóm 3: 100- <125cm Nhóm 4: ≥ 125cm Sử dụng lệnh: Recode into different variable Mã hóa lại biến số (Recode) Ô chứa biến số cần mã hóa Đặt tên biến số mới (lưu ý quy định đặt tên biến số) Đặt nhãn biến số
  • 27. Mã hóa lại biến số (Recode) Giá trị cũ Giá trị mới
  • 28. Mã hóa lại biến số (Recode) Mã hóa một giá trị nhất định (1, 2, 3, 4…) Mã hóa từ …đến… (VD: 10-15 tuổi) Mã hóa giá trị nhỏ nhất đến… (VD: < 5 tuổi ta nhập vào 4 hoặc 4.9999) Mã hóa từ… đến giá trị lớn nhất (VD: > 10 tuổi ta nhập vào 11 hoặc 10.0001) Mã hóa những giá trị còn lại Nhập giá trị mới Ô chứa các giá trị đã mã hóa Sau khi khai báo giá trị cũ và mới ta nhấn Add để đưa vào ô này, nhấn Change để thay đổi, nhấn Remove để xóa Tích chọn để biến số mới có dạng chuỗi (string)
  • 29. Mã hóa lại biến số (Recode)
  • 30. Mã hóa lại biến số (Recode)
  • 31. Mã hóa lại biến số (Recode) Sử dụng bảng tần suất (Frequencies để kiểm tra lại biến số mới sau khi mã hóa - Tổng số trường hợp có đúng so với biến số cũ? - Số nhóm có đúng như mã hóa?
  • 32. • Về nguyên tắc thực hiện giống với Recode into different variable. • Không khai báo biến số mới. • Số liệu cũ sẽ bị mất. Recode into same variables 32 Mã hóa lại biến số (Recode)
  • 33. Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến: cân nặng, chiều cao, vòng đầu, vòng ngực (đo lần 1), vòng ngực (đo lần 2), vòng cánh tay, hồng cầu, Hemoglobin, huyết cầu tố. 1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên? 2. Lỗi sai xuất hiện trong những biến số trên? 3. Mã số phiếu chứa lỗi sai ở những biến số trên? BÀI TẬP 1 33
  • 34. Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến: Nguồn thu nhập, các triệu chứng thiếu máu (da xanh xao, niêm mạc mắt nhợt nhạt, lòng bàn tay nhợt nhạt, lưỡi mất gai, móng tay nhợt nhạt, gan to). 1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên? 2. Lỗi sai xuất hiện trong những biến số trên? 3. Mã số phiếu chứa lỗi sai ở những biến số trên? BÀI TẬP 2 34
  • 35.  Kiểm tra tính logic của số liệu giữa 2 biến: Biết tuổi thai sinh theo tuần (bietthai) và Tuổi thai sinh theo tuần (tuoithai).  Kiểm tra tính logic của số liệu giữa 2 biến: Trình độ học vấn mẹ (tdhv) và Nghề nghiệp mẹ (nghe). 1. Lệnh làm sạch số liệu được sử dụng trong trường hợp trên? 2. Mã số phiếu sai trong trường hợp trên? BÀI TẬP 3 35
  • 36. BÀI TẬP 4 Chia 5 nhóm cân nặng: • nhóm 1: < 10 kg • nhóm 2: 10 - <20 kg • nhóm 3: 20 - <30 Kg • nhóm 4: 30 - <40 Kg • nhóm 5: ≥ 40 Kg 1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm? 2. Tỷ lệ cao nhất và thấp nhất thuộc nhóm nào? 3. Tỷ lệ trẻ nặng dưới 20 kg là bao nhiêu? 4. Hãy cho biết số lượng và tỷ lệ mỗi nhóm cân nặng theo giới tính (nam/nữ)? 36
  • 37. BÀI TẬP 5 Chia tuổi mẹ thành 5 nhóm tuổi: • nhóm 1: 18-24 • nhóm 2: 25-29 • nhóm 3: 30-39 • nhóm 4: 40-49 • nhóm 5 : ≥ 50 Chia trình độ học vấn mẹ thành 3 nhóm: • HV thấp : mù chữ + biết đọc, viết • HV trung bình : tiểu học + THCS • HV cao : THPT + TC, ĐH 1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm? 2. Hãy cho biết số lượng và tỷ lệ mỗi nhóm tuổi mẹ theo 3 nhóm học vấn? 37

Editor's Notes

  1. Đáp án: Lỗi bỏ trống dữ liệu Biến A5, A8. Mã số phiếu 287, 431, 510.
  2. Đáp án: Lỗi nhập sai giá trị đã mã hóa. Mã số phiếu sai: 357, 298.
  3. Đáp án: Lỗi nhập vào giá trị quá lớn Mã số phiếu sai: 243