1. NHẬP, LÀM SẠCH SỐ LIỆU
VÀ MÃ HÓA LẠI BIẾN SỐ
TIN HỌC ỨNG DỤNG
TRƯỜNG ĐẠI HỌC Y DƯỢC HUẾ
BỘ MÔN THỐNG KÊ Y TẾ – DÂN SỐ - SỨC KHỎE SINH SẢN
1
2. Mục tiêu
1. Ứng dụng kỹ thuật làm sạch số liệu để tìm ra các lỗi thông
thường trong bộ số liệu.
2. Sử dụng được lệnh mã hóa lại biến số từ các biến số có sẵn
trong bộ số liệu.
2
5. 1) Lỗi bỏ trống số liệu (Missing): những ô bắt buộc phải nhập số liệu thì
lại bỏ trống; không có giá trị (phân biệt với trường hợp bỏ trống do sự
ràng buộc giữa các biến số).
2) Lỗi nhập sai giá trị đã mã hóa (Ví dụ: biến giới tính được mã hóa 1:
nam, 2: nữ nhưng số liệu lại có những giá trị 3, 4, 5…).
3) Lỗi logic giữa các biến số. (Ví dụ: Tình trạng hút thuốc là không hút
nhưng số điếu hút là 10 điếu/ngày. Bệnh nhân không có BHYT nhưng
mục thanh toán lại ghi là thanh toán bằng BHYT. Tuổi của đối tượng
nghiên cứu là 5 nhưng nghề nghiệp là cán bộ công chức).
Một số lỗi thông thường
5
Lọc số liệu
8. 8
Các bước làm sạch số liệu
Xác định vị trí
lỗi trong bộ
số liệu
Sử dụng các kỹ
thuật để phát hiện
lỗi trong bộ số liệu
Kiểm tra lại số liệu trên
phiếu phỏng vấn và sửa
lỗi số liệu trên phần mềm
9. • Sắp xếp số liệu (Sort Cases)
• Sử dụng bảng phân bố tần suất (Frequencies)
• Sử dụng bảng mô tả (Descriptives)
• Sử dụng bảng chéo (Crosstabs)
• Lựa chọn các trường hợp (Select Cases)
• Tách tập số liệu (Split File)
• Lệnh tìm kiếm (Find)
9
Một số kỹ thuật làm sạch số liệu
10. Sắp xếp số liệu (Sort Cases)
Có thể sắp xếp giá trị của biến số theo thứ tự tăng dần hoặc giảm dần.
Phát hiện giá trị bỏ trống hoặc giá trị nhập sai.
Chọn lệnh Sort Cases theo đường dẫn Data Sort Cases.
Biến số cần sắp xếp
Tăng dần
Giảm dần
11. Sắp xếp số liệu (Sort Cases)
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số tuổi
theo thứ tự tăng dần, các giá trị bỏ trống xuất hiện ở trên cùng hiển thị tại
màn hình Data View:
Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, sắp xếp giá trị biến số giới
tính theo thứ tự giảm dần, phát hiện giá trị nhập sai là 3 so với giá trị mã
hóa ban đầu (1. Nam và 2. Nữ) hiển thị tại màn hình Data View:
12. Sử dụng bảng phân bố tần suất (Frequencies)
Kiểm tra số liệu cho biến số định tính.
Phát hiện lỗi bỏ trống số liệu, lỗi nhập sai giá trị đã mã hóa.
Sử dụng câu lệnh Frequencies theo đường dẫn Analyze
Descriptive Statistics Frequencies. Đưa biến số cần kiểm tra vào
ô Variable(s) rồi nhấn OK.
Kết quả hiển thị ở màn hình Output:
Giá trị nhập sai
Giá trị bỏ trống
(trường hợp kiểu
biến số là String)
13. Sử dụng bảng mô tả (Descriptives)
Kiểm tra sơ bộ các biến số định lượng.
Phát hiện lỗi bỏ trống số liệu hay giá trị quá lớn hoặc quá bé so với
trung bình chung của tổng thể.
Sử dụng câu lệnh Descriptives theo đường dẫn Analyze Descriptive
Statistics Descriptives. Đưa biến số cần kiểm tra vào ô Variable(s)
rồi nhấn OK.
Kết quả hiển thị ở màn hình Output:
Bỏ trống 2 trường
hợp (so với mẫu
nghiên cứu là 600)
Giá trị quá lớn so với
trung bình độ tuổi là 5,88
14. Sử dụng bảng chéo (Crosstabs)
Biến số ở hàng
Biến số ở cột
Kiểm tra lỗi logic giữa các biến số.
Sử dụng câu lệnh Crosstabs theo đường dẫn Analyze Descriptive Statistics
Crosstabs.
Đưa biến số Biết cân nặng lúc sinh của trẻ (bietcnls) vào cột (Column).
Đưa biến số Cân nặng lúc sinh của trẻ (cnls) vào hàng (Row).
Nhấn OK.
17. Lệnh tìm kiếm (Find)
Bôi đen
biến cần tìm
Nhập giá trị
cần tìm
Chọn Entire cell nếu
muốn tìm chính xác giá
trị trong ô Find
Nhấn Find Next cho
đến khi tìm ra giá trị
cần tìm
18. 1. Lựa chọn các trường hợp (Select Cases)
2. Chia tách số liệu (Split File)
2 lệnh này sẽ chỉ hiển thị trên màn hình chứa kết quả (Output) khi
phân tích số liệu
18
Lọc số liệu
19. 19
Lựa chọn các trường hợp (Select Cases)
Tích chọn If
condition is
satisfied
Tích chọn
If…
20. Lựa chọn các trường hợp (Select Cases)
Ô nhập điều kiện
cần lựa chọn
Lưu ý: nếu loại biến là string
thì giá trị đưa vào cần có
dấu ngoặc kép “ “
Các biểu thức so
sánh
21. 21
Lựa chọn các trường hợp (Select Cases)
Lưu ý: nếu không sử
dụng Select Cases ta
trở lại lệnh Select
Cases và chọn All
cases hoặc nhấn nút
Reset.
22. 22
Lọc số liệu
Chia tách dữ liệu (Split File)
Đưa biến vào
ô này để tách
nhóm dữ liệu
Kết quả sẽ được tách
theo nhóm nhưng nằm
trong một bảng
Kết quả sẽ được tách
theo nhóm và nằm ở các
bảng khác nhau
Nếu không dùng lệnh
Split File thì chọn lại
Analyze all cases
24. Có 2 phương pháp chủ yếu:
1. Mã hóa số liệu cũ (Old value) số liệu mới (New value) lưu trữ trên
biến số gốc (số liệu cũ bị mất).
(Recode into same variable)
2. Mã hóa số liệu cũ số liệu mới lưu trữ trên biến số mới (lưu ý khai
báo biến số mới ở phần Output Variable)
(Recode into different variable)
24
Mã hóa lại biến số (Recode)
Thường sử dụng phương pháp 2 để tránh mất số liệu cũ.
25. Mã hóa lại biến số (Recode)
Recode into same variable Recode into different variable
Khai báo biến số
mới
26. Ví dụ: Chia chiều cao thành 4 nhóm
Nhóm 1: <75cm Nhóm 2: 75- <100cm
Nhóm 3: 100- <125cm Nhóm 4: ≥ 125cm
Sử dụng lệnh: Recode into different variable
Mã hóa lại biến số (Recode)
Ô chứa biến số
cần mã hóa
Đặt tên biến
số mới (lưu ý
quy định đặt
tên biến số)
Đặt nhãn biến
số
27. Mã hóa lại biến số (Recode)
Giá trị cũ Giá trị mới
28. Mã hóa lại biến số (Recode)
Mã hóa một giá trị
nhất định (1, 2, 3, 4…)
Mã hóa từ …đến…
(VD: 10-15 tuổi)
Mã hóa giá trị nhỏ nhất đến…
(VD: < 5 tuổi ta nhập vào 4
hoặc 4.9999)
Mã hóa từ… đến giá trị lớn nhất
(VD: > 10 tuổi ta nhập vào 11 hoặc 10.0001)
Mã hóa những
giá trị còn lại
Nhập giá trị mới
Ô chứa các giá trị đã mã hóa
Sau khi khai báo giá trị cũ và
mới ta nhấn Add để đưa vào ô
này, nhấn Change để thay đổi,
nhấn Remove để xóa
Tích chọn để biến số mới có
dạng chuỗi (string)
31. Mã hóa lại biến số (Recode)
Sử dụng bảng tần suất (Frequencies để kiểm tra lại biến số mới sau khi mã hóa
- Tổng số trường hợp có đúng so với biến số cũ?
- Số nhóm có đúng như mã hóa?
32. • Về nguyên tắc thực hiện giống với Recode into different
variable.
• Không khai báo biến số mới.
• Số liệu cũ sẽ bị mất.
Recode into same variables
32
Mã hóa lại biến số (Recode)
33. Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến: cân nặng,
chiều cao, vòng đầu, vòng ngực (đo lần 1), vòng ngực (đo lần 2), vòng
cánh tay, hồng cầu, Hemoglobin, huyết cầu tố.
1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên?
2. Lỗi sai xuất hiện trong những biến số trên?
3. Mã số phiếu chứa lỗi sai ở những biến số trên?
BÀI TẬP 1
33
34. Sử dụng các kỹ thuật làm sạch số liệu để tìm lỗi sai ở các biến:
Nguồn thu nhập, các triệu chứng thiếu máu (da xanh xao, niêm
mạc mắt nhợt nhạt, lòng bàn tay nhợt nhạt, lưỡi mất gai, móng
tay nhợt nhạt, gan to).
1. Các kỹ thuật đã được sử dụng để làm sạch các biến số trên?
2. Lỗi sai xuất hiện trong những biến số trên?
3. Mã số phiếu chứa lỗi sai ở những biến số trên?
BÀI TẬP 2
34
35. Kiểm tra tính logic của số liệu giữa 2 biến: Biết tuổi thai sinh
theo tuần (bietthai) và Tuổi thai sinh theo tuần (tuoithai).
Kiểm tra tính logic của số liệu giữa 2 biến: Trình độ học vấn mẹ
(tdhv) và Nghề nghiệp mẹ (nghe).
1. Lệnh làm sạch số liệu được sử dụng trong trường hợp trên?
2. Mã số phiếu sai trong trường hợp trên?
BÀI TẬP 3
35
36. BÀI TẬP 4
Chia 5 nhóm cân nặng:
• nhóm 1: < 10 kg
• nhóm 2: 10 - <20 kg
• nhóm 3: 20 - <30 Kg
• nhóm 4: 30 - <40 Kg
• nhóm 5: ≥ 40 Kg
1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm?
2. Tỷ lệ cao nhất và thấp nhất thuộc nhóm nào?
3. Tỷ lệ trẻ nặng dưới 20 kg là bao nhiêu?
4. Hãy cho biết số lượng và tỷ lệ mỗi nhóm cân nặng theo giới
tính (nam/nữ)?
36
37. BÀI TẬP 5
Chia tuổi mẹ thành 5 nhóm tuổi:
• nhóm 1: 18-24
• nhóm 2: 25-29
• nhóm 3: 30-39
• nhóm 4: 40-49
• nhóm 5 : ≥ 50
Chia trình độ học vấn mẹ thành 3 nhóm:
• HV thấp : mù chữ + biết đọc, viết
• HV trung bình : tiểu học + THCS
• HV cao : THPT + TC, ĐH
1. Hãy cho biết số lượng và tỷ lệ mỗi nhóm?
2. Hãy cho biết số lượng và tỷ lệ mỗi nhóm tuổi mẹ theo 3
nhóm học vấn?
37