SlideShare a Scribd company logo
1 of 8
Download to read offline
Lớp Phương pháp NCKH – Chương trình CUD UPNT03



Baøi 2 (STATA)

 SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ
       TRONG NGHIÊN CỨU KHOA HỌC

            ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU
                                                                   TS. BS Tăng Kim Hồng

Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu
mang tính chất thăm dò, và phân tích thống kê
1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm
tra và làm sạch số liệu
2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn
xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs)
        2.1 Kiểm tra số liệu
Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh
tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục)
        2.2 Xử lý “Các giá trị nằm ngoài” (Outliers)
Các “outliers” có thể là do:
    - Sai số trong đo lường
    - Sai số trong mã hóa dữ liệu
    - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương
        nghiên cứu)
    - Giá trị thực
Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và
xử lý “outliers” như một giá trị “missing”
        2.3 Xem xét phân phối của các biến số
- Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay
không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình
và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày
với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không
bình thường có thể được chuyển sang dạng khác (transform)
- Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số,
dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại
với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm
+ Mở file “PULSE” để phân tích.




                                                                                           1
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


Xem xét biến số liên tục có phân phối bình thường hay không?
Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay
không:
1) So sánh trung bình và trung vị
Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một
cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và
trung vị, ta cần phải chạy lệnh như sau:
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1




Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch
chuẩn, min và max
. summarize pulse1

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
      pulse1 |        92    72.86957    11.00871         48        100

Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả
trung bình, trung vị, độ lệch chuẩn, 25%, 75%.




                                                                                         2
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




. summarize pulse1, detail
                           pulse1
-------------------------------------------------------------
      Percentiles      Smallest
 1%           48             48
 5%           58             54
10%           60             54       Obs                  92
25%           64             58       Sum of Wgt.          92

50%             71                           Mean            72.86957
                            Largest          Std. Dev.       11.00871
75%             80               94
90%             90               96          Variance        121.1916
95%             92               96          Skewness        .3908803
99%            100              100          Kurtosis        2.516723

Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm
theo KTC 95%
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1

. mean pulse1
Mean estimation                            Number of obs     =       92
--------------------------------------------------------------
             |       Mean   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      pulse1 |   72.86957   1.147737      70.58973     75.1494
--------------------------------------------------------------




                                                                                   3
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


2) Vẽ histogram với đường cong thể hiện phân phối bình thường
+ Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn
có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu
vào ô “Add normal density plot”




                                                                                        4
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




3) Vẽ đường phân phối bình thường (Normal probability plot)
+ Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô
“Variables” (ví dụ chọn biến số Pulse1)




                                                                                    5
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ
biến số này phân phối bình thường
4) Vẽ đồ thị box plot
+ Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là
“Horizontal”)



                                                                               6
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




                    25% 50%          75%
Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ
số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng


                                                                                      7
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp
ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần
như bình thường.
Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm
Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test)
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness
and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô
“Variables”, ví dụ chọn biến số Pulse1
Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình
thường).
Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối
bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về
tính phân phối bình thường của số liệu
        2.4 Xử lý số liệu phân phối không bình thường
Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của
các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không
bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số
(non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để
biến từ phân phối không bình thường thành phân phối gần như bình thường.
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of
powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1
Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu.
Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây:




       2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau)

3. Phân tích thống kê (sẽ được trình bày ở những bài sau)




                                                                                         8

More Related Content

What's hot

Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.
Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.
Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.Nguyễn Bá Quý
 
Hồi qui vói biến giả
Hồi qui vói biến giảHồi qui vói biến giả
Hồi qui vói biến giảCẩm Thu Ninh
 
Mô hình hổi qui đơn biến
Mô hình hổi qui đơn biếnMô hình hổi qui đơn biến
Mô hình hổi qui đơn biếnCẩm Thu Ninh
 
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minh
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minhđề Cương và đáp án tham khảo môn tư tưởng hồ chí minh
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minhcongatrong82
 
Tong hop ly thuyet thong ke
Tong hop ly thuyet thong keTong hop ly thuyet thong ke
Tong hop ly thuyet thong kelimsea33
 
De xstk k12
De xstk k12De xstk k12
De xstk k12dethinhh
 
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉOMÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO希夢 坂井
 
Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)hung bonglau
 
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng LongBài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng LongHoàng Như Mộc Miên
 
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...Viết thuê trọn gói ZALO 0934573149
 
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTION
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTIONPHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTION
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTIONSoM
 
Bai02 thong ke_mo_ta
Bai02 thong  ke_mo_taBai02 thong  ke_mo_ta
Bai02 thong ke_mo_tatqphi
 
Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Học Huỳnh Bá
 
Ước lượng các tham số thống kê - Ths. Huỳnh Tú Uyên
Ước lượng các tham số thống kê - Ths. Huỳnh Tú UyênƯớc lượng các tham số thống kê - Ths. Huỳnh Tú Uyên
Ước lượng các tham số thống kê - Ths. Huỳnh Tú UyênTài liệu sinh học
 
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCELPHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCELLe Nguyen Truong Giang
 
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏngSuy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏngTài Tài
 

What's hot (20)

Luận văn: Mức độ hài lòng của khách hàng mua thuốc tại các nhà thuốc, HAY!
Luận văn: Mức độ hài lòng của khách hàng mua thuốc tại các nhà thuốc, HAY!Luận văn: Mức độ hài lòng của khách hàng mua thuốc tại các nhà thuốc, HAY!
Luận văn: Mức độ hài lòng của khách hàng mua thuốc tại các nhà thuốc, HAY!
 
bai tap co loi giai xac suat thong ke
bai tap co loi giai xac suat thong kebai tap co loi giai xac suat thong ke
bai tap co loi giai xac suat thong ke
 
Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.
Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.
Đo lường và thu thập dữ liệu , trong nghiên cứu khoa học.
 
Hồi qui vói biến giả
Hồi qui vói biến giảHồi qui vói biến giả
Hồi qui vói biến giả
 
Phương trình hồi quy
Phương trình hồi quyPhương trình hồi quy
Phương trình hồi quy
 
Mô hình hổi qui đơn biến
Mô hình hổi qui đơn biếnMô hình hổi qui đơn biến
Mô hình hổi qui đơn biến
 
Bai giang kinh_te_quoc_te
Bai giang kinh_te_quoc_teBai giang kinh_te_quoc_te
Bai giang kinh_te_quoc_te
 
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minh
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minhđề Cương và đáp án tham khảo môn tư tưởng hồ chí minh
đề Cương và đáp án tham khảo môn tư tưởng hồ chí minh
 
Tong hop ly thuyet thong ke
Tong hop ly thuyet thong keTong hop ly thuyet thong ke
Tong hop ly thuyet thong ke
 
De xstk k12
De xstk k12De xstk k12
De xstk k12
 
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉOMÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO
MÔ HÌNH HỒI QUY TUYẾN TÍNH VỚI DỮ LIỆU CHÉO
 
Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)Nguyen ly thong ke 1 (ĐH KTQD)
Nguyen ly thong ke 1 (ĐH KTQD)
 
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng LongBài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
 
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...
Đề tài: Nghiên cứu nhận thức của người tiêu dùng đối với an toàn thực phẩm tr...
 
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTION
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTIONPHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTION
PHÂN PHỐI CHUẨN HAI BIẾN _ BIVARIATE NORMAL DISTRIBUTION
 
Bai02 thong ke_mo_ta
Bai02 thong  ke_mo_taBai02 thong  ke_mo_ta
Bai02 thong ke_mo_ta
 
Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)
 
Ước lượng các tham số thống kê - Ths. Huỳnh Tú Uyên
Ước lượng các tham số thống kê - Ths. Huỳnh Tú UyênƯớc lượng các tham số thống kê - Ths. Huỳnh Tú Uyên
Ước lượng các tham số thống kê - Ths. Huỳnh Tú Uyên
 
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCELPHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL
PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL
 
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏngSuy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
Suy diễn thống kê và ngôn ngữ R (1): Tính toán xác suất và mô phỏng
 

Similar to Su dung stata 2

SPC training.pptx
SPC training.pptxSPC training.pptx
SPC training.pptxTHihi5
 
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêChương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêLe Nguyen Truong Giang
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxssuserc841ef
 
Các chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhCác chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhLe Nguyen Truong Giang
 
Chuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabChuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabSanSan171
 
quản trị chất lượng
quản trị chất lượngquản trị chất lượng
quản trị chất lượngTỵ Rắn
 
Phan phoi-chuan
Phan phoi-chuanPhan phoi-chuan
Phan phoi-chuanndthien23
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdfJane213811
 
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxToán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxtub2203924
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Tài Tài
 
Thống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêThống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêYen Luong-Thanh
 
Huong dan thuc_hanh_spss
Huong dan thuc_hanh_spssHuong dan thuc_hanh_spss
Huong dan thuc_hanh_spssTri Minh
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quandungln_dhbkhn
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanNghịch Ngợm Rồng Con
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)Le Nguyen Truong Giang
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfTiepDinh3
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSBeriDang
 

Similar to Su dung stata 2 (20)

Su dung stata 3
Su dung stata 3Su dung stata 3
Su dung stata 3
 
Su dung stata 4
Su dung stata 4Su dung stata 4
Su dung stata 4
 
SPC training.pptx
SPC training.pptxSPC training.pptx
SPC training.pptx
 
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêChương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptx
 
Các chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhCác chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trình
 
Chuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabChuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitab
 
quản trị chất lượng
quản trị chất lượngquản trị chất lượng
quản trị chất lượng
 
Phan phoi-chuan
Phan phoi-chuanPhan phoi-chuan
Phan phoi-chuan
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdf
 
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxToán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
 
Thống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêThống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kê
 
Huong dan thuc_hanh_spss
Huong dan thuc_hanh_spssHuong dan thuc_hanh_spss
Huong dan thuc_hanh_spss
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdf
 
Chapter 9
Chapter 9Chapter 9
Chapter 9
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSS
 

More from Lớp CKII ĐH Phạm Ngọc Thạch (14)

Su dung stata 1
Su dung stata 1Su dung stata 1
Su dung stata 1
 
Diem thck2 1213
Diem thck2 1213Diem thck2 1213
Diem thck2 1213
 
Trach nhiem ncv
Trach nhiem ncvTrach nhiem ncv
Trach nhiem ncv
 
Tong quan ve ncls
Tong quan ve ncls Tong quan ve ncls
Tong quan ve ncls
 
Tai lieu thiet yeu
Tai lieu thiet yeuTai lieu thiet yeu
Tai lieu thiet yeu
 
Tai lieu nguon
Tai lieu nguonTai lieu nguon
Tai lieu nguon
 
Lịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc yshLịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc ysh
 
Hoi dong dao duc
Hoi dong dao ducHoi dong dao duc
Hoi dong dao duc
 
Bang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuuBang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuu
 
Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)
 
Sỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn ViễnSỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn Viễn
 
Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)
 
Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1
 
Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2
 

Su dung stata 2

  • 1. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi 2 (STATA) SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ TRONG NGHIÊN CỨU KHOA HỌC ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU TS. BS Tăng Kim Hồng Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu mang tính chất thăm dò, và phân tích thống kê 1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm tra và làm sạch số liệu 2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs) 2.1 Kiểm tra số liệu Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục) 2.2 Xử lý “Các giá trị nằm ngoài” (Outliers) Các “outliers” có thể là do: - Sai số trong đo lường - Sai số trong mã hóa dữ liệu - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương nghiên cứu) - Giá trị thực Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và xử lý “outliers” như một giá trị “missing” 2.3 Xem xét phân phối của các biến số - Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không bình thường có thể được chuyển sang dạng khác (transform) - Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số, dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm + Mở file “PULSE” để phân tích. 1
  • 2. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Xem xét biến số liên tục có phân phối bình thường hay không? Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay không: 1) So sánh trung bình và trung vị Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và trung vị, ta cần phải chạy lệnh như sau: + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch chuẩn, min và max . summarize pulse1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- pulse1 | 92 72.86957 11.00871 48 100 Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả trung bình, trung vị, độ lệch chuẩn, 25%, 75%. 2
  • 3. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 . summarize pulse1, detail pulse1 ------------------------------------------------------------- Percentiles Smallest 1% 48 48 5% 58 54 10% 60 54 Obs 92 25% 64 58 Sum of Wgt. 92 50% 71 Mean 72.86957 Largest Std. Dev. 11.00871 75% 80 94 90% 90 96 Variance 121.1916 95% 92 96 Skewness .3908803 99% 100 100 Kurtosis 2.516723 Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm theo KTC 95% + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 . mean pulse1 Mean estimation Number of obs = 92 -------------------------------------------------------------- | Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------ pulse1 | 72.86957 1.147737 70.58973 75.1494 -------------------------------------------------------------- 3
  • 4. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 2) Vẽ histogram với đường cong thể hiện phân phối bình thường + Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu vào ô “Add normal density plot” 4
  • 5. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 3) Vẽ đường phân phối bình thường (Normal probability plot) + Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) 5
  • 6. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ biến số này phân phối bình thường 4) Vẽ đồ thị box plot + Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là “Horizontal”) 6
  • 7. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 25% 50% 75% Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng 7
  • 8. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần như bình thường. Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình thường). Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về tính phân phối bình thường của số liệu 2.4 Xử lý số liệu phân phối không bình thường Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số (non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để biến từ phân phối không bình thường thành phân phối gần như bình thường. + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu. Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây: 2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau) 3. Phân tích thống kê (sẽ được trình bày ở những bài sau) 8