CHƯƠNG 1
THỐNG KÊ MÔ TẢ
THS HUỲNH TỐ UYÊN
1
• Thống kê là một nhánh của toán học
liên quan đến việc thu thập, trình bày
và phân tích các dữ liệu.
1. Khái niệm
2
I. KHÁI NIỆM THỐNG KÊ VÀ
CÁC LOẠI THANG ĐO DỮ LIỆU
• Quá trình nghiên cứu thống kê trải qua 3
giai đoạn có quan hệ chặt chẽ và mật thiết
với nhau, trong đó giai đoạn trước làm
tiền đề để thực hiện giai đoạn sau.
• Giai đoạn điều tra thống kê: bao gồm
ghi chép, thu thập tài liệu thống kê.
• Giai đoạn tổng hợp và trình bày kết quả
điều tra thu thập được.
• Giai đoạn phân tích và dự báo thống kê.
2. Chức năng của thống kê
3
• Như vậy, thống kê có hai lĩnh vực:
• Thống kê mô tả bao gồm các phương
pháp thu thập, trình bày dữ liệu và tính
toán các đặc trưng nhằm mô tả đối
tượng nghiên cứu.
• Thống kê suy diễn bao gồm các phương
pháp mô hình hoá trên các dữ liệu quan
sát để đưa ra các suy diễn về đối tượng
được nghiên cứu.
2. Chức năng của thống kê
4
• 3.1. Tổng thể, đơn vị tổng thể, mẫu
• Tổng thể là tập hợp tất cả các đối
tượng mà ta nghiên cứu. Các đơn vị
(hay phần tử) tạo thành tổng thể được
gọi là đơn vị tổng thể. Mẫu là một bộ
phận lấy ra từ tổng thể.
3. Các khái niệm cơ bản.
5
Ví dụ 1: Để nghiên cứu điểm trung bình
môn Toán của sinh viên Trường ĐH, người
ta đã xét bảng điểm của 250 sinh viên. Hãy
chỉ ra tổng thể, đơn vị tổng thể và mẫu ?
• 3.2. Đặc điểm thống kê
• Biến là khái niệm dùng để chỉ các đặc
điểm của đơn vị tổng thể mà ta nghiên
cứu.
• Dữ liệu là kết quả, giá trị quan sát được
của các biến.
3. Các khái niệm cơ bản.
6
Ví dụ 2: Để nghiên cứu sinh viên trường ĐH,
ta cần nghiên cứu các biến (hay các tiêu thức)
như: giới tính, tuổi, dân tộc, ngành học, số
tiền chi tiêu trong 1 tháng…
• 3.2. Đặc điểm thống kê
• Biến định tính (hay tiêu thức thuộc tính)
phản ánh tính chất, loại hình, không thể
hiện trực tiếp bằng các con số.
• Biến định lượng (hay tiêu thức số
lượng) biểu hiện trực tiếp bằng con số.
3. Các khái niệm cơ bản.
7
Ví dụ 3: Phân loại biến định tính và biến
định lượng trong ví dụ 2?
Biến định tính: giới tính, dân tộc, ngành học.
Biến định lượng: tuổi, số tiền chi tiêu trong 1
tháng
• 3.2. Đặc điểm thống kê
• Quan sát: tập hợp tất cả các dữ liệu thu
thập được của một đơn vị tổng thể hay
mẫu.
3. Các khái niệm cơ bản.
8
Ví dụ 4:
•Quan sát 1: giới tính: nam ; tuổi:20 ; dân
tộc:Kinh ; ngành học:401 ; tiền chi tiêu
trong tháng: 2,5 triệu đồng
•Quan sát 2: giới tính: nữ ; tuổi:21 ; dân
tộc:Tày ; ngành học:402 ; tiền chi tiêu
trong tháng: 2 triệu đồng
• Trong thống kê người ta sử dụng bốn cấp
bậc đo lường theo mức độ thông tin tăng
dần, đó là thang đo: định danh, thứ bậc,
khoảng và tỉ lệ.
4. Các cấp bậc đo lường và thang đo.
9
Ví dụ: Giới tính, màu sắc, nhãn hiệu,
tình trạng hôn nhân,… là thang đo định
danh.
4.1. Thang đo định danh:
Thang đo định danh (hay thang đo phân loại)
không thể hiện sự hơn kém. Thang đo này
được sử dụng cho các dữ liệu định tính.
• 4.1. Thang đo định danh:
• Người ta thường sử dụng các số để phân
loại các đối tượng, đây là các mã số dùng
để đếm số lần xuất hiện, không phải để so
sánh hơn kém
4. Các cấp bậc đo lường và thang đo.
10
Ví dụ: Câu hỏi điều tra: bạn hiện đang
sống ở đâu? ( Chọn từ 1 đến 4 )
1. Sống cùng gia đình
2. Ký túc xá
3. Nhà trọ
4. Trường hợp khác
• 4.2. Thang đo thứ bậc:
• Là thang đo định danh nhưng thể hiện sự hơn
kém của dữ liệu, không biết chính xác mức
độ hơn kém đó.
• Thang đo này được sử dụng cho các dữ liệu
định tính và cả định lượng.
4. Các cấp bậc đo lường và thang đo.
11
Ví dụ:
• Đo thái độ đ/v hành vi nào đó (hoàn toàn
đồng ý, đồng ý, chưa qđ, ht không đồng ý)
•Huân chương độc lập hạng Nhất, Nhì, Ba
•Thu nhập của bạn trong 1 tháng là?
− dưới 2 triệu
− từ 2 đến 4 triệu
− trên 4 triệu
• 4.3. Thang đo khoảng:
• Thang đo khoảng là thang đo thứ bậc có
khoảng cách đều nhau. Thang đo này đánh
giá chính xác mức độ hơn kém cụ thể
• Thang đo này được sử dụng cho các dữ liệu
định tính và cả định lượng.
4. Các cấp bậc đo lường và thang đo.
12
Ví dụ: Thu nhập bình quân 1 tháng của bạn là:
1. Từ 1,5 triệu đến 2 triệu
2. Từ 2 triệu đến 2,5 triệu
3. Từ 2,5 triệu đến 3 triệu
Khoảng cách đều nhau bằng 500 ngàn đồng
Thực hiện được các phép toán cộng trừ.
• 4.3. Thang đo khoảng:
4. Các cấp bậc đo lường và thang đo.
13
Ví dụ: Bạn hãy cho biết ý kiến về chất lượng
phòng trọ ở khu vực làng đại học ? ( Hãy ghi
vào kế bên theo mức độ 1: rất tệ, 2: tệ, 3: bình
thường, 4: tốt, 5 : rất tốt)
− Không gian sinh hoạt …..
− Ánh sáng …..
− Vệ sinh …..
− An ninh…..
NHƯỢC ĐIỂM:
Không có điểm gốc 0 trên thực tế mà chỉ có
điểm các khoảng theo trật tự nào đó, nếu có
điểm 0 thì đó chỉ là quy ước.
• 4.4. Thang đo tỉ lệ:
• Là thang đo khoảng với điểm gốc 0 tuyệt đối
(một giá trị thật) -> điểm xuất phát của độ dài
đo lường trên thang đo => có thể so sánh tỉ lệ
giữa các trị số đo
• Là loại thang đo dùng cho các dữ liệu định
lượng. Đây là thang đo ở bậc cao nhất trong hệ
thống thang đo.
4. Các cấp bậc đo lường và thang đo.
14
Ví dụ:
• Bạn nặng 80kg. Anh bạn nặng 40kg =>
bạn nặng gấp đôi anh bạn (dù đổi ở bất cứ
đơn vị nào).
•Kg, tấn, tạ, km, m,… là thang đo tỉ lệ
• Phân biệt thang đo khoảng và thang đo tỉ lệ: Trong
thang đo tỉ lệ, giá trị 0 có nghĩa thật sự, cho phép
lấy tỉ lệ, so sánh giữa hai giá trị thu thập.
• Chỉ có thể đưa thang đo cao về thang đo thấp.
• Tuy nhiên không phải lúc nào cũng sử dụng thang
đo hoàn hảo=>tùy thuộc vào đặc điểm của hiện
tượng, tiêu thức NC mà sd thích hợp.
Chú ý
15
Ví dụ: điểm tổng kết của sinh viên:
Thang đo khoảng:
• từ 0-2 điểm
• từ 2-4 điểm
• từ 4-6 điểm
• từ 6-8 điểm
• từ 8-10 điểm
Thang đo thứ bậc:
• Kém
• Yếu
• Trung Bình
• Khá
• Giỏi
Dữ liệu
Dữ liệu định tính
Thang đo
định danh
Thang đo
thứ bậc
Dữ liệu định lượng
Thang đo
khoảng
Thang đo
tỉ lệ
16
17
II. THU THẬP DỮ LIỆU
KN dữ liệu thống kê:
Là các sự kiện và số liệu được thu thập tổng hợp
và phân tích để trình bày và giải thích ý nghĩa của
chúng
• Phải xác định rõ những dữ liệu nào cần thu
thập, thứ tự ưu tiên của các dữ liệu này. Dữ
liệu cần thu thập phụ thuộc vào vấn đề
nghiên cứu.
1. Xác định dữ liệu cần thu thập
18
Ví dụ 1. Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinh
hoạt đến kết quả học tập của sinh viên. Có hai nhóm dữ
liệu chính cần thu thập là: (1) điều kiện ăn ở sinh hoạt; (2)
kết quả học tập.
Nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹ
hay ở kí túc xá, ở trọ? Có phòng riêng hay sống chung
nhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn ào
hay không?...
Không cần thu thập: bàn học làm bằng sắt hay gỗ? Nhà có
phòng vệ sinh hiện đại không, có bồn tắm không?...
• Dữ liệu định tính phản ánh tính chất, sự
hơn kém của đối tượng nghiên cứu
• Dữ liệu định lượng phản ánh mức độ của
đối tượng
1.1 Dữ liệu định tính và dữ liệu định lượng
19
Ví dụ:
Trong ví dụ trên,
Dữ liệu định tính: giới tính của sinh viên.
Dữ liệu định lượng: điểm trung bình các
môn học của SV
• Dữ liệu thứ cấp: là dữ liệu được lấy từ
nguồn có sẵn, thường đã được xử lý, tổng
hợp
• Dữ liệu sơ cấp: là dữ liệu được thu thập
trực tiếp từ đối tượng nghiên cứu
1.2 Dữ liệu thứ cấp và dữ liệu sơ cấp
20
Ví dụ:
Dữ liệu thứ cấp: kết quả học tập của sinh
viên
Dữ liệu sơ cấp: điều kiện ăn ở sinh hoạt
của sinh viên
• Dữ liệu thứ cấp: Nội bộ ( của 1 doanh
nghiệp, đơn vị trường học,…) Cơ quan
thống kê ( Tổng cục thống kê, …)
• Dữ liệu sơ cấp: Được thu thập trực tiếp tùy
theo yêu cầu của nghiên cứu, từ doanh
nghiệp, hộ gia đình, cá nhân, xã hội,…
2. Nguồn thu thập dữ liệu
21
• Thực nghiệm
• Khảo sát qua điện thoại
• Thư hỏi
• Quan sát trực tiếp
• Phỏng vấn cá nhân
3. Các phương pháp thu thập dữ liệu sơ cấp
22
• 3.1. Các nội dung chính cần thực hiện
trong thu thập dữ liệu
• Xác định vấn đề, đối tượng, mục đích
nghiên cứu.
• Nghĩ ra câu hỏi và thiết kế bản câu hỏi
hoàn chỉnh
• Quyết định điều tra trên toàn bộ tổng thể
hay trên mẫu.
• Thực hiện thu thập dữ liệu
3. Các phương pháp thu thập dữ liệu sơ cấp
23
• Ví dụ: Một nhóm sinh viên trường ĐH
Kinh Tế Luật muốn điều tra về sự ảnh
hưởng của điều kiện sinh hoạt đến độ cận
thị của sinh viên trường ĐH Kinh Tế Luật.
• Đối tượng điều tra: Toàn bộ sinh viên
trường ĐH Kinh Tế Luật.
• Bảng câu hỏi được điều tra như sau:
3. Các phương pháp thu thập dữ liệu sơ cấp
24
• 1. Giới tính của bạn là: Nam/Nữ
• 2. Bạn đang sống ở:
• a. Gia đình, nhà người thân
• b. Ký túc xá
• c. Nhà trọ
• 3. Một ngày bạn giành bao nhiêu thời gian cho việc
tự học?
• a. Dưới 3 giờ
• b. Khoảng 3-5 giờ
• c. Trên 5 giờ
• 4. Một ngày bạn sử dụng máy vi tính bao lâu?
• a. Dưới 1 giờ
• b. 1-3 giờ
• c. 3-5 giờ
• d. Trên 5 giờ
• 5. Hiện nay mắt của bạn bao nhiêu độ?
3. Các phương pháp thu thập dữ liệu sơ cấp
25
• 3.2 . Kỹ thuật thiết kế bảng câu hỏi
• Cần xác định rõ các vấn đề sau: dữ liệu
cần thu thập, nội dung bảng câu hỏi; hình
thức,trình tự bảng câu hỏi; hình thức trả
lời
• Các dạng câu hỏi trong bảng câu hỏi:
Câu hỏi mở (bạn có suy nghĩ gì về?…),
Câu hỏi đóng (đúng/sai, có/không), Câu
hỏi phân mức, Câu hỏi chấm điểm,…
• Chú ý: các câu hỏi cần đơn giản, không
dài dòng, tránh câu hỏi đa nghĩa, câu hỏi
gợi ý, tránh câu hỏi không công bằng
3. Các phương pháp thu thập dữ liệu sơ cấp
26
4. Các kỹ thuật chọn mẫu
27
Mục đích của việc chọn mẫu là bảo
đảm cho mẫu được chọn thực sự phản ánh
trung thực, đại diện cho toàn bộ tổng thể.
Sau khi thu thập dữ liệu, ta lập được 1
danh sách, từ danh sách này ta tiến hành
chọn mẫu.
Có hai nhóm kĩ thuật chọn mẫu là lấy
mẫu ngẫu nhiên (lấy mẫu xác suất) và mẫu
không ngẫu nhiên (lấy mẫu phi xác suất ).
4. Các kỹ thuật chọn mẫu
28
Ví dụ: điều tra chi tiêu của người dân
sống ở Tp Hồ Chí Minh.
Ví dụ: điều tra chi tiêu của những
người có thu nhập cao sống ở Tp Hồ Chí
Minh.
29
Kỹ thuật chọn mẫu
xác suất
Lấy mẫu ngẫu
nhiên đơn giản
Lấy mẫu hệ
thống
Lấy mẫu cả
khối/cụm
Lấy mẫu phân
tầng
Kỹ thuật chọn mẫu
phi xác suất
Lấy mẫu
thuận tiện
Lấy mẫu
định mức
Lấy mẫu
phán đoán
• Là loại mẫu được chọn trực tiếp và ngẫu
nhiên từ tổng thể.
• Tổng thể nhỏ: Mẫu được chọn bằng cách
bốc thăm, quay số,…Ví dụ: Chọn ngẫu
nhiên 10 bạn trong lớp bằng cách bốc thăm
• Tổng thể lớn: Mẫu được chọn bằng hàm
random trong Excel hoặc SPSS.
• Phương pháp này có thể cho 1 kết quả tốt và
đảm bảo tính ngẫu nhiên.
4.1. Kỹ thuật chọn mẫu ngẫu nhiên đơn giản
30
4.2. Kỹ thuật chọn mẫu hệ thống (máy móc)
31
Mỗi đơn vị được chọn vào mẫu căn cứ vào
từng khoảng cách nhất định (khoảng thời
gian,không gian,thứ tự bằng nhau).
Phương pháp:
- Đánh số thứ tự cho danh sách chọn mẫu.
Tổng số lượng N
- Xác định cỡ mẫu muốn lấy. Số lượng n
- Chia danh sách thành k nhóm k=N/n, k
gọi là khoảng cách chọn mẫu
4.2. Kỹ thuật chọn mẫu hệ thống
32
- Nếu N chia hết cho n (k nguyên): Chọn
mẫu hệ thống theo đường thẳng: Trong
nhóm đầu tiên lấy ra ngẫu nhiên 1 phần tử,
các phần tử tiếp theo được lấy cách phần
tử này 1 khoảng là k, 2k, 3k,…
Ví dụ 1: Chọn 10 số từ 60 số tự nhiên đầu tiên theo pp
chọn mẫu hệ thống.
N=60, n=10, k=N/n=6 (số đầu được chọn từ 6 số đt)
+ Nếu phần tử được chọn đầu tiên là 4 thì ta được
mẫu là: 4, 10, 16, 22, 28, 34, 40, 46, 52, 58
+ Nếu phần tử được chọn đầu tiên là 6 thì ta được
mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 60
4.2. Kỹ thuật chọn mẫu hệ thống
33
- Nếu N không chia hết cho n (k thập phân):
Chọn mẫu hệ thống quay vòng: Chọn ngẫu
nhiên 1 phần tử bất kì trong danh sách từ 1
đến N. Các phần tử tiếp theo được lấy cách
phần tử này 1 khoảng là k, 2k, 3k,…
4.2. Kỹ thuật chọn mẫu hệ thống
34
Ví dụ 2: Chọn 10 số từ 56 số tự nhiên đầu tiên theo
pp chọn mẫu hệ thống.
N=56
n=10
k=N/n=5,6 , chọn k=6
Nếu phần tử được chọn đầu tiên là 6 thì ta được
mẫu là:
6, 12, 18, 24, 30, 36, 42, 48, 54, 4
Nếu phần tử được chọn đầu tiên là 13 thì ta được
mẫu là:
13, 19, 25, 31, 37, 43, 49, 55, 5, 11
4.3. Kỹ thuật chọn mẫu khối /cụm và chọn
mẫu nhiều giai đoạn
35
Ví dụ 1: Quận Thủ Đức có khoảng 800 khu
phố, điều tra mức sống của dân cư ở đây, ta có
thể chọn ra ngẫu nhiên 10 khu phố, sau đó khảo
sát toàn bộ hộ dân của 10 khu phố này. Chọn
mẫu khối
Ví dụ 2: chọn ra ngẫu nhiên 10 khu phố, trong
mỗi khu phố chọn ra khoảng 10 hộ gia đình
Chọn mẫu nhiều giai đoạn
Chú ý : kỹ thuật này áp dụng khi ta không có
sẵn một danh sách quan sát để chọn ra mẫu
• Ví dụ:
• Điều tra sự yêu thích tham gia hoạt động
Đoàn của sinh viên ĐHQG Tp HCM. ⇒
Điều tra 6 trường, mỗi trường điều tra
với số lượng SV khác nhau… chọn
mẫu phân tầng
• Đọc thêm trong sách
4.4. Kỹ thuật chọn mẫu phân tầng
36
• Ví dụ:
• Để mở spa thì điều tra đối tượng nào? Điều tra
ngẫu nhiên ? Hay tập trung vào 1 nhóm đối tượng
nào đó?
4.5. Kỹ thuật chọn mẫu thuận tiện
• Ví dụ:
• Điều tra sự yêu thích hoạt động Đoàn của SV ĐH
KTL, ta quyết định điều tra cỡ mẫu 200, yêu cầu về
giới tính: ½ là nữ, trong đó về nơi ở: ½ ở KTX,…
4.6. Kỹ thuật chọn mẫu định mức
• Chủ yếu dựa vào kinh nghiệm phỏng vấn
4.7. Kỹ thuật chọn mẫu phán đoán
37
III. TRÌNH BÀY DỮ LIỆU
38
1. Đối với dữ liệu định tính
2. Đối với dữ liệu định lượng
+ Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
+ Đồ thị hình cột, thanh, hình tròn.
+ Bảng tần số, tần suất, tần số tích lũy, tần
suất tích lũy.
+ Phân tổ dữ liệu.
+ Biểu đồ thân và lá.
+ Đồ thị hình cột, thanh, hình tròn.
•
1. Bảng tần số
39
Ví dụ 1: năm 2006, Tuổi trẻ Online có làm
cuộc khảo sát về bình chọn Quốc hoa Việt
Nam, kết quả thu được như sau:
Quốc hoa được chọn
Số lượt
bình chọn
Tỉ lệ
Hoa sen 67008 49,6%
Cây tre 47288 35%
Hoa mai 15850 11,73%
Đề xuất khác 4951 3,66%
Tổng 135097 100%
• Bảng tần số là một bảng tổng hợp, trình
bày dữ liệu, thường bao gồm ba cột:
1. Bảng tần số
40
Cột 1 Cột 2 Cột 3
biểu hiện hoặc
các giá trị
(khoảng giá trị)
của dữ liệu.
tần số tương
ứng (số lần
từng biểu hiện
đó xuất hiện
trong tập dữ
liệu).
tần suất (tỉ
lệ %).
• Đối với các dữ liệu định tính như giới tính,
ngành học, …, bảng tần số :
1. 1. Bảng tần số cho dữ liệu định tính
41
1
k
i
i
f n
=
=∑
100%i
i
f
d
n
=
1
100%
k
i
i
d
=
=∑
Biểu hiện Tần số
fi
Tần suất(%)
biểu hiện 1 f1 d1
biểu hiện 2 f2 d2
… … …
biểu hiện k fk dk
Tổng
1. 1. Bảng tần số cho dữ liệu định tính
42
Ví dụ 2: Bảng tần số ngành học của sinh viên
một trường đại học như sau.
Ngành học Tần số
(sinh viên)
Tần suất (%)
Quản trị kinh doanh 500 50
Điện tử viễn thông 300 30
Công nghệ thông tin 200 20
Tổng 1000 100
• Có hai trường hợp: dữ liệu có ít giá trị và dữ
liệu có nhiều giá trị.
• a) Trường hợp dữ liệu có ít giá trị: Bảng
tần số cũng có ba cột tương tự trường hợp
dữ liệu định tính, nhưng cột thứ nhất ghi
các giá trị của dữ liệu.
• Ví dụ 3: Khảo sát điểm thi môn Toán của
một số sinh viên, ta được bảng dữ liệu sau.
1. 2. Bảng tần số cho dữ liệu định lượng
43
1. 2. Bảng tần số cho dữ liệu định lượng
44
Điểm thi Tần số
(số sinh viên)
Tần suất (%)
3 3 3,75
4 12 15
5 15 18,75
6 20 25
7 16 20
8 8 10
9 4 5
10 2 2,5
Tổng 80 100
• b) Trường hợp dữ liệu có nhiều giá trị: Trước
hết ta phân nhóm (phân tổ) cho các giá trị rồi
mới lập bảng tần số trên cơ sở dữ liệu đã phân
nhóm
1. 2. Bảng tần số cho dữ liệu định lượng
45
Ví dụ: Khảo sát 1200 người trong độ tuổi lao
động (từ 18 đến 60 tuổi), nếu lập bảng như ở
ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm
lược thông tin. Do đó ta sẽ phân thành các
nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến
30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60.
Đây là kiểu phân nhóm theo kinh nghiệm.
Trên thực tế người ta thường phân nhóm với
khoảng cách đều nhau.
• Phương pháp phân nhóm dữ liệu với
khoảng cách đều nhau.
• Giả sử mẫu dữ liệu có n phần tử, giá trị lớn
nhất, nhỏ nhất của dữ liệu lần lượt là Xmax ,
Xmin .
• Gọi k là số nhóm cần chia và h là khoảng
cách giữa các nhóm.
• Khi đó, người ta thường xác định k và h
bởi công thức
1. 2. Bảng tần số cho dữ liệu định lượng
46
3
2k n= max minX X
h
k
−
=
1. 2. Bảng tần số cho dữ liệu định lượng
47
3 3
2 2.40 4,3 4k n= = = ≈
max min 179 153
6,5
4
X X
h
k
− −
= = =
Ví dụ 4. Năng suất (tạ/ha) của một loại cây thu hoạch được tại
40 vùng như sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179
Hãy tính số nhóm, khoảng cách nhóm và lập bảng tần số?
Với n=40, Xmax = 179, Xmin =153.
ta có số nhóm
khoảng cách giữa các nhóm
Chọn h=7 .Vậy ta cần chia 4 nhóm , với khoảng cách giữa
các nhóm là 7
1. 2. Bảng tần số cho dữ liệu định lượng
48
Bảng tần số
Năng suất Tần số Tần suất (%)
152 - 159 7 17,5
159 - 166 19 47,5
166 - 173 8 20
173 - 180 6 15
Tổng 40 100
1. 2. Bảng tần số cho dữ liệu định lượng
49
Chú ý: Một số điều kiện phải tuân thủ khi
phân nhóm
• Các nhóm không được trùng nhau, mỗi giá trị
chỉ thuộc về một nhóm.
• Tất cả các nhóm phải bảo đảm bao quát hết
tất cả các giá trị của mẫu số liệu.
• Không có nhóm rỗng.
1. 2. Bảng tần số cho dữ liệu định lượng
50
Trong bảng tần số người ta còn thêm vào cột
tần số tích luỹ (hoặc tần suất tích luỹ)
Giá
trị
của
biến
Tần
số
fi
Tần suất(%) Tần số
tích lũy
Tần suất
tích lũy
x1 f1 d1 f1 d1
x2 f2 d2 f1+f2 d1+d2
… … … … …
xk fk dk f1+f2+…+fk d1+d2+…+dk
Tổng n 100%
100%i
i
f
d
n
=
1. 2. Bảng tần số cho dữ liệu định lượng
51
c) Phân nhóm mở:
+ Nhóm đầu tiên không có giới hạn dưới.
+ Nhóm cuối không có giới hạn trên.
+Các nhám còn lại có khoảng các đều hoặc không đều.
Quy ước: K/c của nhóm mở bằng k/c của nhóm gần nó
nhất
Năng suất lúa
(tạ/ha)
Tần số
<35 5
35 – 40 10
40 – 45 20
45 – 50 12
≥50 3
Tổng 50
1. 3. Bảng tần số kết hợp hai biến
52
Ví dụ: Điều tra chi tiêu của 200 sinh viên tại 3 vùng
Bắc, Trung, Nam được kết quả như sau
<1,5 1,5 – 2 >2
Bắc 30 40 20
Trung 30 20 10
Nam 10 25 15
Tổng 70 85 45
Vùng
Chi tiêu
Bảng tần số kết hợp 2 biến “chi tiêu” và “vùng” được
lập như sau
1. 3. Bảng tần số kết hợp hai biến
53
Vùng
Bắc
Trung
Nam
<1,5 1,5 - 2 >2
30 40 20
30 20 10
10 25 15
42,86
42,86
14,28
Chi tiêu
Tần số Tần số Tần số
Tần Tần Tần
suất(%) suất(%) suất (%)
Tổng 70 85 45100 100 100
2. Đồ thị thống kê các loại
2.1 Biểu đồ tần số, tần suất
54
Số lượt bình chọn
55
Tỉ lệ bình chọn
49%
35%
12%
4%
0%
10%
20%
30%
40%
50%
60%
Hoa sen Cây tre Hoa mai đề xuất khác
56
Sốlượtbìnhchọn
0
10000
20000
30000
40000
50000
60000
70000
80000
1
Hoa sen Cây tre Hoa mai Đề xuất khác
Biểu đồ dạng thanh
57
49%
35%
12%
4%
0
0,1
0,2
0,3
0,4
0,5
0,6
Hoa sen Cây tre Hoa mai đề xuất
khác
Tần suất bình chọn
Biểu đồ đa giác tần số
58
Tỉ lệ bình chọn quốc hoa Việt Nam
Biểu đồ hình tròn
2.2 Biểu đồ tần số, tần suất tích lũy
59
49%
84%
96%
100%
0%
20%
40%
60%
80%
100%
120%
Hoa sen Cây tre Hoa mai Đề xuất khác
Tần suat tích lũy
60
2.3. Biểu đồ nhánh lá (Stem-and-Leaf Plot)
Can nang (Kg)
Frequency Stem & Leaf
1.00 4 . 4
5.00 4 . 56899
10.00 5 . 0011223444
7.00 5 . 5557889
5.00 6 . 01223
4.00 6 . 5555
2.00 7 . 02
2.00 7 . 55
Là công cụ hữu hiệu để tóm lược và trình bày tập dữ
liệu mà vẫn giúp người xem thấy được cách thức phân
tán của dữ liệu gốc 1 cách chi tiết.
Ví dụ: Có kết quả thống kê về trọng lượng của một
nhóm sinh viên.
Bài tập về nhà (làm nhóm)
• Lam bai tap chuong 3, sach bai tap TKUD
Bai tap ca nhan
61
1. Lập phiếu điều tra (chủ đề tùy chọn), thu thập thông tin
của ít nhất 5 biến, số lượng quan sát ít nhất 30
2. Lập bảng tần số cho từng biến (bảng tần số có tần số
tích lũy và tần suất tích lũy)
3. Vẽ biểu đồ tần số, tần suất, tần số tích lũy và tần suất
tích lũy
4. Nhận xét về kết quả thu được ( theo ly thuyet phan IV
sau day )
62
IV. TÓM TẮT DỮ LIỆU
BẰNG CÁC ĐẠI LƯỢNG
THỐNG KÊ MÔ TẢ
Nội dung
1. Các đại lượng đo lường độ
tập trung
2. Các đại lượng đo lường độ
phân tán
63
64
• 1.1 Trung bình cộng.
• 1.2 Trung vị (Median).
• 1.3 Các tứ phân vị - phân vị.
• 1.4 Số yếu vị (Mode).
1. Các đặc trưng đo lường khuynh hướng tập trung
• 2.1 Khoảng biến thiên.
• 2.2 Độ trãi giữa.
• 2.3 Phương sai và Độ lệch chuẩn.
• 2.4 Độ lệch trung bình
• 2.5 Hệ số biến thiên.
2. Các đặc trưng đo lường khuynh hướng phân tán
• 3.1 Phân phối cân đối.
• 3.2 Phân phối lệch trái và lệch phải.
3. Khảo sát hình dạng phân phối của các tập dữ liệu
• a) Trung bình cộng đơn giản
• Trung bình tổng thể:
• Trung bình mẫu:
• b) Trung bình cộng có trọng số
1. Trung bình cộng
65
A. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG
1
: soá phaàn töû cuûa toång theå1
vôùi
: giaù trò phaàn töû thöù i
N
i
i i
N
X
N X
µ
=

= 

∑
1
: soá phaàn töû cuûa maãu1
vôùi
: giaù trò phaàn töû thöù i
n
i
i i
n
X X
n X=

= 

∑
1
1
1
: giaù trò phaàn töû thöù i
vôùi : taàn soá cuûa giaù trò
: soá phaàn töû cuûa maãu
k
ii i
i
i ik
k
i
i i
i
XX f
X f X
f
f n
=
=
=



= 

 =

∑
∑
∑
66
• Ví dụ 1. Điểm thi môn Toán của 16 sinh viên là: 2,
4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7, 8. Ta có trung
bình mẫu (điểm thi trung bình của 16 sinh viên
này) là:
1. Trung bình cộng
2 4 ... 8
5,6875
16
X
+ + +
= =
Điểm 0 1 2 3 4 5 6 7 8 9 10
Số SV 0 3 5 4 12 18 29 16 10 2 1
Ví dụ 2. Điểm thi Toán của một số sinh viên cho
trong bảng sau đây. Hãy tính điểm thi trung bình của
nhóm sinh viên này.
0.0 1.3 ... 9.2 10.1
5,57
0 3 ... 2 1
X
+ + + +
= =
+ + + +
67
• Ví dụ 3.Trong một đợt sản suất người ta chọn 50
sản phẩm và ghi nhận khối lượng. Sản phẩm được
phân nhóm theo khối lượng như sau:
1. Trung bình cộng
Tính khối lượng trung bình của sản phẩm trong mẫu?
Khối lượng (gam) Số sản phẩm (fi )
484 – 490 5
490 – 496 10
496 – 502 15
502 – 508 13
508 – 514 7
Cộng 50
68
• Chú ý. Trường hợp dữ liệu phân nhóm có khoảng
cách thì trung bình mẫu được tính gần đúng bởi
công thức
1. Trung bình cộng
=
=
+
= =
∑
∑
1
1
minmax
vôùi
2
i
i
k
i i
ik
i
ii
x f X X
X x
f
69
• c) Đặc điểm của trung bình cộng
1. Trung bình cộng
- Trung bình cộng thường rất nhạy cảm với các đột
biến (giá trị quá lớn hoặc quá nhỏ).
1 2 3 4 5
1 2 3 4 155
- Không tính trung bình cộng cho dữ liệu định danh.
Ví dụ: 1= màu đen, 2= màu trắng, 3= màu khác
- Nên cân nhắc việc tính trung bình cho dữ liệu định
lượng đo lường bằng thang đo khoảng
Ví dụ: 1= không đồng ý, 2= bình thường, 3= đồng ý,
4= rất đồng ý
70
• Trong một tập dữ liệu đã được sắp xếp theo thứ
tự tăng dần thì trung vị (Me) là giá trị đứng giữa
của tập dữ liệu.
• Trung vị chia dãy số làm hai phần, mỗi phần có số
lượng bằng nhau = 50%
2. Trung vị (Median)
1 3 4 5 6
4Me =
( ) ++
= = 150% 1
2
nn
Me X X
Cách xác định trung vị:
(a) Xác định trung vị cho dữ liệu không phân nhóm
Trường hợp số phần tử của mẫu n là số lẻ:
71
2. Trung vị (Median)
1 3 4 5 6 9 10
4 5Me X= =
Trường hợp n là số chẵn:
1
2 2
2
n nX X
Me
+
+
=
1 3 4 5 6 9
3 4 4 5
4,5
2 2
X X
Me
+ +
= = =
72
2. Trung vị (Median)
(b) Xác định trung vị cho dữ liệu có phân nhóm
B1. Tính tần số tích luỹ.
B2. Nhóm chứa trung vị là nhóm có tần số tích luỹ
B3. Áp dụng công thức
1
2
n +
≥
1
( )
2
Me
Me Min Me
Me
n
S
Me X h
f
−−
= +
trong đó
XMe(Min) là giới hạn dưới của nhóm chứa Me
hMe là khoảng cách của nhóm chứa Me
SMe-1 là tần số tích luỹ của nhóm đứng trước nhóm chứa Me
fMe là tần số của nhóm chứa Me.
73
2. Trung vị (Median)
Ví dụ: Tính trung vị của mẫu dữ liệu sau
Khối lượng
(gam)
Số sản phẩm (fi )
484 – 490 5
490 – 496 10
496 – 502 15
502 – 508 13
508 – 514 7
Cộng 50
74
2. Trung vị (Median)
Khối lượng (gam) Số sản phẩm (fi ) Tần số tích luỹ (Si )
484 – 490 5 5
490 – 496 10 15
496 – 502 15 30
502 – 508 13 43
508 – 514 7 50
Cộng 50
B2 ⇒nhóm chứa trung vị là nhóm 3
50 1
30
2
+
>
B3
B1
50
15
2496 6 500
15
Me
−
= + =
Vậy có 25 sản phẩm có khối lượng lớn hơn 500g, và 25 sản
phẩm có khối lượng nhỏ hơn 500g
75
3. Yếu vị ( Mode)
Mode là giá trị xuất hiện nhiều nhất trong một dãy số
Điểm 0 1 2 3 4 5 6 7 8 9 10
Số SV 0 3 5 4 12 18 29 16 10 2 1
⇒ Mode = 6
Cách xác định mode:
(a) Trường hợp dữ liệu không phân nhóm: Mode là
giá trị có tần số lớn nhất.
76
3. Yếu vị ( Mode)
(b) Trường hợp dữ liệu phân nhóm có khoảng cách
đều nhau: nhóm chứa Mode là nhóm có tần số lớn
nhất. Giá trị của Mode đươc tính bởi công thức:
( ) ( )
1
( )
1 1
Mo Mo
Mo Min Mo
Mo Mo Mo Mo
f f
Mo X h
f f f f
−
− +
−
= +
− + −
trong đó
XMo(Min) là giới hạn dưới của nhóm chứa Mo
hMo là khoảng cách của nhóm chứa Mo
fMo-1 là tần số của nhóm đứng trước nhóm chứa Mo
fMo là tần số của nhóm chứa Mo.
fMo+1 là tần số của nhóm đứng sau nhóm chứa Mo
77
3. Yếu vị ( Mode)
Ví dụ: Tính mode của mẫu dữ liệu về doanh số bán hàng
của trạm xăng trong 1 tháng
Doanh số bán (triệu đồng) Số trạm
200 – 300 8
300 – 400 10
400 – 500 20
500 – 600 7
600 – 700 5
Tổng 50
( ) ( )
20 10
400 100 443,48
20 10 20 7
Mo
−
= + =
− + −
Vậy trong tháng này, đa số trạm xăng có doanh số bán
hàng khoảng 443,48 triệu đồng
78
3. Yếu vị ( Mode)
(c) Trường hợp dữ liệu phân nhóm có khoảng cách
không đều nhau: việc xác định nhóm chứa Mode không
căn cứ vào tần số mà căn cứ vào mật độ phân phối.
(Mật độ phân phối = Tần số : khoảng cách nhóm).
( ) ( )
1
( )
1 1
Mo Mo
Mo Min Mo
Mo Mo Mo Mo
g g
Mo X h
g g g g
−
− +
−
= +
− + −
trong đó
gMo-1 là mật độ phân phối của nhóm trước nhóm chứa Mo
gMo là mật độ phân phối của nhóm chứa Mo.
gMo+1 là mật độ phân phối của nhóm đứng sau nhóm chứa Mo
79
3. Yếu vị ( Mode)
Ví dụ: Tính mode của mẫu dữ liệu về doanh thu của 79
cửa hàng trong 1 tháng
Doanh thu
(triệu đồng)
Cửa hàng
(fi )
200 – 400 8
400 – 500 12
500 – 600 25
600 – 800 25
800 – 1000 9
Tổng 79
( ) ( )
0,25 0,12
500 100 550,9
0,25 0,12 0,25 0,125
Mo
−
= + =
− + −
Vậy đa số cửa hàng có doanh thu khoảng 550,9 triệu đồng
Khoảng cách
nhóm (hi )
Mật độ
phân phối
200 0,04
100 0,12
100 0,25
200 0,125
200 0,045
i
i
i
f
g
h
=
80
3. Yếu vị ( Mode)
Chú ý:
Mode là đại lượng thống kê mô tả duy nhất có thể vận
dụng cho dữ liệu định tính.
Mode không bị ảnh hưởng bởi các giá trị đột biến
Một tập dữ liệu có thể có nhiều mode hoặc không có
mode
81
4. Tứ phân vị
Tứ phân vị chia tập dữ liệu đã được sắp thứ tự thành
bốn phần, mỗi phần có số đơn vị bằng nhau = 25%
Cách xác định tứ phân vị:
• Nếu n+1 chia hết cho 4:
( )
( ) ( )
( ) ( )
++
+ +
+ +
= =
= =
= =
1 125% 1
4
2 50% 1 2 1
4
3 75% 1 3 1
4
nn
n n
n n
Q X X
Q X X
Q X X
5 6 7 8 91 43
1 2 3
vò trí 3 vò trí 6 vò trí 9
4 7 10Q Q Q= = =
131210
Trung vị
82
4. Tứ phân vị
• Nếu n+1 không chia hết cho 4:
( ) ( )2 1 3 11 1 1 3
2 , 4 , 6
4 4 4 2 4 4
n nn + ++
= = =
Ví dụ: Cho dãy số:
1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800
có số phần tử là n = 8 nên
( )
( )
( )
1
2
3
1
1900 2000 1900 1925
4
1
2100 2200 2100 2150
2
3
2500 2700 2500 2650
4
Q
Q
Q
= + − =
= + − =
= + − =
83
5. Theo tứ tự cân nặng, 9 bạn đầu tiên sẽ có
cân nặng trong khoảng nào?
6. Theo tứ tự cân nặng, 27 bạn đầu tiên sẽ có
cân nặng trong khoảng nào?
7. Theo thứ tự cân nặng, 10% đầu tiên của bộ
dữ liệu có cân nặng trong khoảng nào?
8. Theo tứ tự cân nặng, 10 bạn đầu tiên sẽ có
cân nặng trong khoảng nào?
84
5. Thập phân vị
Thập phân vị chia bộ dữ liệu ra làm 10 phần bằng nhau
( )
( ) ( )
( ) ( )
++
+ +
+ +
= =
= =
= =
1 110% 1
10
2 20% 1 2 1
10
9 90% 1 9 1
10
.....
nn
n n
n n
Q X X
Q X X
Q X X
85
6. Phân vị
Trong một dãy số đã sắp thứ tự, Phân vị thứ p
Qp% (0 ≤ p ≤100) là giá trị chia bộ dữ liệu ra làm 2
phần: một phần gồm p% số quan sát ≤ Qp%,
một phần gồm (100-p)% số quan sát ≥ Qp%
( )+
=% % 1p p n
Q X
Ví dụ: Danh sách tiền lương tháng của 8 công nhân đã
được xếp từ thấp đến cao như sau:
1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800
60% số công nhân đầu tiên có tiền lương khoảng bao
nhiêu?
( ) ( )+
= = = + − =260% 60% 8 1 5
5
2
2200 2500 2200 2320
5
Q X X
86
2. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN
1 5 10 15 20 25 30 40 45 50
87
1. Khoảng biến thiên
2. Độ trải giữa (khoảng tứ phân vị)
R= Xmax – Xmin
Ví dụ:
1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5 ⇒ R= 5-1=4
1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,121 ⇒ R= 121-1=120
RQ= Q3 – Q1
Ví dụ: Tiền lương của 2 tổ công nhân
Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9
RQ= 3,3 – 1,5 = 1,8 triệu
Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
RQ= 2,7 – 2,1 = 0,6 triệu
Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương
trong tổ I biến thiên nhiều hơn trong tổ II.
88
3. Phương sai
Phương sai tổng thể:
( )
2
2 1
1
1
: giaù trò phaàn töû thöù i.
vôùi : taàn soá cuûa
: soá phaàn töû cuûa toång theå
k
ii i
i
i ik
k
i
i i
i
XX f
f X
f
f N
µ
σ =
=
=


− 
= 

 =

∑
∑
∑
Phương sai mẫu:
( )
2
2 1
1
1
.
ˆ
i
:giaùtrò phaàn töû thöùi
vôùi : taàn soá cuûa X
:soá phaàn töû cuûa maãu
=
=
=


− 
= 

 =

∑
∑
∑
k
ii i
i
ik
k
i
i i
i
XX X f
S f
f
f n
Phương sai mẫu hiệu chỉnh: 2 2ˆ
1
=
−
n
S S
n
89
4. Độ lệch tiêu chuẩn
2
σ σ= 2
=S S
Độ lệch chuẩn cho biết sự phân phối của các giá trị trong một
tổng thể, thể hiện trên hai quy tắc sau đây:
Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình
là µ và độ lệch tiêu chuẩn là σ đều có ít nhất
giá trị rơi vào khoảng (µ - mσ, µ + mσ) với m > 1.
Vậy với 1 phân phối bất kì thì
ít nhất 55,6% giá trị rơi vào (µ - 1.5σ, µ + 1.5σ)
ít nhất 75% giá trị rơi vào (µ - 2σ, µ + 2σ)
ít nhât 84% giá trị rơi vào (µ - 2.5σ, µ + 2.5σ)
ít nhất 88,9% giá trị rơi vào (µ - 3σ, µ + 3σ)
Độ lệch chuẩn được sử dụng để so sánh độ phân tán của
hai hay nhiều tổng thể (khi đơn vị tính giống nhau hoặc
giá trị trung bình bằng nhau).
2
1
1 .100%
 
− 
 m
90
4. Độ lệch tiêu chuẩn
Ví dụ: Tiền lương hàng năm của 7 công nhân một xí
nghiệp là: 34,5 ; 30,7 ; 32,9 ; 36,0 ; 34,1 ; 33,8 ; 32,5 (triệu
đồng).
Khi đó:
Tiền lương trung bình = 33,5
Độ lệch tiêu chuẩn = 1,678
Theo quy tắc Tchebychev, có ít nhất 55,6% mức lương rơi
vào khoảng 33,5±1,5.1,678 , nghĩa là từ 30,983 đến 36,017
(triệu đồng/năm).
91
4. Độ lệch tiêu chuẩn
Quy tắc Thực nghiệm: Khi X có phân phối chuẩn thì
Khoảng 68% giá trị rơi vào (µ - σ, µ + σ)
Khoảng 95% giá trị rơi vào (µ - 2σ, µ + 2σ)
Khoảng 99,7% giá trị rơi vào (µ - 3σ, µ + 3σ)
Vậy hầu như toàn bộ giá trị đều nằm trong khoảng ±3σ
Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá
trị bất thường trong một tập dữ liệu. Chẳng hạn, khi tập dữ
liệu có phân phối cân đối, ta thấy có 5% giá trị rơi ra ngoài
khoảng ±2σ so với trung bình, vậy ta xem những giá trị
này là các quan sát ngoại lệ.
92
4. Độ lệch tiêu chuẩn
68%
95%
99,7%
Ví dụ: (Giáo trình- trang 97)
Điểm thi môn Toán của một lớp
học có dạng phân phối chuẩn. µ
= 5,6; σ =1,41.
Giảng viên quyết định áp dụng
quy tắc để xét sinh viên xuất
sắc là sinh viên có điểm thi trên
trung bình và nằm ngoài phạm
vi ±2σ so với trung bình.
Sinh viên được bao nhiêu điểm
thì được xếp loại xuất sắc?
Những sinh viên có điểm từ
µ + 2σ = 5,6 + 2.1,41 = 8,42
trở lên được xếp loại sinh viên
xuất sắc.
93
4. Độ lệch tiêu chuẩn
Bài tập:
1) Trong ví dụ trên, 68% sinh viên sẽ có điểm thi nằm trong
khoảng nào?
2) Có bao nhiêu % sinh viên có điểm thi dưới 2,78 điểm?
3) Nếu không có giả thiết điểm của lớp học trên có phân phối
chuẩn, có ít nhất bao nhiêu % sinh viên có điểm trong khoảng
(2.78 ; 8.42) ?
4) Nếu không có giả thiết điểm của lớp học trên có phân phối
chuẩn, ít nhất 50% sinh viên sẽ có điểm trong khoảng nào?
Tr l i: 1) ( 4.19 ; 7.01 )
2) 2.5%
3) 75%
4) m= 1.4142 (3.606;7.594)
94
5. Hệ số biến thiên
Hệ số biến thiên được sử dụng để đo lường mức độ biến
động tương đối của những tập dữ liệu có giá trị trung bình
khác nhau hoặc đơn vị đo khác nhau
Công thức tính hệ số biến thiên tổng thể:
Công thức tính hệ số biên thiên mẫu:
Khi hệ số biến thiên của hai tập dữ liệu được so sánh với
nhau, hệ số biến thiên của tập nào lớn hơn thì tập đó biến
động nhiều hơn.
.100%
σ
µ
=CV
.100%=
S
CV
X
95
5. Hệ số biến thiên
Ví dụ:
So sánh 2 tập dữ liệu có trung bình khác nhau: sách
giáo trình trang 95.
So sánh 2 tập dữ liệu có đơn vị đo khác nhau: sách
giáo trình trang 96.
96
6. Chuẩn hóa dữ liệu
Công thức tính giá trị chuẩn hoá z cho dữ liệu tổng thể:
Công thức tính giá trị chuẩn hoá z cho dữ liệu mẫu:
z là điểm số chuẩn hóa cho biết x cách xa trung bình một
khoảng bằng mấy lần độ lệch tiêu chuẩn.
z ≈ 0 : quan sát ở vị trí rất gần trung bình.
z = -1 : quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với
trung bình về phía trái;
z = 1: quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với
trung bình về phía phải.
Ví dụ: Giáo trình trang 99
µ
σ
−
=
x
Z
−
=
x x
Z
S
97
3. KHẢO SÁT HÌNH DÁNG CỦA PHÂN PHỐI
98
1. Hình dáng của phân phối
Mo Mo = Me= Mean Mo MeMe
Skewness <0 Skewness =0 Skewness >0
Lệch phảiLệch trái
Mean Mean
Cân đối
99
1. Hình dáng của phân phối
Kurtosis =3
Kurtosis >3
Kurtosis <3
100
2. Biểu đồ hộp và râu (Box Plot)
Ví dụ: ( Giáo trình – trang 92 ) Vẽ biểu đồ hộp và râu mô tả
dữ liệu về tuổi của 30 sinh viên.
Bước 1: sắp xếp dữ liệu theo thứ tự tăng dần
Bước 2: Tính giá trị tứ phân vị: Q1= 22, Q2= 27, Q3=30
⇒ độ trải giữa = Q3 - Q1= 8
Bước 3: vẽ hộp có bề rộng bằng độ trải giữa
Dulieu.xls
22 26 30
101
2. Biểu đồ hộp và râu (Box Plot)
Bước 4: vẽ đường thẳng nằm trong hộp đi qua giá trị trung vị
Me = Q2 =27
Bước 5: tính giá trị cực đại và cực tiểu của biểu đồ
cực đại = Q3+1,5. (Q3 – Q1) = 42
cực tiểu = Q1 – 1,5. (Q3 – Q1) = 10
Bước 6: Vẽ 2 râu dựa trên cực đại và cực tiểu của bộ dữ liệu
cực đại = 39 cực tiểu = 19
10 14 18 22 26 30 34 3822 26 30 42
102
2. Biểu đồ hộp và râu (Box Plot)
10 14 18 22 26 30 34 38
0
2
4
6
8
10
12
14
19 - 24 24 - 29 29 - 34 34 -39 More
Frequency
do tuoi
Histogram
103
2. Biểu đồ hộp và râu (Box Plot)
Cực
tiểu
Q1 Me Q3 Cực
đại
Tổng quát
Cực
tiểu
Q1 Me Q3 Cực
đại
Quan sát
ngoại lệ
104
V. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI
LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU
1. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ
CÓ PHÂN PHỐI CHUẨN
2. PHÂN PHỐI TIỆM CẬN CHUẨN CỦA CÁC ĐẠI LƯỢNG
THỐNG KÊ
3. SUY DIỄN THỐNG KÊ

Thống kê ứng dụng Chương 1

  • 1.
    CHƯƠNG 1 THỐNG KÊMÔ TẢ THS HUỲNH TỐ UYÊN 1
  • 2.
    • Thống kêlà một nhánh của toán học liên quan đến việc thu thập, trình bày và phân tích các dữ liệu. 1. Khái niệm 2 I. KHÁI NIỆM THỐNG KÊ VÀ CÁC LOẠI THANG ĐO DỮ LIỆU
  • 3.
    • Quá trìnhnghiên cứu thống kê trải qua 3 giai đoạn có quan hệ chặt chẽ và mật thiết với nhau, trong đó giai đoạn trước làm tiền đề để thực hiện giai đoạn sau. • Giai đoạn điều tra thống kê: bao gồm ghi chép, thu thập tài liệu thống kê. • Giai đoạn tổng hợp và trình bày kết quả điều tra thu thập được. • Giai đoạn phân tích và dự báo thống kê. 2. Chức năng của thống kê 3
  • 4.
    • Như vậy,thống kê có hai lĩnh vực: • Thống kê mô tả bao gồm các phương pháp thu thập, trình bày dữ liệu và tính toán các đặc trưng nhằm mô tả đối tượng nghiên cứu. • Thống kê suy diễn bao gồm các phương pháp mô hình hoá trên các dữ liệu quan sát để đưa ra các suy diễn về đối tượng được nghiên cứu. 2. Chức năng của thống kê 4
  • 5.
    • 3.1. Tổngthể, đơn vị tổng thể, mẫu • Tổng thể là tập hợp tất cả các đối tượng mà ta nghiên cứu. Các đơn vị (hay phần tử) tạo thành tổng thể được gọi là đơn vị tổng thể. Mẫu là một bộ phận lấy ra từ tổng thể. 3. Các khái niệm cơ bản. 5 Ví dụ 1: Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường ĐH, người ta đã xét bảng điểm của 250 sinh viên. Hãy chỉ ra tổng thể, đơn vị tổng thể và mẫu ?
  • 6.
    • 3.2. Đặcđiểm thống kê • Biến là khái niệm dùng để chỉ các đặc điểm của đơn vị tổng thể mà ta nghiên cứu. • Dữ liệu là kết quả, giá trị quan sát được của các biến. 3. Các khái niệm cơ bản. 6 Ví dụ 2: Để nghiên cứu sinh viên trường ĐH, ta cần nghiên cứu các biến (hay các tiêu thức) như: giới tính, tuổi, dân tộc, ngành học, số tiền chi tiêu trong 1 tháng…
  • 7.
    • 3.2. Đặcđiểm thống kê • Biến định tính (hay tiêu thức thuộc tính) phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số. • Biến định lượng (hay tiêu thức số lượng) biểu hiện trực tiếp bằng con số. 3. Các khái niệm cơ bản. 7 Ví dụ 3: Phân loại biến định tính và biến định lượng trong ví dụ 2? Biến định tính: giới tính, dân tộc, ngành học. Biến định lượng: tuổi, số tiền chi tiêu trong 1 tháng
  • 8.
    • 3.2. Đặcđiểm thống kê • Quan sát: tập hợp tất cả các dữ liệu thu thập được của một đơn vị tổng thể hay mẫu. 3. Các khái niệm cơ bản. 8 Ví dụ 4: •Quan sát 1: giới tính: nam ; tuổi:20 ; dân tộc:Kinh ; ngành học:401 ; tiền chi tiêu trong tháng: 2,5 triệu đồng •Quan sát 2: giới tính: nữ ; tuổi:21 ; dân tộc:Tày ; ngành học:402 ; tiền chi tiêu trong tháng: 2 triệu đồng
  • 9.
    • Trong thốngkê người ta sử dụng bốn cấp bậc đo lường theo mức độ thông tin tăng dần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ. 4. Các cấp bậc đo lường và thang đo. 9 Ví dụ: Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo định danh. 4.1. Thang đo định danh: Thang đo định danh (hay thang đo phân loại) không thể hiện sự hơn kém. Thang đo này được sử dụng cho các dữ liệu định tính.
  • 10.
    • 4.1. Thangđo định danh: • Người ta thường sử dụng các số để phân loại các đối tượng, đây là các mã số dùng để đếm số lần xuất hiện, không phải để so sánh hơn kém 4. Các cấp bậc đo lường và thang đo. 10 Ví dụ: Câu hỏi điều tra: bạn hiện đang sống ở đâu? ( Chọn từ 1 đến 4 ) 1. Sống cùng gia đình 2. Ký túc xá 3. Nhà trọ 4. Trường hợp khác
  • 11.
    • 4.2. Thangđo thứ bậc: • Là thang đo định danh nhưng thể hiện sự hơn kém của dữ liệu, không biết chính xác mức độ hơn kém đó. • Thang đo này được sử dụng cho các dữ liệu định tính và cả định lượng. 4. Các cấp bậc đo lường và thang đo. 11 Ví dụ: • Đo thái độ đ/v hành vi nào đó (hoàn toàn đồng ý, đồng ý, chưa qđ, ht không đồng ý) •Huân chương độc lập hạng Nhất, Nhì, Ba •Thu nhập của bạn trong 1 tháng là? − dưới 2 triệu − từ 2 đến 4 triệu − trên 4 triệu
  • 12.
    • 4.3. Thangđo khoảng: • Thang đo khoảng là thang đo thứ bậc có khoảng cách đều nhau. Thang đo này đánh giá chính xác mức độ hơn kém cụ thể • Thang đo này được sử dụng cho các dữ liệu định tính và cả định lượng. 4. Các cấp bậc đo lường và thang đo. 12 Ví dụ: Thu nhập bình quân 1 tháng của bạn là: 1. Từ 1,5 triệu đến 2 triệu 2. Từ 2 triệu đến 2,5 triệu 3. Từ 2,5 triệu đến 3 triệu Khoảng cách đều nhau bằng 500 ngàn đồng Thực hiện được các phép toán cộng trừ.
  • 13.
    • 4.3. Thangđo khoảng: 4. Các cấp bậc đo lường và thang đo. 13 Ví dụ: Bạn hãy cho biết ý kiến về chất lượng phòng trọ ở khu vực làng đại học ? ( Hãy ghi vào kế bên theo mức độ 1: rất tệ, 2: tệ, 3: bình thường, 4: tốt, 5 : rất tốt) − Không gian sinh hoạt ….. − Ánh sáng ….. − Vệ sinh ….. − An ninh….. NHƯỢC ĐIỂM: Không có điểm gốc 0 trên thực tế mà chỉ có điểm các khoảng theo trật tự nào đó, nếu có điểm 0 thì đó chỉ là quy ước.
  • 14.
    • 4.4. Thangđo tỉ lệ: • Là thang đo khoảng với điểm gốc 0 tuyệt đối (một giá trị thật) -> điểm xuất phát của độ dài đo lường trên thang đo => có thể so sánh tỉ lệ giữa các trị số đo • Là loại thang đo dùng cho các dữ liệu định lượng. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo. 4. Các cấp bậc đo lường và thang đo. 14 Ví dụ: • Bạn nặng 80kg. Anh bạn nặng 40kg => bạn nặng gấp đôi anh bạn (dù đổi ở bất cứ đơn vị nào). •Kg, tấn, tạ, km, m,… là thang đo tỉ lệ
  • 15.
    • Phân biệtthang đo khoảng và thang đo tỉ lệ: Trong thang đo tỉ lệ, giá trị 0 có nghĩa thật sự, cho phép lấy tỉ lệ, so sánh giữa hai giá trị thu thập. • Chỉ có thể đưa thang đo cao về thang đo thấp. • Tuy nhiên không phải lúc nào cũng sử dụng thang đo hoàn hảo=>tùy thuộc vào đặc điểm của hiện tượng, tiêu thức NC mà sd thích hợp. Chú ý 15 Ví dụ: điểm tổng kết của sinh viên: Thang đo khoảng: • từ 0-2 điểm • từ 2-4 điểm • từ 4-6 điểm • từ 6-8 điểm • từ 8-10 điểm Thang đo thứ bậc: • Kém • Yếu • Trung Bình • Khá • Giỏi
  • 16.
    Dữ liệu Dữ liệuđịnh tính Thang đo định danh Thang đo thứ bậc Dữ liệu định lượng Thang đo khoảng Thang đo tỉ lệ 16
  • 17.
    17 II. THU THẬPDỮ LIỆU KN dữ liệu thống kê: Là các sự kiện và số liệu được thu thập tổng hợp và phân tích để trình bày và giải thích ý nghĩa của chúng
  • 18.
    • Phải xácđịnh rõ những dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Dữ liệu cần thu thập phụ thuộc vào vấn đề nghiên cứu. 1. Xác định dữ liệu cần thu thập 18 Ví dụ 1. Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinh hoạt đến kết quả học tập của sinh viên. Có hai nhóm dữ liệu chính cần thu thập là: (1) điều kiện ăn ở sinh hoạt; (2) kết quả học tập. Nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹ hay ở kí túc xá, ở trọ? Có phòng riêng hay sống chung nhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn ào hay không?... Không cần thu thập: bàn học làm bằng sắt hay gỗ? Nhà có phòng vệ sinh hiện đại không, có bồn tắm không?...
  • 19.
    • Dữ liệuđịnh tính phản ánh tính chất, sự hơn kém của đối tượng nghiên cứu • Dữ liệu định lượng phản ánh mức độ của đối tượng 1.1 Dữ liệu định tính và dữ liệu định lượng 19 Ví dụ: Trong ví dụ trên, Dữ liệu định tính: giới tính của sinh viên. Dữ liệu định lượng: điểm trung bình các môn học của SV
  • 20.
    • Dữ liệuthứ cấp: là dữ liệu được lấy từ nguồn có sẵn, thường đã được xử lý, tổng hợp • Dữ liệu sơ cấp: là dữ liệu được thu thập trực tiếp từ đối tượng nghiên cứu 1.2 Dữ liệu thứ cấp và dữ liệu sơ cấp 20 Ví dụ: Dữ liệu thứ cấp: kết quả học tập của sinh viên Dữ liệu sơ cấp: điều kiện ăn ở sinh hoạt của sinh viên
  • 21.
    • Dữ liệuthứ cấp: Nội bộ ( của 1 doanh nghiệp, đơn vị trường học,…) Cơ quan thống kê ( Tổng cục thống kê, …) • Dữ liệu sơ cấp: Được thu thập trực tiếp tùy theo yêu cầu của nghiên cứu, từ doanh nghiệp, hộ gia đình, cá nhân, xã hội,… 2. Nguồn thu thập dữ liệu 21
  • 22.
    • Thực nghiệm •Khảo sát qua điện thoại • Thư hỏi • Quan sát trực tiếp • Phỏng vấn cá nhân 3. Các phương pháp thu thập dữ liệu sơ cấp 22
  • 23.
    • 3.1. Cácnội dung chính cần thực hiện trong thu thập dữ liệu • Xác định vấn đề, đối tượng, mục đích nghiên cứu. • Nghĩ ra câu hỏi và thiết kế bản câu hỏi hoàn chỉnh • Quyết định điều tra trên toàn bộ tổng thể hay trên mẫu. • Thực hiện thu thập dữ liệu 3. Các phương pháp thu thập dữ liệu sơ cấp 23
  • 24.
    • Ví dụ:Một nhóm sinh viên trường ĐH Kinh Tế Luật muốn điều tra về sự ảnh hưởng của điều kiện sinh hoạt đến độ cận thị của sinh viên trường ĐH Kinh Tế Luật. • Đối tượng điều tra: Toàn bộ sinh viên trường ĐH Kinh Tế Luật. • Bảng câu hỏi được điều tra như sau: 3. Các phương pháp thu thập dữ liệu sơ cấp 24
  • 25.
    • 1. Giớitính của bạn là: Nam/Nữ • 2. Bạn đang sống ở: • a. Gia đình, nhà người thân • b. Ký túc xá • c. Nhà trọ • 3. Một ngày bạn giành bao nhiêu thời gian cho việc tự học? • a. Dưới 3 giờ • b. Khoảng 3-5 giờ • c. Trên 5 giờ • 4. Một ngày bạn sử dụng máy vi tính bao lâu? • a. Dưới 1 giờ • b. 1-3 giờ • c. 3-5 giờ • d. Trên 5 giờ • 5. Hiện nay mắt của bạn bao nhiêu độ? 3. Các phương pháp thu thập dữ liệu sơ cấp 25
  • 26.
    • 3.2 .Kỹ thuật thiết kế bảng câu hỏi • Cần xác định rõ các vấn đề sau: dữ liệu cần thu thập, nội dung bảng câu hỏi; hình thức,trình tự bảng câu hỏi; hình thức trả lời • Các dạng câu hỏi trong bảng câu hỏi: Câu hỏi mở (bạn có suy nghĩ gì về?…), Câu hỏi đóng (đúng/sai, có/không), Câu hỏi phân mức, Câu hỏi chấm điểm,… • Chú ý: các câu hỏi cần đơn giản, không dài dòng, tránh câu hỏi đa nghĩa, câu hỏi gợi ý, tránh câu hỏi không công bằng 3. Các phương pháp thu thập dữ liệu sơ cấp 26
  • 27.
    4. Các kỹthuật chọn mẫu 27 Mục đích của việc chọn mẫu là bảo đảm cho mẫu được chọn thực sự phản ánh trung thực, đại diện cho toàn bộ tổng thể. Sau khi thu thập dữ liệu, ta lập được 1 danh sách, từ danh sách này ta tiến hành chọn mẫu. Có hai nhóm kĩ thuật chọn mẫu là lấy mẫu ngẫu nhiên (lấy mẫu xác suất) và mẫu không ngẫu nhiên (lấy mẫu phi xác suất ).
  • 28.
    4. Các kỹthuật chọn mẫu 28 Ví dụ: điều tra chi tiêu của người dân sống ở Tp Hồ Chí Minh. Ví dụ: điều tra chi tiêu của những người có thu nhập cao sống ở Tp Hồ Chí Minh.
  • 29.
    29 Kỹ thuật chọnmẫu xác suất Lấy mẫu ngẫu nhiên đơn giản Lấy mẫu hệ thống Lấy mẫu cả khối/cụm Lấy mẫu phân tầng Kỹ thuật chọn mẫu phi xác suất Lấy mẫu thuận tiện Lấy mẫu định mức Lấy mẫu phán đoán
  • 30.
    • Là loạimẫu được chọn trực tiếp và ngẫu nhiên từ tổng thể. • Tổng thể nhỏ: Mẫu được chọn bằng cách bốc thăm, quay số,…Ví dụ: Chọn ngẫu nhiên 10 bạn trong lớp bằng cách bốc thăm • Tổng thể lớn: Mẫu được chọn bằng hàm random trong Excel hoặc SPSS. • Phương pháp này có thể cho 1 kết quả tốt và đảm bảo tính ngẫu nhiên. 4.1. Kỹ thuật chọn mẫu ngẫu nhiên đơn giản 30
  • 31.
    4.2. Kỹ thuậtchọn mẫu hệ thống (máy móc) 31 Mỗi đơn vị được chọn vào mẫu căn cứ vào từng khoảng cách nhất định (khoảng thời gian,không gian,thứ tự bằng nhau). Phương pháp: - Đánh số thứ tự cho danh sách chọn mẫu. Tổng số lượng N - Xác định cỡ mẫu muốn lấy. Số lượng n - Chia danh sách thành k nhóm k=N/n, k gọi là khoảng cách chọn mẫu
  • 32.
    4.2. Kỹ thuậtchọn mẫu hệ thống 32 - Nếu N chia hết cho n (k nguyên): Chọn mẫu hệ thống theo đường thẳng: Trong nhóm đầu tiên lấy ra ngẫu nhiên 1 phần tử, các phần tử tiếp theo được lấy cách phần tử này 1 khoảng là k, 2k, 3k,… Ví dụ 1: Chọn 10 số từ 60 số tự nhiên đầu tiên theo pp chọn mẫu hệ thống. N=60, n=10, k=N/n=6 (số đầu được chọn từ 6 số đt) + Nếu phần tử được chọn đầu tiên là 4 thì ta được mẫu là: 4, 10, 16, 22, 28, 34, 40, 46, 52, 58 + Nếu phần tử được chọn đầu tiên là 6 thì ta được mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 60
  • 33.
    4.2. Kỹ thuậtchọn mẫu hệ thống 33 - Nếu N không chia hết cho n (k thập phân): Chọn mẫu hệ thống quay vòng: Chọn ngẫu nhiên 1 phần tử bất kì trong danh sách từ 1 đến N. Các phần tử tiếp theo được lấy cách phần tử này 1 khoảng là k, 2k, 3k,…
  • 34.
    4.2. Kỹ thuậtchọn mẫu hệ thống 34 Ví dụ 2: Chọn 10 số từ 56 số tự nhiên đầu tiên theo pp chọn mẫu hệ thống. N=56 n=10 k=N/n=5,6 , chọn k=6 Nếu phần tử được chọn đầu tiên là 6 thì ta được mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 4 Nếu phần tử được chọn đầu tiên là 13 thì ta được mẫu là: 13, 19, 25, 31, 37, 43, 49, 55, 5, 11
  • 35.
    4.3. Kỹ thuậtchọn mẫu khối /cụm và chọn mẫu nhiều giai đoạn 35 Ví dụ 1: Quận Thủ Đức có khoảng 800 khu phố, điều tra mức sống của dân cư ở đây, ta có thể chọn ra ngẫu nhiên 10 khu phố, sau đó khảo sát toàn bộ hộ dân của 10 khu phố này. Chọn mẫu khối Ví dụ 2: chọn ra ngẫu nhiên 10 khu phố, trong mỗi khu phố chọn ra khoảng 10 hộ gia đình Chọn mẫu nhiều giai đoạn Chú ý : kỹ thuật này áp dụng khi ta không có sẵn một danh sách quan sát để chọn ra mẫu
  • 36.
    • Ví dụ: •Điều tra sự yêu thích tham gia hoạt động Đoàn của sinh viên ĐHQG Tp HCM. ⇒ Điều tra 6 trường, mỗi trường điều tra với số lượng SV khác nhau… chọn mẫu phân tầng • Đọc thêm trong sách 4.4. Kỹ thuật chọn mẫu phân tầng 36
  • 37.
    • Ví dụ: •Để mở spa thì điều tra đối tượng nào? Điều tra ngẫu nhiên ? Hay tập trung vào 1 nhóm đối tượng nào đó? 4.5. Kỹ thuật chọn mẫu thuận tiện • Ví dụ: • Điều tra sự yêu thích hoạt động Đoàn của SV ĐH KTL, ta quyết định điều tra cỡ mẫu 200, yêu cầu về giới tính: ½ là nữ, trong đó về nơi ở: ½ ở KTX,… 4.6. Kỹ thuật chọn mẫu định mức • Chủ yếu dựa vào kinh nghiệm phỏng vấn 4.7. Kỹ thuật chọn mẫu phán đoán 37
  • 38.
    III. TRÌNH BÀYDỮ LIỆU 38 1. Đối với dữ liệu định tính 2. Đối với dữ liệu định lượng + Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy. + Đồ thị hình cột, thanh, hình tròn. + Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy. + Phân tổ dữ liệu. + Biểu đồ thân và lá. + Đồ thị hình cột, thanh, hình tròn.
  • 39.
    • 1. Bảng tầnsố 39 Ví dụ 1: năm 2006, Tuổi trẻ Online có làm cuộc khảo sát về bình chọn Quốc hoa Việt Nam, kết quả thu được như sau: Quốc hoa được chọn Số lượt bình chọn Tỉ lệ Hoa sen 67008 49,6% Cây tre 47288 35% Hoa mai 15850 11,73% Đề xuất khác 4951 3,66% Tổng 135097 100%
  • 40.
    • Bảng tầnsố là một bảng tổng hợp, trình bày dữ liệu, thường bao gồm ba cột: 1. Bảng tần số 40 Cột 1 Cột 2 Cột 3 biểu hiện hoặc các giá trị (khoảng giá trị) của dữ liệu. tần số tương ứng (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu). tần suất (tỉ lệ %).
  • 41.
    • Đối vớicác dữ liệu định tính như giới tính, ngành học, …, bảng tần số : 1. 1. Bảng tần số cho dữ liệu định tính 41 1 k i i f n = =∑ 100%i i f d n = 1 100% k i i d = =∑ Biểu hiện Tần số fi Tần suất(%) biểu hiện 1 f1 d1 biểu hiện 2 f2 d2 … … … biểu hiện k fk dk Tổng
  • 42.
    1. 1. Bảngtần số cho dữ liệu định tính 42 Ví dụ 2: Bảng tần số ngành học của sinh viên một trường đại học như sau. Ngành học Tần số (sinh viên) Tần suất (%) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông tin 200 20 Tổng 1000 100
  • 43.
    • Có haitrường hợp: dữ liệu có ít giá trị và dữ liệu có nhiều giá trị. • a) Trường hợp dữ liệu có ít giá trị: Bảng tần số cũng có ba cột tương tự trường hợp dữ liệu định tính, nhưng cột thứ nhất ghi các giá trị của dữ liệu. • Ví dụ 3: Khảo sát điểm thi môn Toán của một số sinh viên, ta được bảng dữ liệu sau. 1. 2. Bảng tần số cho dữ liệu định lượng 43
  • 44.
    1. 2. Bảngtần số cho dữ liệu định lượng 44 Điểm thi Tần số (số sinh viên) Tần suất (%) 3 3 3,75 4 12 15 5 15 18,75 6 20 25 7 16 20 8 8 10 9 4 5 10 2 2,5 Tổng 80 100
  • 45.
    • b) Trườnghợp dữ liệu có nhiều giá trị: Trước hết ta phân nhóm (phân tổ) cho các giá trị rồi mới lập bảng tần số trên cơ sở dữ liệu đã phân nhóm 1. 2. Bảng tần số cho dữ liệu định lượng 45 Ví dụ: Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó ta sẽ phân thành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60. Đây là kiểu phân nhóm theo kinh nghiệm. Trên thực tế người ta thường phân nhóm với khoảng cách đều nhau.
  • 46.
    • Phương phápphân nhóm dữ liệu với khoảng cách đều nhau. • Giả sử mẫu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần lượt là Xmax , Xmin . • Gọi k là số nhóm cần chia và h là khoảng cách giữa các nhóm. • Khi đó, người ta thường xác định k và h bởi công thức 1. 2. Bảng tần số cho dữ liệu định lượng 46 3 2k n= max minX X h k − =
  • 47.
    1. 2. Bảngtần số cho dữ liệu định lượng 47 3 3 2 2.40 4,3 4k n= = = ≈ max min 179 153 6,5 4 X X h k − − = = = Ví dụ 4. Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng như sau: 153 154 156 157 158 159 159 160 160 160 161 161 161 162 162 162 163 163 163 164 164 164 165 165 166 166 167 167 168 168 170 171 172 173 174 175 176 177 178 179 Hãy tính số nhóm, khoảng cách nhóm và lập bảng tần số? Với n=40, Xmax = 179, Xmin =153. ta có số nhóm khoảng cách giữa các nhóm Chọn h=7 .Vậy ta cần chia 4 nhóm , với khoảng cách giữa các nhóm là 7
  • 48.
    1. 2. Bảngtần số cho dữ liệu định lượng 48 Bảng tần số Năng suất Tần số Tần suất (%) 152 - 159 7 17,5 159 - 166 19 47,5 166 - 173 8 20 173 - 180 6 15 Tổng 40 100
  • 49.
    1. 2. Bảngtần số cho dữ liệu định lượng 49 Chú ý: Một số điều kiện phải tuân thủ khi phân nhóm • Các nhóm không được trùng nhau, mỗi giá trị chỉ thuộc về một nhóm. • Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu. • Không có nhóm rỗng.
  • 50.
    1. 2. Bảngtần số cho dữ liệu định lượng 50 Trong bảng tần số người ta còn thêm vào cột tần số tích luỹ (hoặc tần suất tích luỹ) Giá trị của biến Tần số fi Tần suất(%) Tần số tích lũy Tần suất tích lũy x1 f1 d1 f1 d1 x2 f2 d2 f1+f2 d1+d2 … … … … … xk fk dk f1+f2+…+fk d1+d2+…+dk Tổng n 100% 100%i i f d n =
  • 51.
    1. 2. Bảngtần số cho dữ liệu định lượng 51 c) Phân nhóm mở: + Nhóm đầu tiên không có giới hạn dưới. + Nhóm cuối không có giới hạn trên. +Các nhám còn lại có khoảng các đều hoặc không đều. Quy ước: K/c của nhóm mở bằng k/c của nhóm gần nó nhất Năng suất lúa (tạ/ha) Tần số <35 5 35 – 40 10 40 – 45 20 45 – 50 12 ≥50 3 Tổng 50
  • 52.
    1. 3. Bảngtần số kết hợp hai biến 52 Ví dụ: Điều tra chi tiêu của 200 sinh viên tại 3 vùng Bắc, Trung, Nam được kết quả như sau <1,5 1,5 – 2 >2 Bắc 30 40 20 Trung 30 20 10 Nam 10 25 15 Tổng 70 85 45 Vùng Chi tiêu Bảng tần số kết hợp 2 biến “chi tiêu” và “vùng” được lập như sau
  • 53.
    1. 3. Bảngtần số kết hợp hai biến 53 Vùng Bắc Trung Nam <1,5 1,5 - 2 >2 30 40 20 30 20 10 10 25 15 42,86 42,86 14,28 Chi tiêu Tần số Tần số Tần số Tần Tần Tần suất(%) suất(%) suất (%) Tổng 70 85 45100 100 100
  • 54.
    2. Đồ thịthống kê các loại 2.1 Biểu đồ tần số, tần suất 54 Số lượt bình chọn
  • 55.
    55 Tỉ lệ bìnhchọn 49% 35% 12% 4% 0% 10% 20% 30% 40% 50% 60% Hoa sen Cây tre Hoa mai đề xuất khác
  • 56.
  • 57.
    57 49% 35% 12% 4% 0 0,1 0,2 0,3 0,4 0,5 0,6 Hoa sen Câytre Hoa mai đề xuất khác Tần suất bình chọn Biểu đồ đa giác tần số
  • 58.
    58 Tỉ lệ bìnhchọn quốc hoa Việt Nam Biểu đồ hình tròn
  • 59.
    2.2 Biểu đồtần số, tần suất tích lũy 59 49% 84% 96% 100% 0% 20% 40% 60% 80% 100% 120% Hoa sen Cây tre Hoa mai Đề xuất khác Tần suat tích lũy
  • 60.
    60 2.3. Biểu đồnhánh lá (Stem-and-Leaf Plot) Can nang (Kg) Frequency Stem & Leaf 1.00 4 . 4 5.00 4 . 56899 10.00 5 . 0011223444 7.00 5 . 5557889 5.00 6 . 01223 4.00 6 . 5555 2.00 7 . 02 2.00 7 . 55 Là công cụ hữu hiệu để tóm lược và trình bày tập dữ liệu mà vẫn giúp người xem thấy được cách thức phân tán của dữ liệu gốc 1 cách chi tiết. Ví dụ: Có kết quả thống kê về trọng lượng của một nhóm sinh viên.
  • 61.
    Bài tập vềnhà (làm nhóm) • Lam bai tap chuong 3, sach bai tap TKUD Bai tap ca nhan 61 1. Lập phiếu điều tra (chủ đề tùy chọn), thu thập thông tin của ít nhất 5 biến, số lượng quan sát ít nhất 30 2. Lập bảng tần số cho từng biến (bảng tần số có tần số tích lũy và tần suất tích lũy) 3. Vẽ biểu đồ tần số, tần suất, tần số tích lũy và tần suất tích lũy 4. Nhận xét về kết quả thu được ( theo ly thuyet phan IV sau day )
  • 62.
    62 IV. TÓM TẮTDỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
  • 63.
    Nội dung 1. Cácđại lượng đo lường độ tập trung 2. Các đại lượng đo lường độ phân tán 63
  • 64.
    64 • 1.1 Trungbình cộng. • 1.2 Trung vị (Median). • 1.3 Các tứ phân vị - phân vị. • 1.4 Số yếu vị (Mode). 1. Các đặc trưng đo lường khuynh hướng tập trung • 2.1 Khoảng biến thiên. • 2.2 Độ trãi giữa. • 2.3 Phương sai và Độ lệch chuẩn. • 2.4 Độ lệch trung bình • 2.5 Hệ số biến thiên. 2. Các đặc trưng đo lường khuynh hướng phân tán • 3.1 Phân phối cân đối. • 3.2 Phân phối lệch trái và lệch phải. 3. Khảo sát hình dạng phân phối của các tập dữ liệu
  • 65.
    • a) Trungbình cộng đơn giản • Trung bình tổng thể: • Trung bình mẫu: • b) Trung bình cộng có trọng số 1. Trung bình cộng 65 A. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG 1 : soá phaàn töû cuûa toång theå1 vôùi : giaù trò phaàn töû thöù i N i i i N X N X µ =  =   ∑ 1 : soá phaàn töû cuûa maãu1 vôùi : giaù trò phaàn töû thöù i n i i i n X X n X=  =   ∑ 1 1 1 : giaù trò phaàn töû thöù i vôùi : taàn soá cuûa giaù trò : soá phaàn töû cuûa maãu k ii i i i ik k i i i i XX f X f X f f n = = =    =    =  ∑ ∑ ∑
  • 66.
    66 • Ví dụ1. Điểm thi môn Toán của 16 sinh viên là: 2, 4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7, 8. Ta có trung bình mẫu (điểm thi trung bình của 16 sinh viên này) là: 1. Trung bình cộng 2 4 ... 8 5,6875 16 X + + + = = Điểm 0 1 2 3 4 5 6 7 8 9 10 Số SV 0 3 5 4 12 18 29 16 10 2 1 Ví dụ 2. Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính điểm thi trung bình của nhóm sinh viên này. 0.0 1.3 ... 9.2 10.1 5,57 0 3 ... 2 1 X + + + + = = + + + +
  • 67.
    67 • Ví dụ3.Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng. Sản phẩm được phân nhóm theo khối lượng như sau: 1. Trung bình cộng Tính khối lượng trung bình của sản phẩm trong mẫu? Khối lượng (gam) Số sản phẩm (fi ) 484 – 490 5 490 – 496 10 496 – 502 15 502 – 508 13 508 – 514 7 Cộng 50
  • 68.
    68 • Chú ý.Trường hợp dữ liệu phân nhóm có khoảng cách thì trung bình mẫu được tính gần đúng bởi công thức 1. Trung bình cộng = = + = = ∑ ∑ 1 1 minmax vôùi 2 i i k i i ik i ii x f X X X x f
  • 69.
    69 • c) Đặcđiểm của trung bình cộng 1. Trung bình cộng - Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá nhỏ). 1 2 3 4 5 1 2 3 4 155 - Không tính trung bình cộng cho dữ liệu định danh. Ví dụ: 1= màu đen, 2= màu trắng, 3= màu khác - Nên cân nhắc việc tính trung bình cho dữ liệu định lượng đo lường bằng thang đo khoảng Ví dụ: 1= không đồng ý, 2= bình thường, 3= đồng ý, 4= rất đồng ý
  • 70.
    70 • Trong mộttập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị (Me) là giá trị đứng giữa của tập dữ liệu. • Trung vị chia dãy số làm hai phần, mỗi phần có số lượng bằng nhau = 50% 2. Trung vị (Median) 1 3 4 5 6 4Me = ( ) ++ = = 150% 1 2 nn Me X X Cách xác định trung vị: (a) Xác định trung vị cho dữ liệu không phân nhóm Trường hợp số phần tử của mẫu n là số lẻ:
  • 71.
    71 2. Trung vị(Median) 1 3 4 5 6 9 10 4 5Me X= = Trường hợp n là số chẵn: 1 2 2 2 n nX X Me + + = 1 3 4 5 6 9 3 4 4 5 4,5 2 2 X X Me + + = = =
  • 72.
    72 2. Trung vị(Median) (b) Xác định trung vị cho dữ liệu có phân nhóm B1. Tính tần số tích luỹ. B2. Nhóm chứa trung vị là nhóm có tần số tích luỹ B3. Áp dụng công thức 1 2 n + ≥ 1 ( ) 2 Me Me Min Me Me n S Me X h f −− = + trong đó XMe(Min) là giới hạn dưới của nhóm chứa Me hMe là khoảng cách của nhóm chứa Me SMe-1 là tần số tích luỹ của nhóm đứng trước nhóm chứa Me fMe là tần số của nhóm chứa Me.
  • 73.
    73 2. Trung vị(Median) Ví dụ: Tính trung vị của mẫu dữ liệu sau Khối lượng (gam) Số sản phẩm (fi ) 484 – 490 5 490 – 496 10 496 – 502 15 502 – 508 13 508 – 514 7 Cộng 50
  • 74.
    74 2. Trung vị(Median) Khối lượng (gam) Số sản phẩm (fi ) Tần số tích luỹ (Si ) 484 – 490 5 5 490 – 496 10 15 496 – 502 15 30 502 – 508 13 43 508 – 514 7 50 Cộng 50 B2 ⇒nhóm chứa trung vị là nhóm 3 50 1 30 2 + > B3 B1 50 15 2496 6 500 15 Me − = + = Vậy có 25 sản phẩm có khối lượng lớn hơn 500g, và 25 sản phẩm có khối lượng nhỏ hơn 500g
  • 75.
    75 3. Yếu vị( Mode) Mode là giá trị xuất hiện nhiều nhất trong một dãy số Điểm 0 1 2 3 4 5 6 7 8 9 10 Số SV 0 3 5 4 12 18 29 16 10 2 1 ⇒ Mode = 6 Cách xác định mode: (a) Trường hợp dữ liệu không phân nhóm: Mode là giá trị có tần số lớn nhất.
  • 76.
    76 3. Yếu vị( Mode) (b) Trường hợp dữ liệu phân nhóm có khoảng cách đều nhau: nhóm chứa Mode là nhóm có tần số lớn nhất. Giá trị của Mode đươc tính bởi công thức: ( ) ( ) 1 ( ) 1 1 Mo Mo Mo Min Mo Mo Mo Mo Mo f f Mo X h f f f f − − + − = + − + − trong đó XMo(Min) là giới hạn dưới của nhóm chứa Mo hMo là khoảng cách của nhóm chứa Mo fMo-1 là tần số của nhóm đứng trước nhóm chứa Mo fMo là tần số của nhóm chứa Mo. fMo+1 là tần số của nhóm đứng sau nhóm chứa Mo
  • 77.
    77 3. Yếu vị( Mode) Ví dụ: Tính mode của mẫu dữ liệu về doanh số bán hàng của trạm xăng trong 1 tháng Doanh số bán (triệu đồng) Số trạm 200 – 300 8 300 – 400 10 400 – 500 20 500 – 600 7 600 – 700 5 Tổng 50 ( ) ( ) 20 10 400 100 443,48 20 10 20 7 Mo − = + = − + − Vậy trong tháng này, đa số trạm xăng có doanh số bán hàng khoảng 443,48 triệu đồng
  • 78.
    78 3. Yếu vị( Mode) (c) Trường hợp dữ liệu phân nhóm có khoảng cách không đều nhau: việc xác định nhóm chứa Mode không căn cứ vào tần số mà căn cứ vào mật độ phân phối. (Mật độ phân phối = Tần số : khoảng cách nhóm). ( ) ( ) 1 ( ) 1 1 Mo Mo Mo Min Mo Mo Mo Mo Mo g g Mo X h g g g g − − + − = + − + − trong đó gMo-1 là mật độ phân phối của nhóm trước nhóm chứa Mo gMo là mật độ phân phối của nhóm chứa Mo. gMo+1 là mật độ phân phối của nhóm đứng sau nhóm chứa Mo
  • 79.
    79 3. Yếu vị( Mode) Ví dụ: Tính mode của mẫu dữ liệu về doanh thu của 79 cửa hàng trong 1 tháng Doanh thu (triệu đồng) Cửa hàng (fi ) 200 – 400 8 400 – 500 12 500 – 600 25 600 – 800 25 800 – 1000 9 Tổng 79 ( ) ( ) 0,25 0,12 500 100 550,9 0,25 0,12 0,25 0,125 Mo − = + = − + − Vậy đa số cửa hàng có doanh thu khoảng 550,9 triệu đồng Khoảng cách nhóm (hi ) Mật độ phân phối 200 0,04 100 0,12 100 0,25 200 0,125 200 0,045 i i i f g h =
  • 80.
    80 3. Yếu vị( Mode) Chú ý: Mode là đại lượng thống kê mô tả duy nhất có thể vận dụng cho dữ liệu định tính. Mode không bị ảnh hưởng bởi các giá trị đột biến Một tập dữ liệu có thể có nhiều mode hoặc không có mode
  • 81.
    81 4. Tứ phânvị Tứ phân vị chia tập dữ liệu đã được sắp thứ tự thành bốn phần, mỗi phần có số đơn vị bằng nhau = 25% Cách xác định tứ phân vị: • Nếu n+1 chia hết cho 4: ( ) ( ) ( ) ( ) ( ) ++ + + + + = = = = = = 1 125% 1 4 2 50% 1 2 1 4 3 75% 1 3 1 4 nn n n n n Q X X Q X X Q X X 5 6 7 8 91 43 1 2 3 vò trí 3 vò trí 6 vò trí 9 4 7 10Q Q Q= = = 131210 Trung vị
  • 82.
    82 4. Tứ phânvị • Nếu n+1 không chia hết cho 4: ( ) ( )2 1 3 11 1 1 3 2 , 4 , 6 4 4 4 2 4 4 n nn + ++ = = = Ví dụ: Cho dãy số: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 có số phần tử là n = 8 nên ( ) ( ) ( ) 1 2 3 1 1900 2000 1900 1925 4 1 2100 2200 2100 2150 2 3 2500 2700 2500 2650 4 Q Q Q = + − = = + − = = + − =
  • 83.
    83 5. Theo tứtự cân nặng, 9 bạn đầu tiên sẽ có cân nặng trong khoảng nào? 6. Theo tứ tự cân nặng, 27 bạn đầu tiên sẽ có cân nặng trong khoảng nào? 7. Theo thứ tự cân nặng, 10% đầu tiên của bộ dữ liệu có cân nặng trong khoảng nào? 8. Theo tứ tự cân nặng, 10 bạn đầu tiên sẽ có cân nặng trong khoảng nào?
  • 84.
    84 5. Thập phânvị Thập phân vị chia bộ dữ liệu ra làm 10 phần bằng nhau ( ) ( ) ( ) ( ) ( ) ++ + + + + = = = = = = 1 110% 1 10 2 20% 1 2 1 10 9 90% 1 9 1 10 ..... nn n n n n Q X X Q X X Q X X
  • 85.
    85 6. Phân vị Trongmột dãy số đã sắp thứ tự, Phân vị thứ p Qp% (0 ≤ p ≤100) là giá trị chia bộ dữ liệu ra làm 2 phần: một phần gồm p% số quan sát ≤ Qp%, một phần gồm (100-p)% số quan sát ≥ Qp% ( )+ =% % 1p p n Q X Ví dụ: Danh sách tiền lương tháng của 8 công nhân đã được xếp từ thấp đến cao như sau: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 60% số công nhân đầu tiên có tiền lương khoảng bao nhiêu? ( ) ( )+ = = = + − =260% 60% 8 1 5 5 2 2200 2500 2200 2320 5 Q X X
  • 86.
    86 2. CÁC ĐẠILƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN 1 5 10 15 20 25 30 40 45 50
  • 87.
    87 1. Khoảng biếnthiên 2. Độ trải giữa (khoảng tứ phân vị) R= Xmax – Xmin Ví dụ: 1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,5 ⇒ R= 5-1=4 1,1,1,1,1,1,1,2,2,3,3,3,4,4,4,5,5,5,121 ⇒ R= 121-1=120 RQ= Q3 – Q1 Ví dụ: Tiền lương của 2 tổ công nhân Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9 RQ= 3,3 – 1,5 = 1,8 triệu Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 RQ= 2,7 – 2,1 = 0,6 triệu Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương trong tổ I biến thiên nhiều hơn trong tổ II.
  • 88.
    88 3. Phương sai Phươngsai tổng thể: ( ) 2 2 1 1 1 : giaù trò phaàn töû thöù i. vôùi : taàn soá cuûa : soá phaàn töû cuûa toång theå k ii i i i ik k i i i i XX f f X f f N µ σ = = =   −  =    =  ∑ ∑ ∑ Phương sai mẫu: ( ) 2 2 1 1 1 . ˆ i :giaùtrò phaàn töû thöùi vôùi : taàn soá cuûa X :soá phaàn töû cuûa maãu = = =   −  =    =  ∑ ∑ ∑ k ii i i ik k i i i i XX X f S f f f n Phương sai mẫu hiệu chỉnh: 2 2ˆ 1 = − n S S n
  • 89.
    89 4. Độ lệchtiêu chuẩn 2 σ σ= 2 =S S Độ lệch chuẩn cho biết sự phân phối của các giá trị trong một tổng thể, thể hiện trên hai quy tắc sau đây: Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình là µ và độ lệch tiêu chuẩn là σ đều có ít nhất giá trị rơi vào khoảng (µ - mσ, µ + mσ) với m > 1. Vậy với 1 phân phối bất kì thì ít nhất 55,6% giá trị rơi vào (µ - 1.5σ, µ + 1.5σ) ít nhất 75% giá trị rơi vào (µ - 2σ, µ + 2σ) ít nhât 84% giá trị rơi vào (µ - 2.5σ, µ + 2.5σ) ít nhất 88,9% giá trị rơi vào (µ - 3σ, µ + 3σ) Độ lệch chuẩn được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể (khi đơn vị tính giống nhau hoặc giá trị trung bình bằng nhau). 2 1 1 .100%   −   m
  • 90.
    90 4. Độ lệchtiêu chuẩn Ví dụ: Tiền lương hàng năm của 7 công nhân một xí nghiệp là: 34,5 ; 30,7 ; 32,9 ; 36,0 ; 34,1 ; 33,8 ; 32,5 (triệu đồng). Khi đó: Tiền lương trung bình = 33,5 Độ lệch tiêu chuẩn = 1,678 Theo quy tắc Tchebychev, có ít nhất 55,6% mức lương rơi vào khoảng 33,5±1,5.1,678 , nghĩa là từ 30,983 đến 36,017 (triệu đồng/năm).
  • 91.
    91 4. Độ lệchtiêu chuẩn Quy tắc Thực nghiệm: Khi X có phân phối chuẩn thì Khoảng 68% giá trị rơi vào (µ - σ, µ + σ) Khoảng 95% giá trị rơi vào (µ - 2σ, µ + 2σ) Khoảng 99,7% giá trị rơi vào (µ - 3σ, µ + 3σ) Vậy hầu như toàn bộ giá trị đều nằm trong khoảng ±3σ Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá trị bất thường trong một tập dữ liệu. Chẳng hạn, khi tập dữ liệu có phân phối cân đối, ta thấy có 5% giá trị rơi ra ngoài khoảng ±2σ so với trung bình, vậy ta xem những giá trị này là các quan sát ngoại lệ.
  • 92.
    92 4. Độ lệchtiêu chuẩn 68% 95% 99,7% Ví dụ: (Giáo trình- trang 97) Điểm thi môn Toán của một lớp học có dạng phân phối chuẩn. µ = 5,6; σ =1,41. Giảng viên quyết định áp dụng quy tắc để xét sinh viên xuất sắc là sinh viên có điểm thi trên trung bình và nằm ngoài phạm vi ±2σ so với trung bình. Sinh viên được bao nhiêu điểm thì được xếp loại xuất sắc? Những sinh viên có điểm từ µ + 2σ = 5,6 + 2.1,41 = 8,42 trở lên được xếp loại sinh viên xuất sắc.
  • 93.
    93 4. Độ lệchtiêu chuẩn Bài tập: 1) Trong ví dụ trên, 68% sinh viên sẽ có điểm thi nằm trong khoảng nào? 2) Có bao nhiêu % sinh viên có điểm thi dưới 2,78 điểm? 3) Nếu không có giả thiết điểm của lớp học trên có phân phối chuẩn, có ít nhất bao nhiêu % sinh viên có điểm trong khoảng (2.78 ; 8.42) ? 4) Nếu không có giả thiết điểm của lớp học trên có phân phối chuẩn, ít nhất 50% sinh viên sẽ có điểm trong khoảng nào? Tr l i: 1) ( 4.19 ; 7.01 ) 2) 2.5% 3) 75% 4) m= 1.4142 (3.606;7.594)
  • 94.
    94 5. Hệ sốbiến thiên Hệ số biến thiên được sử dụng để đo lường mức độ biến động tương đối của những tập dữ liệu có giá trị trung bình khác nhau hoặc đơn vị đo khác nhau Công thức tính hệ số biến thiên tổng thể: Công thức tính hệ số biên thiên mẫu: Khi hệ số biến thiên của hai tập dữ liệu được so sánh với nhau, hệ số biến thiên của tập nào lớn hơn thì tập đó biến động nhiều hơn. .100% σ µ =CV .100%= S CV X
  • 95.
    95 5. Hệ sốbiến thiên Ví dụ: So sánh 2 tập dữ liệu có trung bình khác nhau: sách giáo trình trang 95. So sánh 2 tập dữ liệu có đơn vị đo khác nhau: sách giáo trình trang 96.
  • 96.
    96 6. Chuẩn hóadữ liệu Công thức tính giá trị chuẩn hoá z cho dữ liệu tổng thể: Công thức tính giá trị chuẩn hoá z cho dữ liệu mẫu: z là điểm số chuẩn hóa cho biết x cách xa trung bình một khoảng bằng mấy lần độ lệch tiêu chuẩn. z ≈ 0 : quan sát ở vị trí rất gần trung bình. z = -1 : quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với trung bình về phía trái; z = 1: quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với trung bình về phía phải. Ví dụ: Giáo trình trang 99 µ σ − = x Z − = x x Z S
  • 97.
    97 3. KHẢO SÁTHÌNH DÁNG CỦA PHÂN PHỐI
  • 98.
    98 1. Hình dángcủa phân phối Mo Mo = Me= Mean Mo MeMe Skewness <0 Skewness =0 Skewness >0 Lệch phảiLệch trái Mean Mean Cân đối
  • 99.
    99 1. Hình dángcủa phân phối Kurtosis =3 Kurtosis >3 Kurtosis <3
  • 100.
    100 2. Biểu đồhộp và râu (Box Plot) Ví dụ: ( Giáo trình – trang 92 ) Vẽ biểu đồ hộp và râu mô tả dữ liệu về tuổi của 30 sinh viên. Bước 1: sắp xếp dữ liệu theo thứ tự tăng dần Bước 2: Tính giá trị tứ phân vị: Q1= 22, Q2= 27, Q3=30 ⇒ độ trải giữa = Q3 - Q1= 8 Bước 3: vẽ hộp có bề rộng bằng độ trải giữa Dulieu.xls 22 26 30
  • 101.
    101 2. Biểu đồhộp và râu (Box Plot) Bước 4: vẽ đường thẳng nằm trong hộp đi qua giá trị trung vị Me = Q2 =27 Bước 5: tính giá trị cực đại và cực tiểu của biểu đồ cực đại = Q3+1,5. (Q3 – Q1) = 42 cực tiểu = Q1 – 1,5. (Q3 – Q1) = 10 Bước 6: Vẽ 2 râu dựa trên cực đại và cực tiểu của bộ dữ liệu cực đại = 39 cực tiểu = 19 10 14 18 22 26 30 34 3822 26 30 42
  • 102.
    102 2. Biểu đồhộp và râu (Box Plot) 10 14 18 22 26 30 34 38 0 2 4 6 8 10 12 14 19 - 24 24 - 29 29 - 34 34 -39 More Frequency do tuoi Histogram
  • 103.
    103 2. Biểu đồhộp và râu (Box Plot) Cực tiểu Q1 Me Q3 Cực đại Tổng quát Cực tiểu Q1 Me Q3 Cực đại Quan sát ngoại lệ
  • 104.
    104 V. PHÂN PHỐIXÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ TRÊN KHÔNG GIAN MẪU 1. PHÂN PHỐI XÁC SUẤT CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ CÓ PHÂN PHỐI CHUẨN 2. PHÂN PHỐI TIỆM CẬN CHUẨN CỦA CÁC ĐẠI LƯỢNG THỐNG KÊ 3. SUY DIỄN THỐNG KÊ