SlideShare a Scribd company logo
1
CHƯƠNG 1 GIỚI THIỆU VỀ THỐNG KÊ TRONG KINH DOANH
A. CÂU HỎI LÝ THUYẾT
1. Thống kê là gì? Cho ví dụ về ứng dụng thống kê trong các lĩnh vực kinh doanh (kế toán, tài chính, marketing, sản xuất,…)
- Thống kê là các hoạt động liên quan đến việc thu thập, tổ chức, phân tích, và diễn tả dữ liệu để ra quyết định. Thống kê là
những cách thu lấy thông tin từ dữ liệu từ đó đưa ra thành tri thức, kết quả.
- Ví dụ về ứng dụng thống kê trong các lĩnh vực kinh doanh:
+ Kế toán: Các công ty kiểm toán có thể sử dụng các phương pháp/quy trình chọn mẫu để tiến hành kiểm toán cho
khách hàng.
+ Tài chính: Các nhà tư vấn tài chính có thể sử dụng nhiều thông tin thống kê như tỷ lệ thu nhập/giá, lợi tức cổ tức… để
hướng dẫn các khuyến nghị đầu tư
+ Marketing: Dữ liệu điều tra thị trường, dữ liệu bán hàng… được thu thập để thực hiện các nghiên cứu marketing
+ Sản xuất: Rất nhiều phương pháp kiểm soát chất lượng sử dụng các công cụ thống kê trong các quá trình sản xuất
+ Kinh tế: Các nhà kinh tế có thể sử dụng thông tin thống kê cho việc dự báo về nền kinh tế trong tương lai…
2. Một doanh nghiệp tiến hành điều tra về hành vi tiêu dùng của những khách hàng khác nhau với dịch vụ họ cung ứng. Kết quả
thu về được một bảng dữ liệu như sau:
Khách hàng Lý do sử dụng dịch vụ
Điểm đánh giá về phục vụ
(thang 10)
Điểm đánh giá thuận tiện
(thang 10)
A Giá phù hợp 7 6
B Phục vụ nhanh 8 7
C Nhân viên thân thiện 7 7
D Phục vụ nhanh 8 8
Hãy cho biết đâu là phần từ, đâu là biến và đâu là quan sát trong ví dụ trên.
- Phần tử: A, B, C, D, các số điểm trong bảng.
- Biến: "Khách hàng", "Lý do sử dụng dịch vụ", "Điểm đánh giá về phục vụ", "Điểm đánh giá thuận tiện".
- Quan sát: Các thông tin cụ thể về từng khách hàng và điểm đánh giá của họ về phục vụ và thuận tiện.
3. Trình bày các loại thang đo sử dụng trong thống kê (4 loại)
- Định danh:
+ Dữ liệu được gắn nhãn hoặc tên để phân biệt một thuộc tính của phần tử.
+ Danh từ được gán số để phân biệt (mã hóa)
+ Cũng có thể không được gán số
+ Phương pháp thống kê thích hợp: Đếm và các phương pháp phi tham số (non – parameter)
- Thứ bậc:
+ Thang đo thứ bậc là các biến có dữ liệu được thể hiện có tính hơn kém về một thuộc tính nào đó và được mã hóa theo
một dãy tăng hay giảm
+ Dữ liệu có thể để ở định dạng ký tự (thấp, trung bình, cao)
+ Ví dụ: Khoảng tuổi: 20 – 30; 30 – 40; 40 – 50 được mã hóa thành 1, 2,3.
- Khoảng:
2
+ Dữ liệu có thuộc tính của dữ liệu thứ bậc (tính hơn kém) và có thuộc tính “khoảng” giữa các thứ tự chênh lệch đúng
1 đơn vị đo
+ Các khoảng trên thang đo là đều nhau
+ Dữ liệu khoảng luôn biểu hiện bằng con số
+ Dữ liệu khoảng có điểm gốc (điểm 0) tùy ý
- Tỷ lệ
+ Dữ liệu cos thuộc tính của dữ liệu khoảng và tỷ lệ của hai giá trị có ý nghĩa.
+ Các biến về chiều cao, cân nặng, doanh thu… là các thang do tỷ lệ
+ Giá trị không có ý nghĩa là tại điểm 0 (zero) không tồn tại biến đó.
+ Ví dụ: Doanh thu của ty X là 3217 triệu đồng
+ Thang đo khoảng và tỷ lệ là các thang đo bằng số nên các thống kê như trung bình, độ lệch chuẩn có ý nghĩa
+ Có thể hoán chuyển từ thang đo khoảng, tỷ lệ thành các thang đo thứ bậc, định danh
4. Phân biệt thang đo định danh và thang đo đo thứ bậc. Sự khác nhau giữa hai loại thang đo này là gì? Cho ví dụ về mỗi loại
thang đo trong thực tế
- Thang đo định danh:
+ Đặc điểm: Dữ liệu được gắn nhãn hoặc tên để phân biệt một thuộc tính của phần tử. Có thể được mã hóa thành số
hoặc không.
+ Ví dụ trong thực tế:
Danh sách các loại sản phẩm: (Áo thun, Áo sơ mi, Quần jean).
Hãng sản xuất ô tô: (Toyota, Honda, Ford).
- Thang đo đo thứ bậc:
+ Đặc điểm: Dữ liệu có tính hơn kém về một thuộc tính cụ thể và được mã hóa theo một dãy tăng hay giảm. Dữ liệu
thường được biểu diễn dưới dạng ký tự hoặc số thứ tự.
+ Ví dụ trong thực tế:
Cấp bậc học vị: (Tiến sĩ, Thạc sĩ, Cử nhân).
Kích cỡ của sản phẩm: (Nhỏ, Trung bình, Lớn).
Mức độ hài lòng: (Thấp, Trung bình, Cao) được mã hóa thành 1, 2, 3.
- Thang đo định danh không có thứ tự hoặc mức độ so sánh giữa các nhóm, chỉ đơn thuần phân biệt. Trong khi đó, thang đo đo
thứ bậc có sự xếp hạng hoặc thứ tự định sẵn, cho phép so sánh mức độ của thuộc tính đó giữa các giá trị.
- Khi áp dụng phương pháp thống kê, thang đo định danh thích hợp với các phương pháp như đếm, phân phối tần suất, trong khi
thang đo đo thứ bậc thường phù hợp với các phương pháp thống kê như các phương pháp phi tham số (non-parameter) hoặc
các phép tính độ lệch, trung bình để so sánh giữa các nhóm.
5. Phân biệt thang đo khoảng và thang đo tỷ lệ. Sự khác nhau giữa hai loại thang đo này là gì? Cho ví vụ về mỗi loại thang đo
trong thực tế.
- Thang đo khoảng:
+ Đặc điểm: Dữ liệu có thuộc tính thứ tự và các khoảng giữa các giá trị đo là đồng đều. Các khoảng trên thang đo là đều
nhau và luôn được biểu hiện bằng con số. Dữ liệu khoảng có thể có điểm gốc (điểm 0) tùy ý.
+ Ví dụ trong thực tế:
3
Nhiệt độ (0°C, 10°C, 20°C).
Thang đo điểm thi: (0 điểm, 10 điểm, 20 điểm).
- Thang đo tỷ lệ:
+ Đặc điểm: Dữ liệu có thuộc tính khoảng và tỷ lệ giữa hai giá trị mang ý nghĩa. Các biến như chiều cao, cân nặng,
doanh thu thường là các thang đo tỷ lệ. Giá trị không tồn tại hoặc không có ý nghĩa tại điểm 0 (zero).
+ Ví dụ trong thực tế:
Cân nặng của người (50 kg, 60 kg, 70 kg).
Doanh thu của một công ty: (3 triệu đồng, 5 triệu đồng, 10 triệu đồng).
- Thang đo khoảng có các khoảng đo đồng đều, thường có điểm gốc (có thể là 0 hoặc không) và các giá trị có thể hiển thị bằng
con số. Thang đo tỷ lệ không chỉ có các khoảng đo đồng đều mà còn có tỷ lệ ý nghĩa giữa các giá trị, và thường không có giá
trị ý nghĩa tại điểm 0 (zero).
- Cả hai loại thang đo này đều có thể được sử dụng để thực hiện các thống kê như trung bình, độ lệch chuẩn. Ngoài ra, có thể
chuyển đổi từ thang đo khoảng hoặc tỷ lệ sang các loại thang đo khác như thang đo thứ bậc, định danh nếu cần thiết để phù
hợp với phân tích dữ liệu cụ thể.
6. Phân biệt dữ liệu định tính và dữ liệu định lượng như thế nào?
- Dữ liệu định tính
+ Dữ liệu định tính là các nhãn (label) hoặc các tên được sử dụng để xác định thuộc tính của phần tử.
+ Dữ liệu định tính sử dụng thang đo định danh hoặc thứ bậc (có tính phân loại mà không có/ít có tính hơn kém)
+ Dữ liệu định tính có thể biểu hiện ở dạng số hoặc không ở dạng số
+ Các phương pháp thống kê với dữ liệu định tính khá hạn chế (đếm, các phương pháp phi tham số non-parameter)
- Dữ liệu định lượng
+ Dữ liệu định lương biểu diễn thông tin bao nhiêu, mức độ như thế nào
+ Dữ liệu định lường có thể đo lường ở dạng rời rạc hoặc ở dạng biến liên tục
+ Dữ liệu định lượng luôn luôn là ở dạng số
+ Các phép tính toán học có ý nghĩa với dữ liệu định lượng
+ Dữ liệu định lượng được đo lường bởi thang đo khoảng hoặc tỷ lệ (các thang đo số)
7. Thế nào là thống kê mô tả? Cho ví dụ
- Thu thập dữ liêu
Ví dụ: khảo sát, lấy từ các nguồn dữ liệu có sẵn
- Tóm tắt, hình ảnh hóa và trình bày dữ liệu
Ví dụ: Bảng dữ liệu, đồ thị
- Phân tích dữ liệu
Ví dụ: tính trung bình, độ lệch chuẩn, các tỷ lệ
8. Thế nào là thống kê suy diễn? Cho ví dụ
- Ước lượng
Ví dụ: Ước tính trung bình độ tuổi của dân cư thông qua lấy 1 mẫu
- Kiểm định các giả thuyết
Ví dụ: Kiểm định xem có sự khác biệt về tỷ lệ lợi nhuận của doanh nghiệp giữa hai ngành
4
9. Tổng thể là gì? Mẫu là gì?
- Tổng thể là toàn bộ tập hợp các yếu tố hoặc đối tượng mà chúng ta quan tâm đến để thu thập dữ liệu và phân tích.
Ví dụ về tổng thể trong kinh doanh có thể là toàn bộ dân số của một quốc gia khi chúng ta quan tâm đến thu thập thông tin về thu nhập,
tuổi tác, nghề nghiệp và các yếu tố khác để hiểu về thị trường lao động.
- Mẫu trong thống kê là một phần nhỏ được lựa chọn từ tổng thể mục tiêu để nghiên cứu, thu thập dữ liệu và đưa ra kết luận về
tổng thể mà không cần phải khảo sát toàn bộ tổng thể.
Ví dụ, nếu chúng ta muốn nghiên cứu thu nhập trung bình của dân số trong một quốc gia, chúng ta có thể chọn một mẫu gồm một số hộ
gia đình đại diện để thu thập thông tin về thu nhập của họ, và từ đó đưa ra ước lượng về thu nhập trung bình của tổng thể dân số.
B. CÂU HỎI VẬN DỤNG
1. Mộ khách sạn thăm dò ý kiến khách hàng về các dịch vụ giải và ăn uống. Khách hàng được yêu cầu đánh giá về sáu yếu tố:
Chào mừng, dịch vụ phục vụ, thức ăn, sự hấp dẫn về thực đơn, bầu không khí và đánh giá chung. Dữ liệu được ghi lại với các
yếu tố ở bốn mức: 1- tạm được, 2 - trung bình, 3 - khá; 4 - tốt, 5 - xuất sắc.
a. Kết quả trả lời của khách hàng cho sáu yếu tố kia là các dữ liệu phân loại hay dữ liệu định lượng?
- Dữ liệu này được coi là dữ liệu phân loại vì chúng được phân thành các nhóm hoặc danh mục không liên tục. Mỗi mức đánh
giá không có mối quan hệ định lượng cụ thể với các mức đánh giá khác.
b. Loại thang đo được sử dụng trong khảo sát này là thang đo gì?
- Loại thang đo được sử dụng trong khảo sát này là thang đo định tính vì nó phân loại các yếu tố vào các danh mục khác nhau
mà không có sự tương quan định lượng chính xác giữa chúng. Thang đo này chỉ cho biết mức độ đánh giá của khách hàng theo
các danh mục được xác định trước.
2. Hãy cho biết các biến sau đây là biến định tính hay định lượng và cho biết loại thang đo của nó
a. Doanh số hàng năm: Đây là biến định lượng vì nó đo lường một giá trị liên tục, trong trường hợp này là doanh số hàng
năm.
b. Kích cỡ các chai nước được phân loại thành ba loại chai nhỏ, trung bình và lớn: Đây là biến định tính vì nó phân loại
các chai nước vào các danh mục riêng biệt (nhỏ, trung bình, lớn) mà không có mối quan hệ định lượng giữa chúng.
c. Phân loại nhân viên trong doanh nghiệp theo tiêu chuẩn hoàn thành công việc: Đây cũng là biến định tính vì nó phân
loại nhân viên theo tiêu chí không có sự liên tục hay mối quan hệ định lượng cụ thể.
d. Lợi nhuận trên vốn sở hữu: Đây là biến định lượng vì nó đo lường một giá trị liên tục, trong trường hợp này là lợi
nhuận trên vốn sở hữu.
e. Phương thức thanh toán (séc, tiền mặt, thẻ tín dụng): Đây cũng là biến định tính vì nó phân loại các phương thức thanh
toán vào các danh mục khác nhau mà không có mối quan hệ định lượng cụ thể giữa chúng.
3. Một nghiên cứu được tiến hành lấy mẫu số người để xét nghiệm dương tính với COVID19 với 100 người thuộc nhiều nhóm
tuổi khác nhau.
a. Nhà nghiên cứu lập được một bảng dữ liệu như sau:
Độ tuổi Số người
21 - 30 10
31 - 40 28
41 - 50 32
51 – 60 20
> 60 10
5
Tổng 100
Nhà nghiên cứu đang sử dụng loại thống kê nào trong trường hợp này, thống kê mô tả hay thống kê suy diễn?
- Trong trường hợp này, nhà nghiên cứu đang sử dụng thống kê mô tả để mô tả và tổng hợp dữ liệu thu thập từ mẫu. Bảng dữ
liệu đang cung cấp thông tin về số người dương tính với COVID-19 ở các nhóm tuổi khác nhau, không phải là để rút ra kết
luận hay đưa ra dự đoán cho tổng quần thể.
b. Từ dữ liệu khảo sát này các nhà nghiên cứu tiến hành ước lượng số người trên 60 tuổi trong tổng quy mô dân số để tiến hành
xây dựng phương án tiêm vaccine cho nhóm những người có nguy co cao. Hỏi nhà nghiên cứu đang sử dụng loại thông kê nào?
- Tuy nhiên, khi nhà nghiên cứu dùng dữ liệu từ khảo sát này để ước lượng số người trên 60 tuổi trong tổng quần thể dân số để
xây dựng phương án tiêm vaccine cho nhóm người có nguy cơ cao, họ đang sử dụng thống kê suy diễn. Thống kê suy diễn là
quá trình sử dụng dữ liệu từ một mẫu nhỏ để đưa ra kết luận hoặc dự đoán về tổng thể hoặc quần thể lớn hơn. Trong trường
hợp này, họ sử dụng dữ liệu từ mẫu 100 người để ước lượng số người trên 60 tuổi trong tổng quần thể dân số để xây dựng chiến
lược tiêm vaccine cho nhóm người có nguy cơ cao.
C. BÀI TẬP TỰ LÀM
CHƯƠNG 2 THỐNG KÊ MÔ TẢ: BẢNG VÀ BIỂU ĐỒ
A. CÂU HỎI LÝ THUYẾT
1. Tần số là gì?
- Dữ liệu định tính
+ Phân phối tần số là một bảng tóm tắt dữ liệu cho biết tần số (số lượng) xuất hiện của phần tử trong mỗi nhóm không
chồng lấn
+ Mục tiêu là cung cấp thông tin chi tiết về dữ liệu mà không thể nhanh chóng có được bằng cách xem dữ liệu thô
- Dữ liệu định lượng
Đối với dữ liệu định lượng phải chia nhóm/phân tổ
+ Sử dụng từ 5 đến 20 nhóm
+ Tập dữ liệu có nhiều phần tử có thể phải chia nhiều số nhóm hơn
+ Dữ liệu nhỏ có thể dùng ít nhóm hơn
+ Việc chia nhóm là chủ quan
2. Tần suất là gì?
- Dữ liệu định tính
+ Tần suất là tỷ số hoặc tỷ lệ của phần tử thuộc về nhóm chia cho tổng số quan sát
�ầ� ��ấ� =
𝑻ầ𝑻 𝑻ố
𝑻
+ Phân phối tần suất là bản tóm tắt dạng bảng của một tập hợp dữ liệu dưới dạng hiển thị tần suất cho từng nhóm quan sát
- Dữ liệu định lượng
+ Xác định độ rộng mỗi nhóm
+ Sử dụng độ rộng bằng nhau cho mỗi nhóm
6
Độ rộng mỗi nhóm (xấp xỉ ) =
𝑻𝑻á 𝑻𝑻ị 𝑻ớ𝑻 𝑻𝑻ấ𝑻 −𝑻𝑻á 𝑻𝑻ị 𝑻𝑻ỏ 𝑻𝑻ấ𝑻
𝑻ố 𝑻𝑻ó𝑻 𝑻𝑻𝑻𝑻 𝑻𝑻ố𝑻
3. Tần suất % là gì?
- Dữ liệu định tính
+ Tần suất phần trăm là tần suất nhân với 100
+ Phân phối tần suất phần tram là một bản tóm tắt dạng bảng của một hợp hợp dữ liệu hiện thị tần suất phần tram cho
mỗi nhóm
4. Biểu đồ thanh là gì? So sánh sự khác nhau giữa biểu đồ thanh và biểu đồ phân phối (histogram)?
- Biểu đồ thanh
+ Biểu đồ thanh là một dạng biểu đồ mô tả dữ liệu định tính đã được tóm tắt trong phân phối tần số, tần suất hoặc tần
suất phần trămA
+ Trục hoành chỉ các nhãn cho mỗi nhóm/lớp
+ Tần số, tần suất, tần suất phần trăm biểu diễn ở trục tung
+ Các thanh được tách nhau ra để nhấn mạnh các nhóm/lớp là riêng biệt
- Biểu đồ phân phối (histogram)
+ Sử dụng để biểu diễn phân phối của một biến định lượng.
+ Các cột dọc thể hiện tần suất xuất hiện của các khoảng giá trị (bins) của biến.
+ Các cột liền kề nhau và không có khoảng trống, thể hiện mức độ liên tục của dữ liệu.
+ Giúp hiểu rõ hơn về phân phối, hình dạng, độ biến đổi của biến.
- Điểm khác biệt chính giữa chúng là biểu đồ thanh thường được sử dụng để so sánh giữa các nhóm hoặc danh mục khác nhau
trong khi biểu đồ phân phối (histogram) tập trung vào việc biểu diễn phân phối của một biến định lượng.
5. Sự khác nhau giữa lập bảng phân phối tần số, tần suất và tần suất phần trăm giữa dữ liệu định tính và dữ liệu định lượng là gì?
- Dữ liệu định tính:
+ Bảng phân phối tần số: Liệt kê các danh mục hoặc nhóm và đếm số lượng trường hợp trong mỗi danh mục hoặc nhóm.
+ Tần suất: Là số lượng trường hợp của mỗi danh mục hoặc nhóm, được thể hiện dưới dạng số lượng.
+ Tần suất phần trăm: Là phần trăm của số lượng trường hợp của mỗi danh mục hoặc nhóm so với tổng số trường hợp.
Công thức tính tần suất phần trăm: (Số lượng trường hợp của mỗi danh mục hoặc nhóm / Tổng số trường hợp) x 100%.
- Dữ liệu định lượng:
+ Bảng phân phối tần số: Chia dữ liệu thành các khoảng (bins) và đếm số lượng trường hợp rơi vào từng khoảng.
+ Tần suất: Là số lượng trường hợp rơi vào từng khoảng (bins) của biến định lượng.
+ Tần suất phần trăm: Tương tự như dữ liệu định tính, là phần trăm của số lượng trường hợp rơi vào từng khoảng so với
tổng số trường hợp.
- Sự khác nhau chính ở đây là cách chia và xử lý dữ liệu: dữ liệu định tính thường liên quan đến các danh mục hoặc nhóm, trong
khi dữ liệu định lượng liên quan đến các giá trị liên tục và thường phải được chia thành các khoảng để tạo ra bảng phân phối
tần số và tần suất
B. CÂU HỎI VẬN DỤNG
C. BÀI TẬP TỰ LÀM
1. Hãy trình bày kết quả hai số cuối của các giải trong cơ cấu giải thưởng của Công ty sổ xố kiến thiết miền Bắc bằng biểu đồ
thân – lá
7
2. Một doanh nghiệp khảo sát khách hàng của họ về mức độ hài lòng của khách với dịch vụ của doanh nghiệp. Kết quả sau khi
khảo sát 100 khách hàng thu được một file dữ liệu được mô tả như sau:
(bảng tóm tắt)
Khác hàng Giới tính Tuổi Học vấn Nghề nghiệp Mức độ hài lòng
A Nam 20 PTTH Sinh viên 5
B Nam 32 Đại học Văn phòng 4
C Nữ 19 THCS Công nhân 3
D Nữ 35 Cao đẳng Văn phòng 2
E Nam
45
Thạc sỹ (cao
học)
Công chức/viên
chức
3
Ghi chú: Hài lòng có 5 mức, 1 rất không hài lòng, 2 không hài lòng, 3 bình thường, 4 hài lòng; 5 rất hài lòng
3. Trong file dữ liệu có tên Mo_ta_bang_bieudo.xls trình bày một dữ liệu điều tra khách hàng. Trong đó biến “Age” là tuổi thật
của khách hàng, biến “Edu” là trình độ học vấn của khách hàng và “SAT” là mức độ hài lòng của khách hàng.
a. Nhà quản lý muốn nhân viên phòng Kinh doanh cung cấp một bảng tóm tắt thông tin về tuổi khách hàng theo 3 nhóm (trẻ
20 – 35; trung niên 35 – 50; già > 50); học vấn (đại học, cao đẳng, THPT) và mức độ hài lòng theo hai mức (hài lòng < =
3; > 3 hài lòng). Vậy loại bảng thông tin nào thích hợp và hãy lập các bảng đó?
8
b. Nhà quản lý muốn trình bày bằng biểu đồ thì biểu đồ nào là thích hợp?
- Biểu đồ cột (Column chart) hoặc Biểu đồ cột dọc (Vertical bar chart):
+ Biểu đồ cột thích hợp để trình bày tần suất của các nhóm tuổi, trình độ học vấn và mức độ hài lòng.
+ Mỗi cột biểu diễn tỷ lệ phần trăm của từng nhóm trong biến cần phân loại.
- Biểu đồ đường (Line chart):
+ Biểu đồ đường có thể sử dụng để thể hiện xu hướng hoặc biến đổi của các nhóm theo tuổi, trình độ học vấn và mức
độ hài lòng theo thời gian nếu có sự thay đổi qua các khoảng thời gian khác nhau.
CHƯƠNG 3 THỐNG KÊ MÔ TẢ: CÁC ĐẠI LƯỢNG SỐ
A. CÂU HỎI LÝ THUYẾT
1. Trình bày các khái niệm trung bình, trung vị và mode? Viết các công thức tính tương ứng
- Trung bình
+ Trung bình của một tập dữ liệu là giá trị bình quân của tất cả các dữ liệu
+ Nếu dữ liệu từ một mẫu, giá trị trung bình được tính bằng công thức:
x
̅ =
∑𝑻𝑻
𝑻
+ Nếu dữ liệu của tổng thể, giá trị trung bình được kí thiệu là m (mu) và được tính theo công thức:
μ=
∑𝑻𝑻
𝑻
+ Trung bình khá nhạy cảm với các giá trị lớn bất thường
- Trung vị
+ Trung vị của dữ liệu là giá trị của dữ liệu chính giữa sắp xếp theo chiều tăng (hoặc giảm) dần
+ Trung vị bằng giá trị ở quan sát chính giữa khi dãy dữ liệu có số lẻ lần quan sát
+ Trung bình bằng bình quan hai giá trị ở giữa nếu dữ liệu có số chẵn lần quan sát
- Mode
+ Mode là giá trị dữ liệu xuất hiện nhiều lần nhất (tần số lớn nhất) trong dãy dữ liệu.
+ Có thể có nhiều giá trị mode
+ Nếu dữ liệu có hai giá trị mode gọi là dữ liệu 2 mode
+ Nếu dữ liệu có nhiều hơn hai giá trị mode gọi là dữ liệu đa mode
2. Trình bày các khái niệm phân vị (bách phân vị), tứ phân vị và khoảng trải giữa?
- Phân vị
+ Phân vị thứ p của dữ liệu là giá trị mà ở đó có ít nhất p phần trăm các quan sát có giá trị nhỏ hơn hoặc bằng giá trị này
và có ít nhất (100 –p) phần trăm các quan sát có giá trị lớn hơn hoặc bằng giá trị này
+ Nếu dữ liệu sắp xếp theo thứ tự tăng dần dần (B1)
+ Tính chỉ số i
i = (p/100)n
9
+ Nếu i không phải số nguyên thì làm tròn. Phân vị thứ p là giá trị tiếp theo của i
+ Nếu i là số nguyên, hân vị p là trung bình của giá trị ở vị trí i và i +1
- Tứ phân vị
+ Tứ phân vị là đặc biệt của phân vị
+ Phân vị thứ nhất (phân vị thứ 25)
+ Phân vị thứ hai (phân vị thứ 50) = trung vị
+ Phân vị thứ ba (phân vị thứ 75)
- Khoảng trải giữa
+ Khoảng trải giữa (interquartile range - IQR) là một khái niệm quan trọng trong thống kê, đặc biệt trong phân tích dữ
liệu và đo lường sự biến đổi của dữ liệu.
+ Để tính Q1 và Q3 cần sắp xếp data theo thứ tự tăng dần, sau đó xác định vị trí trong tập
Q1=
𝑻+ 𝑻
𝑻
(n là slg quan sát)
Q3=
𝑻(𝑻+ 𝑻)
𝑻
Khoảng giữa Q3 vàQ1 chính là khoảng trải giữa (IQR). Tứ phân vị thứ nhất (Q1) đại diện cho 25% dữ liệu nhỏ hơn
nó, tứ phân vị thứ ba (Q3) đại diện cho 75% dữ liệu nhỏ hơn nó.
IQR=Q3−Q1
3. Trình bày định nghĩa phương sai, độ lệch chuẩn và các công thức tính cho một mẫu cụ thể
- Phương sai
+ Phương sai là đại lượng đo lường độ phân tán (thay đổi) của toàn bộ dữ liệu
+ Phương sai phản ánh sự khác biệt giữa các giá trị quan sát được so với giá trị trung bình
+ Công thức tính phương sai cho mẫu . Khi có 2 mẫu x và y
𝑻𝑻
=
∑( 𝑻𝑻− 𝑻)𝑻
𝑻− 𝑻
+ Công thức tính phương sai cho tổng thể Chỉ có 1 x
𝜎𝑻
=
∑( 𝑻𝑻 − 𝑻)𝑻
𝑻
+ Khi mẫu tăng lên rất lớn thì công tức 1 và 2 không có sự khác biệt về kết quả
- Độ lệch chuẩn
+ Độ lệch chuẩn là căn bậc 2 của phương sai
+ Độ lệch chuẩn sử dụng đơn vị đo như đơn vị đo của dữ liệu nên dễ dàng hơn trong việc so sánh
+ Nếu dữ liệu của một mẫu thì có độ lệch chuẩn mẫu s.
𝑠 = √𝑠2
+ Nếu là dữ liệu tổng thể có độ lệch chuẩn tổng thể (sigma).
𝜎 = √𝑠2
- Hệ số biến thiên
+ Hệ số biến thiên cho biết độ lớn của độ lệch chuẩn so với giá trị trung bình
+ Nếu dữ liệu của mẫu, hệ số biến thiên được tính theo công thức:
10
𝑠
𝑠
𝑠 100
+ Nếu dữ liệu của tổng thể, hệ số biến thiên tính theo công
𝜎
𝜇
𝑠 100
4. Trình bày khái niệm hiệp phương sai, hệ số tương quan và ý nghĩa của chúng.
- Hiệp phương sai
+ Hiệp phương sai đo lường hướng và mức độ biến đổi đồng thời của hai biến. Nó cho biết cùng chiều hoặc ngược chiều
của sự biến đổi của hai biến. Nếu hiệp phương sai dương, hai biến có xu hướng biến đổi cùng chiều; nếu hiệp phương
sai âm, hai biến có xu hướng biến đổi ngược chiều. Tuy nhiên, hiệp phương sai không chuẩn hóa, nên nó không phản
ánh mức độ tương quan giữa hai biến một cách chuẩn xác.
+ Nếu là dữ liệu mẫu, hiệp phương sai được ký sxy
𝑻𝑻𝑻 =
∑(𝑻𝑻 − 𝑻)(𝑻𝑻 − 𝑻)
𝑻 − 𝑻
+ Dữ liệu tổng thể hiệp phương sai được ký hiệu và có công thức tính
𝑠𝑠𝑠 =
∑(𝑻𝑻 − 𝑻𝑻)(𝑻𝑻 − 𝑻𝑻)
𝑠
- Hệ số tương quan
+ Hệ số tương quan chuẩn hóa từ hiệp phương sai. Nó cho biết mức độ và hướng của mối quan hệ tuyến tính giữa hai
biến. Hệ số tương quan Pearson nằm trong khoảng từ -1 đến 1:
● Khi gần 1: Mối quan hệ tương quan dương mạnh, tức là khi một biến tăng thì biến òn lại cũng tăng theo cùng
một hướng.
● Khi gần -1: Mối quan hệ tương quan âm mạnh, tức là khi một biến tăng thì biến còn lại giảm theo cùng một
hướng.
● Khi gần 0: Không có mối quan hệ tuyến tính mạnh giữa hai biến.
+ Hệ số tương quan cũng thể hiện mức độ mà một biến có thể được dự đoán từ biến còn lại. Nó giúp định lượng mức
độ tương quan tuyến tính giữa các biến và hỗ trợ trong việc dự đoán hoặc giải thích mô hình trong phân tích thống kê.
+ Với dữ liệu mẫu rxy
𝑻𝑻𝑻 =
𝑻𝑻𝑻
𝑻𝑻𝑻𝑻
+ Với dữ liệu tổng thể
𝜌𝑻𝑻 =
𝑻𝑻𝑻
𝑻𝑻𝑻𝑻
B. CÂU HỎI VẬN DỤNG
1. Một doanh nghiệp sản xuất muốn đánh giá mức độ ổn định của quy trình sản xuất thông qua kết quả đầu ra của quá trình sản
xuất là độ dài của các sản phẩm. Chủ doanh nghiệp không biết sử dụng chỉ tiêu nào để đánh giá mức độ ổn định này? Hay tư
vấn một tham số thống kê thích hợp để đánh giá mức độ ổn định của quy trình này.
- Độ biến động chuẩn (Standard Deviation):
11
+ Đây là một tham số thống kê đo lường mức độ phân tán hoặc biến động của các giá trị trong một tập dữ liệu.
+ Standard deviation cho biết độ lệch chuẩn của các giá trị so với giá trị trung bình.
+ Nếu standard deviation lớn, điều này cho thấy rằng các giá trị trong dữ liệu có xu hướng phân tán rộng hơn so với giá
trị trung bình. Ngược lại, nếu standard deviation nhỏ, dữ liệu có xu hướng gần giá trị trung bình hơn và ít biến động
hơn.
+ Khi áp dụng vào đánh giá mức độ ổn định của quy trình sản xuất dựa trên độ dài của các sản phẩm, việc sử dụng độ
biến động chuẩn sẽ giúp xác định mức độ đồng đều trong sản xuất. Nếu standard deviation lớn, điều này có thể cho
thấy rằng quy trình sản xuất không ổn định, sản phẩm có độ dài biến động lớn. Ngược lại, nếu standard deviation nhỏ,
quy trình sản xuất có thể được xem xét là ổn định hơn với sự đồng đều trong việc tạo ra sản phẩm có độ dài gần nhau.
2. Có hai lớp học có điểm kiểm tra hết học kỳ có điểm trung bình của các học sinh là như nhau và đều là 6.5 điểm qua các môn
thi. Tuy nhiên, độ lệch chuẩn điểm thi của lớp thứ nhất là 1.5 và lớp thứ 2 là 2.5. Bình luận gì về kết quả này?
- Kết quả này cho thấy mặc dù cả hai lớp học có điểm trung bình giống nhau và đều là 6.5 điểm qua các môn thi, tuy nhiên, độ
lệch chuẩn của điểm thi ở hai lớp là khác nhau.
+ Lớp học có độ lệch chuẩn lớn hơn (độ lệch chuẩn 2.5) cho thấy sự biến động trong điểm thi của học sinh trong lớp
này lớn hơn so với lớp có độ lệch chuẩn thấp hơn (độ lệch chuẩn 1.5). Điều này có nghĩa là độ biến động của điểm số
giữa các học sinh trong lớp học thứ hai cao hơn so với lớp học thứ nhất.
+ Mặc dù cả hai lớp có cùng điểm trung bình, độ biến động lớn hơn trong lớp học thứ hai có thể cho thấy sự không đồng
đều hơn trong việc điểm thi của học sinh. Trong khi lớp học thứ nhất có độ lệch chuẩn thấp hơn, điều này có thể chỉ
ra rằng điểm số của học sinh trong lớp này gần nhau hơn, ít biến động hơn so với lớp học thứ hai.
C. BÀI TẬP TỰ LÀM
1. Theo điều tra tiêu dùng hàng năm chi tiêu cho thẻ tín dụng của ngân hàng X hàng tháng là 1838 đô la. Một mẫu về chi tiêu qua
thẻ tín dụng cho bởi bảng sau:
236 1710 1351 825 7450
316 4135 1333 1584 387
991 3396 170 1428 1668
a. Tính trung bình và trung vị
*Trung bình =
𝑻ổ𝑻𝑻 𝑻á𝑻 𝑻𝑻𝑻𝑻
𝑻ố 𝑻𝑻 𝑻𝑻𝑻𝑻 𝑻á𝑻
=
26980
15
= 1798,667
* Trung vị
- Sắp xếp dãy số: 170, 236, 316, 387, 825, 991, 1333, 1351, 1428, 1584, 1668, 1710, 3396, 4135, 7450.
- Vì có 15 giá trị ( số lẻ) nên trung vị sẽ là giá trị ở vị trí thứ 8) là 1351
b. Tính tứ phân vị thứ nhất và tứ phân vị thứ ba
* Q1= (15+1)/4= 4 => 387
* Q2= 3(15+1)/4= 12 => 1710
c. Tính phương sai và độ lệch chuẩn
12
*Phương sai =
𝑻 (𝑻á𝑻 𝑻𝑻𝑻𝑻 − 𝑻𝑻𝑻𝑻𝑻 𝑻ì𝑻𝑻)𝑻
𝑻𝑻𝑻 𝑻á𝑻 𝑻𝑻𝑻𝑻
=
3430831,356
15
= 228722,1
* Đlc = √𝑻𝑻ươ𝑻𝑻 𝑻𝑻𝑻 = √228722,1 =478,248
d. Dữ liệu có chứa giá trị bất thường không
Dữ liệu có các giá trị rải rác từ 170 đến 7450.
Giá trị trung bình, trung vị, tứ phân vị tương đối gần nhau.
Phương sai và độ lệch chuẩn khá cao, cho thấy sự biến động lớn trong dữ liệu.
Dựa trên thông tin này, dữ liệu có sự biến động lớn, có giá trị lớn và nhỏ không thường xuyên. Tuy nhiên, không có dấu hiệu rõ ràng
của bất thường đặc biệt trong dữ liệu, vì các thông số thống kê như trung bình, trung vị, tứ phân vị vẫn nằm trong một phạm vi tương
đối hợp lý. Tuy nhiên, nếu dữ liệu này được sử dụng cho mục đích cụ thể, việc kiểm tra kỹ lưỡng hơn về tính hợp lý và nguồn gốc của
các giá trị cực lớn hoặc cực nhỏ có thể cần thiết.
2. Một doanh nghiệp sản xuất thép, thống kê 100 thanh thép sản xuất được một bảng như sau:
Chiều dài thanh thép (cm) Số thanh thép
101 - 105 20
106 - 110 32
111 - 115 38
116 – 120 18
121 - 125 12
a. Tính chiều dài trung bình của thanh thép
Chiều dài tb=
𝛴 (𝑻𝑻𝑻ề𝑻 𝑻à𝑻 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻 𝑻 𝑻ố 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻)
𝑻ổ𝑻𝑻 𝑻ố 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻
13
b. Tính phương sai, độ lệch chuẩn của thành thép
3. Một doanh nghiệp theo dõi số tiền chi cho quảng cáo sản phẩm và doanh thu sản phẩm cho bởi bảng sau:
Chi phí quảng cáo (trđ) Doanh thu bán hàng (trđ)
20 120
22 131
21 128
28 156
32 170
38 190
14
a. Vẽ đồ thị biểu diễn mối quan hệ giữa chi phí quảng cáo – doanh thu
b. Tính hệ số tương quan giữa chi phí quảng cáo và doanh thu bán hàng
=> Nếu hệ số tương quan giữa chi phí quảng cáo và doanh thu bán hàng bằng 1, điều này thường được hiểu như một mối quan hệ tuyến
tính hoàn toàn tích cực và hoàn hảo giữa hai biến.
CHƯƠNG 4 CÁC HÀM PHÂN PHỐI XÁC SUẤT PHỔ BIẾN
A. CÂU HỎI LÝ THUYẾT
1. Trình bày các đặc điểm của một phép thử nhị thức?
- Gồm một dãy n phép thử giống nhau
- Kết quả của phép thử nhận 2 giá trị (thành công hoặc thất bại, trúng – trượt)
- Xác suất thành công ký hiệu là p, không thay đổi từ phép thử này sang phép thử khác
- Các phép thử là độc lập với nhau
Ví dụ: Một người chơi số đề ghi mỗi ngày một số đề
- Hàm phân phối xác suất nhị thức được cho bởi công thức
f(x) = Xác suất thành công x lần trong n phép thử
n = số phép thử
p = Xác suất thành công cho một lần thử
- Kỳ vọng toán
E(x) = = np
- Phương sai
Var(x) = 2 = np(1 - p)
- Độ lệch chuẩn
15
Vd: Công ty X lo ngại về khả năng nghỉ việc của nhân viên. Dựa trên kinh nghiệm các nhà quản lý thấy rằng có khoảng 10%
nhân viên sẽ nghỉ việc sau khi được tuyển 1 năm. Chọn ngẫu nhiên 3 nhân viên mới tuyển, xác suất để một người rời khỏi
công ty là bao nhiêu sau 1 năm.
p = .10, n = 3, x = 1
= (3)(0.1)(0.81)
= .243
•Kỳ vọng toán
E(x) = m = 3(.1) = .3
•Phương sai
Var(x) = s 2 = 3(.1)(.9) = .27
•Độ lệch chuẩn
2. Trình bày các đặc điểm của một phép thử Poisson?
- Đối với hai khoảng có độ dài bằng nhau thì xác suất xảy ra là như nhau.
- Việc xuất hiện hay không xuất hiện ở khoảng này độc lập với việc xuất hiện hay không xuất hiện ở khoảng khác.
Ví dụ: Số lần hỏng xe trên mỗi 1000 km
Vd: Một chốt kiểm tra trong đợt dịch COVID 19 tại Hà Nội quan sát thấy lưu lượng lưu thông qua chốt trong mỗi giờ là gần như nhau
và khoảng 10 xe trong mỗi giờ. Tính xác suất chốt đó kiểm tra 5 xe trong khoảng thời gian 1 giờ.
𝜇 = 10 x = 5
f(x =5)=
105
𝑠−10
5!
=0.0378
3. Trình bày đặc điểm của một phân phối chuẩn, chuẩn hóa
* Phân phối chuẩn
- Đặc điểm của hàm phân phối chuẩn
+ Hàm phân phối chuẩn được mô tả bằng một hình chuông đều
+ Hai tham số, m (trung bình) và s (độ lệch chuẩn), xác định vị trí và hình dáng của phân phối.
+ Điểm cao nhất của đường phân phối chuẩn là trung bình nó cũng đồng thời là trung vị và mode (lý thuyết).
+ Giá trị trung bình có thể là bất kỳ con số nào: âm, bằng không hay dương
16
- Đặc điểm của phân phối chuẩn
+ Đường cong phân phối chuẩn được xem là đối xứng
+ Độ lệch chuẩn xác định độ rộng của đường cong
+ Tổng diện tích dưới đường cong là 1 (.5 về bên trái của giá trị trung bình và và .5 về bên phải của giá trị trung bình).
+ Xác suất của các biến ngẫu nhiên thông thường được tính bằng diện tích của vùng dưới đường cong.
- % của những giá trị tích lũy thường gặp
+ 68% giá trị nằm trong khoảng +/- 1SD
+ 95% giá trị nằm trong khoảng +/- 2SD
+ 99.7% nằm trong vùng +/- 3SD
- Hàm mật độ phân phối xác suất được xác định bằng công thức
𝜇 = trung bình, 𝜎 = độ lệch chuẩn
* Phân phối chuẩn hóa
- Một biến ngẫu nhiên tuân theo luật phân phối chuẩn có trung bình bằng 0 và độ lệch chuẩn bằng một thì được gọi là
một phân phối chuẩn hóa
- Công thức để chuyển từ phân phối chuẩn sang phân phối chuẩn hóa
- Hàm mật độ xác suất của phân phối chuẩn hóa
�(�)=
𝑻
√𝑻𝑻
𝑻
−𝑻𝑻
𝑻
* Ứng dụng của pp chuẩn và pp chuẩn hóa
- Tính được xác suất xảy ra trong một khoảng nào đó khi biết trung bình và độ lệch chuẩn
- Dễ dàng tra bảng xác suất chuẩn hóa khi hoán chuyển từ một phân phối chuẩn sáng phân phối chuẩn hóa
- Các biến tự nhiên, kinh tế, xã hội thường có phân phối chuẩn. Ví dụ: chiều cao, cân nặng, tuổi thọ, điểm số học
sinh….
- Các hàm phân phối xác suất tích lũy có dạng
- P(a<x<b) = ∫
𝑠
𝑠
𝑠(𝑠)𝑠𝑠 với các f(x) là các hàm mật độ phân phối xác suất
Vd: Một doanh nghiệp bán xăng với lượng xăng trung bình bán ra là 16 nghìn lit mỗi tháng và độ lệch chuẩn là 6 nghìn lit.
Doanh nghiệp cần điều chỉnh giá khi số lượng bán ra lớn hơn 20 nghìn lít. Tính xác suất phải điều chỉnh giá.
Hoán chuyển về hàm chuẩn hóa
z = (x -𝜇 )/𝜎 = (20 - 15)/6 = .83
Tra bảng phân phối chuẩn hóa cho thấy ở giá trị z = 0.85 là 0.2976. Dễ dàng tính được xác suất phải thay đổi giá p(x> 20) =
0.5 – 0.2976 = 0.2033
17
4. Trình bày dặc điểm của phân phối mũ
- Hàm phân phối mũ
với x > 0, 𝜇 > 0
𝜇 = trung bình
e = 2.71828
- Hàm phân phối xác suất tích lũy
x0 = một giá trị cụ thể của x
Vd: Một bến xe theo dõi số lượng xe vào bến trong ngày và nhận thấy số xe vào bến rất cao vào một thời điểm và giảm dần suốt thời
gian còn lại trong ngày. Thời gian trung bình giữa các xe vào bến ghi nhận là 3 phút. Bến xe muốn biết xác suất để thời gian giữa hai
lần liên tiếp là 2 phút hoặc ít hơn.
P(x < 2) = 1 - 2.71828-2/3 = 1 - .5134 = .4866
B. CÂU HỎI VẬN DỤNG
1. Một máy đóng chai nước ngọt có ga có công suất đóng được 1000 chai/giờ. Tỷ lệ đóng hỏng cho mỗi lần là 0.001. Theo bạn xác
suất đóng hỏng số chai trong mỗi giờ của máy này tuân theo luận phân phối gì? Tại sao?
Tỷ lệ đóng hỏng cho mỗi lần (p) là 0.001, và số lần đóng hỏng trong mỗi giờ của máy được mô tả bởi một phân phối xác suất nhị thức
(binomial distribution). Một biến ngẫu nhiên tuân theo phân phối nhị thức nếu các điều kiện sau được đáp ứng:
- Mỗi thử nghiệm chỉ có hai kết quả có thể xảy ra (đóng thành công hoặc đóng hỏng).
- Xác suất thành công p là cố định và không thay đổi qua mỗi lần thử nghiệm.
- Các thử nghiệm độc lập với nhau.
Trong trường hợp này, mỗi lần máy đóng chai nước ngọt thì có hai kết quả: thành công (đóng được chai) hoặc thất bại (đóng hỏng). Xác
suất thành công p là 0.001, và xác suất thất bại q (không đóng hỏng) là 1−p.
Số chai đóng hỏng trong mỗi giờ có thể được mô tả bởi biến ngẫu nhiên X theo phân phối nhị thức với các tham số n (số lần thử nghiệm)
và p (xác suất thành công trong mỗi lần thử nghiệm).
Trong trường hợp này, n là số lượng chai đóng trong mỗi giờ (1000 chai/giờ) và p là xác suất đóng hỏng (0.001).
=
1000
0(1000−0)
∗ 0,0010
∗ (1 − 0,001)(1000−0)
= 1* 1* 0,9991000
= 0,37
C. BÀI TẬP TỰ LÀM
1. Trong kết quả xổ số kiến thiết miền Bắc có duy nhất một giải đặc biệt. Các nhà cái cờ bạc sử dụng hai số cuối của kết quả này
để xác định kết quả trúng thưởng của những người chơi trong ngày. Một sinh viên Trường Đại học Phenikaa thử vận may của
mình trong 10 ngày bằng cách mỗi ngày ghi một số với chi phí bỏ ra hàng ngày là 10.000 đồng. Nếu kết quả trúng sinh viên
này được 700.000, trượt anh ta mất không chi phí bỏ ra.
18
a. Đây là phép thủ xác suất nào? Giải thích?
Đây là phép thử xác suất nhị thức (binomial probability). Phép thử này có hai kết quả rời rạc: trúng hoặc không trúng (thua). Mỗi lần
chơi độc lập với nhau và có xác suất thành công (trúng) là p và xác suất thất bại (không trúng) là q = 1 - p.
b. Tính xác suất này trúng 2 trong 10 lần chơi như vậy?
c. Tính số tiền sinh viên trung bình lãi hoặc lỗ trong 10 lần chơi như vậy?
2. Một trò chơi may rủi được thiết kế có 27 con số có hai chữ số (từ 00 đến 99) được quay lần lượt và ghi lại kết quả. Người chơi
bỏ ra 23.000 VNĐ để chơi bằng cách chọn một số có hai chữ số bất kỳ mà họ thích trước khi quay kết quả. Với mỗi kết quả
xuất hiện trùng với con số đã chọn người chơi sẽ được nhận một phần thưởng là 80.000VNĐ (kết quả về hai lần được 160.000).
a. Tính xác suất người chơi trúng một kết quả
Để tính xác suất người chơi trúng một kết quả, ta sử dụng tỉ lệ số cách chọn một số mong muốn chia cho tổng số cách chọn từ 00 đến
99. Có tổng cộng 100 số (00 đến 99), nên xác suất trúng một kết quả là:
P( trúng 1 lần) = 1/100= 0,01
b. Tính xác suất người chơi trúng hai kết quả
Để tính xác suất người chơi trúng hai kết quả, ta sử dụng tỉ lệ số cách chọn hai số mong muốn chia cho tổng số cách chọn từ 00 đến 99.
Có (27/2) cách chọn hai số khác nhau từ 27 số có sẵn. Vậy xác suất trúng hai kết quả là:
P (trúng 2 lần) =
(
27!
2!∗(27−2)!
)
100∗99
=
39
1100
c. Tính số tiền trung bình lãi hoặc lỗ với người chơi này với giả định ban đầu chi phí bỏ ra là 23.000VNĐ.
Với giả định ban đầu chi phí bỏ ra là 23,000 VND và xác suất trúng một kết quả là
1
100
Lãi hoặc lỗ = ( Xs trúng * Số tiền trúng) - ( Xs
trượt * cp bỏ ra)
= (
1
100
* 160.000 ) - (
99
100
* 23.000 ) = -21.170
Vậy người chơi, trung bình, sẽ gánh lỗ trung bình là 21.170 VND sau mỗi lượt chơi.
3. Cục thống kê Lao động tại Mỹ báo cáo rằng trung bình chi phí hàng năm về thực phẩm và đồ uống cho các gia đình Mỹ là
5.700 đô la. Giả sử chi tiêu cho đồ uống và thực phẩm là phân phối chuẩn có độ lệch chuẩn là 1.500 đô la.
a. 10% các gia đình có chi tiêu hàng năm cho thực phẩm và đồ uống nhấp nhất sẽ chi tiêu trong khoảng bao nhiêu?
Tra bảng t Table Cl 90% = Z 1,65
1,65 =
𝑠 − 5700
1500
X = 8175
19
b. Có bao nhiêu % gia đình chi tiêu nhiều hơn 7.000 đô la mỗi năm cho thực phẩm và đồ uống?
Z=
7000 − 5700
1500
= 0,87
c. 5% số hộ gia đình có chi tiêu hàng năm cho thực phẩm và đồ uống cao nhất sẽ chi tiêu trong khoảng bao nhiêu.
1,96=
𝑠 − 5700
1500
X = 8640
4. Một doanh nghiệp ngành may sản xuất áo sơ mi cho nam cần phân bổ tỷ lệ sản xuất theo các cỡ áo khác nhau từ XS đến XXL.
Kinh nghiệm của doanh nghiệp cho thấy cỡ áo có liên quan đến chiều cao của khách hàng và các gợi ý chọn cỡ áo theo chiều
cao như sau:.
Cỡ áo Chiều cao tương ứng (cm)
XS < 150
S 150 - 160
M 160 - 170
L 170 - 175
XL 175 - 185
XXL > 180
Theo điều tra dân số cho thấy chiều cao trung bình của nam giới trưởng thành là 165cm và độ lệch chuẩn là 5 cm. Giả sử chiều cao của
nam giới tuân theo luật phân phối chuẩn.
𝜇 = 165, 𝜎 = 5
z =
𝑠− 𝑠
𝑠
a. Tính tỷ lệ % nam giới trưởng thành có chiều cao thấp hơn 150cm
z= (150- 165)/ 5 = -3
Tra bảng Z-score => p (z < 150) = f(-3) = 0,13
b. Tính tỷ lệ % nam giới trưởng thành có chiều cao lớn hơn 180 cm
z= (180- 165)/ 5 = 3
p (z > 3) = f(3) = 0,9987
p (z >3) = (1- f(3))
= 1- 0,9987= 0,13
c. Doanh nghiệp cần phân bổ cơ cấu sản phẩm theo kích cỡ như thế nào để tối ưu với nhu cầu thị trường.
Để tối ưu hóa cơ cấu sản phẩm theo kích cỡ và nhu cầu thị trường, doanh nghiệp có thể xem xét phân bổ sản phẩm dựa trên
phân phối chiều cao trong dân số nam giới. Với thông tin về xác suất của các khoảng chiều cao, doanh nghiệp có thể cân nhắc
phân bổ sản phẩm sao cho phù hợp với tỷ lệ phân phối chiều cao trong dân số để đáp ứng nhu cầu thị trường một cách tối ưu.
20
Điều này có thể bao gồm sản xuất số lượng áo sơ mi lớn nhất ở các kích cỡ phổ biến (ví dụ như M, L, XL) nhưng cũng không
nên bỏ qua các kích cỡ khác để đảm bảo sự đa dạng và đáp ứng nhu cầu đa dạng của khách hàng.
5. Công ty sản xuất máy lọc không khí có thời gian sử dụng trung bình là 36.500 giờ và độ lệch chuẩn là 5000 giờ. Dữ liệu quá
khứ cho thấy phân phối về thời gian sử dụng của máy tuân theo luật phân phối chuẩn.
𝜇 = 36500, 𝜎 = 5000
z =
𝑠− 𝑠
𝑠
a. Có bao nhiêu % số máy có độ bền trên 40.000 giờ?
p (x > 40.000)
z= (40000- 36500)/ 5000 = 0,7
p (z > 40.000) = f(0,7) = 0,7580
p (z >40.000) = 1- f(0,7) = 1- 0,7580= 0,242 = 24,2%
b. Có bao nhiêu % số máy có độ bền dưới 30.000 giờ
p (x< 30000)
z= (30000- 36500)/ 5000 = -1,3
Tra bảng Z-score => 96,8%
c. Công ty cần thực hiện chính sách bảo hành cho những sản phẩm này. Giả sử công ty không muốn có quá 10% sản phẩm
được bảo hành thì ngưỡng thời gian chấp nhận cho bảo hành nhiều nhất là bao nhiêu
-1,28 =
𝑠− 36500
5000
X= 30100
6. Một doanh nghiệp sản xuất xác định xác suất của sản phẩm lỗi và số lỗi sản phẩm kỳ vọng trong một quá trình sản xuất. Giả
sử một quá trình sản xuất ra các mặt hàng có trọng lượng trung bình là 10 gr. Tính xác suất của sản phẩm lỗi và số sản phẩm
lỗi của một dây chuyền sản xuất có công suất là 10.000 sản phẩm trong các trường hợp.
𝜇 = 10
a. Độ lệch chuẩn của quá trình sản xuất là 0.15, và sản phẩm không sai lệch quá 1 lần độ lệch chuẩn so với trung bình là đạt yêu
cầu. Những sản phẩm khác không đạt yêu cầu. 𝜎 = 0,15
Đầu tiên, chúng ta cần xác định giá trị trung bình của quá trình sản xuất. Vì độ lệch chuẩn là 0,15 và dung sai chấp nhận được
là 1 độ lệch chuẩn so với giá trị trung bình, nên giá trị trung bình là:
𝜇 = 10 gr (trọng lượng trung bình) ± 1 × 0,15 gr
trung bình = (10 - 0,15) đến (10 + 0,15)
trung bình = 9,85 đến 10,15 gr
P (X < 9,85) hoặc (X> 10,15)
21
b. Thông qua quá trình cải tiến sản phẩm độ lệch chuẩn của quá trình sản xuất giảm còn 0.05. Giả sử tiêu chuẩn sản phẩm chấp
nhận vẫn giữ nguyên.
7. Tại thành phố Hồ Chí Minh do tình hình dịch COVID19 kéo dài, nhiều người lao động mất việc làm không có thu nhập. Chính
quyền thành phố dự tính cung cấp một gói hỗ trợ an sinh xã hội cho những người co thu nhập thấp. Theo đề xuất chính sách
những người lao động có thu nhập dưới 5trđ/tháng sẽ nhận được trợ cấp theo hai mức. Người lao động nhận được hỗ trợ
2tr/tháng nếu thuộc có thu nhập trung bình là từ 3 đến 5 triệu và 2.5 triệu đồng nếu có thu nhập dưới 3tr. Biết rằng thu nhập
trung bình của thành phố là 11tr/tháng và độ lệch chuẩn là 3.5 tr/tháng. Giả sử thu nhập của người dân tuân theo luật phân phối
chuẩn, quy mô lao động của thành phố là 6.000.000 lao động.
𝜇 = 11 , 𝜎 = 3,5
a. Ước lượng số người lao động dự kiến được nhận trợ cấp 2.5 triệu
P( X <3)
Z=
2,5− 11
3,5
= -2,43
b. Tỷ lệ số người lao động dự kiến nhận được trợ cấp 2 triệu
P (3< X<5)
c. Tính quỹ dự phòng hỗ trợ an sinh mà thành phố cần chuẩn bị để thực hiện gói an sinh này?
CHƯƠNG 6 ƯỚC LƯỢNG KHOẢNG
1. Một nhà hàng đang xem xét chính sách ưu đãi cho những khách hàng thường xuyên. Quyết định về mức độ ưu đãi dựa trên mức chi
tiêu của thực khách so với mức chi phí trung bình các bữa ăn. Một mẫu thu thập thông tin từ 49 khách hàng cho thấy, chi tiêu trung bình
của họ là 25 đô la/bữa ăn và độ lệch chuẩn là 5 đô là.
a. Ước lượng khoảng tin cậy của chi phí trung bình của thực khách với hệ số tin cậy 95%
b. Giả sử chủ nhà hàng không muốn sai số lấy mẫu với giá trị trung bình không vượt quá 2 đô la thì cỡ mẫu cần lấy thêm là bao nhiêu?
2. Hiệp hội bán lẻ thực hiện một khảo sát những hộ gia đình chi tiêu cho kỳ nghỉ Tết âm lịch để đưa ra các gợi ý cho các doanh nghiệp
bán lẻ. Kết quả khảo sát 600 hộ gia đình cho thấy mức chi tiêu trung bình là 670 đô la cho dịp tết và độ lệch chuẩn là 152 đô la.
a. Với mức ý nghĩa 5% hãy tính sai số biên là bao nhiêu
b. Ước lượng khoảng tin cậy 95% của trung bình chi tiêu cho dịp tết của các hộ gia đình.
3. Một tổ chức nghiên cứu về lĩnh vực khách sạn cho thu thập dữ liệu giá phòng của các khách sạn thuộc khu vực bờ Đông ở Mỹ. Tổ
chức này mong muốn ước lượng về trung bình giá phòng của họ không khác với trung bình tổng thể 2 đô la. Trong nghiên cứu ban z
đầu của họ với 120 khách sạn có độ lệch chuẩn giá phòng là 22.50 đô la. Hãy tính cỡ mẫu cần thiết trong các trường hợp sau
a. Ước lượng khoảng tin cậy 90% của trung bình giá phòng của các khách sạn khu vực bờ Đông?
b. Tương tự câu a nhưng tính cho trường hợp 95%?
c. Tương tự câu a,b nhưng tính cho trường hợp 99%?
d. Khi sai số biên cố định, điều gì sẽ xảy ra với cỡ mẫu khi độ tin cậy gia tăng?
22
Nếi E cố định (ví dụ, bạn muốn giữ sai số biên không đổi), và bạn muốn tăng độ tin cậy (Z tăng), thì theo công thức trên, n (kích thước
mẫu) sẽ tăng. Điều này có nghĩa là bạn cần lấy một mẫu lớn hơn để đảm bảo rằng sai số biên không đổi sẽ tạo ra khoảng tin cậy lớn
hơn.
Tóm lại, khi muốn tăng độ tin cậy với sai số biên không đổi, cỡ mẫu cần tăng để đảm bảo rằng ước lượng của bạn sẽ có độ tin cậy cao
hơn.
4. Trong một điều tra về người lao động tại các doanh nghiệp vừa và nhỏ về mức độ hài lòng của họ với môi trường làm việc, người ta
tiến hành điều tra với 531 nhân viên. Tổng cộng có 189 nhân viên trả lời là hài lòng với công việc.
a. Hãy tính ước lượng điểm của tỷ lệ nhân viên hài lòng với công việc
b. Tính khoảng tin cậy 95% của tỷ lệ nhân viên không hài lòng với công việc tại các doanh nghiệp này.
5. Báo cáo của một hãng kiểm toán cho thấy các doanh nghiệp có xu hướng báo cáo lợi luận cao hơn dự kiến. Một khảo sát từ 162 công
ty cho thấy 104 doanh nghiệp báo cáo cao hơn dự kiến, 29 bằng với dự kiến và 29 thấp hơn dự kiến.
a. Tính ước lượng điểm của tỷ lệ những doanh nghiệp báo cáo thấp hơn dự kiến.
b. Tính toán khoảng tin cậy 95% cho tỷ lệ các doanh nghiệp có báo cáo cao hơn dự kiến
c. Cỡ mẫu là bao nhiêu nếu sai số biên mong muốn là 0.05.
CHƯƠNG 7 KIỂM ĐỊNH GIẢ THUYẾT
1. Trong kỳ thi tốt nghiệp THPT quốc gia, tại trường PTTH người ta lấy ra 150 em để tính điểm trung bình của 6 môn thi. Kết quả cho
thấy trung bình tổng điểm các môn thi là 42 điểm và độ lệch chuẩn là 7 điểm
n= 150, 𝜇= 42, 𝜎= 7.
a. Tính khoảng tin cậy 95% trung bình tổng điểm thi của học sinh nhà trường
b. Giả sử năm học trước điểm thi là trung bình của khóa trước là 41 điểm. Dựa trên so sánh này, hiệu trưởng nhà trường cho rằng chất
lượng giảng dạy đã tăng và điểm thi trung bình của năm nay thực sự cao hơn điểm thi trung bình năm trước. Hỏi kết luận này có đúng
không? Tại sao?
2. Một doanh nghiệp có kế hoạch tung ra thị trường một sản phẩm mới thông qua hệ thống 1000 đại lý của mình. Theo kinh nghiệm của
giám đốc kinh doanh ước tính lượng cầu cho mỗi cửa hàng là 40 sản phẩm. Công ty dự kiến sản xuất theo ước tính này của giám đốc
kinh doanh. Tuy nhiên, Tổng giám đốc có ý kiến khác thận trọng hơn cho rằng con số 40 sản phẩm có thể lạc quan. Bởi vậy, công ty đã
tiến hành một khảo sát với 25 đại lý phân phối để thu thập thêm thông tin. Các đại lý phân phối được cung cấp các thông tin về tính
năng và giá bán sản phẩm dự kiến và hỏi họ về lượng cầu dự tính cho cửa hàng họ với sản phẩm này.
Kết quả tính toán từ trả lời của các đại lý cho thấy có dự đoán lượng bán trung bình là 37.4 và độ lệch chuẩn là 11.79.
a. Tính khoảng tin cậy 95% của dự đoán số sản phẩm bán được
b. Với thông tin từ mẫu thu thập được, hãy cho biết ước tính của giám đốc marketing có thể sử dụng được không? Doanh nghiệp có cần
điều chỉnh kế hoạch sản xuất không?
3. Một nghiên cứu của tổ chức Comsumer Reports cho thấy có 64% người mua sắm ở siêu thị tin rằng các thương hiệu của siêu thị
cũng tốt như các thương hiệu quốc gia. Để xem điều này có đúng với các sản phẩm của mình không một nhà sản xuất nước sốt cà chua
có thương hiệu quốc gia thực hiện một khảo sát với người mua sắm để xem thử họ có tin rằng nước sốt cà chua của siêu thị tốt như nước
sốt cà chua có thương hiệu quốc gia không.
23
a. Thiết lập giả thuyết dùng để kiểm định xem tỷ lệ người mua sắm tin rằng nước sốt cà chua mang thương hiệu siêu thị cũng tốt như
thương hiệu quốc gia có khác biệt so với 64%.
H0 𝜇= 0,64
H1 𝜇 ≠ 0,64
b. Mẫu gồm 100 người mua sắm trong đó có 52 người đánh giá rằng thương hiệu siêu thị tốt ngang với thương hiệu quốc gia, hãy tính
giá trị p.
d. Nhà sản xuất nước sốt thương hiệu quốc gia có hài lòng với kết luận này không? Giải thích.
kết luận của thử nghiệm giả thuyết là người tiêu dùng tin rằng sốt cà chua của thương hiệu siêu thị ngon ngang với sốt cà chua của
thương hiệu quốc gia 42.2% khác biệt đáng kể so với phát hiện của Consumer Reports là 61.8%.
CHƯƠNG 8 SUY DIỄN THỐNG KÊ CHO HAI TỔNG THỂ
1. Đọc và giải thích kết quả của một kiểm định cho hai nhóm từ phần mềm SPSS như sau:
Group Statistics
Gender N Mean Std. Deviation Std. Error Mean
TI
Nam 278 2.4451 .98358 .05899
Nữ 299 2.3186 .90435 .05230
Independent Samples Test
Levene's Test
for Equality of
Variances
t-test for Equality of Means
F Sig. t df Sig. (2-
tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower Upper
TI
Equal
variances
assumed
3.206 .074 1.611 575 .108 .12658 .07860 -.02779 .28095
Equal
variances not
assumed
1.606 561.264 .109 .12658 .07884 -.02827 .28143
Thống kê Nhóm:
Nam:
N: Số quan sát (278).
Trung bình: Giá trị trung bình của biến "TI" cho nhóm (2.4451).
Độ lệch chuẩn: Độ lệch chuẩn của biến "TI" cho nhóm (.98358).
Sai số trung bình: Sai số trung bình của trung bình cho nhóm (.05899).
Nữ:
N: Số quan sát (299).
Trung bình: Giá trị trung bình của biến "TI" cho nhóm (2.3186).
Độ lệch chuẩn: Độ lệch chuẩn của biến "TI" cho nhóm (.90435).
Sai số trung bình: Sai số trung bình của trung bình cho nhóm (.05230).
24
Kiểm định Độc lập:
Kiểm định Levene về Sự Bằng nhau của Phương Sai:
F: Thống kê kiểm định cho kiểm định Levene (3.206).
Sig.: Giá trị p liên quan với kiểm định Levene (.074).
Kiểm định Levene đánh giá xem phương sai của hai nhóm có bằng nhau không. Trong trường hợp này, giá trị p (.074) lớn hơn mức ý
nghĩa thông thường là 0.05, ngụ ý rằng không có đủ bằng chứng để bác bỏ giả thuyết không có sự bất đồng nhau về phương sai.
Kiểm định t cho Sự Bằng nhau của Trung Bình:
t: Thống kê t cho kiểm định t độc lập giữa các trung bình (1.611).
df: Độ tự do.
Sig. (2-tailed): Giá trị p hai đuôi liên quan đến kiểm định t (.108).
Hiệu Chênh Trung Bình: Sự chênh lệch giữa trung bình của hai nhóm (.12658).
Sai số Chênh Lệch Chuẩn: Sai số chuẩn của sự chênh lệch giữa trung bình (.07860).
95% Khoảng Tin Cậy cho Sự Chênh Lệch:
Thấp nhất: Giới hạn dưới của khoảng tin cậy (-.02779).
Cao nhất: Giới hạn trên của khoảng tin cậy (.28095).
Nếu giá trị p liên quan với kiểm định t nhỏ hơn mức ý nghĩa chọn (thông thường là 0.05), đó ngụ ý có bằng chứng cho thấy sự khác biệt
đáng kể. Trong trường hợp này, giá trị p là .108, lớn hơn 0.05, ngụ ý rằng không có đủ bằng chứng để bác bỏ giả thuyết không có sự
chênh lệch về trung bình giữa hai nhóm.
Ngoài ra, khoảng tin cậy 95% cho sự chênh lệch giữa trung bình bao gồm số không, hỗ trợ thêm cho việc thiếu sự chênh lệch có ý nghĩa
thống kê.
2. Một doanh nghiệp sản xuất vật liệu đang tiến hành một thủ nghiệm về một loại phụ gia mới để tăng độ cứng của sản phẩm. Để
đánh giá tác động của phụ gia đến độ cứng của sản phẩm doanh nghiệp tiến hành một thử nghiệm với 10 mẫu nguyên liệu để
sản xuất vật liệu khác nhau. Với mỗi mẫu nguyên liệu được chia làm 2 phần 1 phần giữa nguyên và phần còn lại cho thêm phụ
gia. Sản phẩm hoàn thành được đo độ cứng tương ứng cho ở bảng sau:
Mẫunguyên liệu Độ cứng thành phẩm không có phụ gia Độ cứng thành phẩm có phụ gia
1 6.8 7.0
2 6.5 6.6
3 7.1 7.0
4 8.1 8.2
5 7.9 7.8
6 6.3 6.3
7 6.1 6.4
8 7.5 7.7
9 6.0 6.1
10 8.5 8.4
a. Để đánh giá ảnh hưởng của phụ gia tới độ cứng của sản phẩm doanh nghiệp nên sử dụng loại kiểm định nào?
25
Để đánh giá ảnh hưởng của phụ gia tới độ cứng của sản phẩm, bạn có thể sử dụng kiểm định t-paired (kiểm định t đối) vì mỗi
mẫu nguyên liệu được đo độ cứng khi không có và có phụ gia, và mỗi cặp dữ liệu được thu thập từ cùng một mẫu nguyên liệu.
b. Theo bạn chất phụ gia này có tác động làm tăng độ cứng của sản phẩm sản xuất không? Giải thích.
Để kiểm tra xem chất phụ gia này có tác động làm tăng độ cứng của sản phẩm không, bạn có thể thực hiện kiểm định t-paired
và so sánh độ cứng khi có phụ gia với độ cứng khi không có phụ gia.
Đối với mỗi mẫu nguyên liệu, bạn có cặp giá trị độ cứng khi không có phụ gia và độ cứng khi có phụ gia. Hãy thực hiện kiểm
định t-paired để xem xét xem có sự thay đổi có ý nghĩa về mặt thống kê hay không.
Nếu giá trị p associated với kiểm định t-paired nhỏ hơn một ngưỡng ý nghĩa thường là 0.05, bạn có thể kết luận rằng có sự thay
đổi đáng kể về độ cứng khi thêm phụ gia. Ngược lại, nếu giá trị p lớn hơn 0.05, thì không có đủ bằng chứng để bác bỏ giả
thuyết rằng không có sự thay đổi có ý nghĩa.
Lưu ý: Trước khi thực hiện kiểm định t-paired, cần kiểm tra giả định về phân phối chuẩn của sự chênh lệch giữa độ cứng khi
có và khi không có phụ gia cho từng mẫu nguyên liệu. Nếu giả định này không được đáp ứng, có thể cần sử dụng phương pháp
kiểm định thí nghiệm khác hoặc thực hiện biến đổi dữ liệu.
CHƯƠNG 9, 10 PHÂN TÍCH HỒI QUY
1. Theo dõi thu nhập theo tháng của 10 người mới tốt nghiệp đại học và số giờ họ làm việc theo tuần cho ở bảng sau:
STT Số giờ làm việc/tuần Thu nhập tháng (tr)
1 30 8
2 32 8.5
3 35 9.2
4 36 9.2
5 32 8.7
6 37 9.8
7 40 9.6
8 42 10
9 45 11
10 48 13
a. Tính hệ số tương quan giữa số giờ làm việc và thu nhập theo tháng của các cử nhân
26
b. Giả sử quan hệ giữa thu nhập và số giờ làm việc là một hàm hồi quy tuyến tính. Hãy tính các hệ số hồi quy và giải thích ý nghĩa
của chúng.
27
3. Khảo sát 213 doanh nghiệp trong một ngành công nghiệp về ảnh hưởng của ứng dụng công nghệ (TEC), sử dụng lao động
(LAB), mức đầu tư cho nghiên cứu và phát triển (R&D), mức độ liên kết (CNE), và sự đa dạng về vốn sở hữu (VAR) đến hiệu suất sản
xuất (PRO). Sử dụng ước lượng bằng phương pháp OLS thu được kết quả không đầy đủ như bảng đưới đây.
Source SS df MS Number of obs = 213
F() = ?(3)
28
Model ?(1) 5 ?(2) Prob > F = .000
Residual 4.510 207 .022 R-squared = .939
Adj R-squared = .938
Total 74.430 212 Root MSE =
PRO Coef. Std. Err. t P>t [95%Conf. Interval]
TEC ?(4) .018 13.409 .000 .207 .279
LAB .305 ?(5) 16.623 .000 ?(6) .342
R&D .051 .015 ?(7) .001 .022 .080
CNE .231 .016 14.697 .000 .200 .261
VAR ?(8) ?(9) ?(10) .000 .183 .237
Cons -.190 .073 -2.614 .010 -.334 -.047
a. Sử dụng các công thức thích hợp để tính các giá trị trong dấu (?) tương ứng từ 1 đến 10
b. Viết phương trình hồi quy thể hiện quan hệ giữa hiệu suất sản xuất (PRO) và các biến còn lại. Giải thích ý nghĩa của các hệ số
của các biến TEC, CNE, VAR
c. Một lãnh đạo trong ngành công nghiệp này nhận định nếu doanh nghiệp cải thiện được 1 điểm sử dụng công nghệ (TEC) sẽ
giúp doanh nghiệp cải thiện được trung bình 0.25 điểm hiệu suất sản xuất (PRO). Nhận định của vị lãnh đạo này có thích hợp
với dữ liệu hay không, tại sao?
29
.

More Related Content

Similar to Statistics for Business and Economics.docx

508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
dovananh144
 

Similar to Statistics for Business and Economics.docx (20)

Nghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lườngNghiên cứu Marketing - Chương 5 : Đo lường
Nghiên cứu Marketing - Chương 5 : Đo lường
 
Báo cáo thực tập Xây dựng kế hoạch kinh doanh Cửa hàng 24/7 - TOPICA...
Báo cáo thực tập Xây dựng kế hoạch kinh doanh Cửa hàng 24/7 - TOPICA...Báo cáo thực tập Xây dựng kế hoạch kinh doanh Cửa hàng 24/7 - TOPICA...
Báo cáo thực tập Xây dựng kế hoạch kinh doanh Cửa hàng 24/7 - TOPICA...
 
Estimating the impact of the project 2024
Estimating the impact of the project 2024Estimating the impact of the project 2024
Estimating the impact of the project 2024
 
Danh gia tac dong 2024 tong quan chuong trinh.pptx
Danh gia tac dong 2024 tong quan chuong trinh.pptxDanh gia tac dong 2024 tong quan chuong trinh.pptx
Danh gia tac dong 2024 tong quan chuong trinh.pptx
 
Báo cáo thực tập Lập Kế Hoạch kinh doanh Cửa Hàng 24h - TOPICA
Báo cáo thực tập Lập Kế Hoạch kinh doanh Cửa Hàng 24h  - TOPICABáo cáo thực tập Lập Kế Hoạch kinh doanh Cửa Hàng 24h  - TOPICA
Báo cáo thực tập Lập Kế Hoạch kinh doanh Cửa Hàng 24h - TOPICA
 
Danh gia tac dong 2024 các phương pháp định lượng.pptx
Danh gia tac dong 2024 các phương pháp định lượng.pptxDanh gia tac dong 2024 các phương pháp định lượng.pptx
Danh gia tac dong 2024 các phương pháp định lượng.pptx
 
Danh gia thuc hien cong viec.ppt
Danh gia thuc hien cong viec.pptDanh gia thuc hien cong viec.ppt
Danh gia thuc hien cong viec.ppt
 
chuong 1- Tổng quan chung_SV.pdf
chuong 1- Tổng quan chung_SV.pdfchuong 1- Tổng quan chung_SV.pdf
chuong 1- Tổng quan chung_SV.pdf
 
Chapter 3 pdf (2).pptx
Chapter 3 pdf (2).pptxChapter 3 pdf (2).pptx
Chapter 3 pdf (2).pptx
 
Chapter 7
Chapter 7Chapter 7
Chapter 7
 
508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
508987519-Phan-Tich-Tai-Chinh-Doanh-Nghiệp-1.pdf
 
Nltk 2
Nltk 2Nltk 2
Nltk 2
 
Xây dựng chương trình phân tích tình hình tài chính tại Công Ty TNG - Thái Ng...
Xây dựng chương trình phân tích tình hình tài chính tại Công Ty TNG - Thái Ng...Xây dựng chương trình phân tích tình hình tài chính tại Công Ty TNG - Thái Ng...
Xây dựng chương trình phân tích tình hình tài chính tại Công Ty TNG - Thái Ng...
 
PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1PPNCKT_Chuong 4 p1
PPNCKT_Chuong 4 p1
 
Ch6 MEASUREMENT and QUESTIONNAIRE.pptx
Ch6 MEASUREMENT and QUESTIONNAIRE.pptxCh6 MEASUREMENT and QUESTIONNAIRE.pptx
Ch6 MEASUREMENT and QUESTIONNAIRE.pptx
 
Thiết lập chỉ số KPI trong Y tế
Thiết lập chỉ số KPI trong Y tếThiết lập chỉ số KPI trong Y tế
Thiết lập chỉ số KPI trong Y tế
 
Các bước phân tích tài chính, Các phương pháp phân tích tài chính
Các bước phân tích tài chính, Các phương pháp phân tích tài chínhCác bước phân tích tài chính, Các phương pháp phân tích tài chính
Các bước phân tích tài chính, Các phương pháp phân tích tài chính
 
kinh tế lượng
kinh tế lượngkinh tế lượng
kinh tế lượng
 
Suy diễn thống kê và ngôn ngữ R (3): Thống kê mô tả
Suy diễn thống kê và ngôn ngữ R (3): Thống kê mô tảSuy diễn thống kê và ngôn ngữ R (3): Thống kê mô tả
Suy diễn thống kê và ngôn ngữ R (3): Thống kê mô tả
 
Phương pháp nghiên cứu dữ liệu sơ cấp, thứ cấp - SPSS - Nhận viết đề tài điểm...
Phương pháp nghiên cứu dữ liệu sơ cấp, thứ cấp - SPSS - Nhận viết đề tài điểm...Phương pháp nghiên cứu dữ liệu sơ cấp, thứ cấp - SPSS - Nhận viết đề tài điểm...
Phương pháp nghiên cứu dữ liệu sơ cấp, thứ cấp - SPSS - Nhận viết đề tài điểm...
 

Recently uploaded

Recently uploaded (20)

Khoá luận Phân tích hoạt động sản xuất kinh doanh của công ty cổ phần thương ...
Khoá luận Phân tích hoạt động sản xuất kinh doanh của công ty cổ phần thương ...Khoá luận Phân tích hoạt động sản xuất kinh doanh của công ty cổ phần thương ...
Khoá luận Phân tích hoạt động sản xuất kinh doanh của công ty cổ phần thương ...
 
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến quyết định sử dụng dịch vụ du l...
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến quyết định sử dụng dịch vụ du l...Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến quyết định sử dụng dịch vụ du l...
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến quyết định sử dụng dịch vụ du l...
 
Khoá luận Quản lý nguồn nhân lực ngành Giáo dục của tỉnh Vĩnh Phúc
Khoá luận Quản lý nguồn nhân lực ngành Giáo dục của tỉnh Vĩnh PhúcKhoá luận Quản lý nguồn nhân lực ngành Giáo dục của tỉnh Vĩnh Phúc
Khoá luận Quản lý nguồn nhân lực ngành Giáo dục của tỉnh Vĩnh Phúc
 
tai-lieu-hoc-nguyen-li-marketing-can-ban2.pdf
tai-lieu-hoc-nguyen-li-marketing-can-ban2.pdftai-lieu-hoc-nguyen-li-marketing-can-ban2.pdf
tai-lieu-hoc-nguyen-li-marketing-can-ban2.pdf
 
Khoá luận Quản lí tài sản công tại Bệnh viện Hữu nghị Việt Đức
Khoá luận Quản lí tài sản công tại Bệnh viện Hữu nghị Việt ĐứcKhoá luận Quản lí tài sản công tại Bệnh viện Hữu nghị Việt Đức
Khoá luận Quản lí tài sản công tại Bệnh viện Hữu nghị Việt Đức
 
Khóa luận tốt nghiệp Công tác tuyển dụng công chức tại UBND huyện Lục Nam, tỉ...
Khóa luận tốt nghiệp Công tác tuyển dụng công chức tại UBND huyện Lục Nam, tỉ...Khóa luận tốt nghiệp Công tác tuyển dụng công chức tại UBND huyện Lục Nam, tỉ...
Khóa luận tốt nghiệp Công tác tuyển dụng công chức tại UBND huyện Lục Nam, tỉ...
 
Khóa luận Nâng cao hiệu quả đối với hoạt động cho vay tiêu dùng cá nhân tại N...
Khóa luận Nâng cao hiệu quả đối với hoạt động cho vay tiêu dùng cá nhân tại N...Khóa luận Nâng cao hiệu quả đối với hoạt động cho vay tiêu dùng cá nhân tại N...
Khóa luận Nâng cao hiệu quả đối với hoạt động cho vay tiêu dùng cá nhân tại N...
 
Khóa luận tốt nghiệp Các giải pháp nâng cao hiệu quả sử dụng vốn lưu động tại...
Khóa luận tốt nghiệp Các giải pháp nâng cao hiệu quả sử dụng vốn lưu động tại...Khóa luận tốt nghiệp Các giải pháp nâng cao hiệu quả sử dụng vốn lưu động tại...
Khóa luận tốt nghiệp Các giải pháp nâng cao hiệu quả sử dụng vốn lưu động tại...
 
Khóa luận tốt nghiệp Các biện pháp nhằm hoàn thiện hệ thống kênh phân phối củ...
Khóa luận tốt nghiệp Các biện pháp nhằm hoàn thiện hệ thống kênh phân phối củ...Khóa luận tốt nghiệp Các biện pháp nhằm hoàn thiện hệ thống kênh phân phối củ...
Khóa luận tốt nghiệp Các biện pháp nhằm hoàn thiện hệ thống kênh phân phối củ...
 
Khóa luận Nâng cao lòng trung thành của khách hàng cá nhân đối với thương hiệ...
Khóa luận Nâng cao lòng trung thành của khách hàng cá nhân đối với thương hiệ...Khóa luận Nâng cao lòng trung thành của khách hàng cá nhân đối với thương hiệ...
Khóa luận Nâng cao lòng trung thành của khách hàng cá nhân đối với thương hiệ...
 
Khóa luận Sự hài lòng của khách hàng cá nhân đối với chất lượng dịch vụ cho v...
Khóa luận Sự hài lòng của khách hàng cá nhân đối với chất lượng dịch vụ cho v...Khóa luận Sự hài lòng của khách hàng cá nhân đối với chất lượng dịch vụ cho v...
Khóa luận Sự hài lòng của khách hàng cá nhân đối với chất lượng dịch vụ cho v...
 
Khóa luận Phân tích các yếu tố ảnh hưởng đến quyết định lựa chọn các sản phẩ...
Khóa luận Phân  tích các yếu tố ảnh hưởng đến quyết định lựa chọn các sản phẩ...Khóa luận Phân  tích các yếu tố ảnh hưởng đến quyết định lựa chọn các sản phẩ...
Khóa luận Phân tích các yếu tố ảnh hưởng đến quyết định lựa chọn các sản phẩ...
 
Khoá luận Phân tích và đánh giá thực trạng nhằm nâng cao hiệu quả hoạt động M...
Khoá luận Phân tích và đánh giá thực trạng nhằm nâng cao hiệu quả hoạt động M...Khoá luận Phân tích và đánh giá thực trạng nhằm nâng cao hiệu quả hoạt động M...
Khoá luận Phân tích và đánh giá thực trạng nhằm nâng cao hiệu quả hoạt động M...
 
Khóa luận Nghiên cứu sự hài lòng của khách hàng đối với dịch vụ Internet Bank...
Khóa luận Nghiên cứu sự hài lòng của khách hàng đối với dịch vụ Internet Bank...Khóa luận Nghiên cứu sự hài lòng của khách hàng đối với dịch vụ Internet Bank...
Khóa luận Nghiên cứu sự hài lòng của khách hàng đối với dịch vụ Internet Bank...
 
Khóa luận Nghiên cứu tình hình ứng dụng Digital Marketing trong hoạt động kin...
Khóa luận Nghiên cứu tình hình ứng dụng Digital Marketing trong hoạt động kin...Khóa luận Nghiên cứu tình hình ứng dụng Digital Marketing trong hoạt động kin...
Khóa luận Nghiên cứu tình hình ứng dụng Digital Marketing trong hoạt động kin...
 
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến hành vi sử của khách hàng thành...
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến hành vi sử của khách hàng thành...Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến hành vi sử của khách hàng thành...
Khóa luận Nghiên cứu các yếu tố ảnh hưởng đến hành vi sử của khách hàng thành...
 
Khoá luận Quản lý đầu tư xây dựng của Ủy ban nhân dân huyện Thanh Trì, Thành ...
Khoá luận Quản lý đầu tư xây dựng của Ủy ban nhân dân huyện Thanh Trì, Thành ...Khoá luận Quản lý đầu tư xây dựng của Ủy ban nhân dân huyện Thanh Trì, Thành ...
Khoá luận Quản lý đầu tư xây dựng của Ủy ban nhân dân huyện Thanh Trì, Thành ...
 
Khóa luận Phân tích các yếu tố ảnh hưởng đến sự hài lòng của nhân viên trong ...
Khóa luận Phân tích các yếu tố ảnh hưởng đến sự hài lòng của nhân viên trong ...Khóa luận Phân tích các yếu tố ảnh hưởng đến sự hài lòng của nhân viên trong ...
Khóa luận Phân tích các yếu tố ảnh hưởng đến sự hài lòng của nhân viên trong ...
 
Khóa luận tốt nghiệp Các nhân tố ảnh hưởng đến xây dựng thương hiệu Du lịch V...
Khóa luận tốt nghiệp Các nhân tố ảnh hưởng đến xây dựng thương hiệu Du lịch V...Khóa luận tốt nghiệp Các nhân tố ảnh hưởng đến xây dựng thương hiệu Du lịch V...
Khóa luận tốt nghiệp Các nhân tố ảnh hưởng đến xây dựng thương hiệu Du lịch V...
 
Khoá luận tốt nghiệp Đại học Đánh giá công tác quản lý và bảo vệ môi trường t...
Khoá luận tốt nghiệp Đại học Đánh giá công tác quản lý và bảo vệ môi trường t...Khoá luận tốt nghiệp Đại học Đánh giá công tác quản lý và bảo vệ môi trường t...
Khoá luận tốt nghiệp Đại học Đánh giá công tác quản lý và bảo vệ môi trường t...
 

Statistics for Business and Economics.docx

  • 1. 1 CHƯƠNG 1 GIỚI THIỆU VỀ THỐNG KÊ TRONG KINH DOANH A. CÂU HỎI LÝ THUYẾT 1. Thống kê là gì? Cho ví dụ về ứng dụng thống kê trong các lĩnh vực kinh doanh (kế toán, tài chính, marketing, sản xuất,…) - Thống kê là các hoạt động liên quan đến việc thu thập, tổ chức, phân tích, và diễn tả dữ liệu để ra quyết định. Thống kê là những cách thu lấy thông tin từ dữ liệu từ đó đưa ra thành tri thức, kết quả. - Ví dụ về ứng dụng thống kê trong các lĩnh vực kinh doanh: + Kế toán: Các công ty kiểm toán có thể sử dụng các phương pháp/quy trình chọn mẫu để tiến hành kiểm toán cho khách hàng. + Tài chính: Các nhà tư vấn tài chính có thể sử dụng nhiều thông tin thống kê như tỷ lệ thu nhập/giá, lợi tức cổ tức… để hướng dẫn các khuyến nghị đầu tư + Marketing: Dữ liệu điều tra thị trường, dữ liệu bán hàng… được thu thập để thực hiện các nghiên cứu marketing + Sản xuất: Rất nhiều phương pháp kiểm soát chất lượng sử dụng các công cụ thống kê trong các quá trình sản xuất + Kinh tế: Các nhà kinh tế có thể sử dụng thông tin thống kê cho việc dự báo về nền kinh tế trong tương lai… 2. Một doanh nghiệp tiến hành điều tra về hành vi tiêu dùng của những khách hàng khác nhau với dịch vụ họ cung ứng. Kết quả thu về được một bảng dữ liệu như sau: Khách hàng Lý do sử dụng dịch vụ Điểm đánh giá về phục vụ (thang 10) Điểm đánh giá thuận tiện (thang 10) A Giá phù hợp 7 6 B Phục vụ nhanh 8 7 C Nhân viên thân thiện 7 7 D Phục vụ nhanh 8 8 Hãy cho biết đâu là phần từ, đâu là biến và đâu là quan sát trong ví dụ trên. - Phần tử: A, B, C, D, các số điểm trong bảng. - Biến: "Khách hàng", "Lý do sử dụng dịch vụ", "Điểm đánh giá về phục vụ", "Điểm đánh giá thuận tiện". - Quan sát: Các thông tin cụ thể về từng khách hàng và điểm đánh giá của họ về phục vụ và thuận tiện. 3. Trình bày các loại thang đo sử dụng trong thống kê (4 loại) - Định danh: + Dữ liệu được gắn nhãn hoặc tên để phân biệt một thuộc tính của phần tử. + Danh từ được gán số để phân biệt (mã hóa) + Cũng có thể không được gán số + Phương pháp thống kê thích hợp: Đếm và các phương pháp phi tham số (non – parameter) - Thứ bậc: + Thang đo thứ bậc là các biến có dữ liệu được thể hiện có tính hơn kém về một thuộc tính nào đó và được mã hóa theo một dãy tăng hay giảm + Dữ liệu có thể để ở định dạng ký tự (thấp, trung bình, cao) + Ví dụ: Khoảng tuổi: 20 – 30; 30 – 40; 40 – 50 được mã hóa thành 1, 2,3. - Khoảng:
  • 2. 2 + Dữ liệu có thuộc tính của dữ liệu thứ bậc (tính hơn kém) và có thuộc tính “khoảng” giữa các thứ tự chênh lệch đúng 1 đơn vị đo + Các khoảng trên thang đo là đều nhau + Dữ liệu khoảng luôn biểu hiện bằng con số + Dữ liệu khoảng có điểm gốc (điểm 0) tùy ý - Tỷ lệ + Dữ liệu cos thuộc tính của dữ liệu khoảng và tỷ lệ của hai giá trị có ý nghĩa. + Các biến về chiều cao, cân nặng, doanh thu… là các thang do tỷ lệ + Giá trị không có ý nghĩa là tại điểm 0 (zero) không tồn tại biến đó. + Ví dụ: Doanh thu của ty X là 3217 triệu đồng + Thang đo khoảng và tỷ lệ là các thang đo bằng số nên các thống kê như trung bình, độ lệch chuẩn có ý nghĩa + Có thể hoán chuyển từ thang đo khoảng, tỷ lệ thành các thang đo thứ bậc, định danh 4. Phân biệt thang đo định danh và thang đo đo thứ bậc. Sự khác nhau giữa hai loại thang đo này là gì? Cho ví dụ về mỗi loại thang đo trong thực tế - Thang đo định danh: + Đặc điểm: Dữ liệu được gắn nhãn hoặc tên để phân biệt một thuộc tính của phần tử. Có thể được mã hóa thành số hoặc không. + Ví dụ trong thực tế: Danh sách các loại sản phẩm: (Áo thun, Áo sơ mi, Quần jean). Hãng sản xuất ô tô: (Toyota, Honda, Ford). - Thang đo đo thứ bậc: + Đặc điểm: Dữ liệu có tính hơn kém về một thuộc tính cụ thể và được mã hóa theo một dãy tăng hay giảm. Dữ liệu thường được biểu diễn dưới dạng ký tự hoặc số thứ tự. + Ví dụ trong thực tế: Cấp bậc học vị: (Tiến sĩ, Thạc sĩ, Cử nhân). Kích cỡ của sản phẩm: (Nhỏ, Trung bình, Lớn). Mức độ hài lòng: (Thấp, Trung bình, Cao) được mã hóa thành 1, 2, 3. - Thang đo định danh không có thứ tự hoặc mức độ so sánh giữa các nhóm, chỉ đơn thuần phân biệt. Trong khi đó, thang đo đo thứ bậc có sự xếp hạng hoặc thứ tự định sẵn, cho phép so sánh mức độ của thuộc tính đó giữa các giá trị. - Khi áp dụng phương pháp thống kê, thang đo định danh thích hợp với các phương pháp như đếm, phân phối tần suất, trong khi thang đo đo thứ bậc thường phù hợp với các phương pháp thống kê như các phương pháp phi tham số (non-parameter) hoặc các phép tính độ lệch, trung bình để so sánh giữa các nhóm. 5. Phân biệt thang đo khoảng và thang đo tỷ lệ. Sự khác nhau giữa hai loại thang đo này là gì? Cho ví vụ về mỗi loại thang đo trong thực tế. - Thang đo khoảng: + Đặc điểm: Dữ liệu có thuộc tính thứ tự và các khoảng giữa các giá trị đo là đồng đều. Các khoảng trên thang đo là đều nhau và luôn được biểu hiện bằng con số. Dữ liệu khoảng có thể có điểm gốc (điểm 0) tùy ý. + Ví dụ trong thực tế:
  • 3. 3 Nhiệt độ (0°C, 10°C, 20°C). Thang đo điểm thi: (0 điểm, 10 điểm, 20 điểm). - Thang đo tỷ lệ: + Đặc điểm: Dữ liệu có thuộc tính khoảng và tỷ lệ giữa hai giá trị mang ý nghĩa. Các biến như chiều cao, cân nặng, doanh thu thường là các thang đo tỷ lệ. Giá trị không tồn tại hoặc không có ý nghĩa tại điểm 0 (zero). + Ví dụ trong thực tế: Cân nặng của người (50 kg, 60 kg, 70 kg). Doanh thu của một công ty: (3 triệu đồng, 5 triệu đồng, 10 triệu đồng). - Thang đo khoảng có các khoảng đo đồng đều, thường có điểm gốc (có thể là 0 hoặc không) và các giá trị có thể hiển thị bằng con số. Thang đo tỷ lệ không chỉ có các khoảng đo đồng đều mà còn có tỷ lệ ý nghĩa giữa các giá trị, và thường không có giá trị ý nghĩa tại điểm 0 (zero). - Cả hai loại thang đo này đều có thể được sử dụng để thực hiện các thống kê như trung bình, độ lệch chuẩn. Ngoài ra, có thể chuyển đổi từ thang đo khoảng hoặc tỷ lệ sang các loại thang đo khác như thang đo thứ bậc, định danh nếu cần thiết để phù hợp với phân tích dữ liệu cụ thể. 6. Phân biệt dữ liệu định tính và dữ liệu định lượng như thế nào? - Dữ liệu định tính + Dữ liệu định tính là các nhãn (label) hoặc các tên được sử dụng để xác định thuộc tính của phần tử. + Dữ liệu định tính sử dụng thang đo định danh hoặc thứ bậc (có tính phân loại mà không có/ít có tính hơn kém) + Dữ liệu định tính có thể biểu hiện ở dạng số hoặc không ở dạng số + Các phương pháp thống kê với dữ liệu định tính khá hạn chế (đếm, các phương pháp phi tham số non-parameter) - Dữ liệu định lượng + Dữ liệu định lương biểu diễn thông tin bao nhiêu, mức độ như thế nào + Dữ liệu định lường có thể đo lường ở dạng rời rạc hoặc ở dạng biến liên tục + Dữ liệu định lượng luôn luôn là ở dạng số + Các phép tính toán học có ý nghĩa với dữ liệu định lượng + Dữ liệu định lượng được đo lường bởi thang đo khoảng hoặc tỷ lệ (các thang đo số) 7. Thế nào là thống kê mô tả? Cho ví dụ - Thu thập dữ liêu Ví dụ: khảo sát, lấy từ các nguồn dữ liệu có sẵn - Tóm tắt, hình ảnh hóa và trình bày dữ liệu Ví dụ: Bảng dữ liệu, đồ thị - Phân tích dữ liệu Ví dụ: tính trung bình, độ lệch chuẩn, các tỷ lệ 8. Thế nào là thống kê suy diễn? Cho ví dụ - Ước lượng Ví dụ: Ước tính trung bình độ tuổi của dân cư thông qua lấy 1 mẫu - Kiểm định các giả thuyết Ví dụ: Kiểm định xem có sự khác biệt về tỷ lệ lợi nhuận của doanh nghiệp giữa hai ngành
  • 4. 4 9. Tổng thể là gì? Mẫu là gì? - Tổng thể là toàn bộ tập hợp các yếu tố hoặc đối tượng mà chúng ta quan tâm đến để thu thập dữ liệu và phân tích. Ví dụ về tổng thể trong kinh doanh có thể là toàn bộ dân số của một quốc gia khi chúng ta quan tâm đến thu thập thông tin về thu nhập, tuổi tác, nghề nghiệp và các yếu tố khác để hiểu về thị trường lao động. - Mẫu trong thống kê là một phần nhỏ được lựa chọn từ tổng thể mục tiêu để nghiên cứu, thu thập dữ liệu và đưa ra kết luận về tổng thể mà không cần phải khảo sát toàn bộ tổng thể. Ví dụ, nếu chúng ta muốn nghiên cứu thu nhập trung bình của dân số trong một quốc gia, chúng ta có thể chọn một mẫu gồm một số hộ gia đình đại diện để thu thập thông tin về thu nhập của họ, và từ đó đưa ra ước lượng về thu nhập trung bình của tổng thể dân số. B. CÂU HỎI VẬN DỤNG 1. Mộ khách sạn thăm dò ý kiến khách hàng về các dịch vụ giải và ăn uống. Khách hàng được yêu cầu đánh giá về sáu yếu tố: Chào mừng, dịch vụ phục vụ, thức ăn, sự hấp dẫn về thực đơn, bầu không khí và đánh giá chung. Dữ liệu được ghi lại với các yếu tố ở bốn mức: 1- tạm được, 2 - trung bình, 3 - khá; 4 - tốt, 5 - xuất sắc. a. Kết quả trả lời của khách hàng cho sáu yếu tố kia là các dữ liệu phân loại hay dữ liệu định lượng? - Dữ liệu này được coi là dữ liệu phân loại vì chúng được phân thành các nhóm hoặc danh mục không liên tục. Mỗi mức đánh giá không có mối quan hệ định lượng cụ thể với các mức đánh giá khác. b. Loại thang đo được sử dụng trong khảo sát này là thang đo gì? - Loại thang đo được sử dụng trong khảo sát này là thang đo định tính vì nó phân loại các yếu tố vào các danh mục khác nhau mà không có sự tương quan định lượng chính xác giữa chúng. Thang đo này chỉ cho biết mức độ đánh giá của khách hàng theo các danh mục được xác định trước. 2. Hãy cho biết các biến sau đây là biến định tính hay định lượng và cho biết loại thang đo của nó a. Doanh số hàng năm: Đây là biến định lượng vì nó đo lường một giá trị liên tục, trong trường hợp này là doanh số hàng năm. b. Kích cỡ các chai nước được phân loại thành ba loại chai nhỏ, trung bình và lớn: Đây là biến định tính vì nó phân loại các chai nước vào các danh mục riêng biệt (nhỏ, trung bình, lớn) mà không có mối quan hệ định lượng giữa chúng. c. Phân loại nhân viên trong doanh nghiệp theo tiêu chuẩn hoàn thành công việc: Đây cũng là biến định tính vì nó phân loại nhân viên theo tiêu chí không có sự liên tục hay mối quan hệ định lượng cụ thể. d. Lợi nhuận trên vốn sở hữu: Đây là biến định lượng vì nó đo lường một giá trị liên tục, trong trường hợp này là lợi nhuận trên vốn sở hữu. e. Phương thức thanh toán (séc, tiền mặt, thẻ tín dụng): Đây cũng là biến định tính vì nó phân loại các phương thức thanh toán vào các danh mục khác nhau mà không có mối quan hệ định lượng cụ thể giữa chúng. 3. Một nghiên cứu được tiến hành lấy mẫu số người để xét nghiệm dương tính với COVID19 với 100 người thuộc nhiều nhóm tuổi khác nhau. a. Nhà nghiên cứu lập được một bảng dữ liệu như sau: Độ tuổi Số người 21 - 30 10 31 - 40 28 41 - 50 32 51 – 60 20 > 60 10
  • 5. 5 Tổng 100 Nhà nghiên cứu đang sử dụng loại thống kê nào trong trường hợp này, thống kê mô tả hay thống kê suy diễn? - Trong trường hợp này, nhà nghiên cứu đang sử dụng thống kê mô tả để mô tả và tổng hợp dữ liệu thu thập từ mẫu. Bảng dữ liệu đang cung cấp thông tin về số người dương tính với COVID-19 ở các nhóm tuổi khác nhau, không phải là để rút ra kết luận hay đưa ra dự đoán cho tổng quần thể. b. Từ dữ liệu khảo sát này các nhà nghiên cứu tiến hành ước lượng số người trên 60 tuổi trong tổng quy mô dân số để tiến hành xây dựng phương án tiêm vaccine cho nhóm những người có nguy co cao. Hỏi nhà nghiên cứu đang sử dụng loại thông kê nào? - Tuy nhiên, khi nhà nghiên cứu dùng dữ liệu từ khảo sát này để ước lượng số người trên 60 tuổi trong tổng quần thể dân số để xây dựng phương án tiêm vaccine cho nhóm người có nguy cơ cao, họ đang sử dụng thống kê suy diễn. Thống kê suy diễn là quá trình sử dụng dữ liệu từ một mẫu nhỏ để đưa ra kết luận hoặc dự đoán về tổng thể hoặc quần thể lớn hơn. Trong trường hợp này, họ sử dụng dữ liệu từ mẫu 100 người để ước lượng số người trên 60 tuổi trong tổng quần thể dân số để xây dựng chiến lược tiêm vaccine cho nhóm người có nguy cơ cao. C. BÀI TẬP TỰ LÀM CHƯƠNG 2 THỐNG KÊ MÔ TẢ: BẢNG VÀ BIỂU ĐỒ A. CÂU HỎI LÝ THUYẾT 1. Tần số là gì? - Dữ liệu định tính + Phân phối tần số là một bảng tóm tắt dữ liệu cho biết tần số (số lượng) xuất hiện của phần tử trong mỗi nhóm không chồng lấn + Mục tiêu là cung cấp thông tin chi tiết về dữ liệu mà không thể nhanh chóng có được bằng cách xem dữ liệu thô - Dữ liệu định lượng Đối với dữ liệu định lượng phải chia nhóm/phân tổ + Sử dụng từ 5 đến 20 nhóm + Tập dữ liệu có nhiều phần tử có thể phải chia nhiều số nhóm hơn + Dữ liệu nhỏ có thể dùng ít nhóm hơn + Việc chia nhóm là chủ quan 2. Tần suất là gì? - Dữ liệu định tính + Tần suất là tỷ số hoặc tỷ lệ của phần tử thuộc về nhóm chia cho tổng số quan sát �ầ� ��ấ� = 𝑻ầ𝑻 𝑻ố 𝑻 + Phân phối tần suất là bản tóm tắt dạng bảng của một tập hợp dữ liệu dưới dạng hiển thị tần suất cho từng nhóm quan sát - Dữ liệu định lượng + Xác định độ rộng mỗi nhóm + Sử dụng độ rộng bằng nhau cho mỗi nhóm
  • 6. 6 Độ rộng mỗi nhóm (xấp xỉ ) = 𝑻𝑻á 𝑻𝑻ị 𝑻ớ𝑻 𝑻𝑻ấ𝑻 −𝑻𝑻á 𝑻𝑻ị 𝑻𝑻ỏ 𝑻𝑻ấ𝑻 𝑻ố 𝑻𝑻ó𝑻 𝑻𝑻𝑻𝑻 𝑻𝑻ố𝑻 3. Tần suất % là gì? - Dữ liệu định tính + Tần suất phần trăm là tần suất nhân với 100 + Phân phối tần suất phần tram là một bản tóm tắt dạng bảng của một hợp hợp dữ liệu hiện thị tần suất phần tram cho mỗi nhóm 4. Biểu đồ thanh là gì? So sánh sự khác nhau giữa biểu đồ thanh và biểu đồ phân phối (histogram)? - Biểu đồ thanh + Biểu đồ thanh là một dạng biểu đồ mô tả dữ liệu định tính đã được tóm tắt trong phân phối tần số, tần suất hoặc tần suất phần trămA + Trục hoành chỉ các nhãn cho mỗi nhóm/lớp + Tần số, tần suất, tần suất phần trăm biểu diễn ở trục tung + Các thanh được tách nhau ra để nhấn mạnh các nhóm/lớp là riêng biệt - Biểu đồ phân phối (histogram) + Sử dụng để biểu diễn phân phối của một biến định lượng. + Các cột dọc thể hiện tần suất xuất hiện của các khoảng giá trị (bins) của biến. + Các cột liền kề nhau và không có khoảng trống, thể hiện mức độ liên tục của dữ liệu. + Giúp hiểu rõ hơn về phân phối, hình dạng, độ biến đổi của biến. - Điểm khác biệt chính giữa chúng là biểu đồ thanh thường được sử dụng để so sánh giữa các nhóm hoặc danh mục khác nhau trong khi biểu đồ phân phối (histogram) tập trung vào việc biểu diễn phân phối của một biến định lượng. 5. Sự khác nhau giữa lập bảng phân phối tần số, tần suất và tần suất phần trăm giữa dữ liệu định tính và dữ liệu định lượng là gì? - Dữ liệu định tính: + Bảng phân phối tần số: Liệt kê các danh mục hoặc nhóm và đếm số lượng trường hợp trong mỗi danh mục hoặc nhóm. + Tần suất: Là số lượng trường hợp của mỗi danh mục hoặc nhóm, được thể hiện dưới dạng số lượng. + Tần suất phần trăm: Là phần trăm của số lượng trường hợp của mỗi danh mục hoặc nhóm so với tổng số trường hợp. Công thức tính tần suất phần trăm: (Số lượng trường hợp của mỗi danh mục hoặc nhóm / Tổng số trường hợp) x 100%. - Dữ liệu định lượng: + Bảng phân phối tần số: Chia dữ liệu thành các khoảng (bins) và đếm số lượng trường hợp rơi vào từng khoảng. + Tần suất: Là số lượng trường hợp rơi vào từng khoảng (bins) của biến định lượng. + Tần suất phần trăm: Tương tự như dữ liệu định tính, là phần trăm của số lượng trường hợp rơi vào từng khoảng so với tổng số trường hợp. - Sự khác nhau chính ở đây là cách chia và xử lý dữ liệu: dữ liệu định tính thường liên quan đến các danh mục hoặc nhóm, trong khi dữ liệu định lượng liên quan đến các giá trị liên tục và thường phải được chia thành các khoảng để tạo ra bảng phân phối tần số và tần suất B. CÂU HỎI VẬN DỤNG C. BÀI TẬP TỰ LÀM 1. Hãy trình bày kết quả hai số cuối của các giải trong cơ cấu giải thưởng của Công ty sổ xố kiến thiết miền Bắc bằng biểu đồ thân – lá
  • 7. 7 2. Một doanh nghiệp khảo sát khách hàng của họ về mức độ hài lòng của khách với dịch vụ của doanh nghiệp. Kết quả sau khi khảo sát 100 khách hàng thu được một file dữ liệu được mô tả như sau: (bảng tóm tắt) Khác hàng Giới tính Tuổi Học vấn Nghề nghiệp Mức độ hài lòng A Nam 20 PTTH Sinh viên 5 B Nam 32 Đại học Văn phòng 4 C Nữ 19 THCS Công nhân 3 D Nữ 35 Cao đẳng Văn phòng 2 E Nam 45 Thạc sỹ (cao học) Công chức/viên chức 3 Ghi chú: Hài lòng có 5 mức, 1 rất không hài lòng, 2 không hài lòng, 3 bình thường, 4 hài lòng; 5 rất hài lòng 3. Trong file dữ liệu có tên Mo_ta_bang_bieudo.xls trình bày một dữ liệu điều tra khách hàng. Trong đó biến “Age” là tuổi thật của khách hàng, biến “Edu” là trình độ học vấn của khách hàng và “SAT” là mức độ hài lòng của khách hàng. a. Nhà quản lý muốn nhân viên phòng Kinh doanh cung cấp một bảng tóm tắt thông tin về tuổi khách hàng theo 3 nhóm (trẻ 20 – 35; trung niên 35 – 50; già > 50); học vấn (đại học, cao đẳng, THPT) và mức độ hài lòng theo hai mức (hài lòng < = 3; > 3 hài lòng). Vậy loại bảng thông tin nào thích hợp và hãy lập các bảng đó?
  • 8. 8 b. Nhà quản lý muốn trình bày bằng biểu đồ thì biểu đồ nào là thích hợp? - Biểu đồ cột (Column chart) hoặc Biểu đồ cột dọc (Vertical bar chart): + Biểu đồ cột thích hợp để trình bày tần suất của các nhóm tuổi, trình độ học vấn và mức độ hài lòng. + Mỗi cột biểu diễn tỷ lệ phần trăm của từng nhóm trong biến cần phân loại. - Biểu đồ đường (Line chart): + Biểu đồ đường có thể sử dụng để thể hiện xu hướng hoặc biến đổi của các nhóm theo tuổi, trình độ học vấn và mức độ hài lòng theo thời gian nếu có sự thay đổi qua các khoảng thời gian khác nhau. CHƯƠNG 3 THỐNG KÊ MÔ TẢ: CÁC ĐẠI LƯỢNG SỐ A. CÂU HỎI LÝ THUYẾT 1. Trình bày các khái niệm trung bình, trung vị và mode? Viết các công thức tính tương ứng - Trung bình + Trung bình của một tập dữ liệu là giá trị bình quân của tất cả các dữ liệu + Nếu dữ liệu từ một mẫu, giá trị trung bình được tính bằng công thức: x ̅ = ∑𝑻𝑻 𝑻 + Nếu dữ liệu của tổng thể, giá trị trung bình được kí thiệu là m (mu) và được tính theo công thức: μ= ∑𝑻𝑻 𝑻 + Trung bình khá nhạy cảm với các giá trị lớn bất thường - Trung vị + Trung vị của dữ liệu là giá trị của dữ liệu chính giữa sắp xếp theo chiều tăng (hoặc giảm) dần + Trung vị bằng giá trị ở quan sát chính giữa khi dãy dữ liệu có số lẻ lần quan sát + Trung bình bằng bình quan hai giá trị ở giữa nếu dữ liệu có số chẵn lần quan sát - Mode + Mode là giá trị dữ liệu xuất hiện nhiều lần nhất (tần số lớn nhất) trong dãy dữ liệu. + Có thể có nhiều giá trị mode + Nếu dữ liệu có hai giá trị mode gọi là dữ liệu 2 mode + Nếu dữ liệu có nhiều hơn hai giá trị mode gọi là dữ liệu đa mode 2. Trình bày các khái niệm phân vị (bách phân vị), tứ phân vị và khoảng trải giữa? - Phân vị + Phân vị thứ p của dữ liệu là giá trị mà ở đó có ít nhất p phần trăm các quan sát có giá trị nhỏ hơn hoặc bằng giá trị này và có ít nhất (100 –p) phần trăm các quan sát có giá trị lớn hơn hoặc bằng giá trị này + Nếu dữ liệu sắp xếp theo thứ tự tăng dần dần (B1) + Tính chỉ số i i = (p/100)n
  • 9. 9 + Nếu i không phải số nguyên thì làm tròn. Phân vị thứ p là giá trị tiếp theo của i + Nếu i là số nguyên, hân vị p là trung bình của giá trị ở vị trí i và i +1 - Tứ phân vị + Tứ phân vị là đặc biệt của phân vị + Phân vị thứ nhất (phân vị thứ 25) + Phân vị thứ hai (phân vị thứ 50) = trung vị + Phân vị thứ ba (phân vị thứ 75) - Khoảng trải giữa + Khoảng trải giữa (interquartile range - IQR) là một khái niệm quan trọng trong thống kê, đặc biệt trong phân tích dữ liệu và đo lường sự biến đổi của dữ liệu. + Để tính Q1 và Q3 cần sắp xếp data theo thứ tự tăng dần, sau đó xác định vị trí trong tập Q1= 𝑻+ 𝑻 𝑻 (n là slg quan sát) Q3= 𝑻(𝑻+ 𝑻) 𝑻 Khoảng giữa Q3 vàQ1 chính là khoảng trải giữa (IQR). Tứ phân vị thứ nhất (Q1) đại diện cho 25% dữ liệu nhỏ hơn nó, tứ phân vị thứ ba (Q3) đại diện cho 75% dữ liệu nhỏ hơn nó. IQR=Q3−Q1 3. Trình bày định nghĩa phương sai, độ lệch chuẩn và các công thức tính cho một mẫu cụ thể - Phương sai + Phương sai là đại lượng đo lường độ phân tán (thay đổi) của toàn bộ dữ liệu + Phương sai phản ánh sự khác biệt giữa các giá trị quan sát được so với giá trị trung bình + Công thức tính phương sai cho mẫu . Khi có 2 mẫu x và y 𝑻𝑻 = ∑( 𝑻𝑻− 𝑻)𝑻 𝑻− 𝑻 + Công thức tính phương sai cho tổng thể Chỉ có 1 x 𝜎𝑻 = ∑( 𝑻𝑻 − 𝑻)𝑻 𝑻 + Khi mẫu tăng lên rất lớn thì công tức 1 và 2 không có sự khác biệt về kết quả - Độ lệch chuẩn + Độ lệch chuẩn là căn bậc 2 của phương sai + Độ lệch chuẩn sử dụng đơn vị đo như đơn vị đo của dữ liệu nên dễ dàng hơn trong việc so sánh + Nếu dữ liệu của một mẫu thì có độ lệch chuẩn mẫu s. 𝑠 = √𝑠2 + Nếu là dữ liệu tổng thể có độ lệch chuẩn tổng thể (sigma). 𝜎 = √𝑠2 - Hệ số biến thiên + Hệ số biến thiên cho biết độ lớn của độ lệch chuẩn so với giá trị trung bình + Nếu dữ liệu của mẫu, hệ số biến thiên được tính theo công thức:
  • 10. 10 𝑠 𝑠 𝑠 100 + Nếu dữ liệu của tổng thể, hệ số biến thiên tính theo công 𝜎 𝜇 𝑠 100 4. Trình bày khái niệm hiệp phương sai, hệ số tương quan và ý nghĩa của chúng. - Hiệp phương sai + Hiệp phương sai đo lường hướng và mức độ biến đổi đồng thời của hai biến. Nó cho biết cùng chiều hoặc ngược chiều của sự biến đổi của hai biến. Nếu hiệp phương sai dương, hai biến có xu hướng biến đổi cùng chiều; nếu hiệp phương sai âm, hai biến có xu hướng biến đổi ngược chiều. Tuy nhiên, hiệp phương sai không chuẩn hóa, nên nó không phản ánh mức độ tương quan giữa hai biến một cách chuẩn xác. + Nếu là dữ liệu mẫu, hiệp phương sai được ký sxy 𝑻𝑻𝑻 = ∑(𝑻𝑻 − 𝑻)(𝑻𝑻 − 𝑻) 𝑻 − 𝑻 + Dữ liệu tổng thể hiệp phương sai được ký hiệu và có công thức tính 𝑠𝑠𝑠 = ∑(𝑻𝑻 − 𝑻𝑻)(𝑻𝑻 − 𝑻𝑻) 𝑠 - Hệ số tương quan + Hệ số tương quan chuẩn hóa từ hiệp phương sai. Nó cho biết mức độ và hướng của mối quan hệ tuyến tính giữa hai biến. Hệ số tương quan Pearson nằm trong khoảng từ -1 đến 1: ● Khi gần 1: Mối quan hệ tương quan dương mạnh, tức là khi một biến tăng thì biến òn lại cũng tăng theo cùng một hướng. ● Khi gần -1: Mối quan hệ tương quan âm mạnh, tức là khi một biến tăng thì biến còn lại giảm theo cùng một hướng. ● Khi gần 0: Không có mối quan hệ tuyến tính mạnh giữa hai biến. + Hệ số tương quan cũng thể hiện mức độ mà một biến có thể được dự đoán từ biến còn lại. Nó giúp định lượng mức độ tương quan tuyến tính giữa các biến và hỗ trợ trong việc dự đoán hoặc giải thích mô hình trong phân tích thống kê. + Với dữ liệu mẫu rxy 𝑻𝑻𝑻 = 𝑻𝑻𝑻 𝑻𝑻𝑻𝑻 + Với dữ liệu tổng thể 𝜌𝑻𝑻 = 𝑻𝑻𝑻 𝑻𝑻𝑻𝑻 B. CÂU HỎI VẬN DỤNG 1. Một doanh nghiệp sản xuất muốn đánh giá mức độ ổn định của quy trình sản xuất thông qua kết quả đầu ra của quá trình sản xuất là độ dài của các sản phẩm. Chủ doanh nghiệp không biết sử dụng chỉ tiêu nào để đánh giá mức độ ổn định này? Hay tư vấn một tham số thống kê thích hợp để đánh giá mức độ ổn định của quy trình này. - Độ biến động chuẩn (Standard Deviation):
  • 11. 11 + Đây là một tham số thống kê đo lường mức độ phân tán hoặc biến động của các giá trị trong một tập dữ liệu. + Standard deviation cho biết độ lệch chuẩn của các giá trị so với giá trị trung bình. + Nếu standard deviation lớn, điều này cho thấy rằng các giá trị trong dữ liệu có xu hướng phân tán rộng hơn so với giá trị trung bình. Ngược lại, nếu standard deviation nhỏ, dữ liệu có xu hướng gần giá trị trung bình hơn và ít biến động hơn. + Khi áp dụng vào đánh giá mức độ ổn định của quy trình sản xuất dựa trên độ dài của các sản phẩm, việc sử dụng độ biến động chuẩn sẽ giúp xác định mức độ đồng đều trong sản xuất. Nếu standard deviation lớn, điều này có thể cho thấy rằng quy trình sản xuất không ổn định, sản phẩm có độ dài biến động lớn. Ngược lại, nếu standard deviation nhỏ, quy trình sản xuất có thể được xem xét là ổn định hơn với sự đồng đều trong việc tạo ra sản phẩm có độ dài gần nhau. 2. Có hai lớp học có điểm kiểm tra hết học kỳ có điểm trung bình của các học sinh là như nhau và đều là 6.5 điểm qua các môn thi. Tuy nhiên, độ lệch chuẩn điểm thi của lớp thứ nhất là 1.5 và lớp thứ 2 là 2.5. Bình luận gì về kết quả này? - Kết quả này cho thấy mặc dù cả hai lớp học có điểm trung bình giống nhau và đều là 6.5 điểm qua các môn thi, tuy nhiên, độ lệch chuẩn của điểm thi ở hai lớp là khác nhau. + Lớp học có độ lệch chuẩn lớn hơn (độ lệch chuẩn 2.5) cho thấy sự biến động trong điểm thi của học sinh trong lớp này lớn hơn so với lớp có độ lệch chuẩn thấp hơn (độ lệch chuẩn 1.5). Điều này có nghĩa là độ biến động của điểm số giữa các học sinh trong lớp học thứ hai cao hơn so với lớp học thứ nhất. + Mặc dù cả hai lớp có cùng điểm trung bình, độ biến động lớn hơn trong lớp học thứ hai có thể cho thấy sự không đồng đều hơn trong việc điểm thi của học sinh. Trong khi lớp học thứ nhất có độ lệch chuẩn thấp hơn, điều này có thể chỉ ra rằng điểm số của học sinh trong lớp này gần nhau hơn, ít biến động hơn so với lớp học thứ hai. C. BÀI TẬP TỰ LÀM 1. Theo điều tra tiêu dùng hàng năm chi tiêu cho thẻ tín dụng của ngân hàng X hàng tháng là 1838 đô la. Một mẫu về chi tiêu qua thẻ tín dụng cho bởi bảng sau: 236 1710 1351 825 7450 316 4135 1333 1584 387 991 3396 170 1428 1668 a. Tính trung bình và trung vị *Trung bình = 𝑻ổ𝑻𝑻 𝑻á𝑻 𝑻𝑻𝑻𝑻 𝑻ố 𝑻𝑻 𝑻𝑻𝑻𝑻 𝑻á𝑻 = 26980 15 = 1798,667 * Trung vị - Sắp xếp dãy số: 170, 236, 316, 387, 825, 991, 1333, 1351, 1428, 1584, 1668, 1710, 3396, 4135, 7450. - Vì có 15 giá trị ( số lẻ) nên trung vị sẽ là giá trị ở vị trí thứ 8) là 1351 b. Tính tứ phân vị thứ nhất và tứ phân vị thứ ba * Q1= (15+1)/4= 4 => 387 * Q2= 3(15+1)/4= 12 => 1710 c. Tính phương sai và độ lệch chuẩn
  • 12. 12 *Phương sai = 𝑻 (𝑻á𝑻 𝑻𝑻𝑻𝑻 − 𝑻𝑻𝑻𝑻𝑻 𝑻ì𝑻𝑻)𝑻 𝑻𝑻𝑻 𝑻á𝑻 𝑻𝑻𝑻𝑻 = 3430831,356 15 = 228722,1 * Đlc = √𝑻𝑻ươ𝑻𝑻 𝑻𝑻𝑻 = √228722,1 =478,248 d. Dữ liệu có chứa giá trị bất thường không Dữ liệu có các giá trị rải rác từ 170 đến 7450. Giá trị trung bình, trung vị, tứ phân vị tương đối gần nhau. Phương sai và độ lệch chuẩn khá cao, cho thấy sự biến động lớn trong dữ liệu. Dựa trên thông tin này, dữ liệu có sự biến động lớn, có giá trị lớn và nhỏ không thường xuyên. Tuy nhiên, không có dấu hiệu rõ ràng của bất thường đặc biệt trong dữ liệu, vì các thông số thống kê như trung bình, trung vị, tứ phân vị vẫn nằm trong một phạm vi tương đối hợp lý. Tuy nhiên, nếu dữ liệu này được sử dụng cho mục đích cụ thể, việc kiểm tra kỹ lưỡng hơn về tính hợp lý và nguồn gốc của các giá trị cực lớn hoặc cực nhỏ có thể cần thiết. 2. Một doanh nghiệp sản xuất thép, thống kê 100 thanh thép sản xuất được một bảng như sau: Chiều dài thanh thép (cm) Số thanh thép 101 - 105 20 106 - 110 32 111 - 115 38 116 – 120 18 121 - 125 12 a. Tính chiều dài trung bình của thanh thép Chiều dài tb= 𝛴 (𝑻𝑻𝑻ề𝑻 𝑻à𝑻 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻 𝑻 𝑻ố 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻) 𝑻ổ𝑻𝑻 𝑻ố 𝑻𝑻𝑻𝑻𝑻 𝑻𝑻é𝑻
  • 13. 13 b. Tính phương sai, độ lệch chuẩn của thành thép 3. Một doanh nghiệp theo dõi số tiền chi cho quảng cáo sản phẩm và doanh thu sản phẩm cho bởi bảng sau: Chi phí quảng cáo (trđ) Doanh thu bán hàng (trđ) 20 120 22 131 21 128 28 156 32 170 38 190
  • 14. 14 a. Vẽ đồ thị biểu diễn mối quan hệ giữa chi phí quảng cáo – doanh thu b. Tính hệ số tương quan giữa chi phí quảng cáo và doanh thu bán hàng => Nếu hệ số tương quan giữa chi phí quảng cáo và doanh thu bán hàng bằng 1, điều này thường được hiểu như một mối quan hệ tuyến tính hoàn toàn tích cực và hoàn hảo giữa hai biến. CHƯƠNG 4 CÁC HÀM PHÂN PHỐI XÁC SUẤT PHỔ BIẾN A. CÂU HỎI LÝ THUYẾT 1. Trình bày các đặc điểm của một phép thử nhị thức? - Gồm một dãy n phép thử giống nhau - Kết quả của phép thử nhận 2 giá trị (thành công hoặc thất bại, trúng – trượt) - Xác suất thành công ký hiệu là p, không thay đổi từ phép thử này sang phép thử khác - Các phép thử là độc lập với nhau Ví dụ: Một người chơi số đề ghi mỗi ngày một số đề - Hàm phân phối xác suất nhị thức được cho bởi công thức f(x) = Xác suất thành công x lần trong n phép thử n = số phép thử p = Xác suất thành công cho một lần thử - Kỳ vọng toán E(x) = = np - Phương sai Var(x) = 2 = np(1 - p) - Độ lệch chuẩn
  • 15. 15 Vd: Công ty X lo ngại về khả năng nghỉ việc của nhân viên. Dựa trên kinh nghiệm các nhà quản lý thấy rằng có khoảng 10% nhân viên sẽ nghỉ việc sau khi được tuyển 1 năm. Chọn ngẫu nhiên 3 nhân viên mới tuyển, xác suất để một người rời khỏi công ty là bao nhiêu sau 1 năm. p = .10, n = 3, x = 1 = (3)(0.1)(0.81) = .243 •Kỳ vọng toán E(x) = m = 3(.1) = .3 •Phương sai Var(x) = s 2 = 3(.1)(.9) = .27 •Độ lệch chuẩn 2. Trình bày các đặc điểm của một phép thử Poisson? - Đối với hai khoảng có độ dài bằng nhau thì xác suất xảy ra là như nhau. - Việc xuất hiện hay không xuất hiện ở khoảng này độc lập với việc xuất hiện hay không xuất hiện ở khoảng khác. Ví dụ: Số lần hỏng xe trên mỗi 1000 km Vd: Một chốt kiểm tra trong đợt dịch COVID 19 tại Hà Nội quan sát thấy lưu lượng lưu thông qua chốt trong mỗi giờ là gần như nhau và khoảng 10 xe trong mỗi giờ. Tính xác suất chốt đó kiểm tra 5 xe trong khoảng thời gian 1 giờ. 𝜇 = 10 x = 5 f(x =5)= 105 𝑠−10 5! =0.0378 3. Trình bày đặc điểm của một phân phối chuẩn, chuẩn hóa * Phân phối chuẩn - Đặc điểm của hàm phân phối chuẩn + Hàm phân phối chuẩn được mô tả bằng một hình chuông đều + Hai tham số, m (trung bình) và s (độ lệch chuẩn), xác định vị trí và hình dáng của phân phối. + Điểm cao nhất của đường phân phối chuẩn là trung bình nó cũng đồng thời là trung vị và mode (lý thuyết). + Giá trị trung bình có thể là bất kỳ con số nào: âm, bằng không hay dương
  • 16. 16 - Đặc điểm của phân phối chuẩn + Đường cong phân phối chuẩn được xem là đối xứng + Độ lệch chuẩn xác định độ rộng của đường cong + Tổng diện tích dưới đường cong là 1 (.5 về bên trái của giá trị trung bình và và .5 về bên phải của giá trị trung bình). + Xác suất của các biến ngẫu nhiên thông thường được tính bằng diện tích của vùng dưới đường cong. - % của những giá trị tích lũy thường gặp + 68% giá trị nằm trong khoảng +/- 1SD + 95% giá trị nằm trong khoảng +/- 2SD + 99.7% nằm trong vùng +/- 3SD - Hàm mật độ phân phối xác suất được xác định bằng công thức 𝜇 = trung bình, 𝜎 = độ lệch chuẩn * Phân phối chuẩn hóa - Một biến ngẫu nhiên tuân theo luật phân phối chuẩn có trung bình bằng 0 và độ lệch chuẩn bằng một thì được gọi là một phân phối chuẩn hóa - Công thức để chuyển từ phân phối chuẩn sang phân phối chuẩn hóa - Hàm mật độ xác suất của phân phối chuẩn hóa �(�)= 𝑻 √𝑻𝑻 𝑻 −𝑻𝑻 𝑻 * Ứng dụng của pp chuẩn và pp chuẩn hóa - Tính được xác suất xảy ra trong một khoảng nào đó khi biết trung bình và độ lệch chuẩn - Dễ dàng tra bảng xác suất chuẩn hóa khi hoán chuyển từ một phân phối chuẩn sáng phân phối chuẩn hóa - Các biến tự nhiên, kinh tế, xã hội thường có phân phối chuẩn. Ví dụ: chiều cao, cân nặng, tuổi thọ, điểm số học sinh…. - Các hàm phân phối xác suất tích lũy có dạng - P(a<x<b) = ∫ 𝑠 𝑠 𝑠(𝑠)𝑠𝑠 với các f(x) là các hàm mật độ phân phối xác suất Vd: Một doanh nghiệp bán xăng với lượng xăng trung bình bán ra là 16 nghìn lit mỗi tháng và độ lệch chuẩn là 6 nghìn lit. Doanh nghiệp cần điều chỉnh giá khi số lượng bán ra lớn hơn 20 nghìn lít. Tính xác suất phải điều chỉnh giá. Hoán chuyển về hàm chuẩn hóa z = (x -𝜇 )/𝜎 = (20 - 15)/6 = .83 Tra bảng phân phối chuẩn hóa cho thấy ở giá trị z = 0.85 là 0.2976. Dễ dàng tính được xác suất phải thay đổi giá p(x> 20) = 0.5 – 0.2976 = 0.2033
  • 17. 17 4. Trình bày dặc điểm của phân phối mũ - Hàm phân phối mũ với x > 0, 𝜇 > 0 𝜇 = trung bình e = 2.71828 - Hàm phân phối xác suất tích lũy x0 = một giá trị cụ thể của x Vd: Một bến xe theo dõi số lượng xe vào bến trong ngày và nhận thấy số xe vào bến rất cao vào một thời điểm và giảm dần suốt thời gian còn lại trong ngày. Thời gian trung bình giữa các xe vào bến ghi nhận là 3 phút. Bến xe muốn biết xác suất để thời gian giữa hai lần liên tiếp là 2 phút hoặc ít hơn. P(x < 2) = 1 - 2.71828-2/3 = 1 - .5134 = .4866 B. CÂU HỎI VẬN DỤNG 1. Một máy đóng chai nước ngọt có ga có công suất đóng được 1000 chai/giờ. Tỷ lệ đóng hỏng cho mỗi lần là 0.001. Theo bạn xác suất đóng hỏng số chai trong mỗi giờ của máy này tuân theo luận phân phối gì? Tại sao? Tỷ lệ đóng hỏng cho mỗi lần (p) là 0.001, và số lần đóng hỏng trong mỗi giờ của máy được mô tả bởi một phân phối xác suất nhị thức (binomial distribution). Một biến ngẫu nhiên tuân theo phân phối nhị thức nếu các điều kiện sau được đáp ứng: - Mỗi thử nghiệm chỉ có hai kết quả có thể xảy ra (đóng thành công hoặc đóng hỏng). - Xác suất thành công p là cố định và không thay đổi qua mỗi lần thử nghiệm. - Các thử nghiệm độc lập với nhau. Trong trường hợp này, mỗi lần máy đóng chai nước ngọt thì có hai kết quả: thành công (đóng được chai) hoặc thất bại (đóng hỏng). Xác suất thành công p là 0.001, và xác suất thất bại q (không đóng hỏng) là 1−p. Số chai đóng hỏng trong mỗi giờ có thể được mô tả bởi biến ngẫu nhiên X theo phân phối nhị thức với các tham số n (số lần thử nghiệm) và p (xác suất thành công trong mỗi lần thử nghiệm). Trong trường hợp này, n là số lượng chai đóng trong mỗi giờ (1000 chai/giờ) và p là xác suất đóng hỏng (0.001). = 1000 0(1000−0) ∗ 0,0010 ∗ (1 − 0,001)(1000−0) = 1* 1* 0,9991000 = 0,37 C. BÀI TẬP TỰ LÀM 1. Trong kết quả xổ số kiến thiết miền Bắc có duy nhất một giải đặc biệt. Các nhà cái cờ bạc sử dụng hai số cuối của kết quả này để xác định kết quả trúng thưởng của những người chơi trong ngày. Một sinh viên Trường Đại học Phenikaa thử vận may của mình trong 10 ngày bằng cách mỗi ngày ghi một số với chi phí bỏ ra hàng ngày là 10.000 đồng. Nếu kết quả trúng sinh viên này được 700.000, trượt anh ta mất không chi phí bỏ ra.
  • 18. 18 a. Đây là phép thủ xác suất nào? Giải thích? Đây là phép thử xác suất nhị thức (binomial probability). Phép thử này có hai kết quả rời rạc: trúng hoặc không trúng (thua). Mỗi lần chơi độc lập với nhau và có xác suất thành công (trúng) là p và xác suất thất bại (không trúng) là q = 1 - p. b. Tính xác suất này trúng 2 trong 10 lần chơi như vậy? c. Tính số tiền sinh viên trung bình lãi hoặc lỗ trong 10 lần chơi như vậy? 2. Một trò chơi may rủi được thiết kế có 27 con số có hai chữ số (từ 00 đến 99) được quay lần lượt và ghi lại kết quả. Người chơi bỏ ra 23.000 VNĐ để chơi bằng cách chọn một số có hai chữ số bất kỳ mà họ thích trước khi quay kết quả. Với mỗi kết quả xuất hiện trùng với con số đã chọn người chơi sẽ được nhận một phần thưởng là 80.000VNĐ (kết quả về hai lần được 160.000). a. Tính xác suất người chơi trúng một kết quả Để tính xác suất người chơi trúng một kết quả, ta sử dụng tỉ lệ số cách chọn một số mong muốn chia cho tổng số cách chọn từ 00 đến 99. Có tổng cộng 100 số (00 đến 99), nên xác suất trúng một kết quả là: P( trúng 1 lần) = 1/100= 0,01 b. Tính xác suất người chơi trúng hai kết quả Để tính xác suất người chơi trúng hai kết quả, ta sử dụng tỉ lệ số cách chọn hai số mong muốn chia cho tổng số cách chọn từ 00 đến 99. Có (27/2) cách chọn hai số khác nhau từ 27 số có sẵn. Vậy xác suất trúng hai kết quả là: P (trúng 2 lần) = ( 27! 2!∗(27−2)! ) 100∗99 = 39 1100 c. Tính số tiền trung bình lãi hoặc lỗ với người chơi này với giả định ban đầu chi phí bỏ ra là 23.000VNĐ. Với giả định ban đầu chi phí bỏ ra là 23,000 VND và xác suất trúng một kết quả là 1 100 Lãi hoặc lỗ = ( Xs trúng * Số tiền trúng) - ( Xs trượt * cp bỏ ra) = ( 1 100 * 160.000 ) - ( 99 100 * 23.000 ) = -21.170 Vậy người chơi, trung bình, sẽ gánh lỗ trung bình là 21.170 VND sau mỗi lượt chơi. 3. Cục thống kê Lao động tại Mỹ báo cáo rằng trung bình chi phí hàng năm về thực phẩm và đồ uống cho các gia đình Mỹ là 5.700 đô la. Giả sử chi tiêu cho đồ uống và thực phẩm là phân phối chuẩn có độ lệch chuẩn là 1.500 đô la. a. 10% các gia đình có chi tiêu hàng năm cho thực phẩm và đồ uống nhấp nhất sẽ chi tiêu trong khoảng bao nhiêu? Tra bảng t Table Cl 90% = Z 1,65 1,65 = 𝑠 − 5700 1500 X = 8175
  • 19. 19 b. Có bao nhiêu % gia đình chi tiêu nhiều hơn 7.000 đô la mỗi năm cho thực phẩm và đồ uống? Z= 7000 − 5700 1500 = 0,87 c. 5% số hộ gia đình có chi tiêu hàng năm cho thực phẩm và đồ uống cao nhất sẽ chi tiêu trong khoảng bao nhiêu. 1,96= 𝑠 − 5700 1500 X = 8640 4. Một doanh nghiệp ngành may sản xuất áo sơ mi cho nam cần phân bổ tỷ lệ sản xuất theo các cỡ áo khác nhau từ XS đến XXL. Kinh nghiệm của doanh nghiệp cho thấy cỡ áo có liên quan đến chiều cao của khách hàng và các gợi ý chọn cỡ áo theo chiều cao như sau:. Cỡ áo Chiều cao tương ứng (cm) XS < 150 S 150 - 160 M 160 - 170 L 170 - 175 XL 175 - 185 XXL > 180 Theo điều tra dân số cho thấy chiều cao trung bình của nam giới trưởng thành là 165cm và độ lệch chuẩn là 5 cm. Giả sử chiều cao của nam giới tuân theo luật phân phối chuẩn. 𝜇 = 165, 𝜎 = 5 z = 𝑠− 𝑠 𝑠 a. Tính tỷ lệ % nam giới trưởng thành có chiều cao thấp hơn 150cm z= (150- 165)/ 5 = -3 Tra bảng Z-score => p (z < 150) = f(-3) = 0,13 b. Tính tỷ lệ % nam giới trưởng thành có chiều cao lớn hơn 180 cm z= (180- 165)/ 5 = 3 p (z > 3) = f(3) = 0,9987 p (z >3) = (1- f(3)) = 1- 0,9987= 0,13 c. Doanh nghiệp cần phân bổ cơ cấu sản phẩm theo kích cỡ như thế nào để tối ưu với nhu cầu thị trường. Để tối ưu hóa cơ cấu sản phẩm theo kích cỡ và nhu cầu thị trường, doanh nghiệp có thể xem xét phân bổ sản phẩm dựa trên phân phối chiều cao trong dân số nam giới. Với thông tin về xác suất của các khoảng chiều cao, doanh nghiệp có thể cân nhắc phân bổ sản phẩm sao cho phù hợp với tỷ lệ phân phối chiều cao trong dân số để đáp ứng nhu cầu thị trường một cách tối ưu.
  • 20. 20 Điều này có thể bao gồm sản xuất số lượng áo sơ mi lớn nhất ở các kích cỡ phổ biến (ví dụ như M, L, XL) nhưng cũng không nên bỏ qua các kích cỡ khác để đảm bảo sự đa dạng và đáp ứng nhu cầu đa dạng của khách hàng. 5. Công ty sản xuất máy lọc không khí có thời gian sử dụng trung bình là 36.500 giờ và độ lệch chuẩn là 5000 giờ. Dữ liệu quá khứ cho thấy phân phối về thời gian sử dụng của máy tuân theo luật phân phối chuẩn. 𝜇 = 36500, 𝜎 = 5000 z = 𝑠− 𝑠 𝑠 a. Có bao nhiêu % số máy có độ bền trên 40.000 giờ? p (x > 40.000) z= (40000- 36500)/ 5000 = 0,7 p (z > 40.000) = f(0,7) = 0,7580 p (z >40.000) = 1- f(0,7) = 1- 0,7580= 0,242 = 24,2% b. Có bao nhiêu % số máy có độ bền dưới 30.000 giờ p (x< 30000) z= (30000- 36500)/ 5000 = -1,3 Tra bảng Z-score => 96,8% c. Công ty cần thực hiện chính sách bảo hành cho những sản phẩm này. Giả sử công ty không muốn có quá 10% sản phẩm được bảo hành thì ngưỡng thời gian chấp nhận cho bảo hành nhiều nhất là bao nhiêu -1,28 = 𝑠− 36500 5000 X= 30100 6. Một doanh nghiệp sản xuất xác định xác suất của sản phẩm lỗi và số lỗi sản phẩm kỳ vọng trong một quá trình sản xuất. Giả sử một quá trình sản xuất ra các mặt hàng có trọng lượng trung bình là 10 gr. Tính xác suất của sản phẩm lỗi và số sản phẩm lỗi của một dây chuyền sản xuất có công suất là 10.000 sản phẩm trong các trường hợp. 𝜇 = 10 a. Độ lệch chuẩn của quá trình sản xuất là 0.15, và sản phẩm không sai lệch quá 1 lần độ lệch chuẩn so với trung bình là đạt yêu cầu. Những sản phẩm khác không đạt yêu cầu. 𝜎 = 0,15 Đầu tiên, chúng ta cần xác định giá trị trung bình của quá trình sản xuất. Vì độ lệch chuẩn là 0,15 và dung sai chấp nhận được là 1 độ lệch chuẩn so với giá trị trung bình, nên giá trị trung bình là: 𝜇 = 10 gr (trọng lượng trung bình) ± 1 × 0,15 gr trung bình = (10 - 0,15) đến (10 + 0,15) trung bình = 9,85 đến 10,15 gr P (X < 9,85) hoặc (X> 10,15)
  • 21. 21 b. Thông qua quá trình cải tiến sản phẩm độ lệch chuẩn của quá trình sản xuất giảm còn 0.05. Giả sử tiêu chuẩn sản phẩm chấp nhận vẫn giữ nguyên. 7. Tại thành phố Hồ Chí Minh do tình hình dịch COVID19 kéo dài, nhiều người lao động mất việc làm không có thu nhập. Chính quyền thành phố dự tính cung cấp một gói hỗ trợ an sinh xã hội cho những người co thu nhập thấp. Theo đề xuất chính sách những người lao động có thu nhập dưới 5trđ/tháng sẽ nhận được trợ cấp theo hai mức. Người lao động nhận được hỗ trợ 2tr/tháng nếu thuộc có thu nhập trung bình là từ 3 đến 5 triệu và 2.5 triệu đồng nếu có thu nhập dưới 3tr. Biết rằng thu nhập trung bình của thành phố là 11tr/tháng và độ lệch chuẩn là 3.5 tr/tháng. Giả sử thu nhập của người dân tuân theo luật phân phối chuẩn, quy mô lao động của thành phố là 6.000.000 lao động. 𝜇 = 11 , 𝜎 = 3,5 a. Ước lượng số người lao động dự kiến được nhận trợ cấp 2.5 triệu P( X <3) Z= 2,5− 11 3,5 = -2,43 b. Tỷ lệ số người lao động dự kiến nhận được trợ cấp 2 triệu P (3< X<5) c. Tính quỹ dự phòng hỗ trợ an sinh mà thành phố cần chuẩn bị để thực hiện gói an sinh này? CHƯƠNG 6 ƯỚC LƯỢNG KHOẢNG 1. Một nhà hàng đang xem xét chính sách ưu đãi cho những khách hàng thường xuyên. Quyết định về mức độ ưu đãi dựa trên mức chi tiêu của thực khách so với mức chi phí trung bình các bữa ăn. Một mẫu thu thập thông tin từ 49 khách hàng cho thấy, chi tiêu trung bình của họ là 25 đô la/bữa ăn và độ lệch chuẩn là 5 đô là. a. Ước lượng khoảng tin cậy của chi phí trung bình của thực khách với hệ số tin cậy 95% b. Giả sử chủ nhà hàng không muốn sai số lấy mẫu với giá trị trung bình không vượt quá 2 đô la thì cỡ mẫu cần lấy thêm là bao nhiêu? 2. Hiệp hội bán lẻ thực hiện một khảo sát những hộ gia đình chi tiêu cho kỳ nghỉ Tết âm lịch để đưa ra các gợi ý cho các doanh nghiệp bán lẻ. Kết quả khảo sát 600 hộ gia đình cho thấy mức chi tiêu trung bình là 670 đô la cho dịp tết và độ lệch chuẩn là 152 đô la. a. Với mức ý nghĩa 5% hãy tính sai số biên là bao nhiêu b. Ước lượng khoảng tin cậy 95% của trung bình chi tiêu cho dịp tết của các hộ gia đình. 3. Một tổ chức nghiên cứu về lĩnh vực khách sạn cho thu thập dữ liệu giá phòng của các khách sạn thuộc khu vực bờ Đông ở Mỹ. Tổ chức này mong muốn ước lượng về trung bình giá phòng của họ không khác với trung bình tổng thể 2 đô la. Trong nghiên cứu ban z đầu của họ với 120 khách sạn có độ lệch chuẩn giá phòng là 22.50 đô la. Hãy tính cỡ mẫu cần thiết trong các trường hợp sau a. Ước lượng khoảng tin cậy 90% của trung bình giá phòng của các khách sạn khu vực bờ Đông? b. Tương tự câu a nhưng tính cho trường hợp 95%? c. Tương tự câu a,b nhưng tính cho trường hợp 99%? d. Khi sai số biên cố định, điều gì sẽ xảy ra với cỡ mẫu khi độ tin cậy gia tăng?
  • 22. 22 Nếi E cố định (ví dụ, bạn muốn giữ sai số biên không đổi), và bạn muốn tăng độ tin cậy (Z tăng), thì theo công thức trên, n (kích thước mẫu) sẽ tăng. Điều này có nghĩa là bạn cần lấy một mẫu lớn hơn để đảm bảo rằng sai số biên không đổi sẽ tạo ra khoảng tin cậy lớn hơn. Tóm lại, khi muốn tăng độ tin cậy với sai số biên không đổi, cỡ mẫu cần tăng để đảm bảo rằng ước lượng của bạn sẽ có độ tin cậy cao hơn. 4. Trong một điều tra về người lao động tại các doanh nghiệp vừa và nhỏ về mức độ hài lòng của họ với môi trường làm việc, người ta tiến hành điều tra với 531 nhân viên. Tổng cộng có 189 nhân viên trả lời là hài lòng với công việc. a. Hãy tính ước lượng điểm của tỷ lệ nhân viên hài lòng với công việc b. Tính khoảng tin cậy 95% của tỷ lệ nhân viên không hài lòng với công việc tại các doanh nghiệp này. 5. Báo cáo của một hãng kiểm toán cho thấy các doanh nghiệp có xu hướng báo cáo lợi luận cao hơn dự kiến. Một khảo sát từ 162 công ty cho thấy 104 doanh nghiệp báo cáo cao hơn dự kiến, 29 bằng với dự kiến và 29 thấp hơn dự kiến. a. Tính ước lượng điểm của tỷ lệ những doanh nghiệp báo cáo thấp hơn dự kiến. b. Tính toán khoảng tin cậy 95% cho tỷ lệ các doanh nghiệp có báo cáo cao hơn dự kiến c. Cỡ mẫu là bao nhiêu nếu sai số biên mong muốn là 0.05. CHƯƠNG 7 KIỂM ĐỊNH GIẢ THUYẾT 1. Trong kỳ thi tốt nghiệp THPT quốc gia, tại trường PTTH người ta lấy ra 150 em để tính điểm trung bình của 6 môn thi. Kết quả cho thấy trung bình tổng điểm các môn thi là 42 điểm và độ lệch chuẩn là 7 điểm n= 150, 𝜇= 42, 𝜎= 7. a. Tính khoảng tin cậy 95% trung bình tổng điểm thi của học sinh nhà trường b. Giả sử năm học trước điểm thi là trung bình của khóa trước là 41 điểm. Dựa trên so sánh này, hiệu trưởng nhà trường cho rằng chất lượng giảng dạy đã tăng và điểm thi trung bình của năm nay thực sự cao hơn điểm thi trung bình năm trước. Hỏi kết luận này có đúng không? Tại sao? 2. Một doanh nghiệp có kế hoạch tung ra thị trường một sản phẩm mới thông qua hệ thống 1000 đại lý của mình. Theo kinh nghiệm của giám đốc kinh doanh ước tính lượng cầu cho mỗi cửa hàng là 40 sản phẩm. Công ty dự kiến sản xuất theo ước tính này của giám đốc kinh doanh. Tuy nhiên, Tổng giám đốc có ý kiến khác thận trọng hơn cho rằng con số 40 sản phẩm có thể lạc quan. Bởi vậy, công ty đã tiến hành một khảo sát với 25 đại lý phân phối để thu thập thêm thông tin. Các đại lý phân phối được cung cấp các thông tin về tính năng và giá bán sản phẩm dự kiến và hỏi họ về lượng cầu dự tính cho cửa hàng họ với sản phẩm này. Kết quả tính toán từ trả lời của các đại lý cho thấy có dự đoán lượng bán trung bình là 37.4 và độ lệch chuẩn là 11.79. a. Tính khoảng tin cậy 95% của dự đoán số sản phẩm bán được b. Với thông tin từ mẫu thu thập được, hãy cho biết ước tính của giám đốc marketing có thể sử dụng được không? Doanh nghiệp có cần điều chỉnh kế hoạch sản xuất không? 3. Một nghiên cứu của tổ chức Comsumer Reports cho thấy có 64% người mua sắm ở siêu thị tin rằng các thương hiệu của siêu thị cũng tốt như các thương hiệu quốc gia. Để xem điều này có đúng với các sản phẩm của mình không một nhà sản xuất nước sốt cà chua có thương hiệu quốc gia thực hiện một khảo sát với người mua sắm để xem thử họ có tin rằng nước sốt cà chua của siêu thị tốt như nước sốt cà chua có thương hiệu quốc gia không.
  • 23. 23 a. Thiết lập giả thuyết dùng để kiểm định xem tỷ lệ người mua sắm tin rằng nước sốt cà chua mang thương hiệu siêu thị cũng tốt như thương hiệu quốc gia có khác biệt so với 64%. H0 𝜇= 0,64 H1 𝜇 ≠ 0,64 b. Mẫu gồm 100 người mua sắm trong đó có 52 người đánh giá rằng thương hiệu siêu thị tốt ngang với thương hiệu quốc gia, hãy tính giá trị p. d. Nhà sản xuất nước sốt thương hiệu quốc gia có hài lòng với kết luận này không? Giải thích. kết luận của thử nghiệm giả thuyết là người tiêu dùng tin rằng sốt cà chua của thương hiệu siêu thị ngon ngang với sốt cà chua của thương hiệu quốc gia 42.2% khác biệt đáng kể so với phát hiện của Consumer Reports là 61.8%. CHƯƠNG 8 SUY DIỄN THỐNG KÊ CHO HAI TỔNG THỂ 1. Đọc và giải thích kết quả của một kiểm định cho hai nhóm từ phần mềm SPSS như sau: Group Statistics Gender N Mean Std. Deviation Std. Error Mean TI Nam 278 2.4451 .98358 .05899 Nữ 299 2.3186 .90435 .05230 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (2- tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper TI Equal variances assumed 3.206 .074 1.611 575 .108 .12658 .07860 -.02779 .28095 Equal variances not assumed 1.606 561.264 .109 .12658 .07884 -.02827 .28143 Thống kê Nhóm: Nam: N: Số quan sát (278). Trung bình: Giá trị trung bình của biến "TI" cho nhóm (2.4451). Độ lệch chuẩn: Độ lệch chuẩn của biến "TI" cho nhóm (.98358). Sai số trung bình: Sai số trung bình của trung bình cho nhóm (.05899). Nữ: N: Số quan sát (299). Trung bình: Giá trị trung bình của biến "TI" cho nhóm (2.3186). Độ lệch chuẩn: Độ lệch chuẩn của biến "TI" cho nhóm (.90435). Sai số trung bình: Sai số trung bình của trung bình cho nhóm (.05230).
  • 24. 24 Kiểm định Độc lập: Kiểm định Levene về Sự Bằng nhau của Phương Sai: F: Thống kê kiểm định cho kiểm định Levene (3.206). Sig.: Giá trị p liên quan với kiểm định Levene (.074). Kiểm định Levene đánh giá xem phương sai của hai nhóm có bằng nhau không. Trong trường hợp này, giá trị p (.074) lớn hơn mức ý nghĩa thông thường là 0.05, ngụ ý rằng không có đủ bằng chứng để bác bỏ giả thuyết không có sự bất đồng nhau về phương sai. Kiểm định t cho Sự Bằng nhau của Trung Bình: t: Thống kê t cho kiểm định t độc lập giữa các trung bình (1.611). df: Độ tự do. Sig. (2-tailed): Giá trị p hai đuôi liên quan đến kiểm định t (.108). Hiệu Chênh Trung Bình: Sự chênh lệch giữa trung bình của hai nhóm (.12658). Sai số Chênh Lệch Chuẩn: Sai số chuẩn của sự chênh lệch giữa trung bình (.07860). 95% Khoảng Tin Cậy cho Sự Chênh Lệch: Thấp nhất: Giới hạn dưới của khoảng tin cậy (-.02779). Cao nhất: Giới hạn trên của khoảng tin cậy (.28095). Nếu giá trị p liên quan với kiểm định t nhỏ hơn mức ý nghĩa chọn (thông thường là 0.05), đó ngụ ý có bằng chứng cho thấy sự khác biệt đáng kể. Trong trường hợp này, giá trị p là .108, lớn hơn 0.05, ngụ ý rằng không có đủ bằng chứng để bác bỏ giả thuyết không có sự chênh lệch về trung bình giữa hai nhóm. Ngoài ra, khoảng tin cậy 95% cho sự chênh lệch giữa trung bình bao gồm số không, hỗ trợ thêm cho việc thiếu sự chênh lệch có ý nghĩa thống kê. 2. Một doanh nghiệp sản xuất vật liệu đang tiến hành một thủ nghiệm về một loại phụ gia mới để tăng độ cứng của sản phẩm. Để đánh giá tác động của phụ gia đến độ cứng của sản phẩm doanh nghiệp tiến hành một thử nghiệm với 10 mẫu nguyên liệu để sản xuất vật liệu khác nhau. Với mỗi mẫu nguyên liệu được chia làm 2 phần 1 phần giữa nguyên và phần còn lại cho thêm phụ gia. Sản phẩm hoàn thành được đo độ cứng tương ứng cho ở bảng sau: Mẫunguyên liệu Độ cứng thành phẩm không có phụ gia Độ cứng thành phẩm có phụ gia 1 6.8 7.0 2 6.5 6.6 3 7.1 7.0 4 8.1 8.2 5 7.9 7.8 6 6.3 6.3 7 6.1 6.4 8 7.5 7.7 9 6.0 6.1 10 8.5 8.4 a. Để đánh giá ảnh hưởng của phụ gia tới độ cứng của sản phẩm doanh nghiệp nên sử dụng loại kiểm định nào?
  • 25. 25 Để đánh giá ảnh hưởng của phụ gia tới độ cứng của sản phẩm, bạn có thể sử dụng kiểm định t-paired (kiểm định t đối) vì mỗi mẫu nguyên liệu được đo độ cứng khi không có và có phụ gia, và mỗi cặp dữ liệu được thu thập từ cùng một mẫu nguyên liệu. b. Theo bạn chất phụ gia này có tác động làm tăng độ cứng của sản phẩm sản xuất không? Giải thích. Để kiểm tra xem chất phụ gia này có tác động làm tăng độ cứng của sản phẩm không, bạn có thể thực hiện kiểm định t-paired và so sánh độ cứng khi có phụ gia với độ cứng khi không có phụ gia. Đối với mỗi mẫu nguyên liệu, bạn có cặp giá trị độ cứng khi không có phụ gia và độ cứng khi có phụ gia. Hãy thực hiện kiểm định t-paired để xem xét xem có sự thay đổi có ý nghĩa về mặt thống kê hay không. Nếu giá trị p associated với kiểm định t-paired nhỏ hơn một ngưỡng ý nghĩa thường là 0.05, bạn có thể kết luận rằng có sự thay đổi đáng kể về độ cứng khi thêm phụ gia. Ngược lại, nếu giá trị p lớn hơn 0.05, thì không có đủ bằng chứng để bác bỏ giả thuyết rằng không có sự thay đổi có ý nghĩa. Lưu ý: Trước khi thực hiện kiểm định t-paired, cần kiểm tra giả định về phân phối chuẩn của sự chênh lệch giữa độ cứng khi có và khi không có phụ gia cho từng mẫu nguyên liệu. Nếu giả định này không được đáp ứng, có thể cần sử dụng phương pháp kiểm định thí nghiệm khác hoặc thực hiện biến đổi dữ liệu. CHƯƠNG 9, 10 PHÂN TÍCH HỒI QUY 1. Theo dõi thu nhập theo tháng của 10 người mới tốt nghiệp đại học và số giờ họ làm việc theo tuần cho ở bảng sau: STT Số giờ làm việc/tuần Thu nhập tháng (tr) 1 30 8 2 32 8.5 3 35 9.2 4 36 9.2 5 32 8.7 6 37 9.8 7 40 9.6 8 42 10 9 45 11 10 48 13 a. Tính hệ số tương quan giữa số giờ làm việc và thu nhập theo tháng của các cử nhân
  • 26. 26 b. Giả sử quan hệ giữa thu nhập và số giờ làm việc là một hàm hồi quy tuyến tính. Hãy tính các hệ số hồi quy và giải thích ý nghĩa của chúng.
  • 27. 27 3. Khảo sát 213 doanh nghiệp trong một ngành công nghiệp về ảnh hưởng của ứng dụng công nghệ (TEC), sử dụng lao động (LAB), mức đầu tư cho nghiên cứu và phát triển (R&D), mức độ liên kết (CNE), và sự đa dạng về vốn sở hữu (VAR) đến hiệu suất sản xuất (PRO). Sử dụng ước lượng bằng phương pháp OLS thu được kết quả không đầy đủ như bảng đưới đây. Source SS df MS Number of obs = 213 F() = ?(3)
  • 28. 28 Model ?(1) 5 ?(2) Prob > F = .000 Residual 4.510 207 .022 R-squared = .939 Adj R-squared = .938 Total 74.430 212 Root MSE = PRO Coef. Std. Err. t P>t [95%Conf. Interval] TEC ?(4) .018 13.409 .000 .207 .279 LAB .305 ?(5) 16.623 .000 ?(6) .342 R&D .051 .015 ?(7) .001 .022 .080 CNE .231 .016 14.697 .000 .200 .261 VAR ?(8) ?(9) ?(10) .000 .183 .237 Cons -.190 .073 -2.614 .010 -.334 -.047 a. Sử dụng các công thức thích hợp để tính các giá trị trong dấu (?) tương ứng từ 1 đến 10 b. Viết phương trình hồi quy thể hiện quan hệ giữa hiệu suất sản xuất (PRO) và các biến còn lại. Giải thích ý nghĩa của các hệ số của các biến TEC, CNE, VAR c. Một lãnh đạo trong ngành công nghiệp này nhận định nếu doanh nghiệp cải thiện được 1 điểm sử dụng công nghệ (TEC) sẽ giúp doanh nghiệp cải thiện được trung bình 0.25 điểm hiệu suất sản xuất (PRO). Nhận định của vị lãnh đạo này có thích hợp với dữ liệu hay không, tại sao?
  • 29. 29 .