Khoá luận tốt nghiệp ngành Truyền thông đa phương tiện Xây dựng kế hoạch truy...
Chương 4. THU THẬP VÀ PHÂN TÍCH DỮ LIỆU ĐẦU VÀO
1. MÔ HÌNH HÓA & MÔ PHỎNG CÁC
HỆ THỐNG CÔNG NGHIỆP
Bài giảng môn:
GV. Nguyễn Văn Cần
2. Chương 4. THU THẬP VÀ PHÂN TÍCH
DỮ LIỆU ĐẦU VÀO
4.1. Giới thiệu
Thu thập dữ
liệu đầu vào
Tính phù hợp dữ
liệu đến phân phối
lý thuyết
Tạo ra dữ liệu từ
phân phối lý thuyết
để mô phỏng
Tại sao chúng ta cần phải xem xét tính phù hợp dữ liệu cho một
phân bố lý thuyết ?
3. 4.1. Giới thiệu
Để giúp chúng ta trong quá trình thu thập và phân tích
dữ liệu đầu vào, phần này bao gồm các thảo luận sau:
• Nguồn dữ liệu đầu vào
• Thu thập dữ liệu đầu vào
• Dữ liệu đầu vào tất định hay ngẫu nhiên
• Dữ liệu đầu vào rời rạc hay liên tục
• Một số phân phối dữ liệu đầu vào thường gặp
• Phân tích dữ liệu đầu vào
4. 4.2. Nguồn dữ liệu đầu vào
4.2.1 Hồ sơ lịch sử
- Các số liệu mà người khác đã thu thập trước đó ghi
chép vào hồ sơ
- Đã có sẵn sẽ không mất thời gian thu thập dữ liệu,
không tốn tiền
-Tuy nhiên, việc sử dụng các hồ sơ lịch sử là có rủi ro
lớn.
5. 4.2 Nguồn dữ liệu đầu vào
4.2.2 Nhà sản xuất thông số kỹ thuật
4.2.3 Ước tính của người vận hành
4.2.4 Ước tính của nhà quản lý
4.2.5 Hệ thống thu thập dữ liệu tự động
4.2.6 Quan sát trực tiếp
Hình thức thu thập dữ liệu quan sát trực tiếp là
người thu thập đi vào vị trí của hệ thống và trực tiếp
thu thập dữ liệu. Các dữ liệu được thu thập bởi sự ghi
chép bằng các phương tiện như: sách, bút hoặc với
một sự hỗ trợ công nghệ.
6. 4.2. Nguồn dữ liệu đầu vào
4.2.6 Quan sát trực tiếp
Một ví dụ về loại hình này cho một hệ thống khách hàng
được cung cấp dưới đây:
Arrival # Batch size Arr. Time. Svc. Start Svc. End Comments
Việc sử dụng phương pháp quan sát trực tiếp có thể
vất vả và tốn kém khi một lượng lớn dữ liệu trên các sự
kiện thường xuyên xảy ra phải được thu thập. Nhưng
chắc chắn là dữ liệu thu thập sẽ mang lại hiệu quả hơn
các hình thức thu thập khác trong quá trình mô phỏng.
7. 4.3. Thu thập dữ liệu đầu vào
Cách thức thu thập dữ liệu đầu vào cho hình thức quan
sát trực tiếp:
• Thiết bị thu thập dữ liệu
• Cách thức thu thập thời gian và đơn vị
8. 4.3. Thu thập dữ liệu đầu vào
4.3.1 Thiết bị thu thập dữ liệu
- Thu thập bằng tay hoặc với sự hỗ trợ của các thiết bị
điện tử. Nếu dữ liệu được thu thập bằng tay với sự hỗ trợ
của một thiết bị đo thời gian (đồng hồ bấm giờ), nó có thể
ghi lại tạm thời (clipboard) để người thu thập ghi vào sổ
sách.
- Ngoài ra, nhà phân tích có thể chọn để phát triển một
chương trình đơn giản trên một máy tính xách tay để hỗ
trợ việc thu thập dữ liệu.
9. 4.3. Thu thập dữ liệu đầu vào
4.3.1 Thiết bị thu thập dữ liệu
- Sử dụng các thiết bị ghi bằng video. Nó có thể thu
thập dữ liệu nếu Công ty cho phép. Hầu hết các thiết bị
ghi video có màn hình xem di động.
10. 4.3. Thu thập dữ liệu đầu vào
4.3.2 Cách thức thu thập thời gian và đơn vị
Interarrival time là một giá trị sử dụng trong thuyết hàng
đợi (là khoảng thời gian giữa sự kiện thứ i và thứ i-1).
Trong dịch vụ khánh hàng, Interarrival time là khoảng
thời gian giữa sự xuất hiện của một khách hàng và sự
xuất hiện của các khách hàng tiếp theo.
Hình Những khách
hàng xếp hàng ngoài
rạp chiếu phim.
11. 4.3. Thu thập dữ liệu đầu vào
4.3.2 Cách thức thu thập thời gian và đơn vị
Các bước tính Interarrival time như sau:
Bước 1. Phân loại dữ liệu đến hàng đợi (queue arrival data) là thứ
tự tăng dần theo thời gian đến. Như một ví dụ có tập hợp dữ liệu
của khách hàng trong thời gian đến phút kể từ khi mở cửa hàng: {1,
5, 6, 8, 10}.
Bước 2. Trừ đi thời gian đến của các khách hàng đầu tiên từ khách
hàng thứ hai. Ví dụ, 5 - 1 = 4, vì vậy, Interarrival time giữa khách
hàng đầu tiên và thứ hai là 4 phút.
Bước 3. Lặp lại quá trình cho mỗi khách hàng để có được tất cả
các interarrival times cho dữ liệu của bạn. Bạn sẽ nhận được số
điểm dữ liệu ít hơn so với ban đầu của bạn. Kết thúc Ví dụ, {4, (6-5),
(8-6), (10-8)} = {4, 1, 2, 2}.
12. 4.3. Thu thập dữ liệu đầu vào
4.3.2 Cách thức thu thập thời gian và đơn vị
Ví dụ, nếu thời gian phục vụ đã được thực hiện trong
vài phút và giây, những giây cuối cùng sẽ phải được
chuyển đổi về phút.
Vấn đề về đơn vị sử dụng khi thu thập là giây.
13. 4.4. Dữ liệu tất định hay ngẫu nhiên
Dữ liệu tất định có nghĩa là các sự kiện liên quan
đến các dữ liệu xảy ra trong cùng một giá trị. Điều
này có nghĩa là loại dữ liệu cần phải được thu thập
chỉ một lần bởi vì nó không bao giờ thay đổi về giá trị.
4.4.1 Dữ liệu tất định
14. 4.4.2. Dữ liệu đầu vào ngẫu nhiên
4.4. Dữ liệu tất định hay ngẫu nhiên
Trái ngược với quá trình tất định, một quá trình ngẫu
nhiên không xảy ra với cùng một loại giá trị đều đặn.
Trong trường hợp này, quá trình sẽ thực hiện theo một
số phân bố xác suất.
15. 4.5. Dữ liệu rời rạc hay liên tục
4.5.1. Dữ liệu rời rạc
- Có thể chỉ có giá trị nhất định
- Thông thường dữ liệu rời rạc là một số nguyên
4.5.2. Dữ liệu liên tục
- Có thể là giá trị bất kỳ trong phạm vi quan sát
- Những số thập phân có khả năng xác định
16. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
• Những phân phối
thường gặp
– Bernoulli
– Uniform
– Exponential
– Normal
– Triangular
• Những phân phối
ít gặp
– Beta
– Gamma
– Weibull
17. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối Bernoulli Bernoulli(p)
• Phân bố Bernoulli được sử dụng đến
sự cố ngẫu nhiên với một trong hai kết
quả khác nhau có thể.
• Điều này thường xuyên được gọi là
một thành công hay thất bại.
• p = Phần trăm của sự thành công
• (1 − p) = Phần trăm của sự thất bại
18. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối đều (Uniform) U(a,b)
• Một phân bố đồng đều có nghĩa là
trong một khoảng giá trị có thể, mỗi
giá trị cá nhân có khả năng đều nhau
được quan sát.
• Ví dụ phổ biến của một phân bố đều
là hành vi của một con xúc xắc sáu
mặt.
• a là giá trị tối thiểu
• b là giá trị tối đa.
19. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối mũ (Exponential) expo (B)
• Sự phân phối mũ là thường sử dụng
cho quá trình khoảng thời gian đến
trong mô hình mô phỏng, bởi vì sự
xuất hiện của các thực thể trong nhiều
hệ thống đã được chứng minh hoặc
giả định là một quá trình ngẫu nhiên
hoặc Poisson
• f (x) = Hàm xác suất
• B là trung bình của dữ liệu
• x là giá trị dữ liệu.
20. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối tam giác (Triangular) tria(a,m,b)
• a = giá trị tối thiểu
• m = giá trị thường xảy ra (the mode)
• b = giá trị tối đa
21. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối chuẩn (Normal)
• μ = trung bình
• σ = độ lệch chuẩn
22. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối (Poisson) Poisson (λ)
• λ = trung bình = phương sai
• x = giá trị của biến ngẫu nhiên
23. 4.6. Một số phân phối dữ liệu đầu vào thường gặp
Phân phối kết hợp (Combination Distributions)
25. 4.9. Cần bao nhiêu dữ liệu được thu thập
Một câu hỏi rất phổ biến là cần bao nhiêu dữ liệu
được thu thập?. Câu hỏi này có vẻ khó khăn liên quan
đến việc thu thập dữ liệu. Đây là một câu hỏi khó trả lời
đối với người thu thập, tuy nhiên, các quan sát sau đây
có thể giúp:
• Dữ liệu đúng
• Quan sát dữ liệu đại diện
• Có đủ dữ liệu để kiểm tra tính phù hợp
26. 4.10. Làm gì nếu dữ liệu đầu vào không phù
hợp?
Người thu thập sẽ gặp phải một tình huống sự không
phù hợp dữ liệu quan sát với phân bố lý thuyết. Giả sử
rằng các dữ liệu được thu thập chính xác, nguyên nhân
có thể gặp khó khăn này bao gồm:
• Không đủ dữ liệu để thu thập
• Dữ liệu là một sự kết hợp của một số phân phối lý
thuyết.
27. 4.10. Làm gì nếu dữ liệu đầu vào không phù
hợp?
• Không đủ dữ liệu để thu thập
- Chúng ta phải thu thập dữ liệu bổ sung, chúng ta phải
trở lại hệ thống và thu thập dữ liệu nhiều hơn
- Nếu không thể thu thập các dữ liệu bổ sung, người thu
thập có thể cố gắng mô phỏng với các dữ liệu quan sát
thay vì dữ liệu phân phối lý thuyết
- Sử dụng một phân phối tích lũy để tạo ra các dữ liệu.
28. 4.10. Làm gì nếu dữ liệu đầu vào không phù
hợp?
• Dữ liệu là một sự kết hợp của một số phân phối lý thuyết
Là thời gian các dữ liệu quan sát thực tế có thể là một
sự kết hợp của các quá trình khác nhau.
- Quá trình nối tiếp nhau
- Quá trình riêng biệt
29. 4.11. Triển khai phần mềm cho việc
kiểm tra tính phù hợp dữ liệu