Luận văn: Ứng dụng chữ số trong quá trình gửi nhận tài liệu điện tử
Datawarehouse
1. ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN THỊ GIANG
XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ BUSINESS
INTELLIGENCE ỨNG DỤNG TRONG NGÀNH BƢU CHÍNH
CỦA TỔNG CÔNG TY BƢU ĐIỆN VIỆT NAM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2015
2. ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN THỊ GIANG
XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ BUSINESS
INTELLIGENCE ỨNG DỤNG TRONG NGÀNH BƢU CHÍNH
CỦA TỔNG CÔNG TY BƢU ĐIỆN VIỆT NAM
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYÊN HẢI CHÂU
HÀ NỘI - 2015
3. LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Nguyễn Hải
Châu, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện khóa luận
tốt nghiệp đại học và luận văn cao học.
Tôi chân thành cảm ơn các thầy, cô trong trường Đại học Công nghệ đã cho tôi một môi
trường rất tốt để học tập và nghiên cứu. Các thầy cô đã giảng dạy và cho tôi những kiến
thức quý báu, làm nền tảng để tôi hoàn thành luận văn cũng như công việc trong tương
lai.
Tôi cũng xin gửi lời tri ân tới các anh, chị, bạn học viên K19 đã luôn bên cạnh, ủng hộ và
giúp đỡ tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè – những người thân
yêu luôn ở bên, khuyến khích và động viên tôi trong cuộc sống cũng như trong học tập.
Tôi xin chân thành cảm ơn.
Hà nội, tháng 5 năm 2015
Học viên
Trần Thị Giang
4. LỜI CAM ĐOAN
Tôi xin cam đoan đề tài Xây dựng hệ thống Data Warehouse và Business Intelligence
ứng dụng trong ngành bưu chính của Tổng công ty Bưu điện Việt Nam được trình bày
trong luận văn này là do tôi thực hiện dưới sự hướng dẫn và chỉ bảo của PGS.TS Nguyễn
Hải Châu.
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng trong danh mục Tài liệu tham khảo của luận văn. Trong luận văn, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.
Hà nội, tháng 5 năm 2015
Học viên
Trần Thị Giang
5. i
MỤC LỤC
MỤC LỤC ...........................................................................................................................i
DANH SÁCH CÁC BẢNG..............................................................................................iv
DANH SÁCH CÁC HÌNH VẼ .........................................................................................v
DANH SÁCH CÁC TỪ VIẾT TẮT...............................................................................vii
DANH SÁCH CÁC THUẬT NGỮ ...............................................................................viii
MỞ ĐẦU.............................................................................................................................1
CHƢƠNG 1: GIỚI THIỆU VỀ DATA WAREHOUSE VÀ BUSINESS
INTELLIGENCE ..............................................................................................................3
1. Các khái niệm cơ bản..............................................................................................3
1.1. Định nghĩa Data Warehouse ...........................................................................3
1.2. Định nghĩa Business Intelligence....................................................................4
2. Lợi ích của hệ thống Data Warehouse và Business Intelligence.........................5
3. Kiến trúc của hệ thống Data Warehouse và Business Intelligence.....................6
3.1. Data Source - Dữ liệu nguồn...........................................................................7
3.2. Data Warehouse - Kho dữ liệu tập trung ........................................................7
3.3. Tầng Business Intelligence (BI)......................................................................8
3.4. Administration (Quản trị hệ thống).................................................................8
4. Thiết kế logic hệ thống Data Warehouse và Business Intelligence.....................8
4.1. Thiết kế thành phần Data Warehouse .............................................................8
4.1.1. Các mô hình CSDL trong Data Warehouse.................................................8
4.1.2. Một số thuật ngữ trong Data Warehouse...................................................10
4.1.3. Thiết kế CSDL chủ đề (Data Mart) ...........................................................11
4.1.4. Thiết kế CSDL tích hợp (Enterprise Model - EM)....................................13
4.1.5. Thiết kế CSDL trung chuyển (Data Staging Area – DSA)........................15
4.1.6. Thiết kế tiến trình Thu thập, làm sạch và tích hợp dữ liệu (Extraction -
Transformation - Loading - ETL) ........................................................................17
4.2. Thiết kế metadata ..........................................................................................18
6. ii
4.3. Thiết kế tầng khai thác và phân tích thông tin ..............................................18
4.3.1. Thiết kế CSDL đa chiều với OLAP...........................................................18
4.3.2. Thiết kế tầng khai thác và phân tích thông tin...........................................19
CHƢƠNG 2: BÀI TOÁN XÂY DỰNG HỆ THỐNG DW VÀ BI TẠI VNPOST.....21
1. Hiện trạng ngành bƣu chính của Tổng công ty bƣu điện Việt Nam ................21
1.1. Hiện trạng các hệ thống công nghệ thông tin................................................21
1.2. Hiện trạng công tác lập báo cáo tổng hợp.....................................................22
1.3. Vấn đề đặt ra .................................................................................................23
2. Mục tiêu bài toán...................................................................................................23
3. Phạm vi bài toán....................................................................................................24
CHƢƠNG 3: KHẢO SÁT, PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI HỆ
THỐNG DW VÀ BI TẠI VNPOST...............................................................................25
1. Khảo sát..................................................................................................................25
1.1. Khảo sát dữ liệu nguồn .................................................................................25
1.2. Khảo sát báo cáo ...........................................................................................26
2. Phân tích, thiết kế..................................................................................................29
2.1. Thiết kê kiến trúc tổng thể ............................................................................29
2.2. Thiết kế các CSDL chủ đề ............................................................................31
2.3. Thiết kế CSDL EM .......................................................................................35
2.4. Thiết kế CSDL DSA .....................................................................................36
2.5. Thiết kế tiến trình ETL..................................................................................37
2.5.1. ETL các bảng danh mục ............................................................................37
2.5.2. ETL các bảng sự kiện ................................................................................42
2.5.3. Thiết kế tầng Business Intelligence ...........................................................58
3. Triển khai...............................................................................................................59
3.1. Cài đặt hệ thống ............................................................................................59
3.2. Triển khai module ETL.................................................................................60
3.2.1. Module ETL tổng hợp ...............................................................................60
7. iii
3.2.2. ETL bảng danh mục D_POST...................................................................61
3.2.3. ETL bảng danh mục D_PRODUCTION...................................................61
3.2.4. ETL bảng danh mục D_COST ..................................................................62
3.2.5. ETL bảng sự kiện F_BCCP .......................................................................62
3.2.6. ETL bảng sự kiện F_TCBC.......................................................................63
3.2.7. ETL bảng sự kiện F_REVENUE...............................................................64
3.2.8. ETL bảng sự kiện F_COST .......................................................................65
4. Kết quả ...................................................................................................................66
KẾT LUẬN ......................................................................................................................74
TÀI LIỆU THAM KHẢO...............................................................................................76
8. iv
DANH SÁCH CÁC BẢNG
Bảng 1: Thực trạng công nghệ của các phần mềm tại VNPOST......................................22
9. v
DANH SÁCH CÁC HÌNH VẼ
Hình 1: Đặc trưng của Data Warehouse..............................................................................3
Hình 2: Lợi ích của DW và BI trong hỗ trợ ra quyết định ..................................................5
Hình 3: Mô hình kiến trúc tổng thể .....................................................................................6
Hình 4: CSDL hình sao .......................................................................................................9
Hình 5: CSDL hình bông tuyết............................................................................................9
Hình 6: ERD của một Data Mart về Doanh số..................................................................13
Hình 7: ERD của một Enterprise Model ...........................................................................15
Hình 8: Báo cáo mẫu về tổng hợp cân đối kế hoạch SXKD toàn Tổng công ty...............27
Hình 9: Báo cáo mẫu về Sơ kết công tác 6 tháng..............................................................28
Hình 10: Báo cáo mẫu Tình hình sản xuất kinh doanh khối HTPT..................................29
Hình 11: Kiến trúc tổng thể của hệ thống tại VNPOST....................................................29
Hình 12: Sơ đồ quan hệ của CSDL chủ đề Sản lượng dịch vụ BCCP..............................31
Hình 13: Sơ đồ quan hệ của CSDL chủ đề sản lượng dịch vụ TCBC...............................32
Hình 14: Sơ đồ quan hệ của CSDL chủ đề doanh thu.......................................................33
Hình 15: Sơ đồ quan hệ của CSDL chủ đề chi phí............................................................34
Hình 16: Sơ đồ quan hệ của CSDL EM ............................................................................35
Hình 17: Luồng dữ liệu của các bảng danh mục...............................................................37
Hình 18: Luồng dữ liệu của bảng sự kiện F_BCCP..........................................................42
Hình 19: Luồng dữ liệu của bảng sự kiện F_TCBC..........................................................45
Hình 20: Luồng dữ liệu của bảng sự kiện F_REVENUE .................................................48
Hình 21: Luồng dữ liệu của bảng F_COST.......................................................................53
Hình 22: Kết quả cài đặt hệ quản trị CSDL và tầng Business Intelligence.......................59
Hình 20: Module ETL tổng hợp........................................................................................60
Hình 21: Module ETL bảng danh mục D_POST..............................................................61
Hình 22: Load dữ liệu từ file excel Danh sách tỉnh thành vào bảng DSA_D_POST .......61
Hình 23: Module ETL bảng danh mục D_PRODUCTION..............................................61
10. vi
Hình 24: Load dữ liệu từ file excel Danh sách dịch vụ vào bảng DSA_D_PRODUCTION
...........................................................................................................................................61
Hình 25: Module ETL bảng danh mục D_COST..............................................................62
Hình 26: Load dữ liệu từ file excel Danh sách khoản chi phí vào bảng DSA_D_COST.62
Hình 27: Module ETL bảng sự kiện F_BCCP ..................................................................62
Hình 28: Load dữ liệu từ file excel Danh sách sản lượng dịch vụ BCCP vào bảng
DSA_F_BCCP...................................................................................................................63
Hình 29: Module ETL bảng sự kiện F_TCBC ..................................................................63
Hình 30: Load dữ liệu từ file excel Danh sách sản lượng dịch vụ TCBC vào bảng
DSA_F_TCBC...................................................................................................................63
Hình 31: Module ETL bảng sự kiện F_REVENUE..........................................................64
Hình 32: Load dữ liệu từ file excel Kế hoạch doanh thu vào bảng
TMP_REVENUE_PLAN..................................................................................................64
Hình 33: Load dữ liệu từ file excel Doanh thu vào bảng TMP_REVENUE_PLAN........64
Hình 34: Module ETL bảng sự kiện F_COST ..................................................................65
Hình 35: Load dữ liệu từ file excel Kế hoạch doanh thu vào bảng TMP_COST_PLAN.65
Hình 36: Load dữ liệu từ file excel Chi phí vào bảng TMP_COST_PLAN.....................65
Hình 37: Báo cáo về doanh thu – dạng bảng biểu.............................................................66
Hình 38: Báo cáo về sản lượng BCCP trong năm 2012 – dạng bảng biểu .......................67
Hình 39: Báo cáo về sản lượng TCBC trong năm 2012 – dạng bảng biểu.......................69
Hình 40: Báo cáo doanh thu – dạng đồ thị........................................................................70
Hình 41: Báo cáo Top các bưu điện tỉnh thành về thực hiện doanh thu ...........................71
Hình 42: Báo cáo Bottom các bưu điện tỉnh thành về thực hiện doanh thu......................71
Hình 43: Báo cáo tình hình thực hiện doanh thu – dạng dashboard .................................72
Hình 44: Báo cáo tình hình chi phí phát sinh – dạng dashboard.......................................73
11. 76
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Văn Trung, Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ
viễn thông của Tổng công ty Bưu chính Viễn thông Việt Nam (VNPT), Luận cao học,
Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2008.
Tiếng Anh:
[2] Fon Silvers, Building and Maintaining a Data Warehouse, 2008, pp. 11-42
[3] W. H. Inmon, Building the Data Warehouse, Fourth Edition, 2005, pp. 71-136
[4] Ralph Kimball, Margy Ross, The Data Warehouse Toolkit, Third Edition, 2013, pp.
37-68
[5] http://bi-insider.com/portfolio/benefits-of-a-data-warehouse/