Data Warehouse

11,944 views

Published on

Published in: Technology, Sports
8 Comments
17 Likes
Statistics
Notes
No Downloads
Views
Total views
11,944
On SlideShare
0
From Embeds
0
Number of Embeds
56
Actions
Shares
0
Downloads
1,821
Comments
8
Likes
17
Embeds 0
No embeds

No notes for slide

Data Warehouse

  1. 1. Kho dữ liệu và Hệ hỗ trợ quyết định Nguyễn Thanh Bình
  2. 2. Đề cương <ul><li>Phần 1: Tổng quan </li></ul><ul><li>Chương 1: Giới thiệu </li></ul><ul><li>Chương 2: Đại cương </li></ul><ul><li>Chương 3: Kiến trúc kho dữ liệu </li></ul>
  3. 3. Đề cương (tt) <ul><li>Phần 2: Mô hình hóa </li></ul><ul><li>Chương 4: Dữ liệu và các mô hình </li></ul><ul><li>Chương 5: Mô hình hóa </li></ul><ul><li>Chương 6: Siêu Dữ liệu </li></ul><ul><li>Chương 7: Phương thức kho dữ liệu </li></ul><ul><li>Chương 8: Tương lai và tổng kết môn học </li></ul>
  4. 4. Chương 1: Giới thiệu
  5. 5. Vấn đề: Các nguồn thông tin đa tạp <ul><li>Cách mạng thông tin va sự bùng nổ thông tin </li></ul><ul><li>Nhiều hệ thống thông tin được xây dựng: </li></ul><ul><ul><li>Những giao diện khác nhau </li></ul></ul><ul><ul><li>Những dạng biểu dữ liệu khác nhau </li></ul></ul><ul><ul><li>Thông tin trùng lặp và không nhất quán </li></ul></ul>
  6. 6. Vấn đề: Quản lý dữ liệu trong những xí nghiệp lớn <ul><li>Sự phân mảnh theo chiều dọc trong các hệ thống thông tin </li></ul><ul><ul><li>Thành nhiều hệ thống tác nghiệp và hệ thống xử lý toàn tác trực tuyến (OLTP) đa tạp </li></ul></ul>
  7. 7. Mục tiêu: Truy cập dữ liệu một cách thống nhất <ul><li>Thu thập và kết hợp thông tin </li></ul><ul><li>Cung cấp một khung nhìn tích hợp, giao diện người sử dụng không biến đổi </li></ul><ul><li>Hỗ trợ khả năng chia sẻ </li></ul>
  8. 8. Kho dữ liệu <ul><li>Dữ liệu được tích hợp và tổ chức cho các mục đích: </li></ul><ul><ul><li>Làm cho hệ thống trở nên dễ hiểu </li></ul></ul><ul><ul><li>Rõ ràng </li></ul></ul><ul><ul><li>Dễ phân tích </li></ul></ul><ul><li>Dữ liệu được thu thập từ nhiều nguồn </li></ul><ul><ul><li>Làm sạch </li></ul></ul><ul><ul><li>Tích hợp </li></ul></ul><ul><ul><li>Chuyển dịch </li></ul></ul><ul><ul><li>Tổng hợp </li></ul></ul>
  9. 9. Hệ hỗ trợ quyết định <ul><li>Được biết đến như là một phần của kho dữ liệu </li></ul><ul><li>Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ </li></ul><ul><li>Cho phép phân tích trực tuyến dữ liệu </li></ul><ul><li>Thăm dò sự tương tác dữ liệu </li></ul><ul><li>Cung cấp các giao diện đa dạng cho người dùng </li></ul><ul><li>Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản </li></ul>
  10. 10. Yêu cầu của hệ hỗ trợ quyết định <ul><li>Khung nhìn dữ liệu đa chiều </li></ul><ul><li>Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu vào chi tiết </li></ul><ul><li>Trả lời nhanh các câu hỏi </li></ul>
  11. 11. Lịch sử phát triển <ul><li>Khởi đầu vào những năm 1990s </li></ul><ul><li>Tháng 2 năm 1996, theo báo cáo của nhóm META: </li></ul><ul><ul><li>13 000 triệu USD (phần cứng: 8000, service:5000) </li></ul></ul><ul><li>1998: 14 600 triệu USD </li></ul><ul><li>2001: >20 000 tr USD </li></ul>
  12. 12. Lịch sử phát triển 1996 2001 0 5 10 15 20 25 1996 2001 Revenue Projected Growth USA Europe APAC Other 0 10 20 30 40 50 60 USA Europe APAC Other Installed Base Current Revenue
  13. 13. Tại sao nghiên cứu kho dữ liệu <ul><li>Kho lưu trữ dữ liệu, thông tin, tri thức, và siêu dữ liệu </li></ul><ul><ul><li>Tổng hợp toàn bộ thông tin phục vụ cho phân tích sâu </li></ul></ul><ul><ul><li>Tách việc phân tích ra khỏi xử lý toàn tác trực tuyến </li></ul></ul><ul><li>Chuyển đổi dữ liệu thành thông tin </li></ul><ul><ul><li>Cung cấp thông tin chính xác đúng thời điểm và đúng định dạng </li></ul></ul>
  14. 14. Tại sao nghiên cứu kho dữ liệu <ul><li>Thi hành các phân tích dữ Iiệu phức tạp </li></ul><ul><li>Thực hiện phân tích: </li></ul><ul><ul><ul><li>Phân tích định hướng </li></ul></ul></ul><ul><ul><ul><li>Phân tích chuỗi thời gian </li></ul></ul></ul><ul><ul><ul><li>Phân tích rủi ro </li></ul></ul></ul><ul><ul><li>Thăm dò các hệ hỗ trợ quyết định </li></ul></ul><ul><ul><li>Khám phá và đưa ra các yếu tố ẩn thông qua các kĩ thuật khai phá dữ liệu </li></ul></ul>
  15. 15. Các đặc điểm của kho dữ liệu <ul><li>Thiết kế cho các công việc phân tích </li></ul><ul><li>Thiết kế cho một nhóm nhỏ người dùng (decision makers) </li></ul><ul><li>Chỉ đọc </li></ul><ul><li>Cập nhập theo giai đoạn: chỉ thêm dữ liệu </li></ul><ul><li>Dữ liệu lịch sử theo chiều thời gian </li></ul><ul><li>Các câu hỏi trả về các tập kết quả lớn, đa kết nối. </li></ul><ul><li>Toàn cục </li></ul>
  16. 16. Các ví dụ <ul><li>Xử lý toàn tác trực tuyến OLTP </li></ul><ul><ul><li>Số lượng coca cola được vừa được bán </li></ul></ul><ul><li>Xử lý phân tích trực tuyến OLAP </li></ul><ul><ul><li>Số lượng coca cola được bán tháng trước tại các cửa hàng phía bắc tỉnh Thừa thiên Huế </li></ul></ul><ul><ul><li>Cửa hàng nào phía bắc tỉnh Thừa thiên Huế có số lượng coca cola được bán ra tháng trước lớn nhất </li></ul></ul><ul><ul><li>Tháng nào trong năm số lượng coca cola được bán ra nhiều nhất tại tỉnh Thừa thiên Huế </li></ul></ul>
  17. 17. Các ứng dụng của KDL <ul><ul><li>Hàng không Airline </li></ul></ul><ul><ul><li>Ngân hàng Banking </li></ul></ul><ul><ul><li>Chăm sóc sức khỏe Health care </li></ul></ul><ul><ul><li>Đầu tư Investment </li></ul></ul><ul><ul><li>Bảo hiểm Insurance </li></ul></ul><ul><ul><li>Bán lẻ Retail </li></ul></ul><ul><ul><li>Viễn thông </li></ul></ul><ul><ul><li>Các ngành công nghiệp Manufacturers </li></ul></ul><ul><ul><li>Credit card suppliers </li></ul></ul><ul><ul><li>Clothing distributors </li></ul></ul>0 10 20 30 40 Financial Retail Telecom Manufacturing Other Percentage Market Coverage
  18. 18. Kho dữ liệu-Các định nghĩa <ul><li>W.H. Inmon </li></ul><ul><ul><li>Hướng chủ thể subject-oriented. </li></ul></ul><ul><ul><li>Tích hợp integrated, </li></ul></ul><ul><ul><li>Biến thời gian time-variant, </li></ul></ul><ul><ul><li>Bền vững non-volatile </li></ul></ul><ul><ul><li>Sưu tập dữ liệu phục vụ cho các thao tác hỗ trợ quyết định (collection of data in support of management's decision-making process) </li></ul></ul>
  19. 19. Kho dữ liệu-Các định nghĩa <ul><li>Hướng chủ thể subject-oriented. </li></ul><ul><ul><li>Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định </li></ul></ul><ul><li>Tích hợp integrated, </li></ul><ul><li>Biến thời gian time-variant, </li></ul><ul><ul><li>so sánh dữ liệu theo chiều thời gian </li></ul></ul><ul><li>Bề vững non-volatile, chỉ có thêm vào và không thay thế </li></ul>
  20. 20. Kho dữ liệu-Các định nghĩa Subject Oriented Integrated Time Variant Non Volatile Data Warehouse
  21. 21. Huớng chủ thể <ul><li>Được tổ chức xung quanh các chủ thể chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales). </li></ul><ul><li>Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý toàn tác hàng ngày. </li></ul><ul><li>Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể </li></ul>
  22. 22. Subject Oriented <ul><li>Data is categorized and stored by business subject rather than </li></ul><ul><li>by application. </li></ul>Operational Systems Savings Shares Loans Insurance Equity Plans Customer Product, Sales Information Data Warehouse Subject Area
  23. 23. Subject Areas <ul><li>Các chủ thể điển hình. </li></ul><ul><ul><li>Các tài khoản khách hàng </li></ul></ul><ul><ul><li>Việc bán hàng </li></ul></ul><ul><ul><li>Tiền tiết kiệm của khách hàng </li></ul></ul><ul><ul><li>Các yêu sách bảo hiểm </li></ul></ul><ul><ul><li>Đặt chỗ hành khách </li></ul></ul>
  24. 24. Integrated <ul><li>Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ </li></ul><ul><ul><li>Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi toàn tác trực tuyến. </li></ul></ul><ul><li>Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng </li></ul><ul><ul><li>Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính, … giữa các nguồn khác nhau </li></ul></ul><ul><ul><ul><li>Ví dụ như: Hotel price: currency, tax, breakfast covered, ... </li></ul></ul></ul><ul><ul><li>Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi. </li></ul></ul>
  25. 25. Integrated Data Warehouse Operational Environment Subject = Customer Savings Application Current Accounts Application Loans Application No Application Flavor
  26. 26. Integrated Data <ul><li>Dữ liệu được tổng hợp từ các nguồn khác nhau </li></ul><ul><li>Là một tập hợp thông tin chính xác, chất lượng và nhất quán </li></ul><ul><li>Chuẩn hóa </li></ul><ul><ul><li>Các qui ước tên </li></ul></ul><ul><ul><li>Các thuộc tính </li></ul></ul><ul><ul><li>Các đơn vị đo lường </li></ul></ul><ul><li>Quá trình làm sạch và tích hợp </li></ul>
  27. 27. Time Variant <ul><li>Data is stored as a series of snapshots, each representing a </li></ul><ul><li>period of time. </li></ul>Data Time 01/97 02/97 03/97 Data for January Data for February Data for March Data Warehouse
  28. 28. Time Variant <ul><li>Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp. </li></ul><ul><ul><li>Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời </li></ul></ul><ul><ul><li>Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước) </li></ul></ul><ul><li>Yếu tố thời gian được lưu trữ trong CSDL </li></ul>Data Time 01/97 02/97 03/97 Data for January Data for February Data for March
  29. 29. Non Volatile <ul><li>Typically data in the data warehouse is not updated or deleted . </li></ul>Read Load INSERT Read UPDATE DELETE Operational Databases Warehouse Database
  30. 30. Non Volatile Operational Databases Warehouse Database First time load Refresh Refresh Refresh Purge or Archive
  31. 31. Non-Volatile <ul><li>Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp. </li></ul><ul><li>Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu. </li></ul><ul><ul><li>Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh. </li></ul></ul><ul><ul><li>Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: </li></ul></ul><ul><ul><ul><li>Nạp dữ liệu và truy cập dữ liệu. </li></ul></ul></ul>
  32. 32. Kho dữ liệu-Các định nghĩa (tt) <ul><li>Pandora, Swinburn University </li></ul><ul><ul><li>Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau. </li></ul></ul><ul><ul><li>Là một điểm truy cập tập trung dữ liệu của một tổ chức </li></ul></ul><ul><ul><li>Được trình bày ở một khuông dạng thích hợp </li></ul></ul><ul><ul><li>Là hệ thống chỉ đọc </li></ul></ul><ul><ul><li>Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng </li></ul></ul>
  33. 33. Kho dữ liệu-Các định nghĩa (tt) <ul><li>Paul Lucas, IBM: </li></ul><ul><ul><li>Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent. </li></ul></ul><ul><ul><li>được tổng hợp về từ nhiều nguồn </li></ul></ul><ul><ul><li>được làm sẵn cho người sử dụng cuối </li></ul></ul><ul><ul><li>Dễ hiểu </li></ul></ul>
  34. 34. Kho dữ liệu và các CSDL <ul><li>Việc tích hợp csdl hỗn tạp truyền thống: </li></ul><ul><ul><li>Xây dựng các wrappers/mediators trên các csdl hỗn tạp. </li></ul></ul><ul><ul><li>Xử lý câu hỏi: </li></ul></ul><ul><ul><ul><li>Khi một câu hỏi được đặt ra tại một máy khách, một siêu từ điển sẽ được sử dụng để dịch câu truy vấn thành các câu truy vấn tương ứng cho các csdl riêng biệt, và kết quả được tích hợp trong một tập kết quả toàn cục. </li></ul></ul></ul><ul><ul><ul><li>Ở đây sẽ có các bộ lọc phức tạp. </li></ul></ul></ul><ul><li>Kho dữ liệu: nâng cao tốc độ thực hiện </li></ul><ul><ul><li>Thông tin từ các nguồn đa tạp được tích hợp trước và lưu trữ trong kho dữ liệu cho việc trả lời trực tiếp các câu hỏi và các tác vụ phân tích </li></ul></ul>
  35. 36. Kho dữ liệu và các CSDL <ul><li>Xử lý toàn tác trực tuyến OLTP (on-line transaction processing) </li></ul><ul><ul><li>Tác vụ chính của các hệ qtcsdl quan hệ truyền thống. </li></ul></ul><ul><ul><li>Các thao tác hàng ngày: mua, kiểm kê, kế toán,… </li></ul></ul><ul><li>Xử lý phân tích trực tuyến OLAP (on-line analytical processing) </li></ul><ul><ul><li>Là tác vụ chính của hệ thống kho dữ liệu </li></ul></ul><ul><ul><li>Phân tích dữ liệu và đưa ra quyết định </li></ul></ul><ul><li>Các đặc tiểm khác nhau (OLTP vs. OLAP): </li></ul><ul><ul><li>Theo quan điểm người dùng: khách hàng so với thị trường </li></ul></ul><ul><ul><li>Các nội dung dữ liệu: Hiện tại, chi tiết so với lịch sử và tóm lược. </li></ul></ul><ul><ul><li>Thiết kế csdl: ER + ứng dụng so với hình sao và hướng chủ thể </li></ul></ul><ul><ul><li>Khung nhìn: hiện tại, cục bộ so với lịch sử và tích hợp </li></ul></ul><ul><ul><li>Các mẫu truy cập: cập nhật so với các truy vấn chỉ đọc nhưng phức hợp </li></ul></ul>
  36. 37. OLTP vs. OLAP
  37. 38. Các kiến thức, môn học liên quan <ul><li>CSDL </li></ul><ul><li>Xử lý song song </li></ul><ul><li>Thiết kế giao diện </li></ul><ul><li>Công nghệ phần mềm </li></ul><ul><li>Khai phá dữ liệu </li></ul><ul><li>Bảo mật </li></ul><ul><li>Công nghệ mạng, intranet, internet </li></ul><ul><li>Công nghệ xử lý kinh doanh </li></ul><ul><li>Marketing, kế toán, và quản lý </li></ul>
  38. 39. Tóm tắt chương <ul><li>Kho dữ liệu và hệ hỗ trợ quyết định </li></ul><ul><li>Lịch sử phát triển </li></ul><ul><li>Tại sao nghiên cứu kho dữ liệu </li></ul><ul><li>Các đặt điểm của KDL </li></ul><ul><li>Các ví dụ </li></ul><ul><li>ứng dụng của KDL </li></ul><ul><li>Các định nghĩa </li></ul><ul><li>Các môn học liên quan </li></ul>
  39. 40. Câu hỏi cho chương 1??? Uff...
  40. 41. Chương 2: Đại cương
  41. 42. Các thành phần ETT Data Management Data Access and Analysis Design and Modeling Methodology
  42. 43. Methodology-Phương pháp luận <ul><li>Đảm bảo sự thành công của KDL </li></ul><ul><li>Thúc đẩy việc phỏt triển </li></ul><ul><li>Cung cấp một hướng ổn định cho KDL lớn </li></ul><ul><ul><li>An toàn </li></ul></ul><ul><ul><li>Quản lí được </li></ul></ul><ul><ul><li>Kiểm chứng được </li></ul></ul><ul><ul><li>ấn tượng tốt </li></ul></ul>
  43. 44. Modeling-Mô hình hóa <ul><li>Các điểm khác của KDL so với các hệ thống OLTP </li></ul><ul><ul><li>Thiết kế các thành phần phục vụ các yêu cầu phân tích </li></ul></ul><ul><ul><li>Định hướng chủ thể </li></ul></ul><ul><li>Dữ liệu được ánh xạ vào thông tin hướng chủ thể: </li></ul><ul><ul><li>Nhận dạng các chủ thể kinh doanh </li></ul></ul><ul><ul><li>Định nghĩa quan hệ giữa các chủ thể </li></ul></ul><ul><li>Mô hình hóa là một quá trình lặp </li></ul>
  44. 45. ETT <ul><li>Extraction: chọn lựa dữ liệu bằng nhiều phương thức </li></ul><ul><li>Transformation: xác nhận hợp lệ, làm sạch, tích hợp, và dữ liệu nhãn thời gian </li></ul><ul><li>Transportation: chuyển đổi dữ liệu vào KDL </li></ul>OLTP Databases Staging File Warehouse Database
  45. 46. Data Management <ul><li>Các công cụ phục vụ cho việc quản lý dữ liệu một cách hiệu quả </li></ul><ul><li>Các yêu cầu </li></ul><ul><ul><li>Mềm dẻo </li></ul></ul><ul><ul><li>Tự động </li></ul></ul><ul><ul><li>Hiệu quả </li></ul></ul><ul><li>Quản lí phần cứng, hệ điều hành và mạng </li></ul>
  46. 47. Truy cập dữ liệu và tạo báo cáo <ul><li>Các công cụ dùng để truy tìm dữ liệu cho việc phân tích kinh doanh </li></ul><ul><li>Các yêu cầu </li></ul><ul><ul><li>Dễ dùng </li></ul></ul><ul><ul><li>Trực quan </li></ul></ul><ul><ul><li>Siêu dữ liệu </li></ul></ul><ul><ul><li>Dễ huấn luyện </li></ul></ul>Warehouse Database Simple Queries Forecasting Drill-down
  47. 48. Các từ khóa quan trọng <ul><li>DWH: (Data Warehouse) Kho dữ liệu </li></ul><ul><li>EIS:(Executive Information System) Hệ thống thông tin điều hành </li></ul><ul><li>OLTP: (Online Transaction Processing): Xử lý toàn tác trực tuyến </li></ul><ul><li>OLAP: (Online Analytical Processing) Xử lý phân tích trực tuyến </li></ul><ul><li>MOLAP: (Multi dimensional Online Analytical Processing) Xử lý phân tích trực tuyến đa chiều </li></ul>
  48. 49. Các từ khóa quan trọng <ul><li>ROLAP: (Relational Online Analytical Processing) Xử lý phân tích trực tuyến quan hệ </li></ul><ul><li>HOLAP: (Hybric Online Analytical Processing) Xử lý phân tích trực tuyến kết hợp </li></ul><ul><li>DOLAP: (Database Online Analytical Processing) Xử lý phân tích trực tuyến CSDL </li></ul><ul><li>Client/server OLAP: (client/server Online Analytical Processing) Xử lý phân tích trực tuyến khách chủ </li></ul>
  49. 50. Các từ khóa quan trọng <ul><li>VLDB: (Very large DB) CSDL rất lớn </li></ul><ul><li>Dimensions: các chiều </li></ul><ul><li>Dimension Data: chiều dữ liệu </li></ul><ul><li>Fact Data: dữ liệu sự kiện </li></ul><ul><li>Cube: khối dữ liệu </li></ul><ul><li>Start-schema: lược đồ hình sao </li></ul><ul><li>Snowflake-schema: lược đồ tuyết rơI </li></ul>
  50. 51. Các từ khóa quan trọng <ul><li>Aggregation: tổng hợp </li></ul><ul><li>Attribute hierarchies: các phân cấp thuộc tính </li></ul><ul><li>Granularity: độ thô </li></ul><ul><li>Metadata: siêu dữ liệu </li></ul><ul><li>Reporting: báo cáo </li></ul><ul><li>Legacy system:hệ thống di sản </li></ul><ul><li>Extraction: chiết </li></ul><ul><li>Transformation: chuyển đổi </li></ul>
  51. 52. Các từ khóa quan trọng <ul><li>Clean-Up: làm sạch </li></ul><ul><li>DWH update: cập nhật KDL </li></ul>
  52. 53. So sánh OLTP và kho dữ liệu <ul><li>Xử lý toàn tác trực tuyến (OLTP) </li></ul><ul><li>Công nghệ: CSDL quan hệ </li></ul><ul><li>Hướng toàn tác </li></ul><ul><li>Chuẩn hóa, không dư thừa </li></ul><ul><li>Tập trung vào dl hiện tại </li></ul><ul><li>Trả lời các truy vấn đơn </li></ul><ul><li>Toàn tác: tính toàn vẹn, bảo mật, đồng thời, Locking </li></ul><ul><li>Xử lí toàn tác </li></ul><ul><li>Kho dữ liệu, xử lý phân tích trực tuyến (OLAP) </li></ul><ul><li>CSDL quan hệ, CSDL đa chiều </li></ul><ul><li>Chấp nhận dư thừa </li></ul><ul><li>Tiền tính toán tổng hợp </li></ul><ul><li>Dữ liệu lịch sử </li></ul><ul><li>Phân tích rất phức tạp </li></ul><ul><li>Tích hợp dữ liệu từ đa nguồn </li></ul><ul><li>Dữ liệu rất lớn </li></ul><ul><li>Các câu hỏi phức tạp </li></ul>
  53. 54. Tóm tắt chương 2 <ul><li>Các thành phần chính </li></ul><ul><ul><li>Phương pháp luận </li></ul></ul><ul><ul><li>Mô hình hóa </li></ul></ul><ul><ul><li>Quản lí dữ liệu </li></ul></ul><ul><ul><li>ETT </li></ul></ul><ul><ul><li>Truy cập và tạo báo cáo </li></ul></ul><ul><li>Các từ khoá </li></ul><ul><li>So sánh OLTP và OLAP </li></ul>
  54. 55. Câu hỏi cho chương 2 ??? Uff...
  55. 56. Chương 3: Kiến trúc kho dữ liệu
  56. 57. Kiến trúc kho dữ liệu <ul><li>Gồm 3 tầng (layers) </li></ul><ul><ul><li>Tầng thể hiện (Presentation layer) </li></ul></ul><ul><ul><li>Tầng xử lý phân tích trực tuyến (OLAP layer) </li></ul></ul><ul><ul><li>Tầng chiết (Extraction layer) </li></ul></ul>
  57. 58. Kiến trúc kho dữ liệu chi tiết <ul><ul><li>Tầng thể hiện </li></ul></ul><ul><ul><li>Tầng OLAP </li></ul></ul><ul><ul><li>Tầng thu thập </li></ul></ul>
  58. 59. Tầng 1- Các hệ hỗ trợ quyết định <ul><li>Được biết đến như là một phần của kho dữ liệu </li></ul><ul><li>Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ </li></ul><ul><li>Cho phép phân tích cao trực tuyến dữ liệu </li></ul><ul><li>Thăm dò sự tương tác dữ liệu </li></ul><ul><li>Cung cấp các giao diện người dùng phức tạp </li></ul><ul><li>Cung cấp khả năng phân tích dữ liệu phức tạp bằng phuong thức đơn giản </li></ul>
  59. 60. Tầng 1-Các hệ HTQĐ (tt) <ul><li>Kiến trúc khách chủ </li></ul><ul><li>Giao diện cho KDL trung tâm và các chợ dl cục bộ </li></ul><ul><li>Nhiều loại giao diện cho nhiều cấp user: báo cáo và phân tích </li></ul><ul><li>Các báo cáo kinh doanh, ước lượng, dự báo, phân loại, v…v </li></ul><ul><li>Các kỹ thuật biểu diễn dữ liệu </li></ul><ul><li>Công nghệ khai phá dữ liệu </li></ul>
  60. 61. Tầng 1-Các hệ HTQĐ (tt) <ul><li>Công nghệ khai phá dữ liệu </li></ul><ul><ul><li>Khám phá ngược với dự đoán </li></ul></ul><ul><ul><li>Báo cáo kinh doanh </li></ul></ul><ul><ul><li>Thống kê </li></ul></ul><ul><ul><li>Phân tích khuynh hướng </li></ul></ul><ul><ul><li>Các cây quyết định </li></ul></ul><ul><ul><li>Qui nạp </li></ul></ul><ul><ul><li>Các hệ thống mờ </li></ul></ul><ul><ul><li>Các hệ thống chuyên gia </li></ul></ul><ul><ul><li>Mạng nơron </li></ul></ul><ul><ul><li>Các thuật toán di truyền </li></ul></ul>
  61. 62. Tầng 1-Các báo cáo <ul><li>Các báo cáo thường theo sau các lược đồ định trước </li></ul><ul><li>Các báo cáo đặc biệt: các báo cáo chi tiết, so sánh dựa trên các yêu cầu hiện thời </li></ul><ul><li>Các báo cáo ngoại lệ: được đưa ra cho một số ngoại lệ trong việc phân tích dữ liệu </li></ul>
  62. 63. Tầng 1-Các câu hỏi <ul><li>Khách hàng đang mua cái gì ? Không mua cái gì ? </li></ul><ul><li>Các đơn vị cạnh tranh đang làm gì ? Họ ảnh hưởng ra sao đến mối quan hệ giữa công ty và khách hàng ? </li></ul><ul><li>Loại ô tô màu nào có giá từ 20.000 đến 50.000 USD bán chạy nhất ? </li></ul><ul><li>Mặt hàng nào bán chạy nhất trong các kì noel gần đây ? </li></ul>
  63. 64. Tầng 2-OLAP <ul><li>Vào giữa các năm 1990: OLAP-Online Analytical Processing </li></ul><ul><li>Kỹ thuật phân tích đa chiều của đa tập dữ liệu lớn </li></ul><ul><li>12 tiêu chuẩn đánh giá được đề cập bởi E.F. Codd </li></ul><ul><li>Dữ liệu được trình bày theo mô hình đa chiều </li></ul><ul><li>Công nghệ OLAP cho phép truy cập nhanh tới các toán tử hỗ trợ đặt biệt như rolling-up, drilling down,.. </li></ul>
  64. 65. Tầng 2-OLAP <ul><li>Là giao diện cho KDL và các báo cáo để tương tác với dữ liệu </li></ul><ul><li>Caching </li></ul><ul><li>Tối ưu hoá câu hỏi </li></ul><ul><li>Sự phân tích các câu hỏi thường xuyên </li></ul><ul><li>MOLAP/ROLAP/HOLAP </li></ul><ul><li>An toàn: cấp quyền và quản lý truy cập </li></ul>
  65. 66. Tầng 2-Định nghĩa OLAP <ul><li>Là một loại phần mềm cho phép: </li></ul><ul><ul><li>Phân tích </li></ul></ul><ul><ul><li>Quản lý </li></ul></ul><ul><ul><li>Và thực hiện để : </li></ul></ul><ul><ul><ul><li>Truy cập nhanh, nhất quán dữ liệu </li></ul></ul></ul><ul><ul><ul><li>Dữ liệu được chuyển đổi từ mức thô sang cấu trúc đa chiều </li></ul></ul></ul><ul><li>Theo hiệp hội OLAP www.olap.org 1995 </li></ul><ul><li>12 tiêu chuẩn để đánh giá OLAP tools của E.F. Codd </li></ul>
  66. 67. Tầng 2-12 tiêu chuẩn <ul><li>Khung nhìn khái niệm đa chiều: mô hình đa chiều tương ứng với các vấn đề kinh doanh </li></ul><ul><li>Trong suốt: hệ qt csdl, sự hỗn tạp của dữ liệu nguồn, và kiến trúc trong suốt tới user </li></ul><ul><li>Có thể truy cập: chỉ có dl được yêu cầu cho phân tích được truy cập </li></ul><ul><li>Thiết lập báo cáo phù hợp: sự tăng trong dung lượng CSDL hoặc chiều không làm giảm hiệu suất </li></ul><ul><li>Kiến trúc khách chủ: Hệ thống OLAP phải tuân theo các nguyên tắc cơ bản để có sự linh động, adaptability, and inter-operability </li></ul>
  67. 68. Tầng 2-12 tiêu chuẩn <ul><li>Chiều chung: các chiều dữ liệu phải tương đương về cấu trúc và các khả năng xử lí </li></ul><ul><li>điều khiển ma trận rời rạc </li></ul><ul><li>Hỗ trợ đa user </li></ul><ul><li>Các toán tử qua các chiều không bị giới hạn: nhận dạng các phân cấp của chiều và tiến hành tính toán trong các chiều giao nhau. </li></ul><ul><li>Thao tác dữ liệu bằng trực giác: </li></ul><ul><li>Lập báo cáo linh động </li></ul><ul><li>Không giới hạn số chiều và mức độ tổng hợp </li></ul>
  68. 69. Tầng 2-Dữ liệu đa chiều Geography Product Item Type Category All City State Country All Time Month Year Day Week All Quarter
  69. 70. Tầng 2-Ví dụ về phân cấp
  70. 71. Phõn cấp chiều trong Kho dữ liệu <ul><li>Specification of hierarchies </li></ul><ul><li>Schema hierarchy </li></ul><ul><ul><li>day < { month < quarter ; week } < year </li></ul></ul><ul><li>Set _ grouping hierarchy </li></ul><ul><ul><li>{1..10} < inexpensive </li></ul></ul>
  71. 72. Tầng 2-Ví dụ dữ kiện và chiều (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
  72. 73. Tầng 2-Ví dụ của tổng hợp Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  73. 74. All Total annual sales of TV in U.S.A. Date Product Country All, All, All sum sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum
  74. 75. Cube: Một lưới các Cuboid all time item city supplier time,item time,city time,supplier item,city item,supplier city,supplier time,item,location time,item,supplier time,city,supplier item,city,supplier time, item, city, supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid
  75. 76. Duyệt khối <ul><li>Visualization </li></ul><ul><li>OLAP capabilities </li></ul><ul><li>Interactive manipulation </li></ul>
  76. 77. Tầng 2-Ví dụ của chuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  77. 78. Tầng 2-Ví dụ của rolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  78. 79. Tầng 2-Ví dụ của Drilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  79. 80. Tầng 2-Slice/Dice
  80. 81. Tầng 2-Pivot (Rotate)
  81. 82. Tầng 2-Các phương pháp lưu trữ dl <ul><li>Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP </li></ul><ul><li>Công cụ OLAP tương tác với cache and KDL </li></ul><ul><li>Các mô hình chuẩn lưu trữ dữ liệu cho các hệ thống toàn tác không thực thi cho các phép tính OLAP </li></ul><ul><li>Các hệ thống xử lý toàn tác: các mô hình quan hệ thực thể lớn-> câu hỏi mở rộng ra nhiều bảng->rất phức tạp, đa kết nối, thời gian thực hiện lâu. </li></ul><ul><li>OLAP: các câu hỏi phức tạp đặc biệt </li></ul><ul><li>Làm sao chúng ta có thể thiết kế một CSDL cho phép các câu hỏi lạ có thể thực hiện được ? </li></ul>
  82. 83. Tầng 2-Các yêu cầu của KDL <ul><li>Được tối ưu hóa cho OLAP </li></ul><ul><li>OLTP: dữ liệu được chuẩn hoá, không dư thừa, không phù hợp cho các câu hỏi phức tạp </li></ul><ul><li>OLAP: câu hỏi phức tạp, các tổng hợp được tính toán trước, dư thừa cao </li></ul><ul><li>Dữ liệu trong KDL là read only- thêm dữ liệu mới thay vì thay đổi dl cũ. </li></ul><ul><li>Yêu cầu 1: các phương pháp cho việc lưu trữ dl tối ưu hóa cho câu hỏi phức tạp </li></ul>
  83. 84. Tầng 2-Các yêu cầu của KDL (tt) <ul><li>Dữ liệu liên kết trong 1 không gian đa chiều </li></ul><ul><ul><li>Ví dụ:lượng hàng hoá được bán theo từng khách hàng từng ngày và từng sản phẩm tại từng kho hàng. </li></ul></ul><ul><li>Các hướng lưu trữ: </li></ul><ul><ul><li>ROLAP </li></ul></ul><ul><ul><li>MOLAP </li></ul></ul><ul><ul><li>HOLAP </li></ul></ul><ul><ul><li>DOLAP </li></ul></ul>
  84. 85. Tầng 2-MOLAP (1) <ul><li>Dữ liệu đa chiều </li></ul><ul><li>CSDL đa chiều sử dụng cho việc lưu trữ dữ liệu </li></ul><ul><li>Phù hợp với các yêu cầu của OLAP </li></ul><ul><li>Tương đồng trực tiếp với cấu trúc khối dl </li></ul><ul><li>Các vùng dữ liệu rãi rác vì chỉ một vùng nhỏ chứa dl </li></ul><ul><li>Dung lượng ! khối đa chiều n x m x.. x z </li></ul>
  85. 86. Tầng 2-MOLAP (2) <ul><ul><li>Dữ liệu được tìm thấy tại điểm giao của các chiều </li></ul></ul>Store GL_Line Time FINANCE Store Product Time SALES Customer
  86. 87. Tầng 2-MOLAP (3)
  87. 88. Tầng 2-ROLAP (1) <ul><li>Hệ phân tích trực tuyến quan hệ </li></ul><ul><li>Dựa trên cơ sở các CSDL quan hệ </li></ul><ul><li>Các lược đồ DL đặc biệt dùng để mô hình hoá dl đa chiều </li></ul><ul><li>Được tối ưu hóa cho các xử lí OLAP </li></ul><ul><li>Bảng dữ kiện chứa dữ liệu phân tích </li></ul><ul><li>Các bảng chiều chứa dl tham khảo </li></ul><ul><li>Có 2 kiểu mô hình dl: hình sao và bông tuyết </li></ul>
  88. 89. Tầng 2-ROLAP (2) <ul><ul><li>Dữ liệu được tìm thấy tại điểm giao của 1 cột và 1 một hàng </li></ul></ul>Columns Rows Table Key values to join
  89. 90. Tầng 2-ROLAP (3)
  90. 91. Tầng 2-So sánh R và MOLAP Property Relational Multidimensional Data representation Two dimension Multiple dimensions Data extraction Specific rows Specific dimensions Computations Functions High speed matrix Results Tool specific Matrix
  91. 92. Tầng 2-HOLAP <ul><li>OLAP ghép (lai) </li></ul><ul><li>Kết hợp các kĩ thuật MOLAP và ROLAP </li></ul><ul><li>Xử dụng CSDL ROLAP để lưu trữ các dữ liệu đa chiều </li></ul><ul><li>Lưu trong mãng đa chiều các câu hỏi thường gặp. </li></ul><ul><li>Giao diện với hai hệ qt CSDL </li></ul>
  92. 93. Tầng 2-HOLAP
  93. 94. Tầng 2-DOLAP <ul><li>CSDL OLAP </li></ul><ul><li>Lấy ra một phần từ KDL chuyển giao cho máy khách </li></ul><ul><li>OLAP và KDL server chạy trên máy chủ </li></ul><ul><li>Truy cập trực tiếp DL không cần mạng </li></ul><ul><li>Giới hạn các nguồn tại máy khách </li></ul><ul><li>Xử dụng cho các ứng dụng riêng lẻ </li></ul>
  94. 95. Tầng 2-Dữ liệu đa chiều <ul><li>Kho dl được tối ưu hóa cho các câu hỏi OLAP </li></ul><ul><li>Khung nhìn kháI niệm đa chiều </li></ul><ul><li>ROLAP và HOLAP: dữ liệu đa chiều được lưu trong các bảng sự kiện </li></ul><ul><li>Các lược đồ cho lưu trữ dl đa chiều </li></ul><ul><ul><li>Hình sao </li></ul></ul><ul><ul><li>Hình bông tuyết </li></ul></ul>
  95. 96. Tầng 2-Dữ kiện và các chiều <ul><li>Dữ kiện: (Fact) </li></ul><ul><ul><li>Thể hiện các vùng tiến trình giao dịch gốc </li></ul></ul><ul><ul><li>Không hứa hẹn thay đổi khi đã được sinh ra </li></ul></ul><ul><ul><li>Lưu trữ tại cấp độ chắc chắn của độ thô </li></ul></ul><ul><li>Các chiều: (Dimensions) </li></ul><ul><ul><li>Thông tin tham khảo bởi dữ kiện có thể được cấu trúc cho phân tích </li></ul></ul><ul><ul><li>Định nghĩa các phân cấp tổng hợp </li></ul></ul><ul><ul><li>Chiều thời gian, các nhóm sp, và vùng </li></ul></ul>
  96. 97. Tầng 2-ROLAP-Lược đồ hình sao <ul><li>Phân đoạn dữ liệu </li></ul><ul><li>Các bản không chuẩn hóa </li></ul><ul><li>Một bản dữ kiện được vây quanh bởi các bảng chiều </li></ul><ul><li>Các câu hỏi nhằm vào bảng sự kiện và được định dạng bởi các bảng chiều </li></ul><ul><li>Không cần thiết phảI liên kết qua nhiều bảng </li></ul><ul><li>Mô hình nổi bật cho KDL </li></ul>
  97. 98. Tầng 2-ROLAP-Lược đồ hình sao
  98. 99. Tầng 2-Lược đồ bông tuyết <ul><li>Dựa trên lược đồ hình sao </li></ul><ul><li>Bảng dữ kiện </li></ul><ul><li>Các bản chiều được chuẩn hóa </li></ul>
  99. 100. Tầng 2-Lược đồ bông tuyết
  100. 101. Tầng 2-Chợ dữ liệu (1) <ul><li>Là một tập các kdl nhỏ </li></ul><ul><li>Được xây dựng cho các nhu cần của các vùng hay ban nhỏ </li></ul><ul><li>Dữ liệu từ các cdl có thể được tổng hợp vào một kdl trung tâm </li></ul><ul><li>Hoặc cdl có thể trích dữ liệu từ một kdl trung tâm để trình bày cho một nhu cầu của một nhóm user </li></ul>
  101. 102. Tầng 2-Chợ dữ liệu (2) <ul><li>Các lý do cho việc xây dựng các cdl cung ứng cho 1 một kdl trung tâm </li></ul><ul><ul><li>Đó là một dạng dự án kdl nhỏ </li></ul></ul><ul><ul><li>Dễ dàng bắt đầu với nó </li></ul></ul><ul><ul><li>Nhằm vào một vùng kinh doanh </li></ul></ul><ul><ul><li>Dễ dàng và nhanh chóng để xây dựng một kdl cho toàn công ty </li></ul></ul>
  102. 103. Tầng 2-Chợ dữ liệu (3) <ul><li>Các hạn chế </li></ul><ul><ul><li>Các hệ thống độc lập không dễ dàng tích hợp được </li></ul></ul><ul><ul><li>KDL cung cấp khả năng tiến hành các hoạt động phân tích rộng trong khi các chơ dl chỉ nhằm vào 1 một khung nhìn hạn chế. </li></ul></ul><ul><ul><li>Tăng thêm việc vận chuyển </li></ul></ul>
  103. 104. Tầng 2-Chợ dữ liệu (4) <ul><li>Các lý do cho việc xây dựng các cdl từ một một kdl trung tâm </li></ul><ul><ul><li>Dữ liệu được chuyển đổi và biểu diễn được yêu cầu bởi một nhóm các user đặc biệt </li></ul></ul><ul><ul><li>Dữ liệu có sẵn ở cấp địa phương </li></ul></ul><ul><ul><li>Các câu hỏi được phân bố qua một số các cdl thay vì phải nạp vào một kdl trung tâm </li></ul></ul><ul><ul><li>Trong một số trường hợp không cần thiết có toàn dl </li></ul></ul>
  104. 105. Tầng 2-Chợ dữ liệu (5)
  105. 106. Tầng thu thập: tầng 3 <ul><li>Các loại dữ liệu nguồn </li></ul><ul><ul><li>Dữ liệu từ các hệ thống tác nghiệp </li></ul></ul><ul><ul><li>Hệ thống kế thừa </li></ul></ul><ul><ul><li>Các nguồn dữ liệu bên ngoài </li></ul></ul><ul><li>ETT (Chiết, chuyển đổi, và chuyển tải) </li></ul><ul><li>Cung cấp dữ liệu </li></ul><ul><li>Siêu dữ liệu cho hệ thống thu thập dữ liệu </li></ul>
  106. 107. Dữ liệu từ các hệ thống tác nghiệp <ul><li>Chứa dữ liệu chi tiết và hiện tại </li></ul><ul><li>Được sử dụng cho các toàn tác hàng ngày </li></ul><ul><li>Chứa dữ liệu thích hợp hiện hành </li></ul><ul><li>Là nguồn dữ liệu được tích hợp dể xây dựng Kho dữ liệu </li></ul>Ví dụ “employees” trong kho dữ liệu là sự hợp nhất của “workers” trong Source 1 và “managers” trong Source 2
  107. 108. Hệ thống kế thừa <ul><li>Các sưu tập dl cũ không được dùng cho các mục đích hoạt động </li></ul><ul><li>Phương phác khác nhau của việc tổ chức dl ngược lại với mô hình hiện tại </li></ul><ul><li>Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng </li></ul><ul><li>Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dl hệ thống kế thừa </li></ul>
  108. 109. Dữ liệu từ hệ thống ngoài <ul><li>Dữ liệu được lấy từ các nguồn bên ngoài </li></ul><ul><li>Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,… </li></ul><ul><li>Không phảI là dữ liệu được tạo ra trong công ty </li></ul><ul><li>Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp </li></ul><ul><li>Được yêu cầu cho các phân tích chi tiết </li></ul>
  109. 110. Chiết dữ liệu <ul><li>Dữ liệu được chiết từ các nguồn bên ngoài </li></ul><ul><li>Định nghĩa sự thường xuyên của chiết </li></ul><ul><li>Định nghĩa ảnh chụp nhanh của dl được chiết </li></ul><ul><li>Định nghĩa các mục dl đã được thay đổi sau cấp nhật mới nhất </li></ul>
  110. 111. Chiết dữ liệu <ul><li>Dữ liệu duợc chiết ra từ nhiều nguồn ở nhiều kiểu dữ liệu khác nhau: quan hệ, tệp, HTML, XML, … </li></ul>
  111. 113. Làm sạch <ul><li>Tìm và loại trừ các bộ trùng nhau </li></ul><ul><ul><li>Jane Doe vs. Jane Q. Doe </li></ul></ul><ul><li>Kiểm tra tính nhất quán Khám phá ra dữ liệu sai, không nhất quán: </li></ul><ul><ul><li>Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không… </li></ul></ul><ul><li>Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL) </li></ul><ul><ul><li>Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định) </li></ul></ul><ul><li>Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được </li></ul>
  112. 114. Sự chuyển đổi <ul><li>Loại trừ các dữ liệu gây nhiễu </li></ul><ul><li>Chuyển đổi dữ liệu vào một lược đồ nhất quán. </li></ul><ul><li>Các luật cho việc chuyển đổi </li></ul><ul><li>Tri thức về dữ liệu </li></ul><ul><li>Các quyết định về độ thụ của dữ liệu </li></ul><ul><li>Dịch kiểu dữ liệu và tập kí tự </li></ul>
  113. 115. Cung cấp dữ liệu <ul><li>Nạp dữ liệu vào kdl </li></ul><ul><li>Tính toán các bản tổng hợp </li></ul><ul><li>Tính toán các trường được suy dẫn </li></ul><ul><li>Cung cấp Online/offline </li></ul><ul><li>Lập lịch cho tiến trình cung cấp </li></ul>
  114. 116. Tầng 1: Siêu dữ liệu <ul><li>Lưu thông tin về các nguồn dữ liệu bên ngoài </li></ul><ul><li>Thông tin về mô hình kho dữ liệu </li></ul><ul><li>Điều khiển các đường dẫn, chiết và nạp dữ liệu, thiết lập các câu hỏi </li></ul><ul><li>Lưu thông tin về quá trình nạp dữ liệu </li></ul>
  115. 117. Tầng 1: Siêu dữ liệu <ul><li>Siêu dữ liệu kĩ thuật </li></ul><ul><ul><li>Các nguồn, bảo mật, vvv </li></ul></ul><ul><li>Siêu dữ liệu kinh doanh </li></ul><ul><ul><li>Các luật để chuyển hoá </li></ul></ul><ul><li>Siêu dữ liệu thao tác </li></ul>
  116. 118. Kiến trúc kho dữ liệu chi tiết
  117. 119. Câu hỏi cho chương 3??? Uff...
  118. 120. Chương 4: Mô hình dữ liệu đa chiều
  119. 121. Nội dung chương <ul><li>Các khái niệm chính của mô hình dữ liệu đa chiều </li></ul><ul><ul><li>Dữ kiện (Fact) </li></ul></ul><ul><ul><li>Chiều (Dimension) </li></ul></ul><ul><ul><li>Độ thô </li></ul></ul><ul><ul><li>Tổng hợp </li></ul></ul><ul><li>Các mô hình lưu trữ </li></ul>
  120. 122. Mô hình dữ liệu đa chiều <ul><li>Được đề xuất và thiết kế cho một mục đích phân tích dữ liệu </li></ul><ul><li>Mô hình dữ liệu này không phù hợp cho hệ thống OLTP </li></ul><ul><li>Mô hình dữ liệu này được thao tác bởi các công cụ OLAP </li></ul><ul><ul><li>Các công cụ này cung cấp các phương tiện truy vấn mạnh dựa trên thiết kế mô hình dữ liệu đa chiều </li></ul></ul><ul><ul><li>Ví dụ như: TARGIT Analysis, SQL OLAP Server </li></ul></ul>
  121. 123. Mô hình dữ liệu đa chiều Location Time Store District Region All Month Year Day Week All Quarter Product Product Brand Manufacturer All
  122. 124. Các thành phần chính <ul><li>Các dữ kiện (Facts) </li></ul><ul><ul><li>Miêu tả các vùng kinh doanh </li></ul></ul><ul><ul><li>Không thay đổi khi nó đã được sinh ra </li></ul></ul><ul><ul><li>Được lưu tại một cấp thô nào đó </li></ul></ul><ul><li>Các chiều (Dimensions) </li></ul><ul><ul><li>Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân tích </li></ul></ul><ul><ul><li>Định nghĩa các phân cấp </li></ul></ul><ul><li>Và các khối đa chiều (Cubes) </li></ul>
  123. 125. Khối <ul><li>Một khối có thể có nhiều chiều </li></ul><ul><ul><li>Nếu có nhiều hơn 3 chiều sẽ được gọi là ‘siêu khối’ (”hypercube”) </li></ul></ul><ul><ul><li>Về mặt lý thuyết thì số chiều là không hạn chế </li></ul></ul><ul><ul><li>Thường thì số chiều là từ 4 đến 12 </li></ul></ul><ul><li>Một khối bao gồm nhiều ô dữ liệu </li></ul><ul><ul><li>Là một liên kết giữa các giá trị của chiều </li></ul></ul><ul><ul><li>Một ô có thể là rỗng (không có dữ liệu cho liên kết này) </li></ul></ul><ul><ul><li>Khối thưa ( sparse cube): có nhiều ô rỗng </li></ul></ul><ul><ul><li>Khối dày đặc ( dense cube): có ít ô rỗng </li></ul></ul>
  124. 126. Ví dụ về ô rỗng
  125. 127. Ví dụ về dữ kiện và chiều <ul><li>Kho Grocery </li></ul><ul><li>Dữ kiện: </li></ul><ul><ul><li>POS:point of sales sự kiện bán hàng </li></ul></ul><ul><li>Chiều: </li></ul><ul><ul><li>Thời gian (Time) </li></ul></ul><ul><ul><li>Vị trí Kho (Location - Store) </li></ul></ul><ul><ul><li>Sản phẩm (Product) </li></ul></ul><ul><ul><li>Quảng cáo (Promotion) </li></ul></ul>
  126. 128. Khối Grocery
  127. 129. Các k hái niệm về chiều <ul><li>Miền phân cấp </li></ul><ul><li>Các cấp (Levels), cấp tương ứng với các độ thô </li></ul><ul><li>Lược đồ chiều Dimension schema </li></ul><ul><li>Các toán tử chiều Dimension operators </li></ul>
  128. 130. Các ví dụ về chiều
  129. 131. Thuộc tính chiều <ul><li>Một chiều bao gồm nhiều thuộc tính. Ví dụ như: </li></ul><ul><ul><li>Time dimension: day, month, year </li></ul></ul><ul><ul><li>Product dimension: ProductID, LineID, BrandID </li></ul></ul><ul><li>Một chiều được cấu trúc/ tổ chức ở dạng phân cấp: </li></ul><ul><ul><li>Time dimension: day  week  quarter </li></ul></ul><ul><ul><li>Product dimension: product  brand  manufacturer </li></ul></ul><ul><li>Các thuộc tính xác định cấp nào mà một phần tử chiều thuộc vào </li></ul><ul><li>Các phần tử time có cùng năm, tháng thuộc về cấp ‘month’ </li></ul><ul><li>Tất cả phần tử product có cùng brand thuộc về cấp ‘brand’ </li></ul>
  130. 132. Ví dụ về vùng phân cấp
  131. 133. Lược đồ chiều và phân cấp Geography Store District Region All Time Month Year Day Week All Quarter Product Product Brand Manufacturer All
  132. 134. Các toán tử chiều
  133. 135. Dữ kiện (Fact Data) <ul><li>Các dữ kiện số (Numerical measures) </li></ul><ul><li>Được truy cập bởi các chiều </li></ul>Fact Summary Fact
  134. 136. Dữ kiện (Fact Data) <ul><li>Chứa dữ kiện suy dẫn </li></ul>Unit_Sales Unit_Price / Average_Selling_Price January_Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales + January
  135. 137. Dữ kiện (Fact Data) <ul><li>Các bảng chứa dữ liệu lớn </li></ul><ul><li>Dữ liệu được dán nhãn thời gian </li></ul>Time 1992 1997
  136. 138. Ví dụ về dữ kiện (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
  137. 139. Khối đa chiều (Cube) Time Store District Region All Location Month Year Day Week All Quarter (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max) Product Product Brand Manufacturer All
  138. 140. Ví dụ về khối 3 chiều
  139. 141. Ví dụ về tổng hợp (Aggregation) Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  140. 142. Ví dụ của chuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  141. 143. Ví dụ: rolling up và drilling down
  142. 144. Ví dụ của rolling up
  143. 145. Ví dụ của rolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  144. 146. Ví dụ của Drilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  145. 147. Ví dụ về Slice và Pivot
  146. 148. ROLAP
  147. 149. Mô hình dữ liệu đa chiều trong csdl quan hệ
  148. 150. Lược đồ hình sao tổng quát
  149. 151. Lược đồ hình sao <ul><li>Phân đoạn dữ liệu </li></ul><ul><li>Dữ liệu không chuẩn hóa </li></ul><ul><li>Một bản dữ kiện và các chiều bao quanh </li></ul><ul><li>Các câu hỏi nhằm vào bản dữ kiện và được cấu trúc bởi các bản chiều </li></ul><ul><li>Mô hình nổi bật của KDL </li></ul>
  150. 152. Ví dụ lược đồ hình sao có 4 chiều
  151. 153. Ví dụ lược đồ hình sao với dữ liệu
  152. 154. Các lược đồ của ROLAP
  153. 155. Lược đồ hình bông tuyết <ul><li>Căn cứ vào lược đồ hình sao </li></ul><ul><li>Bản dữ kiện giống như luợc đồ hình sao </li></ul><ul><li>Các chiều được chuẩn hoá (chuẩn 3) </li></ul><ul><li>Các chiều được cấu trúc rõ ràng </li></ul>
  154. 156. Ví dụ về lược đồ bông tuyết
  155. 157. Ví dụ về lược đồ bông tuyết
  156. 158. Chiều trong lược đồ hình bông tuyết
  157. 159. Các lược đồ của ROLAP (6) Đa fact hình sao ( Multi fact star schema )
  158. 160. Khóa trong lược đồ ROLAP Time Product Store Single Column Time Key Single Column Product Key Single Column Store Key Composite Key
  159. 161. Các khoá <ul><li>Khóa chính nằm trên các bản chiều </li></ul><ul><li>Khoá ngoài nằm trên bản dữ kiện </li></ul><ul><li>Tạo lập các index để tăng tốc độ </li></ul><ul><li>Khoá được xác định trong giai đoạn thiết kế </li></ul><ul><li>Các khóa kết hợp có thể được áp dụng </li></ul>
  160. 162. Các thuộc tính của bản dữ kiện Non-additive Không liên kết Semi-additive Liên kết với một số chiều Additive Liên kết với tất cả các chiều
  161. 163. Các thuộc tính của bản dữ kiện Additive Cost by Product + Store + Time Cost by Product + Promotion + Time Revenue by Product + Promotion + Time Revenue by Product + Promotion + Store + Time . . . Semi-Additive Sales Fact Time_key Product_key Store_key Promotion_key Quantity_sold* Revenue* Cost* Customer Count Time Dimension Store Dimension Product Dimension Promotion Dimension
  162. 164. Chiều dữ liệu <ul><li>Dữ liệu của chiều xác định cấu trúc và miền của câu hỏi </li></ul><ul><li>Dữ liệu của chiều liên kết với dữ kiện thông qua các khóa </li></ul>Customer Suppliers Time Products Sales Items Query path
  163. 165. Chuẩn hóa chiều <ul><li>Dữ liệu chuẩn hóa không </li></ul><ul><ul><li>Dư thừa </li></ul></ul><ul><ul><li>Trùng lặp </li></ul></ul><ul><ul><li>Các cột khóa độc lập </li></ul></ul><ul><li>Dữ liệu không chuẩn hóa </li></ul><ul><ul><li>Tăng tốc độ trả lời câu hỏi </li></ul></ul><ul><ul><li>Tồn tại trong kho dữ liệu </li></ul></ul>
  164. 166. Độ thô dữ liệu <ul><ul><li>Dữ liệu được làm cho phù hợp với KDL tại một mức độ chắc chắn (độ thô) </li></ul></ul><ul><ul><li>Căn cứ vào độ thô đó các tổng hợp được định nghĩa </li></ul></ul><ul><ul><li>Độ thô cao: nhiều dữ liệu hơn, độ thô thấp: ít dữ liệu hơn </li></ul></ul><ul><li>Các câu hỏi: </li></ul><ul><ul><li>Độ thô nào đã có sẵn ? </li></ul></ul><ul><ul><li>Độ thô nào hợp lý và tiện dụng cho KDL </li></ul></ul><ul><li>Xu hướng lưu trữ dữ liệu cú độ thô cao nhất, vì khi đã giảm độ thô thì dữ liệu chi tiết không thể phục hồi được </li></ul>
  165. 167. Độ thô dữ liệu <ul><li>Tác động đến kho dl </li></ul><ul><ul><li>Dung lượng của kdl </li></ul></ul><ul><ul><li>Cấp độ phân tích </li></ul></ul><ul><ul><li>Tính mềm dẻo </li></ul></ul><ul><li>Cấp độ chi tiết của dữ liệu </li></ul><ul><ul><li>Ngày, Tháng, Năm </li></ul></ul><ul><ul><li>Tỉnh, quốc gia,… </li></ul></ul><ul><li>Phân tích các yêu cầu để tránh dư thừa hay thiếu hụt dữ liệu </li></ul><ul><li>Khảo sát, làm mới nếu cần thiết </li></ul>
  166. 168. Các bảng tổng hợp <ul><li>Mục đích: trả lời nhanh các câu hỏi thường gặp </li></ul><ul><li>Các bước: </li></ul><ul><ul><li>Nhận diện các câu hỏi thường gặp </li></ul></ul><ul><ul><li>Nhận diện các chiều và các tổng hợp tương ứng </li></ul></ul><ul><ul><li>Định nghĩa phân cấp của các tổng hợp </li></ul></ul><ul><ul><li>Tạo một cách có chọn lựa các bản dữ kiện tổng hợp tính toán trước </li></ul></ul><ul><ul><li>Tạo các bảng chiều tổng hợp </li></ul></ul>
  167. 169. Các bảng tổng hợp <ul><li>Việc dùng các tổng hợp được tính toán và lưu trữ trước là một hiệu quả lớn đối với kho dữ liệu để điều khiển và làm tăng hiệu suất câu hỏi </li></ul><ul><li>Kimball 1996 </li></ul>
  168. 170. Chương 5: K ỹ thuật mô hình hoá các chiều cơ sở
  169. 171. Giới thiệu <ul><li>Các bước mô hình kho dữ liệu </li></ul><ul><li>Độ thô dữ liệu (Data Granularity) </li></ul><ul><li>Lưu trữ dữ liệu </li></ul><ul><li>Các phân cấp thuộc tính </li></ul><ul><li>Truy vấn KDL và OLAP </li></ul><ul><li>Các lỗi thường gặp khi xây dựng 1 KDL </li></ul><ul><li>Ví dụ </li></ul>
  170. 172. Các tầng <ul><li>Tầng khái niệm Conceptual layer – dữ liệu và xử lí dữ liệu </li></ul><ul><li>Tầng logic Logical layer – dữ liệu và xử lí kinh doanh </li></ul><ul><li>Tầng vật lý Physical layer – cấu trúc bên trong </li></ul><ul><li>Các chủ thể, dữ kiện và mối quan hệ </li></ul>
  171. 173. Tầng trong hệ thống thông tin Conceptual Layer Logical Layer Physical Layer Physical Layer Logical Layer Operational systems Warehouse
  172. 175. Các thành phần chính <ul><li>Phân cấp thuộc tính của các chiều </li></ul><ul><li>Mối quan hệ </li></ul><ul><li>Dữ kiện </li></ul>Product Dimension Manufacturer Brand Product Account Year Time Dimension Account Week Region Location Dimension Store Product_key Store_key Acct_Week_key Sales Data District
  173. 176. Các tiến trình mô hình hóa <ul><li>Xác định yêu cầu của người dùng </li></ul><ul><li>Hướng dẫn người dùng hiểu về công nghệ KDL </li></ul>
  174. 177. Các tiến trình mô hình hóa <ul><li>Định nghĩa mô hình kinh doanh </li></ul><ul><li>Mô hình hóa các chiều </li></ul><ul><li>Chọn mô hình lưu trữ </li></ul>Conceptual Model Physical Model Logical Model
  175. 178. Các công cụ và phương pháp <ul><li>Chọn các công cụ với giao diện đồ họa </li></ul><ul><ul><li>Tạo lập tài liệu </li></ul></ul><ul><ul><li>Định nghĩa các liên kết và ràng buộc </li></ul></ul><ul><li>Phương pháp luận </li></ul><ul><li>Mô hình hoá </li></ul><ul><li>Xây dựng sản phẩm </li></ul>
  176. 179. Tóm lược các lược dồ <ul><ul><li>Sao </li></ul></ul><ul><ul><li>Bông tuyết </li></ul></ul><ul><ul><li>Đa sao </li></ul></ul>
  177. 180. Mô hình hóa các chiều <ul><li>Mô hình dựa vào nội dung của dữ liệu </li></ul><ul><li>Mô hình với các tổng hợp cần thiết </li></ul><ul><li>Mô hình phải đáp ứng yêu cầu phân tích sâu, và tổng hợp </li></ul><ul><li>Có thể không chuẩn hóa - star </li></ul><ul><li>Có thể chuẩn hóa - snowflake </li></ul><ul><li>Xây dựng các phân cấp </li></ul>
  178. 181. Mô hình các bảng tóm tắt <ul><li>Định nghĩa các bảng tóm tắt trước khi thiết kế </li></ul><ul><li>Dùng các bảng riêng để chứa các tổng hợp/tóm tắt </li></ul>SALES FACTS Sales$ Region Month 10,000 North Jan 97 12,000 South Feb 97 11,000 North Jan 97 15,000 West Mar 97 18,000 South Feb 97 20,000 North Jan 97 10,000 East Jan 97 2,000 West Mar 97 SALES BY MONTH/REGION Month Region Tot_Sales$ Jan 97 North 41,000 Jan 97 East 10,000 Feb 97 South 40,000 Mar 97 West 17,000 SALES BY MONTH Month Tot_Sales Jan 97 51,000 Feb 97 40,000 Mar 97 17,000
  179. 182. Khi nào thì tóm tắt dữ liệu <ul><li>Phân tích và đưa ra quyết định để truy cập trực tiếp các tổng hợp có sẵn hay tính toán tại thời điểm thực hiện câu hỏi. </li></ul><ul><li>Việc tính toán các tỉ số nén cho phép quyết định nên chọn phương án nào </li></ul>Queried Rows Displayed Rows Calculation Ratio 1,341 22 22/11341 0.0164 234 22 22/234 0.09 30 22 22/30 0.73 20 22 22/20 1.1
  180. 183. Các công cụ <ul><li>Logic Works </li></ul><ul><li>Micro Strategy </li></ul><ul><li>Oracle Designer/2000 Data Mart Designer </li></ul><ul><li>Prism Solutions </li></ul><ul><li>Smart Corporation </li></ul>
  181. 184. Ví dụ Kho dữ liệu: Grocery Store <ul><li>Một dây chuyền các cửa hàng tạp phẩm nằm rãi rác 3 bang ở Mỹ </li></ul><ul><li>Các kho: các siêu thị với các cửa hàng như tạp phẩm, bơ sữa, thịt, thức ăn lạnh, bánh mỳ, đồ uống, .. </li></ul><ul><li>Khoảng 60.000 sản phẩm tại mỗi kho </li></ul><ul><li>Ví dụ điển hình của KDL trích từ KIM 96 </li></ul>
  182. 185. Cơ sở <ul><li>Dữ liệu sẵn sàng cho việc xây dựng KDL </li></ul><ul><ul><li>Dữ liệu từ các hệ thống nguồn: OLTP </li></ul></ul><ul><ul><li>Được làm sạch </li></ul></ul><ul><li>Xây dựng kho DL: </li></ul><ul><ul><li>Mô hình các tiến trình kinh doanh nào ? </li></ul></ul><ul><ul><li>Định nghĩa độ thô của dữ liệu để phù hợp với KDL </li></ul></ul><ul><ul><li>Mô hình hoá cấu trúc KDL </li></ul></ul><ul><ul><li>Biến đổi dữ liệu theo cấu trúc Kho DL </li></ul></ul><ul><ul><li>Tính toán các tổng hợp và các dữ kiện suy dẫn </li></ul></ul>
  183. 186. Các tiến trình mô hình <ul><li>KDL miêu tả khung nhìn của một tiến trình kinh doanh </li></ul><ul><li>Sự quyết định mô hình tiến trình kinh doanh nào có tác động quan trọng </li></ul><ul><ul><li>Nhằm vào các vấn đề gì ? </li></ul></ul><ul><ul><li>Các câu hỏi được đặt ra ? </li></ul></ul><ul><ul><li>Các thông tin cần thiết </li></ul></ul><ul><ul><li>KDL trung tâm hay các chợ dữ liệu </li></ul></ul>
  184. 187. Tiến trình kinh doanh <ul><li>Dữ liệu OLTP </li></ul><ul><ul><li>Point of sales (POS) data: Dữ liệu bán hàng </li></ul></ul><ul><ul><li>Dữ liệu nhà cung cấp </li></ul></ul><ul><ul><li>Dữ liệu kế toán </li></ul></ul><ul><ul><li>Dữ liệu khách hàng </li></ul></ul><ul><ul><li>Sự quảng cáo </li></ul></ul><ul><ul><li>Mục đích: Xây dựng một CSDL hoạt động hàng ngày </li></ul></ul>
  185. 188. Ví dụ về độ thô <ul><li>Độ thô nào cho dữ liệu POS? Các khả năng ? </li></ul><ul><ul><li>Toàn tác đơn theo từng khách hàng từng sản phẩm tại từng kho </li></ul></ul><ul><ul><li>Toàn tác nhóm theo từng khách hàng từng sản phẩm tại từng kho </li></ul></ul><ul><ul><li>Toàn tác nhóm hàng ngày theo từng kho từng sản phẩm </li></ul></ul><ul><ul><li>Toàn tác nhóm hàng tuần theo từng kho từng sản phẩm </li></ul></ul><ul><ul><li>Toàn tác nhóm hàng ngày từng sản phẩm tại từng vùng </li></ul></ul>
  186. 189. Độ thô <ul><li>Toàn tác nhóm hàng ngày theo từng kho từng sản phẩm </li></ul><ul><ul><li>Dữ kiện theo từng khách hàng từng sản phẩm tại từng kho không phù hợp cho việc phân tích thị trường </li></ul></ul><ul><ul><li>Dữ kiện theo từng tuần, hay tháng cũng không phù hợp vì sẽ không phân tích được sự khác nhau giữa các ngày </li></ul></ul><ul><li>Sự quyết định độ thô nào phụ thuộc vào tiến trình kinh doanh và các câu hỏi cần trả lời </li></ul>
  187. 190. Tầng 2-Các phương pháp lưu trữ dl <ul><li>Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP </li></ul><ul><li>Dùng loại nào trong: </li></ul><ul><ul><li>MOLAP </li></ul></ul><ul><ul><li>ROLAP </li></ul></ul><ul><ul><li>HOLAP </li></ul></ul><ul><ul><li>Các chợ dữ liệu </li></ul></ul>
  188. 191. Ví dụ: Kho DL Grocery <ul><li>Các CSDL quan hệ </li></ul><ul><li>CSDL quan hệ được sử dụng trong OLTP tại các công ty </li></ul><ul><li>Các chuyên gia CNTT tại các công ty đã làm quen nhiều với CSDL quan hệ </li></ul><ul><li>ROLAP được dùng rộng rãI </li></ul><ul><li>ROLAP được dùng để lưu trữ KDL Grocery </li></ul>
  189. 192. Các buớc thực hiện <ul><li>Chọn các tiến trình kinh doanh cho mô hình </li></ul><ul><ul><li>Sales </li></ul></ul><ul><li>Chọn cấp độ của tiến trình kinh doanh </li></ul><ul><ul><li>SKU by Store by Promotion by Day </li></ul></ul><ul><ul><li>Chọn độ thô </li></ul></ul><ul><li>Chọn các chiều </li></ul><ul><ul><li>Time, Store, Promotion, Product </li></ul></ul><ul><li>Chọn các dữ kiện </li></ul><ul><ul><li>Dollar_sales, unit_sales, dollar_cost, customer_count </li></ul></ul>
  190. 194. Ước luợng dung luợng <ul><li>Time dimension: 2 years = 730 days </li></ul><ul><li>Store dimension: 300 stores reporting each day </li></ul><ul><li>Product dimension: 30,000 products, only 3000 sell per day </li></ul><ul><li>Promotion dimension: 5000 combinations, but a product only appears in one combination per day </li></ul><ul><li>Number of fact records: 730*300*3000*1 = 657,000,000 </li></ul><ul><li>Number of fields: 4 key + 4 fact = 8 fields </li></ul><ul><li>Total DB size: 657,000,000 * 8 fields * 4 bytes = 21 GB </li></ul>
  191. 195. Dữ kiện (Facts) và Chiều <ul><li>Dữ kiện: </li></ul><ul><ul><li>Miêu tả các vùng kinh doanh </li></ul></ul><ul><ul><li>Không thay đổi khi nó đã được sinh ra </li></ul></ul><ul><ul><li>Được lưu tại một cấp thô nào đó </li></ul></ul><ul><li>Chiều: </li></ul><ul><ul><li>Thông tin tham chiếu qua đó cỏc sự kiện có thể được cấu trúc cho việc phân tích </li></ul></ul><ul><ul><li>Định nghĩa các phân cấp </li></ul></ul>
  192. 196. Ví dụ về dữ kiện và chiều <ul><li>Kho Grocery </li></ul><ul><li>Dữ kiện: </li></ul><ul><ul><li>POS: sự kiện bán hàng </li></ul></ul><ul><li>Chiều: </li></ul><ul><ul><li>Thời gian (Time) </li></ul></ul><ul><ul><li>Kho (Store) </li></ul></ul><ul><ul><li>Quảng cáo (Promotion) </li></ul></ul><ul><ul><li>Sản phẩm (Product) </li></ul></ul>
  193. 197. Chọn lược đồ nào cho Grocery ? <ul><li>Lược đồ bông tuyết có độ chuẩn hóa cao </li></ul><ul><li>Sử dụng ít không gian đĩa hơn </li></ul><ul><li>Việc truy cập các bảng phức tạp hơn bởi phải tham chiếu đến nhiều bảng </li></ul><ul><li>Lược đồ hình sao dễ quản trị hơn, và đáp ứng yêu cầu trả lời nhanh câu hỏi </li></ul><ul><ul><li>Chọn luợc đồ hình sao cho KDL Grocery </li></ul></ul>
  194. 198. Các thuộc tính <ul><li>Quyết định chọn các trường nào để đưa vào bảng dữ kiện và chiều </li></ul><ul><li>Các phân cấp thuộc tính </li></ul><ul><li>Các cấp độ tổng hợp </li></ul><ul><li>Xem xét các khả năng của câu hỏi và các ràng buộc của các bản </li></ul><ul><li>Các tác động của các toán tử OLAP </li></ul>
  195. 199. Ví dụ của bảng dữ kiện <ul><li>Chứa dữ liệu thích hợp cho vùng kinh doanh </li></ul><ul><li>Bao gồm các khoá của các chiều tham chiếu </li></ul><ul><li>Dữ liệu được lấy từ hệ thống OLTP: dữ liệu bán hàng POS </li></ul><ul><li>Độ thô: sản phẩm được bán hàng ngày tại từng kho </li></ul><ul><li>Định nghĩa nơi lưu trữ các tổng hợp </li></ul>
  196. 200. Ví dụ của bảng dữ kiện <ul><li>Các thuộc tính dữ kiện bán hàng: </li></ul><ul><li>Keys </li></ul><ul><ul><li>Time_key </li></ul></ul><ul><ul><li>Product_key </li></ul></ul><ul><ul><li>Store_Key </li></ul></ul><ul><ul><li>Promotion_key </li></ul></ul><ul><li>Facts </li></ul><ul><ul><li>Dollars_sales </li></ul></ul><ul><ul><li>Units_sales </li></ul></ul><ul><ul><li>Dollars_cost </li></ul></ul><ul><ul><li>Customer_count </li></ul></ul>
  197. 201. Ví dụ của bảng dữ kiện <ul><li>Khoá của bảng dữ kiện được hợp thành từ bốn khóa ngoài của các bảng chiều </li></ul><ul><li>Các dữ kiện được lấy từ hệ thống bán hàng POS </li></ul><ul><li>Các thuộc tính suy dẫn dựng cho việc phân tích </li></ul><ul><li>Dung lượng: ??? </li></ul>
  198. 202. Ví dụ của chiều: thời gian <ul><li>Chiều thời gian (Time) là một chiều cơ bản có trong tất cả các KDL </li></ul><ul><li>Các thuộc tính phân cấp tự nhiên: </li></ul><ul><ul><li>Năm->Tháng ->Tuần ->ngày </li></ul></ul><ul><li>Có cấu trúc không đơn giản do: </li></ul><ul><ul><li>Có nhiều loại phân cấp, đa phân cấp (Multi hierarchies) </li></ul></ul>
  199. 203. Ví dụ của chiều: thời gian
  200. 204. Ví dụ của chiều: thời gian
  201. 205. Ví dụ của chiều: Sản phẩm <ul><li>Nhận dạng mỗi sản phẩm bởi SKU (Stock Keeping Unit) </li></ul><ul><li>Dựa trên các mã sản phẩm phổ thông (UPC - Universal Product Code ( UPC ) ) </li></ul><ul><li>Bao gồm các mã đặt biệt cho việc lưu trữ sản phẩm như thịt tươi,.. </li></ul><ul><li>Lưu miêu tả của các sản phẩm </li></ul><ul><li>Dung lượng, các nhóm sản phẩm, các nhánh,. </li></ul>
  202. 206. Ví dụ của chiều: sản phẩm
  203. 207. Ví dụ của chiều: sản phẩm
  204. 208. Ví dụ của chiều: sản phẩm <ul><li>Được quản lý bởi tổng kho và được phân bố đến các kho </li></ul><ul><li>Định nghĩa loại của phân cấp </li></ul><ul><li>Chuẩn hóa và không chuẩn hóa </li></ul><ul><li>Thường có thêm nhiều thuộc tính phụ có trong chiều sản phẩm </li></ul>
  205. 209. Ví dụ của chiều: kho <ul><li>Miêu tả mỗi kho của hệ thống liên kết các của hàng tạp phẩm </li></ul><ul><li>Chiều địa lí </li></ul><ul><li>Được tạo ra tại tổng kho bởi việc thu thập thông tin từ các kho </li></ul><ul><li>Có hai loại phân cấp: phân cấp địa lý và vùng bỏn hàng </li></ul><ul><li>Các thuộc tính miêu tả kho: dung lượng, vị trí,. </li></ul>
  206. 210. Ví dụ của chiều: kho
  207. 211. Ví dụ của chiều: kho <ul><li>Phân cấp địa lí: </li></ul><ul><ul><li>Store->Store_zip->Store_county->Store_state </li></ul></ul><ul><li>Phân cấp vùng bán hàng </li></ul><ul><ul><li>Store->sales_district->sales_region </li></ul></ul>
  208. 212. Ví dụ của chiều: kho
  209. 213. Ví dụ của chiều: Quảng cáo <ul><li>Miêu tả điều kiện để một sản phẩm được bán, ví dụ: giảm giá tạm thời, sự trợ giúp của báo,.. </li></ul><ul><li>Được gọi là chiều nguyên nhân: yếu tố được nghĩ tới để thay đổi việc bán sản phẩm </li></ul><ul><li>Các điều kiện liên quan mật thiết: giảm giá, hay phiếu thưởng </li></ul><ul><li>Để phân tích các sản phẩm được bán tăng lên trong quá trình quảng cáo </li></ul><ul><li>Không dùng để phân tích các sản phẩm nào không bán được. </li></ul>
  210. 214. Ví dụ của chiều: quảng cáo
  211. 215. Ví dụ của chiều: quảng cáo <ul><li>Giành được trong giai đoạn khuyến mãi </li></ul><ul><li>Có hay không các sản phẩm sự tụt xuống ngay sau khi kết thúc quảng cáo </li></ul><ul><li>Có hay không việc bán các sản phẩm tăng lên trong quá trình quảng cáo </li></ul><ul><li>Có hay không việc bán các sản phẩm làm tăng việc buôn bán tổng thể so với giai đoạn trước </li></ul>
  212. 216. Ví dụ của bảng dữ kiện <ul><li>Các thuộc tính dữ kiện bán hàng: </li></ul><ul><li>Keys </li></ul><ul><ul><li>Time_key </li></ul></ul><ul><ul><li>Product_key </li></ul></ul><ul><ul><li>Store_Key </li></ul></ul><ul><ul><li>Promotion_key </li></ul></ul><ul><li>Facts </li></ul><ul><ul><li>Dollars_sales </li></ul></ul><ul><ul><li>Units_sales </li></ul></ul><ul><ul><li>Dollars_cost </li></ul></ul><ul><ul><li>Customer_count </li></ul></ul>Các thuộc tính phụ trợ cho việc phân tích
  213. 217. Ví dụ của bảng dữ kiện <ul><li>Thêm vào: </li></ul><ul><ul><li>Dollar_sales, uni_sales, và dollar_cost, và phụ thuộc vào các chiều </li></ul></ul><ul><ul><li>Có khả năng tính toán các tổng hợp trong tất cả các chiều, ví dụ: việc bán hàng hay chi phí từng tuần, từng tháng, từng nhóm mặt hàng, từng vùng </li></ul></ul><ul><ul><li>Customer_count không phụ thuộc hoàn toàn vào các chiều </li></ul></ul>
  214. 218. Ví dụ của customer_count: <ul><li>Customer_count theo từng tuần từng sản phẩm từng kho có thể tính toán được </li></ul><ul><li>Customer_count theo từng tuần, từng vùng bán hàng có thể tính toán được </li></ul><ul><li>Customer_count theo từng tuần, từng nhúm( sản phẩm hàng theo từng kho không thể tính toán được: </li></ul><ul><ul><li>Lượng hàng hóa cho sản phẩm A tại kho 1 có customer_count là 20 </li></ul></ul><ul><ul><li>Lượng hàng hóa cho sản phẩm B tại kho 1 có customer_count là 60 </li></ul></ul><ul><ul><li>Lượng hàng hóa cho hai sản phẩm A và B tại kho 1 có customer_count nằm giữa 20 va 80 </li></ul></ul>
  215. 219. Thay đổi customer_count: <ul><li>Thay đổi độ thô bằng việc lưu lại các toàn tác đơn theo từng customer-> customer_count có thể tính theo từng nhóm </li></ul><ul><li>Tính customer_count theo phân cấp của chiều kho: store brand, subcategory,… </li></ul>
  216. 220. Các bảng tổng hợp <ul><li>Mục đích: trả lời nhanh các câu hỏi thường gặp </li></ul><ul><li>Các bước: </li></ul><ul><ul><li>Nhận diện các câu hỏi thường gặp </li></ul></ul><ul><ul><li>Nhận diện các chiều và các tổng hợp tương ứng </li></ul></ul><ul><ul><li>Định nghĩa phân cấp của các tổng hợp </li></ul></ul><ul><ul><li>Tạo một cách có chọn lựa các bảng dữ kiện tổng hợp tính toán trước </li></ul></ul><ul><ul><li>Tạo các bảng chiều tổng hợp </li></ul></ul>
  217. 221. Nhận diện các câu hỏi thường gặp <ul><li>Tạo một danh sách các câu hỏi thường gặp </li></ul><ul><li>Tiến hành trong giai đoạn thiết kế KDL </li></ul><ul><li>Căn cứ trên hệ thống OLTP và các báo cáo </li></ul><ul><li>Nhưng: được theo dõi và tiến hành trong quá trình thao tác của KDL: xem thử các user đang làm gì ! </li></ul><ul><li>Tác động của user với các khả năng </li></ul><ul><li>Thiết lập danh sách </li></ul>
  218. 222. Ví dụ nhận diện các câu hỏi <ul><li>Lượng hàng hoá bán được của bánh mì trong suốt các giai đoạn nghỉ so với các giai đoạn khác </li></ul><ul><li>Lượng hàng hoá bán được trong các quận phía tây so sánh với các quận phía đông </li></ul><ul><li>Lượng hàng hoá bán được thức ăn nhanh trong 24 tháng gần đây </li></ul><ul><li>Sự có lợi của quảng cáo bằng báo chí so với radio, tv… </li></ul>
  219. 223. Nhận diện các chiều <ul><li>Chọn các chiều liên quan thường xuyên đến các câu hỏi </li></ul><ul><li>Xem xét dung lượng của các bảng tổng hợp </li></ul>
  220. 224. Ví dụ nhận diện các chiều <ul><li>Các chiều: </li></ul><ul><ul><li>Sản phẩm (Product) ? </li></ul></ul><ul><ul><li>Store ? </li></ul></ul><ul><ul><li>Time ? </li></ul></ul><ul><ul><li>Promotion ? </li></ul></ul><ul><ul><li>Chọn chiều nào ? </li></ul></ul>
  221. 225. Nhận diện các phân cấp <ul><li>Với một chiều, tạo (các) phân cấp căn cứ trên các thuộc tính sẵn có </li></ul><ul><li>Xem xét các câu hỏi thích hợp </li></ul><ul><li>Xem xét các dữ liệu sẵn có </li></ul><ul><li>Xem xét các thuộc tính của bảng dữ kiện </li></ul>
  222. 226. Phân cấp Product
  223. 227. Phân cấp Store
  224. 228. Phân cấp Time
  225. 229. Các bảng dữ kiện tổng hợp <ul><li>Nhận diện các bảng dữ kiện yêu cầu </li></ul><ul><li>Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp, </li></ul><ul><ul><li>ví dụ: lượng hàng bán được theo từng tháng có thể tính được dựa trên lượng hàng bán được từng ngày trong tháng. </li></ul></ul><ul><li>Ước lượng dung lượng </li></ul><ul><li>Kiểm tra sự sẵn có của dữ liệu </li></ul><ul><li>Kiểm tra các bảng tổng hợp chiều cần thiết </li></ul>
  226. 230. Ví dụ bảng dữ kiện tổng hợp <ul><li>Các bảng dữ kiện tổng hợp được yêu cầu: </li></ul><ul><ul><li>Tổng hợp 1 chiều: </li></ul></ul><ul><ul><ul><li>Từng loại sp theo từng kho theo từng ngày </li></ul></ul></ul><ul><ul><ul><li>Từng loại sp theo từng kho theo từng tháng </li></ul></ul></ul><ul><ul><ul><li>Từng loại sp theo từng kho theo từng năm </li></ul></ul></ul><ul><ul><li>Tổng hợp 2 chiều: </li></ul></ul><ul><ul><ul><li>Từng loại sp theo từng kho theo từng ngày </li></ul></ul></ul><ul><ul><ul><li>Từng loại sp theo từng pho theo từng tháng </li></ul></ul></ul><ul><ul><ul><li>Từng loại sp theo từng quận theo từng năm </li></ul></ul></ul>
  227. 231. Ví dụ bảng dữ kiện tổng hợp <ul><li>Các bảng dữ kiện tổng hợp này lấy được từ bảng dữ kiện cơ sở </li></ul><ul><li>Kiểm tra các thuộc tính phụ: </li></ul><ul><ul><li>Dollar_sales ? </li></ul></ul><ul><ul><li>Unit_sales ? </li></ul></ul><ul><ul><li>Dollar_cost ? </li></ul></ul><ul><ul><li>Customer_count ? </li></ul></ul>
  228. 232. Liên kết giữa dữ kiện và chiều <ul><li>Liên kết giữa bảng dữ kiện với các bảng chiều trong lược đồ hình sao </li></ul><ul><li>Liên kết giữa các bảng dữ kiện tổng hợp căn cứ trên các phân cấp của các bảng chiều </li></ul><ul><li>Định nghĩa các thuộc tính phân cấp tại các bảng chiều </li></ul>
  229. 233. Các bảng dữ kiện tổng hợp <ul><li>Các bảng dữ kiện phụ có thể được thêm vào khi có yêu cầu cần thiết </li></ul><ul><li>Số lượng và dung lượng của các bảng dữ kiện có thể bùng nổ tổ hợp </li></ul><ul><li>Kiểm tra các bảng dữ kiện nào là cần thiết và có thể tính toán được </li></ul>
  230. 234. Các bảng dữ kiện tổng hợp <ul><li>Tính theo các chiều </li></ul><ul><li>Product: theo category, theo.. </li></ul><ul><li>Store: theo district, theo region, </li></ul><ul><li>Time: month, year </li></ul>
  231. 235. Tổng hợp 1 chiều <ul><li>Category theo Store theo ngày </li></ul><ul><li>Region theo Product theo ngày </li></ul><ul><li>Theo tháng theo product và theo Store </li></ul><ul><li>Toàn bộ các mặt hàng theo kho theo ngày </li></ul>
  232. 236. Truy vấn bản dữ kiện tổng hợp <ul><li>Các câu hỏi được chuyển sang dạng lệnh SQL </li></ul><ul><li>Ví dụ: </li></ul><ul><ul><li>Trình bày số lượng hàng bán được theo loại tại kho A vào ngày đầu năm 2003 dựa vào bảng dữ kiện co sở: </li></ul></ul><ul><ul><ul><li>Select category_description,sum(sales_dollars) </li></ul></ul></ul><ul><ul><ul><li>From base_sales_fact,product,store,time </li></ul></ul></ul><ul><ul><ul><li>Where base_sales_fact.product_key=product.product_key </li></ul></ul></ul><ul><ul><ul><li>And base_sales_fact.store_key=product.store_key </li></ul></ul></ul><ul><ul><ul><li>And base_sales_fact.time_key=product.time_key </li></ul></ul></ul><ul><ul><ul><li>And store.city=“A” and time.day=“January 1 2003” </li></ul></ul></ul><ul><ul><ul><li>Group by category_description </li></ul></ul></ul>
  233. 237. Truy vấn bảng dữ kiện tổng hợp <ul><li>Nếu bảng tổng hợp category đã tồn tại </li></ul><ul><ul><ul><li>Select category_description,sum(sales_dollars) </li></ul></ul></ul><ul><ul><ul><li>From category_sales_fact,product,store,time </li></ul></ul></ul><ul><ul><ul><li>Where category_sales_fact.product_key=product.product_key </li></ul></ul></ul><ul><ul><ul><li>And category_sales_fact.store_key=product.store_key </li></ul></ul></ul><ul><ul><ul><li>And category_sales_fact.time_key=product.time_key </li></ul></ul></ul><ul><ul><ul><li>And store.city=“A” and time.day=“January 1 2003” </li></ul></ul></ul><ul><ul><ul><li>Group by category_description </li></ul></ul></ul><ul><li>Category_sales_fact và chiều tương ứng category_product thay thế cho base_sales_fact và chiều product </li></ul>
  234. 238. Truy vấn bảng dữ kiện tổng hợp <ul><li>Đọc câu hỏi và chuyển sang câu hỏi tổng hợp sẵn có </li></ul><ul><li>Siêu dữ liệu cung cấp thông tin của các bảng tổng hợp có sẵn </li></ul><ul><li>Sự tồn tại của các bảng tổng hợp là trong suốt đối với người dùng </li></ul><ul><li>Có thể xây dựng các câu hỏi thống kê </li></ul>
  235. 239. Truy vấn bảng dữ kiện tổng hợp <ul><li>Thay thế bảng và các chiều cơ sở bằng các mảng và chiều tổng hợp </li></ul><ul><li>Sắp xếp các bảng tổng hợp </li></ul><ul><li>Bắt đầu từ độ thụ chi tiết nhất </li></ul>
  236. 240. Chi phí quản lí các view
  237. 241. Chương 6: Siêu dữ liệu
  238. 242. Siêu dữ liệu là gì <ul><li>Dữ liệu về dữ liệu data about other data </li></ul><ul><li>Tập các thuộc tính , hay phần tử cần thiết cho việc miêu tả nguồn thông tin </li></ul><ul><li>Ví dụ : một tập các bản ghi với các phần tử mô tả một cuốn sách : </li></ul><ul><li>tác giả author tên sách title ngày xuất bản date of publication Miêu tả description </li></ul>
  239. 243. Siêu dữ liệu – Khái niệm <ul><li>Siêu dữ liệu là thành phần cơ bản để xây dựng và quản lí một kho dữ liệu </li></ul><ul><li>Trước khi một kdl có thể được truy cập một cách có hiệu quả , thực sự là cần thiết để hiểu , dữ liệu gì sẵn có trong kdl , và chúng lưu trữ ở đâu . </li></ul><ul><li>Dữ liệu miêu tả quá trình xây dựng , quản lí và hoạt động của KDL </li></ul><ul><li>Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kdl </li></ul>
  240. 244. Siêu dữ liệu
  241. 245. Khái niệm siêu dữ liệu <ul><li>Là một lưu trữ dùng để : </li></ul><ul><ul><li>Miêu tả KDL tổng thể </li></ul></ul><ul><ul><li>Nhận dạng kiểu kho dữ liệu </li></ul></ul><ul><ul><li>Quản lí quá trình tích hợp dữ liệu </li></ul></ul><ul><ul><li>Quản lí quá trình cập nhật KDL </li></ul></ul><ul><ul><li>Quản lí bảo mật </li></ul></ul><ul><li>Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification </li></ul>
  242. 246. Sự quan trọng của siêu dữ liệu <ul><li>Rất quan trọng trong kho dữ liệu </li></ul><ul><li>Không phải là dữ kiện phân tích </li></ul><ul><li>Là chìa khóa quyết định sự thành công của kho dữ liệu </li></ul><ul><li>Là thành phần luôn được thay đổi , cấp nhật theo sự phát triển của kho dữ liệu </li></ul><ul><li>Dùng để quản lý , điều khiển kho dữ liệu </li></ul>Warehouse Metadata Repository External Sources Operational Data Sources
  243. 247. Chất lượng của siêu dữ liệu <ul><li>Quản lý được sự tích hợp </li></ul><ul><li>Thể hiện được tính lịch sử của dữ liệu </li></ul><ul><li>Quản lý được các thay đổi </li></ul>
  244. 248. Sự hình thành siêu dữ liệu <ul><li>Trong quá trình xây dựng kdl : </li></ul><ul><ul><li>Sản sinh một cách tự động </li></ul></ul><ul><ul><li>Được tạo ra trong quá trình xây dựng kdl </li></ul></ul><ul><li>ứng dụng : </li></ul><ul><ul><li>Miêu tả Kdl và các thành phần </li></ul></ul><ul><ul><li>Tạo điều kiện cho việc truy cập KDL ở mọi cấp </li></ul></ul><ul><li>Bảo trì : </li></ul><ul><ul><li>Phục vụ cho các mục đích bảo mật </li></ul></ul><ul><ul><li>Lưu trữ thông tin về người dùng </li></ul></ul>
  245. 249. Các bước tạo lập siêu dữ liệu <ul><li>Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu </li></ul><ul><li>Xác định các vấn đề trong tích hợp dữ liệu . </li></ul><ul><li>Xác định siêu dữ liệu có thể được tạo như thế nào , ai tạo ra và được lưu trữ ở đâu </li></ul><ul><li>Miêu tả nội dung của siêu dữ liệu </li></ul>
  246. 250. Chiến lược cho siêu dữ liệu <ul><li>Đưa ra một chiến lược cho việc tiến hành xây dựng và sử dụng kho dữ liệu </li></ul><ul><li>Phải đảm bảo được siêu dữ liệu có chất lượng cao </li></ul><ul><li>Cung cấp cho người dùng thông tin có chất lượng cao </li></ul><ul><li>Đảm bảo việc quản lí dữ liệu tích hợp </li></ul><ul><ul><li>Nhằm vào mục đích đến là gì </li></ul></ul><ul><ul><li>Nguồn và thông tin về nguồn </li></ul></ul><ul><ul><li>Bảo trì và quản lí </li></ul></ul><ul><ul><li>Các chuẩn hóa </li></ul></ul><ul><ul><li>Truy cập và các công cụ </li></ul></ul><ul><ul><li>Tích hợp và phát triển </li></ul></ul>
  247. 251. Phân tích mục đích <ul><li>Các ý định </li></ul><ul><li>Các yêu cầu </li></ul><ul><li>Quản lý sự truy cập , ai sẽ truy cập và truy cập như thế nào </li></ul><ul><li>Xác định các nguồn </li></ul><ul><li>Các hướng tích hợp </li></ul><ul><li>Quản lí sự thay đổi và tiến triển của KDL </li></ul>
  248. 252. Các loại nguồn của siêu dữ liệu <ul><li>Xác định ai là người dùng kho dữ liệu ? </li></ul><ul><li>Họ cần cái gì ? </li></ul><ul><li>Siêu dữ liệu chứa cái gì ? </li></ul><ul><li>Sẽ sử dụng công cụ gì để xây dựng kho dữ liệu ? </li></ul>
  249. 253. Các kỹ thuật <ul><li>Các công cụ mô hình hóa </li></ul><ul><li>Định nghĩa các lược đồ CSDL </li></ul><ul><li>Các công cụ hỗ trợ cho ETT </li></ul><ul><li>Các công cụ cho người dùng cuối </li></ul><ul><li>Các công cụ để tạo tài liệu kĩ thuật </li></ul>
  250. 254. Vị trí siêu dữ liệu <ul><li>Lưu tại máy chủ chứa kho dữ liệu </li></ul><ul><li>Có thể được lưu tại các csdl nguồn </li></ul><ul><li>Tại máy PC có công cụ quản lí siêu dữ liệu </li></ul><ul><li>Quản lý bởi người quản lí siêu dữ liệu </li></ul><ul><li>Các chuẩn hóa được sinh ra bởi cấu trúc siêu dữ liệu </li></ul>
  251. 255. Các công cụ và việc truy cập <ul><li>Ai truy cập ? </li></ul><ul><li>Khi nào ? </li></ul><ul><li>Với mục đích gì ? </li></ul><ul><li>Công cụ cho việc quản lí </li></ul><ul><li>Công cụ quản lí câu hỏi </li></ul><ul><li>Công cụ cho việc xây dựng kho dữ liệu </li></ul>
  252. 256. Các loại siêu dữ liệu chi tiết <ul><li>Hệ tương tác Operational </li></ul><ul><ul><li>Các tiến trình nạp , quản lý và lập lịch cho việc cập nhập kdl </li></ul></ul><ul><li>ETT </li></ul><ul><ul><li>Quản lý các cấu trúc , ánh xạ </li></ul></ul><ul><ul><li>Thông tin nguồn và đích </li></ul></ul><ul><ul><li>Quản lý việc chuyển đổi </li></ul></ul><ul><li>Người dùng cuối ( End user ) </li></ul><ul><ul><li>Hỗ trợ việc sử dụng kho dữ liệu </li></ul></ul><ul><ul><li>Hỗ trợ việc khảo sát kdl </li></ul></ul><ul><ul><li>Hỗ trợ việc cung cấp thông tin cho kdl </li></ul></ul>
  253. 257. Siêu dữ liệu hệ thống tương tác <ul><li>Siêu dữ liệu cho hệ tương tác miêu tả phạm vi , giới hạn môi trường của kdl </li></ul><ul><li>Xác định những dữ liệu nào cho phép hay không cho phép kdl truy cập </li></ul><ul><li>Điều khiển quá trình truyền dữ liệu từ nguồn vào kdl </li></ul><ul><li>Cung cấp các thông tin cho các nhà phát triển trong quá trình xây dựng cũng như mở rộng kdl </li></ul><ul><li>No data nothing </li></ul>
  254. 258. Siêu dữ liệu cho ETT <ul><li>ánh xạ dữ liệu từ các nguồn vào kdl </li></ul>Warehouse Data Warehouse Data Model Metadata Repository Internal sources External sources Operational data sources Browser: http:// Hollywood X + Customers: a recorof as X + Customers: Browser: http:// Hollywood Browser: http:// Hollywood X + 12345.00 12780.00 2345787.00 87877.98 5678.00 100% 110% 230% 200% -10% ABC CO GMBH LTD GBUK INC FFR ASSOC MCD CO
  255. 259. Siêu dữ liệu cho việc chiết (1) <ul><li>Các luật kinh doanh </li></ul><ul><li>Các khóa , trường và bảng nguồn </li></ul><ul><li>Quản lí việc sở hữu dữ liệu </li></ul><ul><li>Chuyển đổi giữa các trường </li></ul><ul><li>Các bản tra cứu </li></ul><ul><li>Thay đổi tên </li></ul><ul><li>Các thay đổi giá trị khóa </li></ul><ul><li>Các giá trị mặc định </li></ul><ul><li>Quản lý đa nguồn </li></ul><ul><li>Các thuật toán </li></ul><ul><li>Nhãn thời gian </li></ul>Staging File External Sources Operational Data Sources Extraction
  256. 260. Siêu dữ liệu cho việc chiết (2) <ul><li>Các yêu cầu về lưu trữ </li></ul><ul><li>Thông tin về vị trí các nguồn </li></ul><ul><li>Sự khác nhau giữa các nguồn </li></ul><ul><li>Thông tin truy cập </li></ul><ul><li>Bảo mật </li></ul><ul><li>Các liên hệ , liên hệ với ai để có dữ liệu </li></ul><ul><li>Các tên chương trình </li></ul><ul><li>Các thông tin quản lý tính chất của dữ liệu </li></ul>External Sources Operational Data Sources Extraction
  257. 261. Chuyển đổi <ul><li>Phương thức chuyển đổi </li></ul><ul><li>Các chức năng xác định dữ liệu </li></ul><ul><li>Các luật phát triển kdl </li></ul><ul><li>Thông tin liên hệ </li></ul>External sources Operational data sources Warehouse Metadata repository ETT Mapping Staging file Transport
  258. 262. Tích hợp và thay đổi <ul><li>Siêu dữ liệu quản lí việc tích hợp dữ liệu </li></ul><ul><li>Siêu dữ liệu dùng cho việc trao đổi thông tin </li></ul><ul><li>Quản lý việc chuyển đổi siêu dữ liệu </li></ul><ul><li>Xem xét chu kỳ làm tươi kho dữ liệu </li></ul>
  259. 263. Siêu dữ liệu người dùng cuối (1) Warehouse Metadata Repository End User Operational ETT Mapping IT staff Users
  260. 264. Siêu dữ liệu người dùng cuối (2) <ul><li>Người dùng với mục đích phân tích đơn giản : yêu cầu các báo cáo chuẩn từ môi trường kdl </li></ul><ul><li>Người dùng với mục đích thăm dò . Cần thiết để tham dò dữ liệu ở nhiều cấp độ . Họ sẽ dùng các toán tử Rolling up và Drilling down để thăm dò tương tác giữa các chủ thể kinh doanh giúp cho việc đưa ra quyết định </li></ul><ul><li>Người dùng với mục đích phân tích : Thực hiện các phân tích thống kê , và đưa ra các quyết định </li></ul>
  261. 265. Siêu dữ liệu người dùng cuối (3) <ul><li>Ví trí của các chiều và dữ kiện </li></ul><ul><li>Miêu tả nội dung </li></ul><ul><li>Các thuật toán để tạo ra các tổng hợp </li></ul><ul><li>Thông tin về người sử dụng kdl </li></ul>Warehouse Metadata repository End User
  262. 266. Siêu dữ liệu người dùng cuối (4) <ul><li>Cần thiết để biết ngữ cảnh của câu hỏi </li></ul>Warehouse Metadata repository End User
  263. 267. Siêu dữ liệu người dùng cuối (5) Table Column Data Meaning Name Name Product Prodid 739516 Unique identifier for the product Product Valid_date 01/97 Last refresh date Product Ware_loc 1816 Warehouse location number Product Ware_bin 666 Warehouse bin number Product Code 15 The color of the product; please refer to table COL_REF for details Product Weight 17.62 Packed shipping weight in kilograms
  264. 268. Siêu dữ liệu người dùng cuối (6) <ul><li>Ví trí của các chiều và dữ kiện </li></ul><ul><li>Miêu tả nội dung </li></ul><ul><li>Các thuật toán để tạo ra các tổng hợp </li></ul><ul><li>Thông tin về người sử dụng kdl </li></ul>Warehouse Metadata repository End User
  265. 269. Ngữ cảnh của dữ liệu (1) <ul><li>Hỗ trợ sự thay đổi theo chiều thời gian </li></ul><ul><li>Lưu trữ các thay đổi của thông tin </li></ul>Operational Warehouse Metadata repository Structure Content 92 93 94 95 96
  266. 270. Ngữ cảnh của dữ liệu (2) <ul><li>Dạng đơn giản </li></ul><ul><ul><li>Các cấu trúc dữ liệu </li></ul></ul><ul><ul><li>Các chuyển đổi tên </li></ul></ul><ul><ul><li>Các ánh xạ </li></ul></ul><ul><li>Dạng phức tạp </li></ul><ul><ul><li>Các định nghĩa sản phẩm </li></ul></ul><ul><ul><li>Giá cả </li></ul></ul><ul><li>Nguồn ngoài </li></ul><ul><ul><li>Tác động của nền kinh tế </li></ul></ul><ul><ul><li>Chính trị </li></ul></ul>Warehouse 92 93 94 95 96
  267. 271. Siêu dữ liệu phụ trợ <ul><li>Các thuật toán để tính toán các tổng hợp </li></ul><ul><li>Thể hiện các quan hệ ( nguồn - đích , phân cấp ,..) </li></ul><ul><li>Thông tin quản lí </li></ul><ul><li>Các cấp quyền </li></ul><ul><li>Phân tích mẫu </li></ul><ul><li>Các bảng tra cứu </li></ul>
  268. 272. Đặc tả siêu dữ liệu MDIS (1) <ul><li>Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification </li></ul>
  269. 273. Đặc tả siêu dữ liệu MDIS (2) <ul><li>Metadata Coalition là một nhóm mở của các công ty như IBM , Informix và Prism Solutions </li></ul><ul><li>Muc đích của MC là để tạo ra các chuẩn hóa về : </li></ul><ul><ul><li>Cơ chế truy cập </li></ul></ul><ul><ul><li>API cho siêu dữ Iiệu </li></ul></ul><ul><ul><li>Cho phép người dùng điều khiển và quản lí việc truy cập và thao tác siêu dữ liệu trong môi trường của họ thông qua các công cụ siêu dữ liệu </li></ul></ul>
  270. 274. Đặt tả siêu dữ liệu MDIS (3) <ul><li>MDIS có thể được mở rộng . Mô hình siêu dữ liệu của MDIS miêu tả các thực thể và mối liên hệ giữa chúng </li></ul><ul><li>Database : thể hiện cho hệ thống CSDL hay một nhóm các files . </li></ul><ul><li>Một database chứa nhiều records , và một record chứa một số element là thành phần bé nhất </li></ul><ul><li>Subschema : thể hiện một lược đồ logic con </li></ul>
  271. 275. Đặt tả siêu dữ liệu MDIS (4) <ul><li>Relationship : thể hiện mối quan hệ giữa các đối tượng . Các mối quan hệ bao gồm : </li></ul><ul><ul><li>Equivalent </li></ul></ul><ul><ul><li>Derived </li></ul></ul><ul><ul><li>Inherit from </li></ul></ul><ul><ul><li>Contain </li></ul></ul><ul><ul><li>Include </li></ul></ul><ul><ul><li>Link to </li></ul></ul><ul><li>Dimension thể hiện các bản chiều trong mô hình đa chiều </li></ul><ul><li>Level : thể hiện cấp trong lược đồ phân cấp của chiều </li></ul><ul><li>Mỗi một đặt tả đều có header miêu tả các thông tin về dữ liệu đượu lưu trữ </li></ul>
  272. 276. Ngôn ngữ Telos miêu tả MDIS <ul><li>Được phát triển bởi trường đại học Toronto và một số dự án tại châu Âu vào cuối những năm 1980 s </li></ul><ul><li>Miêu tả các đối tượng và cung cấp sự kết nối giữa chúng </li></ul><ul><li>Ngoài việc cung cấp cú pháp nó còn cung cấp về mặt ngữ nghĩa , các mô hình siêu dữ liệu . </li></ul><ul><li>Và được ứng dụng rất nhiều trong các hệ thống thông tin : DW , Sematic Web , … </li></ul>
  273. 277. Các công cụ quản lí siêu dữ liệu <ul><li>Carleton </li></ul><ul><li>Evolutionary Technologies </li></ul><ul><li>Hewlett Packard </li></ul><ul><li>Informatica </li></ul><ul><li>Information Advantage </li></ul><ul><li>Oracle Designer /2000 </li></ul><ul><li>Platinum Technology </li></ul><ul><li>Prism Solutions </li></ul><ul><li>Sagent </li></ul>
  274. 278. Chương 7: P hương thức xây dựng kho dữ liệu
  275. 279. Mục đích <ul><li>Chứng thực việc sử dụng phương pháp luận khi phát triển một giải pháp kho dữ liệu </li></ul><ul><li>Xác định phương thức như là chuổi tiến trình và tác vụ </li></ul><ul><li>Giải thích lợi ích của hướng tăng tiến trong việc phát triển kdl </li></ul><ul><li>Xác định các kĩ năng đáp ứng cho việc thực thi kho dữ liệu </li></ul>
  276. 280. Tiến trình <ul><li>Phương thức </li></ul><ul><ul><li>Các tài liệu kĩ thuật, phân ra các module </li></ul></ul><ul><ul><li>Xác lập các chuẩn hóa </li></ul></ul><ul><ul><li>Cải tiến phương thức phân phối công việc </li></ul></ul><ul><ul><li>Định nghĩa các tác vụ và phân phối công việc </li></ul></ul><ul><li>Các công cụ phần mềm và tài liệu hướng dẫn </li></ul><ul><li>Phương thức kho dữ liệu </li></ul><ul><ul><li>Các tác vụ và phân phối công việc để xây dựng kho dữ liệu và cài đặt </li></ul></ul>
  277. 281. Phương thức <ul><li>Dựa trên cơ sở của công nghệ phần mềm </li></ul><ul><li>Cải tiến bằng : </li></ul><ul><ul><li>Nhận dạng các tác vụ lặp </li></ul></ul><ul><ul><li>Định nghĩa các tác vụ một cách nhất quán </li></ul></ul><ul><ul><li>Xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ liệu </li></ul></ul><ul><ul><li>Đinh nghĩa việc quản lí tác vụ </li></ul></ul><ul><ul><li>Tối ưu hóa các tác vụ </li></ul></ul>
  278. 282. Các thành phần <ul><li>Nhằm vào các thành phần : </li></ul><ul><ul><li>Thu thập dữ liệu </li></ul></ul><ul><ul><li>Siêu dữ liệu </li></ul></ul><ul><ul><li>Thiết kế kĩ thuật cho kho dữ liệu </li></ul></ul><ul><ul><li>Truy cập dữ liệu </li></ul></ul><ul><ul><li>Chất lượng dữ liệu </li></ul></ul><ul><ul><li>Khám phá </li></ul></ul>
  279. 283. TàI liệu và công cụ hỗ trợ <ul><li>Workplan Templates </li></ul><ul><li>Deliverables Templates </li></ul><ul><li>Online Handbooks </li></ul><ul><li>Quick Tour </li></ul><ul><li>Method Handbook </li></ul><ul><li>Process and Task Reference </li></ul><ul><li>Deliverables Reference </li></ul>Software Tools Handbooks
  280. 284. Phương pháp luận <ul><li>Tập trung vào phạm vi của ứng dụng </li></ul><ul><li>Quản lí được các rủi ro </li></ul><ul><li>Căn cứ vào các đóng góp của người dùng </li></ul><ul><li>Cung cấp các giảI pháp có thể mở rộng </li></ul><ul><li>Sử dụng nhiều công nghệ khác nhau </li></ul><ul><li>Nhận dạng các tác vụ với các đối tượng và định nghĩa rõ ràng </li></ul><ul><li>Đưa các tác vụ vào trong các tiến trình , nhóm tiến trình theo giai đoạn </li></ul>
  281. 285. Các lợi ích Consistency Productivity Experience & Best Practices Flexibility Risk Avoidance
  282. 286. Các yếu tố căn bản <ul><li>Các tiến trình </li></ul><ul><li>Các hướng </li></ul><ul><li>Tác vụ và phân bố tác vụ </li></ul><ul><li>Các chức năng </li></ul>Phase 1 Phase 2 Phase 3 Phase 1 Task1 Phase 1 Task2 Phase 1 Task3 Phase 3 Task1 Phase 3 Task2 Phase 3 Task3 Phase 2 Task1 Phase 2 Task2 Phase 2 Task3 Process 1 Process 2
  283. 287. Các tiến trình <ul><li>Tập kết dính các tác vụ để thực hiện các mục tiêu </li></ul><ul><li>Tập các kĩ năng chung </li></ul><ul><li>Dự án có thể chuyển giao </li></ul><ul><li>Đa số là trùng lặp , một số thì lệ thuộc vào tiến trình trước </li></ul>
  284. 288. Các tiến trình Business Requirements Definition Data Acquisition Data Quality Warehouse Administration Metadata Management Data Access Database Design and Build Documentation Testing Training Transition Post-Implementation Support Architecture
  285. 289. Định nghĩa các yêu cầu kinh doanh <ul><li>Định nghĩa các yêu cầu </li></ul><ul><li>Phân lớp các vùng </li></ul><ul><li>Khởi tạo các kế hoạch cài đặt </li></ul><ul><li>Cung cấp sự khởi đầu tập trung vào việc tiến hành xây dựng hệ thống cho công ty </li></ul><ul><li>Xác định các yêu cầu về thông tin </li></ul><ul><li>Các yêu cầu về mô hình </li></ul>
  286. 290. Thu thập dữ liệu <ul><li>Xác định , chiết , chuyển đổi , và chuyển tải dữ liệu nguồn </li></ul><ul><li>Xem xét dữ liệu bên trong và bên ngoài </li></ul><ul><li>Chuyển dời dữ liệu giữa nguồn và đích </li></ul><ul><li>Thực hiện phân tích kết nối giữa dữ liệu nguồn và các đối tượng csdl đích </li></ul><ul><li>Định nghĩa việc thu thập lần đầu và kế hoạch làm tươi dữ liệu </li></ul><ul><li>Định nghĩa các yêu cầu về công cụ </li></ul><ul><li>Xây dựng , test , và thực hiện các module nạp dữ liệu </li></ul>
  287. 291. Kiến trúc <ul><li>Định rõ các nền tảng kĩ thuật </li></ul><ul><li>Thiết kế k

×