Kho   dữ   liệu   và   Hệ   hỗ   trợ   quyết   định   Nguyễn Thanh Bình
Đề cương Phần 1: Tổng quan Chương 1: Giới thiệu Chương 2: Đại cương Chương 3: Kiến trúc kho dữ liệu
Đề cương (tt) Phần 2: Mô hình hóa Chương 4: Dữ liệu và các mô hình Chương 5: Mô hình hóa  Chương 6: Siêu Dữ liệu  Chương 7: Phương thức kho dữ liệu Chương 8: Tương lai và tổng kết môn học
Chương  1:  Giới   thiệu
Vấn đề:  Các nguồn thông tin đa tạp Cách mạng thông tin  va  sự bùng nổ thông tin Nhiều hệ thống thông tin được xây dựng: Những giao diện khác nhau Những dạng biểu dữ liệu khác nhau Thông tin trùng lặp và không nhất quán
Vấn đề: Quản lý dữ liệu  trong những xí nghiệp lớn Sự phân mảnh theo chiều dọc trong các hệ thống thông tin  Thành nhiều hệ thống tác nghiệp và hệ thống xử lý toàn tác trực tuyến (OLTP) đa tạp
Mục tiêu:  Truy cập dữ liệu một cách thống nhất Thu thập và kết hợp thông tin Cung cấp một khung nhìn tích hợp, giao diện người sử dụng  không biến đổi Hỗ trợ khả năng chia sẻ
Kho dữ liệu Dữ liệu được tích hợp và tổ chức cho các mục đích: Làm cho hệ thống trở nên dễ hiểu Rõ ràng Dễ phân tích  Dữ liệu được thu thập từ nhiều nguồn  Làm sạch Tích hợp Chuyển dịch Tổng hợp
Hệ hỗ trợ quyết định Được biết đến như là một phần của kho dữ liệu Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ Cho phép phân tích trực tuyến dữ liệu Thăm dò sự tương tác dữ liệu Cung cấp các giao diện đa dạng cho người dùng  Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản
Yêu cầu của hệ hỗ trợ quyết định Khung nhìn dữ liệu đa chiều Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu vào chi tiết Trả lời nhanh các câu hỏi
Lịch sử phát triển Khởi đầu vào những năm 1990s Tháng 2 năm 1996, theo báo cáo của nhóm META: 13 000 triệu USD (phần cứng: 8000, service:5000) 1998: 14 600 triệu USD 2001: >20 000 tr USD
Lịch sử phát triển 1996 2001 0 5 10 15 20 25 1996 2001 Revenue Projected Growth USA Europe APAC Other 0 10 20 30 40 50 60 USA Europe APAC Other Installed Base Current Revenue
Tại sao nghiên cứu kho dữ liệu Kho lưu trữ dữ liệu, thông tin, tri thức, và siêu dữ liệu Tổng hợp toàn bộ thông tin phục vụ cho phân tích sâu Tách việc phân tích ra khỏi xử lý toàn tác trực tuyến Chuyển đổi dữ liệu thành thông tin Cung cấp thông tin chính xác đúng thời điểm và đúng định dạng
Tại sao nghiên cứu kho dữ liệu Thi hành các phân tích dữ Iiệu phức tạp Thực hiện phân tích: Phân tích định hướng Phân tích chuỗi thời gian Phân tích rủi ro Thăm dò các hệ hỗ trợ quyết định Khám phá và đưa ra các yếu tố ẩn thông qua các kĩ thuật khai phá dữ liệu
Các đặc điểm của kho dữ liệu Thiết kế cho các công việc phân tích Thiết kế cho một nhóm nhỏ người dùng (decision makers) Chỉ đọc Cập nhập theo giai đoạn: chỉ thêm dữ liệu Dữ liệu lịch sử theo chiều thời gian Các câu hỏi trả về các tập kết quả lớn, đa kết nối. Toàn cục
Các ví dụ Xử lý toàn tác trực tuyến OLTP Số lượng coca cola được vừa được bán Xử lý phân tích trực tuyến OLAP Số lượng coca cola được bán tháng trước tại các cửa hàng phía bắc tỉnh Thừa thiên Huế Cửa hàng nào phía bắc tỉnh Thừa thiên Huế có số lượng coca cola được bán ra tháng trước lớn nhất Tháng nào trong năm số lượng coca cola được bán ra nhiều nhất tại tỉnh Thừa thiên Huế
Các ứng dụng của KDL Hàng không Airline Ngân hàng Banking Chăm sóc sức khỏe Health care Đầu tư Investment Bảo hiểm Insurance Bán lẻ Retail Viễn thông Các ngành công nghiệp Manufacturers Credit card suppliers Clothing distributors 0 10 20 30 40 Financial Retail Telecom Manufacturing Other Percentage Market Coverage
Kho dữ liệu-Các định nghĩa W.H. Inmon  Hướng chủ thể subject-oriented. Tích hợp integrated, Biến thời gian time-variant, Bền vững non-volatile Sưu tập dữ liệu phục vụ cho các thao tác hỗ trợ quyết định (collection of data in support of management's decision-making process)
Kho dữ liệu-Các định nghĩa Hướng chủ thể subject-oriented.  Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định Tích hợp integrated, Biến thời gian time-variant,  so sánh dữ liệu theo chiều thời gian Bề vững non-volatile, chỉ có thêm vào và không thay thế
Kho dữ liệu-Các định nghĩa Subject Oriented Integrated Time Variant Non Volatile Data Warehouse
Huớng chủ thể Được tổ chức xung quanh các chủ thể chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales). Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý toàn tác hàng ngày.  Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể
Subject Oriented Data is categorized and stored  by business subject rather than  by application. Operational Systems Savings Shares Loans Insurance Equity Plans Customer Product, Sales  Information Data Warehouse  Subject Area
Subject Areas Các chủ thể điển hình.  Các tài khoản khách hàng Việc bán hàng Tiền tiết kiệm của khách hàng Các yêu sách bảo hiểm Đặt chỗ hành khách
Integrated Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi toàn tác trực tuyến. Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng  Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính, … giữa các nguồn khác nhau  Ví dụ như: Hotel price: currency, tax, breakfast covered, ... Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi.
Integrated Data Warehouse Operational Environment Subject = Customer Savings Application Current  Accounts Application Loans Application No Application Flavor
Integrated Data Dữ liệu được tổng hợp từ các nguồn khác nhau Là một tập hợp thông tin chính xác, chất lượng và nhất quán Chuẩn hóa Các qui ước tên Các thuộc tính Các đơn vị đo lường Quá trình làm sạch và tích hợp
Time Variant Data is stored as a series of snapshots, each representing a  period of time.   Data Time 01/97 02/97 03/97 Data for January Data for February Data for March Data  Warehouse
Time Variant Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp. Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước)  Yếu tố thời gian được lưu trữ trong CSDL Data Time 01/97 02/97 03/97 Data for January Data for February Data for March
Non Volatile Typically data in the data warehouse is not updated or deleted . Read Load INSERT  Read UPDATE DELETE Operational Databases Warehouse Database
Non Volatile Operational Databases Warehouse Database First time load Refresh Refresh Refresh Purge or Archive
Non-Volatile Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp. Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu. Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh.  Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu.
Kho dữ liệu-Các định nghĩa (tt) Pandora, Swinburn University Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau. Là một điểm truy cập tập trung dữ liệu của  một tổ chức Được trình bày ở một khuông dạng thích hợp Là hệ thống chỉ đọc  Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
Kho dữ liệu-Các định nghĩa (tt) Paul Lucas, IBM: Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent. được tổng hợp về từ nhiều nguồn được làm sẵn cho người sử dụng cuối Dễ hiểu
Kho dữ liệu và các CSDL Việc tích hợp csdl hỗn tạp truyền thống:  Xây dựng các wrappers/mediators trên các csdl hỗn tạp.  Xử lý câu hỏi: Khi một câu hỏi được đặt ra tại một máy khách, một siêu từ điển sẽ được sử dụng để dịch câu truy vấn thành các câu truy vấn tương ứng cho các csdl riêng biệt, và kết quả được tích hợp trong một tập kết quả toàn cục.  Ở đây sẽ có các bộ lọc phức tạp.  Kho dữ liệu: nâng cao tốc độ thực hiện  Thông tin từ các nguồn đa tạp được tích hợp trước và lưu trữ trong kho dữ liệu cho việc trả lời trực tiếp các câu hỏi và các tác vụ phân tích
 
Kho dữ liệu và các CSDL Xử lý toàn tác trực tuyến OLTP (on-line transaction processing) Tác vụ chính của các hệ qtcsdl quan hệ truyền thống.  Các thao tác hàng ngày: mua, kiểm kê, kế toán,…  Xử lý phân tích trực tuyến OLAP (on-line analytical processing) Là tác vụ chính của hệ thống kho dữ liệu Phân tích dữ liệu và đưa ra quyết định Các đặc tiểm khác nhau (OLTP vs. OLAP): Theo quan điểm người dùng: khách hàng so với thị trường Các nội dung dữ liệu: Hiện tại, chi tiết  so với lịch sử và tóm lược.  Thiết kế csdl: ER + ứng dụng so với hình sao và hướng chủ thể Khung nhìn: hiện tại, cục bộ so với lịch sử và tích hợp  Các mẫu truy cập: cập nhật so với các truy vấn chỉ đọc nhưng phức hợp
OLTP vs. OLAP
Các kiến thức, môn học liên quan CSDL Xử lý song song Thiết kế giao diện Công nghệ phần mềm Khai phá dữ liệu Bảo mật Công nghệ mạng, intranet, internet Công nghệ xử lý kinh doanh Marketing, kế toán, và quản lý
Tóm tắt chương Kho dữ liệu và hệ hỗ trợ quyết định Lịch sử phát triển Tại sao nghiên cứu kho dữ liệu Các đặt điểm của KDL Các ví dụ ứng dụng của KDL Các định nghĩa Các môn học liên quan
Câu hỏi  cho chương 1??? Uff...
Chương  2:  Đại   cương
Các thành phần ETT Data Management Data Access and Analysis Design and Modeling Methodology
Methodology-Phương pháp luận Đảm bảo sự thành công của KDL Thúc đẩy việc  phỏt  triển  Cung cấp một hướng ổn định cho KDL lớn An toàn Quản lí được Kiểm chứng được ấn  tượng tốt
Modeling-Mô hình hóa Các điểm khác của KDL so với các hệ thống OLTP Thiết kế các thành phần phục vụ các yêu cầu phân tích Định hướng chủ thể Dữ liệu được ánh xạ vào thông tin hướng chủ thể: Nhận dạng các chủ thể kinh doanh Định nghĩa quan hệ giữa các chủ thể Mô hình hóa là một quá trình lặp
ETT Extraction: chọn lựa dữ liệu bằng nhiều phương thức Transformation: xác nhận hợp lệ, làm sạch, tích hợp, và dữ liệu nhãn thời gian Transportation: chuyển đổi dữ liệu vào KDL OLTP Databases Staging File Warehouse Database
Data Management Các công cụ phục vụ cho việc quản lý dữ liệu một cách hiệu quả Các yêu cầu Mềm dẻo Tự động Hiệu quả Quản lí phần cứng, hệ điều hành và mạng
Truy cập dữ liệu và tạo báo cáo Các công cụ dùng để truy tìm dữ liệu cho việc phân tích kinh doanh Các yêu cầu Dễ dùng Trực quan Siêu dữ liệu Dễ huấn luyện Warehouse  Database Simple Queries Forecasting Drill-down
Các từ khóa quan trọng DWH: (Data Warehouse) Kho dữ liệu EIS:(Executive Information System) Hệ thống thông tin điều hành  OLTP: (Online Transaction Processing): Xử lý toàn tác trực tuyến OLAP: (Online Analytical Processing) Xử lý phân tích trực tuyến MOLAP: (Multi dimensional Online Analytical Processing) Xử lý phân tích trực tuyến đa chiều
Các từ khóa quan trọng ROLAP: (Relational Online Analytical Processing) Xử lý phân tích trực tuyến quan hệ HOLAP: (Hybric Online Analytical Processing) Xử lý phân tích trực tuyến kết hợp DOLAP: (Database Online Analytical Processing) Xử lý phân tích trực tuyến CSDL Client/server OLAP: (client/server Online Analytical Processing) Xử lý phân tích trực tuyến khách chủ
Các từ khóa quan trọng VLDB: (Very large DB) CSDL rất lớn Dimensions: các chiều  Dimension Data: chiều dữ liệu  Fact Data: dữ liệu sự kiện Cube: khối dữ liệu  Start-schema: lược đồ hình sao Snowflake-schema: lược đồ tuyết rơI
Các từ khóa quan trọng Aggregation: tổng hợp Attribute hierarchies: các phân cấp thuộc tính  Granularity: độ thô Metadata: siêu dữ liệu Reporting: báo cáo  Legacy system:hệ thống di sản Extraction: chiết Transformation: chuyển đổi
Các từ khóa quan trọng Clean-Up: làm sạch DWH update: cập nhật KDL
So sánh OLTP và kho dữ liệu Xử lý toàn tác trực tuyến (OLTP) Công nghệ: CSDL quan hệ Hướng toàn tác Chuẩn hóa, không dư thừa Tập trung vào dl hiện tại Trả lời các truy vấn đơn Toàn tác: tính toàn vẹn, bảo mật, đồng thời, Locking Xử lí toàn tác Kho dữ liệu, xử lý phân tích trực tuyến (OLAP) CSDL quan hệ, CSDL đa chiều  Chấp nhận dư thừa Tiền tính toán tổng hợp Dữ liệu lịch sử Phân tích rất phức tạp Tích hợp dữ liệu từ đa nguồn Dữ liệu rất lớn Các câu hỏi phức tạp
Tóm tắt chương 2 Các thành phần chính Phương pháp luận Mô hình hóa Quản lí dữ liệu ETT Truy cập và tạo báo cáo Các từ khoá So sánh OLTP và OLAP
Câu hỏi  cho chương 2 ??? Uff...
Chương  3:  Kiến trúc kho dữ liệu
Kiến trúc kho dữ liệu Gồm 3 tầng (layers) Tầng thể hiện (Presentation layer) Tầng xử lý phân tích trực tuyến (OLAP layer) Tầng chiết (Extraction layer)
Kiến trúc kho dữ liệu chi tiết Tầng   thể   hiện Tầng   OLAP Tầng   thu   thập
Tầng 1- Các hệ hỗ trợ quyết định Được biết đến như là một phần của kho dữ liệu Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ Cho phép phân tích cao trực tuyến dữ liệu Thăm dò sự tương tác dữ liệu Cung cấp các giao diện người dùng phức tạp Cung cấp khả năng phân tích dữ liệu phức tạp bằng phuong thức đơn giản
Tầng 1-Các hệ HTQĐ (tt) Kiến trúc khách chủ Giao diện cho KDL trung tâm và các chợ dl cục bộ Nhiều loại giao diện cho nhiều cấp user: báo cáo và phân tích Các báo cáo kinh doanh, ước lượng, dự báo, phân loại, v…v Các kỹ thuật biểu diễn dữ liệu Công nghệ khai phá dữ liệu
Tầng 1-Các hệ HTQĐ (tt) Công nghệ khai phá dữ liệu Khám phá ngược với dự đoán  Báo cáo kinh doanh Thống kê Phân tích khuynh hướng Các cây quyết định Qui nạp Các hệ thống mờ Các hệ thống chuyên gia Mạng nơron Các thuật toán di truyền
Tầng 1-Các báo cáo Các báo cáo thường theo sau các lược đồ định trước Các báo cáo đặc biệt: các báo cáo chi tiết, so sánh dựa trên các yêu cầu hiện thời Các báo cáo ngoại lệ: được đưa ra cho một số ngoại lệ trong việc phân tích dữ liệu
Tầng 1-Các câu hỏi Khách hàng đang mua cái gì ? Không mua cái gì ? Các đơn vị cạnh tranh đang làm gì ? Họ ảnh hưởng ra sao đến mối quan hệ giữa công ty và khách hàng ? Loại ô tô màu nào có giá từ 20.000 đến 50.000 USD bán chạy nhất ? Mặt hàng nào bán chạy nhất trong các kì noel gần đây ?
Tầng 2-OLAP Vào giữa các năm 1990: OLAP-Online Analytical Processing Kỹ thuật phân tích đa chiều của đa tập dữ liệu lớn 12 tiêu chuẩn đánh giá được đề cập bởi E.F. Codd Dữ liệu được trình bày theo mô hình đa chiều Công nghệ OLAP cho phép truy cập nhanh tới các toán tử hỗ trợ đặt biệt như rolling-up, drilling down,..
Tầng 2-OLAP Là giao diện cho KDL và các báo cáo để tương tác với dữ liệu Caching Tối ưu hoá câu hỏi Sự phân tích các câu hỏi thường xuyên MOLAP/ROLAP/HOLAP An toàn: cấp quyền và quản lý truy cập
Tầng 2-Định nghĩa OLAP Là một loại phần mềm cho phép: Phân tích Quản lý Và thực hiện để : Truy cập nhanh, nhất quán dữ liệu Dữ liệu được chuyển đổi từ mức thô sang cấu trúc đa chiều Theo hiệp hội OLAP  www.olap.org  1995 12 tiêu chuẩn để đánh giá OLAP tools của E.F. Codd
Tầng 2-12 tiêu chuẩn Khung nhìn khái niệm đa chiều:  mô hình đa chiều tương ứng với các vấn đề kinh doanh Trong suốt: hệ qt csdl, sự hỗn tạp của dữ liệu nguồn, và kiến trúc trong suốt tới user Có thể truy cập:  chỉ có dl được yêu cầu cho phân tích được truy cập Thiết lập báo cáo phù hợp:  sự tăng trong dung lượng CSDL hoặc chiều không làm giảm hiệu suất Kiến trúc khách chủ:  Hệ thống OLAP phải tuân theo các nguyên tắc cơ bản để có sự linh động, adaptability, and inter-operability
Tầng 2-12 tiêu chuẩn Chiều chung:  các chiều dữ liệu phải tương đương về cấu trúc và các khả năng xử lí điều khiển ma trận rời rạc  Hỗ trợ đa user Các toán tử qua các chiều không bị giới hạn: nhận dạng các phân cấp của chiều và tiến hành tính toán trong các chiều giao nhau. Thao tác dữ liệu bằng trực giác:  Lập báo cáo linh động Không giới hạn số chiều và mức độ tổng hợp
Tầng 2-Dữ liệu đa chiều Geography Product Item Type Category All City State Country All Time Month Year Day Week All Quarter
Tầng 2-Ví dụ về phân cấp
Phõn cấp chiều trong Kho dữ liệu Specification   of   hierarchies Schema   hierarchy day  < { month  <  quarter ;  week } <  year Set _ grouping   hierarchy {1..10} <  inexpensive
Tầng 2-Ví dụ dữ kiện và chiều (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
Tầng 2-Ví dụ của tổng hợp Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
All Total annual sales of  TV in U.S.A. Date Product Country All, All, All sum sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum
Cube: Một lưới các Cuboid all time item city supplier time,item time,city time,supplier item,city item,supplier city,supplier time,item,location time,item,supplier time,city,supplier item,city,supplier time, item, city, supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid
Duyệt khối Visualization OLAP   capabilities Interactive   manipulation
Tầng 2-Ví dụ của chuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Tầng 2-Ví dụ của rolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Tầng 2-Ví dụ của Drilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Tầng 2-Slice/Dice
Tầng 2-Pivot (Rotate)
Tầng 2-Các phương pháp lưu trữ dl Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP Công cụ OLAP tương tác với cache and KDL Các mô hình chuẩn lưu trữ dữ liệu cho các hệ thống toàn tác không thực thi cho các phép tính OLAP Các hệ thống xử lý toàn tác: các mô hình quan hệ thực thể lớn-> câu hỏi mở rộng ra nhiều bảng->rất phức tạp, đa kết nối, thời gian thực hiện lâu. OLAP: các câu hỏi phức tạp đặc biệt Làm sao chúng ta có thể thiết kế một CSDL cho phép các câu hỏi lạ có thể thực hiện được ?
Tầng 2-Các yêu cầu của KDL Được tối ưu hóa cho OLAP  OLTP: dữ liệu được chuẩn hoá, không dư thừa, không phù hợp cho các câu hỏi phức tạp OLAP: câu hỏi phức tạp, các tổng hợp được tính toán trước, dư thừa cao Dữ liệu trong KDL là read only- thêm dữ liệu mới thay vì thay đổi dl cũ. Yêu cầu 1: các phương pháp cho việc lưu trữ dl tối ưu hóa cho câu hỏi phức tạp
Tầng 2-Các yêu cầu của KDL (tt) Dữ liệu liên kết trong 1 không gian đa chiều Ví dụ:lượng hàng hoá được bán theo từng khách hàng từng ngày và từng sản phẩm tại từng kho hàng. Các hướng lưu trữ: ROLAP MOLAP HOLAP DOLAP
Tầng 2-MOLAP (1) Dữ liệu đa chiều CSDL đa chiều sử dụng cho việc lưu trữ dữ liệu Phù hợp với các yêu cầu của OLAP Tương đồng trực tiếp với cấu trúc khối dl Các vùng dữ liệu rãi rác vì chỉ một vùng nhỏ chứa dl Dung lượng ! khối đa chiều n x m x.. x z
Tầng 2-MOLAP (2) Dữ   liệu   được   tìm   thấy   tại   điểm   giao   của   các   chiều Store GL_Line Time FINANCE Store Product Time SALES Customer
Tầng 2-MOLAP (3)
Tầng 2-ROLAP (1) Hệ phân tích trực tuyến quan hệ Dựa trên cơ sở các CSDL quan hệ Các lược đồ DL đặc biệt dùng để mô hình hoá dl đa chiều Được tối ưu hóa cho các xử lí OLAP Bảng dữ kiện chứa dữ liệu phân tích Các bảng chiều chứa dl tham khảo Có 2 kiểu mô hình dl: hình sao và bông tuyết
Tầng 2-ROLAP (2) Dữ   liệu   được   tìm   thấy   tại   điểm   giao   của  1  cột   và  1  một   hàng Columns Rows Table Key values to join
Tầng 2-ROLAP (3)
Tầng 2-So sánh R và MOLAP Property Relational Multidimensional Data representation Two dimension Multiple dimensions Data extraction Specific rows Specific dimensions Computations Functions High speed matrix Results Tool specific Matrix
Tầng 2-HOLAP OLAP ghép (lai) Kết hợp các kĩ thuật MOLAP và ROLAP Xử dụng CSDL ROLAP để lưu trữ các dữ liệu đa chiều Lưu trong mãng đa chiều các câu hỏi thường gặp.  Giao diện với hai hệ qt CSDL
Tầng 2-HOLAP
Tầng 2-DOLAP CSDL OLAP Lấy ra một phần từ KDL chuyển giao cho máy khách OLAP và KDL server chạy trên máy chủ Truy cập trực tiếp DL không cần mạng Giới hạn các nguồn tại máy khách Xử dụng cho các ứng dụng riêng lẻ
Tầng 2-Dữ liệu đa chiều Kho dl được tối ưu hóa cho các câu hỏi OLAP Khung nhìn kháI niệm đa chiều ROLAP và HOLAP: dữ liệu đa chiều được lưu trong các bảng sự kiện Các lược đồ cho lưu trữ dl đa chiều Hình sao Hình bông tuyết
Tầng 2-Dữ kiện và các chiều Dữ kiện: (Fact) Thể hiện các vùng tiến trình giao dịch gốc Không hứa hẹn thay đổi khi đã được sinh ra Lưu trữ tại cấp độ chắc chắn của độ thô Các chiều: (Dimensions) Thông tin tham khảo bởi dữ kiện có thể được cấu trúc cho phân tích Định nghĩa các phân cấp tổng hợp Chiều thời gian, các nhóm sp, và vùng
Tầng 2-ROLAP-Lược đồ hình sao Phân đoạn dữ liệu Các bản không chuẩn hóa Một bản dữ kiện được vây quanh bởi các bảng chiều Các câu hỏi nhằm vào bảng sự kiện và được  định dạng bởi các bảng chiều Không cần thiết phảI liên kết qua nhiều bảng Mô hình nổi bật cho KDL
Tầng 2-ROLAP-Lược đồ hình sao
Tầng 2-Lược đồ bông tuyết Dựa trên lược đồ hình sao Bảng dữ kiện  Các bản chiều được chuẩn hóa
Tầng 2-Lược đồ bông tuyết
Tầng 2-Chợ dữ liệu (1) Là một tập các kdl nhỏ Được xây dựng cho các nhu cần của các vùng hay ban nhỏ Dữ liệu từ các cdl có thể được tổng hợp vào một kdl trung tâm Hoặc cdl có thể trích dữ liệu từ một kdl trung tâm để trình bày cho một nhu cầu của một nhóm user
Tầng 2-Chợ dữ liệu (2) Các lý do cho việc xây dựng các cdl cung ứng cho 1 một kdl trung tâm Đó là một dạng dự án kdl nhỏ Dễ dàng bắt đầu với nó Nhằm vào một vùng kinh doanh Dễ dàng và nhanh chóng để xây dựng một kdl cho toàn công ty
Tầng 2-Chợ dữ liệu (3) Các hạn chế Các hệ thống độc lập không dễ dàng tích hợp được KDL cung cấp khả năng tiến hành các hoạt động phân tích rộng trong khi các chơ dl chỉ nhằm vào 1 một khung nhìn hạn chế. Tăng thêm việc vận chuyển
Tầng 2-Chợ dữ liệu (4) Các lý do cho việc xây dựng các cdl từ một một kdl trung tâm Dữ liệu được chuyển đổi và biểu diễn được yêu cầu bởi một nhóm các user đặc biệt Dữ liệu có sẵn ở cấp địa phương Các câu hỏi được phân bố qua một số các cdl thay vì phải nạp vào một kdl trung tâm Trong một số trường hợp không cần thiết có toàn dl
Tầng 2-Chợ dữ liệu (5)
Tầng thu thập: tầng 3 Các loại dữ liệu nguồn Dữ liệu từ các hệ thống tác nghiệp Hệ thống kế thừa Các nguồn dữ liệu bên ngoài ETT (Chiết, chuyển đổi, và chuyển tải) Cung cấp dữ liệu Siêu dữ liệu cho hệ thống thu thập dữ liệu
Dữ liệu từ các hệ thống tác nghiệp Chứa dữ liệu chi tiết và hiện tại Được sử dụng cho các toàn tác hàng ngày Chứa dữ liệu thích hợp hiện hành Là nguồn dữ liệu được tích hợp dể xây dựng Kho dữ liệu Ví dụ “employees” trong kho dữ liệu là sự hợp nhất của “workers” trong Source 1 và “managers” trong Source 2
Hệ thống kế thừa Các sưu tập dl cũ không được dùng cho các mục đích hoạt động Phương phác khác nhau của việc tổ chức dl ngược lại với mô hình hiện tại Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dl hệ thống kế thừa
Dữ liệu từ hệ thống ngoài Dữ liệu được lấy từ các nguồn bên ngoài Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,… Không phảI là dữ liệu được tạo ra trong công ty Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp Được yêu cầu cho các phân tích chi tiết
Chiết dữ liệu Dữ liệu được chiết từ các nguồn bên ngoài Định nghĩa sự thường xuyên của chiết Định nghĩa ảnh chụp nhanh của dl được chiết Định nghĩa các mục dl đã được thay đổi sau cấp nhật mới nhất
Chiết dữ liệu   Dữ liệu duợc chiết ra từ nhiều nguồn ở nhiều kiểu dữ liệu khác nhau: quan hệ, tệp, HTML, XML, …
 
Làm sạch Tìm và loại trừ các bộ trùng nhau Jane Doe vs. Jane Q. Doe Kiểm tra tính nhất quán Khám phá ra dữ liệu sai, không nhất quán:  Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không…  Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL) Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định) Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được
Sự chuyển đổi Loại trừ các dữ liệu gây nhiễu  Chuyển đổi dữ liệu vào một lược đồ nhất quán.  Các luật cho việc chuyển đổi Tri thức về dữ liệu Các quyết định về độ  thụ  của dữ liệu Dịch kiểu dữ liệu và tập kí tự
Cung cấp dữ liệu Nạp dữ liệu vào kdl Tính toán các bản tổng hợp Tính toán các trường được suy dẫn Cung cấp Online/offline  Lập lịch cho tiến trình cung cấp
Tầng 1: Siêu dữ liệu Lưu thông tin về các nguồn dữ liệu bên ngoài Thông tin về mô hình kho dữ liệu Điều khiển các đường dẫn, chiết và nạp dữ liệu, thiết lập các câu hỏi  Lưu thông tin về quá trình nạp dữ liệu
Tầng 1: Siêu dữ liệu Siêu dữ liệu kĩ thuật Các nguồn, bảo mật, vvv Siêu dữ liệu kinh doanh Các luật để chuyển hoá Siêu dữ liệu thao tác
Kiến trúc kho dữ liệu chi tiết
Câu hỏi  cho chương 3??? Uff...
Chương 4:  Mô hình dữ liệu đa chiều
Nội dung chương Các khái niệm chính của mô hình dữ liệu đa chiều Dữ kiện (Fact) Chiều (Dimension) Độ thô  Tổng hợp  Các mô hình lưu trữ
Mô hình dữ liệu đa chiều Được đề xuất và thiết kế cho một mục đích phân tích dữ liệu  Mô hình dữ liệu này không phù hợp cho hệ thống OLTP Mô hình dữ liệu này được thao tác bởi các công cụ OLAP Các công cụ này cung cấp các phương tiện truy vấn mạnh dựa trên thiết kế mô hình dữ liệu đa chiều  Ví dụ như: TARGIT Analysis, SQL OLAP Server
Mô hình dữ liệu đa chiều Location Time Store District Region All Month Year Day Week All Quarter Product Product Brand Manufacturer All
Các thành phần chính Các dữ kiện (Facts) Miêu tả các vùng kinh doanh Không thay đổi khi nó đã được sinh ra Được lưu tại một cấp thô nào đó Các chiều (Dimensions) Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân tích Định nghĩa các phân cấp Và các khối đa chiều (Cubes)
Khối Một khối có thể có nhiều chiều Nếu có nhiều hơn 3 chiều sẽ được gọi là ‘siêu khối’ (”hypercube”) Về mặt lý thuyết thì số chiều là không hạn chế Thường thì số chiều là từ 4 đến 12  Một khối bao gồm nhiều ô dữ liệu Là một liên kết giữa các giá trị của chiều  Một ô có thể là rỗng (không có dữ liệu cho liên kết này)  Khối thưa ( sparse cube): có nhiều ô rỗng Khối dày đặc ( dense cube): có ít ô rỗng
Ví dụ về ô rỗng
Ví dụ về dữ kiện và chiều Kho Grocery Dữ kiện: POS:point of sales sự kiện bán hàng Chiều: Thời gian (Time) Vị trí Kho (Location - Store) Sản phẩm (Product) Quảng cáo (Promotion)
Khối Grocery
Các k hái niệm về chiều Miền phân cấp Các cấp (Levels), cấp tương ứng với các độ thô Lược đồ chiều Dimension schema  Các toán tử chiều Dimension operators
Các ví dụ về chiều
Thuộc tính chiều Một chiều bao gồm nhiều thuộc tính. Ví dụ như:  Time dimension: day, month, year Product dimension: ProductID, LineID, BrandID Một chiều được cấu trúc/ tổ chức ở dạng phân cấp: Time dimension: day   week    quarter Product dimension: product    brand    manufacturer Các thuộc tính xác định cấp nào mà một phần tử chiều thuộc vào Các phần tử time có cùng năm, tháng thuộc về cấp ‘month’ Tất cả phần tử product có cùng brand thuộc về cấp ‘brand’
Ví dụ về vùng phân cấp
Lược đồ chiều và phân cấp Geography Store District Region All Time Month Year Day Week All Quarter Product Product Brand Manufacturer All
Các toán tử chiều
Dữ kiện (Fact Data) Các dữ kiện số (Numerical measures) Được truy cập bởi các chiều  Fact Summary Fact
Dữ kiện (Fact Data) Chứa dữ kiện suy dẫn Unit_Sales Unit_Price / Average_Selling_Price January_Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales + January
Dữ kiện (Fact Data) Các  bảng chứa dữ liệu lớn Dữ liệu được dán nhãn thời gian Time 1992 1997
Ví dụ về dữ kiện (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
Khối đa chiều (Cube) Time Store District Region All Location Month Year Day Week All Quarter (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max) Product Product Brand Manufacturer All
Ví dụ về khối 3 chiều
Ví dụ về tổng hợp (Aggregation) Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Ví dụ của chuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Ví dụ: rolling up và drilling down
Ví dụ của rolling up
Ví dụ của rolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Ví dụ của Drilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
Ví dụ về Slice và Pivot
ROLAP
Mô hình dữ liệu đa chiều  trong csdl quan hệ
Lược đồ hình sao tổng quát
Lược đồ hình sao Phân đoạn dữ liệu Dữ liệu không chuẩn hóa Một bản dữ kiện và các chiều bao quanh Các câu hỏi nhằm vào bản dữ kiện và được cấu trúc bởi các bản chiều Mô hình nổi bật của KDL
Ví dụ lược đồ hình sao có 4 chiều
Ví dụ lược đồ hình sao với dữ liệu
Các lược đồ của ROLAP
Lược đồ hình bông tuyết Căn cứ vào lược đồ hình sao Bản dữ kiện giống như luợc đồ hình sao Các chiều được chuẩn hoá (chuẩn 3) Các chiều được cấu trúc rõ ràng
Ví dụ về lược đồ bông tuyết
Ví dụ về lược đồ bông tuyết
Chiều trong lược đồ hình bông tuyết
Các lược đồ của ROLAP (6) Đa   fact   hình   sao  ( Multi   fact   star   schema )
Khóa trong lược đồ ROLAP Time Product Store Single Column Time Key Single Column Product Key Single Column Store Key Composite Key
Các khoá Khóa chính nằm trên các bản chiều Khoá ngoài nằm trên bản dữ kiện Tạo lập các index để tăng tốc độ  Khoá được xác định trong giai đoạn thiết kế Các khóa kết hợp có thể được áp dụng
Các thuộc tính của bản dữ kiện Non-additive  Không   liên   kết Semi-additive   Liên   kết   với   một   số   chiều Additive   Liên   kết   với   tất   cả   các   chiều
Các thuộc tính của bản dữ kiện Additive Cost by Product + Store + Time Cost by  Product + Promotion + Time Revenue by Product + Promotion + Time Revenue by Product + Promotion + Store + Time . . . Semi-Additive Sales Fact Time_key Product_key Store_key Promotion_key Quantity_sold* Revenue* Cost* Customer Count Time Dimension Store Dimension Product Dimension Promotion Dimension
Chiều dữ liệu Dữ liệu của chiều xác định cấu trúc và miền của câu hỏi  Dữ liệu của chiều liên kết với dữ kiện thông qua các khóa Customer Suppliers Time Products Sales  Items Query path
Chuẩn hóa chiều Dữ liệu chuẩn hóa không  Dư thừa Trùng lặp Các cột khóa độc lập Dữ liệu không chuẩn hóa Tăng tốc độ trả lời câu hỏi Tồn tại trong kho dữ liệu
Độ thô dữ liệu Dữ liệu được làm cho phù hợp với KDL tại một mức độ chắc chắn (độ thô) Căn cứ vào độ thô đó các tổng hợp được định nghĩa Độ thô cao: nhiều dữ liệu hơn, độ thô thấp: ít dữ liệu hơn Các câu hỏi: Độ thô nào đã có sẵn ? Độ thô nào hợp lý và tiện dụng cho KDL Xu hướng lưu trữ dữ liệu cú độ thô cao nhất, vì khi đã giảm độ thô thì dữ liệu chi tiết không thể phục hồi được
Độ thô dữ liệu Tác động đến kho dl Dung lượng của kdl Cấp độ phân tích Tính mềm dẻo Cấp độ chi tiết của dữ liệu Ngày, Tháng, Năm Tỉnh, quốc gia,… Phân tích các yêu cầu để tránh dư thừa hay thiếu hụt dữ liệu Khảo sát, làm mới nếu cần thiết
Các bảng tổng hợp Mục đích: trả lời nhanh các câu hỏi thường gặp Các bước: Nhận diện các câu hỏi thường gặp Nhận diện các chiều và các tổng hợp tương ứng Định nghĩa phân cấp của các tổng hợp Tạo một cách có chọn lựa các bản dữ kiện tổng hợp tính toán trước Tạo các bảng chiều tổng hợp
Các bảng tổng hợp Việc dùng các tổng hợp được tính toán và lưu trữ trước là một hiệu quả lớn đối với kho dữ liệu để điều khiển và làm tăng hiệu suất câu hỏi Kimball 1996
Chương  5: K ỹ   thuật   mô   hình   hoá   các   chiều   cơ   sở
Giới thiệu Các bước mô hình kho dữ liệu  Độ thô dữ liệu (Data Granularity) Lưu trữ dữ liệu Các phân cấp thuộc tính Truy vấn KDL và OLAP Các lỗi thường gặp khi xây dựng 1 KDL Ví dụ
Các tầng  Tầng khái niệm Conceptual layer – dữ liệu và xử lí dữ liệu Tầng logic Logical layer – dữ liệu và xử lí kinh doanh Tầng vật lý Physical layer – cấu trúc bên trong  Các chủ thể, dữ kiện và mối quan hệ
Tầng trong hệ thống thông tin Conceptual Layer Logical Layer Physical Layer Physical Layer Logical Layer Operational systems Warehouse
 
Các thành phần chính Phân cấp thuộc tính của các chiều Mối quan hệ Dữ kiện Product Dimension Manufacturer Brand  Product Account Year Time Dimension Account Week Region Location Dimension Store Product_key Store_key Acct_Week_key Sales Data District
Các tiến trình mô hình hóa Xác định yêu cầu của người dùng Hướng dẫn người dùng hiểu về công  nghệ KDL
Các tiến trình mô hình hóa Định nghĩa mô hình kinh doanh Mô hình hóa các chiều Chọn mô hình lưu trữ Conceptual Model Physical Model Logical Model
Các công cụ và phương pháp Chọn các công cụ với giao diện đồ họa Tạo lập tài liệu Định nghĩa các liên kết và ràng buộc Phương pháp luận Mô hình hoá Xây dựng sản phẩm
Tóm lược các lược dồ Sao Bông tuyết Đa sao
Mô hình hóa các chiều Mô hình dựa vào nội dung của dữ liệu  Mô hình với các tổng hợp cần thiết  Mô hình phải đáp ứng yêu cầu phân tích sâu, và tổng hợp  Có thể không chuẩn hóa - star Có thể chuẩn hóa - snowflake Xây dựng các phân cấp
Mô hình các bảng tóm tắt Định nghĩa các bảng tóm tắt trước khi thiết kế Dùng các bảng riêng để chứa các tổng hợp/tóm tắt SALES FACTS Sales$ Region Month 10,000 North Jan 97 12,000 South Feb 97 11,000 North  Jan 97 15,000 West Mar 97 18,000 South  Feb 97 20,000 North  Jan 97 10,000 East Jan 97 2,000 West Mar 97 SALES BY MONTH/REGION Month Region Tot_Sales$ Jan 97 North 41,000 Jan 97 East 10,000 Feb 97 South 40,000 Mar 97 West 17,000 SALES BY MONTH Month Tot_Sales Jan 97 51,000 Feb 97 40,000 Mar 97 17,000
Khi nào thì tóm tắt dữ liệu Phân tích và đưa ra quyết định để truy cập trực tiếp các tổng hợp có sẵn hay tính toán tại thời điểm thực hiện câu hỏi. Việc tính toán các tỉ số nén cho phép quyết định nên chọn phương án nào Queried Rows Displayed Rows   Calculation   Ratio 1,341 22   22/11341   0.0164 234 22   22/234   0.09 30 22   22/30   0.73 20 22   22/20   1.1
Các công cụ Logic Works Micro Strategy Oracle Designer/2000   Data Mart Designer Prism Solutions Smart Corporation
Ví dụ Kho dữ liệu: Grocery Store Một dây chuyền các cửa hàng tạp phẩm nằm rãi rác 3 bang ở Mỹ Các kho: các siêu thị với các cửa hàng như tạp phẩm, bơ sữa, thịt, thức ăn lạnh, bánh mỳ, đồ uống, .. Khoảng 60.000 sản phẩm tại mỗi kho Ví dụ điển hình của KDL trích từ KIM 96
Cơ sở Dữ liệu sẵn sàng cho việc xây dựng KDL  Dữ liệu từ các hệ thống nguồn: OLTP  Được làm sạch Xây dựng kho DL: Mô hình các tiến trình kinh doanh nào ? Định nghĩa độ thô của dữ liệu để phù hợp với KDL Mô hình hoá cấu trúc KDL Biến đổi dữ liệu theo cấu trúc Kho DL Tính toán các tổng hợp và các dữ kiện suy dẫn
Các tiến trình mô hình KDL miêu tả khung nhìn của một tiến trình kinh doanh Sự quyết định mô hình tiến trình kinh doanh nào có tác động quan trọng  Nhằm vào các vấn đề gì ? Các câu hỏi được đặt ra ? Các thông tin cần thiết KDL trung tâm hay các chợ dữ liệu
Tiến trình kinh doanh Dữ liệu OLTP Point of sales (POS) data: Dữ liệu bán hàng  Dữ liệu nhà cung cấp  Dữ liệu kế toán Dữ liệu khách hàng Sự quảng cáo Mục đích: Xây dựng một CSDL  hoạt động hàng ngày
Ví dụ về độ thô Độ thô nào cho dữ liệu POS? Các khả năng ? Toàn tác đơn theo từng khách hàng từng sản phẩm tại từng kho Toàn tác nhóm theo từng khách hàng từng sản phẩm tại từng kho Toàn tác nhóm hàng ngày theo từng kho từng sản phẩm Toàn tác nhóm hàng tuần theo từng kho từng sản phẩm Toàn tác nhóm hàng ngày từng sản phẩm tại từng vùng
Độ thô Toàn tác nhóm hàng ngày theo từng kho từng sản phẩm Dữ kiện theo từng khách hàng từng sản phẩm tại từng kho không phù hợp cho việc phân tích thị trường Dữ kiện theo từng tuần, hay tháng cũng không phù hợp vì sẽ không  phân tích được sự khác nhau giữa các ngày Sự quyết định độ thô nào phụ thuộc vào tiến trình kinh doanh và các câu hỏi cần trả lời
Tầng 2-Các phương pháp lưu trữ dl Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP Dùng loại nào trong: MOLAP ROLAP  HOLAP Các chợ dữ liệu
Ví dụ: Kho DL Grocery Các CSDL quan hệ CSDL quan hệ  được sử dụng trong OLTP tại các công ty Các chuyên gia CNTT tại các công ty đã làm quen nhiều với CSDL quan hệ ROLAP được dùng rộng rãI ROLAP được dùng để lưu trữ KDL Grocery
Các buớc thực hiện Chọn các tiến trình kinh doanh cho mô hình Sales Chọn cấp độ của tiến trình kinh doanh  SKU by Store by Promotion by Day Chọn độ thô  Chọn các chiều Time, Store, Promotion, Product Chọn các dữ kiện Dollar_sales, unit_sales, dollar_cost, customer_count
 
Ước luợng dung luợng Time dimension: 2 years = 730 days Store dimension: 300 stores reporting each day Product dimension: 30,000 products, only 3000 sell per day Promotion dimension: 5000 combinations, but a product only appears in one combination per day Number of fact records: 730*300*3000*1 = 657,000,000 Number of fields: 4 key + 4 fact = 8 fields Total DB size: 657,000,000 * 8 fields * 4 bytes = 21 GB
Dữ kiện (Facts) và Chiều Dữ kiện: Miêu tả các vùng kinh doanh Không thay đổi khi nó đã được sinh ra Được lưu tại một cấp thô nào đó Chiều: Thông tin tham chiếu qua đó cỏc sự kiện có thể được cấu trúc cho việc phân tích Định nghĩa các phân cấp
Ví dụ về dữ kiện và chiều Kho Grocery Dữ kiện: POS: sự kiện bán hàng Chiều: Thời gian (Time) Kho (Store) Quảng cáo (Promotion) Sản phẩm (Product)
Chọn lược đồ nào cho Grocery ? Lược đồ bông tuyết có độ chuẩn hóa cao Sử dụng ít không gian đĩa hơn Việc truy cập các bảng phức tạp hơn bởi phải tham chiếu đến nhiều bảng Lược đồ hình sao dễ quản trị hơn, và đáp ứng yêu cầu trả lời nhanh câu hỏi Chọn luợc đồ hình sao cho KDL Grocery
Các thuộc tính Quyết định chọn các trường nào để đưa vào bảng dữ kiện và chiều Các phân cấp thuộc tính Các cấp độ tổng hợp Xem xét các khả năng của câu hỏi và các ràng buộc của các bản Các tác động của các toán tử OLAP
Ví dụ của bảng dữ kiện Chứa dữ liệu thích hợp  cho vùng kinh doanh Bao gồm các khoá của các chiều tham chiếu Dữ liệu được lấy từ hệ thống OLTP: dữ liệu bán hàng POS Độ thô: sản phẩm được bán hàng ngày tại từng kho  Định nghĩa nơi lưu trữ các tổng hợp
Ví dụ của bảng dữ kiện Các thuộc tính dữ kiện bán hàng: Keys Time_key Product_key Store_Key Promotion_key Facts Dollars_sales Units_sales Dollars_cost Customer_count
Ví dụ của bảng dữ kiện Khoá của bảng dữ kiện được hợp thành từ bốn khóa ngoài của các bảng chiều Các dữ kiện được lấy từ hệ thống bán hàng POS Các thuộc tính suy dẫn dựng   cho việc phân tích Dung lượng: ???
Ví dụ của chiều: thời gian Chiều thời gian (Time) là một chiều cơ bản có trong tất cả các KDL Các thuộc tính phân cấp tự nhiên: Năm->Tháng ->Tuần ->ngày Có cấu trúc không đơn giản do: Có nhiều loại phân cấp, đa phân cấp (Multi hierarchies)
Ví dụ của chiều: thời gian
Ví dụ của chiều: thời gian
Ví dụ của chiều: Sản phẩm Nhận dạng mỗi sản phẩm bởi SKU (Stock Keeping Unit) Dựa trên các mã sản phẩm phổ thông (UPC - Universal Product  Code  ( UPC ) ) Bao gồm các mã đặt biệt cho việc lưu trữ sản phẩm như thịt tươi,.. Lưu miêu tả của các sản phẩm Dung lượng, các nhóm sản phẩm, các nhánh,.
Ví dụ của chiều: sản phẩm
Ví dụ của chiều: sản phẩm
Ví dụ của chiều: sản phẩm Được quản lý bởi tổng kho và được phân bố đến các kho Định nghĩa loại của phân cấp Chuẩn hóa và không chuẩn hóa Thường có thêm nhiều thuộc tính phụ có trong chiều sản phẩm
Ví dụ của chiều: kho Miêu tả mỗi kho của hệ thống liên kết các của hàng tạp phẩm Chiều địa lí Được tạo ra tại tổng kho bởi việc thu thập thông tin từ các kho  Có hai loại phân cấp: phân cấp địa lý và vùng bỏn hàng Các thuộc tính miêu tả kho: dung lượng, vị trí,.
Ví dụ của chiều: kho
Ví dụ của chiều: kho Phân cấp địa lí: Store->Store_zip->Store_county->Store_state Phân cấp vùng bán hàng Store->sales_district->sales_region
Ví dụ của chiều: kho
Ví dụ của chiều: Quảng cáo Miêu tả điều kiện để một sản phẩm được bán, ví dụ: giảm giá tạm thời, sự trợ giúp của báo,.. Được gọi là chiều nguyên nhân: yếu tố được nghĩ tới để thay đổi việc bán sản phẩm Các điều kiện liên quan mật thiết: giảm giá, hay phiếu thưởng Để phân tích các sản phẩm được bán tăng lên trong quá trình quảng cáo Không dùng để phân tích các sản phẩm nào không bán được.
Ví dụ của chiều: quảng cáo
Ví dụ của chiều: quảng cáo Giành được trong giai đoạn khuyến mãi Có hay không các sản phẩm sự tụt xuống ngay sau khi kết thúc quảng cáo Có hay không việc bán các sản phẩm tăng lên trong quá trình quảng cáo Có hay không việc bán các sản phẩm làm tăng việc buôn bán tổng thể so với giai đoạn trước
Ví dụ của bảng dữ kiện Các thuộc tính dữ kiện bán hàng: Keys Time_key Product_key Store_Key Promotion_key Facts Dollars_sales Units_sales Dollars_cost Customer_count Các   thuộc   tính   phụ   trợ   cho   việc   phân   tích
Ví dụ của bảng dữ kiện Thêm vào: Dollar_sales, uni_sales, và dollar_cost, và phụ thuộc vào các chiều Có khả năng tính toán các tổng hợp trong tất cả các chiều, ví dụ: việc bán hàng hay chi phí từng tuần, từng tháng, từng nhóm mặt hàng, từng vùng  Customer_count không phụ thuộc hoàn toàn vào các chiều
Ví dụ của customer_count: Customer_count theo từng tuần từng sản phẩm từng kho có thể tính toán được Customer_count theo từng tuần, từng vùng bán hàng có thể tính toán được Customer_count theo từng tuần, từng nhúm( sản phẩm hàng theo từng kho không thể tính toán được: Lượng hàng hóa cho sản phẩm A tại kho 1 có customer_count là 20 Lượng hàng hóa cho sản phẩm B tại kho 1 có customer_count là 60 Lượng hàng hóa cho hai sản phẩm A và B tại kho 1 có customer_count nằm giữa 20 va 80
Thay đổi customer_count: Thay đổi độ thô bằng việc lưu lại các toàn tác đơn theo từng customer-> customer_count có thể tính theo từng nhóm Tính customer_count theo phân cấp của chiều kho: store brand, subcategory,…
Các bảng tổng hợp Mục đích: trả lời nhanh các câu hỏi thường gặp Các bước: Nhận diện các câu hỏi thường gặp Nhận diện các chiều và các tổng hợp tương ứng Định nghĩa phân cấp của các tổng hợp Tạo một cách có chọn lựa các bảng dữ kiện tổng hợp tính toán trước Tạo các bảng chiều tổng hợp
Nhận diện các câu hỏi thường gặp Tạo một danh sách các câu hỏi thường gặp Tiến hành trong giai đoạn thiết kế KDL Căn cứ trên hệ thống OLTP và các báo cáo Nhưng: được theo dõi và tiến hành trong quá trình thao tác của KDL: xem thử các user đang làm gì ! Tác động của user với các khả năng Thiết lập danh sách
Ví dụ nhận diện các câu hỏi Lượng hàng hoá bán được của bánh mì trong suốt các giai đoạn nghỉ so với các giai đoạn khác Lượng hàng hoá bán được trong các quận phía tây so sánh với các quận phía đông Lượng hàng hoá bán được thức ăn nhanh trong 24 tháng gần đây Sự có lợi của quảng cáo bằng báo chí so với radio, tv…
Nhận diện các chiều Chọn các chiều liên quan thường xuyên đến các câu hỏi Xem xét dung lượng của các bảng tổng hợp
Ví dụ nhận diện các chiều Các chiều: Sản phẩm (Product) ? Store ? Time ? Promotion ? Chọn chiều nào ?
Nhận diện các phân cấp Với một chiều, tạo (các) phân cấp căn cứ trên các thuộc tính sẵn có Xem xét các câu hỏi thích hợp Xem xét các dữ liệu sẵn có Xem xét các thuộc tính của bảng dữ kiện
Phân cấp Product
Phân cấp Store
Phân cấp Time
Các bảng dữ kiện tổng hợp Nhận diện các bảng dữ kiện yêu cầu  Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp,  ví dụ: lượng hàng bán được theo từng tháng có thể tính được dựa trên lượng hàng bán được từng ngày trong tháng. Ước lượng dung lượng Kiểm tra sự sẵn có của dữ liệu Kiểm tra các bảng tổng hợp chiều cần thiết
Ví dụ bảng dữ kiện tổng hợp Các bảng dữ kiện tổng hợp được yêu cầu: Tổng hợp 1 chiều:  Từng loại sp theo từng kho theo từng ngày Từng loại sp theo từng kho theo từng tháng Từng loại sp theo từng kho theo từng năm Tổng hợp 2 chiều:  Từng loại sp theo từng kho theo từng ngày Từng loại sp theo từng pho theo từng tháng Từng loại sp theo từng quận theo từng năm
Ví dụ bảng dữ kiện tổng hợp Các bảng dữ kiện tổng hợp này lấy được từ bảng dữ kiện cơ sở Kiểm tra các thuộc tính phụ: Dollar_sales ? Unit_sales ? Dollar_cost ? Customer_count ?
Liên kết giữa dữ kiện và chiều Liên kết giữa bảng dữ kiện với các bảng chiều trong lược đồ hình sao Liên kết giữa các bảng dữ kiện tổng hợp căn cứ trên các phân cấp của các bảng chiều Định nghĩa các thuộc tính phân cấp tại các bảng chiều
Các bảng dữ kiện tổng hợp Các bảng dữ kiện phụ có thể được thêm vào khi có yêu cầu cần thiết Số lượng và dung lượng của các bảng dữ kiện có thể bùng nổ tổ hợp Kiểm tra các bảng dữ kiện nào là cần thiết và có thể tính toán được
Các bảng dữ kiện tổng hợp Tính theo các chiều Product: theo category, theo.. Store: theo district, theo region,  Time: month, year
Tổng hợp 1 chiều Category theo Store theo ngày Region theo Product theo ngày Theo tháng theo product và theo Store Toàn bộ các mặt hàng theo kho theo ngày
Truy vấn bản dữ kiện tổng hợp Các câu hỏi được chuyển sang dạng lệnh SQL Ví dụ: Trình bày số lượng hàng bán được theo loại tại kho A vào ngày đầu năm 2003 dựa vào bảng dữ kiện co sở: Select category_description,sum(sales_dollars) From base_sales_fact,product,store,time Where base_sales_fact.product_key=product.product_key And  base_sales_fact.store_key=product.store_key And  base_sales_fact.time_key=product.time_key And  store.city=“A” and time.day=“January 1 2003”  Group by category_description
Truy vấn bảng dữ kiện tổng hợp Nếu bảng tổng hợp category đã tồn tại Select category_description,sum(sales_dollars) From category_sales_fact,product,store,time Where category_sales_fact.product_key=product.product_key And  category_sales_fact.store_key=product.store_key And  category_sales_fact.time_key=product.time_key And  store.city=“A” and time.day=“January 1 2003”  Group by category_description Category_sales_fact và chiều tương ứng category_product thay thế cho base_sales_fact và chiều product
Truy vấn bảng dữ kiện tổng hợp Đọc câu hỏi và chuyển sang câu hỏi tổng hợp sẵn có Siêu dữ liệu cung cấp thông tin của các bảng tổng hợp có sẵn Sự tồn tại của các bảng tổng hợp là trong suốt đối với người dùng Có thể xây dựng các câu hỏi thống kê
Truy vấn bảng dữ kiện tổng hợp Thay thế bảng và các chiều cơ sở bằng các mảng và chiều tổng hợp Sắp xếp các bảng tổng hợp Bắt đầu từ độ thụ chi tiết nhất
Chi phí quản lí các view
Chương  6:  Siêu   dữ   liệu
Siêu   dữ   liệu   là   gì Dữ   liệu   về   dữ   liệu   data   about   other   data Tập   các   thuộc   tính ,  hay   phần   tử   cần   thiết   cho   việc   miêu   tả   nguồn   thông   tin   Ví   dụ :  một   tập   các   bản   ghi   với   các   phần   tử   mô   tả   một   cuốn   sách :  tác   giả   author   tên   sách   title   ngày   xuất   bản   date   of   publication   Miêu   tả   description
Siêu   dữ   liệu   –   Khái   niệm Siêu   dữ   liệu   là   thành   phần   cơ   bản   để   xây   dựng   và   quản   lí   một   kho   dữ   liệu Trước   khi   một   kdl   có   thể   được   truy   cập   một   cách   có   hiệu   quả ,  thực   sự   là   cần   thiết   để   hiểu ,  dữ   liệu   gì   sẵn   có   trong   kdl ,  và   chúng   lưu   trữ   ở   đâu .  Dữ   liệu   miêu   tả   quá   trình   xây   dựng ,  quản   lí   và   hoạt   động   của   KDL Siêu   dữ   liệu   được   lưu   trữ   trong   một   kho   chứa   và   được   truy   cập   bởi   tất   cả   các   thành   phần   của   kdl
Siêu   dữ   liệu
Khái   niệm   siêu   dữ   liệu Là   một   lưu   trữ   dùng   để : Miêu   tả   KDL   tổng   thể Nhận   dạng   kiểu   kho   dữ   liệu Quản   lí   quá   trình   tích   hợp   dữ   liệu Quản   lí   quá   trình   cập   nhật   KDL Quản   lí   bảo   mật Hiệp   hội   chuyên   nghiên   cứu   về   siêu   dữ   liệu   Metadata   Coalition   đã   đưa   ra   đặc   tả   của   siêu   dữ   liệu   vào   năm  1996  MDIS   Metadata   Interchange   Specification
Sự   quan   trọng   của   siêu   dữ   liệu Rất   quan   trọng   trong   kho   dữ   liệu Không   phải   là   dữ   kiện   phân   tích Là   chìa   khóa   quyết   định   sự   thành   công   của   kho   dữ   liệu Là   thành   phần   luôn   được   thay   đổi ,  cấp   nhật   theo   sự   phát   triển   của   kho   dữ   liệu Dùng   để   quản   lý ,  điều   khiển   kho   dữ   liệu Warehouse Metadata Repository External  Sources Operational Data Sources
Chất   lượng   của   siêu   dữ   liệu Quản   lý   được   sự   tích   hợp Thể   hiện   được   tính   lịch   sử   của   dữ   liệu Quản   lý   được   các   thay   đổi
Sự   hình   thành   siêu   dữ   liệu Trong   quá   trình   xây   dựng   kdl : Sản   sinh   một   cách   tự   động Được   tạo   ra   trong   quá   trình   xây   dựng   kdl ứng   dụng : Miêu   tả   Kdl   và   các   thành   phần Tạo   điều   kiện   cho   việc   truy   cập   KDL   ở   mọi   cấp Bảo   trì : Phục   vụ   cho   các   mục   đích   bảo   mật Lưu   trữ   thông   tin   về   người   dùng
Các   bước   tạo   lập   siêu   dữ   liệu Định   nghĩa   các   chức   năng   chính   của   siêu   dữ   liệu   trong   hệ   thống   kho   dữ   liệu   Xác   định   các   vấn   đề   trong   tích   hợp   dữ   liệu . Xác   định   siêu   dữ   liệu   có   thể   được   tạo   như   thế   nào ,  ai   tạo   ra   và   được   lưu   trữ   ở   đâu   Miêu   tả   nội   dung   của   siêu   dữ   liệu
Chiến   lược   cho   siêu   dữ   liệu Đưa   ra   một   chiến   lược   cho   việc   tiến   hành   xây   dựng   và   sử   dụng   kho   dữ   liệu Phải   đảm   bảo   được   siêu   dữ   liệu   có   chất   lượng   cao Cung   cấp   cho   người   dùng   thông   tin   có   chất   lượng   cao Đảm   bảo   việc   quản   lí   dữ   liệu   tích   hợp   Nhằm   vào   mục   đích   đến   là   gì Nguồn   và   thông   tin   về   nguồn Bảo   trì   và   quản   lí Các   chuẩn   hóa Truy   cập   và   các   công   cụ Tích   hợp   và   phát   triển
Phân   tích   mục   đích Các   ý   định Các   yêu   cầu Quản   lý   sự   truy   cập ,  ai   sẽ   truy   cập   và   truy   cập   như   thế   nào   Xác   định   các   nguồn Các   hướng   tích   hợp Quản   lí   sự   thay   đổi   và   tiến   triển   của   KDL
Các   loại   nguồn   của   siêu   dữ   liệu Xác   định   ai   là   người   dùng   kho   dữ   liệu  ? Họ   cần   cái   gì  ? Siêu   dữ   liệu   chứa   cái   gì  ? Sẽ   sử   dụng   công   cụ   gì   để   xây   dựng   kho   dữ   liệu  ?
Các   kỹ   thuật Các   công   cụ   mô   hình   hóa   Định   nghĩa   các   lược   đồ   CSDL   Các   công   cụ   hỗ   trợ   cho   ETT   Các   công   cụ   cho   người   dùng   cuối   Các   công   cụ   để   tạo   tài   liệu   kĩ   thuật
Vị   trí   siêu   dữ   liệu Lưu   tại   máy   chủ   chứa   kho   dữ   liệu Có   thể   được   lưu   tại   các   csdl   nguồn   Tại   máy   PC   có   công   cụ   quản   lí   siêu   dữ   liệu Quản   lý   bởi   người   quản   lí   siêu   dữ   liệu Các   chuẩn   hóa   được   sinh   ra   bởi   cấu   trúc   siêu   dữ   liệu
Các   công   cụ   và   việc   truy   cập Ai   truy   cập  ? Khi   nào ? Với   mục   đích   gì  ? Công   cụ   cho   việc   quản   lí   Công   cụ   quản   lí   câu   hỏi   Công   cụ   cho   việc   xây   dựng   kho   dữ   liệu
Các   loại   siêu   dữ   liệu   chi   tiết Hệ   tương   tác   Operational Các   tiến   trình   nạp ,  quản   lý   và   lập   lịch   cho   việc   cập   nhập   kdl ETT Quản   lý   các   cấu   trúc ,  ánh   xạ Thông   tin   nguồn   và   đích Quản   lý   việc   chuyển   đổi Người   dùng   cuối  ( End   user  ) Hỗ   trợ   việc   sử   dụng   kho   dữ   liệu Hỗ   trợ   việc   khảo   sát   kdl Hỗ   trợ   việc   cung   cấp   thông   tin   cho   kdl
Siêu   dữ   liệu   hệ   thống   tương   tác Siêu   dữ   liệu   cho   hệ   tương   tác   miêu   tả   phạm   vi ,  giới   hạn   môi   trường   của   kdl Xác   định   những   dữ   liệu   nào   cho   phép   hay   không   cho   phép   kdl   truy   cập Điều   khiển   quá   trình   truyền   dữ   liệu   từ   nguồn   vào   kdl Cung   cấp   các   thông   tin   cho   các   nhà   phát   triển   trong   quá   trình   xây   dựng   cũng   như   mở   rộng   kdl No   data   nothing
Siêu   dữ   liệu   cho   ETT ánh   xạ   dữ   liệu   từ   các   nguồn   vào   kdl Warehouse Data Warehouse Data Model Metadata Repository Internal sources External  sources Operational data sources Browser: http:// Hollywood X + Customers: a recorof as X + Customers: Browser: http:// Hollywood Browser: http:// Hollywood X + 12345.00 12780.00 2345787.00 87877.98 5678.00 100% 110% 230% 200% -10% ABC CO GMBH LTD GBUK INC FFR ASSOC MCD CO
Siêu   dữ   liệu   cho   việc   chiết  (1) Các   luật   kinh   doanh Các   khóa ,  trường   và   bảng   nguồn   Quản   lí   việc   sở   hữu   dữ   liệu Chuyển   đổi   giữa   các   trường   Các   bản   tra   cứu   Thay   đổi   tên Các   thay   đổi   giá   trị   khóa Các   giá   trị   mặc   định Quản   lý   đa   nguồn Các   thuật   toán Nhãn   thời   gian Staging File External  Sources Operational Data Sources Extraction
Siêu   dữ   liệu   cho   việc   chiết  (2) Các   yêu   cầu   về   lưu   trữ   Thông   tin   về   vị   trí   các   nguồn Sự   khác   nhau   giữa   các   nguồn Thông   tin   truy   cập Bảo   mật Các   liên   hệ ,  liên   hệ   với   ai   để   có   dữ   liệu Các   tên   chương   trình Các   thông   tin   quản   lý   tính   chất   của   dữ   liệu External  Sources Operational Data Sources Extraction
Chuyển   đổi Phương   thức   chuyển   đổi Các   chức   năng   xác   định   dữ   liệu Các   luật   phát   triển   kdl Thông   tin   liên   hệ External  sources Operational data sources Warehouse Metadata repository ETT Mapping Staging file Transport
Tích   hợp   và   thay   đổi Siêu   dữ   liệu   quản   lí   việc   tích   hợp   dữ   liệu Siêu   dữ   liệu   dùng   cho   việc   trao   đổi   thông   tin Quản   lý   việc   chuyển   đổi   siêu   dữ   liệu   Xem   xét   chu   kỳ   làm   tươi   kho   dữ   liệu
Siêu   dữ   liệu   người   dùng   cuối  (1) Warehouse Metadata Repository End User Operational ETT Mapping IT staff Users
Siêu   dữ   liệu   người   dùng   cuối  (2) Người   dùng   với   mục   đích   phân   tích   đơn   giản :  yêu   cầu   các   báo   cáo   chuẩn   từ   môi   trường   kdl   Người   dùng   với   mục   đích   thăm   dò .  Cần   thiết   để   tham   dò   dữ   liệu   ở   nhiều   cấp   độ .  Họ   sẽ   dùng   các   toán   tử   Rolling   up   và   Drilling   down   để   thăm   dò   tương   tác   giữa   các   chủ   thể   kinh   doanh   giúp   cho   việc   đưa   ra   quyết   định Người   dùng   với   mục   đích   phân   tích :  Thực   hiện   các   phân   tích   thống   kê ,  và   đưa   ra   các   quyết   định
Siêu   dữ   liệu   người   dùng   cuối  (3) Ví   trí   của   các   chiều   và   dữ   kiện Miêu   tả   nội   dung Các   thuật   toán   để   tạo   ra   các   tổng   hợp Thông   tin   về   người   sử   dụng   kdl Warehouse Metadata repository End User
Siêu   dữ   liệu   người   dùng   cuối  (4) Cần   thiết   để   biết   ngữ   cảnh   của   câu   hỏi Warehouse Metadata repository End User
Siêu   dữ   liệu   người   dùng   cuối  (5) Table   Column Data Meaning Name    Name Product   Prodid 739516  Unique identifier for the product Product  Valid_date 01/97  Last refresh date Product  Ware_loc 1816  Warehouse location number Product  Ware_bin 666  Warehouse bin number Product  Code 15  The color of the product; please    refer to table COL_REF for details Product  Weight 17.62  Packed shipping weight in    kilograms
Siêu   dữ   liệu   người   dùng   cuối  (6) Ví   trí   của   các   chiều   và   dữ   kiện Miêu   tả   nội   dung Các   thuật   toán   để   tạo   ra   các   tổng   hợp Thông   tin   về   người   sử   dụng   kdl Warehouse Metadata repository End User
Ngữ   cảnh   của   dữ   liệu  (1) Hỗ   trợ   sự   thay   đổi   theo   chiều   thời   gian Lưu   trữ   các   thay   đổi   của   thông   tin Operational Warehouse Metadata repository Structure Content 92  93  94  95  96
Ngữ   cảnh   của   dữ   liệu  (2) Dạng   đơn   giản Các   cấu   trúc   dữ   liệu Các   chuyển   đổi   tên Các   ánh   xạ Dạng   phức   tạp Các   định   nghĩa   sản   phẩm Giá   cả Nguồn   ngoài Tác   động   của   nền   kinh   tế Chính   trị Warehouse 92  93  94  95  96
Siêu   dữ   liệu   phụ   trợ Các   thuật   toán   để   tính   toán   các   tổng   hợp   Thể   hiện   các   quan   hệ  ( nguồn - đích ,  phân   cấp ,..) Thông   tin   quản   lí Các   cấp   quyền Phân   tích   mẫu Các   bảng   tra   cứu
Đặc   tả   siêu   dữ   liệu   MDIS  (1) Hiệp   hội   chuyên   nghiên   cứu   về   siêu   dữ   liệu   Metadata   Coalition   đã   đưa   ra   đặc   tả   của   siêu   dữ   liệu   vào   năm  1996  MDIS   Metadata   Interchange   Specification
Đặc   tả   siêu   dữ   liệu   MDIS  (2)  Metadata   Coalition   là   một   nhóm   mở   của   các   công   ty   như   IBM ,  Informix   và   Prism   Solutions Muc   đích   của   MC   là   để   tạo   ra   các   chuẩn   hóa   về : Cơ   chế   truy   cập API   cho   siêu   dữ   Iiệu Cho   phép   người   dùng   điều   khiển   và   quản   lí   việc   truy   cập   và   thao   tác   siêu   dữ   liệu   trong   môi   trường   của   họ   thông   qua   các   công   cụ   siêu   dữ   liệu
Đặt   tả   siêu   dữ   liệu   MDIS  (3) MDIS   có   thể   được   mở   rộng .  Mô   hình   siêu   dữ   liệu   của   MDIS   miêu   tả   các   thực   thể   và   mối   liên   hệ   giữa   chúng Database :  thể   hiện   cho   hệ   thống   CSDL   hay   một   nhóm   các   files .  Một   database   chứa   nhiều   records ,  và   một   record   chứa   một   số   element   là   thành   phần   bé   nhất Subschema :  thể   hiện   một   lược   đồ   logic   con
Đặt   tả   siêu   dữ   liệu   MDIS  (4) Relationship :  thể   hiện   mối   quan   hệ   giữa   các   đối   tượng .  Các   mối   quan   hệ   bao   gồm : Equivalent Derived Inherit   from Contain Include Link   to Dimension   thể   hiện   các   bản   chiều   trong   mô   hình   đa   chiều Level :  thể   hiện   cấp   trong   lược   đồ   phân   cấp   của   chiều Mỗi   một   đặt   tả   đều   có   header   miêu   tả   các   thông   tin   về   dữ   liệu   đượu   lưu   trữ
Ngôn   ngữ   Telos   miêu   tả   MDIS Được   phát   triển   bởi   trường   đại   học   Toronto   và   một   số   dự   án   tại   châu   Âu   vào   cuối   những   năm  1980 s Miêu   tả   các   đối   tượng   và   cung   cấp   sự   kết   nối   giữa   chúng Ngoài   việc   cung   cấp   cú   pháp   nó   còn   cung   cấp   về   mặt   ngữ   nghĩa ,  các   mô   hình   siêu   dữ   liệu . Và   được   ứng   dụng   rất   nhiều   trong   các   hệ   thống   thông   tin :  DW ,  Sematic   Web , …
Các   công   cụ   quản   lí   siêu   dữ   liệu Carleton Evolutionary   Technologies Hewlett   Packard Informatica Information   Advantage Oracle Designer /2000 Platinum   Technology   Prism   Solutions Sagent
Chương  7:  P hương thức xây dựng kho dữ liệu
Mục   đích Chứng   thực   việc   sử   dụng   phương   pháp   luận   khi   phát   triển   một   giải   pháp   kho   dữ   liệu   Xác   định   phương   thức   như   là   chuổi   tiến   trình   và   tác   vụ   Giải   thích   lợi   ích   của   hướng   tăng   tiến   trong   việc   phát   triển   kdl Xác   định   các   kĩ   năng   đáp   ứng   cho   việc   thực   thi   kho   dữ   liệu
Tiến   trình Phương thức Các tài liệu kĩ thuật, phân ra các module Xác lập các chuẩn hóa Cải tiến phương thức phân phối công việc  Định nghĩa các tác vụ và phân phối công việc Các công cụ phần mềm và tài liệu hướng dẫn Phương thức kho dữ liệu Các tác vụ và phân phối công việc để xây dựng kho dữ liệu và cài đặt
Phương   thức Dựa   trên   cơ   sở   của   công   nghệ   phần   mềm Cải   tiến   bằng : Nhận   dạng   các   tác   vụ   lặp   Định   nghĩa   các   tác   vụ   một   cách   nhất   quán   Xác   định   các   tiêu   chuẩn   đảm   bảo   chất   lượng   và   sự   đầy   đủ   của   dữ   liệu   Đinh   nghĩa   việc   quản   lí   tác   vụ Tối   ưu   hóa   các   tác   vụ
Các   thành   phần Nhằm   vào   các   thành   phần : Thu   thập   dữ   liệu Siêu   dữ   liệu Thiết   kế   kĩ   thuật   cho   kho   dữ   liệu Truy   cập   dữ   liệu Chất   lượng   dữ   liệu Khám   phá
TàI   liệu   và   công   cụ   hỗ   trợ Workplan   Templates Deliverables   Templates Online   Handbooks Quick Tour Method Handbook Process and Task Reference Deliverables Reference Software Tools Handbooks
Phương   pháp   luận Tập   trung   vào   phạm   vi   của   ứng   dụng   Quản   lí   được   các   rủi   ro Căn   cứ   vào   các   đóng   góp   của   người   dùng Cung   cấp   các   giảI   pháp   có   thể   mở   rộng   Sử   dụng   nhiều   công   nghệ   khác   nhau Nhận   dạng   các   tác   vụ   với   các   đối   tượng   và   định   nghĩa   rõ   ràng   Đưa   các   tác   vụ   vào   trong   các   tiến   trình ,  nhóm   tiến   trình   theo   giai   đoạn
Các   lợi   ích Consistency Productivity Experience & Best Practices Flexibility Risk Avoidance
Các   yếu   tố   căn   bản Các   tiến   trình Các   hướng Tác   vụ   và   phân   bố   tác   vụ Các   chức   năng Phase 1 Phase 2 Phase 3 Phase 1 Task1 Phase 1 Task2 Phase 1 Task3 Phase 3 Task1 Phase 3 Task2 Phase 3 Task3 Phase 2 Task1 Phase 2 Task2 Phase 2 Task3 Process 1 Process 2
Các   tiến   trình Tập   kết   dính   các   tác   vụ   để   thực   hiện   các   mục   tiêu   Tập   các   kĩ   năng   chung Dự   án   có   thể   chuyển   giao Đa   số   là   trùng   lặp ,  một   số   thì   lệ   thuộc   vào   tiến   trình   trước
Các   tiến   trình Business Requirements Definition Data Acquisition Data Quality Warehouse Administration Metadata Management Data Access Database Design and Build Documentation Testing Training Transition Post-Implementation Support Architecture
Định   nghĩa   các   yêu   cầu   kinh   doanh Định   nghĩa   các   yêu   cầu Phân   lớp   các   vùng Khởi   tạo   các   kế   hoạch   cài   đặt Cung   cấp   sự   khởi   đầu   tập   trung   vào   việc   tiến   hành   xây   dựng   hệ   thống   cho   công   ty Xác   định   các   yêu   cầu   về   thông   tin Các   yêu   cầu   về   mô   hình
Thu   thập   dữ   liệu Xác   định ,  chiết ,  chuyển   đổi ,  và   chuyển   tải   dữ   liệu   nguồn   Xem   xét   dữ   liệu   bên   trong   và   bên   ngoài Chuyển   dời   dữ   liệu   giữa   nguồn   và   đích Thực   hiện   phân   tích   kết   nối   giữa   dữ   liệu   nguồn   và   các   đối   tượng   csdl   đích Định   nghĩa   việc   thu   thập   lần   đầu   và   kế   hoạch   làm   tươi   dữ   liệu   Định   nghĩa   các   yêu   cầu   về   công   cụ Xây   dựng ,  test ,  và   thực   hiện   các   module   nạp   dữ   liệu
Kiến   trúc Định   rõ   các   nền   tảng   kĩ   thuật   Thiết   kế   kiến   trúc   kho   dữ   liệu Tích   hợp   các   thành   phần   kiến   trúc   cho   mục   đích   khả   biến   và   mềm   dẻo   Xác   định   môi   trường   CSDL ,  phân   tán   hay   tập   trung   Định   nghĩa   các   môi   trường   phát   triển ,  test ,  huấn   luyện ,  và   sản   xuất   Cấu   hình   nền   Configure   the   platform Thực   hiện   việc   tính   dung   lượng   CSDL   Xem   xét   việc   làm   sạch   đĩa
Chất   lượng   của   dữ   liệu Đảm   bảo   tính   nhất   quán ,  đáng   tin   cậy   và   chính   xác   của   dữ   liệu   Phát   triển   một   chiến   lược   để : Làm   sạch   dữ   liệu Các   chức   năng   đảm   bảo   tính   toàn   vẹn   của   dữ   liệu Các   chức   năng   quản   lí   chất   lượng   của   dữ   liệu   Xác   định   các   luật   kinh   doanh : Làm   sạch   dữ   liệu Xử   lí   các   lỗi Các   yêu   cầu   cho   việc   tạo   ra   các   công   cụ   kiểm   tra   chất   lượng   của   dữ   liệu   Xây   dựng ,  test ,  và   thực   hiện   các   module   cho   việc   tạo   và   kiểm   chứng   chất   lượng   dữ   liệu
Bảo   trì   kho   dữ   liệu Định   rõ   một   chiến   lược   bảo   trì   kho   dữ   liệu   Quản   lý   cấu   hình Quản   lý   kho   dữ   liệu Sự   quản   lí   và   chi   phối   dữ   liệu   Định   nghĩa   dòng   công   việc   quản   lí   kdl   và   các   yêu   cầu   về   công   cụ   Xây   dựng ,  test ,  và   thực   hiện   các   module   cho   việc   bảo   trì   kho   dữ   liệu Quản   lý   việc   truy   cập   dữ   liệu   và   giám   sát   Tự   động   hóa   các   tác   vụ   quản   lý   kdl
Các   loại   siêu   dữ   liệu Định   nghĩa   chiến   lược   cho   việc   tạo   và   quản   lí   siêu   dữ   liệu Định   nghĩa   các   kiểu   siêu   dữ   liệu   Chỉ   rõ   các   yêu   cầu   cho   lưu   trữ   siêu   dữ   liệu   đáp   ứng   các   yêu   cầu   quản   lí   việc   tích   hợp   và   truy   cập   Khởi   tạo   các   khung   nhìn   kĩ   thuật   và   kinh   doanh   cho   siêu   dữ   liệu   Phát   triển   các   module   cho   việc   nắm   bắt ,  kết   nối   và   truy   cập   siêu   dữ   liệu
Truy   cập   dữ   liệu Nhận   diện ,  chọn   lựa   và   thiết   kế   các   công   cụ   quản   lí   việc   truy   cập   của   người   dùng   Định   nghĩa   các   hồ   sơ   của   người   dùng   Xác   định   các   yêu   cầu   của   kiểu   giao   diện ,  các   cấu   trúc   câu   hỏi ,  các   báo   cáo ,  và   các   loại   người   dùng   Ước   lược ,  đánh   giá   và   cài   đặt   các   công   cụ   quản   lí   việc   truy   cập   Thiết   kế   và   phát   triển   các   đối   tượng   truy   cập   dữ   liệu   Câu   hỏi   và   báo   cáo   Catalogs Chiều   và   các   phân   cấp
Thiết   kế   và   xây   dựng   cs   dữ   liệu Hỗ   trợ   các   yêu   cầu   dữ   liệu   Thiết   kế   CSDL   nhằm   mục   đích   cung   cấp   các   truy   cập   có   hiệu   quả   Tạo   và   phê   chuẩn   các   mô   hình   logic   và   vật   lí   Tạo   lập   các   đối   tượng   CSDL   quan   hệ   và   đa   chiều   Ước   lược   các   phân   đoạn ,  các   đoạn ,  và   việc   sắp   xếp Nhận   diện   các   khóa   và   chỉ   mục   Xây   dựng   và   cài   đặt   các   đối   tượng   csdl
Lập   tài   liệu Cung   cấp   các   văn   bản   có   thể   cung   cấp   các   thông   tin :  Từ   điển   thuật   ngữ   Glossary Tài   liệu   cho   người   dùng   và   tài   liệu   kĩ   thuật   User   and   technical   documentation Trợ   giúp   trực   tuyến   Online   help Hướng   dẫn   tham   khảo   siêu   dữ   liệu   Tham   cứu   sự   quản   lí   kdl   Hướng   dẫn   các   tính   năng   mới
Test Phát   triển   một   chiến   lược   để   test   hệ   thống   Tạo   lập   các   kế   hoạch  ,  kịch   bản   cho   việc   test Test   tất   cả   các   thành   phần Thu   thập   dữ   liệu   Truy   cập   dữ   liệu Các   truy   cập   đặc   biệt Hồi   quy ,  Các   volume Backup Sự   khôi   phục   Recovery
Huấn   luyện Định   nghĩa   các   yêu   cầu Về   kĩ   thuật   Technical   Của   người   dùng   cuối   End   user Của   yêu   cầu   kinh   doanh   Nhận   diện   các   cá   nhân   cho   việc   huấn   luyện   Tạo   lập   khung   thời   gian   cho   việc   huấn   luyện   Thiết   kế   và   phát   triển   các   tài   liệu   Tập   trung   vào   việc   huấn   luyện   sử   dụng   các   công   cụ   hỗ   trợ   hoạt   động   của   kho   dữ   liệu
Chuyển   giao Định   nghĩa   các   tác   vụ   cho   việc   chuyển   giao   sử   dụng   kdl   Chuyển   giao   các   chức   năng   và   module   Phát   triển   kế   hoạch   cài   đặt   Chuẩn   bị   môi   trường   bảo   trì   Chuẩn   bị   môi   trường   cho   việc   sử   dụng   kho   dữ   liệu
Hỗ   trợ   hậu   thực   thi Ước   lượng   và   khảo   sát   việc   sử   dụng   kdl   Giám   sát   việc   sử   dụng   kdl   Làm   tươI   kdl Giám   sát   và   phản   hồi   các   vấn   đề   xảy   ra   Điều   khiển   thực   hiện   test   Có   trách   nhiệm   chuyển   giao   sản   phẩm   Ước   lượng   và   khảo   sát   các   giải   pháp   thực   thi
Các   hướng   thực   thi Incremental Packaged data mart Warehouse Infrastructure Implementation Business Application Implementation Increment  I Proof of Concept Increment II through N Increment II through N Warehouse Data mart Data mart Data mart
Hướng   tăng   tiến
Phát   triển   tăng   tiến Tập   trung   vào   chức   năng   kinh   doanh   Đưa   ra   các   lợi   ích   trong   kinh   doanh   Xem   thử   có   phù   hợp   cho   việc   tăng   trưởng ,  tiến   hoá   của   kdl   không  ? Khi   một   tăng   tiến   hoàn   thành ,  các   chọn   lựa   và   phạm   vi   của   tăng   tiến   tiếp   theo   sẽ   được   định   nghĩa Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Chiến   lược Tập   trung   vào   các   khía   cạnh   của   một   giải   pháp   kdl   cho   một   xí   nghiệp   Cung   cấp   một   nền   tảng   vững   chắc   cho   tương   lai   Xác   định   các   chiến   lược   Thu   thập   dữ   liệu Quản   lí   kdl   Chất   lượng   dữ   liệu   Siêu   dữ   liệu   Truy   cập   dữ   liệu   Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Các   định   nghĩa Nhận   diện   và   khoanh   vùng   các   tăng   tiến Tài   liệu   ghi   thông   tin   về   các   nguồn   dữ   liệu Phát   triển   các   kế   hoạch   nạp   và   làm   tươi   dữ   liệu   Chuẩn   bị   một   kiến   trúc   kĩ   thuật Định   nghĩa   phạm   vi   của   chất   lượng   dữ   liệu   Định   nghĩa   các   chiến   lược   quản   lí   sự   tăng   tiến   của   kho   dữ   liệu   Định   nghĩa   siêu   dữ   liệu ,  truy   cập ,  và   test   và   kế   hoạch   huấn   luyện Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Phân   tích Thu   thập   các   yêu   cầu   về   thông   tin   Hoàn   thành   các   mô   hình   kdl   và   đa   chiều   Trau   chuốt   kế   hoạch   thu   thập   dữ   liệu   ánh   xạ   các   nguồn   dữ   liệu   Phát   triển   các   kế   hoạch   tích   hợp   Tài   liệu   quản   lí   các   lỗi   và   các   ngoại   lệ Đánh   giá   và   chọn   các   công   cụ   Lập   các   báo   cáo   về   việc   truy   cập   các   yêu   cầu   về   truy   cập   dữ   liệu   Phân   tích   các   kế   hoạch   test Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Thiết   kế Định   nghĩa   các   chuẩn   hóa   trong   thiết   kế ánh   xạ   dữ   liệu   nguồn   vàp   csdl   logic   Phát   triển   các   module   cho   việc   nạp   và   làm   tươi   dữ   liệu   trong   kdl   Thiết   kế   các   kế   hoạch   cho   việc   cài   đặt   phần   cứng   và   phần   mềm   Thiết   kế   các   đặt   tả   cho   việc   truy   cập   dữ   liệu Khởi   tạo   thiết   kế   csdl   vật   lý   Phát   triển   và   chuẩn   bị   các   nền   test   Khởi   tạo   các   tài   liệu   hướng   dẫn ,  tham   khảo   và   huấn   luyện   người   dùng   Phát   triển   chiến   lược   chuyển   giao Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Xây   dựng Ánh   xạ   dữ   liệu   nguồn   vào   csdl   vật   lý   Mã   hóa   các   modules Tích   hợp   kiến   trúc   tăng   tiến   với   kiến   trúc   kinh   doanh   của   xí   nghiệp Xây   dựng   các   module   quản   lí   chất   lượng   dữ   liệu Xây   dựng   các   module   quản   lý   siêu   dữ   liệu   Tiến   hành   test   các   module   và   hệ   thống Hoàn   thành   các   tài   liệu   hướng   dẫn   sử   dụng   và   kĩ   thuật   Phát   triển   kế   hoạch   cài   đặt Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Chuyển   giao Sử   dụng ,  và   phân   bố   dữ   liệu Huấn   luyện   cho   người   dùng   và   quản   lí   hệ   thống   Điều   chỉnh   hệ   thống   csdl   Thực   thi   các   chức   năng   quản   lí   kdl   Chỉ   đạo   người   dùng   test   hệ   thống Cung   cấp   sự   ước   lượng   trong   việc   sử   dụng Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Khám   phá Khảo   sát   các   tăng   tiến   có   thể   thực   thi   được   Khảo   sát   các   yêu   cầu   xuất   sắc Lập   tài   liệu   cho   các   kinh   nghiệm   và   các   bài   học Khảo   sát   các   kế   hoạch   cho   dự   án   mở Đánh   gián   kiến   trúc   kdl   và   kĩ   thuật   khả   thi Strategy PGM/PJM Project and  Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
Các   tác   vụ   và   sự   thực   thi   Được   phát   thảo   trong   cấu   trúc   phân   chia   nhỏ   công   việc   Được   tổ   chức   theo   tiến   trình   và   giai   đoạn Task Id Task Name A Strategy A.RD.EXEC Business Requirements Definition A.RD.001 Obtain Existing Reference Material A.RD.002 Obtain Reference Data Models A.RD.003 Define Strategic Goals, Vision of the Enterprise A.RD.004 Establish Business Initiatives A.RD.005 Define Objectives and Purpose of Enterprise Data Warehouse A.RD.015 Collect Enterprise Business Information Requirements A.RD.034 Document Data Warehouse Subject Areas A.RD.035 Create Data Warehouse Subject Area Data Model A.RD.044 Define Data Warehouse  Implementation Roadmap A.RD.045 Prepare Business Case for Enterprise Data Warehouse
Các   tác   vụ   và   sự   thực   thi The   project   team :  chức   năng   và   trách   nhiệm   Các   chức   năng   chung Phân   tích ,  quản   trị   csdl ,  lập   trình ,  và   test Các   chức   năng   đặc   biệt   của   kdl   Kiến   trúc   kdl ,  kiến   trúc   siêu   dữ   liệu ,  quản   trị   chất   lượng   dữ   liệu ,  quản   trị   kdl

Data Warehouse

  • 1.
    Kho dữ liệu và Hệ hỗ trợ quyết định Nguyễn Thanh Bình
  • 2.
    Đề cương Phần1: Tổng quan Chương 1: Giới thiệu Chương 2: Đại cương Chương 3: Kiến trúc kho dữ liệu
  • 3.
    Đề cương (tt)Phần 2: Mô hình hóa Chương 4: Dữ liệu và các mô hình Chương 5: Mô hình hóa Chương 6: Siêu Dữ liệu Chương 7: Phương thức kho dữ liệu Chương 8: Tương lai và tổng kết môn học
  • 4.
    Chương 1: Giới thiệu
  • 5.
    Vấn đề: Các nguồn thông tin đa tạp Cách mạng thông tin va sự bùng nổ thông tin Nhiều hệ thống thông tin được xây dựng: Những giao diện khác nhau Những dạng biểu dữ liệu khác nhau Thông tin trùng lặp và không nhất quán
  • 6.
    Vấn đề: Quảnlý dữ liệu trong những xí nghiệp lớn Sự phân mảnh theo chiều dọc trong các hệ thống thông tin Thành nhiều hệ thống tác nghiệp và hệ thống xử lý toàn tác trực tuyến (OLTP) đa tạp
  • 7.
    Mục tiêu: Truy cập dữ liệu một cách thống nhất Thu thập và kết hợp thông tin Cung cấp một khung nhìn tích hợp, giao diện người sử dụng không biến đổi Hỗ trợ khả năng chia sẻ
  • 8.
    Kho dữ liệuDữ liệu được tích hợp và tổ chức cho các mục đích: Làm cho hệ thống trở nên dễ hiểu Rõ ràng Dễ phân tích Dữ liệu được thu thập từ nhiều nguồn Làm sạch Tích hợp Chuyển dịch Tổng hợp
  • 9.
    Hệ hỗ trợquyết định Được biết đến như là một phần của kho dữ liệu Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ Cho phép phân tích trực tuyến dữ liệu Thăm dò sự tương tác dữ liệu Cung cấp các giao diện đa dạng cho người dùng Cung cấp khả năng phân tích dữ liệu phức tạp bằng phương thức đơn giản
  • 10.
    Yêu cầu củahệ hỗ trợ quyết định Khung nhìn dữ liệu đa chiều Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu vào chi tiết Trả lời nhanh các câu hỏi
  • 11.
    Lịch sử pháttriển Khởi đầu vào những năm 1990s Tháng 2 năm 1996, theo báo cáo của nhóm META: 13 000 triệu USD (phần cứng: 8000, service:5000) 1998: 14 600 triệu USD 2001: >20 000 tr USD
  • 12.
    Lịch sử pháttriển 1996 2001 0 5 10 15 20 25 1996 2001 Revenue Projected Growth USA Europe APAC Other 0 10 20 30 40 50 60 USA Europe APAC Other Installed Base Current Revenue
  • 13.
    Tại sao nghiêncứu kho dữ liệu Kho lưu trữ dữ liệu, thông tin, tri thức, và siêu dữ liệu Tổng hợp toàn bộ thông tin phục vụ cho phân tích sâu Tách việc phân tích ra khỏi xử lý toàn tác trực tuyến Chuyển đổi dữ liệu thành thông tin Cung cấp thông tin chính xác đúng thời điểm và đúng định dạng
  • 14.
    Tại sao nghiêncứu kho dữ liệu Thi hành các phân tích dữ Iiệu phức tạp Thực hiện phân tích: Phân tích định hướng Phân tích chuỗi thời gian Phân tích rủi ro Thăm dò các hệ hỗ trợ quyết định Khám phá và đưa ra các yếu tố ẩn thông qua các kĩ thuật khai phá dữ liệu
  • 15.
    Các đặc điểmcủa kho dữ liệu Thiết kế cho các công việc phân tích Thiết kế cho một nhóm nhỏ người dùng (decision makers) Chỉ đọc Cập nhập theo giai đoạn: chỉ thêm dữ liệu Dữ liệu lịch sử theo chiều thời gian Các câu hỏi trả về các tập kết quả lớn, đa kết nối. Toàn cục
  • 16.
    Các ví dụXử lý toàn tác trực tuyến OLTP Số lượng coca cola được vừa được bán Xử lý phân tích trực tuyến OLAP Số lượng coca cola được bán tháng trước tại các cửa hàng phía bắc tỉnh Thừa thiên Huế Cửa hàng nào phía bắc tỉnh Thừa thiên Huế có số lượng coca cola được bán ra tháng trước lớn nhất Tháng nào trong năm số lượng coca cola được bán ra nhiều nhất tại tỉnh Thừa thiên Huế
  • 17.
    Các ứng dụngcủa KDL Hàng không Airline Ngân hàng Banking Chăm sóc sức khỏe Health care Đầu tư Investment Bảo hiểm Insurance Bán lẻ Retail Viễn thông Các ngành công nghiệp Manufacturers Credit card suppliers Clothing distributors 0 10 20 30 40 Financial Retail Telecom Manufacturing Other Percentage Market Coverage
  • 18.
    Kho dữ liệu-Cácđịnh nghĩa W.H. Inmon Hướng chủ thể subject-oriented. Tích hợp integrated, Biến thời gian time-variant, Bền vững non-volatile Sưu tập dữ liệu phục vụ cho các thao tác hỗ trợ quyết định (collection of data in support of management's decision-making process)
  • 19.
    Kho dữ liệu-Cácđịnh nghĩa Hướng chủ thể subject-oriented. Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định Tích hợp integrated, Biến thời gian time-variant, so sánh dữ liệu theo chiều thời gian Bề vững non-volatile, chỉ có thêm vào và không thay thế
  • 20.
    Kho dữ liệu-Cácđịnh nghĩa Subject Oriented Integrated Time Variant Non Volatile Data Warehouse
  • 21.
    Huớng chủ thểĐược tổ chức xung quanh các chủ thể chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales). Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý toàn tác hàng ngày. Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể
  • 22.
    Subject Oriented Datais categorized and stored by business subject rather than by application. Operational Systems Savings Shares Loans Insurance Equity Plans Customer Product, Sales Information Data Warehouse Subject Area
  • 23.
    Subject Areas Cácchủ thể điển hình. Các tài khoản khách hàng Việc bán hàng Tiền tiết kiệm của khách hàng Các yêu sách bảo hiểm Đặt chỗ hành khách
  • 24.
    Integrated Được xâydựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi toàn tác trực tuyến. Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính, … giữa các nguồn khác nhau Ví dụ như: Hotel price: currency, tax, breakfast covered, ... Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi.
  • 25.
    Integrated Data WarehouseOperational Environment Subject = Customer Savings Application Current Accounts Application Loans Application No Application Flavor
  • 26.
    Integrated Data Dữliệu được tổng hợp từ các nguồn khác nhau Là một tập hợp thông tin chính xác, chất lượng và nhất quán Chuẩn hóa Các qui ước tên Các thuộc tính Các đơn vị đo lường Quá trình làm sạch và tích hợp
  • 27.
    Time Variant Datais stored as a series of snapshots, each representing a period of time. Data Time 01/97 02/97 03/97 Data for January Data for February Data for March Data Warehouse
  • 28.
    Time Variant Yêucầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp. Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước) Yếu tố thời gian được lưu trữ trong CSDL Data Time 01/97 02/97 03/97 Data for January Data for February Data for March
  • 29.
    Non Volatile Typicallydata in the data warehouse is not updated or deleted . Read Load INSERT Read UPDATE DELETE Operational Databases Warehouse Database
  • 30.
    Non Volatile OperationalDatabases Warehouse Database First time load Refresh Refresh Refresh Purge or Archive
  • 31.
    Non-Volatile Là mộtlưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp. Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu. Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh. Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu.
  • 32.
    Kho dữ liệu-Cácđịnh nghĩa (tt) Pandora, Swinburn University Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau. Là một điểm truy cập tập trung dữ liệu của một tổ chức Được trình bày ở một khuông dạng thích hợp Là hệ thống chỉ đọc Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
  • 33.
    Kho dữ liệu-Cácđịnh nghĩa (tt) Paul Lucas, IBM: Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent. được tổng hợp về từ nhiều nguồn được làm sẵn cho người sử dụng cuối Dễ hiểu
  • 34.
    Kho dữ liệuvà các CSDL Việc tích hợp csdl hỗn tạp truyền thống: Xây dựng các wrappers/mediators trên các csdl hỗn tạp. Xử lý câu hỏi: Khi một câu hỏi được đặt ra tại một máy khách, một siêu từ điển sẽ được sử dụng để dịch câu truy vấn thành các câu truy vấn tương ứng cho các csdl riêng biệt, và kết quả được tích hợp trong một tập kết quả toàn cục. Ở đây sẽ có các bộ lọc phức tạp. Kho dữ liệu: nâng cao tốc độ thực hiện Thông tin từ các nguồn đa tạp được tích hợp trước và lưu trữ trong kho dữ liệu cho việc trả lời trực tiếp các câu hỏi và các tác vụ phân tích
  • 35.
  • 36.
    Kho dữ liệuvà các CSDL Xử lý toàn tác trực tuyến OLTP (on-line transaction processing) Tác vụ chính của các hệ qtcsdl quan hệ truyền thống. Các thao tác hàng ngày: mua, kiểm kê, kế toán,… Xử lý phân tích trực tuyến OLAP (on-line analytical processing) Là tác vụ chính của hệ thống kho dữ liệu Phân tích dữ liệu và đưa ra quyết định Các đặc tiểm khác nhau (OLTP vs. OLAP): Theo quan điểm người dùng: khách hàng so với thị trường Các nội dung dữ liệu: Hiện tại, chi tiết so với lịch sử và tóm lược. Thiết kế csdl: ER + ứng dụng so với hình sao và hướng chủ thể Khung nhìn: hiện tại, cục bộ so với lịch sử và tích hợp Các mẫu truy cập: cập nhật so với các truy vấn chỉ đọc nhưng phức hợp
  • 37.
  • 38.
    Các kiến thức,môn học liên quan CSDL Xử lý song song Thiết kế giao diện Công nghệ phần mềm Khai phá dữ liệu Bảo mật Công nghệ mạng, intranet, internet Công nghệ xử lý kinh doanh Marketing, kế toán, và quản lý
  • 39.
    Tóm tắt chươngKho dữ liệu và hệ hỗ trợ quyết định Lịch sử phát triển Tại sao nghiên cứu kho dữ liệu Các đặt điểm của KDL Các ví dụ ứng dụng của KDL Các định nghĩa Các môn học liên quan
  • 40.
    Câu hỏi cho chương 1??? Uff...
  • 41.
    Chương 2: Đại cương
  • 42.
    Các thành phầnETT Data Management Data Access and Analysis Design and Modeling Methodology
  • 43.
    Methodology-Phương pháp luậnĐảm bảo sự thành công của KDL Thúc đẩy việc phỏt triển Cung cấp một hướng ổn định cho KDL lớn An toàn Quản lí được Kiểm chứng được ấn tượng tốt
  • 44.
    Modeling-Mô hình hóaCác điểm khác của KDL so với các hệ thống OLTP Thiết kế các thành phần phục vụ các yêu cầu phân tích Định hướng chủ thể Dữ liệu được ánh xạ vào thông tin hướng chủ thể: Nhận dạng các chủ thể kinh doanh Định nghĩa quan hệ giữa các chủ thể Mô hình hóa là một quá trình lặp
  • 45.
    ETT Extraction: chọnlựa dữ liệu bằng nhiều phương thức Transformation: xác nhận hợp lệ, làm sạch, tích hợp, và dữ liệu nhãn thời gian Transportation: chuyển đổi dữ liệu vào KDL OLTP Databases Staging File Warehouse Database
  • 46.
    Data Management Cáccông cụ phục vụ cho việc quản lý dữ liệu một cách hiệu quả Các yêu cầu Mềm dẻo Tự động Hiệu quả Quản lí phần cứng, hệ điều hành và mạng
  • 47.
    Truy cập dữliệu và tạo báo cáo Các công cụ dùng để truy tìm dữ liệu cho việc phân tích kinh doanh Các yêu cầu Dễ dùng Trực quan Siêu dữ liệu Dễ huấn luyện Warehouse Database Simple Queries Forecasting Drill-down
  • 48.
    Các từ khóaquan trọng DWH: (Data Warehouse) Kho dữ liệu EIS:(Executive Information System) Hệ thống thông tin điều hành OLTP: (Online Transaction Processing): Xử lý toàn tác trực tuyến OLAP: (Online Analytical Processing) Xử lý phân tích trực tuyến MOLAP: (Multi dimensional Online Analytical Processing) Xử lý phân tích trực tuyến đa chiều
  • 49.
    Các từ khóaquan trọng ROLAP: (Relational Online Analytical Processing) Xử lý phân tích trực tuyến quan hệ HOLAP: (Hybric Online Analytical Processing) Xử lý phân tích trực tuyến kết hợp DOLAP: (Database Online Analytical Processing) Xử lý phân tích trực tuyến CSDL Client/server OLAP: (client/server Online Analytical Processing) Xử lý phân tích trực tuyến khách chủ
  • 50.
    Các từ khóaquan trọng VLDB: (Very large DB) CSDL rất lớn Dimensions: các chiều Dimension Data: chiều dữ liệu Fact Data: dữ liệu sự kiện Cube: khối dữ liệu Start-schema: lược đồ hình sao Snowflake-schema: lược đồ tuyết rơI
  • 51.
    Các từ khóaquan trọng Aggregation: tổng hợp Attribute hierarchies: các phân cấp thuộc tính Granularity: độ thô Metadata: siêu dữ liệu Reporting: báo cáo Legacy system:hệ thống di sản Extraction: chiết Transformation: chuyển đổi
  • 52.
    Các từ khóaquan trọng Clean-Up: làm sạch DWH update: cập nhật KDL
  • 53.
    So sánh OLTPvà kho dữ liệu Xử lý toàn tác trực tuyến (OLTP) Công nghệ: CSDL quan hệ Hướng toàn tác Chuẩn hóa, không dư thừa Tập trung vào dl hiện tại Trả lời các truy vấn đơn Toàn tác: tính toàn vẹn, bảo mật, đồng thời, Locking Xử lí toàn tác Kho dữ liệu, xử lý phân tích trực tuyến (OLAP) CSDL quan hệ, CSDL đa chiều Chấp nhận dư thừa Tiền tính toán tổng hợp Dữ liệu lịch sử Phân tích rất phức tạp Tích hợp dữ liệu từ đa nguồn Dữ liệu rất lớn Các câu hỏi phức tạp
  • 54.
    Tóm tắt chương2 Các thành phần chính Phương pháp luận Mô hình hóa Quản lí dữ liệu ETT Truy cập và tạo báo cáo Các từ khoá So sánh OLTP và OLAP
  • 55.
    Câu hỏi cho chương 2 ??? Uff...
  • 56.
    Chương 3: Kiến trúc kho dữ liệu
  • 57.
    Kiến trúc khodữ liệu Gồm 3 tầng (layers) Tầng thể hiện (Presentation layer) Tầng xử lý phân tích trực tuyến (OLAP layer) Tầng chiết (Extraction layer)
  • 58.
    Kiến trúc khodữ liệu chi tiết Tầng thể hiện Tầng OLAP Tầng thu thập
  • 59.
    Tầng 1- Cáchệ hỗ trợ quyết định Được biết đến như là một phần của kho dữ liệu Cung cấp các báo cáo, phân tích tiền tính toán, các đồ thị, biểu đồ Cho phép phân tích cao trực tuyến dữ liệu Thăm dò sự tương tác dữ liệu Cung cấp các giao diện người dùng phức tạp Cung cấp khả năng phân tích dữ liệu phức tạp bằng phuong thức đơn giản
  • 60.
    Tầng 1-Các hệHTQĐ (tt) Kiến trúc khách chủ Giao diện cho KDL trung tâm và các chợ dl cục bộ Nhiều loại giao diện cho nhiều cấp user: báo cáo và phân tích Các báo cáo kinh doanh, ước lượng, dự báo, phân loại, v…v Các kỹ thuật biểu diễn dữ liệu Công nghệ khai phá dữ liệu
  • 61.
    Tầng 1-Các hệHTQĐ (tt) Công nghệ khai phá dữ liệu Khám phá ngược với dự đoán Báo cáo kinh doanh Thống kê Phân tích khuynh hướng Các cây quyết định Qui nạp Các hệ thống mờ Các hệ thống chuyên gia Mạng nơron Các thuật toán di truyền
  • 62.
    Tầng 1-Các báocáo Các báo cáo thường theo sau các lược đồ định trước Các báo cáo đặc biệt: các báo cáo chi tiết, so sánh dựa trên các yêu cầu hiện thời Các báo cáo ngoại lệ: được đưa ra cho một số ngoại lệ trong việc phân tích dữ liệu
  • 63.
    Tầng 1-Các câuhỏi Khách hàng đang mua cái gì ? Không mua cái gì ? Các đơn vị cạnh tranh đang làm gì ? Họ ảnh hưởng ra sao đến mối quan hệ giữa công ty và khách hàng ? Loại ô tô màu nào có giá từ 20.000 đến 50.000 USD bán chạy nhất ? Mặt hàng nào bán chạy nhất trong các kì noel gần đây ?
  • 64.
    Tầng 2-OLAP Vàogiữa các năm 1990: OLAP-Online Analytical Processing Kỹ thuật phân tích đa chiều của đa tập dữ liệu lớn 12 tiêu chuẩn đánh giá được đề cập bởi E.F. Codd Dữ liệu được trình bày theo mô hình đa chiều Công nghệ OLAP cho phép truy cập nhanh tới các toán tử hỗ trợ đặt biệt như rolling-up, drilling down,..
  • 65.
    Tầng 2-OLAP Làgiao diện cho KDL và các báo cáo để tương tác với dữ liệu Caching Tối ưu hoá câu hỏi Sự phân tích các câu hỏi thường xuyên MOLAP/ROLAP/HOLAP An toàn: cấp quyền và quản lý truy cập
  • 66.
    Tầng 2-Định nghĩaOLAP Là một loại phần mềm cho phép: Phân tích Quản lý Và thực hiện để : Truy cập nhanh, nhất quán dữ liệu Dữ liệu được chuyển đổi từ mức thô sang cấu trúc đa chiều Theo hiệp hội OLAP www.olap.org 1995 12 tiêu chuẩn để đánh giá OLAP tools của E.F. Codd
  • 67.
    Tầng 2-12 tiêuchuẩn Khung nhìn khái niệm đa chiều: mô hình đa chiều tương ứng với các vấn đề kinh doanh Trong suốt: hệ qt csdl, sự hỗn tạp của dữ liệu nguồn, và kiến trúc trong suốt tới user Có thể truy cập: chỉ có dl được yêu cầu cho phân tích được truy cập Thiết lập báo cáo phù hợp: sự tăng trong dung lượng CSDL hoặc chiều không làm giảm hiệu suất Kiến trúc khách chủ: Hệ thống OLAP phải tuân theo các nguyên tắc cơ bản để có sự linh động, adaptability, and inter-operability
  • 68.
    Tầng 2-12 tiêuchuẩn Chiều chung: các chiều dữ liệu phải tương đương về cấu trúc và các khả năng xử lí điều khiển ma trận rời rạc Hỗ trợ đa user Các toán tử qua các chiều không bị giới hạn: nhận dạng các phân cấp của chiều và tiến hành tính toán trong các chiều giao nhau. Thao tác dữ liệu bằng trực giác: Lập báo cáo linh động Không giới hạn số chiều và mức độ tổng hợp
  • 69.
    Tầng 2-Dữ liệuđa chiều Geography Product Item Type Category All City State Country All Time Month Year Day Week All Quarter
  • 70.
    Tầng 2-Ví dụvề phân cấp
  • 71.
    Phõn cấp chiềutrong Kho dữ liệu Specification of hierarchies Schema hierarchy day < { month < quarter ; week } < year Set _ grouping hierarchy {1..10} < inexpensive
  • 72.
    Tầng 2-Ví dụdữ kiện và chiều (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
  • 73.
    Tầng 2-Ví dụcủa tổng hợp Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 74.
    All Total annualsales of TV in U.S.A. Date Product Country All, All, All sum sum TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr U.S.A Canada Mexico sum
  • 75.
    Cube: Một lướicác Cuboid all time item city supplier time,item time,city time,supplier item,city item,supplier city,supplier time,item,location time,item,supplier time,city,supplier item,city,supplier time, item, city, supplier 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D cuboids 4-D(base) cuboid
  • 76.
    Duyệt khối VisualizationOLAP capabilities Interactive manipulation
  • 77.
    Tầng 2-Ví dụcủa chuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 78.
    Tầng 2-Ví dụcủa rolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 79.
    Tầng 2-Ví dụcủa Drilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 80.
  • 81.
  • 82.
    Tầng 2-Các phươngpháp lưu trữ dl Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP Công cụ OLAP tương tác với cache and KDL Các mô hình chuẩn lưu trữ dữ liệu cho các hệ thống toàn tác không thực thi cho các phép tính OLAP Các hệ thống xử lý toàn tác: các mô hình quan hệ thực thể lớn-> câu hỏi mở rộng ra nhiều bảng->rất phức tạp, đa kết nối, thời gian thực hiện lâu. OLAP: các câu hỏi phức tạp đặc biệt Làm sao chúng ta có thể thiết kế một CSDL cho phép các câu hỏi lạ có thể thực hiện được ?
  • 83.
    Tầng 2-Các yêucầu của KDL Được tối ưu hóa cho OLAP OLTP: dữ liệu được chuẩn hoá, không dư thừa, không phù hợp cho các câu hỏi phức tạp OLAP: câu hỏi phức tạp, các tổng hợp được tính toán trước, dư thừa cao Dữ liệu trong KDL là read only- thêm dữ liệu mới thay vì thay đổi dl cũ. Yêu cầu 1: các phương pháp cho việc lưu trữ dl tối ưu hóa cho câu hỏi phức tạp
  • 84.
    Tầng 2-Các yêucầu của KDL (tt) Dữ liệu liên kết trong 1 không gian đa chiều Ví dụ:lượng hàng hoá được bán theo từng khách hàng từng ngày và từng sản phẩm tại từng kho hàng. Các hướng lưu trữ: ROLAP MOLAP HOLAP DOLAP
  • 85.
    Tầng 2-MOLAP (1)Dữ liệu đa chiều CSDL đa chiều sử dụng cho việc lưu trữ dữ liệu Phù hợp với các yêu cầu của OLAP Tương đồng trực tiếp với cấu trúc khối dl Các vùng dữ liệu rãi rác vì chỉ một vùng nhỏ chứa dl Dung lượng ! khối đa chiều n x m x.. x z
  • 86.
    Tầng 2-MOLAP (2)Dữ liệu được tìm thấy tại điểm giao của các chiều Store GL_Line Time FINANCE Store Product Time SALES Customer
  • 87.
  • 88.
    Tầng 2-ROLAP (1)Hệ phân tích trực tuyến quan hệ Dựa trên cơ sở các CSDL quan hệ Các lược đồ DL đặc biệt dùng để mô hình hoá dl đa chiều Được tối ưu hóa cho các xử lí OLAP Bảng dữ kiện chứa dữ liệu phân tích Các bảng chiều chứa dl tham khảo Có 2 kiểu mô hình dl: hình sao và bông tuyết
  • 89.
    Tầng 2-ROLAP (2)Dữ liệu được tìm thấy tại điểm giao của 1 cột và 1 một hàng Columns Rows Table Key values to join
  • 90.
  • 91.
    Tầng 2-So sánhR và MOLAP Property Relational Multidimensional Data representation Two dimension Multiple dimensions Data extraction Specific rows Specific dimensions Computations Functions High speed matrix Results Tool specific Matrix
  • 92.
    Tầng 2-HOLAP OLAPghép (lai) Kết hợp các kĩ thuật MOLAP và ROLAP Xử dụng CSDL ROLAP để lưu trữ các dữ liệu đa chiều Lưu trong mãng đa chiều các câu hỏi thường gặp. Giao diện với hai hệ qt CSDL
  • 93.
  • 94.
    Tầng 2-DOLAP CSDLOLAP Lấy ra một phần từ KDL chuyển giao cho máy khách OLAP và KDL server chạy trên máy chủ Truy cập trực tiếp DL không cần mạng Giới hạn các nguồn tại máy khách Xử dụng cho các ứng dụng riêng lẻ
  • 95.
    Tầng 2-Dữ liệuđa chiều Kho dl được tối ưu hóa cho các câu hỏi OLAP Khung nhìn kháI niệm đa chiều ROLAP và HOLAP: dữ liệu đa chiều được lưu trong các bảng sự kiện Các lược đồ cho lưu trữ dl đa chiều Hình sao Hình bông tuyết
  • 96.
    Tầng 2-Dữ kiệnvà các chiều Dữ kiện: (Fact) Thể hiện các vùng tiến trình giao dịch gốc Không hứa hẹn thay đổi khi đã được sinh ra Lưu trữ tại cấp độ chắc chắn của độ thô Các chiều: (Dimensions) Thông tin tham khảo bởi dữ kiện có thể được cấu trúc cho phân tích Định nghĩa các phân cấp tổng hợp Chiều thời gian, các nhóm sp, và vùng
  • 97.
    Tầng 2-ROLAP-Lược đồhình sao Phân đoạn dữ liệu Các bản không chuẩn hóa Một bản dữ kiện được vây quanh bởi các bảng chiều Các câu hỏi nhằm vào bảng sự kiện và được định dạng bởi các bảng chiều Không cần thiết phảI liên kết qua nhiều bảng Mô hình nổi bật cho KDL
  • 98.
  • 99.
    Tầng 2-Lược đồbông tuyết Dựa trên lược đồ hình sao Bảng dữ kiện Các bản chiều được chuẩn hóa
  • 100.
  • 101.
    Tầng 2-Chợ dữliệu (1) Là một tập các kdl nhỏ Được xây dựng cho các nhu cần của các vùng hay ban nhỏ Dữ liệu từ các cdl có thể được tổng hợp vào một kdl trung tâm Hoặc cdl có thể trích dữ liệu từ một kdl trung tâm để trình bày cho một nhu cầu của một nhóm user
  • 102.
    Tầng 2-Chợ dữliệu (2) Các lý do cho việc xây dựng các cdl cung ứng cho 1 một kdl trung tâm Đó là một dạng dự án kdl nhỏ Dễ dàng bắt đầu với nó Nhằm vào một vùng kinh doanh Dễ dàng và nhanh chóng để xây dựng một kdl cho toàn công ty
  • 103.
    Tầng 2-Chợ dữliệu (3) Các hạn chế Các hệ thống độc lập không dễ dàng tích hợp được KDL cung cấp khả năng tiến hành các hoạt động phân tích rộng trong khi các chơ dl chỉ nhằm vào 1 một khung nhìn hạn chế. Tăng thêm việc vận chuyển
  • 104.
    Tầng 2-Chợ dữliệu (4) Các lý do cho việc xây dựng các cdl từ một một kdl trung tâm Dữ liệu được chuyển đổi và biểu diễn được yêu cầu bởi một nhóm các user đặc biệt Dữ liệu có sẵn ở cấp địa phương Các câu hỏi được phân bố qua một số các cdl thay vì phải nạp vào một kdl trung tâm Trong một số trường hợp không cần thiết có toàn dl
  • 105.
  • 106.
    Tầng thu thập:tầng 3 Các loại dữ liệu nguồn Dữ liệu từ các hệ thống tác nghiệp Hệ thống kế thừa Các nguồn dữ liệu bên ngoài ETT (Chiết, chuyển đổi, và chuyển tải) Cung cấp dữ liệu Siêu dữ liệu cho hệ thống thu thập dữ liệu
  • 107.
    Dữ liệu từcác hệ thống tác nghiệp Chứa dữ liệu chi tiết và hiện tại Được sử dụng cho các toàn tác hàng ngày Chứa dữ liệu thích hợp hiện hành Là nguồn dữ liệu được tích hợp dể xây dựng Kho dữ liệu Ví dụ “employees” trong kho dữ liệu là sự hợp nhất của “workers” trong Source 1 và “managers” trong Source 2
  • 108.
    Hệ thống kếthừa Các sưu tập dl cũ không được dùng cho các mục đích hoạt động Phương phác khác nhau của việc tổ chức dl ngược lại với mô hình hiện tại Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dl hệ thống kế thừa
  • 109.
    Dữ liệu từhệ thống ngoài Dữ liệu được lấy từ các nguồn bên ngoài Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,… Không phảI là dữ liệu được tạo ra trong công ty Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp Được yêu cầu cho các phân tích chi tiết
  • 110.
    Chiết dữ liệuDữ liệu được chiết từ các nguồn bên ngoài Định nghĩa sự thường xuyên của chiết Định nghĩa ảnh chụp nhanh của dl được chiết Định nghĩa các mục dl đã được thay đổi sau cấp nhật mới nhất
  • 111.
    Chiết dữ liệu Dữ liệu duợc chiết ra từ nhiều nguồn ở nhiều kiểu dữ liệu khác nhau: quan hệ, tệp, HTML, XML, …
  • 112.
  • 113.
    Làm sạch Tìmvà loại trừ các bộ trùng nhau Jane Doe vs. Jane Q. Doe Kiểm tra tính nhất quán Khám phá ra dữ liệu sai, không nhất quán: Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không… Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL) Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định) Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được
  • 114.
    Sự chuyển đổiLoại trừ các dữ liệu gây nhiễu Chuyển đổi dữ liệu vào một lược đồ nhất quán. Các luật cho việc chuyển đổi Tri thức về dữ liệu Các quyết định về độ thụ của dữ liệu Dịch kiểu dữ liệu và tập kí tự
  • 115.
    Cung cấp dữliệu Nạp dữ liệu vào kdl Tính toán các bản tổng hợp Tính toán các trường được suy dẫn Cung cấp Online/offline Lập lịch cho tiến trình cung cấp
  • 116.
    Tầng 1: Siêudữ liệu Lưu thông tin về các nguồn dữ liệu bên ngoài Thông tin về mô hình kho dữ liệu Điều khiển các đường dẫn, chiết và nạp dữ liệu, thiết lập các câu hỏi Lưu thông tin về quá trình nạp dữ liệu
  • 117.
    Tầng 1: Siêudữ liệu Siêu dữ liệu kĩ thuật Các nguồn, bảo mật, vvv Siêu dữ liệu kinh doanh Các luật để chuyển hoá Siêu dữ liệu thao tác
  • 118.
    Kiến trúc khodữ liệu chi tiết
  • 119.
    Câu hỏi cho chương 3??? Uff...
  • 120.
    Chương 4: Mô hình dữ liệu đa chiều
  • 121.
    Nội dung chươngCác khái niệm chính của mô hình dữ liệu đa chiều Dữ kiện (Fact) Chiều (Dimension) Độ thô Tổng hợp Các mô hình lưu trữ
  • 122.
    Mô hình dữliệu đa chiều Được đề xuất và thiết kế cho một mục đích phân tích dữ liệu Mô hình dữ liệu này không phù hợp cho hệ thống OLTP Mô hình dữ liệu này được thao tác bởi các công cụ OLAP Các công cụ này cung cấp các phương tiện truy vấn mạnh dựa trên thiết kế mô hình dữ liệu đa chiều Ví dụ như: TARGIT Analysis, SQL OLAP Server
  • 123.
    Mô hình dữliệu đa chiều Location Time Store District Region All Month Year Day Week All Quarter Product Product Brand Manufacturer All
  • 124.
    Các thành phầnchính Các dữ kiện (Facts) Miêu tả các vùng kinh doanh Không thay đổi khi nó đã được sinh ra Được lưu tại một cấp thô nào đó Các chiều (Dimensions) Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân tích Định nghĩa các phân cấp Và các khối đa chiều (Cubes)
  • 125.
    Khối Một khốicó thể có nhiều chiều Nếu có nhiều hơn 3 chiều sẽ được gọi là ‘siêu khối’ (”hypercube”) Về mặt lý thuyết thì số chiều là không hạn chế Thường thì số chiều là từ 4 đến 12 Một khối bao gồm nhiều ô dữ liệu Là một liên kết giữa các giá trị của chiều Một ô có thể là rỗng (không có dữ liệu cho liên kết này) Khối thưa ( sparse cube): có nhiều ô rỗng Khối dày đặc ( dense cube): có ít ô rỗng
  • 126.
    Ví dụ vềô rỗng
  • 127.
    Ví dụ vềdữ kiện và chiều Kho Grocery Dữ kiện: POS:point of sales sự kiện bán hàng Chiều: Thời gian (Time) Vị trí Kho (Location - Store) Sản phẩm (Product) Quảng cáo (Promotion)
  • 128.
  • 129.
    Các k háiniệm về chiều Miền phân cấp Các cấp (Levels), cấp tương ứng với các độ thô Lược đồ chiều Dimension schema Các toán tử chiều Dimension operators
  • 130.
    Các ví dụvề chiều
  • 131.
    Thuộc tính chiềuMột chiều bao gồm nhiều thuộc tính. Ví dụ như: Time dimension: day, month, year Product dimension: ProductID, LineID, BrandID Một chiều được cấu trúc/ tổ chức ở dạng phân cấp: Time dimension: day  week  quarter Product dimension: product  brand  manufacturer Các thuộc tính xác định cấp nào mà một phần tử chiều thuộc vào Các phần tử time có cùng năm, tháng thuộc về cấp ‘month’ Tất cả phần tử product có cùng brand thuộc về cấp ‘brand’
  • 132.
    Ví dụ vềvùng phân cấp
  • 133.
    Lược đồ chiềuvà phân cấp Geography Store District Region All Time Month Year Day Week All Quarter Product Product Brand Manufacturer All
  • 134.
  • 135.
    Dữ kiện (FactData) Các dữ kiện số (Numerical measures) Được truy cập bởi các chiều Fact Summary Fact
  • 136.
    Dữ kiện (FactData) Chứa dữ kiện suy dẫn Unit_Sales Unit_Price / Average_Selling_Price January_Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales Unit_Sales + January
  • 137.
    Dữ kiện (FactData) Các bảng chứa dữ liệu lớn Dữ liệu được dán nhãn thời gian Time 1992 1997
  • 138.
    Ví dụ vềdữ kiện (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max)
  • 139.
    Khối đa chiều(Cube) Time Store District Region All Location Month Year Day Week All Quarter (Dollars_Sold,Min) (Unit_Sold,Sum) (Dollars_Cost,Max) Product Product Brand Manufacturer All
  • 140.
    Ví dụ vềkhối 3 chiều
  • 141.
    Ví dụ vềtổng hợp (Aggregation) Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 142.
    Ví dụ củachuyển dịch Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 143.
    Ví dụ: rollingup và drilling down
  • 144.
    Ví dụ củarolling up
  • 145.
    Ví dụ củarolling up Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 146.
    Ví dụ củaDrilling down Geography Product Time Item Type Category All City State Country All Month Year Day Week All Quarter
  • 147.
    Ví dụ vềSlice và Pivot
  • 148.
  • 149.
    Mô hình dữliệu đa chiều trong csdl quan hệ
  • 150.
    Lược đồ hìnhsao tổng quát
  • 151.
    Lược đồ hìnhsao Phân đoạn dữ liệu Dữ liệu không chuẩn hóa Một bản dữ kiện và các chiều bao quanh Các câu hỏi nhằm vào bản dữ kiện và được cấu trúc bởi các bản chiều Mô hình nổi bật của KDL
  • 152.
    Ví dụ lượcđồ hình sao có 4 chiều
  • 153.
    Ví dụ lượcđồ hình sao với dữ liệu
  • 154.
    Các lược đồcủa ROLAP
  • 155.
    Lược đồ hìnhbông tuyết Căn cứ vào lược đồ hình sao Bản dữ kiện giống như luợc đồ hình sao Các chiều được chuẩn hoá (chuẩn 3) Các chiều được cấu trúc rõ ràng
  • 156.
    Ví dụ vềlược đồ bông tuyết
  • 157.
    Ví dụ vềlược đồ bông tuyết
  • 158.
    Chiều trong lượcđồ hình bông tuyết
  • 159.
    Các lược đồcủa ROLAP (6) Đa fact hình sao ( Multi fact star schema )
  • 160.
    Khóa trong lượcđồ ROLAP Time Product Store Single Column Time Key Single Column Product Key Single Column Store Key Composite Key
  • 161.
    Các khoá Khóachính nằm trên các bản chiều Khoá ngoài nằm trên bản dữ kiện Tạo lập các index để tăng tốc độ Khoá được xác định trong giai đoạn thiết kế Các khóa kết hợp có thể được áp dụng
  • 162.
    Các thuộc tínhcủa bản dữ kiện Non-additive Không liên kết Semi-additive Liên kết với một số chiều Additive Liên kết với tất cả các chiều
  • 163.
    Các thuộc tínhcủa bản dữ kiện Additive Cost by Product + Store + Time Cost by Product + Promotion + Time Revenue by Product + Promotion + Time Revenue by Product + Promotion + Store + Time . . . Semi-Additive Sales Fact Time_key Product_key Store_key Promotion_key Quantity_sold* Revenue* Cost* Customer Count Time Dimension Store Dimension Product Dimension Promotion Dimension
  • 164.
    Chiều dữ liệuDữ liệu của chiều xác định cấu trúc và miền của câu hỏi Dữ liệu của chiều liên kết với dữ kiện thông qua các khóa Customer Suppliers Time Products Sales Items Query path
  • 165.
    Chuẩn hóa chiềuDữ liệu chuẩn hóa không Dư thừa Trùng lặp Các cột khóa độc lập Dữ liệu không chuẩn hóa Tăng tốc độ trả lời câu hỏi Tồn tại trong kho dữ liệu
  • 166.
    Độ thô dữliệu Dữ liệu được làm cho phù hợp với KDL tại một mức độ chắc chắn (độ thô) Căn cứ vào độ thô đó các tổng hợp được định nghĩa Độ thô cao: nhiều dữ liệu hơn, độ thô thấp: ít dữ liệu hơn Các câu hỏi: Độ thô nào đã có sẵn ? Độ thô nào hợp lý và tiện dụng cho KDL Xu hướng lưu trữ dữ liệu cú độ thô cao nhất, vì khi đã giảm độ thô thì dữ liệu chi tiết không thể phục hồi được
  • 167.
    Độ thô dữliệu Tác động đến kho dl Dung lượng của kdl Cấp độ phân tích Tính mềm dẻo Cấp độ chi tiết của dữ liệu Ngày, Tháng, Năm Tỉnh, quốc gia,… Phân tích các yêu cầu để tránh dư thừa hay thiếu hụt dữ liệu Khảo sát, làm mới nếu cần thiết
  • 168.
    Các bảng tổnghợp Mục đích: trả lời nhanh các câu hỏi thường gặp Các bước: Nhận diện các câu hỏi thường gặp Nhận diện các chiều và các tổng hợp tương ứng Định nghĩa phân cấp của các tổng hợp Tạo một cách có chọn lựa các bản dữ kiện tổng hợp tính toán trước Tạo các bảng chiều tổng hợp
  • 169.
    Các bảng tổnghợp Việc dùng các tổng hợp được tính toán và lưu trữ trước là một hiệu quả lớn đối với kho dữ liệu để điều khiển và làm tăng hiệu suất câu hỏi Kimball 1996
  • 170.
    Chương 5:K ỹ thuật mô hình hoá các chiều cơ sở
  • 171.
    Giới thiệu Cácbước mô hình kho dữ liệu Độ thô dữ liệu (Data Granularity) Lưu trữ dữ liệu Các phân cấp thuộc tính Truy vấn KDL và OLAP Các lỗi thường gặp khi xây dựng 1 KDL Ví dụ
  • 172.
    Các tầng Tầng khái niệm Conceptual layer – dữ liệu và xử lí dữ liệu Tầng logic Logical layer – dữ liệu và xử lí kinh doanh Tầng vật lý Physical layer – cấu trúc bên trong Các chủ thể, dữ kiện và mối quan hệ
  • 173.
    Tầng trong hệthống thông tin Conceptual Layer Logical Layer Physical Layer Physical Layer Logical Layer Operational systems Warehouse
  • 174.
  • 175.
    Các thành phầnchính Phân cấp thuộc tính của các chiều Mối quan hệ Dữ kiện Product Dimension Manufacturer Brand Product Account Year Time Dimension Account Week Region Location Dimension Store Product_key Store_key Acct_Week_key Sales Data District
  • 176.
    Các tiến trìnhmô hình hóa Xác định yêu cầu của người dùng Hướng dẫn người dùng hiểu về công nghệ KDL
  • 177.
    Các tiến trìnhmô hình hóa Định nghĩa mô hình kinh doanh Mô hình hóa các chiều Chọn mô hình lưu trữ Conceptual Model Physical Model Logical Model
  • 178.
    Các công cụvà phương pháp Chọn các công cụ với giao diện đồ họa Tạo lập tài liệu Định nghĩa các liên kết và ràng buộc Phương pháp luận Mô hình hoá Xây dựng sản phẩm
  • 179.
    Tóm lược cáclược dồ Sao Bông tuyết Đa sao
  • 180.
    Mô hình hóacác chiều Mô hình dựa vào nội dung của dữ liệu Mô hình với các tổng hợp cần thiết Mô hình phải đáp ứng yêu cầu phân tích sâu, và tổng hợp Có thể không chuẩn hóa - star Có thể chuẩn hóa - snowflake Xây dựng các phân cấp
  • 181.
    Mô hình cácbảng tóm tắt Định nghĩa các bảng tóm tắt trước khi thiết kế Dùng các bảng riêng để chứa các tổng hợp/tóm tắt SALES FACTS Sales$ Region Month 10,000 North Jan 97 12,000 South Feb 97 11,000 North Jan 97 15,000 West Mar 97 18,000 South Feb 97 20,000 North Jan 97 10,000 East Jan 97 2,000 West Mar 97 SALES BY MONTH/REGION Month Region Tot_Sales$ Jan 97 North 41,000 Jan 97 East 10,000 Feb 97 South 40,000 Mar 97 West 17,000 SALES BY MONTH Month Tot_Sales Jan 97 51,000 Feb 97 40,000 Mar 97 17,000
  • 182.
    Khi nào thìtóm tắt dữ liệu Phân tích và đưa ra quyết định để truy cập trực tiếp các tổng hợp có sẵn hay tính toán tại thời điểm thực hiện câu hỏi. Việc tính toán các tỉ số nén cho phép quyết định nên chọn phương án nào Queried Rows Displayed Rows Calculation Ratio 1,341 22 22/11341 0.0164 234 22 22/234 0.09 30 22 22/30 0.73 20 22 22/20 1.1
  • 183.
    Các công cụLogic Works Micro Strategy Oracle Designer/2000 Data Mart Designer Prism Solutions Smart Corporation
  • 184.
    Ví dụ Khodữ liệu: Grocery Store Một dây chuyền các cửa hàng tạp phẩm nằm rãi rác 3 bang ở Mỹ Các kho: các siêu thị với các cửa hàng như tạp phẩm, bơ sữa, thịt, thức ăn lạnh, bánh mỳ, đồ uống, .. Khoảng 60.000 sản phẩm tại mỗi kho Ví dụ điển hình của KDL trích từ KIM 96
  • 185.
    Cơ sở Dữliệu sẵn sàng cho việc xây dựng KDL Dữ liệu từ các hệ thống nguồn: OLTP Được làm sạch Xây dựng kho DL: Mô hình các tiến trình kinh doanh nào ? Định nghĩa độ thô của dữ liệu để phù hợp với KDL Mô hình hoá cấu trúc KDL Biến đổi dữ liệu theo cấu trúc Kho DL Tính toán các tổng hợp và các dữ kiện suy dẫn
  • 186.
    Các tiến trìnhmô hình KDL miêu tả khung nhìn của một tiến trình kinh doanh Sự quyết định mô hình tiến trình kinh doanh nào có tác động quan trọng Nhằm vào các vấn đề gì ? Các câu hỏi được đặt ra ? Các thông tin cần thiết KDL trung tâm hay các chợ dữ liệu
  • 187.
    Tiến trình kinhdoanh Dữ liệu OLTP Point of sales (POS) data: Dữ liệu bán hàng Dữ liệu nhà cung cấp Dữ liệu kế toán Dữ liệu khách hàng Sự quảng cáo Mục đích: Xây dựng một CSDL hoạt động hàng ngày
  • 188.
    Ví dụ vềđộ thô Độ thô nào cho dữ liệu POS? Các khả năng ? Toàn tác đơn theo từng khách hàng từng sản phẩm tại từng kho Toàn tác nhóm theo từng khách hàng từng sản phẩm tại từng kho Toàn tác nhóm hàng ngày theo từng kho từng sản phẩm Toàn tác nhóm hàng tuần theo từng kho từng sản phẩm Toàn tác nhóm hàng ngày từng sản phẩm tại từng vùng
  • 189.
    Độ thô Toàntác nhóm hàng ngày theo từng kho từng sản phẩm Dữ kiện theo từng khách hàng từng sản phẩm tại từng kho không phù hợp cho việc phân tích thị trường Dữ kiện theo từng tuần, hay tháng cũng không phù hợp vì sẽ không phân tích được sự khác nhau giữa các ngày Sự quyết định độ thô nào phụ thuộc vào tiến trình kinh doanh và các câu hỏi cần trả lời
  • 190.
    Tầng 2-Các phươngpháp lưu trữ dl Dữ liệu được dùng cho việc phân tích trực tuyến phải được lưu trữ theo một loại CSDL để có thể truy cập bởi công cụ OLAP Dùng loại nào trong: MOLAP ROLAP HOLAP Các chợ dữ liệu
  • 191.
    Ví dụ: KhoDL Grocery Các CSDL quan hệ CSDL quan hệ được sử dụng trong OLTP tại các công ty Các chuyên gia CNTT tại các công ty đã làm quen nhiều với CSDL quan hệ ROLAP được dùng rộng rãI ROLAP được dùng để lưu trữ KDL Grocery
  • 192.
    Các buớc thựchiện Chọn các tiến trình kinh doanh cho mô hình Sales Chọn cấp độ của tiến trình kinh doanh SKU by Store by Promotion by Day Chọn độ thô Chọn các chiều Time, Store, Promotion, Product Chọn các dữ kiện Dollar_sales, unit_sales, dollar_cost, customer_count
  • 193.
  • 194.
    Ước luợng dungluợng Time dimension: 2 years = 730 days Store dimension: 300 stores reporting each day Product dimension: 30,000 products, only 3000 sell per day Promotion dimension: 5000 combinations, but a product only appears in one combination per day Number of fact records: 730*300*3000*1 = 657,000,000 Number of fields: 4 key + 4 fact = 8 fields Total DB size: 657,000,000 * 8 fields * 4 bytes = 21 GB
  • 195.
    Dữ kiện (Facts)và Chiều Dữ kiện: Miêu tả các vùng kinh doanh Không thay đổi khi nó đã được sinh ra Được lưu tại một cấp thô nào đó Chiều: Thông tin tham chiếu qua đó cỏc sự kiện có thể được cấu trúc cho việc phân tích Định nghĩa các phân cấp
  • 196.
    Ví dụ vềdữ kiện và chiều Kho Grocery Dữ kiện: POS: sự kiện bán hàng Chiều: Thời gian (Time) Kho (Store) Quảng cáo (Promotion) Sản phẩm (Product)
  • 197.
    Chọn lược đồnào cho Grocery ? Lược đồ bông tuyết có độ chuẩn hóa cao Sử dụng ít không gian đĩa hơn Việc truy cập các bảng phức tạp hơn bởi phải tham chiếu đến nhiều bảng Lược đồ hình sao dễ quản trị hơn, và đáp ứng yêu cầu trả lời nhanh câu hỏi Chọn luợc đồ hình sao cho KDL Grocery
  • 198.
    Các thuộc tínhQuyết định chọn các trường nào để đưa vào bảng dữ kiện và chiều Các phân cấp thuộc tính Các cấp độ tổng hợp Xem xét các khả năng của câu hỏi và các ràng buộc của các bản Các tác động của các toán tử OLAP
  • 199.
    Ví dụ củabảng dữ kiện Chứa dữ liệu thích hợp cho vùng kinh doanh Bao gồm các khoá của các chiều tham chiếu Dữ liệu được lấy từ hệ thống OLTP: dữ liệu bán hàng POS Độ thô: sản phẩm được bán hàng ngày tại từng kho Định nghĩa nơi lưu trữ các tổng hợp
  • 200.
    Ví dụ củabảng dữ kiện Các thuộc tính dữ kiện bán hàng: Keys Time_key Product_key Store_Key Promotion_key Facts Dollars_sales Units_sales Dollars_cost Customer_count
  • 201.
    Ví dụ củabảng dữ kiện Khoá của bảng dữ kiện được hợp thành từ bốn khóa ngoài của các bảng chiều Các dữ kiện được lấy từ hệ thống bán hàng POS Các thuộc tính suy dẫn dựng cho việc phân tích Dung lượng: ???
  • 202.
    Ví dụ củachiều: thời gian Chiều thời gian (Time) là một chiều cơ bản có trong tất cả các KDL Các thuộc tính phân cấp tự nhiên: Năm->Tháng ->Tuần ->ngày Có cấu trúc không đơn giản do: Có nhiều loại phân cấp, đa phân cấp (Multi hierarchies)
  • 203.
    Ví dụ củachiều: thời gian
  • 204.
    Ví dụ củachiều: thời gian
  • 205.
    Ví dụ củachiều: Sản phẩm Nhận dạng mỗi sản phẩm bởi SKU (Stock Keeping Unit) Dựa trên các mã sản phẩm phổ thông (UPC - Universal Product Code ( UPC ) ) Bao gồm các mã đặt biệt cho việc lưu trữ sản phẩm như thịt tươi,.. Lưu miêu tả của các sản phẩm Dung lượng, các nhóm sản phẩm, các nhánh,.
  • 206.
    Ví dụ củachiều: sản phẩm
  • 207.
    Ví dụ củachiều: sản phẩm
  • 208.
    Ví dụ củachiều: sản phẩm Được quản lý bởi tổng kho và được phân bố đến các kho Định nghĩa loại của phân cấp Chuẩn hóa và không chuẩn hóa Thường có thêm nhiều thuộc tính phụ có trong chiều sản phẩm
  • 209.
    Ví dụ củachiều: kho Miêu tả mỗi kho của hệ thống liên kết các của hàng tạp phẩm Chiều địa lí Được tạo ra tại tổng kho bởi việc thu thập thông tin từ các kho Có hai loại phân cấp: phân cấp địa lý và vùng bỏn hàng Các thuộc tính miêu tả kho: dung lượng, vị trí,.
  • 210.
    Ví dụ củachiều: kho
  • 211.
    Ví dụ củachiều: kho Phân cấp địa lí: Store->Store_zip->Store_county->Store_state Phân cấp vùng bán hàng Store->sales_district->sales_region
  • 212.
    Ví dụ củachiều: kho
  • 213.
    Ví dụ củachiều: Quảng cáo Miêu tả điều kiện để một sản phẩm được bán, ví dụ: giảm giá tạm thời, sự trợ giúp của báo,.. Được gọi là chiều nguyên nhân: yếu tố được nghĩ tới để thay đổi việc bán sản phẩm Các điều kiện liên quan mật thiết: giảm giá, hay phiếu thưởng Để phân tích các sản phẩm được bán tăng lên trong quá trình quảng cáo Không dùng để phân tích các sản phẩm nào không bán được.
  • 214.
    Ví dụ củachiều: quảng cáo
  • 215.
    Ví dụ củachiều: quảng cáo Giành được trong giai đoạn khuyến mãi Có hay không các sản phẩm sự tụt xuống ngay sau khi kết thúc quảng cáo Có hay không việc bán các sản phẩm tăng lên trong quá trình quảng cáo Có hay không việc bán các sản phẩm làm tăng việc buôn bán tổng thể so với giai đoạn trước
  • 216.
    Ví dụ củabảng dữ kiện Các thuộc tính dữ kiện bán hàng: Keys Time_key Product_key Store_Key Promotion_key Facts Dollars_sales Units_sales Dollars_cost Customer_count Các thuộc tính phụ trợ cho việc phân tích
  • 217.
    Ví dụ củabảng dữ kiện Thêm vào: Dollar_sales, uni_sales, và dollar_cost, và phụ thuộc vào các chiều Có khả năng tính toán các tổng hợp trong tất cả các chiều, ví dụ: việc bán hàng hay chi phí từng tuần, từng tháng, từng nhóm mặt hàng, từng vùng Customer_count không phụ thuộc hoàn toàn vào các chiều
  • 218.
    Ví dụ củacustomer_count: Customer_count theo từng tuần từng sản phẩm từng kho có thể tính toán được Customer_count theo từng tuần, từng vùng bán hàng có thể tính toán được Customer_count theo từng tuần, từng nhúm( sản phẩm hàng theo từng kho không thể tính toán được: Lượng hàng hóa cho sản phẩm A tại kho 1 có customer_count là 20 Lượng hàng hóa cho sản phẩm B tại kho 1 có customer_count là 60 Lượng hàng hóa cho hai sản phẩm A và B tại kho 1 có customer_count nằm giữa 20 va 80
  • 219.
    Thay đổi customer_count:Thay đổi độ thô bằng việc lưu lại các toàn tác đơn theo từng customer-> customer_count có thể tính theo từng nhóm Tính customer_count theo phân cấp của chiều kho: store brand, subcategory,…
  • 220.
    Các bảng tổnghợp Mục đích: trả lời nhanh các câu hỏi thường gặp Các bước: Nhận diện các câu hỏi thường gặp Nhận diện các chiều và các tổng hợp tương ứng Định nghĩa phân cấp của các tổng hợp Tạo một cách có chọn lựa các bảng dữ kiện tổng hợp tính toán trước Tạo các bảng chiều tổng hợp
  • 221.
    Nhận diện cáccâu hỏi thường gặp Tạo một danh sách các câu hỏi thường gặp Tiến hành trong giai đoạn thiết kế KDL Căn cứ trên hệ thống OLTP và các báo cáo Nhưng: được theo dõi và tiến hành trong quá trình thao tác của KDL: xem thử các user đang làm gì ! Tác động của user với các khả năng Thiết lập danh sách
  • 222.
    Ví dụ nhậndiện các câu hỏi Lượng hàng hoá bán được của bánh mì trong suốt các giai đoạn nghỉ so với các giai đoạn khác Lượng hàng hoá bán được trong các quận phía tây so sánh với các quận phía đông Lượng hàng hoá bán được thức ăn nhanh trong 24 tháng gần đây Sự có lợi của quảng cáo bằng báo chí so với radio, tv…
  • 223.
    Nhận diện cácchiều Chọn các chiều liên quan thường xuyên đến các câu hỏi Xem xét dung lượng của các bảng tổng hợp
  • 224.
    Ví dụ nhậndiện các chiều Các chiều: Sản phẩm (Product) ? Store ? Time ? Promotion ? Chọn chiều nào ?
  • 225.
    Nhận diện cácphân cấp Với một chiều, tạo (các) phân cấp căn cứ trên các thuộc tính sẵn có Xem xét các câu hỏi thích hợp Xem xét các dữ liệu sẵn có Xem xét các thuộc tính của bảng dữ kiện
  • 226.
  • 227.
  • 228.
  • 229.
    Các bảng dữkiện tổng hợp Nhận diện các bảng dữ kiện yêu cầu Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp, ví dụ: lượng hàng bán được theo từng tháng có thể tính được dựa trên lượng hàng bán được từng ngày trong tháng. Ước lượng dung lượng Kiểm tra sự sẵn có của dữ liệu Kiểm tra các bảng tổng hợp chiều cần thiết
  • 230.
    Ví dụ bảngdữ kiện tổng hợp Các bảng dữ kiện tổng hợp được yêu cầu: Tổng hợp 1 chiều: Từng loại sp theo từng kho theo từng ngày Từng loại sp theo từng kho theo từng tháng Từng loại sp theo từng kho theo từng năm Tổng hợp 2 chiều: Từng loại sp theo từng kho theo từng ngày Từng loại sp theo từng pho theo từng tháng Từng loại sp theo từng quận theo từng năm
  • 231.
    Ví dụ bảngdữ kiện tổng hợp Các bảng dữ kiện tổng hợp này lấy được từ bảng dữ kiện cơ sở Kiểm tra các thuộc tính phụ: Dollar_sales ? Unit_sales ? Dollar_cost ? Customer_count ?
  • 232.
    Liên kết giữadữ kiện và chiều Liên kết giữa bảng dữ kiện với các bảng chiều trong lược đồ hình sao Liên kết giữa các bảng dữ kiện tổng hợp căn cứ trên các phân cấp của các bảng chiều Định nghĩa các thuộc tính phân cấp tại các bảng chiều
  • 233.
    Các bảng dữkiện tổng hợp Các bảng dữ kiện phụ có thể được thêm vào khi có yêu cầu cần thiết Số lượng và dung lượng của các bảng dữ kiện có thể bùng nổ tổ hợp Kiểm tra các bảng dữ kiện nào là cần thiết và có thể tính toán được
  • 234.
    Các bảng dữkiện tổng hợp Tính theo các chiều Product: theo category, theo.. Store: theo district, theo region, Time: month, year
  • 235.
    Tổng hợp 1chiều Category theo Store theo ngày Region theo Product theo ngày Theo tháng theo product và theo Store Toàn bộ các mặt hàng theo kho theo ngày
  • 236.
    Truy vấn bảndữ kiện tổng hợp Các câu hỏi được chuyển sang dạng lệnh SQL Ví dụ: Trình bày số lượng hàng bán được theo loại tại kho A vào ngày đầu năm 2003 dựa vào bảng dữ kiện co sở: Select category_description,sum(sales_dollars) From base_sales_fact,product,store,time Where base_sales_fact.product_key=product.product_key And base_sales_fact.store_key=product.store_key And base_sales_fact.time_key=product.time_key And store.city=“A” and time.day=“January 1 2003” Group by category_description
  • 237.
    Truy vấn bảngdữ kiện tổng hợp Nếu bảng tổng hợp category đã tồn tại Select category_description,sum(sales_dollars) From category_sales_fact,product,store,time Where category_sales_fact.product_key=product.product_key And category_sales_fact.store_key=product.store_key And category_sales_fact.time_key=product.time_key And store.city=“A” and time.day=“January 1 2003” Group by category_description Category_sales_fact và chiều tương ứng category_product thay thế cho base_sales_fact và chiều product
  • 238.
    Truy vấn bảngdữ kiện tổng hợp Đọc câu hỏi và chuyển sang câu hỏi tổng hợp sẵn có Siêu dữ liệu cung cấp thông tin của các bảng tổng hợp có sẵn Sự tồn tại của các bảng tổng hợp là trong suốt đối với người dùng Có thể xây dựng các câu hỏi thống kê
  • 239.
    Truy vấn bảngdữ kiện tổng hợp Thay thế bảng và các chiều cơ sở bằng các mảng và chiều tổng hợp Sắp xếp các bảng tổng hợp Bắt đầu từ độ thụ chi tiết nhất
  • 240.
    Chi phí quảnlí các view
  • 241.
    Chương 6: Siêu dữ liệu
  • 242.
    Siêu dữ liệu là gì Dữ liệu về dữ liệu data about other data Tập các thuộc tính , hay phần tử cần thiết cho việc miêu tả nguồn thông tin Ví dụ : một tập các bản ghi với các phần tử mô tả một cuốn sách : tác giả author tên sách title ngày xuất bản date of publication Miêu tả description
  • 243.
    Siêu dữ liệu – Khái niệm Siêu dữ liệu là thành phần cơ bản để xây dựng và quản lí một kho dữ liệu Trước khi một kdl có thể được truy cập một cách có hiệu quả , thực sự là cần thiết để hiểu , dữ liệu gì sẵn có trong kdl , và chúng lưu trữ ở đâu . Dữ liệu miêu tả quá trình xây dựng , quản lí và hoạt động của KDL Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kdl
  • 244.
    Siêu dữ liệu
  • 245.
    Khái niệm siêu dữ liệu Là một lưu trữ dùng để : Miêu tả KDL tổng thể Nhận dạng kiểu kho dữ liệu Quản lí quá trình tích hợp dữ liệu Quản lí quá trình cập nhật KDL Quản lí bảo mật Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification
  • 246.
    Sự quan trọng của siêu dữ liệu Rất quan trọng trong kho dữ liệu Không phải là dữ kiện phân tích Là chìa khóa quyết định sự thành công của kho dữ liệu Là thành phần luôn được thay đổi , cấp nhật theo sự phát triển của kho dữ liệu Dùng để quản lý , điều khiển kho dữ liệu Warehouse Metadata Repository External Sources Operational Data Sources
  • 247.
    Chất lượng của siêu dữ liệu Quản lý được sự tích hợp Thể hiện được tính lịch sử của dữ liệu Quản lý được các thay đổi
  • 248.
    Sự hình thành siêu dữ liệu Trong quá trình xây dựng kdl : Sản sinh một cách tự động Được tạo ra trong quá trình xây dựng kdl ứng dụng : Miêu tả Kdl và các thành phần Tạo điều kiện cho việc truy cập KDL ở mọi cấp Bảo trì : Phục vụ cho các mục đích bảo mật Lưu trữ thông tin về người dùng
  • 249.
    Các bước tạo lập siêu dữ liệu Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu Xác định các vấn đề trong tích hợp dữ liệu . Xác định siêu dữ liệu có thể được tạo như thế nào , ai tạo ra và được lưu trữ ở đâu Miêu tả nội dung của siêu dữ liệu
  • 250.
    Chiến lược cho siêu dữ liệu Đưa ra một chiến lược cho việc tiến hành xây dựng và sử dụng kho dữ liệu Phải đảm bảo được siêu dữ liệu có chất lượng cao Cung cấp cho người dùng thông tin có chất lượng cao Đảm bảo việc quản lí dữ liệu tích hợp Nhằm vào mục đích đến là gì Nguồn và thông tin về nguồn Bảo trì và quản lí Các chuẩn hóa Truy cập và các công cụ Tích hợp và phát triển
  • 251.
    Phân tích mục đích Các ý định Các yêu cầu Quản lý sự truy cập , ai sẽ truy cập và truy cập như thế nào Xác định các nguồn Các hướng tích hợp Quản lí sự thay đổi và tiến triển của KDL
  • 252.
    Các loại nguồn của siêu dữ liệu Xác định ai là người dùng kho dữ liệu ? Họ cần cái gì ? Siêu dữ liệu chứa cái gì ? Sẽ sử dụng công cụ gì để xây dựng kho dữ liệu ?
  • 253.
    Các kỹ thuật Các công cụ mô hình hóa Định nghĩa các lược đồ CSDL Các công cụ hỗ trợ cho ETT Các công cụ cho người dùng cuối Các công cụ để tạo tài liệu kĩ thuật
  • 254.
    Vị trí siêu dữ liệu Lưu tại máy chủ chứa kho dữ liệu Có thể được lưu tại các csdl nguồn Tại máy PC có công cụ quản lí siêu dữ liệu Quản lý bởi người quản lí siêu dữ liệu Các chuẩn hóa được sinh ra bởi cấu trúc siêu dữ liệu
  • 255.
    Các công cụ và việc truy cập Ai truy cập ? Khi nào ? Với mục đích gì ? Công cụ cho việc quản lí Công cụ quản lí câu hỏi Công cụ cho việc xây dựng kho dữ liệu
  • 256.
    Các loại siêu dữ liệu chi tiết Hệ tương tác Operational Các tiến trình nạp , quản lý và lập lịch cho việc cập nhập kdl ETT Quản lý các cấu trúc , ánh xạ Thông tin nguồn và đích Quản lý việc chuyển đổi Người dùng cuối ( End user ) Hỗ trợ việc sử dụng kho dữ liệu Hỗ trợ việc khảo sát kdl Hỗ trợ việc cung cấp thông tin cho kdl
  • 257.
    Siêu dữ liệu hệ thống tương tác Siêu dữ liệu cho hệ tương tác miêu tả phạm vi , giới hạn môi trường của kdl Xác định những dữ liệu nào cho phép hay không cho phép kdl truy cập Điều khiển quá trình truyền dữ liệu từ nguồn vào kdl Cung cấp các thông tin cho các nhà phát triển trong quá trình xây dựng cũng như mở rộng kdl No data nothing
  • 258.
    Siêu dữ liệu cho ETT ánh xạ dữ liệu từ các nguồn vào kdl Warehouse Data Warehouse Data Model Metadata Repository Internal sources External sources Operational data sources Browser: http:// Hollywood X + Customers: a recorof as X + Customers: Browser: http:// Hollywood Browser: http:// Hollywood X + 12345.00 12780.00 2345787.00 87877.98 5678.00 100% 110% 230% 200% -10% ABC CO GMBH LTD GBUK INC FFR ASSOC MCD CO
  • 259.
    Siêu dữ liệu cho việc chiết (1) Các luật kinh doanh Các khóa , trường và bảng nguồn Quản lí việc sở hữu dữ liệu Chuyển đổi giữa các trường Các bản tra cứu Thay đổi tên Các thay đổi giá trị khóa Các giá trị mặc định Quản lý đa nguồn Các thuật toán Nhãn thời gian Staging File External Sources Operational Data Sources Extraction
  • 260.
    Siêu dữ liệu cho việc chiết (2) Các yêu cầu về lưu trữ Thông tin về vị trí các nguồn Sự khác nhau giữa các nguồn Thông tin truy cập Bảo mật Các liên hệ , liên hệ với ai để có dữ liệu Các tên chương trình Các thông tin quản lý tính chất của dữ liệu External Sources Operational Data Sources Extraction
  • 261.
    Chuyển đổi Phương thức chuyển đổi Các chức năng xác định dữ liệu Các luật phát triển kdl Thông tin liên hệ External sources Operational data sources Warehouse Metadata repository ETT Mapping Staging file Transport
  • 262.
    Tích hợp và thay đổi Siêu dữ liệu quản lí việc tích hợp dữ liệu Siêu dữ liệu dùng cho việc trao đổi thông tin Quản lý việc chuyển đổi siêu dữ liệu Xem xét chu kỳ làm tươi kho dữ liệu
  • 263.
    Siêu dữ liệu người dùng cuối (1) Warehouse Metadata Repository End User Operational ETT Mapping IT staff Users
  • 264.
    Siêu dữ liệu người dùng cuối (2) Người dùng với mục đích phân tích đơn giản : yêu cầu các báo cáo chuẩn từ môi trường kdl Người dùng với mục đích thăm dò . Cần thiết để tham dò dữ liệu ở nhiều cấp độ . Họ sẽ dùng các toán tử Rolling up và Drilling down để thăm dò tương tác giữa các chủ thể kinh doanh giúp cho việc đưa ra quyết định Người dùng với mục đích phân tích : Thực hiện các phân tích thống kê , và đưa ra các quyết định
  • 265.
    Siêu dữ liệu người dùng cuối (3) Ví trí của các chiều và dữ kiện Miêu tả nội dung Các thuật toán để tạo ra các tổng hợp Thông tin về người sử dụng kdl Warehouse Metadata repository End User
  • 266.
    Siêu dữ liệu người dùng cuối (4) Cần thiết để biết ngữ cảnh của câu hỏi Warehouse Metadata repository End User
  • 267.
    Siêu dữ liệu người dùng cuối (5) Table Column Data Meaning Name Name Product Prodid 739516 Unique identifier for the product Product Valid_date 01/97 Last refresh date Product Ware_loc 1816 Warehouse location number Product Ware_bin 666 Warehouse bin number Product Code 15 The color of the product; please refer to table COL_REF for details Product Weight 17.62 Packed shipping weight in kilograms
  • 268.
    Siêu dữ liệu người dùng cuối (6) Ví trí của các chiều và dữ kiện Miêu tả nội dung Các thuật toán để tạo ra các tổng hợp Thông tin về người sử dụng kdl Warehouse Metadata repository End User
  • 269.
    Ngữ cảnh của dữ liệu (1) Hỗ trợ sự thay đổi theo chiều thời gian Lưu trữ các thay đổi của thông tin Operational Warehouse Metadata repository Structure Content 92 93 94 95 96
  • 270.
    Ngữ cảnh của dữ liệu (2) Dạng đơn giản Các cấu trúc dữ liệu Các chuyển đổi tên Các ánh xạ Dạng phức tạp Các định nghĩa sản phẩm Giá cả Nguồn ngoài Tác động của nền kinh tế Chính trị Warehouse 92 93 94 95 96
  • 271.
    Siêu dữ liệu phụ trợ Các thuật toán để tính toán các tổng hợp Thể hiện các quan hệ ( nguồn - đích , phân cấp ,..) Thông tin quản lí Các cấp quyền Phân tích mẫu Các bảng tra cứu
  • 272.
    Đặc tả siêu dữ liệu MDIS (1) Hiệp hội chuyên nghiên cứu về siêu dữ liệu Metadata Coalition đã đưa ra đặc tả của siêu dữ liệu vào năm 1996 MDIS Metadata Interchange Specification
  • 273.
    Đặc tả siêu dữ liệu MDIS (2) Metadata Coalition là một nhóm mở của các công ty như IBM , Informix và Prism Solutions Muc đích của MC là để tạo ra các chuẩn hóa về : Cơ chế truy cập API cho siêu dữ Iiệu Cho phép người dùng điều khiển và quản lí việc truy cập và thao tác siêu dữ liệu trong môi trường của họ thông qua các công cụ siêu dữ liệu
  • 274.
    Đặt tả siêu dữ liệu MDIS (3) MDIS có thể được mở rộng . Mô hình siêu dữ liệu của MDIS miêu tả các thực thể và mối liên hệ giữa chúng Database : thể hiện cho hệ thống CSDL hay một nhóm các files . Một database chứa nhiều records , và một record chứa một số element là thành phần bé nhất Subschema : thể hiện một lược đồ logic con
  • 275.
    Đặt tả siêu dữ liệu MDIS (4) Relationship : thể hiện mối quan hệ giữa các đối tượng . Các mối quan hệ bao gồm : Equivalent Derived Inherit from Contain Include Link to Dimension thể hiện các bản chiều trong mô hình đa chiều Level : thể hiện cấp trong lược đồ phân cấp của chiều Mỗi một đặt tả đều có header miêu tả các thông tin về dữ liệu đượu lưu trữ
  • 276.
    Ngôn ngữ Telos miêu tả MDIS Được phát triển bởi trường đại học Toronto và một số dự án tại châu Âu vào cuối những năm 1980 s Miêu tả các đối tượng và cung cấp sự kết nối giữa chúng Ngoài việc cung cấp cú pháp nó còn cung cấp về mặt ngữ nghĩa , các mô hình siêu dữ liệu . Và được ứng dụng rất nhiều trong các hệ thống thông tin : DW , Sematic Web , …
  • 277.
    Các công cụ quản lí siêu dữ liệu Carleton Evolutionary Technologies Hewlett Packard Informatica Information Advantage Oracle Designer /2000 Platinum Technology Prism Solutions Sagent
  • 278.
    Chương 7: P hương thức xây dựng kho dữ liệu
  • 279.
    Mục đích Chứng thực việc sử dụng phương pháp luận khi phát triển một giải pháp kho dữ liệu Xác định phương thức như là chuổi tiến trình và tác vụ Giải thích lợi ích của hướng tăng tiến trong việc phát triển kdl Xác định các kĩ năng đáp ứng cho việc thực thi kho dữ liệu
  • 280.
    Tiến trình Phương thức Các tài liệu kĩ thuật, phân ra các module Xác lập các chuẩn hóa Cải tiến phương thức phân phối công việc Định nghĩa các tác vụ và phân phối công việc Các công cụ phần mềm và tài liệu hướng dẫn Phương thức kho dữ liệu Các tác vụ và phân phối công việc để xây dựng kho dữ liệu và cài đặt
  • 281.
    Phương thức Dựa trên cơ sở của công nghệ phần mềm Cải tiến bằng : Nhận dạng các tác vụ lặp Định nghĩa các tác vụ một cách nhất quán Xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ liệu Đinh nghĩa việc quản lí tác vụ Tối ưu hóa các tác vụ
  • 282.
    Các thành phần Nhằm vào các thành phần : Thu thập dữ liệu Siêu dữ liệu Thiết kế kĩ thuật cho kho dữ liệu Truy cập dữ liệu Chất lượng dữ liệu Khám phá
  • 283.
    TàI liệu và công cụ hỗ trợ Workplan Templates Deliverables Templates Online Handbooks Quick Tour Method Handbook Process and Task Reference Deliverables Reference Software Tools Handbooks
  • 284.
    Phương pháp luận Tập trung vào phạm vi của ứng dụng Quản lí được các rủi ro Căn cứ vào các đóng góp của người dùng Cung cấp các giảI pháp có thể mở rộng Sử dụng nhiều công nghệ khác nhau Nhận dạng các tác vụ với các đối tượng và định nghĩa rõ ràng Đưa các tác vụ vào trong các tiến trình , nhóm tiến trình theo giai đoạn
  • 285.
    Các lợi ích Consistency Productivity Experience & Best Practices Flexibility Risk Avoidance
  • 286.
    Các yếu tố căn bản Các tiến trình Các hướng Tác vụ và phân bố tác vụ Các chức năng Phase 1 Phase 2 Phase 3 Phase 1 Task1 Phase 1 Task2 Phase 1 Task3 Phase 3 Task1 Phase 3 Task2 Phase 3 Task3 Phase 2 Task1 Phase 2 Task2 Phase 2 Task3 Process 1 Process 2
  • 287.
    Các tiến trình Tập kết dính các tác vụ để thực hiện các mục tiêu Tập các kĩ năng chung Dự án có thể chuyển giao Đa số là trùng lặp , một số thì lệ thuộc vào tiến trình trước
  • 288.
    Các tiến trình Business Requirements Definition Data Acquisition Data Quality Warehouse Administration Metadata Management Data Access Database Design and Build Documentation Testing Training Transition Post-Implementation Support Architecture
  • 289.
    Định nghĩa các yêu cầu kinh doanh Định nghĩa các yêu cầu Phân lớp các vùng Khởi tạo các kế hoạch cài đặt Cung cấp sự khởi đầu tập trung vào việc tiến hành xây dựng hệ thống cho công ty Xác định các yêu cầu về thông tin Các yêu cầu về mô hình
  • 290.
    Thu thập dữ liệu Xác định , chiết , chuyển đổi , và chuyển tải dữ liệu nguồn Xem xét dữ liệu bên trong và bên ngoài Chuyển dời dữ liệu giữa nguồn và đích Thực hiện phân tích kết nối giữa dữ liệu nguồn và các đối tượng csdl đích Định nghĩa việc thu thập lần đầu và kế hoạch làm tươi dữ liệu Định nghĩa các yêu cầu về công cụ Xây dựng , test , và thực hiện các module nạp dữ liệu
  • 291.
    Kiến trúc Định rõ các nền tảng kĩ thuật Thiết kế kiến trúc kho dữ liệu Tích hợp các thành phần kiến trúc cho mục đích khả biến và mềm dẻo Xác định môi trường CSDL , phân tán hay tập trung Định nghĩa các môi trường phát triển , test , huấn luyện , và sản xuất Cấu hình nền Configure the platform Thực hiện việc tính dung lượng CSDL Xem xét việc làm sạch đĩa
  • 292.
    Chất lượng của dữ liệu Đảm bảo tính nhất quán , đáng tin cậy và chính xác của dữ liệu Phát triển một chiến lược để : Làm sạch dữ liệu Các chức năng đảm bảo tính toàn vẹn của dữ liệu Các chức năng quản lí chất lượng của dữ liệu Xác định các luật kinh doanh : Làm sạch dữ liệu Xử lí các lỗi Các yêu cầu cho việc tạo ra các công cụ kiểm tra chất lượng của dữ liệu Xây dựng , test , và thực hiện các module cho việc tạo và kiểm chứng chất lượng dữ liệu
  • 293.
    Bảo trì kho dữ liệu Định rõ một chiến lược bảo trì kho dữ liệu Quản lý cấu hình Quản lý kho dữ liệu Sự quản lí và chi phối dữ liệu Định nghĩa dòng công việc quản lí kdl và các yêu cầu về công cụ Xây dựng , test , và thực hiện các module cho việc bảo trì kho dữ liệu Quản lý việc truy cập dữ liệu và giám sát Tự động hóa các tác vụ quản lý kdl
  • 294.
    Các loại siêu dữ liệu Định nghĩa chiến lược cho việc tạo và quản lí siêu dữ liệu Định nghĩa các kiểu siêu dữ liệu Chỉ rõ các yêu cầu cho lưu trữ siêu dữ liệu đáp ứng các yêu cầu quản lí việc tích hợp và truy cập Khởi tạo các khung nhìn kĩ thuật và kinh doanh cho siêu dữ liệu Phát triển các module cho việc nắm bắt , kết nối và truy cập siêu dữ liệu
  • 295.
    Truy cập dữ liệu Nhận diện , chọn lựa và thiết kế các công cụ quản lí việc truy cập của người dùng Định nghĩa các hồ sơ của người dùng Xác định các yêu cầu của kiểu giao diện , các cấu trúc câu hỏi , các báo cáo , và các loại người dùng Ước lược , đánh giá và cài đặt các công cụ quản lí việc truy cập Thiết kế và phát triển các đối tượng truy cập dữ liệu Câu hỏi và báo cáo Catalogs Chiều và các phân cấp
  • 296.
    Thiết kế và xây dựng cs dữ liệu Hỗ trợ các yêu cầu dữ liệu Thiết kế CSDL nhằm mục đích cung cấp các truy cập có hiệu quả Tạo và phê chuẩn các mô hình logic và vật lí Tạo lập các đối tượng CSDL quan hệ và đa chiều Ước lược các phân đoạn , các đoạn , và việc sắp xếp Nhận diện các khóa và chỉ mục Xây dựng và cài đặt các đối tượng csdl
  • 297.
    Lập tài liệu Cung cấp các văn bản có thể cung cấp các thông tin : Từ điển thuật ngữ Glossary Tài liệu cho người dùng và tài liệu kĩ thuật User and technical documentation Trợ giúp trực tuyến Online help Hướng dẫn tham khảo siêu dữ liệu Tham cứu sự quản lí kdl Hướng dẫn các tính năng mới
  • 298.
    Test Phát triển một chiến lược để test hệ thống Tạo lập các kế hoạch , kịch bản cho việc test Test tất cả các thành phần Thu thập dữ liệu Truy cập dữ liệu Các truy cập đặc biệt Hồi quy , Các volume Backup Sự khôi phục Recovery
  • 299.
    Huấn luyện Định nghĩa các yêu cầu Về kĩ thuật Technical Của người dùng cuối End user Của yêu cầu kinh doanh Nhận diện các cá nhân cho việc huấn luyện Tạo lập khung thời gian cho việc huấn luyện Thiết kế và phát triển các tài liệu Tập trung vào việc huấn luyện sử dụng các công cụ hỗ trợ hoạt động của kho dữ liệu
  • 300.
    Chuyển giao Định nghĩa các tác vụ cho việc chuyển giao sử dụng kdl Chuyển giao các chức năng và module Phát triển kế hoạch cài đặt Chuẩn bị môi trường bảo trì Chuẩn bị môi trường cho việc sử dụng kho dữ liệu
  • 301.
    Hỗ trợ hậu thực thi Ước lượng và khảo sát việc sử dụng kdl Giám sát việc sử dụng kdl Làm tươI kdl Giám sát và phản hồi các vấn đề xảy ra Điều khiển thực hiện test Có trách nhiệm chuyển giao sản phẩm Ước lượng và khảo sát các giải pháp thực thi
  • 302.
    Các hướng thực thi Incremental Packaged data mart Warehouse Infrastructure Implementation Business Application Implementation Increment I Proof of Concept Increment II through N Increment II through N Warehouse Data mart Data mart Data mart
  • 303.
    Hướng tăng tiến
  • 304.
    Phát triển tăng tiến Tập trung vào chức năng kinh doanh Đưa ra các lợi ích trong kinh doanh Xem thử có phù hợp cho việc tăng trưởng , tiến hoá của kdl không ? Khi một tăng tiến hoàn thành , các chọn lựa và phạm vi của tăng tiến tiếp theo sẽ được định nghĩa Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 305.
    Chiến lược Tập trung vào các khía cạnh của một giải pháp kdl cho một xí nghiệp Cung cấp một nền tảng vững chắc cho tương lai Xác định các chiến lược Thu thập dữ liệu Quản lí kdl Chất lượng dữ liệu Siêu dữ liệu Truy cập dữ liệu Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 306.
    Các định nghĩa Nhận diện và khoanh vùng các tăng tiến Tài liệu ghi thông tin về các nguồn dữ liệu Phát triển các kế hoạch nạp và làm tươi dữ liệu Chuẩn bị một kiến trúc kĩ thuật Định nghĩa phạm vi của chất lượng dữ liệu Định nghĩa các chiến lược quản lí sự tăng tiến của kho dữ liệu Định nghĩa siêu dữ liệu , truy cập , và test và kế hoạch huấn luyện Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 307.
    Phân tích Thu thập các yêu cầu về thông tin Hoàn thành các mô hình kdl và đa chiều Trau chuốt kế hoạch thu thập dữ liệu ánh xạ các nguồn dữ liệu Phát triển các kế hoạch tích hợp Tài liệu quản lí các lỗi và các ngoại lệ Đánh giá và chọn các công cụ Lập các báo cáo về việc truy cập các yêu cầu về truy cập dữ liệu Phân tích các kế hoạch test Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 308.
    Thiết kế Định nghĩa các chuẩn hóa trong thiết kế ánh xạ dữ liệu nguồn vàp csdl logic Phát triển các module cho việc nạp và làm tươi dữ liệu trong kdl Thiết kế các kế hoạch cho việc cài đặt phần cứng và phần mềm Thiết kế các đặt tả cho việc truy cập dữ liệu Khởi tạo thiết kế csdl vật lý Phát triển và chuẩn bị các nền test Khởi tạo các tài liệu hướng dẫn , tham khảo và huấn luyện người dùng Phát triển chiến lược chuyển giao Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 309.
    Xây dựng Ánh xạ dữ liệu nguồn vào csdl vật lý Mã hóa các modules Tích hợp kiến trúc tăng tiến với kiến trúc kinh doanh của xí nghiệp Xây dựng các module quản lí chất lượng dữ liệu Xây dựng các module quản lý siêu dữ liệu Tiến hành test các module và hệ thống Hoàn thành các tài liệu hướng dẫn sử dụng và kĩ thuật Phát triển kế hoạch cài đặt Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 310.
    Chuyển giao Sử dụng , và phân bố dữ liệu Huấn luyện cho người dùng và quản lí hệ thống Điều chỉnh hệ thống csdl Thực thi các chức năng quản lí kdl Chỉ đạo người dùng test hệ thống Cung cấp sự ước lượng trong việc sử dụng Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 311.
    Khám phá Khảo sát các tăng tiến có thể thực thi được Khảo sát các yêu cầu xuất sắc Lập tài liệu cho các kinh nghiệm và các bài học Khảo sát các kế hoạch cho dự án mở Đánh gián kiến trúc kdl và kĩ thuật khả thi Strategy PGM/PJM Project and Program Management ETA Enterprise Technical Architecture Definition Analysis Design Build Transition to Production Discovery Incremental Development
  • 312.
    Các tác vụ và sự thực thi Được phát thảo trong cấu trúc phân chia nhỏ công việc Được tổ chức theo tiến trình và giai đoạn Task Id Task Name A Strategy A.RD.EXEC Business Requirements Definition A.RD.001 Obtain Existing Reference Material A.RD.002 Obtain Reference Data Models A.RD.003 Define Strategic Goals, Vision of the Enterprise A.RD.004 Establish Business Initiatives A.RD.005 Define Objectives and Purpose of Enterprise Data Warehouse A.RD.015 Collect Enterprise Business Information Requirements A.RD.034 Document Data Warehouse Subject Areas A.RD.035 Create Data Warehouse Subject Area Data Model A.RD.044 Define Data Warehouse Implementation Roadmap A.RD.045 Prepare Business Case for Enterprise Data Warehouse
  • 313.
    Các tác vụ và sự thực thi The project team : chức năng và trách nhiệm Các chức năng chung Phân tích , quản trị csdl , lập trình , và test Các chức năng đặc biệt của kdl Kiến trúc kdl , kiến trúc siêu dữ liệu , quản trị chất lượng dữ liệu , quản trị kdl