3. May 29, 2013 3
Dữ liệu đa chiềuDữ liệu đa chiềuProductRegion
Month
Các chiều: SP, Địa danh, Thời gian
Các đường tóm tắt phân cấp
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
4. May 29, 2013 4
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
state_or_province
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
VÍ DỤ SƠ ĐỒ HÌNH SAO
6. 1.2. Requirements on an indexing method1.2. Requirements on an indexing method
Symmetric partial match queries
– Truy vấn điểm
– Truy vấn vùng dữ liệu liên tục
ví dụ: Thời gian từ tháng 1 đến tháng 7 năm 1994
– Truy vấn vùng dữ liệu không liên tục
ví dụ: Tháng đầu tiên của mỗi năm
Indexing ai multiple level of aggregation
– Tính toán, thống kê trước theo nhóm
– Thiết lập index cho dữ liệu thống kê
Multiple traversal orders
Efficient batch update
Handling sparse data efficiently
7. 2. Existing methods2. Existing methods
Multidimensional array-based methods
– Làm việc hiệu quả khi dữ liệu dày đặc
– Mô hình Essbase
Ví dụ: khối dữ liệu 4 chiều gồm sản phẩm, cửa hàng
(thưa thớt), thời gian và kịch bản (dày đặc)
– Sản phẩm và cửa hàng trong cây B
– Mảng 2 chiều: Thời gian và kịch bản
8. Bit mapped index and variations
– Pros
Dữ liệu số thấp, chỉ số hóa được cả khoảng trống
Hỗ trợ thao tác phân theo bít
Dữ liệu truy cập được phân cụm
Tất cả chiều dữ liệu đối xứng
– Cons
Tốn kém vùng truy vấn
Dễ bị tràn dữ liệu khi lưu bít chỉ số đặc biệt dữ liệu
số cao
Chi phí cho việc cập nhật hàng loạt rất lớn khi ánh
xạ sang index, đôi khi phải sửa thậm chí chèn 1
dòng
2. Existing methods2. Existing methods
9. Bit-mapped indices variants
– Compression (nén)
– Hybrid (lai – kết hợp)
– Dynamic Bit-maps (chỉ số hóa động)
2. Existing methods2. Existing methods
10. Hierarchical Index
– Example: Product - Store
Thiết lập index cho sản phẩm đầu tiên lưu trữ tổng quát dựa
vào cấp độ sản phẩm
Mỗi giá trị sản phẩm, thiết lập index cho sản phẩm và sản
phẩm chung cho cấp độ product-store
– Pros:
Cho phép truy cập nhanh với dữ liệu ở cấp cao hơn
Chiều dữ liệu được thao tác đối xứng
– Cons:
Tràn bộ nhớ cho việc lập chỉ mục
Hiệu quả thu hồi trung bình có thế chấp nhận được vì cấu trúc
chỉ mục lớn
2. Existing methods2. Existing methods
11. Multidimensional index
- Thiết lập index đa chiều
- Truy vấn nhanh
- Không cho lợi ích về kinh tế
- Đòi hỏi quy mô lớn về số chiều và nhiều thuộc tính
2. Existing methods2. Existing methods
12. 3. Optimized R-Tree of OLAP data3. Optimized R-Tree of OLAP data
Đối với miền tọa độ dày đặc, chỉ lưu trữ
những đường biên của miền (chứa nhiều hơn
số ngưỡng)
Con trỏ trỏ đến mảng. Mảng có thể tổ chức
theo hai cách, mỗi mục của mảng lưu trữ địa
chỉ một bản ghi (Tuple ID) hoặc chính nó.
Tìm miền dày dặc
– Thường xác định ở miền cấp bậc cao
– Sử dụng thuật toán phân cụm
13. 4. R-Tree VS Bit-mapped indices4. R-Tree VS Bit-mapped indices
R-Tree Pros:
– Cho phép truy vấn theo vùng
– Tràn bộ nhớ ít hơn
– Việc cập nhật hiệu quả hơn
Bit-mapped Pros:
– Thao tác đánh chỉ số bít nhanh hơn
– Hiêu quả cho số thấp, một vài chiều dữ liệu thu
nhỏ và dư liệu thưa thớt
15. - Chúng ta hướng đến một cách hiệu quả để truy vấn kết
hợp đa chiều trong iceberg cube và khai thác dữ liệu.
- Trong bài báo chúng ta chỉ nghiên cứu phép trung
bình trong iceberg cube.
- Mở rộng hai phương pháp nghiên cứu trước đây,
Apriori và BUC, trở thành Top-k Apriori và Top-k
BUC.
- Nâng cao hiệu quả hơn nữa bằng phương pháp Top-k
H-Cubing