SlideShare a Scribd company logo
1 of 16
Indexing OLAP DataIndexing OLAP Data
Sunita SarawagiSunita Sarawagi
Date
Product
Country
sum
sum
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
U.S.A
Canada
Mexico
sum
May 29, 2013 3
Dữ liệu đa chiềuDữ liệu đa chiềuProductRegion
Month
Các chiều: SP, Địa danh, Thời gian
Các đường tóm tắt phân cấp
Industry Region Year
Category Country Quarter
Product City Month Week
Office Day
May 29, 2013 4
time_key
day
day_of_the_week
month
quarter
year
time
location_key
street
city
state_or_province
country
location
Sales Fact Table
time_key
item_key
branch_key
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
item
branch_key
branch_name
branch_type
branch
VÍ DỤ SƠ ĐỒ HÌNH SAO
AgendaAgenda
Requirements on Indexing methods
Existing indexing methods
Optimization of R-Tree for OLAP data
R-Tree VS Bit-mapped Index
Conclusion
1.2. Requirements on an indexing method1.2. Requirements on an indexing method
 Symmetric partial match queries
– Truy vấn điểm
– Truy vấn vùng dữ liệu liên tục
ví dụ: Thời gian từ tháng 1 đến tháng 7 năm 1994
– Truy vấn vùng dữ liệu không liên tục
ví dụ: Tháng đầu tiên của mỗi năm
 Indexing ai multiple level of aggregation
– Tính toán, thống kê trước theo nhóm
– Thiết lập index cho dữ liệu thống kê
 Multiple traversal orders
 Efficient batch update
 Handling sparse data efficiently
2. Existing methods2. Existing methods
 Multidimensional array-based methods
– Làm việc hiệu quả khi dữ liệu dày đặc
– Mô hình Essbase
Ví dụ: khối dữ liệu 4 chiều gồm sản phẩm, cửa hàng
(thưa thớt), thời gian và kịch bản (dày đặc)
– Sản phẩm và cửa hàng trong cây B
– Mảng 2 chiều: Thời gian và kịch bản
 Bit mapped index and variations
– Pros
 Dữ liệu số thấp, chỉ số hóa được cả khoảng trống
 Hỗ trợ thao tác phân theo bít
 Dữ liệu truy cập được phân cụm
 Tất cả chiều dữ liệu đối xứng
– Cons
 Tốn kém vùng truy vấn
 Dễ bị tràn dữ liệu khi lưu bít chỉ số đặc biệt dữ liệu
số cao
 Chi phí cho việc cập nhật hàng loạt rất lớn khi ánh
xạ sang index, đôi khi phải sửa thậm chí chèn 1
dòng
2. Existing methods2. Existing methods
Bit-mapped indices variants
– Compression (nén)
– Hybrid (lai – kết hợp)
– Dynamic Bit-maps (chỉ số hóa động)
2. Existing methods2. Existing methods
 Hierarchical Index
– Example: Product - Store
 Thiết lập index cho sản phẩm đầu tiên lưu trữ tổng quát dựa
vào cấp độ sản phẩm
 Mỗi giá trị sản phẩm, thiết lập index cho sản phẩm và sản
phẩm chung cho cấp độ product-store
– Pros:
 Cho phép truy cập nhanh với dữ liệu ở cấp cao hơn
 Chiều dữ liệu được thao tác đối xứng
– Cons:
 Tràn bộ nhớ cho việc lập chỉ mục
 Hiệu quả thu hồi trung bình có thế chấp nhận được vì cấu trúc
chỉ mục lớn
2. Existing methods2. Existing methods
Multidimensional index
- Thiết lập index đa chiều
- Truy vấn nhanh
- Không cho lợi ích về kinh tế
- Đòi hỏi quy mô lớn về số chiều và nhiều thuộc tính
2. Existing methods2. Existing methods
3. Optimized R-Tree of OLAP data3. Optimized R-Tree of OLAP data
Đối với miền tọa độ dày đặc, chỉ lưu trữ
những đường biên của miền (chứa nhiều hơn
số ngưỡng)
Con trỏ trỏ đến mảng. Mảng có thể tổ chức
theo hai cách, mỗi mục của mảng lưu trữ địa
chỉ một bản ghi (Tuple ID) hoặc chính nó.
Tìm miền dày dặc
– Thường xác định ở miền cấp bậc cao
– Sử dụng thuật toán phân cụm
4. R-Tree VS Bit-mapped indices4. R-Tree VS Bit-mapped indices
R-Tree Pros:
– Cho phép truy vấn theo vùng
– Tràn bộ nhớ ít hơn
– Việc cập nhật hiệu quả hơn
Bit-mapped Pros:
– Thao tác đánh chỉ số bít nhanh hơn
– Hiêu quả cho số thấp, một vài chiều dữ liệu thu
nhỏ và dư liệu thưa thớt
EFFICIENT COMPUTATION OFEFFICIENT COMPUTATION OF
ICEBERG CUBES WITHICEBERG CUBES WITH
COMPLEX MEASURESCOMPLEX MEASURES
- Chúng ta hướng đến một cách hiệu quả để truy vấn kết
hợp đa chiều trong iceberg cube và khai thác dữ liệu.
- Trong bài báo chúng ta chỉ nghiên cứu phép trung
bình trong iceberg cube.
- Mở rộng hai phương pháp nghiên cứu trước đây,
Apriori và BUC, trở thành Top-k Apriori và Top-k
BUC.
- Nâng cao hiệu quả hơn nữa bằng phương pháp Top-k
H-Cubing
Top-K Average
Top-k Apriori
Top-k BUC
Top-k H-Cubing
Performance Analysis

More Related Content

Similar to Indexing olap data

Tableau business intelligence
Tableau business intelligenceTableau business intelligence
Tableau business intelligenceBSD SOLUTIONS
 
Giải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkGiải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkLinh Ngoc
 
Giải pháp phân tích số liệu Tableau Data Analytics
Giải pháp phân tích số liệu Tableau Data Analytics Giải pháp phân tích số liệu Tableau Data Analytics
Giải pháp phân tích số liệu Tableau Data Analytics BSD SOLUTIONS
 
Adtech ip2location
Adtech ip2locationAdtech ip2location
Adtech ip2locationNguyen Thanh
 
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKALựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKAHo Quang Thanh
 
Thuong mai dien tu v2.0 bach
Thuong mai dien tu v2.0   bachThuong mai dien tu v2.0   bach
Thuong mai dien tu v2.0 bachBach Phan
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinVõ Phúc
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinMasterCode.vn
 
Bao cao giua ky
Bao cao giua kyBao cao giua ky
Bao cao giua kykanzakido
 
Domain Driven Design Introduction
Domain Driven Design IntroductionDomain Driven Design Introduction
Domain Driven Design IntroductionTung Nguyen Thanh
 
Protection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseProtection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseHo Quang Thanh
 
Land certificate presentation 2014
Land certificate presentation 2014Land certificate presentation 2014
Land certificate presentation 2014Pham Quan
 
6 he thong xuat nhap
6 he thong xuat nhap6 he thong xuat nhap
6 he thong xuat nhapLy hai
 
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdfHoangPhuongThao8
 

Similar to Indexing olap data (20)

Tableau business intelligence
Tableau business intelligenceTableau business intelligence
Tableau business intelligence
 
Dsd02 sta
Dsd02 staDsd02 sta
Dsd02 sta
 
Giải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache sparkGiải pháp xử lý big data trên apache spark
Giải pháp xử lý big data trên apache spark
 
Giải pháp phân tích số liệu Tableau Data Analytics
Giải pháp phân tích số liệu Tableau Data Analytics Giải pháp phân tích số liệu Tableau Data Analytics
Giải pháp phân tích số liệu Tableau Data Analytics
 
Adtech ip2location
Adtech ip2locationAdtech ip2location
Adtech ip2location
 
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKALựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA
 
Thuong mai dien tu v2.0 bach
Thuong mai dien tu v2.0   bachThuong mai dien tu v2.0   bach
Thuong mai dien tu v2.0 bach
 
Gt pttk he_thong_thong_tin
Gt pttk he_thong_thong_tinGt pttk he_thong_thong_tin
Gt pttk he_thong_thong_tin
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tin
 
San
SanSan
San
 
Bao cao giua ky
Bao cao giua kyBao cao giua ky
Bao cao giua ky
 
Domain Driven Design Introduction
Domain Driven Design IntroductionDomain Driven Design Introduction
Domain Driven Design Introduction
 
Protection in Virtual Memory - Study case
Protection in Virtual Memory - Study caseProtection in Virtual Memory - Study case
Protection in Virtual Memory - Study case
 
Land certificate presentation 2014
Land certificate presentation 2014Land certificate presentation 2014
Land certificate presentation 2014
 
6 he thong xuat nhap
6 he thong xuat nhap6 he thong xuat nhap
6 he thong xuat nhap
 
Luận văn: Chống lại mất mát gói tin của thuật toán mã hóa ILBC
Luận văn: Chống lại mất mát gói tin của thuật toán mã hóa ILBCLuận văn: Chống lại mất mát gói tin của thuật toán mã hóa ILBC
Luận văn: Chống lại mất mát gói tin của thuật toán mã hóa ILBC
 
Optisystem
OptisystemOptisystem
Optisystem
 
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf
[123doc] - bai-thuc-hanh-chuyen-sau-ptit.pdf
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 

Indexing olap data

  • 1. Indexing OLAP DataIndexing OLAP Data Sunita SarawagiSunita Sarawagi
  • 3. May 29, 2013 3 Dữ liệu đa chiềuDữ liệu đa chiềuProductRegion Month Các chiều: SP, Địa danh, Thời gian Các đường tóm tắt phân cấp Industry Region Year Category Country Quarter Product City Month Week Office Day
  • 4. May 29, 2013 4 time_key day day_of_the_week month quarter year time location_key street city state_or_province country location Sales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_sales Measures item_key item_name brand type supplier_type item branch_key branch_name branch_type branch VÍ DỤ SƠ ĐỒ HÌNH SAO
  • 5. AgendaAgenda Requirements on Indexing methods Existing indexing methods Optimization of R-Tree for OLAP data R-Tree VS Bit-mapped Index Conclusion
  • 6. 1.2. Requirements on an indexing method1.2. Requirements on an indexing method  Symmetric partial match queries – Truy vấn điểm – Truy vấn vùng dữ liệu liên tục ví dụ: Thời gian từ tháng 1 đến tháng 7 năm 1994 – Truy vấn vùng dữ liệu không liên tục ví dụ: Tháng đầu tiên của mỗi năm  Indexing ai multiple level of aggregation – Tính toán, thống kê trước theo nhóm – Thiết lập index cho dữ liệu thống kê  Multiple traversal orders  Efficient batch update  Handling sparse data efficiently
  • 7. 2. Existing methods2. Existing methods  Multidimensional array-based methods – Làm việc hiệu quả khi dữ liệu dày đặc – Mô hình Essbase Ví dụ: khối dữ liệu 4 chiều gồm sản phẩm, cửa hàng (thưa thớt), thời gian và kịch bản (dày đặc) – Sản phẩm và cửa hàng trong cây B – Mảng 2 chiều: Thời gian và kịch bản
  • 8.  Bit mapped index and variations – Pros  Dữ liệu số thấp, chỉ số hóa được cả khoảng trống  Hỗ trợ thao tác phân theo bít  Dữ liệu truy cập được phân cụm  Tất cả chiều dữ liệu đối xứng – Cons  Tốn kém vùng truy vấn  Dễ bị tràn dữ liệu khi lưu bít chỉ số đặc biệt dữ liệu số cao  Chi phí cho việc cập nhật hàng loạt rất lớn khi ánh xạ sang index, đôi khi phải sửa thậm chí chèn 1 dòng 2. Existing methods2. Existing methods
  • 9. Bit-mapped indices variants – Compression (nén) – Hybrid (lai – kết hợp) – Dynamic Bit-maps (chỉ số hóa động) 2. Existing methods2. Existing methods
  • 10.  Hierarchical Index – Example: Product - Store  Thiết lập index cho sản phẩm đầu tiên lưu trữ tổng quát dựa vào cấp độ sản phẩm  Mỗi giá trị sản phẩm, thiết lập index cho sản phẩm và sản phẩm chung cho cấp độ product-store – Pros:  Cho phép truy cập nhanh với dữ liệu ở cấp cao hơn  Chiều dữ liệu được thao tác đối xứng – Cons:  Tràn bộ nhớ cho việc lập chỉ mục  Hiệu quả thu hồi trung bình có thế chấp nhận được vì cấu trúc chỉ mục lớn 2. Existing methods2. Existing methods
  • 11. Multidimensional index - Thiết lập index đa chiều - Truy vấn nhanh - Không cho lợi ích về kinh tế - Đòi hỏi quy mô lớn về số chiều và nhiều thuộc tính 2. Existing methods2. Existing methods
  • 12. 3. Optimized R-Tree of OLAP data3. Optimized R-Tree of OLAP data Đối với miền tọa độ dày đặc, chỉ lưu trữ những đường biên của miền (chứa nhiều hơn số ngưỡng) Con trỏ trỏ đến mảng. Mảng có thể tổ chức theo hai cách, mỗi mục của mảng lưu trữ địa chỉ một bản ghi (Tuple ID) hoặc chính nó. Tìm miền dày dặc – Thường xác định ở miền cấp bậc cao – Sử dụng thuật toán phân cụm
  • 13. 4. R-Tree VS Bit-mapped indices4. R-Tree VS Bit-mapped indices R-Tree Pros: – Cho phép truy vấn theo vùng – Tràn bộ nhớ ít hơn – Việc cập nhật hiệu quả hơn Bit-mapped Pros: – Thao tác đánh chỉ số bít nhanh hơn – Hiêu quả cho số thấp, một vài chiều dữ liệu thu nhỏ và dư liệu thưa thớt
  • 14. EFFICIENT COMPUTATION OFEFFICIENT COMPUTATION OF ICEBERG CUBES WITHICEBERG CUBES WITH COMPLEX MEASURESCOMPLEX MEASURES
  • 15. - Chúng ta hướng đến một cách hiệu quả để truy vấn kết hợp đa chiều trong iceberg cube và khai thác dữ liệu. - Trong bài báo chúng ta chỉ nghiên cứu phép trung bình trong iceberg cube. - Mở rộng hai phương pháp nghiên cứu trước đây, Apriori và BUC, trở thành Top-k Apriori và Top-k BUC. - Nâng cao hiệu quả hơn nữa bằng phương pháp Top-k H-Cubing
  • 16. Top-K Average Top-k Apriori Top-k BUC Top-k H-Cubing Performance Analysis