Lecture 28

Data WarehousingData Warehousing
11
Lecture-28Lecture-28
Need for Speed: Join TechniquesNeed for Speed: Join Techniques
Virtual University of PakistanVirtual University of Pakistan
Ahsan Abdullah
Assoc. Prof. & Head
Center for Agro-Informatics Research
www.nu.edu.pk/cairindex.asp
National University of Computers & Emerging Sciences, Islamabad
Email: ahsan101@yahoo.com

Data Warehousing
2
Need for Speed: Join TechniquesNeed for Speed: Join Techniques

Data Warehousing
3
BackgroundBackground

Data Warehousing
4
About Nested-Loop JoinAbout Nested-Loop Join

Data Warehousing
5
FOR i = 1 to N DO BEGINFOR i = 1 to N DO BEGIN /*/* N rows in T1N rows in T1 */*/
IF iIF ithth
row of T1 qualifies THEN BEGINrow of T1 qualifies THEN BEGIN
For j = 1 to M DO BEGINFor j = 1 to M DO BEGIN /* M rows in T2/* M rows in T2 */*/
IF the iIF the ithth
row of T1 matches to jrow of T1 matches to jthth
row of T2 on join keyrow of T2 on join key
THEN BEGINTHEN BEGIN
IF the jIF the jthth
row of T2 qualifies THEN BEGINrow of T2 qualifies THEN BEGIN
produce output rowproduce output row
ENDEND
ENDEND
ENDEND
ENDEND
ENDEND
Nested-Loop Join: CodeNested-Loop Join: Code
GOES TO GRAPHICSGOES TO GRAPHICS

Data Warehousing
6
““What is the average GPA ofWhat is the average GPA of
undergraduate male students?”undergraduate male students?”
For each qualifying row of Personal table,
Academic table is examined for matching rows.
Student Personal Table Student Academic Table
298-----------------
----------------------
----------------------
62------------------
----------------------
----------------------
440------------------
Nested-Loop Join: Working ExampleNested-Loop Join: Working Example
Results
Search
Results
Search
Results
Search

Data Warehousing
7
Nested-Loop Join: Order of TablesNested-Loop Join: Order of Tables

Data Warehousing
8
Nested-Loop Join: Cost FormulaNested-Loop Join: Cost Formula
Join cost =Join cost = Cost of accessing Table_A +
# of qualifying rows in Table_A × Blocks of
Table_B to be scanned for each qualifying row
OR
Join cost =Join cost = Blocks accessed for Table_A +
Blocks accessed for Table_A × Blocks
accessed for Table_B

Data Warehousing
9
Nested-Loop Join: Cost of reorderNested-Loop Join: Cost of reorder
Table_A = 500 blocks and
Table_B = 700 blocks.
Qualifying blocks for Table_A QB(A) = 50
Qualifying blocks for Table_B QB(B) = 100
Join cost A&B = 500 + 50×700 = 35,500 I/Os
Join cost B&A = 700 + 100×500 = 50,700 I/Os
i.e. an increase in I/O of about 43%.

Data Warehousing
10
Nested-Loop Join: VariantsNested-Loop Join: Variants

Data Warehousing
11
Sort-Merge JoinSort-Merge Join

Data Warehousing
12
Sort-Merge Join: ProcessSort-Merge Join: Process

1313
1
1
2
2
2
4
5
5
5
6
6
6
6
6
7
8
1
3
3
4
4
4
5
5
6
6
6
6
7
7
7
7
Table_A Table_B
1
1
2
2
2
4
5
5
5
6
6
6
6
6
7
8
1
3
3
4
4
4
5
5
6
6
6
6
7
7
7
7
Table_A Table_B
1
1
2
2
2
4
5
5
5
6
6
6
6
6
7
8
1
3
3
4
4
4
5
5
6
6
6
6
7
7
7
7
Table_A Table_B
Sort-Merge Join Example

Data Warehousing
14
Sort-Merge Join: NoteSort-Merge Join: Note

Data Warehousing
15
Hash-Based joinHash-Based join

Data Warehousing
16
Hash-Based Join: WorkingHash-Based Join: Working

Data Warehousing
17
Hash-Based Join: ExampleHash-Based Join: Example
Table_B on disk
DiskDisk
Original
Relation
Table_A
hash
function
h
Join Result
. . .
Table_B
M N
N
2
1
.
.
.
1
2
.
.
.
Table_A in main memory
MAIN MEMORY

Data Warehousing
18
Hash-Based Join: Large “small” TableHash-Based Join: Large “small” Table

Data Warehousing
19
Hash-Based Join: Partition SkewHash-Based Join: Partition Skew

Data Warehousing
20
Hash-Based Join: Intrinsic SkewHash-Based Join: Intrinsic Skew

Lecture 28

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Lecture 28

Similar to Lecture 28 (12)

More from Shani729

More from Shani729 (20)

Recently uploaded

Recently uploaded (20)

Lecture 28

Editor's Notes