Gulabs Ppt On Data Warehousing And Mining

DATA WAREHOUSING AND DATA MINING Gulab Chand Sharma SIOM Matrix Pune [email_address] 09730495612

Course Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

0. Introduction ,[object Object],[object Object],[object Object],[object Object]

A producer wants to know…. Which are our lowest/highest margin customers ? Who are my customers and what products are they buying? Which customers are most likely to go to the competition ? What impact will new products/services have on revenue and margins? What product prom- -otions have the biggest impact on revenue? What is the most effective distribution channel?

Data, Data everywhere yet ... ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What is a Data Warehouse? ,[object Object],[object Object]

What are the users saying... ,[object Object],[object Object],[object Object],[object Object]

What is Data Warehousing? ,[object Object],[object Object],Data Information

Evolution ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Warehouses are Very Large Databases 35% 30% 25% 20% 15% 10% 5% 0% 5GB 5-9GB 10-19GB 50-99GB 250-499GB 20-49GB 100-249GB 500GB-1TB Initial Projected 2Q96 Source: META Group, Inc. Respondents

Very Large Data Bases ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Warehousing -- It is a process ,[object Object],[object Object]

Data Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Explorers, Farmers and Tourists Explorers: Seek out the unknown and previously unsuspected rewards hiding in the detailed data Farmers: Harvest information from known access paths Tourists: Browse information harvested by farmers

Data Warehouse Architecture Data Warehouse Engine Optimized Loader Extraction Cleansing Analyze Query Metadata Repository Relational Databases Legacy Data Purchased Data ERP Systems

Data Warehouse for Decision Support & OLAP ,[object Object],[object Object],[object Object],[object Object]

Decision Support ,[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining works with Warehouse Data ,[object Object],[object Object]

We want to know ... ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Data Mining helps extract such information

Application Areas Industry Application Finance Credit Card Analysis Insurance Claims, Fraud Analysis Telecommunication Call record analysis Transport Logistics management Consumer goods promotion analysis Data Service providers Value added data Utilities Power usage analysis

Data Mining in Use ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What makes data mining possible? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Why Separate Data Warehouse? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What are Operational Systems? ,[object Object],[object Object],[object Object],[object Object]

RDBMS used for OLTP ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Operational Systems ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Examples of Operational Data Data Industry Usage Technology Volumes Customer File All Track Customer Details Legacy application, flat files, main frames Small-medium Account Balance Finance Control account activities Legacy applications, hierarchical databases, mainframe Large Point-of- Sale data Retail Generate bills, manage stock ERP, Client/Server, relational databases Very Large Call Record Telecomm- unications Billing Legacy application, hierarchical database, mainframe Very Large Production Record Manufact- uring Control Production ERP, relational databases, AS/400 Medium

Application-Orientation vs. Subject-Orientation Application-Orientation Operational Database Loans Credit Card Trust Savings Subject-Orientation Data Warehouse Customer Vendor Product Activity

OLTP vs. Data Warehouse ,[object Object],[object Object],[object Object]

OLTP vs Data Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OLTP vs Data Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OLTP vs Data Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

To summarize ... ,[object Object],[object Object]

Why Now? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Myths surrounding OLAP Servers and Data Marts ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Wal*Mart Case Study ,[object Object],[object Object],[object Object],[object Object],[object Object]

Old Retail Paradigm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

New (Just-In-Time) Retail Paradigm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Wal*Mart System ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Course Overview ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

I. Data Warehouses: Architecture, Design & Construction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Components of the Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object]

Loading the Warehouse Cleaning the data before it is loaded

Source Data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Sequential Legacy Relational External Operational/ Source Data

Data Quality - The Reality ,[object Object],[object Object],[object Object]

Data Quality - The Reality ,[object Object],[object Object],[object Object],[object Object],[object Object]

Data Integration Across Sources Trust Credit card Savings Loans Same data different name Different data Same name Data found here nowhere else Different keys same data

Data Transformation Example encoding unit field appl A - balance appl B - bal appl C - currbal appl D - balcurr appl A - pipeline - cm appl B - pipeline - in appl C - pipeline - feet appl D - pipeline - yds appl A - m,f appl B - 1,0 appl C - x,y appl D - male, female Data Warehouse

Data Integrity Problems ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Transformation Terms ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Transformation Terms ,[object Object],[object Object],[object Object],[object Object],[object Object]

Data Transformation Terms ,[object Object],[object Object],[object Object],[object Object]

Loads ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Load Techniques ,[object Object],[object Object],[object Object],[object Object]

Load Taxonomy ,[object Object],[object Object]

Refresh ,[object Object],[object Object],[object Object],[object Object]

When to Refresh? ,[object Object],[object Object],[object Object],[object Object]

Refresh Techniques ,[object Object],[object Object],[object Object]

How To Detect Changes ,[object Object],[object Object],[object Object],[object Object]

Data Extraction and Cleansing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Scrubbing Data ,[object Object],[object Object],[object Object],[object Object],[object Object]

Scrubbing Tools ,[object Object],[object Object],[object Object]

Data -- Heart of the Data Warehouse ,[object Object],[object Object],[object Object],[object Object]

Data Warehouse Structure ,[object Object]

Data Warehouse Structure ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Time is part of key of each table

Data Granularity in Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Granularity in Warehouse ,[object Object],[object Object],[object Object]

Granularity in Warehouse ,[object Object],[object Object],[object Object],[object Object],[object Object]

Vertical Partitioning Frequently accessed Rarely accessed Smaller table and so less I/O Acct. No Name Balance Date Opened Interest Rate Address Acct. No Balance Acct. No Name Date Opened Interest Rate Address

Derived Data ,[object Object],[object Object],[object Object]

Schema Design ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Dimension Tables ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Fact Table ,[object Object],[object Object],[object Object],[object Object],[object Object]

Star Schema ,[object Object],[object Object],T i m e p r o d c u s t c i t y f a c t date, custno, prodno, cityname, ...

Snowflake schema ,[object Object],[object Object],T i m e p r o d c u s t c i t y f a c t date, custno, prodno, cityname, ... r e g i o n

Fact Constellation ,[object Object],[object Object],[object Object],Hotels Travel Agents Promotion Room Type Customer Booking Checkout

De-normalization ,[object Object],[object Object],[object Object]

Creating Arrays ,[object Object],[object Object],[object Object],[object Object],[object Object]

Selective Redundancy ,[object Object],[object Object]

Partitioning ,[object Object],[object Object],[object Object]

Why Partition? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Criterion for Partitioning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Where to Partition? ,[object Object],[object Object],[object Object],[object Object],[object Object]

Data Warehouse vs. Data Marts What comes first

From the Data Warehouse to Data Marts Departmentally Structured Individually Structured Data Warehouse Organizationally Structured Less More History Normalized Detailed Data Information

Data Warehouse and Data Marts OLAP Data Mart Lightly summarized Departmentally structured Organizationally structured Atomic Detailed Data Warehouse Data

Characteristics of the Departmental Data Mart ,[object Object],[object Object],[object Object],[object Object],[object Object]

Techniques for Creating Departmental Data Mart ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Sales Mktg. Finance

Data Mart Centric Data Marts Data Sources Data Warehouse

Problems with Data Mart Centric Solution If you end up creating multiple warehouses, integrating them is a problem

True Warehouse Data Marts Data Sources Data Warehouse

Query Processing ,[object Object],[object Object],[object Object]

Indexing Techniques ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Indexing Techniques ,[object Object],[object Object],[object Object],[object Object]

BitMap Indexes ,[object Object],[object Object],[object Object],[object Object],[object Object]

Bitmap Index Customer Query : select * from customer where gender = ‘F’ and vote = ‘Y’ gender (f) vote (y) result vote gender 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 M F F F F M Y Y Y N N N

Bit Map Index Base Table Rating Index Region Index Customers where Region = W Rating = M And

Join Indexes ,[object Object],[object Object],[object Object],[object Object]

Join Indexes ,[object Object],[object Object]

Star Join Processing ,[object Object],Calls C+T C+T+L C+T+L +P Time Loca- tion Plan

Optimized Star Join Processing Virtual Cross Product of T, L and P Apply Selections Time Loca- tion Plan Calls

Bitmapped Join Processing AND Time Loca- tion Plan Calls Calls Calls Bitmaps 1 0 1 0 0 1 1 1 0

Intelligent Scan ,[object Object],[object Object]

Parallel Query Processing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Parallel Query Processing ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Pre-computed Aggregates ,[object Object],[object Object],[object Object],[object Object],[object Object]

SQL Extensions ,[object Object],[object Object],[object Object],[object Object],[object Object]

Red Brick has Extended set of Aggregates ,[object Object]

RISQL (Red Brick Systems) Extensions ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Using SubQueries in Calculations select product, dollars as jun97_sales, (select sum(s1.dollars) from market mi, product pi, period, ti, sales si where pi.product = product.product and ti.year = period.year and mi.city = market.city) as total97_sales, 100 * dollars/ (select sum(s1.dollars) from market mi, product pi, period, ti, sales si where pi.product = product.product and ti.year = period.year and mi.city = market.city) as percent_of_yr from market, product, period, sales where year = 1997 and month = ‘June’ and city like ‘Ahmed%’ order by product;

II. On-Line Analytical Processing (OLAP) Making Decision Support Possible

Limitations of SQL ,[object Object],[object Object]

Typical OLAP Queries ,[object Object],[object Object],[object Object],[object Object]

What Is OLAP? ,[object Object],[object Object],[object Object],[object Object],[object Object],* Reference: http://www.arborsoft.com/essbase/wht_ppr/coddTOC.html

The OLAP Market ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Strengths of OLAP ,[object Object],[object Object],[object Object],[object Object],[object Object]

OLAP Is FASMI ,[object Object],[object Object],[object Object],[object Object],[object Object],Nigel Pendse, Richard Creath - The OLAP Report

Multi-dimensional Data ,[object Object],Dimensions: Product, Region, Time Hierarchical summarization paths Product Region Time Industry Country Year Category Region Quarter Product City Month Week Office Day Month 1 2 3 4 7 6 5 Product Toothpaste Juice Cola Milk Cream Soap Region W S N

Data Cube Lattice ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Visualizing Neighbors is simpler

A Visual Operation: Pivot (Rotate) 10 47 30 12 Juice Cola Milk Cream NY LA SF 3/1 3/2 3/3 3/4 Date Month Region Product

“ Slicing and Dicing” Product Sales Channel Regions Retail Direct Special Household Telecomm Video Audio India Far East Europe The Telecomm Slice

Roll-up and Drill Down ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Roll Up Higher Level of Aggregation Low-level Details Drill-Down

Nature of OLAP Analysis ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Organizationally Structured Data ,[object Object],marketing manufacturing sales finance

Multidimensional Spreadsheets ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OLAP - Data Cube ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

SQL Extensions ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Relational OLAP: 3 Tier DSS Store atomic data in industry standard RDBMS. Generate SQL execution plans in the ROLAP engine to obtain OLAP functionality. Obtain multi-dimensional reports from the DSS Client. Data Warehouse ROLAP Engine Decision Support Client Database Layer Application Logic Layer Presentation Layer

MD-OLAP: 2 Tier DSS MDDB Engine MDDB Engine Decision Support Client Database Layer Application Logic Layer Presentation Layer Store atomic data in a proprietary data structure (MDDB), pre-calculate as many outcomes as possible, obtain OLAP functionality via proprietary algorithms running against this data. Obtain multi-dimensional reports from the DSS Client.

Typical OLAP Problems Data Explosion Data Explosion Syndrome Number of Dimensions Number of Aggregations (4 levels in each dimension) Microsoft TechEd’98

Metadata Repository ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Metdata Repository .. 2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Recipe for a Successful Warehouse

For a Successful Warehouse ,[object Object],[object Object],[object Object],[object Object],From Larry Greenfield, http://pwp.starnetinc.com/larryg/index.html

For a Successful Warehouse ,[object Object],[object Object],[object Object],[object Object]

Data Warehouse Pitfalls ,[object Object],[object Object],[object Object],[object Object],[object Object]

DW and OLAP Research Issues ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

DW and OLAP Research Issues .. 2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Products, References, Useful Links

Reporting Tools ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

OLAP and Executive Information Systems ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Other Warehouse Related Products ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Extraction and Transformation Tools ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Warehouse Products ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Warehouse Server Products ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Warehouse Server Products ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Other Warehouse Related Products ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

4GL's, GUI Builders, and PC Databases ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining Products ,[object Object],[object Object],[object Object]

Data Warehouse ,[object Object],[object Object],[object Object]

Data Warehouse ,[object Object],[object Object]

OLAP and DSS ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Mining ,[object Object],[object Object],[object Object]

Other Tutorials ,[object Object],[object Object],[object Object]

Useful URLs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Gulabs Ppt On Data Warehousing And Mining

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Gulabs Ppt On Data Warehousing And Mining

Similar to Gulabs Ppt On Data Warehousing And Mining (20)

More from gulab sharma

More from gulab sharma (20)

Recently uploaded

Recently uploaded (20)

Gulabs Ppt On Data Warehousing And Mining