An emerging step : Data Warehousing to Pattern Warehousing

MADHAV INSTITUTE OF TECHNOLOGY & SCIENCE,
GWALIOR(M.P.)
DEPARTMENT OF CSE/IT
A SYNOPSIS REPORT ON
MODEL FOR OPTIMAL PATTERN EXTRACTION FROM DIABETES METILLUS PATTERN WAREHOUSE (DMPW)
PATTERN WAREHOUSE USING PSO
BY :
HARSHITA S. JAIN

CONTENTS :
1. INTRODUCTION
2. RECENT APPROACH (FLOWCHART, RESULT ANALYSIS)
3. GAPS IN THE CURRRENT KNOW
4. PROPOSED METHODOLOGY(NEW APPROACH, ANALYSIS)
5. PARTICLE SWARM OPTIMIZATION
6. FUTURE EXPLORATION
7. REFERENCES

INTRODUCTION (ARRIVAL OF DATA MINING)
• IN 1990S, THE TERM “DATA MINING” APPEARED IN THE DATABASE COMMUNITY.
• RETAIL COMPANIES AND THE FINANCIAL COMMUNITY ARE USING DATA MINING
TO ANALYZE DATA AND RECOGNIZE TRENDS TO INCREASE THEIR CUSTOMER
BASE, PREDICT FLUCTUATIONS IN INTEREST RATES, STOCK PRICES,
CUSTOMER DEMAND ETC.
• EVENTUALLY THE APPLICATION DOMAIN OF DATA MINING IS EXPANDING.
• DATA MINING IS THE PROCESS OF EXTRACTING INFORMATION FROM LARGE
AMOUNT OF DATA WHICH ARE STORED IN HUGE REPOSITORIES.

INTRODUCTION
•TODAY’S WORLD PRODUCES AN ENORMOUS AMOUNT OF DATA IN A REGULAR BASIS
FROM VARIOUS SOURCES. DATA IN SUCH HUGE VOLUMES DO NOT CONSTITUTE
KNOWLEDGE I.E., THEY CANNOT BE DIRECTLY EXPLOITED BY HUMAN BEINGS AND
NO USEFUL INFORMATION CAN BE DEDUCED SIMPLY BY THEIR OBSERVATION. THUS,
MORE ELABORATE TECHNIQUES ARE REQUIRED IN ORDER TO EXTRACT THE HIDDEN
KNOWLEDGE AND MAKE THESE DATA VALUABLE TO THE END-USERS [4].
•DATA MINING WAS DEVELOPED TO HELP EXTRACT KNOWLEDGE FROM THE RAW
DATA, USING ALGORITHMS THAT COULD DISCOVER SEVERAL STATISTIC PROPERTIES
IN THE ORIGINAL DATA. DATA MINING PRODUCES RESULTS LIKE ASSOCIATION RULES,
CLUSTERS, DECISION TREES AND OTHER STRUCTURES THAT DESCRIBE
PROPERTIES OF THE RAW DATA.
•THE COMMON CHARACTERISTIC OF ALL THESE TECHNIQUES IS THAT BIG PORTIONS
OF THE AVAILABLE DATA ARE ABSTRACTED AND REPRESENTED BY A SMALL NUMBER
OF KNOWLEDGE CARRYING REPRESENTATIVES, WHICH WE CALL PATTERNS (TIWARI
& THAKUR, 2012). PATTERNS REPRESENT THE HUGE QUANTITY OF HETEROGENEOUS
DATA IN COMPACT AND RICH SEMANTICS WAY

DATA WAREHOUSE
• DATA WAREHOUSES ARE USED TO CONSOLIDATE DATA LOCATED IN
DISPARATE DATABASES. A DATA WAREHOUSE STORES LARGE QUANTITIES OF
DATA BY SPECIFIC CATEGORIES SO IT CAN BE MORE EASILY RETRIEVED,
INTERPRETED, AND SORTED BY USERS.
• WAREHOUSES ENABLE EXECUTIVES AND MANAGERS TO WORK WITH VAST
STORES OF TRANSACTIONAL OR OTHER DATA TO RESPOND FASTER TO
MARKETS AND MAKE MORE INFORMED BUSINESS DECISIONS. IT HAS BEEN
PREDICTED THAT EVERY BUSINESS WILL HAVE A DATA WAREHOUSE WITHIN
TEN YEARS. BUT MERELY STORING DATA IN A DATA WAREHOUSE DOES A
COMPANY LITTLE GOOD.
• COMPANIES WILL WANT TO LEARN MORE ABOUT THAT DATA TO IMPROVE
KNOWLEDGE OF CUSTOMERS AND MARKETS. THE COMPANY BENEFITS WHEN
MEANINGFUL TRENDS AND PATTERNS ARE EXTRACTED FROM THE DATA.

ISSUES RELATED TO DATA WAREHOUSE
• THE SIZE OF SINGLE DATA WAREHOUSE WAS QUITE LARGE . SO IT BECOMES
TEDIOUS TASK TO HANDLE THE MANAGEMENT OF DATA WAREHOUSE.
• FOR ANALYSIS PURPOSE BUSINESS ANALYST DEMANDS THE CONSOLIDATED
INFORMATION.
• EXPONENTIAL INCREASE IN DATA DAY BY DAY AND THE STORING COST DOES
NOT HOLD DATA WAREHOUSE AS THE BEST SOLUTION FOR THE PROBLEM .
• DESIRED PATTERNS ARE IN VOLATILE FORM IN DATA WAREHOUSE, SO EVEN
FOR SMALL ANALYSIS THE WHOLE PROCESS OF DATA MINING HAS TO BE
PERFORMED FOR OBTAINING CERTAIN RESULTS.

ADVENT OF PATTERN WAREHOUSE
• AS THE SIZE OF THE DATA WAREHOUSE IS GROWING DUE TO MASSIVE
INCREASE OF DATA, BUSINESS ANALYST ARE NOW NOT IN THE NEED OF HUGE
ANALYTICAL DATA BUT THEY ARE INTERESTED IN GETTING ONLY THE
RELEVANT PATTERNS HIDDEN WITHIN REPOSITORIES.
• AND SO THE CONCEPT OF PATTERN WAREHOUSE WAS INTRODUCED[1].
FIG : PROCESS OF KNOWLEDGE DISCOVERY FROM DATABASES

PATTERN WAREHOUSE & PATTERN MINING
• PATTERN WAREHOUSE IS A KIND OF REPOSITORY WHICH STORES THE
RELEVANT PATTERNS WHICH ARE THE REPRESENTATIVE OF THE
RELATIONSHIP THAT EXIST BETWEEN THE DATA ELEMENTS.
• PATTERN MINING IS PERFORMED UPON THE PATTERNS STORED IN PATTERN
WAREHOUSE FOR GENERATING ANALYTICAL OUTCOMES. THROUGH PATTERN
MINING THE ANALYST HAS TO DEAL WITH SMALL AMOUNT OF INFORMATION[7]

RECENT APPROACH
• THE RECENT APPROACH CONSIST OF AN EVOLUTIONARY ALGORITHM
(GENETIC ALGORITHM) WHICH WORKS UPON THE OPTIMIZATION ENGINE AND
GENERATES OPTIMAL PATTERNS FROM PATTERN WAREHOUSE[7].
• THE WORKFLOW TO OBTAIN OPTIMAL PATTERNS IS :
PATTERN WAREHOUSE  OPTIMIZATION ENGINE REPOSITORY FOR OPTIMAL
PATTERNS

FLOWCHART OF THE RECENT EXISTING
APPROACH [7]

TAKING A STEP AHEAD OF EXISTING
APPROACH
LIMITATIONS IN USING GENETIC ALGORITHM :
• NO GUARENTEE TO GIVE GLOBAL OPTIMUM REGARDING FALSE FREQUENT
PATTERNS
• CANNOT ASSURE THAT THIS WILL GIVE CONSTANT OPTIMIZATION RESPONSE
TIME.
• CANNOT USE IN DYNAMIC PROBLEM.
• DOMAIN OF APPLICABILITY IS LIMITED.

PROPOSED METHODOLOGY
• PROPOSED AN ALGORITHM WHICH WORKS UPON THE OPTIMIZATION ENGINE
FOR GENERATING OPTIMAL PATTERNS FROM PATTERN WAREHOUSE. THE
PROPOSED ALGORITHM USES PARTICLE SWARM OPTIMIZATION..
• THE STEPS OF ALGORITHM STEP BY STEP AND THEN FINALLY DRAW A
FLOWCHART AND PROVIDES THE EXECUTION OF WHOLE PROCESS.

PARTICLE SWARM OPTIMIZATION
• PARTICLE SWARM OPTIMIZATION (PSO) IS A POPULATION BASED STOCHASTIC
OPTIMIZATION TECHNIQUE DEVELOPED BY DR. EBERHART AND DR. KENNEDY
IN 1995, INSPIRED BY SOCIAL BEHAVIOR OF BIRD FLOCKING OR FISH
SCHOOLING.
• THE SYSTEM IS INITIALIZED WITH A POPULATION OF RANDOM SOLUTIONS AND
SEARCHES FOR OPTIMA BY UPDATING GENERATIONS.
• IT USES A NUMBER OF AGENTS (PARTICLES) THAT CONSTITUTE A SWARM
MOVING AROUND IN THE SEARCH SPACE LOOKING FOR THE BEST SOLUTION.
• EACH PARTICLE IS TREATED AS A POINT IN A N-DIMENSIONAL SPACE WHICH
ADJUSTS ITS “FLYING” ACCORDING TO ITS OWN FLYING EXPERIENCE AS WELL
AS THE FLYING EXPERIENCE OF OTHER PARTICLES.

FLOW CHART DEPICTING THE PROPOSED PSO
ALGORITHM :

THEORETICAL ANALYSIS /EXPECTED
OUTCOME
BASIS OF CHOICE : WHILE GOING THROUGH VARIOUS RESEARCH PAPERS ON
COMPARISON BETWEEN DIFFERENT NATURE INSPIRED ALGORITHMS, PSO WAS
FOUNDED TO BE MORE EFFECTIVE AND VERSATILE.
COMPARISION BETWEEN GENETIC AND PARTICLE SWARM OPTIMIZATION :
• GA WAS DESIGNED BASICALLY FOR DISCRETE OPTIMIZATION WHERE BIT O
AND 1 ARE USED TO ENCODE DISCRETE DESIGN VARIABLES WHEREAS PSO WAS
DESIGNED FOR CONTINUOUS PROBLEMS AND CAN CHOOSE ANY VALUE TO
ENCODE DESIGN VARIABLES.
• UNLIKE GA, PSO IS DESIGNED TO SOLVE CONTINUOUS PROBLEM BUT IT WAS
MODIFIED LATER FOR DISCRETE OR BINARY OPTIMIZATION PROBLEMS AS WELL.
•GA SOLVES PROBLEMS WHERE HERE IS NO PREDETERMINED SHAPE, SIZE &
COMPLEXITY WHEREAS IN PSO THE SOURCE AND DESTINATION ARE NEED TO
DEFINE UNIQUELY AND CLEARLY.

FUTURE EXPLORATION MOTIVES
• TO TAKE ON THE ARCHITECTURAL ASPECTS OF THE PATTERN WAREHOUSE
AND TRY TO MAKE PATTERN RETRIEVAL MORE EFFICIENT AND SCALABLE.

REFERENCES
1. AGARWAL, V. AND TIWARI, A., “FROM DATA WAREHOUSE TO PATTERN WAREHOUSE: A
PROGRESSIVE STEP”, INTERNATIONAL JOURNAL OF ENGINEERING RESEARCH”, 2016, VOL. 5,
NO.4, PP: 249-252.
2. J. HAN AND M. KAMBER, “DATA MINING: CONCEPTS AND TECHNIQUES”, SECOND EDITION,
MORGAN KAUFMANN PUBLISHERS, SAN FRANCISCO, ELSEVIER, 2006.
3. A. TIWARI, R. K. GUPTA AND D. P. AGRAWAL, “A SURVEY ON FREQUENT PATTERN MINING:
CURRENT STATUS AND CHALLENGING ISSUES”,INFORMATION TECHNOLOGY JOURNAL, 9(7):1278-
1293, 2010.
4. TERROVITIS, M., & VASSILIADIS, P. (2003). ARCHITECTURE FOR PATTERN BASE MANAGEMENT
SYSTEMS. DEPARTMENT OF ELECTRICAL AND COMPUTER ENGINEERING. NATIONAL TECHNICAL
UNIVERSITY OF ATHENS.
5. TIWARI, V., & THAKUR, R. S. (2014). P2MS: A PHASE-WISE PATTERN MANAGEMENT SYSTEM FOR
PATTERN WAREHOUSE. INTERNATIONAL JOURNAL OF DATA MINING, MODELING AND
MANAGEMENT.
6. DUNHAM, M. H. 2006 DATA MINING: INTRODUCTORY AND ADVANCED TOPICS. PEARSON
EDUCATION.

An emerging step : Data Warehousing to Pattern Warehousing

An emerging step : Data Warehousing to Pattern Warehousing

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to An emerging step : Data Warehousing to Pattern Warehousing

Similar to An emerging step : Data Warehousing to Pattern Warehousing (20)

Recently uploaded

Recently uploaded (20)

An emerging step : Data Warehousing to Pattern Warehousing