SlideShare a Scribd company logo
1 of 26
214554
Data Warehousing & Data Mining
วันฉัตร ดำด้วง
Data Mining with
SQL Server Integration Services
1
Members
2
 Dalad Limsaihua ID. 51653095
 Panita Yongyuth ID.51653269
 Supamit Boonta ID.51653517
Abbreviation
 SQL Server Integration Services - SSIS
3
Objective
 By the end of the presentation you will understand:
 The basic concept of SSIS including the control flow and
data flow.
 Performing data mining – related transformations and
tasks in SSIS
 The text mining solution based on Term Extraction and
Term Look Up transformations
4
Agenda
 Overview of SSIS.
 Working with SSIS in Data Mining
 Text Mining Transformations
5
Ms. Dalad Limsaihua
6
Overview Of SSIS
Overview of SSIS
 SSIS belong to the extraction, transformation, and
loading (ETL).
7
Data Integration Architecture
Before Integration Service
8
Data Integration Architecture
With Integration Service
9
SSIS Architecture
10
SSIS Components
11
 Package เป็นไฟล์ที่เกิดจาก SSIS โดยนามสกุลเป็น *.dtsx (ส่วน DTS ที่ใช้
*.dts) โดยในแต่ละ Package ทางานได้หลายอย่าง เช่น Load data, Send
email เป็นต้น
 Control flow คือการทางานหลักที่เป็นการทางานในลักษณะ Flow คือเมื่อทางาน
หนึ่งก็จะทาต่ออีกงานหนึ่ง คล้ายๆ Flow chart ซึ่งในแต่ละ Control flow ก็จะมี
Task คือการทางานย่อยๆ เช่นการ Copy data หรือ การตรวจสอบข้อมูล ถือว่า
เป็นงานย่อยที่อยู่ใน Control flow
 Data flow ต่างจาก Control flow ตรงที่จะทางานเกี่ยวกับ data ซะเป็นส่วนใหญ่
หลักๆ ก็จะเกี่ยวกับการ Transform data การทา aggregation ต่างๆ
Benefits of SSIS
12
 จัดการกับข้อมูล เพื่อโอนย้ายจากอีก source ไปยัง destination หรือ target ที่ได้
กาหนดไว้ ตัวอย่างเช่น มีการโหลดข้อมูลจาก Oracle เข้าไปเก็บไว้ที่ SQL
Server เพื่อใช้ Reporting service ออก report ผ่านเครือข่าย
 จัดการกับข้อมูลจาพวก “ขยะ” คือข้อมูลที่ไม่จาเป็นต่างๆ เช่นรายละเอียดการขาย
สินค้าเมื่อ 10 ปีที่แล้ว เพื่อลดความซ้าซ้อนของข้อมูล ช่วยให้เพิ่ม ประสิทธิภาพ
ในการทางานมากขึ้น
 การจัดการ File หรือ Folder ไม่เพียงแค่กับข้อมูลที่ใน DB เท่านั้น สามารถใช้
SSIS ช่วยในการจัดการ File ไม่ว่าจะเป็นการ ลบ temp file หรืออื่นๆ
SSIS Tasks # 1
13
Task Description
Bulk Insert Load large amounts of data from a text in to SQL
Server table
Data Flow Supports the copying a transformation of data
between heterogeneous data source.
Execute Package Run Sub-package.
Execute Process Run a program or a batch file as part of a package.
Execute SQL Run SQL statements during package execution and
optionally saves the results of those query.
File System Task Performs file system operations.
File Transfer Protocol Downloads data file from a remote server or an
internet location as part of a package workflow.
SSIS Tasks # 2
14
Task Description
Message Queue Use massage queuing to send and receive message
between SSIS packages.
Script Use a script to perform functions that are not
available in prebuilt SSIS tasks. The script tasks
enables you to write script in Visual Basic .NET and
C# using Microsoft VSTA environment.
Send Mail Sends an e-mail message.
XML Merges, Filters and transforms data in XML
documents.
Data Profiling Analyzes (and maintains) the data quality. Provide
column value distributions and statistics.
SSIS Transformations #1
15
Transformation Description
Aggregate Performs aggregations (Such as average, sum)
Character Map Applies string functions to character data.
Condition Split Routes data rows to different outputs based on
specified criteria.
Copy Column Adds copies of input columns to the transformation
output.
Data Conversation Converts the data type of a column to a different
data type.
Derived Column Generate news column that derive from existing
columns using expressions.
Dimension Processing
Destination
Process Analysis Service Dimensions.
SSIS Transformations #2
16
Transformation Description
Fuzzy Grouping Perform data-cleansing tasks by indentifying rows
of data that are likely to be duplicates and by
choosing a canonical row of data to use in
standardizing the data.
Fuzzy Lookup Looks up values in a reference table using fuzzy
match.
Lookup Looks up values in a reference table using exact
match.
Merge Merges two sorts data sets.
Merge Join Joins two sorted data sets using a FULL, LEFT or
INNER join.
SSIS Transformations #3
17
Transformation Description
Multicast Distributes data sets to multiple outputs.
Partition Processing
Destination
Process Analysis Services partitions.
Pivot Creates a less normalized version of a normalized
table.
Sort Sorts pipeline data.
Union All Creates a union of multiple data sets.
UnPivot Create a more normalized version of non-
normalized tables.
Mr. Supamit Boonta
18
Working with SSIS in Data Mining
Data Mining in SSIS Environment
19
 SSIS provides a flow environment for data
extraction, loading, and transformation.
 Can use to load data from various sources, join
them together, normalize column values, remove
dirty records, replace missing values, split data
into training and testing datasets, and so on.
Tasks and Transforms for Data Mining
20
Data Mining Query Task1
Analysis Services Execute DDL Task3
Data Mining Query Transformation
Data Mining Model Training Transformation
Analysis Services Processing Task
Term Extraction Transformation
Term Lookup Transformation
Clustering
Decision Tree
21
Demo
Ms. Panita Yongyuth
22
Text Mining Transformations
Text Mining Transformations
 This section will focus on
 Term Extraction Transformation
 Term Look Up Transformation
23
Model types to perform data mining
 Classification Model
 Use the key words and phases nested table as input to
predict the class of a document.
 Clustering Model
 Find similar documents based on common occurrences.
 Association Model
 Detect cross-correlations between keys word and
phases.
24
Process of text mining
 Term Extraction Transformation
 Build the dictionary of keys words and phases over a
collection of representative documents.
 Term Look Up Transformation
 Based on the dictionary, extract the list of significant key
word and phases for each document to be analyzed.
 Training mining
 Training mining models on top the transformed data.
25
Thank for your attention
: D
26
Demo Time
Text Mining

More Related Content

Similar to Ssis

61 sql server 2008 complete
61 sql server 2008 complete61 sql server 2008 complete
61 sql server 2008 completeTae Delphi
 
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...Sarawut Panchon
 
การเพ มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sql
การเพ  มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sqlการเพ  มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sql
การเพ มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sqlBongza Naruk
 
สรุปกลุ่มที่ 1,2,3,5,6
สรุปกลุ่มที่ 1,2,3,5,6สรุปกลุ่มที่ 1,2,3,5,6
สรุปกลุ่มที่ 1,2,3,5,6Khanut Anusatsanakul
 
Chapter 2 data
Chapter 2 dataChapter 2 data
Chapter 2 dataphakhwan22
 

Similar to Ssis (7)

61 sql server 2008 complete
61 sql server 2008 complete61 sql server 2008 complete
61 sql server 2008 complete
 
lesson4 JSP
lesson4 JSPlesson4 JSP
lesson4 JSP
 
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...
บทที่ 2 (21 02-56) okรันเลขแล้ว(แก้เหมายเลขหน้าด้วย ตั้งแต่หน้า 9 เป็นต้นไป )...
 
การเพ มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sql
การเพ  มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sqlการเพ  มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sql
การเพ มข_อม_ลลงฐานข_อม_ลด_วยภาษา jsp&sql
 
สรุปกลุ่มที่ 1,2,3,5,6
สรุปกลุ่มที่ 1,2,3,5,6สรุปกลุ่มที่ 1,2,3,5,6
สรุปกลุ่มที่ 1,2,3,5,6
 
Chapter 2 data
Chapter 2 dataChapter 2 data
Chapter 2 data
 
SA Chapter 11
SA Chapter 11SA Chapter 11
SA Chapter 11
 

Ssis

  • 1. 214554 Data Warehousing & Data Mining วันฉัตร ดำด้วง Data Mining with SQL Server Integration Services 1
  • 2. Members 2  Dalad Limsaihua ID. 51653095  Panita Yongyuth ID.51653269  Supamit Boonta ID.51653517
  • 3. Abbreviation  SQL Server Integration Services - SSIS 3
  • 4. Objective  By the end of the presentation you will understand:  The basic concept of SSIS including the control flow and data flow.  Performing data mining – related transformations and tasks in SSIS  The text mining solution based on Term Extraction and Term Look Up transformations 4
  • 5. Agenda  Overview of SSIS.  Working with SSIS in Data Mining  Text Mining Transformations 5
  • 7. Overview of SSIS  SSIS belong to the extraction, transformation, and loading (ETL). 7
  • 8. Data Integration Architecture Before Integration Service 8
  • 9. Data Integration Architecture With Integration Service 9
  • 11. SSIS Components 11  Package เป็นไฟล์ที่เกิดจาก SSIS โดยนามสกุลเป็น *.dtsx (ส่วน DTS ที่ใช้ *.dts) โดยในแต่ละ Package ทางานได้หลายอย่าง เช่น Load data, Send email เป็นต้น  Control flow คือการทางานหลักที่เป็นการทางานในลักษณะ Flow คือเมื่อทางาน หนึ่งก็จะทาต่ออีกงานหนึ่ง คล้ายๆ Flow chart ซึ่งในแต่ละ Control flow ก็จะมี Task คือการทางานย่อยๆ เช่นการ Copy data หรือ การตรวจสอบข้อมูล ถือว่า เป็นงานย่อยที่อยู่ใน Control flow  Data flow ต่างจาก Control flow ตรงที่จะทางานเกี่ยวกับ data ซะเป็นส่วนใหญ่ หลักๆ ก็จะเกี่ยวกับการ Transform data การทา aggregation ต่างๆ
  • 12. Benefits of SSIS 12  จัดการกับข้อมูล เพื่อโอนย้ายจากอีก source ไปยัง destination หรือ target ที่ได้ กาหนดไว้ ตัวอย่างเช่น มีการโหลดข้อมูลจาก Oracle เข้าไปเก็บไว้ที่ SQL Server เพื่อใช้ Reporting service ออก report ผ่านเครือข่าย  จัดการกับข้อมูลจาพวก “ขยะ” คือข้อมูลที่ไม่จาเป็นต่างๆ เช่นรายละเอียดการขาย สินค้าเมื่อ 10 ปีที่แล้ว เพื่อลดความซ้าซ้อนของข้อมูล ช่วยให้เพิ่ม ประสิทธิภาพ ในการทางานมากขึ้น  การจัดการ File หรือ Folder ไม่เพียงแค่กับข้อมูลที่ใน DB เท่านั้น สามารถใช้ SSIS ช่วยในการจัดการ File ไม่ว่าจะเป็นการ ลบ temp file หรืออื่นๆ
  • 13. SSIS Tasks # 1 13 Task Description Bulk Insert Load large amounts of data from a text in to SQL Server table Data Flow Supports the copying a transformation of data between heterogeneous data source. Execute Package Run Sub-package. Execute Process Run a program or a batch file as part of a package. Execute SQL Run SQL statements during package execution and optionally saves the results of those query. File System Task Performs file system operations. File Transfer Protocol Downloads data file from a remote server or an internet location as part of a package workflow.
  • 14. SSIS Tasks # 2 14 Task Description Message Queue Use massage queuing to send and receive message between SSIS packages. Script Use a script to perform functions that are not available in prebuilt SSIS tasks. The script tasks enables you to write script in Visual Basic .NET and C# using Microsoft VSTA environment. Send Mail Sends an e-mail message. XML Merges, Filters and transforms data in XML documents. Data Profiling Analyzes (and maintains) the data quality. Provide column value distributions and statistics.
  • 15. SSIS Transformations #1 15 Transformation Description Aggregate Performs aggregations (Such as average, sum) Character Map Applies string functions to character data. Condition Split Routes data rows to different outputs based on specified criteria. Copy Column Adds copies of input columns to the transformation output. Data Conversation Converts the data type of a column to a different data type. Derived Column Generate news column that derive from existing columns using expressions. Dimension Processing Destination Process Analysis Service Dimensions.
  • 16. SSIS Transformations #2 16 Transformation Description Fuzzy Grouping Perform data-cleansing tasks by indentifying rows of data that are likely to be duplicates and by choosing a canonical row of data to use in standardizing the data. Fuzzy Lookup Looks up values in a reference table using fuzzy match. Lookup Looks up values in a reference table using exact match. Merge Merges two sorts data sets. Merge Join Joins two sorted data sets using a FULL, LEFT or INNER join.
  • 17. SSIS Transformations #3 17 Transformation Description Multicast Distributes data sets to multiple outputs. Partition Processing Destination Process Analysis Services partitions. Pivot Creates a less normalized version of a normalized table. Sort Sorts pipeline data. Union All Creates a union of multiple data sets. UnPivot Create a more normalized version of non- normalized tables.
  • 18. Mr. Supamit Boonta 18 Working with SSIS in Data Mining
  • 19. Data Mining in SSIS Environment 19  SSIS provides a flow environment for data extraction, loading, and transformation.  Can use to load data from various sources, join them together, normalize column values, remove dirty records, replace missing values, split data into training and testing datasets, and so on.
  • 20. Tasks and Transforms for Data Mining 20 Data Mining Query Task1 Analysis Services Execute DDL Task3 Data Mining Query Transformation Data Mining Model Training Transformation Analysis Services Processing Task Term Extraction Transformation Term Lookup Transformation
  • 22. Ms. Panita Yongyuth 22 Text Mining Transformations
  • 23. Text Mining Transformations  This section will focus on  Term Extraction Transformation  Term Look Up Transformation 23
  • 24. Model types to perform data mining  Classification Model  Use the key words and phases nested table as input to predict the class of a document.  Clustering Model  Find similar documents based on common occurrences.  Association Model  Detect cross-correlations between keys word and phases. 24
  • 25. Process of text mining  Term Extraction Transformation  Build the dictionary of keys words and phases over a collection of representative documents.  Term Look Up Transformation  Based on the dictionary, extract the list of significant key word and phases for each document to be analyzed.  Training mining  Training mining models on top the transformed data. 25
  • 26. Thank for your attention : D 26 Demo Time Text Mining