SlideShare a Scribd company logo
1 of 63
Download to read offline
1
1
ChChươương 1: Tổng quanng 1: Tổng quan
về khai phá dữ liệuvề khai phá dữ liệu
Học kỳ 1 – 2011-2012
KhoaKhoa KhoaKhoa Học & Kỹ Thuật Máy TínhHọc & Kỹ Thuật Máy Tính
TrTrưường Đại Học Bách Khoa Tp. Hồ Chí Minhờng Đại Học Bách Khoa Tp. Hồ Chí Minh
CaoCao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính
GiáoGiáo trìnhtrình đđiệniện tửtử
BiênBiên soạnsoạn bởibởi: TS.: TS. VõVõ ThịThị NgọcNgọc ChâuChâu
((chauvtn@cse.hcmut.edu.vnchauvtn@cse.hcmut.edu.vn))
2
2
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiền xử lý dữ liệu
Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu
Chương 5: Gom cụm dữ liệu
Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu trong khai phá
dữ liệu
Chương 10: Ôn tập
4
4
Chương 1: Tổng quan về khai phá dữ
liệu
1.0. Tình huống
1.1. Quá trình khám phá tri thức
1.2. Các khái niệm
1.3. Ý nghĩa và vai trò của khai phá dữ
liệu
1.4. Ứng dụng của khai phá dữ liệu
1.5. Tóm tắt
5
5
1.0. Tình huống 1
Người đang sử dụng
thẻ ID = 1234 thật
sự là chủ nhân của
thẻ hay là một tên
trộm?
6
6
1.0. Tình huống 2
Tid Refund
Marital
Status
Taxable
Income
Evade
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Ông A (Tid = 100)
có khả năng trốn
thuế???
7
7
1.0. Tình huống 3
Ngày mai cổ
phiếu STB sẽ
tăng???
8
8
1.0. Tình huống 4
Không (97%)…3.02.0472008
………………
Không (45%)…4.55.5822007
Có (90%)…7.59.5242006
Có (80%)…6.07.0902005
Không…3.55.582004
…
14
3
2
1
MãSV
……………
Có…5.55.02004
Không…2.54.02004
Có…8.06.52004
Có…8.59.02004
TốtNghiệp…MônHọc2MônHọc1Khóa
Làm sao xác định được
khả năng tốt nghiệp của
một sinh viên hiện tại?
9
9
1.0. Tình huống …
We are data rich, but information poor.
“Necessity is the mother of invention”. - Plato
10
10
1.1. Quá trình khám phá tri thức
Data
Cleaning
Data Integration
Data Sources
Data Warehouse
Task-relevant Data
Selection/Transformation
Data Mining
Pattern Evaluation/
Presentation
Patterns
11
11
1.1. Quá trình khám phá tri thức
“Knowledge discovery in databases is the nontrivial
process of identifying valid, novel, potentially useful,
and ultimately understandable patterns in data.”
Frawley, W. J et al. (1991). Knowledge discovery in
databases: an overview.
“Knowledge discovery from databases is the
process of using the database along with any
required selection, preprocessing, sub-sampling, and
transformations of it; to apply data mining methods
(algorithms) to enumerate patterns from it; and to
evaluate the products of data mining to identify the
subset of the enumerated patterns deemed
knowledge.”
Fayyad, U.M et al. (1996). Advances in Knowledge Discovery
and Data Mining. MIT Press.
12
12
1.1. Quá trình khám phá tri thức
Quá trình khám phá tri thức là một chuỗi lặp
gồm các bước:
Data cleaning (làm sạch dữ liệu)
Data integration (tích hợp dữ liệu)
Data selection (chọn lựa dữ liệu)
Data transformation (biến đổi dữ liệu)
Data mining (khai phá dữ liệu)
Pattern evaluation (đánh giá mẫu)
Knowledge presentation (biểu diễn tri thức)
13
13
1.1. Quá trình khám phá tri thức
Quá trình khám phá tri thức là một chuỗi
lặp gồm các bước được thực thi với:
Data sources (các nguồn dữ liệu)
Data warehouse (kho dữ liệu)
Task-relevant data (dữ liệu cụ thể sẽ được khai
phá)
Patterns (mẫu kết quả từ khai phá dữ liệu)
Knowledge (tri thức đạt được)
14
14
1.1. Quá trình khám phá tri thức
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
15
15
1.2. Các khái niệm
1.2.1. Khai phá dữ liệu (data mining)
1.2.2. Các tác vụ khai phá dữ liệu (data
mining tasks/functions)
1.2.3. Các quy trình khai phá dữ liệu (data
mining processes)
1.2.4. Các hệ thống khai phá dữ liệu (data
mining systems)
16
16
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu
một quá trình trích xuất tri thức từ lượng lớn dữ liệu
“extracting or mining knowledge from large amounts of data”
“knowledge mining from data”
một quá trình không dễ trích xuất thông tin ẩn, hữu ích,
chưa được biết trước từ dữ liệu
“the nontrivial extraction of implicit, previously unknown, and
potentially useful information from data”
Các thuật ngữ thường được dùng tương đương:
knowledge discovery/mining in data/databases
(KDD), knowledge extraction, data/pattern
analysis, data archeology, data dredging,
information harvesting, business intelligence
17
17
1.2.1. Khai phá dữ liệu
Lượng lớn dữ liệu sẵn có để khai phá
Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay
bán cấu trúc hay phi cấu trúc
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ
đối tượng (object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ
liệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian
(spatial databases), cơ sở dữ liệu thời gian (temporal
databases), cơ sở dữ liệu không thời gian (spatio-temporal
databases), cơ sở dữ liệu chuỗi thời gian (time series
databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ
liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
18
18
1.2.1. Khai phá dữ liệu
Tri thức đạt được từ quá trình khai phá
Mô tả lớp/khái niệm (đặc trưng hóa và phân biệt
hóa)
Mẫu thường xuyên, các mối quan hệ kết
hợp/tương quan
Mô hình phân loại và dự đoán
Mô hình gom cụm
Các phần tử biên
Xu hướng hay mức độ thường xuyên của các đối
tượng có hành vi thay đổi theo thời gian
…
19
19
1.2.1. Khai phá dữ liệu
Tri thức đạt được từ quá trình khai phá
Tri thức đạt được có thể có tính mô tả hay dự đoán tùy
thuộc vào quá trình khai phá cụ thể.
Mô tả (Descriptive): có khả năng đặc trưng hóa các thuộc tính
chung của dữ liệu được khai phá (Tình huống 1)
Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có
để dự đoán (Tình huống 2, 3, và 4)
Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi
cấu trúc.
Tri thức đạt được có thể được/không được người dùng quan
tâm các độ đo đánh giá tri thức đạt được.
Tri thức đạt được có thể được dùng trong việc hỗ trợ ra
quyết định, điều khiển quy trình, quản lý thông tin, xử lý
truy vấn …
20
20
1.2.1. Khai phá dữ liệu
(trends,
regularities, …)
(characterization
and
discrimination)
21
21
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội
tụ của nhiều học thuyết và công nghệ.
“Data mining as a confluence of multiple disciplines”
Data Mining
Statistics
Machine
Learning
Database
Technology
Visualization
Other
Disciplines
22
22
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và công nghệ cơ sở dữ liệu
Khả năng đóng góp của công nghệ cơ sở dữ liệu
Công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được
khai phá.
Dữ liệu rất lớn, có thể vượt quá khả năng của bộ nhớ
chính (main memory).
Dữ liệu được thu thập theo thời gian.
Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng
lớn dữ liệu với các cơ chế phân trang (paging) và hoán
chuyển (swapping) dữ liệu vào/ra bộ nhớ chính.
Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều
loại dữ liệu phức tạp (spatial, temporal,
spatiotemporal, multimedia, text, Web, …).
Các chức năng khác (xử lý đồng thời, bảo mật, hiệu
năng, tối ưu hóa, …) của các hệ cơ sở dữ liệu đã được
phát triển tốt.
23
23
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và công nghệ cơ sở dữ liệu
Thực trạng đóng góp của công nghệ cơ sở dữ liệu
Các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ
liệu.
Oracle Data Mining (Oracle 9i, 10g, 11g)
Các công cụ khai phá dữ liệu của Microsoft (MS SQL Server
2000, 2005, 2008)
Intelligent Miner (IBM)
Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ
khám phá tri thức.
Chuẩn SQL/MM 6:Data Mining của ISO/IEC 13249-
6:2006 hỗ trợ khai phá dữ liệu.
Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá
dữ liệu từ các cơ sở dữ liệu quan hệ
24
24
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và lý thuyết thống kê
Inductive
Statistics
Statistics
Descriptive
Statistics
Hai tập dữ liệu mẫu
có cùng phân bố?
Dự báo và
suy luậnMô tả dữ liệu
25
25
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và học máy
Supervised
Machine Learning
Unsupervised
Reinforcement“Natural groupings”
26
26
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và trực quan hóa
Dữ liệu: 3D cubes, distribution charts, curves, surfaces, link
graphs, image frames and movies, parallel coordinates
Kết quả (tri thức): pie charts, scatter plots, box plots,
association rules, parallel coordinates, dendograms,
temporal evolution
Pie chart Parallel coordinates Temporal evolution
27
27
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và trực quan hóa
Feature Selection
Mean Feature Image
28
28
1.2.1. Khai phá dữ liệu
Khai phá dữ liệu và trực quan hóa
Gán nhãn các lớp
Isodata (K-means)
Clustering
Mean Feature Image Label Image
29
29
1.2.2. Các tác vụ khai phá dữ liệu
Khai phá mô tả lớp/khái niệm (đặc trưng
hóa và phân biệt hóa dữ liệu)
Khai phá luật kết hợp/tương quan
Phân loại dữ liệu
Dự đoán
Gom cụm dữ liệu
Phân tích xu hướng
Phân tích độ lệch và phần tử biên
Phân tích độ tương tự
…
30
30
1.2.2. Các tác vụ khai phá dữ liệu
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
11 No Married 60K No
12 Yes Divorced 220K No
13 No Single 85K Yes
14 No Married 75K No
15 No Single 90K Yes
10
Classification
Clustering
Association
Rules
Anomaly
Detection
Milk
Data
others
31
31
1.2.2. Các tác vụ khai phá dữ liệu
Năm thành tố cơ bản để đặc tả một tác vụ
khai phá dữ liệu
Dữ liệu cụ thể sẽ được khai phá (task-relevant
data)
Loại tri thức sẽ đạt được (kind of knowledge)
Tri thức nền (background knowledge)
Các độ đo (interestingness measures)
Các kỹ thuật biểu diễn tri thức/trực quan hóa
mẫu (pattern visualization and knowledge
presentation)
32
32
1.2.2. Các tác vụ khai phá dữ liệu
Dữ liệu cụ thể sẽ được khai phá (task-
relevant data)
Phần dữ liệu từ các dữ liệu nguồn được quan
tâm
Tương ứng với các thuộc tính hay chiều dữ liệu
được quan tâm
Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các
bảng dữ liệu hay các khối dữ liệu, các điều kiện
chọn dữ liệu, các thuộc tính hay chiều dữ liệu
được tâm, các tiêu chí gom nhóm dữ liệu
33
33
1.2.2. Các tác vụ khai phá dữ liệu
Loại tri thức sẽ đạt được (kind of
knowledge)
Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa
dữ liệu, mô hình phân tích kết hợp hay tương
quan, mô hình phân lớp, mô hình dự đoán, mô
hình gom cụm, mô hình phân tích phần tử biên,
mô hình phân tích tiến hóa
Tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ
được thực thi
34
34
1.2.2. Các tác vụ khai phá dữ liệu
Tri thức nền (background knowledge)
Tương ứng với lĩnh vực cụ thể sẽ được khai phá
Hướng dẫn quá trình khám phá tri thức
Hỗ trợ khai phá dữ liệu ở nhiều mức trừu tượng khác
nhau
Đánh giá các mẫu được tìm thấy
Bao gồm: các phân cấp ý niệm, niềm tin của
người sử dụng về các mối quan hệ của dữ liệu
35
35
1.2.2. Các tác vụ khai phá dữ liệu
Các độ đo (interestingness measures)
Thường đi kèm với các ngưỡng giá trị (threshold)
Dẫn đường cho quá trình khai phá hoặc đánh giá
các mẫu được tìm thấy
Tương ứng với loại tri thức sẽ đạt được và do đó,
tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ
được thực thi
Kiểm tra: tính đơn giản (simplicity), tính chắc
chắn (certainty), tính hữu dụng (utility), tính mới
(novelty)
36
36
1.2.2. Các tác vụ khai phá dữ liệu
Các kỹ thuật biểu diễn tri thức/trực quan
hóa mẫu (pattern visualization and
knowledge presentation)
Xác định dạng các mẫu/tri thức được tìm thấy
để thể hiện đến người sử dụng
Bao gồm: luật (rules), bảng (tables), báo cáo
(reports), biểu đồ (charts), đồ thị (graphs), cây
(trees), và khối (cubes)
37
37
1.2.2. Các tác vụ khai phá dữ liệu
Khai phá dữ liệu
Phân loại dữ liệu
Giải thuật phân loại với cây quyết định
Giải thuật phân loại với mạng Bayes
…
Gom cụm dữ liệu
Giải thuật gom cụm k-means
Giải thuật gom cụm phân cấp nhóm
…
Khai phá luật kết hợp
Giải thuật Apriori
…
…
38
38
1.2.2. Các tác vụ khai phá dữ liệu
Khai Phá Dữ Liệu
Tác Vụ Khai Phá Dữ Liệu
Task-relevant
Data
Interesting
Patterns
(Knowledge)
Giải
Thuật
Giải
Thuật
Giải
Thuật
39
39
1.2.2. Các tác vụ khai phá dữ liệu
Bốn thành phần cơ bản của một giải thuật khai
phá dữ liệu
Cấu trúc mẫu hay cấu trúc mô hình (model or
pattern structure)
Hàm tỉ số (score function)
Phương pháp tìm kiếm và tối ưu hóa (optimization
and search method)
Chiến lược quản lý dữ liệu (data management
strategy)
40
40
1.2.2. Các tác vụ khai phá dữ liệu
Cấu trúc mẫu hay cấu trúc mô hình (model or
pattern structure)
Mô hình là mô tả của tập dữ liệu, mang tính toàn cục ở
mức cao.
Mẫu là đặc điểm (đặc trưng) của dữ liệu, mang tính cục
bộ, chỉ cho một vài bản ghi/đối tượng hay vài biến.
Cấu trúc biểu diễn các dạng chức năng chung với các
thông số chưa được xác định trị.
Cấu trúc mô hình là một tóm tắt toàn cục về dữ liệu.
Ví dụ: Y = aX + b là một cấu trúc mô hình và Y = 3X + 2 là
một mô hình cụ thể được định nghĩa dựa trên cấu trúc này.
Cấu trúc mẫu là những cấu trúc liên quan một phần tương
đối nhỏ của dữ liệu hay của không gian dữ liệu.
Ví dụ: p(Y>y1|X>x1) = p1 là một cấu trúc mẫu và
p(Y>5|X>10) = 0.5 là một mẫu được xác định dựa trên cấu
trúc này.
41
41
1.2.2. Các tác vụ khai phá dữ liệu
Hàm tỉ số (score function)
Hàm tỉ số là hàm xác định một cấu trúc mô
hình/mẫu đáp ứng tập dữ liệu đã cho tốt ở mức
độ nào đó.
Hàm tỉ số cho biết liệu một mô hình có tốt hơn
các mô hình khác hay không.
Hàm tỉ số không nên phụ thuộc nhiều vào tập dữ
liệu, không nên chiếm nhiều thời gian tính toán.
Một vài hàm tỉ số thông dụng: likelihood, sum of
squared errors, misclassification rate, …
42
42
1.2.2. Các tác vụ khai phá dữ liệu
Phương pháp tìm kiếm và tối ưu hóa (optimization and
search method)
Mục tiêu của phương pháp tìm kiếm và tối ưu
hóa là xác định cấu trúc và giá trị các thông số
đáp ứng tốt nhất hàm tỉ số từ dữ liệu sẵn có.
Tìm kiếm các mẫu và mô hình
Không gian trạng thái: tập rời rạc các trạng thái
Bài toán tìm kiếm: bắt đầu tại một node (trạng thái) cụ
thể, di chuyển qua không gian trạng thái để tìm thấy node
tương ứng với trạng thái đáp ứng tốt nhất hàm tỉ số.
Phương pháp tìm kiếm: chiến lược tham lam, có dùng
heuristics, chiến lược nhánh-cận
Tối ưu hóa thông số
43
43
1.2.2. Các tác vụ khai phá dữ liệu
Chiến lược quản lý dữ liệu (data management
strategy)
Dữ liệu được khai phá
Ít, toàn bộ được xử lý đồng thời trong bộ nhớ chính
Nhiều, trên đĩa, một phần được xử lý đồng thời trong bộ
nhớ chính
Chiến lược quản lý dữ liệu hỗ trợ cách dữ liệu được
lưu trữ, đánh chỉ mục, và truy xuất
Giải thuật khai phá dữ liệu hiệu quả (efficiency) và có tính
co giãn (scalability) với dữ liệu được khai phá.
Công nghệ cơ sở dữ liệu
44
44
1.2.3. Các quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu là một chuỗi lặp
(iterative) (và tương tác(interactive)) gồm
các bước (giai đoạn) bắt đầu với dữ liệu thô
(raw data) và kết thúc với tri thức
(knowledge of interest) đáp ứng được sự
quan tâm của người sử dụng.
Cross Industry Standard Process for Data Mining
(CRISP-DM at www.crisp-dm.org)
SEMMA (Sample, Explore, Modify, Model,
Assess) at the SAS Institute
45
45
1.2.3. Các quy trình khai phá dữ liệu
Sự cần thiết của một quy trình khai phá dữ
liệu
Cách thức tiến hành (hoạch định và quản lý) dự
án khai phá dữ liệu có hệ thống
Đảm bảo nỗ lực dành cho một dự án khai phá
dữ liệu được tối ưu hóa
Việc đánh giá và cập nhật các mô hình trong dự
án được diễn ra liên tục.
46
46
1.2.3. Quy trình CRISP-DM
Chuẩn quy trình công nghiệp
Được khởi xướng từ 09/1996 và được hỗ trợ bởi
hơn 200 thành viên
Chuẩn mở
Hỗ trợ công nghiệp/ứng dụng và công cụ khai phá
dữ liệu hiện có
Tập trung vào các vấn đề nghiệp vụ cũng như
phân tích kỹ thuật
Tạo ra một khung thức hướng dẫn qui trình khai
phá dữ liệu
Có nền tảng kinh nghiệm từ các lĩnh vực ứng dụng
47
47
1.2.3. Quy trình CRISP-DM
48
48
1.2.3. Quy trình CRISP-DM
Quy trình CRISP-DM là một quy trình lặp,
có khả năng quay lui (backtracking) gồm 6
giai đoạn:
Tìm hiểu nghiệp vụ (Business understanding)
Tìm hiểu dữ liệu (Data understanding)
Chuẩn bị dữ liệu (Data preparation)
Mô hình hoá (Modeling)
Đánh giá (Evaluation)
Triển khai (Deployment)
49
49
1.2.4. Các hệ thống khai phá dữ liệu
Hệ thống khai phá dữ liệu được phát triển dựa trên
khái niệm rộng của khai phá dữ liệu.
Khai phá dữ liệu là một quá trình khám phá tri thức được
quan tâm từ lượng lớn dữ liệu trong các cơ sở dữ liệu, kho
dữ liệu, hay các kho thông tin khác.
Các thành phần chính có thể có
Database, data warehouse, World Wide Web, và
information repositories
Database hay data warehouse server
Knowledge base
Data mining engine
Pattern evaluation module
User interface
50
50
1.2.4. Kiến trúc của một hệ thống
khai phá dữ liệu
51
51
1.2.4. Các hệ thống khai phá dữ liệu
Database, data warehouse, World Wide
Web, và information repositories
Thành phần này là các nguồn dữ liệu/thông tin
sẽ được khai phá.
Trong những tình huống cụ thể, thành phần này
là nguồn nhập (input) của các kỹ thuật tích hợp
và làm sạch dữ liệu.
Database hay data warehouse server
Thành phần chịu trách nhiệm chuẩn bị dữ liệu
thích hợp cho các yêu cầu khai phá dữ liệu.
52
52
1.2.4. Các hệ thống khai phá dữ liệu
Knowledge base
Thành phần chứa tri thức miền, được dùng để
hướng dẫn quá trình tìm kiếm, đánh giá các
mẫu kết quả được tìm thấy.
Tri thức miền có thể là các phân cấp khái niệm,
niềm tin của người sử dụng, các ràng buộc hay
các ngưỡng giá trị, siêu dữ liệu, …
Data mining engine
Thành phần chứa các khối chức năng thực hiện
các tác vụ khai phá dữ liệu.
53
53
1.2.4. Các hệ thống khai phá dữ liệu
Pattern evaluation module
Thành phần này làm việc với các độ đo (và các
ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các
mẫu sao cho các mẫu được tìm thấy là những
mẫu được quan tâm bởi người sử dụng.
Thành phần này có thể được tích hợp vào thành
phần Data mining engine.
54
54
1.2.4. Các hệ thống khai phá dữ liệu
User interface
Thành phần hỗ trợ sự tương tác giữa người sử
dụng và hệ thống khai phá dữ liệu.
Người sử dụng có thể chỉ định câu truy vấn hay tác vụ
khai phá dữ liệu.
Người sử dụng có thể được cung cấp thông tin hỗ trợ
việc tìm kiếm, thực hiện khai phá dữ liệu sâu hơn
thông qua các kết quả khai phá trung gian.
Người sử dụng cũng có thể xem các lược đồ cơ sở dữ
liệu/kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu
khai phá được; trực quan hóa các mẫu này ở các dạng
khác nhau.
55
55
1.2.4. Các hệ thống khai phá dữ liệu
Các đặc điểm được dùng để khảo sát một hệ
thống khai phá dữ liệu
Kiểu dữ liệu
Các vấn đề hệ thống
Nguồn dữ liệu
Các tác vụ và phương pháp luận khai phá dữ liệu
Vấn đề gắn kết với các hệ thống kho dữ liệu/cơ sở
dữ liệu
Khả năng co giãn dữ liệu
Các công cụ trực quan hóa
Ngôn ngữ truy vấn khai phá dữ liệu và giao diện
đồ họa cho người dùng
56
56
1.2.4. Các hệ thống khai phá dữ liệu
Một số hệ thống khai phá dữ liệu:
Intelligent Miner (IBM)
Microsoft data mining tools (Microsoft SQL
Server 2000/2005/2008)
Oracle Data Mining (Oracle 9i/10g/11g)
Enterprise Miner (SAS Institute)
Weka (the University of Waikato, New Zealand,
www.cs.waikato.ac.nz/ml/weka)
…
57
57
1.2.4. Các hệ thống khai phá dữ liệu
Phân biệt các hệ thống khai phá dữ liệu với
Các hệ thống phân tích dữ liệu thống kê
(statistical data analysis systems)
Các hệ thống học máy (machine learning
systems)
Các hệ thống truy hồi thông tin (information
retrieval systems)
Các hệ cơ sở dữ liệu diễn dịch (deductive
database systems)
Các hệ cơ sở dữ liệu (database systems)
…
58
58
1.3. Ý nghĩa và vai trò của khai phá dữ liệu
Data Collection and Database Creation
(1960s and earlier)
Database Management Systems
(1970s-early 1980s)
Advanced Database Systems
(mid-1980s-present)
Advanced Data Analysis:Advanced Data Analysis:
Data Warehousing and Data MiningData Warehousing and Data Mining
(late 1980s(late 1980s--present)present)
Web-based Database Systems
(1990s-present)
New Generation of Integrated Data
and Information Systems
(present-future)
Sự tiến hóa của
công nghệ
hệ cơ sở dữ liệu
59
59
1.3. Ý nghĩa và vai trò của khai phá dữ liệu
Công nghệ hiện đại trong lĩnh vực quản lý
thông tin
Hiện diện khắp nơi (ubiquitous) và có tính ẩn
(invisible) trong nhiều khía cạnh của đời sống
hằng ngày
Làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, …
Được áp dụng trong nhiều ứng dụng thuộc nhiều
lĩnh vực khác nhau
Hỗ trợ các nhà khoa học, giáo dục học, kinh tế
học, doanh nghiệp, khách hàng, …
60
60
1.4. Ứng dụng của khai phá dữ liệu
Trong kinh doanh (business)
Trong tài chính (finance) và tiếp thị bán
hàng (sales marketing)
Trong thương mại (commerce) và ngân hàng
(bank)
Trong bảo hiểm (insurance)
Trong khoa học (science) và y sinh học
(biomedicine)
Trong điều khiển (control) và viễn thông
(telecommunication)
…
61
61
1.5. Tóm tắt
Khai phá dữ liệu là quá trình khám phá ra các mẫu
được quan tâm từ lượng lớn dữ liệu.
Mẫu kết quả khai phá được là những mẫu thể hiện tri thức nếu chúng dễ hiểu,
hợp lệ với một mức độ chắc chắn, hữu dụng, và mới đối với người dùng.
Lượng lớn dữ liệu từ các cơ sở dữ liệu truyền thống/hiện đại, kho dữ liệu, hay
từ các nguồn thông tin khác (spatial, time series, text, multimedia, web, …).
Các tác vụ khai phá dữ liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưng
hóa và phân biệt hóa dữ liệu), khai phá luật kết hợp/tương quan, phân lớp, dự
đoán, gom cụm, phân tích xu hướng, phân tích độ lệch và phần tử biên, phân
tích độ tương tự, …
Năm thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu: dữ liệu cụ thể sẽ được
khai phá, loại tri thức sẽ đạt được, tri thức nền, các độ đo, và các kỹ thuật biểu
diễn/trực quan hóa tri thức.
Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu: cấu trúc mẫu hay mô
hình, hàm tỉ số, phương pháp tìm kiếm và tối ưu hóa, chiến lược quản lý dữ liệu.
62
62
1.5. Tóm tắt
Khai phá dữ liệu được xem như là một phần của quá trình khám
phá tri thức.
Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: làm
sạch dữ liệu, tích hợp dữ liệu, chọn lựa dữ liệu, biến đổi dữ liệu,
khai phá dữ liệu, đánh giá mẫu, và biểu diễn tri thức.
Nhiều lĩnh vực khác nhau có liên quan với khai phá dữ liệu: công
nghệ cơ sở dữ liệu, lý thuyết thống kê, học máy, khoa học thông
tin, trực quan hóa, …
Các vấn đề liên quan: phương pháp luận khai phá dữ liệu, vấn đề
tương tác người dùng, khả năng co giãn dữ liệu và hiệu suất, vấn
đề xử lý lượng lớn các kiểu dữ liệu khác nhau, vấn đề khai thác
các ứng dụng khai phá dữ liệu cũng như sự ảnh hưởng xã hội của
chúng.
63
63
Hỏi & Đáp …Hỏi & Đáp …

More Related Content

What's hot

Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptx
Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptxChuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptx
Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptxYnNhiV14
 
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lược
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lượcHướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lược
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lượcguest3c41775
 
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…AskSock Ngô Quang Đạo
 
uoc luong tham so thong ke
uoc luong tham so thong keuoc luong tham so thong ke
uoc luong tham so thong keneodactue
 
đề Cương kinh tế lượng
đề Cương kinh tế lượng đề Cương kinh tế lượng
đề Cương kinh tế lượng Mơ Vũ
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)Trieu Nguyen
 
Hồi qui vói biến giả
Hồi qui vói biến giảHồi qui vói biến giả
Hồi qui vói biến giảCẩm Thu Ninh
 
Tom tat cong thuc xstk
Tom tat cong thuc xstkTom tat cong thuc xstk
Tom tat cong thuc xstkBích Anna
 
Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016hung le
 
Tài liệu kinh tế vi mô
Tài liệu kinh tế vi môTài liệu kinh tế vi mô
Tài liệu kinh tế vi môDigiword Ha Noi
 
Chuong 4 marketing mục tiêu. marketing căn bản
Chuong 4   marketing mục tiêu. marketing căn bảnChuong 4   marketing mục tiêu. marketing căn bản
Chuong 4 marketing mục tiêu. marketing căn bảnKhanh Duy Kd
 
Phân tích xử lý thông tin nghiên cứu định tính
Phân tích xử lý thông tin nghiên cứu định tínhPhân tích xử lý thông tin nghiên cứu định tính
Phân tích xử lý thông tin nghiên cứu định tínhPhap Tran
 
Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệuThành Luân
 
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lý
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lýChương 4: hệ thống thông tin tổ chức theo cấp bậc quản lý
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lýThạc sĩ Vũ Ngọc Hiếu
 
Câu hỏi trắc nghiệm tổng quan về logistics
Câu hỏi trắc nghiệm tổng quan về logisticsCâu hỏi trắc nghiệm tổng quan về logistics
Câu hỏi trắc nghiệm tổng quan về logisticsThanh Uyển
 
Chiến lược đại dương xanh của TH True milk
Chiến lược đại dương xanh của TH True milkChiến lược đại dương xanh của TH True milk
Chiến lược đại dương xanh của TH True milkToru Yukiyo
 
Cấu Trúc Kênh Phân Phối Của Apple
Cấu Trúc Kênh Phân Phối Của AppleCấu Trúc Kênh Phân Phối Của Apple
Cấu Trúc Kênh Phân Phối Của AppleNghĩa Trần
 
Hỗ trợ ra quyết định
Hỗ trợ ra quyết địnhHỗ trợ ra quyết định
Hỗ trợ ra quyết địnhlmphuong06
 
Giáo trình đàm phán thương mại quốc tế
Giáo trình đàm phán thương mại quốc tếGiáo trình đàm phán thương mại quốc tế
Giáo trình đàm phán thương mại quốc tếbookboomingslide
 

What's hot (20)

Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptx
Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptxChuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptx
Chuong 2 - Tổng quan lý thuyết và nghiên cứu có liên quan.pptx
 
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lược
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lượcHướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lược
Hướng dẫn xây dựng ma trận trong QUẢN TRỊ Chiến lược
 
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…
Truy cập vào website Amazon.com và phân tích mô hình kinh doanh của website…
 
uoc luong tham so thong ke
uoc luong tham so thong keuoc luong tham so thong ke
uoc luong tham so thong ke
 
đề Cương kinh tế lượng
đề Cương kinh tế lượng đề Cương kinh tế lượng
đề Cương kinh tế lượng
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
 
Hồi qui vói biến giả
Hồi qui vói biến giảHồi qui vói biến giả
Hồi qui vói biến giả
 
Tom tat cong thuc xstk
Tom tat cong thuc xstkTom tat cong thuc xstk
Tom tat cong thuc xstk
 
Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016Bài giảng hệ thống thông tin quản lý 2016
Bài giảng hệ thống thông tin quản lý 2016
 
Tài liệu kinh tế vi mô
Tài liệu kinh tế vi môTài liệu kinh tế vi mô
Tài liệu kinh tế vi mô
 
Chuong 4 marketing mục tiêu. marketing căn bản
Chuong 4   marketing mục tiêu. marketing căn bảnChuong 4   marketing mục tiêu. marketing căn bản
Chuong 4 marketing mục tiêu. marketing căn bản
 
Httt bai tap
Httt bai tapHttt bai tap
Httt bai tap
 
Phân tích xử lý thông tin nghiên cứu định tính
Phân tích xử lý thông tin nghiên cứu định tínhPhân tích xử lý thông tin nghiên cứu định tính
Phân tích xử lý thông tin nghiên cứu định tính
 
Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệu
 
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lý
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lýChương 4: hệ thống thông tin tổ chức theo cấp bậc quản lý
Chương 4: hệ thống thông tin tổ chức theo cấp bậc quản lý
 
Câu hỏi trắc nghiệm tổng quan về logistics
Câu hỏi trắc nghiệm tổng quan về logisticsCâu hỏi trắc nghiệm tổng quan về logistics
Câu hỏi trắc nghiệm tổng quan về logistics
 
Chiến lược đại dương xanh của TH True milk
Chiến lược đại dương xanh của TH True milkChiến lược đại dương xanh của TH True milk
Chiến lược đại dương xanh của TH True milk
 
Cấu Trúc Kênh Phân Phối Của Apple
Cấu Trúc Kênh Phân Phối Của AppleCấu Trúc Kênh Phân Phối Của Apple
Cấu Trúc Kênh Phân Phối Của Apple
 
Hỗ trợ ra quyết định
Hỗ trợ ra quyết địnhHỗ trợ ra quyết định
Hỗ trợ ra quyết định
 
Giáo trình đàm phán thương mại quốc tế
Giáo trình đàm phán thương mại quốc tếGiáo trình đàm phán thương mại quốc tế
Giáo trình đàm phán thương mại quốc tế
 

Similar to Dm -chapter_1_-_overview_0

TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfMan_Ebook
 
Khai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfKhai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfTri Huynh Minh
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfMan_Ebook
 
hệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxhệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxthienphuctd1
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếTran Tien
 
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfBài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfNuioKila
 
Gioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxGioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxKienTrung93
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]bookbooming1
 
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao nataliej4
 
He ho tro quyet dinh
He ho tro quyet dinhHe ho tro quyet dinh
He ho tro quyet dinhIT
 
Tong quan ve phan cum data mining
Tong quan ve phan cum   data miningTong quan ve phan cum   data mining
Tong quan ve phan cum data miningHoa Chu
 
Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuAnh Ta
 
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfGiáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfMan_Ebook
 
csdl - buoi1
csdl - buoi1csdl - buoi1
csdl - buoi1kikihoho
 

Similar to Dm -chapter_1_-_overview_0 (20)

TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
 
Khai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfKhai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdf
 
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdfPHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
PHÂN CỤM DỮ LIỆU TRONG DATAMING.pdf
 
hệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxhệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptx
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quế
 
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdfBài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
Bài Giảng Cơ Sở Dữ Liệu Hướng Đối Tượng (Object-Oriented Data Base).pdf
 
Luan van
Luan vanLuan van
Luan van
 
Gioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptxGioi_thieu_mon_hoc CSDLNC.pptx
Gioi_thieu_mon_hoc CSDLNC.pptx
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
 
CSDL_In ngay
CSDL_In ngayCSDL_In ngay
CSDL_In ngay
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao
Bài Giảng Môn Học Cơ Sở Dữ Liệu Nâng Cao
 
Csdl
CsdlCsdl
Csdl
 
He ho tro quyet dinh
He ho tro quyet dinhHe ho tro quyet dinh
He ho tro quyet dinh
 
Tong quan ve phan cum data mining
Tong quan ve phan cum   data miningTong quan ve phan cum   data mining
Tong quan ve phan cum data mining
 
Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieu
 
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfGiáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
 
Nguyen van vinh
Nguyen van vinhNguyen van vinh
Nguyen van vinh
 
Bai giang he qtdl
Bai giang he qtdlBai giang he qtdl
Bai giang he qtdl
 
csdl - buoi1
csdl - buoi1csdl - buoi1
csdl - buoi1
 

More from Phi Phi

Vsf 473 lect_13_bonsai37
Vsf 473 lect_13_bonsai37Vsf 473 lect_13_bonsai37
Vsf 473 lect_13_bonsai37Phi Phi
 
Vsf 473 lect_13_bonsai36
Vsf 473 lect_13_bonsai36Vsf 473 lect_13_bonsai36
Vsf 473 lect_13_bonsai36Phi Phi
 
Vsf 473 lect_13_bonsai35
Vsf 473 lect_13_bonsai35Vsf 473 lect_13_bonsai35
Vsf 473 lect_13_bonsai35Phi Phi
 
Vsf 473 lect_13_bonsai34
Vsf 473 lect_13_bonsai34Vsf 473 lect_13_bonsai34
Vsf 473 lect_13_bonsai34Phi Phi
 
Vsf 473 lect_13_bonsai33
Vsf 473 lect_13_bonsai33Vsf 473 lect_13_bonsai33
Vsf 473 lect_13_bonsai33Phi Phi
 
Vsf 473 lect_13_bonsai32
Vsf 473 lect_13_bonsai32Vsf 473 lect_13_bonsai32
Vsf 473 lect_13_bonsai32Phi Phi
 
Vsf 473 lect_13_bonsai31
Vsf 473 lect_13_bonsai31Vsf 473 lect_13_bonsai31
Vsf 473 lect_13_bonsai31Phi Phi
 
Vsf 473 lect_13_bonsai30
Vsf 473 lect_13_bonsai30Vsf 473 lect_13_bonsai30
Vsf 473 lect_13_bonsai30Phi Phi
 
Vsf 473 lect_13_bonsai29
Vsf 473 lect_13_bonsai29Vsf 473 lect_13_bonsai29
Vsf 473 lect_13_bonsai29Phi Phi
 
Vsf 473 lect_13_bonsai28
Vsf 473 lect_13_bonsai28Vsf 473 lect_13_bonsai28
Vsf 473 lect_13_bonsai28Phi Phi
 
Vsf 473 lect_13_bonsai26
Vsf 473 lect_13_bonsai26Vsf 473 lect_13_bonsai26
Vsf 473 lect_13_bonsai26Phi Phi
 
Vsf 473 lect_13_bonsai25
Vsf 473 lect_13_bonsai25Vsf 473 lect_13_bonsai25
Vsf 473 lect_13_bonsai25Phi Phi
 
Vsf 473 lect_13_bonsai24
Vsf 473 lect_13_bonsai24Vsf 473 lect_13_bonsai24
Vsf 473 lect_13_bonsai24Phi Phi
 
Vsf 473 lect_13_bonsai23
Vsf 473 lect_13_bonsai23Vsf 473 lect_13_bonsai23
Vsf 473 lect_13_bonsai23Phi Phi
 
Vsf 473 lect_13_bonsai22
Vsf 473 lect_13_bonsai22Vsf 473 lect_13_bonsai22
Vsf 473 lect_13_bonsai22Phi Phi
 
Vsf 473 lect_13_bonsai21
Vsf 473 lect_13_bonsai21Vsf 473 lect_13_bonsai21
Vsf 473 lect_13_bonsai21Phi Phi
 
Vsf 473 lect_13_bonsai20
Vsf 473 lect_13_bonsai20Vsf 473 lect_13_bonsai20
Vsf 473 lect_13_bonsai20Phi Phi
 
Vsf 473 lect_13_bonsai19
Vsf 473 lect_13_bonsai19Vsf 473 lect_13_bonsai19
Vsf 473 lect_13_bonsai19Phi Phi
 
Vsf 473 lect_13_bonsai18
Vsf 473 lect_13_bonsai18Vsf 473 lect_13_bonsai18
Vsf 473 lect_13_bonsai18Phi Phi
 
Vsf 473 lect_13_bonsai17
Vsf 473 lect_13_bonsai17Vsf 473 lect_13_bonsai17
Vsf 473 lect_13_bonsai17Phi Phi
 

More from Phi Phi (20)

Vsf 473 lect_13_bonsai37
Vsf 473 lect_13_bonsai37Vsf 473 lect_13_bonsai37
Vsf 473 lect_13_bonsai37
 
Vsf 473 lect_13_bonsai36
Vsf 473 lect_13_bonsai36Vsf 473 lect_13_bonsai36
Vsf 473 lect_13_bonsai36
 
Vsf 473 lect_13_bonsai35
Vsf 473 lect_13_bonsai35Vsf 473 lect_13_bonsai35
Vsf 473 lect_13_bonsai35
 
Vsf 473 lect_13_bonsai34
Vsf 473 lect_13_bonsai34Vsf 473 lect_13_bonsai34
Vsf 473 lect_13_bonsai34
 
Vsf 473 lect_13_bonsai33
Vsf 473 lect_13_bonsai33Vsf 473 lect_13_bonsai33
Vsf 473 lect_13_bonsai33
 
Vsf 473 lect_13_bonsai32
Vsf 473 lect_13_bonsai32Vsf 473 lect_13_bonsai32
Vsf 473 lect_13_bonsai32
 
Vsf 473 lect_13_bonsai31
Vsf 473 lect_13_bonsai31Vsf 473 lect_13_bonsai31
Vsf 473 lect_13_bonsai31
 
Vsf 473 lect_13_bonsai30
Vsf 473 lect_13_bonsai30Vsf 473 lect_13_bonsai30
Vsf 473 lect_13_bonsai30
 
Vsf 473 lect_13_bonsai29
Vsf 473 lect_13_bonsai29Vsf 473 lect_13_bonsai29
Vsf 473 lect_13_bonsai29
 
Vsf 473 lect_13_bonsai28
Vsf 473 lect_13_bonsai28Vsf 473 lect_13_bonsai28
Vsf 473 lect_13_bonsai28
 
Vsf 473 lect_13_bonsai26
Vsf 473 lect_13_bonsai26Vsf 473 lect_13_bonsai26
Vsf 473 lect_13_bonsai26
 
Vsf 473 lect_13_bonsai25
Vsf 473 lect_13_bonsai25Vsf 473 lect_13_bonsai25
Vsf 473 lect_13_bonsai25
 
Vsf 473 lect_13_bonsai24
Vsf 473 lect_13_bonsai24Vsf 473 lect_13_bonsai24
Vsf 473 lect_13_bonsai24
 
Vsf 473 lect_13_bonsai23
Vsf 473 lect_13_bonsai23Vsf 473 lect_13_bonsai23
Vsf 473 lect_13_bonsai23
 
Vsf 473 lect_13_bonsai22
Vsf 473 lect_13_bonsai22Vsf 473 lect_13_bonsai22
Vsf 473 lect_13_bonsai22
 
Vsf 473 lect_13_bonsai21
Vsf 473 lect_13_bonsai21Vsf 473 lect_13_bonsai21
Vsf 473 lect_13_bonsai21
 
Vsf 473 lect_13_bonsai20
Vsf 473 lect_13_bonsai20Vsf 473 lect_13_bonsai20
Vsf 473 lect_13_bonsai20
 
Vsf 473 lect_13_bonsai19
Vsf 473 lect_13_bonsai19Vsf 473 lect_13_bonsai19
Vsf 473 lect_13_bonsai19
 
Vsf 473 lect_13_bonsai18
Vsf 473 lect_13_bonsai18Vsf 473 lect_13_bonsai18
Vsf 473 lect_13_bonsai18
 
Vsf 473 lect_13_bonsai17
Vsf 473 lect_13_bonsai17Vsf 473 lect_13_bonsai17
Vsf 473 lect_13_bonsai17
 

Recently uploaded

Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptx
Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptxPhân tích mô hình PESTEL Coca Cola - Nhóm 4.pptx
Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptxtung2072003
 
Catalog ống nước Europipe upvc-ppr2022.pdf
Catalog ống nước Europipe upvc-ppr2022.pdfCatalog ống nước Europipe upvc-ppr2022.pdf
Catalog ống nước Europipe upvc-ppr2022.pdfOrient Homes
 
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdf
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdfCATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdf
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdfOrient Homes
 
CATALOG cáp cadivi_1.3.2024_compressed.pdf
CATALOG cáp cadivi_1.3.2024_compressed.pdfCATALOG cáp cadivi_1.3.2024_compressed.pdf
CATALOG cáp cadivi_1.3.2024_compressed.pdfOrient Homes
 
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdf
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdfCatalogue-thiet-bi-chieu-sang-DUHAL-2023.pdf
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdfOrient Homes
 
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdf
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdfCATALOGUE ART-DNA 2023-2024-Orient Homes.pdf
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdfOrient Homes
 
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướng
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướngTạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướng
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướngMay Ong Vang
 
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdf
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdfCatalogue cáp điện GOLDCUP 2023(kỹ thuật).pdf
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdfOrient Homes
 
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdf
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdfDây cáp điện Trần Phú Eco - Catalogue 2023.pdf
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdfOrient Homes
 
catalogue-cap-trung-va-ha-the-ls-vina.pdf
catalogue-cap-trung-va-ha-the-ls-vina.pdfcatalogue-cap-trung-va-ha-the-ls-vina.pdf
catalogue-cap-trung-va-ha-the-ls-vina.pdfOrient Homes
 
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdf
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdfCATALOGUE Cáp điện Taya (FR, FPR) 2023.pdf
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdfOrient Homes
 
2020.Catalogue CÁP TR131321313UNG THẾ.pdf
2020.Catalogue CÁP TR131321313UNG THẾ.pdf2020.Catalogue CÁP TR131321313UNG THẾ.pdf
2020.Catalogue CÁP TR131321313UNG THẾ.pdfOrient Homes
 
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghề
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghềXu hướng tạp dề đồng phục hiện đại trong các ngành nghề
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghềMay Ong Vang
 
Catalog Dây cáp điện CADIVI ky thuat.pdf
Catalog Dây cáp điện CADIVI ky thuat.pdfCatalog Dây cáp điện CADIVI ky thuat.pdf
Catalog Dây cáp điện CADIVI ky thuat.pdfOrient Homes
 
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdf
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdfCatalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdf
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdfOrient Homes
 

Recently uploaded (15)

Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptx
Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptxPhân tích mô hình PESTEL Coca Cola - Nhóm 4.pptx
Phân tích mô hình PESTEL Coca Cola - Nhóm 4.pptx
 
Catalog ống nước Europipe upvc-ppr2022.pdf
Catalog ống nước Europipe upvc-ppr2022.pdfCatalog ống nước Europipe upvc-ppr2022.pdf
Catalog ống nước Europipe upvc-ppr2022.pdf
 
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdf
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdfCATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdf
CATALOG Đèn, thiết bị điện ASIA LIGHTING 2023.pdf
 
CATALOG cáp cadivi_1.3.2024_compressed.pdf
CATALOG cáp cadivi_1.3.2024_compressed.pdfCATALOG cáp cadivi_1.3.2024_compressed.pdf
CATALOG cáp cadivi_1.3.2024_compressed.pdf
 
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdf
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdfCatalogue-thiet-bi-chieu-sang-DUHAL-2023.pdf
Catalogue-thiet-bi-chieu-sang-DUHAL-2023.pdf
 
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdf
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdfCATALOGUE ART-DNA 2023-2024-Orient Homes.pdf
CATALOGUE ART-DNA 2023-2024-Orient Homes.pdf
 
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướng
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướngTạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướng
Tạp dề là gì? Tổng hợp các kiểu dáng tạp dề xu hướng
 
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdf
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdfCatalogue cáp điện GOLDCUP 2023(kỹ thuật).pdf
Catalogue cáp điện GOLDCUP 2023(kỹ thuật).pdf
 
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdf
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdfDây cáp điện Trần Phú Eco - Catalogue 2023.pdf
Dây cáp điện Trần Phú Eco - Catalogue 2023.pdf
 
catalogue-cap-trung-va-ha-the-ls-vina.pdf
catalogue-cap-trung-va-ha-the-ls-vina.pdfcatalogue-cap-trung-va-ha-the-ls-vina.pdf
catalogue-cap-trung-va-ha-the-ls-vina.pdf
 
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdf
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdfCATALOGUE Cáp điện Taya (FR, FPR) 2023.pdf
CATALOGUE Cáp điện Taya (FR, FPR) 2023.pdf
 
2020.Catalogue CÁP TR131321313UNG THẾ.pdf
2020.Catalogue CÁP TR131321313UNG THẾ.pdf2020.Catalogue CÁP TR131321313UNG THẾ.pdf
2020.Catalogue CÁP TR131321313UNG THẾ.pdf
 
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghề
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghềXu hướng tạp dề đồng phục hiện đại trong các ngành nghề
Xu hướng tạp dề đồng phục hiện đại trong các ngành nghề
 
Catalog Dây cáp điện CADIVI ky thuat.pdf
Catalog Dây cáp điện CADIVI ky thuat.pdfCatalog Dây cáp điện CADIVI ky thuat.pdf
Catalog Dây cáp điện CADIVI ky thuat.pdf
 
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdf
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdfCatalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdf
Catalogue Cadisun CÁP HẠ THẾ (26-09-2020).pdf
 

Dm -chapter_1_-_overview_0

  • 1. 1 1 ChChươương 1: Tổng quanng 1: Tổng quan về khai phá dữ liệuvề khai phá dữ liệu Học kỳ 1 – 2011-2012 KhoaKhoa KhoaKhoa Học & Kỹ Thuật Máy TínhHọc & Kỹ Thuật Máy Tính TrTrưường Đại Học Bách Khoa Tp. Hồ Chí Minhờng Đại Học Bách Khoa Tp. Hồ Chí Minh CaoCao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính GiáoGiáo trìnhtrình đđiệniện tửtử BiênBiên soạnsoạn bởibởi: TS.: TS. VõVõ ThịThị NgọcNgọc ChâuChâu ((chauvtn@cse.hcmut.edu.vnchauvtn@cse.hcmut.edu.vn))
  • 2. 2 2 Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. [5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009. [6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006. [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008. [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010.
  • 3. 3 3 Nội dung Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu Chương 3: Hồi qui dữ liệu Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệu Chương 8: Ứng dụng khai phá dữ liệu Chương 9: Các đề tài nghiên cứu trong khai phá dữ liệu Chương 10: Ôn tập
  • 4. 4 4 Chương 1: Tổng quan về khai phá dữ liệu 1.0. Tình huống 1.1. Quá trình khám phá tri thức 1.2. Các khái niệm 1.3. Ý nghĩa và vai trò của khai phá dữ liệu 1.4. Ứng dụng của khai phá dữ liệu 1.5. Tóm tắt
  • 5. 5 5 1.0. Tình huống 1 Người đang sử dụng thẻ ID = 1234 thật sự là chủ nhân của thẻ hay là một tên trộm?
  • 6. 6 6 1.0. Tình huống 2 Tid Refund Marital Status Taxable Income Evade 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Ông A (Tid = 100) có khả năng trốn thuế???
  • 7. 7 7 1.0. Tình huống 3 Ngày mai cổ phiếu STB sẽ tăng???
  • 8. 8 8 1.0. Tình huống 4 Không (97%)…3.02.0472008 ……………… Không (45%)…4.55.5822007 Có (90%)…7.59.5242006 Có (80%)…6.07.0902005 Không…3.55.582004 … 14 3 2 1 MãSV …………… Có…5.55.02004 Không…2.54.02004 Có…8.06.52004 Có…8.59.02004 TốtNghiệp…MônHọc2MônHọc1Khóa Làm sao xác định được khả năng tốt nghiệp của một sinh viên hiện tại?
  • 9. 9 9 1.0. Tình huống … We are data rich, but information poor. “Necessity is the mother of invention”. - Plato
  • 10. 10 10 1.1. Quá trình khám phá tri thức Data Cleaning Data Integration Data Sources Data Warehouse Task-relevant Data Selection/Transformation Data Mining Pattern Evaluation/ Presentation Patterns
  • 11. 11 11 1.1. Quá trình khám phá tri thức “Knowledge discovery in databases is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” Frawley, W. J et al. (1991). Knowledge discovery in databases: an overview. “Knowledge discovery from databases is the process of using the database along with any required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed knowledge.” Fayyad, U.M et al. (1996). Advances in Knowledge Discovery and Data Mining. MIT Press.
  • 12. 12 12 1.1. Quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: Data cleaning (làm sạch dữ liệu) Data integration (tích hợp dữ liệu) Data selection (chọn lựa dữ liệu) Data transformation (biến đổi dữ liệu) Data mining (khai phá dữ liệu) Pattern evaluation (đánh giá mẫu) Knowledge presentation (biểu diễn tri thức)
  • 13. 13 13 1.1. Quá trình khám phá tri thức Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với: Data sources (các nguồn dữ liệu) Data warehouse (kho dữ liệu) Task-relevant data (dữ liệu cụ thể sẽ được khai phá) Patterns (mẫu kết quả từ khai phá dữ liệu) Knowledge (tri thức đạt được)
  • 14. 14 14 1.1. Quá trình khám phá tri thức Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP
  • 15. 15 15 1.2. Các khái niệm 1.2.1. Khai phá dữ liệu (data mining) 1.2.2. Các tác vụ khai phá dữ liệu (data mining tasks/functions) 1.2.3. Các quy trình khai phá dữ liệu (data mining processes) 1.2.4. Các hệ thống khai phá dữ liệu (data mining systems)
  • 16. 16 16 1.2.1. Khai phá dữ liệu Khai phá dữ liệu một quá trình trích xuất tri thức từ lượng lớn dữ liệu “extracting or mining knowledge from large amounts of data” “knowledge mining from data” một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu “the nontrivial extraction of implicit, previously unknown, and potentially useful information from data” Các thuật ngữ thường được dùng tương đương: knowledge discovery/mining in data/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence
  • 17. 17 17 1.2.1. Khai phá dữ liệu Lượng lớn dữ liệu sẵn có để khai phá Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc Dữ liệu được lưu trữ Các tập tin truyền thống (flat files) Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases) Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ liệu (data warehouses) Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatial databases), cơ sở dữ liệu thời gian (temporal databases), cơ sở dữ liệu không thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian (time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), … Các kho thông tin: the World Wide Web, … Dữ liệu tạm thời: các dòng dữ liệu (data streams)
  • 18. 18 18 1.2.1. Khai phá dữ liệu Tri thức đạt được từ quá trình khai phá Mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa) Mẫu thường xuyên, các mối quan hệ kết hợp/tương quan Mô hình phân loại và dự đoán Mô hình gom cụm Các phần tử biên Xu hướng hay mức độ thường xuyên của các đối tượng có hành vi thay đổi theo thời gian …
  • 19. 19 19 1.2.1. Khai phá dữ liệu Tri thức đạt được từ quá trình khai phá Tri thức đạt được có thể có tính mô tả hay dự đoán tùy thuộc vào quá trình khai phá cụ thể. Mô tả (Descriptive): có khả năng đặc trưng hóa các thuộc tính chung của dữ liệu được khai phá (Tình huống 1) Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán (Tình huống 2, 3, và 4) Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc. Tri thức đạt được có thể được/không được người dùng quan tâm các độ đo đánh giá tri thức đạt được. Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điều khiển quy trình, quản lý thông tin, xử lý truy vấn …
  • 20. 20 20 1.2.1. Khai phá dữ liệu (trends, regularities, …) (characterization and discrimination)
  • 21. 21 21 1.2.1. Khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ. “Data mining as a confluence of multiple disciplines” Data Mining Statistics Machine Learning Database Technology Visualization Other Disciplines
  • 22. 22 22 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và công nghệ cơ sở dữ liệu Khả năng đóng góp của công nghệ cơ sở dữ liệu Công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được khai phá. Dữ liệu rất lớn, có thể vượt quá khả năng của bộ nhớ chính (main memory). Dữ liệu được thu thập theo thời gian. Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng lớn dữ liệu với các cơ chế phân trang (paging) và hoán chuyển (swapping) dữ liệu vào/ra bộ nhớ chính. Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều loại dữ liệu phức tạp (spatial, temporal, spatiotemporal, multimedia, text, Web, …). Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …) của các hệ cơ sở dữ liệu đã được phát triển tốt.
  • 23. 23 23 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và công nghệ cơ sở dữ liệu Thực trạng đóng góp của công nghệ cơ sở dữ liệu Các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ liệu. Oracle Data Mining (Oracle 9i, 10g, 11g) Các công cụ khai phá dữ liệu của Microsoft (MS SQL Server 2000, 2005, 2008) Intelligent Miner (IBM) Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ khám phá tri thức. Chuẩn SQL/MM 6:Data Mining của ISO/IEC 13249- 6:2006 hỗ trợ khai phá dữ liệu. Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá dữ liệu từ các cơ sở dữ liệu quan hệ
  • 24. 24 24 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và lý thuyết thống kê Inductive Statistics Statistics Descriptive Statistics Hai tập dữ liệu mẫu có cùng phân bố? Dự báo và suy luậnMô tả dữ liệu
  • 25. 25 25 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và học máy Supervised Machine Learning Unsupervised Reinforcement“Natural groupings”
  • 26. 26 26 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và trực quan hóa Dữ liệu: 3D cubes, distribution charts, curves, surfaces, link graphs, image frames and movies, parallel coordinates Kết quả (tri thức): pie charts, scatter plots, box plots, association rules, parallel coordinates, dendograms, temporal evolution Pie chart Parallel coordinates Temporal evolution
  • 27. 27 27 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và trực quan hóa Feature Selection Mean Feature Image
  • 28. 28 28 1.2.1. Khai phá dữ liệu Khai phá dữ liệu và trực quan hóa Gán nhãn các lớp Isodata (K-means) Clustering Mean Feature Image Label Image
  • 29. 29 29 1.2.2. Các tác vụ khai phá dữ liệu Khai phá mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa dữ liệu) Khai phá luật kết hợp/tương quan Phân loại dữ liệu Dự đoán Gom cụm dữ liệu Phân tích xu hướng Phân tích độ lệch và phần tử biên Phân tích độ tương tự …
  • 30. 30 30 1.2.2. Các tác vụ khai phá dữ liệu Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 11 No Married 60K No 12 Yes Divorced 220K No 13 No Single 85K Yes 14 No Married 75K No 15 No Single 90K Yes 10 Classification Clustering Association Rules Anomaly Detection Milk Data others
  • 31. 31 31 1.2.2. Các tác vụ khai phá dữ liệu Năm thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu Dữ liệu cụ thể sẽ được khai phá (task-relevant data) Loại tri thức sẽ đạt được (kind of knowledge) Tri thức nền (background knowledge) Các độ đo (interestingness measures) Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization and knowledge presentation)
  • 32. 32 32 1.2.2. Các tác vụ khai phá dữ liệu Dữ liệu cụ thể sẽ được khai phá (task- relevant data) Phần dữ liệu từ các dữ liệu nguồn được quan tâm Tương ứng với các thuộc tính hay chiều dữ liệu được quan tâm Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hay chiều dữ liệu được tâm, các tiêu chí gom nhóm dữ liệu
  • 33. 33 33 1.2.2. Các tác vụ khai phá dữ liệu Loại tri thức sẽ đạt được (kind of knowledge) Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiến hóa Tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi
  • 34. 34 34 1.2.2. Các tác vụ khai phá dữ liệu Tri thức nền (background knowledge) Tương ứng với lĩnh vực cụ thể sẽ được khai phá Hướng dẫn quá trình khám phá tri thức Hỗ trợ khai phá dữ liệu ở nhiều mức trừu tượng khác nhau Đánh giá các mẫu được tìm thấy Bao gồm: các phân cấp ý niệm, niềm tin của người sử dụng về các mối quan hệ của dữ liệu
  • 35. 35 35 1.2.2. Các tác vụ khai phá dữ liệu Các độ đo (interestingness measures) Thường đi kèm với các ngưỡng giá trị (threshold) Dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu được tìm thấy Tương ứng với loại tri thức sẽ đạt được và do đó, tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi Kiểm tra: tính đơn giản (simplicity), tính chắc chắn (certainty), tính hữu dụng (utility), tính mới (novelty)
  • 36. 36 36 1.2.2. Các tác vụ khai phá dữ liệu Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization and knowledge presentation) Xác định dạng các mẫu/tri thức được tìm thấy để thể hiện đến người sử dụng Bao gồm: luật (rules), bảng (tables), báo cáo (reports), biểu đồ (charts), đồ thị (graphs), cây (trees), và khối (cubes)
  • 37. 37 37 1.2.2. Các tác vụ khai phá dữ liệu Khai phá dữ liệu Phân loại dữ liệu Giải thuật phân loại với cây quyết định Giải thuật phân loại với mạng Bayes … Gom cụm dữ liệu Giải thuật gom cụm k-means Giải thuật gom cụm phân cấp nhóm … Khai phá luật kết hợp Giải thuật Apriori … …
  • 38. 38 38 1.2.2. Các tác vụ khai phá dữ liệu Khai Phá Dữ Liệu Tác Vụ Khai Phá Dữ Liệu Task-relevant Data Interesting Patterns (Knowledge) Giải Thuật Giải Thuật Giải Thuật
  • 39. 39 39 1.2.2. Các tác vụ khai phá dữ liệu Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure) Hàm tỉ số (score function) Phương pháp tìm kiếm và tối ưu hóa (optimization and search method) Chiến lược quản lý dữ liệu (data management strategy)
  • 40. 40 40 1.2.2. Các tác vụ khai phá dữ liệu Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure) Mô hình là mô tả của tập dữ liệu, mang tính toàn cục ở mức cao. Mẫu là đặc điểm (đặc trưng) của dữ liệu, mang tính cục bộ, chỉ cho một vài bản ghi/đối tượng hay vài biến. Cấu trúc biểu diễn các dạng chức năng chung với các thông số chưa được xác định trị. Cấu trúc mô hình là một tóm tắt toàn cục về dữ liệu. Ví dụ: Y = aX + b là một cấu trúc mô hình và Y = 3X + 2 là một mô hình cụ thể được định nghĩa dựa trên cấu trúc này. Cấu trúc mẫu là những cấu trúc liên quan một phần tương đối nhỏ của dữ liệu hay của không gian dữ liệu. Ví dụ: p(Y>y1|X>x1) = p1 là một cấu trúc mẫu và p(Y>5|X>10) = 0.5 là một mẫu được xác định dựa trên cấu trúc này.
  • 41. 41 41 1.2.2. Các tác vụ khai phá dữ liệu Hàm tỉ số (score function) Hàm tỉ số là hàm xác định một cấu trúc mô hình/mẫu đáp ứng tập dữ liệu đã cho tốt ở mức độ nào đó. Hàm tỉ số cho biết liệu một mô hình có tốt hơn các mô hình khác hay không. Hàm tỉ số không nên phụ thuộc nhiều vào tập dữ liệu, không nên chiếm nhiều thời gian tính toán. Một vài hàm tỉ số thông dụng: likelihood, sum of squared errors, misclassification rate, …
  • 42. 42 42 1.2.2. Các tác vụ khai phá dữ liệu Phương pháp tìm kiếm và tối ưu hóa (optimization and search method) Mục tiêu của phương pháp tìm kiếm và tối ưu hóa là xác định cấu trúc và giá trị các thông số đáp ứng tốt nhất hàm tỉ số từ dữ liệu sẵn có. Tìm kiếm các mẫu và mô hình Không gian trạng thái: tập rời rạc các trạng thái Bài toán tìm kiếm: bắt đầu tại một node (trạng thái) cụ thể, di chuyển qua không gian trạng thái để tìm thấy node tương ứng với trạng thái đáp ứng tốt nhất hàm tỉ số. Phương pháp tìm kiếm: chiến lược tham lam, có dùng heuristics, chiến lược nhánh-cận Tối ưu hóa thông số
  • 43. 43 43 1.2.2. Các tác vụ khai phá dữ liệu Chiến lược quản lý dữ liệu (data management strategy) Dữ liệu được khai phá Ít, toàn bộ được xử lý đồng thời trong bộ nhớ chính Nhiều, trên đĩa, một phần được xử lý đồng thời trong bộ nhớ chính Chiến lược quản lý dữ liệu hỗ trợ cách dữ liệu được lưu trữ, đánh chỉ mục, và truy xuất Giải thuật khai phá dữ liệu hiệu quả (efficiency) và có tính co giãn (scalability) với dữ liệu được khai phá. Công nghệ cơ sở dữ liệu
  • 44. 44 44 1.2.3. Các quy trình khai phá dữ liệu Quy trình khai phá dữ liệu là một chuỗi lặp (iterative) (và tương tác(interactive)) gồm các bước (giai đoạn) bắt đầu với dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest) đáp ứng được sự quan tâm của người sử dụng. Cross Industry Standard Process for Data Mining (CRISP-DM at www.crisp-dm.org) SEMMA (Sample, Explore, Modify, Model, Assess) at the SAS Institute
  • 45. 45 45 1.2.3. Các quy trình khai phá dữ liệu Sự cần thiết của một quy trình khai phá dữ liệu Cách thức tiến hành (hoạch định và quản lý) dự án khai phá dữ liệu có hệ thống Đảm bảo nỗ lực dành cho một dự án khai phá dữ liệu được tối ưu hóa Việc đánh giá và cập nhật các mô hình trong dự án được diễn ra liên tục.
  • 46. 46 46 1.2.3. Quy trình CRISP-DM Chuẩn quy trình công nghiệp Được khởi xướng từ 09/1996 và được hỗ trợ bởi hơn 200 thành viên Chuẩn mở Hỗ trợ công nghiệp/ứng dụng và công cụ khai phá dữ liệu hiện có Tập trung vào các vấn đề nghiệp vụ cũng như phân tích kỹ thuật Tạo ra một khung thức hướng dẫn qui trình khai phá dữ liệu Có nền tảng kinh nghiệm từ các lĩnh vực ứng dụng
  • 48. 48 48 1.2.3. Quy trình CRISP-DM Quy trình CRISP-DM là một quy trình lặp, có khả năng quay lui (backtracking) gồm 6 giai đoạn: Tìm hiểu nghiệp vụ (Business understanding) Tìm hiểu dữ liệu (Data understanding) Chuẩn bị dữ liệu (Data preparation) Mô hình hoá (Modeling) Đánh giá (Evaluation) Triển khai (Deployment)
  • 49. 49 49 1.2.4. Các hệ thống khai phá dữ liệu Hệ thống khai phá dữ liệu được phát triển dựa trên khái niệm rộng của khai phá dữ liệu. Khai phá dữ liệu là một quá trình khám phá tri thức được quan tâm từ lượng lớn dữ liệu trong các cơ sở dữ liệu, kho dữ liệu, hay các kho thông tin khác. Các thành phần chính có thể có Database, data warehouse, World Wide Web, và information repositories Database hay data warehouse server Knowledge base Data mining engine Pattern evaluation module User interface
  • 50. 50 50 1.2.4. Kiến trúc của một hệ thống khai phá dữ liệu
  • 51. 51 51 1.2.4. Các hệ thống khai phá dữ liệu Database, data warehouse, World Wide Web, và information repositories Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá. Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu. Database hay data warehouse server Thành phần chịu trách nhiệm chuẩn bị dữ liệu thích hợp cho các yêu cầu khai phá dữ liệu.
  • 52. 52 52 1.2.4. Các hệ thống khai phá dữ liệu Knowledge base Thành phần chứa tri thức miền, được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả được tìm thấy. Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, … Data mining engine Thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữ liệu.
  • 53. 53 53 1.2.4. Các hệ thống khai phá dữ liệu Pattern evaluation module Thành phần này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được quan tâm bởi người sử dụng. Thành phần này có thể được tích hợp vào thành phần Data mining engine.
  • 54. 54 54 1.2.4. Các hệ thống khai phá dữ liệu User interface Thành phần hỗ trợ sự tương tác giữa người sử dụng và hệ thống khai phá dữ liệu. Người sử dụng có thể chỉ định câu truy vấn hay tác vụ khai phá dữ liệu. Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện khai phá dữ liệu sâu hơn thông qua các kết quả khai phá trung gian. Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ở các dạng khác nhau.
  • 55. 55 55 1.2.4. Các hệ thống khai phá dữ liệu Các đặc điểm được dùng để khảo sát một hệ thống khai phá dữ liệu Kiểu dữ liệu Các vấn đề hệ thống Nguồn dữ liệu Các tác vụ và phương pháp luận khai phá dữ liệu Vấn đề gắn kết với các hệ thống kho dữ liệu/cơ sở dữ liệu Khả năng co giãn dữ liệu Các công cụ trực quan hóa Ngôn ngữ truy vấn khai phá dữ liệu và giao diện đồ họa cho người dùng
  • 56. 56 56 1.2.4. Các hệ thống khai phá dữ liệu Một số hệ thống khai phá dữ liệu: Intelligent Miner (IBM) Microsoft data mining tools (Microsoft SQL Server 2000/2005/2008) Oracle Data Mining (Oracle 9i/10g/11g) Enterprise Miner (SAS Institute) Weka (the University of Waikato, New Zealand, www.cs.waikato.ac.nz/ml/weka) …
  • 57. 57 57 1.2.4. Các hệ thống khai phá dữ liệu Phân biệt các hệ thống khai phá dữ liệu với Các hệ thống phân tích dữ liệu thống kê (statistical data analysis systems) Các hệ thống học máy (machine learning systems) Các hệ thống truy hồi thông tin (information retrieval systems) Các hệ cơ sở dữ liệu diễn dịch (deductive database systems) Các hệ cơ sở dữ liệu (database systems) …
  • 58. 58 58 1.3. Ý nghĩa và vai trò của khai phá dữ liệu Data Collection and Database Creation (1960s and earlier) Database Management Systems (1970s-early 1980s) Advanced Database Systems (mid-1980s-present) Advanced Data Analysis:Advanced Data Analysis: Data Warehousing and Data MiningData Warehousing and Data Mining (late 1980s(late 1980s--present)present) Web-based Database Systems (1990s-present) New Generation of Integrated Data and Information Systems (present-future) Sự tiến hóa của công nghệ hệ cơ sở dữ liệu
  • 59. 59 59 1.3. Ý nghĩa và vai trò của khai phá dữ liệu Công nghệ hiện đại trong lĩnh vực quản lý thông tin Hiện diện khắp nơi (ubiquitous) và có tính ẩn (invisible) trong nhiều khía cạnh của đời sống hằng ngày Làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, … Được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau Hỗ trợ các nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, …
  • 60. 60 60 1.4. Ứng dụng của khai phá dữ liệu Trong kinh doanh (business) Trong tài chính (finance) và tiếp thị bán hàng (sales marketing) Trong thương mại (commerce) và ngân hàng (bank) Trong bảo hiểm (insurance) Trong khoa học (science) và y sinh học (biomedicine) Trong điều khiển (control) và viễn thông (telecommunication) …
  • 61. 61 61 1.5. Tóm tắt Khai phá dữ liệu là quá trình khám phá ra các mẫu được quan tâm từ lượng lớn dữ liệu. Mẫu kết quả khai phá được là những mẫu thể hiện tri thức nếu chúng dễ hiểu, hợp lệ với một mức độ chắc chắn, hữu dụng, và mới đối với người dùng. Lượng lớn dữ liệu từ các cơ sở dữ liệu truyền thống/hiện đại, kho dữ liệu, hay từ các nguồn thông tin khác (spatial, time series, text, multimedia, web, …). Các tác vụ khai phá dữ liệu bao gồm khai phá mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa dữ liệu), khai phá luật kết hợp/tương quan, phân lớp, dự đoán, gom cụm, phân tích xu hướng, phân tích độ lệch và phần tử biên, phân tích độ tương tự, … Năm thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu: dữ liệu cụ thể sẽ được khai phá, loại tri thức sẽ đạt được, tri thức nền, các độ đo, và các kỹ thuật biểu diễn/trực quan hóa tri thức. Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu: cấu trúc mẫu hay mô hình, hàm tỉ số, phương pháp tìm kiếm và tối ưu hóa, chiến lược quản lý dữ liệu.
  • 62. 62 62 1.5. Tóm tắt Khai phá dữ liệu được xem như là một phần của quá trình khám phá tri thức. Quá trình khám phá tri thức là một chuỗi lặp gồm các bước: làm sạch dữ liệu, tích hợp dữ liệu, chọn lựa dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá mẫu, và biểu diễn tri thức. Nhiều lĩnh vực khác nhau có liên quan với khai phá dữ liệu: công nghệ cơ sở dữ liệu, lý thuyết thống kê, học máy, khoa học thông tin, trực quan hóa, … Các vấn đề liên quan: phương pháp luận khai phá dữ liệu, vấn đề tương tác người dùng, khả năng co giãn dữ liệu và hiệu suất, vấn đề xử lý lượng lớn các kiểu dữ liệu khác nhau, vấn đề khai thác các ứng dụng khai phá dữ liệu cũng như sự ảnh hưởng xã hội của chúng.
  • 63. 63 63 Hỏi & Đáp …Hỏi & Đáp …