Download luận văn thạc sĩ ngành công nghệ thông tin với đề tài: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam
Download luận án tiến sĩ ngành kinh tế phát triển với đề tài: Giải pháp đẩy mạnh ứng dụng công nghệ thông tin trong ngành thuế ở Việt Nam, cho các bạn có thể tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Luận văn thạc sĩ ngành quản trị kinh doanh: Các yếu tố ảnh hưởng đến cam kết nghề nghiệp của Điều dưỡng viên các Bệnh viện công tại thành phố Hồ Chí Minh
Download luận văn thạc sĩ ngành tài chính ngân hàng với đề tài: Phát hành trái phiếu quốc tế của Việt Nam - Thực trạng và giải pháp, cho các bạn có thể tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download luận văn thạc sĩ ngành quản lí công với đề tài: Quản lý nhà nước đối với các dự án đầu tư xây dựng cơ bản bằng ngân sách nhà nước cho xây dựng cơ sở hạ tầng tại huyện miền núi Đakrông, tỉnh Quảng Trị
Download luận án tiến sĩ với đề tài: Tổ chức công tác kế toán trong điều kiện ứng dụng công nghệ thông tin tại các doanh nghiệp KD xuất nhập khẩu VN, cho các bạn tham khảo
Download luận án tiến sĩ ngành quản trị kinh doanh với đề tài: Phát triển dịch vụ hỗ trợ kinh doanh (BSS) trong các khu công nghiệp ở tỉnh Bắc Ninh, cho các bạn có thể tham khảo
Download luận án tiến sĩ ngành kinh tế phát triển với đề tài: Giải pháp đẩy mạnh ứng dụng công nghệ thông tin trong ngành thuế ở Việt Nam, cho các bạn có thể tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Luận văn thạc sĩ ngành quản trị kinh doanh: Các yếu tố ảnh hưởng đến cam kết nghề nghiệp của Điều dưỡng viên các Bệnh viện công tại thành phố Hồ Chí Minh
Download luận văn thạc sĩ ngành tài chính ngân hàng với đề tài: Phát hành trái phiếu quốc tế của Việt Nam - Thực trạng và giải pháp, cho các bạn có thể tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download luận văn thạc sĩ ngành quản lí công với đề tài: Quản lý nhà nước đối với các dự án đầu tư xây dựng cơ bản bằng ngân sách nhà nước cho xây dựng cơ sở hạ tầng tại huyện miền núi Đakrông, tỉnh Quảng Trị
Download luận án tiến sĩ với đề tài: Tổ chức công tác kế toán trong điều kiện ứng dụng công nghệ thông tin tại các doanh nghiệp KD xuất nhập khẩu VN, cho các bạn tham khảo
Download luận án tiến sĩ ngành quản trị kinh doanh với đề tài: Phát triển dịch vụ hỗ trợ kinh doanh (BSS) trong các khu công nghiệp ở tỉnh Bắc Ninh, cho các bạn có thể tham khảo
Download luận văn thạc sĩ ngành công nghệ thông tin với đề tài: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp, cho các bạn có thể tham khảo
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong thời kỳ Đổi mới bằng một số mô hình toán kinh tế
Chuyên nhận viết thuê luận văn thạc sĩ, luận văn cao học, luận án tiến sĩ các chuyên ngành.
Luận văn A-Z cam kết đảm bảo chất lượng của bài viết.
Liên hệ:
Mail: luanvanaz@gmail.com
Web: https://luanvanaz.com
Phone: 092.4477.999 (Mr.Luan-Leader)
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong thời kỳ Đổi mới bằng một số mô hình toán kinh tế
Download luận văn thạc sĩ ngành tài chính ngân hàng với đề tài: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng khoán Việt Nam, cho các bạn có thể tham khảo
Download luận án tiến sĩ ngành kinh tế vi mô với đề tài: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doanh nghiệp May Việt Nam, cho các bạn có thể tham khảo
Luận Văn Thạc Sĩ Những Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán Tại Các Doanh Nghiệp Nhỏ Và Vừa Trên Địa Bàn Tỉnh Bến Tre đã chia sẻ đến cho các bạn nguồn tài liệu hoàn toàn hữu ích đáng để xem và tham khảo. Nếu như các bạn có nhu cầu cần tải bài mẫu này hãy nhắn tin nhanh qua zalo/telegram : 0932.091.562 để được hỗ trợ tải nhé.
Luận Văn Ứng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân Hàng Thương Mại Cổ Phần Việt Nam đã chia sẻ đến cho các bạn nguồn tài liệu hoàn toàn hữu ích đáng để xem và theo dõi. Nếu bạn có nhu cầu cần tải bài mẫu này hãy nhanh chóng nhắn tin qua zalo/telegram : 0973.287.149 để được hỗ trợ tải nhanh nhất có thể nhé
Download luận văn thạc sĩ ngành công nghệ thông tin với đề tài: Nghiên cứu và cài đặt một số đối tượng phân cụm, phân lớp, cho các bạn có thể tham khảo
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong thời kỳ Đổi mới bằng một số mô hình toán kinh tế
Chuyên nhận viết thuê luận văn thạc sĩ, luận văn cao học, luận án tiến sĩ các chuyên ngành.
Luận văn A-Z cam kết đảm bảo chất lượng của bài viết.
Liên hệ:
Mail: luanvanaz@gmail.com
Web: https://luanvanaz.com
Phone: 092.4477.999 (Mr.Luan-Leader)
LA01.028_Tiếp cận và phân tích động thái giá cả - lạm phát của Việt Nam trong thời kỳ Đổi mới bằng một số mô hình toán kinh tế
Download luận văn thạc sĩ ngành tài chính ngân hàng với đề tài: Ứng dụng một số mô hình đầu tư chính hiện đại vào thị trường chứng khoán Việt Nam, cho các bạn có thể tham khảo
Download luận án tiến sĩ ngành kinh tế vi mô với đề tài: Nghiên cứu tính kinh tế theo qui mô (Economies of scale) của các doanh nghiệp May Việt Nam, cho các bạn có thể tham khảo
Luận Văn Thạc Sĩ Những Nhân Tố Ảnh Hưởng Đến Tính Hữu Hiệu Hệ Thống Thông Tin Kế Toán Tại Các Doanh Nghiệp Nhỏ Và Vừa Trên Địa Bàn Tỉnh Bến Tre đã chia sẻ đến cho các bạn nguồn tài liệu hoàn toàn hữu ích đáng để xem và tham khảo. Nếu như các bạn có nhu cầu cần tải bài mẫu này hãy nhắn tin nhanh qua zalo/telegram : 0932.091.562 để được hỗ trợ tải nhé.
Luận Văn Ứng Dụng Mô Hình Dea Đánh Giá Hiệu Quả Hoạt Động Của Các Ngân Hàng Thương Mại Cổ Phần Việt Nam đã chia sẻ đến cho các bạn nguồn tài liệu hoàn toàn hữu ích đáng để xem và theo dõi. Nếu bạn có nhu cầu cần tải bài mẫu này hãy nhanh chóng nhắn tin qua zalo/telegram : 0973.287.149 để được hỗ trợ tải nhanh nhất có thể nhé
Similar to Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam (20)
List 200 Đề Tài Báo Cáo Thực Tập Ngành Du Lịch Lữ Hành, Điểm Cao Mới Nhất. Lựa chọn đề tài báo cáo điểm cao. DỊCH VỤ VIẾT THUÊ BÁO CÁO THỰC TẬP, ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Điện Tử Viễn Thông, 9 Điểm. Chọn lọc đề tài báo cáo dễ làm. NHẬN VIẾT BÁO CÁO THỰC TẬP, ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Hệ Thống Thông Tin, Từ Các Trường Đại Học. Lựa chọn đề tài báo cáo điểm cao. VIẾT THUÊ BÁO CÁO THỰC TẬP, ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Doanh Thương Mại, Từ Sinh Viên Khá Giỏi. Lựa chọn đề tài báo cáo phù hợp. NHẬN VIẾT BÁO CÁO THỰC TẬP, ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Đầu Tư, Từ Sinh Viên Khá Giỏi. Báo cáo thực tập điểm cao. DỊCH VỤ VIẾT THUÊ BÁO CÁO THỰC TẬP. ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Kinh Tế Quốc Tế, Điểm Cao Từ Các Trường Đại Học. Lựa chọn đề tài báo cáo điểm cao. NHẬN VIẾT BÁO CÁO THỰC TẬP. ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành May Thời Trang, Từ Sinh Viên Khá Giỏi. Chọn lọc đề tài báo cáo thực tập. NHẬN VIẾT BÁO CÁO THỰC TẬP, ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Ngôn Ngữ Anh, Từ Sinh Viên Khá Giỏi. Những đề tài báo cáo thực tập, VIẾT THUÊ BÁO CÁO THỰC TẬP. ZALO/TELEGRAM 0917 193 864
List 200 đề tài báo cáo thực tập ngành ngôn ngữ nhật, từ các trường đại học. Những đề tài báo cáo thực tập HAY. DỊCH VỤ VIẾT THUÊ BÁO CÁO THỰC TẬP. ZALO/TELEGRAM 0917 193 864
List 200 Đề Tài Báo Cáo Thực Tập Ngành Quản Lý Công, 9 Điểm Từ Sinh Viên Giỏi. Những đề tài khóa luận điểm cao. HỖ TRỢ VIẾT THUÊ BÁO CÁO THỰC TẬP. ZALO/TELEGRAM 0917 193 864
More from Dịch Vụ Viết Thuê Khóa Luận Zalo/Telegram 0917193864 (20)
kl_HOÀN THIỆN CÔNG TÁC ĐÁNH GIÁ THỰC HIỆN CÔNG VIỆC TẠI CÔNG TY CỔ PHẦN ĐẦU T...Luận Văn Uy Tín
Luận Văn Uy Tín cung cấp dịch vụ viết thuê luận văn thạc sĩ, tốt nghiệp, báo cáo thực tập, hoàn tiền 100% nếu bài bị đánh rớt, bảo mật thông tin, giao bài đúng hạn.
Hành vi tình dục không an toàn và các yếu tố liên quan trong nhóm nam quan hệ...Man_Ebook
Hành vi tình dục không an toàn và các yếu tố liên quan trong nhóm nam quan hệ tình dục đồng giới tại Hà Nội năm 2009-2010
Liên hệ tài tài liệu (Free): https://www.facebook.com/man.trl/
Hành vi tình dục không an toàn và các yếu tố liên quan trong nhóm nam quan hệ...
Luận văn: Nghiên cứu và ứng dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam
1. NGUYNTHUTRÀCÔNGNGHTHÔNGTIN2004-2006
B GIÁO D C VÀ ðÀO T O
TRƯ NG ð I H C BÁCH KHOA HÀ N I
----------------------------------------------
LU N VĂN TH C S KHOA H C
NGÀNH: CÔNG NGH THÔNG TIN
NGHIÊN C U VÀ ÁP D NG M T S K THU T
KHAI PHÁ D LI U
V I CƠ S D LI U NGÀNH THU VI T NAM
NGUY N THU TRÀ
Hà N i
2006
Hà N i 2006
2. 2
M C L C
DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T........................4
DANH M C CÁC B NG ..........................................................................5
DANH M C CÁC HÌNH V .....................................................................6
M ð U .....................................................................................................8
CHƯƠNG 1. KHAI PHÁ D LI U .....................................................12
1.1. T ng quan khai phá d li u.....................................................12
1.1.1 D li u.............................................................................. 14
1.1.2 Ti n x lý d li u .............................................................. 16
1.1.3 Mô hình khai phá d li u .................................................. 18
1.2. Các ch c năng cơ b n khai phá d li u ..................................19
1.2.1 Phân l p (Classification) .................................................. 19
1.2.2 H i qui.............................................................................. 31
1.2.3 Phân nhóm........................................................................ 34
1.2.4 Khai phá lu t k t h p........................................................ 38
CHƯƠNG 2. M T S THU T TOÁN KHAI PHÁ D LI U ..........46
2.1. Thu t toán khai phá lu t k t h p.............................................46
2.1.1 Thu t toán Apriori ............................................................ 46
2.1.2 Thu t toán AprioriTid ....................................................... 49
2.1.3 Thu t toán AprioriHybrid ................................................. 51
2.2. C i ti n hi u qu thu t toán Apriori........................................54
2.2.2 Phương pháp FP-tree ....................................................... 56
2.2.3 Thu t toán PHP ................................................................ 59
2.2.4 Thu t toán PCY................................................................. 63
2.2.5 Thu t toán PCY nhi u ch ng............................................. 65
2.3. Thu t toán phân l p b ng h c cây quy t ñ nh........................67
2.3.1 Các ñ nh nghĩa.................................................................. 68
2.3.2 Thu t toán ID3.................................................................. 69
2.3.3 Các m r ng c a C4.5 ...................................................... 70
CHƯƠNG 3. ÁP D NG KHAI PHÁ TRÊN CSDL NGÀNH THU ..72
3.1. CSDL ngành Thu ..................................................................72
3.2. L a ch n công c khai phá .....................................................73
3.2.1 L a ch n công c .............................................................. 73
3.2.2 Oracle Data Mining (ODM) ............................................. 76
3.2.3 DBMS_DATA_MINING.................................................... 78
3.3. M c tiêu khai thác thông tin c a ngành Thu .........................79
3. 3
3.4. Th nghi m khai phá lu t k t h p ..........................................81
3.5. Phân l p b ng h c cây quy t ñ nh ..........................................91
3.5.1 Phân l p ðTNT d a vào so sánh t su t các năm ............. 93
3.5.2 Phân l p ðTNT theo s li u c a m t năm......................... 96
CHƯƠNG 4. K T LU N....................................................................102
HƯ NG NGHIÊN C U TI P THEO..................................................103
TÀI LI U THAM KH O ......................................................................104
PH L C................................................................................................106
4. 4
DANH M C CÁC KÝ HI U VÀ CÁC CH VI T T T
Ký hi u, ch vi t t t Ý nghĩa
Association Rules Các lu t k t h p
Candidate itemset M t itemset trong t p Ck ñư c s d ng ñ sinh ra các
large itemset
Ck T p các candidate k-itemset giai ño n th k
Confidence ð ch c ch n c a lu t k t h p
= support(X∪Y)/support(X) ph n ánh kh năng giao
d ch h tr X thì cũng h tr Y
CSDL Cơ s d li u
DM Data mining – Khai phá d li u
DW Data warehouse – Kho d li u
ðTNT ð i tư ng n p thu , ch t i các cá nhân ho c t ch c
n p thu
Frequent/large itemset M t itemset có ñ h tr (support) >= ngư ng ñ h
tr t i thi u
ID Identifier
Item M t ph n t c a itemset
Itemset T p c a các item
k-itemset M t itemset có ñ dài k
Lk T p các Large itemset giai ño n th k
ODM Oracle Data Mining – 1 công c khai phá d li u
TID Unique Transaction Identifier
Transaction Giao d ch
5. 5
DANH M C CÁC B NG
B ng 1.1: CSDL ñơn gi n g m các ví d hu n luy n ....................................25
B ng 1.2 Mô hình CSDL giao d ch ñơn gi n .................................................39
B ng 2.1 Cơ s d li u giao d ch T ...............................................................56
B ng 2.2 B ng các s n ph m khai phá d li u ...............................................74
6. 6
DANH M C CÁC HÌNH V
Hình 1.1 Quá trình khám phá tri th c.............................................................14
Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi ...........................................16
Hình 1.3: Cây quy t ñ nh ñơn gi n v i các tests trên các thu c tính X và Y.22
Hình 1.4: S phân l p m t m u m i d a trên mô hình cây quy t ñ nh .........23
Hình 1.5 Cây quy t ñ nh cu i cùng cho CSDL T ñã nêu trong b ng 1.1.......29
Hình 1.6 Cây quy t ñ nh d ng gi code cho CSDL T (b ng 1.1)...............29
Hình 1.7 H i qui tuy n tính ............................................................................32
Hình 1.8 G p nhóm theo phương pháp k-means (ði m ñánh d u + là tâm) 36
Hình 1.9 Phân ho ch vun ñ ng ho c tách d n...............................................37
Hình 1.10 Bư c l p ñ u tiên c a thu t toán Apriori cho CSDL DB ..............41
Hình 1.11 L n l p th 2 c a thu t toán Apriori cho CSDL DB .....................42
Hình 1.12 L n l p th 3 c a thu t toán Apriori cho CSDL DB .....................42
Hình 2.1 Thu t toán Apriori............................................................................46
Hình 2.2 Thu t toán AprioriTid......................................................................50
Hình 2.3 Ví d ................................................................................................51
Hình 2.4: Th i gian th c hi n cho m i l n duy t c a Apriori và AprioriTid 52
Hình 2.5: M t ví d c a cây phân c p khái ni m cho khai phá các frequent
itemsets nhi u m c..........................................................................................55
Hình 2.6: FP-tree cho CSDL T trong b ng 2.1...............................................57
Hình 2.7 Thu t toán PHP ................................................................................62
Hình 2.8 B nh v i 2 l n duy t c a thu t toán PCY ..................................63
Hình 2.9 S d ng b nh cho các b ng băm nhi u ch ng.............................66
Hình 3.1 Công s c c n cho m i giai ño n khai phá d li u..........................82
Hình 3.2 Các bư c khai phá lu t k t h p trên CSDL ngành Thu ................83
Hình 3.3 Nhánh cây phân c p ngành ngh ....................................................85
Hình 3.4 Các lu t khai phá t ODM (ñ dài lu t = 2)...................................87
7. 7
Hình 3.5 Các lu t khai phá t ODM (ñ dài lu t = 3)...................................89
Hình 3.6 Cây quy t ñ nh dùng ODM – Bài toán phân tích t su t................95
Hình 3.7 Cây quy t ñ nh dùng See5 – Bài toán phân tích t su t .................96
Hình 3.8 Cây quy t ñ nh dùng ODM – Bài toán xét s li u m t năm...........99
Hình 3.9 Cây quy t ñ nh dùng See5 – Bài toán phân tích trong năm..........100
8. 8
M ð U
Th i ñ i phát tri n m nh c a Internet, Intranet, Data warehouse, cùng
v i s phát tri n nhanh v công ngh lưu tr ñã t o ñi u ki n cho các doanh
nghi p, các t ch c thu th p và s h u ñư c kh i lư ng thông tin kh ng l .
Hàng tri u CSDL ñã ñư c dùng trong qu n tr kinh doanh, qu n lý chính ph ,
qu n lý d li u khoa h c và nhi u ng d ng khác. V i kh năng h tr m nh
c a các H qu n tr CSDL, các CSDL này càng l n lên nhanh chóng. Câu “S
l n m nh c a các CSDL d n ñ n s c n thi t ph i có các k thu t và các công
c m i ñ th c hi n chuy n ñ i t ñ ng d li u m t cách thông minh thành
thông tin và tri th c h u ích” [10] ñã tr thành ñ t v n ñ c a nhi u bài vi t
v khai phá thông tin và tri th c t các CSDL l n.
Công tác trong ngành Thu , nơi Công ngh thông tin ñư c áp d ng vào
qu n lý Thu t nh ng năm 1986, CSDL thông tin liên quan ñ n các lĩnh v c
qu n lý Thu là m t CSDL l n và ch c ch n ti m n nhi u thông tin quý báu.
V i mong mu n bư c ñ u áp d ng k thu t khai phá d li u trên CSDL
ngành Thu , lu n văn ñã t p trung nghiên c u v các k thu t khai phá d
li u và ti n hành khai phá th nghi m trên CSDL ngành Thu .
Kh năng m r ng tri th c có ích n trong d li u ñ ñưa ra nh ng
hành ñ ng c n thi t d a trên tri th c ñó ñang tr nên ngày càng quan tr ng
trong th gi i c nh tranh hi n nay. Toàn b quá trình dùng các phương pháp
lu n d a trên tính toán, bao g m các k thu t m i ñ phát hi n ra tri th c t
d li u ñư c g i là khai phá d li u (data mining). [9]
Khai phá d li u là s tìm ki m thông tin m i, có giá tr và không t m
thư ng trong m t kh i lư ng d li u l n. Nó là s ph i h p n l c c a con
ngư i và máy tính. Các k t qu t t nh t nh n ñư c b ng vi c cân b ng gi a
9. 9
tri th c c a các chuyên gia con ngư i trong vi c mô t các v n ñ và m c
ñích v i kh năng tìm ki m c a máy tính.
Hai m c ñích chính c a khai phá d li u là ñ d ñoán (prediction) và
mô t (description). D ñoán bao g m vi c dùng m t vài bi n ho c trư ng
trong t p d li u ñ d ñoán các giá tr tương lai ho c chưa bi t c a các bi n
c n quan tâm. Còn mô t t p trung vào vi c tìm ra các m u mô t d li u mà
con ngư i có th hi u ñư c/ biên d ch ñư c. Có th ñưa các ho t ñ ng khai
phá d li u vào m t trong hai lo i sau:
Khai phá d li u d báo, t o ra mô hình c a h th ng ñư c mô t
b i t p d li u cho trư c, ho c
Khai phá d li u mô t , v i vi c t o ra thông tin m i, không t m
thư ng d a trên t p d li u có s n.
M t s ch c năng khai phá d li u chính như:
Mô t khái ni m: Mô t ñ c ñi m và phân bi t. Tìm ra các ñ c ñi m
khái quát hoá, t ng k t, các ñ c ñi m khác nhau trong d li u.
K t h p: xem xét v tương quan và quan h nhân qu .
Phân l p và d báo (Classification and Prediction): Xác ñ nh mô
hình mô t các l p riêng bi t và dùng cho d ñoán tương lai.
Phân tích nhóm (Cluster analysis): Chưa bi t nhãn l p, th c hi n
nhóm d li u thành các l p m i d a trên nguyên t c c c ñ i hoá s
tương t trong cùng l p và c c ti u hoá s khác tương t gi a các
l p khác nhau.
Phân tích nhi u (Outlier analysis): H u ích trong vi c phát hi n l i,
phân tích các s ki n hi m.
Phân tích xu hư ng và s phát tri n
Khai phá d li u là m t trong nh ng lĩnh v c phát tri n nhanh nh t
trong công nghi p máy tính. T ch là m t mi n quan tâm nh trong khoa h c
10. 10
máy tính và th ng kê, nó ñã nhanh chóng m r ng thành m t lĩnh v c/ngành
c a riêng nó. M t trong nh ng l n m nh nh t c a khai phá d li u là s nh
hư ng trong ph m vi r ng c a các phương pháp lu n và các k thu t ñư c
ng d ng ñ i v i m t lo t các bài toán, các lĩnh v c.
Trong kinh doanh, khai phá d li u có th ñư c dùng ñ khám phá ra
nh ng xu hư ng mua s m m i, k ho ch cho các chi n lư c ñ u tư, và phát
hi n nh ng s tiêu dùng không chính ñáng t h th ng k toán. Nó có th
giúp c i ti n các chi n d ch marketing ñ mang l i nhi u h tr và quan tâm
hơn t i khách hàng. Các k thu t khai phá d li u có th ñư c áp d ng ñ i
v i các bài toán thi t k l i quy trình kinh doanh, trong ñó m c ñích là ñ hi u
ñư c các tương tác và quan h trong thông l kinh doanh và các t ch c kinh
doanh.
Nhi u ñơn v thi hành lu t, các ñơn v ñi u tra ñ c bi t, có nhi m v
tìm ra các hành ñ ng không trung th c và phát hi n ra các xu hư ng ph m t i,
cũng ñã s d ng khai phá d li u m t cách thành công. Các k thu t khai phá
d li u cũng có th ñư c dùng trong các t ch c tình báo nơi lưu gi nhi u
ngu n d li u l n liên quan ñ n các ho t ñ ng, các v n ñ v an ninh qu c
gia.
V i m c ñích nghiên c u m t s phương pháp khai phá d li u và th
nghi m khai phá trên CSDL ngành Thu , lu n văn ñư c trình bày v i các
ph n sau:
Chương 1 – Khai phá d li u: Tìm hi u các ch c năng khai phá d li u.
Chương 2 – M t s thu t toán khai phá d li u. Nghiên c u trên hai
ki u khai phá: Khai phá lu t k t h p - m t k thu t thông d ng trong h c
không giám sát. Phân l p b ng h c cây quy t ñ nh - k thu t h c có giám sát.
Chương 3 – Áp d ng khai phá trên CSDL ngành Thu : Th nghi m
khai phá lu t k t h p và phân l p trên CSDL ngành Thu
11. 11
Chương 4 – K t lu n và nh ng k t qu ñ t ñư c
Cu i cùng là m t s hư ng nghiên c u ti p theo.
Em xin chân thành c m ơn PGS. TS Nguy n Ng c Bình ñã hư ng d n
và cho em nh ng ý ki n quý báu, chân thành c m ơn các th y cô giáo c a
trư ng ð i h c Bách khoa Hà N i ñã trang b ki n th c giúp em hoàn thành
lu n văn này.
12. 12
CHƯƠNG 1. KHAI PHÁ D LI U
1.1. T ng quan khai phá d li u
Khai phá d li u có ngu n g c t các phương pháp riêng bi t, 2 d ng
quan tr ng nh t là th ng kê và h c máy. Th ng kê có ngu n g c t toán h c
và do ñó nh n m nh ñ n ñ chính xác toán h c, mong mu n thi t l p cái mà
có th nh n ra trên n n toán h c trư c khi ki m th nó trong th c t . Ngư c
l i, h c máy có ngu n g c r t nhi u trong th c ti n tính toán. ði u này d n
ñ n s hư ng th c ti n, s n sàng ki m th ñ bi t nó th c hi n t t th nào mà
không c n ch m t ch ng minh chính th c. [9]
Có th có ñ nh nghĩa v Khai phá d li u như sau: Khai phá d li u là
quá trình phát hi n các mô hình, các t ng k t khác nhau và các giá tr ñư c
l y t t p d li u cho trư c. [9]
Hay, Khai phá d li u là s thăm dò và phân tích lư ng d li u l n ñ
khám phá t d li u ra các m u h p l , m i l , có ích và có th hi u ñư c
[14]. H p l là các m u ñ m b o tính t ng quát, m i l là m u chưa ñư c bi t
trư c ñó, có ích là có th d a vào m u ñó ñưa ra các hành ñ ng phù h p, hi u
ñư c là có th biên d ch và hi u th u ñáo các m u.
Các k năng phân tích c a con ngư i là không ñ y ñ do: Kích thư c
và chi u c a d li u; t c ñ tăng trư ng c a d li u là r t l n. Thêm vào ñó là
nh ng ñáp ng m nh m c a k thu t v kh năng: thu th p d li u, lưu tr ,
năng l c tính toán, ph n m m, s thành th o v chuyên môn. Ngoài ra còn có
môi trư ng c nh tranh v d ch v , ch không ch c nh tranh v giá (ñ i v i
Ngân hàng, công ty ñi n tho i, khách s n, công ty cho thuê …) v i câu “Bí
quy t c a s thành công là bi t nh ng gì mà không ai khác bi t” (Aristotle
Onassis [14]). T t c nh ng ñi u ñó chính là nh ng nguyên nhân thúc ñ y
Khai phá d li u phát tri n.
13. 13
Quá trình khám phá tri th c:
Trư c tiên, phân bi t gi a các thu t ng “mô hình (model)” và “m u
(pattern)” dùng trong khai phá d li u. Mô hình là m t c u trúc “quy mô l n”,
có th là t ng k t các quan h qua nhi u trư ng h p (case) (ñôi khi là t t c
các trư ng h p), trong khi m u là m t c u trúc c c b , tho mãn b i m t s ít
trư ng h p ho c trong m t mi n nh c a không gian d li u. Trong khai phá
d li u, m t m u ñơn gi n là m t mô hình c c b .
Quá trình khám phá tri th c ti n hành theo các bư c sau:
1. Xác ñ nh bài toán nghi p v : Trư c tiên ph i tìm hi u lĩnh v c c a ng
d ng nghi p v ; Tìm hi u các tri th c liên quan và các m c ñích c a ng
d ng.
2. Khai phá d li u
- L a ch n d li u: Xác ñ nh các t p d li u ñích và các trư ng liên
quan
- Làm s ch d li u: Xoá b nhi u, ti n x lý. Ph n vi c này có th
chi m t i 60% công s c.
- Gi m b t d li u và chuy n ñ i d li u: Tìm ra nh ng ñ c trưng
h u d ng, gi m b t các chi u ho c các bi n, bi u di n l i các ñ i
lư ng b t bi n
- L a ch n ch c năng khai phá d li u: T ng k t, phân l p, H i qui,
k t h p, phân nhóm.
- L a ch n thu t toán khai phá.
- Th c hi n khai phá d li u (Data Mining): Tìm ki m các m u quan
tâm
- ðánh giá các m u và bi u di n tri th c
14. 14
Hình 1.1 Quá trình khám phá tri th c
3. Áp d ng khám phá tri th c
4. ðánh giá và ño ñ c
5. Tri n khai và tích h p vào các qui trình nghi p v
1.1.1 D li u
Do có nhi u ki u d li u, các CSDL s d ng trong các ng d ng cũng
khác nhau, nên ngư i dùng luôn mong ñ i m t h th ng khai phá d li u có
th ñi u khi n ñư c t t c các lo i d li u. Th c t CSDL có s n thư ng là
CSDL quan h và h th ng khai phá d li u cũng th c hi n hi u qu vi c khai
phá tri th c trên d li u quan h . V i nh ng CSDL c a ng d ng ch a các
ki u d li u ph c t p, như d li u hypertext và multimedia, d li u t m và
không gian (spatial), d li u k th a (legacy)… thư ng ph i có các h th ng
khai phá d li u riêng bi t xây d ng ñ khai phá cho các ki u d li u c th .
15. 15
D li u ñư c khai phá có th là d li u có c u trúc, ho c không có c u
trúc. M i b n ghi d li u ñư c coi như m t trư ng h p ho c m t ví d
(case/example).
Phân bi t hai ki u thu c tính: phân lo i (categorical) và s
(numerical). Các thu c tính ki u phân lo i là nh ng thu c tính có các giá tr
thu c vào m t s lư ng nh các phân lo i ho c các l p riêng r và gi a chúng
không có th t n nào. N u ch có 2 giá tr , ví d là yes và no, ho c male và
female, thu c tính ñư c coi là binary. N u có hơn 2 giá tr , ví d , nh , v a,
l n, r t l n, thu c tính ñư c coi là ña l p (multiclass).
Các thu c tính s là nh ng thu c tính l y các giá tr liên t c, ví d , thu
nh p hàng năm, ho c tu i. Thu nh p hàng năm ho c tu i có th v lý thuy t
là b t kỳ m t giá tr nào t 0 t i vô h n, m c dù m i giá tr thư ng xu t hi n
phù h p v i th c t . Các thu c tính s có th ñư c bi n ñ i thành categorical:
Ví d , thu nh p hàng năm có th ñư c chia thành các lo i: th p, trung bình,
cao.
D li u không có c u trúc có th áp d ng các thu t toán khai phá d
li u thư ng là d li u ki u Text.
Khuôn d ng b ng c a d li u có th thu c hai lo i:
D li u d ng ñơn b n ghi (còn g i là ki u không giao d ch), ñây là
các b ng d li u quan h thông thư ng.
D li u d ng ña b n ghi (còn g i là ki u giao d ch), ñư c dùng cho
d li u v i nhi u thu c tính.
d ng ñơn b n ghi (ki u không giao d ch), m i b n ghi ñư c lưu tr
như 1 dòng trong b ng. D li u ñơn b n ghi không ñòi h i cung c p khoá ñ
xác ñ nh duy nh t m i b n ghi. Nhưng, khoá là c n cho các trư ng h p k t
h p (associate) ñ có k t qu cho h c có giám sát.
16. 16
Trong d ng ña b n ghi (ki u giao d ch), m i trư ng h p (case) ñư c
lưu trong nhi u b n ghi trong m t b ng v i các c t: dãy s ñ nh danh, tên
thu c tính, giá tr .
Hình 1.2 Khuôn d ng ñơn b n ghi và ña b n ghi
1.1.2 Ti n x lý d li u
D li u ñư c ch n l c s ph i qua bư c ti n x lý trư c khi ti n hành
khai phá phát hi n tri th c. Bư c thu th p và ti n x lý d li u là bư c r t
ph c t p. ð m t gi i thu t DM th c hi n trên toàn b CSDL s r t c ng
k nh, kém hi u qu . Trong quá trình khai phá d li u, nhi u khi ph i th c
hi n liên k t/tích h p d li u t r t nhi u ngu n khác nhau. Các h th ng s n
có ñư c thi t k v i nh ng m c ñích và ñ i tư ng ph c v khác nhau, khi t p
h p d li u t nh ng h th ng này ñ ph c v khai phá d li u, hi n tư ng dư
th a là r t ph bi n, ngoài ra còn có th x y ra xung ñ t gây m y d li u, d
li u không ñ ng nh t, không chính xác. Rõ ràng yêu c u ch n l c và làm s ch
d li u là r t c n thi t.
N u ñ u vào c a quá trình khai phá là d li u trong DW thì s r t thu n
ti n, vì d li u này ñã ñư c làm s ch, nh t quán và có tính ch t hư ng ch ñ .
17. 17
Tuy nhiên nhi u khi v n ph i có thêm m t s bư c ti n x lý ñ ñưa d li u
v ñúng d ng c n thi t.
Ngoài m t s x lý thông thư ng như: bi n ñ i, t p h p d li u t
nhi u ngu n v m t kho chung, x lý ñ ñ m b o nh t quán d li u (kh các
trư ng h p l p, th ng nh t cách ký hi u, chuy n ñ i v khuôn d ng th ng
nh t (ñơn v ti n t , ngày tháng..)). M t s x lý ñ c bi t c n chú ý trong
bư c ti n x lý d li u:
X lý v i d li u thi u (missing data): Thư ng thì khi khai phá d li u
không ñòi h i NSD ph i x lý các giá tr thi u b ng cách th c ñ c bi t nào.
Khi khai phá, thu t toán khai phá s b qua các giá tr thi u. Tuy nhiên trong
m t vài trư ng h p c n chú ý ñ ñ m b o thu t toán phân bi t ñư c gi a giá
tr có nghĩa (“0”) v i giá tr tr ng. (tham kh o trong [11]).
Các giá tr gây nhi u (Outliers): M t outlier là m t giá tr xa bên
ngoài c a mi n thông thư ng trong t p h p d li u, là giá tr chênh l ch v i
chu n v ý nghĩa. S có m t c a outliers có th có nh hư ng ñáng k trong
các mô hình khai phá d li u.
Outliers nh hư ng ñ n khai phá d li u trong bư c ti n x lý d li u
ho c là khi nó ñư c th c hi n b i NSD ho c t ñ ng trong khi xây d ng mô
hình.
Binning: M t vài thu t toán khai phá d li u có th có l i nh vi c
binning v i c hai lo i d li u number và categorical. Các thu t toán Naive
Bayes, Adaptive Bayes Network, Clustering, Attribute Importance, và
Association Rules có th có l i t vi c binning.
Binning nghĩa là nhóm các giá tr liên quan v i nhau, như v y gi m s
lư ng các giá tr riêng bi t c a m t thu c tính. Có ít hơn các giá tr riêng bi t
d n ñ n mô hình g n nh và xây d ng ñư c nhanh hơn, nhưng nó cũng có th
18. 18
d n ñ n vi c m t ñi ñ chính xác [11] (Các phương pháp tính toán ranh gi i
bin [11]).
1.1.3 Mô hình khai phá d li u
Mô hình khai phá d li u là m t mô t v m t khía c nh c th c a m t
t p d li u. Nó t o ra các giá tr ñ u ra cho t p các giá tr ñ u vào.
Ví d : Mô hình H i qui tuy n tính, mô hình phân l p, mô hình phân
nhóm.
M t mô hình khai phá d li u có th ñư c mô t 2 m c:
M c ch c năng (Function level): Mô t mô hình b ng nh ng thu t
ng v d ñ nh s d ng. Ví d : Phân l p, phân nhóm.
M c bi u di n (representation level): Bi u di n c th m t mô hình.
Ví d : Mô hình log-linear, cây phân l p, phương pháp láng gi ng
g n nh t.
Các mô hình khai phá d li u d a trên 2 ki u h c: có giám sát và không
giám sát (ñôi khi ñư c nói ñ n như là h c tr c ti p và không tr c ti p –
directed and undirected learning) [11].
Các hàm h c có giám sát (Supervised learning functions) ñư c s d ng
ñ d ñoán giá tr . Các hàm h c không giám sát ñư c dùng ñ tìm ra c u trúc
bên trong, các quan h ho c tính gi ng nhau trong n i dung d li u nhưng
không có l p hay nhãn nào ñư c gán ưu tiên. Ví d c a các thu t toán h c
không giám sát g m phân nhóm k-mean (k-mean clustering) và các lu t k t
h p Apriori. M t ví d c a thu t toán h c có giám sát bao g m Naive Bayes
cho phân l p (classification).
Tương ng có 2 lo i mô hình khai phá d li u:
Các mô hình d báo (h c có giám sát):
19. 19
• Phân l p: nhóm các items thành các l p riêng bi t và d ñoán
m t item s thu c vào l p nào.
• H i qui (Regression): x p x hàm và d báo các giá tr liên t c
• ð quan tr ng c a thu c tính: xác ñ nh các thu c tính là quan
tr ng nh t trong các k t qu d báo
Các mô hình mô t (h c không giám sát):
• Phân nhóm (Clustering): Tìm các nhóm t nhiên trong d li u
• Các mô hình k t h p (Association models): Phân tích “gi hàng”
• Trích ch n ñ c trưng (Feature extraction): T o các thu c tính
(ñ c trưng) m i như là k t h p c a các thu c tính ban ñ u
1.2. Các ch c năng cơ b n khai phá d li u
1.2.1 Phân l p (Classification)
Trong bài toán phân l p, ta có d li u l ch s (các ví d ñư c gán nhãn
- thu c l p nào) và các d li u m i chưa ñư c gán nhãn. M i ví d ñư c gán
nhãn bao g m nhi u thu c tính d báo và m t thu c tính ñích (bi n ph
thu c). Giá tr c a thu c tính ñích chính là nhãn c a l p. Các ví d không
ñư c gán nhãn ch bao g m các thu c tính d báo. M c ñích c a vi c phân
l p là xây d ng mô hình d a vào d li u l ch s ñ d báo chính xác nhãn
(l p) c a các ví d không gán nhãn. [11]
Nhi m v phân l p b t ñ u v i vi c xây d ng d li u (d li u hu n
luy n) có các giá tr ñích (nhãn l p) ñã bi t. Các thu t toán phân l p khác
nhau dùng các k thu t khác nhau cho vi c tìm các quan h gi a các giá tr
c a thu c tính d báo và các giá tr c a thu c tính ñích trong d li u hu n
luy n. Nh ng quan h này ñư c t ng k t trong mô hình, sau ñó ñư c dùng
20. 20
cho các trư ng h p m i v i các giá tr ñích chưa bi t ñ d ñoán các giá tr
ñích.
Mô hình phân l p có th ñư c dùng trên b d li u ki m th /d li u
ñánh giá v i m c ñích so sánh các giá tr d báo v i các câu tr l i ñã bi t.
K thu t này ñư c g i là ki m tra mô hình, nó ño ñ chính xác d báo c a
mô hình.
Áp d ng mô hình phân l p ñ i v i d li u m i ñư c g i là s d ng mô
hình, và d li u ñư c g i là d li u s d ng hay d li u trung tâm (apply data
or scoring data). Vi c s d ng d li u thư ng ñư c g i là ‘scoring the data’.
S phân l p ñư c dùng trong phân ño n khách hàng, phân tích tín
d ng, và nhi u ng d ng khác. Ví d , công ty th tín d ng mu n d báo
nh ng khách hàng nào s không tr ñúng h n trên các chi tr c a h . M i
khách hàng tương ng v i m t trư ng h p; d li u cho m i trư ng h p có th
bao g m m t s thu c tính mô t thói quen tiêu dùng c a khách hàng, thu
nh p, các thu c tính nhân kh u h c,… ðây là nh ng thu c tính d báo.
Thu c tính ñích ch ra có hay không ngư i khách hàng ñã v n /không tr
ñúng h n; như v y, có hai l p có kh năng, tương ng v i v n ho c không.
D li u hu n luy n s ñư c dùng ñ xây d ng mô hình dùng cho d báo các
trư ng h p m i sau này (d báo khách hàng m i có kh năng chi tr n
không).
Chi phí (Costs):
Trong bài toán phân l p, có th c n xác ñ nh chi phí bao hàm trong vi c
t o ra m t quy t ñ nh sai l m. Vi c này là quan tr ng và c n thi t khi có
chênh l ch chi phí l n gi a các phân l p sai (misclassification). Ví d , bài
toán d báo có hay không m t ngư i s tr l i v i thư qu ng cáo. ðích có 2
phân lo i: YES (khách hàng tr l i) và NO (khách hàng không tr l i). Gi s
tr l i tích c c ñ i v i qu ng cáo sinh ra $500 và nó tr giá $5 ñ g i thư. N u
21. DOWNLOAD ĐỂ XEM ĐẦY ĐỦ NỘI DUNG
MÃ TÀI LIỆU: 52486
DOWNLOAD: + Link tải: tailieumau.vn
Hoặc : + ZALO: 0932091562