Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Giảng viên: Nguyễn Đình Hóa PTIT
Hệ thống thông tin - Công nghệ phần mềm PTIT
#ptit #ai #httt #poppinkhiem #poppingkhiem
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp với đề tài: Nghiên cứu thuật toán K-nearest neighbor và sử dụng iris flowers dataset đánh giá hiệu quả thuật toán, cho các bạn làm luận văn tham khảo
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Giảng viên: Nguyễn Đình Hóa PTIT
Hệ thống thông tin - Công nghệ phần mềm PTIT
#ptit #ai #httt #poppinkhiem #poppingkhiem
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp với đề tài: Nghiên cứu thuật toán K-nearest neighbor và sử dụng iris flowers dataset đánh giá hiệu quả thuật toán, cho các bạn làm luận văn tham khảo
Giáo trình "Giáo Trình Hệ Thống Thông Tin Quản Lý" được viết cho đối tượng là các nhà quản lý kinh tế chứ không phải cho đối tượng chuyên tin học. Do đó các vấn đề được lựa chọn để trình bày đều xuất phát từ quan điểm của nhà quản lý. gồm 9 chương sau: Chương 1: Một số vấn đề cơ bản về hệ thống thông tin quản lý Chương 2: Phân tích hệ thống thông tin Chương 3: Thiết kế hệ thống thông tin quản lý Chương 4: Cài đặt hệ thống thông tin quản lý Chương 5: Hiệu quả kinh tế của hệ thống thông tin quản lý Chương 6: Các hệ thống thông tin trong kinh tế và thương mại Chương 7: Các tính toán kinh tế - tài chính trong hệ thống thông tin quản lý Chương 8: Sử dụng cơ sở dữ liệu trong hệ thống thông tin quản lý Chương 9: Nghiên cứu tình huống
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download đề tài: Quản lý hệ thống bán vé máy bay của hãng hàng không Vietnam Airline sử dụng mô hình CSDL phân tán SQL server, cho các bạn tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download báo cáo môn Phân tích thiết kế hướng đối tượng với đề tài: Quản lí Tour du lịch, cho các bạn làm đề tài tham khảo
Giáo trình "Giáo Trình Hệ Thống Thông Tin Quản Lý" được viết cho đối tượng là các nhà quản lý kinh tế chứ không phải cho đối tượng chuyên tin học. Do đó các vấn đề được lựa chọn để trình bày đều xuất phát từ quan điểm của nhà quản lý. gồm 9 chương sau: Chương 1: Một số vấn đề cơ bản về hệ thống thông tin quản lý Chương 2: Phân tích hệ thống thông tin Chương 3: Thiết kế hệ thống thông tin quản lý Chương 4: Cài đặt hệ thống thông tin quản lý Chương 5: Hiệu quả kinh tế của hệ thống thông tin quản lý Chương 6: Các hệ thống thông tin trong kinh tế và thương mại Chương 7: Các tính toán kinh tế - tài chính trong hệ thống thông tin quản lý Chương 8: Sử dụng cơ sở dữ liệu trong hệ thống thông tin quản lý Chương 9: Nghiên cứu tình huống
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu trúc (structure data), ngày nay, với sự kết hợp của dữ liệu và internet, đã xuất hiện một dạng khác của dữ liệu - Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các nguồn như: hồ sơ hành chính,giao dịch điện tử, dòng trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn tin...của chính
chúng ta, nói cách khác chúng là dữ liệu được sản sinh qua quá trình chia sẻ thông tin trực tuyến liên tục của người sử dụng. Để cung cấp cái nhìn tổng quan, chúng tôi xin giới thiệu tóm tắt những nét chính về dữ liệu lớn cũng như những cơ hội và thách thức mà dữ liệu lớn mang lại.
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download đề tài: Quản lý hệ thống bán vé máy bay của hãng hàng không Vietnam Airline sử dụng mô hình CSDL phân tán SQL server, cho các bạn tham khảo
Nhận viết luận văn đại học, thạc sĩ trọn gói, chất lượng, LH ZALO=>0909232620
Tham khảo dịch vụ, bảng giá tại: https://vietbaitotnghiep.com/dich-vu-viet-thue-luan-van
Download báo cáo môn Phân tích thiết kế hướng đối tượng với đề tài: Quản lí Tour du lịch, cho các bạn làm đề tài tham khảo
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...mokoboo56
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bản.doc
Dịch vụ hỗ trợ viết đề tài điểm cao – LUANVANTRUST.COM
Zalo / Tel: 0917.193.864
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird. Mạng nơ-ron nhân tạo là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu. Thông qua việc bắt bước cách thức hoạt động từ não bộ con người. Nói cách khác, mạng nơ ron nhân tạo được xem là hệ thống của các tế bào thần kinh nhân tạo. Đây thường có thể là hữu cơ hoặc nhân tạo về bản chất.
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMinh Pham
Slide bài thuyết trình tại sự kiện của của công ty rubikAI. Nội dung của bài trình bày là kiến thức cơ bản về mạng neural và ứng dụng trong xử lý ngôn ngữ tự nhiên.
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn thạc sĩ ngành công nghệ thông tin với đề tài: Nghiên cứu đề xuất thuật toán mã hóa văn bản có độ bảo mật cao trên cơ sở mật mã truyền thống, cho các bạn làm luận văn tham khảo
Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành công nghệ thông tin với đề tài: Nghiên cứu đề xuất thuật toán mã hóa văn bản có độ bảo mật cao trên cơ sở mật mã truyền thống
Luận văn Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ , các bạn tham khảo thêm tại tài liệu, bài mẫu điểm cao tại luanvantot.com
Bài giảng được thiết để cung cấp cho người học phương pháp và kỹ năng cần thiết của quá trình điều tra khảo sát. Thêm vào đó bài giảng cũng giúp người học một số phương pháp chọn mẫu cơ bản để có thể ứng dụng vào các cuộc khảo sát thông thường.
Bài giảng 1: Thiết kế điều tra
Trong phần này người học sẽ làm quen với các phương pháp điều tra, trình tự thực hiện các bước và nắm các khái niệm cơ bản về Mẫu trong điều tra khảo sát:
Giới thiệu phương pháp điều tra
Quá trình thực hiện các phương pháp điều tra
Tài liệu tham khảo:
Các tài liệu sau đây sẽ giúp người học hiểu, tiếp thu và bổ trợ được nhiều hơn nữa những nội dung của khóa học trên :
Sức mạnh của thiết kế điều tra, IAROSSI, WorldBank 2006
Sổ tay nghiên cứu điều tra, PETER H. ROSSI, D. ... Wright, 2003
Để biết thêm chi tiết về các hoạt động và nghiên cứu của DEPOCEN truy cập:
Website: http://depocen.org/vn/
LinkedIn: http://linkd.in/1GnHrHB
Facebook: DEPOCEN
Luận văn Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Orange.docx
,các bạn có thể tham khảo thêm nhiều tài liệu và luận văn ,bài mẫu điểm cao tại teamluanvan.com
Similar to KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT (20)
Systems Analysis and Design SQA
Software Quality Assurance (SQA)
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT #ptit Hashmat Nguyen #hashmatnguyen
(System A&D and SQA)
نغوين صَلَاح الدين حشمت
Chuyên Đề Công Nghệ Phần Mềm PTIT
Báo Cáo Chuyên Đề Công Nghệ Phần Mềm PTIT Cuối Kỳ Giảng Viên: Nguyễn Duy Phương PTIT #poppingkhiem #ptit #poppinkhiem
Giải Ngân Hàng Hệ Nhúng PTIT
Để tránh trường hợp mua bán bất hợp pháp và lừa đảo file pdf cho sinh viên PTIT. Sân chơi giới trẻ đã tổng hợp, bổ sung các tài liệu cần thiết cho các con vợ! Hãy like, share để ủng hộ chúng tôi! #ptit #hethongnhung #ES
Hệ thông phân tán
Dạng đề cập nhật mới nhất vào ngày: 29/6/2021 tại đây:
Giải thuật đồng thuận phân tán.
Remarkable Stuff to note 'em down.
#PTIT
Sourcecode LINK: shorturl.at/hyS26
Hệ thống phân tán ptit - Hocvienmang.com tìm kiếm bài giảng tài liệu
Hệ thông phân tán
Dạng đề cập nhật mới nhất vào ngày: 29/6/2021 tại đây:
Giải thuật đồng thuận phân tán.
Remarkable Stuff to note 'em down.
#PTIT #htpt
Sourcecode LINK: shorturl.at/hyS26
Giải Ngân Hàng Hệ Nhúng PTIT
Để tránh trường hợp mua bán bất hợp pháp và lừa đảo file pdf cho sinh viên PTIT. Sân chơi giới trẻ đã tổng hợp, bổ sung các tài liệu cần thiết cho các con vợ! Hãy like, share để ủng hộ chúng tôi! #ptit
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT SQA PTIT Để tránh trường hợp mua bán bất hợp pháp và lừa đảo file pdf cho sinh viên PTIT. Sân chơi giới trẻ đã tổng hợp, bổ sung các tài liệu cần thiết cho các con vợ! Hãy like, share để ủng hộ chúng tôi! #ptit #sqa
Tiểu luận Kiến trúc và thiết kế phần mềm PTIT - Software Architecture & Design
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT
1. 1
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
**************************
BÁO CÁO BÀI TẬP LỚN
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài: Tìm hiểu và xây dựng thuật toán K-means
và KNN
Giảng viên hướng dẫn: (Cô) Nguyễn Quỳnh Chi
2. 2
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Phân công công việc:
Thành viên Công việc
Bùi Trung Hiếu Tìm hiểu codevà dataset
Trần Minh Tân Tìm hiểu và xây dựng code, tài liệu
Bùi Văn Đông Tìm hiểu codexây dựng tài liệu
Nguyễn Như Tuấn Xây dựng tài liệu
Vương Đình Hiếu Xây dựng tài liệu
3. 3
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Giới thiệu
Data mining là lĩnh vực đóng vai trò quan trọng trong việc phân tích và quản lý
dữ liệu. Dựa vào đó chúng ta có thể đưa ra những dự đoán cho kế hoạch tương
lai. Trong thời buổi công nghệngàycàng pháttriển như hiện nay, việc áp dụng
khoa học công nghệthông tin vào quá trình xử lý và phân tích dữ liệu là vô
cùng cần thiết. Data mining chính là một trong số đó. Sau đâychúng ta sẽ cùng
nhau tìm hiểu về Data mining.
4. 4
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Contents
I. Data mining 3
1. Khái niệm 3
2. Các kỹ thuật quan trọng 3
a. Kỹ thuật phân tích phân loại (Classification Analysis) 3
b. Kỹ thuật Association Rule Learning: 4
c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier
Detection)
4
d. Kỹ thuật phân tích theo cụm (Clustering Analysis) 4
e. Kỹ thuật dự báo (prediction) 4
f. Kỹ thuật Sequential Patterns: 5
g. Kỹ thuật Decision Trees 5
II. K-Mean 6
1. Khái niệm: 6
2. Ý tưởng của thuật toán k-means 7
3. Một số lưu ý: 7
a. Lựa chọn số cụm: 7
b. Khởi tạo K vị trí ban đầu: 7
c. Về vấn đề tính dừng (hội tụ) 7
III. KNN (K-Nearest Neighbors) 9
1. Giới thiệu: 9
2. Khái niệm: 9
3. Thuật toán: 10
4. Ứng dụng: 10
5. 5
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
I. Data mining
Data Mining là một trong những thuật ngữ mới xuất hiện đầu thế kỷ 21, nó
là hệ quả của sự bùng nổ Internet đạt tới đỉnh điểm. Theo một công bố của
Intel vào tháng 9 năm 2013 cứ 11 giây trôi qua chúng ta có thêm 1 Petabybe
dữ liệu, nó tương đương với một video chất lượng HD dài 13 năm. Và để
khai phá, trích xuất nó Data Mining ra đời, dưới đây là khái niệm Data
Mining là gì?
1. Khái niệm
Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ
liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các
vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các doanh
nghiệp có thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu
chuyên sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining không
chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển
đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như
quy tắc kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của
Data Mining:
● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu.
● Tính toán dự đoán kết quả
● Tạo thông tin phản hồi để phân tích
● Tập trung vào cơ sở dữ liệu lớn hơn.
● Phân cụm dữ liệu trực quan
2. Các kỹ thuật quan trọng
Về cơ bản, Data Mining hay khai phá dữ liệu là việc xử lý, nhận biết các xu
hướng từ các thông tin dữ liệu để có thể đưa ra quyết định hoặc đánh giá.
Thông thường, các bạn sẽ thấy có 6 kỹ thuật cốt lõi, được sử dụng nhiều
trong việc khai phá dữ liệu:
a. Kỹ thuật phân tích phân loại (Classification Analysis)
Kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại. Đây
là kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp
cho trước.
Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các
thông tin quan trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích
6. 6
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc
vào mục tiêu sử dụng.
b. Kỹ thuật Association Rule Learning:
Kỹ thuật Association Rule Learning trong khai phá dữ liệu được sử
dụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở
dữ liệu. Ngoài ra, nó còn được sử dụng để “giải nén” các mẫu ẩn
trong dữ liệu. Association Rule rất hữu íchđể kiểm tra, dự đoán hành
vi và thường được áp dụng trong ngành bán lẻ.
c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection)
Về cơ bản, kỹ thuật khai phá dữ liệu (Data Mining) này dùng để nhấn
mạnh vào việc quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các tập
dữ liệu không khớp với mẫu dự kiến. Bất thường ở đây có thể đề cập đến
độ lệch, sự khác thường, các nhiễu và ngoại lệ.
Sự bất thường được xem là khá quan trọng vì nó có thể cung cấp một số
thông tin cần thiết. Nó có thể là một dữ liệu khác biệt so với mức trung
bình chung trong một tập dữ liệu. Điều này chỉ ra rằng một cái gì đó khác
thường đã xảy ra và các nhà phân tích dữ liệu cần chú ý.
d. Kỹ thuật phân tích theo cụm (Clustering Analysis)
“Cụm” có nghĩa là một nhóm các đốitượng dữ liệu. Các đốitượng tương
tự nhau thì sẽ nằm trong một cụm. Kết quả là các đốitượng tương tự
nhau trong cùng một nhóm.
Về cơ bản, kỹ thuật khai phá dữ liệu này thường được ứng dụng để tạo hồ
sơ khách hàng. Hoặc trong lĩnh vực Marketing, đây được xem là việc
chia phân khúc khách hàng.
e. Kỹ thuật dự báo (prediction)
7. 7
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Trong khai phá dữ liệu, kỹ thuật dự báo được ứng dụng ở một số trường
hợp đặc biệt. Nó được sử dụng để khám phá mối quan hệ giữa các biến
độc lập và phụ thuộc.
f. Kỹ thuật Sequential Patterns:
Đây là một kỹ thuật quan trọng trong khai phá dữ liệu. Kỹ thuật này giúp
tìm cáchkhám phá các mẫu tương tự.
g. Kỹ thuật Decision Trees
Decision Trees là một thuật ngữ rất quan trọng trong khai phá dữ liệu. Nó
đóng một vai trò quan trọng trong quá trình khai phá dữ liệu bởi vì mô
hình này rất dễ hiểu cho người dùng.
Trong kỹ thuật Decision Trees, gốc cây là một câu hỏi đơn giản có nhiều
câu trả lời. Ngoài ra, mỗi câu hỏi dẫn đến bộ câu hỏi khác. Và nó sẽ giúp
chúng ta xác định dữ liệu. Vì vậy, chúng ta có thể đưa ra quyết định cuối
cùng nhờ vào kỹ thuật này.
8. 8
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
II. K-Mean
1. Khái niệm:
K-means là một thuật toán phân cụm đơn giản thuộc loại học không giám sát(tức là
dữ liệu không có nhãn) và được sử dụng để giải quyết bài toán phân cụm. Ý tưởng
của thuật toán phân cụm k-means là phân chia 1 bộ dữ liệu thành các cụm khác
nhau. Trong đó số lượng cụm được cho trước là k. Công việc phân cụm được xác
lập dựa trên nguyên lý: Các điểm dữ liệu trong cùng 1 cụm thì phải có cùng 1 số
tính chất nhất định. Tức là giữa các điểm trong cùng 1 cụm phải có sự liên quan lẫn
nhau. Đốivới máy tính thì các điểm trong 1 cụm đó sẽ là các điểm dữ liệu gần
nhau.
Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích
tính chất cụm của dữ liệu. Nó đặc biệt được sử dụng nhiều trong khai phá dữ liệu
và thống kê. Nó phân vùng dữ liệu thành k cụm khác nhau. Giải thuật này giúp
chúng ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào.
9. 9
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
2. Ý tưởng của thuật toán k-means
3. Một số lưu ý:
a. Lựa chọn số cụm:
Chỉ việc lựa chọn số cụm k đã có thể tách thành 1 bài toán riêng.
Không có 1 consố k nào là hợp lý cho tất cả các bài toán. Bạn có thể
đọc hiểu tập dữ liệu của mình để xác định xem trong đó có thể có bao
nhiêu cụm? Nhưng không phải lúc nào bạn cũng có thể làm thế. Cách
làm duy nhất là bạn hãy thử với từng giá trị k=1,2,3,4,5,… để xem kết
quả phân cụm thay đổi như thế nào. Một số nghiên cứu cho thấy việc
thay đổik sẽ có hiệu quả nhưng sẽ dừng lại ở 1 con số nào đó. Như
vậy bạn hoàn toàn có thể thử xem dữ liệu của mình tốt với giá trị k
nào đó.
b. Khởi tạo K vị trí ban đầu:
Bằng cách nào đó, hãy có gắng khởi tạo k tâm cụm này phân bố đồng
đều trên không gian của bộ dữ liệu. Điều đó có thể làm khi bạn có thể
xác định được không gian và tính chất của dữ liệu. Nhưng ít nhất, các
tâm cụm mà bạn khởi tạo cũng đừng quá gần nhau, cũng đừng trùng
nhau.
Còn 1 cách cuối cùng là bạn sẽ chạy thuật toán nhiều lần để lấy kết
quả tốt nhất trong các lần chạy đó.Vớiđiều kiện là bạn khởi tạo tâm
của k cụm ngẫu nhiên.
c. Về vấn đề tính dừng (hội tụ)
Đối với những trường hợp dữ liệu phức tạp, thuật toán k-means sẽ rất
lâu hoặc không bao giờ hội tụ.Tức là sẽ không bao giờ xác định được
tâm cụm cố định để kết thúc bài toán. Hoặc là phải chạy qua rất nhiều
bước lặp. Trong những trường hợp như vậy, thay vì phải tìm được k
tâm cụm cố định thì ta sẽ dừng bài toán khi sự thay đổiở một consố
10. 1
0
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
chấp nhận được. Tức là giữa hai lần cập nhật tâm cụm thì chênh lệch
vị trí giữa tâm cũ và mới nhỏ hơn một số delta cho phép nào đó.
4. Cài đặt
a. Khởi tạo dữ liệu
Khởi tạo dữ liệu dựa trên số lượng cụm nhập vào (k). Mỗi cụm
random ra 500 điểm trên tọa độ không gian Oxy. Thêm tất cả các cụm
vào tập dữ liệu tổng.
13. 1
3
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
III. KNN (K-NearestNeighbors)
1. Giới thiệu:
K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh
vực Data Mining. K-NN là phương pháp để phân lớp các đối tượng dựa vào
khoảng cách gần nhất giữa đốitượng cần xếp lớp (Query point) và tất cả các đối
tượng trong Training Data. Một đối tượng được phân lớp dựa vào K láng giềng
của nó. K là số nguyên dương được xác định trước khi thực hiện thuật toán.
Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối
tượng.
2. Khái niệm:
Thuật toán KNN là một trong những phương pháp học có giám sát “Supervised
Learning” tức dựa trên biến mục tiêu đã được xác định trước đó, thuật toán sẽ
xem xét dữ liệu đã chứa biến mục tiêu (đã phân loại) để “học”và tìm ra những
biến d có thể tác động đến biến mục tiêu.
KNN dựa trên giả định là những thứ tương tự hay có tính chất gần giống nhau
sẽ nằm ở vị trí gần nhau, với giả định như vậy, KNN được xây dựng trên các
công thức toán học phục vụ để tính khoảng cách giữa 2 điểm dữ liệu (gọi là
Data points) để xem xét mức độ giống nhau của chúng.
KNN còn gọi là “Lazy learning method” vì tính đơn giản của nó, có nghĩa là
quá trình training không quá phức tạp để hoàn thiênhj mô hình (tất cả các dữ
liệu đào tạo có thể được sử dụng để kiểm tra mô hình KNN). Điều này làm cho
việc xây dựng mô hình nhanh hơn nhưng giai đoạnthử nghiệm chậm hơn và tốn
14. 1
4
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
kém hơn về mặt thời gian và bộ nhớ lưu trữ, đặc biệt khi bộ dữ liệu lớn và phức
tạp với nhiều biến khác nhau. Trong trường hợp xấu nhất, KNN cần thêm thời
gian để quét tất cả các điểm dữ liệu và việc này sẽ cần nhiều không gian bộ nhớ
hơn để lưu trữ dữ liệu. Ngoài ra KNN không cần dựa trên các tham số khác
nhau để tiến hành phân loại dữ liệu, không đưa ra bất kỳ kết luận cụ thể nào
giữa biến đầu vào và biến mục tiêu, mà chỉ dựa trên khoảng cách giữa data
point cần phân loại với data point đã phân loại trước đó. Đây là một đặc điểm
cực kỳ hữu ích vì hầu hết dữ liệu trong thế giới thực tại không thực sự tuân theo
bất kỳ giả định lý thuyết nào ví dụ như phân phối chuẩn trong thống kê.
3. Thuật toán:
a) Xác định giá trị tham số K (số láng giềng gần nhất)
b) Tính khoảng cách giữa đốitượng cần phân lớp (Query Point) với tất
cả các đốitượng trong training data (thường sử dụng khoảng các
Euclidean)
c) Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng
gần nhất với Query Point
d) Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
e) Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho
Query Point
4. Ứng dụng:
Trong y tế
Trong lĩnh vực ngân hàng
Trong giáo dục
Trong thương mại điện tử
Trong kinh tế
5. Cài đặt
a. Load dữ liệu từ file excel
15. 1
5
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Lấy 100 bản ghi đầu làm tập tranning
Lấy các bản ghi còn lại làm tập testing
b. Lặp qua từng bản ghi testing, dự đoán nhãn
16. 1
6
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Tìm k hàng xóm gần nhất với bản ghi thử
Lấy nhãn đa số trong tập k hang xóm
Gán nhãn cho bản ghi thử