SlideShare a Scribd company logo
1 of 26
TẢI TÀI LIỆU KẾT BẠN ZALO
0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
LÊ NGỌC QUYỀN
NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT
CỦA BIG DATA TRONG HỆ THỐNG PHÁT
HIỆN SAO CHÉP
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2016
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Ngƣời hƣớng dẫn khoa học: PGS.TS. VÕ TRUNG HÙNG
Phản biện 1: TS. Phạm Minh Tuấn
Phản biện 2: TS. Lê Xuân Việt
Luận văn đã được bảo vệ tại Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Kỹ thuật tại Đại học Đà Nẵng vào ngày 25 tháng
7 năm 2016.
Có thể tìm hiểu luận văn tại:
Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
1
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, cùng với sự phát triển vượt bậc của ngành CNTT
nói chung và hệ thống mạng Internet nói riêng, việc mọi người có thể
tạo ra các tài liệu mới, chia sẻ và tìm kiếm thông tin trở nên dễ dàng
và phổ biến. Chính vì điều này cũng tạo ra những mặt trái làm ảnh
hưởng tiêu cực đến việc bảo đảm quyền tác giả, tác phẩm của một số
công trình nghiên cứu như việc sao chép các bài báo, tài liệu nghiên
cứu, báo cáo thực tập, khóa luận tốt nghiệp, luận văn,… được công
khai phát tán, chỉnh sửa ngay cả khi không được sự đồng ý của tác
giả. Nhận thấy đây là một vấn đề nghiêm trọng đối với việc chia sẻ
thông tin nên nếu điều này không được giải quyết, nó sẽ làm cho tác
giả không muốn chia sẻ tài liệu của mình và làm giảm cơ hội cho
người muốn sử dụng truy cập những thông tin có giá trị.
Những nghiên cứu phát hiện sao chép và trùng khớp chuỗi văn
bản đã cho ra đời nhiều công cụ hiệu quả và có thể sử dụng trực
tuyến như Plagiarism Checker Software, Turnitin, …. Tuy nhiên,
ngày nay có rất nhiều nguồn dữ liệu được lấy từ rất nhiều nguồn
khác nhau như âm thanh, đoạn phim, hình ảnh, nguồn dữ liệu đầu
vào rất là đa dạng hoặc một tập hợp dữ liệu rất lớn và rất phức tạp
đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không
thể nào đảm đương được. Mặt khác, khi mà nguồn tài liệu ngày càng
dồi dào, các kho tài liệu trở nên quá đồ sộ khiến cho việc lưu trữ trở
nên khó khăn, một hệ thống máy tính không thể lưu trữ đủ mà việc
lưu trữ phải được phân tán, chia nhỏ ra để lưu trữ trên nhiều hệ thống
máy tính khác nhau. Điều này làm cho các công cụ xử lý dữ liệu
truyền thống không còn hoạt động hiệu quả, do vấn đề quản lý dữ
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
2
liệu, việc đọc ghi dữ liệu trở thành vấn đề mà các hướng tiếp cận xử
lý dữ liệu đều phải tập trung giải quyết.
Dữ liệu nói chung và dữ liệu dưới dạng các văn bản điện tử
đang tăng lên nhanh chóng. Theo thống kê thì cứ sau mỗi năm, dữ
liệu tăng lên hơn gấp đôi so với dữ liệu của năm trước đó. Số lượng
nội dung kỹ thuật số trên web hiện nay đạt xấp xỉ năm trăm tỷ
gigabyte và con số này dự kiến sẽ tăng gấp đôi trong vòng một năm.
Sự bùng nổ của các mạng di động, điện toán đám mây và các công
nghệ mới đã làm tăng gần như không thể kiểm soát nguồn thông tin
trên thế giới. Sự cần thiết của việc quản lý một cách hiệu quả nguồn
dữ liệu ngày càng tăng theo cấp số nhân này đã được rất nhiều nhà
khoa học quan tâm và thực hiện. Dữ liệu không chỉ cần phải được xử
lý và phân tích nhanh, mà một yêu cầu khác cũng cần phải được
quan tâm đầu tư là bảo đảm dữ liệu được sao lưu một cách đảm bảo
để không bị mất dữ liệu. Đồng thời, chúng ta cũng cần có cơ chế để
tránh sự trùng lặp hay sap chép lẫn nhau giữa các tài liệu. Điều này
đặc biệt quan trọng khi vấn đề bản quyền, quyền tác giả ngày càng
được thực thi một cách nghiệm túc.
Các kỹ thuật về big data đã được phát triển nhằm mục đích giải
quyết vấn đề về cách tổ chức và xử lý dữ liệu khi kho dữ liệu ngày
càng trở nên quá lớn. Tuy nhiên, chúng ta vẫn phải đối mặt với vấn
đề về lưu trữ và phân tích dữ liệu nhằm đáp ứng yêu cầu của người sử
dụng. Vấn đề mà chúng ta phải đối mặt là: trong khi khả năng lưu trữ
của ổ đĩa cứng đã tăng mạnh trong những năm qua, tốc độ truy cập -
tốc độ dữ liệu có thể được đọc từ ổ đĩa đã không bắt kịp. Phải mất
một thời gian khá lâu để đọc tất cả các dữ liệu trên một ổ đĩa và thời
gian để ghi dữ liệu thậm chí còn chậm hơn. Cách rõ ràng và đơn giản
nhất để giảm thời gian xử lý dữ liệu là chúng ta cần phải
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
3
đọc và ghi dữ liệu từ nhiều đĩa cùng một lúc. Bên cạnh việc thu giảm
thời gian xử lý, làm việc song song còn giúp tiết kiệm các chi phí về
đầu tư nguồn lực cho các máy tính có không gian lưu trữ và khả năng
xử lý lớn, bằng cách tận dụng nhiều máy tính có khả năng lưu trữ và
năng lực xử lý thấp hơn. Xử lý và phân tích dữ liệu trong thời gian
tối thiểu có thể là vô cùng quan trọng trong khoa học xử lý dữ liệu
nói riêng và trong khoa học máy tính ngày nay nói chung.
Các công cụ quản lý dữ liệu truyền thống như hệ quản trị
CSDL quan hệ (RDBMS), không còn chứng minh được khả năng xử
lý của chúng trong việc xử lý tình trạng bùng nổ dữ liệu như hiện nay.
Để theo kịp với quy mô tăng trưởng một cách bùng nổ của dữ liệu,
đặc biệt là các hệ dữ liệu lớn, các kho dữ liệu phân tán có quy mô lớn
là phương tiện cần thiết để tổ chức, lưu trữ và đáp ứng khả năng mở
rộng khi khối lượng dữ liệu tăng.
Những khó khăn trên là động lực để chúng tôi thực hiện luận
văn này với đề tài là “Nguyên cứu ứng dụng các kỹ thuật Big data
trong hệ thống phát hiện sao chép”, nhằm mục đích nghiên cứu và
xây dựng công cụ phát hiện sao chép có thể thực hiện được với các
kho tài liệu tiếng Việt.
Luận văn này cung cấp một cách nhìn tổng quan về các
phương pháp mới trong việc xử lý các tập dữ liệu lớn, bằng cách sử
dụng kỹ thuật MapReduce. Luận văn cũng tập trung vào nghiên cứu
khung thức Hadoop và hệ thống tập tin phân bố Hadoop (Hadoop
Distributed File System), trong đó sử dụng thuật toán MapReduce để
quản lý số lượng dữ liệu lớn và khả năng mở rộng cao, bằng cách
phân chia các tập dữ liệu lớn trên nhiều máy chủ và cơ chế xử lý
song song từng phần và sau đó kết hợp các kết quả xử lý của từng
phần lại với nhau để sản sinh ra câu trả lời cuối cùng. Trong đó, luận
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
4
văn này áp dụng các kỹ thuật, khung thức và giải thuật đã nghiên cứu
vào việc giải quyết bài toán xây dựng hệ thống phát hiện sao chép
bằng kỹ thuật big data, mà cụ thể đó là thuật toán MapReduce trên
nền khung thức Hadoop.
2. Mục đích nghiên cứu
Mục đích nghiên cứu của đề tài là xây dựng ứng dụng trong đó
sử dụng phương pháp MapReduce để xử lý dữ liệu trên các kho dữ
liệu lớn, để so khớp và phát hiện nội dung giống nhau giữa các tài
liệu văn bản.
3. Đối tƣợng và phạm vi nghiên
cứu - Đối tƣợng nghiên cứu
Đối tượng nghiên cứu của đề tài là cấu trúc tài liệu dạng văn
bản, phương pháp và kỹ thuật tách câu Tiếng Việt, các thuật toán tìm
kiếm và so khớp mẫu, và các kỹ thuật xử lý trong lĩnh vực big data
để xử lý việc tìm kiếm, so trùng, phát hiện sao chép trên các kho dữ
liệu lớn và phân bố.
- Phạm vi nghiên cứu
Trong khuôn khổ của luận văn, tôi chỉ giới hạn việc nghiên
cứu các phương pháp, các kỹ thuật có liên quan đến việc tách câu,
tách từ trong tiếng Việt, nghiên cứu các giải thuật xử lý big data và
triển khai thử nghiệm trên các kho dữ liệu mẫu. Luận văn chưa thực
hiện trên các kho dữ liệu thực tế quy mô lớn.
4. Phƣơng pháp nghiên cứu
Về phương pháp nghiên cứu, tôi đã sử dụng hai phương pháp
chính là nghiên cứu lý thuyết và nghiên cứu thực nghiệm.
Phương pháp nghiên cứu tài liệu: Với phương pháp này,
chúng tôi nghiên cứu các ứng dụng kỹ thuật và cách biễu diễn dữ
liệu trong big data, các kỹ thuật tách câu, tách từ trong tiếng Việt,
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
5
các thuật toán tìm kiếm, so khớp, và phát hiện sao chép, nghiên cứu
các tài liệu liên quan đến big data và các giải thuật cũng như các kỹ
thuật xử lý dữ liệu trong big data.
Phương pháp thực nghiệm: Với phương pháp này, chúng tôi
ứng dụng kỹ thuật xử lý big data vào hệ thông phát hiện sao chép,
nghiên cứu ngôn ngữ lập trình phù hợp (ngôn ngữ java) và hiện thực
các kỹ thuật này trong ngôn ngữ lập trình. Chúng tôi cũng đã xây
dựng chương trình và chạy thử nghiệm.
5. Ý nghĩa của đề tài
Về khoa học: Kết quả nghiên cứu của đề tài góp phần mở ra
một hướng nghiên cứu cũng như ứng dụng mới, đó là việc ứng dụng
các kỹ thuật xử lý big data vào bài toán so trùng và phát hiện sao
chép.
Về thực tiễn: Đề tài sẽ góp phần nâng cao chất lượng trong
quản lý, nâng cao chất lượng đào tạo cũng như góp phần hạn chế vấn
đề vi phạm bản quyền, vấn đề sao chép lẫn nhau giữa các tài liệu.
6. Cấu trúc luận văn
Cấu trúc của luận văn bao gồm có 3 chương:
Chương 1: Nghiên cứu tổng quan
Chương 2: Phân tích ứng dụng và đề xuất giải pháp
Chương 3: Phát triển ứng dụng
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
6
CHƢƠNG 1
NGHIÊN CỨU TỔNG QUAN
Chương này trình bày kết quả nghiên cứu các nội dung tổng
quan về dữ liệu lớn (big data); đặc điểm của câu, từ trong văn bản
tiếng Việt; phương pháp tách câu, tách từ trong văn bản tiếng Việt;
các giải thuật so khớp mẫu; phần cuối của chương giới thiệu một số
ứng dụng tương tự trong lĩnh vực so sánh trùng khớp cũng như tính
toán độ tương tự giữa các văn bản nhằm mục đích hỗ trợ việc phát
hiện sao chép giữa các tài liệu văn bản.
1.1. DỮ LIỆU LỚN
1.1.1. Khái niệm về Big Data
Dữ liệu lớn (Big Data) là một thuật ngữ được định nghĩa một
cách lỏng lẻo dùng để mô tả các bộ dữ liệu rất lớn và phức tạp mà
các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm
các cách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ,
lưu trữ, truyền nhận, trực quan hóa, truy vấn và tính riêng tư. Thuật
ngữ này thường đơn giản là sử dụng để phân tích dự đoán hoặc là
một số phương pháp tiên tiến khác để trích xuất giá trị từ dữ liệu, mà
ít khi đề cập đến kích thước của bộ dữ liệu. Dữ liệu lớn, như tên gọi
của nó, có kích thước quá lớn, thay đổi quá nhanh và thường không
thể lưu trữ tập trung, và thường không phù hợp với các cấu trúc của
kiến trúc cơ sở dữ liệu.
1.1.2. Quy mô dữ liệu
Đến đây, chắc chắn chúng ta sẽ có câu hỏi là “Vậy dữ liệu lớn
đến cỡ nào thì được coi là big data?”. Câu trả lời là tuỳ vào dữ liệu
mà chúng ta đang xử lý. Có những dữ liệu kích thước nhỏ nhưng mà
lại là “lớn", và cũng có những dữ liệu kích thước lớn mà lại là “nhỏ".
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
7
Ví dụ, hệ thống của chúng ta hoạt động trong vòng 10 năm và tạo ra
các tập tin nhật ký (tập tin log), các tập tin này đơn thuần là các tập
tin văn bản ghi lại các thao tác của người dùng chẳng hạn. Tổng
dung lượng của chúng có thể chỉ là vài trăm gigabyte (kích thước
nhỏ) nhưng nó lại là “lớn" để tiến hành phân tích, do đó có thể coi đó
là một ngưồn big data. Ngược lại, chúng ta có thể có hàng ngàn tập
tin video, mỗi tập tin kích thước khoảng vài chục GB. Như vậy, tổng
cộng nguồn dữ liệu của chúng ta có thể lên đến hàng chục hoặc hàng
trăm tetrabyte (kích thước lớn), nhưng nó lại là nhỏ khi tiến hành
phân tích và không phải là big data.
Sau đây là một vài ví dụ về các big data trên thế giới: Công ty
Google đã tăng từ việc xử lý khoảng 100 TB dữ liệu mỗi ngày với
MapReduce vào năm 2004 đến xử lý 20 PB một ngày với
MapReduce vào năm 2008. Vào tháng tư năm 2009, công ty bán
hàng trực tuyến eBay đã sở hữu hai kho dữ liệu khổng lồ: một kho
với khoảng 2 PB dữ liệu người dùng, và kho khoảng 6,5 PB dữ liệu
người dùng với hơn 170 ngàn tỷ hồ sơ và ngày càng tăng lên nhanh
chóng với thêm 150 tỷ hồ sơ mới mỗi ngày.
1.1.3. Các vấn đề cần phải giải quyết của big data
Thực tế là các kho dữ liệu hiện tại đã là rất lớn và chúng còn
đang tăng trưởng một cách nhanh chóng theo cấp số mũ. Các nguồn
dữ liệu này không chỉ xuất phát từ con người (như nguồn thu thập từ
các mạng xã hội) mà còn từ máy tính (các loại thông tin nhật ký
được tạo bởi máy tính) và các vệ tinh (nguồn dữ liệu thu thập từ vệ
tinh) được tạo ra liên tục dẫn đến vấn đề là làm thế nào chúng ta có
thể giải quyết nguồn dữ liệu lớn và tăng trưởng liên tục như vậy. Hai
yếu tố cần được quan tâm để giải quyết vấn đề này là:
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
8
- Xử lý dữ liệu nhanh
- Nguồn lưu trữ dữ liệu đáng tin cậy
1.2. ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN TIẾNG
VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU
1.2.1. Từ trong văn bản tiếng Việt
Từ là đơn vị sẵn có trong ngôn ngữ. Từ là đơn vị nhỏ nhất, cấu
tạo ổn định, mang nghĩa hoàn chỉnh, đựợc dùng để cấu thành Câu.
Từ có thể làm tên gọi của sự vật (danh từ), chỉ các hoạt động (động
từ), trạng thái, tính chất (tính từ), ... Từ là công cụ biểu thị khái niệm
của con người đối với hiện thực.
1.2.2. Câu trong văn bản tiếng Việt
Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan
hệ cú pháp xác định, được tạo ra trong quá trình tư duy, giao tiếp, có
giá trị thông báo, gắn liền với mục đích giao tiếp nhất định. Nói đến
cấu trúc câu là nói đến các thành phần tạo câu cùng với chức năng,
mối quan hệ qua lại và sự phân bố chúng trong tổ chức nội bộ câu.
Dựa vào vai trò tạo câu, các thành phần câu được chia thành ba loại
lớn: thành phần nòng cốt, thành phần phụ và thành phần biệt lập.
1.2.3. Bài toán tách câu
Để tách một văn bản ra thành các đơn vị câu độc lập thường
dựa vào các dấu hiệu kết thúc câu (dấu chấm “.”, dấu chấm than “!”
và dấu chấm hỏi “?”, …). Nhưng vẫn có những câu mà dấu hiệu kết
thúc câu vẫn chưa phải là kết thúc câu, đó là các ngoại lệ.
1.2.4. Bài toán tách từ
Văn bản tiếng Việt đặt dấu cách giữa các âm tiết chứ không
phải giữa các từ. Một từ có thể có một, hai hoặc nhiều âm tiết nên có
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
9
nhiều cách phân chia các âm tiết thành các từ, gây ra nhập nhằng.
Hiện nay có nhiều phương pháp tiếp cận bài toán tách từ, nhưng luận
văn này chỉ đề cập đến phương pháp sử dụng mô hình n-gram.
Với mô hình n-gram, chúng ta coi một văn bản, đoạn văn bản
là chuỗi các từ liền kề nhau w1w2…wn và sau đó phân tích xác suất
của chuỗi với công thức xác suất kết hợp:
p(w1w2…wn) = p(w1) * p(w2/w1) * p(w3/w1w2) *…* p(wn/w1w2…wn-1)
1.3. BÀI TOÁN SO KHỚP MẪU
Một phép toán cơ bản trên chuỗi là “so khớp mẫu” (pattern
matching). Bài toán này được định nghĩa như sau: Cho trước một
chuỗi văn bản có độ dài là n và một mẫu có độ dài m, hãy tìm sự xuất
hiện của mẫu trong văn bản. Để tìm tất cả các sự xuất hiện của mẫu
trong văn bản, chúng ta thực hiện bằng cách quét qua toàn bộ văn
bản một cách tuần tự. Bài toán “so khớp mẫu” có đặc trưng là một
bài toán tìm kiếm, trong đó mẫu được xem như là khóa.
1.4. GIỚI THIỆU MỘT SỐ THUẬT TOÁN
Chúng tôi tìm hiểu về 5 giải thuật cơ bản nhất trong so sánh
chuỗi đó là: Knuth–Morris–Pratt, Boyer–Moore, Rabin–Karp, Brute–
Force, Naïve.
- Thuật toán Knuth–Morris–Pratt
- Thuật toán Boyer-Moore
- Thuật toán Rabin-Karp
- Thuật toán Brute-Force
- Thuật toán Naïve
Đánh giá các thuật toán so khớp mẫu: Ta nhận thấy việc tìm
kiếm bằng Brute–Force có thể là rất chậm đối với một số mẫu nào đó,
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
10
ví dụ nếu chuỗi cần xét là một chuỗi nhị phân thì trong trường hợp
xấu nhất là khi cả mẫu thử đểu là số 0 và kết thúc bởi một số 1. Khi
đó, chúng ta cần phải thực hiện n-m+1 phép so sánh. Mặt khác
thường thì m rất nhỏ so với n, như vậy số phép so sánh ký tự xấp xỉ
bằng m * n.
Thuật toán Knuth–Morris–Pratt không bao giờ dùng nhiều hơn
m+n phép so sánh ký tự, từ đó ta dễ nhận thấy thuật toán này dùng ít
phép toán so sánh hơn Brute–Force. Tuy nhiên trong ứng dụng thực
tế thì thuật toán Knuth–Morris–Pratt nhanh hơn không đáng kể so
với thuật toán Brute–Force.
Thuật toán Boyer–Moore không dùng nhiều hơn m+n phép so
sánh ký tự. Thuật toán là tuyến tính trong trường hợp cùng cách cài
đặt với thuật toán Knuth–Morris–Pratt, thông thường thì Boyer–
Moore không tuyến tính. Trong thực tế, khi các ký tự văn bản không
xuất hiện trong mẫu thì mỗi phép so sánh dẫn đến mẫu sẽ dịch sang
phải m ký tự, vì vậy đối với văn bản lớn và mẫu thử không dài thì
thuật toán phải dùng n/m bước.
Còn thuật toán Rabin–Krap gần như là tuyến tính. Số phép so
sánh theo thuật toán này là m+n, thuật toán chỉ đi tìm một vị trí trong
văn bản có cùng giá trị mảng băm với mẫu.
1.5. MỘT SỐ ỨNG DỤNG ĐÃ CÓ
Trong phần này, chúng tôi thực hiện việc khảo sát qua các
công cụ, các hệ thống có chức năng tính độ tương tự giữa tài liệu
cũng như phát hiện sao chép giữa các tài liệu. Các công cụ này có
chức năng tương tự với hệ thống mà luận văn này sẽ xây dựng.
- Phần mềm Plagiarism Checker
TẢI TÀI LIỆU KẾT BẠN ZALO
0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
11
- Công cụ Turnitin.com
- Công cụ Scanmyessay.com
- Công cụ Ithenticate.com
- Công cụ Copyscape.com
- Công cụ Plagspotter.com
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
12
CHƢƠNG 2
PHÂN TÍCH ỨNG DỤNG VÀ ĐỀ XUẤT GIẢI PHÁP
Chương 2 này tập trung phân tích mô hình và ứng dụng phát
hiện sao chép tài liệu trong các kho dữ liệu, bằng cách sử dụng kỹ
thuật xử lý dữ liệu của big data. Để làm tăng hiệu quả cho hệ thống
phát hiện sao chép trong các kho dữ liệu lớn, giải pháp được đề xuất
như sau: Xây dựng mô hình đặc trưng cho các văn bản trong tập dữ
liệu đầu vào, dựa trên các phương pháp tách từ và tách câu trong
tiếng Việt; ứng dụng các thuật toán tìm kiếm và so khớp mẫu như đã
tìm hiểu trong Chương 1; áp dụng chúng vào trong mô hình đặc
trưng cũng như các công cụ xử lý big data.
2.1. MÔ HÌNH ỨNG DỤNG PHÁT HIỆN SAO CHÉP
Hình 2.1 trình bày về mô hình ứng dụng phát hiện sao chép tài
liệu bằng cách áp dụng các kỹ thuật big data. Trong đó, nhưng khối
chức năng mà chúng ta cần phải giải quyết là:
Tài liệu cần kiểm tra
Hệ thống phát
hiện sao chép
bằng kỹ thuật
Big Data
- Những sao
chép từ các tài
liệu trong kho.
-Vị trí.
-Tên tài liệu
Kho tài liệu có sẵn
N-Grams
Bộ sưu tập tài liệu đã có
Hình 2.1. Mô hình ứng dụng phát hiện sao chép
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
13
- Hệ thống quản lý kho dữ liệu big data: Để thao tác với kho
dữ liệu big data, chúng ta cần phải có hệ thống quản lý tương ứng.
Trong lĩnh vực big data, dữ liệu thường không thể lưu trữ ở một máy
(thậm chí là máy chủ) mà phải phân tán ở nhiều máy tính khác nhau.
Trong luận văn này, chúng tôi tìm hiểu và vận dụng hệ thống quản lý
tập tin phân tán của Hadoop để quản lý kho dữ liệu của hệ thống.
- Giải thuật song song thực hiện việc phát hiện và so trùng
mẫu: Với hệ thống tập tin phân tán đã tổ chức, chúng ta cần sử dụng
các giải thuật song song để thực thi trên hệ thống phân tán này. Với
giải thuật xử lý song song, chúng ta có thể thu được kết quả trong
khoản thời gian nhanh hơn. Giải thuật xứ lý song song được đề xuất
trong luận văn này là giải thuật MapReduce. Chi tiết về giải thuật
này cũng được chúng tôi trình bày trong phần sau.
- Ngoài hai khối chức năng chính nêu trên, luận văn còn phải
áp dụng một số vấn đề đã được tìm hiểu trong Chương 1 vào ứng
dụng phát hiện sao chép tài liệu như cách thức phân tích các từ, câu;
mô hình cũng như phương pháp đánh giá trọng số về độ tương tự
giữa các câu, các văn bản. Để tính trọng số về độ tương tự giữa các
văn bản, luận văn sử dụng trong số Jaccard.
Trong các phần sau, chúng tôi lần lượt đi tìm hiểu và vận dụng
các hệ thống, các giải thuật nêu trên vào ứng dụng của mình.
2.2. HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN HADOOP
Khi kích thước của tập dữ liệu vượt quá khả năng lưu trữ của
một máy tính, tất yếu sẽ dẫn đến nhu cầu hân chia dữ liệu lên trên
nhiều máy tính. Các hệ thống tập tin quản lý việc lưu trữ dữ liệu trên
một mạng nhiều máy tính gọi là hệ thống tập tin phân tán. Do hoạt
động trên môi trường liên mạng, nên các hệ hống tập tin phân tán
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
14
phức tạp hơn rất nhiều so với một hệ thống tập tin cục bộ. Ví dụ như
một hệ hống tập tin phân tán phải quản lý được tình trạng hoạt động
(live/dead) của các máy chủ tham gia vào hệ thống quản lý tập tin
này. Hadoop mang đến cho chúng ta hệ thống tập tin phân tán HDFS
(viết tắt từ Hadoop Distributed File System) với nỗ lực tạo ra một
nền tảng lưu trữ dữ liệu đáp ứng cho một khối lượng dữ liệu lớn và
chi phí rẻ. Trong phần này, chúng tôi sẽ giới thiệu kiến trúc của
HDFS cũng như cách vận dụng nó.
2.2.1. Giới thiệu
HDFS ra đời trên nhu cầu lưu trữ dữ liệu của Nutch, một dự án
về máy tìm kiếm (Search Engine) nguồn mở. HDFS kế thừa các mục
tiêu chung của các hệ thống tập tin phân tán trước đó như độ tin cậy,
khả năng mở rộng và hiệu suất hoạt động. Tuy nhiên, HDFS ra đời
trên nhu cầu lưu trữ dữ liệu của Nutch, một dự án Search Engine
nguồn mở, và phát triển để đáp ứng các đòi hỏi về lưu trữ và xử lý
của các hệ thống xử lý dữ liệu lớn với các đặc thù riêng. Do đó, các
nhà phát triển HDFS đã xem xét lại các kiến trúc phân tán trước đây
và nhận ra các sự khác biệt trong mục tiêu của HDFS so với các hệ
thống tập tin phân tán truyền thống.
2.2.2. Kiến trúc HDFS
HDFS lưu trữ các tập tin về dữ liệu của ứng dụng và các tập
tin chứa siêu dữ liệu (metadata) của hệ thống một cách riêng biệt.
Siêu dữ liệu hay các định nghĩa tập tin được lưu trữ trên một máy
chủ chuyên dụng gọi là các NameNode và dữ liệu của ứng dụng được
lưu trữ trên các máy chủ được gọi là các DataNode. Tất cả các máy
chủ được kết nối một cách đầy đủ và giao tiếp với nhau bằng cách sử
dụng giao thức dựa trên giao thức TCP.
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
15
Các NameNode độc lập và không cần phải phối hợp với nhau.
Để đảm bảo dữ liệu được bền vững, nội dung của tập tin được nhân
rộng trên nhiều DataNode khác nhau. Bên cạnh việc đảm bảo dữ liệu
có độ bền cao, chiến lược này có thêm lợi thế là băng thông truyền
dữ liệu được nhân lên, và tạo ra có nhiều cơ hội hơn trong việc định
vị sự tính toán cho những nơi gần dữ liệu cần thiết nhất.
2.2.3. Quá trình đọc và ghi tập tin trên HDFS
Hình 2.3. Quá trình đọc tập tin trên HDFS
Hình 2.4. Quá trình ghi tập tin trên HDFS
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
16
Hình 2.3 và hình 2.4 miêu tả rõ quá trình client đọc và ghi một
tập tin trên HDFS. Quá trình đọc này ghi tập tin này diễn ra theo
đúng trình tự và có cơ chế giám sát thông qua các tín hiệu bắt tay
một cách chặc chẽ. Thao tác này không thành công sẽ được thực hiện
lại ngay hoặc được chuyển đổi qua một node khác để đảm bảo dữ
liệu luôn được chắc chắn và không mất mát.
2.3. GIẢI THUẬT XỬ LÝ SONG SONG MAPREDUCE
2.3.1. Giới thiệu về MapReduce
MapReduce là một mô hình lập trình dùng để biểu diễn các
tính toán phân bố trên một lượng lớn dữ liệu và một khung thức thực
thi cho việc xử lý dữ liệu quy mô lớn trên các cụm máy chủ.
MapReduce được phát triển bởi Google và được xây dựng trên
nguyên tắc nổi tiếng trong xử lý song song và phân tán. MapReduce
đã được áp dụng rộng rãi thông qua việc hiện thực dưới dạng nguồn
mở trên hệ thống Hadoop.
2.3.2. Kiến trúc của MapReduce
Kiến trúc của MapReduce được trình bày như trong hình 2-4.
Trong đó, MapReduce gồm có các thành phần chính như sau:
- Client Program (chương trình khách): là một chương trình
Hadoop MapReduce mà client đang sử dụng và tiến hành
chạy một công việc MapReduce (MapReduce job).
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
17
Hình 2.6. Các thành phần trong bộ xử lý MapReduce
- JobTracker: Có chức năng tiếp nhận và điều phối các công
việc (job); nó có vai trò như bộ não của Hadoop MapReduce.
- TaskTracker: Có chức năng tiếp nhận các task từ JobTracker
để thực hiện.
- HDFS: Là hệ thống quản lý tập tin phân tán được dùng cho
việc chia sẻ các tập tin
2.4. PHÂN TÍCH CÂU DỰA TRÊN N-GRAM
N-gram là một chuỗi tuần từ gồm có n phần tử từ một chuỗi
văn bản cho trước. Một n-gram có thể là một sự kết hợp bất kỳ của
các chữ cái. Tuy nhiên, các phần tử trong một câu hỏi có là âm vị,
âm tiết, các ký tự, các từ hoặc các cụm cơ sở tuỳ theo từng ứng dụng.
Các n-gram thường được thu thập từ một tập các văn bản mẫu chuẩn.
N-gram là một mô hình thống kê, nó dựa trên mô hình Markov
để tính toán xác suất của một chuỗi n-gram x1x2…xn bằng cách tính
toán xác suất từng phần của mỗi xi. Xác suất từng phần được tính trên
việc giả định rằng các xi chỉ phụ thuộc vào các xj với j < i. Do đó, mô
hình n-gram tập trung vào việc học xác suất P(xi|x1x2…xi-1).
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
18
2.5. PHƢƠNG PHÁP ĐỀ XUẤT
Như đã khảo sát trong chương trước, chúng ta có rất nhiều
phương pháp tính độ tương tự giữa các văn bản. Tuy nhiên, không
phải tất cả trong số các phương pháp này đều có thể được hiện thực
hiện bằng cách sử dụng các thuật toán MapReduce. Đối với công
việc trong luận văn của chúng tôi, chúng tôi chủ yếu tập trung vào
việc phát hiện sự tương tự về mặt cú pháp giữa các cặp tài liệu trong
kho tài liệu rất lớn. Độ tương tự giữa các tài liệu mà luận văn này sử
dụng dựa trên các hệ số Jaccard.
( )
( ) ( ) (2.1)
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
19
CHƢƠNG 3
PHÁT TRIỂN ỨNG DỤNG
Trong chương này, chúng tôi trình bày chi tiết các phần sau:
3.1. XÂY DỰNG GIAO DIỆN CHƢƠNG TRÌNH CLIENT
Hình 3.1 bên dưới trình bày về giao diện chính của chương
trình phát hiện sao chép tài liệu mà luận án đã xây dựng. Trong đó,
người dùng chỉ đơn là thiết lập đường dẫn đến tài liệu cần kiểm tra;
chọn chế độ phân tích câu (n-gram) và nguồn dữ liệu (chế độ chạy)
là chạy trên một máy đơn (máy cục bộ) hay là chạy trên cụm gồm
nhiều máy tính kết nối với nhau trong hệ thống Hadoop.
Hình 3.1. Giao diện chính của chương trình
Sau khi nhấn nút “Kiểm tra”, chương trình sẽ thực thi và trả về
kết quả minh hoạ trong hình 3.2 bên dưới.
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
20
Hình 3.2. Kết quả kiểm tra sao chép tài
liệu 3.2. CÀI ĐẶT HADOOP
3.3. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG
3.3.1. Kết quả thực nghiệm dựa trên số token đƣợc sinh ra
Một số kết quả thực nghiệm như sau:
Hình 3.3. So sánh số lượng token sinh ra theo từng giá trị của n
trong phân tích n-gram
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
21
3.3.2. Kết quả thực nghiệm dựa trên thời gian xử lý
a. Chế độ chạy độc lập (Standalone Mode)
Hình 3.4. So sánh thời gian xử lý theo từng giá trị của n trong phân
tích n-gram với chế độ chạy standalone
b. Chế độ chạy theo cụm (Cluster Mode)
Hình 3.5. So sánh thời gian xử lý theo từng giá trị của n trong phân
tích n-gram với chế độ chạy theo cụm
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
22
3.3.3. Đánh giá hệ thống
Từ kết quả thực nghiệm nêu trên, chúng ta nhận thấy rằng khi
mà dữ liệu tương đối nhỏ thì các hệ thống chạy trên máy tính đơn
(standalone system) hoạt động tốt hơn hệ thống MapReduce chạy
theo cụm. Tuy nhiên, khi kích thước của dữ liệu lớn dần lên thì các
hệ thống máy đơn lại cho hiệu suất rất kèm, thời gian xử lý tăng lên
rất nhanh. Trong khi đó, với hệ thống MapReduce lại có sự thay đổi
rất ít về thời gian xử lý. Hệ thống MapReduce tỏ ra hiệu quả khi kích
thước dữ liệu lớn. Điều này rất phù hợp với ngữ cảnh của bài toán
đặt ra là xử lý dữ liệu trong môi trường big data.
Trong kết quả thực nghiệm này, chúng tôi chủ yếu đánh giá về
mặt hiệu suất làm việc của hệ thống khi ứng dụng kỹ thuật
MapReduce vào việc giải quyết bài toán trong lĩnh vực big data, mà
cụ thể là bài toán phát hiện sao chép tài liệu, văn bản điện tử. Việc
đánh giá này chủ yếu dựa trên việc so sánh giữa trường hợp sử dụng
kỹ thuật big data MapReduce với trường hợp không sử dụng
MapReduce khi làm việc trên các tập dữ liệu khác nhau, từ kích
thước nhỏ đến kích thước lớn. Độ chính xác của kết quả so trùng văn
bản hay phát hiện sao chép không được trình bày chi tiết trong phần
này. Lý do là vì độ chính xác của việc so trùng văn bản trong hai
trường hợp có áp dụng MapReduce và không có áp dụng
MapReduce là như nhau. Vì chúng tôi sử dụng cùng một giải thuật
so trùng trong hai trường hợp này.
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
23
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Xử lý dữ liệu lớn (big data) là xu hướng tất yếu trong thời đại
bùng nổ thông tin hiện nay. Một bài toán cụ thể và đặc trưng của big
data mà nhiều nghiên cứu phải quan tâm xử lý hiện nay, đó là vấn đề
so trùng và phát hiện sao chép giữa các tài liệu trong một nguồn dữ
liệu đồ sộ hiện nay. Từ vấn đề đặt ra này, chúng tôi đã tìm hiểu và
vận dụng nền tảng Hadoop trong việc phân tích và xử lý dữ liệu. Qua
quá trình tìm hiểu cũng như phân tích, thử nghiệm và kiểm chứng
thông qua luận án này, chúng tôi nhận thấy Hadoop là nền tảng phù
hợp nhất cho vấn đề xử lý big data nói chung và vấn đề so trùng,
phát hiện sao chép tài liệu nói riêng. Tuy nhiên, để có thể sử dụng nó
một cách hiệu quả, chúng ta cần phải đặt ra mục tiêu phân tích, xây
dựng bài toán một cách chặt chẽ cũng như cần phải có kinh nghiệm
trong việc cài đặt và triển khai hệ thống.
Mục tiêu của chúng tôi thông qua luận án này là phát triển một
thuật toán để tính toán độ tương tự giữa các tài liệu. Thông qua đó,
nhiều tài liệu có thể được so sánh với nhau cũng như so sánh với một
tài liệu mẫu để xác định xem tài liệu mẫu mà chúng ta so sánh có so
trùng (tương tự) với tài liệu đã có trong kho hay không, từ đó giúp
chúng ta phát hiện sự sao chép giữa các tài liệu.
Thuật toán và chương trình cài đặt trong luận án này đã cho
thấy tính hiệu quả của việc áp dụng hệ thống Hadoop cho bài toán
phát hiện sao chép này. So với các phương pháp tiếp cận khác, việc
áp dụng n-gram và Hadoop tỏ ra hiệu quả hơn nhiều về thời gian xử
lý. Việc hệ thống có thể thực thi được trên các hệ dữ liệu phân bố đã
cho thấy tính hiệu quả và tính thời đại của nó. Bởi vì trong thời đại
TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149
Nhận viết đề tài trọn gói – ZL: 0973.287.149 –
Luanvanmaster.com
24
hiện nay, các nguồn dữ liệu là vô cùng lớn và tất yếu là phải triển
khai trên các hệ thống phân tán.
Tuy nhiên, cho giới hạn của lĩnh vực nghiên cứu cũng như
thời gian thực hiện, chúng tôi chưa thực hiện việc nghiên cứu, khảo
sát hết những ngoại lệ trong việc xử lý ngôn ngữ tự nhiên của tiếng
Việt, chẳng hạn như các stopword áp dụng trong chương trình còn
chưa đầy đủ, các ngoại lệ trong việc tách từ, tách câu còn chưa được
áp dụng.
Ngoài ra, khi cài đặt thuật toán, chúng tôi cho rằng vẫn còn
nhiều điểm dư thừa hay phức tạp làm tăng độ phức tạp của giải thuật.
Đây là một vấn đề mà chúng tôi còn cần phải cải tiến trong tương lại.
Việc cải tiến giải thuật và tinh gọn hết múc có thể có ảnh hưởng đến
thời gian xử lý chung của hệ thống.
Trong tương lai, chúng tôi sẽ triển khai hệ thống phát hiện sao
chép tài liệu của mình trên các hệ thống thực với các quy mô lớn chứ
không dừng lại ở các dữ liệu thực nghiệm mà trong luận án đã trình
bày. Ngoài ra, chúng tôi còn hy vọng rằng hệ thống của mình có thể
triển khai và ứng dụng một cách thực tế, góp phần bổ sung thêm một
công cụ hữu tích cho lĩnh vực tìm kiếm và phát hiện sao chép văn
bản nói riêng và cho lĩnh vực Công nghệ thông tin nói chung.

More Related Content

Similar to Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Chép.doc

Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.docLuận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doctcoco3199
 
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.docLuận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doctcoco3199
 
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docx
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docxTop 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docx
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docxlamluanvan.net Viết thuê luận văn
 
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.docLuận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doctcoco3199
 
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfMan_Ebook
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryTran Minh Tuan
 
Module 2: Tim kiem, luu tru va chia se tu lieu DHHH
Module 2: Tim kiem, luu tru va chia se tu lieu DHHHModule 2: Tim kiem, luu tru va chia se tu lieu DHHH
Module 2: Tim kiem, luu tru va chia se tu lieu DHHHThao Linh Dao
 
Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuAnh Ta
 
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfGiáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfMan_Ebook
 
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Luận Văn Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.doc
Luận Văn  Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.docLuận Văn  Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.doc
Luận Văn Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.docsividocz
 

Similar to Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Chép.doc (20)

Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.docLuận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
 
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.docLuận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
Luận Văn Ứng Dụng Khai Thác Mẫu Chuỗi Để Khai Thác Hành Vi Sử Dụng Web.doc
 
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docx
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docxTop 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docx
Top 5 Bài Tiểu Luận Phương Pháp Nghiên Cứu Khoa Học Hay.docx
 
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.docLuận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
Luận Văn Phƣơng Pháp Phân Vùng Phân Cấp Trong Khai Thác Tập Phổ Biến.doc
 
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
 
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.docỨng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
 
Trongtruong so27a 09
Trongtruong so27a 09Trongtruong so27a 09
Trongtruong so27a 09
 
Module 2: Tim kiem, luu tru va chia se tu lieu DHHH
Module 2: Tim kiem, luu tru va chia se tu lieu DHHHModule 2: Tim kiem, luu tru va chia se tu lieu DHHH
Module 2: Tim kiem, luu tru va chia se tu lieu DHHH
 
Chu de3 nhom2
Chu de3 nhom2Chu de3 nhom2
Chu de3 nhom2
 
Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieu
 
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdfGiáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
Giáo trình cơ sở dữ liệu, Phan Tấn Quốc.pdf
 
Xây Dựng Và Đánh Giá Hệ Thống Tìm Kiếm Thông Tin.doc
Xây Dựng Và Đánh Giá Hệ Thống Tìm Kiếm Thông Tin.docXây Dựng Và Đánh Giá Hệ Thống Tìm Kiếm Thông Tin.doc
Xây Dựng Và Đánh Giá Hệ Thống Tìm Kiếm Thông Tin.doc
 
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...
Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Chẩn Đoán Bệnh Trầm Cảm Cho Họ...
 
Nghiên Cứu Xây Dựng Khung Quản Trị Dữ Liệu Cho Việc Quản Lý Dữ Liệu Của Tổng ...
Nghiên Cứu Xây Dựng Khung Quản Trị Dữ Liệu Cho Việc Quản Lý Dữ Liệu Của Tổng ...Nghiên Cứu Xây Dựng Khung Quản Trị Dữ Liệu Cho Việc Quản Lý Dữ Liệu Của Tổng ...
Nghiên Cứu Xây Dựng Khung Quản Trị Dữ Liệu Cho Việc Quản Lý Dữ Liệu Của Tổng ...
 
Csdl
CsdlCsdl
Csdl
 
Luận Văn Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.doc
Luận Văn  Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.docLuận Văn  Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.doc
Luận Văn Đề Cương Công Nghệ Thông Tin Nguyên Lý Hệ Điều Hành.doc
 
Nghiên cứu xây dựng khung quản trị dữ liệu cho việc quản lý dữ liệu của tổng ...
Nghiên cứu xây dựng khung quản trị dữ liệu cho việc quản lý dữ liệu của tổng ...Nghiên cứu xây dựng khung quản trị dữ liệu cho việc quản lý dữ liệu của tổng ...
Nghiên cứu xây dựng khung quản trị dữ liệu cho việc quản lý dữ liệu của tổng ...
 
Bc do an
Bc do anBc do an
Bc do an
 
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.docXây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
Xây Dựng Công Cụ Sinh Dữ Liệu Thử Tự Động Cho Chương Trình Java.doc
 

More from Dịch vụ viết thuê Luận Văn - ZALO 0932091562

Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Dịch vụ viết thuê Luận Văn - ZALO 0932091562
 

More from Dịch vụ viết thuê Luận Văn - ZALO 0932091562 (20)

Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
Nghiên Cứu Thu Nhận Pectin Từ Một Số Nguồn Thực Vật Và Sản Xuất Màng Pectin S...
 
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
Phát Triển Cho Vay Hộ Kinh Doanh Tại Ngân Hàng Nông Nghiệp Và Phát Triển Nông...
 
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.docNghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
Nghiên Cứu Nhiễu Loạn Điện Áp Trong Lưới Điện Phân Phối.doc
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Kết Quả Kinh Doanh Của Các Công Ty Ngành...
 
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.docPhát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
Phát Triển Công Nghiệp Huyện Điện Bàn Tỉnh Quảng Nam.doc
 
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
Phát Triển Kinh Tế Hộ Nông Dân Trên Địa Bàn Huyện Quảng Ninh, Tỉnh Quảng Bình...
 
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
Vận Dụng Mô Hình Hồi Quy Ngưỡng Trong Nghiên Cứu Tác Động Của Nợ Lên Giá Trị ...
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Cấu Trúc Vốn Của Doanh Nghiệp Ngành Hàng...
 
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
Nghiên Cứu Các Nhân Tố Ảnh Hưởng Đến Hiệu Quả Kinh Doanh Của Các Doanh Nghiệp...
 
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
Hoàn Thiện Công Tác Thẩm Định Giá Tài Sản Bảo Đảm Trong Hoạt Động Cho Vay Tại...
 
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
Biện Pháp Quản Lý Xây Dựng Ngân Hàng Câu Hỏi Kiểm Tra Đánh Giá Kết Quả Học Tậ...
 
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
Hoàn Thiện Công Tác Huy Động Vốn Tại Ngân Hàng Tmcp Công Thương Việt Nam Chi ...
 
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.docÁnh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
Ánh Xạ Đóng Trong Không Gian Mêtric Suy Rộng.doc
 
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
Giải Pháp Hạn Chế Nợ Xấu Đối Với Khách Hàng Doanh Nghiệp Tại Ngân Hàng Thương...
 
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
Hoàn Thiện Công Tác Đào Tạo Đội Ngũ Cán Bộ Công Chức Phường Trên Địa Bàn Quận...
 
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
Giải Pháp Marketing Cho Dịch Vụ Ngân Hàng Điện Tử Tại Ngân Hàng Tmcp Hàng Hải...
 
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
Biện Pháp Quản Lý Công Tác Tự Đánh Giá Trong Kiểm Định Chất Lượng Giáo Dục Cá...
 
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
Kiểm Soát Rủi Ro Tín Dụng Trong Cho Vay Ngành Xây Dựng Tại Nhtmcp Công Thương...
 
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.docDiễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
Diễn Ngôn Lịch Sử Trong Biên Bản Chiến Tranh 1-2 -3- 4.75 Của Trần Mai Hạnh.doc
 
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.docQuản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
Quản Lý Hoạt Động Dạy Học Môn Toán Ở Các Trường Thpt Thành Phố Kon Tum.doc
 

Recently uploaded

ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhh
ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhhôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhh
ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhhvanhathvc
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...Nguyen Thanh Tu Collection
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHThaoPhuong154017
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxendkay31
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Nguyen Thanh Tu Collection
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfhoangtuansinh1
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếngTonH1
 
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...Nguyen Thanh Tu Collection
 
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...Nguyen Thanh Tu Collection
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếngTonH1
 
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocBai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocVnPhan58
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...Nguyen Thanh Tu Collection
 
Sơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdfSơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdftohoanggiabao81
 
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoabài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa2353020138
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Học viện Kstudy
 
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líKiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líDr K-OGN
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Nguyen Thanh Tu Collection
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...Nguyen Thanh Tu Collection
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxnhungdt08102004
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...ThunTrn734461
 

Recently uploaded (20)

ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhh
ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhhôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhh
ôn tập lịch sử hhhhhhhhhhhhhhhhhhhhhhhhhh
 
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
BỘ ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXHTư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
Tư tưởng Hồ Chí Minh về độc lập dân tộc và CNXH
 
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptxChàm - Bệnh án (da liễu - bvdlct ctump) .pptx
Chàm - Bệnh án (da liễu - bvdlct ctump) .pptx
 
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
Sáng kiến “Sử dụng ứng dụng Quizizz nhằm nâng cao chất lượng ôn thi tốt nghiệ...
 
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdfChuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
Chuong trinh dao tao Su pham Khoa hoc tu nhien, ma nganh - 7140247.pdf
 
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tếHệ phương trình tuyến tính và các ứng dụng trong kinh tế
Hệ phương trình tuyến tính và các ứng dụng trong kinh tế
 
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
10 ĐỀ KIỂM TRA + 6 ĐỀ ÔN TẬP CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO C...
 
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
ĐỀ THAM KHẢO THEO HƯỚNG MINH HỌA 2025 KIỂM TRA CUỐI HỌC KÌ 2 NĂM HỌC 2023-202...
 
Ma trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tếMa trận - định thức và các ứng dụng trong kinh tế
Ma trận - định thức và các ứng dụng trong kinh tế
 
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hocBai 1 cong bo mot cong trinh nghien cuu khoa hoc
Bai 1 cong bo mot cong trinh nghien cuu khoa hoc
 
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
TỔNG HỢP ĐỀ THI CHÍNH THỨC KỲ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN NĂM ...
 
Sơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdfSơ đồ tư duy môn sinh học bậc THPT.pdf
Sơ đồ tư duy môn sinh học bậc THPT.pdf
 
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoabài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
bài 5.1.docx Sinh học di truyền đại cương năm nhất của học sinh y đa khoa
 
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
Slide Webinar Hướng dẫn sử dụng ChatGPT cho người mới bắt đầ...
 
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh líKiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
Kiểm tra chạy trạm lí thuyết giữa kì giải phẫu sinh lí
 
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
Sáng kiến Dạy học theo định hướng STEM một số chủ đề phần “vật sống”, Khoa họ...
 
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
BỘ ĐỀ KIỂM TRA CUỐI KÌ 2 VẬT LÝ 11 - KẾT NỐI TRI THỨC - THEO CẤU TRÚC ĐỀ MIN...
 
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docxTrích dẫn trắc nghiệm tư tưởng HCM5.docx
Trích dẫn trắc nghiệm tư tưởng HCM5.docx
 
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
QUẢN LÝ HOẠT ĐỘNG GIÁO DỤC KỸ NĂNG SỐNG CHO HỌC SINH CÁC TRƯỜNG TRUNG HỌC CƠ ...
 

Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Chép.doc

  • 1. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ NGỌC QUYỀN NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT CỦA BIG DATA TRONG HỆ THỐNG PHÁT HIỆN SAO CHÉP Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2016
  • 2. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS. VÕ TRUNG HÙNG Phản biện 1: TS. Phạm Minh Tuấn Phản biện 2: TS. Lê Xuân Việt Luận văn đã được bảo vệ tại Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật tại Đại học Đà Nẵng vào ngày 25 tháng 7 năm 2016. Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
  • 3. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 1 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, cùng với sự phát triển vượt bậc của ngành CNTT nói chung và hệ thống mạng Internet nói riêng, việc mọi người có thể tạo ra các tài liệu mới, chia sẻ và tìm kiếm thông tin trở nên dễ dàng và phổ biến. Chính vì điều này cũng tạo ra những mặt trái làm ảnh hưởng tiêu cực đến việc bảo đảm quyền tác giả, tác phẩm của một số công trình nghiên cứu như việc sao chép các bài báo, tài liệu nghiên cứu, báo cáo thực tập, khóa luận tốt nghiệp, luận văn,… được công khai phát tán, chỉnh sửa ngay cả khi không được sự đồng ý của tác giả. Nhận thấy đây là một vấn đề nghiêm trọng đối với việc chia sẻ thông tin nên nếu điều này không được giải quyết, nó sẽ làm cho tác giả không muốn chia sẻ tài liệu của mình và làm giảm cơ hội cho người muốn sử dụng truy cập những thông tin có giá trị. Những nghiên cứu phát hiện sao chép và trùng khớp chuỗi văn bản đã cho ra đời nhiều công cụ hiệu quả và có thể sử dụng trực tuyến như Plagiarism Checker Software, Turnitin, …. Tuy nhiên, ngày nay có rất nhiều nguồn dữ liệu được lấy từ rất nhiều nguồn khác nhau như âm thanh, đoạn phim, hình ảnh, nguồn dữ liệu đầu vào rất là đa dạng hoặc một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào đảm đương được. Mặt khác, khi mà nguồn tài liệu ngày càng dồi dào, các kho tài liệu trở nên quá đồ sộ khiến cho việc lưu trữ trở nên khó khăn, một hệ thống máy tính không thể lưu trữ đủ mà việc lưu trữ phải được phân tán, chia nhỏ ra để lưu trữ trên nhiều hệ thống máy tính khác nhau. Điều này làm cho các công cụ xử lý dữ liệu truyền thống không còn hoạt động hiệu quả, do vấn đề quản lý dữ
  • 4. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 2 liệu, việc đọc ghi dữ liệu trở thành vấn đề mà các hướng tiếp cận xử lý dữ liệu đều phải tập trung giải quyết. Dữ liệu nói chung và dữ liệu dưới dạng các văn bản điện tử đang tăng lên nhanh chóng. Theo thống kê thì cứ sau mỗi năm, dữ liệu tăng lên hơn gấp đôi so với dữ liệu của năm trước đó. Số lượng nội dung kỹ thuật số trên web hiện nay đạt xấp xỉ năm trăm tỷ gigabyte và con số này dự kiến sẽ tăng gấp đôi trong vòng một năm. Sự bùng nổ của các mạng di động, điện toán đám mây và các công nghệ mới đã làm tăng gần như không thể kiểm soát nguồn thông tin trên thế giới. Sự cần thiết của việc quản lý một cách hiệu quả nguồn dữ liệu ngày càng tăng theo cấp số nhân này đã được rất nhiều nhà khoa học quan tâm và thực hiện. Dữ liệu không chỉ cần phải được xử lý và phân tích nhanh, mà một yêu cầu khác cũng cần phải được quan tâm đầu tư là bảo đảm dữ liệu được sao lưu một cách đảm bảo để không bị mất dữ liệu. Đồng thời, chúng ta cũng cần có cơ chế để tránh sự trùng lặp hay sap chép lẫn nhau giữa các tài liệu. Điều này đặc biệt quan trọng khi vấn đề bản quyền, quyền tác giả ngày càng được thực thi một cách nghiệm túc. Các kỹ thuật về big data đã được phát triển nhằm mục đích giải quyết vấn đề về cách tổ chức và xử lý dữ liệu khi kho dữ liệu ngày càng trở nên quá lớn. Tuy nhiên, chúng ta vẫn phải đối mặt với vấn đề về lưu trữ và phân tích dữ liệu nhằm đáp ứng yêu cầu của người sử dụng. Vấn đề mà chúng ta phải đối mặt là: trong khi khả năng lưu trữ của ổ đĩa cứng đã tăng mạnh trong những năm qua, tốc độ truy cập - tốc độ dữ liệu có thể được đọc từ ổ đĩa đã không bắt kịp. Phải mất một thời gian khá lâu để đọc tất cả các dữ liệu trên một ổ đĩa và thời gian để ghi dữ liệu thậm chí còn chậm hơn. Cách rõ ràng và đơn giản nhất để giảm thời gian xử lý dữ liệu là chúng ta cần phải
  • 5. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 3 đọc và ghi dữ liệu từ nhiều đĩa cùng một lúc. Bên cạnh việc thu giảm thời gian xử lý, làm việc song song còn giúp tiết kiệm các chi phí về đầu tư nguồn lực cho các máy tính có không gian lưu trữ và khả năng xử lý lớn, bằng cách tận dụng nhiều máy tính có khả năng lưu trữ và năng lực xử lý thấp hơn. Xử lý và phân tích dữ liệu trong thời gian tối thiểu có thể là vô cùng quan trọng trong khoa học xử lý dữ liệu nói riêng và trong khoa học máy tính ngày nay nói chung. Các công cụ quản lý dữ liệu truyền thống như hệ quản trị CSDL quan hệ (RDBMS), không còn chứng minh được khả năng xử lý của chúng trong việc xử lý tình trạng bùng nổ dữ liệu như hiện nay. Để theo kịp với quy mô tăng trưởng một cách bùng nổ của dữ liệu, đặc biệt là các hệ dữ liệu lớn, các kho dữ liệu phân tán có quy mô lớn là phương tiện cần thiết để tổ chức, lưu trữ và đáp ứng khả năng mở rộng khi khối lượng dữ liệu tăng. Những khó khăn trên là động lực để chúng tôi thực hiện luận văn này với đề tài là “Nguyên cứu ứng dụng các kỹ thuật Big data trong hệ thống phát hiện sao chép”, nhằm mục đích nghiên cứu và xây dựng công cụ phát hiện sao chép có thể thực hiện được với các kho tài liệu tiếng Việt. Luận văn này cung cấp một cách nhìn tổng quan về các phương pháp mới trong việc xử lý các tập dữ liệu lớn, bằng cách sử dụng kỹ thuật MapReduce. Luận văn cũng tập trung vào nghiên cứu khung thức Hadoop và hệ thống tập tin phân bố Hadoop (Hadoop Distributed File System), trong đó sử dụng thuật toán MapReduce để quản lý số lượng dữ liệu lớn và khả năng mở rộng cao, bằng cách phân chia các tập dữ liệu lớn trên nhiều máy chủ và cơ chế xử lý song song từng phần và sau đó kết hợp các kết quả xử lý của từng phần lại với nhau để sản sinh ra câu trả lời cuối cùng. Trong đó, luận
  • 6. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 4 văn này áp dụng các kỹ thuật, khung thức và giải thuật đã nghiên cứu vào việc giải quyết bài toán xây dựng hệ thống phát hiện sao chép bằng kỹ thuật big data, mà cụ thể đó là thuật toán MapReduce trên nền khung thức Hadoop. 2. Mục đích nghiên cứu Mục đích nghiên cứu của đề tài là xây dựng ứng dụng trong đó sử dụng phương pháp MapReduce để xử lý dữ liệu trên các kho dữ liệu lớn, để so khớp và phát hiện nội dung giống nhau giữa các tài liệu văn bản. 3. Đối tƣợng và phạm vi nghiên cứu - Đối tƣợng nghiên cứu Đối tượng nghiên cứu của đề tài là cấu trúc tài liệu dạng văn bản, phương pháp và kỹ thuật tách câu Tiếng Việt, các thuật toán tìm kiếm và so khớp mẫu, và các kỹ thuật xử lý trong lĩnh vực big data để xử lý việc tìm kiếm, so trùng, phát hiện sao chép trên các kho dữ liệu lớn và phân bố. - Phạm vi nghiên cứu Trong khuôn khổ của luận văn, tôi chỉ giới hạn việc nghiên cứu các phương pháp, các kỹ thuật có liên quan đến việc tách câu, tách từ trong tiếng Việt, nghiên cứu các giải thuật xử lý big data và triển khai thử nghiệm trên các kho dữ liệu mẫu. Luận văn chưa thực hiện trên các kho dữ liệu thực tế quy mô lớn. 4. Phƣơng pháp nghiên cứu Về phương pháp nghiên cứu, tôi đã sử dụng hai phương pháp chính là nghiên cứu lý thuyết và nghiên cứu thực nghiệm. Phương pháp nghiên cứu tài liệu: Với phương pháp này, chúng tôi nghiên cứu các ứng dụng kỹ thuật và cách biễu diễn dữ liệu trong big data, các kỹ thuật tách câu, tách từ trong tiếng Việt,
  • 7. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 5 các thuật toán tìm kiếm, so khớp, và phát hiện sao chép, nghiên cứu các tài liệu liên quan đến big data và các giải thuật cũng như các kỹ thuật xử lý dữ liệu trong big data. Phương pháp thực nghiệm: Với phương pháp này, chúng tôi ứng dụng kỹ thuật xử lý big data vào hệ thông phát hiện sao chép, nghiên cứu ngôn ngữ lập trình phù hợp (ngôn ngữ java) và hiện thực các kỹ thuật này trong ngôn ngữ lập trình. Chúng tôi cũng đã xây dựng chương trình và chạy thử nghiệm. 5. Ý nghĩa của đề tài Về khoa học: Kết quả nghiên cứu của đề tài góp phần mở ra một hướng nghiên cứu cũng như ứng dụng mới, đó là việc ứng dụng các kỹ thuật xử lý big data vào bài toán so trùng và phát hiện sao chép. Về thực tiễn: Đề tài sẽ góp phần nâng cao chất lượng trong quản lý, nâng cao chất lượng đào tạo cũng như góp phần hạn chế vấn đề vi phạm bản quyền, vấn đề sao chép lẫn nhau giữa các tài liệu. 6. Cấu trúc luận văn Cấu trúc của luận văn bao gồm có 3 chương: Chương 1: Nghiên cứu tổng quan Chương 2: Phân tích ứng dụng và đề xuất giải pháp Chương 3: Phát triển ứng dụng
  • 8. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 6 CHƢƠNG 1 NGHIÊN CỨU TỔNG QUAN Chương này trình bày kết quả nghiên cứu các nội dung tổng quan về dữ liệu lớn (big data); đặc điểm của câu, từ trong văn bản tiếng Việt; phương pháp tách câu, tách từ trong văn bản tiếng Việt; các giải thuật so khớp mẫu; phần cuối của chương giới thiệu một số ứng dụng tương tự trong lĩnh vực so sánh trùng khớp cũng như tính toán độ tương tự giữa các văn bản nhằm mục đích hỗ trợ việc phát hiện sao chép giữa các tài liệu văn bản. 1.1. DỮ LIỆU LỚN 1.1.1. Khái niệm về Big Data Dữ liệu lớn (Big Data) là một thuật ngữ được định nghĩa một cách lỏng lẻo dùng để mô tả các bộ dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các cách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn và tính riêng tư. Thuật ngữ này thường đơn giản là sử dụng để phân tích dự đoán hoặc là một số phương pháp tiên tiến khác để trích xuất giá trị từ dữ liệu, mà ít khi đề cập đến kích thước của bộ dữ liệu. Dữ liệu lớn, như tên gọi của nó, có kích thước quá lớn, thay đổi quá nhanh và thường không thể lưu trữ tập trung, và thường không phù hợp với các cấu trúc của kiến trúc cơ sở dữ liệu. 1.1.2. Quy mô dữ liệu Đến đây, chắc chắn chúng ta sẽ có câu hỏi là “Vậy dữ liệu lớn đến cỡ nào thì được coi là big data?”. Câu trả lời là tuỳ vào dữ liệu mà chúng ta đang xử lý. Có những dữ liệu kích thước nhỏ nhưng mà lại là “lớn", và cũng có những dữ liệu kích thước lớn mà lại là “nhỏ".
  • 9. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 7 Ví dụ, hệ thống của chúng ta hoạt động trong vòng 10 năm và tạo ra các tập tin nhật ký (tập tin log), các tập tin này đơn thuần là các tập tin văn bản ghi lại các thao tác của người dùng chẳng hạn. Tổng dung lượng của chúng có thể chỉ là vài trăm gigabyte (kích thước nhỏ) nhưng nó lại là “lớn" để tiến hành phân tích, do đó có thể coi đó là một ngưồn big data. Ngược lại, chúng ta có thể có hàng ngàn tập tin video, mỗi tập tin kích thước khoảng vài chục GB. Như vậy, tổng cộng nguồn dữ liệu của chúng ta có thể lên đến hàng chục hoặc hàng trăm tetrabyte (kích thước lớn), nhưng nó lại là nhỏ khi tiến hành phân tích và không phải là big data. Sau đây là một vài ví dụ về các big data trên thế giới: Công ty Google đã tăng từ việc xử lý khoảng 100 TB dữ liệu mỗi ngày với MapReduce vào năm 2004 đến xử lý 20 PB một ngày với MapReduce vào năm 2008. Vào tháng tư năm 2009, công ty bán hàng trực tuyến eBay đã sở hữu hai kho dữ liệu khổng lồ: một kho với khoảng 2 PB dữ liệu người dùng, và kho khoảng 6,5 PB dữ liệu người dùng với hơn 170 ngàn tỷ hồ sơ và ngày càng tăng lên nhanh chóng với thêm 150 tỷ hồ sơ mới mỗi ngày. 1.1.3. Các vấn đề cần phải giải quyết của big data Thực tế là các kho dữ liệu hiện tại đã là rất lớn và chúng còn đang tăng trưởng một cách nhanh chóng theo cấp số mũ. Các nguồn dữ liệu này không chỉ xuất phát từ con người (như nguồn thu thập từ các mạng xã hội) mà còn từ máy tính (các loại thông tin nhật ký được tạo bởi máy tính) và các vệ tinh (nguồn dữ liệu thu thập từ vệ tinh) được tạo ra liên tục dẫn đến vấn đề là làm thế nào chúng ta có thể giải quyết nguồn dữ liệu lớn và tăng trưởng liên tục như vậy. Hai yếu tố cần được quan tâm để giải quyết vấn đề này là:
  • 10. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 8 - Xử lý dữ liệu nhanh - Nguồn lưu trữ dữ liệu đáng tin cậy 1.2. ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU 1.2.1. Từ trong văn bản tiếng Việt Từ là đơn vị sẵn có trong ngôn ngữ. Từ là đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh, đựợc dùng để cấu thành Câu. Từ có thể làm tên gọi của sự vật (danh từ), chỉ các hoạt động (động từ), trạng thái, tính chất (tính từ), ... Từ là công cụ biểu thị khái niệm của con người đối với hiện thực. 1.2.2. Câu trong văn bản tiếng Việt Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác định, được tạo ra trong quá trình tư duy, giao tiếp, có giá trị thông báo, gắn liền với mục đích giao tiếp nhất định. Nói đến cấu trúc câu là nói đến các thành phần tạo câu cùng với chức năng, mối quan hệ qua lại và sự phân bố chúng trong tổ chức nội bộ câu. Dựa vào vai trò tạo câu, các thành phần câu được chia thành ba loại lớn: thành phần nòng cốt, thành phần phụ và thành phần biệt lập. 1.2.3. Bài toán tách câu Để tách một văn bản ra thành các đơn vị câu độc lập thường dựa vào các dấu hiệu kết thúc câu (dấu chấm “.”, dấu chấm than “!” và dấu chấm hỏi “?”, …). Nhưng vẫn có những câu mà dấu hiệu kết thúc câu vẫn chưa phải là kết thúc câu, đó là các ngoại lệ. 1.2.4. Bài toán tách từ Văn bản tiếng Việt đặt dấu cách giữa các âm tiết chứ không phải giữa các từ. Một từ có thể có một, hai hoặc nhiều âm tiết nên có
  • 11. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 9 nhiều cách phân chia các âm tiết thành các từ, gây ra nhập nhằng. Hiện nay có nhiều phương pháp tiếp cận bài toán tách từ, nhưng luận văn này chỉ đề cập đến phương pháp sử dụng mô hình n-gram. Với mô hình n-gram, chúng ta coi một văn bản, đoạn văn bản là chuỗi các từ liền kề nhau w1w2…wn và sau đó phân tích xác suất của chuỗi với công thức xác suất kết hợp: p(w1w2…wn) = p(w1) * p(w2/w1) * p(w3/w1w2) *…* p(wn/w1w2…wn-1) 1.3. BÀI TOÁN SO KHỚP MẪU Một phép toán cơ bản trên chuỗi là “so khớp mẫu” (pattern matching). Bài toán này được định nghĩa như sau: Cho trước một chuỗi văn bản có độ dài là n và một mẫu có độ dài m, hãy tìm sự xuất hiện của mẫu trong văn bản. Để tìm tất cả các sự xuất hiện của mẫu trong văn bản, chúng ta thực hiện bằng cách quét qua toàn bộ văn bản một cách tuần tự. Bài toán “so khớp mẫu” có đặc trưng là một bài toán tìm kiếm, trong đó mẫu được xem như là khóa. 1.4. GIỚI THIỆU MỘT SỐ THUẬT TOÁN Chúng tôi tìm hiểu về 5 giải thuật cơ bản nhất trong so sánh chuỗi đó là: Knuth–Morris–Pratt, Boyer–Moore, Rabin–Karp, Brute– Force, Naïve. - Thuật toán Knuth–Morris–Pratt - Thuật toán Boyer-Moore - Thuật toán Rabin-Karp - Thuật toán Brute-Force - Thuật toán Naïve Đánh giá các thuật toán so khớp mẫu: Ta nhận thấy việc tìm kiếm bằng Brute–Force có thể là rất chậm đối với một số mẫu nào đó,
  • 12. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 10 ví dụ nếu chuỗi cần xét là một chuỗi nhị phân thì trong trường hợp xấu nhất là khi cả mẫu thử đểu là số 0 và kết thúc bởi một số 1. Khi đó, chúng ta cần phải thực hiện n-m+1 phép so sánh. Mặt khác thường thì m rất nhỏ so với n, như vậy số phép so sánh ký tự xấp xỉ bằng m * n. Thuật toán Knuth–Morris–Pratt không bao giờ dùng nhiều hơn m+n phép so sánh ký tự, từ đó ta dễ nhận thấy thuật toán này dùng ít phép toán so sánh hơn Brute–Force. Tuy nhiên trong ứng dụng thực tế thì thuật toán Knuth–Morris–Pratt nhanh hơn không đáng kể so với thuật toán Brute–Force. Thuật toán Boyer–Moore không dùng nhiều hơn m+n phép so sánh ký tự. Thuật toán là tuyến tính trong trường hợp cùng cách cài đặt với thuật toán Knuth–Morris–Pratt, thông thường thì Boyer– Moore không tuyến tính. Trong thực tế, khi các ký tự văn bản không xuất hiện trong mẫu thì mỗi phép so sánh dẫn đến mẫu sẽ dịch sang phải m ký tự, vì vậy đối với văn bản lớn và mẫu thử không dài thì thuật toán phải dùng n/m bước. Còn thuật toán Rabin–Krap gần như là tuyến tính. Số phép so sánh theo thuật toán này là m+n, thuật toán chỉ đi tìm một vị trí trong văn bản có cùng giá trị mảng băm với mẫu. 1.5. MỘT SỐ ỨNG DỤNG ĐÃ CÓ Trong phần này, chúng tôi thực hiện việc khảo sát qua các công cụ, các hệ thống có chức năng tính độ tương tự giữa tài liệu cũng như phát hiện sao chép giữa các tài liệu. Các công cụ này có chức năng tương tự với hệ thống mà luận văn này sẽ xây dựng. - Phần mềm Plagiarism Checker
  • 13. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 11 - Công cụ Turnitin.com - Công cụ Scanmyessay.com - Công cụ Ithenticate.com - Công cụ Copyscape.com - Công cụ Plagspotter.com
  • 14. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 12 CHƢƠNG 2 PHÂN TÍCH ỨNG DỤNG VÀ ĐỀ XUẤT GIẢI PHÁP Chương 2 này tập trung phân tích mô hình và ứng dụng phát hiện sao chép tài liệu trong các kho dữ liệu, bằng cách sử dụng kỹ thuật xử lý dữ liệu của big data. Để làm tăng hiệu quả cho hệ thống phát hiện sao chép trong các kho dữ liệu lớn, giải pháp được đề xuất như sau: Xây dựng mô hình đặc trưng cho các văn bản trong tập dữ liệu đầu vào, dựa trên các phương pháp tách từ và tách câu trong tiếng Việt; ứng dụng các thuật toán tìm kiếm và so khớp mẫu như đã tìm hiểu trong Chương 1; áp dụng chúng vào trong mô hình đặc trưng cũng như các công cụ xử lý big data. 2.1. MÔ HÌNH ỨNG DỤNG PHÁT HIỆN SAO CHÉP Hình 2.1 trình bày về mô hình ứng dụng phát hiện sao chép tài liệu bằng cách áp dụng các kỹ thuật big data. Trong đó, nhưng khối chức năng mà chúng ta cần phải giải quyết là: Tài liệu cần kiểm tra Hệ thống phát hiện sao chép bằng kỹ thuật Big Data - Những sao chép từ các tài liệu trong kho. -Vị trí. -Tên tài liệu Kho tài liệu có sẵn N-Grams Bộ sưu tập tài liệu đã có Hình 2.1. Mô hình ứng dụng phát hiện sao chép
  • 15. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 13 - Hệ thống quản lý kho dữ liệu big data: Để thao tác với kho dữ liệu big data, chúng ta cần phải có hệ thống quản lý tương ứng. Trong lĩnh vực big data, dữ liệu thường không thể lưu trữ ở một máy (thậm chí là máy chủ) mà phải phân tán ở nhiều máy tính khác nhau. Trong luận văn này, chúng tôi tìm hiểu và vận dụng hệ thống quản lý tập tin phân tán của Hadoop để quản lý kho dữ liệu của hệ thống. - Giải thuật song song thực hiện việc phát hiện và so trùng mẫu: Với hệ thống tập tin phân tán đã tổ chức, chúng ta cần sử dụng các giải thuật song song để thực thi trên hệ thống phân tán này. Với giải thuật xử lý song song, chúng ta có thể thu được kết quả trong khoản thời gian nhanh hơn. Giải thuật xứ lý song song được đề xuất trong luận văn này là giải thuật MapReduce. Chi tiết về giải thuật này cũng được chúng tôi trình bày trong phần sau. - Ngoài hai khối chức năng chính nêu trên, luận văn còn phải áp dụng một số vấn đề đã được tìm hiểu trong Chương 1 vào ứng dụng phát hiện sao chép tài liệu như cách thức phân tích các từ, câu; mô hình cũng như phương pháp đánh giá trọng số về độ tương tự giữa các câu, các văn bản. Để tính trọng số về độ tương tự giữa các văn bản, luận văn sử dụng trong số Jaccard. Trong các phần sau, chúng tôi lần lượt đi tìm hiểu và vận dụng các hệ thống, các giải thuật nêu trên vào ứng dụng của mình. 2.2. HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN HADOOP Khi kích thước của tập dữ liệu vượt quá khả năng lưu trữ của một máy tính, tất yếu sẽ dẫn đến nhu cầu hân chia dữ liệu lên trên nhiều máy tính. Các hệ thống tập tin quản lý việc lưu trữ dữ liệu trên một mạng nhiều máy tính gọi là hệ thống tập tin phân tán. Do hoạt động trên môi trường liên mạng, nên các hệ hống tập tin phân tán
  • 16. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 14 phức tạp hơn rất nhiều so với một hệ thống tập tin cục bộ. Ví dụ như một hệ hống tập tin phân tán phải quản lý được tình trạng hoạt động (live/dead) của các máy chủ tham gia vào hệ thống quản lý tập tin này. Hadoop mang đến cho chúng ta hệ thống tập tin phân tán HDFS (viết tắt từ Hadoop Distributed File System) với nỗ lực tạo ra một nền tảng lưu trữ dữ liệu đáp ứng cho một khối lượng dữ liệu lớn và chi phí rẻ. Trong phần này, chúng tôi sẽ giới thiệu kiến trúc của HDFS cũng như cách vận dụng nó. 2.2.1. Giới thiệu HDFS ra đời trên nhu cầu lưu trữ dữ liệu của Nutch, một dự án về máy tìm kiếm (Search Engine) nguồn mở. HDFS kế thừa các mục tiêu chung của các hệ thống tập tin phân tán trước đó như độ tin cậy, khả năng mở rộng và hiệu suất hoạt động. Tuy nhiên, HDFS ra đời trên nhu cầu lưu trữ dữ liệu của Nutch, một dự án Search Engine nguồn mở, và phát triển để đáp ứng các đòi hỏi về lưu trữ và xử lý của các hệ thống xử lý dữ liệu lớn với các đặc thù riêng. Do đó, các nhà phát triển HDFS đã xem xét lại các kiến trúc phân tán trước đây và nhận ra các sự khác biệt trong mục tiêu của HDFS so với các hệ thống tập tin phân tán truyền thống. 2.2.2. Kiến trúc HDFS HDFS lưu trữ các tập tin về dữ liệu của ứng dụng và các tập tin chứa siêu dữ liệu (metadata) của hệ thống một cách riêng biệt. Siêu dữ liệu hay các định nghĩa tập tin được lưu trữ trên một máy chủ chuyên dụng gọi là các NameNode và dữ liệu của ứng dụng được lưu trữ trên các máy chủ được gọi là các DataNode. Tất cả các máy chủ được kết nối một cách đầy đủ và giao tiếp với nhau bằng cách sử dụng giao thức dựa trên giao thức TCP.
  • 17. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 15 Các NameNode độc lập và không cần phải phối hợp với nhau. Để đảm bảo dữ liệu được bền vững, nội dung của tập tin được nhân rộng trên nhiều DataNode khác nhau. Bên cạnh việc đảm bảo dữ liệu có độ bền cao, chiến lược này có thêm lợi thế là băng thông truyền dữ liệu được nhân lên, và tạo ra có nhiều cơ hội hơn trong việc định vị sự tính toán cho những nơi gần dữ liệu cần thiết nhất. 2.2.3. Quá trình đọc và ghi tập tin trên HDFS Hình 2.3. Quá trình đọc tập tin trên HDFS Hình 2.4. Quá trình ghi tập tin trên HDFS
  • 18. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 16 Hình 2.3 và hình 2.4 miêu tả rõ quá trình client đọc và ghi một tập tin trên HDFS. Quá trình đọc này ghi tập tin này diễn ra theo đúng trình tự và có cơ chế giám sát thông qua các tín hiệu bắt tay một cách chặc chẽ. Thao tác này không thành công sẽ được thực hiện lại ngay hoặc được chuyển đổi qua một node khác để đảm bảo dữ liệu luôn được chắc chắn và không mất mát. 2.3. GIẢI THUẬT XỬ LÝ SONG SONG MAPREDUCE 2.3.1. Giới thiệu về MapReduce MapReduce là một mô hình lập trình dùng để biểu diễn các tính toán phân bố trên một lượng lớn dữ liệu và một khung thức thực thi cho việc xử lý dữ liệu quy mô lớn trên các cụm máy chủ. MapReduce được phát triển bởi Google và được xây dựng trên nguyên tắc nổi tiếng trong xử lý song song và phân tán. MapReduce đã được áp dụng rộng rãi thông qua việc hiện thực dưới dạng nguồn mở trên hệ thống Hadoop. 2.3.2. Kiến trúc của MapReduce Kiến trúc của MapReduce được trình bày như trong hình 2-4. Trong đó, MapReduce gồm có các thành phần chính như sau: - Client Program (chương trình khách): là một chương trình Hadoop MapReduce mà client đang sử dụng và tiến hành chạy một công việc MapReduce (MapReduce job).
  • 19. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 17 Hình 2.6. Các thành phần trong bộ xử lý MapReduce - JobTracker: Có chức năng tiếp nhận và điều phối các công việc (job); nó có vai trò như bộ não của Hadoop MapReduce. - TaskTracker: Có chức năng tiếp nhận các task từ JobTracker để thực hiện. - HDFS: Là hệ thống quản lý tập tin phân tán được dùng cho việc chia sẻ các tập tin 2.4. PHÂN TÍCH CÂU DỰA TRÊN N-GRAM N-gram là một chuỗi tuần từ gồm có n phần tử từ một chuỗi văn bản cho trước. Một n-gram có thể là một sự kết hợp bất kỳ của các chữ cái. Tuy nhiên, các phần tử trong một câu hỏi có là âm vị, âm tiết, các ký tự, các từ hoặc các cụm cơ sở tuỳ theo từng ứng dụng. Các n-gram thường được thu thập từ một tập các văn bản mẫu chuẩn. N-gram là một mô hình thống kê, nó dựa trên mô hình Markov để tính toán xác suất của một chuỗi n-gram x1x2…xn bằng cách tính toán xác suất từng phần của mỗi xi. Xác suất từng phần được tính trên việc giả định rằng các xi chỉ phụ thuộc vào các xj với j < i. Do đó, mô hình n-gram tập trung vào việc học xác suất P(xi|x1x2…xi-1).
  • 20. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 18 2.5. PHƢƠNG PHÁP ĐỀ XUẤT Như đã khảo sát trong chương trước, chúng ta có rất nhiều phương pháp tính độ tương tự giữa các văn bản. Tuy nhiên, không phải tất cả trong số các phương pháp này đều có thể được hiện thực hiện bằng cách sử dụng các thuật toán MapReduce. Đối với công việc trong luận văn của chúng tôi, chúng tôi chủ yếu tập trung vào việc phát hiện sự tương tự về mặt cú pháp giữa các cặp tài liệu trong kho tài liệu rất lớn. Độ tương tự giữa các tài liệu mà luận văn này sử dụng dựa trên các hệ số Jaccard. ( ) ( ) ( ) (2.1)
  • 21. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 19 CHƢƠNG 3 PHÁT TRIỂN ỨNG DỤNG Trong chương này, chúng tôi trình bày chi tiết các phần sau: 3.1. XÂY DỰNG GIAO DIỆN CHƢƠNG TRÌNH CLIENT Hình 3.1 bên dưới trình bày về giao diện chính của chương trình phát hiện sao chép tài liệu mà luận án đã xây dựng. Trong đó, người dùng chỉ đơn là thiết lập đường dẫn đến tài liệu cần kiểm tra; chọn chế độ phân tích câu (n-gram) và nguồn dữ liệu (chế độ chạy) là chạy trên một máy đơn (máy cục bộ) hay là chạy trên cụm gồm nhiều máy tính kết nối với nhau trong hệ thống Hadoop. Hình 3.1. Giao diện chính của chương trình Sau khi nhấn nút “Kiểm tra”, chương trình sẽ thực thi và trả về kết quả minh hoạ trong hình 3.2 bên dưới.
  • 22. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 20 Hình 3.2. Kết quả kiểm tra sao chép tài liệu 3.2. CÀI ĐẶT HADOOP 3.3. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 3.3.1. Kết quả thực nghiệm dựa trên số token đƣợc sinh ra Một số kết quả thực nghiệm như sau: Hình 3.3. So sánh số lượng token sinh ra theo từng giá trị của n trong phân tích n-gram
  • 23. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 21 3.3.2. Kết quả thực nghiệm dựa trên thời gian xử lý a. Chế độ chạy độc lập (Standalone Mode) Hình 3.4. So sánh thời gian xử lý theo từng giá trị của n trong phân tích n-gram với chế độ chạy standalone b. Chế độ chạy theo cụm (Cluster Mode) Hình 3.5. So sánh thời gian xử lý theo từng giá trị của n trong phân tích n-gram với chế độ chạy theo cụm
  • 24. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 22 3.3.3. Đánh giá hệ thống Từ kết quả thực nghiệm nêu trên, chúng ta nhận thấy rằng khi mà dữ liệu tương đối nhỏ thì các hệ thống chạy trên máy tính đơn (standalone system) hoạt động tốt hơn hệ thống MapReduce chạy theo cụm. Tuy nhiên, khi kích thước của dữ liệu lớn dần lên thì các hệ thống máy đơn lại cho hiệu suất rất kèm, thời gian xử lý tăng lên rất nhanh. Trong khi đó, với hệ thống MapReduce lại có sự thay đổi rất ít về thời gian xử lý. Hệ thống MapReduce tỏ ra hiệu quả khi kích thước dữ liệu lớn. Điều này rất phù hợp với ngữ cảnh của bài toán đặt ra là xử lý dữ liệu trong môi trường big data. Trong kết quả thực nghiệm này, chúng tôi chủ yếu đánh giá về mặt hiệu suất làm việc của hệ thống khi ứng dụng kỹ thuật MapReduce vào việc giải quyết bài toán trong lĩnh vực big data, mà cụ thể là bài toán phát hiện sao chép tài liệu, văn bản điện tử. Việc đánh giá này chủ yếu dựa trên việc so sánh giữa trường hợp sử dụng kỹ thuật big data MapReduce với trường hợp không sử dụng MapReduce khi làm việc trên các tập dữ liệu khác nhau, từ kích thước nhỏ đến kích thước lớn. Độ chính xác của kết quả so trùng văn bản hay phát hiện sao chép không được trình bày chi tiết trong phần này. Lý do là vì độ chính xác của việc so trùng văn bản trong hai trường hợp có áp dụng MapReduce và không có áp dụng MapReduce là như nhau. Vì chúng tôi sử dụng cùng một giải thuật so trùng trong hai trường hợp này.
  • 25. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 23 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Xử lý dữ liệu lớn (big data) là xu hướng tất yếu trong thời đại bùng nổ thông tin hiện nay. Một bài toán cụ thể và đặc trưng của big data mà nhiều nghiên cứu phải quan tâm xử lý hiện nay, đó là vấn đề so trùng và phát hiện sao chép giữa các tài liệu trong một nguồn dữ liệu đồ sộ hiện nay. Từ vấn đề đặt ra này, chúng tôi đã tìm hiểu và vận dụng nền tảng Hadoop trong việc phân tích và xử lý dữ liệu. Qua quá trình tìm hiểu cũng như phân tích, thử nghiệm và kiểm chứng thông qua luận án này, chúng tôi nhận thấy Hadoop là nền tảng phù hợp nhất cho vấn đề xử lý big data nói chung và vấn đề so trùng, phát hiện sao chép tài liệu nói riêng. Tuy nhiên, để có thể sử dụng nó một cách hiệu quả, chúng ta cần phải đặt ra mục tiêu phân tích, xây dựng bài toán một cách chặt chẽ cũng như cần phải có kinh nghiệm trong việc cài đặt và triển khai hệ thống. Mục tiêu của chúng tôi thông qua luận án này là phát triển một thuật toán để tính toán độ tương tự giữa các tài liệu. Thông qua đó, nhiều tài liệu có thể được so sánh với nhau cũng như so sánh với một tài liệu mẫu để xác định xem tài liệu mẫu mà chúng ta so sánh có so trùng (tương tự) với tài liệu đã có trong kho hay không, từ đó giúp chúng ta phát hiện sự sao chép giữa các tài liệu. Thuật toán và chương trình cài đặt trong luận án này đã cho thấy tính hiệu quả của việc áp dụng hệ thống Hadoop cho bài toán phát hiện sao chép này. So với các phương pháp tiếp cận khác, việc áp dụng n-gram và Hadoop tỏ ra hiệu quả hơn nhiều về thời gian xử lý. Việc hệ thống có thể thực thi được trên các hệ dữ liệu phân bố đã cho thấy tính hiệu quả và tính thời đại của nó. Bởi vì trong thời đại
  • 26. TẢI TÀI LIỆU KẾT BẠN ZALO 0973.287.149 Nhận viết đề tài trọn gói – ZL: 0973.287.149 – Luanvanmaster.com 24 hiện nay, các nguồn dữ liệu là vô cùng lớn và tất yếu là phải triển khai trên các hệ thống phân tán. Tuy nhiên, cho giới hạn của lĩnh vực nghiên cứu cũng như thời gian thực hiện, chúng tôi chưa thực hiện việc nghiên cứu, khảo sát hết những ngoại lệ trong việc xử lý ngôn ngữ tự nhiên của tiếng Việt, chẳng hạn như các stopword áp dụng trong chương trình còn chưa đầy đủ, các ngoại lệ trong việc tách từ, tách câu còn chưa được áp dụng. Ngoài ra, khi cài đặt thuật toán, chúng tôi cho rằng vẫn còn nhiều điểm dư thừa hay phức tạp làm tăng độ phức tạp của giải thuật. Đây là một vấn đề mà chúng tôi còn cần phải cải tiến trong tương lại. Việc cải tiến giải thuật và tinh gọn hết múc có thể có ảnh hưởng đến thời gian xử lý chung của hệ thống. Trong tương lai, chúng tôi sẽ triển khai hệ thống phát hiện sao chép tài liệu của mình trên các hệ thống thực với các quy mô lớn chứ không dừng lại ở các dữ liệu thực nghiệm mà trong luận án đã trình bày. Ngoài ra, chúng tôi còn hy vọng rằng hệ thống của mình có thể triển khai và ứng dụng một cách thực tế, góp phần bổ sung thêm một công cụ hữu tích cho lĩnh vực tìm kiếm và phát hiện sao chép văn bản nói riêng và cho lĩnh vực Công nghệ thông tin nói chung.