G r o u p 5 ’ s P r e s e n t a t i o n
NGHIÊN CỨU TỔNG QUAN
01 1.1 Dữ liệu lớn
1.2 Đặc điểm của từ, câu trong văn bản tiếng
việt và bài toán tách từ, câu
1.3 Bài toán so khớp mẫu
1.4 Giới thiệu một số thuật toán
1.5 Một số ứng dụng đã có
PHÂN TÍCH ỨNG DỤNG &
ĐỀ XUẤT GIẢI PHÁP
02
2.1 Mô hình ứng dụng phát hiện sao chép
2.2 Hệ thống quản lý tập tin phân tán hadoop
2.3 Giải thuật xử lý song song mapreduce
2.4 Phân tích câu dựa trên n-gram
2.5 Phương pháp đề xuất
PHÁT TRIỂN ỨNG DỤNG
03
3.1 Xây dựng giao diện chương trình client
3.2 Cài đặt hadoop
3.3 Kết quả thực nghiệm và đánh giá hệ thống
3
NHÓM 5
DỮ LIỆU LỚN
Dữ liệu lớn (Big Data) là một thuật ngữ được định
nghĩa một cách lỏng lẻo dùng để mô tả các bộ dữ liệu
rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu
truyền thống không xử lý được.
 Bao gồm các cách thức phân tích, thu thập, giám sát
dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực
quan hóa, truy vấn và tính riêng tư.
 Để phân tích dự đoán hoặc là một số phương pháp
tiên tiến khác để trích xuất giá trị từ dữ liệu, mà ít khi
đề cập đến kích thước của bộ dữ liệu
101001101001000010101
0011110111011011011010
101000011100101011001
010100111010100010101
0001011010110110110100
010101110001010100010
1000101110101100010011
010011010010000101010
0111101110110110110101
010000111001010110010
101001110101000101010
0010110101101101101001
KHÁI NIỆM VỀ BIG DATA
CÂU TRONG VĂN BẢN TIẾNG VIỆT
4
ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN
TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU
NHÓM 5
TỪ TRONG VĂN BẢN TIẾNG VIỆT
Từ là đơn vị sẵn có trong ngôn ngữ.
Từ là đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh,
đựợc dùng để cấu thành Câu.
Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ
cú pháp xác định, được tạo ra trong quá trình tư duy, giao tiếp, có
giá trị thông báo, gắn liền với mục đích giao tiếp nhất định
5
NHÓM 5
ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN
TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU
BÀI TOÁN TÁCH CÂU
BÀI TOÁN TÁCH TỪ
Để tách một văn bản ra thành các đơn vị câu độc lập thường dựa
vào các dấu hiệu kết thúc câu (dấu chấm “.”, dấu chấm than “!”
và dấu chấm hỏi “?”, ...).
Văn bản tiếng Việt đặt dấu cách giữa các âm tiết chứ không phải giữa
các từ. Một từ có thể có một, hai hoặc nhiều âm tiết
Phương pháp sử dụng mô hình n-gram:
p(w1w2...wn) = p(w1) * p(w2/w1) * p(w3/w1w2) *...* p(wn/w1w2...wn-1)
6
NHÓM 5
GIỚI THIỆU MỘT SỐ THUẬT TOÁN
5 THUẬT TOÁN CƠ BẢN TRONG SO SÁNH CHUỖI
01 Thuật toán Knuth–Morris–Pratt
02 Thuật toán Boyer- Moore
03 Thuật toán Rabin-Karp
04 Thuật toán Brute- Force
05 Thuật toán Navie
7
NHÓM 5
MỘT SỐ CÔNG CỤ ĐÃ CÓ
Công cụ
Copyscape.com
Phần mềm
Plagiarism Checker
Công cụ
Turnitin.com
Công cụ
Scanmyessay.com
Công cụ
Plagspotter.com
Công cụ
Ithenticate.com
HỆ THỐNG QUẢN LÝ KHO DỮ LIỆU BIG DATA
GIẢI THUẬT SONG SONG THỰC HIỆN VIỆC PHÁT HIỆN
VÀ SO TRÙNG MẪU
MÔ HÌNH ỨNG DỤNG PHÁT HIỆN SAO CHÉP
8
NHÓM 5
Trong lĩnh vực big data, dữ liệu thường không thể lưu trữ ở một máy
mà phải phân tán ở nhiều máy tính khác nhau
Vận dụng hệ thống quản lý tập tin phân tán của Hadoop để quản lý
kho dữ liệu của hệ thống
Với giải thuật xử lý song song, chúng ta có thể thu được kết quả
trong khoản thời gian nhanh hơn. Giải thuật xứ lý song song được đề
xuất trong luận văn này là giải thuật MapReduce
9
NHÓM 5
HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN
HADOOP
KIẾN TRÚC HDFS
Các hệ thống tập tin quản lý việc lưu trữ dữ liệu trên một mạng nhiều máy tính gọi
là hệ thống tập tin phân tán
ra đời trên nhu cầu lưu trữ dữ liệu của Nutch, một
dự án Search Engine nguồn mở, và phát triển để
đáp ứng các đòi hỏi về lưu trữ và xử lý của các
hệ thống xử lý dữ liệu lớn với các đặc thù riêng
HDFS lưu trữ các tập tin về dữ liệu của ứng dụng và các tập tin chứa siêu
dữ liệu (metadata) của hệ thống một cách riêng biệt, được lưu trữ trên một
máy chủ chuyên dụng gọi là các NameNode và dữ liệu của ứng dụng được
lưu trữ trên các máy chủ được gọi là các DataNode
GIỚI
THIỆU HDFS
QUÁ TRÌNH ĐỌC VÀ GHI TẬP TIN HDFS
Quá trình đọc tập tin trên HDFS
10
Quá trình ghi tập tin trên HDFS
HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN
HADOOP
NHÓM 5
11
NHÓM 5
GIẢI THUẬT XỬ LÝ SONG SONG MAPREDUCE
GIỚI
THIỆU
MapReduce là một mô hình lập trình dùng để biểu diễn các
tính toán phân bố trên một lượng lớn dữ liệu và một khung
thức thực thi cho việc xử lý dữ liệu quy mô lớn trên các cụm
máy chủ
KIẾN TRÚC CỦA MAPREDUCE
MapReduce gồm có các thành phần chính
như sau:
 Client Program (Chương trình khách)
 JobTracker
 TaskTracker
12
NHÓM 5
PHÂN TÍCH CÂU DỰA TRÊN N-GRAM
 là một chuỗi tuần từ gồm có n phần tử từ
một chuỗi văn bản cho trước. Một n-gram
có thể là một sự kết hợp bất kỳ của các chữ
cái
 là một mô hình thống kê, nó dựa trên mô
hình Markov để tính toán xác suất của
một chuỗi n-gram 12…n
N-gram
13
PHƯƠNG PHÁP ĐỀ XUẤT
NHÓM 5
Chủ yếu tập trung vào việc phát hiện sự tương
tự về mặt cú pháp giữa các cặp tài liệu trong
kho tài liệu rất lớn
Độ tương tự giữa các tài liệu mà luận văn này
sử dụng dựa trên các hệ số Jaccard
XÂY DỰNG GIAO DIỆN CHƯƠNG TRÌNH
CLIENT
14
NHÓM 5
Thiết lập đường dẫn đến tài liệu cần kiểm
tra; chọn chế độ phân tích câu (n-gram)
và nguồn dữ liệu (chế độ chạy)
Sau khi nhấn nút “Kiểm tra”, chương
trình sẽ thực hiện và trả về kết quả
15
NHÓM 5
CÀI ĐẶT HADOOP
Hadoop là một nền tảng nguồn mở, được
Dough Cutting tạo ra khi ông nghiên cứu
về Nutch – một ứng dụng tìm kiếm
HADOOP
là gì ?
CHỨC NĂNG NHIỆM VỤ CỦA HADOOP
 Xử lý và làm việc khối lượng dữ liệu khổng lồ được tính bằng Petabyte
 Xử lý trong môi trường phân tán, dữ liệu lưu trữ ở nhiều phần cứng khác
nhau, yêu cầu xử lý đồng bộ các lỗi xuất hiện thường xuyên thông qua
giữa các phần cứng vật lý chứa dữ liệu phân tán có giới hạn
DỰA TRÊN THỜI GIAN XỬ LÝ
DỰA TRÊN SỐ TOKEN
ĐƯỢC SINH RA
KẾT QUẢ THỰC NGHIỆM
KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
HỆ THỐNG
16
NHÓM 5
Chế độ chạy độc lập
(Standalone Mode)
Chế độ chạy theo cụm
(Cluster Mode)
17
KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
HỆ THỐNG
NHÓM 5
Khi mà dữ liệu tương đối nhỏ thì các hệ
thống chạy trên máy tính đơn
(standalone system) hoạt động tốt hơn
hệ thống MapReduce chạy theo cụm
Kích thước của dữ liệu lớn dần lên
thì các hệ thống máy đơn lại cho
hiệu suất rất kém, thời gian xử lý
tăng lên rất nhanh
ĐÁNH GIÁ HỆ THỐNG
THANK YOU

TIN HỌC ĐẠI CƯƠNG.pptx

  • 1.
    G r ou p 5 ’ s P r e s e n t a t i o n
  • 2.
    NGHIÊN CỨU TỔNGQUAN 01 1.1 Dữ liệu lớn 1.2 Đặc điểm của từ, câu trong văn bản tiếng việt và bài toán tách từ, câu 1.3 Bài toán so khớp mẫu 1.4 Giới thiệu một số thuật toán 1.5 Một số ứng dụng đã có PHÂN TÍCH ỨNG DỤNG & ĐỀ XUẤT GIẢI PHÁP 02 2.1 Mô hình ứng dụng phát hiện sao chép 2.2 Hệ thống quản lý tập tin phân tán hadoop 2.3 Giải thuật xử lý song song mapreduce 2.4 Phân tích câu dựa trên n-gram 2.5 Phương pháp đề xuất PHÁT TRIỂN ỨNG DỤNG 03 3.1 Xây dựng giao diện chương trình client 3.2 Cài đặt hadoop 3.3 Kết quả thực nghiệm và đánh giá hệ thống
  • 3.
    3 NHÓM 5 DỮ LIỆULỚN Dữ liệu lớn (Big Data) là một thuật ngữ được định nghĩa một cách lỏng lẻo dùng để mô tả các bộ dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được.  Bao gồm các cách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan hóa, truy vấn và tính riêng tư.  Để phân tích dự đoán hoặc là một số phương pháp tiên tiến khác để trích xuất giá trị từ dữ liệu, mà ít khi đề cập đến kích thước của bộ dữ liệu 101001101001000010101 0011110111011011011010 101000011100101011001 010100111010100010101 0001011010110110110100 010101110001010100010 1000101110101100010011 010011010010000101010 0111101110110110110101 010000111001010110010 101001110101000101010 0010110101101101101001 KHÁI NIỆM VỀ BIG DATA
  • 4.
    CÂU TRONG VĂNBẢN TIẾNG VIỆT 4 ĐẶC ĐIỂM CỦA TỪ, CÂU TRONG VĂN BẢN TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU NHÓM 5 TỪ TRONG VĂN BẢN TIẾNG VIỆT Từ là đơn vị sẵn có trong ngôn ngữ. Từ là đơn vị nhỏ nhất, cấu tạo ổn định, mang nghĩa hoàn chỉnh, đựợc dùng để cấu thành Câu. Câu là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp xác định, được tạo ra trong quá trình tư duy, giao tiếp, có giá trị thông báo, gắn liền với mục đích giao tiếp nhất định
  • 5.
    5 NHÓM 5 ĐẶC ĐIỂMCỦA TỪ, CÂU TRONG VĂN BẢN TIẾNG VIỆT VÀ BÀI TOÁN TÁCH TỪ, CÂU BÀI TOÁN TÁCH CÂU BÀI TOÁN TÁCH TỪ Để tách một văn bản ra thành các đơn vị câu độc lập thường dựa vào các dấu hiệu kết thúc câu (dấu chấm “.”, dấu chấm than “!” và dấu chấm hỏi “?”, ...). Văn bản tiếng Việt đặt dấu cách giữa các âm tiết chứ không phải giữa các từ. Một từ có thể có một, hai hoặc nhiều âm tiết Phương pháp sử dụng mô hình n-gram: p(w1w2...wn) = p(w1) * p(w2/w1) * p(w3/w1w2) *...* p(wn/w1w2...wn-1)
  • 6.
    6 NHÓM 5 GIỚI THIỆUMỘT SỐ THUẬT TOÁN 5 THUẬT TOÁN CƠ BẢN TRONG SO SÁNH CHUỖI 01 Thuật toán Knuth–Morris–Pratt 02 Thuật toán Boyer- Moore 03 Thuật toán Rabin-Karp 04 Thuật toán Brute- Force 05 Thuật toán Navie
  • 7.
    7 NHÓM 5 MỘT SỐCÔNG CỤ ĐÃ CÓ Công cụ Copyscape.com Phần mềm Plagiarism Checker Công cụ Turnitin.com Công cụ Scanmyessay.com Công cụ Plagspotter.com Công cụ Ithenticate.com
  • 8.
    HỆ THỐNG QUẢNLÝ KHO DỮ LIỆU BIG DATA GIẢI THUẬT SONG SONG THỰC HIỆN VIỆC PHÁT HIỆN VÀ SO TRÙNG MẪU MÔ HÌNH ỨNG DỤNG PHÁT HIỆN SAO CHÉP 8 NHÓM 5 Trong lĩnh vực big data, dữ liệu thường không thể lưu trữ ở một máy mà phải phân tán ở nhiều máy tính khác nhau Vận dụng hệ thống quản lý tập tin phân tán của Hadoop để quản lý kho dữ liệu của hệ thống Với giải thuật xử lý song song, chúng ta có thể thu được kết quả trong khoản thời gian nhanh hơn. Giải thuật xứ lý song song được đề xuất trong luận văn này là giải thuật MapReduce
  • 9.
    9 NHÓM 5 HỆ THỐNGQUẢN LÝ TẬP TIN PHÂN TÁN HADOOP KIẾN TRÚC HDFS Các hệ thống tập tin quản lý việc lưu trữ dữ liệu trên một mạng nhiều máy tính gọi là hệ thống tập tin phân tán ra đời trên nhu cầu lưu trữ dữ liệu của Nutch, một dự án Search Engine nguồn mở, và phát triển để đáp ứng các đòi hỏi về lưu trữ và xử lý của các hệ thống xử lý dữ liệu lớn với các đặc thù riêng HDFS lưu trữ các tập tin về dữ liệu của ứng dụng và các tập tin chứa siêu dữ liệu (metadata) của hệ thống một cách riêng biệt, được lưu trữ trên một máy chủ chuyên dụng gọi là các NameNode và dữ liệu của ứng dụng được lưu trữ trên các máy chủ được gọi là các DataNode GIỚI THIỆU HDFS
  • 10.
    QUÁ TRÌNH ĐỌCVÀ GHI TẬP TIN HDFS Quá trình đọc tập tin trên HDFS 10 Quá trình ghi tập tin trên HDFS HỆ THỐNG QUẢN LÝ TẬP TIN PHÂN TÁN HADOOP NHÓM 5
  • 11.
    11 NHÓM 5 GIẢI THUẬTXỬ LÝ SONG SONG MAPREDUCE GIỚI THIỆU MapReduce là một mô hình lập trình dùng để biểu diễn các tính toán phân bố trên một lượng lớn dữ liệu và một khung thức thực thi cho việc xử lý dữ liệu quy mô lớn trên các cụm máy chủ KIẾN TRÚC CỦA MAPREDUCE MapReduce gồm có các thành phần chính như sau:  Client Program (Chương trình khách)  JobTracker  TaskTracker
  • 12.
    12 NHÓM 5 PHÂN TÍCHCÂU DỰA TRÊN N-GRAM  là một chuỗi tuần từ gồm có n phần tử từ một chuỗi văn bản cho trước. Một n-gram có thể là một sự kết hợp bất kỳ của các chữ cái  là một mô hình thống kê, nó dựa trên mô hình Markov để tính toán xác suất của một chuỗi n-gram 12…n N-gram
  • 13.
    13 PHƯƠNG PHÁP ĐỀXUẤT NHÓM 5 Chủ yếu tập trung vào việc phát hiện sự tương tự về mặt cú pháp giữa các cặp tài liệu trong kho tài liệu rất lớn Độ tương tự giữa các tài liệu mà luận văn này sử dụng dựa trên các hệ số Jaccard
  • 14.
    XÂY DỰNG GIAODIỆN CHƯƠNG TRÌNH CLIENT 14 NHÓM 5 Thiết lập đường dẫn đến tài liệu cần kiểm tra; chọn chế độ phân tích câu (n-gram) và nguồn dữ liệu (chế độ chạy) Sau khi nhấn nút “Kiểm tra”, chương trình sẽ thực hiện và trả về kết quả
  • 15.
    15 NHÓM 5 CÀI ĐẶTHADOOP Hadoop là một nền tảng nguồn mở, được Dough Cutting tạo ra khi ông nghiên cứu về Nutch – một ứng dụng tìm kiếm HADOOP là gì ? CHỨC NĂNG NHIỆM VỤ CỦA HADOOP  Xử lý và làm việc khối lượng dữ liệu khổng lồ được tính bằng Petabyte  Xử lý trong môi trường phân tán, dữ liệu lưu trữ ở nhiều phần cứng khác nhau, yêu cầu xử lý đồng bộ các lỗi xuất hiện thường xuyên thông qua giữa các phần cứng vật lý chứa dữ liệu phân tán có giới hạn
  • 16.
    DỰA TRÊN THỜIGIAN XỬ LÝ DỰA TRÊN SỐ TOKEN ĐƯỢC SINH RA KẾT QUẢ THỰC NGHIỆM KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 16 NHÓM 5 Chế độ chạy độc lập (Standalone Mode) Chế độ chạy theo cụm (Cluster Mode)
  • 17.
    17 KẾT QUẢ THỰCNGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG NHÓM 5 Khi mà dữ liệu tương đối nhỏ thì các hệ thống chạy trên máy tính đơn (standalone system) hoạt động tốt hơn hệ thống MapReduce chạy theo cụm Kích thước của dữ liệu lớn dần lên thì các hệ thống máy đơn lại cho hiệu suất rất kém, thời gian xử lý tăng lên rất nhanh ĐÁNH GIÁ HỆ THỐNG
  • 18.