1. 1
Chương 1
Datamining là gì
- Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị
tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài
thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như:
khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ liệu (knowlegde
extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology),
nạo vét dữ liệu (data dredging).
- Nói chung, khai thác dữ liệu (đôi khi được gọi là dữ liệu hoặc phát hiện kiến thức) là quá
trình phân tích dữ liệu từ những quan điểm khác nhau và tổng kết nó thành thông tin hữu ích
- thông tin có thể được sử dụng để tăng doanh thu, cắt giảm chi phí, hoặc cả hai. Khai thác dữ
liệu phần mềm là một trong một số công cụ phân tích để phân tích dữ liệu. Nó cho phép
người sử dụng để phân tích dữ liệu từ nhiều kích thước khác nhau hoặc góc độ, phân loại, và
tóm tắt các mối quan hệ được xác định. Về mặt kỹ thuật, khai thác dữ liệu là quá trình tìm ra
mối tương quan hoặc các mẫu trong số hàng chục cơ sở dữ liệu lớn trong các lĩnh vực quan
hệ.
Chương 2
The Boolean Model
Tài liệu tập hợp thành các mục
Là mô hình đơn giản dựa trên lý thuyết và thiết lập Boolean đại số
Các câu truy vấn dạng biểu thức Boolean
Chính xác ngữ nghĩa
Gọn gàng về hình thức
Nhược điểm của mô hình Boolean
Không sắp xếp dữ liệu được trả về
Thông tin cần phải được dịch ra một Boolean biểu hiện mà hầu hết người dùng tìm
Các công thức boolean mà người dùng thường dùng là quá đơn giản
Các mô hình Boolean thường trả về quá ít hay quá nhiều thong tin tài liệu mà người dung truy
vấn
Thông tin trả về dựa trên tiêu trí quyết định nhị phân không có khái niệm kết hợp 1 phần
2. 2
Vector-based Model
- Sử dụng trọng số nhị phân là quá hạn chế
Không phải trọng số nhị cung cấp xem xét cho phù hợp với một phần
Thuật ngữ trọng số được sử dụng để tính toán một mức độ tương đồng giữa một truy vấn và mỗi
tài liệu
Xếp hạng tập các tài liệu cung cấp cho các đối sánh tốt hơn
- Mô hình không gian Vector (hoặc hạn véc tơ mô hình) là một mô hình đại số đại diện cho các
tài liệu văn bản (và bất kỳ đối tượng, nói chung) là vectơ của các định dạng, chẳng hạn như, ví
dụ như chỉ số điều kiện,. Nó được sử dụng trong việc lọc thông tin, lấy thông tin, chỉ mục và xếp
hạng thích hợp. Sử dụng đầu tiên của nó là trong thông tin SMART Retrieval System.
Các thành phần của hệ thống truy hồi thông tin
Tìm kiếm tài liệu có chứa câu truy vấn đã cho từ chỉ số ngược.
Xếp hạng tất cả các tài liệu theo một mức độ phù hợp
Giao diện người dùng quản lý tương tác với người sử dụng:
Truy vấn đưa vào và tài liệu đưa ra.
Phản hồi liên quan
Hình ảnh của các kết quả.
Truy vấn hoạt động biến đổi các truy vấn để cải thiện tài liệu được truy hồi:
Truy vấn mở rộng bằng cách sử dụng từ điển.
Truy vấn chuyển đổi bằng cách sử dụng thông tin phản hồi liên quan.
Classic IR Mô hình - Khái niệm cơ bản
Mỗi tài liệu được đại diện bởi một bộ từ khóa đại diện hoặc chỉ mục
Một chỉ số là một từ tài liệu hữu ích cho việc ghi nhớ những tài liệu chủ đề chính
Chỉ mục có thể được lựa chọn là danh từ chỉ, khi danh từ này tự nó có nghĩa
Nên giảm kích thước của chỉ mục
Một phần của phát biểu đánh dấu. Nhưng nó đòi hỏi danh từ phải phân biệt
Tuy nhiên, công cụ tìm kiếm cho rằng tất cả các từ ngữ được chỉ mục
Không phải tất các thuật ngữ đều hữu dụng ngang bằng với việc đại diện cho ND tài liệu, các
điều khoản ít thường xuyên sử dụng cho phép xác định một tập nhỏ của tài liệu
Chương 3
Tại sao phải đánh giá hệ thống truy hồi thông tin
Có nhiều mô hình thuật toán,hệ thống truy hồi thông tin việc đánh giá là quan trọng nhằm chọn
ra cá nào là tốt nhất
3. 3
Các thành phần tốt nhất :
Chức năng xắp xếp
Chức năng lựa chọn
Danh sách xếp hạng sẽ là người dùng cần phải xem xét để tìm thấy một số / tất cả các tài
liệu có liên quan ?
Từ những tài liệu đã dc xếp hạng chọn ra tài liệu xếp hạng tốt nhất, có khả năng nhất
- Phải dc so sánh 1 cach công bằng
- Được đánh giá trên cùng 1 bộ tài liệu
- Đánh giá trên cùng 1 câu hỏi
- Phải được đánh giá trên cùng 1 biện pháp
Những khó khăn trong việc đánh giá hệ thống IR
Tính hiệu quả được liên quan đến liên quan của các mục được truy hồi .
Liên quan không phải là nhị phân thường nhưng liên tục.
Thậm chí nếu có liên quan là nhị phân, nó có thể khó khăn trong việc đánh giá.
Liên quan, theo quan điểm của con người, là:
Chủ quan: Tuỳ theo sự đánh giá của một người dùng cụ thể.
Tình huống: liên quan đến nhu cầu hiện tại của người dùng.
Nhận thức: Tùy thuộc vào nhận thức và hành vi của con người.
Năng động: Thay đổi theo thời gian.
Con người gắn nhãn những kho ngữ liệu
Bắt đầu với một tập các tài liệu.
Chọn tập truy vấn phù hợp với tài liệu này.
Có một hoặc nhiều chuyên gia đánh nhãn các tài liệu liên quan cho mỗi truy vấn.
Điển hình nhị phân giả định mức độ đánh giá phù hợp.
Đòi hỏi phải nỗ lực đáng kể của con người đối với tài liệu/truy vấn lớn.
Chương 4
Binary files
Máy tính có thể hiểu được.
Là một chuỗi những bit (giá trị 1 hay 0).
4. 4
Phụ thuộc vào chương trình tạo ra nó. Và chỉ có chương trình tạo ra nó mới hiểu tất cả ý
nghĩa của tất cả các bit.
Ví dụ: khi soạn thảo văn bản với MS Word,chương trình sẽ tạo binary file với định dạng
riêng. Người lập trình viết ct này quyết định mã nhị phân bao nhiêu sẽ tương ứng với bold
text, break … Và chỉ có MS Word thể hiện và in tài liệu đúng định dạng như lúc soạn thảo.
Đoạn mã mô tả định dạng được gọi là meta data.
Chương trình chạy nhanh hơn, và tiết kiệm không gian lưu trữ meta data.
Khẳng định quyền sở hữu
Những phần mềm khác hãng không tương thích nhau.
Và mỗi hãng xây dựng bộ chuyển đổi tài liệu ở định dạng khác sang định dạng của hãng.
Text file
Giống với binary files.
Tuy nhiên, một nhóm các bit (8bits, hay 16 bits) kết hợp lại tạo thành một mã số. Và mã số
này được ánh xạ thành một chữ cái.
Ví dụ: một chuỗi 8bits : 01100001 tạo thành số 97, và được chuyển đổi thành kí tự ‘a’.
Đọc được bởi nhiều chương trình ngay cả với trình soạn thảo văn bản đơn giản nhất.
Khó thêm thông tin định dạng( meta data).
Ví dụ: định dạng bold text, hay chèn thêm hình ảnh
SGML
Ngôn ngữ đánh dấu bằng chuỗi kí tự.
Kết hợp ưu điểm của binary files, và text files: có thể hiểu được bởi máy tính, lưu trữ
được meta data và dễ dàng được sử dụng bởi nhiều chương trình.
mark up data (hay meta data) dùng để tự mô tả.
HTML dựa trên chuẩn SGML
Do đó, nhiều phần mềm khác nhau hiển thị được
5. 5
Và soạn được trên nhiều phần mềm:
XML
SGML: phức tạp không thích hợp để trao đổi dữ liệu trên môi trường web.Æ cần một
ngôn ngữ tương tự nhưng đơn giản hơn
HTML: rất phù hợp để hiển thị dữ liệu cho trình duyệt. Những tag này chỉ để mô tả cách
hiển thị, không mô tả ý nghĩa của dữ liệu.
XML (Extensible Markup Language): là nhánh con của SGML được giản lược hóa.
Document Type
XML có thể dùng để tạo một tài liệu chứa bất kỳ thông tin nào ta muốn.
Hoàn toàn linh hoạt khi tổ chức dữ liệu (structured data).
Ví dụ: ngoài việc lưu trữ thông tin họ tên, nó còn cho biết cấu trúc của dữ liệu họ tên gồm
3 thành phần trong đó: họ, tên lót, tên.
6. 6
Những element sử dụng trong tài liệu được gọi là vocabulary.
Khi tạo một file XML, đồng thời cũng định nghĩa một document type. Trong đó có
những luật mà các element phải tuân thủ.
XML dùng ở đâu ?
XML độc lập platform (Windows, Unix) và ngôn ngữ (Visual Basic, Java).
XML sử dụng để trao đổi dữ liệu giữa những ứng dụng với nhau.
Ứng dụng web: giảm thời gian load trang web.
Chứa nội dung trang web : sử dụng XSLT hay CSS để chuyển đổi và hiện thị trang web.
Remote Procedure Call (RPC): đối tượng ở máy này gọi đối tượng ở máy khác. Sử dụng
XML và HTTP.
Simple Object Access Protocol (SOAP): tương tự như RPC cho phép thông qua firewall.
eCommerce: B2B, B2C, …
Element name
Kí tự bắt đầu có thể là kí tự (bao gồm các ngôn ngữ không thuộc Latin), kí tự “_”.
Kí tự bắt đầu không thể là kí số hoặc những kí hiệu khác.
Sau kí tự đầu tiên có thể là kí số, “-”, “.”
Tên không được có khoảng trắng
Tên không được chứa kí tự “:”. Trừ khi có sử dụng namespaces.
Không thể có khoảng trắng ngay sau kí tự “<”. Nhưng có thể khoảng trắng trước kí tự “>”
Tên không thể bắt đầu bằng từ “xml” trong bất kỳ định dạng nào
Ví dụ: “xml”, “XML”, “XmL”, …
Kể cả kết hợp với những kí tự khác
Chú ý:
Đối với, XML parser kèm theo IE không bắt buộc quy định không sử dụng “xml”,
nhưng đối với những parser thì xem quy định này là bắt buộc. Vì vậy, chúng ta không
nên sử dụng “xml” trong mọi trường hợp.
Attributes(thuộc tính)
7. 7
Có thể thêm thuộc tính vào start-tags hay elements.
<tên thuộc tính>=“<giá trị>”
Ví dụ:
– Sai : <INPUT checked>
– Sai : <INPUT checked=true>
– Đúng : <INPUT checked='true'>
– Đúng : <INPUT checked="true">
– Sai : <INPUT checked="true'>
– Đúng : <info attr=“John's nickname”>
– Sai : <info attr=‘John's nickname’>
– Đúng : <info attr=‘I said “hi” to him’>
– Sai : <bad att="1" att="2"></bad>
Tên attributes theo những quy tắc đặt tên như elements : case-sensitive, không bắt đầu bằng
từ “xml”, …
Parser không quan tâm đến thứ tự xuất hiện của những attribute trong element.
Ví dụ:
<name first="John" middle="Fitzgerald Johansen" last="Doe"></name>
Vì vậy nếu cần quan tâm đến thứ tự của thông tin thì ta nên đặt thông tin vào trong element
hơn là attribute.
Why Use Attributes
Có 2 quan điểm:
không sử dụng attribute vì làm phức tạp hóa ngôn ngữ XML
sử dụng attribute vì không phải quan tâm nhiều đến việc lồng những tag với nhau,
cũng như giải quyết hiện tượng chồng chéo.
Ví dụ:
8. 8
<note>
<type>Information</type>
This is a note.
</note>
<note>
<Information>This is a note.</Information>
</note>
<note type="Information">This is a note.</note>
Dùng để tiết kiệm không gian lưu trữ, tăng hiệu suất truyền?
Sử dụng element cho phép linh hoạt hơn. Có thể thêm element khác để chia nhỏ thông tin.
Attributes dùng để mô tả, hay định dạng những dữ liệu trong element đó. Nói cách khác,
attribute dùng để chứa meta data.
Sử dụng attribute không có thứ tự.
Quan điểm trung lập: chọn pp nào thấy phù hợp với ứng dụng nhất, tiện nhất. Và XML thì hổ
trợ tất cả.
9. 9
Comments
<!-- nội dung ghi chú -->
Trình ứng dụng không thể lấy được nội dung ghi chú
Lỗi trong XML
2 loại lỗi có thể xãy ra trong tài liệu XML:
errors: do quy phạm một số ràng buộc của tài liệu, dẫn đến kết quả không xác định;
parser cho phép phục hồi và xử lý tiếp.
fatal errors: lỗi do sai cú pháp, quy định của ngôn ngữ XML. Parser sẽ chấm dứt
ngay.
Why use Namespaces?
Bất kỳ tổ chức, hay cá nhân đều có thể định nghĩa tài liệu XML với những từ khóa riêng.
Trong số những từ khóa đó, có những từ khóa giống nhau nhưng mang ý nghĩa khác nhau.
Hoàn toàn không có vấn để, nếu 2 tài liệu đó sử dụng độc lập nhau.
Nhưng khi có nhu cầu kết hợp 2 tài liệu đó với nhau (trao đổi dữ liệu) sẽ nãy sinh vấn đề
xung đột về tên gọi.
Hỏi thêm ngoài
Clustering
Gom cụm: gom các đối tượng dữ liệu
o Tương tự với một đối tượng khác trong cùng cụm
o Không tương tự với các đối tượng trong các cụm khác
Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm
Các ứng dụng tiêu biểu của gom cụm
Một công cụ độc lập để xem xét phân bố dữ liệu
Làm bước tiền xử lý cho các thuật toán khác
Các ứng dụng của gom cụm
10. 10
Tiếp thị: khám phá các nhóm khách hàng phân biệt trong CSDL mua hàng
Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất
Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù
trung bình cao
Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa
lý.
PageRank là gì ?
PageRank hay Ranking, viết tắt là PR tạm dịch là thứ hạng trang. Khi nói đến PageRank
người ta thường nghĩ ngay đến Google PageRank.
PageRank là phương thức của Google đánh giá từng trang web riêng biệt. Google nhìn vào các
trang mà liên kết đến trang của bạn và thứ hạng của chúng về tầm quan trọng. Đặc biệt, các trang
có các liên kết từ các trang quang trọng, chất lượng cao sẽ nhận được một PageRank cao hơn.
Google kết hợp PageRank với các công nghệ so sánh từ thông minh để tìm các trang vừa quan
trọng vừa liên quan đến tìm kiếm của bạn.
Đó là một hệ thống xếp hạng trang Web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu
tiên đường dẫn URL trong trang kết quả tìm kiếm.
Theo Googel thì một cách tóm lược lại thì PageRank chỉ được đánh giá từ hệ thống liên
kêt đường dẫn. Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng của trang
bạn càng tăng.
Định nghĩa PageRank
PageRank Google chỉ là thuật toán dựa trên liên kết là chính. Đây là những gì Google tiết
lộ về PageRank: PageRank chỉ dựa trên bản chất tự nhiên của Web sử dụng hệ thống liên kết như
là một chỉ số đánh giá giá trị từng trang Web.
Trong đó, Google coi một đường dẫn từ trang A trỏ đến trang B như là một phiếu, của
trang A bầu cho trang B. Nhưng Google xem xét các yếu tố khác ngoài số lượng phiếu trên hoặc
số lượng liên kết trang đó nhận được. Ví dụ, nó còn phân tích các trang liên kết tới. Vì vậy, các
trang quan trọng thì phiếu bầu của chúng cũng sẽ có trọng lượng hơn cho các trang được bầu. Và
11. 11
khi kết hợp hệ thống liên kết trên và các yếu tố khác, Google sẽ tự đánh giá tính chất quan trọng
của trang.
Tuy nhiên đó chỉ là những khái niệm sơ đẳng nhất mà Google hiếm khi thông báo chính thức.
Trong thực tế, thuật toán PageRank phức tạp hơn rất nhiều. Và may mắn là như thế, nếu không
trang kết quả tìm kiếm của Google sẽ không còn tin cậy bởi những người lạm dụng thuật toán
của nó, và có lẽ như thế, SEO (Search Engine Optimization) mới là một nghệ thuật làm tốn nhiều
giấy bút của Webmaster.