SlideShare a Scribd company logo
1 of 11
1


Chương 1

Datamining là gì

- Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị
tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài
thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như:
khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ liệu (knowlegde
extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology),
nạo vét dữ liệu (data dredging).

-   Nói chung, khai thác dữ liệu (đôi khi được gọi là dữ liệu hoặc phát hiện kiến thức) là quá
    trình phân tích dữ liệu từ những quan điểm khác nhau và tổng kết nó thành thông tin hữu ích
    - thông tin có thể được sử dụng để tăng doanh thu, cắt giảm chi phí, hoặc cả hai. Khai thác dữ
    liệu phần mềm là một trong một số công cụ phân tích để phân tích dữ liệu. Nó cho phép
    người sử dụng để phân tích dữ liệu từ nhiều kích thước khác nhau hoặc góc độ, phân loại, và
    tóm tắt các mối quan hệ được xác định. Về mặt kỹ thuật, khai thác dữ liệu là quá trình tìm ra
    mối tương quan hoặc các mẫu trong số hàng chục cơ sở dữ liệu lớn trong các lĩnh vực quan
    hệ.

Chương 2

The Boolean Model

Tài liệu tập hợp thành các mục

Là mô hình đơn giản dựa trên lý thuyết và thiết lập Boolean đại số

Các câu truy vấn dạng biểu thức Boolean

       Chính xác ngữ nghĩa

       Gọn gàng về hình thức

Nhược điểm của mô hình Boolean

Không sắp xếp dữ liệu được trả về

Thông tin cần phải được dịch ra một Boolean biểu hiện mà hầu hết người dùng tìm

Các công thức boolean mà người dùng thường dùng là quá đơn giản

Các mô hình Boolean thường trả về quá ít hay quá nhiều thong tin tài liệu mà người dung truy
vấn

Thông tin trả về dựa trên tiêu trí quyết định nhị phân không có khái niệm kết hợp 1 phần
2




Vector-based Model

- Sử dụng trọng số nhị phân là quá hạn chế
Không phải trọng số nhị cung cấp xem xét cho phù hợp với một phần
Thuật ngữ trọng số được sử dụng để tính toán một mức độ tương đồng giữa một truy vấn và mỗi
tài liệu
Xếp hạng tập các tài liệu cung cấp cho các đối sánh tốt hơn

- Mô hình không gian Vector (hoặc hạn véc tơ mô hình) là một mô hình đại số đại diện cho các
tài liệu văn bản (và bất kỳ đối tượng, nói chung) là vectơ của các định dạng, chẳng hạn như, ví
dụ như chỉ số điều kiện,. Nó được sử dụng trong việc lọc thông tin, lấy thông tin, chỉ mục và xếp
hạng thích hợp. Sử dụng đầu tiên của nó là trong thông tin SMART Retrieval System.

Các thành phần của hệ thống truy hồi thông tin

Tìm kiếm tài liệu có chứa câu truy vấn đã cho từ chỉ số ngược.
Xếp hạng tất cả các tài liệu theo một mức độ phù hợp
Giao diện người dùng quản lý tương tác với người sử dụng:
     Truy vấn đưa vào và tài liệu đưa ra.
     Phản hồi liên quan
     Hình ảnh của các kết quả.
Truy vấn hoạt động biến đổi các truy vấn để cải thiện tài liệu được truy hồi:
    Truy vấn mở rộng bằng cách sử dụng từ điển.
    Truy vấn chuyển đổi bằng cách sử dụng thông tin phản hồi liên quan.

Classic IR Mô hình - Khái niệm cơ bản

Mỗi tài liệu được đại diện bởi một bộ từ khóa đại diện hoặc chỉ mục
Một chỉ số là một từ tài liệu hữu ích cho việc ghi nhớ những tài liệu chủ đề chính
Chỉ mục có thể được lựa chọn là danh từ chỉ, khi danh từ này tự nó có nghĩa
Nên giảm kích thước của chỉ mục
Một phần của phát biểu đánh dấu. Nhưng nó đòi hỏi danh từ phải phân biệt
Tuy nhiên, công cụ tìm kiếm cho rằng tất cả các từ ngữ được chỉ mục

Không phải tất các thuật ngữ đều hữu dụng ngang bằng với việc đại diện cho ND tài liệu, các
điều khoản ít thường xuyên sử dụng cho phép xác định một tập nhỏ của tài liệu

Chương 3

Tại sao phải đánh giá hệ thống truy hồi thông tin

Có nhiều mô hình thuật toán,hệ thống truy hồi thông tin việc đánh giá là quan trọng nhằm chọn
ra cá nào là tốt nhất
3


Các thành phần tốt nhất :

        Chức năng xắp xếp

        Chức năng lựa chọn

        Danh sách xếp hạng sẽ là người dùng cần phải xem xét để tìm thấy một số / tất cả các tài
liệu có liên quan ?

        Từ những tài liệu đã dc xếp hạng chọn ra tài liệu xếp hạng tốt nhất, có khả năng nhất

    -   Phải dc so sánh 1 cach công bằng

    -   Được đánh giá trên cùng 1 bộ tài liệu

    -   Đánh giá trên cùng 1 câu hỏi

    -   Phải được đánh giá trên cùng 1 biện pháp

    Những khó khăn trong việc đánh giá hệ thống IR

    Tính hiệu quả được liên quan đến liên quan của các mục được truy hồi .
    Liên quan không phải là nhị phân thường nhưng liên tục.
    Thậm chí nếu có liên quan là nhị phân, nó có thể khó khăn trong việc đánh giá.

    Liên quan, theo quan điểm của con người, là:
           Chủ quan: Tuỳ theo sự đánh giá của một người dùng cụ thể.
           Tình huống: liên quan đến nhu cầu hiện tại của người dùng.
           Nhận thức: Tùy thuộc vào nhận thức và hành vi của con người.
           Năng động: Thay đổi theo thời gian.

    Con người gắn nhãn những kho ngữ liệu

    Bắt đầu với một tập các tài liệu.
    Chọn tập truy vấn phù hợp với tài liệu này.
    Có một hoặc nhiều chuyên gia đánh nhãn các tài liệu liên quan cho mỗi truy vấn.
    Điển hình nhị phân giả định mức độ đánh giá phù hợp.
    Đòi hỏi phải nỗ lực đáng kể của con người đối với tài liệu/truy vấn lớn.

    Chương 4

    Binary files

    Máy tính có thể hiểu được.

    Là một chuỗi những bit (giá trị 1 hay 0).
4


    Phụ thuộc vào chương trình tạo ra nó. Và chỉ có chương trình tạo ra nó mới hiểu tất cả ý
    nghĩa của tất cả các bit.

    Ví dụ: khi soạn thảo văn bản với MS Word,chương trình sẽ tạo binary file với định dạng
    riêng. Người lập trình viết ct này quyết định mã nhị phân bao nhiêu sẽ tương ứng với bold
    text, break … Và chỉ có MS Word thể hiện và in tài liệu đúng định dạng như lúc soạn thảo.

    Đoạn mã mô tả định dạng được gọi là meta data.

    Chương trình chạy nhanh hơn, và tiết kiệm không gian lưu trữ meta data.

    Khẳng định quyền sở hữu

    Những phần mềm khác hãng không tương thích nhau.

    Và mỗi hãng xây dựng bộ chuyển đổi tài liệu ở định dạng khác sang định dạng của hãng.

    Text file

    Giống với binary files.

    Tuy nhiên, một nhóm các bit (8bits, hay 16 bits) kết hợp lại tạo thành một mã số. Và mã số
    này được ánh xạ thành một chữ cái.

    Ví dụ: một chuỗi 8bits : 01100001 tạo thành số 97, và được chuyển đổi thành kí tự ‘a’.

    Đọc được bởi nhiều chương trình ngay cả với trình soạn thảo văn bản đơn giản nhất.

    Khó thêm thông tin định dạng( meta data).

    Ví dụ: định dạng bold text, hay chèn thêm hình ảnh

    SGML

       Ngôn ngữ đánh dấu bằng chuỗi kí tự.

       Kết hợp ưu điểm của binary files, và text files: có thể hiểu được bởi máy tính, lưu trữ
       được meta data và dễ dàng được sử dụng bởi nhiều chương trình.

       mark up data (hay meta data) dùng để tự mô tả.

       HTML dựa trên chuẩn SGML

       Do đó, nhiều phần mềm khác nhau hiển thị được
5




    Và soạn được trên nhiều phần mềm:




    XML

    SGML: phức tạp không thích hợp để trao đổi dữ liệu trên môi trường web.Æ cần một
    ngôn ngữ tương tự nhưng đơn giản hơn

    HTML: rất phù hợp để hiển thị dữ liệu cho trình duyệt. Những tag này chỉ để mô tả cách
    hiển thị, không mô tả ý nghĩa của dữ liệu.

    XML (Extensible Markup Language): là nhánh con của SGML được giản lược hóa.

    Document Type

    XML có thể dùng để tạo một tài liệu chứa bất kỳ thông tin nào ta muốn.

    Hoàn toàn linh hoạt khi tổ chức dữ liệu (structured data).

    Ví dụ: ngoài việc lưu trữ thông tin họ tên, nó còn cho biết cấu trúc của dữ liệu họ tên gồm
    3 thành phần trong đó: họ, tên lót, tên.
6


        Những element sử dụng trong tài liệu được gọi là vocabulary.

        Khi tạo một file XML, đồng thời cũng định nghĩa một document type. Trong đó có
        những luật mà các element phải tuân thủ.

      XML dùng ở đâu ?

        XML độc lập platform (Windows, Unix) và ngôn ngữ (Visual Basic, Java).

        XML sử dụng để trao đổi dữ liệu giữa những ứng dụng với nhau.

        Ứng dụng web: giảm thời gian load trang web.

        Chứa nội dung trang web : sử dụng XSLT hay CSS để chuyển đổi và hiện thị trang web.

        Remote Procedure Call (RPC): đối tượng ở máy này gọi đối tượng ở máy khác. Sử dụng
        XML và HTTP.

        Simple Object Access Protocol (SOAP): tương tự như RPC cho phép thông qua firewall.

        eCommerce: B2B, B2C, …

        Element name

    Kí tự bắt đầu có thể là kí tự (bao gồm các ngôn ngữ không thuộc Latin), kí tự “_”.

    Kí tự bắt đầu không thể là kí số hoặc những kí hiệu khác.

    Sau kí tự đầu tiên có thể là kí số, “-”, “.”

    Tên không được có khoảng trắng

    Tên không được chứa kí tự “:”. Trừ khi có sử dụng namespaces.

    Không thể có khoảng trắng ngay sau kí tự “<”. Nhưng có thể khoảng trắng trước kí tự “>”

    Tên không thể bắt đầu bằng từ “xml” trong bất kỳ định dạng nào

    Ví dụ: “xml”, “XML”, “XmL”, …

    Kể cả kết hợp với những kí tự khác

    Chú ý:

             Đối với, XML parser kèm theo IE không bắt buộc quy định không sử dụng “xml”,
             nhưng đối với những parser thì xem quy định này là bắt buộc. Vì vậy, chúng ta không
             nên sử dụng “xml” trong mọi trường hợp.

Attributes(thuộc tính)
7


    Có thể thêm thuộc tính vào start-tags hay elements.

    <tên thuộc tính>=“<giá trị>”

    Ví dụ:

             –   Sai : <INPUT checked>

             –   Sai : <INPUT checked=true>

             –   Đúng : <INPUT checked='true'>

             –   Đúng : <INPUT checked="true">

             –   Sai : <INPUT checked="true'>

             –   Đúng : <info attr=“John's nickname”>

             –   Sai : <info attr=‘John's nickname’>

             –   Đúng : <info attr=‘I said “hi” to him’>

             –   Sai : <bad att="1" att="2"></bad>



     Tên attributes theo những quy tắc đặt tên như elements : case-sensitive, không bắt đầu bằng
    từ “xml”, …

    Parser không quan tâm đến thứ tự xuất hiện của những attribute trong element.

    Ví dụ:

             <name first="John" middle="Fitzgerald Johansen" last="Doe"></name>

    Vì vậy nếu cần quan tâm đến thứ tự của thông tin thì ta nên đặt thông tin vào trong element
    hơn là attribute.

    Why Use Attributes

    Có 2 quan điểm:

             không sử dụng attribute vì làm phức tạp hóa ngôn ngữ XML

             sử dụng attribute vì không phải quan tâm nhiều đến việc lồng những tag với nhau,
             cũng như giải quyết hiện tượng chồng chéo.

    Ví dụ:
8


           <note>
                          <type>Information</type>
                          This is a note.
           </note>

           <note>
                          <Information>This is a note.</Information>
           </note>

           <note type="Information">This is a note.</note>

    Dùng để tiết kiệm không gian lưu trữ, tăng hiệu suất truyền?

    Sử dụng element cho phép linh hoạt hơn. Có thể thêm element khác để chia nhỏ thông tin.

    Attributes dùng để mô tả, hay định dạng những dữ liệu trong element đó. Nói cách khác,
    attribute dùng để chứa meta data.

    Sử dụng attribute không có thứ tự.

    Quan điểm trung lập: chọn pp nào thấy phù hợp với ứng dụng nhất, tiện nhất. Và XML thì hổ
    trợ tất cả.
9




    Comments

    <!-- nội dung ghi chú -->

    Trình ứng dụng không thể lấy được nội dung ghi chú

    Lỗi trong XML

    2 loại lỗi có thể xãy ra trong tài liệu XML:

           errors: do quy phạm một số ràng buộc của tài liệu, dẫn đến kết quả không xác định;
           parser cho phép phục hồi và xử lý tiếp.

           fatal errors: lỗi do sai cú pháp, quy định của ngôn ngữ XML. Parser sẽ chấm dứt
           ngay.

Why use Namespaces?

    Bất kỳ tổ chức, hay cá nhân đều có thể định nghĩa tài liệu XML với những từ khóa riêng.

    Trong số những từ khóa đó, có những từ khóa giống nhau nhưng mang ý nghĩa khác nhau.

    Hoàn toàn không có vấn để, nếu 2 tài liệu đó sử dụng độc lập nhau.

    Nhưng khi có nhu cầu kết hợp 2 tài liệu đó với nhau (trao đổi dữ liệu) sẽ nãy sinh vấn đề
    xung đột về tên gọi.

    Hỏi thêm ngoài

    Clustering

    Gom cụm: gom các đối tượng dữ liệu

           o   Tương tự với một đối tượng khác trong cùng cụm

           o   Không tương tự với các đối tượng trong các cụm khác

    Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm

    Các ứng dụng tiêu biểu của gom cụm

       Một công cụ độc lập để xem xét phân bố dữ liệu

       Làm bước tiền xử lý cho các thuật toán khác

    Các ứng dụng của gom cụm
10


       Tiếp thị: khám phá các nhóm khách hàng phân biệt trong CSDL mua hàng

       Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất

       Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù
       trung bình cao

       Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa
       lý.



PageRank là gì ?

       PageRank hay Ranking, viết tắt là PR tạm dịch là thứ hạng trang. Khi nói đến PageRank
người ta thường nghĩ ngay đến Google PageRank.

PageRank là phương thức của Google đánh giá từng trang web riêng biệt. Google nhìn vào các
trang mà liên kết đến trang của bạn và thứ hạng của chúng về tầm quan trọng. Đặc biệt, các trang
có các liên kết từ các trang quang trọng, chất lượng cao sẽ nhận được một PageRank cao hơn.
Google kết hợp PageRank với các công nghệ so sánh từ thông minh để tìm các trang vừa quan
trọng vừa liên quan đến tìm kiếm của bạn.

       Đó là một hệ thống xếp hạng trang Web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu
tiên đường dẫn URL trong trang kết quả tìm kiếm.

       Theo Googel thì một cách tóm lược lại thì PageRank chỉ được đánh giá từ hệ thống liên
kêt đường dẫn. Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng của trang
bạn càng tăng.

Định nghĩa PageRank

       PageRank Google chỉ là thuật toán dựa trên liên kết là chính. Đây là những gì Google tiết
lộ về PageRank: PageRank chỉ dựa trên bản chất tự nhiên của Web sử dụng hệ thống liên kết như
là một chỉ số đánh giá giá trị từng trang Web.

       Trong đó, Google coi một đường dẫn từ trang A trỏ đến trang B như là một phiếu, của
trang A bầu cho trang B. Nhưng Google xem xét các yếu tố khác ngoài số lượng phiếu trên hoặc
số lượng liên kết trang đó nhận được. Ví dụ, nó còn phân tích các trang liên kết tới. Vì vậy, các
trang quan trọng thì phiếu bầu của chúng cũng sẽ có trọng lượng hơn cho các trang được bầu. Và
11


khi kết hợp hệ thống liên kết trên và các yếu tố khác, Google sẽ tự đánh giá tính chất quan trọng
của trang.

Tuy nhiên đó chỉ là những khái niệm sơ đẳng nhất mà Google hiếm khi thông báo chính thức.
Trong thực tế, thuật toán PageRank phức tạp hơn rất nhiều. Và may mắn là như thế, nếu không
trang kết quả tìm kiếm của Google sẽ không còn tin cậy bởi những người lạm dụng thuật toán
của nó, và có lẽ như thế, SEO (Search Engine Optimization) mới là một nghệ thuật làm tốn nhiều
giấy bút của Webmaster.

More Related Content

What's hot

Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieu
Anh Ta
 
Bài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệuBài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệu
trieulongweb
 
Epidata v2.1
Epidata v2.1Epidata v2.1
Epidata v2.1
BinhThang
 
Cơ sở dữ liệu đại học
Cơ sở dữ liệu đại họcCơ sở dữ liệu đại học
Cơ sở dữ liệu đại học
Chu TheKop
 

What's hot (15)

Các mô hình dữ liệu
Các mô hình dữ liệuCác mô hình dữ liệu
Các mô hình dữ liệu
 
Slide co-so-du-lieu-chuong-8-csdl-huong-doi-tuong
Slide co-so-du-lieu-chuong-8-csdl-huong-doi-tuongSlide co-so-du-lieu-chuong-8-csdl-huong-doi-tuong
Slide co-so-du-lieu-chuong-8-csdl-huong-doi-tuong
 
BÀI 7: Thao tác với file - các vấn đề khác - Giáo trình FPT
BÀI 7: Thao tác với file - các vấn đề khác - Giáo trình FPTBÀI 7: Thao tác với file - các vấn đề khác - Giáo trình FPT
BÀI 7: Thao tác với file - các vấn đề khác - Giáo trình FPT
 
Giao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieuGiao trinh-co-so-du-lieu
Giao trinh-co-so-du-lieu
 
Bài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệuBài giảng cơ sở dữ liệu
Bài giảng cơ sở dữ liệu
 
Endnote
EndnoteEndnote
Endnote
 
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
Slide Hệ Quản Trị Cơ sở dữ liệu - CHƯƠNG 1
 
Tìm kiếm tài liệu tham khảo và trích dẫn bằng Endnote. Summer Re...
Tìm kiếm tài liệu tham khảo và trích dẫn bằng Endnote. Summer Re...Tìm kiếm tài liệu tham khảo và trích dẫn bằng Endnote. Summer Re...
Tìm kiếm tài liệu tham khảo và trích dẫn bằng Endnote. Summer Re...
 
csdl - buoi1
csdl - buoi1csdl - buoi1
csdl - buoi1
 
Epidata v2.1
Epidata v2.1Epidata v2.1
Epidata v2.1
 
Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3Cơ sở dữ liệu PTIT slide 3
Cơ sở dữ liệu PTIT slide 3
 
Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1Cơ Sở Dữ Liệu - Chương 1
Cơ Sở Dữ Liệu - Chương 1
 
Managing and Querying Encrypted Data
Managing and Querying Encrypted DataManaging and Querying Encrypted Data
Managing and Querying Encrypted Data
 
BG trung tam
BG trung tamBG trung tam
BG trung tam
 
Cơ sở dữ liệu đại học
Cơ sở dữ liệu đại họcCơ sở dữ liệu đại học
Cơ sở dữ liệu đại học
 

Similar to On thi kpdl

Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệu
Thành Luân
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
bookbooming1
 
Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02
nguyen minh
 
3. Phân tích định tính.pdf
3. Phân tích định tính.pdf3. Phân tích định tính.pdf
3. Phân tích định tính.pdf
Fred Hub
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
caolanphuong
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
caolanphuong
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
caolanphuong
 
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
TrngTn67
 

Similar to On thi kpdl (20)

Tài liệu hướng dẫn sử dụng dublin core
Tài liệu hướng dẫn sử dụng dublin coreTài liệu hướng dẫn sử dụng dublin core
Tài liệu hướng dẫn sử dụng dublin core
 
k07406tochucdulieuvathongtin
k07406tochucdulieuvathongtink07406tochucdulieuvathongtin
k07406tochucdulieuvathongtin
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
Csdl
CsdlCsdl
Csdl
 
Cơ sở dữ liệu
Cơ sở dữ liệuCơ sở dữ liệu
Cơ sở dữ liệu
 
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]Cơ sở dữ liệu   ts.phạm thế quế[bookbooming.com]
Cơ sở dữ liệu ts.phạm thế quế[bookbooming.com]
 
CSDL_In ngay
CSDL_In ngayCSDL_In ngay
CSDL_In ngay
 
Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02Csdliuihc 111212222339-phpapp02
Csdliuihc 111212222339-phpapp02
 
Bttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuongBttrinh tin hoc dai cuong
Bttrinh tin hoc dai cuong
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
3. Phân tích định tính.pdf
3. Phân tích định tính.pdf3. Phân tích định tính.pdf
3. Phân tích định tính.pdf
 
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đCông nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
 
Chapter1
Chapter1Chapter1
Chapter1
 
Chương 1 . Khái niệm chung về CSDL.pdf
Chương 1 . Khái   niệm chung về CSDL.pdfChương 1 . Khái   niệm chung về CSDL.pdf
Chương 1 . Khái niệm chung về CSDL.pdf
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
 
Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4Phan tich thiet_ke_he_thong_quan_ly_part_4
Phan tich thiet_ke_he_thong_quan_ly_part_4
 
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
Hệ quản trị cơ sở dữ liệu trường đại học công nghệ.
 
Bg access
Bg accessBg access
Bg access
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 

On thi kpdl

  • 1. 1 Chương 1 Datamining là gì - Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). - Nói chung, khai thác dữ liệu (đôi khi được gọi là dữ liệu hoặc phát hiện kiến thức) là quá trình phân tích dữ liệu từ những quan điểm khác nhau và tổng kết nó thành thông tin hữu ích - thông tin có thể được sử dụng để tăng doanh thu, cắt giảm chi phí, hoặc cả hai. Khai thác dữ liệu phần mềm là một trong một số công cụ phân tích để phân tích dữ liệu. Nó cho phép người sử dụng để phân tích dữ liệu từ nhiều kích thước khác nhau hoặc góc độ, phân loại, và tóm tắt các mối quan hệ được xác định. Về mặt kỹ thuật, khai thác dữ liệu là quá trình tìm ra mối tương quan hoặc các mẫu trong số hàng chục cơ sở dữ liệu lớn trong các lĩnh vực quan hệ. Chương 2 The Boolean Model Tài liệu tập hợp thành các mục Là mô hình đơn giản dựa trên lý thuyết và thiết lập Boolean đại số Các câu truy vấn dạng biểu thức Boolean Chính xác ngữ nghĩa Gọn gàng về hình thức Nhược điểm của mô hình Boolean Không sắp xếp dữ liệu được trả về Thông tin cần phải được dịch ra một Boolean biểu hiện mà hầu hết người dùng tìm Các công thức boolean mà người dùng thường dùng là quá đơn giản Các mô hình Boolean thường trả về quá ít hay quá nhiều thong tin tài liệu mà người dung truy vấn Thông tin trả về dựa trên tiêu trí quyết định nhị phân không có khái niệm kết hợp 1 phần
  • 2. 2 Vector-based Model - Sử dụng trọng số nhị phân là quá hạn chế Không phải trọng số nhị cung cấp xem xét cho phù hợp với một phần Thuật ngữ trọng số được sử dụng để tính toán một mức độ tương đồng giữa một truy vấn và mỗi tài liệu Xếp hạng tập các tài liệu cung cấp cho các đối sánh tốt hơn - Mô hình không gian Vector (hoặc hạn véc tơ mô hình) là một mô hình đại số đại diện cho các tài liệu văn bản (và bất kỳ đối tượng, nói chung) là vectơ của các định dạng, chẳng hạn như, ví dụ như chỉ số điều kiện,. Nó được sử dụng trong việc lọc thông tin, lấy thông tin, chỉ mục và xếp hạng thích hợp. Sử dụng đầu tiên của nó là trong thông tin SMART Retrieval System. Các thành phần của hệ thống truy hồi thông tin Tìm kiếm tài liệu có chứa câu truy vấn đã cho từ chỉ số ngược. Xếp hạng tất cả các tài liệu theo một mức độ phù hợp Giao diện người dùng quản lý tương tác với người sử dụng: Truy vấn đưa vào và tài liệu đưa ra. Phản hồi liên quan Hình ảnh của các kết quả. Truy vấn hoạt động biến đổi các truy vấn để cải thiện tài liệu được truy hồi: Truy vấn mở rộng bằng cách sử dụng từ điển. Truy vấn chuyển đổi bằng cách sử dụng thông tin phản hồi liên quan. Classic IR Mô hình - Khái niệm cơ bản Mỗi tài liệu được đại diện bởi một bộ từ khóa đại diện hoặc chỉ mục Một chỉ số là một từ tài liệu hữu ích cho việc ghi nhớ những tài liệu chủ đề chính Chỉ mục có thể được lựa chọn là danh từ chỉ, khi danh từ này tự nó có nghĩa Nên giảm kích thước của chỉ mục Một phần của phát biểu đánh dấu. Nhưng nó đòi hỏi danh từ phải phân biệt Tuy nhiên, công cụ tìm kiếm cho rằng tất cả các từ ngữ được chỉ mục Không phải tất các thuật ngữ đều hữu dụng ngang bằng với việc đại diện cho ND tài liệu, các điều khoản ít thường xuyên sử dụng cho phép xác định một tập nhỏ của tài liệu Chương 3 Tại sao phải đánh giá hệ thống truy hồi thông tin Có nhiều mô hình thuật toán,hệ thống truy hồi thông tin việc đánh giá là quan trọng nhằm chọn ra cá nào là tốt nhất
  • 3. 3 Các thành phần tốt nhất : Chức năng xắp xếp Chức năng lựa chọn Danh sách xếp hạng sẽ là người dùng cần phải xem xét để tìm thấy một số / tất cả các tài liệu có liên quan ? Từ những tài liệu đã dc xếp hạng chọn ra tài liệu xếp hạng tốt nhất, có khả năng nhất - Phải dc so sánh 1 cach công bằng - Được đánh giá trên cùng 1 bộ tài liệu - Đánh giá trên cùng 1 câu hỏi - Phải được đánh giá trên cùng 1 biện pháp Những khó khăn trong việc đánh giá hệ thống IR Tính hiệu quả được liên quan đến liên quan của các mục được truy hồi . Liên quan không phải là nhị phân thường nhưng liên tục. Thậm chí nếu có liên quan là nhị phân, nó có thể khó khăn trong việc đánh giá. Liên quan, theo quan điểm của con người, là: Chủ quan: Tuỳ theo sự đánh giá của một người dùng cụ thể. Tình huống: liên quan đến nhu cầu hiện tại của người dùng. Nhận thức: Tùy thuộc vào nhận thức và hành vi của con người. Năng động: Thay đổi theo thời gian. Con người gắn nhãn những kho ngữ liệu Bắt đầu với một tập các tài liệu. Chọn tập truy vấn phù hợp với tài liệu này. Có một hoặc nhiều chuyên gia đánh nhãn các tài liệu liên quan cho mỗi truy vấn. Điển hình nhị phân giả định mức độ đánh giá phù hợp. Đòi hỏi phải nỗ lực đáng kể của con người đối với tài liệu/truy vấn lớn. Chương 4 Binary files Máy tính có thể hiểu được. Là một chuỗi những bit (giá trị 1 hay 0).
  • 4. 4 Phụ thuộc vào chương trình tạo ra nó. Và chỉ có chương trình tạo ra nó mới hiểu tất cả ý nghĩa của tất cả các bit. Ví dụ: khi soạn thảo văn bản với MS Word,chương trình sẽ tạo binary file với định dạng riêng. Người lập trình viết ct này quyết định mã nhị phân bao nhiêu sẽ tương ứng với bold text, break … Và chỉ có MS Word thể hiện và in tài liệu đúng định dạng như lúc soạn thảo. Đoạn mã mô tả định dạng được gọi là meta data. Chương trình chạy nhanh hơn, và tiết kiệm không gian lưu trữ meta data. Khẳng định quyền sở hữu Những phần mềm khác hãng không tương thích nhau. Và mỗi hãng xây dựng bộ chuyển đổi tài liệu ở định dạng khác sang định dạng của hãng. Text file Giống với binary files. Tuy nhiên, một nhóm các bit (8bits, hay 16 bits) kết hợp lại tạo thành một mã số. Và mã số này được ánh xạ thành một chữ cái. Ví dụ: một chuỗi 8bits : 01100001 tạo thành số 97, và được chuyển đổi thành kí tự ‘a’. Đọc được bởi nhiều chương trình ngay cả với trình soạn thảo văn bản đơn giản nhất. Khó thêm thông tin định dạng( meta data). Ví dụ: định dạng bold text, hay chèn thêm hình ảnh SGML Ngôn ngữ đánh dấu bằng chuỗi kí tự. Kết hợp ưu điểm của binary files, và text files: có thể hiểu được bởi máy tính, lưu trữ được meta data và dễ dàng được sử dụng bởi nhiều chương trình. mark up data (hay meta data) dùng để tự mô tả. HTML dựa trên chuẩn SGML Do đó, nhiều phần mềm khác nhau hiển thị được
  • 5. 5 Và soạn được trên nhiều phần mềm: XML SGML: phức tạp không thích hợp để trao đổi dữ liệu trên môi trường web.Æ cần một ngôn ngữ tương tự nhưng đơn giản hơn HTML: rất phù hợp để hiển thị dữ liệu cho trình duyệt. Những tag này chỉ để mô tả cách hiển thị, không mô tả ý nghĩa của dữ liệu. XML (Extensible Markup Language): là nhánh con của SGML được giản lược hóa. Document Type XML có thể dùng để tạo một tài liệu chứa bất kỳ thông tin nào ta muốn. Hoàn toàn linh hoạt khi tổ chức dữ liệu (structured data). Ví dụ: ngoài việc lưu trữ thông tin họ tên, nó còn cho biết cấu trúc của dữ liệu họ tên gồm 3 thành phần trong đó: họ, tên lót, tên.
  • 6. 6 Những element sử dụng trong tài liệu được gọi là vocabulary. Khi tạo một file XML, đồng thời cũng định nghĩa một document type. Trong đó có những luật mà các element phải tuân thủ. XML dùng ở đâu ? XML độc lập platform (Windows, Unix) và ngôn ngữ (Visual Basic, Java). XML sử dụng để trao đổi dữ liệu giữa những ứng dụng với nhau. Ứng dụng web: giảm thời gian load trang web. Chứa nội dung trang web : sử dụng XSLT hay CSS để chuyển đổi và hiện thị trang web. Remote Procedure Call (RPC): đối tượng ở máy này gọi đối tượng ở máy khác. Sử dụng XML và HTTP. Simple Object Access Protocol (SOAP): tương tự như RPC cho phép thông qua firewall. eCommerce: B2B, B2C, … Element name Kí tự bắt đầu có thể là kí tự (bao gồm các ngôn ngữ không thuộc Latin), kí tự “_”. Kí tự bắt đầu không thể là kí số hoặc những kí hiệu khác. Sau kí tự đầu tiên có thể là kí số, “-”, “.” Tên không được có khoảng trắng Tên không được chứa kí tự “:”. Trừ khi có sử dụng namespaces. Không thể có khoảng trắng ngay sau kí tự “<”. Nhưng có thể khoảng trắng trước kí tự “>” Tên không thể bắt đầu bằng từ “xml” trong bất kỳ định dạng nào Ví dụ: “xml”, “XML”, “XmL”, … Kể cả kết hợp với những kí tự khác Chú ý: Đối với, XML parser kèm theo IE không bắt buộc quy định không sử dụng “xml”, nhưng đối với những parser thì xem quy định này là bắt buộc. Vì vậy, chúng ta không nên sử dụng “xml” trong mọi trường hợp. Attributes(thuộc tính)
  • 7. 7 Có thể thêm thuộc tính vào start-tags hay elements. <tên thuộc tính>=“<giá trị>” Ví dụ: – Sai : <INPUT checked> – Sai : <INPUT checked=true> – Đúng : <INPUT checked='true'> – Đúng : <INPUT checked="true"> – Sai : <INPUT checked="true'> – Đúng : <info attr=“John's nickname”> – Sai : <info attr=‘John's nickname’> – Đúng : <info attr=‘I said “hi” to him’> – Sai : <bad att="1" att="2"></bad> Tên attributes theo những quy tắc đặt tên như elements : case-sensitive, không bắt đầu bằng từ “xml”, … Parser không quan tâm đến thứ tự xuất hiện của những attribute trong element. Ví dụ: <name first="John" middle="Fitzgerald Johansen" last="Doe"></name> Vì vậy nếu cần quan tâm đến thứ tự của thông tin thì ta nên đặt thông tin vào trong element hơn là attribute. Why Use Attributes Có 2 quan điểm: không sử dụng attribute vì làm phức tạp hóa ngôn ngữ XML sử dụng attribute vì không phải quan tâm nhiều đến việc lồng những tag với nhau, cũng như giải quyết hiện tượng chồng chéo. Ví dụ:
  • 8. 8 <note> <type>Information</type> This is a note. </note> <note> <Information>This is a note.</Information> </note> <note type="Information">This is a note.</note> Dùng để tiết kiệm không gian lưu trữ, tăng hiệu suất truyền? Sử dụng element cho phép linh hoạt hơn. Có thể thêm element khác để chia nhỏ thông tin. Attributes dùng để mô tả, hay định dạng những dữ liệu trong element đó. Nói cách khác, attribute dùng để chứa meta data. Sử dụng attribute không có thứ tự. Quan điểm trung lập: chọn pp nào thấy phù hợp với ứng dụng nhất, tiện nhất. Và XML thì hổ trợ tất cả.
  • 9. 9 Comments <!-- nội dung ghi chú --> Trình ứng dụng không thể lấy được nội dung ghi chú Lỗi trong XML 2 loại lỗi có thể xãy ra trong tài liệu XML: errors: do quy phạm một số ràng buộc của tài liệu, dẫn đến kết quả không xác định; parser cho phép phục hồi và xử lý tiếp. fatal errors: lỗi do sai cú pháp, quy định của ngôn ngữ XML. Parser sẽ chấm dứt ngay. Why use Namespaces? Bất kỳ tổ chức, hay cá nhân đều có thể định nghĩa tài liệu XML với những từ khóa riêng. Trong số những từ khóa đó, có những từ khóa giống nhau nhưng mang ý nghĩa khác nhau. Hoàn toàn không có vấn để, nếu 2 tài liệu đó sử dụng độc lập nhau. Nhưng khi có nhu cầu kết hợp 2 tài liệu đó với nhau (trao đổi dữ liệu) sẽ nãy sinh vấn đề xung đột về tên gọi. Hỏi thêm ngoài Clustering Gom cụm: gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tương tự với các đối tượng trong các cụm khác Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm Các ứng dụng tiêu biểu của gom cụm Một công cụ độc lập để xem xét phân bố dữ liệu Làm bước tiền xử lý cho các thuật toán khác Các ứng dụng của gom cụm
  • 10. 10 Tiếp thị: khám phá các nhóm khách hàng phân biệt trong CSDL mua hàng Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý. PageRank là gì ? PageRank hay Ranking, viết tắt là PR tạm dịch là thứ hạng trang. Khi nói đến PageRank người ta thường nghĩ ngay đến Google PageRank. PageRank là phương thức của Google đánh giá từng trang web riêng biệt. Google nhìn vào các trang mà liên kết đến trang của bạn và thứ hạng của chúng về tầm quan trọng. Đặc biệt, các trang có các liên kết từ các trang quang trọng, chất lượng cao sẽ nhận được một PageRank cao hơn. Google kết hợp PageRank với các công nghệ so sánh từ thông minh để tìm các trang vừa quan trọng vừa liên quan đến tìm kiếm của bạn. Đó là một hệ thống xếp hạng trang Web của các máy tìm kiếm nhằm sắp xếp thứ tự ưu tiên đường dẫn URL trong trang kết quả tìm kiếm. Theo Googel thì một cách tóm lược lại thì PageRank chỉ được đánh giá từ hệ thống liên kêt đường dẫn. Trang của bạn càng nhận nhiều liên kết trỏ đến thì mức độ quan trọng của trang bạn càng tăng. Định nghĩa PageRank PageRank Google chỉ là thuật toán dựa trên liên kết là chính. Đây là những gì Google tiết lộ về PageRank: PageRank chỉ dựa trên bản chất tự nhiên của Web sử dụng hệ thống liên kết như là một chỉ số đánh giá giá trị từng trang Web. Trong đó, Google coi một đường dẫn từ trang A trỏ đến trang B như là một phiếu, của trang A bầu cho trang B. Nhưng Google xem xét các yếu tố khác ngoài số lượng phiếu trên hoặc số lượng liên kết trang đó nhận được. Ví dụ, nó còn phân tích các trang liên kết tới. Vì vậy, các trang quan trọng thì phiếu bầu của chúng cũng sẽ có trọng lượng hơn cho các trang được bầu. Và
  • 11. 11 khi kết hợp hệ thống liên kết trên và các yếu tố khác, Google sẽ tự đánh giá tính chất quan trọng của trang. Tuy nhiên đó chỉ là những khái niệm sơ đẳng nhất mà Google hiếm khi thông báo chính thức. Trong thực tế, thuật toán PageRank phức tạp hơn rất nhiều. Và may mắn là như thế, nếu không trang kết quả tìm kiếm của Google sẽ không còn tin cậy bởi những người lạm dụng thuật toán của nó, và có lẽ như thế, SEO (Search Engine Optimization) mới là một nghệ thuật làm tốn nhiều giấy bút của Webmaster.