Your SlideShare is downloading. ×
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Web Mining   Metadata Ver1.0
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Web Mining Metadata Ver1.0

1,277

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,277
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Dữ liệu (Data). Là những sự kiện riêng biệt, rời rạc được biểu diễn thông qua các ký hiệu, biểu tượng dưới những định dạng khác nhau. Thông thường, dữ liệu ít có giá trị và ý nghĩa. Thông tin (Information). Là dữ liệu được sử dụng và diễn dịch bởi con người. Được hình thành từ những thu nạp kết hợp qua lại của dữ liệu hỗ trợ cho mục đích ra quyết định dễ dàng hơn. Tri thức (Knowledge). Là kinh nghiệm của cá nhân hoặc tổ chức đạt được khi sử dụng thông tin, là những lý giải của thông tin dựa trên mức độ quan trọng nhận thức được từ nó. Tri thức là thông tin có thể hành động, tức là thông tin liên quan, tồn tại đúng nơi, đúng thời điểm và có nội dung phù hợp giúp con người ra quyết định.
  • WHO created the data? WHAT is the content of the data? WHEN was it created? WHERE is it geographically? HOW was the data developed? WHY was the data developed?
  • Meta-information has two main functions: to provide a means to discover that the data set exists and how it might be obtained or accessed; and to document the content, quality, and features of a data set, indicating its fitness for use.
  • Dublin Core là một tập hợp những thành phần metadata được thiết kế đặc biệt cho việc sử dụng không chuyên. Được dùng chủ yếu cho việc mô tả tài liệu điện tử. Đây là kết quả của một sự hợp tác nhiều người cùng xây dựng. Dublin là tên của thành phố ở Bang Ohio, Hoa Kỳ, nơi cuộc họp đầu tiên được tổ chức vào năm 1995. Từ đó đến nay đã có 12 lần hội nghị quốc tế tổ chức tại Anh, Úc, Phần Lan, Đức, Canađa, Nhật, Trung Quốc và Hoa Kỳ để hoàn thiện. Dublin Core được Tổ chức Chuẩn Quốc gia Hoa Kỳ - ANSI phê chuẩn vào năm 2001. Dublin Core chỉ bao gồm 15 thành phần. Như cái tên "core - nòng cốt" đã hàm ý rằng Dublin Core là một tập hợp những thành phần nòng cốt, ngoài ra còn có thể tăng thêm những thành phần phụ cho mục đích riêng. Hơn nữa, những thành phần hiện hữu có thể được cải tiến xuyên qua việc sử dụng. Tất cả thành phần này đều có thể lập lại khi cần thíết. Dublin Core dùng thuật ngữ tài nguyên để bao gồm tranh ảnh, hình ảnh động, hoạt hình, đồ hoạ, ngay cả sản phẩm thực tế ảo cũng như tài liệu toàn văn.
  • What search-engines support the Dublin Core Metadata Element Set? Several commercial and non-commercial search engines will index META elements with just a little configuration. A recent inquiry on the dc-general mailing list produced this list: Ultraseek Swish-E Microsoft's Index Server Blue Angel Technologies MetaStar Verity Search 97 Information Server To get a good overview of what software is out there see  Search Tools  and  Search Engine Watch . The well-known "all the Web" search engines including AltaVista, Yahoo, HotBot, etc. tend to avoid using the information found in meta elements in their indexing. This is because, unless the pages are from guaranteed "trusted" servers, the meta information is commonly used by unscrupulous content-providers for spamming, to mislead the indexes into givingWeb-pages a misleading rating.
  • Mô tả nguyên văn nội dung của tài nguyên
  • Transcript

    • 1. Siêu dữ liệu (Metadata) Sinh viên thực hiện: Nguyễn Thị Quý Nguyễn Quốc Khương An Giáo viên hướng dẫn: PGS. TS Lê Hoài Bắc
    • 2. Nội dung
      • Siêu dữ liệu là gì?
      • Siêu dữ liệu hỗ trợ ra quyết định
      • Siêu dữ liệu trên Web
    • 3. Dữ liệu, thông tin và tri thức (DIKs)
      • Dữ liệu (Data). Là những sự kiện riêng biệt, rời rạc được biểu diễn thông qua các ký hiệu, biểu tượng dưới những định dạng khác nhau.
      • Thông tin (Information). Là dữ liệu được sử dụng và diễn dịch bởi con người, là sự kết hợp qua lại của dữ liệu hỗ trợ cho mục đích ra quyết định dễ dàng hơn.
      • Tri thức (Knowledge). Là kinh nghiệm của cá nhân hoặc tổ chức đạt được khi sử dụng thông tin, là những lý giải của thông tin dựa trên mức độ quan trọng nhận thức được từ nó.
      Tri thức Thông tin Dữ liệu Số lượng Dữ liệu + Thông tin + Tri thức = Nền tảng cho KM và Web Mining
    • 4. Dữ liệu, thông tin và tri thức (DIKs)
      • Ví dụ trong toán học:
        • Dữ liệu: 1,1,2,3,5,8,13,…
        • Mối liên hệ này có thể biểu diễn bằng công thức sau: U n = U n-1 + U n-2
        • Công thức tìm ra ở trên chính là tri thức
      • Ví dụ trong đời sống:
        • Dữ liệu: chuồn chuồn, bay, thấp, bao cao, …
        • Thông tin: chuồn chuồn bay thấp, …
        • Tri thức: Chuồn chuồn bay thấp thì mưa, bay cao thì nắng, bay vừa thì râm
    • 5. Siêu dữ liệu là gì? Meta data ……… .
        • WHO created the data?
      WHAT is the content of the data? WHEN was it created? WHERE is it geographically? HOW was the data developed? WHY was the data developed?
    • 6. Siêu dữ liệu là gì?
      • Định nghĩa
      • Dữ liệu về dữ liệu
      • Thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin
      • Thông tin có cấu trúc
      • Tri thức về dữ liệu (Gilbert W. Laware)
      • Siêu dữ liệu bao gồm:
      • Thuộc tính (Attributes) như name, size, data type
      • Cấu trúc (Structures) như length, fields, columns
      • Tính chất (Properties) như “where it is located”, “how it is associated”, “ownership”
      • Thông tin mô tả về ngữ cảnh, chất lượng và điều kiện, hoặc tính chất của dữ liệu
      Mô tả tài nguyên thông tin
    • 7. Siêu dữ liệu hỗ trợ ra quyết định Low Insight Weak Decisions Trang Tại sao xảy ra…? Cái gì đã xảy ra…? Xảy ra khi nào…? Xảy ra ở đâu…?
    • 8. Siêu dữ liệu hỗ trợ ra quyết định Event Process Change Crucial Data Deep Insight Analyze Supported Decisions Thấu hiểu được tình hình của cty Tối thiểu hoá các loại chi phí Phản hồi kịp thời với biến động thị trường Tận dụng kiến thức phân tích của chuyên gia
    • 9. Siêu dữ liệu hỗ trợ ra quyết định
      • Internet cho phép truy xuất đến những thông tin bên ngoài tổ chức (dữ liệu nhà cung cấp, khách hàng …)
      Môi trường tổ chức điện tử Giao diện Điện tử & Chức năng Hệ thống Hệ thống (tự động, không tự động) Tổ chức Con người Công cụ Các tiêu chuẩn (Các luât được chấp nhận) Khách hàng (Bán sản phẩm, dịch vụ) Nhà cung cấp (Cung cấp sản phẩm, dịch vụ) Thực tiễn (Các hành động được chấp nhận) Ý tưởng, nguyên vật liệu Sản phẩm, dịch vụ
    • 10. Metatag
      • Là siêu dữ liệu về HTML document
      • Luôn đặt trong head element
      • Được sử dụng bởi browsers (hiển thị nội dung), search engines (keywords), hoặc các web services.
    • 11. Metatag - "description"
      • < meta name =&quot; description “ chứa thông tin mô tả chung về webpage trong kết quả trả về thông qua Search engines
      < meta name =&quot; description &quot; CONTENT =&quot;Web site 24h.com.vn - web site thông tin giải trí lớn nhất tại Việt nam, bằng tiếng Việt, cập nhật nhanh, đầy đủ. Bóng đá, thể thao, thời trang, việc làm, ...vv. Website 24h.com.vn web site thong tin giai tri lon nhat tai viet nam, bang tieng viet, cap nhat nhanh, day du. Bong da, the thao, thoi trang, viec lam&quot; /> 24h.com.vn
    • 12. Metatag - “ keywords &quot;
      • < meta name =&quot; keywords “ :được sử dụng để tìm kiếm. Bên cạnh đó các từ đồng nghĩa, gần nghĩa, từ sai chính tả cũng được xem xét để thêm vào.
      <meta name=&quot;keywords&quot; CONTENT=&quot; 24h,24 giờ ,xe hơi, ôtô, ô tô, di động, điện thoại, chơi game, ca nhạc, thời trang, cười, vui cười, tin tức,tin nhanh,euro, world cup,bóng đá,thể thao,kinh tế,đầu tư,chứng khoán,nhịp sống trẻ,thơ,truyện,tình yêu,giới tính,ăn gì,chơi gì,pháp luật,điện ảnh,âm nhạc,online,game,trò chơi,trực tuyến,vi tính,internet,tuyển dụng,việc làm,rao vặt,sức khỏe, biếm hoạ,chương trình, TV 24h, 24 gio , xe hoi, oto, o to … 24h.com.vn Từ gần nghĩa
    • 13. Dublin Core Metadata
      • Dublin Core là chuẩn dùng để mô tả dữ liệu trong các Metadata nhằm khai thác các tài liệu trong thư viện và trên các web site thông qua mạng Internet
      • Được dùng chủ yếu cho việc mô tả tài liệu điện tử .
      • Dublin là tên của thành phố ở Bang Ohio, Hoa Kỳ, nơi cuộc họp đầu tiên được tổ chức vào năm 1995
      • &quot; core - nòng cốt &quot; đã hàm ý rằng Dublin Core là một tập hợp những thành phần nòng cốt, ngoài ra còn có thể tăng thêm những thành phần phụ cho mục đích riêng
      Thư viện sử dụng bảng mục lục Quản lý thư viện số ?
    • 14. Dublin Core Metadata
      • 15 thuộc tính được chia làm 3 nhóm:
      • Nội dung: Nhan đề, Chủ đề, Mô tả, Nguồn, Ngôn ngữ, Quan hệ (với tài nguyên khác), Sự kiện;
      • Sở hữu trí tuệ: Tác giả, Xuất bản, Cộng tác viên, Bản quyền;
      • Thuyết minh: Năm, Loại, Dạng thức, Xác nhận
      • Siêu dữ liệu có thể nhúng trong phần đầu HEAD (HTML Doc)
      <head> <title>A Dirge</title> <link rel = &quot;schema.DC&quot; href = &quot;http://purl.org/DC/elements/1.0/&quot;> <meta name = &quot;DC.Title&quot; content = &quot;A Dirge&quot;> <meta name = &quot;DC.Creator&quot; content = &quot;Shelley, Percy Bysshe&quot;> <meta name = &quot;DC.Type&quot; content = &quot;poem&quot;> <meta name = &quot;DC.Date&quot; content = &quot;1820&quot;> <meta name = &quot;DC.Format&quot; content = &quot;text/html&quot;> <meta name = &quot;DC.Language&quot; content = &quot;en&quot;> </head>
    • 15. 15 thành phần của Dublin Core Nhan đề Tên được đặt cho tài nguyên của tác giả hay nhà xuất bản Tác giả Người hay tổ chức có trách nhiệm đầu tiên về nội dung trí tuệ của tài nguyên Chủ đề Đề tài của tài nguyên Mô tả Mô tả nguyên văn nội dung của tài nguyên xuất bản Thực thể có trách nhiệm làm cho tài nguyên có hiệu lực sử dụng Cộng tác viên Người hay tổ chức (khác tác giả) có trách nhiệm đóng góp có ý nghĩa vào nội dung trí tuệ của tài nguyên Năm Năm tài nguyên được sáng tác hay có hiệu lực sử dụng Loại Bản chất hay thể loại của nội dung tài nguyên Dạng thức Hình thức vật lý hay kỷ thuật số của tài nguyên Xác nhận Tham chiếu rõ ràng xác nhận tính duy nhất của tài nguyên trong phạm vi ngữ cảnh đã cho Nguồn Tham chiếu một tài nguyên thứ hai mà từ đó tài nguyên trình bày đã trích dẫn Ngôn ngữ Ngôn ngữ của nội dung tài nguyên Quan hệ Tham chiếu một tài nguyên có liên quan, và bản chất của mối quan hệ Sự kiện Đặc tính nơi chốn và thời gian liên quan đến nội dung tài nguyên Bản quyền Thông tin về tình trạng bản quyền
    • 16. Cám ơn !

    ×