Your SlideShare is downloading. ×
  • Like
Обработка слабоструктурированных веб-документов на основе облачных технологий  Semantic Social Web
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web

  • 978 views
Published

Яблонский Сергей Александрович …

Яблонский Сергей Александрович
СПбГУ

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
978
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
37
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • FIX THE TRIPLES
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо
  • мроьаьо

Transcript

  • 1. Обработка слабоструктурированных веб-документов на основе облачных технологий S emant i c Social Web Яблонский Сергей Александрович СПбГУ y ablonsky. [email_address]
  • 2.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • IE + Облачные технологии
  • 3.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • IE + Облачные технологии
  • 4. Эволюция сетей WWW
  • 5.
      • Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется);
      • Web 2.0 – объединение в социальные сети – Social Web (пройден, социальные сети стали реальностью и стремительно растут);
      • Web 3.0 – объединение в семантические сети – S emantic Web (начинается сейчас);
      • Web 4.0 – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива).
    WEB 1.0, 2.0, 3.0, 4.0 (?)
  • 6.
    • Информационный взрыв Социального Веба !
    image from tinyurl.com/nuketest
  • 7.
    • Boom!
  • 8.  
  • 9.  
  • 10.
    • http://map.web2summit.com/
  • 11.  
  • 12.
    • 61% = социальные сети
    • 11% = форумы
    • 11% = создаваемый пользователями
    • контент - > urbandictionary.com
    • 10% = создаваемые пользователями
    • рынки и классификаторы - > craigslist.org
    • 03% = блоги
    • 01% = создаваемые пользователями обзоры - > apartmentratings.com
    • 01% = вики
    • 02% = прочее
  • 13.  
  • 14.  
  • 15.  
  • 16. Social websites are like data silos image from pidgintech.com
  • 17. Нужны способы объединения image from pidgintech.com
  • 18. Данных и пользователей image from pidgintech.com
  • 19.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • Облачные технологии
  • 20. Эволюция сетей WWW
  • 21. Tim Berners-Lee, The 1st World Wide Web Conference, Geneva, May 1994
    • To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity, as in fact documents on the Web describe real objects and imaginary concepts, and give particular relationships between them. […] Adding semantics to the Web involves two things: allowing documents which have information in machine-readable forms , and allowing links to be created with relationship values . Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a greater extent than our own reading.
  • 22.
      • Переход от «читаемых человеком» к «читаемых компьютером» (machine readable) документам на основе технологий SW стал одним из важнейших путей дальнейшего развития WWW .
    Semantic Web – Web 3.0
  • 23. The Semantic Web stack image from www.w3.org/2007/03/layerCake.png
  • 24. Semantic Web
    • Базовая модель Semantic Web включает следующие компоненты:
      • URI/ IRI – универсальный идентификатор ресурсов;
      • расширяемый язык разметки (XML) ;
      • общая схема описания ресурсов RDF;
      • метаданные и схема RDF Schema (RDFS);
      • онтологии и языки их описания ( OWL : OWL Lite , OWL DL , OWL Full );
      • метаданные и схема OWL Schema ( OWL S);
      • язык запросов SPAROL к RDF-хранилищам;
      • агенты/сервисы WSDL и схемы WSDL S и пр.
    • Консорциум W3C предложил и использует стандарты практически
    • по всем компонентам SW ( Berners - Lee , 2003).
  • 25. Представление знаний в SW
  • 26. RDF
    • URIs identify resources:
      • How do we define assertions about these resources?
    • We use RDF (Resource Description Framework):
      • A data model; a directed, labeled graph using URIs
      • Various serialisations (RDF/XML, N3, RDFa, etc.)
    • RDF is based on triples:
      • <subject> <predicate> <object>
  • 27. RDF пример
    • @prefix dct: <http://purl.org/dc/terms/> .
    • <http://example.org/dm110-semweb>
    • dct:title “ Introduction to the Semantic Web” ;
    • dct:author <http://apassant.net/alex> ;
    • dct :subject < http://dbpedia.org/resource/Semantic_Web> .
  • 28. Онтологии состоят из classes и properties
      • :Person a rdfs:Class .
      • :father a rdfs:Property .
      • :father rdfs:domain :Person .
      • :father rdfs:range :Person .
  • 29. Metadata and ontologies
  • 30. Известные онтологии
    • Social networks and social data:
      • FOAF, SIOC
    • Software development:
      • DOAP, BEATLE
    • Comprehensive / top-level:
      • Yago, OpenCYC
    • Lexical ontologies
      • WordNet
    • Taxonomies and controlled vocabularies:
      • SKOS
  • 31.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • IE + Облачные технологии
  • 32. The S emantic S ocial Web
  • 33. Linked Data
    • Building a “Web of Data ” to enhance the current Web
    • The Linking Open Data (LOD) project:
      • http://linkeddata.org/
      • Translating existing datasets into RDF and linking them together, for example DBpedia (Wikipedia) and GeoNames, Freebase, BBC programmes, etc.
      • Governement data also available as Linked Data
  • 34. The LOD cloud 2008 2007
  • 35. The LOD cloud 2009 2008
  • 36. image from richard.cyganiak.de/2007/10/lod/lod-datasets_2009-07-14.png
  • 37. LOD
  • 38. LOD
  • 39. LOD
  • 40.  
  • 41.  
  • 42.
    • Данные о 2.6 миллионах “вещей” (things),
    • включая
    • 213,000 персоналий ;
    • 328,000 мест ;
    • 57,000 музыкальных альбомов ;
    • 36,000 фильмов ;
    • 20,000 компаниях.
    • Всего 274 миллионов RDF триплетов, в том числе
    • 609,000 ссылок на изображения ;
    • 3,150,000 ссылок на внешние веб-страницы ;
    • 4 878 100 ссылок на данные во внешних RDF наборах .
    Wikipedia
  • 43. Wikipedia
  • 44.
    • Найти всех, родившихся в 19 веке в Берлине.
    SPARQL
  • 45.  
  • 46.
    • DBpedia ( L OD-версия Wikipedia , www.wikipedia.org/), включающая:
      • 3.5 млн сущностей, в том числе 410000 описаний мест ( places ), 3100000 персоналий ( persons ), 146000 видов, 1400000 организаций, 950000 музыкальных альбомов, 50000 фильмов, 33000 строений, 150000 видеоигр, 5000 заболеваний;
      • описания на 90 языках;
      • 1 млрд RDF -триплетов, 10 млн связей с внешними RDF -наборами данных из L O D;
      • онтологию, содержащую 260 классов, 1200 свойств, 3.5 млн экземпляров;
    DBpedia
  • 47.
    • Freebase (www.freebase.com/) – аналогична DBpedia, но в 10 раз меньше при значительно лучшем качестве данных;
    • OpenCyc ( http :// www . cyc . com / cyc / opencyc ) ─ часть базы знаний Cyc, которая является собственностью компании Cycorp, Inc , вошла в состав LOD . Последняя версия OpenCyc, 1.0 была выпущена в июле 2006 г. и включает в себя полную онтологию Cyc из сотни тысяч выражений. База знаний содержит 470000 концепций и 306000 экземпляров-фактов. Стратегическая цель компании Cycorp, Inc , – создать полностью открытую, свободно распространяемую базу знаний для использования в Web 3.0;
    Freebase и OpenCyc
  • 48.
    • YAGO ( http :// www . mpi - inf . mpg . de / yago - naga / yago /) – это онтология, связывающая Wikipedia с WorldNet ; состоит из более 2 млн сущностей (persons, organizations, cities, etc.) и 20 млн фактов-экземпляров об этих сущностях;
    • UMBEL (Upper Mapping and Binding Exchange Layer, www . umbel . org /) – подмножество 20000 концептов OpenCyc , обеспечивающее связь с YAGO и DBpedia и возможность логического вывода на основе Cyc ;
    YAGO и UMBEL
  • 49.
    • W 3 C WordNet ( http :// www . w 3. org / TR / wordnet - rdf /) – RDF/OWL представление лексической онтологии WordNet в LD;
    • GeoNames ( http :// www . geonames . org /) – содержит информацию о 6 млн мест (places);
    • MusicBrainz ( musicbrainz . org /) – содержит информацию о 55000 артистов, 220000 альбомов, 36 млн RDF -триплетов;
  • 50.
    • Open Government Data :
      • Data . gov – 2400 наборов данных (но только 400 из них в настоящее время представлены в виде RDF -триплетов), 6.5 млрд триплетов/ 0.5 млрд сущностей;
      • Data . gov . uk 3 тыс. наборов данных;
      • Data Publica 2 тыс. наборов данных;
      • Eurostat 4 тыс. наборов данных;
      • OpenGovData.ru ( http :// opengovdata . ru /) – это российский некоммерческий проект, точных статистических данных пока не получено.
  • 51. Friend Of A Friend (FOAF)
  • 52.  
  • 53.
    • An ontology for describing people and the relationships that exist between them:
      • http://foaf-project.org/
      • Identity, personal profiles and social networks
      • Can be integrated with other SW vocabularies
    • FOAF on the Web:
      • LiveJournal, MyOpera, identi.ca, MyBlogLog, hi5, Fotothing, Videntity, FriendFeed, Ecademy, Typepad
    FOAF (Friend-of-a-Friend )
  • 54. FOAF (Friend-of-a-Friend)
  • 55. FOAF (Friend-of-a-Friend)
  • 56. FOAF at a glance
  • 57. FOAF from Flickr
  • 58. FOAF from Twitter
  • 59. Экспорт FOAF данных
    • Facebook:
      • http://www.dcs.shef.ac.uk/~mrowe/foafgenerator.html
    • Twitter:
      • http://semantictweet.com/
    • Flickr:
      • http://apassant.net/blog/2007/12/18/rdf-export-flickr-profiles-foaf-and-sioc/
    • и др. (Drupal 7, WordPress plug-ins, .. .)
  • 60. Определение связей на основе FOAF
  • 61. Кросс-сайтовые социальные рекомендации FOAF
  • 62. Semantically-Interlinked Online Communities (SIOC)
  • 63.
  • 64.  
  • 65. Некоторые онтологические классы и свойства SIOC
  • 66. Объединение SIOC и FOAF
  • 67.  
  • 68. Разъединенные сайты Social Web / Web 2.0 могут быть связаны на основе Semantic Web / Web 3.0 словарей
  • 69.  
  • 70.  
  • 71. Web 1.0
  • 72. Web 2 .0
  • 73. Web 2.0 + 3.0
  • 74.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • Облачные технологии
  • 75. Information Extraction
  • 76.
    • Под извлечением информации традиционно понимается извлечение из текста
    • именованных сущностей (люди, организации, компании, местоположение, книги, альбомы, авторы и пр.; всего более 250 классов),
    • фактов (позиция, образование и пр.),
    • событий (спорт, управление, изменения, IPO – Initial Public Offering – первоначальное публичное предложение акций компании на продажу, трудовые действия и пр.),
    • отношений между сущностями и ряда других.
    Information Extraction
  • 77. IE Systems
  • 78. IE Systems
  • 79.  
  • 80. IE Systems
  • 81.
    • Avatar: Semantic search on personal emails
    • DBLife: Use IE to build a knowledge base about database researchers
    • AliBaba: IE over medical research papers
    IE Systems
  • 82.
    • Enterprise Semantic Search
    • Enterprise Data as a Service
    • Business Intelligence
    • Data-driven Enterprise Mashups
    New IE Systems
  • 83. Enterprise Semantic Search
  • 84. Enterprise Data as a Service
  • 85. Business Intelligence
  • 86. Business Intelligence
  • 87. Data-Driven Mashups
  • 88.  
  • 89.  
  • 90.  
  • 91.  
  • 92.  
  • 93. GATE
  • 94.
    • IBM project (2005) for information extraction (named entities) in textual data
    • IBM UIMA (v1.4)
    • OmniFind (semantic search engine) et DB2 Data Warehouse
    UIMA
  • 95. UIMA
  • 96. UIMA
  • 97.
    • 2006 - Incubation at the ASF (Apache Software Foundation) (v2.2)
    • 2009 - OASIS Members Approve Open Standard for Accessing Unstructured Information (data model, component interface, ...)
      • IBM, EMC, Carnegie Mellon University, University of Manchester, University of Tokyo, U.S. National Center for Supercomputing Applications, ... and Others Collaborate on Platform for Semantic Analysis and Search
      • http://docs.oasis-open.org/uima/v1.0/os/uima-spec-os.html
    UIMA
  • 98.
    • XML Metadata Interchange (XMI)
      • XML language to represent MOF (Meta-Object Facility)
    • OMG (Object Management Group) standards to exchange UML metadata
      • Импорт / Экспорт ииз любой DB
      • Пример : JDBC for Apache Derby DataBase
    UIMA
  • 99. OASIS Specification
  • 100.
    • Development API : Java, C++ but Perl, Python,TCL...
    • Bean Scripting Framework (BSF) Annotators , (http ://jakarta.apache.org/bsf) : Beanshell, Rhino Javascript, Jython, Jruby
    • Deployment in REST service (Representational StateTransfer) HTTP + URL + XML/HTML/GIF/JPEG/etc (Resource Representations) + mime type
    UIMA
  • 101.
    • wrappers for GATE (IBM UIMA) (Hamish Cunningham – University of Sheeld)
    • wrappers for OpenNLP Tools
    • wrapper for LingPipe
    • JULIE Lab NLP Toolsuite
    • IBM LanguageWare on Alphaworks
    NLP UIMA
  • 102.
    • Apache UIMA Sandbox - Regular Expression Annotator
    • WEKA for IBM UIMA - Machine Learning
    • TextMarker Rule-based information extraction
    • Apache UIMA Sandbox
      • Tika Annotator
      • Cas Editor
      • Dictionary Annotator, Concept Mapper
    UIMA
  • 103.
    • IBM Semantic Search , a Free Apache version is developed by IBM
    • IBM OmniFind Enterprise Search ,
    • Yahoo ! Edition index documents based on Lucene
    • u-compare.org a web-based integrated platform for the purpose of sharing and comparing UIMA components and tools, including visualizers and utilities
    • bio-nlp number of popular bio-informatic annotators as UIMA components wrapped by the center of Computational Pharmacology at the University of Colorodo
    • Semantic Web ?
    Приложения для UIMA
  • 104. UIMA
  • 105.
    • OASIS Specification http://docs.oasis-open.org/uima/v1.0/cd01/uima-spec-cd-01.html
    • Apache UIMA http://incubator.apache.org/uima/
    • Getting started http://incubator.apache.org/
  • 106.
    • Social Web (Web 2.0)
    • Semantic Web (Web 3.0)
    • Semantic Social Web (Web 2.0+3.0)
    • IE + c лабоструктурированные веб-документы
    • IE + Облачные технологии
  • 107. Эволюция ИТ “ Clouds will transform the information technology (IT) industry… profoundly change the way people work and companies operate.”
  • 108. Gartner Hypercycle
  • 109.
    • Облачные сервисы (Cloud Services ) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет.
    • Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов.
    Облачные вычисления
  • 110.
    • К настоящему времени можно выделить три основных вида о блачных вычислений :
      • инфраструктура как сервис ( Infrastructure as a Service, IaaS );
      • платформа как сервис ( Platform as a Service, PaaS );
      • программное обеспечение как сервис ( Software as a Service, SaaS ).
    Виды “ облаков ”
  • 111. Облачная экосистема
  • 112. Облачная экосистема Cloud Applications (Apps-as-a-Service) Cloud (Application) Platforms (Platform-as-a-Service) Cloud Infrastructure (Infrastructure-as-a-Service) App Deploy App Dev/Test
  • 113. Облачные сервисы
  • 114.
    • Облачная платформа превращает ресурс в услугу : IaaS, PaaS, SaaS
    • Облачная платформа автоматизирована
    • Облачная платформа автономна
    • Ресурсы в облаке измеряемы
    • Облако управляемо из приложений ( PaaS )
    Облако, как корпоративная платформа
  • 115. Web 2 .0
  • 116. Web 2.0 + 3.0
  • 117.
    • www.opencalais.com/
      • 50.000 API calls, content - 100K
    • Zemanta
      • 1.000 API calls, content - 8K
    Services
  • 118. http://aws.amazon.com/
  • 119.  
  • 120. Cloud IE
  • 121.  
  • 122.  
  • 123. Благодарю за внимание. Вопросы ?