Career Days 2012 @ Sofia University

  • 1,289 views
Uploaded on

Семантични технологии за интелигентно интегриране, управление и търсене на информация

Семантични технологии за интелигентно интегриране, управление и търсене на информация

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,289
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
9
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Семантични технологии заинтелигентно интегриране, управление и търсене на информация Марин Димитров (Ontotext) Career Days 2012 @ Sofia University
  • 2. За Онтотекст• Основана през 2000г. като част от Сирма Груп – Независима компания от 2009 – Офиси в София и Варна, USA и UK• Решения за интелигентно управление на данни• Основни клиенти – Медии (BBC, Press Association) – Фармацевтични компании (AstraZeneca) – Музеи и правителствени организации (The British Museum, The National Archives, Polish Digital National Museum) Career Days 2012 @ Sofia University Юни 2012 #2
  • 3. Съдържание• Въведение в Семантичните Технологии и Свързани Данни (Linked Data)• Приложение на Семантичните Технологии за интелигентно управление на информация• Продукти и проекти на Онтотекст• Работа в Онтотекст Career Days 2012 @ Sofia University Юни 2012 #3
  • 4. ВЪВЕДЕНИЕ В СЕМАНТИЧНИТЕТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #4
  • 5. Основни понятия• Семантичен Уеб (Semantic Web)• Онтологии• Resource Description Framework (RDF)• Свързани данни (Linked Data) Career Days 2012 @ Sofia University Юни 2012 #5
  • 6. Принципи на Семантичния Уеб (Semantic Web)• Разширение на сегашния WWW – От уеб от страници до уеб от данни (data web)• Данните са достъпни посредством съществуващите уеб архитектури и протоколи• Данните са свързани помежду си – така както сегашните уеб документи са свързани• Целта е създаване на платформа за – Лесно споделяне на данни между интелигентни приложения – Данните да могат да бъдат обработвани автоматично – Нови данни и релации да могат да бъдат извеждани автоматично Career Days 2012 @ Sofia University Юни 2012 #6
  • 7. Онтологии• Модели за данни в Семантичния Уеб• Онтологията е формална спецификация на някакъв домейн – Концепции (класове) и техните атрибути – Релациите между концепциите – Конкретни обекти (индивиди)• Прилики и разлики с други подходи за моделиране на данни – Таксономии, речници, схеми, UML модели, ... Career Days 2012 @ Sofia University Юни 2012 #7
  • 8. Resource Description Framework (RDF)• Модел за данни с формална семантика• Entity-Attribute-Value базиран модел • Subject (E), Predicate (A), Object (V) • Обектите се наричат ресурси, а релациите между тях са предикати • всеки ресурс или релация има уникален идентификатор (URI) predicate subject object • Формални правила за логически извод (RDFS) Career Days 2012 @ Sofia University Юни 2012 #8
  • 9. RDFS правила за логически извод Career Days 2012 @ Sofia University Юни 2012 #9
  • 10. Resource Description Framework (RDF) пример USA partOf locatedIn LA presidentOf locatedInHawaii Barack attended Occidental Obama College hasChild hasChild Sasha hasChildMichelle Malia hasChildObama hasParent Career Days 2012 @ Sofia University Юни 2012 #10
  • 11. Свързани Данни (Linked Data)• Подход за публикуване, търсене и интегриране на разпределени RDF* данни• Принципи на Свързаните Данни – Всички ресурси имат уникални идентификатори (URI) – Използва се структурата на WWW (HTTP URIs) – Лесно намиране и достъпване на на информация за даден ресурс – Ресурсите са свързани пожеду си Career Days 2012 @ Sofia University Юни 2012 #11
  • 12. Свързани Отворени Данни (Linked Open Data) (c) Cyganiak & Jentzsch Career Days 2012 @ Sofia University Юни 2012 #12
  • 13. Еволюцията на Семантичния Уеб RDF RDF 2 DAML+OIL OWL OWL 2 SPARQL SPARQL 1.1 RIF RDFa SAWSDL LOD SKOS HCLS RDB2RDF GLD PIL1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Career Days 2012 @ Sofia University Юни 2012 #13
  • 14. ПРИЛОЖЕНИЕ НАСЕМАНТИЧНИТЕ ТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #14
  • 15. Проблеми с управлението на информацията (EIM)• Много и различни източници на информация в отделите на една организация• Твърде много точки на интеграция между различните бази данни и приложения• Сложни и бавни процеси на интеграция на информация Career Days 2012 @ Sofia University Юни 2012 #15
  • 16. Проблеми с управлението на информацията (2)• Непълна, дублирана и/или неконсистентна информация• Имплицитна информация в неструктурирани (текстови) източници на информация• Трудности с интегрирането на структурирани, неструктурирани и полу-структурирани източници на информация Career Days 2012 @ Sofia University Юни 2012 #16
  • 17. Ползи от прилагане на Семантичните Технологии за управление на информация• Опростяване на процесите на интегриране на информация – Лесен и гъвкав подход за моделиране на данни – Инкрементална интеграция на информация “отдолу- нагоре” – “Свързване“ на дублираната информация• Унифициран слой с мета-данни (enterprise metadata layer) – Подобряване на споделянето и използване на информация в организацията – Интегриране на различни източници на информация (data silos) Career Days 2012 @ Sofia University Юни 2012 #17
  • 18. Ползи от прилагане на Семантичните Технологии за управление на информация (2)• Обогатяване на информация – Обогатяване на неструктурираната информация с анотации – Откриване на имплицитни факти и релации• Унифициран достъп до информацията – Ефикасно интегриране на структурирана и неструктурирана информация – Опростена инфраструктура базирана на отворени стандарти Career Days 2012 @ Sofia University Юни 2012 #18
  • 19. Ползи от прилагане на Семантичните Технологии за управление на информация (3)• Улеснен обмен на информация между организациите – Лесно публикуване и използване на Свързани Данни (Linked Data)• Допълнение към сегашните ИТ – Не е необходимо замяна на вече използваните технологии и приложения, а само надграждане Career Days 2012 @ Sofia University Юни 2012 #19
  • 20. Интегриране на информация посредством Семантични Технологии (c) W3C Career Days 2012 @ Sofia University Юни 2012 #20
  • 21. Типични видове приложения на Семантични Технологии и Свързани Данни• Публикуване и използване на Свързани Данни (Linked Data) – Улеснява обмена на информация в различните вериги на добавена стойност (value chain)• Интегриране на информация в организацията – Интегриране и свързване на различните източници на информация / Enterprise metadata layer• Управление на знания и семантично търсене – Интегриране на структурирана и неструктурирана информация – Откриване на имплицитни факти и релации Career Days 2012 @ Sofia University Юни 2012 #21
  • 22. ПРОДУКТИ И ПРОЕКТИ НАОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #22
  • 23. OWLIM• http://www.ontotext.com/owlim• Семантична СУБД (RDF)• Съвместима с W3C стандартите за RDF, OWL и SPARQL• Разширена функционалност за пространствено (geo-spatial) и пълно-текстово (full-text) търсене• Работа в клъстер• Основни предимства – Производителност при добавяне/премахване на факти – Мащабируемост (scalability) Career Days 2012 @ Sofia University Юни 2012 #23
  • 24. KIM и Semantic Biomedical Tagger• http://www.ontotext.com/kim• Платформи за обработка на текст (text mining) и семантично анотиране (semantic annotation) – Автоматично генериране на метаданни и свързани данни (Linked Data)• Базирани на GATE• Извличането на информация и обработката на текст е базирана на онтологии и бази знания• Адаптирана за различни домейни – HCLS, Publishing & Media, Cultural Heritage Career Days 2012 @ Sofia University Юни 2012 #24
  • 25. KIM и Semantic Biomedical Tagger (2) Career Days 2012 @ Sofia University Юни 2012 #25
  • 26. Web Mining Framework• http://www.ontotext.com/wmf• Платформа за извличане на информация от уеб страници (web mining)• Базирана на GATE• Адаптирана за различни домейни – Jobs intelligence, vehicle trading, hotel bookings, recipe collection Career Days 2012 @ Sofia University Юни 2012 #26
  • 27. Web Mining Framework (2) Career Days 2012 @ Sofia University Юни 2012 #27
  • 28. Семантично интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #28
  • 29. Динамично публикуване на новини за BBC• BBC World Cup 2010 и BBC London Olympics 2012• Приложени технологии от Онтотекст: OWLIM и CES/KIM (c) BBC Career Days 2012 @ Sofia University Юни 2012 #29 (c) BBC
  • 30. Динамично публикуване на новини за BBC (2) (c) BBC Career Days 2012 @ Sofia University Юни 2012 #30
  • 31. The UK National Archive• Изграждане на семантична база от знания от дигитален архив, семантично търсене на информация, интегриране и публикуване на Свързани Данни• Извличане на информация (text mining) от 700 млн. документа (40ТБ текст)• Изграждане на база знания от 5 милиарда факта (RDF triples) Career Days 2012 @ Sofia University Юни 2012 #31
  • 32. Linked Life Data• Семантична база от знания (semantic warehouse), интегрираща 25+ източници на медицински данни• Описани са повече от 1 милиард обекта• Семантично търсене и открване на данни Career Days 2012 @ Sofia University Юни 2012 #32
  • 33. EDAMAM• Изграждане на семантична база от знания за рецепти и храни• WMF се използва за фокусирано извличане на информация от WWW; онтология за храни; обработка на текст; интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #33
  • 34. Европейски изследователски проекти (FP7)• AnnoMarket – SaaS/PaaS за ресурси за анализ на текст (text mining)• Trend Miner – автоматично резюмиране на текст (text summarization) и анализ на мнения (sentiment mining)• CUBIST – интегриране на структурирани и неструктурирани данни за бизнес анализи (Business Intelligence) Career Days 2012 @ Sofia University Юни 2012 #34
  • 35. Европейски изследователски проекти (FP7)• MOLTO – машинен превод в реално време между официалните езици в ЕС• Khreshmoi – интегриране на структурирани и неструктурирани източници на медицинска информация и публикуване на свързани данни (Linked Data)• RENDER – нови подходи за търсене на информация Career Days 2012 @ Sofia University Юни 2012 #35
  • 36. РАБОТА В ОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #36
  • 37. Работа в Онтотекст• http://www.ontotext.com/jobs• Възможности за – Работа в иновативна компания – Опит с нови технологии – Участие в международни изследователски или индустриални проекти• Също и опции за стажанти Career Days 2012 @ Sofia University Юни 2012 #37
  • 38. THANK YOU! Career Days 2012 @ Sofia University Юни 2012 #38
  • 39. Ontology specification exampleclass Person property hasParentclass Woman domain #Person subClassOf #Person range #Person maxCardinality 2class Man subClassOf #Person property hasChild complementOf #Woman inverseOf #hasParent individual John property hasSpouce instanceOf #Man domain #Person range #Person individual Mary maxCardinality 1 instanceOf #Woman symmetric hasSpouce #John individual Jane instance Of #Woman hasParent #John hasParent #Mary Career Days 2012 @ Sofia University Юни 2012 #39