Career Days 2012 @ Sofia University

1,621 views

Published on

Семантични технологии за интелигентно интегриране, управление и търсене на информация

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
 • Be the first to comment

 • Be the first to like this

No Downloads
Views
Total views
1,621
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
11
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Career Days 2012 @ Sofia University

 1. 1. Семантични технологии заинтелигентно интегриране, управление и търсене на информация Марин Димитров (Ontotext) Career Days 2012 @ Sofia University
 2. 2. За Онтотекст• Основана през 2000г. като част от Сирма Груп – Независима компания от 2009 – Офиси в София и Варна, USA и UK• Решения за интелигентно управление на данни• Основни клиенти – Медии (BBC, Press Association) – Фармацевтични компании (AstraZeneca) – Музеи и правителствени организации (The British Museum, The National Archives, Polish Digital National Museum) Career Days 2012 @ Sofia University Юни 2012 #2
 3. 3. Съдържание• Въведение в Семантичните Технологии и Свързани Данни (Linked Data)• Приложение на Семантичните Технологии за интелигентно управление на информация• Продукти и проекти на Онтотекст• Работа в Онтотекст Career Days 2012 @ Sofia University Юни 2012 #3
 4. 4. ВЪВЕДЕНИЕ В СЕМАНТИЧНИТЕТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #4
 5. 5. Основни понятия• Семантичен Уеб (Semantic Web)• Онтологии• Resource Description Framework (RDF)• Свързани данни (Linked Data) Career Days 2012 @ Sofia University Юни 2012 #5
 6. 6. Принципи на Семантичния Уеб (Semantic Web)• Разширение на сегашния WWW – От уеб от страници до уеб от данни (data web)• Данните са достъпни посредством съществуващите уеб архитектури и протоколи• Данните са свързани помежду си – така както сегашните уеб документи са свързани• Целта е създаване на платформа за – Лесно споделяне на данни между интелигентни приложения – Данните да могат да бъдат обработвани автоматично – Нови данни и релации да могат да бъдат извеждани автоматично Career Days 2012 @ Sofia University Юни 2012 #6
 7. 7. Онтологии• Модели за данни в Семантичния Уеб• Онтологията е формална спецификация на някакъв домейн – Концепции (класове) и техните атрибути – Релациите между концепциите – Конкретни обекти (индивиди)• Прилики и разлики с други подходи за моделиране на данни – Таксономии, речници, схеми, UML модели, ... Career Days 2012 @ Sofia University Юни 2012 #7
 8. 8. Resource Description Framework (RDF)• Модел за данни с формална семантика• Entity-Attribute-Value базиран модел • Subject (E), Predicate (A), Object (V) • Обектите се наричат ресурси, а релациите между тях са предикати • всеки ресурс или релация има уникален идентификатор (URI) predicate subject object • Формални правила за логически извод (RDFS) Career Days 2012 @ Sofia University Юни 2012 #8
 9. 9. RDFS правила за логически извод Career Days 2012 @ Sofia University Юни 2012 #9
 10. 10. Resource Description Framework (RDF) пример USA partOf locatedIn LA presidentOf locatedInHawaii Barack attended Occidental Obama College hasChild hasChild Sasha hasChildMichelle Malia hasChildObama hasParent Career Days 2012 @ Sofia University Юни 2012 #10
 11. 11. Свързани Данни (Linked Data)• Подход за публикуване, търсене и интегриране на разпределени RDF* данни• Принципи на Свързаните Данни – Всички ресурси имат уникални идентификатори (URI) – Използва се структурата на WWW (HTTP URIs) – Лесно намиране и достъпване на на информация за даден ресурс – Ресурсите са свързани пожеду си Career Days 2012 @ Sofia University Юни 2012 #11
 12. 12. Свързани Отворени Данни (Linked Open Data) (c) Cyganiak & Jentzsch Career Days 2012 @ Sofia University Юни 2012 #12
 13. 13. Еволюцията на Семантичния Уеб RDF RDF 2 DAML+OIL OWL OWL 2 SPARQL SPARQL 1.1 RIF RDFa SAWSDL LOD SKOS HCLS RDB2RDF GLD PIL1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Career Days 2012 @ Sofia University Юни 2012 #13
 14. 14. ПРИЛОЖЕНИЕ НАСЕМАНТИЧНИТЕ ТЕХНОЛОГИИ Career Days 2012 @ Sofia University Юни 2012 #14
 15. 15. Проблеми с управлението на информацията (EIM)• Много и различни източници на информация в отделите на една организация• Твърде много точки на интеграция между различните бази данни и приложения• Сложни и бавни процеси на интеграция на информация Career Days 2012 @ Sofia University Юни 2012 #15
 16. 16. Проблеми с управлението на информацията (2)• Непълна, дублирана и/или неконсистентна информация• Имплицитна информация в неструктурирани (текстови) източници на информация• Трудности с интегрирането на структурирани, неструктурирани и полу-структурирани източници на информация Career Days 2012 @ Sofia University Юни 2012 #16
 17. 17. Ползи от прилагане на Семантичните Технологии за управление на информация• Опростяване на процесите на интегриране на информация – Лесен и гъвкав подход за моделиране на данни – Инкрементална интеграция на информация “отдолу- нагоре” – “Свързване“ на дублираната информация• Унифициран слой с мета-данни (enterprise metadata layer) – Подобряване на споделянето и използване на информация в организацията – Интегриране на различни източници на информация (data silos) Career Days 2012 @ Sofia University Юни 2012 #17
 18. 18. Ползи от прилагане на Семантичните Технологии за управление на информация (2)• Обогатяване на информация – Обогатяване на неструктурираната информация с анотации – Откриване на имплицитни факти и релации• Унифициран достъп до информацията – Ефикасно интегриране на структурирана и неструктурирана информация – Опростена инфраструктура базирана на отворени стандарти Career Days 2012 @ Sofia University Юни 2012 #18
 19. 19. Ползи от прилагане на Семантичните Технологии за управление на информация (3)• Улеснен обмен на информация между организациите – Лесно публикуване и използване на Свързани Данни (Linked Data)• Допълнение към сегашните ИТ – Не е необходимо замяна на вече използваните технологии и приложения, а само надграждане Career Days 2012 @ Sofia University Юни 2012 #19
 20. 20. Интегриране на информация посредством Семантични Технологии (c) W3C Career Days 2012 @ Sofia University Юни 2012 #20
 21. 21. Типични видове приложения на Семантични Технологии и Свързани Данни• Публикуване и използване на Свързани Данни (Linked Data) – Улеснява обмена на информация в различните вериги на добавена стойност (value chain)• Интегриране на информация в организацията – Интегриране и свързване на различните източници на информация / Enterprise metadata layer• Управление на знания и семантично търсене – Интегриране на структурирана и неструктурирана информация – Откриване на имплицитни факти и релации Career Days 2012 @ Sofia University Юни 2012 #21
 22. 22. ПРОДУКТИ И ПРОЕКТИ НАОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #22
 23. 23. OWLIM• http://www.ontotext.com/owlim• Семантична СУБД (RDF)• Съвместима с W3C стандартите за RDF, OWL и SPARQL• Разширена функционалност за пространствено (geo-spatial) и пълно-текстово (full-text) търсене• Работа в клъстер• Основни предимства – Производителност при добавяне/премахване на факти – Мащабируемост (scalability) Career Days 2012 @ Sofia University Юни 2012 #23
 24. 24. KIM и Semantic Biomedical Tagger• http://www.ontotext.com/kim• Платформи за обработка на текст (text mining) и семантично анотиране (semantic annotation) – Автоматично генериране на метаданни и свързани данни (Linked Data)• Базирани на GATE• Извличането на информация и обработката на текст е базирана на онтологии и бази знания• Адаптирана за различни домейни – HCLS, Publishing & Media, Cultural Heritage Career Days 2012 @ Sofia University Юни 2012 #24
 25. 25. KIM и Semantic Biomedical Tagger (2) Career Days 2012 @ Sofia University Юни 2012 #25
 26. 26. Web Mining Framework• http://www.ontotext.com/wmf• Платформа за извличане на информация от уеб страници (web mining)• Базирана на GATE• Адаптирана за различни домейни – Jobs intelligence, vehicle trading, hotel bookings, recipe collection Career Days 2012 @ Sofia University Юни 2012 #26
 27. 27. Web Mining Framework (2) Career Days 2012 @ Sofia University Юни 2012 #27
 28. 28. Семантично интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #28
 29. 29. Динамично публикуване на новини за BBC• BBC World Cup 2010 и BBC London Olympics 2012• Приложени технологии от Онтотекст: OWLIM и CES/KIM (c) BBC Career Days 2012 @ Sofia University Юни 2012 #29 (c) BBC
 30. 30. Динамично публикуване на новини за BBC (2) (c) BBC Career Days 2012 @ Sofia University Юни 2012 #30
 31. 31. The UK National Archive• Изграждане на семантична база от знания от дигитален архив, семантично търсене на информация, интегриране и публикуване на Свързани Данни• Извличане на информация (text mining) от 700 млн. документа (40ТБ текст)• Изграждане на база знания от 5 милиарда факта (RDF triples) Career Days 2012 @ Sofia University Юни 2012 #31
 32. 32. Linked Life Data• Семантична база от знания (semantic warehouse), интегрираща 25+ източници на медицински данни• Описани са повече от 1 милиард обекта• Семантично търсене и открване на данни Career Days 2012 @ Sofia University Юни 2012 #32
 33. 33. EDAMAM• Изграждане на семантична база от знания за рецепти и храни• WMF се използва за фокусирано извличане на информация от WWW; онтология за храни; обработка на текст; интегриране на информация Career Days 2012 @ Sofia University Юни 2012 #33
 34. 34. Европейски изследователски проекти (FP7)• AnnoMarket – SaaS/PaaS за ресурси за анализ на текст (text mining)• Trend Miner – автоматично резюмиране на текст (text summarization) и анализ на мнения (sentiment mining)• CUBIST – интегриране на структурирани и неструктурирани данни за бизнес анализи (Business Intelligence) Career Days 2012 @ Sofia University Юни 2012 #34
 35. 35. Европейски изследователски проекти (FP7)• MOLTO – машинен превод в реално време между официалните езици в ЕС• Khreshmoi – интегриране на структурирани и неструктурирани източници на медицинска информация и публикуване на свързани данни (Linked Data)• RENDER – нови подходи за търсене на информация Career Days 2012 @ Sofia University Юни 2012 #35
 36. 36. РАБОТА В ОНТОТЕКСТ Career Days 2012 @ Sofia University Юни 2012 #36
 37. 37. Работа в Онтотекст• http://www.ontotext.com/jobs• Възможности за – Работа в иновативна компания – Опит с нови технологии – Участие в международни изследователски или индустриални проекти• Също и опции за стажанти Career Days 2012 @ Sofia University Юни 2012 #37
 38. 38. THANK YOU! Career Days 2012 @ Sofia University Юни 2012 #38
 39. 39. Ontology specification exampleclass Person property hasParentclass Woman domain #Person subClassOf #Person range #Person maxCardinality 2class Man subClassOf #Person property hasChild complementOf #Woman inverseOf #hasParent individual John property hasSpouce instanceOf #Man domain #Person range #Person individual Mary maxCardinality 1 instanceOf #Woman symmetric hasSpouce #John individual Jane instance Of #Woman hasParent #John hasParent #Mary Career Days 2012 @ Sofia University Юни 2012 #39

×