SlideShare a Scribd company logo
1 of 17
IBM Watson: 
выявление скрытых 
взаимосвязей 
Артем Семенихин (artyom@ru.ibm.com) 
Научно-технический Центр IBM 
Для AINL 2014, Москва, Сколково
Архитектура IBM Watson: DeepQA 
Генерация 
ответов- 
кандидатов 
Декомпозиция 
вопроса 
Оценка 
ответов 
Models 
Ответ со 
степенью 
уверенности 
Вопрос 
Источники доказательств 
Models 
Models 
Models 
Models 
Поиск Models 
Генерация 
гипотезы 
Доказательство и оценка 
Окончательная 
оценка и 
ранжирование 
Синтез 
Источники 
ответов 
Анализ 
вопроса и 
темы 
Получение 
доказательств 
Оценка 
доказательств 
Machine learning: 
изученные модели 
для взвешенной 
оценки 
доказательств 
Генерация 
гипотезы Доказательство и оценка
Что такое «скрытые взаимосвязи»? 
• Ассоциации и сущности явно не присутствующие в вопросе 
• Типы рассматриваемых связей: 
– COMMON BONDS 
– Пример: Feet, eyebrows and McDonald’s have arches in 
common 
– Missing Link questions 
– “The 1648 Peace of Westphalia ended a war that began on 
May 23 of this year.”
Идентификация Missed Links 
• Вопрос явно на них ссылается 
“The 1648 Peace of Westphalia ended a war that began on May 23 of this year.” 
Peace of Westphalia 
Ended the Thirty Years’ War 
1618 
• Неявные 
Mt 
Everest 
He was first 
Edmund 
Hillary 
On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.
Spread-activation алгоритм 
• Используется для оценки связанности сущностей на основе 
частоты их совместной встречаемости (со-occurrence) 
• Активация на базе естественных источников текста: 
– Корпус n-грамм 
– База знаний PRISMATIC 
– Ссылки Wikipedia 
• Параметры: fan size f, глубина d 
– f – число наиболее тесно связанных сущностей для 
рассматриваемой в данный момент 
– d – глубина рекурсии активации
Корпус n-грамм 
• Последовательность из n слов/букв в порядке их появления в 
тексте 
• Построен свой корпус 5-грамм на базе Wikipedia и Gigaword: 
– Стэмминг, stop-words 
– Удалены редкие вхождения 
• Корпус n-грамм обеспечивает оценку лексической коллокации 
– Получение информации о часто соседствующих терминах 
– Пример: высокая частота коллокации между терминами “JFK” 
и “airport”, “JFK” и “assassination”
База знаний PRISMATIC 
• Обеспечивает оценку синтаксической коллокации 
• Выделяет синтаксические пассажи из текста 
• Используемые фреймы: 
– SVO (subject-verb-object) 
– SVPO (SVO+preposition), NPO (noun-preposition-object) 
• Запросы в базу дают число вхождений (пассажей) одного или 
несколько терминов в конкретный тип фрейма 
– Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford 
является подлежащим 
• Метрики по трем фреймам агрегируются в оценку связанности 
терминов
Ссылки Wikipedia 
• Обеспечивает оценку семантической коллокации 
• Наблюдение: кросс-ссылки Wikipedia часто указывают на 
сильно связанные концепции 
• Общая идея: по входному термину t мы идентифицируем 
документ Wikipedia w0, чей заголовок наиболее соответствует t, 
затем возвращаем названия документов Wikipedia w1-wN, на 
которые есть кросс-ссылки в w0
Применение к COMMON BONDS 
• Типичные примеры вопросов 
• Ответы на вопросы семантически связаны с перечисленными 
сущностями 
• Spreading-activation используется для: 
– Идентификация сущностей, связанных с каждой из списка 
– Оценка каждой сущности на степень ее схожести с другими
COMMON BONDS: генерация гипотез 
• Запускаем spreading activation для каждой сущности вопроса 
• Пример: Bobby, bowling, rolling (pins) 
– bobby: Robert, British police officer, pin 
– bowling: lane, strike, 300, pin 
– rolling: Rolling Stone, ramp, pin 
• Обозначаем найденные сущности как ответы-кандидаты 
– strike, British police officer, Rolling Stone, pin, ramp 
• Поиск по корпусу n-грамм (Lucene) наиболее часто 
соседствующих сущностей
COMMON BONDS: оценка гипотез 
• Оцениваем семантическую схожесть с помощью NGD 
(Normalized Google Distance) для следующих пар: 
– (сущность из вопроса, найденная сущность) 
• Перемножаем 3 значения NGD, выбираем с наибольшим 
рейтингом: 
– f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score 
– f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s 
score 
• Ответ: ‘pin’
Применение к Missed Links 
• Вопросы, в которых на отсутствующую сущность ссылаются явно 
или неявно 
– “On hearing of the discovery of George Mallory’s body, this 
explorer still thinks he was first.” (Ответ: “Edmund Hillary”) 
George Mallory 
Mount Everest 
Edmund Hillary 
• Трехшаговое решение: 
– Идентификация missed links 
– Генерация кандидатов-ответов 
– Оценка
Идентификация missed links 
• Два необходимых условия для missed link: 
– Должна быть сильно связана с сущностями в вопросе 
– Должна быть исключена из ответов-кандидатов 
• Другие компоненты Watson дают некоторый набор кандидатов и 
сопровождающих их features 
• Используется машинное обучение для предварительной 
выборки сущностей сильно ассоциированных с вопросом 
• Часто сущности сильно ассоциированные с вопросом являются 
правильным ответом на вопрос 
• Те что не являются правильным ответом – missed link! 
• Определение missed links по несоответствию с типом 
ожидаемого ответа
Генерация ответов-кандидатов с missed links 
• Перезапускаем весь процесс генерации с включенными missed 
links в качестве ключевых слов поиска 
– Основная идея: возможно получить новые ответы- 
кандидаты, ранее не обнаруженные 
• Пример модификации запроса: 
– “The 1648 Peace of Westphalia ended a war that began on May 
23 of this year.” 
– Peace of Westphalia, Thirty Years’ War, began, May 23
Оценка кандидатов на основе missed links 
• После предыдущего этапа мы сгенерировали новый набор 
кандидатов-ответов 
• Идея: ранжировать кандидаты-ответы по семантической 
схожести с сущностями вопроса на основе missed links 
• Для каждой пары (кандидат, missed-link) схожесть оценивается с 
помощью spreading-activation 
• Пример: George Mallory сильно ассоциируется с “Mount Everest”, 
но они разного типа, поэтому скорее всего “Mount Everest” 
является missed link: 
– Вычисляем схожесть между кандидатами и missing link; (Mt. 
Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt. 
Everest, Jordan Romero) 
– Ответ: Edmund Hillary
Результаты экспериментов 
• Улучшения по COMMON BOND вопросам 
• Улучшения по missed links вопросам и системы в целом
СПАСИБО! Дополнительные материалы 
• Доклад на YaC’2013: 
• https://tech.yandex.ru/events/yac/2013/talks/1137/ 
• IBM Research Journal “This is Watson”: 
• http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717 
• Watson web-site 
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ 
• Watson Ecosystem 
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html

More Related Content

What's hot

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​IT-Доминанта
 
Sem yadro demo
Sem yadro demoSem yadro demo
Sem yadro demoPayLib
 
Браславский: вопросно-ответный поиск
Браславский: вопросно-ответный поискБраславский: вопросно-ответный поиск
Браславский: вопросно-ответный поискLidia Pivovarova
 
презентация форма
презентация формапрезентация форма
презентация формаDimaTopExpert
 

What's hot (8)

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​
Do-it-yourself: собираем поисковый движок для рекрутера за 30 минут​
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Sem yadro demo
Sem yadro demoSem yadro demo
Sem yadro demo
 
Браславский: вопросно-ответный поиск
Браславский: вопросно-ответный поискБраславский: вопросно-ответный поиск
Браславский: вопросно-ответный поиск
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
презентация форма
презентация формапрезентация форма
презентация форма
 

Viewers also liked

IBM Watson и его практическое применение
IBM Watson и его практическое применениеIBM Watson и его практическое применение
IBM Watson и его практическое применениеJanosz Neumann
 
Когнитивные технологии
Когнитивные технологииКогнитивные технологии
Когнитивные технологииSkolkovo Robotics Center
 
Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине mir4sveta
 
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"Владислав Шерстобоев
 
"10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать""10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать"Владислав Шерстобоев
 
"Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности""Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности"Владислав Шерстобоев
 
Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Владислав Шерстобоев
 
Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...mir4sveta
 
Storytelling, pressfeed и другие
Storytelling, pressfeed и другиеStorytelling, pressfeed и другие
Storytelling, pressfeed и другиеRozaliya Kanevskaya
 

Viewers also liked (11)

IBM Watson и его практическое применение
IBM Watson и его практическое применениеIBM Watson и его практическое применение
IBM Watson и его практическое применение
 
Когнитивные технологии
Когнитивные технологииКогнитивные технологии
Когнитивные технологии
 
Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине Суперкомпьютер Watson - новая система координат в медицине
Суперкомпьютер Watson - новая система координат в медицине
 
Пациент - эксперт
Пациент - экспертПациент - эксперт
Пациент - эксперт
 
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
План мероприятий ("дорожная карта") "Развитие конкуренции в здравоохранении"
 
"10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать""10 "почему?" в системе ОМС и что с этим делать"
"10 "почему?" в системе ОМС и что с этим делать"
 
"Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности""Здоровье и активное долголетие: тренды и бизнес-возможности"
"Здоровье и активное долголетие: тренды и бизнес-возможности"
 
Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"Партнерство в триаде "Врач - Пациент - Законный представитель"
Партнерство в триаде "Врач - Пациент - Законный представитель"
 
Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...Методика оценки рисков безопасности аутентификации пользователя при применени...
Методика оценки рисков безопасности аутентификации пользователя при применени...
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Storytelling, pressfeed и другие
Storytelling, pressfeed и другиеStorytelling, pressfeed и другие
Storytelling, pressfeed и другие
 

More from AINL Conferences

Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...AINL Conferences
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...AINL Conferences
 
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...AINL Conferences
 
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"AINL Conferences
 
Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"AINL Conferences
 
Николай Бузурнюк "Автономная система распознавания русской речи"
 Николай Бузурнюк "Автономная система распознавания русской речи" Николай Бузурнюк "Автономная система распознавания русской речи"
Николай Бузурнюк "Автономная система распознавания русской речи"AINL Conferences
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"AINL Conferences
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"AINL Conferences
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...AINL Conferences
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"AINL Conferences
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"AINL Conferences
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...AINL Conferences
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...AINL Conferences
 
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех... Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...AINL Conferences
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...AINL Conferences
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...AINL Conferences
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"AINL Conferences
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL Conferences
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL Conferences
 
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...AINL Conferences
 

More from AINL Conferences (20)

Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сло...
 
Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...Альберт Ефимов "Перспективные направления исследований в области робототехник...
Альберт Ефимов "Перспективные направления исследований в области робототехник...
 
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
Сергей Уласень (Eugene Goostman) "Организация диалога в системе общения на ес...
 
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"
 
Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"Дмитрий Суворов "Интеллектуальный помощник Лекси"
Дмитрий Суворов "Интеллектуальный помощник Лекси"
 
Николай Бузурнюк "Автономная система распознавания русской речи"
 Николай Бузурнюк "Автономная система распознавания русской речи" Николай Бузурнюк "Автономная система распознавания русской речи"
Николай Бузурнюк "Автономная система распознавания русской речи"
 
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
Анна Власова, Кирилл Зоркий "Как отличить в диалоге робота от человека"
 
Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"Антон Колонин "О создании программных агентов для "интернета вещей"
Антон Колонин "О создании программных агентов для "интернета вещей"
 
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...Эриберто Кваджавитль  "Адаптивное обучение с подкреплением для интерактивных ...
Эриберто Кваджавитль "Адаптивное обучение с подкреплением для интерактивных ...
 
Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"Как получить статус участника проекта "Сколково"
Как получить статус участника проекта "Сколково"
 
Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"Центры коллективного пользования Технопарка "Сколково"
Центры коллективного пользования Технопарка "Сколково"
 
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: ...
 
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл... Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
Ирина Гуревич "Язык программирования – это не остров: выравнивание смысла сл...
 
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех... Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
Игорь Андреев (Mail.ru) "Перевод с русского на русский, или о применении тех...
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
Анатолий Старостин (ABBYY) "ABBYY InfoExtractor: технология разработки предме...
 
Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"Paolo Rosso "On irony detection in social media"
Paolo Rosso "On irony detection in social media"
 
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
AINL 2013: Коммерческое использование мобильных ассистентов (Егор Наумов, i-F...
 
AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)AINL 2013: Commercial use of mobile assistants (i-Free)
AINL 2013: Commercial use of mobile assistants (i-Free)
 
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
Ainl 2013 toschev-talanov_практическое применение модели мышления и машинного...
 

Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

  • 1. IBM Watson: выявление скрытых взаимосвязей Артем Семенихин (artyom@ru.ibm.com) Научно-технический Центр IBM Для AINL 2014, Москва, Сколково
  • 2. Архитектура IBM Watson: DeepQA Генерация ответов- кандидатов Декомпозиция вопроса Оценка ответов Models Ответ со степенью уверенности Вопрос Источники доказательств Models Models Models Models Поиск Models Генерация гипотезы Доказательство и оценка Окончательная оценка и ранжирование Синтез Источники ответов Анализ вопроса и темы Получение доказательств Оценка доказательств Machine learning: изученные модели для взвешенной оценки доказательств Генерация гипотезы Доказательство и оценка
  • 3. Что такое «скрытые взаимосвязи»? • Ассоциации и сущности явно не присутствующие в вопросе • Типы рассматриваемых связей: – COMMON BONDS – Пример: Feet, eyebrows and McDonald’s have arches in common – Missing Link questions – “The 1648 Peace of Westphalia ended a war that began on May 23 of this year.”
  • 4. Идентификация Missed Links • Вопрос явно на них ссылается “The 1648 Peace of Westphalia ended a war that began on May 23 of this year.” Peace of Westphalia Ended the Thirty Years’ War 1618 • Неявные Mt Everest He was first Edmund Hillary On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.
  • 5. Spread-activation алгоритм • Используется для оценки связанности сущностей на основе частоты их совместной встречаемости (со-occurrence) • Активация на базе естественных источников текста: – Корпус n-грамм – База знаний PRISMATIC – Ссылки Wikipedia • Параметры: fan size f, глубина d – f – число наиболее тесно связанных сущностей для рассматриваемой в данный момент – d – глубина рекурсии активации
  • 6. Корпус n-грамм • Последовательность из n слов/букв в порядке их появления в тексте • Построен свой корпус 5-грамм на базе Wikipedia и Gigaword: – Стэмминг, stop-words – Удалены редкие вхождения • Корпус n-грамм обеспечивает оценку лексической коллокации – Получение информации о часто соседствующих терминах – Пример: высокая частота коллокации между терминами “JFK” и “airport”, “JFK” и “assassination”
  • 7. База знаний PRISMATIC • Обеспечивает оценку синтаксической коллокации • Выделяет синтаксические пассажи из текста • Используемые фреймы: – SVO (subject-verb-object) – SVPO (SVO+preposition), NPO (noun-preposition-object) • Запросы в базу дают число вхождений (пассажей) одного или несколько терминов в конкретный тип фрейма – Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford является подлежащим • Метрики по трем фреймам агрегируются в оценку связанности терминов
  • 8. Ссылки Wikipedia • Обеспечивает оценку семантической коллокации • Наблюдение: кросс-ссылки Wikipedia часто указывают на сильно связанные концепции • Общая идея: по входному термину t мы идентифицируем документ Wikipedia w0, чей заголовок наиболее соответствует t, затем возвращаем названия документов Wikipedia w1-wN, на которые есть кросс-ссылки в w0
  • 9. Применение к COMMON BONDS • Типичные примеры вопросов • Ответы на вопросы семантически связаны с перечисленными сущностями • Spreading-activation используется для: – Идентификация сущностей, связанных с каждой из списка – Оценка каждой сущности на степень ее схожести с другими
  • 10. COMMON BONDS: генерация гипотез • Запускаем spreading activation для каждой сущности вопроса • Пример: Bobby, bowling, rolling (pins) – bobby: Robert, British police officer, pin – bowling: lane, strike, 300, pin – rolling: Rolling Stone, ramp, pin • Обозначаем найденные сущности как ответы-кандидаты – strike, British police officer, Rolling Stone, pin, ramp • Поиск по корпусу n-грамм (Lucene) наиболее часто соседствующих сущностей
  • 11. COMMON BONDS: оценка гипотез • Оцениваем семантическую схожесть с помощью NGD (Normalized Google Distance) для следующих пар: – (сущность из вопроса, найденная сущность) • Перемножаем 3 значения NGD, выбираем с наибольшим рейтингом: – f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score – f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s score • Ответ: ‘pin’
  • 12. Применение к Missed Links • Вопросы, в которых на отсутствующую сущность ссылаются явно или неявно – “On hearing of the discovery of George Mallory’s body, this explorer still thinks he was first.” (Ответ: “Edmund Hillary”) George Mallory Mount Everest Edmund Hillary • Трехшаговое решение: – Идентификация missed links – Генерация кандидатов-ответов – Оценка
  • 13. Идентификация missed links • Два необходимых условия для missed link: – Должна быть сильно связана с сущностями в вопросе – Должна быть исключена из ответов-кандидатов • Другие компоненты Watson дают некоторый набор кандидатов и сопровождающих их features • Используется машинное обучение для предварительной выборки сущностей сильно ассоциированных с вопросом • Часто сущности сильно ассоциированные с вопросом являются правильным ответом на вопрос • Те что не являются правильным ответом – missed link! • Определение missed links по несоответствию с типом ожидаемого ответа
  • 14. Генерация ответов-кандидатов с missed links • Перезапускаем весь процесс генерации с включенными missed links в качестве ключевых слов поиска – Основная идея: возможно получить новые ответы- кандидаты, ранее не обнаруженные • Пример модификации запроса: – “The 1648 Peace of Westphalia ended a war that began on May 23 of this year.” – Peace of Westphalia, Thirty Years’ War, began, May 23
  • 15. Оценка кандидатов на основе missed links • После предыдущего этапа мы сгенерировали новый набор кандидатов-ответов • Идея: ранжировать кандидаты-ответы по семантической схожести с сущностями вопроса на основе missed links • Для каждой пары (кандидат, missed-link) схожесть оценивается с помощью spreading-activation • Пример: George Mallory сильно ассоциируется с “Mount Everest”, но они разного типа, поэтому скорее всего “Mount Everest” является missed link: – Вычисляем схожесть между кандидатами и missing link; (Mt. Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt. Everest, Jordan Romero) – Ответ: Edmund Hillary
  • 16. Результаты экспериментов • Улучшения по COMMON BOND вопросам • Улучшения по missed links вопросам и системы в целом
  • 17. СПАСИБО! Дополнительные материалы • Доклад на YaC’2013: • https://tech.yandex.ru/events/yac/2013/talks/1137/ • IBM Research Journal “This is Watson”: • http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717 • Watson web-site • http://www.ibm.com/smarterplanet/us/en/ibmwatson/ • Watson Ecosystem • http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html