Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

IBM Watson:
выявление скрытых
взаимосвязей
Артем Семенихин (artyom@ru.ibm.com)
Научно-технический Центр IBM
Для AINL 2014, Москва, Сколково

Архитектура IBM Watson: DeepQA
Генерация
ответов-
кандидатов
Декомпозиция
вопроса
Оценка
ответов
Models
Ответ со
степенью
уверенности
Вопрос
Источники доказательств
Models
Models
Models
Models
Поиск Models
Генерация
гипотезы
Доказательство и оценка
Окончательная
оценка и
ранжирование
Синтез
Источники
ответов
Анализ
вопроса и
темы
Получение
доказательств
Оценка
Machine learning:
изученные модели
для взвешенной
оценки
Генерация
гипотезы Доказательство и оценка

Что такое «скрытые взаимосвязи»?
• Ассоциации и сущности явно не присутствующие в вопросе
• Типы рассматриваемых связей:
– COMMON BONDS
– Пример: Feet, eyebrows and McDonald’s have arches in
common
– Missing Link questions
– “The 1648 Peace of Westphalia ended a war that began on
May 23 of this year.”

Идентификация Missed Links
• Вопрос явно на них ссылается
“The 1648 Peace of Westphalia ended a war that began on May 23 of this year.”
Peace of Westphalia
Ended the Thirty Years’ War
1618
• Неявные
Mt
Everest
He was first
Edmund
Hillary
On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.

Spread-activation алгоритм
• Используется для оценки связанности сущностей на основе
частоты их совместной встречаемости (со-occurrence)
• Активация на базе естественных источников текста:
– Корпус n-грамм
– База знаний PRISMATIC
– Ссылки Wikipedia
• Параметры: fan size f, глубина d
– f – число наиболее тесно связанных сущностей для
рассматриваемой в данный момент
– d – глубина рекурсии активации

Корпус n-грамм
• Последовательность из n слов/букв в порядке их появления в
тексте
• Построен свой корпус 5-грамм на базе Wikipedia и Gigaword:
– Стэмминг, stop-words
– Удалены редкие вхождения
• Корпус n-грамм обеспечивает оценку лексической коллокации
– Получение информации о часто соседствующих терминах
– Пример: высокая частота коллокации между терминами “JFK”
и “airport”, “JFK” и “assassination”

База знаний PRISMATIC
• Обеспечивает оценку синтаксической коллокации
• Выделяет синтаксические пассажи из текста
• Используемые фреймы:
– SVO (subject-verb-object)
– SVPO (SVO+preposition), NPO (noun-preposition-object)
• Запросы в базу дают число вхождений (пассажей) одного или
несколько терминов в конкретный тип фрейма
– Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford
является подлежащим
• Метрики по трем фреймам агрегируются в оценку связанности
терминов

Ссылки Wikipedia
• Обеспечивает оценку семантической коллокации
• Наблюдение: кросс-ссылки Wikipedia часто указывают на
сильно связанные концепции
• Общая идея: по входному термину t мы идентифицируем
документ Wikipedia w0, чей заголовок наиболее соответствует t,
затем возвращаем названия документов Wikipedia w1-wN, на
которые есть кросс-ссылки в w0

Применение к COMMON BONDS
• Типичные примеры вопросов
• Ответы на вопросы семантически связаны с перечисленными
сущностями
• Spreading-activation используется для:
– Идентификация сущностей, связанных с каждой из списка
– Оценка каждой сущности на степень ее схожести с другими

COMMON BONDS: генерация гипотез
• Запускаем spreading activation для каждой сущности вопроса
• Пример: Bobby, bowling, rolling (pins)
– bobby: Robert, British police officer, pin
– bowling: lane, strike, 300, pin
– rolling: Rolling Stone, ramp, pin
• Обозначаем найденные сущности как ответы-кандидаты
– strike, British police officer, Rolling Stone, pin, ramp
• Поиск по корпусу n-грамм (Lucene) наиболее часто
соседствующих сущностей

COMMON BONDS: оценка гипотез
• Оцениваем семантическую схожесть с помощью NGD
(Normalized Google Distance) для следующих пар:
– (сущность из вопроса, найденная сущность)
• Перемножаем 3 значения NGD, выбираем с наибольшим
рейтингом:
– f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score
– f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s
score
• Ответ: ‘pin’

Применение к Missed Links
• Вопросы, в которых на отсутствующую сущность ссылаются явно
или неявно
– “On hearing of the discovery of George Mallory’s body, this
explorer still thinks he was first.” (Ответ: “Edmund Hillary”)
George Mallory
Mount Everest
Edmund Hillary
• Трехшаговое решение:
– Идентификация missed links
– Генерация кандидатов-ответов
– Оценка

Идентификация missed links
• Два необходимых условия для missed link:
– Должна быть сильно связана с сущностями в вопросе
– Должна быть исключена из ответов-кандидатов
• Другие компоненты Watson дают некоторый набор кандидатов и
сопровождающих их features
• Используется машинное обучение для предварительной
выборки сущностей сильно ассоциированных с вопросом
• Часто сущности сильно ассоциированные с вопросом являются
правильным ответом на вопрос
• Те что не являются правильным ответом – missed link!
• Определение missed links по несоответствию с типом
ожидаемого ответа

Генерация ответов-кандидатов с missed links
• Перезапускаем весь процесс генерации с включенными missed
links в качестве ключевых слов поиска
– Основная идея: возможно получить новые ответы-
кандидаты, ранее не обнаруженные
• Пример модификации запроса:
– “The 1648 Peace of Westphalia ended a war that began on May
23 of this year.”
– Peace of Westphalia, Thirty Years’ War, began, May 23

Оценка кандидатов на основе missed links
• После предыдущего этапа мы сгенерировали новый набор
кандидатов-ответов
• Идея: ранжировать кандидаты-ответы по семантической
схожести с сущностями вопроса на основе missed links
• Для каждой пары (кандидат, missed-link) схожесть оценивается с
помощью spreading-activation
• Пример: George Mallory сильно ассоциируется с “Mount Everest”,
но они разного типа, поэтому скорее всего “Mount Everest”
является missed link:
– Вычисляем схожесть между кандидатами и missing link; (Mt.
Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt.
Everest, Jordan Romero)
– Ответ: Edmund Hillary

Результаты экспериментов
• Улучшения по COMMON BOND вопросам
• Улучшения по missed links вопросам и системы в целом

СПАСИБО! Дополнительные материалы
• Доклад на YaC’2013:
• https://tech.yandex.ru/events/yac/2013/talks/1137/
• IBM Research Journal “This is Watson”:
• http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717
• Watson web-site
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/
• Watson Ecosystem
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html

Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Recommended

Recommended

More Related Content

What's hot

What's hot (8)

Viewers also liked

Viewers also liked (11)

More from AINL Conferences

More from AINL Conferences (20)

Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"