Поиск ответа на вопросы сформулированные на естественном языке часто требуют от когнитивных систем выявления скрытых семантических взаимосвязей между различными объектами. Доклад посвящен описанию метода распространения активации (spreading-activation) на базе трех источников для измерения семантической близости: N-граммы, база знаний PRISMATIC и ссылки Википедии. Данные подход был применен для повышения вероятности ответа на вопросы из категорий COMMON BONDS и MISSING LINK.
1. IBM Watson:
выявление скрытых
взаимосвязей
Артем Семенихин (artyom@ru.ibm.com)
Научно-технический Центр IBM
Для AINL 2014, Москва, Сколково
2. Архитектура IBM Watson: DeepQA
Генерация
ответов-
кандидатов
Декомпозиция
вопроса
Оценка
ответов
Models
Ответ со
степенью
уверенности
Вопрос
Источники доказательств
Models
Models
Models
Models
Поиск Models
Генерация
гипотезы
Доказательство и оценка
Окончательная
оценка и
ранжирование
Синтез
Источники
ответов
Анализ
вопроса и
темы
Получение
доказательств
Оценка
доказательств
Machine learning:
изученные модели
для взвешенной
оценки
доказательств
Генерация
гипотезы Доказательство и оценка
3. Что такое «скрытые взаимосвязи»?
• Ассоциации и сущности явно не присутствующие в вопросе
• Типы рассматриваемых связей:
– COMMON BONDS
– Пример: Feet, eyebrows and McDonald’s have arches in
common
– Missing Link questions
– “The 1648 Peace of Westphalia ended a war that began on
May 23 of this year.”
4. Идентификация Missed Links
• Вопрос явно на них ссылается
“The 1648 Peace of Westphalia ended a war that began on May 23 of this year.”
Peace of Westphalia
Ended the Thirty Years’ War
1618
• Неявные
Mt
Everest
He was first
Edmund
Hillary
On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.
5. Spread-activation алгоритм
• Используется для оценки связанности сущностей на основе
частоты их совместной встречаемости (со-occurrence)
• Активация на базе естественных источников текста:
– Корпус n-грамм
– База знаний PRISMATIC
– Ссылки Wikipedia
• Параметры: fan size f, глубина d
– f – число наиболее тесно связанных сущностей для
рассматриваемой в данный момент
– d – глубина рекурсии активации
6. Корпус n-грамм
• Последовательность из n слов/букв в порядке их появления в
тексте
• Построен свой корпус 5-грамм на базе Wikipedia и Gigaword:
– Стэмминг, stop-words
– Удалены редкие вхождения
• Корпус n-грамм обеспечивает оценку лексической коллокации
– Получение информации о часто соседствующих терминах
– Пример: высокая частота коллокации между терминами “JFK”
и “airport”, “JFK” и “assassination”
7. База знаний PRISMATIC
• Обеспечивает оценку синтаксической коллокации
• Выделяет синтаксические пассажи из текста
• Используемые фреймы:
– SVO (subject-verb-object)
– SVPO (SVO+preposition), NPO (noun-preposition-object)
• Запросы в базу дают число вхождений (пассажей) одного или
несколько терминов в конкретный тип фрейма
– Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford
является подлежащим
• Метрики по трем фреймам агрегируются в оценку связанности
терминов
8. Ссылки Wikipedia
• Обеспечивает оценку семантической коллокации
• Наблюдение: кросс-ссылки Wikipedia часто указывают на
сильно связанные концепции
• Общая идея: по входному термину t мы идентифицируем
документ Wikipedia w0, чей заголовок наиболее соответствует t,
затем возвращаем названия документов Wikipedia w1-wN, на
которые есть кросс-ссылки в w0
9. Применение к COMMON BONDS
• Типичные примеры вопросов
• Ответы на вопросы семантически связаны с перечисленными
сущностями
• Spreading-activation используется для:
– Идентификация сущностей, связанных с каждой из списка
– Оценка каждой сущности на степень ее схожести с другими
10. COMMON BONDS: генерация гипотез
• Запускаем spreading activation для каждой сущности вопроса
• Пример: Bobby, bowling, rolling (pins)
– bobby: Robert, British police officer, pin
– bowling: lane, strike, 300, pin
– rolling: Rolling Stone, ramp, pin
• Обозначаем найденные сущности как ответы-кандидаты
– strike, British police officer, Rolling Stone, pin, ramp
• Поиск по корпусу n-грамм (Lucene) наиболее часто
соседствующих сущностей
11. COMMON BONDS: оценка гипотез
• Оцениваем семантическую схожесть с помощью NGD
(Normalized Google Distance) для следующих пар:
– (сущность из вопроса, найденная сущность)
• Перемножаем 3 значения NGD, выбираем с наибольшим
рейтингом:
– f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score
– f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s
score
• Ответ: ‘pin’
12. Применение к Missed Links
• Вопросы, в которых на отсутствующую сущность ссылаются явно
или неявно
– “On hearing of the discovery of George Mallory’s body, this
explorer still thinks he was first.” (Ответ: “Edmund Hillary”)
George Mallory
Mount Everest
Edmund Hillary
• Трехшаговое решение:
– Идентификация missed links
– Генерация кандидатов-ответов
– Оценка
13. Идентификация missed links
• Два необходимых условия для missed link:
– Должна быть сильно связана с сущностями в вопросе
– Должна быть исключена из ответов-кандидатов
• Другие компоненты Watson дают некоторый набор кандидатов и
сопровождающих их features
• Используется машинное обучение для предварительной
выборки сущностей сильно ассоциированных с вопросом
• Часто сущности сильно ассоциированные с вопросом являются
правильным ответом на вопрос
• Те что не являются правильным ответом – missed link!
• Определение missed links по несоответствию с типом
ожидаемого ответа
14. Генерация ответов-кандидатов с missed links
• Перезапускаем весь процесс генерации с включенными missed
links в качестве ключевых слов поиска
– Основная идея: возможно получить новые ответы-
кандидаты, ранее не обнаруженные
• Пример модификации запроса:
– “The 1648 Peace of Westphalia ended a war that began on May
23 of this year.”
– Peace of Westphalia, Thirty Years’ War, began, May 23
15. Оценка кандидатов на основе missed links
• После предыдущего этапа мы сгенерировали новый набор
кандидатов-ответов
• Идея: ранжировать кандидаты-ответы по семантической
схожести с сущностями вопроса на основе missed links
• Для каждой пары (кандидат, missed-link) схожесть оценивается с
помощью spreading-activation
• Пример: George Mallory сильно ассоциируется с “Mount Everest”,
но они разного типа, поэтому скорее всего “Mount Everest”
является missed link:
– Вычисляем схожесть между кандидатами и missing link; (Mt.
Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt.
Everest, Jordan Romero)
– Ответ: Edmund Hillary
16. Результаты экспериментов
• Улучшения по COMMON BOND вопросам
• Улучшения по missed links вопросам и системы в целом
17. СПАСИБО! Дополнительные материалы
• Доклад на YaC’2013:
• https://tech.yandex.ru/events/yac/2013/talks/1137/
• IBM Research Journal “This is Watson”:
• http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717
• Watson web-site
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/
• Watson Ecosystem
• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html