Тезаурус РуТез: структура и приложения Лукашевич Н.В.

  • 657 views
Uploaded on

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
657
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Тезаурус РуТез: структура и приложения Лукашевич Н.В. ведущий научный сотрудник НИВЦ МГУ louk_nat @mail.ru
  • 2. Знания о мире в обработке текстов на естественном языке • В настоящее время: широкие предметные области для приложений автоматической обработки текстов • В различных приложениях полезно использовать знания о мире • Знания о мире сложным образом связаны с лексическими и терминологическими знаниями • Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?
  • 3. Лингвистические ресурсы для автоматической обработки текстов     Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года Большой объем: тысячи слов и словосочетаний Модель описания знаний о языке и мире должна быть:  «легкая»,  полезная в широком круге приложений  тестирование ресурса в приложениях Созданные ресурсы:  Тезаурус РуТез,  Общественно-политический тезаурус  Онтология по естественным наукам и технологиями (ОЕНТ) и др.
  • 4. Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 – 1997 Институт США и Канады РАН 1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)
  • 5. Участие в организации научных конференций • «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК • Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК • Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК • Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК • European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК • Text-Speech-Dialog conference (TSD) - ПК • SIGIR (2008) – ПК и др.
  • 6. Проекты • Рамблер (2007– н/в) • Аппарат Государственной Думы ФС РФ (1999 -- н/в) • НИИ Восход для ЦИК РФ (1997 -- н/в) • НПП Гарант-Сервис (2002 – н/в) • ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008) • в/ч 43753 (2000 – 2007) • Банк России (2006 – н/в) • Счетная палата (2003) • Министерство образования; ГУМЦ «Базис» (2003, 04) • «Аплана» (2006, 2008) • ИППИ РАН для Управления спецпрограмм (1996) • «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)
  • 7. Приложения автоматической обработки текстов • Информационный поиск – Корпоративные или предметно-ориентированные системы – Автоматическое расширение запроса – Визуализация выдачи • Автоматическая рубрикация текстов – Несколько десятков рубрикаторов • Автоматическая кластеризация текстов • Автоматическое реферирование текстов – Одного документа, многих документов, составление аналитических отчетов • Системы мониторинга
  • 8. План презентации • Тезаурус РуТез – Общая структура • Единицы Тезауруса – Понятия тезауруса – Текстовые входы (синонимы, многозначность, словосочетания) • Отношения Тезауруса – Принципы установления – Используемые типы отношений • Приложения автоматической обработки текстов
  • 9. Тезаурус РуТез – иерархическая сеть понятий  Понятие:  Имя понятия  Набор текстовых выражений  Отношения между понятиями  53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией)  Переведен на английский язык: 130 тысяч слов и выражений
  • 10. Общая структура тезауруса РуТез  Две составные части  Общий лексикон  Абстрактные  Оценки,  действия, процессы эмоции и т.д. Общественно-политический тезаурус  Общественно-политическая область – жизнь современного общества  Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др
  • 11. Тезаурус по общественно-политической жизни • Структурированная энциклопедия жизни современного общества – 36 тысяч понятий – 100 тысяч терминов – 140 тысяч прямых отношений (1,1 млн. наследуемых) • предметная область – проблемы современного общества • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения • Состав: термины и тематическая лексика
  • 12. Специальная лексика Промежуточная зона Общая лексика Ку л на ьту р сл ед ное ие Тезаурус РуТез и специальная лексика м ны ен в ест т о ес огиям яп оги ехнол л нто м и т О ка нау Авиа* Он Специальная лексика ко бе мпь зо ю па тер сн н ос ая ть толог ия
  • 13. Специальные области vs. общественно-политическая область Выборы Общественнополитическая область Уровни иерархии География Продукция
  • 14. Тезаурус РуТез: учет трех традиций  Информационно-поисковые тезаурусы  Название понятия  Включение многословных единиц  Небольшой набор отношений  Ресурсы типа WordNet  Подробное включение отдельных лексических единиц  Аккуратное описание многозначности  Формальные  Отличимость онтологии понятий  Формальные свойства отношений
  • 15. Единицы тезауруса РуТез
  • 16. Понятия тезауруса РуТез • Понятие происходит от значения отдельных слов или словосочетаний • Проблемы ввода понятий – Квазисинонимы – Близкие значения многозначных слов • Понятие должно быть отличимо от близких понятий – Однозначно понимаемое имя – Набор текстовых входов – Набор отношений – Название понятия • Единое представление для: – нетематической лексики, – тематической лексики, терминологии
  • 17. Имя понятия • Однозначное слово: – КАБЕЛЬ • Однозначное словосочетание, являющееся одним из текстовых входов понятия: – ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД • Неоднозначное словосочетание с пометой: – КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД) • Пара синонимов – текстовых входов понятия через запятую: – ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ • Имя должно быть однозначно, понятно, отражать особенности понятия.
  • 18. Многословные языковые выражения Словосочетаний может встретиться очень много Мы вносим словосочетание, если это необходимо для отражения новой информации синонимы: приватизировать – передать в частные руки; многозначное становится однозначным: положение дел, состояние дел дополнительная структуризация сети сельский дом: вилла, дача; автомобиль автомобильные гонки автогонщик (пилот)
  • 19. Синонимы в тезаурусе РуТез  Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса  Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия  Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами  Специальные усилия на поиск многословных вариантов – снижение многозначности  Формирование обширных синонимических рядов – стабильность распознавания понятия в текста
  • 20. Пример синонимического ряда • • • • • • • • • • • • ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДЫ ОХРАНЯТЬ ПРИРОДУ ПРИРОДОЗАЩИТА ПРИРОДОЗАЩИТНЫЙ ПРИРОДООХРАНА ПРИРОДООХРАНИТЕЛЬНЫЙ ПРИРОДООХРАННЫЙ
  • 21. Близкие значения разных слов: монумент и памятник • Словарь синонимов (НОСС) – 5 различий: • 1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах; • 2) у монументов есть способность увековечивать подвиг живых людей • 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта, • 4) монумент обычно больше по размерам и т.п.. • Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?
  • 22. Монумент и памятник - 2 • Проблема разделения: – каковы отношения между собой – каковы отношения с другими близкими понятиями онтологии • Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник: • Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала… • Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения • Монумент, памятник –> одно понятие онтологии
  • 23. Близкие значения разных слов: водитель и шофер • Синонимы во многих словарях синонимов • НОСС: шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами • Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте) • Должно быть два понятия в онтологии: • ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель) • ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер) • Дополнение: шофер – обычно профессиональный работник!
  • 24. Водитель транспортного средства (водитель) Транспортный работник Судоводитель Водитель автомобиля (водитель) Вагоновожатый (водитель трамвая) Профессиональный водитель (шофер) Таксист Личный водитель (личный шофер)
  • 25. Многозначность в тезаурусе • М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение • А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – Львов – ЛЬВОВ (ГОРОД) – Нужно подтвердить/отвергнуть употребление значения Число многозначных единиц в Тезаурусе РуТез - 16 тысяч многозначных слов и выражений
  • 26. Пополнение тезауруса РуТез • Новые реалии и пропущенная конкретика (пополнение Общ.-политического тезауруса): – Автодом, дача на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер • Пропущенные отдельные слова общей лексики – Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий • Словосочетания, уточняющие значения слов – Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться
  • 27. Отношения в тезаурусе РуТез
  • 28. Подходы к представлению отношений • Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений • vs. • Наборы семантических отношений, произвольные набор предикатов – Но: • Большие затраты труда для широкой ПО • Непонятно, какой набор оптимален • Контекстная зависимость
  • 29. Надежные отношения • Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте – Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены • Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда: – для всех или большинства примеров понятия – в течение всего (или почти всего) времени существования примера Нужно описывать надежные отношения
  • 30. Отношения в тезаурусе РуТез отношение ВЫШЕ-НИЖЕ – таксономическое отношение  Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование  отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность  внешняя онтологическая зависимость - несимметричная ассоциация – асц2  Симметричная ассоциация – для очень похожих понятий
  • 31. Отношение ЦЕЛОЕ-ЧАСТЬ • Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности • Х – это часть Y – Изменение Х (или совокупности Х) влечет изменение Y – Отношение действует на протяжении большей части нормального существования примера X или это основная альтернатива – Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля – инвестор – это ЧАСТЬ для инвестирование
  • 32. Примеры отношения часть-целое • • • • Автопилот Горбушка Член партии Балкон зала - летательный аппарат хлеб политическая партия зрительный зал • Грузоподъемность – транспортное средство • Калорийность пища • Водоизмещениесудно • Инвестор • Очиститель • Дубильщик - инвестирование очистка дубление
  • 33. Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ  Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система  Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение
  • 34. Отношение внешней зависимости (dependence relation) • Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y • Внешняя зависимость: • - понятие X зависит от понятия Y, • - экземпляры Y не являются всегда частями или свойствами экземпляров X  Примеры:  понятие гараж зависит от понятия автомобиль  Понятие автостроение зависит от понятия автомобиль • Обозначаем направленной ассоциацией: АСЦ1, АСЦ2
  • 35. Пример отношения Дерево - Лес  Многие ресурсы указывают: Дерево – часть Леса  Но: дерево не всегда в лесу, а лес всегда состоит из деревьев  Понятие ДЕРЕВО ЛЕС – зависит от понятия
  • 36. Отношения концептуальной зависимости и семантические имена отношений ГАРАЖ зависит_от АВТОМОБИЛЬ (назначение?) РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?) ГИДРОЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?) ЛЕС зависит_от ДЕРЕВО (часть?) ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?) КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?) Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны
  • 37. =ЛЕС= : части • БУРЕЛОМ • ГРУППА ЛЕСА • ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА) • ЛЕСНАЯ ПОЧВА • ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ) • ОПУШКА • ПОДЛЕСОК • ПОДРОСТ (МОЛОДНЯК) • ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА) • СУХОСТОЙ (СУХОСТОЙНЫЙ) (ВЕТРОВАЛ; БУРЕЛОМНЫЙ) (ЛЕСНАЯ ПОДСТИЛКА) (ОПУШЕЧНЫЙ) (ПОДЛЕСОЧНЫЙ)
  • 38. =ЛЕС= : зависимые понятия • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) • ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) • ЛЕСОВЛАДЕНИЕ • ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
  • 39. Автоматическая обработка текстов на основе тезауруса
  • 40. Обработка текстов с использованием тезауруса • Морфологический анализ – Индекс лемм • Терминологический анализ – Сопоставление с тезаурусом – Разрешение многозначности (Общественно-политический тезаурус точность > 75% - грант Яндекса 2005) • Тематический анализ – Выделение основной темы текста – Учет близких по смыслу понятий для вычисления веса понятия – Концептуальный индекс с весами
  • 41. Лексическая связность: пример О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
  • 42. Тезаурусные отношения для документа СОБСТВЕННОСТЬ (1) СООРУЖЕНИЕ (1) А ЗДАНИЕ (1) ДЕНЬГИ (22) СТРОИТЕЛЬСТВО (12) ЖИЛОЕ ЗДАНИЕ (1) ПЛАТИТЬ (1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4) А ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) ПОКУПКА (6) МНОГОКВАРТИРНЫЙ ДОМ (1) ЖИЛОЕ ПОМЕЩЕНИЕ (25) НАНЯТЬ (13) А КВАРТИРА (2) В КОМНАТА (ПОМЕЩЕНИЕ) (1) НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13) ЖИЛАЯ ПЛОЩАДЬ (1) В ЖИЛИЩНАЯ НОРМА (2)
  • 43. Вес понятия в тексте: тематическое представления Главные темы Локальные темы freq ( d ; D ) θ( d ) =α ⋅ω(d ; D ) + (1 −α) ⋅ max freq (c; D ) c
  • 44. Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ | ****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; | ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; | ****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН | ****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; | ****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; | ****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; | ****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; | ****| z | X | z | . | . | z | z | |
  • 45. Тезаурус РуТез: основные приложения • Информационный поиск: – Поисковый инструмент УИС Россия (www.cir.ru) – расширение запросов – вопросно-ответные системы • Автоматическая рубрикация текстов – Более 20 рубрикаторов • Автоматическое аннотирование – Аннотирование одного документа, – Обзорный реферат • Обработка потоков новостей, информационный мониторинг – Кластеризация документов
  • 46. Представление смысла рубрики опорными понятиями
  • 47. Расширенное представление рубрики понятиями тезауруса
  • 48. Кластеризация новостей
  • 49. Классификация документов и кластеров
  • 50. Обзорный (сводный) реферат (Multi-document summarization)
  • 51. Преимущества от онтологий и тезаурусов в разных приложениях Information Retrieval Tasks Benefits Web Search 0+ % Corporate Search / Legal Search 10 % Long Queries / Verbose Queries 15 % Text Categorization 15-50 % News Clustering 6-15 % Summarization, Visualization, Multi Document Summarization ++ (SUMMAC)
  • 52. Заключение • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска • Наши выводы: – Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов – Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере – При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами