• Like
  • Save
Тезаурус РуТез: структура и приложения Лукашевич Н.В.
Upcoming SlideShare
Loading in...5
×
 

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

on

  • 698 views

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

Statistics

Views

Total Views
698
Views on SlideShare
698
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Тезаурус РуТез: структура и приложения Лукашевич Н.В. Тезаурус РуТез: структура и приложения Лукашевич Н.В. Presentation Transcript

    • Тезаурус РуТез: структура и приложения Лукашевич Н.В. ведущий научный сотрудник НИВЦ МГУ louk_nat @mail.ru
    • Знания о мире в обработке текстов на естественном языке • В настоящее время: широкие предметные области для приложений автоматической обработки текстов • В различных приложениях полезно использовать знания о мире • Знания о мире сложным образом связаны с лексическими и терминологическими знаниями • Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?
    • Лингвистические ресурсы для автоматической обработки текстов     Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года Большой объем: тысячи слов и словосочетаний Модель описания знаний о языке и мире должна быть:  «легкая»,  полезная в широком круге приложений  тестирование ресурса в приложениях Созданные ресурсы:  Тезаурус РуТез,  Общественно-политический тезаурус  Онтология по естественным наукам и технологиями (ОЕНТ) и др.
    • Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 – 1997 Институт США и Канады РАН 1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)
    • Участие в организации научных конференций • «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК • Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК • Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК • Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК • European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК • Text-Speech-Dialog conference (TSD) - ПК • SIGIR (2008) – ПК и др.
    • Проекты • Рамблер (2007– н/в) • Аппарат Государственной Думы ФС РФ (1999 -- н/в) • НИИ Восход для ЦИК РФ (1997 -- н/в) • НПП Гарант-Сервис (2002 – н/в) • ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008) • в/ч 43753 (2000 – 2007) • Банк России (2006 – н/в) • Счетная палата (2003) • Министерство образования; ГУМЦ «Базис» (2003, 04) • «Аплана» (2006, 2008) • ИППИ РАН для Управления спецпрограмм (1996) • «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)
    • Приложения автоматической обработки текстов • Информационный поиск – Корпоративные или предметно-ориентированные системы – Автоматическое расширение запроса – Визуализация выдачи • Автоматическая рубрикация текстов – Несколько десятков рубрикаторов • Автоматическая кластеризация текстов • Автоматическое реферирование текстов – Одного документа, многих документов, составление аналитических отчетов • Системы мониторинга
    • План презентации • Тезаурус РуТез – Общая структура • Единицы Тезауруса – Понятия тезауруса – Текстовые входы (синонимы, многозначность, словосочетания) • Отношения Тезауруса – Принципы установления – Используемые типы отношений • Приложения автоматической обработки текстов
    • Тезаурус РуТез – иерархическая сеть понятий  Понятие:  Имя понятия  Набор текстовых выражений  Отношения между понятиями  53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией)  Переведен на английский язык: 130 тысяч слов и выражений
    • Общая структура тезауруса РуТез  Две составные части  Общий лексикон  Абстрактные  Оценки,  действия, процессы эмоции и т.д. Общественно-политический тезаурус  Общественно-политическая область – жизнь современного общества  Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др
    • Тезаурус по общественно-политической жизни • Структурированная энциклопедия жизни современного общества – 36 тысяч понятий – 100 тысяч терминов – 140 тысяч прямых отношений (1,1 млн. наследуемых) • предметная область – проблемы современного общества • типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения • Состав: термины и тематическая лексика
    • Специальная лексика Промежуточная зона Общая лексика Ку л на ьту р сл ед ное ие Тезаурус РуТез и специальная лексика м ны ен в ест т о ес огиям яп оги ехнол л нто м и т О ка нау Авиа* Он Специальная лексика ко бе мпь зо ю па тер сн н ос ая ть толог ия
    • Специальные области vs. общественно-политическая область Выборы Общественнополитическая область Уровни иерархии География Продукция
    • Тезаурус РуТез: учет трех традиций  Информационно-поисковые тезаурусы  Название понятия  Включение многословных единиц  Небольшой набор отношений  Ресурсы типа WordNet  Подробное включение отдельных лексических единиц  Аккуратное описание многозначности  Формальные  Отличимость онтологии понятий  Формальные свойства отношений
    • Единицы тезауруса РуТез
    • Понятия тезауруса РуТез • Понятие происходит от значения отдельных слов или словосочетаний • Проблемы ввода понятий – Квазисинонимы – Близкие значения многозначных слов • Понятие должно быть отличимо от близких понятий – Однозначно понимаемое имя – Набор текстовых входов – Набор отношений – Название понятия • Единое представление для: – нетематической лексики, – тематической лексики, терминологии
    • Имя понятия • Однозначное слово: – КАБЕЛЬ • Однозначное словосочетание, являющееся одним из текстовых входов понятия: – ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД • Неоднозначное словосочетание с пометой: – КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД) • Пара синонимов – текстовых входов понятия через запятую: – ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ • Имя должно быть однозначно, понятно, отражать особенности понятия.
    • Многословные языковые выражения Словосочетаний может встретиться очень много Мы вносим словосочетание, если это необходимо для отражения новой информации синонимы: приватизировать – передать в частные руки; многозначное становится однозначным: положение дел, состояние дел дополнительная структуризация сети сельский дом: вилла, дача; автомобиль автомобильные гонки автогонщик (пилот)
    • Синонимы в тезаурусе РуТез  Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса  Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия  Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами  Специальные усилия на поиск многословных вариантов – снижение многозначности  Формирование обширных синонимических рядов – стабильность распознавания понятия в текста
    • Пример синонимического ряда • • • • • • • • • • • • ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДЫ ОХРАНЯТЬ ПРИРОДУ ПРИРОДОЗАЩИТА ПРИРОДОЗАЩИТНЫЙ ПРИРОДООХРАНА ПРИРОДООХРАНИТЕЛЬНЫЙ ПРИРОДООХРАННЫЙ
    • Близкие значения разных слов: монумент и памятник • Словарь синонимов (НОСС) – 5 различий: • 1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах; • 2) у монументов есть способность увековечивать подвиг живых людей • 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта, • 4) монумент обычно больше по размерам и т.п.. • Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?
    • Монумент и памятник - 2 • Проблема разделения: – каковы отношения между собой – каковы отношения с другими близкими понятиями онтологии • Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник: • Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала… • Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения • Монумент, памятник –> одно понятие онтологии
    • Близкие значения разных слов: водитель и шофер • Синонимы во многих словарях синонимов • НОСС: шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами • Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте) • Должно быть два понятия в онтологии: • ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель) • ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер) • Дополнение: шофер – обычно профессиональный работник!
    • Водитель транспортного средства (водитель) Транспортный работник Судоводитель Водитель автомобиля (водитель) Вагоновожатый (водитель трамвая) Профессиональный водитель (шофер) Таксист Личный водитель (личный шофер)
    • Многозначность в тезаурусе • М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение • А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – Львов – ЛЬВОВ (ГОРОД) – Нужно подтвердить/отвергнуть употребление значения Число многозначных единиц в Тезаурусе РуТез - 16 тысяч многозначных слов и выражений
    • Пополнение тезауруса РуТез • Новые реалии и пропущенная конкретика (пополнение Общ.-политического тезауруса): – Автодом, дача на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер • Пропущенные отдельные слова общей лексики – Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий • Словосочетания, уточняющие значения слов – Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться
    • Отношения в тезаурусе РуТез
    • Подходы к представлению отношений • Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений • vs. • Наборы семантических отношений, произвольные набор предикатов – Но: • Большие затраты труда для широкой ПО • Непонятно, какой набор оптимален • Контекстная зависимость
    • Надежные отношения • Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте – Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены • Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда: – для всех или большинства примеров понятия – в течение всего (или почти всего) времени существования примера Нужно описывать надежные отношения
    • Отношения в тезаурусе РуТез отношение ВЫШЕ-НИЖЕ – таксономическое отношение  Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование  отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность  внешняя онтологическая зависимость - несимметричная ассоциация – асц2  Симметричная ассоциация – для очень похожих понятий
    • Отношение ЦЕЛОЕ-ЧАСТЬ • Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности • Х – это часть Y – Изменение Х (или совокупности Х) влечет изменение Y – Отношение действует на протяжении большей части нормального существования примера X или это основная альтернатива – Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля – инвестор – это ЧАСТЬ для инвестирование
    • Примеры отношения часть-целое • • • • Автопилот Горбушка Член партии Балкон зала - летательный аппарат хлеб политическая партия зрительный зал • Грузоподъемность – транспортное средство • Калорийность пища • Водоизмещениесудно • Инвестор • Очиститель • Дубильщик - инвестирование очистка дубление
    • Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ  Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система  Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение
    • Отношение внешней зависимости (dependence relation) • Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y • Внешняя зависимость: • - понятие X зависит от понятия Y, • - экземпляры Y не являются всегда частями или свойствами экземпляров X  Примеры:  понятие гараж зависит от понятия автомобиль  Понятие автостроение зависит от понятия автомобиль • Обозначаем направленной ассоциацией: АСЦ1, АСЦ2
    • Пример отношения Дерево - Лес  Многие ресурсы указывают: Дерево – часть Леса  Но: дерево не всегда в лесу, а лес всегда состоит из деревьев  Понятие ДЕРЕВО ЛЕС – зависит от понятия
    • Отношения концептуальной зависимости и семантические имена отношений ГАРАЖ зависит_от АВТОМОБИЛЬ (назначение?) РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?) ГИДРОЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?) ЛЕС зависит_от ДЕРЕВО (часть?) ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?) КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?) Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны
    • =ЛЕС= : части • БУРЕЛОМ • ГРУППА ЛЕСА • ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА) • ЛЕСНАЯ ПОЧВА • ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ) • ОПУШКА • ПОДЛЕСОК • ПОДРОСТ (МОЛОДНЯК) • ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА) • СУХОСТОЙ (СУХОСТОЙНЫЙ) (ВЕТРОВАЛ; БУРЕЛОМНЫЙ) (ЛЕСНАЯ ПОДСТИЛКА) (ОПУШЕЧНЫЙ) (ПОДЛЕСОЧНЫЙ)
    • =ЛЕС= : зависимые понятия • ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) • ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) • ЛЕСОВЛАДЕНИЕ • ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
    • Автоматическая обработка текстов на основе тезауруса
    • Обработка текстов с использованием тезауруса • Морфологический анализ – Индекс лемм • Терминологический анализ – Сопоставление с тезаурусом – Разрешение многозначности (Общественно-политический тезаурус точность > 75% - грант Яндекса 2005) • Тематический анализ – Выделение основной темы текста – Учет близких по смыслу понятий для вычисления веса понятия – Концептуальный индекс с весами
    • Лексическая связность: пример О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
    • Тезаурусные отношения для документа СОБСТВЕННОСТЬ (1) СООРУЖЕНИЕ (1) А ЗДАНИЕ (1) ДЕНЬГИ (22) СТРОИТЕЛЬСТВО (12) ЖИЛОЕ ЗДАНИЕ (1) ПЛАТИТЬ (1) ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО (4) А ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2) ПОКУПКА (6) МНОГОКВАРТИРНЫЙ ДОМ (1) ЖИЛОЕ ПОМЕЩЕНИЕ (25) НАНЯТЬ (13) А КВАРТИРА (2) В КОМНАТА (ПОМЕЩЕНИЕ) (1) НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ (13) ЖИЛАЯ ПЛОЩАДЬ (1) В ЖИЛИЩНАЯ НОРМА (2)
    • Вес понятия в тексте: тематическое представления Главные темы Локальные темы freq ( d ; D ) θ( d ) =α ⋅ω(d ; D ) + (1 −α) ⋅ max freq (c; D ) c
    • Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ | ****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; | ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; | ****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН | ****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; | ****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; | ****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; | ****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; | ****| z | X | z | . | . | z | z | |
    • Тезаурус РуТез: основные приложения • Информационный поиск: – Поисковый инструмент УИС Россия (www.cir.ru) – расширение запросов – вопросно-ответные системы • Автоматическая рубрикация текстов – Более 20 рубрикаторов • Автоматическое аннотирование – Аннотирование одного документа, – Обзорный реферат • Обработка потоков новостей, информационный мониторинг – Кластеризация документов
    • Представление смысла рубрики опорными понятиями
    • Расширенное представление рубрики понятиями тезауруса
    • Кластеризация новостей
    • Классификация документов и кластеров
    • Обзорный (сводный) реферат (Multi-document summarization)
    • Преимущества от онтологий и тезаурусов в разных приложениях Information Retrieval Tasks Benefits Web Search 0+ % Corporate Search / Legal Search 10 % Long Queries / Verbose Queries 15 % Text Categorization 15-50 % News Clustering 6-15 % Summarization, Visualization, Multi Document Summarization ++ (SUMMAC)
    • Заключение • В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска • Наши выводы: – Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов – Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере – При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами