2. Содержание
• Введение: цели и особенности
• Функции Sketch Engine
– Извлечение лексикографических данных
– Создание и сравнение корпусов
• Национальный корпус русского языка
• Заключение
2
3. Sketch Engine: Введение
• Продукт компании Lexical Computing,
которую основал Адам Килгариф (Adam
Kilgarriff) в 2003 году.
• Был представлен на конференции Euralex
2002
• Использовался при построении Macmillian
English Dictionanary
3
4. Sketch Engine: Цели
• Создание инструмента для изучения
лексикографических свойств слов.
– На базе корпусов
– На базе статистических данных
• Продвижение эмпирического подхода к
изучению поведения слов в языке.
4
5. Sketch Engine: Особенности
• Поддерживает множество языков
• Китайский, чешский, английский (американский и
британский), эстонский, финский, греческий,
итальянский, японский, польский, румынский, русский,
испанский, шведский и др.
• Необходима разметка для входных текстов
• Морфологический анализ слов, определение
грамматических отношений
• Допускает:
– Работу на разных корпусах, с разной разметкой
– Изменение набора грамматических отношений
5
6. Sketch Engine:
Извлечение лексикографических данных
• Word Sketch – поиск слов, связанных с данным
словом заданными грамматическими
отношениями
• Word List – формирование списка слов по
определенному критерию
• Sketch Diff – сравнение Word Sketch для двух
слов
• Concordance – вычисление статистики по
заданному запросу
• Thesaurus – составление списка
квазисинонимов для заданного слова
6
7. Sketch Engine:
Создание и сравнение корпусов
• Corpus Architect – создание корпусов по
исходным документам
• WebBootCat – создание корпусов по
заданным словам на базе Интернет
• Сравнение корпусов
• Просмотр параллельных корпусов
7
9. Функция Word Sketch
• Поиск слов, связанных с данным словом
определенными для корпуса грамматическими
отношениями
• Для оценки связности слов используется мера
logDice
• Пример отношений:
– object_to – объектные отношения
• he scores a goal; достигнуть благородной цели
– subject_to – субъектные отношения
• his goal had earned they victory; цель заключалась в том, …
– modifier/modifies – атрибутивные отношения
• my ultimate goal; основной целью были деньги
9
10. Грамматические отношения
• Задаются шаблоном с помощью
формального языка CQL (The Corpus Query
Language)
Грам. отношение:
=my_subj/my_subject_of
1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»]
Сопоставление:
водить машину она не умела
иди ты лесом
Описание языка:
http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1.
10
11. Word Sketch: Пример
Набор отношений для слова “goal”
Второй столбец – частота, третий – мера logDice
11
12. Мера logDice
2 f ( a , b)
log Dice = 14 + log2
f ( a ) + f ( b)
• f – frequency,
• f (a, b) – частота совместной встречаемости
пары слов a, b
• f (a) – абсолютная частота отдельного слова a
12
13. Функция Word List
• Формирование списка слов по
определенному критерию (свойству)
• Задаётся атрибут
(словоформа, лемма или тег)
• Этот атрибут конкретизируется с помощью
регулярного выражения (что именно
искать)
13
16. Функция Sketch Diff
• Сравнение Word Sketch двух слов
• Для заданных слов: (напр.: clever/intelligent) по
каждому грам. отношению (н.: modifier) строится
общий список связанных слов.
• Список выводится по возрастанию/убыванию
меры logDice
– В начале списка идут слова с высоким
значением меры для второго и малым для
первого, а в конце – наоборот.
• Для визуализации различий используются
красный и зеленый цвета
16
18. Функция Concordance
• Вычисление статистики по запросу
• Отображаются контексты для слов,
заданных в запросе
• Виды запросов
– Простой запрос: все вхождение данного слова
– Лемма: все словоформы для данного слова
– Фраза: все вхождения фразы
– Словоформа: все вхождения данной
словоформы
– CQL – запрос на специальном языке CQL
18
23. Функция Corpus Architect
• Создание собственного корпуса из
документов различного формата: TXT, PDF,
PS, DOC, HTML, VERT (или архивы)
• 2 этапа:
– Загрузка документов
– Разметка документов
(включая морфологический анализ)
23
25. Функция WebBootCat
• Задаются слова, которые должны встречаться
в документах
• В качестве документов – интернет-страницы с
указанными словами
• 2 этапа – выборка страниц, их разметка
25
26. Функция сравнения корпусов
• Производится на основе анализа ключевых
слов
• Ключевые слова – слова, наиболее
характерные для данного корпуса
26
28. Функция просмотра параллельных
корпусов
• Параллельный корпус - мультиязычный
корпус, где соотнесены текст на одном
языке и его перевод на другой язык
• Позволяет изучать, как слова и фразы в
одном языке ведут себя в другом языке
28
30. Национальный корпус русского
языка
• Большой размеченный корпус, поделенный
на подкорпусы (поэтический, газетный,
диалектный и др.) с возможностью поиска
по корпусу.
• Ориентирован на изучение поведения слов
в различных «стилях»
– Газетные статьи, художественная литература,
научная литература и т.п.
• http://www.ruscorpora.ru
30
31. Национальный корпус русского языка:
Виды поиска
• На основе морфологической разметки
– Задается часть речи или словоформа
(и грам. признаки)
• На основе лексико-семантической
информации и Семантического словаря
Корпуса
– Задается семантическая группа, к которой
относится слово: еда, время и пространство и др.
• На основе синтаксической разметки текста
(доступен только для синтаксического корпуса)
– Задаются синтаксические отношения
31
35. Заключение
• Sketch Engine – мощное средство для
просмотра, анализа, сбора статистики по
текстам заданного корпуса.
• Sketch Engine обладает достаточной
гибкостью для работы с самыми разными
корпусами
35