SlideShare a Scribd company logo
1 of 36
Download to read offline
Основные возможности

Sketch Engine

https://sketchengine.co.uk/

Куликов В.В
Содержание
• Введение: цели и особенности
• Функции Sketch Engine
– Извлечение лексикографических данных
– Создание и сравнение корпусов

• Национальный корпус русского языка
• Заключение

2
Sketch Engine: Введение
• Продукт компании Lexical Computing,
которую основал Адам Килгариф (Adam
Kilgarriff) в 2003 году.
• Был представлен на конференции Euralex
2002
• Использовался при построении Macmillian
English Dictionanary

3
Sketch Engine: Цели
• Создание инструмента для изучения
лексикографических свойств слов.
– На базе корпусов
– На базе статистических данных

• Продвижение эмпирического подхода к
изучению поведения слов в языке.

4
Sketch Engine: Особенности
• Поддерживает множество языков

• Китайский, чешский, английский (американский и
британский), эстонский, финский, греческий,
итальянский, японский, польский, румынский, русский,
испанский, шведский и др.

• Необходима разметка для входных текстов
• Морфологический анализ слов, определение
грамматических отношений

• Допускает:

– Работу на разных корпусах, с разной разметкой
– Изменение набора грамматических отношений
5
Sketch Engine:
Извлечение лексикографических данных
• Word Sketch – поиск слов, связанных с данным
словом заданными грамматическими
отношениями
• Word List – формирование списка слов по
определенному критерию
• Sketch Diff – сравнение Word Sketch для двух
слов
• Concordance – вычисление статистики по
заданному запросу
• Thesaurus – составление списка
квазисинонимов для заданного слова
6
Sketch Engine:
Создание и сравнение корпусов
• Corpus Architect – создание корпусов по
исходным документам
• WebBootCat – создание корпусов по
заданным словам на базе Интернет
• Сравнение корпусов
• Просмотр параллельных корпусов
7
Извлечение
лексикографических данных

8
Функция Word Sketch
• Поиск слов, связанных с данным словом
определенными для корпуса грамматическими
отношениями
• Для оценки связности слов используется мера
logDice
• Пример отношений:
– object_to – объектные отношения

• he scores a goal; достигнуть благородной цели

– subject_to – субъектные отношения

• his goal had earned they victory; цель заключалась в том, …

– modifier/modifies – атрибутивные отношения
• my ultimate goal; основной целью были деньги

9
Грамматические отношения
• Задаются шаблоном с помощью
формального языка CQL (The Corpus Query
Language)
Грам. отношение:
=my_subj/my_subject_of
1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»]
Сопоставление:
водить машину она не умела
иди ты лесом
Описание языка:
http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1.

10
Word Sketch: Пример
Набор отношений для слова “goal”
Второй столбец – частота, третий – мера logDice

11
Мера logDice
2 f ( a , b)
log Dice = 14 + log2
f ( a ) + f ( b)
• f – frequency,
• f (a, b) – частота совместной встречаемости
пары слов a, b
• f (a) – абсолютная частота отдельного слова a

12
Функция Word List
• Формирование списка слов по
определенному критерию (свойству)
• Задаётся атрибут
(словоформа, лемма или тег)
• Этот атрибут конкретизируется с помощью
регулярного выражения (что именно
искать)

13
Word List: Ввод запроса

14
Word List: Результат по запросу
Все существительные в корпусе

15
Функция Sketch Diff
• Сравнение Word Sketch двух слов
• Для заданных слов: (напр.: clever/intelligent) по
каждому грам. отношению (н.: modifier) строится
общий список связанных слов.
• Список выводится по возрастанию/убыванию
меры logDice
– В начале списка идут слова с высоким
значением меры для второго и малым для
первого, а в конце – наоборот.
• Для визуализации различий используются
красный и зеленый цвета
16
Sketch Diff: Пример

17
Функция Concordance
• Вычисление статистики по запросу
• Отображаются контексты для слов,
заданных в запросе
• Виды запросов

– Простой запрос: все вхождение данного слова
– Лемма: все словоформы для данного слова
– Фраза: все вхождения фразы
– Словоформа: все вхождения данной
словоформы
– CQL – запрос на специальном языке CQL
18
Concordance: Ввод простого запроса

19
Concordance: Результат для запроса

20
Функция Thesaurus
• Построение списка квазисинонимов для
данного слова (по корпусу)
• Определяется на основе сравнения Word
Sketch слов корпуса

21
Функции создания и сравнения
корпусов

22
Функция Corpus Architect
• Создание собственного корпуса из
документов различного формата: TXT, PDF,
PS, DOC, HTML, VERT (или архивы)
• 2 этапа:
– Загрузка документов
– Разметка документов
(включая морфологический анализ)

23
Corpus Architect: Ввод источника
данных

24
Функция WebBootCat
• Задаются слова, которые должны встречаться
в документах
• В качестве документов – интернет-страницы с
указанными словами
• 2 этапа – выборка страниц, их разметка

25
Функция сравнения корпусов
• Производится на основе анализа ключевых
слов
• Ключевые слова – слова, наиболее
характерные для данного корпуса

26
Сравнение
корпусов:
Пример

27
Функция просмотра параллельных
корпусов
• Параллельный корпус - мультиязычный
корпус, где соотнесены текст на одном
языке и его перевод на другой язык
• Позволяет изучать, как слова и фразы в
одном языке ведут себя в другом языке

28
Параллельные корпуса: Пример
• Английское слово “key” и немецкое
“Schlüssel”

29
Национальный корпус русского
языка
• Большой размеченный корпус, поделенный
на подкорпусы (поэтический, газетный,
диалектный и др.) с возможностью поиска
по корпусу.
• Ориентирован на изучение поведения слов
в различных «стилях»
– Газетные статьи, художественная литература,
научная литература и т.п.

• http://www.ruscorpora.ru

30
Национальный корпус русского языка:
Виды поиска
• На основе морфологической разметки
– Задается часть речи или словоформа
(и грам. признаки)

• На основе лексико-семантической
информации и Семантического словаря
Корпуса

– Задается семантическая группа, к которой
относится слово: еда, время и пространство и др.

• На основе синтаксической разметки текста
(доступен только для синтаксического корпуса)
– Задаются синтаксические отношения

31
Национальный корпус: поиск слов
• Поиск по словам с возможным указанием
контекста

32
Национальный корпус:
Ввод признаков
Список
грамматических
признаков для
слова

33
Национальный корпус:
Результат для запроса

34
Заключение
• Sketch Engine – мощное средство для
просмотра, анализа, сбора статистики по
текстам заданного корпуса.
• Sketch Engine обладает достаточной
гибкостью для работы с самыми разными
корпусами

35
Спасибо за внимание

36

More Related Content

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentationiwan_rg
 

Viewers also liked (19)

Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 

Similar to куликов Sketch engine ord

Scripting languages
Scripting languagesScripting languages
Scripting languagesLev Panov
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.mikhaelsmirnov
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииDenis Latushkin
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonPyNSK
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаSQALab
 
C# Desktop. Занятие 01.
C# Desktop. Занятие 01.C# Desktop. Занятие 01.
C# Desktop. Занятие 01.Igor Shkulipa
 
C++ осень 2012 лекция 7
C++ осень 2012 лекция 7C++ осень 2012 лекция 7
C++ осень 2012 лекция 7Technopark
 
"Оффис вне оффиса"
"Оффис вне оффиса""Оффис вне оффиса"
"Оффис вне оффиса"ANSevrukova
 
Custom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEACustom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEAAlexander Zastashkov
 
C++ осень 2012 лекция 1
C++ осень 2012 лекция 1C++ осень 2012 лекция 1
C++ осень 2012 лекция 1Technopark
 
Tool View Interface of Integrated Development Environment / Исследование инте...
Tool View Interface of Integrated Development Environment / Исследование инте...Tool View Interface of Integrated Development Environment / Исследование инте...
Tool View Interface of Integrated Development Environment / Исследование инте...Ivan Ruchkin
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчanna_vereshchagina
 
документирование долгоживущих веб проектов. г. белогорцев. зал 3
документирование долгоживущих веб проектов. г. белогорцев. зал 3документирование долгоживущих веб проектов. г. белогорцев. зал 3
документирование долгоживущих веб проектов. г. белогорцев. зал 3rit2011
 
Профессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseПрофессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseAlexander Granin
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
Владислав Моргун
Владислав МоргунВладислав Моргун
Владислав МоргунSEO.UA
 
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБД
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБДКак использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБД
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБДAndrew Sovtsov
 

Similar to куликов Sketch engine ord (20)

Интегрированная среда разработки для функционального языка Refal
Интегрированная среда разработки для функционального языка RefalИнтегрированная среда разработки для функционального языка Refal
Интегрированная среда разработки для функционального языка Refal
 
Scripting languages
Scripting languagesScripting languages
Scripting languages
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложении
 
Как и зачем можно создать DSL на Python
Как и зачем можно создать DSL на PythonКак и зачем можно создать DSL на Python
Как и зачем можно создать DSL на Python
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проекта
 
C# Desktop. Занятие 01.
C# Desktop. Занятие 01.C# Desktop. Занятие 01.
C# Desktop. Занятие 01.
 
OO Design with C++: 0. Intro
OO Design with C++: 0. IntroOO Design with C++: 0. Intro
OO Design with C++: 0. Intro
 
C++ осень 2012 лекция 7
C++ осень 2012 лекция 7C++ осень 2012 лекция 7
C++ осень 2012 лекция 7
 
"Оффис вне оффиса"
"Оффис вне оффиса""Оффис вне оффиса"
"Оффис вне оффиса"
 
Custom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEACustom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEA
 
C++ осень 2012 лекция 1
C++ осень 2012 лекция 1C++ осень 2012 лекция 1
C++ осень 2012 лекция 1
 
Tool View Interface of Integrated Development Environment / Исследование инте...
Tool View Interface of Integrated Development Environment / Исследование инте...Tool View Interface of Integrated Development Environment / Исследование инте...
Tool View Interface of Integrated Development Environment / Исследование инте...
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
документирование долгоживущих веб проектов. г. белогорцев. зал 3
документирование долгоживущих веб проектов. г. белогорцев. зал 3документирование долгоживущих веб проектов. г. белогорцев. зал 3
документирование долгоживущих веб проектов. г. белогорцев. зал 3
 
Профессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом EnterpriseПрофессиональная разработка в суровом Enterprise
Профессиональная разработка в суровом Enterprise
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
Владислав Моргун
Владислав МоргунВладислав Моргун
Владислав Моргун
 
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБД
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБДКак использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБД
Как использовать Rapid SQL для ускорения разработки SQL и другого кода для СУБД
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (10)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

куликов Sketch engine ord

  • 2. Содержание • Введение: цели и особенности • Функции Sketch Engine – Извлечение лексикографических данных – Создание и сравнение корпусов • Национальный корпус русского языка • Заключение 2
  • 3. Sketch Engine: Введение • Продукт компании Lexical Computing, которую основал Адам Килгариф (Adam Kilgarriff) в 2003 году. • Был представлен на конференции Euralex 2002 • Использовался при построении Macmillian English Dictionanary 3
  • 4. Sketch Engine: Цели • Создание инструмента для изучения лексикографических свойств слов. – На базе корпусов – На базе статистических данных • Продвижение эмпирического подхода к изучению поведения слов в языке. 4
  • 5. Sketch Engine: Особенности • Поддерживает множество языков • Китайский, чешский, английский (американский и британский), эстонский, финский, греческий, итальянский, японский, польский, румынский, русский, испанский, шведский и др. • Необходима разметка для входных текстов • Морфологический анализ слов, определение грамматических отношений • Допускает: – Работу на разных корпусах, с разной разметкой – Изменение набора грамматических отношений 5
  • 6. Sketch Engine: Извлечение лексикографических данных • Word Sketch – поиск слов, связанных с данным словом заданными грамматическими отношениями • Word List – формирование списка слов по определенному критерию • Sketch Diff – сравнение Word Sketch для двух слов • Concordance – вычисление статистики по заданному запросу • Thesaurus – составление списка квазисинонимов для заданного слова 6
  • 7. Sketch Engine: Создание и сравнение корпусов • Corpus Architect – создание корпусов по исходным документам • WebBootCat – создание корпусов по заданным словам на базе Интернет • Сравнение корпусов • Просмотр параллельных корпусов 7
  • 9. Функция Word Sketch • Поиск слов, связанных с данным словом определенными для корпуса грамматическими отношениями • Для оценки связности слов используется мера logDice • Пример отношений: – object_to – объектные отношения • he scores a goal; достигнуть благородной цели – subject_to – субъектные отношения • his goal had earned they victory; цель заключалась в том, … – modifier/modifies – атрибутивные отношения • my ultimate goal; основной целью были деньги 9
  • 10. Грамматические отношения • Задаются шаблоном с помощью формального языка CQL (The Corpus Query Language) Грам. отношение: =my_subj/my_subject_of 1:"V.*" “N.*"{0,2} 2:[tag="PP"&word!=«я»] Сопоставление: водить машину она не умела иди ты лесом Описание языка: http://www.sketchengine.co.uk/documentation/wiki/SkE/CorpusQuerying#1. 10
  • 11. Word Sketch: Пример Набор отношений для слова “goal” Второй столбец – частота, третий – мера logDice 11
  • 12. Мера logDice 2 f ( a , b) log Dice = 14 + log2 f ( a ) + f ( b) • f – frequency, • f (a, b) – частота совместной встречаемости пары слов a, b • f (a) – абсолютная частота отдельного слова a 12
  • 13. Функция Word List • Формирование списка слов по определенному критерию (свойству) • Задаётся атрибут (словоформа, лемма или тег) • Этот атрибут конкретизируется с помощью регулярного выражения (что именно искать) 13
  • 14. Word List: Ввод запроса 14
  • 15. Word List: Результат по запросу Все существительные в корпусе 15
  • 16. Функция Sketch Diff • Сравнение Word Sketch двух слов • Для заданных слов: (напр.: clever/intelligent) по каждому грам. отношению (н.: modifier) строится общий список связанных слов. • Список выводится по возрастанию/убыванию меры logDice – В начале списка идут слова с высоким значением меры для второго и малым для первого, а в конце – наоборот. • Для визуализации различий используются красный и зеленый цвета 16
  • 18. Функция Concordance • Вычисление статистики по запросу • Отображаются контексты для слов, заданных в запросе • Виды запросов – Простой запрос: все вхождение данного слова – Лемма: все словоформы для данного слова – Фраза: все вхождения фразы – Словоформа: все вхождения данной словоформы – CQL – запрос на специальном языке CQL 18
  • 21. Функция Thesaurus • Построение списка квазисинонимов для данного слова (по корпусу) • Определяется на основе сравнения Word Sketch слов корпуса 21
  • 22. Функции создания и сравнения корпусов 22
  • 23. Функция Corpus Architect • Создание собственного корпуса из документов различного формата: TXT, PDF, PS, DOC, HTML, VERT (или архивы) • 2 этапа: – Загрузка документов – Разметка документов (включая морфологический анализ) 23
  • 24. Corpus Architect: Ввод источника данных 24
  • 25. Функция WebBootCat • Задаются слова, которые должны встречаться в документах • В качестве документов – интернет-страницы с указанными словами • 2 этапа – выборка страниц, их разметка 25
  • 26. Функция сравнения корпусов • Производится на основе анализа ключевых слов • Ключевые слова – слова, наиболее характерные для данного корпуса 26
  • 28. Функция просмотра параллельных корпусов • Параллельный корпус - мультиязычный корпус, где соотнесены текст на одном языке и его перевод на другой язык • Позволяет изучать, как слова и фразы в одном языке ведут себя в другом языке 28
  • 29. Параллельные корпуса: Пример • Английское слово “key” и немецкое “Schlüssel” 29
  • 30. Национальный корпус русского языка • Большой размеченный корпус, поделенный на подкорпусы (поэтический, газетный, диалектный и др.) с возможностью поиска по корпусу. • Ориентирован на изучение поведения слов в различных «стилях» – Газетные статьи, художественная литература, научная литература и т.п. • http://www.ruscorpora.ru 30
  • 31. Национальный корпус русского языка: Виды поиска • На основе морфологической разметки – Задается часть речи или словоформа (и грам. признаки) • На основе лексико-семантической информации и Семантического словаря Корпуса – Задается семантическая группа, к которой относится слово: еда, время и пространство и др. • На основе синтаксической разметки текста (доступен только для синтаксического корпуса) – Задаются синтаксические отношения 31
  • 32. Национальный корпус: поиск слов • Поиск по словам с возможным указанием контекста 32
  • 35. Заключение • Sketch Engine – мощное средство для просмотра, анализа, сбора статистики по текстам заданного корпуса. • Sketch Engine обладает достаточной гибкостью для работы с самыми разными корпусами 35