презентация1

КОРПУСНАЯ ЛИНГВИСТИКА
(CORPUS LINGUISTICS)

 Корпусная лингвистика и понятие
лингвистического корпуса.
 История зарождения корпусной лингвистики.
 Основные различия теоретической и корпусной
лингвистик.
 Основные понятия корпусной лингвистики и
области ее применения

КОРПУСНАЯ
ЛИНГВИСТИКА
научное направление,
занимающееся
разработкой общих
принципов построения и
использования
лингвистических
корпусов (корпусов
текста) с использованием
компьютерных
технологий.
 ЦЕЛЬ: лингвистическое описание
языковой системы и отражение
речевого материала в корпусе текстов,
который может использоваться другими
лингвистическими дисциплинами;
 ОБЪЕКТ: корпус текстов;
 ПРЕДМЕТ: теоретические основы и
практические механизмы создания и
использования представительных
массивов языковых данных,
предназначенных для лингвистических
исследований в интересах широкого
круга пользователей;
 ЗАДАЧИ: полное и системное
отражение содержательного общения
на языке.

ПРИЕМЫ И СТАДИИ
РАБОТЫ КОРПУСНОЙ
ЛИНГВИСТИКИ
 ПРИЕМЫ:
 автоматическое извлечение
сведений о языке из корпусов;
 обработка информации;
 проверка и интерпретация
обработанных данных.
 СТАДИИ:
 необходимость представить
структуру речевой
действительности;
 выявление материальных
ограничений на составление
корпуса;
 отбор текстов и составление
корпуса текста;
 компиляция текста.

 достаточно большой (репрезентативный) объем
корпуса гарантирует типичность данных и
обеспечивает полноту представления всего спектра
языковых явлений;
 данные разного типа находятся в корпусе в своей
естественной контекстной форме, что создает
возможность их всестороннего и объективного
изучения;
 однажды созданный и подготовленный массив данных
может использоваться многократно, многими
исследователями и в различных целях

 Проблемная область — область языковой системы, содержащая феномены,
подлежащие лингвистическому описанию
 Корпус данных — сформированная по определенным правилам выборка
данных из проблемной области.
 Единица хранения корпуса данных — совокупность естественноязыковых
выражений проблемной области (слова, короткие фразы, предложения,
словосочетания, целые тексты или их фрагменты).
 Коллокация (collocation) –последовательность слов или терминов,
частотность совместного появления которых в корпусе выше, чем
ожидаемая вероятность их совместного появления- мощный двигатель,
крепкий чай, нельзя сказать крепкий двигатель, мощный чай.
 Конкорданс –список всех употреблений заданного языкового выражения
(например, слова) в контексте, возможно, со ссылками на источник. Этот
термин употребляется и для обозначения ключевых слов книги,
расположенных в алфавитном порядке.

the wall goes on to the
distant
swelling
(возвышаясь)
on the horizon
marking the
he developed stress
induced
swelling (отек) of both knees and the
right
there is usually a
painless
swelling
(увеличение)
of the lymph glands
which
in her knees and
suffered from
swelling (отек) feet said that she was
able to
from across the Border, swelling
(увеличение)
their numbers to 300
but,
causes violent irritation
and
swelling (отек) which can seriously
impede
symptoms of poisoning
include
swelling
(припухлость)
skin irritation, rashes
or
there was a swelling
(нарастание,
затухание)
of human voices
out of the constricting
boot, the
swelling (опухоль) was all too visible
much she felt the
words
swelling
(подниались.
набухали)
her up inside like
leaven in
 Конкордансы используются
для решения следующих
лингвистических задач:
 сравнения различных
использований одного и того
же слова;
 анализа ключевых слов;
 анализа частотности слов и
словосочетаний;
 поиск и исследование фраз и
идиом;
 поиск перевода, например,
терминологии;
 создание списков слов (для
публикации).

 Библия
 Johnson, Oxford English Dictionary, Webster
Dictionary
 Частотный корпус Thorndike`a, 1921
 Дескриптивная грамматика ( Fries, 1940; Quirk,

 В 1963 г. Брауновский университет
 1 миллион слов
 500 фрагментов прозаических текстов,
относящихся к 15 наиболее массовым жанрам
 Цель создания: обеспечить системное изучение
отдельных жанров письменного английского
языка и сравнение жанров

 1960-е: Брауновский корпус, (США), 1млн слов
 1970-е: LOB корпус (Великобритания, Норвегия), 1млн. слов
 1980-е: Машинный Фонд русского языка
 Уппсальский корпус русского языка (Швеция), 1млн. слов
 1990-е BNC, 100 млн.слов, национальные корпуса (венгерский,
итальянский, хорватский, чешский, японский), 100 млн.слов
 The Bank of English, Birmingham ( Collins Cobuild), 600 млн.
слов
 2000-е: American National Corpus, 100 млн. слов
 Corpus of Contemporary American English, 400 млн. слов
 Национальный корпус русского языка, 140 млн слов
 Gigaword corpora: английский, арабский, китайский, 2 млрд.
слов
 Oxford English corpus, 2 млрд. слов

 2001 год – начало работы;
 Центр лингвистической документации при Независимом московском
университете, отдела экспериментальной лексикографии Института
русского языка им. В.В. Виноградова РАН; Институт языкознания РАН,
Институт проблем передачи информации РАН, Всероссийский институт
научной и технической информации РАН, Институт лингвистических
исследований РАН в Санкт-Петербурге, Воронежский государственный
университет.

Традиционная лингвистика Корпусная лингвистика
Основное внимание – изучение языка Основное внимание – изучение речи
Цель – описание и объяснение языка Цель – описание языка в том виде, как он проявил себя в речи,
представленной в виде специально подобранного корпуса текстов
В своих исследованиях идет от теории к ее объяснению и
подтверждению в фактах речи
В своих исследованиях опирается на данные корпуса текста
Предпочитает квалитативные (качественные) методы Предпочитает квантитативные методы
Видит себя частью традиций, базирующихся на
рационалистических методах
Видит себя частью традиций, базирующихся на эмпирических
методах
Текст рассматривается как некоторая абстракция Текст рассматривается как некоторая физическая сущность
Изучает языковые универсалии Составление грамматики конкретных языков
Основное внимание – не только форме, но и
содержанию
Основное внимание уделяется форме
Рассматривает тексты в локальной перспективе Рассматривает тексты в глобальной перспективе
Анализирует некоторую конкретную, искусственно ограниченную,
проблемную область
Фокусирует свое внимание на как можно более широком взгляде на
текст, неограниченном ни какими догмами
Опирается на интуицию в отборе речевого материала, в отборе
эмпирических материалов своих исследовании
В своих выводах опирается на наблюдение речевой деятельности,
проявленной в виде текстов
Предпочитает логические рассуждения Часто пользуется вероятностными методами и статистикой для
первичной обработки речевого материала
Предпочитаются искусственные примеры, из изолированных от
текста словоупотреблении
Проводится работа с лингвистическими данными
(словоупотреблениями) в том виде, в каком они встречались в
контексте
Предпочитает индуктивные методы обработки эмпирического
словесного материала, считает их сутью научного метода
Предпочитает дедуктивные методы обработки эмпирического
словесного материала
Верит в открытия, основанные на процедурах, оценках,
сравнениях и т.д
Верит в научные открытия, основанные на
обработке эмпирических данных

 лексикографические исследования, создание
словарей;
 получение точных данных о лексическом составе
языков, об относительных частотах употребления
слов;
 изучение изменений в лексическом составе языков,
различных его вариаций;
 изучение грамматики естественных языков,
сочетаемости грамматических явлений друг с
другом;
 изучение текстов, их функциональных стилей ;
 использование в обучении иностранным языкам;
 составление, многоязычных корпусов.

КОРПУС – ЭТО
 корпус — это организованное
определенным образом
словесное единство, элементами
которого являются тексты или
специальным образом
отобранные отрывки из текстов;
 корпус – это набор
лингвистических данных из
определенного языка в форме
записанных высказывании или
письменных текстов, доступный
для анализа;
 корпус — это набор
естественных текстов на любом
языке, устных или письменных,
который хранится электронном
виде и позволяет
организовать
компьютеризированный поиск.

 есть собрание отрывков текстов в
электронной форме, отобранных в
соответствии с внешними критериями, чтобы
наиболее полно представлять язык или
вариацию языка.
 Функционирует как источник данных для
лингвистических исследований.
(Джон Синклер)

ТРЕБОВАНИЯ К
ПОСТРОЕНИЮ
КОРПУСА
 Разметка (аннотация) :
морфологическая,
синтаксическая, семантическая,
анафорическая, просодическая;
 репрезентативность: 1. корпуса,
относящиеся ко всему языку. 2.
сознательно смещенные корпуса,
относящиеся к какому-либо
подъязыку (жанр, стиль, язык
определенной социальной
группы и т.д.).;
 полнота или размер
представляемого материала;
 экономичность;
 структуризация материала;
 компьютерная поддержка;

Синонимы:
part-of-speech tagging (POS-tagging),
частеречная разметка.
Элементы данных
морфологической разметки
включают:
лемму;
признак части речи;
признаки грамматических
категорий.
Attributes "pos"
of the tag <ana>
Attributes "gram"
of the tag <ana>
С - существительное,
П - прилагательное,
Г - глагол в личной форме,
ПРИЧАСТИЕ - причастие
;
ДЕЕПРИЧАСТИЕ –
деепричастие,
ИНФИНИТИВ –
инфинитив,
МС - местоимение-
существительное,
МС-П - местоименное
прилагательное ,
МС-ПРЕДК -
местоимение-предикатив ,
ЧИСЛ - числительное
(количественное),
ЧИСЛ-П - порядковое
числительное,
мр, жр, ср - мужской,
женский, средний род;
од, но - одушевленность,
неодушевленность;
ед, мн - единственное,
множественное число;
им, рд, дт, вн, тв, пр, зв -
падежи: именительный,
родительный, дательный,
винительный, творительный,
предложный, звательный;
2 - второй родительный или
второй предложный падежи;
св, нс - совершенный,
несовершенный вид;
пе, нп - переходный,
непереходный глагол;
дст, стр - действительный,
страдательный залог;
нст, прш, буд - настоящее,
прошедшее, будущее время;

 грамматика зависимостей;
 грамматика
непосредственно-
составляющих;
 грамматика структурных
схем;
 традиционные
синтаксические учения о
членах предложения;
 функциональная
грамматика;
 семантический синтаксис;
 и др.
 Пример синтаксического разбора
(грамматика зависимостей, система ЭТАП-
3)
 Long ago, in the city of Babylon, the
people began to build a huge tower
which seemed to reach the heavens
soon.

 Значения слов
 Разрешение омонимии и
синонимии
 Категоризация слов
(разряды)
 Тематические классы
 Признаки каузативности
 Оценки
 Деривационные
характеристики
 И т.д.
Три группы помет:
 разряд
• имя собственное
• возвратное местоимение
• и т.д.
 лексико-семантические
характеристики:
• таксономия (тематический класс
лексемы) — для имен
существительных, прилагательных,
глаголов и наречий;
• мереология (указание на отношения
«часть — целое», «элемент —
множество») — для предметных и
непредметных имен;
• топология (топологический статус
обозначаемого объекта) — для
предметных имен;
• каузация — для глаголов;
• служебный статус — для глаголов;
• оценка — для предметных и
непредметных имен,
прилагательных и наречий.

признак Типы корпусов
По форме хранения Письменные, речевые, смешанные
Язык текстов Русский, английский и т.д.
Языки представления, «параллельность» Одноязычные, двуязычные, многоязычные
«Литературность», специфичность Литературные, диалектные, разговорные,
терминологические, смешанные
По жанровой принадлежности Литературные, фольклорные, драматургические,
публицистические
Доступность Свободно доступные, коммерческие, закрытые
Назначение Исследовательские, иллюстративные
Динамичность Динамические (мониторные), статические
Разметка Размеченные, неразмеченные
Характер разметки Морфологические, синтаксические,
семантические, анафорические, просодические
Объем текстов Полнотекстовые, фрагментнотекстовые
Хронологический аспект Синхронические, диахронические
«Общность» Общие, одного писателя
Структура Центральные и архивные, ядерные и
периферийные

НАИБОЛЕЕ ЗНАЧИМЫЕ
ЛИНГВИСТИЧЕСКИЕ
КОРПУСА
 Исследовательские корпусы —
предназначены для изучения
различных аспектов
функционирования языковой
системы;
 Иллюстративные корпусы —
подтверждают полученные
результаты;
 Динамические и
статистические корпусы
текстов - выявляют
функционирование на временной
шкале;
 Корпусы параллельных
текстов - подмножество текстов
на языке-источнике и одно или
несколько подмножеств текстов-
переводов языка-источника.

1) переводчики-практики;
2) лексикографы;
3) разработчики систем машинного перевода и
лексиконов к ним;
4) разработчиков систем переводческой памяти
(типа Trados Workbench и Star Transit);
5) лингвисты, в т.ч. компаративисты,
лексикологи, переводоведы, литературоведы,
социологи и культурологи;
6) преподаватели и студенты (в качестве источника
образцов перевода и языковых примеров)

ТЕХНОЛОГИЧЕСКИЙ
ПРОЦЕСС СОЗДАНИЯ
КОРПУСА
 1. Определение перечня источников.
 2. Оцифровка текстов
(преобразование в компьютерную
форму);
 3. Предобработка текста;
 4. Конвертирование и
графематический анализ;
 5. Разметка текста;
 6. Корректировка результатов
автоматической разметки;
 7. Конвертирование размеченных
текстов в структуру
специализированной
лингвистической информационно-
поисковой системы (corpus manager)
 8. Обеспечение доступа к корпусу.

 Наиболее
распространенными
примерами корпусов
являются:
 тексты конкретного
писателя или писателей;
 тексты за конкретное
десятилетие или столетие;
 современные тексты
определенной тематики;
 современные тексты,
адекватно представляющие
язык или общество.
 Корпусные менеджеры:
 поиск конкретных словоформ;
 поиск словоформ по леммам;
 поиск группы словоформ в виде
разрывной или неразрывной
синтагмы;
 поиск словоформ по набору
морфологических признаков;
 отображение информации о
происхождении, типе текста и т.п.;
 вывод результатов поиска с
указанием контекста заданной
длины;
 получение различных лексико-
грамматических статистических
данных;
 сохранение отобранных строк
конкорданса в отдельном файле на
компьютере пользователя и др.

презентация1

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Viewers also liked

Viewers also liked (15)

Similar to презентация1

Similar to презентация1 (20)

презентация1