SlideShare a Scribd company logo
1 of 22
Основные понятия
корпусной лингвистики
Технологии корпусной лингвистики.
Лекция 1
А.В. Луканин
Корпусная лингвистика
 это раздел компьютерной лингвистики,
занимающийся разработкой общих
принципов построения и использования
лингвистических корпусов (корпусов
текстов) с применением компьютерных
технологий
Корпус текстов
 это большой, представленный в
машиночитаемом виде,
унифицированный, структурированный,
размеченный, филологически
компетентный массив языковых данных,
предназначенный для решения
конкретных лингвистических задач
 включает информацию о ситуации, в
которой текст был произведен, такую как
информация о говорящем, авторе,
адресате или аудитории
Корпус текстов
 используются для статистического
анализа и проверки гипотез, проверки
случаев встречаемости или обоснования
языковых правил по определенным
областям
 в основе него должен лежать логический
замысел, логическая идея, объединяющая
эти тексты и воплощенная в правилах
организации текстов в корпус, алгоритме и
программе анализа корпуса текстов
Корпусный менеджер
 это специализированная поисковая
система, включающая программные
средства для поиска данных в корпусе,
получения статистической информации и
предоставления пользователю
результатов в удобной форме
 Поиск в корпусе позволяет по любому
слову построить конкорданс
Конкорданс
 это список всех употреблений данного
слова в контексте со ссылками на
источник
<A> лингвистика
Корпус текстов
 Корпусы могут использоваться для
получения разнообразных справок и
статистических данных о языковых и
речевых единицах:
 определить частоту словоформ, лексем,
грамматических категорий,
 проследить изменение частот и контекстов в
различные периоды времени,
 получить данные о совместной встречаемости
лексических единиц и т.д.
Брауновский корпус
 The Brown Standard Corpus of American
English (1964)
 включает 500 текстов из американских книг,
газет, журналов, впервые опубликованных в
США в 1961 году
 был разработан в Брауновском университете
(Brown University) в США в 1963 году
 1 млн. слов (500 текстов по 2000 слов в
каждом)
 Авторы корпуса У. Френсис (W. Francis) и
Г. Кучера (H. Kucera)
Брауновский корпус
 снабжён большим количеством
материалов первичной статистической
обработки: частотным и алфавитно-
частотным словарем, разнообразными
статистическими распределениями
 Цель создания – обеспечить системное
изучение отдельных жанров письменного
английского языка и сравнение жанров
Корпус Ланкастер-Осло-Берген
 The Lancaster-Oslo-Bergen Corpus (1978)
 назван по названиям британского и двух
норвежских университетов, или кратко LOB
 включает тексты из 15 жанров (регистров),
впервые опубликованных в Великобритании в
1961 году
 1 млн. слов британского варианта английского
языка (500 текстов по 2000 слов в каждом)
История создания корпусов
 К 1990 году уже было зафиксировано более 600
компьютерных корпусов.
 По годам составления они были распределены
примерно следующим образом:
-1965 10
1966-1970 20
1971-1975 30
1976-1980 80
1981-1985 160
1986-1990 320
История создания корпусов
 Среди современных корпусов английского
языка (как британского, так и американского
варианта) наиболее известны
 Британский национальный корпус (British National
Corpus – BNC),
 Международный корпус английского языка
(International Corpus of English – ICE),
 лингвистический Банк английского языка (Bank of
English),
 Корпус современного американского английского
(Corpus of Contemporary American English – COCA)
и др.
История создания корпусов
 В настоящее время корпусы созданы для
многих языков мира
 Современные корпусы насчитывают уже
сотни миллиардов словоупотреблений
Репрезентативность корпусов
 Термин «корпус» обычно обозначает собрание
текстов конечного фиксированного размера
 С течением времени объем и состав корпуса
может меняться, однако эти изменения должны
либо не менять его структуру, либо менять ее
обоснованно
 Представительность корпуса, соотношение его
отдельных частей (по разным характеристикам)
получили название репрезентативности, или
сбалансировнности
Репрезентативность корпусов
 Объём первых корпусов составлял 1 млн.
словоупотреблений
 Брауновский корпус
 корпус Ланкастер-Осло-Берген
 Упсальский корпус русского языка
 Такой объём не позволял отражать язык
во всем его многообразии
 В настоящее время считается, что
общеязыковой (национальный) корпус
должен включать не менее 100 млн.
словоупотреблений.
Репрезентативность корпусов
 Национальный корпус представляет
данный язык на определенном этапе (или
этапах) его существования во всём
многообразии жанров, стилей,
территориальных и социальных вариантов
и т. п.
 НКРЯ, http://ruscorpora.ru
 BNC, ограниченно доступный по адресу
http://www.natcorp.ox.ac.uk/ или
http://sara.natcorp.ox.ac.uk
Репрезентативность корпусов
 Корпус – это уменьшенная модель языка или
подъязыка
 Под репрезентативностью понимается
необходимо-достаточное и пропорциональное
представление в корпусе текстов различных
периодов, жанров, стилей, авторов и т.д., то есть
способность отражать все свойства проблемной
области
 репрезентативность корпуса определяет
достоверность полученных на его материале
результатов
Корпусы для специальной цели
 отражают бытование некоторого
лингвистического или культурного
феномена в общественной речевой
практике, они построены ad hoc
 корпус пословиц
 корпус политических метафор в газетной речи
 критерием репрезентативности будет
служить требование максимально
объективного представления бытования
интересующего его создателей явления
Корпусы для специальной цели
 В начале XXI века свободно обсуждаются
такие корпусы текстов, как
 корпус газетных заголовков
 корпус английских текстов, предназначенных
для отладки систем машинного перевода
 корпус политических метафор
 критерий отбора текстов в таких корпусах
задает его создатель, исходя из целей
своей практической или научной
деятельности
Методология конструирования
корпуса
 должна зависеть от типа корпуса
 Для национальных корпусов:
основывается на принципе дедукции –
реализации проблемы корректности
движения от общего (объективно
существующей речевой практики
носителей языка) к отражающему это
общее частному корпусу текстов
Методология конструирования
корпуса
 Для корпусов ad hoc: должна корректно
отражать частные, единичные
лингвистические феномены в корпусе
текстов, специально созданном для их
отражения
 Часто применяется комбинированный
подход

More Related Content

What's hot

Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовArtem Lukanin
 
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаYevgeniya Grigoryeva
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английскогоmaymarina19
 
Конкорданс
Конкорданс Конкорданс
Конкорданс zojju
 
львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусыmetodika
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика KseniyaVitl
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаKseniyaDolgova
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографииYevgeniya Grigoryeva
 
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Анастасия Терешенко
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языкаYevgeniya Grigoryeva
 
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найдаKlunnyy
 
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеКорпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеWitology
 
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследованияVictoria Ishen
 
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарейYevgeniya Grigoryeva
 
Двуязычные словари
Двуязычные словариДвуязычные словари
Двуязычные словариYevgeniya Grigoryeva
 
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Marina Efremova
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power pointdergachkate
 

What's hot (19)

Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
 
презентация1
презентация1презентация1
презентация1
 
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языка
 
Concordances
ConcordancesConcordances
Concordances
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
 
Конкорданс
Конкорданс Конкорданс
Конкорданс
 
львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусы
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
 
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание"
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языка
 
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найда
 
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеКорпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
 
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследования
 
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарей
 
Двуязычные словари
Двуязычные словариДвуязычные словари
Двуязычные словари
 
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
 

Similar to Основные понятия корпусной лингвистики

корпусная лингвистика 03
корпусная лингвистика 03корпусная лингвистика 03
корпусная лингвистика 03KseniyaVitl
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика KseniyaVitl
 
8 ry bu
8 ry bu8 ry bu
8 ry bu11book
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_русAira_Roo
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaSvinka Pepa
 
8 rm ru
8 rm ru8 rm ru
8 rm ru8new
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaUA7009
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovkreidaros1
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovportfel
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяковoleg379
 
10 ry p
10 ry p10 ry p
10 ry pUA1011
 
10 ry p
10 ry p10 ry p
10 ry p4book
 
10 русск яз_пашковская_pус
10 русск яз_пашковская_pус10 русск яз_пашковская_pус
10 русск яз_пашковская_pусAira_Roo
 
10 русск яз-рудяков_фролова_2010_рус
10 русск яз-рудяков_фролова_2010_рус10 русск яз-рудяков_фролова_2010_рус
10 русск яз-рудяков_фролова_2010_русAira_Roo
 
Rosijska mova-10-klas-rudjakov
Rosijska mova-10-klas-rudjakovRosijska mova-10-klas-rudjakov
Rosijska mova-10-klas-rudjakovkreidaros1
 
Portfel.in.ua 107 rus_yaz_rud
Portfel.in.ua 107 rus_yaz_rudPortfel.in.ua 107 rus_yaz_rud
Portfel.in.ua 107 rus_yaz_rudportfel
 

Similar to Основные понятия корпусной лингвистики (20)

корпусная лингвистика 03
корпусная лингвистика 03корпусная лингвистика 03
корпусная лингвистика 03
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
 
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
 
8 ry bu
8 ry bu8 ry bu
8 ry bu
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakova
 
8 rm ru
8 rm ru8 rm ru
8 rm ru
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakova
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakov
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakov
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяков
 
10 ry p
10 ry p10 ry p
10 ry p
 
пукри
пукрипукри
пукри
 
10 ry p
10 ry p10 ry p
10 ry p
 
10 русск яз_пашковская_pус
10 русск яз_пашковская_pус10 русск яз_пашковская_pус
10 русск яз_пашковская_pус
 
рус. яз.
рус. яз.рус. яз.
рус. яз.
 
10 русск яз-рудяков_фролова_2010_рус
10 русск яз-рудяков_фролова_2010_рус10 русск яз-рудяков_фролова_2010_рус
10 русск яз-рудяков_фролова_2010_рус
 
10
1010
10
 
Rosijska mova-10-klas-rudjakov
Rosijska mova-10-klas-rudjakovRosijska mova-10-klas-rudjakov
Rosijska mova-10-klas-rudjakov
 
Portfel.in.ua 107 rus_yaz_rud
Portfel.in.ua 107 rus_yaz_rudPortfel.in.ua 107 rus_yaz_rud
Portfel.in.ua 107 rus_yaz_rud
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexArtem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного переводаArtem Lukanin
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовArtem Lukanin
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сетиArtem Lukanin
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматовArtem Lukanin
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOArtem Lukanin
 

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
Криптография
КриптографияКриптография
Криптография
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
 

Основные понятия корпусной лингвистики

  • 1. Основные понятия корпусной лингвистики Технологии корпусной лингвистики. Лекция 1 А.В. Луканин
  • 2. Корпусная лингвистика  это раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий
  • 3. Корпус текстов  это большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач  включает информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории
  • 4. Корпус текстов  используются для статистического анализа и проверки гипотез, проверки случаев встречаемости или обоснования языковых правил по определенным областям  в основе него должен лежать логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов
  • 5. Корпусный менеджер  это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме  Поиск в корпусе позволяет по любому слову построить конкорданс
  • 6. Конкорданс  это список всех употреблений данного слова в контексте со ссылками на источник
  • 8. Корпус текстов  Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах:  определить частоту словоформ, лексем, грамматических категорий,  проследить изменение частот и контекстов в различные периоды времени,  получить данные о совместной встречаемости лексических единиц и т.д.
  • 9. Брауновский корпус  The Brown Standard Corpus of American English (1964)  включает 500 текстов из американских книг, газет, журналов, впервые опубликованных в США в 1961 году  был разработан в Брауновском университете (Brown University) в США в 1963 году  1 млн. слов (500 текстов по 2000 слов в каждом)  Авторы корпуса У. Френсис (W. Francis) и Г. Кучера (H. Kucera)
  • 10. Брауновский корпус  снабжён большим количеством материалов первичной статистической обработки: частотным и алфавитно- частотным словарем, разнообразными статистическими распределениями  Цель создания – обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров
  • 11. Корпус Ланкастер-Осло-Берген  The Lancaster-Oslo-Bergen Corpus (1978)  назван по названиям британского и двух норвежских университетов, или кратко LOB  включает тексты из 15 жанров (регистров), впервые опубликованных в Великобритании в 1961 году  1 млн. слов британского варианта английского языка (500 текстов по 2000 слов в каждом)
  • 12. История создания корпусов  К 1990 году уже было зафиксировано более 600 компьютерных корпусов.  По годам составления они были распределены примерно следующим образом: -1965 10 1966-1970 20 1971-1975 30 1976-1980 80 1981-1985 160 1986-1990 320
  • 13. История создания корпусов  Среди современных корпусов английского языка (как британского, так и американского варианта) наиболее известны  Британский национальный корпус (British National Corpus – BNC),  Международный корпус английского языка (International Corpus of English – ICE),  лингвистический Банк английского языка (Bank of English),  Корпус современного американского английского (Corpus of Contemporary American English – COCA) и др.
  • 14. История создания корпусов  В настоящее время корпусы созданы для многих языков мира  Современные корпусы насчитывают уже сотни миллиардов словоупотреблений
  • 15. Репрезентативность корпусов  Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера  С течением времени объем и состав корпуса может меняться, однако эти изменения должны либо не менять его структуру, либо менять ее обоснованно  Представительность корпуса, соотношение его отдельных частей (по разным характеристикам) получили название репрезентативности, или сбалансировнности
  • 16. Репрезентативность корпусов  Объём первых корпусов составлял 1 млн. словоупотреблений  Брауновский корпус  корпус Ланкастер-Осло-Берген  Упсальский корпус русского языка  Такой объём не позволял отражать язык во всем его многообразии  В настоящее время считается, что общеязыковой (национальный) корпус должен включать не менее 100 млн. словоупотреблений.
  • 17. Репрезентативность корпусов  Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.  НКРЯ, http://ruscorpora.ru  BNC, ограниченно доступный по адресу http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk
  • 18. Репрезентативность корпусов  Корпус – это уменьшенная модель языка или подъязыка  Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.д., то есть способность отражать все свойства проблемной области  репрезентативность корпуса определяет достоверность полученных на его материале результатов
  • 19. Корпусы для специальной цели  отражают бытование некоторого лингвистического или культурного феномена в общественной речевой практике, они построены ad hoc  корпус пословиц  корпус политических метафор в газетной речи  критерием репрезентативности будет служить требование максимально объективного представления бытования интересующего его создателей явления
  • 20. Корпусы для специальной цели  В начале XXI века свободно обсуждаются такие корпусы текстов, как  корпус газетных заголовков  корпус английских текстов, предназначенных для отладки систем машинного перевода  корпус политических метафор  критерий отбора текстов в таких корпусах задает его создатель, исходя из целей своей практической или научной деятельности
  • 21. Методология конструирования корпуса  должна зависеть от типа корпуса  Для национальных корпусов: основывается на принципе дедукции – реализации проблемы корректности движения от общего (объективно существующей речевой практики носителей языка) к отражающему это общее частному корпусу текстов
  • 22. Методология конструирования корпуса  Для корпусов ad hoc: должна корректно отражать частные, единичные лингвистические феномены в корпусе текстов, специально созданном для их отражения  Часто применяется комбинированный подход