SlideShare a Scribd company logo
1 of 15
Классификация корпусов
Технологии корпусной лингвистики. Лекция 2
А.В. Луканин
2 основных способа деления корпусов на
классы
 1) противопоставление корпусов, относящихся ко
всему языку (часто к языку определенного
периода), корпусам, относящимся к какому-либо
подъязыку (жанр, стиль, язык определенной
возрастной или социальной группы, язык писателя
или ученого и т.д.);
2 основных способа деления корпусов на
классы
 2) разделение корпусов по типу лингвистической
разметки.
 Несмотря на наличие множества типов разметки,
большинство реально существующих корпусов
относится к корпусам
 морфологического типа
 синтаксического типа (treebanks, «банки синтаксических
структур»).
Классификация корпусов
 по типу языковых данных
 письменные (Брауновский корпус, Ланкастер-
Осло-Берген)
 устные
 смешанные (национальные корпусы: НКРЯ, BNC
и др.)
По критерию параллельности
 одноязычные
 противопоставляются диалекты, варианты языка
 например, разновидности английского языка, как английский как
родной и английский как иностранный
 двуязычные и многоязычные
 например, корпус материалов конференций по определенной
научной проблеме, проходивших в разных странах и на разных
языках
 множество текстов-оригиналов, написанных на каком-либо
исходном языке, и текстов-переводов этих исходных текстов на
один или несколько других языков
По критерию «литературности»
 литературные
 диалектные
 разговорные
 корпус Один Речевой День
 терминологические
 корпус текстов по корпусной лингвистике, позволяющий
разрабатывать терминологический словарь непосредственно на
живом текстовом материале
 смешанные
По цели создания
 многоцелевые
 обычно содержат тексты различных жанров (сюда
относятся национальные корпусы)
 специализированные
 ограничиваются одним жанром или группой жанров
По жанру
 литературные
 фольклорные
 драматургические
 публицистические
 Компьютерный корпус текстов русских газет конца ХХ-
ого века http://www.philol.msu.ru/~lex/corpus/
 корпус политических метафор
 и др.
По критерию доступности
 Свободно доступные
 on-line доступ ко всем текстам корпуса в полном объеме
 загрузка полного корпуса
 свободный доступ к части корпуса
 Коммерческие
 нужно покупать право его использования on-line или копию на
компакт-диске
 Закрытые корпусы
 создаются для узко специфических целей и не предназначены для
публичного использования
По назначению
 Исследовательские
 создаются с целью изучения различных аспектов
функционирования языка
 ориентированы на широкий класс лингвистических задач
 Иллюстративные
 создаются после проведения научного исследования: их
цель не столько выявить новые факты, сколько
подтвердить и обосновать уже полученные результаты
По «динамичности»
 Статические
 содержат тексты какого-то небольшого временнóго промежутка
 например, авторские корпусы – коллекции текстов писателей
 Динамические
 для выявления функционирования языковых феноменов на
временнóй шкале – например, изменения значения слов, частоты
использования тех или иных синтаксических конструкций и т.д.
Динамические корпусы
 называют также мониторными или
мониторинговыми
 Цель – «складировать» постоянно растущее
количество текстов в памяти компьютера
 В течение заранее фиксированного промежутка
времени происходит обновление и/или дополнение
множества текстов корпуса
Динамические корпусы
 позволяют лексикографам следить за новыми
словами, проникающими в язык, или за уже
существующими словами, меняющими свое
значение, а также за балансом их употребления в
соответствии со стилем
 В них, как правило, включают письменные
источники большого временнóго периода
 Они предназначены для проведения различных
диахронических исследований
Классификация по критерию
размеченности
 размеченные (индексированные, аннотированные,
таггированые)
 словам или предложениям присваиваются метки (тэги) в
соответствии с характером разметки:
 морфологические
 синтаксические
 семантические
 просодические и др.
 неразмеченные (неиндексированные, неаннотированные,
нетаггированные)
По критерию «объём текстов»
 полнотекстовые
 некоторые корпусы текстов определенного автора
 корпусы коротких текстов
 например, корпус мерфизмов (так называемых «законов подлости»)
 корпус газетных заголовков
 фрагментотекстовые
 Брауновский корпус и корпус Ланкастер-Осло-Берген должны были
строго соответствовать определенным критериям - длина текста =
2000 слов (словоупотреблений)
 текстов, строго соответствующих таким критериям, практически нет

More Related Content

What's hot

Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовArtem Lukanin
 
львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусыmetodika
 
Конкорданс
Конкорданс Конкорданс
Конкорданс zojju
 
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаYevgeniya Grigoryeva
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографииYevgeniya Grigoryeva
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английскогоmaymarina19
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаKseniyaDolgova
 
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Анастасия Терешенко
 
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найдаKlunnyy
 
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследованияVictoria Ishen
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика KseniyaVitl
 
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеКорпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеWitology
 
подготовка к гиа
подготовка к гиаподготовка к гиа
подготовка к гиаDrofaUral
 
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Marina Efremova
 
Проект Устаревшие слова в пословицах.
Проект Устаревшие слова в пословицах. Проект Устаревшие слова в пословицах.
Проект Устаревшие слова в пословицах. Pchelochka
 
Проект Устаревшие слова в пословицах
Проект Устаревшие слова в пословицахПроект Устаревшие слова в пословицах
Проект Устаревшие слова в пословицахPchelochka
 

What's hot (19)

Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
 
презентация1
презентация1презентация1
презентация1
 
львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусы
 
Concordances
ConcordancesConcordances
Concordances
 
Конкорданс
Конкорданс Конкорданс
Конкорданс
 
Электронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языкаЭлектронные корпусы как основа словарей современного английского языка
Электронные корпусы как основа словарей современного английского языка
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
 
Корпус современного американского английского
Корпус современного американского английскогоКорпус современного американского английского
Корпус современного американского английского
 
P2 ozo kav
P2 ozo kavP2 ozo kav
P2 ozo kav
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание" Сравнительное исследование переводов книги "Преступление и наказание"
Сравнительное исследование переводов книги "Преступление и наказание"
 
копия юджин альберт найда
копия юджин альберт найдакопия юджин альберт найда
копия юджин альберт найда
 
Контекстный метод исследования
Контекстный метод исследованияКонтекстный метод исследования
Контекстный метод исследования
 
корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
 
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйствеКорпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве
 
подготовка к гиа
подготовка к гиаподготовка к гиа
подготовка к гиа
 
Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"Интеллектуальная игра "Синтез наук"
Интеллектуальная игра "Синтез наук"
 
Проект Устаревшие слова в пословицах.
Проект Устаревшие слова в пословицах. Проект Устаревшие слова в пословицах.
Проект Устаревшие слова в пословицах.
 
Проект Устаревшие слова в пословицах
Проект Устаревшие слова в пословицахПроект Устаревшие слова в пословицах
Проект Устаревшие слова в пословицах
 

Viewers also liked

Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentationiwan_rg
 

Viewers also liked (20)

Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 

Similar to Классификация корпусов

938 методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...
938  методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...938  методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...
938 методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...psvayy
 
справочная литература reference books
справочная литература reference booksсправочная литература reference books
справочная литература reference booksnastya957
 
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарейYevgeniya Grigoryeva
 
Типология словарей
Типология словарейТипология словарей
Типология словарейYevgeniya Grigoryeva
 
Kakie byvayut slovari
Kakie byvayut slovariKakie byvayut slovari
Kakie byvayut slovariAllaDudka2
 
8 ry bu
8 ry bu8 ry bu
8 ry bu11book
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_русAira_Roo
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaSvinka Pepa
 
8 rm ru
8 rm ru8 rm ru
8 rm ru8new
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaUA7009
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovkreidaros1
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovportfel
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяковoleg379
 
851 русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с
851  русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с851  русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с
851 русский язык. 8кл. поурочн. разр. тростенцова-2014 -207сdfdkfjs
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языкаYevgeniya Grigoryeva
 
методика преподавания английского языка
методика преподавания английского языкаметодика преподавания английского языка
методика преподавания английского языкаcupriyanova
 
Рабочая программа по русскому языку 9 класс
Рабочая программа по русскому языку 9 классРабочая программа по русскому языку 9 класс
Рабочая программа по русскому языку 9 классОльга Бутонакова
 

Similar to Классификация корпусов (20)

компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
 
938 методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...
938  методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...938  методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...
938 методич. рекоменд. к уч. русский яз. 10-11кл. власенкова, рыбченковой. к...
 
справочная литература reference books
справочная литература reference booksсправочная литература reference books
справочная литература reference books
 
Проблема классификации словарей
Проблема классификации словарейПроблема классификации словарей
Проблема классификации словарей
 
Taisia ACULOVA. Indexarea pe subiecte Indexarea documentelor cu privire la un...
Taisia ACULOVA. Indexarea pe subiecte Indexarea documentelor cu privire la un...Taisia ACULOVA. Indexarea pe subiecte Indexarea documentelor cu privire la un...
Taisia ACULOVA. Indexarea pe subiecte Indexarea documentelor cu privire la un...
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Kakie byvayut slovari
Kakie byvayut slovariKakie byvayut slovari
Kakie byvayut slovari
 
8 ry bu
8 ry bu8 ry bu
8 ry bu
 
презентация1
презентация1презентация1
презентация1
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakova
 
8 rm ru
8 rm ru8 rm ru
8 rm ru
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakova
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakov
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakov
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяков
 
851 русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с
851  русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с851  русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с
851 русский язык. 8кл. поурочн. разр. тростенцова-2014 -207с
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языка
 
методика преподавания английского языка
методика преподавания английского языкаметодика преподавания английского языка
методика преподавания английского языка
 
Рабочая программа по русскому языку 9 класс
Рабочая программа по русскому языку 9 классРабочая программа по русскому языку 9 класс
Рабочая программа по русскому языку 9 класс
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexArtem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного переводаArtem Lukanin
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовArtem Lukanin
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сетиArtem Lukanin
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматовArtem Lukanin
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOArtem Lukanin
 

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
Криптография
КриптографияКриптография
Криптография
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
 

Классификация корпусов

  • 1. Классификация корпусов Технологии корпусной лингвистики. Лекция 2 А.В. Луканин
  • 2. 2 основных способа деления корпусов на классы  1) противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.д.);
  • 3. 2 основных способа деления корпусов на классы  2) разделение корпусов по типу лингвистической разметки.  Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам  морфологического типа  синтаксического типа (treebanks, «банки синтаксических структур»).
  • 4. Классификация корпусов  по типу языковых данных  письменные (Брауновский корпус, Ланкастер- Осло-Берген)  устные  смешанные (национальные корпусы: НКРЯ, BNC и др.)
  • 5. По критерию параллельности  одноязычные  противопоставляются диалекты, варианты языка  например, разновидности английского языка, как английский как родной и английский как иностранный  двуязычные и многоязычные  например, корпус материалов конференций по определенной научной проблеме, проходивших в разных странах и на разных языках  множество текстов-оригиналов, написанных на каком-либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков
  • 6. По критерию «литературности»  литературные  диалектные  разговорные  корпус Один Речевой День  терминологические  корпус текстов по корпусной лингвистике, позволяющий разрабатывать терминологический словарь непосредственно на живом текстовом материале  смешанные
  • 7. По цели создания  многоцелевые  обычно содержат тексты различных жанров (сюда относятся национальные корпусы)  специализированные  ограничиваются одним жанром или группой жанров
  • 8. По жанру  литературные  фольклорные  драматургические  публицистические  Компьютерный корпус текстов русских газет конца ХХ- ого века http://www.philol.msu.ru/~lex/corpus/  корпус политических метафор  и др.
  • 9. По критерию доступности  Свободно доступные  on-line доступ ко всем текстам корпуса в полном объеме  загрузка полного корпуса  свободный доступ к части корпуса  Коммерческие  нужно покупать право его использования on-line или копию на компакт-диске  Закрытые корпусы  создаются для узко специфических целей и не предназначены для публичного использования
  • 10. По назначению  Исследовательские  создаются с целью изучения различных аспектов функционирования языка  ориентированы на широкий класс лингвистических задач  Иллюстративные  создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты
  • 11. По «динамичности»  Статические  содержат тексты какого-то небольшого временнóго промежутка  например, авторские корпусы – коллекции текстов писателей  Динамические  для выявления функционирования языковых феноменов на временнóй шкале – например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и т.д.
  • 12. Динамические корпусы  называют также мониторными или мониторинговыми  Цель – «складировать» постоянно растущее количество текстов в памяти компьютера  В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса
  • 13. Динамические корпусы  позволяют лексикографам следить за новыми словами, проникающими в язык, или за уже существующими словами, меняющими свое значение, а также за балансом их употребления в соответствии со стилем  В них, как правило, включают письменные источники большого временнóго периода  Они предназначены для проведения различных диахронических исследований
  • 14. Классификация по критерию размеченности  размеченные (индексированные, аннотированные, таггированые)  словам или предложениям присваиваются метки (тэги) в соответствии с характером разметки:  морфологические  синтаксические  семантические  просодические и др.  неразмеченные (неиндексированные, неаннотированные, нетаггированные)
  • 15. По критерию «объём текстов»  полнотекстовые  некоторые корпусы текстов определенного автора  корпусы коротких текстов  например, корпус мерфизмов (так называемых «законов подлости»)  корпус газетных заголовков  фрагментотекстовые  Брауновский корпус и корпус Ланкастер-Осло-Берген должны были строго соответствовать определенным критериям - длина текста = 2000 слов (словоупотреблений)  текстов, строго соответствующих таким критериям, практически нет