SlideShare a Scribd company logo
КОРПУСНАЯ ЛИНГВИСТИКА
(CORPUS LINGUISTICS)
 Корпусная лингвистика и понятие
лингвистического корпуса.
 История зарождения корпусной лингвистики.
 Основные различия теоретической и корпусной
лингвистик.
 Основные понятия корпусной лингвистики и
области ее применения
КОРПУСНАЯ
ЛИНГВИСТИКА
научное направление,
занимающееся
разработкой общих
принципов построения и
использования
лингвистических
корпусов (корпусов
текста) с использованием
компьютерных
технологий.
 ЦЕЛЬ: лингвистическое описание
языковой системы и отражение
речевого материала в корпусе текстов,
который может использоваться другими
лингвистическими дисциплинами;
 ОБЪЕКТ: корпус текстов;
 ПРЕДМЕТ: теоретические основы и
практические механизмы создания и
использования представительных
массивов языковых данных,
предназначенных для лингвистических
исследований в интересах широкого
круга пользователей;
 ЗАДАЧИ: полное и системное
отражение содержательного общения
на языке.
ПРИЕМЫ И СТАДИИ
РАБОТЫ КОРПУСНОЙ
ЛИНГВИСТИКИ
 ПРИЕМЫ:
 автоматическое извлечение
сведений о языке из корпусов;
 обработка информации;
 проверка и интерпретация
обработанных данных.
 СТАДИИ:
 необходимость представить
структуру речевой
действительности;
 выявление материальных
ограничений на составление
корпуса;
 отбор текстов и составление
корпуса текста;
 компиляция текста.
 достаточно большой (репрезентативный) объем
корпуса гарантирует типичность данных и
обеспечивает полноту представления всего спектра
языковых явлений;
 данные разного типа находятся в корпусе в своей
естественной контекстной форме, что создает
возможность их всестороннего и объективного
изучения;
 однажды созданный и подготовленный массив данных
может использоваться многократно, многими
исследователями и в различных целях
 Проблемная область — область языковой системы, содержащая феномены,
подлежащие лингвистическому описанию
 Корпус данных — сформированная по определенным правилам выборка
данных из проблемной области.
 Единица хранения корпуса данных — совокупность естественноязыковых
выражений проблемной области (слова, короткие фразы, предложения,
словосочетания, целые тексты или их фрагменты).
 Коллокация (collocation) –последовательность слов или терминов,
частотность совместного появления которых в корпусе выше, чем
ожидаемая вероятность их совместного появления- мощный двигатель,
крепкий чай, нельзя сказать крепкий двигатель, мощный чай.
 Конкорданс –список всех употреблений заданного языкового выражения
(например, слова) в контексте, возможно, со ссылками на источник. Этот
термин употребляется и для обозначения ключевых слов книги,
расположенных в алфавитном порядке.
the wall goes on to the
distant
swelling
(возвышаясь)
on the horizon
marking the
he developed stress
induced
swelling (отек) of both knees and the
right
there is usually a
painless
swelling
(увеличение)
of the lymph glands
which
in her knees and
suffered from
swelling (отек) feet said that she was
able to
from across the Border, swelling
(увеличение)
their numbers to 300
but,
causes violent irritation
and
swelling (отек) which can seriously
impede
symptoms of poisoning
include
swelling
(припухлость)
skin irritation, rashes
or
there was a swelling
(нарастание,
затухание)
of human voices
out of the constricting
boot, the
swelling (опухоль) was all too visible
much she felt the
words
swelling
(подниались.
набухали)
her up inside like
leaven in
 Конкордансы используются
для решения следующих
лингвистических задач:
 сравнения различных
использований одного и того
же слова;
 анализа ключевых слов;
 анализа частотности слов и
словосочетаний;
 поиск и исследование фраз и
идиом;
 поиск перевода, например,
терминологии;
 создание списков слов (для
публикации).
 Библия
 Johnson, Oxford English Dictionary, Webster
Dictionary
 Частотный корпус Thorndike`a, 1921
 Дескриптивная грамматика ( Fries, 1940; Quirk,
 В 1963 г. Брауновский университет
 1 миллион слов
 500 фрагментов прозаических текстов,
относящихся к 15 наиболее массовым жанрам
 Цель создания: обеспечить системное изучение
отдельных жанров письменного английского
языка и сравнение жанров
 1960-е: Брауновский корпус, (США), 1млн слов
 1970-е: LOB корпус (Великобритания, Норвегия), 1млн. слов
 1980-е: Машинный Фонд русского языка
 Уппсальский корпус русского языка (Швеция), 1млн. слов
 1990-е BNC, 100 млн.слов, национальные корпуса (венгерский,
итальянский, хорватский, чешский, японский), 100 млн.слов
 The Bank of English, Birmingham ( Collins Cobuild), 600 млн.
слов
 2000-е: American National Corpus, 100 млн. слов
 Corpus of Contemporary American English, 400 млн. слов
 Национальный корпус русского языка, 140 млн слов
 Gigaword corpora: английский, арабский, китайский, 2 млрд.
слов
 Oxford English corpus, 2 млрд. слов
 2001 год – начало работы;
 Центр лингвистической документации при Независимом московском
университете, отдела экспериментальной лексикографии Института
русского языка им. В.В. Виноградова РАН; Институт языкознания РАН,
Институт проблем передачи информации РАН, Всероссийский институт
научной и технической информации РАН, Институт лингвистических
исследований РАН в Санкт-Петербурге, Воронежский государственный
университет.
Традиционная лингвистика Корпусная лингвистика
Основное внимание – изучение языка Основное внимание – изучение речи
Цель – описание и объяснение языка Цель – описание языка в том виде, как он проявил себя в речи,
представленной в виде специально подобранного корпуса текстов
В своих исследованиях идет от теории к ее объяснению и
подтверждению в фактах речи
В своих исследованиях опирается на данные корпуса текста
Предпочитает квалитативные (качественные) методы Предпочитает квантитативные методы
Видит себя частью традиций, базирующихся на
рационалистических методах
Видит себя частью традиций, базирующихся на эмпирических
методах
Текст рассматривается как некоторая абстракция Текст рассматривается как некоторая физическая сущность
Изучает языковые универсалии Составление грамматики конкретных языков
Основное внимание – не только форме, но и
содержанию
Основное внимание уделяется форме
Рассматривает тексты в локальной перспективе Рассматривает тексты в глобальной перспективе
Анализирует некоторую конкретную, искусственно ограниченную,
проблемную область
Фокусирует свое внимание на как можно более широком взгляде на
текст, неограниченном ни какими догмами
Опирается на интуицию в отборе речевого материала, в отборе
эмпирических материалов своих исследовании
В своих выводах опирается на наблюдение речевой деятельности,
проявленной в виде текстов
Предпочитает логические рассуждения Часто пользуется вероятностными методами и статистикой для
первичной обработки речевого материала
Предпочитаются искусственные примеры, из изолированных от
текста словоупотреблении
Проводится работа с лингвистическими данными
(словоупотреблениями) в том виде, в каком они встречались в
контексте
Предпочитает индуктивные методы обработки эмпирического
словесного материала, считает их сутью научного метода
Предпочитает дедуктивные методы обработки эмпирического
словесного материала
Верит в открытия, основанные на процедурах, оценках,
сравнениях и т.д
Верит в научные открытия, основанные на
обработке эмпирических данных
 лексикографические исследования, создание
словарей;
 получение точных данных о лексическом составе
языков, об относительных частотах употребления
слов;
 изучение изменений в лексическом составе языков,
различных его вариаций;
 изучение грамматики естественных языков,
сочетаемости грамматических явлений друг с
другом;
 изучение текстов, их функциональных стилей ;
 использование в обучении иностранным языкам;
 составление, многоязычных корпусов.
КОРПУС – ЭТО
 корпус — это организованное
определенным образом
словесное единство, элементами
которого являются тексты или
специальным образом
отобранные отрывки из текстов;
 корпус – это набор
лингвистических данных из
определенного языка в форме
записанных высказывании или
письменных текстов, доступный
для анализа;
 корпус — это набор
естественных текстов на любом
языке, устных или письменных,
который хранится электронном
виде и позволяет
организовать
компьютеризированный поиск.
 есть собрание отрывков текстов в
электронной форме, отобранных в
соответствии с внешними критериями, чтобы
наиболее полно представлять язык или
вариацию языка.
 Функционирует как источник данных для
лингвистических исследований.
(Джон Синклер)
ТРЕБОВАНИЯ К
ПОСТРОЕНИЮ
КОРПУСА
 Разметка (аннотация) :
морфологическая,
синтаксическая, семантическая,
анафорическая, просодическая;
 репрезентативность: 1. корпуса,
относящиеся ко всему языку. 2.
сознательно смещенные корпуса,
относящиеся к какому-либо
подъязыку (жанр, стиль, язык
определенной социальной
группы и т.д.).;
 полнота или размер
представляемого материала;
 экономичность;
 структуризация материала;
 компьютерная поддержка;
Синонимы:
part-of-speech tagging (POS-tagging),
частеречная разметка.
Элементы данных
морфологической разметки
включают:
лемму;
признак части речи;
признаки грамматических
категорий.
Attributes "pos"
of the tag <ana>
Attributes "gram"
of the tag <ana>
С - существительное,
П - прилагательное,
Г - глагол в личной форме,
ПРИЧАСТИЕ - причастие
;
ДЕЕПРИЧАСТИЕ –
деепричастие,
ИНФИНИТИВ –
инфинитив,
МС - местоимение-
существительное,
МС-П - местоименное
прилагательное ,
МС-ПРЕДК -
местоимение-предикатив ,
ЧИСЛ - числительное
(количественное),
ЧИСЛ-П - порядковое
числительное,
мр, жр, ср - мужской,
женский, средний род;
од, но - одушевленность,
неодушевленность;
ед, мн - единственное,
множественное число;
им, рд, дт, вн, тв, пр, зв -
падежи: именительный,
родительный, дательный,
винительный, творительный,
предложный, звательный;
2 - второй родительный или
второй предложный падежи;
св, нс - совершенный,
несовершенный вид;
пе, нп - переходный,
непереходный глагол;
дст, стр - действительный,
страдательный залог;
нст, прш, буд - настоящее,
прошедшее, будущее время;
 грамматика зависимостей;
 грамматика
непосредственно-
составляющих;
 грамматика структурных
схем;
 традиционные
синтаксические учения о
членах предложения;
 функциональная
грамматика;
 семантический синтаксис;
 и др.
 Пример синтаксического разбора
(грамматика зависимостей, система ЭТАП-
3)
 Long ago, in the city of Babylon, the
people began to build a huge tower
which seemed to reach the heavens
soon.
 Значения слов
 Разрешение омонимии и
синонимии
 Категоризация слов
(разряды)
 Тематические классы
 Признаки каузативности
 Оценки
 Деривационные
характеристики
 И т.д.
Три группы помет:
 разряд
• имя собственное
• возвратное местоимение
• и т.д.
 лексико-семантические
характеристики:
• таксономия (тематический класс
лексемы) — для имен
существительных, прилагательных,
глаголов и наречий;
• мереология (указание на отношения
«часть — целое», «элемент —
множество») — для предметных и
непредметных имен;
• топология (топологический статус
обозначаемого объекта) — для
предметных имен;
• каузация — для глаголов;
• служебный статус — для глаголов;
• оценка — для предметных и
непредметных имен,
прилагательных и наречий.
признак Типы корпусов
По форме хранения Письменные, речевые, смешанные
Язык текстов Русский, английский и т.д.
Языки представления, «параллельность» Одноязычные, двуязычные, многоязычные
«Литературность», специфичность Литературные, диалектные, разговорные,
терминологические, смешанные
По жанровой принадлежности Литературные, фольклорные, драматургические,
публицистические
Доступность Свободно доступные, коммерческие, закрытые
Назначение Исследовательские, иллюстративные
Динамичность Динамические (мониторные), статические
Разметка Размеченные, неразмеченные
Характер разметки Морфологические, синтаксические,
семантические, анафорические, просодические
Объем текстов Полнотекстовые, фрагментнотекстовые
Хронологический аспект Синхронические, диахронические
«Общность» Общие, одного писателя
Структура Центральные и архивные, ядерные и
периферийные
НАИБОЛЕЕ ЗНАЧИМЫЕ
ЛИНГВИСТИЧЕСКИЕ
КОРПУСА
 Исследовательские корпусы —
предназначены для изучения
различных аспектов
функционирования языковой
системы;
 Иллюстративные корпусы —
подтверждают полученные
результаты;
 Динамические и
статистические корпусы
текстов - выявляют
функционирование на временной
шкале;
 Корпусы параллельных
текстов - подмножество текстов
на языке-источнике и одно или
несколько подмножеств текстов-
переводов языка-источника.
1) переводчики-практики;
2) лексикографы;
3) разработчики систем машинного перевода и
лексиконов к ним;
4) разработчиков систем переводческой памяти
(типа Trados Workbench и Star Transit);
5) лингвисты, в т.ч. компаративисты,
лексикологи, переводоведы, литературоведы,
социологи и культурологи;
6) преподаватели и студенты (в качестве источника
образцов перевода и языковых примеров)
ТЕХНОЛОГИЧЕСКИЙ
ПРОЦЕСС СОЗДАНИЯ
КОРПУСА
 1. Определение перечня источников.
 2. Оцифровка текстов
(преобразование в компьютерную
форму);
 3. Предобработка текста;
 4. Конвертирование и
графематический анализ;
 5. Разметка текста;
 6. Корректировка результатов
автоматической разметки;
 7. Конвертирование размеченных
текстов в структуру
специализированной
лингвистической информационно-
поисковой системы (corpus manager)
 8. Обеспечение доступа к корпусу.
 Наиболее
распространенными
примерами корпусов
являются:
 тексты конкретного
писателя или писателей;
 тексты за конкретное
десятилетие или столетие;
 современные тексты
определенной тематики;
 современные тексты,
адекватно представляющие
язык или общество.
 Корпусные менеджеры:
 поиск конкретных словоформ;
 поиск словоформ по леммам;
 поиск группы словоформ в виде
разрывной или неразрывной
синтагмы;
 поиск словоформ по набору
морфологических признаков;
 отображение информации о
происхождении, типе текста и т.п.;
 вывод результатов поиска с
указанием контекста заданной
длины;
 получение различных лексико-
грамматических статистических
данных;
 сохранение отобранных строк
конкорданса в отдельном файле на
компьютере пользователя и др.

More Related Content

What's hot

корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика KseniyaVitl
 
Двуязычные словари
Двуязычные словариДвуязычные словари
Двуязычные словариYevgeniya Grigoryeva
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографииYevgeniya Grigoryeva
 
виды словарей
виды словарейвиды словарей
виды словарей
duytrung
 
Информационная обработка текста
Информационная обработка текста Информационная обработка текста
Информационная обработка текста
Larisa Zaytseva
 
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в текстеЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
Larisa Zaytseva
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
Pacific State University, Russia
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус
Aira_Roo
 
Лекция 1
Лекция 1Лекция 1
Лекция 1
ablamskayaelena
 
Лекция 3
Лекция 3Лекция 3
Лекция 3
ablamskayaelena
 
Лекция 2
Лекция 2Лекция 2
Лекция 2
ablamskayaelena
 
экзистенциальные конструкции
экзистенциальные конструкцииэкзистенциальные конструкции
экзистенциальные конструкцииform_phil
 
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикографияIlyaF
 
Презентация: Русское словесное ударение
Презентация: Русское словесное ударениеПрезентация: Русское словесное ударение
Презентация: Русское словесное ударение
ozlmgouru
 

What's hot (18)

корпусная лингвистика
корпусная лингвистика корпусная лингвистика
корпусная лингвистика
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Двуязычные словари
Двуязычные словариДвуязычные словари
Двуязычные словари
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
 
виды словарей
виды словарейвиды словарей
виды словарей
 
Информационная обработка текста
Информационная обработка текста Информационная обработка текста
Информационная обработка текста
 
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в текстеЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
ЕГЭ - 2016. Русский язык. Задание 2. Средства связи в тексте
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
 
8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус8 русск яз_рудяков_фролова_2008_рус
8 русск яз_рудяков_фролова_2008_рус
 
Лекция 1
Лекция 1Лекция 1
Лекция 1
 
Лекция 3
Лекция 3Лекция 3
Лекция 3
 
Лекция 2
Лекция 2Лекция 2
Лекция 2
 
экзистенциальные конструкции
экзистенциальные конструкцииэкзистенциальные конструкции
экзистенциальные конструкции
 
компьютерная лексикография
компьютерная лексикографиякомпьютерная лексикография
компьютерная лексикография
 
Словари терминов
Словари терминовСловари терминов
Словари терминов
 
Презентация: Русское словесное ударение
Презентация: Русское словесное ударениеПрезентация: Русское словесное ударение
Презентация: Русское словесное ударение
 

Viewers also liked

Corpus linguistics in language learning
Corpus linguistics in language learningCorpus linguistics in language learning
Corpus linguistics in language learningnfuadah123
 
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
CALPER
 
How to Use Corpora in Language Teaching
How to Use Corpora in Language TeachingHow to Use Corpora in Language Teaching
How to Use Corpora in Language Teaching
CALPER
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
Irum Malik
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguisticsAlicia Ruiz
 
Corpus approaches to discourse analysis
Corpus approaches to discourse analysisCorpus approaches to discourse analysis
Corpus approaches to discourse analysis
Aseel K. Mahmood
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
King Saud University
 
Corpus linguistics the basics
Corpus linguistics the basicsCorpus linguistics the basics
Corpus linguistics the basics
Jorge Baptista
 
Corpus Tools for Language Teaching
Corpus Tools for Language TeachingCorpus Tools for Language Teaching
Corpus Tools for Language TeachingCALPER
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
gabrielarosa3008
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguisticsRaul Vargas
 
Language Testing
Language TestingLanguage Testing
Language Testing
Teguh Ekosetio
 
Language Testing: Approaches and Techniques
Language Testing: Approaches and TechniquesLanguage Testing: Approaches and Techniques
Language Testing: Approaches and TechniquesMonica Angeles
 

Viewers also liked (15)

Corpus linguistics in language learning
Corpus linguistics in language learningCorpus linguistics in language learning
Corpus linguistics in language learning
 
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
Helping Teachers Meet Learner Needs Through Innovative Online Diagnostic Asse...
 
How to Use Corpora in Language Teaching
How to Use Corpora in Language TeachingHow to Use Corpora in Language Teaching
How to Use Corpora in Language Teaching
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
 
Corpus approaches to discourse analysis
Corpus approaches to discourse analysisCorpus approaches to discourse analysis
Corpus approaches to discourse analysis
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
 
Corpus linguistics the basics
Corpus linguistics the basicsCorpus linguistics the basics
Corpus linguistics the basics
 
Corpus Tools for Language Teaching
Corpus Tools for Language TeachingCorpus Tools for Language Teaching
Corpus Tools for Language Teaching
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
 
Corpus linguistics
Corpus linguisticsCorpus linguistics
Corpus linguistics
 
Language testing
Language testingLanguage testing
Language testing
 
Language Testing
Language TestingLanguage Testing
Language Testing
 
Language Testing: Approaches and Techniques
Language Testing: Approaches and TechniquesLanguage Testing: Approaches and Techniques
Language Testing: Approaches and Techniques
 
Corporate image building
Corporate image buildingCorporate image building
Corporate image building
 

Similar to презентация1

львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусыmetodika
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakov
portfel
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяков
oleg379
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakov
kreidaros1
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakova
Svinka Pepa
 
8 rm ru
8 rm ru8 rm ru
8 rm ru
8new
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakova
UA7009
 
8 ry bu
8 ry bu8 ry bu
8 ry bu
11book
 
курс русский язык 1 4 новый
курс русский язык 1 4 новыйкурс русский язык 1 4 новый
курс русский язык 1 4 новый
qwer16r36
 
01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос
rassyhaev
 
10 ry m
10 ry m10 ry m
10 ry m
4book
 
Словари словосочетаний
Словари словосочетанийСловари словосочетаний
Словари словосочетанийYevgeniya Grigoryeva
 
10 ry h
10 ry h10 ry h
10 ry h
YchebnikRU1
 
791.культура речевого поведения практикум
791.культура речевого поведения  практикум791.культура речевого поведения  практикум
791.культура речевого поведения практикумivanov1566334322
 
говорите и пишите по русски правильно
говорите и пишите по русски правильноговорите и пишите по русски правильно
говорите и пишите по русски правильноАнна Друзенко
 
01. русский язык 10 11 классы фкгос
01. русский  язык 10 11 классы фкгос01. русский  язык 10 11 классы фкгос
01. русский язык 10 11 классы фкгос
rassyhaev
 
и всё таки она хорошая
и всё таки она хорошаяи всё таки она хорошая
и всё таки она хорошаяKulyatinaLS
 
Fat7
Fat7Fat7

Similar to презентация1 (20)

львова о в лингвистические корпусы
львова о в лингвистические корпусыльвова о в лингвистические корпусы
львова о в лингвистические корпусы
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Portfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakovPortfel.in.ua 398 rus_yaz_8_rudyakov
Portfel.in.ua 398 rus_yaz_8_rudyakov
 
Русский язык 8 клас Рудяков
Русский язык 8 клас РудяковРусский язык 8 клас Рудяков
Русский язык 8 клас Рудяков
 
Rosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakovRosijska mova-8-klas-rudjakov
Rosijska mova-8-klas-rudjakov
 
Russki%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakovaRusski%20 jazik%208%20kl rudjakova
Russki%20 jazik%208%20kl rudjakova
 
8 rm ru
8 rm ru8 rm ru
8 rm ru
 
Russki jazik 8 kl rudjakova
Russki jazik 8 kl rudjakovaRusski jazik 8 kl rudjakova
Russki jazik 8 kl rudjakova
 
8 ry bu
8 ry bu8 ry bu
8 ry bu
 
курс русский язык 1 4 новый
курс русский язык 1 4 новыйкурс русский язык 1 4 новый
курс русский язык 1 4 новый
 
01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос01. русский язык 5 9 фкгос
01. русский язык 5 9 фкгос
 
Ry
RyRy
Ry
 
10 ry m
10 ry m10 ry m
10 ry m
 
Словари словосочетаний
Словари словосочетанийСловари словосочетаний
Словари словосочетаний
 
10 ry h
10 ry h10 ry h
10 ry h
 
791.культура речевого поведения практикум
791.культура речевого поведения  практикум791.культура речевого поведения  практикум
791.культура речевого поведения практикум
 
говорите и пишите по русски правильно
говорите и пишите по русски правильноговорите и пишите по русски правильно
говорите и пишите по русски правильно
 
01. русский язык 10 11 классы фкгос
01. русский  язык 10 11 классы фкгос01. русский  язык 10 11 классы фкгос
01. русский язык 10 11 классы фкгос
 
и всё таки она хорошая
и всё таки она хорошаяи всё таки она хорошая
и всё таки она хорошая
 
Fat7
Fat7Fat7
Fat7
 

презентация1

  • 2.  Корпусная лингвистика и понятие лингвистического корпуса.  История зарождения корпусной лингвистики.  Основные различия теоретической и корпусной лингвистик.  Основные понятия корпусной лингвистики и области ее применения
  • 3. КОРПУСНАЯ ЛИНГВИСТИКА научное направление, занимающееся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текста) с использованием компьютерных технологий.  ЦЕЛЬ: лингвистическое описание языковой системы и отражение речевого материала в корпусе текстов, который может использоваться другими лингвистическими дисциплинами;  ОБЪЕКТ: корпус текстов;  ПРЕДМЕТ: теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей;  ЗАДАЧИ: полное и системное отражение содержательного общения на языке.
  • 4. ПРИЕМЫ И СТАДИИ РАБОТЫ КОРПУСНОЙ ЛИНГВИСТИКИ  ПРИЕМЫ:  автоматическое извлечение сведений о языке из корпусов;  обработка информации;  проверка и интерпретация обработанных данных.  СТАДИИ:  необходимость представить структуру речевой действительности;  выявление материальных ограничений на составление корпуса;  отбор текстов и составление корпуса текста;  компиляция текста.
  • 5.  достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;  данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;  однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях
  • 6.  Проблемная область — область языковой системы, содержащая феномены, подлежащие лингвистическому описанию  Корпус данных — сформированная по определенным правилам выборка данных из проблемной области.  Единица хранения корпуса данных — совокупность естественноязыковых выражений проблемной области (слова, короткие фразы, предложения, словосочетания, целые тексты или их фрагменты).  Коллокация (collocation) –последовательность слов или терминов, частотность совместного появления которых в корпусе выше, чем ожидаемая вероятность их совместного появления- мощный двигатель, крепкий чай, нельзя сказать крепкий двигатель, мощный чай.  Конкорданс –список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник. Этот термин употребляется и для обозначения ключевых слов книги, расположенных в алфавитном порядке.
  • 7. the wall goes on to the distant swelling (возвышаясь) on the horizon marking the he developed stress induced swelling (отек) of both knees and the right there is usually a painless swelling (увеличение) of the lymph glands which in her knees and suffered from swelling (отек) feet said that she was able to from across the Border, swelling (увеличение) their numbers to 300 but, causes violent irritation and swelling (отек) which can seriously impede symptoms of poisoning include swelling (припухлость) skin irritation, rashes or there was a swelling (нарастание, затухание) of human voices out of the constricting boot, the swelling (опухоль) was all too visible much she felt the words swelling (подниались. набухали) her up inside like leaven in  Конкордансы используются для решения следующих лингвистических задач:  сравнения различных использований одного и того же слова;  анализа ключевых слов;  анализа частотности слов и словосочетаний;  поиск и исследование фраз и идиом;  поиск перевода, например, терминологии;  создание списков слов (для публикации).
  • 8.  Библия  Johnson, Oxford English Dictionary, Webster Dictionary  Частотный корпус Thorndike`a, 1921  Дескриптивная грамматика ( Fries, 1940; Quirk,
  • 9.  В 1963 г. Брауновский университет  1 миллион слов  500 фрагментов прозаических текстов, относящихся к 15 наиболее массовым жанрам  Цель создания: обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров
  • 10.
  • 11.  1960-е: Брауновский корпус, (США), 1млн слов  1970-е: LOB корпус (Великобритания, Норвегия), 1млн. слов  1980-е: Машинный Фонд русского языка  Уппсальский корпус русского языка (Швеция), 1млн. слов  1990-е BNC, 100 млн.слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский), 100 млн.слов  The Bank of English, Birmingham ( Collins Cobuild), 600 млн. слов  2000-е: American National Corpus, 100 млн. слов  Corpus of Contemporary American English, 400 млн. слов  Национальный корпус русского языка, 140 млн слов  Gigaword corpora: английский, арабский, китайский, 2 млрд. слов  Oxford English corpus, 2 млрд. слов
  • 12.  2001 год – начало работы;  Центр лингвистической документации при Независимом московском университете, отдела экспериментальной лексикографии Института русского языка им. В.В. Виноградова РАН; Институт языкознания РАН, Институт проблем передачи информации РАН, Всероссийский институт научной и технической информации РАН, Институт лингвистических исследований РАН в Санкт-Петербурге, Воронежский государственный университет.
  • 13. Традиционная лингвистика Корпусная лингвистика Основное внимание – изучение языка Основное внимание – изучение речи Цель – описание и объяснение языка Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов В своих исследованиях идет от теории к ее объяснению и подтверждению в фактах речи В своих исследованиях опирается на данные корпуса текста Предпочитает квалитативные (качественные) методы Предпочитает квантитативные методы Видит себя частью традиций, базирующихся на рационалистических методах Видит себя частью традиций, базирующихся на эмпирических методах Текст рассматривается как некоторая абстракция Текст рассматривается как некоторая физическая сущность Изучает языковые универсалии Составление грамматики конкретных языков Основное внимание – не только форме, но и содержанию Основное внимание уделяется форме Рассматривает тексты в локальной перспективе Рассматривает тексты в глобальной перспективе Анализирует некоторую конкретную, искусственно ограниченную, проблемную область Фокусирует свое внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследовании В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов Предпочитает логические рассуждения Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала Предпочитаются искусственные примеры, из изолированных от текста словоупотреблении Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода Предпочитает дедуктивные методы обработки эмпирического словесного материала Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д Верит в научные открытия, основанные на обработке эмпирических данных
  • 14.  лексикографические исследования, создание словарей;  получение точных данных о лексическом составе языков, об относительных частотах употребления слов;  изучение изменений в лексическом составе языков, различных его вариаций;  изучение грамматики естественных языков, сочетаемости грамматических явлений друг с другом;  изучение текстов, их функциональных стилей ;  использование в обучении иностранным языкам;  составление, многоязычных корпусов.
  • 15. КОРПУС – ЭТО  корпус — это организованное определенным образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов;  корпус – это набор лингвистических данных из определенного языка в форме записанных высказывании или письменных текстов, доступный для анализа;  корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится электронном виде и позволяет организовать компьютеризированный поиск.
  • 16.  есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка.  Функционирует как источник данных для лингвистических исследований. (Джон Синклер)
  • 17. ТРЕБОВАНИЯ К ПОСТРОЕНИЮ КОРПУСА  Разметка (аннотация) : морфологическая, синтаксическая, семантическая, анафорическая, просодическая;  репрезентативность: 1. корпуса, относящиеся ко всему языку. 2. сознательно смещенные корпуса, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной социальной группы и т.д.).;  полнота или размер представляемого материала;  экономичность;  структуризация материала;  компьютерная поддержка;
  • 18. Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки включают: лемму; признак части речи; признаки грамматических категорий. Attributes "pos" of the tag <ana> Attributes "gram" of the tag <ana> С - существительное, П - прилагательное, Г - глагол в личной форме, ПРИЧАСТИЕ - причастие ; ДЕЕПРИЧАСТИЕ – деепричастие, ИНФИНИТИВ – инфинитив, МС - местоимение- существительное, МС-П - местоименное прилагательное , МС-ПРЕДК - местоимение-предикатив , ЧИСЛ - числительное (количественное), ЧИСЛ-П - порядковое числительное, мр, жр, ср - мужской, женский, средний род; од, но - одушевленность, неодушевленность; ед, мн - единственное, множественное число; им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный; 2 - второй родительный или второй предложный падежи; св, нс - совершенный, несовершенный вид; пе, нп - переходный, непереходный глагол; дст, стр - действительный, страдательный залог; нст, прш, буд - настоящее, прошедшее, будущее время;
  • 19.  грамматика зависимостей;  грамматика непосредственно- составляющих;  грамматика структурных схем;  традиционные синтаксические учения о членах предложения;  функциональная грамматика;  семантический синтаксис;  и др.  Пример синтаксического разбора (грамматика зависимостей, система ЭТАП- 3)  Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.
  • 20.  Значения слов  Разрешение омонимии и синонимии  Категоризация слов (разряды)  Тематические классы  Признаки каузативности  Оценки  Деривационные характеристики  И т.д. Три группы помет:  разряд • имя собственное • возвратное местоимение • и т.д.  лексико-семантические характеристики: • таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий; • мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен; • топология (топологический статус обозначаемого объекта) — для предметных имен; • каузация — для глаголов; • служебный статус — для глаголов; • оценка — для предметных и непредметных имен, прилагательных и наречий.
  • 21. признак Типы корпусов По форме хранения Письменные, речевые, смешанные Язык текстов Русский, английский и т.д. Языки представления, «параллельность» Одноязычные, двуязычные, многоязычные «Литературность», специфичность Литературные, диалектные, разговорные, терминологические, смешанные По жанровой принадлежности Литературные, фольклорные, драматургические, публицистические Доступность Свободно доступные, коммерческие, закрытые Назначение Исследовательские, иллюстративные Динамичность Динамические (мониторные), статические Разметка Размеченные, неразмеченные Характер разметки Морфологические, синтаксические, семантические, анафорические, просодические Объем текстов Полнотекстовые, фрагментнотекстовые Хронологический аспект Синхронические, диахронические «Общность» Общие, одного писателя Структура Центральные и архивные, ядерные и периферийные
  • 22. НАИБОЛЕЕ ЗНАЧИМЫЕ ЛИНГВИСТИЧЕСКИЕ КОРПУСА  Исследовательские корпусы — предназначены для изучения различных аспектов функционирования языковой системы;  Иллюстративные корпусы — подтверждают полученные результаты;  Динамические и статистические корпусы текстов - выявляют функционирование на временной шкале;  Корпусы параллельных текстов - подмножество текстов на языке-источнике и одно или несколько подмножеств текстов- переводов языка-источника.
  • 23. 1) переводчики-практики; 2) лексикографы; 3) разработчики систем машинного перевода и лексиконов к ним; 4) разработчиков систем переводческой памяти (типа Trados Workbench и Star Transit); 5) лингвисты, в т.ч. компаративисты, лексикологи, переводоведы, литературоведы, социологи и культурологи; 6) преподаватели и студенты (в качестве источника образцов перевода и языковых примеров)
  • 24. ТЕХНОЛОГИЧЕСКИЙ ПРОЦЕСС СОЗДАНИЯ КОРПУСА  1. Определение перечня источников.  2. Оцифровка текстов (преобразование в компьютерную форму);  3. Предобработка текста;  4. Конвертирование и графематический анализ;  5. Разметка текста;  6. Корректировка результатов автоматической разметки;  7. Конвертирование размеченных текстов в структуру специализированной лингвистической информационно- поисковой системы (corpus manager)  8. Обеспечение доступа к корпусу.
  • 25.  Наиболее распространенными примерами корпусов являются:  тексты конкретного писателя или писателей;  тексты за конкретное десятилетие или столетие;  современные тексты определенной тематики;  современные тексты, адекватно представляющие язык или общество.  Корпусные менеджеры:  поиск конкретных словоформ;  поиск словоформ по леммам;  поиск группы словоформ в виде разрывной или неразрывной синтагмы;  поиск словоформ по набору морфологических признаков;  отображение информации о происхождении, типе текста и т.п.;  вывод результатов поиска с указанием контекста заданной длины;  получение различных лексико- грамматических статистических данных;  сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.