Электронные корпусы  как основа словарей современного английского языка Презентация выполнена студенткой факультета иностранных языков  ЧГУ им. И.Н. Ульянова группы 1А-10 Красновой Наталией
Корпус текстов характеризуется четырьмя основными параметрами: Большой объем Наличие структуры или разметки Электронный вариант текстов Наличие специального программного обеспечения для работы с этим корпусом
Ценность корпуса состоит в следующем: Однажды сделанный корпус может многократно использоваться; Корпус показывает языковые данные в их реальном окружении; Корпус характеризуется представительностью, или сбалансированным составом текстов, что позволяет использовать его в различных лингвистических исследованиях;  Корпус имеет большое значение для преподавания английского языка, так как с помощью корпуса можно быстро и эффективно проверить особенности употребления незнакомого слова или грамматической формы.
Разметка – главная характеристика корпуса Разметка - приписывание тексту определенной информации для более удобного анализа. Виды разметки: Метатекстовая Структурная Лингвистическая
Что дают корпусы пользователям? реальные контексты ; реальные статистические данные (на больших объемах текстов) ; сочетаемость (коллокации) ; категоризацию языкового материала ; проекции языка на различные подъязыки;
Прикладные задачи корпусной лигвистики: подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи и текста ;
При составлении словарей корпусы помогают:  выявить новые значения; удалить нерелевантные; более точно упорядочить отдельные значения внутри словарных статей .
Национальный корпус Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. 
Национальный корпус  русского языка
Корпусы английского языка  British National Corpus . Большой  представительный корпус британского английского языка, по образцу которого создавались многие современные корпуса различных языков. Корпус включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи объемом 10 млн. словоупотреблений. Объем корпуса – свыше 100 млн. словоупотреблений.
The Bank of English Постоянно пополняемый корпус английского языка, характеризующийся очень большим объемом. В состав корпуса входят различные типы письменных текстов и устной речи. Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку. В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др. (36 млн. словоупотреблений); американские книги, радиопередачи и др. (10 млн. словоупотреблений); британская устная речь (10 млн. словоупотреблений). Объем корпуса – 524 млн. словоупотреблений, объем общедоступной части корпуса – 56 млн. словоупотреблений.
Корпус отражает словоупотребление в различных вариантах английского языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные тексты разных типов и записи устной речи. В настоящее время полностью подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены морфологической и синтаксической разметкой. Предполагается дополнить записи устной речи аудиозаписями. Объем каждого национального подкорпуса–1 млн. словоупотреблений.
Brown Corpus Первый в истории представительный корпус, создан в 1960-е гг. Корпус состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов, опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен разметкой частей речи и морфологических признаков слов; английский язык; американский вариант английского языка 1 млн. словоупотреблений.
Cambridge International Corpus Кембриджский международный корпус создавался прежде всего как база для составления учебных материалов и словарей английского языка. Он представляет собой очень большую коллекцию текстов, в которую вошли британские тексты разных типов (500 млн. словоупотреблений), американские тексты разных типов (237 млн. словоупотреблений), записи устной речи носителей британского (18 млн.) и американского (22 млн.) вариантов английского языка. Отдельный подкорпус (Cambridge Learner Corpus, 20 млн. словоупотреблений) образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного. Корпус постоянно пополняется новыми текстами. Свыше 700 млн. словоупотреблений. На настоящий момент к корпусу имеют доступ только авторы, работающие над книгами для издательства Cambridge University Press.
American  National Corpus . Американский национальный корпус создается по образцу Британского национального корпуса. На первом этапе основную часть корпуса будут составлять тексты 1990-х гг., однако в дальнейшем в корпус будут включаться и более ранние тексты (вплоть до 1960-х гг. и раньше). В настоящий момент готова первая версия корпуса, в которую вошли 10% от предполагаемого объема корпуса. Представлены как письменные тексты, так и записи устной речи. Планируется создание представительного корпуса объемом 100 млн. словоупотреблений.
Оксфордские словари используют БНК и Оксфордскую корпусную коллекцию .
Кембриджские словари используют Кембриджский международный корпус .
Макмиллановский словарь использует Мировой английский корпус /
Заключение В настоящее время электронные корпусы являются основой словарей английского языка. Сегодня ни один уважающий себя издатель словарей не обходится без корпусных данных. Электронные корпусы играют огромную роль при создания современных словарей и уже невозможно представить себе составление словарей без использования корпусов.

Электронные корпусы как основа словарей современного английского языка

  • 1.
    Электронные корпусы как основа словарей современного английского языка Презентация выполнена студенткой факультета иностранных языков ЧГУ им. И.Н. Ульянова группы 1А-10 Красновой Наталией
  • 2.
    Корпус текстов характеризуетсячетырьмя основными параметрами: Большой объем Наличие структуры или разметки Электронный вариант текстов Наличие специального программного обеспечения для работы с этим корпусом
  • 3.
    Ценность корпуса состоитв следующем: Однажды сделанный корпус может многократно использоваться; Корпус показывает языковые данные в их реальном окружении; Корпус характеризуется представительностью, или сбалансированным составом текстов, что позволяет использовать его в различных лингвистических исследованиях; Корпус имеет большое значение для преподавания английского языка, так как с помощью корпуса можно быстро и эффективно проверить особенности употребления незнакомого слова или грамматической формы.
  • 4.
    Разметка – главнаяхарактеристика корпуса Разметка - приписывание тексту определенной информации для более удобного анализа. Виды разметки: Метатекстовая Структурная Лингвистическая
  • 5.
    Что дают корпусыпользователям? реальные контексты ; реальные статистические данные (на больших объемах текстов) ; сочетаемость (коллокации) ; категоризацию языкового материала ; проекции языка на различные подъязыки;
  • 6.
    Прикладные задачи корпуснойлигвистики: подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи и текста ;
  • 7.
    При составлении словарейкорпусы помогают: выявить новые значения; удалить нерелевантные; более точно упорядочить отдельные значения внутри словарных статей .
  • 8.
    Национальный корпус Национальныйкорпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. 
  • 9.
    Национальный корпус русского языка
  • 10.
    Корпусы английского языка British National Corpus . Большой представительный корпус британского английского языка, по образцу которого создавались многие современные корпуса различных языков. Корпус включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи объемом 10 млн. словоупотреблений. Объем корпуса – свыше 100 млн. словоупотреблений.
  • 11.
    The Bank ofEnglish Постоянно пополняемый корпус английского языка, характеризующийся очень большим объемом. В состав корпуса входят различные типы письменных текстов и устной речи. Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку. В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др. (36 млн. словоупотреблений); американские книги, радиопередачи и др. (10 млн. словоупотреблений); британская устная речь (10 млн. словоупотреблений). Объем корпуса – 524 млн. словоупотреблений, объем общедоступной части корпуса – 56 млн. словоупотреблений.
  • 12.
    Корпус отражает словоупотреблениев различных вариантах английского языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные тексты разных типов и записи устной речи. В настоящее время полностью подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены морфологической и синтаксической разметкой. Предполагается дополнить записи устной речи аудиозаписями. Объем каждого национального подкорпуса–1 млн. словоупотреблений.
  • 13.
    Brown Corpus Первыйв истории представительный корпус, создан в 1960-е гг. Корпус состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов, опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен разметкой частей речи и морфологических признаков слов; английский язык; американский вариант английского языка 1 млн. словоупотреблений.
  • 14.
    Cambridge International CorpusКембриджский международный корпус создавался прежде всего как база для составления учебных материалов и словарей английского языка. Он представляет собой очень большую коллекцию текстов, в которую вошли британские тексты разных типов (500 млн. словоупотреблений), американские тексты разных типов (237 млн. словоупотреблений), записи устной речи носителей британского (18 млн.) и американского (22 млн.) вариантов английского языка. Отдельный подкорпус (Cambridge Learner Corpus, 20 млн. словоупотреблений) образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного. Корпус постоянно пополняется новыми текстами. Свыше 700 млн. словоупотреблений. На настоящий момент к корпусу имеют доступ только авторы, работающие над книгами для издательства Cambridge University Press.
  • 15.
    American NationalCorpus . Американский национальный корпус создается по образцу Британского национального корпуса. На первом этапе основную часть корпуса будут составлять тексты 1990-х гг., однако в дальнейшем в корпус будут включаться и более ранние тексты (вплоть до 1960-х гг. и раньше). В настоящий момент готова первая версия корпуса, в которую вошли 10% от предполагаемого объема корпуса. Представлены как письменные тексты, так и записи устной речи. Планируется создание представительного корпуса объемом 100 млн. словоупотреблений.
  • 16.
    Оксфордские словари используютБНК и Оксфордскую корпусную коллекцию .
  • 17.
    Кембриджские словари используютКембриджский международный корпус .
  • 18.
    Макмиллановский словарь используетМировой английский корпус /
  • 19.
    Заключение В настоящеевремя электронные корпусы являются основой словарей английского языка. Сегодня ни один уважающий себя издатель словарей не обходится без корпусных данных. Электронные корпусы играют огромную роль при создания современных словарей и уже невозможно представить себе составление словарей без использования корпусов.