SlideShare a Scribd company logo
1 of 38
Корпус современного
американского
английского
Выполнила
студентка 1 курса
Южного федерального
университета
отделения МКК
группы 1Б
Косякова Марина
Содержание
• 1.Определение
• 2.История
• 3.Содержание
• 4.Доступ
• 5.Уровни доступа зарегистрированных пользователей
• 6.Инструкция
• А)Простой запрос
• Б)Лемматизированный поиск
• В)Поиск по синонимам
• Г)Поиск по любому из заданных слов
• Д)Подстановочные знаки
• Е)Поиск по частям речи
• Ж)Поиск по соседним словам
• З)Сравнительный поиск
Корпус Современного Американского Английского (англ.
Corpus of Contemporary American English, сокр. COCA)-
самый большой, обеспечивающий возможность
бесплатного поиска, корпус американского английского и
единственный общедоступный корпус американского
английского, содержащий широкий спектр текстов разных
жанров. Адрес корпуса: http://corpus.byu.edu/coca/
История
Корпус был создан
Марком Дэвисом,
профессором
корпусной лингвистики
из университета
Бригама Янга в 2008
году. Марк Дэвис
собирал и
редактировал
электронные тексты, он
спроектировал и
внедрил архитектуру
корпуса, разработал его
веб-интерфейс.
Содержание
Корпус составлен из более, чем 450 миллионов слов из
более, чем 160 000 текстов. Корпус в равных долях
поделен на 5 жанров: устный, художественная
литература, популярные журналы, газеты и
академические журналы. Тексты взяты из различных
источников:
1) Устный: (85 миллионов слов) Записи
разговоров с почти 150 телевизионных
каналов и радио передач.
2)Художественная литература: (81 миллион
слов) Короткие рассказы и пьесы, первые
главы книг 1990-настоящее время, сценарии
кинофильмов.
3)Популярные журналы: (86 миллионов слов)
Почти 100 журналов различной тематики,
такой как например, новости, здоровье, дом
садоводство, женские, финансовые,
религиозные и спортивные журналы.
4)Газеты: (81
миллион слов)
Десять газет США,
тексты взяты из
различных
разделов, таких как
местные новости,
мнения, спортивный
и финансовый
разделы.
5)Академические
журналы: (81
миллион слов).
Почти 100
различных
рецензированных
научных
журналов.
Доступ
Поиск по корпусу является полностью
бесплатным.
Число запросов для незарегистрированных
пользователей ограничивается 10-15.
Уровни доступа
зарегистрированных пользователей
Количество запросов, доступных для
зарегистрированного пользователя, зависит от
его статуса.
Статус «researcher» (профессора или студенты
магистратуры/аспирантуры университетов с
языковым или лингвистическим
образованием) соответствует 3 уровню и дает
возможность осуществлять 300 запросов в
день.
Статус «semi-researcher» (профессора,
которые не занимаются языками или
лингвистикой, неуниверситетские
преподаватели языков, профессиональные
переводчики и создатели авторитетных
языковых блогов) открывает доступ 2 уровня
и позволяет осуществлять 200 запросов в
день.
Статус «non-researcher» (студенты программы бакалавриата,
а также студенты магистратуры/аспирантуры, не
занимающиеся языками или лингвистикой) открывает доступ
1 уровня и позволяет осуществлять 100 запросов в день.
При выборе статуса, соответствующего 2 или 3 уровню,
необходимо представить ссылку на веб-страницу,
содержащую подтверждение указанного статуса.
Инструкция
Интерфейс корпуса
представлен 3
областями:
1)область слева:
здесь вводится
запрос, задаются
параметры поиска
2)верхняя область:
здесь отображаются
списки найденных
слов
3)нижняя область:
списки конкордансов
Простой запрос
Введем в поле «word(s)» слово «thing», нажмем
«search». В верхней области интерфейса напротив
заданного слова отображается цифра, соответствующая
общему количеству употреблений этого слова в
корпусе.
Кликнув по заданному слову, мы откроем
конкордансы в нижней области интерфейса.
В нижней области, кликнув по любому из первых 4
столбцов, мы откроем расширенный контекст и
информацию об его источнике.
В верхней строке области слева мы можем выбрать
«сhart» вместо «list». Тогда мы увидим
распределение частоты встречаемости заданного
слова в различных жанрах и на различных
временных промежутках.
Кликнув по
вертикальному
прямоугольнику,
мы откроем
список
конкордансов.
Кликнув на название жанра, можно
увидеть распределение по поджанрам.
Также доступен формат KWIC.
Лемматизированный поиск
Лемматизированный поиск задается квадратными
скобками [ ]. Например, при введении запроса [say], в
результатах поиска отображаются все его возможные
формы – said, says, say, saying.
Поиск по синонимам
Поиск по синонимам задается следующим
образом: [=слово]. Например, введя [=beautiful],
в результатах поиска отобразятся его синонимы –
wonderful, attractive, striking и т.д.
Поиск по любому из заданных слов
Поиск по любому из заданных слов
задается вертикальной (|) либо косой (/)
чертой. Например:
Подстановочные знаки
В качестве подстановочных знаков
используются звездочка (*) и
вопросительный знак (?).
(*) соответствует любому количеству букв.
(?) соответствует одной единственной
букве.
Например, задав запрос *ous, мы можем узнать,
какие прилагательные с суффиксом «-ous»
встречаются чаще всего.
Пример запроса с использованием
подстановочного знака(?)
Поиск по частям речи
Всем известно, что в английском языке
часто встречаются слова, являющиеся
разными частями речи, но при этом
полностью совпадающие по написанию.
Чтобы в результатах поиска отображалось
употребление слова в значении конкретной
части речи, используется поиск по частям
речи.
Поиск по частям речи задается следующим образом:
кликаем на «POS List», появляется выпадающий список,
где можно выбрать необходимую часть речи,
соответствующий тег автоматически появится в строке
запроса. Но он появится через пробел после заданного
слова. Это не совсем то, что нужно нам в данной
ситуации. Стираем пробел, на его место cтавим точку (.)
В результате такого запроса отобразятся употребления
заданного слова только в значении заданной части речи.
Интересным может быть посмотреть, например, какие
существительные чаще всего следуют сразу же за заданным
словом. Тогда мы просто оставляем тег таким, каким он
вставляется автоматически, не меняя пробел на точку.
Поиск по соседним словам
То же самое можно сделать, воспользовавшись поиском
по соседним словам. Для этого нажимаем на «collocates»,
при помощи выпадающего списка «POS List» ставим тег
нужной части речи, сужаем интервал до 0 слов слева и 1
слова справа от заданного слова.
Поиск по соседним словам помогает лучше
разобраться в структуре и синтаксисе английских
предложений и словосочетаний.
Например, мы хотим узнать, какие предлоги чаще
всего следуют за глаголом «talk»:
Кроме того, в некоторых случаях, поиск по соседним словам
позволяет обнаружить позитивное либо негативное
значение исследуемого слова. Например, если мы возьмем
слово «rife» (изобилующий), и посмотрим, какие
существительные чаще всего появляются рядом с ним, мы
заметим, что его семантическое значение имеет негативный
характер.
Сравнительный поиск
В корпусе также представлена возможность
сравнительного поиска. Например,
сравним, какие прилагательные чаще всего
сопутствуют слову «evening», а какие -
слову «morning».
Числовые значения из столбцов «W1» И «W2» обозначают
общее количество вхождений для каждого прилагательного,
сопутствующего слову «evening» и слову «morning»
соответственно.
Слова в каждой таблице сортированы по релевантности,
которая определяется количеством взаимной информации
(эти данные размещены в столбце под названием «score»).
Корпус современного американского английского

More Related Content

What's hot

лингвистическое исследование
лингвистическое исследованиелингвистическое исследование
лингвистическое исследованиеEreminaKate
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power pointNefrits
 
Электронные корпуса
Электронные корпусаЭлектронные корпуса
Электронные корпусаanna_pal
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографииYevgeniya Grigoryeva
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографииArtem Lukanin
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языкаYevgeniya Grigoryeva
 
Итоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛИтоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛKirasu
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"txkaty
 

What's hot (11)

лингвистическое исследование
лингвистическое исследованиелингвистическое исследование
лингвистическое исследование
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
 
Электронные корпуса
Электронные корпусаЭлектронные корпуса
Электронные корпуса
 
История развития английской лексикографии
История развития английской лексикографииИстория развития английской лексикографии
История развития английской лексикографии
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
 
Основные типы словарей английского языка
Основные типы словарей английского языкаОсновные типы словарей английского языка
Основные типы словарей английского языка
 
Итоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛИтоговая работа по курсу ИТЛ
Итоговая работа по курсу ИТЛ
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"
Сравнительная характеристика романа Л.Н.Толстого "Война И Мир"
 

Similar to Корпус современного американского английского

ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДbibibstu
 
Словари словосочетаний
Словари словосочетанийСловари словосочетаний
Словари словосочетанийYevgeniya Grigoryeva
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Анализ запроса
Анализ запросаАнализ запроса
Анализ запросаyaevents
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Сообщество eLearning PRO
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
яндекс.словари
яндекс.словарияндекс.словари
яндекс.словариPutinTheJew
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширенийСергей Пономарев
 

Similar to Корпус современного американского английского (15)

ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 
ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БД
 
ScienceDirect
ScienceDirectScienceDirect
ScienceDirect
 
Словари словосочетаний
Словари словосочетанийСловари словосочетаний
Словари словосочетаний
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Анализ запроса
Анализ запросаАнализ запроса
Анализ запроса
 
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
Использование ИКТ инструментов в обучении лексике. Наталья Катасонова.28.07.10
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
яндекс.словари
яндекс.словарияндекс.словари
яндекс.словари
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
Promt
PromtPromt
Promt
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Open Corpora
Open CorporaOpen Corpora
Open Corpora
 

Корпус современного американского английского

  • 1. Корпус современного американского английского Выполнила студентка 1 курса Южного федерального университета отделения МКК группы 1Б Косякова Марина
  • 2. Содержание • 1.Определение • 2.История • 3.Содержание • 4.Доступ • 5.Уровни доступа зарегистрированных пользователей • 6.Инструкция • А)Простой запрос • Б)Лемматизированный поиск • В)Поиск по синонимам • Г)Поиск по любому из заданных слов • Д)Подстановочные знаки • Е)Поиск по частям речи • Ж)Поиск по соседним словам • З)Сравнительный поиск
  • 3. Корпус Современного Американского Английского (англ. Corpus of Contemporary American English, сокр. COCA)- самый большой, обеспечивающий возможность бесплатного поиска, корпус американского английского и единственный общедоступный корпус американского английского, содержащий широкий спектр текстов разных жанров. Адрес корпуса: http://corpus.byu.edu/coca/
  • 4. История Корпус был создан Марком Дэвисом, профессором корпусной лингвистики из университета Бригама Янга в 2008 году. Марк Дэвис собирал и редактировал электронные тексты, он спроектировал и внедрил архитектуру корпуса, разработал его веб-интерфейс.
  • 5. Содержание Корпус составлен из более, чем 450 миллионов слов из более, чем 160 000 текстов. Корпус в равных долях поделен на 5 жанров: устный, художественная литература, популярные журналы, газеты и академические журналы. Тексты взяты из различных источников:
  • 6. 1) Устный: (85 миллионов слов) Записи разговоров с почти 150 телевизионных каналов и радио передач.
  • 7. 2)Художественная литература: (81 миллион слов) Короткие рассказы и пьесы, первые главы книг 1990-настоящее время, сценарии кинофильмов.
  • 8. 3)Популярные журналы: (86 миллионов слов) Почти 100 журналов различной тематики, такой как например, новости, здоровье, дом садоводство, женские, финансовые, религиозные и спортивные журналы.
  • 9. 4)Газеты: (81 миллион слов) Десять газет США, тексты взяты из различных разделов, таких как местные новости, мнения, спортивный и финансовый разделы.
  • 10. 5)Академические журналы: (81 миллион слов). Почти 100 различных рецензированных научных журналов.
  • 11. Доступ Поиск по корпусу является полностью бесплатным. Число запросов для незарегистрированных пользователей ограничивается 10-15.
  • 12. Уровни доступа зарегистрированных пользователей Количество запросов, доступных для зарегистрированного пользователя, зависит от его статуса. Статус «researcher» (профессора или студенты магистратуры/аспирантуры университетов с языковым или лингвистическим образованием) соответствует 3 уровню и дает возможность осуществлять 300 запросов в день.
  • 13. Статус «semi-researcher» (профессора, которые не занимаются языками или лингвистикой, неуниверситетские преподаватели языков, профессиональные переводчики и создатели авторитетных языковых блогов) открывает доступ 2 уровня и позволяет осуществлять 200 запросов в день.
  • 14. Статус «non-researcher» (студенты программы бакалавриата, а также студенты магистратуры/аспирантуры, не занимающиеся языками или лингвистикой) открывает доступ 1 уровня и позволяет осуществлять 100 запросов в день. При выборе статуса, соответствующего 2 или 3 уровню, необходимо представить ссылку на веб-страницу, содержащую подтверждение указанного статуса.
  • 15. Инструкция Интерфейс корпуса представлен 3 областями: 1)область слева: здесь вводится запрос, задаются параметры поиска 2)верхняя область: здесь отображаются списки найденных слов 3)нижняя область: списки конкордансов
  • 16. Простой запрос Введем в поле «word(s)» слово «thing», нажмем «search». В верхней области интерфейса напротив заданного слова отображается цифра, соответствующая общему количеству употреблений этого слова в корпусе.
  • 17. Кликнув по заданному слову, мы откроем конкордансы в нижней области интерфейса.
  • 18. В нижней области, кликнув по любому из первых 4 столбцов, мы откроем расширенный контекст и информацию об его источнике.
  • 19. В верхней строке области слева мы можем выбрать «сhart» вместо «list». Тогда мы увидим распределение частоты встречаемости заданного слова в различных жанрах и на различных временных промежутках.
  • 21. Кликнув на название жанра, можно увидеть распределение по поджанрам.
  • 23. Лемматизированный поиск Лемматизированный поиск задается квадратными скобками [ ]. Например, при введении запроса [say], в результатах поиска отображаются все его возможные формы – said, says, say, saying.
  • 24. Поиск по синонимам Поиск по синонимам задается следующим образом: [=слово]. Например, введя [=beautiful], в результатах поиска отобразятся его синонимы – wonderful, attractive, striking и т.д.
  • 25. Поиск по любому из заданных слов Поиск по любому из заданных слов задается вертикальной (|) либо косой (/) чертой. Например:
  • 26. Подстановочные знаки В качестве подстановочных знаков используются звездочка (*) и вопросительный знак (?). (*) соответствует любому количеству букв. (?) соответствует одной единственной букве.
  • 27. Например, задав запрос *ous, мы можем узнать, какие прилагательные с суффиксом «-ous» встречаются чаще всего.
  • 28. Пример запроса с использованием подстановочного знака(?)
  • 29. Поиск по частям речи Всем известно, что в английском языке часто встречаются слова, являющиеся разными частями речи, но при этом полностью совпадающие по написанию. Чтобы в результатах поиска отображалось употребление слова в значении конкретной части речи, используется поиск по частям речи.
  • 30. Поиск по частям речи задается следующим образом: кликаем на «POS List», появляется выпадающий список, где можно выбрать необходимую часть речи, соответствующий тег автоматически появится в строке запроса. Но он появится через пробел после заданного слова. Это не совсем то, что нужно нам в данной ситуации. Стираем пробел, на его место cтавим точку (.)
  • 31. В результате такого запроса отобразятся употребления заданного слова только в значении заданной части речи. Интересным может быть посмотреть, например, какие существительные чаще всего следуют сразу же за заданным словом. Тогда мы просто оставляем тег таким, каким он вставляется автоматически, не меняя пробел на точку.
  • 32. Поиск по соседним словам То же самое можно сделать, воспользовавшись поиском по соседним словам. Для этого нажимаем на «collocates», при помощи выпадающего списка «POS List» ставим тег нужной части речи, сужаем интервал до 0 слов слева и 1 слова справа от заданного слова.
  • 33. Поиск по соседним словам помогает лучше разобраться в структуре и синтаксисе английских предложений и словосочетаний. Например, мы хотим узнать, какие предлоги чаще всего следуют за глаголом «talk»:
  • 34. Кроме того, в некоторых случаях, поиск по соседним словам позволяет обнаружить позитивное либо негативное значение исследуемого слова. Например, если мы возьмем слово «rife» (изобилующий), и посмотрим, какие существительные чаще всего появляются рядом с ним, мы заметим, что его семантическое значение имеет негативный характер.
  • 35. Сравнительный поиск В корпусе также представлена возможность сравнительного поиска. Например, сравним, какие прилагательные чаще всего сопутствуют слову «evening», а какие - слову «morning».
  • 36. Числовые значения из столбцов «W1» И «W2» обозначают общее количество вхождений для каждого прилагательного, сопутствующего слову «evening» и слову «morning» соответственно.
  • 37. Слова в каждой таблице сортированы по релевантности, которая определяется количеством взаимной информации (эти данные размещены в столбце под названием «score»).