Особые корпусы текстов
Технологии корпусной лингвистики.
Лекция 5
А.В. Луканин
Параллельные корпусы текстов
1. корпусы, представляющие множество
текстов-оригиналов, написанных на каком-
либо исходном языке, и текстов-переводов
этих исходных текстов на один или
несколько других языков
2. корпусы, объединяющие тексты из одной и
той же тематической области, независимо
написанные на двух или нескольких языках
Параллельные корпусы текстов
 Эти корпусы создаются и используются
 для сравнительных исследований языков (в
области лексикологии, грамматики, стилистики,
переводоведения и т.д.)
 в целях разработки эффективных методов
перевода, в том числе, машинного
 При разработке возникает проблема,
которая заключается в установлении
соответствий между текстом оригинала и его
переводами
Метод автоматического
выравнивания (alignment) текстов
 заключается в параллельной сегментации
оригинального текста и его перевода по
 предложениям
 клаузам (грамматическим конструкциям)
 словосочетаниям
 и словам
Выравнивание текстов
 При выравнивании на уровне предложений
могут использоваться шесть возможных
соответствий между предложениями обоих
текстов:
1. одно исходное предложение переводится
одним предложением;
2. два исходных предложения переводятся
одним предложением;
Выравнивание текстов
3. одно исходное предложение переводится
двумя предложениями;
4. два исходных предложения переводятся двумя
предложениями, но внутренние границы этих
предложений в тексте оригинала и тексте
перевода не совпадают;
5. предложение исходного текста не переводится;
6. предложение в тексте перевода не имеет
эквивалента в тексте оригинала
Выравнивание текстов
 Существуют различные программы
выравнивания, которые автоматически
сопоставляют тексты на основе
 совпадения относительных длин предложений,
 разделения текста на абзацы,
 анализа знаков препинания,
 внешнего словаря
 и других факторов.
 Часто требуется постредактирование
Параллельные корпусы текстов
 позволяют:
 строить двуязычные и многоязычные переводные
словари;
 создавать и пополнять словари для систем
машинного перевода;
 устранять полисемию лексических единиц путем
использования компьютером контекстного
окружения многозначного слова, превышающего
по длине предложение;
Параллельные корпусы текстов
 позволяют:
 переводить терминологические и
фразеологические единицы текста;
 осуществлять полностью автоматический
перевод в рамках новых систем машинного
перевода, называемых системами с
переводческой памятью, путём накопления в
памяти компьютера корпусов исходных текстов и
их переводов, выровненных между собой на
различных уровнях.
Корпусы устной речи
 Создание репрезентативного корпуса устной
речи является сложной задачей
 Прагматика не исследована так тщательно в
компьютерной лингвистике и корпусных
исследованиях, как некоторые другие сферы
лингвистики
 Существует необходимость создать модели
вежливости, смены ролей и других явлений
для понимания языка вообще
Корпус Лондон-Лунд (The London-
Lund Corpus)
 разработан в рамках проекта «Обзор
употребления английского языка» (The
Survey of English Usage).
 Цель проекта заключалась в том, чтобы по
возможности полно зафиксировать
особенности грамматической системы
английского языка в речи взрослого
образованного носителя.
Корпус Лондон-Лунд
 разрабатывался с 1960 года под
руководством Р. Квирка в Лондонском
университетском колледже.
 Объем корпуса – 1 млн. словоупотреблений.
 Текстами устной речи были записи
радиопередач, заседаний официальных
структур, а также неформальных бесед.
Корпус Лондон-Лунд
 Машинный вариант корпуса создавался в
Лундском университете (Швеция) и был
готов к использованию в 1979 году.
 Был одним из первых машиночитаемых
корпусов.
 Состоял из 34 текстов, представляющих
тайно записанные разговоры, которые были
также опубликованы в книге Дж. Свартвика и
Р. Квирка «Корпус английского разговора»
(1980)
Корпус Лондон-Лунд
 При составлении машиночитаемой версии некото-
рой частью информации пришлось пожертвовать.
 Те, кого записали, вряд ли могут считаться
среднестатистическими предствителями лиц,
говорящих на английском языке.
 Тем не менее, корпус Лондон-Лунд очень помог в
изучении речи.
 Из-за сложностей составления корпусов устной
речи этот корпус долго оставался самым важным
источником для компьютерного исследования
разговорного английского.
Корпус Лондон-Лунд
 Появление этого корпуса привело к
множеству исследований по лексике,
грамматике, просодии речи и особенно по
структуре и функционированию дискурса.
 Так, были исследованы
 использование слов actually, really, you know,
you see, I mean, well
 вопросы и ответы в английском разговоре,
 использование пассива, просодических моделей
английского разговора и т.д.
Корпус Лондон-Лунд
 Устный и письменный английский изучались
в сопоставительных исследованиях на базе
корпусов Лондон-Лунд и Ланкастер-Осло-
Берген;
 в частности, изучались:
 модальность,
 связи в сложных предложениях,
 отрицание.
Корпусы устной речи
 В настоящее время большой интерес
корпусных лингвистов привлекают способы
передачи эмоций в устной речи, выражение
удивления и т.д.
 Примером корпуса, позволяющего
проводить подобные исследования,
является мультимедийный подкорпус в
составе НКРЯ.
Корпусы устной речи
 Сложность создания заключается в том, что:
1. устную речь нужно как-то зафиксировать
 с помощью магнитной ленты, цифровой записи
или видеокассеты
1. её нужно записать буквами
 что является утомительной и дорогой работой,
качество которой зависит в большой степени от
качества записи и степени шума внешней среды
в естественных условиях.
Корпусы устной речи
 Главная сложность создания фонетических
лингвистических ресурсов связана с
необходимостью транскрибирования устной
речи.
 При этом возникают следующие проблемы:
1. Какой алгоритм использовать для
транскрибирования?
2. Учитывать ли индивидуальные особенности
произношения?
Корпусы устной речи
3. Учитывать ли весь устный текст или его фрагменты?
4. Учитывать ли диалектные варианты произношения
слов?
5. Учитывать ли ударения в словах?
6. Учитывать ли просодические признаки произносимых
фраз?
7. Отмечать ли слова, которые при прослушивании не
распознавались?
8. Отмечать ли в записи для фонетического корпуса
паралингвистические явления, сопутствующие речи
(паузы, смех, бормотание, кашель, и т.д.)?
Корпусы устной речи
 Выбор качества транскрибирования зависит
от целей использования корпуса и его
пользователей
 Для лингвиста приоритетом является
орфографическая запись и большое
количество текстовых данных
 Для фонетиста нужна детальная
транскрипция со ссылками к аудио-записям и
требуется меньше текстов
Корпусы устной речи
 Для аналитика дискурса требуется детальная
информация о контекстуальных
характеристиках речевых событий
 Чем детальнее информация – тем сложнее с
ней работать и статистически оценивать
 Чем больше информации опускается, тем
корпус менее пригоден для широкого класса
задач
Этапы создания корпуса устной речи
 Сбор данных (аудио/видео-запись)
 Транскрипция (перевод в машиночитаемую
форму)
 Аннотирование
 Публикация (предоставление доступа)
Сбор данных
 Перед началом записи необходимо получить
информированное согласие информантов:
 письменное согласие на запись
 аудио-согласие информанта, записанное
непосредственно перед опросом (например, при
записи участников семинара)
 Это может скомпрометировать некоторые
исследования, т.к. люди ведут себя по-
другому, если знают, что их записывают
Сбор данных
 BAAL Recommendations on Good Practice in
Applied Linguistics
http://www.baal.org.uk/dox/goodpractice_stud.pdf
 Первые корпусы устной речи критиковались
за низкое качество записи
 Студийная запись (не всегда можно получить
естественную речь)
 Использование микрофона головной
гарнитуры
Сбор данных
 Использование петличных микрофонов,
позволяющих фиксировать участников
беседы
 Должна осуществляться цифровая запись,
т.к. аналоговую запись легко утратить
 Если записывается только аудио-сигнал,
необходимо снабжать его письменными
комментариями, которые могут помочь при
дальнейшем транскрибировании
Сбор данных
 Необходимо также снабдить запись
информацией о:
 условиях записи
 используемом оборудовании
 возникших технических проблемах
 Перед записью желательно сформировать
форму для таких комментариев, чтобы вся
мета-информация была единообразной
Транскрипция: 3 принципа
проектирования
1. Категории должны быть:
 чётко различимыми
 исчерпывающими
 сопоставимыми
1. Транскрипция должна быть читаемой (для
исследователя)
2. Для удобства манипулирования на компьютере
разметка должна быть:
 систематичной
 предсказуемой
Транскрипция
 Необходимо выбрать тип транскрипции
 орфографическая
 фонетическая
 просодическая
 комбинированная
 При комбинированной транскрипции нужно
решить, как выравнивать различные уровни:
 на отдельных строках
 в отдельных колонках
Орфографическая транскрипция
 Какой вариант записи выбрать?
 color vs. colour
 Можно использовать нормативный словарь
 Как записывать сокращённые формы?
 gonna vs. going to
 как фонетист будет различать такие случаи?
 Как записывать иностранные имена собственные?
 Антропонимические словари или справочники
географических названий
Запись невербальной информации
Транскрипция
 Если в проекте участвует несколько
человек, желательно:
 Написать и следовать инструкции по
транскрипции
 Проводить кросс-проверку
 Записывать, кто и когда делал транскрипцию и
проверял работу
Аннотирование
 Тексты и разметка не должны зависеть от
операционной системы и коммерческих
продуктов
 Unicode
 XML
 Следование стандартам (Text Encoding Initiative)
 XSLT может преобразовать <pause dur="short"/> в
.., #, <,> или .
TEI Guidelines
http://www.tei-c.org/Guidelines/P5/
 Набор тегов для кодирования устной речи
включает следующие компоненты:
 Высказывание (фрагмент речи)
 Паузы
 Экстралингвистические звуки (кашль, зевание, храп и т.д.)
 Кинесические феномены (жесты)
 Различные звуки (шумы), влияющие на коммуникацию
 Письменный текст, показанный во время беседы
 Изменение просодических характеристик
Аннотирование
 В тегах XML-файлов можно указывать ссылки на
точное время аудио-записи для выравнивания
транскрипции и звука
 Аннотировать аудио-файлы можно с помощью
программ:
 Praat (http://www.fon.hum.uva.nl/praat/)
 Speech Analyzer (
http://www.sil.org/resources/software_fonts/speech-analyzer)
 Transana (http://www.transana.org/)

Особые корпусы текстов

  • 1.
    Особые корпусы текстов Технологиикорпусной лингвистики. Лекция 5 А.В. Луканин
  • 2.
    Параллельные корпусы текстов 1.корпусы, представляющие множество текстов-оригиналов, написанных на каком- либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков 2. корпусы, объединяющие тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках
  • 3.
    Параллельные корпусы текстов Эти корпусы создаются и используются  для сравнительных исследований языков (в области лексикологии, грамматики, стилистики, переводоведения и т.д.)  в целях разработки эффективных методов перевода, в том числе, машинного  При разработке возникает проблема, которая заключается в установлении соответствий между текстом оригинала и его переводами
  • 4.
    Метод автоматического выравнивания (alignment)текстов  заключается в параллельной сегментации оригинального текста и его перевода по  предложениям  клаузам (грамматическим конструкциям)  словосочетаниям  и словам
  • 5.
    Выравнивание текстов  Привыравнивании на уровне предложений могут использоваться шесть возможных соответствий между предложениями обоих текстов: 1. одно исходное предложение переводится одним предложением; 2. два исходных предложения переводятся одним предложением;
  • 6.
    Выравнивание текстов 3. одноисходное предложение переводится двумя предложениями; 4. два исходных предложения переводятся двумя предложениями, но внутренние границы этих предложений в тексте оригинала и тексте перевода не совпадают; 5. предложение исходного текста не переводится; 6. предложение в тексте перевода не имеет эквивалента в тексте оригинала
  • 7.
    Выравнивание текстов  Существуютразличные программы выравнивания, которые автоматически сопоставляют тексты на основе  совпадения относительных длин предложений,  разделения текста на абзацы,  анализа знаков препинания,  внешнего словаря  и других факторов.  Часто требуется постредактирование
  • 8.
    Параллельные корпусы текстов позволяют:  строить двуязычные и многоязычные переводные словари;  создавать и пополнять словари для систем машинного перевода;  устранять полисемию лексических единиц путем использования компьютером контекстного окружения многозначного слова, превышающего по длине предложение;
  • 9.
    Параллельные корпусы текстов позволяют:  переводить терминологические и фразеологические единицы текста;  осуществлять полностью автоматический перевод в рамках новых систем машинного перевода, называемых системами с переводческой памятью, путём накопления в памяти компьютера корпусов исходных текстов и их переводов, выровненных между собой на различных уровнях.
  • 10.
    Корпусы устной речи Создание репрезентативного корпуса устной речи является сложной задачей  Прагматика не исследована так тщательно в компьютерной лингвистике и корпусных исследованиях, как некоторые другие сферы лингвистики  Существует необходимость создать модели вежливости, смены ролей и других явлений для понимания языка вообще
  • 11.
    Корпус Лондон-Лунд (TheLondon- Lund Corpus)  разработан в рамках проекта «Обзор употребления английского языка» (The Survey of English Usage).  Цель проекта заключалась в том, чтобы по возможности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя.
  • 12.
    Корпус Лондон-Лунд  разрабатывалсяс 1960 года под руководством Р. Квирка в Лондонском университетском колледже.  Объем корпуса – 1 млн. словоупотреблений.  Текстами устной речи были записи радиопередач, заседаний официальных структур, а также неформальных бесед.
  • 13.
    Корпус Лондон-Лунд  Машинныйвариант корпуса создавался в Лундском университете (Швеция) и был готов к использованию в 1979 году.  Был одним из первых машиночитаемых корпусов.  Состоял из 34 текстов, представляющих тайно записанные разговоры, которые были также опубликованы в книге Дж. Свартвика и Р. Квирка «Корпус английского разговора» (1980)
  • 14.
    Корпус Лондон-Лунд  Присоставлении машиночитаемой версии некото- рой частью информации пришлось пожертвовать.  Те, кого записали, вряд ли могут считаться среднестатистическими предствителями лиц, говорящих на английском языке.  Тем не менее, корпус Лондон-Лунд очень помог в изучении речи.  Из-за сложностей составления корпусов устной речи этот корпус долго оставался самым важным источником для компьютерного исследования разговорного английского.
  • 15.
    Корпус Лондон-Лунд  Появлениеэтого корпуса привело к множеству исследований по лексике, грамматике, просодии речи и особенно по структуре и функционированию дискурса.  Так, были исследованы  использование слов actually, really, you know, you see, I mean, well  вопросы и ответы в английском разговоре,  использование пассива, просодических моделей английского разговора и т.д.
  • 16.
    Корпус Лондон-Лунд  Устныйи письменный английский изучались в сопоставительных исследованиях на базе корпусов Лондон-Лунд и Ланкастер-Осло- Берген;  в частности, изучались:  модальность,  связи в сложных предложениях,  отрицание.
  • 17.
    Корпусы устной речи В настоящее время большой интерес корпусных лингвистов привлекают способы передачи эмоций в устной речи, выражение удивления и т.д.  Примером корпуса, позволяющего проводить подобные исследования, является мультимедийный подкорпус в составе НКРЯ.
  • 18.
    Корпусы устной речи Сложность создания заключается в том, что: 1. устную речь нужно как-то зафиксировать  с помощью магнитной ленты, цифровой записи или видеокассеты 1. её нужно записать буквами  что является утомительной и дорогой работой, качество которой зависит в большой степени от качества записи и степени шума внешней среды в естественных условиях.
  • 19.
    Корпусы устной речи Главная сложность создания фонетических лингвистических ресурсов связана с необходимостью транскрибирования устной речи.  При этом возникают следующие проблемы: 1. Какой алгоритм использовать для транскрибирования? 2. Учитывать ли индивидуальные особенности произношения?
  • 20.
    Корпусы устной речи 3.Учитывать ли весь устный текст или его фрагменты? 4. Учитывать ли диалектные варианты произношения слов? 5. Учитывать ли ударения в словах? 6. Учитывать ли просодические признаки произносимых фраз? 7. Отмечать ли слова, которые при прослушивании не распознавались? 8. Отмечать ли в записи для фонетического корпуса паралингвистические явления, сопутствующие речи (паузы, смех, бормотание, кашель, и т.д.)?
  • 21.
    Корпусы устной речи Выбор качества транскрибирования зависит от целей использования корпуса и его пользователей  Для лингвиста приоритетом является орфографическая запись и большое количество текстовых данных  Для фонетиста нужна детальная транскрипция со ссылками к аудио-записям и требуется меньше текстов
  • 22.
    Корпусы устной речи Для аналитика дискурса требуется детальная информация о контекстуальных характеристиках речевых событий  Чем детальнее информация – тем сложнее с ней работать и статистически оценивать  Чем больше информации опускается, тем корпус менее пригоден для широкого класса задач
  • 23.
    Этапы создания корпусаустной речи  Сбор данных (аудио/видео-запись)  Транскрипция (перевод в машиночитаемую форму)  Аннотирование  Публикация (предоставление доступа)
  • 24.
    Сбор данных  Передначалом записи необходимо получить информированное согласие информантов:  письменное согласие на запись  аудио-согласие информанта, записанное непосредственно перед опросом (например, при записи участников семинара)  Это может скомпрометировать некоторые исследования, т.к. люди ведут себя по- другому, если знают, что их записывают
  • 25.
    Сбор данных  BAALRecommendations on Good Practice in Applied Linguistics http://www.baal.org.uk/dox/goodpractice_stud.pdf  Первые корпусы устной речи критиковались за низкое качество записи  Студийная запись (не всегда можно получить естественную речь)  Использование микрофона головной гарнитуры
  • 26.
    Сбор данных  Использованиепетличных микрофонов, позволяющих фиксировать участников беседы  Должна осуществляться цифровая запись, т.к. аналоговую запись легко утратить  Если записывается только аудио-сигнал, необходимо снабжать его письменными комментариями, которые могут помочь при дальнейшем транскрибировании
  • 27.
    Сбор данных  Необходимотакже снабдить запись информацией о:  условиях записи  используемом оборудовании  возникших технических проблемах  Перед записью желательно сформировать форму для таких комментариев, чтобы вся мета-информация была единообразной
  • 28.
    Транскрипция: 3 принципа проектирования 1.Категории должны быть:  чётко различимыми  исчерпывающими  сопоставимыми 1. Транскрипция должна быть читаемой (для исследователя) 2. Для удобства манипулирования на компьютере разметка должна быть:  систематичной  предсказуемой
  • 29.
    Транскрипция  Необходимо выбратьтип транскрипции  орфографическая  фонетическая  просодическая  комбинированная  При комбинированной транскрипции нужно решить, как выравнивать различные уровни:  на отдельных строках  в отдельных колонках
  • 30.
    Орфографическая транскрипция  Какойвариант записи выбрать?  color vs. colour  Можно использовать нормативный словарь  Как записывать сокращённые формы?  gonna vs. going to  как фонетист будет различать такие случаи?  Как записывать иностранные имена собственные?  Антропонимические словари или справочники географических названий
  • 31.
  • 32.
    Транскрипция  Если впроекте участвует несколько человек, желательно:  Написать и следовать инструкции по транскрипции  Проводить кросс-проверку  Записывать, кто и когда делал транскрипцию и проверял работу
  • 33.
    Аннотирование  Тексты иразметка не должны зависеть от операционной системы и коммерческих продуктов  Unicode  XML  Следование стандартам (Text Encoding Initiative)  XSLT может преобразовать <pause dur="short"/> в .., #, <,> или .
  • 34.
    TEI Guidelines http://www.tei-c.org/Guidelines/P5/  Набортегов для кодирования устной речи включает следующие компоненты:  Высказывание (фрагмент речи)  Паузы  Экстралингвистические звуки (кашль, зевание, храп и т.д.)  Кинесические феномены (жесты)  Различные звуки (шумы), влияющие на коммуникацию  Письменный текст, показанный во время беседы  Изменение просодических характеристик
  • 35.
    Аннотирование  В тегахXML-файлов можно указывать ссылки на точное время аудио-записи для выравнивания транскрипции и звука  Аннотировать аудио-файлы можно с помощью программ:  Praat (http://www.fon.hum.uva.nl/praat/)  Speech Analyzer ( http://www.sil.org/resources/software_fonts/speech-analyzer)  Transana (http://www.transana.org/)