Your SlideShare is downloading. ×
  • Like
Языковые корпуса
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply
Published

20 апреля 2010 …

20 апреля 2010
Клишин Арсений

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
3,441
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
45
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Языковые корпуса Клишин Арсений, 424 группа
  • 2. Понятие корпуса текста
    • Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
  • 3. Классификация корпусов Признак Типы корпусов Тип данных
    • Письменные
    • Речевые
    • Смешанные
    Язык текстов
    • Русский
    • Английский и т.д.
    «Параллельность»
    • Одноязычные
    • Двуязычные
    • Многоязычные
    Жанр
    • Литературные
    • Фольклорные
    • Драматургические
    • Публицистические
  • 4. Целесообразность создания корпусов
    • Целесообразность создания корпусов определяется тремя предпосылками:
      • данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения
      • достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных
      • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.
      • Помимо этого некоторые корпуса предоставляют
      • возможность получения различных справок, относящихся
      • к лексике, грамматике, акцентологии, истории языка.
  • 5. Коротко о корпусной лингвистике
    • 1960-е - Brown Corpus ( 500 фрагментов текстов по 2 тысячи слов).
    • 1970-е - Частотный словарь Засориной по принципу BC (также ~ 1 млн. слов)
    • 1980-е - British National Corpus; в СССР начался проект А.П.Ершова под названием “ Машинный фонд русского языка ” .
    • Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB).
    • Другие :
    • International Corpus of English .
    • Мангеймский корпус немецкого языка.
    • Чешский национальный корпус.
    • Уппсальский корпус русского языка.
    • Национальный корпус русского языка.
    • Корпусы китайского, турецкого, эстонского, албанского и многих других языков
  • 6. Науки, связанные с корпусами Искусственный интеллект
      • Лингвистика
          • Компьютерная лингвистика
    Корпусная лингвистика
  • 7. Исследования в области корпусной лингвистики
    • C бор моно- и многоязычных корпусов текстов, средства кодирования и средства поиска в них
    • Анализ языка с экспериментальной точки зрения, т.е. какие слова, выражения, грамматические конструкции, типы развития дискурса действительно употребляются носителями языка, как часто и для каких целей.
  • 8. Проблемы корпусной лингвистики:
    • Представительность корпуса
      • Корпус должен правильно отражать состояние языка
    • Представление результатов
      • поиск по запросу может выдавать сотни и даже тысячи результатов
    • Разметка и метаразметка текстов
  • 9. Проблема представительности
    • Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексико-грамматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса.
    • Для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться ) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов ( незатейливый, сердцебиение, роиться ) уже требуется корпус свыше ста миллионов словоупотреблений.
  • 10. Проблема представления результатов
    • В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время.
  • 11. Подробнее о метаразметке текстов
    • Метаданные – структурированные данные о
    • данных .
    • Метаданные служат для :
    • Классификации текстов
    • Автоматического обнаружения и обработки данных.
    • Из Максимов Лича :
    • No annotation scheme has the a priori right to be
    • considered as a standard.
  • 12. Подробнее о метаразметке текстов
    • Виды разметки :
    • «внешняя», «интеллектуальная» разметка :
    • библиографические характеристики
    • типологические характеристики
    • тематические характеристики
    • социологические характеристики
    • «формальная», структурная разметка :
    • текст, раздел, глава, часть, абзац, предложение и т.д.
    • технико-технологическая разметка :
    • кодировка
    • даты обработки
    • исполнители
    • источник электронной версии
  • 13. Подробнее о метаразметке текстов
    • Нужна:
    • для выявления взаимосвязей в языке и изучения условий его существования;
    • для изучения отдельных подмножеств языка.
    • Требуется унификация для возможности :
    • многократного использования;
    • совместимости с другими корпусами;
    • совместимости с общепринятыми научными теориями;
    • использование общих лингвистических процессоров
    • совместимости с общепринятыми классификациями;
    • применения стандартных программных средств.
  • 14. Подробнее о метаразметке текстов
    • Международные проекты и стандарты :
    • Проект TEI ( Text Encoding Initiative );
    • рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards) ;
    • стандарт CES (Corpus Encoding Standard) ;
    • стандарт XCES (Corpus Encoding Standard for XML) ;
    • проект ISLE (International Standards for Language Engineering) ;
    • стандарт CDIF (Corpus Document Interchange Format, BNC) .
  • 15. Пример метаразметки текста
    • <teiHeader id=&quot;TRIF1&quot; target=&quot;TRIFONOW/dom.txt&quot; type=&quot;text&quot; lang=&quot;ru&quot;>
    • <fileDesc>
    • <titleStmt>
    • <title>Дом на набережной</title><author>Юрий Трифонов</author>
    • <extent type=&quot;w&quot;>45238</extent>
    • <extent type=&quot;u&quot;>4</extent>
    • <extent type=&quot;s&quot;>4132</extent>
    • </titleStmt>
    • <sourceDesc>
    • <respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt>
    • <address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address>
    • </sourceDesc>
    • </fileDesc>
  • 16. Синтаксическая разметка
    • Составляющие :
    • фиксация синтаксических связей
    • приписывание синтаксическим единицам соответствующих характеристик:
      • тип предложения
      • синтаксическая функция
      • член предложения
      • и т.п.
  • 17. Синтаксическая разметка
    • Самая важная математическая система для моделирования структуры составляющих ЕЯ – контекстно-свободная грамматика Хомского (КСГ). Такие грамматики являются ядром многих формальных моделей синтаксиса естественных (а также формальных) языков и могут быть включены в разные приложения
    • Правила КС могут применяться, чтобы снабдить любое предложение древовидной синтаксической структурой и, тем самым, образовать корпус, где каждое предложение размечено его деревом анализа.
    • Такой синтаксически аннотированный корпус называется банком синтаксических деревьев (treebank).
  • 18. Синтаксическая разметка
    • Наряду с КСГ, применяются и грамматики синтаксических зависимостей (ГЗ).
    • Преимущество формализма зависимостей заключается в его строго предсказуемой силе. Так, зная глагол, мы можем определить, является ли данное существительное его субъектом или объектом. ГЗ позволяют обрабатывать языки со свободным порядком слов
    • Существует много реализаций ГЗ, в том числе грамматика Мельчука (1979), Link Grammar6 (1993), Constraint Grammar [7] (1995) и др. ГЗ часто применяются для языков, отличных от английского, хотя и для английского языка создано несколько анализаторов.
  • 19. Синтаксическая разметка
    • Самый известный банк составляющих – Penn Treebank в Пеннсильванском университете.
    • Известный банк зависимостей – Пражский банк чешского языка (Prague Dependency Bank).
    • Кроме того, имеются банки деревьев, в которых принято гибридное представление синтаксической структуры, напр., TIGER Treebank для немецкого языка.
    • Созданы специальные средства визуализации и редактирования деревьев, напр., Annotate, WordFreak.9
    • Для осуществления поиска в банках деревьев создано несколько инструментальных средств, напр., tgrep, Tgrep2.10
  • 20. Национальный корпус русского языка
    • Состав РНКЯ :
    • Основной корпус (тексты, представляющие русский литературный язык)
      • современные письменные тексты
      • корпус живой русской речи
      • ранние тексты
    • Глубоко аннотированный корпус
    • Корпус параллельных текстов
    • Корпус диалектных текстов
    • Корпус поэтических текстов
    • Обучающий корпус русского языка
    • Корпус устной речи
  • 21. Национальный Корпус Русского Языка Подкорпус Число текстов Число словоупотреблений Основной корпус 42 387 147 577 522 в том числе со снятой омонимией 2 215 5 884 661 Диалектный корпус 122 144 099 Поэтический корпус 9 675 2 586 710 Обучающий корпус 230 649 684
  • 22. Национальный Корпус Русского Языка
    • Решения о морфологическом стандрте, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка
    • Синтаксическая структура предложения, используемая в синтаксически размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского.
  • 23. Классификация текстов РНКЯ
    • I. «Паспорт текста»
      • Автор текста
      • Название текста
      • Время создания текста
      • Объем текста
    • II.1. Художественные тексты
      • Жанр текста
      • Тип текста
      • Хронотоп текста
    • II.2. Нехудожественные тексты
      • Сфера функционирования текста
      • Тип текста
      • Тематика текста
  • 24. Классификация текстов РНКЯ
    • Классификация Синклера-Шарова
    • Выделяются 2 фактора – внешние ( E) и
    • внутренние ( I):
    • E1 (origin)  — факторы, относящиеся к созданию текста автором; E2 (state)  — факторы, относящиеся к внешним признакам текста; E3 (aims)  — факторы, относящиеся к целям создания текста и его влиянию на аудиторию.
    • I1 (topic)  — предметная область текста; I2 (style)  — стилистические особенности .
  • 25. Возможности поиска в РНКЯ
    • Помимо стандартного поиска точных форм в
    • РНКЯ поддерживаются следующие
    • инновационные формы поиска :
    • Лексико-грамматический поиск
    • Поиск по синтаксически размеченному корпусу с возможностью вывода древовидной синтаксической структуры предложения
  • 26. Лексико-грамматический поиск
  • 27. Лексико-грамматический поиск
  • 28. Поиск по синтаксически размеченному корпусу
  • 29. Материалы :
    • http :// www.ruscorpora.ru / (РНКЯ)
    • http :// bokrcorpora.narod.ru /
    • лекции о корпусной лингвистике Захарова В.П. (Санкт-Петербургский государственный университет)
    • http :// www . dialog -21. ru (Конференция “ Диалог ” )
    • Статьи Е.Ю. Калининой
    • От синтаксиса к семантике – о выборе формализмов и лингвистических ресурсов (Койт М .М., Роосмаа Т .А., Ыйм Х .Я., тартуский университет )
    • Википедия