Языковые корпуса

5,578 views

Published on

20 апреля 2010
Клишин Арсений

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,578
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
68
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Языковые корпуса

  1. 1. Языковые корпуса Клишин Арсений, 424 группа
  2. 2. Понятие корпуса текста <ul><li>Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. </li></ul>
  3. 3. Классификация корпусов Признак Типы корпусов Тип данных <ul><li>Письменные </li></ul><ul><li>Речевые </li></ul><ul><li>Смешанные </li></ul>Язык текстов <ul><li>Русский </li></ul><ul><li>Английский и т.д. </li></ul>«Параллельность» <ul><li>Одноязычные </li></ul><ul><li>Двуязычные </li></ul><ul><li>Многоязычные </li></ul>Жанр <ul><li>Литературные </li></ul><ul><li>Фольклорные </li></ul><ul><li>Драматургические </li></ul><ul><li>Публицистические </li></ul>
  4. 4. Целесообразность создания корпусов <ul><li>Целесообразность создания корпусов определяется тремя предпосылками: </li></ul><ul><ul><li>данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения </li></ul></ul><ul><ul><li>достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных </li></ul></ul><ul><ul><li>возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач. </li></ul></ul><ul><ul><li>Помимо этого некоторые корпуса предоставляют </li></ul></ul><ul><ul><li>возможность получения различных справок, относящихся </li></ul></ul><ul><ul><li>к лексике, грамматике, акцентологии, истории языка. </li></ul></ul>
  5. 5. Коротко о корпусной лингвистике <ul><li>1960-е - Brown Corpus ( 500 фрагментов текстов по 2 тысячи слов). </li></ul><ul><li>1970-е - Частотный словарь Засориной по принципу BC (также ~ 1 млн. слов) </li></ul><ul><li>1980-е - British National Corpus; в СССР начался проект А.П.Ершова под названием “ Машинный фонд русского языка ” . </li></ul><ul><li>Ланкастерский корпус английского языка (Lancaster-Oslo-Bergen Corpus, LOB). </li></ul><ul><li>Другие : </li></ul><ul><li>International Corpus of English . </li></ul><ul><li>Мангеймский корпус немецкого языка. </li></ul><ul><li>Чешский национальный корпус. </li></ul><ul><li>Уппсальский корпус русского языка. </li></ul><ul><li>Национальный корпус русского языка. </li></ul><ul><li>Корпусы китайского, турецкого, эстонского, албанского и многих других языков </li></ul>
  6. 6. Науки, связанные с корпусами Искусственный интеллект <ul><ul><li>Лингвистика </li></ul></ul><ul><ul><ul><ul><li>Компьютерная лингвистика </li></ul></ul></ul></ul>Корпусная лингвистика
  7. 7. Исследования в области корпусной лингвистики <ul><li>C бор моно- и многоязычных корпусов текстов, средства кодирования и средства поиска в них </li></ul><ul><li>Анализ языка с экспериментальной точки зрения, т.е. какие слова, выражения, грамматические конструкции, типы развития дискурса действительно употребляются носителями языка, как часто и для каких целей. </li></ul>
  8. 8. Проблемы корпусной лингвистики: <ul><li>Представительность корпуса </li></ul><ul><ul><li>Корпус должен правильно отражать состояние языка </li></ul></ul><ul><li>Представление результатов </li></ul><ul><ul><li>поиск по запросу может выдавать сотни и даже тысячи результатов </li></ul></ul><ul><li>Разметка и метаразметка текстов </li></ul>
  9. 9. Проблема представительности <ul><li>Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексико-грамматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. </li></ul><ul><li>Для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться ) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов ( незатейливый, сердцебиение, роиться ) уже требуется корпус свыше ста миллионов словоупотреблений. </li></ul>
  10. 10. Проблема представления результатов <ul><li>В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. </li></ul>
  11. 11. Подробнее о метаразметке текстов <ul><li>Метаданные – структурированные данные о </li></ul><ul><li>данных . </li></ul><ul><li>Метаданные служат для : </li></ul><ul><li>Классификации текстов </li></ul><ul><li>Автоматического обнаружения и обработки данных. </li></ul><ul><li>Из Максимов Лича : </li></ul><ul><li>No annotation scheme has the a priori right to be </li></ul><ul><li>considered as a standard. </li></ul>
  12. 12. Подробнее о метаразметке текстов <ul><li>Виды разметки : </li></ul><ul><li>«внешняя», «интеллектуальная» разметка : </li></ul><ul><li>библиографические характеристики </li></ul><ul><li>типологические характеристики </li></ul><ul><li>тематические характеристики </li></ul><ul><li>социологические характеристики </li></ul><ul><li>«формальная», структурная разметка : </li></ul><ul><li>текст, раздел, глава, часть, абзац, предложение и т.д. </li></ul><ul><li>технико-технологическая разметка : </li></ul><ul><li>кодировка </li></ul><ul><li>даты обработки </li></ul><ul><li>исполнители </li></ul><ul><li>источник электронной версии </li></ul>
  13. 13. Подробнее о метаразметке текстов <ul><li>Нужна: </li></ul><ul><li>для выявления взаимосвязей в языке и изучения условий его существования; </li></ul><ul><li>для изучения отдельных подмножеств языка. </li></ul><ul><li>Требуется унификация для возможности : </li></ul><ul><li>многократного использования; </li></ul><ul><li>совместимости с другими корпусами; </li></ul><ul><li>совместимости с общепринятыми научными теориями; </li></ul><ul><li>использование общих лингвистических процессоров </li></ul><ul><li>совместимости с общепринятыми классификациями; </li></ul><ul><li>применения стандартных программных средств. </li></ul>
  14. 14. Подробнее о метаразметке текстов <ul><li>Международные проекты и стандарты : </li></ul><ul><li>Проект TEI ( Text Encoding Initiative ); </li></ul><ul><li>рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards) ; </li></ul><ul><li>стандарт CES (Corpus Encoding Standard) ; </li></ul><ul><li>стандарт XCES (Corpus Encoding Standard for XML) ; </li></ul><ul><li>проект ISLE (International Standards for Language Engineering) ; </li></ul><ul><li>стандарт CDIF (Corpus Document Interchange Format, BNC) . </li></ul>
  15. 15. Пример метаразметки текста <ul><li><teiHeader id=&quot;TRIF1&quot; target=&quot;TRIFONOW/dom.txt&quot; type=&quot;text&quot; lang=&quot;ru&quot;> </li></ul><ul><li><fileDesc> </li></ul><ul><li><titleStmt> </li></ul><ul><li><title>Дом на набережной</title><author>Юрий Трифонов</author> </li></ul><ul><li><extent type=&quot;w&quot;>45238</extent> </li></ul><ul><li><extent type=&quot;u&quot;>4</extent> </li></ul><ul><li><extent type=&quot;s&quot;>4132</extent> </li></ul><ul><li></titleStmt> </li></ul><ul><li><sourceDesc> </li></ul><ul><li><respStmt><resp>Файл из Библиотеки Мошкова</resp></respStmt> </li></ul><ul><li><address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address> </li></ul><ul><li></sourceDesc> </li></ul><ul><li></fileDesc> </li></ul>
  16. 16. Синтаксическая разметка <ul><li>Составляющие : </li></ul><ul><li>фиксация синтаксических связей </li></ul><ul><li>приписывание синтаксическим единицам соответствующих характеристик: </li></ul><ul><ul><li>тип предложения </li></ul></ul><ul><ul><li>синтаксическая функция </li></ul></ul><ul><ul><li>член предложения </li></ul></ul><ul><ul><li>и т.п. </li></ul></ul>
  17. 17. Синтаксическая разметка <ul><li>Самая важная математическая система для моделирования структуры составляющих ЕЯ – контекстно-свободная грамматика Хомского (КСГ). Такие грамматики являются ядром многих формальных моделей синтаксиса естественных (а также формальных) языков и могут быть включены в разные приложения </li></ul><ul><li>Правила КС могут применяться, чтобы снабдить любое предложение древовидной синтаксической структурой и, тем самым, образовать корпус, где каждое предложение размечено его деревом анализа. </li></ul><ul><li>Такой синтаксически аннотированный корпус называется банком синтаксических деревьев (treebank). </li></ul>
  18. 18. Синтаксическая разметка <ul><li>Наряду с КСГ, применяются и грамматики синтаксических зависимостей (ГЗ). </li></ul><ul><li>Преимущество формализма зависимостей заключается в его строго предсказуемой силе. Так, зная глагол, мы можем определить, является ли данное существительное его субъектом или объектом. ГЗ позволяют обрабатывать языки со свободным порядком слов </li></ul><ul><li>Существует много реализаций ГЗ, в том числе грамматика Мельчука (1979), Link Grammar6 (1993), Constraint Grammar [7] (1995) и др. ГЗ часто применяются для языков, отличных от английского, хотя и для английского языка создано несколько анализаторов. </li></ul>
  19. 19. Синтаксическая разметка <ul><li>Самый известный банк составляющих – Penn Treebank в Пеннсильванском университете. </li></ul><ul><li>Известный банк зависимостей – Пражский банк чешского языка (Prague Dependency Bank). </li></ul><ul><li>Кроме того, имеются банки деревьев, в которых принято гибридное представление синтаксической структуры, напр., TIGER Treebank для немецкого языка. </li></ul><ul><li>Созданы специальные средства визуализации и редактирования деревьев, напр., Annotate, WordFreak.9 </li></ul><ul><li>Для осуществления поиска в банках деревьев создано несколько инструментальных средств, напр., tgrep, Tgrep2.10 </li></ul>
  20. 20. Национальный корпус русского языка <ul><li>Состав РНКЯ : </li></ul><ul><li>Основной корпус (тексты, представляющие русский литературный язык) </li></ul><ul><ul><li>современные письменные тексты </li></ul></ul><ul><ul><li>корпус живой русской речи </li></ul></ul><ul><ul><li>ранние тексты </li></ul></ul><ul><li>Глубоко аннотированный корпус </li></ul><ul><li>Корпус параллельных текстов </li></ul><ul><li>Корпус диалектных текстов </li></ul><ul><li>Корпус поэтических текстов </li></ul><ul><li>Обучающий корпус русского языка </li></ul><ul><li>Корпус устной речи </li></ul>
  21. 21. Национальный Корпус Русского Языка Подкорпус Число текстов Число словоупотреблений Основной корпус 42 387 147 577 522 в том числе со снятой омонимией 2 215 5 884 661 Диалектный корпус 122 144 099 Поэтический корпус 9 675 2 586 710 Обучающий корпус 230 649 684
  22. 22. Национальный Корпус Русского Языка <ul><li>Решения о морфологическом стандрте, принятые в корпусе, в основном опираются на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка </li></ul><ul><li>Синтаксическая структура предложения, используемая в синтаксически размеченном корпусе (СинТагРус), представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а ветви помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И.А.Мельчука и А.К.Жолковского. </li></ul>
  23. 23. Классификация текстов РНКЯ <ul><li>I. «Паспорт текста» </li></ul><ul><ul><li>Автор текста </li></ul></ul><ul><ul><li>Название текста </li></ul></ul><ul><ul><li>Время создания текста </li></ul></ul><ul><ul><li>Объем текста </li></ul></ul><ul><li>II.1. Художественные тексты </li></ul><ul><ul><li>Жанр текста </li></ul></ul><ul><ul><li>Тип текста </li></ul></ul><ul><ul><li>Хронотоп текста </li></ul></ul><ul><li>II.2. Нехудожественные тексты </li></ul><ul><ul><li>Сфера функционирования текста </li></ul></ul><ul><ul><li>Тип текста </li></ul></ul><ul><ul><li>Тематика текста </li></ul></ul>
  24. 24. Классификация текстов РНКЯ <ul><li>Классификация Синклера-Шарова </li></ul><ul><li>Выделяются 2 фактора – внешние ( E) и </li></ul><ul><li>внутренние ( I): </li></ul><ul><li>E1 (origin)  — факторы, относящиеся к созданию текста автором; E2 (state)  — факторы, относящиеся к внешним признакам текста; E3 (aims)  — факторы, относящиеся к целям создания текста и его влиянию на аудиторию. </li></ul><ul><li>I1 (topic)  — предметная область текста; I2 (style)  — стилистические особенности . </li></ul>
  25. 25. Возможности поиска в РНКЯ <ul><li>Помимо стандартного поиска точных форм в </li></ul><ul><li>РНКЯ поддерживаются следующие </li></ul><ul><li>инновационные формы поиска : </li></ul><ul><li>Лексико-грамматический поиск </li></ul><ul><li>Поиск по синтаксически размеченному корпусу с возможностью вывода древовидной синтаксической структуры предложения </li></ul>
  26. 26. Лексико-грамматический поиск
  27. 27. Лексико-грамматический поиск
  28. 28. Поиск по синтаксически размеченному корпусу
  29. 29. Материалы : <ul><li>http :// www.ruscorpora.ru / (РНКЯ) </li></ul><ul><li>http :// bokrcorpora.narod.ru / </li></ul><ul><li>лекции о корпусной лингвистике Захарова В.П. (Санкт-Петербургский государственный университет) </li></ul><ul><li>http :// www . dialog -21. ru (Конференция “ Диалог ” ) </li></ul><ul><li>Статьи Е.Ю. Калининой </li></ul><ul><li>От синтаксиса к семантике – о выборе формализмов и лингвистических ресурсов (Койт М .М., Роосмаа Т .А., Ыйм Х .Я., тартуский университет ) </li></ul><ul><li>Википедия </li></ul>

×