Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Корпусная лингвистика<br />проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве<br />Докладчик: Бо...
О докладчике<br />Виктор Бочаров:<br /><ul><li>Аспирант кафедры математической лингвистики СПбГУ
Участник инициативы Mathlingvo и проекта Открытый корпус</li></li></ul><li>План презентации<br /><ul><li>Что такое корпус ...
Какие бывают корпуса текстов?
Какие задачи решает компьютерная лингвистика?
Зачем нужен ещё один корпус и каким он должен быть?</li></li></ul><li>Термины<br />Лингвистический корпус - совокупность т...
Термины (2)<br />Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей...
Использование корпусов<br />
Лингвистические корпуса<br />
Разметка<br />
Разметка<br />
Разметка<br />
Морфологическая разметка<br />
Морфологическая омонимия<br />Эти типы стали есть в цехе.<br />Человек человеку волк, а зомби зомбизомби.<br />Косил косой...
Синтаксическая разметка<br />Многословные сущности:<br />ФИО, названия компаний, городов, ... .<br />«Локальный синтаксис»...
Синтаксическая разметка<br />	«Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»...
Семантическая разметка<br />Выбор правильного значения слова:<br />«Коса» - причёска, инструмент, оружие, форма рельефа, …...
Лингвистические корпуса<br />Создание корпуса — это долго и дорого.<br />Один корпус можно использовать много раз:<br />Дл...
Компьютерная лингвистика<br />
Инструменты<br />Корпус<br />Инструмент<br />Алгоритм<br />
Инструменты<br />Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any...
Задачи<br />Извлечение фактов<br />Классификация текстов<br />Автоматический перевод<br />Автоматическое реферирование<br ...
Продукты<br />
Продукты (2)<br />
Народное хозяйство<br />Корпус<br />Инструменты<br />Решения<br />задач<br />Алгоритмы<br />лингвистика<br />не лингвистик...
Компьютерная лингвистика<br />Сделать информацию из текстов доступной для автоматической обработки:<br />Извлечение фактов...
Корпуса русских текстов<br />Национальный корпус русского языка (НКРЯ)<br />Всего<br />341 млн словоупотреблений<br />Со с...
Корпуса русских текстов<br />НКРЯ<br />180 тыс словоупотреблений доступно<br />Только поиск, есть разметка (в том числе ру...
Проблемы<br />Авторские права на тексты<br />Решения:<br />Случайный порядок предложений<br />Доступ только для поиска<br ...
Какой нужен корпус<br />
OpenCorpora<br />
OpenCorpora - источники<br />«Частный корреспондент»<br />Раздел Википедии на русском языке<br />Раздел Викиновостей на ру...
OpenCorpora - разметка<br />Метатекстовая<br />Типографская*<br />Графематическая<br />Морфологическая (автоматическая, бе...
OpenCorpora - объем<br />
Upcoming SlideShare
Loading in …5
×

Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

  • Login to see the comments

  • Be the first to like this

Корпусная лингвистика: Проект открытый корпус и применение в народном хозяйстве

  1. 1. Корпусная лингвистика<br />проект Открытый Корпус и место компьютерной лингвистики в народном хозяйстве<br />Докладчик: Бочаров Виктор<br />июль 2011<br />
  2. 2. О докладчике<br />Виктор Бочаров:<br /><ul><li>Аспирант кафедры математической лингвистики СПбГУ
  3. 3. Участник инициативы Mathlingvo и проекта Открытый корпус</li></li></ul><li>План презентации<br /><ul><li>Что такое корпус текстов и зачем он нужен?
  4. 4. Какие бывают корпуса текстов?
  5. 5. Какие задачи решает компьютерная лингвистика?
  6. 6. Зачем нужен ещё один корпус и каким он должен быть?</li></li></ul><li>Термины<br />Лингвистический корпус - совокупность текстов, подобранных определённым образом и снабжённых лингвистической информацией.<br />Корпусная лингвистика - раздел языкознания, занимающийся созданием и использованием корпусов.<br />Корпусный менеджер - поисковая система по корпусу.<br />
  7. 7. Термины (2)<br />Компьютерная лингвистика — раздел прикладной лингвистики, занимающийся применением математических моделей для описания естественного языка.<br />NaturalLanguageProcessing (NLP) — автоматическая обработка естественного языка.<br />
  8. 8. Использование корпусов<br />
  9. 9. Лингвистические корпуса<br />
  10. 10. Разметка<br />
  11. 11. Разметка<br />
  12. 12. Разметка<br />
  13. 13. Морфологическая разметка<br />
  14. 14. Морфологическая омонимия<br />Эти типы стали есть в цехе.<br />Человек человеку волк, а зомби зомбизомби.<br />Косил косой косойкосой.<br />«стали», «стекло» - сущ. или глагол?<br />«раме» - дательный или предложный?<br />«стол» - именительный или винительный?<br />«море» - МОР или МОРЕ или МОРА?<br />«из» - предлог ИЗ или имя ИЗА?<br />«для» - предлог ДЛЯ или глагол ДЛИТЬ?<br />«при» - предлог ПРИ или глагол ПЕРЕТЬ?<br />
  15. 15. Синтаксическая разметка<br />Многословные сущности:<br />ФИО, названия компаний, городов, ... .<br />«Локальный синтаксис»:<br />СУЩ + ПРИЛ («красный стол», «железная дорога», …),<br />НАР + ГЛ («быстро бежал», «давно ждёт», …)<br />Синтаксис предложения:<br />Разрешение анафоры («Василий ждёт Михаила. Он всегда опаздывает»)<br />
  16. 16. Синтаксическая разметка<br /> «Московский Локомотив на своём стадионе в Черкизово обыграл норвежский Бранн со счётом 3:2.»<br />
  17. 17. Семантическая разметка<br />Выбор правильного значения слова:<br />«Коса» - причёска, инструмент, оружие, форма рельефа, …<br />«Ключ» - для открывания замка, часть иероглифа, родник, скрипичный, телеграфный, …<br />Построение семантического графа;<br />Снятие объектной омонимии:<br />ЦСКА — Москва, Киев, Баку, София, Ереван, …<br />
  18. 18. Лингвистические корпуса<br />Создание корпуса — это долго и дорого.<br />Один корпус можно использовать много раз:<br />Для разных задач<br />Разными людьми<br />Многократное использование одного корпуса даёт возможность сравнивать результаты.<br />
  19. 19. Компьютерная лингвистика<br />
  20. 20. Инструменты<br />Корпус<br />Инструмент<br />Алгоритм<br />
  21. 21. Инструменты<br />Диалог-2011: «The proper place of men and machines in language technology. Processing Russian without any linguistic knowledge», Serge Sharoff, JoakimNivre<br />TnT tagger<br />PoStagger<br />для русского<br />НКРЯ<br />SynTagRus<br />Синтаксический<br />анализатор<br />для русского<br />MaltParser<br />
  22. 22. Задачи<br />Извлечение фактов<br />Классификация текстов<br />Автоматический перевод<br />Автоматическое реферирование<br />Определение тональности высказывания<br />Распознавание / синтез речи<br />OCR<br />Диалоговые системы<br />
  23. 23. Продукты<br />
  24. 24. Продукты (2)<br />
  25. 25. Народное хозяйство<br />Корпус<br />Инструменты<br />Решения<br />задач<br />Алгоритмы<br />лингвистика<br />не лингвистика<br />Продукты<br />Другие<br />технологии<br />
  26. 26. Компьютерная лингвистика<br />Сделать информацию из текстов доступной для автоматической обработки:<br />Извлечение фактов (из текста в БД)<br />Сделать информацию удобной для потребления человеком:<br />OCR, распознавание речи, реферирование, перевод<br />Разложить тексты по полочкам:<br />Классификация, поиск<br />
  27. 27. Корпуса русских текстов<br />Национальный корпус русского языка (НКРЯ)<br />Всего<br />341 млн словоупотреблений<br />Со снятой морфологической омонимией<br />6 млн словоупотреблений<br />Ссинтаксической разметкой (SynTagRus)<br />600 тыс словоупотреблений*<br />www.ruscorpora.ru<br />
  28. 28. Корпуса русских текстов<br />НКРЯ<br />180 тыс словоупотреблений доступно<br />Только поиск, есть разметка (в том числе ручная)<br />Упсальский корпус<br />Доступен, нет разметки<br />Тюбингенский корпус<br />Только поиск, есть разметка (автоматическая)<br />ХАНКО — хельсинский аннотированный корпус<br />Только поиск, есть разметка<br />
  29. 29. Проблемы<br />Авторские права на тексты<br />Решения:<br />Случайный порядок предложений<br />Доступ только для поиска<br />Убеждённость, что для научных целей можно<br />Высокая стоимость ручной разметки<br />Решения:<br />Автоматическая разметка<br />Автоматическая разметка с ручной проверкой<br />
  30. 30. Какой нужен корпус<br />
  31. 31. OpenCorpora<br />
  32. 32. OpenCorpora - источники<br />«Частный корреспондент»<br />Раздел Википедии на русском языке<br />Раздел Викиновостей на русском языке<br />Худ. литература в общественном достоянии<br />Блоги под совместимой лицензией<br />Научно-техническая литература под совместимой лицензией<br />...<br />
  33. 33. OpenCorpora - разметка<br />Метатекстовая<br />Типографская*<br />Графематическая<br />Морфологическая (автоматическая, без снятия омонимии)<br />Снятие морфологической омонимии<br />Синтаксическая<br />
  34. 34. OpenCorpora - объем<br />
  35. 35. Демонстрация<br />http://opencorpora.org/<br />
  36. 36. Вопросы?<br />

×