2. Компьютерная лингвистика —
направление в прикладной
лингвистике, ориентированное на использование
компьютерных программ и технологий организации
и обработки данных для моделирования
функционирования языка в тех или иных
условиях, ситуациях, проблемных сферах и т.д., а
также вся сфера применения компьютерных
моделей языка в лингвистике и смежных
дисциплинах.
(А. Н. Баранов, Введение в прикладную лингвистику)
5. Лингвистика (языкознание) — наука о естественном
человеческом языке вообще и о всех языках мира как
индивидуальных его представителях. Лингвистика
изучает язык вообще, как явление, не данное в
непосредственном наблюдении.
Язык есть естественно (на определенной стадии
развития человеческого общества) возникшая и
закономерно развивающаяся семиотическая
(знаковая) система, обладающая свойством
социальной предназначенности. Это
система, существующая прежде всего не для
отдельного индивида, а для определенного социума.
Кроме того, на эту знаковую систему наложены
ограничения, связанные с ее функциями и
используемым субстанциальным (звуковым)
материалом
(А. Е. Кибрик)
6. Определение В. П. Селегея
Компьютерная лингвистика 1 Компьютерная лингвистика 2
Это Это технология и
формализованная, полна методология решения
я и логически практических
непротиворечивая задач, компьютерного
лингвистика, модели
которой могут анализа и синтеза языка.
использоваться при
создании программ для
обработки текстов.
7. Компьютерная лингвистика Natural language processing
(The Association for Computational или Автоматическая
Linguistics) обработка текста
Компьютерная лингвистика Преимущественно область
как исследование языка с Computer Science,
искусственного интеллекта и
вычислительной точки лингвистики. Имеет отношение
зрения. Компьютерная к человеко-компьютерному
лингвистика занимается взаимодействию, и
современные модели АОТ чаще
созданием вычислительных строятся на машинном
моделей различных обучении и статистике, а не
моделировании языка.
лингвистических феноменов. Т.е. для решения своих задач
АОТ может использовать
формальные модели языка,
разных уровней языка,
создаваемые компьютерной
лингвистикой.
8. Igor A. Bolshakov and Alexander Gelbukh
“COMPUTATIONAL LINGUISTICS:
Models, Resources, Applications”
“Intelligent natural language processing is
based on the science called computational
linguistics. Computational linguistics is
closely connected with applied linguistics
and linguistics in general.”
12. Проблемы АОТ
2. Автоматическое индексирование и
рубрицирование (topic segmentation and
recognition)
http://maui-indexer.appspot.com
http://www.alchemyapi.com/api/demo.html
13. Проблемы АОТ
3. Автоматическое аннотирование и
реферирование (automatic abstracting)
http://extractorlive.com/on_line_demo.html
22. Проблемы АОТ
8. Графематический анализ (word
segmentation)
houses.
said,
Crazy?
positive.”
http://nlp.lsi.upc.edu/freeling/demo/demo.php
23. Проблемы АОТ
9. Сегментация текста на предложения
(sentence breaking or sentence boundary
disambiguation)
http://nlp.lsi.upc.edu/freeling/demo/demo.php
24. Проблемы АОТ
10. Морфологический анализ: стемминг
(выделение основы), выделение
аффиксов, моделирование словоизменения и
словообразования (morphological
segmentation)
30. Проблемы АОТ
12. Синтаксический парсинг (parsing or syntactic
analysis)
http://nlp.lsi.upc.edu/freeling/ — правила
http://aot.ru/demo/synt.html — грамматика HPSG
http://www.dictum.ru/ru/syntax/blog — правила
http://nlp.stanford.edu/software/lex-
parser.shtml — машинное обучение
35. Проблемы АОТ
14. Анализ дискурса (discourse analysis)
15. Автоматическое понимание текста (natural language
understanding)
АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов.
Системы, модели, ресурсы»)
Естественный текст 1) тест перевода
2) реферат
3) ответы на вопросы
4) рисунок или таблица
Несколько текстов 1) сравнение (выявление общего и
различного)
2) извлечение знаний
36. Проблемы АОТ
16. Автоматическая генерация языка (natural
language generation)
Яндекс.Рефераты
Генерация шуток
http://www.abdn.ac.uk/ncs/computing/researc
h/nlg/demonstrations/joking/
37.
38.
39. Проблемы АОТ
17. Сегментация речи (speech segmentation)
18. Автоматическое распознавание речи
(automatic speech recognition)
19. Синтез звучащей речи (speech synthesis)
http://nlpub.ru/wiki/Распознавание_речи
43. Проблемы АОТ
20. Машинный перевод (machine translation)
«Car firms hope to turn windscreens into giant
computer displays that overlay the real world
with useful information, such as directions or
even social media feeds.»
— «Cars turn to augmented reality», J. Stewart, BBC
60. Почему данную задачу так трудно
решить?
• Все словари разные и не эквивалентны друг другу.
• В некоторых языках проблема определения части
речи тесно связана с разрешением
многозначности, эти две задачи могут мешать друг
другу.
• Человеческий фактор.
• Здравый смысл.
«Jill and Mary are sisters.» — они являются сёстрами
по отношению друг к другу.
«Jill and Mary are mothers.» — каждая независимо
является матерью.
• Зависимость от задачи.
• Дискретное представление значений слова.
61. Основные подходы к решению
проблемы
1. «Глубокий» подход (deep approach)
«Зеленый» в сочетании с одуш. сущ. Обозначает
«неопытный». В значении «имеющий отношение к
зеленому цвету» только с неодуш. сущ.
2. «Поверхностный» подход (shallow
approach)
«The dogs bark at the tree»
bark – гл. «лаять» и сущ. «кора»
62. Методы решения
• методы, основанные на знаниях (dictionary-
и knowledge-based methods);
• методы обучения с учителем (supervised
methods);
• методы частичного обучения с
учителем (semi-supervised learning);
• методы обучения без учителя (unsupervised
methods.
65. «Неудобные» свойства языка
• Неоднозначность
«Сергей вернулся из командировки в Москву».
«Мы встретили сына художника, приехавшего
из Парижа».
«критика ученого»
«посещение родственников»
«приглашение композитора»
66. «Неудобные» свойства языка
• Несимметричность языков
• Избыточность
• Конвенциональность языка
• Эллиптичность
«Дан приказ ему на запад, /Ей — в другую
сторону» — М. В. Исаковский);
«Тане — 5, а Вале — 3»
«Моя мать — врач»
• Сложные средства референции
79. Источники
• Speech and Language Processing. An Introduction to Natural
Language Processing, Computational Linguistics, and Speech
Recognition. Daniel Jurafsky, James H. Martin
• COMPUTATIONAL LINGUISTICS: Models, Resources,
Applications. Igor A. Bolshakov, Alexander Gelbukh
• Введение в прикладную лингвистику. А. Н. Баранов.
• Автоматическое понимание текстов. Системы, модели,
ресурсы. Н. Н. Леонтьева
• Лекция В. П. Селегея «Компьютерная лингвистика
сегодня» (9.10.2012)