SlideShare a Scribd company logo
1 of 80
Компьютерная лингвистика


               Анисья Катинская
Компьютерная лингвистика —
направление в прикладной
лингвистике, ориентированное на использование
компьютерных программ и технологий организации
и обработки данных для моделирования
функционирования языка в тех или иных
условиях, ситуациях, проблемных сферах и т.д., а
также вся сфера применения компьютерных
моделей языка в лингвистике и смежных
дисциплинах.

       (А. Н. Баранов, Введение в прикладную лингвистику)
Computational linguistics

Компьютерная лингвистика

Вычислительная лингвистика
Джорджтаунский эксперимент. 1954 г.
Лингвистика (языкознание) — наука о естественном
человеческом языке вообще и о всех языках мира как
индивидуальных его представителях. Лингвистика
изучает язык вообще, как явление, не данное в
непосредственном наблюдении.

Язык есть естественно (на определенной стадии
развития человеческого общества) возникшая и
закономерно развивающаяся семиотическая
(знаковая) система, обладающая свойством
социальной предназначенности. Это
система, существующая прежде всего не для
отдельного индивида, а для определенного социума.
Кроме того, на эту знаковую систему наложены
ограничения, связанные с ее функциями и
используемым субстанциальным (звуковым)
материалом
                                       (А. Е. Кибрик)
Определение В. П. Селегея
Компьютерная лингвистика 1   Компьютерная лингвистика 2

Это                          Это технология и
формализованная, полна       методология решения
я и логически                практических
непротиворечивая             задач, компьютерного
лингвистика, модели
которой могут                анализа и синтеза языка.
использоваться при
создании программ для
обработки текстов.
Компьютерная лингвистика             Natural language processing
(The Association for Computational   или Автоматическая
Linguistics)                         обработка текста
Компьютерная лингвистика             Преимущественно область
как исследование языка с             Computer Science,
                                     искусственного интеллекта и
вычислительной точки                 лингвистики. Имеет отношение
зрения. Компьютерная                 к человеко-компьютерному
лингвистика занимается               взаимодействию, и
                                     современные модели АОТ чаще
созданием вычислительных             строятся на машинном
моделей различных                    обучении и статистике, а не
                                     моделировании языка.
лингвистических феноменов.           Т.е. для решения своих задач
                                     АОТ может использовать
                                     формальные модели языка,
                                     разных уровней языка,
                                     создаваемые компьютерной
                                     лингвистикой.
Igor A. Bolshakov and Alexander Gelbukh
“COMPUTATIONAL LINGUISTICS:
Models, Resources, Applications”



“Intelligent natural language processing is
based on the science called computational
linguistics. Computational linguistics is
closely connected with applied linguistics
and linguistics in general.”
© Igor A. Bolshakov, Alexander Gelbukh
Проблемы компьютерной
           лингвистики
• синтез и распознавание речи;
• создание парсеров, морфологических
  анализаторов;
• вычислительная семантика;
• машинный перевод;
• симуляция языковой эволюции и ее изучение;
• корпусная лингвистика;
• создание электронных словарей, тезаурусов.
Проблемы АОТ

1. Хранение текстов и организация поиска
по ним
Проблемы АОТ


2. Автоматическое индексирование и
рубрицирование (topic segmentation and
recognition)

http://maui-indexer.appspot.com
http://www.alchemyapi.com/api/demo.html
Проблемы АОТ

3. Автоматическое аннотирование и
реферирование (automatic abstracting)



http://extractorlive.com/on_line_demo.html
Проблемы АОТ

4. Проверка правописания (spelling correction)
© Daniel Jurafsky, James H. Martin
Минимальное редакционное расстояние




© Daniel Jurafsky, Christopher Manning
Минимальное редакционное расстояние




© Daniel Jurafsky, Christopher Manning
Проблемы АОТ

5. Извлечение отношений (relationship
extraction)

6. Извлечение именных сущностей (named
entity recognition)

http://www.alchemyapi.com
Проблемы АОТ

      7. Анализ тональности текста
      (sentiment analysis)




© Daniel Jurafsky, Christopher Manning
Проблемы АОТ

8. Графематический анализ (word
segmentation)

                     houses.
                      said,
                     Crazy?
                    positive.”


http://nlp.lsi.upc.edu/freeling/demo/demo.php
Проблемы АОТ

9. Сегментация текста на предложения
(sentence breaking or sentence boundary
disambiguation)

http://nlp.lsi.upc.edu/freeling/demo/demo.php
Проблемы АОТ


10. Морфологический анализ: стемминг
(выделение основы), выделение
аффиксов, моделирование словоизменения и
словообразования (morphological
segmentation)
Конечный автомат, моделирующий
           образование форм английского
                     глагола




© Daniel Jurafsky, James H. Martin
Конечный автомат, моделирующий
            образование форм множественного числа
                       существительных




© Daniel Jurafsky, James H. Martin
Проблемы АОТ

11. Морфологический парсинг (part-of-
speech tagging)
Морфологические парсеры

http://aot.ru/demo/morph.html — словарный
метод
http://nlp.lsi.upc.edu/freeling/ — словарный
метод
http://nlp.stanford.edu/software/tagger.shtml —
машинное обучение
Проблемы АОТ

12. Синтаксический парсинг (parsing or syntactic
analysis)

http://nlp.lsi.upc.edu/freeling/ — правила
http://aot.ru/demo/synt.html — грамматика HPSG
http://www.dictum.ru/ru/syntax/blog — правила
http://nlp.stanford.edu/software/lex-
parser.shtml — машинное обучение
Скобочное представление структуры
                 предложения




© Daniel Jurafsky, James H. Martin
Представление структуры
                     предложения в виде дерева




© Daniel Jurafsky, James H. Martin
Проблемы АОТ

13. Оптическое распознавание символов (optical
character recognition)
Проблемы АОТ
14. Анализ дискурса (discourse analysis)

15. Автоматическое понимание текста (natural language
understanding)
АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов.
Системы, модели, ресурсы»)


Естественный текст                                    1) тест перевода
                                                      2) реферат
                                                      3) ответы на вопросы
                                                      4) рисунок или таблица

Несколько текстов                                     1) сравнение (выявление общего и
                                                      различного)
                                                      2) извлечение знаний
Проблемы АОТ

16. Автоматическая генерация языка (natural
language generation)

             Яндекс.Рефераты
             Генерация шуток

http://www.abdn.ac.uk/ncs/computing/researc
h/nlg/demonstrations/joking/
Проблемы АОТ

17. Сегментация речи (speech segmentation)

18. Автоматическое распознавание речи
(automatic speech recognition)

19. Синтез звучащей речи (speech synthesis)

http://nlpub.ru/wiki/Распознавание_речи
© Daniel Jurafsky, James H. Martin
© Daniel Jurafsky, James H. Martin
Проблемы АОТ

20. Машинный перевод (machine translation)

«Car firms hope to turn windscreens into giant
computer displays that overlay the real world
with useful information, such as directions or
even social media feeds.»
                            — «Cars turn to augmented reality», J. Stewart, BBC
Проблемы АОТ



21. Автоматическое установление
кореферентных связей в тексте (сoreference
resolution)
Проблемы АОТ



22. Вопросно-ответные системы (question-
answering system)
•      Category: General Science
         Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.
         Answer: Light (or Photons)

  •      Category: “Rap” Sheet
         Clue: This archaic term for a mischievous or annoying child can also mean a rogue or
         scamp.
         Subclue 1: This archaic term for a mischievous or annoying child.
         Subclue 2: This term can also mean a rogue or scamp.
         Answer: Rapscallion

  •      Category: Before and After Goes to the Movies
         Clue: Film of a typical day in the life of the Beatles, which includes running from
         bloodthirsty zombie fans in a Romero classic.
         Subclue 2: Film of a typical day in the life of the Beatles.
         Answer 1: (A Hard Day’s Night)
         Subclue 2: Running from bloodthirsty zombie fans in a Romero classic.
         Answer 2: (Night of the Living Dead)
         Answer: A Hard Day’s Night of the Living Dead

  •      Category: Decode the Postal Codes
         Verbal instruction from host: We’re going to give you a word comprising two postal
         abbreviations; you have to identify the states.
         Clue: Vain
         Answer: Virginia and Indiana

© AAAI
“The AI behind Watson – the technical
               article”

http://www.aaai.org/Magazine/Watson/watson.php
Проблемы АОТ



23. Разрешение многозначности (word-sense
disambiguation)
Почему данную задачу так трудно
             решить?
• Все словари разные и не эквивалентны друг другу.
• В некоторых языках проблема определения части
   речи тесно связана с разрешением
   многозначности, эти две задачи могут мешать друг
   другу.
• Человеческий фактор.
• Здравый смысл.
 «Jill and Mary are sisters.» — они являются сёстрами
по отношению друг к другу.
«Jill and Mary are mothers.» — каждая независимо
является матерью.
• Зависимость от задачи.
• Дискретное представление значений слова.
Основные подходы к решению
            проблемы
1. «Глубокий» подход (deep approach)
«Зеленый» в сочетании с одуш. сущ. Обозначает
«неопытный». В значении «имеющий отношение к
зеленому цвету» только с неодуш. сущ.

2. «Поверхностный» подход (shallow
approach)
«The dogs bark at the tree»
bark – гл. «лаять» и сущ. «кора»
Методы решения
• методы, основанные на знаниях (dictionary-
  и knowledge-based methods);
• методы обучения с учителем (supervised
  methods);
• методы частичного обучения с
  учителем (semi-supervised learning);
• методы обучения без учителя (unsupervised
  methods.
© Daniel Jurafsky, James H. Martin
© Daniel Jurafsky, James H. Martin
«Неудобные» свойства языка
• Неоднозначность

«Сергей вернулся из командировки в Москву».
«Мы встретили сына художника, приехавшего
из Парижа».
«критика ученого»
«посещение родственников»
«приглашение композитора»
«Неудобные» свойства языка
• Несимметричность языков
• Избыточность
• Конвенциональность языка
• Эллиптичность
«Дан приказ ему на запад, /Ей — в другую
сторону» — М. В. Исаковский);
«Тане — 5, а Вале — 3»
«Моя мать — врач»
• Сложные средства референции
The approval of CFO is required
Хомский vs. Норвиг
“On Chomsky and the Two
Cultures of Statistical Learning”

 http://norvig.com/chomsky.html
Deep linguistic processing
HMM Part-of-Speech tagging
“Secretariat Is expected to race tomorrow”




Формула Байеса:
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging
HMM Part-of-Speech tagging




© Daniel Jurafsky, James H. Martin
HMM Part-of-Speech tagging
www.coursera.org
Источники
• Speech and Language Processing. An Introduction to Natural
  Language Processing, Computational Linguistics, and Speech
  Recognition. Daniel Jurafsky, James H. Martin
• COMPUTATIONAL LINGUISTICS: Models, Resources,
  Applications. Igor A. Bolshakov, Alexander Gelbukh
• Введение в прикладную лингвистику. А. Н. Баранов.
• Автоматическое понимание текстов. Системы, модели,
  ресурсы. Н. Н. Леонтьева
• Лекция В. П. Селегея «Компьютерная лингвистика
  сегодня» (9.10.2012)
Спасибо за внимание

More Related Content

Viewers also liked

Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_StarostinNLPseminar
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 
4 ling
4 ling4 ling
4 lingYandex
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииChristina Ovcharova
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречияVladimir Lapshin
 
Применение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахПрименение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахmir4sveta
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеYandex
 
Actividad de Responsabilidad Social de R.S.O
Actividad de Responsabilidad Social de R.S.OActividad de Responsabilidad Social de R.S.O
Actividad de Responsabilidad Social de R.S.OEdwin Arias
 
FáBrica De Recuerdos De Mi Familia
FáBrica De Recuerdos De Mi FamiliaFáBrica De Recuerdos De Mi Familia
FáBrica De Recuerdos De Mi Familiamfelvite
 
El Amor Existe Porque Existes Tú
El Amor Existe Porque Existes TúEl Amor Existe Porque Existes Tú
El Amor Existe Porque Existes TúEsteban
 
Panel Web de Gestión Automatizada para Actividades Educativas No Presenciales
Panel Web de Gestión Automatizada para Actividades Educativas No PresencialesPanel Web de Gestión Automatizada para Actividades Educativas No Presenciales
Panel Web de Gestión Automatizada para Actividades Educativas No PresencialesGermán Moltó
 
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno Vasco
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno VascoSubvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno Vasco
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno VascoIK Ingeniería Ecodiseño
 

Viewers also liked (20)

Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Compreno_Starostin
Compreno_StarostinCompreno_Starostin
Compreno_Starostin
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Mitsov
MitsovMitsov
Mitsov
 
4 ling
4 ling4 ling
4 ling
 
Прикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действииПрикладная лингвистика: проблемы моделирования языка в действии
Прикладная лингвистика: проблемы моделирования языка в действии
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречия
 
Применение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахПрименение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системах
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в Яндексе
 
Viajes a velocidad luz
Viajes a velocidad luzViajes a velocidad luz
Viajes a velocidad luz
 
Ruta urbana Genalguacil
Ruta urbana GenalguacilRuta urbana Genalguacil
Ruta urbana Genalguacil
 
Actividad de Responsabilidad Social de R.S.O
Actividad de Responsabilidad Social de R.S.OActividad de Responsabilidad Social de R.S.O
Actividad de Responsabilidad Social de R.S.O
 
Curso avanzado en Balanced Scorecard. Sistema Integrado de Gestión: Alinear e...
Curso avanzado en Balanced Scorecard. Sistema Integrado de Gestión: Alinear e...Curso avanzado en Balanced Scorecard. Sistema Integrado de Gestión: Alinear e...
Curso avanzado en Balanced Scorecard. Sistema Integrado de Gestión: Alinear e...
 
FáBrica De Recuerdos De Mi Familia
FáBrica De Recuerdos De Mi FamiliaFáBrica De Recuerdos De Mi Familia
FáBrica De Recuerdos De Mi Familia
 
Internet
InternetInternet
Internet
 
El Amor Existe Porque Existes Tú
El Amor Existe Porque Existes TúEl Amor Existe Porque Existes Tú
El Amor Existe Porque Existes Tú
 
Panel Web de Gestión Automatizada para Actividades Educativas No Presenciales
Panel Web de Gestión Automatizada para Actividades Educativas No PresencialesPanel Web de Gestión Automatizada para Actividades Educativas No Presenciales
Panel Web de Gestión Automatizada para Actividades Educativas No Presenciales
 
Mauricio chaves-rodriguez-act-inicial
Mauricio chaves-rodriguez-act-inicialMauricio chaves-rodriguez-act-inicial
Mauricio chaves-rodriguez-act-inicial
 
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno Vasco
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno VascoSubvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno Vasco
Subvenciones Empresas 2012 - Ecoinnovación y Medioambiente Gobierno Vasco
 
Innovations @ Neev
Innovations @ NeevInnovations @ Neev
Innovations @ Neev
 

Similar to 4 встреча — Компьютерная лингвистика (А. Катинская)

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
Системы автоматического перевода
Системы автоматического переводаСистемы автоматического перевода
Системы автоматического переводаmitqa
 
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаОсипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаGrigory Pomadchin
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Ilya Nikitin
 
компьютер в рки
компьютер в ркикомпьютер в рки
компьютер в ркиburkun
 
Машинный перевод
Машинный переводМашинный перевод
Машинный переводKirill Posternyak
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введениеeibolshakova
 
компьютерная лингвистика
компьютерная лингвистикакомпьютерная лингвистика
компьютерная лингвистикаJuliaDisk
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукAlexander Panchenko
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
урок русского языка
урок русского языкаурок русского языка
урок русского языкаheccrbqzpsr
 
От распознавания речи к пониманию сказанного
От распознавания речи к пониманию сказанногоОт распознавания речи к пониманию сказанного
От распознавания речи к пониманию сказанногоCoMagic
 

Similar to 4 встреча — Компьютерная лингвистика (А. Катинская) (20)

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
Системы автоматического перевода
Системы автоматического переводаСистемы автоматического перевода
Системы автоматического перевода
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаОсипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...
 
компьютер в рки
компьютер в ркикомпьютер в рки
компьютер в рки
 
Машинный перевод
Машинный переводМашинный перевод
Машинный перевод
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
компьютерная лингвистика
компьютерная лингвистикакомпьютерная лингвистика
компьютерная лингвистика
 
OntoEd
OntoEdOntoEd
OntoEd
 
Неологизмы в социальной сети Фейсбук
Неологизмы в социальной сети ФейсбукНеологизмы в социальной сети Фейсбук
Неологизмы в социальной сети Фейсбук
 
лингвонтол
лингвонтоллингвонтол
лингвонтол
 
Applied linguistics
Applied linguisticsApplied linguistics
Applied linguistics
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
урок русского языка
урок русского языкаурок русского языка
урок русского языка
 
От распознавания речи к пониманию сказанного
От распознавания речи к пониманию сказанногоОт распознавания речи к пониманию сказанного
От распознавания речи к пониманию сказанного
 
Fioletovaya abstrakciya
Fioletovaya abstrakciyaFioletovaya abstrakciya
Fioletovaya abstrakciya
 

More from Smolensk Computer Science Club

13 встреча — Сжатие данных (Р. Одинцов)
13 встреча — Сжатие данных (Р. Одинцов)13 встреча — Сжатие данных (Р. Одинцов)
13 встреча — Сжатие данных (Р. Одинцов)Smolensk Computer Science Club
 
12 встреча — Многопоточность-2 (А. Свириденков)
12 встреча — Многопоточность-2 (А. Свириденков)12 встреча — Многопоточность-2 (А. Свириденков)
12 встреча — Многопоточность-2 (А. Свириденков)Smolensk Computer Science Club
 
11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)Smolensk Computer Science Club
 
8 встреча — Язык программирования Python (В. Ананьев)
8 встреча — Язык программирования Python (В. Ананьев)8 встреча — Язык программирования Python (В. Ананьев)
8 встреча — Язык программирования Python (В. Ананьев)Smolensk Computer Science Club
 
7 встреча — Программирование компьютерных сетей (А. Свириденков)
7 встреча — Программирование компьютерных сетей (А. Свириденков)7 встреча — Программирование компьютерных сетей (А. Свириденков)
7 встреча — Программирование компьютерных сетей (А. Свириденков)Smolensk Computer Science Club
 
5 встреча — Информационная безопастность (А. Свириденков)
5 встреча — Информационная безопастность (А. Свириденков)5 встреча — Информационная безопастность (А. Свириденков)
5 встреча — Информационная безопастность (А. Свириденков)Smolensk Computer Science Club
 
3 встреча — Биоинформатика (продолжение) (А. Фединцев)
3 встреча — Биоинформатика (продолжение) (А. Фединцев)3 встреча — Биоинформатика (продолжение) (А. Фединцев)
3 встреча — Биоинформатика (продолжение) (А. Фединцев)Smolensk Computer Science Club
 
2 встреча — Биоинформатика (А. Фединцев)
2 встреча — Биоинформатика (А. Фединцев)2 встреча — Биоинформатика (А. Фединцев)
2 встреча — Биоинформатика (А. Фединцев)Smolensk Computer Science Club
 
1 встреча — Параллельное программирование (А. Свириденков)
1 встреча — Параллельное программирование (А. Свириденков)1 встреча — Параллельное программирование (А. Свириденков)
1 встреча — Параллельное программирование (А. Свириденков)Smolensk Computer Science Club
 

More from Smolensk Computer Science Club (9)

13 встреча — Сжатие данных (Р. Одинцов)
13 встреча — Сжатие данных (Р. Одинцов)13 встреча — Сжатие данных (Р. Одинцов)
13 встреча — Сжатие данных (Р. Одинцов)
 
12 встреча — Многопоточность-2 (А. Свириденков)
12 встреча — Многопоточность-2 (А. Свириденков)12 встреча — Многопоточность-2 (А. Свириденков)
12 встреча — Многопоточность-2 (А. Свириденков)
 
11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)11 встреча — Введение в GPGPU (А. Свириденков)
11 встреча — Введение в GPGPU (А. Свириденков)
 
8 встреча — Язык программирования Python (В. Ананьев)
8 встреча — Язык программирования Python (В. Ананьев)8 встреча — Язык программирования Python (В. Ананьев)
8 встреча — Язык программирования Python (В. Ананьев)
 
7 встреча — Программирование компьютерных сетей (А. Свириденков)
7 встреча — Программирование компьютерных сетей (А. Свириденков)7 встреча — Программирование компьютерных сетей (А. Свириденков)
7 встреча — Программирование компьютерных сетей (А. Свириденков)
 
5 встреча — Информационная безопастность (А. Свириденков)
5 встреча — Информационная безопастность (А. Свириденков)5 встреча — Информационная безопастность (А. Свириденков)
5 встреча — Информационная безопастность (А. Свириденков)
 
3 встреча — Биоинформатика (продолжение) (А. Фединцев)
3 встреча — Биоинформатика (продолжение) (А. Фединцев)3 встреча — Биоинформатика (продолжение) (А. Фединцев)
3 встреча — Биоинформатика (продолжение) (А. Фединцев)
 
2 встреча — Биоинформатика (А. Фединцев)
2 встреча — Биоинформатика (А. Фединцев)2 встреча — Биоинформатика (А. Фединцев)
2 встреча — Биоинформатика (А. Фединцев)
 
1 встреча — Параллельное программирование (А. Свириденков)
1 встреча — Параллельное программирование (А. Свириденков)1 встреча — Параллельное программирование (А. Свириденков)
1 встреча — Параллельное программирование (А. Свириденков)
 

4 встреча — Компьютерная лингвистика (А. Катинская)

  • 1. Компьютерная лингвистика Анисья Катинская
  • 2. Компьютерная лингвистика — направление в прикладной лингвистике, ориентированное на использование компьютерных программ и технологий организации и обработки данных для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. (А. Н. Баранов, Введение в прикладную лингвистику)
  • 5. Лингвистика (языкознание) — наука о естественном человеческом языке вообще и о всех языках мира как индивидуальных его представителях. Лингвистика изучает язык вообще, как явление, не данное в непосредственном наблюдении. Язык есть естественно (на определенной стадии развития человеческого общества) возникшая и закономерно развивающаяся семиотическая (знаковая) система, обладающая свойством социальной предназначенности. Это система, существующая прежде всего не для отдельного индивида, а для определенного социума. Кроме того, на эту знаковую систему наложены ограничения, связанные с ее функциями и используемым субстанциальным (звуковым) материалом (А. Е. Кибрик)
  • 6. Определение В. П. Селегея Компьютерная лингвистика 1 Компьютерная лингвистика 2 Это Это технология и формализованная, полна методология решения я и логически практических непротиворечивая задач, компьютерного лингвистика, модели которой могут анализа и синтеза языка. использоваться при создании программ для обработки текстов.
  • 7. Компьютерная лингвистика Natural language processing (The Association for Computational или Автоматическая Linguistics) обработка текста Компьютерная лингвистика Преимущественно область как исследование языка с Computer Science, искусственного интеллекта и вычислительной точки лингвистики. Имеет отношение зрения. Компьютерная к человеко-компьютерному лингвистика занимается взаимодействию, и современные модели АОТ чаще созданием вычислительных строятся на машинном моделей различных обучении и статистике, а не моделировании языка. лингвистических феноменов. Т.е. для решения своих задач АОТ может использовать формальные модели языка, разных уровней языка, создаваемые компьютерной лингвистикой.
  • 8. Igor A. Bolshakov and Alexander Gelbukh “COMPUTATIONAL LINGUISTICS: Models, Resources, Applications” “Intelligent natural language processing is based on the science called computational linguistics. Computational linguistics is closely connected with applied linguistics and linguistics in general.”
  • 9. © Igor A. Bolshakov, Alexander Gelbukh
  • 10. Проблемы компьютерной лингвистики • синтез и распознавание речи; • создание парсеров, морфологических анализаторов; • вычислительная семантика; • машинный перевод; • симуляция языковой эволюции и ее изучение; • корпусная лингвистика; • создание электронных словарей, тезаурусов.
  • 11. Проблемы АОТ 1. Хранение текстов и организация поиска по ним
  • 12. Проблемы АОТ 2. Автоматическое индексирование и рубрицирование (topic segmentation and recognition) http://maui-indexer.appspot.com http://www.alchemyapi.com/api/demo.html
  • 13. Проблемы АОТ 3. Автоматическое аннотирование и реферирование (automatic abstracting) http://extractorlive.com/on_line_demo.html
  • 14. Проблемы АОТ 4. Проверка правописания (spelling correction)
  • 15. © Daniel Jurafsky, James H. Martin
  • 18.
  • 19. Проблемы АОТ 5. Извлечение отношений (relationship extraction) 6. Извлечение именных сущностей (named entity recognition) http://www.alchemyapi.com
  • 20. Проблемы АОТ 7. Анализ тональности текста (sentiment analysis) © Daniel Jurafsky, Christopher Manning
  • 21.
  • 22. Проблемы АОТ 8. Графематический анализ (word segmentation) houses. said, Crazy? positive.” http://nlp.lsi.upc.edu/freeling/demo/demo.php
  • 23. Проблемы АОТ 9. Сегментация текста на предложения (sentence breaking or sentence boundary disambiguation) http://nlp.lsi.upc.edu/freeling/demo/demo.php
  • 24. Проблемы АОТ 10. Морфологический анализ: стемминг (выделение основы), выделение аффиксов, моделирование словоизменения и словообразования (morphological segmentation)
  • 25.
  • 26. Конечный автомат, моделирующий образование форм английского глагола © Daniel Jurafsky, James H. Martin
  • 27. Конечный автомат, моделирующий образование форм множественного числа существительных © Daniel Jurafsky, James H. Martin
  • 28. Проблемы АОТ 11. Морфологический парсинг (part-of- speech tagging)
  • 29. Морфологические парсеры http://aot.ru/demo/morph.html — словарный метод http://nlp.lsi.upc.edu/freeling/ — словарный метод http://nlp.stanford.edu/software/tagger.shtml — машинное обучение
  • 30. Проблемы АОТ 12. Синтаксический парсинг (parsing or syntactic analysis) http://nlp.lsi.upc.edu/freeling/ — правила http://aot.ru/demo/synt.html — грамматика HPSG http://www.dictum.ru/ru/syntax/blog — правила http://nlp.stanford.edu/software/lex- parser.shtml — машинное обучение
  • 31.
  • 32. Скобочное представление структуры предложения © Daniel Jurafsky, James H. Martin
  • 33. Представление структуры предложения в виде дерева © Daniel Jurafsky, James H. Martin
  • 34. Проблемы АОТ 13. Оптическое распознавание символов (optical character recognition)
  • 35. Проблемы АОТ 14. Анализ дискурса (discourse analysis) 15. Автоматическое понимание текста (natural language understanding) АПТ с точки зрения лингвиста Н. Н. Леонтьевой (автор учебника «Автоматическое понимание текстов. Системы, модели, ресурсы») Естественный текст 1) тест перевода 2) реферат 3) ответы на вопросы 4) рисунок или таблица Несколько текстов 1) сравнение (выявление общего и различного) 2) извлечение знаний
  • 36. Проблемы АОТ 16. Автоматическая генерация языка (natural language generation) Яндекс.Рефераты Генерация шуток http://www.abdn.ac.uk/ncs/computing/researc h/nlg/demonstrations/joking/
  • 37.
  • 38.
  • 39. Проблемы АОТ 17. Сегментация речи (speech segmentation) 18. Автоматическое распознавание речи (automatic speech recognition) 19. Синтез звучащей речи (speech synthesis) http://nlpub.ru/wiki/Распознавание_речи
  • 40. © Daniel Jurafsky, James H. Martin
  • 41. © Daniel Jurafsky, James H. Martin
  • 42.
  • 43. Проблемы АОТ 20. Машинный перевод (machine translation) «Car firms hope to turn windscreens into giant computer displays that overlay the real world with useful information, such as directions or even social media feeds.» — «Cars turn to augmented reality», J. Stewart, BBC
  • 44.
  • 45.
  • 46.
  • 47. Проблемы АОТ 21. Автоматическое установление кореферентных связей в тексте (сoreference resolution)
  • 48.
  • 49.
  • 50.
  • 51. Проблемы АОТ 22. Вопросно-ответные системы (question- answering system)
  • 52.
  • 53.
  • 54.
  • 55.
  • 56. Category: General Science Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form. Answer: Light (or Photons) • Category: “Rap” Sheet Clue: This archaic term for a mischievous or annoying child can also mean a rogue or scamp. Subclue 1: This archaic term for a mischievous or annoying child. Subclue 2: This term can also mean a rogue or scamp. Answer: Rapscallion • Category: Before and After Goes to the Movies Clue: Film of a typical day in the life of the Beatles, which includes running from bloodthirsty zombie fans in a Romero classic. Subclue 2: Film of a typical day in the life of the Beatles. Answer 1: (A Hard Day’s Night) Subclue 2: Running from bloodthirsty zombie fans in a Romero classic. Answer 2: (Night of the Living Dead) Answer: A Hard Day’s Night of the Living Dead • Category: Decode the Postal Codes Verbal instruction from host: We’re going to give you a word comprising two postal abbreviations; you have to identify the states. Clue: Vain Answer: Virginia and Indiana © AAAI
  • 57.
  • 58. “The AI behind Watson – the technical article” http://www.aaai.org/Magazine/Watson/watson.php
  • 59. Проблемы АОТ 23. Разрешение многозначности (word-sense disambiguation)
  • 60. Почему данную задачу так трудно решить? • Все словари разные и не эквивалентны друг другу. • В некоторых языках проблема определения части речи тесно связана с разрешением многозначности, эти две задачи могут мешать друг другу. • Человеческий фактор. • Здравый смысл. «Jill and Mary are sisters.» — они являются сёстрами по отношению друг к другу. «Jill and Mary are mothers.» — каждая независимо является матерью. • Зависимость от задачи. • Дискретное представление значений слова.
  • 61. Основные подходы к решению проблемы 1. «Глубокий» подход (deep approach) «Зеленый» в сочетании с одуш. сущ. Обозначает «неопытный». В значении «имеющий отношение к зеленому цвету» только с неодуш. сущ. 2. «Поверхностный» подход (shallow approach) «The dogs bark at the tree» bark – гл. «лаять» и сущ. «кора»
  • 62. Методы решения • методы, основанные на знаниях (dictionary- и knowledge-based methods); • методы обучения с учителем (supervised methods); • методы частичного обучения с учителем (semi-supervised learning); • методы обучения без учителя (unsupervised methods.
  • 63. © Daniel Jurafsky, James H. Martin
  • 64. © Daniel Jurafsky, James H. Martin
  • 65. «Неудобные» свойства языка • Неоднозначность «Сергей вернулся из командировки в Москву». «Мы встретили сына художника, приехавшего из Парижа». «критика ученого» «посещение родственников» «приглашение композитора»
  • 66. «Неудобные» свойства языка • Несимметричность языков • Избыточность • Конвенциональность языка • Эллиптичность «Дан приказ ему на запад, /Ей — в другую сторону» — М. В. Исаковский); «Тане — 5, а Вале — 3» «Моя мать — врач» • Сложные средства референции
  • 67. The approval of CFO is required
  • 68.
  • 70. “On Chomsky and the Two Cultures of Statistical Learning” http://norvig.com/chomsky.html
  • 72. HMM Part-of-Speech tagging “Secretariat Is expected to race tomorrow” Формула Байеса:
  • 76. HMM Part-of-Speech tagging © Daniel Jurafsky, James H. Martin
  • 79. Источники • Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Daniel Jurafsky, James H. Martin • COMPUTATIONAL LINGUISTICS: Models, Resources, Applications. Igor A. Bolshakov, Alexander Gelbukh • Введение в прикладную лингвистику. А. Н. Баранов. • Автоматическое понимание текстов. Системы, модели, ресурсы. Н. Н. Леонтьева • Лекция В. П. Селегея «Компьютерная лингвистика сегодня» (9.10.2012)