4. Проблема усвоения языка
Нативизм
«Язык и мышление»
Хомского
Генеративная
грамматика
Универсалии
Аргумент бедности
стимула
Эмпиризм
Оперантное, статистич
еское научение
Когнитивная
лингвистика
Критика универсалий
Аргумент отсутствия
LAD
5. Алгоритмическая сложность
задачи усвоения языка
Грамматика: только положительные
примеры, ок. 105-106 штук
Значение слов: 1-2 новых слова в
день, по нескольким примерам
употребления
Полиномиально ограниченный решатель
Рекурсия, сложные грамматики
9. Язык запросов
Язык запросов - не русский язык
(хотя в основном состоит из тех же слов)
Возник и развивается естественным
путѐм
в 1997 средняя длина запроса 1,2
слова
в 2013 >3,5 слов
обучение на примерах (подсказки)
тиражирование «коммуникативного
11. Язык запросов
Словарная энтропия: около 13 бит
(русский язык, тексты одного автора -11
бит)
Доля глаголов 5,4% (17,5%)
10 самых частых – 46% (11,4%)
Средняя длина «фразы» - меньше 4
слов
13. Синтаксические структуры
Запрос – не предложение, а
высказывание. Запросы короткие (3 слова
и менее).
Можно ли вообще говорить о синтаксисе
применительно к языку запросов?
21. Вычислительные модели
Идея: «усвоение» языка можно оценить
статистически, выполнением простых
тестов
Пример подобной задачи: восстановить
пропущенное слово
[в лесу * ѐлочка в лесу она росла]
[mp3 * бесплатно и без регистрации]
22. Вычислительные модели
Шаблоны без обобщения:
[ …скачать без *… ] =>регистрации
[...* принцессу карандашом] =>нарисовать
[ …проклятые * дрюон] =>короли
Шаблоны с обобщением:
[сокол и * {fb2, txt
, автор, аудиокнига, читать}]
[ …сокол и * (книжный контекст) ] =>
ласточка
23. Вычислительные модели
Изучаем уровень «знания» языка в
зависимости от количества обучающих
примеров:
3100 фраз
6200 фраз
12400 фраз
24800 фраз
41000 фраз
24. Вычислительные модели
N-граммные модели, только левые
контексты
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5
%«угаданных»
Показатель количества обучающих
примеров
25. Вычислительные модели
N-граммные модели, правые контексты:
+1%
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5
%«угаданных»
Показатель количества обучающих
примеров
26. Вычислительные модели
Шаблоны без обобщения вместе взятые:
+10%
Основной
Основной
Основной
Основной
Основной
Основной
Основной
Основной
1 2 3 4 5
%«угаданных»
Показатель количества обучающих
примеров
27. Вычислительные модели
Генерализованные шаблоны: +???%
1) Грамматические:
[(S,им, ед) * торрент] => скачать
[инструкция * (S,дат,ед)] => по
2) Контекстно-концептные:
[стучит * Х], допустимы [X тюнинг] и [X
цена]
=> двигатель
30. Вычислительные модели
Генерализованные шаблоны:
1) Грамматические: + 0,2%
[(S,им, ед) * торрент] => скачать
[инструкция * (S,дат,ед)] => по
2) Контекстно-концептные: +0,04%
[стучит * Х], где [X тюнинг] и [X цена] =>
двигатель
31. Вычислительные модели
Можно ли вывести столько же
информации, сколько еѐ содержится в
граммемах,
только из контекстов?
Нельзя.
32. Вычислительные модели
Можно ли вывести столько же
информации, сколько еѐ содержится в
граммемах,
только из контекстов?
Нельзя.
Открытый вопрос: можно ли еѐ вывести с
помощью каких-то более сильных
обобщений?
34. Что дальше?
Возник новый язык. Давайте его
изучим!
Насколько сложная и жѐсткая грамматика?
Какие в нѐм «части речи»? Можно ли
построить для него полный парсер? На
какие естественные языки он похож? Как
развивается?