В докладе рассматривается решение задачи распознавания русской речи на большом словаре с использованием комбинированных признаков входного сигнала. Ноу-хау алгоритма является подобранный сбалансированных набор признаков входного сигнала. Важными свойствами решения являются высокая производительность, компактность и обучаемость, что позволяет использовать систему во встраиваемых устройствах. Приводится общее описание решения, а также достигнутые результаты.
2. Требования к решению
• Дикторонезависимость
• Непрерывность распознавания
• Автономность
• Ориентированость на русский язык
.ru
3. Исходные данные
• Задача распознавания полностью
не решена за 30 лет
• В сегменте русского языка качество
продуктов низкое
• Задача имеет решение
6. Множество характеристик
Функция
сигнала Разложение по
множеству
функций
Множество
характеристик
Оценка
Обратная связь
풇
!?
푭 풕
Функции характеристик разнородные, не
аналитические, обладают избыточностью к
фонемному алфавиту приблизительно в 70
раз.
7. Распознавание
Вычисление
фонемного
вектора
правдоподобия
Поиск по
словарю
Обратная связь
П
Т
К
РИ
Ы
В
Ф
Е
Э
Т
.
푭 풕
ПРИВЕТ
А без
словаря?
ПРИВЕТ
КРЕВЕТ
Вычисление
словарного
вектора
правдоподобия
Оценка по
речевой
модели
8. Что получилось?
Размер приложения:
– При использовании словаря в 35 тыс. слов – 80 Мб данные, 80 Мб
оперативная память.
– При использовании словаря до тысячи слов – 10 Мб данные, 10
Мб оперативная память.
Точность распознавания (Words Error Rate)
– На геословаре (карта Москвы), около 4000 наименований улиц –
95%
– На словаре в 35 тыс. слов – 90%
Скорость распознавания (тестирование на Intel Core i5 – 3.4GHz)
– При использовании словаря до тысячи слов – 70% запаса
производительности для непрерывного распознавания
– Для словаря в 35 тыс. – 30% запаса производительности для
непрерывного распознавания