SlideShare a Scribd company logo
1 of 36
Системы автоматического
синтеза речи
Text-To-Speech
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 7
Система автоматического
синтеза речи
• это компьютеризированная система,
которая может произносить любой
текст
– введён в компьютер оператором
– отсканирован и распознан системой
оптического распознавания символов
(Optical Character Recognition (OCR)
system)
• отличается от других говорящих машин
(магнитофон и т.д.)
– нас интересует автоматическое
произнесение новых предложений
Системы с речевым ответом
Voice Response Systems
• просто склеивают изолированные
слова или части предложений
• применимы только тогда, когда
используется
– ограниченный словарь (несколько сотен
слов)
– ограниченная структура (к примеру, в
объявлениях о прибытии поездов на
вокзале).
Система автоматического
синтеза речи
• используется в тех случаях, когда
невозможно (и бесполезно) записать и
хранить все слова языка
• TTS - система автоматической
генерации речи посредством
графемно-фонемной транскрипции
предложений
Сферы применения TTS
1. Средства телекоммуникаций
• получения текстовой информации по
телефону
• в кинотеатрах, театрах и т.д.
• из огромных баз данных
• чтение электронных сообщений или факсов
по телефону
• запросы: посредством голоса
пользователя (АРР) или тонального
набора.
• телефонная релейная связь
Сферы применения TTS
2. Обучение языку
• низкое качество часто не удовлетворяет
требованиям таких задач
• в качественном синтезаторе речи
большинство текстовой информации
должно дополнительно сопровождаться
интонационными управляющими тегами
(за́мок и замо́к)
• Google Translate (английский, гаитянский
креольский, французский, итальянский,
немецкий, хинди, испанский), для других
27 языков качество ниже (eSpeak)
Сферы применения TTS
3. Помощь инвалидам
• немые: клавиатуры и программы
быстрого составления предложений
• астрофизик Стивен Хокинг (Stephen
Hawking)
• слепые: сочетание систем АСР и ОРС
3. Говорящие книги и игрушки
4. Голосовой контроль
• GPS-навигатор в автомобиле
3. Multimedia, человеко-машинное
общение
Устройство системы TTS
Модуль обработки
естественного языка
Модуль обработки
цифрового сигнала
фонемы
просодия
речьтекст
СИНТЕЗАТОР РЕЧИ
Модуль обработки ЕЯ
Модуль обработки ЕЯ
Текст
Анализ текста
Предобработка
Морфологическ.
анализатор
Анализатор
контекста
Синтаксико-
просодический
парсер
М
У
С
Д
или
К
А
Автоматическ.
транскрипция
Генератор
просодии
В блок обработки
цифрового сигнала
Анализ текста
• Модуль предобработки
– числа, акронимы, идиоматические
выражения
– Многозначность пунктуационных знаков
элементарные регулярные грамматики
• Модуль морфологического анализа
– определение возможных частей речи
(простые регулярные грамматики,
лексиконы основ и аффиксов)
Анализ текста
• Модуль анализа контекста
– наиболее вероятные части речи
• n-граммы (вероятностный конечный автомат
или многослойный персептрон)
• локальные нестохастические грамматики
(созданные экспертами или автоматически при
помощи деревьев решений)
• Синтаксико-просодический парсер
– определение структуры текста для
подбора просодической реализации
Автоматическая транскрипция:
словари или правила?
• Словари содержат только
транскрипцию лемм
• В словаре может быть несколько
омографов (record: ['reko:d] или [rı'ko:d])
или омоформ (read: ['ri:d] или ['red])
• Не приводятся все варианты
словообразования
– 'electricity' из леммы 'electric', редукция t в
слове 'softness' ['sоfnıs]
Нужен первичный морфосинтаксический
анализ предложения
Автоматическая транскрипция:
словари или правила?
• Слова в окружении других слов звучат
не так, как по отдельности
• Не все слова можно найти в словаре
произношения:
– Неологизмы
– Собственные имена, которые должны
произноситься по типу существующих слов
Нужен синтаксический или метрический
анализ предложения
Нужен модуль морфологии или модуль
нахождения графемной аналогии
Стратегия использования
словаря
• хранение большинства фонологической
информации в лексиконах
– словари основ и аффиксов
• произношение поверхностных форм
вычисляется на основе правил:
– словоизменительных
– словообразовательных морфофонемных
– словосложения
Стратегия использования
словаря
В
Н
У
Т
Р
Е
Н
Н
Я
Я
С
Т
Р
У
К
Т
У
Р
А
Д
А
Н
Н
Ы
Х
Транскрипция со словарём
Транскриб.
морфемы
Морфолог.
правила
Морфо-
фонемный
модуль
Модуль
транскрибиро-
вания букв
Правила
транскрипции
Коартикуляцион-
ные правила
Финальная
фонетическая
обработка
морфемы
фонемы
фонемы
фоны
фонемы
неизвестные
морфемы
Стратегия использования
словаря
• Морфемы, не найденные в словаре,
транскрибируются по правилу
• Затем выполняется последующая
фонетическая обработка для учёта
коартикуляционного феномена
• Такой подход используется в системе MITalk
– Словарь: около 12 000 морфем, покрывает 95%
входных слов
• Компания AT&T Bell Laboratories также
использовала этот подход в своей системе
АСР
– словарь увеличен до 43 000 морфем
Стратегия использования
словаря
В
Н
У
Т
Р
Е
Н
Н
Я
Я
С
Т
Р
У
К
Т
У
Р
А
Д
А
Н
Н
Ы
Х
Транскрипция со словарём
Транскриб.
морфемы
Морфолог.
правила
Морфо-
фонемный
модуль
Модуль
транскрибиро-
вания букв
Правила
транскрипции
Коартикуляцион-
ные правила
Финальная
фонетическая
обработка
морфемы
фонемы
фонемы
фоны
фонемы
неизвестные
морфемы
Стратегия использования правил
• большинство фонологической компетенции
словарей переносится во множество правил
преобразования графема-фонема
• в словаре хранятся только слова-исключения
• многие исключения являются очень
частотными словами достаточно
небольшой словарь исключений может
покрыть слова большинства текстов
– в английском языке 2000 слов достаточно, чтобы
покрыть 70% слов текста
• Выбор подхода очень часто зависит от языка
Стратегия, основанная на
правилах
В
Н
У
Т
Р
Е
Н
Н
Я
Я
С
Т
Р
У
К
Т
У
Р
А
Д
А
Н
Н
Ы
Х
Транскрипция по правилам
Исключения
Модуль
транскриби-
рования букв
Правила
транскрипции
Коартикуляцион-ные
правила
Финальная
фонетическая
обработка
слоги
Морфо-
синтакс.
хар-ки
фоны
фоны
фоны
графемы
Модуль обработки цифрового
сигнала
• Существует два способа
преобразования фонем в звук:
– синтез по правилам: явно, в виде набора
правил, которые формально описывают
влияние одних фонем на другие
– компилятивный синтез: неявно, путём
хранения примеров фонетических
переходов и коартикуляций в базе данных
отрезков речи и использования их, в
конечном счёте, вместо фонем
Акустический синтез по правилам
• формантные синтезаторы
– используются в основном фонетистами и
фонологистами
• синтезатор Klatt
– Для качественной речи нужно около 60
параметров: частота, амплитуда и ширина
формант и антиформант
– необходимы правила для параметров,
которые описывают динамически
меняющиеся характеристики голосового и
шумовых источников звука
Акустический синтез по правилам
- требуется большая подготовительная работа
(акустический анализ значительных речевых
массивов и формулировка нужных правил)
- получаемая речь часто сопровождается
гудением или жужжанием, что снижает её
естественность
+ есть возможность имитировать разные
голоса, отслеживать изменения в стиле
произношения и тембре голоса
• MITALK, DECTALK для английского языка
• многоязычная система синтеза INFOVOX
• eSpeak
Акустический синтез на основе
конкатенации
Подготовка базы данных
1. выбираются сегменты речи
– дифоны
– полуслоги
– трифоны
– нежелательные позиции в словах (внутри
ударных слогов или слишком
редуцированных контекстах) не берутся
во внимание
Подготовка акустической базы
данных
2. записывается корпус речи и сегментируется
• вручную при помощи визуальных средств
представления цифрового сигнала
• либо автоматически с последующей
корректировкой
2. результаты записываются в акустическую
базу данных в виде названия сегмента,
формы волны, продолжительности и
позиций внутренних сегментов
• при записи дифонов также необходимо указывать
границу между фонами, чтобы можно было
изменить продолжительность одного полуфона,
не затрагивая длину другого
Акустический синтез на основе
конкатенации
фонемы
+
просодия
Обработка цифрового
сигнала
Подготовка базы данных
Корпус
речи
сегментация
БД
сегментов
речи
Генерация
списка
сегментов
Анализ
речи
Выравни-
вание
Параметр.
БД
сегментов
Кодирование
речи
Параметрическая база данных
сегментов речи
• Сегменты впоследствии приводятся к
параметрическому виду, последовательности
векторов параметров, выдаваемых речевым
анализатором
+ Удачно выбранные речевые модели
позволяют сократить размер базы данных
звуков
+ Некоторые модели разделяют сигнал на
источник звука и фильтра (голосовой тракт),
что очень помогает при операциях,
непосредственно предшествующих синтезу:
подбору просодии и конкатенации сегментов
Акустический синтез на основе
конкатенации
фонемы
+
просодия
Обработка цифрового
сигнала
Подготовка базы данных
Корпус
речи
сегментация
БД
сегментов
речи
Генерация
списка
сегментов
Анализ
речи
Выравни-
вание
Параметр.
БД
сегментов
Кодирование
речи
База данных сегментов синтеза
• Параметрическое представление
отрезков речи позволяет легко
изменять высоту тона, длину волны и
огибающую спектра, что нельзя
сделать с просто записанными
отрезками речи
• Так как отрезки речи были получены из
разных слов, т.е. из разных
фонетических контекстов, при
конкатенации их амплитуда и тембр
База данных сегментов синтеза
• Необходимо выравнить спектр амплитуды
на концах сегментов, оставляя без изменения
сами сегменты
– уровни громкости плавно корректируются в начале
и конце сегмента
– громкости различных фонов одной фонемы
приводятся к её среднему значению
• разница в тембре снимается во время
синтеза для каждой пары сегментов, а не
выравнивается для всех сегментов сразу,
оставляя естественное фонетическое
различие в коартикуляциях
Акустический синтез на основе
конкатенации
фонемы
+
просодия
Обработка цифрового
сигнала
Подготовка базы данных
Корпус
речи
сегментация
БД
сегментов
речи
Генерация
списка
сегментов
Анализ
речи
Выравни-
вание
Параметр.
БД
сегментов
Кодирование
речи
Акустический синтез на основе
конкатенации
Синтез речи
Декодирование
речи
БД
сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи
Синтез речи
• фонам ставится в соответствие
последовательность сегментов в блоке
генерации списка сегментов
• модуль подбора просодии
запрашивает в базе данных сегментов
синтеза параметры этих сегментов и
приводит их в соответствие один за
другим с требуемой просодией
Акустический синтез на основе
конкатенации
фонемы
+
просодия
Обработка цифрового
сигнала
Подготовка базы данных
Корпус
речи
сегментация
БД
сегментов
речи
Генерация
списка
сегментов
Анализ
речи
Выравни-
вание
Параметр.
БД
сегментов
Кодирование
речи
Акустический синтез на основе
конкатенации
Синтез речи
Декодирование
речи
БД
сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи
Синтез речи
• В блоке конкатенации сегментов
производится подгонка сегментов
– производится простая интерполяция
параметров, приблизительно
соответствующая сглаживанию
акустических переходов между звуками
• Полученная последовательность
параметров передаётся в блок
синтеза сигнала, в котором
производится операция обратная
анализу речи — синтез речи
Акустический синтез на основе
конкатенации
Синтез речи
Декодирование
речи
БД
сегментов
синтеза
Речь
Подбор просодии
Конкатенация сегментов
Синтез речи

More Related Content

What's hot

What's hot (13)

Welcome to Australia!
Welcome to Australia!Welcome to Australia!
Welcome to Australia!
 
Sweden
Sweden Sweden
Sweden
 
GEOGRAPHY YEAR 9: AUSTRALIA
GEOGRAPHY YEAR 9: AUSTRALIAGEOGRAPHY YEAR 9: AUSTRALIA
GEOGRAPHY YEAR 9: AUSTRALIA
 
Australia
AustraliaAustralia
Australia
 
New zealand information and basic facts
New zealand information and basic factsNew zealand information and basic facts
New zealand information and basic facts
 
Australia.2
Australia.2Australia.2
Australia.2
 
Stephanie's australia presentation 2[1]
Stephanie's australia presentation 2[1]Stephanie's australia presentation 2[1]
Stephanie's australia presentation 2[1]
 
AUSTRALIA PPT.pdf
AUSTRALIA PPT.pdfAUSTRALIA PPT.pdf
AUSTRALIA PPT.pdf
 
Tourist attractions in mauritius
Tourist attractions in mauritius  Tourist attractions in mauritius
Tourist attractions in mauritius
 
Sør afrika presentasjon (norsk)
Sør afrika presentasjon (norsk)Sør afrika presentasjon (norsk)
Sør afrika presentasjon (norsk)
 
Powerpoint about new zealand
Powerpoint about new zealandPowerpoint about new zealand
Powerpoint about new zealand
 
Australia
AustraliaAustralia
Australia
 
New zealand
New zealandNew zealand
New zealand
 

Viewers also liked

зачем нужен чистый корпус
зачем нужен чистый корпусзачем нужен чистый корпус
зачем нужен чистый корпусEkaterina Chernyak
 
Сегментация подписчиков в Sendsay: разделяй и властвуй!
Сегментация подписчиков в Sendsay: разделяй и властвуй!Сегментация подписчиков в Sendsay: разделяй и властвуй!
Сегментация подписчиков в Sendsay: разделяй и властвуй!Sendsay
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Применение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахПрименение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахmir4sveta
 
системы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхсистемы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхmariastyless
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)Smolensk Computer Science Club
 

Viewers also liked (11)

зачем нужен чистый корпус
зачем нужен чистый корпусзачем нужен чистый корпус
зачем нужен чистый корпус
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Автоматическое порождение тематических отчетов из потоков новостей
Автоматическое порождение тематических отчетов из потоков новостейАвтоматическое порождение тематических отчетов из потоков новостей
Автоматическое порождение тематических отчетов из потоков новостей
 
Kiseleva
KiselevaKiseleva
Kiseleva
 
Сегментация подписчиков в Sendsay: разделяй и властвуй!
Сегментация подписчиков в Sendsay: разделяй и властвуй!Сегментация подписчиков в Sendsay: разделяй и властвуй!
Сегментация подписчиков в Sendsay: разделяй и властвуй!
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Применение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системахПрименение технологии распознавания речи в PACS-системах
Применение технологии распознавания речи в PACS-системах
 
системы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованияхсистемы распознавания речи в прикладных исследованиях
системы распознавания речи в прикладных исследованиях
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 

Similar to Системы автоматического синтеза речи

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Сергей Балан
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologiesNLPseminar
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
перевод научно технического текста с помощью компьютера
перевод научно технического текста с помощью компьютераперевод научно технического текста с помощью компьютера
перевод научно технического текста с помощью компьютераritik1990
 
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”Lviv Startup Club
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовArtem Lukanin
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netBerik Badayev
 
механизмы речи
механизмы речимеханизмы речи
механизмы речиnadyushka1999
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOArtem Lukanin
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 

Similar to Системы автоматического синтеза речи (20)

гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Maleev
MaleevMaleev
Maleev
 
Promt
PromtPromt
Promt
 
Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов Компьютерные словари и системы машинного перевода текстов
Компьютерные словари и системы машинного перевода текстов
 
Speech technologies
Speech technologiesSpeech technologies
Speech technologies
 
Stolyarov
StolyarovStolyarov
Stolyarov
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Программные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимовПрограммные средства поддержки словаря буквенных и морфемных паронимов
Программные средства поддержки словаря буквенных и морфемных паронимов
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
перевод научно технического текста с помощью компьютера
перевод научно технического текста с помощью компьютераперевод научно технического текста с помощью компьютера
перевод научно технического текста с помощью компьютера
 
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”
Lviv MDDay 2014. Олег Курзов “ваш Windows phone додаток вміє говорити”
 
Предварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстовПредварительная обработка и разметка корпуса текстов
Предварительная обработка и разметка корпуса текстов
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem net
 
механизмы речи
механизмы речимеханизмы речи
механизмы речи
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
 
АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиArtem Lukanin
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографииArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного переводаArtem Lukanin
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовArtem Lukanin
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сетиArtem Lukanin
 

More from Artem Lukanin (20)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Основные понятия корпусной лингвистики
Основные понятия корпусной лингвистикиОсновные понятия корпусной лингвистики
Основные понятия корпусной лингвистики
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Криптография
КриптографияКриптография
Криптография
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
 

Системы автоматического синтеза речи

  • 1. Системы автоматического синтеза речи Text-To-Speech А.В. Луканин Автоматическая обработка естественного языка. Лекция 7
  • 2. Система автоматического синтеза речи • это компьютеризированная система, которая может произносить любой текст – введён в компьютер оператором – отсканирован и распознан системой оптического распознавания символов (Optical Character Recognition (OCR) system) • отличается от других говорящих машин (магнитофон и т.д.) – нас интересует автоматическое произнесение новых предложений
  • 3. Системы с речевым ответом Voice Response Systems • просто склеивают изолированные слова или части предложений • применимы только тогда, когда используется – ограниченный словарь (несколько сотен слов) – ограниченная структура (к примеру, в объявлениях о прибытии поездов на вокзале).
  • 4. Система автоматического синтеза речи • используется в тех случаях, когда невозможно (и бесполезно) записать и хранить все слова языка • TTS - система автоматической генерации речи посредством графемно-фонемной транскрипции предложений
  • 5. Сферы применения TTS 1. Средства телекоммуникаций • получения текстовой информации по телефону • в кинотеатрах, театрах и т.д. • из огромных баз данных • чтение электронных сообщений или факсов по телефону • запросы: посредством голоса пользователя (АРР) или тонального набора. • телефонная релейная связь
  • 6. Сферы применения TTS 2. Обучение языку • низкое качество часто не удовлетворяет требованиям таких задач • в качественном синтезаторе речи большинство текстовой информации должно дополнительно сопровождаться интонационными управляющими тегами (за́мок и замо́к) • Google Translate (английский, гаитянский креольский, французский, итальянский, немецкий, хинди, испанский), для других 27 языков качество ниже (eSpeak)
  • 7. Сферы применения TTS 3. Помощь инвалидам • немые: клавиатуры и программы быстрого составления предложений • астрофизик Стивен Хокинг (Stephen Hawking) • слепые: сочетание систем АСР и ОРС 3. Говорящие книги и игрушки 4. Голосовой контроль • GPS-навигатор в автомобиле 3. Multimedia, человеко-машинное общение
  • 8. Устройство системы TTS Модуль обработки естественного языка Модуль обработки цифрового сигнала фонемы просодия речьтекст СИНТЕЗАТОР РЕЧИ
  • 9. Модуль обработки ЕЯ Модуль обработки ЕЯ Текст Анализ текста Предобработка Морфологическ. анализатор Анализатор контекста Синтаксико- просодический парсер М У С Д или К А Автоматическ. транскрипция Генератор просодии В блок обработки цифрового сигнала
  • 10. Анализ текста • Модуль предобработки – числа, акронимы, идиоматические выражения – Многозначность пунктуационных знаков элементарные регулярные грамматики • Модуль морфологического анализа – определение возможных частей речи (простые регулярные грамматики, лексиконы основ и аффиксов)
  • 11. Анализ текста • Модуль анализа контекста – наиболее вероятные части речи • n-граммы (вероятностный конечный автомат или многослойный персептрон) • локальные нестохастические грамматики (созданные экспертами или автоматически при помощи деревьев решений) • Синтаксико-просодический парсер – определение структуры текста для подбора просодической реализации
  • 12. Автоматическая транскрипция: словари или правила? • Словари содержат только транскрипцию лемм • В словаре может быть несколько омографов (record: ['reko:d] или [rı'ko:d]) или омоформ (read: ['ri:d] или ['red]) • Не приводятся все варианты словообразования – 'electricity' из леммы 'electric', редукция t в слове 'softness' ['sоfnıs] Нужен первичный морфосинтаксический анализ предложения
  • 13. Автоматическая транскрипция: словари или правила? • Слова в окружении других слов звучат не так, как по отдельности • Не все слова можно найти в словаре произношения: – Неологизмы – Собственные имена, которые должны произноситься по типу существующих слов Нужен синтаксический или метрический анализ предложения Нужен модуль морфологии или модуль нахождения графемной аналогии
  • 14. Стратегия использования словаря • хранение большинства фонологической информации в лексиконах – словари основ и аффиксов • произношение поверхностных форм вычисляется на основе правил: – словоизменительных – словообразовательных морфофонемных – словосложения
  • 15. Стратегия использования словаря В Н У Т Р Е Н Н Я Я С Т Р У К Т У Р А Д А Н Н Ы Х Транскрипция со словарём Транскриб. морфемы Морфолог. правила Морфо- фонемный модуль Модуль транскрибиро- вания букв Правила транскрипции Коартикуляцион- ные правила Финальная фонетическая обработка морфемы фонемы фонемы фоны фонемы неизвестные морфемы
  • 16. Стратегия использования словаря • Морфемы, не найденные в словаре, транскрибируются по правилу • Затем выполняется последующая фонетическая обработка для учёта коартикуляционного феномена • Такой подход используется в системе MITalk – Словарь: около 12 000 морфем, покрывает 95% входных слов • Компания AT&T Bell Laboratories также использовала этот подход в своей системе АСР – словарь увеличен до 43 000 морфем
  • 17. Стратегия использования словаря В Н У Т Р Е Н Н Я Я С Т Р У К Т У Р А Д А Н Н Ы Х Транскрипция со словарём Транскриб. морфемы Морфолог. правила Морфо- фонемный модуль Модуль транскрибиро- вания букв Правила транскрипции Коартикуляцион- ные правила Финальная фонетическая обработка морфемы фонемы фонемы фоны фонемы неизвестные морфемы
  • 18. Стратегия использования правил • большинство фонологической компетенции словарей переносится во множество правил преобразования графема-фонема • в словаре хранятся только слова-исключения • многие исключения являются очень частотными словами достаточно небольшой словарь исключений может покрыть слова большинства текстов – в английском языке 2000 слов достаточно, чтобы покрыть 70% слов текста • Выбор подхода очень часто зависит от языка
  • 19. Стратегия, основанная на правилах В Н У Т Р Е Н Н Я Я С Т Р У К Т У Р А Д А Н Н Ы Х Транскрипция по правилам Исключения Модуль транскриби- рования букв Правила транскрипции Коартикуляцион-ные правила Финальная фонетическая обработка слоги Морфо- синтакс. хар-ки фоны фоны фоны графемы
  • 20. Модуль обработки цифрового сигнала • Существует два способа преобразования фонем в звук: – синтез по правилам: явно, в виде набора правил, которые формально описывают влияние одних фонем на другие – компилятивный синтез: неявно, путём хранения примеров фонетических переходов и коартикуляций в базе данных отрезков речи и использования их, в конечном счёте, вместо фонем
  • 21. Акустический синтез по правилам • формантные синтезаторы – используются в основном фонетистами и фонологистами • синтезатор Klatt – Для качественной речи нужно около 60 параметров: частота, амплитуда и ширина формант и антиформант – необходимы правила для параметров, которые описывают динамически меняющиеся характеристики голосового и шумовых источников звука
  • 22. Акустический синтез по правилам - требуется большая подготовительная работа (акустический анализ значительных речевых массивов и формулировка нужных правил) - получаемая речь часто сопровождается гудением или жужжанием, что снижает её естественность + есть возможность имитировать разные голоса, отслеживать изменения в стиле произношения и тембре голоса • MITALK, DECTALK для английского языка • многоязычная система синтеза INFOVOX • eSpeak
  • 23. Акустический синтез на основе конкатенации Подготовка базы данных 1. выбираются сегменты речи – дифоны – полуслоги – трифоны – нежелательные позиции в словах (внутри ударных слогов или слишком редуцированных контекстах) не берутся во внимание
  • 24. Подготовка акустической базы данных 2. записывается корпус речи и сегментируется • вручную при помощи визуальных средств представления цифрового сигнала • либо автоматически с последующей корректировкой 2. результаты записываются в акустическую базу данных в виде названия сегмента, формы волны, продолжительности и позиций внутренних сегментов • при записи дифонов также необходимо указывать границу между фонами, чтобы можно было изменить продолжительность одного полуфона, не затрагивая длину другого
  • 25. Акустический синтез на основе конкатенации фонемы + просодия Обработка цифрового сигнала Подготовка базы данных Корпус речи сегментация БД сегментов речи Генерация списка сегментов Анализ речи Выравни- вание Параметр. БД сегментов Кодирование речи
  • 26. Параметрическая база данных сегментов речи • Сегменты впоследствии приводятся к параметрическому виду, последовательности векторов параметров, выдаваемых речевым анализатором + Удачно выбранные речевые модели позволяют сократить размер базы данных звуков + Некоторые модели разделяют сигнал на источник звука и фильтра (голосовой тракт), что очень помогает при операциях, непосредственно предшествующих синтезу: подбору просодии и конкатенации сегментов
  • 27. Акустический синтез на основе конкатенации фонемы + просодия Обработка цифрового сигнала Подготовка базы данных Корпус речи сегментация БД сегментов речи Генерация списка сегментов Анализ речи Выравни- вание Параметр. БД сегментов Кодирование речи
  • 28. База данных сегментов синтеза • Параметрическое представление отрезков речи позволяет легко изменять высоту тона, длину волны и огибающую спектра, что нельзя сделать с просто записанными отрезками речи • Так как отрезки речи были получены из разных слов, т.е. из разных фонетических контекстов, при конкатенации их амплитуда и тембр
  • 29. База данных сегментов синтеза • Необходимо выравнить спектр амплитуды на концах сегментов, оставляя без изменения сами сегменты – уровни громкости плавно корректируются в начале и конце сегмента – громкости различных фонов одной фонемы приводятся к её среднему значению • разница в тембре снимается во время синтеза для каждой пары сегментов, а не выравнивается для всех сегментов сразу, оставляя естественное фонетическое различие в коартикуляциях
  • 30. Акустический синтез на основе конкатенации фонемы + просодия Обработка цифрового сигнала Подготовка базы данных Корпус речи сегментация БД сегментов речи Генерация списка сегментов Анализ речи Выравни- вание Параметр. БД сегментов Кодирование речи
  • 31. Акустический синтез на основе конкатенации Синтез речи Декодирование речи БД сегментов синтеза Речь Подбор просодии Конкатенация сегментов Синтез речи
  • 32. Синтез речи • фонам ставится в соответствие последовательность сегментов в блоке генерации списка сегментов • модуль подбора просодии запрашивает в базе данных сегментов синтеза параметры этих сегментов и приводит их в соответствие один за другим с требуемой просодией
  • 33. Акустический синтез на основе конкатенации фонемы + просодия Обработка цифрового сигнала Подготовка базы данных Корпус речи сегментация БД сегментов речи Генерация списка сегментов Анализ речи Выравни- вание Параметр. БД сегментов Кодирование речи
  • 34. Акустический синтез на основе конкатенации Синтез речи Декодирование речи БД сегментов синтеза Речь Подбор просодии Конкатенация сегментов Синтез речи
  • 35. Синтез речи • В блоке конкатенации сегментов производится подгонка сегментов – производится простая интерполяция параметров, приблизительно соответствующая сглаживанию акустических переходов между звуками • Полученная последовательность параметров передаётся в блок синтеза сигнала, в котором производится операция обратная анализу речи — синтез речи
  • 36. Акустический синтез на основе конкатенации Синтез речи Декодирование речи БД сегментов синтеза Речь Подбор просодии Конкатенация сегментов Синтез речи