SlideShare a Scribd company logo
1 of 4
Download to read offline
ОПИСАНИЕ
ПОЛЕЗНОЙ
МОДЕЛИ К
ПАТЕНТУ
(12)
РЕСПУБЛИКА БЕЛАРУСЬ
НАЦИОНАЛЬНЫЙ ЦЕНТР
ИНТЕЛЛЕКТУАЛЬНОЙ
СОБСТВЕННОСТИ
(19) BY (11) 6754
(13) U
(46) 2010.10.30
(51) МПК (2009)
G 10L 15/00
(54) УСТРОЙСТВО АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ
ДИКТОРА ПО РЕЧИ
(21) Номер заявки: u 20100311
(22) 2010.03.25
(71) Заявитель: Учреждение образования
"Белорусский государственный уни-
верситет информатики и радиоэлек-
троники" (BY)
(72) Авторы: Зельманский Олег Борисович;
Аль-Хатми Мохаммед Омар (BY)
(73) Патентообладатель: Учреждение обра-
зования "Белорусский государствен-
ный университет информатики и
радиоэлектроники" (BY)
(57)
Устройство для автоматического распознавания диктора по речи, включающее источ-
ник речевого сигнала, блок определения параметрического описания речевого сигнала в
виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на после-
довательность сегментов, блока умножения на взвешивающее окно, блока добавления к
сигналу в сегменте нулей, вычислителя преобразования Фурье и формирователя парамет-
рических описаний входного речевого сигнала, соединенных последовательно, коммута-
тор, блок сравнения параметрических описаний эталона и входного речевого сигнала,
блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом
источник речевого сигнала подключен к блоку определения параметрического описания
речевого сигнала, выход которого соединен с входом коммутатора, первый выход которо-
го подключен к первому входу блока сравнения параметрических описаний эталона и
входного речевого сигнала, а второй выход соединен с входом запоминающего устрой-
ства, выход которого подключен ко второму входу блока сравнения параметрических
описаний эталона и входного речевого сигнала, выход которого соединен с входом блока
принятия решения о распознаваемом дикторе, выход которого является выходом устрой-
ства в целом, отличающееся тем, что блок определения параметрического описания ре-
чевого сигнала дополнительно содержит блок вычисления спектральной оценки сигнала,
вход которого соединен с выходом вычислителя преобразования Фурье, а выход - с пер-
вым входом формирователя параметрических описаний входного речевого сигнала, блок
вычисления автокорреляционной функции сигнала, блок вычисления огибающей сигнала,
при этом их входы соединены с выходом блока умножения на взвешивающее окно, а вы-
ходы подключены к остальным входам формирователя параметрических описаний вход-
ного речевого сигнала, блок сравнения параметрических описаний эталона и входного
речевого сигнала выполнен в виде блоков сравнения значений спектральной оценки сиг-
нала, автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями,
Фиг. 1
BY6754U2010.10.30
BY 6754 U 2010.10.30
2
входы которых соединены с соответствующими входами блока сравнения параметриче-
ских описаний эталона и входного речевого сигнала, а выходы соединены с входом блока
принятия решения о распознаваемом дикторе.
(56)
1. Патент RU 2 161 826 С2, МПК G 10L 17/00, G 10L 11/04, G 10L 11/06, G 10L 15/06,
G 10L 15/16, 2001.
2. Патент US 7.065.487 В2, МПК G 10L 19/10, 2006.
3. Патент RU 2 230 375 C2, МПК G 10L 15/00, G 10L 17/00, 2004.
Полезная модель относится к области техники исследования речи, а именно к устрой-
ствам автоматического распознавания диктора по речи, и может быть использована для
ограничения несанкционированного доступа и удаленного распознавания пользователей с
использованием биометрических параметров.
Известен способ автоматической идентификации личности по особенностям произ-
ношения парольной фразы этой личностью [1], заключающийся в том, что речевой сигнал
разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных
зонах, для этого определяют параметры речевого сигнала, сравнивают их с эталонами, ко-
торые формируют с учетом математических ожиданий и допустимых разбросов этих па-
раметров, для чего в конце первой, начале последней, в начале и конце остальных
вокализованных зон выделяют временные интервалы, длительность временных интерва-
лов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки
коэффициентов корреляции параметров речевого сигнала, которые включают в число
сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэф-
фициенты корреляции параметров речевого сигнала. Корме того, дополнительно вводят и
обрабатывают речевой сигнал с ларингофона, контактирующего с телом говорящего. На
основании отклика нейронной сети, на входы которой одновременно предъявляют пара-
метры речевого сигнала и оценки коэффициентов корреляции этих параметров, принима-
ют решение по идентификации личности.
Недостатком известного способа идентификации личности [1] является низкая поме-
хоустойчивость метода, так как для его работы требуется выделение во входном речевом
сигнале точного положения границ основного тона голоса, что в условиях наличия аку-
стических помех практически невозможно.
Известны метод и устройство распознавания речи [2], использующие множественные
акустические модели, и аппарат, реализующий этот метод и содержащий источник рече-
вых сигналов (микрофон и процессор предварительной обработки), блок первичного вы-
деления параметров речи, блок выделения сегментов шума и сегментов речи, блок
определения типа шума и выбора акустической модели, устройство хранения данных о
параметрах, блок устранения шума, блок вторичного анализа параметров речи, блок
устранения шума по методу нормализации усреднением кепстра, блок хранения акустиче-
ских моделей, блок хранения моделей языка и блок распознавания речи.
Недостатком предложенных в [2] метода, программы и аппарата распознавания речи
является многоступенчатая процедура анализа входных воздействий, сходимость которой
к конкретному результату в патенте не проанализирована. В патенте нет сведений о воз-
можности применения предложенных в нем средств для распознавания (или идентифика-
ции) дикторов.
Наиболее близкими к предлагаемому устройству являются способ и устройство рас-
познавания диктора [3], совпадающие с заявляемым устройством по наибольшему чис-
лу существенных признаков и принятые за прототип. В основу заявленного в [3] способа
распознавания диктора положено сравнение входного речевого сигнала неизвестного дик-
тора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосо-
BY 6754 U 2010.10.30
3
вых паролей, произносимых заранее известными дикторами. Известное устройство-
прототип включает в себя источник речевого сигнала, блок определения параметрическо-
го описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегмен-
татора речевого сигнала на последовательность сегментов, блока умножения на
взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобра-
зования Фурье, вычислителя спектра мощности сигнала в сегменте, блока определения
формантного вектора текущего сегмента и формирователя параметрических описаний
входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения
параметрических описаний эталона и входного речевого сигнала, блок принятия решения
о распознаваемом дикторе и запоминающее устройство.
Недостатком такого устройства является то, что оно все еще не обеспечивает запросы
практики по надежности распознавания звуков речи и дикторов.
Задачей данной полезной модели является, при сохранении в ее составе основных
функциональных узлов и достоинств устройства-прототипа, увеличение помехоустойчи-
вости, уменьшение вероятности ошибок распознавания звуков речи и повышение на этой
основе надежности распознавания речевых сигналов и дикторов, включая возможность их
идентификации.
Поставленная задача решается тем, что в устройстве для автоматического распознава-
ния диктора, включающем источник речевого сигнала, блок определения параметрическо-
го описания речевого сигнала в виде выделителя начала/конца речевого сигнала,
сегментатора речевого сигнала на последовательность сегментов, блока умножения на
взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобра-
зования Фурье и формирователя параметрических описаний входного речевого сигнала,
соединенных последовательно, коммутатор, блок сравнения параметрических описаний
эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и
запоминающее устройство, при этом источник речевого сигнала подключен к блоку опре-
деления параметрического описания речевого сигнала, выход которого соединен с входом
коммутатора, первый выход которого подключен к первому входу блока сравнения пара-
метрических описаний эталона и входного речевого сигнала, а второй выход соединен с
входом запоминающего устройства, выход которого подключен ко второму входу блока
сравнения параметрических описаний эталона и входного речевого сигнала, выход кото-
рого соединен с входом блока принятия решения о распознаваемом дикторе, выход кото-
рого является выходом устройства в целом, блок определения параметрического описания
речевого сигнала дополнительно содержит блок вычисления спектральной оценки сигна-
ла, включенный между вычислителем преобразования Фурье и формирователем парамет-
рических описаний входного речевого сигнала, блоки вычисления автокорреляционной
функции сигнала, огибающей сигнала, включенные параллельно друг другу между блоком
умножения на взвешивающее окно и формирователем параметрических описаний входно-
го речевого сигнала, блок сравнения параметрических описаний эталона и входного рече-
вого сигнала выполнен в виде блоков сравнения значений спектральной оценки сигнала,
автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями,
входы которых подключены к соответствующим входам блока сравнения параметриче-
ских описаний эталона и входного речевого сигнала, а выходы соединены с входом блока
принятия решения о распознаваемом дикторе.
Сущностью устройства является то, что в нем рассчитываются классификационные
параметры сигнала как во временной области, а именно огибающая сигнала, значение ав-
токорреляционной функции сигнала, так и параметр в частотной области, а именно изме-
нение спектра сигнала.
На фиг. 1 представлена функциональная схема устройства автоматического распозна-
вания диктора по речи.
На фиг. 2 приведена функциональная схема входящего в состав устройства автомати-
ческого распознавания диктора по речи блока определения параметрического описания
речевого сигнала.
BY 6754 U 2010.10.30
4
В соответствии с фиг. 1 устройство автоматического распознавания диктора содержит
источник речевого сигнала в цифровой форме 1 с выходом 2 на блок определения пара-
метрического описания речевого сигнала 3 с выходом 4 на коммутатор 5, блок запомина-
ющего устройства для хранения эталонов параметрического описания речевого сигнала
заранее известных дикторов 8 с входом 7, блок сравнения параметрических описаний эта-
лона и входного речевого сигнала 10 с входами 6 и 9 и выходом 11, блок принятия реше-
ния о распознаваемом дикторе 12, выход 13 которого является выходом системы в целом.
Для увеличения достоверности распознавания диктора в блок определения парамет-
рического описания речевого сигнала 3 устройства автоматического распознавания дик-
тора (фиг. 2), содержащий выделитель начала/конца речевого сигнала 14, сегментатор
речевого сигнала на последовательность сегментов 15, блок умножения на взвешивающее
окно 16, блок добавления к сигналу в сегменте нулей 17, вычислитель преобразования
Фурье 19 и формирователь параметрических описаний входного речевого сигнала 22, вве-
дены блок вычисления спектральной оценки сигнала 21, блок вычисления автокорреляци-
онной функции сигнала 18, блок вычисления огибающей сигнала 20.
Работа блока определения параметрического описания речевого сигнала 3 происходит
следующим образом.
Из аудиосигнала, поступающего на вход 2 блока определения параметрического опи-
сания речевого сигнала (фиг. 1), при помощи выделителя начала/конца речевого сигнала
14 происходит формирование речевых участков, которые передаются в сегментатор рече-
вого сигнала на последовательность сегментов 15. Сегментатор осуществляет формирова-
ние временных сегментов, содержащих отсчеты входного сигнала, и фильтрацию сигнала
в этих сегментах с помощью полосового фильтра с полосой пропускания 0,3-3,4 кГц, ко-
торая соответствует частотному диапазону речевого сигнала. После умножения на взве-
шивающее окно в блоке 16 сегменты речевого сигнала поступают в блок добавления к
сигналу в сегменте нулей 17, а также в блоки расчета классификационных параметров, а
именно в блок вычисления автокорреляционной функции сигнала 18, блок вычисления
огибающей сигнала 20. Добавление к сигналу в сегменте нулей обусловлено требованием
четности для осуществления быстрого дискретного преобразования Фурье, выполняемого
в вычислителе преобразования Фурье 19, результаты которого передаются в блок вычис-
ления спектральной оценки сигнала 21, результатом работы которого является оценка ди-
намики изменения спектра сигнала. Рассчитанные значения классификационных
параметров поступают на входы формирователя параметрических описаний входного ре-
чевого сигнала 22, выход которого соединен с входом коммутатора 5.
Совместное применение спектрального и временного анализов позволило создать
надежное устройство автоматического распознавания диктора по речи, обеспечивающее
высокоточные результаты. Данное устройство функционирует в режиме реального време-
ни благодаря высокой скорости обработки аудиосигнала.
Фиг. 2
Национальный центр интеллектуальной собственности.
220034, г. Минск, ул. Козлова, 20.

More Related Content

Viewers also liked

Viewers also liked (11)

7053
70537053
7053
 
7086
70867086
7086
 
научно методический журнал-информатизация_образования_и_науки_№3_2009_(2)
научно методический журнал-информатизация_образования_и_науки_№3_2009_(2)научно методический журнал-информатизация_образования_и_науки_№3_2009_(2)
научно методический журнал-информатизация_образования_и_науки_№3_2009_(2)
 
Alambres
AlambresAlambres
Alambres
 
780187
780187780187
780187
 
780079
780079780079
780079
 
780146
780146780146
780146
 
Aku bukan odiseus dan dia bukan penelope
Aku bukan odiseus dan dia bukan penelopeAku bukan odiseus dan dia bukan penelope
Aku bukan odiseus dan dia bukan penelope
 
innovatrium-intro-3 JWD 2
innovatrium-intro-3 JWD 2innovatrium-intro-3 JWD 2
innovatrium-intro-3 JWD 2
 
HR Strategic Alignment
HR Strategic AlignmentHR Strategic Alignment
HR Strategic Alignment
 
La energia 1
La energia 1La energia 1
La energia 1
 

Similar to 6754

Платформы тестирования СВЧ устройств. Тестирование ППМ блоков
Платформы тестирования СВЧ устройств. Тестирование ППМ блоковПлатформы тестирования СВЧ устройств. Тестирование ППМ блоков
Платформы тестирования СВЧ устройств. Тестирование ППМ блоков10X Engineering
 
Патент на полезную модель Республики Беларусь
Патент на полезную модель Республики БеларусьПатент на полезную модель Республики Беларусь
Патент на полезную модель Республики Беларусьivanov156w2w221q
 
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...Иван Иванов
 
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...journalrubezh
 
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...RF-Lab
 
Патент на полезную модель Республики Беларусь
Патент на полезную модель Республики БеларусьПатент на полезную модель Республики Беларусь
Патент на полезную модель Республики БеларусьИван Иванов
 

Similar to 6754 (20)

6909
69096909
6909
 
6593
65936593
6593
 
10669
1066910669
10669
 
7001
70017001
7001
 
6758
67586758
6758
 
7122
71227122
7122
 
7118
71187118
7118
 
Платформы тестирования СВЧ устройств. Тестирование ППМ блоков
Платформы тестирования СВЧ устройств. Тестирование ППМ блоковПлатформы тестирования СВЧ устройств. Тестирование ППМ блоков
Платформы тестирования СВЧ устройств. Тестирование ППМ блоков
 
Патент на полезную модель Республики Беларусь
Патент на полезную модель Республики БеларусьПатент на полезную модель Республики Беларусь
Патент на полезную модель Республики Беларусь
 
10748
1074810748
10748
 
7114
71147114
7114
 
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...
повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слух...
 
7251
72517251
7251
 
10773
1077310773
10773
 
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...
Русанов Юрий, гендиректор ООО "Прикладная радиофизика". Презентация к докладу...
 
10723
1072310723
10723
 
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...
2016 Забелин Вячеслав Андреевич Бакалаврская работа: Разработка программных с...
 
10700
1070010700
10700
 
10643
1064310643
10643
 
Патент на полезную модель Республики Беларусь
Патент на полезную модель Республики БеларусьПатент на полезную модель Республики Беларусь
Патент на полезную модель Республики Беларусь
 

More from ivanov156w2w221q (20)

588
588588
588
 
596
596596
596
 
595
595595
595
 
594
594594
594
 
593
593593
593
 
584
584584
584
 
589
589589
589
 
592
592592
592
 
591
591591
591
 
590
590590
590
 
585
585585
585
 
587
587587
587
 
586
586586
586
 
582
582582
582
 
583
583583
583
 
580
580580
580
 
581
581581
581
 
579
579579
579
 
578
578578
578
 
512
512512
512
 

6754

  • 1. ОПИСАНИЕ ПОЛЕЗНОЙ МОДЕЛИ К ПАТЕНТУ (12) РЕСПУБЛИКА БЕЛАРУСЬ НАЦИОНАЛЬНЫЙ ЦЕНТР ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ (19) BY (11) 6754 (13) U (46) 2010.10.30 (51) МПК (2009) G 10L 15/00 (54) УСТРОЙСТВО АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ДИКТОРА ПО РЕЧИ (21) Номер заявки: u 20100311 (22) 2010.03.25 (71) Заявитель: Учреждение образования "Белорусский государственный уни- верситет информатики и радиоэлек- троники" (BY) (72) Авторы: Зельманский Олег Борисович; Аль-Хатми Мохаммед Омар (BY) (73) Патентообладатель: Учреждение обра- зования "Белорусский государствен- ный университет информатики и радиоэлектроники" (BY) (57) Устройство для автоматического распознавания диктора по речи, включающее источ- ник речевого сигнала, блок определения параметрического описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на после- довательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобразования Фурье и формирователя парамет- рических описаний входного речевого сигнала, соединенных последовательно, коммута- тор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку определения параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которо- го подключен к первому входу блока сравнения параметрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устрой- ства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход которого соединен с входом блока принятия решения о распознаваемом дикторе, выход которого является выходом устрой- ства в целом, отличающееся тем, что блок определения параметрического описания ре- чевого сигнала дополнительно содержит блок вычисления спектральной оценки сигнала, вход которого соединен с выходом вычислителя преобразования Фурье, а выход - с пер- вым входом формирователя параметрических описаний входного речевого сигнала, блок вычисления автокорреляционной функции сигнала, блок вычисления огибающей сигнала, при этом их входы соединены с выходом блока умножения на взвешивающее окно, а вы- ходы подключены к остальным входам формирователя параметрических описаний вход- ного речевого сигнала, блок сравнения параметрических описаний эталона и входного речевого сигнала выполнен в виде блоков сравнения значений спектральной оценки сиг- нала, автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями, Фиг. 1 BY6754U2010.10.30
  • 2. BY 6754 U 2010.10.30 2 входы которых соединены с соответствующими входами блока сравнения параметриче- ских описаний эталона и входного речевого сигнала, а выходы соединены с входом блока принятия решения о распознаваемом дикторе. (56) 1. Патент RU 2 161 826 С2, МПК G 10L 17/00, G 10L 11/04, G 10L 11/06, G 10L 15/06, G 10L 15/16, 2001. 2. Патент US 7.065.487 В2, МПК G 10L 19/10, 2006. 3. Патент RU 2 230 375 C2, МПК G 10L 15/00, G 10L 17/00, 2004. Полезная модель относится к области техники исследования речи, а именно к устрой- ствам автоматического распознавания диктора по речи, и может быть использована для ограничения несанкционированного доступа и удаленного распознавания пользователей с использованием биометрических параметров. Известен способ автоматической идентификации личности по особенностям произ- ношения парольной фразы этой личностью [1], заключающийся в том, что речевой сигнал разбивают на вокализованные зоны, выделяют временные интервалы в вокализованных зонах, для этого определяют параметры речевого сигнала, сравнивают их с эталонами, ко- торые формируют с учетом математических ожиданий и допустимых разбросов этих па- раметров, для чего в конце первой, начале последней, в начале и конце остальных вокализованных зон выделяют временные интервалы, длительность временных интерва- лов устанавливают кратной периоду основного тона речевого сигнала, определяют оценки коэффициентов корреляции параметров речевого сигнала, которые включают в число сравниваемых с эталонами, при формировании эталонов дополнительно учитывают коэф- фициенты корреляции параметров речевого сигнала. Корме того, дополнительно вводят и обрабатывают речевой сигнал с ларингофона, контактирующего с телом говорящего. На основании отклика нейронной сети, на входы которой одновременно предъявляют пара- метры речевого сигнала и оценки коэффициентов корреляции этих параметров, принима- ют решение по идентификации личности. Недостатком известного способа идентификации личности [1] является низкая поме- хоустойчивость метода, так как для его работы требуется выделение во входном речевом сигнале точного положения границ основного тона голоса, что в условиях наличия аку- стических помех практически невозможно. Известны метод и устройство распознавания речи [2], использующие множественные акустические модели, и аппарат, реализующий этот метод и содержащий источник рече- вых сигналов (микрофон и процессор предварительной обработки), блок первичного вы- деления параметров речи, блок выделения сегментов шума и сегментов речи, блок определения типа шума и выбора акустической модели, устройство хранения данных о параметрах, блок устранения шума, блок вторичного анализа параметров речи, блок устранения шума по методу нормализации усреднением кепстра, блок хранения акустиче- ских моделей, блок хранения моделей языка и блок распознавания речи. Недостатком предложенных в [2] метода, программы и аппарата распознавания речи является многоступенчатая процедура анализа входных воздействий, сходимость которой к конкретному результату в патенте не проанализирована. В патенте нет сведений о воз- можности применения предложенных в нем средств для распознавания (или идентифика- ции) дикторов. Наиболее близкими к предлагаемому устройству являются способ и устройство рас- познавания диктора [3], совпадающие с заявляемым устройством по наибольшему чис- лу существенных признаков и принятые за прототип. В основу заявленного в [3] способа распознавания диктора положено сравнение входного речевого сигнала неизвестного дик- тора с заранее сохраненными эталонами, представляющими собой речевой сигнал голосо-
  • 3. BY 6754 U 2010.10.30 3 вых паролей, произносимых заранее известными дикторами. Известное устройство- прототип включает в себя источник речевого сигнала, блок определения параметрическо- го описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегмен- татора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобра- зования Фурье, вычислителя спектра мощности сигнала в сегменте, блока определения формантного вектора текущего сегмента и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство. Недостатком такого устройства является то, что оно все еще не обеспечивает запросы практики по надежности распознавания звуков речи и дикторов. Задачей данной полезной модели является, при сохранении в ее составе основных функциональных узлов и достоинств устройства-прототипа, увеличение помехоустойчи- вости, уменьшение вероятности ошибок распознавания звуков речи и повышение на этой основе надежности распознавания речевых сигналов и дикторов, включая возможность их идентификации. Поставленная задача решается тем, что в устройстве для автоматического распознава- ния диктора, включающем источник речевого сигнала, блок определения параметрическо- го описания речевого сигнала в виде выделителя начала/конца речевого сигнала, сегментатора речевого сигнала на последовательность сегментов, блока умножения на взвешивающее окно, блока добавления к сигналу в сегменте нулей, вычислителя преобра- зования Фурье и формирователя параметрических описаний входного речевого сигнала, соединенных последовательно, коммутатор, блок сравнения параметрических описаний эталона и входного речевого сигнала, блок принятия решения о распознаваемом дикторе и запоминающее устройство, при этом источник речевого сигнала подключен к блоку опре- деления параметрического описания речевого сигнала, выход которого соединен с входом коммутатора, первый выход которого подключен к первому входу блока сравнения пара- метрических описаний эталона и входного речевого сигнала, а второй выход соединен с входом запоминающего устройства, выход которого подключен ко второму входу блока сравнения параметрических описаний эталона и входного речевого сигнала, выход кото- рого соединен с входом блока принятия решения о распознаваемом дикторе, выход кото- рого является выходом устройства в целом, блок определения параметрического описания речевого сигнала дополнительно содержит блок вычисления спектральной оценки сигна- ла, включенный между вычислителем преобразования Фурье и формирователем парамет- рических описаний входного речевого сигнала, блоки вычисления автокорреляционной функции сигнала, огибающей сигнала, включенные параллельно друг другу между блоком умножения на взвешивающее окно и формирователем параметрических описаний входно- го речевого сигнала, блок сравнения параметрических описаний эталона и входного рече- вого сигнала выполнен в виде блоков сравнения значений спектральной оценки сигнала, автокорреляционной функции сигнала, огибающей сигнала с эталонными значениями, входы которых подключены к соответствующим входам блока сравнения параметриче- ских описаний эталона и входного речевого сигнала, а выходы соединены с входом блока принятия решения о распознаваемом дикторе. Сущностью устройства является то, что в нем рассчитываются классификационные параметры сигнала как во временной области, а именно огибающая сигнала, значение ав- токорреляционной функции сигнала, так и параметр в частотной области, а именно изме- нение спектра сигнала. На фиг. 1 представлена функциональная схема устройства автоматического распозна- вания диктора по речи. На фиг. 2 приведена функциональная схема входящего в состав устройства автомати- ческого распознавания диктора по речи блока определения параметрического описания речевого сигнала.
  • 4. BY 6754 U 2010.10.30 4 В соответствии с фиг. 1 устройство автоматического распознавания диктора содержит источник речевого сигнала в цифровой форме 1 с выходом 2 на блок определения пара- метрического описания речевого сигнала 3 с выходом 4 на коммутатор 5, блок запомина- ющего устройства для хранения эталонов параметрического описания речевого сигнала заранее известных дикторов 8 с входом 7, блок сравнения параметрических описаний эта- лона и входного речевого сигнала 10 с входами 6 и 9 и выходом 11, блок принятия реше- ния о распознаваемом дикторе 12, выход 13 которого является выходом системы в целом. Для увеличения достоверности распознавания диктора в блок определения парамет- рического описания речевого сигнала 3 устройства автоматического распознавания дик- тора (фиг. 2), содержащий выделитель начала/конца речевого сигнала 14, сегментатор речевого сигнала на последовательность сегментов 15, блок умножения на взвешивающее окно 16, блок добавления к сигналу в сегменте нулей 17, вычислитель преобразования Фурье 19 и формирователь параметрических описаний входного речевого сигнала 22, вве- дены блок вычисления спектральной оценки сигнала 21, блок вычисления автокорреляци- онной функции сигнала 18, блок вычисления огибающей сигнала 20. Работа блока определения параметрического описания речевого сигнала 3 происходит следующим образом. Из аудиосигнала, поступающего на вход 2 блока определения параметрического опи- сания речевого сигнала (фиг. 1), при помощи выделителя начала/конца речевого сигнала 14 происходит формирование речевых участков, которые передаются в сегментатор рече- вого сигнала на последовательность сегментов 15. Сегментатор осуществляет формирова- ние временных сегментов, содержащих отсчеты входного сигнала, и фильтрацию сигнала в этих сегментах с помощью полосового фильтра с полосой пропускания 0,3-3,4 кГц, ко- торая соответствует частотному диапазону речевого сигнала. После умножения на взве- шивающее окно в блоке 16 сегменты речевого сигнала поступают в блок добавления к сигналу в сегменте нулей 17, а также в блоки расчета классификационных параметров, а именно в блок вычисления автокорреляционной функции сигнала 18, блок вычисления огибающей сигнала 20. Добавление к сигналу в сегменте нулей обусловлено требованием четности для осуществления быстрого дискретного преобразования Фурье, выполняемого в вычислителе преобразования Фурье 19, результаты которого передаются в блок вычис- ления спектральной оценки сигнала 21, результатом работы которого является оценка ди- намики изменения спектра сигнала. Рассчитанные значения классификационных параметров поступают на входы формирователя параметрических описаний входного ре- чевого сигнала 22, выход которого соединен с входом коммутатора 5. Совместное применение спектрального и временного анализов позволило создать надежное устройство автоматического распознавания диктора по речи, обеспечивающее высокоточные результаты. Данное устройство функционирует в режиме реального време- ни благодаря высокой скорости обработки аудиосигнала. Фиг. 2 Национальный центр интеллектуальной собственности. 220034, г. Минск, ул. Козлова, 20.