SlideShare a Scribd company logo
1 of 16
Download to read offline
Федеральное агентство связи
Федеральное государственное образовательное бюджетное учреждение
высшего профессионального образования
ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ
ЭЛЕКТРОННАЯ
БИБЛИОТЕЧНАЯ СИСТЕМА
Самара
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
2
На правах рукописи
СТЕФАНОВ Михаил Александрович
ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СЖАТИЯ ЦИФРОВОЙ
АУДИОИНФОРМАЦИИ С УЧЕТОМ СВОЙСТВ СЛУХОВОГО
АНАЛИЗАТОРА ЧЕЛОВЕКА
Специальность 05.12.13 –
Системы, сети и устройства телекоммуникаций
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Самара – 2009
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
3
Работа выполнена в Государственном образовательном учреждении высше-
го профессионального образования «Поволжский государственный универси-
тет телекоммуникаций и информатики» (ГОУВПО ПГУТИ)
Научный руководитель: доктор технических наук,
профессор Акчурин Э.А.
Официальные оппоненты: доктор технических наук,
доцент Горячкин О.В.
кандидат технических наук,
доцент Засов В.А.
Ведущая организация: ГОУВПО Самарский государственный технический
университет (СГТУ)
Защита состоится «28» декабря 2009 г. в 13 часов на заседании диссерта-
ционного совета Д219.003.02 при Поволжском государственном университете
телекоммуникаций и информатики по адресу: 443010, г. Самара, ул. Льва Тол-
стого, 23.
С диссертацией можно ознакомиться в библиотеке ГОУВПО ПГУТИ.
Автореферат разослан «26» ноября 2009 г.
Ученый секретарь
диссертационного совета Д219.003.02
доктор технических наук, доцент Мишин Д.В.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
4
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Современный этап развития систем цифровой обра-
ботки и передачи аудиоинформации характеризуется как увеличением потока
передаваемой информации, так и повышением требований к ее качеству. В свя-
зи с этим одной из важнейших задач является повышение эффективности ком-
прессии цифровых аудиоданных при условии высокого качества субъективного
восприятия сжатого звука.
К настоящему времени в стандартах MPEG (Moving Pictures Expert Group) и
ATSC (Advanced Television System Committee) Dolby AC-3 (А/52) рекомендуются
алгоритмы высококачественного сжатия звуковых сигналов (ЗС), обеспечи-
вающие цифровые скорости от 64 кбит/с для мультимедиа приложений до 384
кбит/с для цифрового стереофонического вещания. Нестандартные алгоритмы в
форматах PAC, VQF, WMA, Ogg Vorbis и другие по утверждениям их авторов
позволяют без существенного снижения качества субъективного восприятия
сжатого звука довести цифровую скорость до 96 кбит/с. Таких успехов удалось
добиться за счет обработки цифровых аудиоданных в частотной области, для чего
используются дискретные ортогональные преобразования (ДОП). В свою оче-
редь, такое радикальное изменение принципов обработки ЗС стало возможным
благодаря результатам экспериментальных исследований психоакустических
свойств слуха. Наиболее полно эти исследования провели E. Zwicker, R. Feld-
tkeller. Вместе с тем прикладной характер эти результаты получили благодаря
усилиям зарубежных ученых K. Brandenburg, G. Stoll, G. Theile и др. В России
следует выделить работы Ю.А. Ковалгина и А.М. Синильникова.
Однако дальнейшее развитие высококачественных систем компрессии циф-
ровых аудиоданных сдерживается отсутствием условий эффективного исполь-
зования психоакустических свойств слуха. Так. В стандартах MPEG и DOLBY
AC-3 (A/52) эффект маскировки учитывается только для оценки допустимой
степени округления. А в известных предложениях по повышению эффективно-
сти сжатия не учитываются частотные характеристики ДОП и особенности
восприятия слухом сжатого спектра. В результате не представляется возмож-
ным предметно говорить о более эффективных алгоритмах кодирования спек-
тра ЗС.
В связи с этим актуальной является задача выработки обоснованных реко-
мендаций относительно ДОП, перспективных для целей сжатия ЗС и условий
повышения производительности высококачественных систем компрессии циф-
ровых аудиоданных.
Цель и задачи работы. Целью диссертации является повышение эффектив-
ности сжатия цифровой аудиоинформации. Для достижения указанной цели в
диссертационной работе поставлены следующие задачи:
сформулировать обоснованные требования и выработать рекомендации
относительно ДОП, перспективных для эффективной и высококачественной
компрессии цифровых аудиоданных;
исследовать ДСО коэффициентов перспективных ДОП с учетом их час-
тотных свойств и основных психоакустических свойств слуха;
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
5
исследовать эффективность прореживания коэффициентов перспектив-
ных ДОП;
разработать методики и провести экспериментальное исследование эф-
фективности сжатия цифровых аудиоданных с прореживанием спектра.
Методы исследования. При решении поставленных задач использовались
методы спектрального анализа, теории вероятностей и математической стати-
стики, теории цифровой обработки сигналов, результаты экспериментальных ис-
следований психоакустических свойств слуха и статистических свойств ЗС, ком-
пьютерное моделирование.
Научная новизна работы заключается в следующем:
разработан метод оценки распределения допустимой степени округле-
ния коэффициентов гармонических дискретных ортогональных преобразова-
ний, учитывающий их частотные характеристики и свойства слухового анали-
затора человека;
получены аналитические выражения для оценки вероятности маскиров-
ки коэффициентов гармонических дискретных ортогональных преобразований
любым участком кривой маскировки;
разработан алгоритм прореживания коэффициентов гармонических дис-
кретных ортогональных преобразований, учитывающий особенности воспри-
ятия слухом компонент сжатого спектра;
разработан метод оценки частотной области целесообразной для проре-
живания в заданном рабочем диапазоне частот.
Личный вклад. Основные научные положения, теоретические выводы и
рекомендации, а также методики экспериментальной обработки цифровых ау-
диоданных, содержащиеся в диссертационной работе, получены автором само-
стоятельно.
Практическая ценность и реализация результатов работы. Полученные
аналитические выражения и зависимости способствуют повышению произво-
дительности систем сжатия цифровых аудиоданных при сохранении высоких
качественных показателей.
Результаты работы могут быть использованы при разработке новых и усо-
вершенствовании существующих цифровых технологий передачи и обработки
цифровой аудиоинформации. Разработанные методики экспериментальной об-
работки цифровых аудиоданных могут быть использованы для оценки эффек-
тивности новых алгоритмов сжатия.
Основные теоретические и практические результаты, полученные в работе,
использованы ФГУП СОНИИР и внедрены в учебный процесс ГОУВПО
ПГУТИ, что подтверждено соответствующими актами.
Апробация работы. Основные результаты и положения работы обсуждались
на VIV – XVI Российских научных конференциях (Самара, 2007 – 2009), 6 Ме-
ждународной научно-технической конференции «Проблемы техники и техноло-
гий телекоммуникаций» (Уфа, 2005), VII Международной научно-технической
конференции «Проблемы техники и технологий телекоммуникаций» (Самара,
2006), IX Международной научно-технической конференции «Проблемы техни-
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
6
ки и технологий телеком- муникаций» (Казань,
2008), V Международной научно-технической кон-
ференции «Методы и сред- ства управления техно-
логическими процессами» (Саранск, 2009).
Публикации. По теме диссертации опубликова-
но 11 печатных работ, в том числе 2 статьи в научных
изданиях, входящих в пере- чень ВАК, и 9 тезисов и
текстов докладов на Российских и Международных конференциях.
Основные положения, выносимые на защиту:
– метод оценки распределения допустимой степени округления коэффици-
ентов гармонических дискретных ортогональных преобразований, учитываю-
щий их частотные характеристики и свойства слухового анализатора человека;
– аналитические выражения для оценки вероятности маскировки коэффици-
ентов гармонических дискретных ортогональных преобразований любым уча-
стком кривой маскировки;
– метод оценки частотной области целесообразной для прореживания, в за-
данном рабочем диапазоне частот;
– результаты компьютерного моделирования обработки цифровой аудиоин-
формации.
Структура и объем работы. Диссертационная работа состоит из введения,
четырех глав, заключения, списка литературы и приложений. Работа содержит
146 страниц машинописного текста, 64 рисунка, 10 таблиц. Список литературы
включает 168 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы исследования, сформулирова-
ны цели и задачи работы, перечислены основные научные результаты диссер-
тации, положения, выносимые на защиту, определены практическая ценность и
области применения результатов, приведены сведения об апробации работы,
структуре и объеме диссертации.
В первой главе на основе психофизиологических свойств слуха и харак-
терных особенностях работы систем обработки и передачи ЗС формулируются
требования, которым должны удовлетворять ДОП при использовании их в це-
лях высококачественного сжатия цифровой аудиоинформации и проводится
сравнительный анализ наиболее известных ДОП.
Распределение амплитуд колебаний вдоль основной мембраны органа слуха
экспериментально исследовано Бекеши (рис. 1). Оказалось, что тон возбуждает
не одно поперечное волокно, настроенное на данную частоту, а целый участок
мембраны. Тем не менее, в итоге ощущается только сам испытательный тон. Эти
результаты позволяют сделать вывод, что в высококачественных системах сжатия
ДОП должны допускать интерпретацию своих коэффициентов как тональных
компонент спектра, так и полосного шума, интенсивность которого сконцентри-
рована на частоте соответствующего коэффициента. Обе интерпретации отнюдь
не противоречивы, поскольку с точки зрения электроакустики распределение
интенсивности полосного шума безразлично. Она может быть распределена
равномерно или сосредоточена в одной гармонике.
Рис. 1. Поперечные колебания
основной мембраны
X, мм 32 30 28 26 24 22 20
100 200 300 Гц
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
7
Согласно результатам экспериментальных исследований эффекта маскировки
(подавление тонов меньшей интенсивности тоном большей интенсивности) слу-
хового анализатора, колебания поперечных волокон основной мембраны некорре-
лированны. Следовательно, этим свойством должны обладать и коэффициенты
ДОП. Кроме того, кривая порога слышимости при маскировке, иначе кривая мас-
кировки (КМ), при определенных условиях может распространяться почти на весь
слышимый диапазон частот (рис. 2). Тем самым обусловливается необходимость
глобальной декорреляции коэффициентов ДОП.
Эти требования следует дополнить еще одним, учитывающим работу по-
давляющего числа систем обработки и передачи цифровой аудиоинформации в
режиме реального времени – ДОП должно обладать быстрым вычислительным
алгоритмом.
Наибольшую эффективность сжатия цифровых аудиоданных можно ожидать
при использовании преобразования Карунена-Лоэва, коэффициенты которого
полностью декоррелированы. Более того, по критерию среднеквадратичной
ошибки оно является опти- мальным для представле-
ния стационарных процессов, когда разложение Кару-
нена-Лоэва производится по собственным функциям
интегрального уравнения Фредгольма с ядром, рав-
ным корреляционной функ- ции процесса. Однако
применительно к ЗС на ин- тервалах, меньших интер-
вала стационарности, для ка- ждого такого интервала
придется строить свой базис по его корреляционной
функции. Кроме того, разложение Карунена-Лоэва не имеет быстрых вычисли-
тельных алгоритмов.
Преобразование Хаара обладает быстрыми вычислительными алгоритмами.
Однако, как известно, свойством глобальной декорреляции обладают только
небольшое число первых коэффициентов.
Преобразование Уолша-Адамара также имеет быстрые вычислительные ал-
горитмы. Упорядоченное по Адамару, оно обеспечивает глобальную декорреля-
цию, но каждая точка его энергетического спектра представляет собой энерге-
тическое содержание не одной, а группы частостей. В результате восприятие на
слух сжатого и исходного спектров будет резко отличаться. При упорядочива-
нии по Уолшу обеспечивается и глобальная декорреляция, и адекватный ЗС
энергетический спектр. Вместе с тем функции Уолша, положенные в основу
преобразования, представляют собой прямоугольные, причем как периодиче-
ские, так и непериодические волны. Столь резкие изменения частоты и амплитуды
сигнала ощущаются на слух как щелчки.
Вейвлет-преобразование дает хорошее разрешение по частоте и плохое по
времени в низкочастотной области. Обратно в высокочастотной области. Эта
особенность хорошо согласуется с результатами экспериментальных исследо-
ваний спектральной плотности средней мощности для ЗС различных жанров.
Однако, во-первых, точность анализа посредством вейвлет-преобразования оп-
ределяется степенью соответствия форм вейвлета и сигнала. Форму же ЗС на
малых временных интервалах предсказать невозможно. Во-вторых, вейвлет-
Рис. 2. Кривые маскировки
Uкм, дБ
0,02 0,1 0,2 0,5 1 2 5 f,кГц
100
80
60
40
20
0
100 дБ
80
60
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
8
преобразование дает оценку суммарной интенсивности, сосредоточенной в не-
которой полосе частот анализируемого сигнала. А, как известно, слуховой ана-
лизатор сигнал на полосы не разделяет.
Из класса гармонических преобразований наиболее известными являются
преобразования Фурье, Хартли и косинусное преобразование (ДКП). Первые
два преобразования по свойствам абсолютно идентичны. Разница лишь в том,
что второе не требует комплексной арифметики. Поэтому в дальнейшем они
обозначаются как ДПФ-Х.
В целом же все эти преобразования обладают быстрыми вычислительными
алгоритмами и обеспечивают глобальную декорреляцию своих коэффициентов.
На рис. 3 приведены их нормированные АЧХ |Hk(i )|н = |Hk(i )|/ |Hk(i k)|. Вид-
но, что коэффициенты Kx(k) этих преобразований можно интерпретировать как
полосный шум, интенсивность которого сосредоточена на частоте fk. Вместе с
тем в силу слабого затухания амплитуды боковых лепестков и равновероятно-
сти знаков соответствующих спектральных компонент исходного сигнала в
первом приближении Kx(k) можно считать некоррелированными. Однако для
ДКП это справедливо только для четных и нечетных
коэффициентов в отдельности.
Таким образом, перспек- тивными для целей сжа-
тия цифровой аудиоинформа- ции следует признать
гармонические ДОП. При этом в случае интерпретации
коэффициентов ДКП как то- нальных компонент
спектра их целесообразно раз- делять на два потока по
признаку четности.
Во второй главе с
учетом частотных
свойств ДОП и основ-
ных психоакустических
свойств слуха разрабаты-
вается методика оценки
распределения ДСО ко-
эффициентов ДОП в пределах спектральной выборки.
Естественным критерием ограничения разрядности q1k модуля Kx(k) являет-
ся коэффициент минимально ощущаемой на слух прямоугольной амплитудной
модуляции полосного шума mk, концентрируемого на частоте fk. В свою оче-
редь, mk является функцией двух параметров – ширины полосы шума Fш,k и
частоты его модуляции fмод = 1/Тп, где Тп – длительность интервала преобразо-
вания. Известное условие оценки Тп получено при участии автора данной рабо-
ты и позволяет оценить оптимальное значение соответствующего параметра mk:
fмод = 130 Гц для музыкальных сигналов и 100 Гц для речевых сигналов.
Второй параметр mk обычно принимается равным рабочей полосе ЗС. Одна-
ко (рис. 3) степень влияния спектральных компонент на величину Kx(k) различна.
Следовательно, должно существовать пороговое значение |Hk(i )|н,п (рис. 4), раз-
деляющее значимые в этом смысле компоненты спектра исходного сигнала sm
20 21 22
0.5
0.5
1
y1 i( )
i
20 21 22 23 24
0.5
0.5
1
y i( )
i
|Hk(i )|н
k k+1
1
0.5
0
а) ДПФ-Х б) ДКП
Рис. 3. АЧХ коэффициентов гармонических ДОП
|Hk(i )|н
N/2 k k+1 k+2 k+3
1
0.5
0
N/2
7 8 9 10 11
0.5
0.5
1
y1 i( )
i
Рис. 4. Составляющие Fш,k
||Hk(i )|н |
Fш,1 Fш,2
||Hk(i )|н,п|
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
9
(sm Fш,j) от незначимых sn (sn Fш,j), где Fш,j – часть полосного шума, обу-
словленная j-м лепестком АЧХ. Тогда и поскольку фрагментарный характер шу-
ма для mk значения не имеет
ш,k j
j
F F .
Учитывая, что занижение q1k ведет к изменению взаимодействия компонент
нового (после обратного преобразования) спектра, |Hk(i )|н,п целесообразно искать
на основе эффекта маскировки.
Пусть для Kx(k) известна вероятность маскировки Gk. В плоскости слыши-
мости ей можно сопоставить область безусловной маскировки, ограниченной
сверху средним порогом слышимости при маскировке Uпс,k. Тогда вероятность
Gk можно переопределить как P{Uk<Uпс,k} = dec(Uпс,k / 20)/dec(Dk /20), где Uk –
уровень Kx(k) в плоскости слышимости, ограниченной сверху динамическим
диапазоном изменения сигнала, а dec(х) = 10х
. Отсюда dec(Uпс,k /20) =
P{Uk<Uпс,k} dec(Dk /20). В наихудшем случае sn обусловливает приращение uk =
dec(Uk /20), не превышающее по абсолютной величине ||Hk(i n)|н| dec(Dn /20).
При этом sn будет незначащей для Kx(k), если ||Hk(i n)|н| dec(Dn /20) < dec(Uпс,k
/20). Таким образом, условие оценки ширины полос Fш,j, составляющих Fш,k,
запишется в виде:
||Hk(i m)|н| Gk dec(Dk /20) / dec(Dm /20) = ||Hk(i )|н,п|.
С целью оценки Gk получена более адекватная по форме и вместе с тем дос-
таточно точная (коэффициент детерминации R2
1) аппроксимация КМ:
1,6(л) (2)
км, , , км, , , ,
1,6(1) (3)
км, , , км, 1 2 , 3 ,
-54 + + , -3 +(0,05 +0,76) + ,
-18 + + , - lg[1+ exp(- )]+ + ,
i k i i m i i k i k i i m i
i k i i m i i k i i i m i
U fo U a U fo fo U a
U fo U a U fo U U a
где верхний индекс означает участок КМ Kx(i) уровнем Ui, относительная час-
тота fok,i = (fk –fi)/ Fi и Fi – ширина частотной группы (области волосковых кле-
ток, возбуждаемых минимально слышимым Kx(i)), am,i – коэффициент маскировки
(определяет уровень пика КМ относительно уровня маскирующего тона или шу-
ма), а коэффициенты 1 – 3 определяются эмпирически. Кроме того, определя-
ется безусловная вероятность ( )
км ,{ ( , )}x
k k i iP U U fo U маскировки Kx(k) участком х КМi,
для чего соответствующая область ее значений на частоте fk приводится к еди-
ничному квадрату. В результате при маскировке левой ветвью и первыми двумя
участками правой ветви эта вероятность равна 0,5, а третьим участком
2 3 ,гр1(3)
KM ,
3 ,гр2 ,гр1
ln[α exp(α )] 1
( , )
β β α
i
k k i i
i i
U
P U U fo U
U U
(3)
(2)
(1)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
10
3 ,гр2 ,гр1 2 3 ,гр2 ,гр1
3 ,гр2 3 ,гр1 2
,гр22 2
1 1 32 2
1
22
3 ,гр1 ,гр2 ,гр1 2
1 3 ,гр2
-0.5 α 2 ln(α ) α
-1 exp(α ) -1 exp(α ) ln(α )
, ;
αα α
-1 α
α
exp(α )
ln
i i i i
n n
i i
in n
n n
n n
i i i
n i
U U U U
U n U n
U
n n
U U U
n U n
2
3 ,гр12 2
,гр12
1 32 2
,гр21
32 2
,гр12
1 33 ,гр2
-1 exp(α )(α ) ln(α )
, ;
2 αα ln(α )
, ;
α-1 α ln(α )
, ;
αexp(α )
0 в противном случае,
n
i
in
n
in n
i
n i
U n
U
n
U
U
n U n
где = -ln{1+ 2 fok,i exp(- 3 Ui,гр2)} + ln{1+ 2 fok,i exp(- 3 Ui,гр1)}, а Ui,гр1 и Ui,гр2 –
границы участка х КМi. Наконец, для упрощения вычислений формулируется
достаточное условие отсутствия маскировки: Kx(k) не маскируется, если его
уровень не меньше уровня КМ любого другого Kx(i) на частоте fk. В соответст-
вии с этими результатами и в предположении независимости Kx(k) получаем
выражение для оценки искомой вероятности:
2
1
( )
,1 { ( )} 1
n
x
k k k k i
xi n
G P U A f g ,
где P{Uk A(fk)} – вероятность отсутствия маскировки Kx(k) абсолютным порогом
слышимости A(fk); n1 и n2 – соответственно, наименьший и наибольший номера
Kx(i), удовлетворяющие условию (3)
км ,( , ) ( );k i i kU fo D A f ( )
,
x
k ig – условная вероятность
маскировки Kx(k) участком х КМi, определяемая в соответствии с известным вы-
ражением.
Помимо модуля, Kx(k) характеризуются фазовым сдвигом. Ограничение
разрядности модуля фазы k (k > 0) на величину k приводит к изменению час-
тоты fk соответствующей компоненты ˆks нового спектра на величину f,k. Причем
эти изменения происходят на стыках спектральных выборок. Такой характер
изменения можно интерпретировать как частотную модуляцию Kx(k) с частотой
модуляции fмод = 1/Tп и девиацией частоты f,k. Это позволяет сопоставить отно-
сительное изменение фазы k / k с индексом частотной модуляции f,k /fмод. Но
тогда естественным критерием ограничения разрядности модуля фазы является
минимально ощущаемая на слух девиация частоты f. В результате анализа из-
вестных экспериментальных данных автором с высокой точностью (коэффици-
ент детерминации R2
= 0,995) получено соответствующее аналитическое выра-
жение:
/ 24
мод мод мод( , ) 1( ) 10 2( )/ lg( )
e
k k kf f f K f f K f f ,
где коэффициенты К1(fмод) и К2(fмод) подбираются эмпирически.
Пусть теперь | k| некоторого немаскируемого Kx(k) текущей спектральной
выборки представлен q ,k значащими двоичными разрядами. В результате округ-
ления q2 ,k младших разрядов обнуляются, вследствие чего достаточно передать
только q1 ,k = q ,k – q2 ,k старших разрядов. При этом по правилам округления | k|
увеличится или уменьшится не более чем на величину = bin(q ,k – q1 ,k) /2, где
(5)
(4)
(6)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
11
bin(x) = 2x
. Согласно принятой интерпретации округления отношение /bin(q ,k)
= bin(-q1 ,k – 1) определяет индекс частотной модуляции. Тогда искажения, вы-
званные округлением | k|, не будут
ощущаться на слух, если это отношение
не превышает f. Отсюда
q1 ,k = log2[fмод / f(fk, fмод)] – 1 ,
где х – наименьшее целое, не мень-
шее х.
Заметим, что округление Kx(0) приво-
дит к дополнительному фазовому сдвигу
компонент нового спектра на стыках вы-
борок на величину, по модулю не более
0/2. Однако если это не больше наи-
меньшей допустимой степени округления
модуля фазы, подобные искажения на
слух ощущаться не будут. Следовательно,
1
0 ,1 max 1
N
k k r
q q , где r – номер первого
коэффициента рабочей полосы. Наконец, поскольку ДКП чувствительно к фа-
зовым сдвигам, для всех k >0 q1k = log2(1/mk) – 1 , если mk < f (fk, fмод) Тп и q1k =
q1 ,k в противном случае.
Метод оценки распределения ДСО для ЗС любого типа и при любых Fд и D в
общем виде приведен на рис. 5. Как показывают расчеты, зависимость распреде-
ления ДСО от Fд и D слабая. Кроме того, в среднем q1k для ДКП по сравнению с
ДПФ-Х практически в 2 раза меньше.
В третьей главе разрабатывается метод прореживания спектра и формули-
руются условия его максимальной эффективности.
Поскольку 2 f является градацией раздражения и определяет ширину еще
различимой на слух ступени частоты, Kx(k) следует рассматривать как тональную
компоненту ЗС, если fk < f для ДПФ-Х и fk < 2 f для ДКП, где f – разрешаю-
щая способность ДОП по частоте. В противном случае интерпретация f как
градации раздражения теряет смысл, что характерно для шума. На том же осно-
вании можно сформулировать условие разделения коэффициентов ДКП на два
потока: fk < 3 f.
Как известно, для тональных компонент характерно дополнительное сме-
щение am,i на величину см = 10…12 дБ. Кроме того, вследствие неравномерности
округления фазы на последовательности выборок, в новом спектре на соответст-
вующих частотах возможны биения. Но только при совокупности следующих
обстоятельств: 1) Kx(k) отображает тональную компоненту, 2) k = 2m и/или k = 3n,
3) Um и/или Un превышают Uкр (соответствует foкр пересечения всех участков пра-
вой ветви КМ), 4) Kx(m) и/или Kx(n) не маскируются. При этом Kx(k) маскируется,
если Uk < (Uкм – км) дБ, где км = 8…10 дБ.
На этих основаниях разрабатывается метод прореживания коэффициентов
ДОП, обобщенная алгоритмическая схема которого представлена рис. 6, где
Начало
Вычисление
параметров КМ
1
3
5 Вычисление
q1k и q1 ,k
4
Вычисление Fш.k
Вычисление
вероятности Gk
, 1k r N
2
Конец
Рис. 5. Метод
оценки q1k
Вычисление
q10
6
(7)
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
12
ЛМК – локально маскирующий коэф- фициент (определяет
очередной участок порога слышимо- сти). С целью оценки его
эффективности рассматриваются сле- дующие ситуации мас-
кировки ˆks .
1. k = 2m. Так как событие отсутст- вия маскировки (ОМk) ˆks
в случае биений, обусловленных ˆms (событие Бm), и при их
отсутствии (событие Бm ) независимы и несовместны, вероят-
ность Pk отсутствия маскировки Kx(k)
Pk = P{Uk A(fk)} [P(OMk) P(Бm) + P(OMk) P(Бm )],
где
2
( )
,OM [1 ]
n
x
k k i
xi m
P g , но в первом слагаемом Um [Uкр, Dm],
а во втором Um Uкр.
2. k = 3n. Здесь Pk определяется аналогично (9), но ниж-
няя граница области возможно маски- рующих коэффициентов
ограничена n.
3. k = 2m и k = 3n. В этом случае
Pk = P{Uk A(fk)} [P(OMk) P(Бm) + P(OMk) P(Бm ) P(Бn) +
P(OMk) P(Бm ) P(Бn )],
где P(OMk) первого слагаемого вычисляется аналогично первой ситуации, вто-
рого – второй ситуации, а третьего – при (Um, Un) Uкр.
4. k 2m и k 3n. Здесь Pk = 1 – Gk.
Относительно P(Бj) достаточно заметить, что с вероятностью 1–P(Бj) ком-
понента ˆjs не порождает биений, если она либо маскируется, либо по уровню не
превышает Uкр. Отсюда сразу следует: P(Бj) = Pk – uкр/dj.
Теперь относительно числа немаскируемых коэффициентов Nнм спектраль-
ной выборки установим пороговую величину Nп. Потребуем, чтобы средний
интервал времени между событиями Nнм Nп был не меньше времени непре-
рывного звучания Тнз. Тогда P{Nнм < Nп} > 1– Тп /Тнз. Усредняя эту вероятность
по длине выборки, получаем условие оценки Nнм:
нм
нм
нм
0
1
N r
N r lN r l
l
l
C P P > 1– Тп /Тнз,
где y
xC – число сочетаний из у по х, а Тнз = 20 мин для музыкальных сигналов
(симфоническое произведение) и Тнз = 9 с для речевых (средний интервал меж-
ду естественными паузами).
Для сравнения возможностей ДПФ-Х и ДКП в сжатии ЗС используется от-
носительный коэффициент сжатия
(ДПФ-Х) (ДКП)(ДПФ-Х) (ДКП)
д нм д д нм д1 3 1 1k kq F N F q F N F ,
где 1kq – усредненное на выборке распределение q1k. Кроме того, учтены знако-
вые разряды, а для ДПФ-Х и минимально возможное количество дополнитель-
ных бит, необходимых для кодирования фазы. Как показывают расчеты > 1
для любых Fд. Следовательно, в высококачественных системах сжатия цифро-
вых аудиоданных целесообразным является ДКП.
Применительно к задаче оценке условий повышения эффективности сжатия
(11)
(10)
(9)
(8)
Начало
3
Uk = 0
4
Определение
участка КМi
Интерпретация
Kx(k)
, 1k r N
2
Конец
Рис. 6. Метод
прореживания
1
0
N
k k
U1
Kx(k)=ЛМК5 Да
Нет
1
0
N
k k
Y7
6
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
13
ЗС с прореживанием спектра выражение (12) примет вид:
ст д,ст нм ст д,ст д нм д1 , , 1 , ,k kq D F N D F q D F N D F ,
где Dст и Fд,ст – стандартные для данной системы D и Fд, соответственно.
Степень значимости D и Fд схематично показана на рис. 7. При этом, как по-
казывают расчеты, за счет изменения их значений можно повысить эффектив-
ность сжатия ЗС с прореживанием спектра в 1,5 раза, причем без ухудшения ка-
чества субъективного восприятия сжатого звука.
Наконец определяется область рабочего диапа-
зона частот Fр, где про- реживание имеет смысл.
Суть соответствующего метода заключается в
последовательном нии исходной выборки в
сторону верхних частот до выполнения условия
( ) ( 1) ( ) ( 1)
нм нм/ /n n n n
N N N N , где верхний индекс
ет номер итерации. Начиная с этого момента, скорость уменьшения области
вышает скорость уменьшения Nнм. Следовательно, в области остались наиболее
часто маскируемые коэффициенты. Результаты расчетов показывают, что
реживание целесообразно в 90 % Fр.
В четвертой главе с помощью компьютерного моделирования и
субъективно-статистического анализа проводится оценка степени достоверно-
сти полученного распределения q1k и предположения о биениях, а также про-
верка целесообразности применения прореживания спектра. Критерием досто-
верности является качество ЗС на выходе психоакустической модели, а крите-
рием целесообразности – эффективность и качество ЗС на выходе алгоритма
кодирования. В качестве тестовых фрагментов использовалась монофоническая
дикторская речь и стереофоническая музыкальная фраза в полосе частот до 10 и
20 кГц, соответственно. Оба фрагмента записаны при Fд = 44,1 кГц с разреше-
нием 16 бит/отсчет.
Приводится описание используемых в моделировании средств и условий
проведения субъективной оценки качества сжатого звука. Во всех моделях
спектр сигналов представлен коэффициентами ДКП.
На рис. 8 показаны теоретическое q1т(f ) и модельное q1м(f ) распределения
q1k для музыкального тестового фрагмента. Суть методики моделирования со-
ответствующих искажений заключается в уменьшении q1k в одной из ступеней
q1м(f ) и экспертной оценке качества звучания. Результаты экспериментов, огра-
ниченные уменьше- нием на 1 бит только второй и только третьей ступени, при-
ведены на рис. 9. Таким образом, зависимости q1т(f ) и q1м(f ) хорошо согласу-
ются по форме, причем q1м(f ) q1т(f ). Тем самым подтверждается существова-
ние в ДКП фазовых искажений, а q1т(f) можно считать достаточной для любых
типов и жанров ЗС.
(12)
100
50
0
0 10 20 Fгр, кГц
Рис. 3.16. Степень значимости параметров цифровых аудиоданных
в повышении эффективности сжатия
Степень значимости, %
Fд
D
D
Fд
0 10 20 Fр, кГц
Рис. 7. Значение D и Fд в повышении
Значимость, %
100
50
0
Fд
Fд
D
D
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
14
0 1 2 3
1.5
1
0.5Kach1v
Kach2v
vРис. 9. Экспертиза распределения q1k
Номер ступени
q1м(f )
музыка
речь
0
-0,5
-1
0 2 3
Средний балл
качества
0 5 10
3
1 10
4
1.5 10
4
2
4
6
q1
q7 0.5 0.5
f1 f7
q1k, бит
4
2
0
q1т
q1м
0 5 10 15 f, кГц
Рис. 8. Распределение q1k
2
1.5
1
0.5Kach3v
Kach4v
dv
Рис. 10. Экспертиза возможных биений
0
-0,5
-1
-1,5
8 6 4 2 0 км, дБ
Средний балл
качества
музыка
речь
Для проверки возмож- ности биений
предлагается, изменяя км, всякий раз проводить
экспертную оценку качест- ва звука. Результаты мо-
делирования (рис. 10) по- зволяют со-
гласиться с данной те-
зой.
Для апробации про-
реживания предлагает- ся
модификация алго-
ритма с поблочно пла- вающей запя-
той (Dolby AC-3,
MPEG-2 AAC). Коэф- фи-
циенты спектраль- ной выбор-
ки объединяются в бло- ки по при-
знаку одинакового q1k. Блоки, где
прореживание не имеет смысла, коди-
руются как обычно с по-
мощью порядка че-
ство нулевых старших разрядов для наибольшего по модулю коэффициента
блока) и мантисс (ограниченное число старших разрядов коэффициентов бло-
ка). В остальных блоках только для немаскируемых коэффициентов помимо
порядков и мантисс кодируются расстояния между ними. При этом теоретиче-
ская скорость цифрового потока (Vцп) для музыкального и речевого тестового
фрагмента составляет 107,6 и 101 кбит/с, соответственно.
В результате моделирования получена Vцп для музыкального фрагмента
105,5 кбит/с при среднем балле качества -0,19, а для речевого – 99,5 кбит/с при
среднем балле качества -0,23. Таким образом, при достаточно высоком качестве
субъективного восприятия звука за счет прореживания Vцп относительно наи-
более перспективного на сегодняшний день алгоритма кодирования MPEG-2
AAC (128 кбит/с при дополнительном статистическом уплотнении и среднем
балле качества -0,17) снизилась в 1,2 раза для музыкального фрагмента и в 1,3
для речевого фрагмента.
Хорошее согласование теоретических и экспериментальных результатов по-
зволяет сделать прогноз эффективности применения прореживания при нестан-
дартных Fд и D. Как показывают расчеты, в этих условиях можно обеспечить
Vцп не более 96,7 кбит/с ( = 1,3) для музыкальных сигналов, 75,7 кбит/с ( =
1,7) для широкополосных речевых сигналов и 31,5 кбит/с ( = 2) для телефо-
нии. И это без дополнительного статистического уплотнения и при высоком ка-
честве субъективного восприятия звука.
В заключении приведены основные результаты работы:
1. На основе психофизиологических свойств слуха сформулированы требо-
вания, позволяющие обоснованно установить ДОП, перспективные для систем
высококачественного сжатия цифровой аудиоинформации.
2. Разработан метод оценки распределения ДСО коэффициентов гармониче-
ских ДОП в пределах спектральной выборки, позволяющий рационально рас-
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
15
пределить биты при кодировании сжатого спектра с учетом достаточно высоко-
го качества субъективного восприятия сжатого звука.
3. Получены аналитические выражения для оценки вероятности маскировки
коэффициентов гармонических ДОП при различной их интерпретации и ис-
пользовании всех ветвей кривой маскировки.
4. Разработан алгоритм прореживания спектра, позволяющий за счет изме-
нения D и Fд дополнительно повысить эффективность компрессии цифровых
аудиоданных в 1,5 раза при достаточно высоком качестве субъективного вос-
приятия сжатого звука.
5. Разработан метод оценки эффективной для прореживания области рабо-
чего диапазона частот, расширяющий перспективу развития новых более эф-
фективных методов кодирования сжатых цифровых аудиоданных.
6. Разработаны методики экспериментальной обработки цифровой аудиоин-
формации с прореживанием спектра средствами компьютерного моделирования,
позволяющие оценить эффективность новых алгоритмов сжатия ЗС.
7. Результаты проведенных исследований могут быть полезны при разработке
новых рациональных с точки зрения реализационной сложности и высокоэффек-
тивных кодеков для высококачественных систем цифровой обработки и передачи
аудиоданных. Применение их в лабораторных условиях относительно наилучшего
алгоритма кодирования MPEG-2 AAC практически при тех же качественных по-
казателях, стандартных параметрах цифровых аудиоданных позволило снизить
скорость цифрового потока в 1,2 раза.
Приложение содержит протокол экспертной комиссии субъективных оце-
нок качества сжатых ЗС и акты использования результатов диссертации.
Публикации по теме диссертации
1. Стефанов, М. А. Эффективные дискретные ортогональные преобразова-
ния в компрессии цифровых аудиоданных / М. А. Стефанов. // «Инфокоммуни-
кационные технологии». – 2009. – т. 7. – № 4. – С. 17-22.
2. Акчурин, Э.А. Энергетический параметр высококачественной эффектив-
ной компрессии цифровых аудиоданных / Э.А. Акчурин, А.М. Стефанов, М. А.
Стефанов. // «Инфокоммуникационные технологии». – 2009. – т. 7. – № 2. –
С. 82-87.
3. Стефанова, И.А. Оптимизация временного параметра эффективности
сжатия звуковых сигналов / И.А. Стефанова, М.А. Стефанов. // 6 Междунар.
науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб.
докладов. – Уфа, 2005. – С. 38-40.
4. Стефанов, М.А. Оценка допустимой степени округления фазы спектраль-
ных компонент звуковых сигналов / М.А. Стефанов. // VII Междунар. науч.-
техн. конф. «Проблемы техники и технологий телекоммуникаций»: материалы
конференции. – Самара, 2006. – С. 171-173.
5. Стефанов, М.А. Дискретные ортогональные преобразования как инстру-
мент сжатия звуковых сигналов / М.А. Стефанов, Э.А. Акчурин. / XIV Россий-
ская науч. конф.: тез. докладов. – Самара, 2007. – С. 147-148.
6. Стефанов, М.А. Особенности округления спектральных компонент звуко-
вых сигналов / М.А. Стефанов. // XV Российская науч. конф.: тез. докладов. –
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
16
Самара, 2008. – С. 185.
7. Стефанов, М.А. Оценка ширины полосы концентрации энергии коэффи-
циентами ДОП / М.А. Стефанов. // IX Междунар. науч.-техн. конф. «Проблемы
техники и технологий телекоммуникаций»: материалы конференции. – Казань,
2008. – С. 140-141.
8. Стефанов, М.А. Реализация округления коэффициентов дискретных орто-
гональных преобразований / М.А. Стефанов, А.М. Стефанов, И.А. Стефанова. //
XV Российская науч. конф.: тез. докладов. – Самара, 2008. – С. 188.
9. Стефанов, М.А. К выбору способа нормировки коэффициентов ДОП при
цифровой обработке звукового сигнала / М.А. Стефанов. // XVI Российская на-
уч. конф.: тез. докладов. – Самара, 2009. – ч.2 – С. 12.
10. Стефанов, М.А. Особенности цифровой обработки звуковых сигналов в
системе MATLAB / М.А. Стефанов. // XVI Российская науч. конф.: тез. докла-
дов. – Самара, 2009. – ч.2 – С. 13.
11. Стефанов, М.А. Оценка вероятности маскировки спектральных компо-
нент звуковых сигналов / М.А. Стефанов. // Электроника и информационные
технологии. – 2009 Специальный выпуск (V Международная конференция
"Методы и средства управления технологическими процессами" 19-21 ноября
2009. г. Саранск) – 2009. – http://fetmag.mrsu.ru/2009-2/pdf/Stefanov.pdf. –
0420900067/0015.
Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

More Related Content

Viewers also liked

изучение зонной пластинки на интерактивном занятии
изучение зонной пластинки на интерактивном занятииизучение зонной пластинки на интерактивном занятии
изучение зонной пластинки на интерактивном занятииИван Иванов
 
экологическая безопасность и культура – требование современности
экологическая безопасность и культура – требование современностиэкологическая безопасность и культура – требование современности
экологическая безопасность и культура – требование современностиИван Иванов
 
лекции по электродинамике. часть 1. электромагнитные явления в вакууме
лекции по электродинамике. часть 1. электромагнитные явления в вакуумелекции по электродинамике. часть 1. электромагнитные явления в вакууме
лекции по электродинамике. часть 1. электромагнитные явления в вакуумеИван Иванов
 
учебно методическое пособие по дисциплине прикладная голография
учебно методическое пособие по дисциплине прикладная голография учебно методическое пособие по дисциплине прикладная голография
учебно методическое пособие по дисциплине прикладная голография Иван Иванов
 
история и методология биологии
история и методология биологииистория и методология биологии
история и методология биологииИван Иванов
 
физика методические указания и задания по контрольным работам для студентов з...
физика методические указания и задания по контрольным работам для студентов з...физика методические указания и задания по контрольным работам для студентов з...
физика методические указания и задания по контрольным работам для студентов з...Иван Иванов
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...Иван Иванов
 
методическая разработка к выполнению лабораторных работ по теме колебания для...
методическая разработка к выполнению лабораторных работ по теме колебания для...методическая разработка к выполнению лабораторных работ по теме колебания для...
методическая разработка к выполнению лабораторных работ по теме колебания для...Иван Иванов
 
теория вероятностей учебное пособие
теория вероятностей учебное пособие теория вероятностей учебное пособие
теория вероятностей учебное пособие Иван Иванов
 

Viewers also liked (11)

изучение зонной пластинки на интерактивном занятии
изучение зонной пластинки на интерактивном занятииизучение зонной пластинки на интерактивном занятии
изучение зонной пластинки на интерактивном занятии
 
экологическая безопасность и культура – требование современности
экологическая безопасность и культура – требование современностиэкологическая безопасность и культура – требование современности
экологическая безопасность и культура – требование современности
 
курс общей физики
курс общей физикикурс общей физики
курс общей физики
 
лекции по электродинамике. часть 1. электромагнитные явления в вакууме
лекции по электродинамике. часть 1. электромагнитные явления в вакуумелекции по электродинамике. часть 1. электромагнитные явления в вакууме
лекции по электродинамике. часть 1. электромагнитные явления в вакууме
 
учебно методическое пособие по дисциплине прикладная голография
учебно методическое пособие по дисциплине прикладная голография учебно методическое пособие по дисциплине прикладная голография
учебно методическое пособие по дисциплине прикладная голография
 
780190
780190780190
780190
 
история и методология биологии
история и методология биологииистория и методология биологии
история и методология биологии
 
физика методические указания и задания по контрольным работам для студентов з...
физика методические указания и задания по контрольным работам для студентов з...физика методические указания и задания по контрольным работам для студентов з...
физика методические указания и задания по контрольным работам для студентов з...
 
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...теория вероятностей и математическая статистика. часть 2. регрессионный анали...
теория вероятностей и математическая статистика. часть 2. регрессионный анали...
 
методическая разработка к выполнению лабораторных работ по теме колебания для...
методическая разработка к выполнению лабораторных работ по теме колебания для...методическая разработка к выполнению лабораторных работ по теме колебания для...
методическая разработка к выполнению лабораторных работ по теме колебания для...
 
теория вероятностей учебное пособие
теория вероятностей учебное пособие теория вероятностей учебное пособие
теория вероятностей учебное пособие
 

Similar to повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слухового анализатора человека автореферат диссертации на сои

Кодирующие электронно-лучевые трубки и их применение
Кодирующие электронно-лучевые трубки и их применениеКодирующие электронно-лучевые трубки и их применение
Кодирующие электронно-лучевые трубки и их применениеИван Иванов
 
презентация писэх лекции
презентация писэх лекциипрезентация писэх лекции
презентация писэх лекцииstudent_kai
 
2017 ВКФ Костомаха И.А.
2017 ВКФ Костомаха И.А.2017 ВКФ Костомаха И.А.
2017 ВКФ Костомаха И.А.RF-Lab
 
методическая разработка к лабораторной работе №1 «исследование процесса форми...
методическая разработка к лабораторной работе №1 «исследование процесса форми...методическая разработка к лабораторной работе №1 «исследование процесса форми...
методическая разработка к лабораторной работе №1 «исследование процесса форми...Иван Иванов
 
Phasellus m.u. рубидиевый стандарт частоты porta
Phasellus m.u. рубидиевый стандарт частоты portaPhasellus m.u. рубидиевый стандарт частоты porta
Phasellus m.u. рубидиевый стандарт частоты portaAlexander Ivlev
 
Cтраницы нашей истории
Cтраницы нашей историиCтраницы нашей истории
Cтраницы нашей историиAnamezon
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerИван Иванов
 
методическая разработка к лабораторной работе №2 «исследование акустических х...
методическая разработка к лабораторной работе №2 «исследование акустических х...методическая разработка к лабораторной работе №2 «исследование акустических х...
методическая разработка к лабораторной работе №2 «исследование акустических х...Иван Иванов
 
Автореферат кандидатской диссертации
Автореферат кандидатской диссертацииАвтореферат кандидатской диссертации
Автореферат кандидатской диссертацииАндрей Гайнулин
 
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...ivanov1566353422
 
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...ivanov15548
 
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...ITMO University
 
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...Иван Иванов
 
Газоанализатор ООО НПП Импульс
Газоанализатор ООО НПП ИмпульсГазоанализатор ООО НПП Импульс
Газоанализатор ООО НПП Импульсkulibin
 
щелкалин. развитие модели арпсс
щелкалин. развитие модели арпссщелкалин. развитие модели арпсс
щелкалин. развитие модели арпссVeeRoute
 

Similar to повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слухового анализатора человека автореферат диссертации на сои (20)

Кодирующие электронно-лучевые трубки и их применение
Кодирующие электронно-лучевые трубки и их применениеКодирующие электронно-лучевые трубки и их применение
Кодирующие электронно-лучевые трубки и их применение
 
презентация писэх лекции
презентация писэх лекциипрезентация писэх лекции
презентация писэх лекции
 
2017 ВКФ Костомаха И.А.
2017 ВКФ Костомаха И.А.2017 ВКФ Костомаха И.А.
2017 ВКФ Костомаха И.А.
 
лаб работа4
лаб работа4лаб работа4
лаб работа4
 
лаб работа4
лаб работа4лаб работа4
лаб работа4
 
лаб работа4
лаб работа4лаб работа4
лаб работа4
 
методическая разработка к лабораторной работе №1 «исследование процесса форми...
методическая разработка к лабораторной работе №1 «исследование процесса форми...методическая разработка к лабораторной работе №1 «исследование процесса форми...
методическая разработка к лабораторной работе №1 «исследование процесса форми...
 
Phasellus m.u. рубидиевый стандарт частоты porta
Phasellus m.u. рубидиевый стандарт частоты portaPhasellus m.u. рубидиевый стандарт частоты porta
Phasellus m.u. рубидиевый стандарт частоты porta
 
Cтраницы нашей истории
Cтраницы нашей историиCтраницы нашей истории
Cтраницы нашей истории
 
лекция 33
лекция 33лекция 33
лекция 33
 
Презентация_final2
Презентация_final2Презентация_final2
Презентация_final2
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film manager
 
методическая разработка к лабораторной работе №2 «исследование акустических х...
методическая разработка к лабораторной работе №2 «исследование акустических х...методическая разработка к лабораторной работе №2 «исследование акустических х...
методическая разработка к лабораторной работе №2 «исследование акустических х...
 
Автореферат кандидатской диссертации
Автореферат кандидатской диссертацииАвтореферат кандидатской диссертации
Автореферат кандидатской диссертации
 
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
 
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
723.электромагнитная совместимость радиотехнических и телекоммуникационных си...
 
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...
УДВОЕНИЕ И СМЕШЕНИЕ ЧАСТОТ ИЗЛУЧЕНИЯ ЛАЗЕРОВ НА МОНООКСИДЕ УГЛЕРОДА В НЕЛИНЕЙ...
 
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...
бифуркации, катастрофы, синергетика, фракталы и нейронные сети в физических, ...
 
Газоанализатор ООО НПП Импульс
Газоанализатор ООО НПП ИмпульсГазоанализатор ООО НПП Импульс
Газоанализатор ООО НПП Импульс
 
щелкалин. развитие модели арпсс
щелкалин. развитие модели арпссщелкалин. развитие модели арпсс
щелкалин. развитие модели арпсс
 

More from Иван Иванов

Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...
Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...
Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...Иван Иванов
 
Новые эффективные материалы и изделия из древесного сырья за рубежом.
Новые эффективные материалы и изделия из древесного сырья за рубежом.Новые эффективные материалы и изделия из древесного сырья за рубежом.
Новые эффективные материалы и изделия из древесного сырья за рубежом.Иван Иванов
 
Психология семейно-брачных отношений
Психология семейно-брачных отношенийПсихология семейно-брачных отношений
Психология семейно-брачных отношенийИван Иванов
 
Poialkova v.m. -_lifter-akademiia_(2007)
Poialkova v.m. -_lifter-akademiia_(2007)Poialkova v.m. -_lifter-akademiia_(2007)
Poialkova v.m. -_lifter-akademiia_(2007)Иван Иванов
 
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБ
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБМЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБ
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБИван Иванов
 
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...Иван Иванов
 
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связи
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связиМикропроцессоры и микроЭВМ в системах технического обслуживания средств связи
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связиИван Иванов
 
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатации
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатацииЗаковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатации
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатацииИван Иванов
 
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...Иван Иванов
 
Ясенев Н.Д. Аппараты управления автоматизированным электроприводом
Ясенев Н.Д. Аппараты управления автоматизированным электроприводомЯсенев Н.Д. Аппараты управления автоматизированным электроприводом
Ясенев Н.Д. Аппараты управления автоматизированным электроприводомИван Иванов
 
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...Иван Иванов
 
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИ
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИ
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИИван Иванов
 

More from Иван Иванов (20)

Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...
Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...
Сытник В. С. Основы расчета и анализа точности геодезических измерений в стро...
 
Новые эффективные материалы и изделия из древесного сырья за рубежом.
Новые эффективные материалы и изделия из древесного сырья за рубежом.Новые эффективные материалы и изделия из древесного сырья за рубежом.
Новые эффективные материалы и изделия из древесного сырья за рубежом.
 
Психология семейно-брачных отношений
Психология семейно-брачных отношенийПсихология семейно-брачных отношений
Психология семейно-брачных отношений
 
Poialkova v.m. -_lifter-akademiia_(2007)
Poialkova v.m. -_lifter-akademiia_(2007)Poialkova v.m. -_lifter-akademiia_(2007)
Poialkova v.m. -_lifter-akademiia_(2007)
 
US2003165637A1
US2003165637A1US2003165637A1
US2003165637A1
 
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБ
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБМЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБ
МЕТОДЫ И СРЕДСТВА ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АКУСТИЧЕСКОГО КОНТРОЛЯ ТРУБ
 
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...
ЗЕРКАЛЬНО-ТЕНЕВОЙ МЕТОД КОНТРОЛЯ ЦИЛИНДРИЧЕСКИХ ИЗДЕЛИЙ С ИСПОЛЬЗОВАНИЕМ ЭЛЕК...
 
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связи
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связиМикропроцессоры и микроЭВМ в системах технического обслуживания средств связи
Микропроцессоры и микроЭВМ в системах технического обслуживания средств связи
 
1
11
1
 
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатации
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатацииЗаковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатации
Заковряшин А. И. Конструирование РЭА с учетом особенностей эксплуатации
 
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...
Юньков М.Г. и др. Унифицированные системы тиристорного электропривода постоян...
 
Ясенев Н.Д. Аппараты управления автоматизированным электроприводом
Ясенев Н.Д. Аппараты управления автоматизированным электроприводомЯсенев Н.Д. Аппараты управления автоматизированным электроприводом
Ясенев Н.Д. Аппараты управления автоматизированным электроприводом
 
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...
Танский Е.А., Дроздов В.Н., Новиков В.Г. и др. Система стабилизации скорости ...
 
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИ
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИ
ИМПУЛЬСНЫЙ РЕГУЛИРУЕМЫЙ ЭЛЕКТРОПРИВОД С ФАЗНЫМИ ЭЛЕКТРОДВИГАТЕЛЯМИ
 
Sdewsdweddes
SdewsdweddesSdewsdweddes
Sdewsdweddes
 
Us873655
Us873655Us873655
Us873655
 
5301 5305.output
5301 5305.output5301 5305.output
5301 5305.output
 
5296 5300.output
5296 5300.output5296 5300.output
5296 5300.output
 
5306 5310.output
5306 5310.output5306 5310.output
5306 5310.output
 
5321 5325.output
5321 5325.output5321 5325.output
5321 5325.output
 

повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слухового анализатора человека автореферат диссертации на сои

  • 1. Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования ПОВОЛЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТЕЛЕКОММУНИКАЦИЙ И ИНФОРМАТИКИ ЭЛЕКТРОННАЯ БИБЛИОТЕЧНАЯ СИСТЕМА Самара Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 2. 2 На правах рукописи СТЕФАНОВ Михаил Александрович ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СЖАТИЯ ЦИФРОВОЙ АУДИОИНФОРМАЦИИ С УЧЕТОМ СВОЙСТВ СЛУХОВОГО АНАЛИЗАТОРА ЧЕЛОВЕКА Специальность 05.12.13 – Системы, сети и устройства телекоммуникаций Автореферат диссертации на соискание ученой степени кандидата технических наук Самара – 2009 Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 3. 3 Работа выполнена в Государственном образовательном учреждении высше- го профессионального образования «Поволжский государственный универси- тет телекоммуникаций и информатики» (ГОУВПО ПГУТИ) Научный руководитель: доктор технических наук, профессор Акчурин Э.А. Официальные оппоненты: доктор технических наук, доцент Горячкин О.В. кандидат технических наук, доцент Засов В.А. Ведущая организация: ГОУВПО Самарский государственный технический университет (СГТУ) Защита состоится «28» декабря 2009 г. в 13 часов на заседании диссерта- ционного совета Д219.003.02 при Поволжском государственном университете телекоммуникаций и информатики по адресу: 443010, г. Самара, ул. Льва Тол- стого, 23. С диссертацией можно ознакомиться в библиотеке ГОУВПО ПГУТИ. Автореферат разослан «26» ноября 2009 г. Ученый секретарь диссертационного совета Д219.003.02 доктор технических наук, доцент Мишин Д.В. Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 4. 4 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Современный этап развития систем цифровой обра- ботки и передачи аудиоинформации характеризуется как увеличением потока передаваемой информации, так и повышением требований к ее качеству. В свя- зи с этим одной из важнейших задач является повышение эффективности ком- прессии цифровых аудиоданных при условии высокого качества субъективного восприятия сжатого звука. К настоящему времени в стандартах MPEG (Moving Pictures Expert Group) и ATSC (Advanced Television System Committee) Dolby AC-3 (А/52) рекомендуются алгоритмы высококачественного сжатия звуковых сигналов (ЗС), обеспечи- вающие цифровые скорости от 64 кбит/с для мультимедиа приложений до 384 кбит/с для цифрового стереофонического вещания. Нестандартные алгоритмы в форматах PAC, VQF, WMA, Ogg Vorbis и другие по утверждениям их авторов позволяют без существенного снижения качества субъективного восприятия сжатого звука довести цифровую скорость до 96 кбит/с. Таких успехов удалось добиться за счет обработки цифровых аудиоданных в частотной области, для чего используются дискретные ортогональные преобразования (ДОП). В свою оче- редь, такое радикальное изменение принципов обработки ЗС стало возможным благодаря результатам экспериментальных исследований психоакустических свойств слуха. Наиболее полно эти исследования провели E. Zwicker, R. Feld- tkeller. Вместе с тем прикладной характер эти результаты получили благодаря усилиям зарубежных ученых K. Brandenburg, G. Stoll, G. Theile и др. В России следует выделить работы Ю.А. Ковалгина и А.М. Синильникова. Однако дальнейшее развитие высококачественных систем компрессии циф- ровых аудиоданных сдерживается отсутствием условий эффективного исполь- зования психоакустических свойств слуха. Так. В стандартах MPEG и DOLBY AC-3 (A/52) эффект маскировки учитывается только для оценки допустимой степени округления. А в известных предложениях по повышению эффективно- сти сжатия не учитываются частотные характеристики ДОП и особенности восприятия слухом сжатого спектра. В результате не представляется возмож- ным предметно говорить о более эффективных алгоритмах кодирования спек- тра ЗС. В связи с этим актуальной является задача выработки обоснованных реко- мендаций относительно ДОП, перспективных для целей сжатия ЗС и условий повышения производительности высококачественных систем компрессии циф- ровых аудиоданных. Цель и задачи работы. Целью диссертации является повышение эффектив- ности сжатия цифровой аудиоинформации. Для достижения указанной цели в диссертационной работе поставлены следующие задачи: сформулировать обоснованные требования и выработать рекомендации относительно ДОП, перспективных для эффективной и высококачественной компрессии цифровых аудиоданных; исследовать ДСО коэффициентов перспективных ДОП с учетом их час- тотных свойств и основных психоакустических свойств слуха; Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 5. 5 исследовать эффективность прореживания коэффициентов перспектив- ных ДОП; разработать методики и провести экспериментальное исследование эф- фективности сжатия цифровых аудиоданных с прореживанием спектра. Методы исследования. При решении поставленных задач использовались методы спектрального анализа, теории вероятностей и математической стати- стики, теории цифровой обработки сигналов, результаты экспериментальных ис- следований психоакустических свойств слуха и статистических свойств ЗС, ком- пьютерное моделирование. Научная новизна работы заключается в следующем: разработан метод оценки распределения допустимой степени округле- ния коэффициентов гармонических дискретных ортогональных преобразова- ний, учитывающий их частотные характеристики и свойства слухового анали- затора человека; получены аналитические выражения для оценки вероятности маскиров- ки коэффициентов гармонических дискретных ортогональных преобразований любым участком кривой маскировки; разработан алгоритм прореживания коэффициентов гармонических дис- кретных ортогональных преобразований, учитывающий особенности воспри- ятия слухом компонент сжатого спектра; разработан метод оценки частотной области целесообразной для проре- живания в заданном рабочем диапазоне частот. Личный вклад. Основные научные положения, теоретические выводы и рекомендации, а также методики экспериментальной обработки цифровых ау- диоданных, содержащиеся в диссертационной работе, получены автором само- стоятельно. Практическая ценность и реализация результатов работы. Полученные аналитические выражения и зависимости способствуют повышению произво- дительности систем сжатия цифровых аудиоданных при сохранении высоких качественных показателей. Результаты работы могут быть использованы при разработке новых и усо- вершенствовании существующих цифровых технологий передачи и обработки цифровой аудиоинформации. Разработанные методики экспериментальной об- работки цифровых аудиоданных могут быть использованы для оценки эффек- тивности новых алгоритмов сжатия. Основные теоретические и практические результаты, полученные в работе, использованы ФГУП СОНИИР и внедрены в учебный процесс ГОУВПО ПГУТИ, что подтверждено соответствующими актами. Апробация работы. Основные результаты и положения работы обсуждались на VIV – XVI Российских научных конференциях (Самара, 2007 – 2009), 6 Ме- ждународной научно-технической конференции «Проблемы техники и техноло- гий телекоммуникаций» (Уфа, 2005), VII Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2006), IX Международной научно-технической конференции «Проблемы техни- Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 6. 6 ки и технологий телеком- муникаций» (Казань, 2008), V Международной научно-технической кон- ференции «Методы и сред- ства управления техно- логическими процессами» (Саранск, 2009). Публикации. По теме диссертации опубликова- но 11 печатных работ, в том числе 2 статьи в научных изданиях, входящих в пере- чень ВАК, и 9 тезисов и текстов докладов на Российских и Международных конференциях. Основные положения, выносимые на защиту: – метод оценки распределения допустимой степени округления коэффици- ентов гармонических дискретных ортогональных преобразований, учитываю- щий их частотные характеристики и свойства слухового анализатора человека; – аналитические выражения для оценки вероятности маскировки коэффици- ентов гармонических дискретных ортогональных преобразований любым уча- стком кривой маскировки; – метод оценки частотной области целесообразной для прореживания, в за- данном рабочем диапазоне частот; – результаты компьютерного моделирования обработки цифровой аудиоин- формации. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 146 страниц машинописного текста, 64 рисунка, 10 таблиц. Список литературы включает 168 наименований. КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы исследования, сформулирова- ны цели и задачи работы, перечислены основные научные результаты диссер- тации, положения, выносимые на защиту, определены практическая ценность и области применения результатов, приведены сведения об апробации работы, структуре и объеме диссертации. В первой главе на основе психофизиологических свойств слуха и харак- терных особенностях работы систем обработки и передачи ЗС формулируются требования, которым должны удовлетворять ДОП при использовании их в це- лях высококачественного сжатия цифровой аудиоинформации и проводится сравнительный анализ наиболее известных ДОП. Распределение амплитуд колебаний вдоль основной мембраны органа слуха экспериментально исследовано Бекеши (рис. 1). Оказалось, что тон возбуждает не одно поперечное волокно, настроенное на данную частоту, а целый участок мембраны. Тем не менее, в итоге ощущается только сам испытательный тон. Эти результаты позволяют сделать вывод, что в высококачественных системах сжатия ДОП должны допускать интерпретацию своих коэффициентов как тональных компонент спектра, так и полосного шума, интенсивность которого сконцентри- рована на частоте соответствующего коэффициента. Обе интерпретации отнюдь не противоречивы, поскольку с точки зрения электроакустики распределение интенсивности полосного шума безразлично. Она может быть распределена равномерно или сосредоточена в одной гармонике. Рис. 1. Поперечные колебания основной мембраны X, мм 32 30 28 26 24 22 20 100 200 300 Гц Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 7. 7 Согласно результатам экспериментальных исследований эффекта маскировки (подавление тонов меньшей интенсивности тоном большей интенсивности) слу- хового анализатора, колебания поперечных волокон основной мембраны некорре- лированны. Следовательно, этим свойством должны обладать и коэффициенты ДОП. Кроме того, кривая порога слышимости при маскировке, иначе кривая мас- кировки (КМ), при определенных условиях может распространяться почти на весь слышимый диапазон частот (рис. 2). Тем самым обусловливается необходимость глобальной декорреляции коэффициентов ДОП. Эти требования следует дополнить еще одним, учитывающим работу по- давляющего числа систем обработки и передачи цифровой аудиоинформации в режиме реального времени – ДОП должно обладать быстрым вычислительным алгоритмом. Наибольшую эффективность сжатия цифровых аудиоданных можно ожидать при использовании преобразования Карунена-Лоэва, коэффициенты которого полностью декоррелированы. Более того, по критерию среднеквадратичной ошибки оно является опти- мальным для представле- ния стационарных процессов, когда разложение Кару- нена-Лоэва производится по собственным функциям интегрального уравнения Фредгольма с ядром, рав- ным корреляционной функ- ции процесса. Однако применительно к ЗС на ин- тервалах, меньших интер- вала стационарности, для ка- ждого такого интервала придется строить свой базис по его корреляционной функции. Кроме того, разложение Карунена-Лоэва не имеет быстрых вычисли- тельных алгоритмов. Преобразование Хаара обладает быстрыми вычислительными алгоритмами. Однако, как известно, свойством глобальной декорреляции обладают только небольшое число первых коэффициентов. Преобразование Уолша-Адамара также имеет быстрые вычислительные ал- горитмы. Упорядоченное по Адамару, оно обеспечивает глобальную декорреля- цию, но каждая точка его энергетического спектра представляет собой энерге- тическое содержание не одной, а группы частостей. В результате восприятие на слух сжатого и исходного спектров будет резко отличаться. При упорядочива- нии по Уолшу обеспечивается и глобальная декорреляция, и адекватный ЗС энергетический спектр. Вместе с тем функции Уолша, положенные в основу преобразования, представляют собой прямоугольные, причем как периодиче- ские, так и непериодические волны. Столь резкие изменения частоты и амплитуды сигнала ощущаются на слух как щелчки. Вейвлет-преобразование дает хорошее разрешение по частоте и плохое по времени в низкочастотной области. Обратно в высокочастотной области. Эта особенность хорошо согласуется с результатами экспериментальных исследо- ваний спектральной плотности средней мощности для ЗС различных жанров. Однако, во-первых, точность анализа посредством вейвлет-преобразования оп- ределяется степенью соответствия форм вейвлета и сигнала. Форму же ЗС на малых временных интервалах предсказать невозможно. Во-вторых, вейвлет- Рис. 2. Кривые маскировки Uкм, дБ 0,02 0,1 0,2 0,5 1 2 5 f,кГц 100 80 60 40 20 0 100 дБ 80 60 Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 8. 8 преобразование дает оценку суммарной интенсивности, сосредоточенной в не- которой полосе частот анализируемого сигнала. А, как известно, слуховой ана- лизатор сигнал на полосы не разделяет. Из класса гармонических преобразований наиболее известными являются преобразования Фурье, Хартли и косинусное преобразование (ДКП). Первые два преобразования по свойствам абсолютно идентичны. Разница лишь в том, что второе не требует комплексной арифметики. Поэтому в дальнейшем они обозначаются как ДПФ-Х. В целом же все эти преобразования обладают быстрыми вычислительными алгоритмами и обеспечивают глобальную декорреляцию своих коэффициентов. На рис. 3 приведены их нормированные АЧХ |Hk(i )|н = |Hk(i )|/ |Hk(i k)|. Вид- но, что коэффициенты Kx(k) этих преобразований можно интерпретировать как полосный шум, интенсивность которого сосредоточена на частоте fk. Вместе с тем в силу слабого затухания амплитуды боковых лепестков и равновероятно- сти знаков соответствующих спектральных компонент исходного сигнала в первом приближении Kx(k) можно считать некоррелированными. Однако для ДКП это справедливо только для четных и нечетных коэффициентов в отдельности. Таким образом, перспек- тивными для целей сжа- тия цифровой аудиоинформа- ции следует признать гармонические ДОП. При этом в случае интерпретации коэффициентов ДКП как то- нальных компонент спектра их целесообразно раз- делять на два потока по признаку четности. Во второй главе с учетом частотных свойств ДОП и основ- ных психоакустических свойств слуха разрабаты- вается методика оценки распределения ДСО ко- эффициентов ДОП в пределах спектральной выборки. Естественным критерием ограничения разрядности q1k модуля Kx(k) являет- ся коэффициент минимально ощущаемой на слух прямоугольной амплитудной модуляции полосного шума mk, концентрируемого на частоте fk. В свою оче- редь, mk является функцией двух параметров – ширины полосы шума Fш,k и частоты его модуляции fмод = 1/Тп, где Тп – длительность интервала преобразо- вания. Известное условие оценки Тп получено при участии автора данной рабо- ты и позволяет оценить оптимальное значение соответствующего параметра mk: fмод = 130 Гц для музыкальных сигналов и 100 Гц для речевых сигналов. Второй параметр mk обычно принимается равным рабочей полосе ЗС. Одна- ко (рис. 3) степень влияния спектральных компонент на величину Kx(k) различна. Следовательно, должно существовать пороговое значение |Hk(i )|н,п (рис. 4), раз- деляющее значимые в этом смысле компоненты спектра исходного сигнала sm 20 21 22 0.5 0.5 1 y1 i( ) i 20 21 22 23 24 0.5 0.5 1 y i( ) i |Hk(i )|н k k+1 1 0.5 0 а) ДПФ-Х б) ДКП Рис. 3. АЧХ коэффициентов гармонических ДОП |Hk(i )|н N/2 k k+1 k+2 k+3 1 0.5 0 N/2 7 8 9 10 11 0.5 0.5 1 y1 i( ) i Рис. 4. Составляющие Fш,k ||Hk(i )|н | Fш,1 Fш,2 ||Hk(i )|н,п| Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 9. 9 (sm Fш,j) от незначимых sn (sn Fш,j), где Fш,j – часть полосного шума, обу- словленная j-м лепестком АЧХ. Тогда и поскольку фрагментарный характер шу- ма для mk значения не имеет ш,k j j F F . Учитывая, что занижение q1k ведет к изменению взаимодействия компонент нового (после обратного преобразования) спектра, |Hk(i )|н,п целесообразно искать на основе эффекта маскировки. Пусть для Kx(k) известна вероятность маскировки Gk. В плоскости слыши- мости ей можно сопоставить область безусловной маскировки, ограниченной сверху средним порогом слышимости при маскировке Uпс,k. Тогда вероятность Gk можно переопределить как P{Uk<Uпс,k} = dec(Uпс,k / 20)/dec(Dk /20), где Uk – уровень Kx(k) в плоскости слышимости, ограниченной сверху динамическим диапазоном изменения сигнала, а dec(х) = 10х . Отсюда dec(Uпс,k /20) = P{Uk<Uпс,k} dec(Dk /20). В наихудшем случае sn обусловливает приращение uk = dec(Uk /20), не превышающее по абсолютной величине ||Hk(i n)|н| dec(Dn /20). При этом sn будет незначащей для Kx(k), если ||Hk(i n)|н| dec(Dn /20) < dec(Uпс,k /20). Таким образом, условие оценки ширины полос Fш,j, составляющих Fш,k, запишется в виде: ||Hk(i m)|н| Gk dec(Dk /20) / dec(Dm /20) = ||Hk(i )|н,п|. С целью оценки Gk получена более адекватная по форме и вместе с тем дос- таточно точная (коэффициент детерминации R2 1) аппроксимация КМ: 1,6(л) (2) км, , , км, , , , 1,6(1) (3) км, , , км, 1 2 , 3 , -54 + + , -3 +(0,05 +0,76) + , -18 + + , - lg[1+ exp(- )]+ + , i k i i m i i k i k i i m i i k i i m i i k i i i m i U fo U a U fo fo U a U fo U a U fo U U a где верхний индекс означает участок КМ Kx(i) уровнем Ui, относительная час- тота fok,i = (fk –fi)/ Fi и Fi – ширина частотной группы (области волосковых кле- ток, возбуждаемых минимально слышимым Kx(i)), am,i – коэффициент маскировки (определяет уровень пика КМ относительно уровня маскирующего тона или шу- ма), а коэффициенты 1 – 3 определяются эмпирически. Кроме того, определя- ется безусловная вероятность ( ) км ,{ ( , )}x k k i iP U U fo U маскировки Kx(k) участком х КМi, для чего соответствующая область ее значений на частоте fk приводится к еди- ничному квадрату. В результате при маскировке левой ветвью и первыми двумя участками правой ветви эта вероятность равна 0,5, а третьим участком 2 3 ,гр1(3) KM , 3 ,гр2 ,гр1 ln[α exp(α )] 1 ( , ) β β α i k k i i i i U P U U fo U U U (3) (2) (1) Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 10. 10 3 ,гр2 ,гр1 2 3 ,гр2 ,гр1 3 ,гр2 3 ,гр1 2 ,гр22 2 1 1 32 2 1 22 3 ,гр1 ,гр2 ,гр1 2 1 3 ,гр2 -0.5 α 2 ln(α ) α -1 exp(α ) -1 exp(α ) ln(α ) , ; αα α -1 α α exp(α ) ln i i i i n n i i in n n n n n i i i n i U U U U U n U n U n n U U U n U n 2 3 ,гр12 2 ,гр12 1 32 2 ,гр21 32 2 ,гр12 1 33 ,гр2 -1 exp(α )(α ) ln(α ) , ; 2 αα ln(α ) , ; α-1 α ln(α ) , ; αexp(α ) 0 в противном случае, n i in n in n i n i U n U n U U n U n где = -ln{1+ 2 fok,i exp(- 3 Ui,гр2)} + ln{1+ 2 fok,i exp(- 3 Ui,гр1)}, а Ui,гр1 и Ui,гр2 – границы участка х КМi. Наконец, для упрощения вычислений формулируется достаточное условие отсутствия маскировки: Kx(k) не маскируется, если его уровень не меньше уровня КМ любого другого Kx(i) на частоте fk. В соответст- вии с этими результатами и в предположении независимости Kx(k) получаем выражение для оценки искомой вероятности: 2 1 ( ) ,1 { ( )} 1 n x k k k k i xi n G P U A f g , где P{Uk A(fk)} – вероятность отсутствия маскировки Kx(k) абсолютным порогом слышимости A(fk); n1 и n2 – соответственно, наименьший и наибольший номера Kx(i), удовлетворяющие условию (3) км ,( , ) ( );k i i kU fo D A f ( ) , x k ig – условная вероятность маскировки Kx(k) участком х КМi, определяемая в соответствии с известным вы- ражением. Помимо модуля, Kx(k) характеризуются фазовым сдвигом. Ограничение разрядности модуля фазы k (k > 0) на величину k приводит к изменению час- тоты fk соответствующей компоненты ˆks нового спектра на величину f,k. Причем эти изменения происходят на стыках спектральных выборок. Такой характер изменения можно интерпретировать как частотную модуляцию Kx(k) с частотой модуляции fмод = 1/Tп и девиацией частоты f,k. Это позволяет сопоставить отно- сительное изменение фазы k / k с индексом частотной модуляции f,k /fмод. Но тогда естественным критерием ограничения разрядности модуля фазы является минимально ощущаемая на слух девиация частоты f. В результате анализа из- вестных экспериментальных данных автором с высокой точностью (коэффици- ент детерминации R2 = 0,995) получено соответствующее аналитическое выра- жение: / 24 мод мод мод( , ) 1( ) 10 2( )/ lg( ) e k k kf f f K f f K f f , где коэффициенты К1(fмод) и К2(fмод) подбираются эмпирически. Пусть теперь | k| некоторого немаскируемого Kx(k) текущей спектральной выборки представлен q ,k значащими двоичными разрядами. В результате округ- ления q2 ,k младших разрядов обнуляются, вследствие чего достаточно передать только q1 ,k = q ,k – q2 ,k старших разрядов. При этом по правилам округления | k| увеличится или уменьшится не более чем на величину = bin(q ,k – q1 ,k) /2, где (5) (4) (6) Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 11. 11 bin(x) = 2x . Согласно принятой интерпретации округления отношение /bin(q ,k) = bin(-q1 ,k – 1) определяет индекс частотной модуляции. Тогда искажения, вы- званные округлением | k|, не будут ощущаться на слух, если это отношение не превышает f. Отсюда q1 ,k = log2[fмод / f(fk, fмод)] – 1 , где х – наименьшее целое, не мень- шее х. Заметим, что округление Kx(0) приво- дит к дополнительному фазовому сдвигу компонент нового спектра на стыках вы- борок на величину, по модулю не более 0/2. Однако если это не больше наи- меньшей допустимой степени округления модуля фазы, подобные искажения на слух ощущаться не будут. Следовательно, 1 0 ,1 max 1 N k k r q q , где r – номер первого коэффициента рабочей полосы. Наконец, поскольку ДКП чувствительно к фа- зовым сдвигам, для всех k >0 q1k = log2(1/mk) – 1 , если mk < f (fk, fмод) Тп и q1k = q1 ,k в противном случае. Метод оценки распределения ДСО для ЗС любого типа и при любых Fд и D в общем виде приведен на рис. 5. Как показывают расчеты, зависимость распреде- ления ДСО от Fд и D слабая. Кроме того, в среднем q1k для ДКП по сравнению с ДПФ-Х практически в 2 раза меньше. В третьей главе разрабатывается метод прореживания спектра и формули- руются условия его максимальной эффективности. Поскольку 2 f является градацией раздражения и определяет ширину еще различимой на слух ступени частоты, Kx(k) следует рассматривать как тональную компоненту ЗС, если fk < f для ДПФ-Х и fk < 2 f для ДКП, где f – разрешаю- щая способность ДОП по частоте. В противном случае интерпретация f как градации раздражения теряет смысл, что характерно для шума. На том же осно- вании можно сформулировать условие разделения коэффициентов ДКП на два потока: fk < 3 f. Как известно, для тональных компонент характерно дополнительное сме- щение am,i на величину см = 10…12 дБ. Кроме того, вследствие неравномерности округления фазы на последовательности выборок, в новом спектре на соответст- вующих частотах возможны биения. Но только при совокупности следующих обстоятельств: 1) Kx(k) отображает тональную компоненту, 2) k = 2m и/или k = 3n, 3) Um и/или Un превышают Uкр (соответствует foкр пересечения всех участков пра- вой ветви КМ), 4) Kx(m) и/или Kx(n) не маскируются. При этом Kx(k) маскируется, если Uk < (Uкм – км) дБ, где км = 8…10 дБ. На этих основаниях разрабатывается метод прореживания коэффициентов ДОП, обобщенная алгоритмическая схема которого представлена рис. 6, где Начало Вычисление параметров КМ 1 3 5 Вычисление q1k и q1 ,k 4 Вычисление Fш.k Вычисление вероятности Gk , 1k r N 2 Конец Рис. 5. Метод оценки q1k Вычисление q10 6 (7) Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 12. 12 ЛМК – локально маскирующий коэф- фициент (определяет очередной участок порога слышимо- сти). С целью оценки его эффективности рассматриваются сле- дующие ситуации мас- кировки ˆks . 1. k = 2m. Так как событие отсутст- вия маскировки (ОМk) ˆks в случае биений, обусловленных ˆms (событие Бm), и при их отсутствии (событие Бm ) независимы и несовместны, вероят- ность Pk отсутствия маскировки Kx(k) Pk = P{Uk A(fk)} [P(OMk) P(Бm) + P(OMk) P(Бm )], где 2 ( ) ,OM [1 ] n x k k i xi m P g , но в первом слагаемом Um [Uкр, Dm], а во втором Um Uкр. 2. k = 3n. Здесь Pk определяется аналогично (9), но ниж- няя граница области возможно маски- рующих коэффициентов ограничена n. 3. k = 2m и k = 3n. В этом случае Pk = P{Uk A(fk)} [P(OMk) P(Бm) + P(OMk) P(Бm ) P(Бn) + P(OMk) P(Бm ) P(Бn )], где P(OMk) первого слагаемого вычисляется аналогично первой ситуации, вто- рого – второй ситуации, а третьего – при (Um, Un) Uкр. 4. k 2m и k 3n. Здесь Pk = 1 – Gk. Относительно P(Бj) достаточно заметить, что с вероятностью 1–P(Бj) ком- понента ˆjs не порождает биений, если она либо маскируется, либо по уровню не превышает Uкр. Отсюда сразу следует: P(Бj) = Pk – uкр/dj. Теперь относительно числа немаскируемых коэффициентов Nнм спектраль- ной выборки установим пороговую величину Nп. Потребуем, чтобы средний интервал времени между событиями Nнм Nп был не меньше времени непре- рывного звучания Тнз. Тогда P{Nнм < Nп} > 1– Тп /Тнз. Усредняя эту вероятность по длине выборки, получаем условие оценки Nнм: нм нм нм 0 1 N r N r lN r l l l C P P > 1– Тп /Тнз, где y xC – число сочетаний из у по х, а Тнз = 20 мин для музыкальных сигналов (симфоническое произведение) и Тнз = 9 с для речевых (средний интервал меж- ду естественными паузами). Для сравнения возможностей ДПФ-Х и ДКП в сжатии ЗС используется от- носительный коэффициент сжатия (ДПФ-Х) (ДКП)(ДПФ-Х) (ДКП) д нм д д нм д1 3 1 1k kq F N F q F N F , где 1kq – усредненное на выборке распределение q1k. Кроме того, учтены знако- вые разряды, а для ДПФ-Х и минимально возможное количество дополнитель- ных бит, необходимых для кодирования фазы. Как показывают расчеты > 1 для любых Fд. Следовательно, в высококачественных системах сжатия цифро- вых аудиоданных целесообразным является ДКП. Применительно к задаче оценке условий повышения эффективности сжатия (11) (10) (9) (8) Начало 3 Uk = 0 4 Определение участка КМi Интерпретация Kx(k) , 1k r N 2 Конец Рис. 6. Метод прореживания 1 0 N k k U1 Kx(k)=ЛМК5 Да Нет 1 0 N k k Y7 6 Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 13. 13 ЗС с прореживанием спектра выражение (12) примет вид: ст д,ст нм ст д,ст д нм д1 , , 1 , ,k kq D F N D F q D F N D F , где Dст и Fд,ст – стандартные для данной системы D и Fд, соответственно. Степень значимости D и Fд схематично показана на рис. 7. При этом, как по- казывают расчеты, за счет изменения их значений можно повысить эффектив- ность сжатия ЗС с прореживанием спектра в 1,5 раза, причем без ухудшения ка- чества субъективного восприятия сжатого звука. Наконец определяется область рабочего диапа- зона частот Fр, где про- реживание имеет смысл. Суть соответствующего метода заключается в последовательном нии исходной выборки в сторону верхних частот до выполнения условия ( ) ( 1) ( ) ( 1) нм нм/ /n n n n N N N N , где верхний индекс ет номер итерации. Начиная с этого момента, скорость уменьшения области вышает скорость уменьшения Nнм. Следовательно, в области остались наиболее часто маскируемые коэффициенты. Результаты расчетов показывают, что реживание целесообразно в 90 % Fр. В четвертой главе с помощью компьютерного моделирования и субъективно-статистического анализа проводится оценка степени достоверно- сти полученного распределения q1k и предположения о биениях, а также про- верка целесообразности применения прореживания спектра. Критерием досто- верности является качество ЗС на выходе психоакустической модели, а крите- рием целесообразности – эффективность и качество ЗС на выходе алгоритма кодирования. В качестве тестовых фрагментов использовалась монофоническая дикторская речь и стереофоническая музыкальная фраза в полосе частот до 10 и 20 кГц, соответственно. Оба фрагмента записаны при Fд = 44,1 кГц с разреше- нием 16 бит/отсчет. Приводится описание используемых в моделировании средств и условий проведения субъективной оценки качества сжатого звука. Во всех моделях спектр сигналов представлен коэффициентами ДКП. На рис. 8 показаны теоретическое q1т(f ) и модельное q1м(f ) распределения q1k для музыкального тестового фрагмента. Суть методики моделирования со- ответствующих искажений заключается в уменьшении q1k в одной из ступеней q1м(f ) и экспертной оценке качества звучания. Результаты экспериментов, огра- ниченные уменьше- нием на 1 бит только второй и только третьей ступени, при- ведены на рис. 9. Таким образом, зависимости q1т(f ) и q1м(f ) хорошо согласу- ются по форме, причем q1м(f ) q1т(f ). Тем самым подтверждается существова- ние в ДКП фазовых искажений, а q1т(f) можно считать достаточной для любых типов и жанров ЗС. (12) 100 50 0 0 10 20 Fгр, кГц Рис. 3.16. Степень значимости параметров цифровых аудиоданных в повышении эффективности сжатия Степень значимости, % Fд D D Fд 0 10 20 Fр, кГц Рис. 7. Значение D и Fд в повышении Значимость, % 100 50 0 Fд Fд D D Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 14. 14 0 1 2 3 1.5 1 0.5Kach1v Kach2v vРис. 9. Экспертиза распределения q1k Номер ступени q1м(f ) музыка речь 0 -0,5 -1 0 2 3 Средний балл качества 0 5 10 3 1 10 4 1.5 10 4 2 4 6 q1 q7 0.5 0.5 f1 f7 q1k, бит 4 2 0 q1т q1м 0 5 10 15 f, кГц Рис. 8. Распределение q1k 2 1.5 1 0.5Kach3v Kach4v dv Рис. 10. Экспертиза возможных биений 0 -0,5 -1 -1,5 8 6 4 2 0 км, дБ Средний балл качества музыка речь Для проверки возмож- ности биений предлагается, изменяя км, всякий раз проводить экспертную оценку качест- ва звука. Результаты мо- делирования (рис. 10) по- зволяют со- гласиться с данной те- зой. Для апробации про- реживания предлагает- ся модификация алго- ритма с поблочно пла- вающей запя- той (Dolby AC-3, MPEG-2 AAC). Коэф- фи- циенты спектраль- ной выбор- ки объединяются в бло- ки по при- знаку одинакового q1k. Блоки, где прореживание не имеет смысла, коди- руются как обычно с по- мощью порядка че- ство нулевых старших разрядов для наибольшего по модулю коэффициента блока) и мантисс (ограниченное число старших разрядов коэффициентов бло- ка). В остальных блоках только для немаскируемых коэффициентов помимо порядков и мантисс кодируются расстояния между ними. При этом теоретиче- ская скорость цифрового потока (Vцп) для музыкального и речевого тестового фрагмента составляет 107,6 и 101 кбит/с, соответственно. В результате моделирования получена Vцп для музыкального фрагмента 105,5 кбит/с при среднем балле качества -0,19, а для речевого – 99,5 кбит/с при среднем балле качества -0,23. Таким образом, при достаточно высоком качестве субъективного восприятия звука за счет прореживания Vцп относительно наи- более перспективного на сегодняшний день алгоритма кодирования MPEG-2 AAC (128 кбит/с при дополнительном статистическом уплотнении и среднем балле качества -0,17) снизилась в 1,2 раза для музыкального фрагмента и в 1,3 для речевого фрагмента. Хорошее согласование теоретических и экспериментальных результатов по- зволяет сделать прогноз эффективности применения прореживания при нестан- дартных Fд и D. Как показывают расчеты, в этих условиях можно обеспечить Vцп не более 96,7 кбит/с ( = 1,3) для музыкальных сигналов, 75,7 кбит/с ( = 1,7) для широкополосных речевых сигналов и 31,5 кбит/с ( = 2) для телефо- нии. И это без дополнительного статистического уплотнения и при высоком ка- честве субъективного восприятия звука. В заключении приведены основные результаты работы: 1. На основе психофизиологических свойств слуха сформулированы требо- вания, позволяющие обоснованно установить ДОП, перспективные для систем высококачественного сжатия цифровой аудиоинформации. 2. Разработан метод оценки распределения ДСО коэффициентов гармониче- ских ДОП в пределах спектральной выборки, позволяющий рационально рас- Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 15. 15 пределить биты при кодировании сжатого спектра с учетом достаточно высоко- го качества субъективного восприятия сжатого звука. 3. Получены аналитические выражения для оценки вероятности маскировки коэффициентов гармонических ДОП при различной их интерпретации и ис- пользовании всех ветвей кривой маскировки. 4. Разработан алгоритм прореживания спектра, позволяющий за счет изме- нения D и Fд дополнительно повысить эффективность компрессии цифровых аудиоданных в 1,5 раза при достаточно высоком качестве субъективного вос- приятия сжатого звука. 5. Разработан метод оценки эффективной для прореживания области рабо- чего диапазона частот, расширяющий перспективу развития новых более эф- фективных методов кодирования сжатых цифровых аудиоданных. 6. Разработаны методики экспериментальной обработки цифровой аудиоин- формации с прореживанием спектра средствами компьютерного моделирования, позволяющие оценить эффективность новых алгоритмов сжатия ЗС. 7. Результаты проведенных исследований могут быть полезны при разработке новых рациональных с точки зрения реализационной сложности и высокоэффек- тивных кодеков для высококачественных систем цифровой обработки и передачи аудиоданных. Применение их в лабораторных условиях относительно наилучшего алгоритма кодирования MPEG-2 AAC практически при тех же качественных по- казателях, стандартных параметрах цифровых аудиоданных позволило снизить скорость цифрового потока в 1,2 раза. Приложение содержит протокол экспертной комиссии субъективных оце- нок качества сжатых ЗС и акты использования результатов диссертации. Публикации по теме диссертации 1. Стефанов, М. А. Эффективные дискретные ортогональные преобразова- ния в компрессии цифровых аудиоданных / М. А. Стефанов. // «Инфокоммуни- кационные технологии». – 2009. – т. 7. – № 4. – С. 17-22. 2. Акчурин, Э.А. Энергетический параметр высококачественной эффектив- ной компрессии цифровых аудиоданных / Э.А. Акчурин, А.М. Стефанов, М. А. Стефанов. // «Инфокоммуникационные технологии». – 2009. – т. 7. – № 2. – С. 82-87. 3. Стефанова, И.А. Оптимизация временного параметра эффективности сжатия звуковых сигналов / И.А. Стефанова, М.А. Стефанов. // 6 Междунар. науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб. докладов. – Уфа, 2005. – С. 38-40. 4. Стефанов, М.А. Оценка допустимой степени округления фазы спектраль- ных компонент звуковых сигналов / М.А. Стефанов. // VII Междунар. науч.- техн. конф. «Проблемы техники и технологий телекоммуникаций»: материалы конференции. – Самара, 2006. – С. 171-173. 5. Стефанов, М.А. Дискретные ортогональные преобразования как инстру- мент сжатия звуковых сигналов / М.А. Стефанов, Э.А. Акчурин. / XIV Россий- ская науч. конф.: тез. докладов. – Самара, 2007. – С. 147-148. 6. Стефанов, М.А. Особенности округления спектральных компонент звуко- вых сигналов / М.А. Стефанов. // XV Российская науч. конф.: тез. докладов. – Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»
  • 16. 16 Самара, 2008. – С. 185. 7. Стефанов, М.А. Оценка ширины полосы концентрации энергии коэффи- циентами ДОП / М.А. Стефанов. // IX Междунар. науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: материалы конференции. – Казань, 2008. – С. 140-141. 8. Стефанов, М.А. Реализация округления коэффициентов дискретных орто- гональных преобразований / М.А. Стефанов, А.М. Стефанов, И.А. Стефанова. // XV Российская науч. конф.: тез. докладов. – Самара, 2008. – С. 188. 9. Стефанов, М.А. К выбору способа нормировки коэффициентов ДОП при цифровой обработке звукового сигнала / М.А. Стефанов. // XVI Российская на- уч. конф.: тез. докладов. – Самара, 2009. – ч.2 – С. 12. 10. Стефанов, М.А. Особенности цифровой обработки звуковых сигналов в системе MATLAB / М.А. Стефанов. // XVI Российская науч. конф.: тез. докла- дов. – Самара, 2009. – ч.2 – С. 13. 11. Стефанов, М.А. Оценка вероятности маскировки спектральных компо- нент звуковых сигналов / М.А. Стефанов. // Электроника и информационные технологии. – 2009 Специальный выпуск (V Международная конференция "Методы и средства управления технологическими процессами" 19-21 ноября 2009. г. Саранск) – 2009. – http://fetmag.mrsu.ru/2009-2/pdf/Stefanov.pdf. – 0420900067/0015. Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»