Задачи музыкального
поиска связанные с
анализом аудио сигнала
План доклада
● Вступление
● Обзор существующих задач
● Введение в обработку сигналов
● Примеры задач, которыми мы занимаем...
Вступление
С какими данными мы работаем?
Вступление
● Метаданные музыкального трека
Вступление
● Метаданные музыкального трека
● Тексты песен
Вступление
● Метаданные музыкального трека
● Тексты песен
● Данные о прослушиваниях
Вступление
● Метаданные музыкального трека
● Тексты песен
● Данные о прослушиваниях
● Непосредственно аудио сигнал
Вступление
Какие задачи можно решать
анализируя аудио сигнал?
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск ...
Введение в обработку аудио
сигналов
Как анализировать аудио сигнал?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
cигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Как выглядит аудио-сигнал глазами
компьютера?
Введение в обработку аудио
сигналов
● Что мы имеем по сути?
Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
● Какую важную ха...
Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
● Какую важную ха...
Введение в обработку аудио
сигналов
● Пример музыкального фрагмента и его
разделение на три полосы частот
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (F...
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (F...
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (F...
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (F...
Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (F...
Введение в обработку аудио
сигналов
● Хочется при этом сохранить временную
составляющую сигнала
– Оконное преобразование Ф...
Введение в обработку аудио
сигналов
Введение в обработку аудио
сигналов
Введение в обработку аудио
сигналов
Введение в обработку аудио
сигналов
Введение в обработку аудио
сигналов
Классификация признаков
● По временному масштабу
– Frame-level
– Segment-level
– Global-level
● По уровню представления
– ...
Low-level
● Zero Crossing Rate – позволяет неплохо
различать музыку и речь
● Short-time energy – отражает изменение
энерги...
Low-level
● Spectral Centroid – центр масс спектра
● Spectral Bandwidth – разброс относительно
центра масс
● Spectral Flat...
Low-level
● Что-нибудь более сложное?
– Mel-frequency Cepstral Coefficient
(MFCC) (вольный перевод —
Коэффициенты кепструм...
Middle-level
● Beat Tracker
● Pitch Histogram
● Rhythm Patterns
High-level
● Музыкальные жанры
● Настроение: веселая, грустная, агрессивная,
спокойная.
● Вокальная / Инструментальная
● О...
Обобщение признаков
● Как перейти на более общий уровень —
уровень трека?
– Вычисление статистик по шкале времени
(среднее...
Сравнение
● Как сравнивать признаковые описания?
● Вычисление меры близости
– Расстояние Хэмминга при побитовом
сравнении
...
Примеры наших задач
● Распознавание музыки по фрагменту записи
Примеры наших задач
● Распознавание музыки по фрагменту записи
● Поиск нечетких дубликатов
Примеры наших задач
● Распознавание музыки по фрагменту записи
● Поиск нечетких дубликатов
● Классификация/музыкальные рек...
Распознавание музыки
● В качестве базовых признаков — пики
энергии в спектрограмме
● Пики объединяются в пары
Распознавание музыки
● Двухэтапный поиск
– Быстрый поиск в «облегченном» индексе
– Более точный поиск среди TopN лучших
Отсечение ложных срабатываний
Отсечение ложных срабатываний
Распознавание музыки
● База 6М треков
● Двухуровневый поисковый кластер
Поиск нечетких дубликатов
● В основе лежит метод построения сигнатур —
Chromaprint
● Исходное представление сигнала в виде...
Поиск нечетких дубликатов
● Основная идея — рассматривать
хромаграммы как изображения
● Сравнивать используя методы
компью...
Поиск нечетких дубликатов
● Как выглядит сигнатура?
Поиск нечетких дубликатов
● Разница между оригинальной и
инструментальной версией трека
Классификация музыки
● Что можно классифицировать?
– Жанры
– Настроения
– Пол вокалиста
– И т.д.
Классификация музыки
● В качестве исходных данных — MFCC (еще
можно спектрограмму)
● Обучаем глубокую сверточную нейронную...
Классификация музыки
● Пример трека, размеченного как Pop
● Что предсказывает нейронная сеть?
Классификация музыки
● Пример трека, размеченного как Pop
● Что предсказывает нейронная сеть?
– Metal 0.45
– Punk 0.23
– R...
Классификация музыки
● Еще один пример, снова Pop
● Что предсказывает нейронная сеть?
Классификация музыки
● Еще один пример, снова Pop
● Что предсказывает нейронная сеть?
– Rap 0.48
– RnB 0.16
– Pop 0.09
Музыкальные рекомендации
● Есть методы коллаборативной фильтрации,
которые неплохо работают
● В чем преимущества подхода о...
Спасибо за внимание!
Вопросы?
Задачи музыкального поиска, связанные с анализом аудио сигнала
Задачи музыкального поиска, связанные с анализом аудио сигнала
Upcoming SlideShare
Loading in …5
×

Задачи музыкального поиска, связанные с анализом аудио сигнала

14,226 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
14,226
On SlideShare
0
From Embeds
0
Number of Embeds
13,004
Actions
Shares
0
Downloads
30
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Задачи музыкального поиска, связанные с анализом аудио сигнала

  1. 1. Задачи музыкального поиска связанные с анализом аудио сигнала
  2. 2. План доклада ● Вступление ● Обзор существующих задач ● Введение в обработку сигналов ● Примеры задач, которыми мы занимаемся
  3. 3. Вступление С какими данными мы работаем?
  4. 4. Вступление ● Метаданные музыкального трека
  5. 5. Вступление ● Метаданные музыкального трека ● Тексты песен
  6. 6. Вступление ● Метаданные музыкального трека ● Тексты песен ● Данные о прослушиваниях
  7. 7. Вступление ● Метаданные музыкального трека ● Тексты песен ● Данные о прослушиваниях ● Непосредственно аудио сигнал
  8. 8. Вступление Какие задачи можно решать анализируя аудио сигнал?
  9. 9. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон
  10. 10. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию
  11. 11. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов
  12. 12. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов ● Поиск кавер-версий и ремиксов
  13. 13. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов ● Поиск кавер-версий и ремиксов ● Выделение мелодии из полифонического сигнала
  14. 14. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов ● Поиск кавер-версий и ремиксов ● Выделение мелодии из полифонического сигнала ● Классификация музыки
  15. 15. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов ● Поиск кавер-версий и ремиксов ● Выделение мелодии из полифонического сигнала ● Классификация музыки ● Автотегирование
  16. 16. Обзор существующих задач ● Распознавание музыки по фрагменту записанному на микрофон ● Распознавание по напеванию ● Поиск нечетких дубликатов ● Поиск кавер-версий и ремиксов ● Выделение мелодии из полифонического сигнала ● Классификация музыки ● Автотегирование ● Поиск похожих/рекомендации
  17. 17. Введение в обработку аудио сигналов Как анализировать аудио сигнал?
  18. 18. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  19. 19. Введение в обработку аудио cигналов ● Как выглядит аудио-сигнал глазами компьютера?
  20. 20. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  21. 21. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  22. 22. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  23. 23. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  24. 24. Введение в обработку аудио сигналов ● Как выглядит аудио-сигнал глазами компьютера?
  25. 25. Введение в обработку аудио сигналов ● Что мы имеем по сути?
  26. 26. Введение в обработку аудио сигналов ● Что мы имеем по сути? – Зависимость амплитуды колебаний от времени
  27. 27. Введение в обработку аудио сигналов ● Что мы имеем по сути? – Зависимость амплитуды колебаний от времени ● Какую важную характеристику звука мы забыли?
  28. 28. Введение в обработку аудио сигналов ● Что мы имеем по сути? – Зависимость амплитуды колебаний от времени ● Какую важную характеристику звука мы забыли? – Частота колебаний (высота звука)
  29. 29. Введение в обработку аудио сигналов ● Пример музыкального фрагмента и его разделение на три полосы частот
  30. 30. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный?
  31. 31. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный? – Преобразование Фурье (Fourier transform)
  32. 32. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный? – Преобразование Фурье (Fourier transform) — позволяет разложить периодическую функцию в сумму гармонических с разными частотами.
  33. 33. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный? – Преобразование Фурье (Fourier transform) – Вейвлет преобразование (Wavelet transform)
  34. 34. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный? – Преобразование Фурье (Fourier transform) – Вейвлет преобразование (Wavelet transform) Вейвлет – это математическая функция, позволяющая анализировать различные частотные компоненты данных.
  35. 35. Введение в обработку аудио сигналов ● Как преобразовать сигнал из временного домена в частотный? – Преобразование Фурье (Fourier transform) – Вейвлет преобразование (Wavelet transform) – Константное Q преобразование (Constant Q transform)
  36. 36. Введение в обработку аудио сигналов ● Хочется при этом сохранить временную составляющую сигнала – Оконное преобразование Фурье (Short-time Fourier transform)
  37. 37. Введение в обработку аудио сигналов
  38. 38. Введение в обработку аудио сигналов
  39. 39. Введение в обработку аудио сигналов
  40. 40. Введение в обработку аудио сигналов
  41. 41. Введение в обработку аудио сигналов
  42. 42. Классификация признаков ● По временному масштабу – Frame-level – Segment-level – Global-level ● По уровню представления – Low-level – Middle-level – High-level
  43. 43. Low-level ● Zero Crossing Rate – позволяет неплохо различать музыку и речь ● Short-time energy – отражает изменение энергии во времени
  44. 44. Low-level ● Spectral Centroid – центр масс спектра ● Spectral Bandwidth – разброс относительно центра масс ● Spectral Flatness Measure – характеризует «гладкость» спектра. Помогает отличать сигнал похожий на шум от сигналов с выраженной тональностью
  45. 45. Low-level ● Что-нибудь более сложное? – Mel-frequency Cepstral Coefficient (MFCC) (вольный перевод — Коэффициенты кепструма в мел масштабе) – По сути это спектр спектра – Изначально использовались в распознавании речи
  46. 46. Middle-level ● Beat Tracker ● Pitch Histogram ● Rhythm Patterns
  47. 47. High-level ● Музыкальные жанры ● Настроение: веселая, грустная, агрессивная, спокойная. ● Вокальная / Инструментальная ● Ощущаемая скорость музыки (медленная, быстрая, средняя) ● Пол вокалиста
  48. 48. Обобщение признаков ● Как перейти на более общий уровень — уровень трека? – Вычисление статистик по шкале времени (среднее/дисперсия) – Попытка более сложного моделирования распределения значений признаков, например Гауссовы смеси
  49. 49. Сравнение ● Как сравнивать признаковые описания? ● Вычисление меры близости – Расстояние Хэмминга при побитовом сравнении – Евклидово расстояние – Манхэттенское расстояние ● Оценка максимального правдоподобия
  50. 50. Примеры наших задач ● Распознавание музыки по фрагменту записи
  51. 51. Примеры наших задач ● Распознавание музыки по фрагменту записи ● Поиск нечетких дубликатов
  52. 52. Примеры наших задач ● Распознавание музыки по фрагменту записи ● Поиск нечетких дубликатов ● Классификация/музыкальные рекомендации
  53. 53. Распознавание музыки ● В качестве базовых признаков — пики энергии в спектрограмме ● Пики объединяются в пары
  54. 54. Распознавание музыки ● Двухэтапный поиск – Быстрый поиск в «облегченном» индексе – Более точный поиск среди TopN лучших
  55. 55. Отсечение ложных срабатываний
  56. 56. Отсечение ложных срабатываний
  57. 57. Распознавание музыки ● База 6М треков ● Двухуровневый поисковый кластер
  58. 58. Поиск нечетких дубликатов ● В основе лежит метод построения сигнатур — Chromaprint ● Исходное представление сигнала в виде хромограммы
  59. 59. Поиск нечетких дубликатов ● Основная идея — рассматривать хромаграммы как изображения ● Сравнивать используя методы компьютерного зрения ● Используется набор фильтров
  60. 60. Поиск нечетких дубликатов ● Как выглядит сигнатура?
  61. 61. Поиск нечетких дубликатов ● Разница между оригинальной и инструментальной версией трека
  62. 62. Классификация музыки ● Что можно классифицировать? – Жанры – Настроения – Пол вокалиста – И т.д.
  63. 63. Классификация музыки ● В качестве исходных данных — MFCC (еще можно спектрограмму) ● Обучаем глубокую сверточную нейронную сеть ● Смотрим что получилось
  64. 64. Классификация музыки ● Пример трека, размеченного как Pop ● Что предсказывает нейронная сеть?
  65. 65. Классификация музыки ● Пример трека, размеченного как Pop ● Что предсказывает нейронная сеть? – Metal 0.45 – Punk 0.23 – Rock 0.17
  66. 66. Классификация музыки ● Еще один пример, снова Pop ● Что предсказывает нейронная сеть?
  67. 67. Классификация музыки ● Еще один пример, снова Pop ● Что предсказывает нейронная сеть? – Rap 0.48 – RnB 0.16 – Pop 0.09
  68. 68. Музыкальные рекомендации ● Есть методы коллаборативной фильтрации, которые неплохо работают ● В чем преимущества подхода основанного на анализе аудио сигнала? – Лучше для новых треков – Лучше для мало популярных треков
  69. 69. Спасибо за внимание! Вопросы?

×