Как стать автором
Обновить
0
Аудиомания
Одна из крупнейших Hi-Fi, High End компаний в СНГ

Аудиоанализ и алгоритмы обработки изображений

Время на прочтение 3 мин
Количество просмотров 7.2K
Автор оригинала: Jack Minardi


Сегодня мы поговорим об основных моментах исследования Джека Минарди, о котором он рассказал в своем личном блоге. Мы решили познакомить вас с ключевыми моментами работы Джека. Если вы хотите просто взглянуть на программный код, проследуйте в репозиторий на GitHub. Для подготовки материалов использован IPython Notebook.

Тема визуализации и обработки изображений с целью получения звука достаточно популярна. Совсем недавно мы рассказывали о Патрике Фистере и его истории об архивной находке в Индианском университете в Блумингтоне – более полумиллиона звукозаписей, видеозаписей и кинопленок, ряд из которых можно рассматривать в качестве старейших медиа-носителей.

Патрик говорил о следующем процессе воспроизведение звука по изображению: сканирование оригинала с высоким разрешением; «выпрямление» кругового изображения, используя преобразование из полярных координат в декартовы; «прикрепление» отдельных линий друг за другом. Далее – загрузка в программу ImageToSound, конвертация в формат WAV и объединение парных звуковых дорожек WAV в стереофайл.

В другом материале звук и музыка рассматриваются с точки зрения математики и программирования: для написания музыки было использовано машинное обучение и цепи Маркова. Такой подход позволяет оценить многогранную природу всего того, что мы привыкли слушать по дороге на работу или дома. В этом материале мы рассмотрим аудиоанализ с еще одной точки зрения.

Можно ли воспользоваться алгоритмами обработки изображений за пределами привычной области? Например, воспользоваться методом сопоставления шаблонов и изображений для генерирования звука: определить аудиозапись в базе данных, частью которой является аудиосэмпл, используя масочный метод сравнения.

Простой алгоритм сравнения с маской последовательно накладывает её на изображение и производит сравнение. Этим занимается функция match_template в skimage.feature. Она дает очень низкий шанс сопоставления шаблона с частком изображения.

Чувствительность к смещению временного диапазона может быть сведена к минимуму, если абстрагироваться от временной шкалы и перейти к уровню сигнала. Это делают с помощью дискретного преобразования Фурье (ДПФ). Подробнее об этом.

По своей сути, преобразование Фурье говорит нам, какие из частот сигнала обладают самыми высокими энергиями. Поскольку гармоники аудиосигнала, обычно, меняются с течением времени, то спектрограмма заключает в себе свойства временной и частотной областей.



На картинке видны две горизонтальные линии: аудио состоит из совокупности двух неизменяющихся сигналов

Как помочь системе определить, какой эпизод заранее заданного сериала воспроизводится в данный момент? Алгоритма сравнения Джека, в его первоначальной версии, мог сделать это за 20 секунд, но на помощь ему пришел человек по имени Гарри Найквист. Далее была проведена передискретизация с шагом 8, чтобы не потерять слишком много важной информации. Время выполнения уменьшилось в 15 раз.

Квантование дало дополнительное ускорение в 4 раза, по-прежнему сохранив хорошее соотношение сигнал/шум. Таким образом, программа верно распознала первый эпизод сезона, который загрузил Джек. Алгоритм смог идентифицировать первый из 11 эпизодов сериала Adventure Time с достаточной точностью и менее чем за 3 секунды.



Возможно, приложение Джека реализовано не лучшим образом, но свою задачу оно решает. Классический подход оказался самым понятным и простым в исполнении. Субдискретизация не была привязана к определенному типу используемого аудио, но могла все испортить при подключении другого источника звука. В дальнейшей работе на это стоит обратить дополнительное внимание.
Теги:
Хабы:
+8
Комментарии 1
Комментарии Комментарии 1

Публикации

Информация

Сайт
www.audiomania.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия

Истории