Статья «Принцип работы нейросети при работе со звуком и музыкой»

2
0
Материал опубликован 6 March

УДК 004.032.26

 

ПРИНЦИП РАБОТЫ НЕЙРОСЕТИ ПРИ РАБОТЕ СО ЗВУКОМ И МУЗЫКОЙ

 

Н.С. Ананьин,

Педагог дополнительного образования,

ГБДНОУ СПБ ГДТЮ,

ТЮТ,

г. Санкт-Петербург

 

Аннотация:

В последние годы нейросети очень активно развиваются и занимают всё больше сфер нашей жизни. Самым простым примером может быть голосовой помощник в смартфоне, который может отвечать на вопросы, выполнять команды, автоматизировать некоторые процессы и даже сочинять текст за нас. Также нейросети коснулись и сферы творчества, их используют для создания сценариев, видео, изображений и даже музыкальных композиций. На данный момент не идёт речь о полной замене человека в той или иной области на нейросеть, но нельзя отрицать их огромных возможностей и качества, которого они достигли на текущий момент.

Ключевые слова:

Звук, музыка, нейросеть, Deep Learning, обработка, амплитуда, частота, фаза, спектр, Фурье, Вейвлет-преобразование.

 

Впервые концепция нейросетей начала формироваться в 40-е годы 20 века. В 1943 году Уоррен Мак-Каллок и Уолтер Питтс описали модель нейронной сети, основанной на биологических принципах работы мозга в статье «Логический калькулятор, использующий нервные элементы» [1, с. 115-133]. В конце 50-х Фрэнк Розенблатт представил по сути первую практическую реализацию нейросети - персептрон (от латинского perceptio – восприятие). Разные исследователи по-разному определяют эту модель, в общем виде он представляет систему из элементов 3 разных типов: сенсоров, ассоциативных и реагирующих элементов [2]. Простыми словами – мы обучаем персептрон на изображениях двух объектов, например квадрат и круг, если после обработки изображения он выдаёт правильный ответ, мы ничего не делаем, если ошибается, корректируем входные данные и так до того момента, пока наше устройство не перестанет совершать ошибки при анализе данных. Вышеописанные процессы можно отнести к машинному обучению, в 1959 году Артур Сэмюел, сотрудник IBM, определил его как «область исследований, которая даёт компьютерам обучаться без явного программирования» [3, с. 5]. Из-за технических ограничений того времени концепция нейросетей не была развита должным образом и вернулись к разработке к концу 20-го века. Следующим шагом стало использование «метода обратного распространения ошибки», в котором основная мысль заключается в обучении нейросети на множестве данных, из которых она выдаёт собственные предположения [4]. После 2000 года начинает своё развитие метод глубинного обучения (Deep Learning), принципиально он отличался от предыдущих ещё большим объёмом данных, особенно с увеличением мощностей компьютеров, которые растут с каждым годом. Для понимания разницы между глубоким обучением и машинным, предлагается изучить таблицу из статьи «Deep learning: что это, как работает и где применяется» интернет журнала Compass [5]:

Параметр

Машинное обучение

Глубокое обучение

Обработка данных

Подходит для структурированных и полуструктурированных данных

Эффективно работает как со структурированными, так и несоструктурированными данными

Выполнение задач

Ограничено в выполнении сложных задач

Может обрабатывать задачи высокого уровня сложности

Использование данных

Необходимы предварительно обработанные и размеченные данные

Способно анализировать большие объёмы сырых данных для выявления закономерностей

Масштабируемость

Производительность ухудшается с ростом объёма данных

Производительность увеличивается при обработке больших объёмов данных

Таблица 1. Сравнение машинного и глубокого обучения [5]

 

В настоящий момент нейросети способны создавать контент, в том числе создавать музыку, при чём как музыкальные партии, так и текст для неё. Сферы применения нейросетей для создания музыки могут быть следующими:

- Необходимость фоновой музыки в определённом стиле, жанре, настроении, может быть актуально для торговых центров, лофт пространств, выставок;

- Коммерческий проект, в котором требуется использование музыки, которая не имеет авторских прав;

- Для создания контента, такого как видео или фильмы, когда нет возможности привлечь композитора или контентмейкер не обладает навыками работы с музыкой;

- Для развлечения – создание нейрокаверов, нейромэшапов или полностью новых произведений с известными исполнителями, используя их голос.

Анализируя список выше, можно выделить главное преимущество нейросетей для создания музыки, а именно отсутствие авторских прав. Даже если для использования нейромузыки требуется указывать соответствующую нейросеть, что обычно прописывается в пользовательском соглашении. В настоящее время все услуги, связанные с нейросетями, если они платные – требуют подписки, но в сравнении с заказом музыки у реального композитора, стоимость подписки выходит дешевле. В целом с нейросетями мы приходим к выводу о том, что они экономят наше время и сильно упрощают нашу жизнь, но споры о морали и контроле этого явления до сих пор продолжаются. При этом, в настоящее время нет оснований думать, что нейросети заменят всех музыкантов, поскольку людям важнее слушать творчество реальных людей, поскольку кроме самих композиций музыка также содержит жизнь и историю исполнителя, что немаловажно. Также стоит сказать, что нейросети помогают в редактировании звуковых сигналов - удаляют нежелательных шумы и артефакты, например старые любительские записи можно довести до хорошего качества звука. Алгоритмы по подбору музыки и рекомендаций в стриминговых сервисах тоже задействуют нейровычисления.

Рассмотрим детально механизмы обработки звуковых данных. Аудиообработка включает в себя ряд важных понятий и концепций, которые помогают понять, как работает обработка и анализ аудиоданных. Основные из них:

1. Амплитуда: Амплитуда аудиосигнала является одним из его наиболее фундаментальных свойств. Колебание молекул в воздухе или другой среде, создаёт звук. Выражается в децибелах (дБ), отображает логарифмический уровень мощности сигнала относительно эталонного значения слышимости для человека. Амплитуда устанавливает громкость аудиозаписей, управляет уровнями громкости в звуковой продукции и создаёт эффекты звуковой динамики, такие как атака и релиз в музыке. Также она важна в задачах обработки и улучшения аудиосигналов, где уровни амплитуды могут быть регулированы, чтобы устранить шум или усилить желаемые акустические события.

2. Частота: ключевой фактор, определяет скорость колебания звуковой волны за секунду времени. Выражается в герцах (Гц) и описывает, насколько быстро аудиоволна переходит от одной точки максимальной амплитуды к другой. Чем выше частота, тем более высокие и частотные звуки воспринимаются.

Низкие частоты обычно соответствуют басовым звукам. Это глубокие, гулкие звуки, которые создаются медленными колебаниями. Низкие частоты играют важную роль в формировании музыкальных басов и основных ритмов.

Средние частоты охватывают диапазон голоса, инструментов, таких как гитара и скрипка, являются важными составляющими мелодии и гармонии.

Высокие частоты определяют нюансы и детали в аудиосигнале. К ним относятся например звук сверчков, мелких перкуссионных инструментов, высокие ноты в вокале.

В аудиоинженерии и музыкальном производстве частота позволяет контролировать тон и характер звучания. Настройка эквалайзеров, фильтрация нежелательных частот и создание желаемого звучания достигается благодаря изучению характеристик частот. Также частотный анализ может использоваться для задач, таких как распознавание речи и классификация аудиоданных.

3. Фаза: в аудиообработке связана с текущим угловым положением звуковой волны в определенный момент времени. Измерение выражается в радианах и определяет, на какой стадии колебаний находится звуковая волна в данный момент. Понимание фазы помогает определить, в какой момент времени происходит начало или конец колебаний звуковой волны. При смешивании звуковых волн или их интерференции фаза оказывает влияние на звучание. Когда две звуковые волны с разной фазой встречаются, они могут усилить друг друга (конструктивная интерференция) или уменьшить амплитуду (деструктивная интерференция), что важно для формирования звучания и звуковых эффектов. В синтезе звука и создании аудиоэффектов фаза также играет важную роль. Манипуляции фазой могут использоваться для изменения звучания, включая создание фазовых эффектов, таких как фазовая модуляция и фазовая инверсия.

4. Спектр: при разделении сигнала на частоты, каждая частота в спектре представляет собой определенную частотную компоненту, присутствующую в сигнале. Спектр позволяет узнать с какой амплитудой каждая частота представлена в аудиосигнале, что позволяет определить вклад каждой частоты в звучание сигнала. Анализ спектра позволяет выполнять задачи по эквализации (регулирование частотных компонент), обнаружению и устранению шумовых составляющих, анализ и классификацию аудиосигналов. Для визуализации спектра пользуются спектрограммой - она показывает, как меняется спектр в зависимости от времени. Анализ спектра играет важную роль в аудиоинженерии, музыкальном производстве и обработке звука и помогает инженерам и артистам более точно понимать и манипулировать звучанием аудиосигналов.

При работе нейросетей, вышеупомянутые понятия являются фундаментальными для аудиообработки и аудиоанализа. Они позволяют понять и манипулировать характеристиками звуковых сигналов, что может быть важным при решении различных задач, включая фильтрацию, усиление, сжатие, анализ и синтез звука [5].

Далее рассмотрим основные методы анализов аудиосигнала, которые применяют в нейронных сетях:

1. Преобразование Фурье - это математический способ представления звукового сигнала в частотной области. Предположим, у нас есть аудиосигнал, представленный как функция амплитуды времени, обозначим его как g(t), где t – время. Преобразование Фурье этого сигнала позволяет разложить его на сумму гармонических сигналов разных частот:

t1741293254aa.png

Рисунок 1. Формула преобразования Фурье [6].

В исследуемой области g(t) определяется как первоначальный сигнал. В контексте преобразования Фурье его называют оригиналом. G(f) – изображение по Фурье, f - частота [6]. Интеграл анализирует, как разные частоты f влияют на исходный сигнал. Результатом является функция спектра, которая показывает, какие частоты присутствуют в сигнале и с какой амплитудой. Таким образом, анализировать его частотные компоненты сигнала становится возможно с помощью преобразования Фурье, поскольку оно предоставляет спектральное представление сигнала. Пример музыкальной ноты – играя ноту на гитаре можно увидеть во временной области график, который колеблется вверх и вниз с определенной частотой. Эта частота представляет основную частоту ноты, однако, помимо основной частоты, в этом звуке также присутствуют высшие гармоники, которые кратны основной частоте. Преобразование Фурье разложит этот сигнал на его основную частоту и гармоники, позволяя точно определить, какие компоненты составляют этот звук.

2. Вейвлет-преобразование – это более продвинутый метод, который позволяет анализировать аудиосигналы на разных временных и частотных масштабах. Вейвлет-преобразование разлагает сигнал, используя вейвлет-функции, которые могут быть масштабированы и сдвинуты. Это позволяет выделять как быстрые, так и медленные изменения в сигнале, что особенно полезно при анализе звука с переменной частотой и интенсивностью.

t1741293254ab.png

Рисунок 2. Вейвлет-преобразование [7].

В формуле a – коэффициент масштабирования сдвига, b – любое действительное число, определяющее сдвиг, t – время, Ψ(t) – вейвлет. Сигнал разлагается на вейвлет-коэффициенты, используя выбранный вейвлет. Этот шаг включает в себя свертку сигнала с вейвлет-функцией и вычисление коэффициентов на разных масштабах и позициях во времени. Чтобы разложить сигнал f(t) с использованием вейвлет-преобразования, сигнал сворачивается с масштабированной и сдвинутой вейвлет-функцией. Это приводит к получению вейвлет-коэффициентов для различных масштабов и временных сдвигов:

t1741293254ac.png

Рисунок 3. Разложение сигнала [5].

В формуле W(a,b) – вейвлет коэффициенты для конкретных значений a и b.

По итогу, преобразование Фурье обеспечивает хороший спектральный анализ и используется в эквализации и анализе спектра. Вейвлет-преобразование более гибкое и позволяет анализировать сигналы с разной временной и частотной структурой, что полезно в аудиоинженерии и обнаружении аномалий.

В зависимости от конкретной задачи и требований анализа аудиосигнала, один из методов (Фурье или Вейвлет-преобразование) может быть более предпочтителен при работе. Существует ещё множество архитектур нейросетей, которые применяют при работе, перечисление которых нельзя рассмотреть в рамках одной статьи, но работа, которая производится с нейросетями, будет иметь ещё большее развитие в ближайшее время.

 

 

Список использованных источников

 

1. McCulloch, W.S., Pitts, W., «A logical calculus of the ideas immanent in nervous activity», Издательство: Bulletin of Mathematical Biophysics 5, 1943 - 115–133 с.

2. Персептрон. Режим доступа: https://neural.radkopeter.ru/chapter/%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D1%8B/?ysclid=m6uy6xkffl237093993 (Дата обращения 06.03.25)

3. Wenmin Wang, «Principles of Machine Learning», Издательство: Springer Nature Singapore Pte Ltd., 2025, 527 с.

4. Метод обратного распространения ошибки. Режим доступа: https://otus.ru/nest/post/1592/ (Дата обращения 06.03.25)

5. Джейд Картер, «Нейросети. Обработка аудиоданных», Издательство: Автор, 2023 – 123 с.

6. Преобразование Фурье. Режим доступа: https://proglib.io/p/fourier-transform?ysclid=m7xf2teq7o823244633 (Дата обращения 06.03.25)

7. Вейвлет-преобразование. Режим доступа: https://habr.com/ru/articles/449646/ (Дата обращения 06.03.25)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

© Н.С. Ананьин, 2025

в формате Microsoft Word (.doc / .docx)
Комментарии
Комментариев пока нет.