Истории / Искусственный интеллект

Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам

И даже объединять несколько жанров

27 декабря 2022, 16:43

Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам

Автор:

ИИ продолжает осваивать новые виды творческой деятельности. Нейросеть Riffusion, созданная разработчиками Сетом Форсгреном и Айком Мартиросом, способна генерировать мелодии по текстовым подсказкам. Для этого она создает визуальное представление звука, а затем преобразует его в аудио.

Диффузия — метод машинного обучения, который позволяет создавать изображения. Он используется в таких известных моделях, как DALL-E 2 и Stable Diffusion. Этот метод эффективен в самых разных контекстах и легко поддается тонкой настройке, при которой наиболее обученная модель получает множество контента определенного типа, чтобы производить больше подобных образцов.

Тонкую настройку можно произвести, например, на акварели или фотографиях автомобилей. В таком случае модель будет лучше всего справляться с генерацией изображений в одном из этих жанров.

Для своего хобби-проекта Riffusion Форсгрен и Мартирос произвели тонкую настройку Stable Diffusion на спектрограммах — визуальных представлениях звука, показывающих амплитуду различных частот во времени. Это довольно точное систематическое представление звука, которое можно снова преобразовать в аудио, выполнив тот же процесс в обратном порядке.

Форсгрен и Мартирос создали спектрограммы для множества музыкальных треков и добавили к ним соответствующие пометки: blues guitar (блюз на гитаре), jazz piano (джаз на фортепиано), afrobeat (афробит) и прочие. Эта коллекция изображений дала модели хорошее представление о том, как «выглядят» определенные звуки, а также как их можно воссоздавать и комбинировать.

Процесс диффузии. GIF-изображение: Сет Форсгрен и Айк Мартирос

Модель смогла генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как funky piano (фортепиано в стиле фанк) и jazzy saxophone (джаз на саксофоне).

Фото в тексте: Сет Форсгрен и Айк Мартирос

Спектрограммы генерируются в стандартном для Stable Diffusion разрешении — 512 x 512 пикселей. Такое квадратное изображение представляет лишь короткий отрывок. Для трехминутной песни потребовался бы гораздо более широкий прямоугольник (например, 512 x 10000 пикселей), но ограничения системы не позволяют создавать такую спектрограмму.

Немного поэкспериментировав, Форсгрен и Мартирос воспользовались особенностью структуры больших моделей, подобных Stable Diffusion, а именно «скрытым пространством». Это своего рода нейтральная территория между более четко определенными узлами.

Допустим, что одна из областей модели представляет кошек, а другая — собак. Эти области как раз и разделяет скрытое пространство, которое, если попросить ИИ нарисовать картину, выдало бы некое существо, объединяющее в себе кошку и собаку.

В случае Riffusion создатели обнаружили, что нейросеть может создавать мелодию с довольно постепенным и естественным переходом между битами, если дать ей две подсказки, такие как church bells (колокольный звон) и electronic beats (электронные биты).

В теории можно генерировать и более длинные отрывки, но, по словам Форсгрена, разработчики и «не пытались создать классическую трехминутную песню с повторяющимися припевами и куплетами».

Тем не менее Форсгрен считает, что это возможно. Например, если построить модель более высокого уровня для структуры песни, а отдельные отрывки генерировать при помощи модели более низкого уровня, или же обучить нейросеть на изображениях полных песен.

Riffusion — скорее демонстрация возможностей ИИ, чем инструмент, нацеленный на переизобретение музыки. Как утверждает Форсгрен, вместе с Мартиросом им было просто приятно наблюдать за тем, как пользователи взаимодействуют с разработкой и создают ее новые версии. Вы и сами можете протестировать модель на сайте Riffusion.com.

Источник.

Фото на обложке: Iaremenko Sergii / Shutterstock

Подписаться на телеграм-канал