ИИ продолжает осваивать новые виды творческой деятельности. Нейросеть Riffusion, созданная разработчиками Сетом Форсгреном и Айком Мартиросом, способна генерировать мелодии по текстовым подсказкам. Для этого она создает визуальное представление звука, а затем преобразует его в аудио.
Диффузия — метод машинного обучения, который позволяет создавать изображения. Он используется в таких известных моделях, как DALL-E 2 и Stable Diffusion. Этот метод эффективен в самых разных контекстах и легко поддается тонкой настройке, при которой наиболее обученная модель получает множество контента определенного типа, чтобы производить больше подобных образцов.
Тонкую настройку можно произвести, например, на акварели или фотографиях автомобилей. В таком случае модель будет лучше всего справляться с генерацией изображений в одном из этих жанров.
Для своего хобби-проекта Riffusion Форсгрен и Мартирос произвели тонкую настройку Stable Diffusion на спектрограммах — визуальных представлениях звука, показывающих амплитуду различных частот во времени. Это довольно точное систематическое представление звука, которое можно снова преобразовать в аудио, выполнив тот же процесс в обратном порядке.
Форсгрен и Мартирос создали спектрограммы для множества музыкальных треков и добавили к ним соответствующие пометки: blues guitar (блюз на гитаре), jazz piano (джаз на фортепиано), afrobeat (афробит) и прочие. Эта коллекция изображений дала модели хорошее представление о том, как «выглядят» определенные звуки, а также как их можно воссоздавать и комбинировать.
Процесс диффузии. GIF-изображение: Сет Форсгрен и Айк Мартирос
Модель смогла генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как funky piano (фортепиано в стиле фанк) и jazzy saxophone (джаз на саксофоне).
Фото в тексте: Сет Форсгрен и Айк Мартирос
Спектрограммы генерируются в стандартном для Stable Diffusion разрешении — 512 x 512 пикселей. Такое квадратное изображение представляет лишь короткий отрывок. Для трехминутной песни потребовался бы гораздо более широкий прямоугольник (например, 512 x 10000 пикселей), но ограничения системы не позволяют создавать такую спектрограмму.
Немного поэкспериментировав, Форсгрен и Мартирос воспользовались особенностью структуры больших моделей, подобных Stable Diffusion, а именно «скрытым пространством». Это своего рода нейтральная территория между более четко определенными узлами.
Допустим, что одна из областей модели представляет кошек, а другая — собак. Эти области как раз и разделяет скрытое пространство, которое, если попросить ИИ нарисовать картину, выдало бы некое существо, объединяющее в себе кошку и собаку.
В случае Riffusion создатели обнаружили, что нейросеть может создавать мелодию с довольно постепенным и естественным переходом между битами, если дать ей две подсказки, такие как church bells (колокольный звон) и electronic beats (электронные биты).
В теории можно генерировать и более длинные отрывки, но, по словам Форсгрена, разработчики и «не пытались создать классическую трехминутную песню с повторяющимися припевами и куплетами».
Тем не менее Форсгрен считает, что это возможно. Например, если построить модель более высокого уровня для структуры песни, а отдельные отрывки генерировать при помощи модели более низкого уровня, или же обучить нейросеть на изображениях полных песен.
Riffusion — скорее демонстрация возможностей ИИ, чем инструмент, нацеленный на переизобретение музыки. Как утверждает Форсгрен, вместе с Мартиросом им было просто приятно наблюдать за тем, как пользователи взаимодействуют с разработкой и создают ее новые версии. Вы и сами можете протестировать модель на сайте Riffusion.com.
Фото на обложке: Iaremenko Sergii /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025