Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам
И даже объединять несколько жанров
ИИ продолжает осваивать новые виды творческой деятельности. Нейросеть Riffusion, созданная разработчиками Сетом Форсгреном и Айком Мартиросом, способна генерировать мелодии по текстовым подсказкам. Для этого она создает визуальное представление звука, а затем преобразует его в аудио.
Диффузия — метод машинного обучения, который позволяет создавать изображения. Он используется в таких известных моделях, как DALL-E 2 и Stable Diffusion. Этот метод эффективен в самых разных контекстах и легко поддается тонкой настройке, при которой наиболее обученная модель получает множество контента определенного типа, чтобы производить больше подобных образцов.
Тонкую настройку можно произвести, например, на акварели или фотографиях автомобилей. В таком случае модель будет лучше всего справляться с генерацией изображений в одном из этих жанров.
Для своего хобби-проекта Riffusion Форсгрен и Мартирос произвели тонкую настройку Stable Diffusion на спектрограммах — визуальных представлениях звука, показывающих амплитуду различных частот во времени. Это довольно точное систематическое представление звука, которое можно снова преобразовать в аудио, выполнив тот же процесс в обратном порядке.
Форсгрен и Мартирос создали спектрограммы для множества музыкальных треков и добавили к ним соответствующие пометки: blues guitar (блюз на гитаре), jazz piano (джаз на фортепиано), afrobeat (афробит) и прочие. Эта коллекция изображений дала модели хорошее представление о том, как «выглядят» определенные звуки, а также как их можно воссоздавать и комбинировать.
Процесс диффузии. GIF-изображение: Сет Форсгрен и Айк Мартирос
Модель смогла генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как funky piano (фортепиано в стиле фанк) и jazzy saxophone (джаз на саксофоне).
Фото в тексте: Сет Форсгрен и Айк Мартирос
Спектрограммы генерируются в стандартном для Stable Diffusion разрешении — 512 x 512 пикселей. Такое квадратное изображение представляет лишь короткий отрывок. Для трехминутной песни потребовался бы гораздо более широкий прямоугольник (например, 512 x 10000 пикселей), но ограничения системы не позволяют создавать такую спектрограмму.
Немного поэкспериментировав, Форсгрен и Мартирос воспользовались особенностью структуры больших моделей, подобных Stable Diffusion, а именно «скрытым пространством». Это своего рода нейтральная территория между более четко определенными узлами.
Допустим, что одна из областей модели представляет кошек, а другая — собак. Эти области как раз и разделяет скрытое пространство, которое, если попросить ИИ нарисовать картину, выдало бы некое существо, объединяющее в себе кошку и собаку.
В случае Riffusion создатели обнаружили, что нейросеть может создавать мелодию с довольно постепенным и естественным переходом между битами, если дать ей две подсказки, такие как church bells (колокольный звон) и electronic beats (электронные биты).
В теории можно генерировать и более длинные отрывки, но, по словам Форсгрена, разработчики и «не пытались создать классическую трехминутную песню с повторяющимися припевами и куплетами».
Тем не менее Форсгрен считает, что это возможно. Например, если построить модель более высокого уровня для структуры песни, а отдельные отрывки генерировать при помощи модели более низкого уровня, или же обучить нейросеть на изображениях полных песен.
Riffusion — скорее демонстрация возможностей ИИ, чем инструмент, нацеленный на переизобретение музыки. Как утверждает Форсгрен, вместе с Мартиросом им было просто приятно наблюдать за тем, как пользователи взаимодействуют с разработкой и создают ее новые версии. Вы и сами можете протестировать модель на сайте Riffusion.com.
Фото на обложке: Iaremenko Sergii /
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Бизнес Кнопка «Войти через Google» — уже нарушение: юристы разъяснили закон о запрете авторизации через зарубежные сервисы 12 июня 2026, 16:00
-
Бизнес Где в Москве искать «пухососов»: Яндекс Go превратил все такси на карте города в роботов из мема 11 июня 2026, 16:04
-
Россия Российские музыканты работают на заводах и стройках — каждый четвёртый получает менее 50 тыс. ₽ 12 июня 2026, 13:00
-
Банки 19 июня ЦБ проведёт заседание по ключевой ставке: аналитики ожидают дальнейшего снижения — до 14% 12 июня 2026, 10:00
-
Туризм Россияне готовы путешествовать по стране, но не знают, куда ехать: главной проблемой оказался дефицит информации 11 июня 2026, 15:54
-
Реклама Т-Банк будет использовать банковские данные клиентов при показе рекламы — юристы говорят о правовых рисках 10 июня 2026, 14:00
-
Искусственный интеллект OpenAI подала конфиденциальную заявку на IPO — компания может выйти на биржу уже в сентябре 09 июня 2026, 13:15
-
Технологии Яндекс Карты добавили 120 тыс. отметок о доступности мест маломобильным людям: данные обновляет ИИ — автоматически 05 июня 2026, 20:42

