Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам
И даже объединять несколько жанров
ИИ продолжает осваивать новые виды творческой деятельности. Нейросеть Riffusion, созданная разработчиками Сетом Форсгреном и Айком Мартиросом, способна генерировать мелодии по текстовым подсказкам. Для этого она создает визуальное представление звука, а затем преобразует его в аудио.
Диффузия — метод машинного обучения, который позволяет создавать изображения. Он используется в таких известных моделях, как DALL-E 2 и Stable Diffusion. Этот метод эффективен в самых разных контекстах и легко поддается тонкой настройке, при которой наиболее обученная модель получает множество контента определенного типа, чтобы производить больше подобных образцов.
Тонкую настройку можно произвести, например, на акварели или фотографиях автомобилей. В таком случае модель будет лучше всего справляться с генерацией изображений в одном из этих жанров.
Для своего хобби-проекта Riffusion Форсгрен и Мартирос произвели тонкую настройку Stable Diffusion на спектрограммах — визуальных представлениях звука, показывающих амплитуду различных частот во времени. Это довольно точное систематическое представление звука, которое можно снова преобразовать в аудио, выполнив тот же процесс в обратном порядке.
Форсгрен и Мартирос создали спектрограммы для множества музыкальных треков и добавили к ним соответствующие пометки: blues guitar (блюз на гитаре), jazz piano (джаз на фортепиано), afrobeat (афробит) и прочие. Эта коллекция изображений дала модели хорошее представление о том, как «выглядят» определенные звуки, а также как их можно воссоздавать и комбинировать.
Процесс диффузии. GIF-изображение: Сет Форсгрен и Айк Мартирос
Модель смогла генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как funky piano (фортепиано в стиле фанк) и jazzy saxophone (джаз на саксофоне).
Фото в тексте: Сет Форсгрен и Айк Мартирос
Спектрограммы генерируются в стандартном для Stable Diffusion разрешении — 512 x 512 пикселей. Такое квадратное изображение представляет лишь короткий отрывок. Для трехминутной песни потребовался бы гораздо более широкий прямоугольник (например, 512 x 10000 пикселей), но ограничения системы не позволяют создавать такую спектрограмму.
Немного поэкспериментировав, Форсгрен и Мартирос воспользовались особенностью структуры больших моделей, подобных Stable Diffusion, а именно «скрытым пространством». Это своего рода нейтральная территория между более четко определенными узлами.
Допустим, что одна из областей модели представляет кошек, а другая — собак. Эти области как раз и разделяет скрытое пространство, которое, если попросить ИИ нарисовать картину, выдало бы некое существо, объединяющее в себе кошку и собаку.
В случае Riffusion создатели обнаружили, что нейросеть может создавать мелодию с довольно постепенным и естественным переходом между битами, если дать ей две подсказки, такие как church bells (колокольный звон) и electronic beats (электронные биты).
В теории можно генерировать и более длинные отрывки, но, по словам Форсгрена, разработчики и «не пытались создать классическую трехминутную песню с повторяющимися припевами и куплетами».
Тем не менее Форсгрен считает, что это возможно. Например, если построить модель более высокого уровня для структуры песни, а отдельные отрывки генерировать при помощи модели более низкого уровня, или же обучить нейросеть на изображениях полных песен.
Riffusion — скорее демонстрация возможностей ИИ, чем инструмент, нацеленный на переизобретение музыки. Как утверждает Форсгрен, вместе с Мартиросом им было просто приятно наблюдать за тем, как пользователи взаимодействуют с разработкой и создают ее новые версии. Вы и сами можете протестировать модель на сайте Riffusion.com.
Фото на обложке: Iaremenko Sergii /
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Искусственный интеллект «Идея „ИИ всех заменит“ похожа на мыльный пузырь». Прогноз на 2026 год от специалиста по будущему 24 декабря 2025, 11:29
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Бизнес «Точно розовый?»: как Eburet из табурета-трансформера вырос в B2B-бренд, который заходит на рынок в 50 млрд ₽ 11 февраля 2026, 19:48
-
Бизнес Сергей Косинский: «Мне достался Франкенштейн, из которого попросили сделать нормального человека» 02 февраля 2026, 19:51
-
Искусственный интеллект В Яндекс Почту добавили чат с ИИ-ассистентом — Алиса Про может анализировать содержимое писем и редактировать их 14 апреля 2026, 15:00
-
Искусственный интеллект МТС запустил ИИ-сотрудников для бизнеса: нейросеть назначает собеседования и общается с кандидатами вместо HR 14 апреля 2026, 14:15
-
Реклама Яндекс внедрил ИИ-систему рекомендаций ARGUS в рекламу — теперь нейросети анализируют поведение пользователя за год 14 апреля 2026, 13:20
-
Бизнес СДЭК упростил импорт для B2B-клиентов — теперь накладные на небольшие посылки до €200 заполняются автоматически 15 апреля 2026, 07:00
-
Россия Подписные издания к 2030 году — не только в Москве и Петербурге: сеть откроет 6 книжных магазинов по всей России 13 апреля 2026, 17:30
-
Россия В работе «Ростелекома» произошёл масштабный сбой из-за DDoS-атаки — пользователи жалуются на проблемы с интернетом 06 апреля 2026, 23:59
-
Бизнес В Москве проходит форум о целевых капиталах: бизнес обсуждает финансовую устойчивость НКО и их будущее 03 апреля 2026, 14:17

