Анастасия Марьина
SberDevices представила GigaAM — это семейство open-source моделей машинного обучения для распознавания речи и эмоций, говорится в сообщении SberDevices.
Акустические модели можно использовать для подготовки дипломных работ и научных статей. Разработкой занимались команды сервисов GigaChat и SaluteSpeech в SberDevices.
- GigaAM — Audio Foundation Model, предобучена на разнообразной русской речи. Можно использовать для адаптации под разные задачи работы со звуком, в том числе для распознавания речи и эмоций, определения диктора и другие.
- GigaAM-CTC — открытая модель для распознавания запросов на русском языке. Оценка качества на 7 срезах данных (от запросов в «умные» колонки до записей из телефонного канала) показала, что модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
- GigaAM-Emo — акустическая модель, созданная для определения эмоций. По данным SberDevices, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей.
Все модели размещены в открытом доступе с некоммерческой лицензией.
Фото на обложке: Unsplash
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Как заработать на продажaх»
- 1 Голосовые технологии, адаптация и рост: пять лет Fromtech на рынке
- 2 В «Алисе» «на железном уровне» блокируется навык «подслушивания»
- 3 Skyeng разработал разговорный ИИ-тест для определения уровня владения английским языком
- 4 В MTS Exolve появилась возможность переводить звонки в текст
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025
Популярное
Истории