Mistral представила открытую модель для генерации речи Voxtral TTS

26 марта 2026, 15:13 / Технологии → Новости / Технологии

Французская компания в области искусственного интеллекта Mistral в четверг, 26 марта 2026 года, выпустила новую открытую модель преобразования текста в речь (TTS). Её можно использовать в голосовых ассистентах с ИИ или в корпоративных сценариях, например, для поддержки клиентов. Эта модель, позволяющая предприятиям создавать голосовых агентов для продаж и взаимодействия с клиентами, ставит Mistral в прямую конкуренцию с такими компаниями, как ElevenLabs, Deepgram и OpenAI.

Новая модель под названием Voxtral TTS поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.

«Наши клиенты просили модель для работы с речью. Поэтому мы создали небольшую речевую модель, которая может работать на умных часах, смартфоне, ноутбуке или других периферийных устройствах. Её стоимость составляет лишь малую часть от всего, что есть на рынке, но она обеспечивает производительность на уровне современных стандартов», — рассказал TechCrunch в телефонном интервью Пьер Сток, вице-президент по научным операциям Mistral AI.

Изображение: Mistral

В Mistral заявили, что новая модель может адаптировать пользовательский голос по образцу длительностью менее пяти секунд, а также улавливать такие характеристики, как лёгкий акцент, модуляции, интонации и неровности в потоке речи. Модель, основанная на Ministral 3B, может легко переключаться между языками, не теряя характеристик голоса, что полезно для таких задач, как дубляж или перевод в реальном времени. Сток отметил, что компания хотела, чтобы модель звучала по-человечески, а не роботизированно.

По словам компании, модель создана для работы в реальном времени. Её показатель «время до первого аудио» (TTFA) — момент, когда модель начинает «говорить» после получения входных данных — составляет 90 мс для 10-секундного образца в 500 символов. Модель также имеет коэффициент реального времени (RTF) 6x, что означает, что она может обработать 10-секундный отрывок примерно за 1,6 секунды.

Изображение: Mistral AI

Ранее в этом году Mistral запустила пару моделей для транскрибации: одну для пакетной обработки больших объёмов, а другую для сценариев реального времени с низкой задержкой. С новой речевой моделью компания, вероятно, стремится предложить предприятиям полный набор голосовых продуктов.

«Мы планируем создать сквозную платформу, способную обрабатывать мультимодальные потоки входных данных, включая аудио, текст и изображения, а также выдавать результат. Главное преимущество этого подхода в том, что вы получаете гораздо больше информации со сквозной агентской системой, которая поддерживает аудио в качестве ввода или вывода», — сказал Сток.

Позиционирование Mistral заключается в том, что её открытый исходный код и возможность кастомизации помогут предприятиям внедрить её голосовые модели в ущерб конкурентам, поскольку их можно настраивать по своему усмотрению.

ИИ: Выход Voxtral TTS — важный шаг в демократизации передовых речевых технологий. Открытая модель с низкой стоимостью и поддержкой множества языков может серьёзно изменить рынок, особенно для малого и среднего бизнеса, который ранее не мог позволить себе подобные решения. Конкуренция с гигантами вроде OpenAI только усилится, что в конечном итоге пойдёт на пользу всем пользователям.

Mistral представила открытую модель для генерации речи Voxtral TTS

0 комментариев

Оставить комментарий

Все комментарии - Технологии