Cohere выпустила открытую модель для транскрибации аудио

Компания Cohere, специализирующаяся на корпоративном искусственном интеллекте, представила свою первую голосовую модель — Transcribe. Это модель автоматического распознавания речи с открытым исходным кодом, предназначенная для таких задач, как создание заметок и анализ речи.

Модель относительно легкая — всего 2 миллиарда параметров, что позволяет запускать её на потребительских видеокартах для локального использования. На данный момент она поддерживает 14 языков: английский, французский, немецкий, итальянский, испанский, португальский, греческий, голландский, польский, китайский, японский, корейский, вьетнамский и арабский.

Cohere заявляет, что Transcribe превосходит такие модели, как Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech, на лидерборде Hugging Face Open ASR. Её средний уровень ошибок по словам (WER) составляет 5.42, что ниже, чем у любой другой модели в этом тесте.

По словам компании, когда люди-оценщики проверяли транскрипции на точность, связность и удобство использования, Transcribe в среднем выигрывала у конкурентов в 61% случаев. Однако модель отставала от соперников при транскрибации португальского, немецкого и испанского языков.

Cohere утверждает, что Transcribe может обработать 525 минут аудио за одну минуту, что является высоким показателем для модели такого класса.

Компания планирует интегрировать Transcribe в свою платформу для оркестрации корпоративных агентов North и предоставляет модель бесплатно через свой API. Модель также будет доступна на Model Vault — управляемой платформе для инференса от Cohere.

Модели распознавания речи становятся всё популярнее по мере роста спроса на приложения для создания заметок и диктовки, такие как Granola и Wispr Flow.

Ранее в этом году, как сообщалось, Cohere сообщила инвесторам, что её ежегодный повторяющийся доход в 2025 году составил 240 миллионов долларов (~19.2 млрд рублей). Генеральный директор компании Эйдан Гомес заявил, что стартап может вскоре провести первичное публичное размещение акций (IPO).

ИИ: Выход легковесной, но мощной модели с открытым кодом — важный шаг для демократизации технологий распознавания речи. Это позволяет небольшим разработчикам и исследователям создавать свои решения, не полагаясь на закрытые API крупных корпораций. Особенно интересна поддержка 14 языков, включая русский, что открывает новые возможности для локальных проектов.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии