VALL-E от Microsoft может воспроизвести любой голос за три секунды

Технологии искусственного интеллекта развиваются с невероятной скоростью. После моделей ИИ, которые могут создавать изображения из ваших слов и разговаривать с вами, теперь Microsoft

Microsoft Corporation (произносится «ма́йкрософт»; как правило, именуется просто Microsoft; распространено сокращение MS) — одна из крупнейших транснациональных компаний по производству проприетарного программного обеспечения для различного рода вычислительной техники — персональных компьютеров, игровых приставок, КПК, мобильных телефонов и прочего, разработчик наиболее широко распространённой на данный момент в мире программной платформы — семейства операционных систем Windows. Подразделения компании также производят семейство игровых консолей Xbox, а также аксессуары для персональных компьютеров (клавиатуры, мыши и т. д.). C 2012 года производит собственный планшетный компьютер — Surface. Википедия

Читайте также:Microsoft обязалась 10 лет выпускать Call of Duty на консолях NintendoMicrosoft утверждает, что GTA 6 выйдет в 2024 годуMicrosoft представила Surface Studio 2 Plus с процессором Core i7 и видеокартой RTX 3060На gamescom 2022 Xbox покажет Lies of P, High on Life и многое другоеSony обеспокоена приобретением Microsoft франшизы Call of Duty

представила VALL-E — ИИ, который может научится имитировать любой звук, который он услышит, всего за три секунды. В отличие от многих инструментов искусственного интеллекта, VALL-E может воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые автор оригинальной речи никогда не произносил.

VALL-E был обучен на 60 000 часов речевых данных на английском языке. Инструменту достаточно всего 3 секунды записи определенного голоса в качестве подсказки для создания контента.

Это значительный прогресс в области речи, генерируемой искусственным интеллектом, поскольку предыдущие модели могли воспроизводить только голос, но не эмоции или тон говорящего. В документе Корнельского университета VALL-E использовался для синтеза нескольких голосов, и некоторые примеры работы доступны на GitHub. В то время как образцы голоса, используемые Microsoft, различаются по качеству, некоторые из них звучат естественно, а другие явно сгенерированы машиной и звучат роботизированно. Однако по мере того, как технология ИИ продолжает совершенствоваться, сгенерированные записи, вероятно, станут более убедительными.

Тем не менее, есть опасения по поводу этических последствий этой технологии. По мере того, как искусственный интеллект становится все более мощным, голоса, генерируемые VALL-E и аналогичными технологиями, будут становиться все более убедительными, что может открыть дверь для реалистичных спам-звонков, воспроизводящих голоса реальных людей, которых знает потенциальная жертва. Политики и другие общественные деятели также могут быть "скопированы", что может привести к распространению ложной информации в социальных сетях.

Кроме того, появляются потенциальные проблемы с безопасностью, так как некоторые банки используют технологию распознавания голоса для проверки личности звонящего. Кроме того, технология может также повлиять на актеров озвучивания, поскольку их услуги могут больше не понадобиться, если голоса, генерируемые ИИ, станут более реалистичными.

VALL-E — это впечатляющий инструмент искусственного интеллекта, который может произвести революцию в области синтеза голоса. Однако это также вызывает несколько этических проблем и проблем безопасности. Для таких компаний, как Microsoft, будет важно разработать меры по регулированию использования VALL-E, чтобы гарантировать, что она используется во благо, а не в злонамеренных целях.

Подписаться на обновления Новости / Технологии

0 комментариев

Оставить комментарий