OpenAI представила свою первую модель генерации видео Sora

16 февраля 2024, 10:06 / Технологии → Новости / Технологии

OpenAI

Thumbnail: OpenAI OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом. Некоммерческая организация OpenAI была основана в декабре 2015 года; её сопредседателями стали Сэм Олтмен и Илон Маск. Википедия

представила новую модель ИИ Sora для генерации видео, которая «может создавать реалистичные и фантазийные сцены по текстовым инструкциям». Модель

Thumbnail: Модель Моде́ль (фр. modèle от лат. modulus «мера, аналог, образец») — система, исследование которой служит средством для получения информации о другой системе; представление некоторого реального процесса, устройства или концепции. Модель есть абстрактное представление реальности в какой-либо форме (например, в математической, физической, символической, графической или дескриптивной), предназначенное для рассмотрения определённых аспектов этой реальности и позволяющее получить ответы на изучаемые вопросы:80. Википедия

преобразования текста в видео позволяет создавать на базе текстовых описаний фотореалистичные видео длиной до минуты с разрешением Full HD (1920 × 1080 точек).

Sora способна создавать «сложные сцены с несколькими персонажами, конкретными типами движения и точной детализацией объекта и фона», сказано в блоге OpenAI. Компания также отмечает, что нейросеть может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции».

Модель может генерировать видео на основе неподвижного изображения, заполнять недостающие кадры в существующем видео или расширять его. Среди демонстрационных роликов, созданных при помощи Sora и показанных в блоге OpenAI, сцена Калифорнии времен золотой лихорадки, видео, которое было снято как будто изнутри токийского поезда, и прочие. Многие из них имеют отдельные артефакты, указывающие на работу искусственного интеллекта. К примеру, подозрительно движущийся пол в видеоролике о музее. Сама OpenAI говорит, что модель «может испытывать трудности с точным моделированием физики сложной сцены», но в целом результаты довольно впечатляющие.

Пару лет назад собственно генераторы текста в изображение, такие как Midjourney, лучше всего демонстрировали способности ИИ

Thumbnail: Искусственный интеллект Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

превращать слова в изображения. Но в недавнем времени генеративное видео стало улучшаться заметными темпами: такие компании, как Runway и Pika, продемонстрировали впечатляющие модели преобразования текста в видео, а Lumiere от Google, похоже, станет одним из основных конкурентов OpenAI в этой области. Как и Sora, Lumiere предоставляет игрокам инструменты для преобразования текста в видео, а также позволяет создавать видео из неподвижного изображения.

В данный момент Sora доступна только отдельным тестировщикам, которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ по запросу отдельным художникам, дизайнерам и кинематографистам, чтобы получить обратную связь. Компания отмечает, что действующая модель может неточно имитировать физику сложной сцены и неправильно интерпретировать отдельные случаи причинно-следственных связей.