ChatGPT Images 2.0 научился генерировать читаемый текст на изображениях

Раньше отличить изображение, созданное человеком, от сгенерированного искусственным интеллектом, было довольно просто. Ещё два года назад модели для генерации картинок не могли правильно написать меню для мексиканского ресторана, изобретая странные блюда вроде «энчиты», «чурирос», «буррто» и «маргарты».

Теперь, если попросить новую модель ChatGPT Images 2.0 создать меню мексиканской кухни, она выдаст результат, который можно сразу использовать в ресторане, и клиенты вряд ли заметят подвох. (Хотя цена в 13.50 долларов (около 1080 рублей) за севиче может заставить задуматься о качестве рыбы.)

Источник изображения: ChatGPT Images 2.0

Для сравнения — вот результат, который два года назад выдал DALL-E 3 (тогда ChatGPT ещё не генерировал изображения):

Источник изображения: Microsoft Designer (DALL-E 3)

Генераторы изображений на основе ИИ исторически плохо справлялись с текстом, поскольку обычно использовали диффузионные модели, которые работают путём реконструкции изображения из шума.

Диффузионные модели восстанавливают заданный входной сигнал. Можно предположить, что надписи на изображении составляют очень и очень малую часть, поэтому генератор изображений изучает паттерны, которые покрывают больше этих пикселей.

С тех пор исследователи изучили другие механизмы генерации изображений, например, авторегрессионные модели, которые предсказывают, как должно выглядеть изображение, и функционируют больше как большая языковая модель (LLM).

К сожалению, на этой неделе на брифинге для прессы OpenAI отказалась отвечать на вопрос о том, какая именно модель лежит в основе ChatGPT Images 2.0.

Однако компания пояснила, что новая модель обладает «способностью к размышлению», что позволяет ей искать информацию в интернете, создавать несколько изображений по одному запросу и перепроверять свои творения. Благодаря этому Images 2.0 может создавать маркетинговые материалы различных размеров, а также многостраничные комиксы.

OpenAI также заявляет, что Images 2.0 лучше понимает рендеринг нелатинского текста на таких языках, как японский, корейский, хинди и бенгальский. Знания модели актуальны на декабрь 2025 года, что может повлиять на точность генерации запросов, связанных с недавними новостями.

Images 2.0 выводит создание изображений на беспрецедентный уровень детализации и точности. Модель не только может концептуализировать более сложные изображения, но и эффективно воплощает это видение в жизнь, следуя инструкциям, сохраняя запрошенные детали и отрисовывая мелкозернистые элементы, которые часто ломают другие модели: мелкий текст, иконографию, элементы пользовательского интерфейса, плотные композиции и тонкие стилистические ограничения — всё это в разрешении до 2K.

Эти возможности означают, что генерация изображений происходит не так быстро, как печать вопроса в ChatGPT, но создание чего-то сложного, например, многостраничного комикса, всё равно занимает всего несколько минут.

Все пользователи ChatGPT и Codex получат доступ к Images 2.0 со вторника, 22 апреля; платные пользователи смогут генерировать более продвинутые результаты. Компания также сделает доступным API gpt-image-2, стоимость которого будет зависеть от качества и разрешения выходных данных.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии