Рейтинг моделей генерации изображений по тексту: ERNIE-Image от Baidu лидирует в Китае
Организация SuperCLUE опубликовала рейтинг китайских моделей для генерации изображений по текстовому описанию (Text-to-Image) за апрель 2026 года. В исследовании оценивались 18 ведущих моделей со всего мира по таким параметрам, как качество изображения, соответствие тексту и воспроизведение реальности.
Зарубежные модели по-прежнему сохраняют общее лидерство. Модель Nano Banana 2 от Google с результатом 83.73 балла заняла первое место в общем рейтинге, за ней следует Nano Banana Pro. Модель GPT-Image-1.5 от OpenAI расположилась на третьей строчке.
Китайские модели показали яркие результаты. ERNIE-Image от Baidu с 76.37 баллами стала лучшей среди отечественных моделей, разместившись сразу после GPT-Image-1.5. Модели Qwen-Image-2.0-Pro от Alibaba и Doubao-Seedream-5.0-lite от ByteDance также вошли в число лидеров, демонстрируя высокую конкуренцию внутри первого эшелона.
Исследование показывает, что индустрия в целом достигла зрелости в плане качества картинки, и многие модели получают высокие оценки. Однако соответствие изображения текстовому описанию остаётся слабым местом. Большинство моделей всё ещё отстают в понимании сложных текстов и точном воспроизведении описанных деталей, и лишь немногие демонстрируют выдающиеся результаты в этой области.
ERNIE-Image от Baidu показала стабильные результаты в задачах на соответствие тексту и генерацию китайских иероглифов. Модель особенно хорошо подходит для китайских сценариев, лучше справляясь с такими деталями, как соответствие основного объекта и контекста, что и стало ключевой причиной её лидерства в Китае.
Судя по сравнительным данным, китайские модели в генерации иероглифов уже не уступают зарубежным. В будущем, при дальнейшем улучшении семантического понимания и логических рассуждений, местные модели генерации изображений по тексту имеют все шансы сократить разрыв с ведущими мировыми решениями.







0 комментариев