Alibaba открыла исходный код Qwen-Image-Layered — модели, которая понимает слои как в Photoshop
Alibaba открыла исходный код новой модели генерации изображений Qwen-Image-Layered (Qwen 1.5). Её ключевая особенность — способность понимать и генерировать изображения послойно, подобно тому, как это делается в профессиональных редакторах вроде Adobe Photoshop.
Большинство современных визуальных ИИ воспринимают изображение как плоский набор пикселей, что затрудняет точное редактирование. Например, при попытке переместить объект на картинке модель не знает, что должно быть на фоне, и часто перерисовывает всё изображение целиком, теряя согласованность.
Qwen-Image-Layered решает эту проблему. Модель использует инновационную архитектуру и новый метод кодирования RGBA-VAE, который вводит альфа-канал (слой прозрачности) в традиционные RGB-изображения, наделяя ИИ концепцией слоёв. Для обучения модели команда использовала реальную логику слоёв, извлечённую из огромного количества профессиональных файлов Photoshop (PSD).

Диаграмма архитектуры многослойной модели изображений Qwen
Это позволяет ИИ «разлагать» изображения на составляющие, понимать пространственные взаимосвязи объектов и точно редактировать отдельные элементы, не затрагивая остальные части композиции. Такой подход открывает новые возможности для профессиональных дизайнеров, аниматоров и специалистов по постпродакшену, значительно ускоряя создание цифрового контента.
Модель Qwen-Image-Layered опубликована в открытом доступе на платформах Moda и HuggingFace и доступна для бесплатного коммерческого использования.







0 комментариев