Alibaba выпускает Qwen-Image-Edit: модель с открытым исходным кодом для расширенного редактирования изображений и текста стоимостью 20 млрд долларов
Коротко Команда Qwen из Alibaba Cloud запустила Qwen-Image-Edit — современную модель редактирования изображений, которая сочетает в себе семантическое и внешнее редактирование с точной двуязычной модификацией текста, предоставляя расширенные возможности для творческих и практических приложений.
Alibaba Cloud's Qwen Команда разработчиков представила Qwen-Image-Edit — усовершенствованную модель редактирования изображений, созданную на основе фреймворка Qwen-Image 20B. Новая система расширяет уникальные возможности рендеринга текста Qwen-Image, применяя их к редактированию изображений, уделяя особое внимание точности внесения изменений в текст. Qwen-Image-Edit обрабатывает входные изображения с помощью двух параллельных компонентов: Qwen2.5-VL, который управляет визуальной семантикой, и VAE Encoder, который управляет визуальным представлением. Этот двойной подход позволяет модели эффективно выполнять задачи редактирования как на семантическом уровне, так и на уровне представления. Инструмент доступен через чат Qwen в разделе «Редактирование изображений».
Qwen-Image-Edit разработан для работы в различных измерениях. Он поддерживает как корректировки внешнего вида, такие как добавление, удаление или изменение визуальных элементов, сохраняя при этом все остальные области изображения, так и семантические изменения, такие как создание объектов интеллектуальной собственности, поворот объектов или перенос стилей, где допускается более широкое изменение пикселей при сохранении семантической целостности. Он также предоставляет расширенные возможности редактирования текста на китайском и английском языках, позволяя пользователям добавлять, удалять или корректировать текст на изображениях, сохраняя при этом единообразие шрифта, размера и стиля. Тестирование производительности на нескольких широко известных наборах данных показывает, что Qwen-Image-Edit достигает высочайшего уровня производительности в редактировании изображений, что делает его надежной базовой моделью для будущих приложений в этой области.
Семантическое и внешнее редактирование Qwen-Image-Edit для творческих и практических применений
Один из defiОтличительной особенностью Qwen-Image-Edit является его расширенный функционал как семантического, так и внешнего редактирования. Семантическое редактирование подразумевает изменение содержания изображения с сохранением его визуального смысла. Чтобы наглядно проиллюстрировать эту функцию, команда разработчиков демонстрирует её использование. Qwen Официальный талисман — Капибара — в качестве практического примера.
Наблюдения показывают, что, хотя большинство пикселей на изменённом изображении отличаются от пикселей на исходном входном изображении слева, общая целостность персонажа Капибары полностью сохраняется. Это демонстрирует широкие возможности семантического редактирования Qwen-Image-Edit, поддерживающие гибкую и разнообразную разработку оригинального контента интеллектуальной собственности. Кроме того, в Qwen Chat был создан специальный набор подсказок для редактирования, основанный на 16 типах личности MBTI. С помощью этих подсказок была успешно создана полная коллекция эмодзи-пакетов на тему MBTI с талисманом Капибары, что эффективно расширяет как репрезентативность, так и узнаваемость персонажа.
Более того, синтез новых ракурсов представляет собой ещё один важный пример использования семантического редактирования. Qwen-Image-Edit способен поворачивать объекты на 90 градусов или на 180 градусов, обеспечивая прямую визуализацию обратной стороны объекта. Ещё одним примером семантического редактирования является перенос стиля, когда, например, стандартный портрет может быть переосмыслен в различных художественных эстетических стилях, включая стили, напоминающие стили Studio Ghibli.
Наряду с семантическим редактированием, редактирование внешнего вида часто является необходимой функцией при модификации изображений. Этот подход фокусируется на сохранении определённых областей изображения в неизменном виде при добавлении, удалении или изменении определённых элементов. Как показано на примере вывески, органично вписанной в сцену, редактирование внешнего вида применимо в самых разных областях, например, для корректировки фона для людей или модификации одежды. Ещё defiГлавной возможностью Qwen-Image-Edit является точность редактирования текста, которая является результатом передового опыта Qwen-Image в технологиях рендеринга текста.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
CandyBomb x SAPIEN: торгуйте фьючерсами и разделите 150,000 SAPIEN!
Bitget Trading Club Championship (5-й этап) — получите долю от 80,000 BGB, до 800 BGB на пользователя!
Карнавал Bitget x DGC: разделите 6,480,000,000 DGC
[Первичный листинг] Листинг DecentralGPT (DGC) в зонах Инноваций и AI на Bitget
Популярное
ДалееЦены на крипто
Далее








