Сегодня сложно удивить пользователей, выкатив очередную ИИ-модель, которая способна генерировать статичные креативы. Подобных сервисов действительно много, а мы постоянно обозреваем новинки, чтобы быть в курсе, что происходит на рынке нейросетей. Каждый раз компании обещают быструю скорость создания картинок, рассказывают о новых архитектурах и показывают таблицы с тестами, стараясь нас удивить. Но для базового юзера все эти цифры почти ничего не значат — люди хотят видеть быструю и качественную генерацию своего промпта, желательно дешево или вообще бесплатно.
Сегодня у нас на обзоре Z-Image — новая китайская нейросеть, которая умеет не только создавать, но и локально редактировать изображения. Посмотрим, насколько хорошо она справляется с промптами, кому точно стоит ее протестировать и есть ли у нее недостатки.
Z-Image — китайская замена Nano Banana?
Z-Image — это новый ИИ для генерации и редактирования изображений от команды Tongyi Lab, которая является подразделением холдинга Alibaba. Пользователи, которые успели ознакомиться с новым сервисом, отмечают его схожесть с Nano Banana в умении локально редактировать креативы.
Модель поддерживает 6 миллиардов параметров, а создатели обещают, что качество ее работы не уступает коммерческим конкурентам, оставляя при этом открытый исходный код. В Z-Image была использована архитектура DiT, позволяющая обрабатывать одновременно текстовые данные и визуал. Благодаря такому методу работы нейронка лучше понимает связь между промптом и изображением, получая на выходе более точную генерацию при меньших вычислительных затратах.

Z-Image умеет:
- создавать фотореалистичные изображения;
- работать с естественным светом;
- делать мягкий цветовой баланс;
- генерировать реалистичную текстуру кожи;
- работать с культурными особенностями;
- выполнять сложные промпты и расплывчатые инструкции.

На данный момент сервис занимает десятую строчку в рейтинге в категории Text-to-Image среди конкурентов. Если вам кажется, что это посредственный показатель, учтите, что официальная «полная» версия Z-Image еще не вышла. Нейронка все еще находится на стадии бета-тестирования.
Одним из важных отличий нейросети от других решений с открытым исходным кодом является интеллект и знания о реальном мире. Это помогает сервису выстраивать логику перед генерацией, а не просто заниматься поиском визуальных соответствий. В ИИ разработчики заложили знания об объектах и мировой культуре, что позволяет корректно создавать изображения с мировыми достопримечательностями, элементами одежды, персонажами, при этом не искажая детали.
Как пользоваться Z-Image
Alibaba создали линейку, состоящую из трех моделей, каждая из которых выполняет определенные задачи.
Холдинг анонсировал:
- Z-Image Turbo — модель, созданная для базовых пользователей, которой достаточно всего 8 шагов для вычислений, чтобы давать быстрый результат. Отлично работает с фотореалистичными изображениями, двуязычным отображением текста на креативах (английским и китайским) и точным выполнением промптов.
- Z-Image-Base — больше подойдет для разработчиков, которые любят индивидуальный подход, создавая собственные кастомные стили и модели.
- Z-Image-Edit — понравится дизайнерам, которые устали тратить много времени в Photoshop, чтобы изменить несколько элементов. Сервис сохранит изображение неизменным, кроме объектов, которые вы попросите исправить.
У нейросети пока нет отдельного сайта для работы (кроме страницы на GitHub), поэтому для тестирования можно воспользоваться официальной страницей Z-Image на платформе Hugging Face. Вам не нужно ничего настраивать или скачивать — онлайн-демо модели доступно прямо в браузере.
Из-за большого количества желающих попробовать сервис и постепенной доработки сервиса сайт может выдавать ошибки. Вот пример такого сбоя:

Как можно решить эту проблему:
- Зарегистрироваться на Hugging Face, т. к. иногда по этой причине может пропасть возможность сгенерировать контент.
- Подождать, пока нейронка снова начнет работать (пользователи уже не первый раз жалуются на подобные баги).
- Воспользоваться другим рабочим и стабильным Space, не с официальной страницы разработчика.
- Скачать на компьютер Z-Image с GitHub и использовать его локально с помощью программ для работы с open-source-моделями (ComfyUI, Diffusers или WebUI).
Если регистрация не помогла, а времени подождать или возможности установить файл сервиса нет, делимся альтернативными Space:
- https://huggingface.co/spaces/mrfakename/Z-Image-Turbo;
- https://huggingface.co/spaces/cpuai/Z-Image-Turbo;
- https://huggingface.co/spaces/anycoderapps/Z-Image-Turbo.
На данный момент генерация изображений бесплатна, но, как и со всеми хорошими нейросетями, это временно. Так что советуем маркетологам, дизайнерам, арбитражникам и контент-менеджерам выделить время и протестировать Z-Image, чтобы лично убедиться в актуальности хвалебных отзывов пользователей.
Сейчас для тестирования доступна только Z-Image Turbo, поэтому мы будем показывать примеры работ именно на этой модели. Лучше всего работают промпты на китайском и английских языках, имейте это в виду.
Помимо написания текстового промпта, есть возможность выбрать:
- желаемое разрешение (1024, 1280, 1536);
- соотношение сторон — в зависимости от разрешения будут менять размеры изображений;

- число, которое используется для того, чтобы задать начальную точку;
- количество шагов для вычислений (сейчас статично находится на цифре 8);
- сдвиг по времени (от 1 до 10).
Создание фотореалистичных изображений
Нейросеть способна создавать креативы, похожие на реальные фотографии с высоким качеством. Благодаря наличию логики и знаний о реальном мире вы можете генерировать культурные достопримечательности, национальную одежду, еду, украшения, интерьеры и животных.

Только не показывайте нейронку риелторам, а то отличить от реальной квартиры по фото не получится:

Хорошо сервис справляется с генерацией людей, так что можно спокойно сделать собственную AI-модель:
Z-Image отлично справляется как с базовыми запросами, так и со сложными промптами. Нейронка подойдет пользователям, которые любят самостоятельно настраивать композицию, свет и стили. А если вы не можете похвастаться высоким уровнем познаний в мире ИИ, сервис также хорошо сработает с короткими запросами, которые можно дополнять.
Сделали простой промпт: попросили создать девушку с темными волосами и голубыми глазами, которая стоит на кухне и держит в руках банку витаминов:

Отличная база под нутровый креатив, девушка выглядит очень реалистично. Приятно удивила работа с глазами: у других нейронок они могут косить или иметь неестественный цвет.
Для гемблинга мы тоже подготовили запрос и попросили сгенерировать мужчину со светлыми волосами за игральным столом, на столе много фишек, долларовых купюр, а сзади возле него стоят две красивые девушки в вечерних платьях:

При использовании одного и того же промпта последующие изображения будут мало отличаться друг от друга. Даже внешность персонажей остается одинаковой. Так что если вы хотите получить немного другой результат, следует прописать более подробный запрос.
И пример для беттинга с темноволосым мужчиной в баре, который делает ставку на любимую спортивную команду:

Но какое бы качество ни выдавала нам нейросеть — извечная проблема с лишними частями тела будет нас преследовать. Здесь нужно просто понять, простить и сгенерировать заново:
Генерация текстовых креативов
Пока нейросеть лучше всего справляется с рендерингом текста на китайском и английском языке. Она сохраняет общую эстетическую композицию и реалистичность лиц, а также хорошо работает с типографикой. На выходе вы получите качественное отображение даже мелкого шрифта.

Разработчики только начали обучать модель испанскому, русскому, французскому и немецкому языку, но пока результаты неудовлетворительные.
Мы попробовали сгенерировать карточку товара для кроссовок и попросили Z-Image самостоятельно добавить цену:

Выглядит презентабельно, если подробнее пропишете промпт — нейронка добавит название модели, стоимость и валюту.
Дальше мы попросили создать баннер с розыгрышем айфона 17 pro max, но что-то пошло не так — модель отобразилась неверно, возможно, она не в курсе выхода нового телефона.

Пока что нейросети не делают все идеально с первого раза, но скорость создания большая, так что вам понадобится всего 10 секунд, чтобы получить еще варианты.
3D-элементы и иллюстрации
Помимо реализма, можно создавать в нейросети любые иллюстрации, главное — подготовить подходящий запрос. Приятно, что теперь не нужно искать в стоках подходящие 3D-модели, чтобы поместить на креатив или лендинг, достаточно сгенерировать нужный элемент в Z-Image:

Пример создания 3D-иконок с глобусом, ноутбуком и оператора в наушниках:

Если вы хотите создать мультяшного персонажа, картину или иллюстрацию — ИИ также отлично справится:

Редактирование
Пока модель Z-Image-Edit недоступна широким массам, но результаты тестирования уже есть. Нейросеть может точно следовать сложным инструкциям, что позволяет одновременно вносить изменения сразу в нескольких деталях. Вы можете отредактировать выражение лица, позу персонажа, изменить освещение или фон, добавить надпись, изменить ракурс, сменить одежду, сделать из фото иллюстрацию.

Почему компания анонсировала модель, описав ее возможности, но еще не выпустила — вопрос открытый. Может, они научились прогреву у инфобиза?
Работа со стилями
К сожалению, у Z-Image отсутствует выбор стилей, но это лишь означает, что вы можете создать буквально что угодно, главное — включить воображение. Любое ваше описание будет реализовано нейросетью.
Пример одного из пользователей Reddit:

Текстовый запрос для изображения, которое бралось за основу, а также полный список использованных промптов для стилей можно посмотреть здесь.
Плюсы и минусы Z-Image
Так как для широких масс сейчас доступна одна из трех заявленных моделей, оценивать будем только ее. Да, избранные пользователи уже опробовали редактирование изображений, но пока мы лично не убедимся в качестве работы нейронки, писать хвалебные отзывы нет смысла.
|
Плюсы |
Минусы |
|
Фотореалистичность генерируемого контента. |
Периодические поломки на платформе, где можно протестировать Z-Image. |
|
Возможность создавать изображения с национальными костюмами и мировыми достопримечательностями без искажений. |
Качественная генерация текстовых креативов только на английском и китайском языках. |
|
Создание 3D-моделей на высоком уровне. |
Анонс трех моделей, когда для тестирования широким массам доступна только одна и то в бета-версии. |
|
Хорошо выполняет свою работу даже при неоднозначных инструкциях, необязательно писать длинный запрос. |
Появляются лишние части тел, кривые пальцы и прочие неестественные элементы. |
|
Гибкость настроек — нейросеть способна работать со сложными промптами. |
|
|
Высокая скорость создания контента. |
|
Заключение
Z-Image хорошо подойдет всем, кто работает с контентом. Реалистичность генерируемого контента у сервиса на высоком уровне, так что полученные изображения подойдут и для рекламы. Конечно, сторонние артефакты никому не нравятся, но пока не создали нейросеть, которая показывает себя идеально.
Отдельно хочется упомянуть популярность, которую приобрела нейросеть, несмотря на неполный релиз. Советуем протестировать Z-Image, пока она бесплатная: мы все прекрасно знаем, как быстро разработчики начинают внедрять платные подписки, когда реализовывают весь функционал и становятся популярными.
