Сегодня

HunyuanImage 3.0: новая китайская нейросеть для создания изображений

АватарКоманда Conversion
27

На рынке искусственного интеллекта сервисы для создания изображений уже давно не новинка, даже чат-боты, которые изначально позиционировали себя как текстовые помощники, теперь умеют генерировать креативы. Поэтому разработчикам остается соревноваться между собой скоростью обработки запросов, качеством их выполнения и дополнительным функционалом.

Мы постоянно обозреваем новинки среди нейронок, и сегодня у нас на обзоре сервис, который приятно удивил пользователей и заставил дизайнеров и 3D-художников немного поволноваться, — HunyuanImage 3.0. В статье расскажем, что умеет ИИ, как им пользоваться, есть ли у сервиса слабые стороны и как улучшить промпты.

  1. Возможности HunyuanImage 3.0
  2. Как пользоваться нейросетью
  3. Советы по использованию HunyuanImage 3.0
  4. Плюсы и минусы нейросети

Возможности HunyuanImage 3.0

HunyuanImage 3.0 — это модель искусственного интеллекта от компании Tencent, которая умеет преобразовывать текст в изображение. Вышла она совсем недавно, но ее уже успели окрестить ‎революционной. Нейросеть является самой крупной моделью по созданию креативов с открытым исходным кодом по количеству параметров, а их там 80 миллиардов. 

Сервис способен создавать контент с насыщенными цветами, точно придерживаясь запроса благодаря нативной мультимодальной возможности, которая основывается на рассуждениях о мировых знаниях. Это позволяет HunyuanImage 3.0 объединять в себе профессиональные компетенции со здравым смыслом, логично дополняя сцены и создавая содержательные изображения. 

Что умеет HunyuanImage 3.0:

  • генерировать естественные лица людей;
  • создавать четкие и детализированные элементы сцен;
  • делать креативы с текстовым наполнением;
  • добавлять текст на нескольких языках на одном креативе;
  • генерировать лого;
  • делать пошаговые руководства и инфографику (например, для образовательных иллюстраций или диаграмм для рабочих проектов);
  • обрабатывать длинные промпты до 5000 символов;
  • поддерживать разные соотношения сторон для создания креативов.

Модель хорошо справляется с фотореализмом, дизайном иллюстраций, а также рендерингом 3D. Сервис подойдет для всех, кому нужно генерировать креативы, — SMM-специалистам, маркетологам, контент-мейкерам, арбитражникам и дизайнерам. И самое приятное — нейронка бесплатная.

Попробовать HunyuanImage 3.0: сайт, открытый исходный код доступен на GitHub и HuggingFace.

Как пользоваться нейросетью

Для начала работы необходимо зарегистрироваться в сервисе — нам предлагают зайти в личный кабинет, используя WeChat, QQ или email. К сожалению, у Hunyuan основным и единственным языком интерфейса является китайский, поэтому мы воспользовались встроенным Google-переводчиком в браузере, чтобы делать понятные скриншоты. Перевод не идеальный, но понять суть можно.

Также хотим обратить внимание, что лучше всего нейронка распознает запросы на китайском и английском языках. Она способна сгенерировать изображение с русскоязычным промптом, но тогда качество результата может упасть, возможно игнорирование деталей, а также путаница в определенных элементах и интерпретации описания. Все описанные ниже промпты мы прописали на русском для лучшего понимания, но запросы отправлялись нейросети на английском.

Чтобы воспользоваться моделью, выберите HunyuanImage 3.0 и нажмите «Попробовать сейчас»:

Как работать с HunyuanImage 3.0

После регистрации вы попадете в личный кабинет с выбранной моделью. Функционал достаточно прост — нужно добавить текстовый промпт, выбрать соотношение сторон (1:1, 3:4, 4:3, 9:16, 16:9) и нужное количество генерируемых креативов, от 1 до 4. Дополнительного выбора стилей, освещения и фильтров здесь нет, все нужно прописывать в запросе самостоятельно.

Обзор HunyuanImage 3.0

Сперва мы решили протестировать сложный промпт и посмотреть, как нейросеть с ним справится. Напоминаем, что HunyuanImage 3.0 способен обрабатывать до 5000 символов, так что не скупитесь на описание, если хотите получить точный результат. 

Мы ввели на английском языке запрос «кинематографическое фото одинокой фигуры с решительными чертами лица и оливковым тоном кожи, стоящей на краю скалистого обрыва, глядящей на яркий светящийся горизонт с оттенками теплого оранжевого и нежно-розового на фоне неба с пушистыми белыми облаками, высококонтрастный стиль фотографии с малой глубиной резкости, подчеркивающий выражение лица модели и захватывающий дух пейзаж», выбрали соотношение сторон 3:4 и 2 генерации. Результат:

Как работать с HunyuanImage 3.0

Качество креативов очень порадовало, так что дизайнерам и художникам спокойно можно прорабатывать и создавать персонажей в HunyuanImage 3.0.

Еще один промпт: кинематографическое фото улыбающейся азиатской женщины с теплой золотистой кожей и тонкими чертами лица, солнечный свет проникает через большое окно с мягким свечением, бросает теплый луч света на ее лицо, фотография с небольшой глубиной резкости и естественной цветовой палитрой, темные волосы женщины аккуратно связаны сзади, фон слегка размыт, в фокусе — края окна и руки женщины.

Как писать промпты HunyuanImage 3.0

Как вы видите, несмотря на постоянные улучшения искусственного интеллекта для создания изображений, руки далеко не всегда выходят так, как нужно. Зато с лицами, освещением, детализацией и атмосферой нейросеть работает на высоком уровне.

Арбитражникам, маркетологам и дизайнерам, которые имеют дело с рекламными креативами и созданием карточек товара, пригодится возможность создавать инфографику

Промпт: создай инфографику о том, как пользоваться кремом для лица, с красивой рыжеволосой девушкой с зелеными глазами, она смотрит в зеркало, в руках у нее фиолетовая баночка крема, в ее ванной ремонт с зеленой плиткой.

Как создать инфографику нейросеть HunyuanImage 3.0

И еще похожий промпт, но в этот раз мы попросили сделать реалистичное изображение, а не нарисованную картинку. «Создай инфографику в журнальном стиле. Фон — ванна с синей плиткой и зеркало, куда смотрится девушка. В руках у девушки фиолетовая баночка крема для лица. Тон изображения — легкий и игривый, направленный на продажу крема.  Основная часть изображения — это крупный план девушки с рыжими волосами и зелеными глазами, одетой в банный бежевый халат. Основной источник света — мягкий теплый свет, который подчеркивает четкие и изящные очертания фигуры»:

Как работать с HunyuanImage 3.0

В первой итерации у нас получилось искажение в зеркале, поскольку в отражении не видно, как девушка держит в руках крем, а если приблизить глаза на втором изображении — их зеленый цвет выглядит очень нереалистично.

Во второй итерации убрали описание цвета глаз:

Нейросеть HunyuanImage 3.0 как работать

Первое изображение уже сразу можно взять для карточки товара или таргетированной рекламы, когда на втором мы получили то же отсутствие правильного отражения в зеркале. Конечно, для получения должного результата нужно сделать несколько вариантов, но к сгенерированной внешности вопросов точно нет. 

Чтобы не отходить далеко от темы инфографики, мы решили протестировать промпт с пошаговым руководством по завязыванию шнурков и заодно посмотреть, как будут отличаться результаты с запросами на английском и русском языках.

Промпт на английском:

Как создать руководство HunyuanImage 3.0

Инфографика справа весьма сомнительна, вряд ли кто-то завязывает шнурки у носка, но первый вариант можно использовать.

Запрос на русском:

Как создать инфографику HunyuanImage 3.0

Результат видите сами — вряд ли вы бы хотели воспользоваться такой инструкцией.

Также мы решили протестировать возможность нейронки создавать диаграммы. Попробуем создать диаграмму для маркетингового отдела, чтобы наглядно показать, какие нужны сотрудники, чтобы запустить сайт для медиа в сфере арбитража трафика:

Как создать диаграмму HunyuanImage 3.0

Что хочется вам сказать: не ждите от нейросети готового проектного плана, реальность выглядит немного не так. Стоит все-таки потратить время на анализ конкурентов, почитать статьи и посмотреть информацию о сотрудниках, которые должны быть в медиа, чтобы написать более точный промпт с перечислением всех пунктов, если вам нужен только визуал. Нужно понимать, что ИИ — не панацея и не сможет заменить бизнес-аналитика.

А вот список сотрудников для медиа в сфере технологий уже больше походит на правду, хотя и не будем обобщать, поскольку каждый проект индивидуален:

HunyuanImage 3.0 диаграммы

Как минимум копирайтеров, продажника, дизайнера иллюстраций и SMM-специалиста мы не увидели ни в одной из диаграмм.

А вот с многоязычным смешиванием у HunyuanImage 3.0 дела обстоят получше. Мы попросили написать текст «Я люблю пончики» на 10 языках:

Многоязычное смешивание HunyuanImage 3.0

Конечно, мы не лингвисты-переводчики и перепроверить правильность написания не можем (но мы заметили «поники» на втором креативе). Опять-таки, если заранее прописать весь текст, который нужно поместить на изображение, проблем быть не должно.

Креативы с текстовым наполнением — еще одна функция, с которой должен справляться ИИ. Мы попросили сгенерировать баннер для рекламы в Инстаграме с яркими цветами, включающий полутоновые текстуры, шумовое зерно, на изображении реалистичная банка витаминов, на креативе надпись «только сегодня скидка 45%».

Как создать креатив в HunyuanImage 3.0

Для продвижения такой креатив, конечно, сомнителен, но как основа для доработки подойдет отлично. 

Также HunyuanImage 3.0 умеет генерировать логотипы. В описании мы попросили создать лого для зоомагазина в ярких неоновых цветах с изображением корги, используя шрифт Bebas:

Как создать логотип нейросеть HunyuanImage 3.0

А это вариант с яркими цветами на белом фоне:

Создать логотип нейросеть HunyuanImage 3.0

В некоторых обзорах нейросети пользователи писали, что сервис предназначен также для редактирования изображений, но сколько бы мы ни пытались вносить изменения — результат одинаково неудовлетворителен. Вместо того чтобы точечно менять креатив, нейросеть генерирует совершенно новое изображение, по пути теряя предыдущий промпт.

Редактор изображений нейросеть HunyuanImage 3.0

Если вам важна именно эта функция — советуем ознакомиться с Nano Banana от Google

Самое интересное приберегли напоследок. HunyuanImage 3.0 заинтриговал многих пользователей не обычной генерацией изображений, а созданием 3D. Теперь не нужно месяцами обучаться работе с ПО, чтобы за пару часов построить простенькую сцену, достаточно написать запрос в нескольких предложениях.

Но чем отличается HunyuanImage 3.0 в данном вопросе от конкурентов? Дело в самом принципе работы: пока другие сервисы генерируют 3D-изображения на основе лепки, наша модель использует подход 3D-DiT. Это похоже на скульптурирование, где сначала нейросеть создает грубую форму и постепенно работает над точными деталями. Получается, вместо того, чтобы создавать креатив сразу, зачастую получая на выходе неестественные результаты, HunyuanImage 3.0 генерирует слой за слоем. Это помогает избежать недостающих фрагментов и нелогичной анатомии персонажей.

Как выглядят сгенерированный портал и кибертрак в 3D:

СОздать 3д изображение нейросеть HunyuanImage 3.0

И если мы в промпте для портала прописывали его цвет и фон, то фон кибертрака в стиле киберпанка HunyuanImage 3.0 выбрал самостоятельно.

Как выглядит маленькая летучая мышь с расправленными крыльями:

3д персонаж нейросеть HunyuanImage 3.0

А вот многочасовая работа нашего контент-менеджера (которому стало очень обидно) в программе Blender:

3D изображения HunyuanImage 3.0

Со стороны кажется, что нет ничего сложного в том, чтобы найти в интернете необходимые 3D-элементы и поместить их на баннер или сайт. Но за большинство таких изображений пользователям придется платить, поскольку креаторы не хотят бесплатно выставлять контент, учитывая потраченное время на его создание. Также мы сами не раз сталкивались с ситуациями, когда хотелось бы совсем немного видоизменить какую-то иконку, но в 3D это сделать сложно, если вы не отрисовываете ее самостоятельно. А в случаях, когда вам нужны 3D-модели в одной стилистике для сайта, поиски подходящих вариантов могут занять много времени. 

Благодаря HunyuanImage 3.0 дизайнеры, контентщики и маркетологи могут сэкономить время и деньги, самостоятельно сгенерировав нужные детали без необходимости привлечения в проект 3D-художника или добавления бесплатных элементов, которые использует половина интернета.

Советы по использованию HunyuanImage 3.0

Чтобы получить на выходе качественный креатив, необходимо придерживаться нескольких правил:

  1. Пишите максимально подробный запрос — опишите сцену, детали, цвета и пр.
  2. Структурируйте подсказки. Оптимальный вариант — придерживаться схемы «тема → стиль → композиция → освещение». 
  3. Изучите работы других пользователей, чтобы вдохновиться их промптами.

Плюсы и минусы нейросети

Плюсы

Минусы

Качество генерации людей

Отсутствие возможности редактирования изображений

Возможность создавать креативы с текстовым наполнением на нескольких языках

Нельзя загрузить референс, чтобы скопировать стиль или освещение

Создание логотипов

Для получения качественного результата нужно писать промпт на китайском или английском языках

Способность обрабатывать подробные промпты до 5000 символов

 

Работа с инфографикой и диаграммами

 

Четкие и детализированные элементы сцен

 

Качество 3D-изображений

 

Заключение

Скачем честно, HunyuanImage 3.0 — не универсальная нейросеть, которая подойдет под любые нужды. Сервис отлично справится с генерацией лиц, работой со стилями, освещением, композицией, создаст детализированную сцену, инфографику или креатив с текстовым наполнением. Нельзя сказать, что он удачно генерирует логотипы, пошаговые руководства также не всегда работают оптимально, а про возможность редактирования изображений и говорить не стоит. Зато 3D-изображения получаются выше всяких похвал.

Учитывая, что нейронка бесплатная и у нее нет никаких ограничений по количеству генераций — протестировать ее точно стоит. Она подойдет не под все запросы, но большую часть работы выполнит на твердую четверку с плюсом.

Вам была полезна эта статья?
1
0

Похожие статьи