1 декабря 2023

Нейросеть Kandinsky 3.0: фотореализм, видео и даже текст на изображении

Команда Conversion

6716

В ноябре 2023 года Сбер представил обновленную нейросеть Kandinsky 3.0. В сервисе можно получить любые изображения на основе текстового запроса, а также генерировать короткие видео и анимацию. При разработке использовался новый подход к обучению модели ИИ, благодаря которому заметно улучшилось понимание текста и увеличилось качество генераций. Появилась возможность создавать панорамные картинки и надписи на изображении, с чем раньше нейросеть не справлялась. Важный момент: вы получите не просто рисунки, а фотореалистичные кадры. Отличие данной модели от других ТОПовых сервисов в том, что она поддерживает более 100 языков и хорошо работает с промтами на русском. Из статьи вы узнаете, что умеет нейросеть от Сбер и как пользоваться Кандинский 3.0.

Что умеет нейросеть Kandinsky 3.0
Как пользоваться нейросетью
Как сделать работу с Кандинский 3.0 лучше

Что умеет нейросеть Kandinsky 3.0

Рассмотрим основные возможности нейросети Кандинский 3.0:

Генерация изображения по текстовому запросу.
Микс из картинок. Загрузите 2 фото и искусственный интеллект выдаст комбинированное изображение.
Несколько вариантов одной фотографии или картинки. Задайте стилистику и получите материалы в обновленном формате.
Генерация стиля. Функция даёт возможность перенести позы персонажей и очертания предметов с исходной картинки на уже сгенерированное изображение.
Дополнение исходного материала новыми деталями, предметами или персонажами.
Создание GIF-видео, длительностью до 8-ми секунд с разрешением 512 пикселей, которые можно смонтировать в небольшой видеоролик.
Генерация анимации.
Специально разработанная impainting-модель дает возможность расширять границы и создавать панорамную картинку.
Создание текста на изображении.

Результат генерации текстового запроса «Белка на велосипеде в стиле киберпанк»:

Если не считать того, что нейросеть отказывается генерировать велосипед даже с использованием негативного промта «мотоцикл», результат впечатляет.

Попробовать нейросеть Kandinsky 3.0 можно в нескольких сервисах:

На официальном сайте разработчика, где доступны режимы дополнения и генерация по поисковому запросу.
В Телеграм-боте Kandinsky можно генерировать картинки в 4-х режимах, а в приложении для смартфона еще и создавать оригинальные стикеры.
С помощью бота во ВКонтакте, где пока доступно создавать изображения по текстовому запросу.
На сайте ruDall-E, где появилась первая версия нейросети. Здесь с помощью искусственного интеллекта можно генерировать изображения.
В Телеграм-боте Video-Kandinsky. Для доступа к сервису нужно отправить заявку и ждать ее одобрения.

Результат работы нейросети в боте во ВКонтакте:

Как пользоваться нейросетью

Авторизовавшись на сайте https://fusionbrain.ai/diffusion вы увидите квадрат, в котором должно появиться изображение и внизу поле для ввода текстового запроса.

Вы можете выбрать размер изображения: 1:1, 16:9, 3:2 или 2:3. Картинка создаётся внутри рамки, которую можно передвигать по полю, чтобы добавлять новые фрагменты. Можно выбрать стиль изображения, например: киберпанк, рисунок карандашом, живопись, мультипликация, аниме, хохлома и другие.

На сегодня Кандинский 3.0 предлагает более 20-ти стилей. Есть возможность придумать собственный стиль, для этого добавьте его в текстовый запрос и выберите пункт «Без стиля». Во вкладке «Негативный промпт» можно указать нежелательные детали, которые вы не хотите видеть на готовой картинке. Вот что получилось по запросу «Заснеженный Нью-Йорк перед Рождеством»:

Дорисовка картинки

Например, мы расширили наш рисунок:

Прошлись ластиком по центральной машине и попросили заменить ее на рождественскую елку:

Не идеально, но за несколько итераций можно добиться хорошей картинки. Инструмент «Ластик» доступен только на сайте https://fusionbrain.ai/diffusion.

Функция дорисовки также доступна только на сайте. Можно добавить фото или сгенерировать картинку, уменьшить ее и дать команду добавить фрагмент. Чтобы выбрать фото из галереи, нужно нажать на квадрат с + в левом верхнем углу.

Перенос стиля

В Телеграм-боте Kandinsky есть функция переноса позы персонажа и стиля изображения. То есть на фото можно заменить внешность, а очертания и детали останутся неизменными. Для этого нужно отправить боту фотографии по одной, через скрепку. Их можно выбрать из галереи.

Например, вот из этих двух картинок:

получилось такое изображение:

Смешивание изображений

В Телеграм нейросеть Kandinsky 3.0 может смешивать две фотографии или картинки. Поза персонажа и детали в этом случае не сохраняются. Например, при комбинации двух фото:

Получилось вот такое изображение:

Перед генерацией картинки бот предлагает выбрать один из 4-х вариантов: aristation, 4K, anime или без стиля. Мы попробовали создать изображение в стиле аниме:

Создание стикеров для Телеграм

Бот может создавать новые стикеры для Телеграм. Сначала по запросу нейросеть выдаст простую картинку с контуром. Потом вы можете дать команду сгенерировать нужное изображение и разместить его в шаблоне. Можно сразу генерировать готовый стикерпак или написать название уже созданного пака и разместить в нем свой стикер.

Вот что получилось по запросу стикерпак «Пикачу»:

Такое изображение получилось, когда Кандинский 3.0 сгенерировал Пикачу с букетом цветов:

Но некоторые запросы нейросеть не понимает. Например, по просьбе выдать стикер «Пикачу с чашкой кофе», получилось такое изображение:

Каждой картинке можно присвоить имя и сохранить в свои стикеры.

Генерация анимации

В нейросети Kandinsky 3.0 есть возможность создавать короткие анимационные гифки. Длительность одного видео – до 4-х секунд. Фрагменты можно склеить между собой и получить небольшой ролик.

Создать GIF можно в Телеграм-боте Video-Kandinsky. Функция пока доступна не всем пользователям. Необходимо подать заявку в боте и ждать, когда предоставят разрешение. Активным пользователям площадки ее могут одобрить за 1 день.

Чтобы сгенерировать анимацию, необходимо выбрать в меню «Начать работу с ботом», далее «Генерация анимации» и написать текстовый запрос. Можно выбрать стиль, описать детали, тематику и движение камеры относительно предмета или персонажа.

Генерация видео

При желании, вы можете расписать до трех сцен вашего видео, которые будут идти одна за другой. Далее выберите разрешение для анимации: квадрат 640x640, горизонтальная картинка 832x448, или вертикальная картинка 448x832. После этого нажмите «Завершить».

Мы придумали сюжет из трёх сцен:

девушка едет на байке;
идёт в кафе;
садится за столик к парню и целует его.

Вот что сгенерировала нейросеть Kandinsky 3.0:

Панорамные изображения

По текстовому запросу искусственный интеллект создает панорамные картинки и фотографии. Необходимо точно сформулировать текстовый запрос и нейросеть выдаст нужное изображение. Вот что получилось по запросу: «Простор, река, вокруг нее деревья и небо»:

И ещё одна картинка по запросу: «Девушка плывет в лодке по бескрайнему морю»:

Генерация текста на изображении

Нейросеть Kandinsky 3.0 умеет создавать текст на картинках. Можно попросить ее сгенерировать надпись на изображении или вставить в него таблицу с текстом. Функция доступна только на сайте https://fusionbrain.ai/diffusion.

Отодвигаем рамку вверх и делаем текстовый запрос о добавлении нужной вам надписи. В верхней части должен появиться текст.

Вот что выдал ИИ по нашему запросу сгенерировать новогоднюю открытку с драконом и добавить текст «С Новым Годом»:

Не самый грамотный дракон, но с помощью правок можно все исправить.

Не всегда нейросеть понимает, что нужно добавить текст и выдает изображение без надписи. Возможно, придется повторить попытку несколько раз. По просьбе сгенерировать русский текст, выдает английский.

Как сделать работу с Кандинский 3.0 лучше

Используйте меньше мелких деталей: украшений, аксессуаров и т.д при генерации видел. Из-за особенностей прорисовки, все элементы будут двигаться сами по себе. Странно будет смотреться движущаяся сумочка, татуировка или ожерелье.
Указывайте стиль и прописывайте главную мысль в каждой сцене вашей анимации.
В сценарии нужно учитывать эффект морфинга: «перетекание» объекта, например, при смене позы или в движении. Подумайте, как сделать плавным такой переход, чтобы это смотрелось органично.
Сначала сгенерируйте картинки по тексту и посмотрите, насколько реалистичными они получатся. После этого переходите к созданию видео.
Выбирайте разрешение, соответствующее основному объекту. Если он прямоугольный, то лучше выбрать вертикальный режим, если круглый – квадрат. Так получится более естественное изображение.
Чем более точным будет текстовый запрос, тем реалистичнее и естественнее получится изображение или видео.

Заключение

Нейросеть Kandinsky 3.0 – интересный инструмент, который стоит изучить и протестировать. С ее помощью можно быстро генерировать изображения, комбинировать их, получить оригинальные стикеры, анимацию, создавать видео, панорамные картинки, добавлять надписи на картинки — и все это бесплатно и без ограничений на количество итераций. Не всегда нейросеть понимает запросы, поэтому их нужно четко и подробно формулировать, выбирать правильный стиль и разрешение. Возможно, вам придется несколько раз повторять и изменять команду, чтобы получить качественный материал. Главными преимуществами сервиса перед аналогами является то, что он бесплатный, доступен для всех в нескольких форматах и хорошо работает с русским языком.

Вам была полезна эта статья?

#нейросети

ОпубликованКоманда Conversion

Интернет-медиа про маркетинг и арбитраж трафика