Нейросеть Kandinsky 3.0: фотореализм, видео и даже текст на изображении


В ноябре 2023 года Сбер представил обновленную нейросеть Kandinsky 3.0. В сервисе можно получить любые изображения на основе текстового запроса, а также генерировать короткие видео и анимацию. При разработке использовался новый подход к обучению модели ИИ, благодаря которому заметно улучшилось понимание текста и увеличилось качество генераций. Появилась возможность создавать панорамные картинки и надписи на изображении, с чем раньше нейросеть не справлялась. Важный момент: вы получите не просто рисунки, а фотореалистичные кадры. Отличие данной модели от других ТОПовых сервисов в том, что она поддерживает более 100 языков и хорошо работает с промтами на русском. Из статьи вы узнаете, что умеет нейросеть от Сбер и как пользоваться Кандинский 3.0. 

Что умеет нейросеть Kandinsky 3.0

Рассмотрим основные возможности нейросети Кандинский 3.0:

  1. Генерация изображения по текстовому запросу. 
  2. Микс из картинок. Загрузите 2 фото и искусственный интеллект выдаст комбинированное изображение.
  3. Несколько вариантов одной фотографии или картинки. Задайте стилистику и получите материалы в обновленном формате.
  4. Генерация стиля. Функция даёт возможность перенести позы персонажей и очертания предметов с исходной картинки на уже сгенерированное изображение.
  5. Дополнение исходного материала новыми деталями, предметами или персонажами.
  6. Создание GIF-видео, длительностью до 8-ми секунд с разрешением 512 пикселей, которые можно смонтировать в небольшой видеоролик.
  7. Генерация анимации.
  8. Специально разработанная impainting-модель дает возможность расширять границы и создавать панорамную картинку.
  9. Создание текста на изображении.

Результат генерации текстового запроса «Белка на велосипеде в стиле киберпанк»:

Kandinsky 3.0, Кандинский 3.0

Если не считать того, что нейросеть отказывается генерировать велосипед даже с использованием негативного промта «мотоцикл», результат впечатляет.

Попробовать нейросеть Kandinsky 3.0 можно в нескольких сервисах: 

  1. На официальном сайте разработчика, где доступны режимы дополнения и генерация по поисковому запросу.
  2. В Телеграм-боте Kandinsky можно генерировать картинки в 4-х режимах, а в приложении для смартфона еще и создавать оригинальные стикеры.
  3. С помощью бота во ВКонтакте, где пока доступно создавать изображения по текстовому запросу.
  4. На сайте ruDall-E, где появилась первая версия нейросети. Здесь с помощью искусственного интеллекта можно генерировать изображения.
  5. В Телеграм-боте Video-Kandinsky. Для доступа к сервису нужно отправить заявку и ждать ее одобрения.

Результат работы нейросети в боте во ВКонтакте:

Kandinsky 3.0, Кандинский 3.0

Как пользоваться нейросетью 

Авторизовавшись на сайте https://fusionbrain.ai/diffusion вы увидите квадрат, в котором должно появиться изображение и внизу поле для ввода текстового запроса. 

Kandinsky 3.0, Кандинский 3.0

Вы можете выбрать размер изображения: 1:1, 16:9, 3:2 или 2:3. Картинка создаётся внутри рамки, которую можно передвигать по полю, чтобы добавлять новые фрагменты. Можно выбрать стиль изображения, например: киберпанк, рисунок карандашом, живопись, мультипликация, аниме, хохлома и другие. 

На сегодня Кандинский 3.0 предлагает более 20-ти стилей. Есть возможность придумать собственный стиль, для этого добавьте его в текстовый запрос и выберите пункт «Без стиля». Во вкладке «Негативный промпт» можно указать нежелательные детали, которые вы не хотите видеть на готовой картинке. Вот что получилось по запросу «Заснеженный Нью-Йорк перед Рождеством»:

Kandinsky 3.0, Кандинский 3.0

Дорисовка картинки

Например, мы расширили наш рисунок: 

Прошлись ластиком по центральной машине и попросили заменить ее на рождественскую елку:

Kandinsky 3.0, Кандинский 3.0

Не идеально, но за несколько итераций можно добиться хорошей картинки. Инструмент «Ластик» доступен только на сайте https://fusionbrain.ai/diffusion

Функция дорисовки также доступна только на сайте. Можно добавить фото или сгенерировать картинку, уменьшить ее и дать команду добавить фрагмент. Чтобы выбрать фото из галереи, нужно нажать на квадрат с + в левом верхнем углу. 

Перенос стиля

В Телеграм-боте Kandinsky есть функция переноса позы персонажа и стиля изображения. То есть на фото можно заменить внешность, а очертания и детали останутся неизменными. Для этого нужно отправить боту фотографии по одной, через скрепку. Их можно выбрать из галереи. 

Например, вот из этих двух картинок:

Kandinsky 3.0, Кандинский 3.0

получилось такое изображение:

Kandinsky 3.0, Кандинский 3.0

Смешивание изображений

В Телеграм нейросеть Kandinsky 3.0 может смешивать две фотографии или картинки. Поза персонажа и детали в этом случае не сохраняются. Например, при комбинации двух фото:

Kandinsky 3.0, Кандинский 3.0

Получилось вот такое изображение:

Kandinsky 3.0, Кандинский 3.0

Перед генерацией картинки бот предлагает выбрать один из 4-х вариантов: aristation, 4K, anime или без стиля. Мы попробовали создать изображение в стиле аниме:

Kandinsky 3.0, Кандинский 3.0

Создание стикеров для Телеграм

Бот может создавать новые стикеры для Телеграм. Сначала по запросу нейросеть выдаст простую картинку с контуром. Потом вы можете дать команду сгенерировать нужное изображение и разместить его в шаблоне. Можно сразу генерировать готовый стикерпак или написать название уже созданного пака и разместить в нем свой стикер. 

Вот что получилось по запросу стикерпак «Пикачу»:

Kandinsky 3.0, Кандинский 3.0

Такое изображение получилось, когда Кандинский 3.0 сгенерировал Пикачу с букетом цветов: 

Kandinsky 3.0, Кандинский 3.0

Но некоторые запросы нейросеть не понимает. Например, по просьбе выдать стикер «Пикачу с чашкой кофе», получилось такое изображение:

Kandinsky 3.0, Кандинский 3.0

Каждой картинке можно присвоить имя и сохранить в свои стикеры.

Генерация анимации

В нейросети Kandinsky 3.0 есть возможность создавать короткие анимационные гифки. Длительность одного видео – до 4-х секунд. Фрагменты можно склеить между собой и получить небольшой ролик. 

Создать GIF можно в Телеграм-боте Video-Kandinsky. Функция пока доступна не всем пользователям. Необходимо подать заявку в боте и ждать, когда предоставят разрешение. Активным пользователям площадки ее могут одобрить за 1 день.

Чтобы сгенерировать анимацию, необходимо выбрать в меню «Начать работу с ботом», далее «Генерация анимации» и написать текстовый запрос. Можно выбрать стиль, описать детали, тематику и движение камеры относительно предмета или персонажа. 



Генерация видео

При желании, вы можете расписать до трех сцен вашего видео, которые будут идти одна за другой. Далее выберите разрешение для анимации: квадрат 640x640, горизонтальная картинка 832x448, или вертикальная картинка 448x832. После этого нажмите «Завершить».

Мы придумали сюжет из трёх сцен: 

  • девушка едет на байке;
  • идёт в кафе;
  • садится за столик к парню и целует его.

Вот что сгенерировала нейросеть Kandinsky 3.0:


Панорамные изображения 

По текстовому запросу искусственный интеллект создает панорамные картинки и фотографии. Необходимо точно сформулировать текстовый запрос и нейросеть выдаст нужное изображение. Вот что получилось по запросу: «Простор, река, вокруг нее деревья и небо»:

Kandinsky 3.0, Кандинский 3.0

И ещё одна картинка по запросу: «Девушка плывет в лодке по бескрайнему морю»:

Kandinsky 3.0, Кандинский 3.0

Генерация текста на изображении

Нейросеть Kandinsky 3.0 умеет создавать текст на картинках. Можно попросить ее сгенерировать надпись на изображении или вставить в него таблицу с текстом. Функция доступна только на сайте https://fusionbrain.ai/diffusion

Отодвигаем рамку вверх и делаем текстовый запрос о добавлении нужной вам надписи. В верхней части должен появиться текст.

Вот что выдал ИИ по нашему запросу сгенерировать новогоднюю открытку с драконом и добавить текст «С Новым Годом»: 

Kandinsky 3.0, Кандинский 3.0

Не самый грамотный дракон, но с помощью правок можно все исправить.

Не всегда нейросеть понимает, что нужно добавить текст и выдает изображение без надписи. Возможно, придется повторить попытку несколько раз. По просьбе сгенерировать русский текст, выдает английский.

Как сделать работу с Кандинский 3.0 лучше

  1. Используйте меньше мелких деталей: украшений, аксессуаров и т.д при генерации видел. Из-за особенностей прорисовки, все элементы будут двигаться сами по себе. Странно будет смотреться движущаяся сумочка, татуировка или ожерелье.
  2. Указывайте стиль и прописывайте главную мысль в каждой сцене вашей анимации. 
  3. В сценарии нужно учитывать эффект морфинга: «перетекание» объекта, например, при смене позы или в движении. Подумайте, как сделать плавным такой переход, чтобы это смотрелось органично. 
  4. Сначала сгенерируйте картинки по тексту и посмотрите, насколько реалистичными они получатся. После этого переходите к созданию видео.
  5. Выбирайте разрешение, соответствующее основному объекту. Если он прямоугольный, то лучше выбрать вертикальный режим, если круглый – квадрат. Так получится более естественное изображение.
  6. Чем более точным будет текстовый запрос, тем реалистичнее и естественнее получится изображение или видео. 

Заключение

Нейросеть Kandinsky 3.0 – интересный инструмент, который стоит изучить и протестировать. С ее помощью можно быстро генерировать изображения, комбинировать их, получить оригинальные стикеры, анимацию, создавать видео, панорамные картинки, добавлять надписи на картинки и все это бесплатно и без ограничений на количество итераций. Не всегда нейросеть понимает запросы, поэтому их нужно четко и подробно формулировать, выбирать правильный стиль и разрешение. Возможно, вам придется несколько раз повторять и изменять команду, чтобы получить качественный материал. Главными преимуществами сервиса перед аналогами является то, что он бесплатный,  доступен для всех в нескольких форматах и хорошо работает с русским языком.


Комментарии