DALLE 3: обновленная нейросеть заменит Stable Diffusion и Midjourney


В 2023 году на рынке нейросетей для генерации изображений царят 2 гиганта — Stable Diffusion и Midjourney, но, кажется, обновленная DALLE 3 от компании OpenAI готова потеснить их с пьедестала. Чем она отличается от своих предыдущих версий и в чем выигрывает у соперников? Давайте разбираться. 

Что умеет DALLE 3

DALLE — нейросеть-первопроходец, с которой началась популяризация искусственного интеллекта. Как и аналоги, ИИ обучался генерации путем обработки огромного количества изображений. В отличие от предыдущих версий, DALLE 3 использует диффузионную — более глубокую генеративную модель. Обновленная нейросеть эффективнее справляется со сложными композициями и текстурами.

DALLE 3

Как и конкуренты, нейросеть создает изображения на основе текстовых промтов. К сожалению, продукт OpenAI не позволяет редактировать готовые картинки напрямую, создавать изображения известных личностей и плохо справляется с генерацией фотореалистичных изображений. При этом у нее есть ряд существенных преимуществ. Мы протестировали обновления и выделили 5 преимуществ:

  1. Интуитивный интерфейс. Если вы пользовались ChatGPT, у вас не возникнет сложностей при работе с DALLE 3. А благодаря русифицированному интерфейсу разобраться будет еще проще.
  2. Стабильная работа. Нейросеть работает в режиме исследовательской предварительной версии. Несмотря на это, сервис работает стабильно — без сбоев и тормозов. 
  3. Свободное распространение изображений. Вам не придется получать разрешение, чтобы продать, опубликовать или перепечатать сгенерированное изображение. 
  4. Низкие системные требования. Нейросеть создает картинки мощностями сервера, а не «железом» ПК, поэтому для работы с DALLE 3 хватит 2-ядерного процессора с 1 ГБ оперативной памяти. 

Новую версию дополнили 12 миллиардами параметров. После тестирования можно выделить 7 отличий от предыдущих версий. 

  • Максимальное разрешение изображения, которое могла генерировать DALLE 2 — 512×512 пикселей. Обновленная может похвастаться двукратным увеличением разрешения — 1024×1024 пикселей.
  • Интеграция с ChatGPT. Если вы не можете сформулировать запрос, попросите об этом ChatGPT. Нейросеть сгенерирует промт, наполнив его специальными подсказками. Также синергия компенсирует отсутствие редактора — ChatGPT создаст запрос для внесения правок на основе предыдущего.
  • Точность отображения сложных промтов. У DALLE 2 были проблемы с пониманием запросов — ИИ игнорировал подсказки. DALLE 3 отображает промт целиком — учитывает контекст композиции и отношение предметов в ней. Для примера сгенерируем картинку «Собака, сидящая в будке, рядом миска с едой»

DALLE 3

  • В отличие от предыдущих версий и конкурентов, DALLE 3 не испытывает сложностей с генерацией текста внутри картинки. ИИ учитывает контекст и дополняет изображения разборчивым и релевантным текстом — логотипами, подписями, слоганами и сообщениями. Попросим нейросеть создать «плакат к фильму под названием «Большой куш». 

DALLE 3

  • Обновленная версия генерирует реалистичные детали человеческого тела. ИИ без проблем воссоздает лица, прически, эмоции, позы, ракурсы, тени и элементы одежды. Основной прорыв пришелся на анатомию человеческих кистей — теперь они не выглядят деревянными. 

DALLE 3

  • DALLE 3 не ограничился запретом на генерацию изображений публичных персон. Теперь сервис также отказывается создавать жестокий, взрослый 18+, политический и разжигающий ненависть контент. 
  • Разработчики обезопасили себя от обвинений в нарушении авторских прав. ИИ не будет генерировать изображение, если в запросе упоминается стиль ныне живущего художника или фотографа. Обойти ограничение можно, описав особенности стиля без упоминания имени. 

Судя по отзывам пользователей, нейросеть наступает на пятки Midjourney и Stable Diffusion. Наверняка разработчики не остановятся, и к следующему обновлению нейросеть продемонстрирует скрытый потенциал. 

Как пользоваться DALLE 3 бесплатно

Есть 2 способа работы с нейросетью:

  • бесплатный — в системе Bing;
  • платный — по подписке ChatGPT Plus.

Мы рассмотрим бесплатную версию. Скачивать приложение не нужно, сервис работает в браузере. Для любителей экономии предусмотрены количественные ограничения — можно создавать не более 15 изображений в сутки. Если вы превысите лимит, сервис продолжит работать, но скорость генерации снизится 2-3 раза. 

Россиянам, желающим работать с сервисом, придется воспользоваться VРN. Из списка доступных стран выберите любую, кроме России.

Для начала нужно перейти на официальный сайт Bing и кликнуть по кнопке «Присоединиться и создать». Для авторизации потребуется учетная запись Microsoft.

DALLE 3

Введите текстовый промт в поле, находящееся в самом верху экрана и нажмите кнопку «Создать». Не вписывайте промты на русском языке, нейросеть понимает только по-английски. 

Для примера создадим картинку по запросу: «Железный человек летает вокруг Эйфелевой башни». 

DALLE 3

Нейросеть сгенерировала 4 варианта картинки.

DALLE 3

DALLE 3

DALLE 3

DALLE 3

Неожиданный вариант, который явно на что-то намекает

Впечатляет, не правда ли? На генерацию ушло всего 10 секунд. Полученные изображения можно свободно использовать по своему усмотрению — разместите в социальной сети или добавьте на обложку продукта. 

Заключение

Пользователи не возлагали особых надежд на DALLE 3 — и, как оказалось, зря. С выходом обновления нейросеть научилась рисовать реалистичные кисти рук, работать с текстом и точнее отображать пользовательские запросы. С нетерпением ждем следующей версии, которая, по мнению экспертов, может «утереть нос» Midjourney и Stable Diffusion.


Комментарии