В 2023 году на рынке нейросетей для генерации изображений царят 2 гиганта — Stable Diffusion и Midjourney, но, кажется, обновленная DALLE 3 от компании OpenAI готова потеснить их с пьедестала. Чем она отличается от своих предыдущих версий и в чем выигрывает у соперников? Давайте разбираться.
Что умеет DALLE 3
DALLE — нейросеть-первопроходец, с которой началась популяризация искусственного интеллекта. Как и аналоги, ИИ обучался генерации путем обработки огромного количества изображений. В отличие от предыдущих версий, DALLE 3 использует диффузионную — более глубокую генеративную модель. Обновленная нейросеть эффективнее справляется со сложными композициями и текстурами.
Как и конкуренты, нейросеть создает изображения на основе текстовых промтов. К сожалению, продукт OpenAI не позволяет редактировать готовые картинки напрямую, создавать изображения известных личностей и плохо справляется с генерацией фотореалистичных изображений. При этом у нее есть ряд существенных преимуществ. Мы протестировали обновления и выделили 5 преимуществ:
- Интуитивный интерфейс. Если вы пользовались ChatGPT, у вас не возникнет сложностей при работе с DALLE 3. А благодаря русифицированному интерфейсу разобраться будет еще проще.
- Стабильная работа. Нейросеть работает в режиме исследовательской предварительной версии. Несмотря на это, сервис работает стабильно — без сбоев и тормозов.
- Свободное распространение изображений. Вам не придется получать разрешение, чтобы продать, опубликовать или перепечатать сгенерированное изображение.
- Низкие системные требования. Нейросеть создает картинки мощностями сервера, а не «железом» ПК, поэтому для работы с DALLE 3 хватит 2-ядерного процессора с 1 ГБ оперативной памяти.
Новую версию дополнили 12 миллиардами параметров. После тестирования можно выделить 7 отличий от предыдущих версий.
- Максимальное разрешение изображения, которое могла генерировать DALLE 2 — 512×512 пикселей. Обновленная может похвастаться двукратным увеличением разрешения — 1024×1024 пикселей.
- Интеграция с ChatGPT. Если вы не можете сформулировать запрос, попросите об этом ChatGPT. Нейросеть сгенерирует промт, наполнив его специальными подсказками. Также синергия компенсирует отсутствие редактора — ChatGPT создаст запрос для внесения правок на основе предыдущего.
- Точность отображения сложных промтов. У DALLE 2 были проблемы с пониманием запросов — ИИ игнорировал подсказки. DALLE 3 отображает промт целиком — учитывает контекст композиции и отношение предметов в ней. Для примера сгенерируем картинку «Собака, сидящая в будке, рядом миска с едой».
- В отличие от предыдущих версий и конкурентов, DALLE 3 не испытывает сложностей с генерацией текста внутри картинки. ИИ учитывает контекст и дополняет изображения разборчивым и релевантным текстом — логотипами, подписями, слоганами и сообщениями. Попросим нейросеть создать «плакат к фильму под названием «Большой куш».
- Обновленная версия генерирует реалистичные детали человеческого тела. ИИ без проблем воссоздает лица, прически, эмоции, позы, ракурсы, тени и элементы одежды. Основной прорыв пришелся на анатомию человеческих кистей — теперь они не выглядят деревянными.
- DALLE 3 не ограничился запретом на генерацию изображений публичных персон. Теперь сервис также отказывается создавать жестокий, взрослый 18+, политический и разжигающий ненависть контент.
- Разработчики обезопасили себя от обвинений в нарушении авторских прав. ИИ не будет генерировать изображение, если в запросе упоминается стиль ныне живущего художника или фотографа. Обойти ограничение можно, описав особенности стиля без упоминания имени.
Судя по отзывам пользователей, нейросеть наступает на пятки Midjourney и Stable Diffusion. Наверняка разработчики не остановятся, и к следующему обновлению нейросеть продемонстрирует скрытый потенциал.
Как пользоваться DALLE 3 бесплатно
Есть 2 способа работы с нейросетью:
- бесплатный — в системе Bing;
- платный — по подписке ChatGPT Plus.
Мы рассмотрим бесплатную версию. Скачивать приложение не нужно, сервис работает в браузере. Для любителей экономии предусмотрены количественные ограничения — можно создавать не более 15 изображений в сутки. Если вы превысите лимит, сервис продолжит работать, но скорость генерации снизится 2-3 раза.
Россиянам, желающим работать с сервисом, придется воспользоваться VРN. Из списка доступных стран выберите любую, кроме России.
Для начала нужно перейти на официальный сайт Bing и кликнуть по кнопке «Присоединиться и создать». Для авторизации потребуется учетная запись Microsoft.
Введите текстовый промт в поле, находящееся в самом верху экрана и нажмите кнопку «Создать». Не вписывайте промты на русском языке, нейросеть понимает только по-английски.
Для примера создадим картинку по запросу: «Железный человек летает вокруг Эйфелевой башни».
Нейросеть сгенерировала 4 варианта картинки.
Впечатляет, не правда ли? На генерацию ушло всего 10 секунд. Полученные изображения можно свободно использовать по своему усмотрению — разместите в социальной сети или добавьте на обложку продукта.
Заключение
Пользователи не возлагали особых надежд на DALLE 3 — и, как оказалось, зря. С выходом обновления нейросеть научилась рисовать реалистичные кисти рук, работать с текстом и точнее отображать пользовательские запросы. С нетерпением ждем следующей версии, которая, по мнению экспертов, может «утереть нос» Midjourney и Stable Diffusion.