DALL·E 3: нейросеть от OpenAI для создания изображений

DALL·E 3

Сама идея DALL-E уже заложена в его имени — это своеобразный диалог между причудливым искусством Сальвадора Дали и технологичным очарованием робота WALL-E.

DALL-E 3 — это инструмент, который превращает текстовые описания в изображения. Его главное преимущество в том, что он сам понимает суть вашей идеи и развивает ее, создавая детализированную картинку. Вот как это работает и где его можно попробовать.

Что такое Dall-E 3 и как она появилась

До того, как ChatGPT стал главной темой для обсуждений, в OpenAI уже экспериментировали с генерацией картинок. В 2021 году они показали свою первую модель — Dall-E. Для многих это стало откровением: впервые можно было просто описать что-то словами и получить в ответ осмысленное, детализированное изображение. Казалось, что будущее, о котором писали фантасты, уже наступило.

Но восторг быстро сменился лёгким разочарованием. Оказалось, что Dall-E — штука закрытая, эдакий инструмент для избранных. Попробовать его в действии обычный пользователь не мог.

Всё изменилось, когда весной того же года появился Dall-E Mini. Это была упрощённая, но зато совершенно открытая версия. Её главным преимуществом стала доступность: никаких мощных видеокарт или специальных знаний не требовалось. Просто открываешь сайт в браузере, вводишь фразу — и через пару десятков секунд получаешь сетку из девяти картинок.

Качество, честно говоря, часто хромало. Изображения выходили смазанными, с мелкими погрешностями, а иногда персонажи получались с причудливо искривлёнными лицами или лишними конечностями. Но что поражало — нейросеть почти всегда верно улавливала суть запроса. 

Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

Что такое Dall-E 3

И как это часто бывает, именно это и сделало Dall-E Mini по-настоящему известной. Соцсети быстро заполонили её творения — странные, порой сюрреалистичные, а порой просто забавные. Пользователи делились самыми курьёзными результатами, превращая их в мемы. 

Основные особенности DALL-E 3

Основные особенности DALL-E 3

1. Не нужно учиться специальным командам
В других нейросетях для создания картинок, таких как Midjourney, часто приходится запоминать специальные слова и правила составления запросов. Это похоже на изучение нового языка. В DALL-E 3 этого не требуется. Вы можете просто написать свою просьбу так, как говорили бы другому человеку.

2. Работа с обычными словами на русском
Нейросеть понимает русский язык и разговорные фразы. Неважно, напишете вы «нарисуй милого фиолетового котика в стиле аниме» или просто «фиолетовый аниме кот» — система поймет оба варианта. Вы даже можете просто спросить «??», и нейросеть попытается угадать, что вы хотите.

3. Самостоятельное улучшение ваших запросов
Когда вы вводите свой запрос, другая часть системы — умный текстовый помощник — читает его и переписывает более подробно и четко. Это нужно для того, чтобы программа, которая рисует, точнее поняла вашу идею. Из-за этого одна и та же ваша фраза может каждый раз давать немного разные, но более проработанные результаты.

Как именно DALL-E 3 создает картинку

Процесс можно описать по шагам:

  1. Вы вводите свой текст-запрос.
  2. Встроенная умная система (например, GPT-4 в ChatGPT) анализирует ваши слова и создает на их основе более детальное и технически точное описание.
  3. Эта улучшенная версия запроса отправляется в DALL-E 3, которая уже генерирует окончательное изображение.

Ограничения и запреты в системе

1. Запрет на неприемлемый контент

У этой системы есть свои принципы — она запрограммирована избегать создания откровенно опасного, оскорбительного или откровенного контента. Но что именно попадает в эту «запретную зону» — вопрос тонкий. В первые дни после запуска находились пользователи, которые проверяли границы, создавая изображения «на грани»: известные персонажи в рискованных ситуациях или двусмысленном виде.

В ответ разработчики, судя по всему, перестраховались. Теперь система может отказаться генерировать даже, казалось бы, нейтральные вещи — например, удар молотком или просто груду костей. Многие пользователи отмечают, что фильтры стали излишне строгими, и это порождает постоянную игру в «кошки-мышки»: люди придумывают все более хитрые формулировки, чтобы обойти ограничения.

2. Почему нельзя создать изображение знаменитости

Попробуйте попросить нейросеть нарисовать известного актера или политика — и вы получите вежливый, но твердый отказ. Это осознанное и важное ограничение. Компания-разработчик таким образом пытается предотвратить создание поддельных или компрометирующих изображений, которые могут нанести реальный вред.

Вероятно, они учли громкий прецедент с другой нейросетью, когда в 2022 году вирусными стали фейковые фотографии Папы Римского в стильной пуховике или сцены ареста Дональда Трампа. Многие люди тогда приняли эти картинки за настоящие. Ограничение на изображение публичных фигур — это попытка избежать подобных ситуаций и связанных с ними рисков.

3. Тонкий вопрос со стилями художников

Вы не сможете прямо попросить DALL-E 3 создать что-то «в стиле Сальвадора Дали» или «как кадр из фильма Уэса Андерсона», если речь идет о художниках и режиссерах последних ста лет. Система вежливо сообщит, что не может на это пойти.

Корень этой проблемы — в авторском праве. Многие современные художники уже подавали в суд на создателей подобных алгоритмов, поскольку их работы использовали для обучения без согласия. Если бы нейросеть свободно имитировала стиль ныне живущего или недавно ушедшего автора, это могло бы не только нарушить закон, но и лишить художника доходов.

Однако здесь есть пространство для манёвра. Вместо того чтобы называть имя, можно описать характерные черты стиля. Например, вместо «в стиле Ван Гога» — попросить «портрет с выразительными, вихревыми мазками густого масла и контрастными цветами». Система улавливает такие описания и часто способна передать нужную эстетику, не переступая юридических границ. Это своеобразный компромисс между творческой свободой и уважением к правам создателей.

Как работать с DALL-E 3 через ChatGPT

Поскольку доступ к функции открывают постепенно, стоит иметь в виду: даже с подпиской она может появиться не сразу. У некоторых пользователей она активируется спустя несколько дней.

Регистрация и подписка

  • Заходите на сайт ChatGPT. Если у вас ещё нет аккаунта, потребуется его создать. Основная сложность здесь — необходимость указать зарубежный номер телефона для подтверждения.
  • После входа в интерфейс нужно оформить платную подписку ChatGPT Plus. Для этого в боковом меню находите кнопку «Upgrade to Plus», выбираете подходящий тариф и оплачиваете. Стоимость — 20 долларов в месяц. К сожалению, российские карты система не принимает, поэтому потребуется международная платёжная карта.

Настройка перед созданием изображений

  • Когда подписка активна, создаёте новый чат. Вверху, где выбирается модель, нужно указать GPT-4 — в выпадающем списке будет вариант DALL-E 3.
  • Важный нюанс: вы общаетесь в чате, который понимает и текст, и изображения. Если просто задать вопрос, система ответит текстом. Чтобы началась генерация картинок, нужно прямо попросить её что-то нарисовать или визуализировать.

Процесс создания и тонкости

  • GPT-4 не просто передаёт ваш запрос «как есть» — он его дополняет и уточняет, превращая простое описание в детализированное техническое задание. На основе этого DALL-E 3 создаёт четыре варианта изображений.
  • Если вам интересно, как именно был интерпретирован ваш запрос, можно посмотреть итоговый промпт — для этого нужно кликнуть на готовое изображение, и справа появится поле «Подсказка» с полным текстом запроса.
  • По умолчанию все картинки квадратные (1024×1024 пикселя), но в запросе можно заранее уточнить, что нужен горизонтальный или вертикальный формат.

Сохранение результата

Когда картинки готовы, просто выбираете тот вариант, который понравился больше всего. Чтобы сохранить его на устройство, наводите курсор на изображение и кликаете на значок скачивания.

Что в итоге получается

DALL-E 3 — пожалуй, самый простой способ создавать изображения с помощью нейросетей. Если сравнивать с другими популярными ИИ, то она геде-то посередине.

Вот что делает её особенно привлекательной:

  • В отличие от Midjourney, где нужна подписка и работа через Discord.
  • По сравнению со Stable Diffusion, не требуется мощный компьютер или знание программирования — всё делается в браузере

Самое главное преимущество — с DALL-E 3 не нужно учиться сложным формулировкам. Достаточно просто объяснить своими словами, что вы хотите увидеть. 

Создаётся ощущение, что нейросеть действительно понимает, что вы имеете в виду. Она хорошо справляется с творческими задачами, придумывает забавные сцены для мемов, пробует добавлять надписи на картинки. Правда, если нужна идеальная фотореалистичность, как на фотографии, здесь другие нейросети иногда выдают лучший результат.

Есть и ограничения — система не будет рисовать известных людей или копировать стиль современных художников. Но если описать желаемый стиль без упоминания конкретных имён (например, «яркая картина с мелкими деталями в пастельных тонах»), часто можно получить очень близкий к задуманному результат.

Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии