GPT Image 2: что умеет новый генератор картинок от OpenAI и чем он лучше предыдущих версий

GPT Image 2

OpenAI объявила о начале выпуска GPT Image 2 — своего нового флагманского генератора изображений. Объявление пришло через официальный блог компании и посты в соцсетях от Сэма Альтмана и технического директора Миры Мурати. Пока модель доступна только платным подписчикам ChatGPT Plus, Team и Enterprise; доступ через API ожидается в начале мая 2026 года.

Почему все узнали о ней до релиза? 

История GPT Image 2 началась раньше, чем OpenAI решила о ней рассказать — и это само по себе показательно.

4 апреля 2026 года на платформе LM Arena (бывший Chatbot Arena, где пользователи сравнивают модели вслепую) появились три анонимные модели с нелепыми названиями: maskingtape-alpha, gaffertape-alpha и packingtape-alpha. Пиратс Питер Левелс — инди-предприниматель и один из самых внимательных наблюдателей за AI-рынком — и венчурный инвестор Джастин Мур (Justine Moore) среди первых опубликовали скриншоты: результаты явно выбивались из ряда всего доступного публично. Через несколько часов все три модели убрали с платформы.

Паттерн знакомый. В декабре 2025 года, перед выходом GPT Image 1.5, на LM Arena точно так же мелькнули анонимные модели с кодовыми именами «Chestnut» и «Hazelnut» — их быстро убрали, через несколько недель вышел релиз. История повторилась.

Что это значит практически: всё, что тестировщики наблюдали на LM Arena в начале апреля, — это предрелизные сборки, а не финальный продукт. Большинство характеристик, описанных ниже, следуют именно из этих тестов. Официальный релиз подтвердил направление, но конкретные цифры всё ещё стоит воспринимать с осторожностью.

Что умеет новая модель

Текст внутри изображений. Это главное достижение, которое тестировщики отметили единогласно. OpenAI заявляет о 99% точности на стандартных типографических бенчмарках — и это принципиально другой уровень. У GPT Image 1.5 показатель составлял около 90–95%, и это означало смазанные надписи на вывесках, поехавшие кнопки интерфейсов и невозможность нормально работать с брендингом или рекламными макетами. Теперь длинный текст, мелкие подписи и UI-элементы воспроизводятся правильно. Для всех, кто пытался использовать AI-генерацию в рекламе или дизайне — это разница между «игрушкой» и рабочим инструментом.

Оговорка, которую стоит держать в голове: бенчмарковые 99% и реальная работа с разнообразными промптами — разные вещи. Цифра получена на стандартизированных тестах; насколько она держится на нестандартных запросах — покажет только массовое использование.

Цветовой тон. GPT Image 1 имел устойчивый теплый желтовато-оранжевый оттенок, который стал его фирменным недостатком. В GPT Image 2 он устранен: цветопередача нейтральная, без характерного «нейро-фильтра».

Цветовой тон

Скорость и разрешение. Стандартный вывод — 4096×4096 пикселей, скорость генерации примерно вдвое выше, чем у GPT Image 1. С учётом того, что 1.5 уже работал в 4 раза быстрее первой версии, прирост накопительный.

Скорость и разрешение

Лица и сложные сцены. Тестировщики отмечают существенно улучшенную передачу лиц и кожи — без эффекта «зловещей долины», который преследовал предыдущие версии. Улучшилась работа со сложными сценами: объекты стоят на своих местах, перспектива и пропорции выдержаны. Качество рендеринга CJK-символов (китайский, японский, корейский) оценено как «на удивление хорошее».

Конкурентный контекст

Коротко об именах, которые встречаются в тестах: «Nano Banana Pro» — это прозвище, принятое в AI-сообществе для одной из флагманских моделей Google (официальное название компания не раскрывала до релиза). В слепых сравнениях на LM Arena утечки GPT Image 2 стабильно обгоняли её по реализму, точности текста и «знанию мира». Один из тестировщиков написал, что разница «делает NBP похожим на DALL-E» — сильное заявление, учитывая, что именно эта модель Google удерживала первое место в рейтингах несколько месяцев. Google успела выпустить следующую версию, которая частично закрыла разрыв, но по точности текста OpenAI, судя по публичным бенчмаркам, пока ведёт.

OpenAI встроила в GPT Image 2 новое поколение инструментов для водяных знаков и классификаторов происхождения контента. В условиях активных судебных разбирательств вокруг обучающих данных — и в США, и в ЕС — это не просто технический момент. Корпоративным клиентам нужна документальная цепочка для коммерческого использования, и OpenAI явно это понимает.

Почему именно сейчас

Два дедлайна, которые делали выпуск логичным именно в этот момент.

Первый: OpenAI объявила, что 12 мая 2026 года полностью отключает DALL-E 2 и DALL-E 3. Azure OpenAI уже отключил DALL-E 3 ещё 18 февраля 2026 года. Разработчикам нужна была чёткая замена, а не боковой переход.

Второй: 24 марта 2026 года OpenAI закрыла Sora. Видеогенератор сжигал, по данным из утечённых внутренних материалов, порядка $15 миллионов в день на инференс при совокупной выручке около $2,1 миллиона за всё время существования. Эти цифры — не из официального отчёта компании, а из источников, близких к ней; тем не менее они широко цитируются и не были опровергнуты. Освободившиеся вычислительные мощности очевидным образом пошли куда-то ещё — и GPT Image 2 появился ровно через одиннадцать дней после закрытия Sora.

Что важно 

Откатная структура выпуска — сначала платные подписчики, потом API — говорит о том, что OpenAI хочет собрать обратную связь до полного открытия. Это разумно: именно на массовом потоке нестандартных запросов вылезают все несоответствия между лабораторными тестами и реальностью. Заявленные 99% точности — ориентир, а не гарантия.

Для практического использования модель становится доступна через API в начале мая 2026 года. До тех пор платные пользователи ChatGPT могут тестировать её напрямую через интерфейс — хотя пока выкат ещё идёт, конкретный запрос может уйти как в GPT Image 2, так и в 1.5.

guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии