Alibaba обновило open source генератор видео Wan 2.2

Есть две версии этой видео-модели: мощная (14 миллиардов параметров) и полегче (5 миллиардов). Мощная умеет делать видео как по текстовому описанию, так и по картинке, а легкая — поменьше и попроще. Обе могут выдавать видео четкостью до 720p.
Эту новую версию (2.2) натренировали на вдвое большем количестве примеров, чем предыдущую (2.1). Поэтому теперь картинка в видео получается намного плавнее, похожей на кино, с крутыми движениями камеры. И самое главное — модель теперь гораздо лучше улавливает суть того, что ты просишь в описании.
Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

Ссылка: Wan 2.2
Что изменилось в открытой моделе wan 2.2?
Киношное Качество (Cinematic Vision Control):
- Он не просто генерит движущиеся картинки. Он понимает язык кино. Можешь попросить его сделать сцену так, как будто ее снимал профессиональный оператор.
- Хочешь, чтобы герой был в центре кадра на фоне размытого леса с золотым светом сквозь листву («Лесной мальчик»)? Легко.
- Нужен драматичный силуэт поезда в лучах прожектора с танцующими тенями («Theater Train»)? Пожалуйста.
- Задумал мрачную атмосферу в метро с четкой героиней на размытом фоне («Subway Car»)? Без проблем.
- Суть: Ты можешь очень точно указать, как должен падать свет, какие должны быть цвета, как построен кадр (крупный план, общий и т.д.), и модель это поймет и сделает.
Плавные и Сложные Движения (Sweeping Motion):
- Раньше нейросети часто «ломались» на резких или сложных движениях. Wan 2.2 с этим справляется намного лучше.
- Хочешь видео с хип-хоп танцорами в неоновых лучах, где видно каждое синхронное движение? Может.
- Кошка в платье, лузящая горилл в костюмах в торговом центре? Да, и падать они будут реалистично!
- Паркур по городу с прыжками через стену и машину? Легко и плавно.
- Гимнастка, делающая сальто на крыле летящего самолета? Да, с развевающимися на ветру волосами и одеждой!
- Кролик на коньках на зимнем озере? Красиво и плавно.
- Суть: Движения стали гораздо естественнее, сложнее и контролируемее.
Понимает Сложные Запросы (Precise Prompt Following):
- Ты можешь придумать что-то совсем нереальное или очень детальное, и модель постарается это воплотить.
- Например, девушка надувает жвачку-пузырь, а ВНУТРИ пузыря — аквариум с плавающими рыбками («Blowing Bubbles»)? Попробуем!
- Или женщина с шлангом, из которого вместо воды летят разноцветные цветы («Showerhead»)? Да, и в нужном стиле с соломенной шляпой и полями.
- Суть: Модель лучше схватывает суть твоей (иногда очень странной) идеи и пытается ее реализовать, даже если там много разных объектов или сложная концепция.
Открытый Код и Доступность:
Это главная новость!
Теперь код Wan 2.2 выложили в открытый доступ. Любой может:
- Скачать модель.
- Посмотреть, как она работает «под капотом».
- Использовать бесплатно.
- Улучшать и дорабатывать под свои нужды.
Есть даже версия (TI2V-5B), которая работает на хорошей домашней видеокарте (типа RTX 4090) и создает видео в приличном качестве (720p, 24 кадра в секунду). Это делает технологию гораздо доступнее для обычных людей, художников, исследователей, а не только для гигантов типа Google или OpenAI.
Ссылка: huggingface
Что внутри:
- Больше Знаний: Модель учили на ОЧЕНЬ большом количестве новых картинок и видео (+65% и +83% по сравнению с прошлой версией). Поэтому она «видела» больше и генерит лучше.
- Умная Архитектура (MoE): Представь, что внутри модели не один «мозг», а несколько «экспертов». Каждый эксперт лучше всего справляется со своей задачей (например, один лучше рисует движение, другой — свет). Когда нужно создать видео, модель выбирает, какого эксперта использовать на каждом шаге. Это дает больше мощности без замедления.
- Фокус на Красоту: Ее специально учили на «красивых» данных, помеченных, как в кино (свет, композиция, цвет). Поэтому результаты часто выглядят эстетичнее.
Wan 2.2 — это серьезный шаг вперед в генерации видео и картинок. Он:
- Качественнее: Делает красивее, кинематографичнее.
- Умнее: Лучше понимает сложные и странные запросы.
- Плавнее: Справляется со сложными движениями.
- Открытее: Теперь любой может его использовать, изучать и улучшать.
- Доступнее: Есть версии, работающие на мощном домашнем железе.
Если ты хочешь экспериментировать с созданием видео по текстовому описанию, причем с контролем над стилем, светом и движением, и иметь возможность сделать это бесплатно на своем компе — Wan 2.2 сейчас одна из самых интересных и мощных открытых технологий для этого. Как будто дали в руки супер-инструмент для визуального творчества, которым раньше владели только крупные компании.
Итоговая таблица сравнения
| Критерий | Wan 2.1 | Wan 2.2 |
| Архитектура | Диффузионная + контроль кадрами | MoE (Mixture of Experts) |
| Разрешение/длительность | 720p, 5 сек. | 720p 24fps, до 10 сек. (PRO-версии) |
| Железо | 8 ГБ VRAM | RTX 4090+ |
| Сильные стороны | Плавные переходы, простота | Кинематографичность, контроль деталей |
| Идеальные задачи | Короткие ролики, соцсети | Кино, игры, рекламные ролики |
Wan 2.1 остаётся удачным выбором для быстрых экспериментов с контролем через кадры, особенно на слабом железе. Wan 2.2 — прорыв для индустриальных проектов, где нужны кинематографичность и детализация. Обе модели открыты, но Wan 2.2 задаёт новый стандарт в качестве генерации, пусть и требует больше ресурсов.
Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!