Alibaba обновило open source генератор видео Wan 2.2

Обзор Wan 2.2

Есть две версии этой видео-модели: мощная (14 миллиардов параметров) и полегче (5 миллиардов). Мощная умеет делать видео как по текстовому описанию, так и по картинке, а легкая — поменьше и попроще. Обе могут выдавать видео четкостью до 720p.

Эту новую версию (2.2) натренировали на вдвое большем количестве примеров, чем предыдущую (2.1). Поэтому теперь картинка в видео получается намного плавнее, похожей на кино, с крутыми движениями камеры. И самое главное — модель теперь гораздо лучше улавливает суть того, что ты просишь в описании.

Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

Что изменилось в открытой моделе wan 2.2?

Ссылка: Wan 2.2

Что изменилось в открытой моделе wan 2.2?

Киношное Качество (Cinematic Vision Control):

  • Он не просто генерит движущиеся картинки. Он понимает язык кино. Можешь попросить его сделать сцену так, как будто ее снимал профессиональный оператор.
  • Хочешь, чтобы герой был в центре кадра на фоне размытого леса с золотым светом сквозь листву («Лесной мальчик»)? Легко.
  • Нужен драматичный силуэт поезда в лучах прожектора с танцующими тенями («Theater Train»)? Пожалуйста.
  • Задумал мрачную атмосферу в метро с четкой героиней на размытом фоне («Subway Car»)? Без проблем.
  • Суть: Ты можешь очень точно указать, как должен падать свет, какие должны быть цвета, как построен кадр (крупный план, общий и т.д.), и модель это поймет и сделает.

Плавные и Сложные Движения (Sweeping Motion):

  • Раньше нейросети часто «ломались» на резких или сложных движениях. Wan 2.2 с этим справляется намного лучше.
  • Хочешь видео с хип-хоп танцорами в неоновых лучах, где видно каждое синхронное движение? Может.
  • Кошка в платье, лузящая горилл в костюмах в торговом центре? Да, и падать они будут реалистично!
  • Паркур по городу с прыжками через стену и машину? Легко и плавно.
  • Гимнастка, делающая сальто на крыле летящего самолета? Да, с развевающимися на ветру волосами и одеждой!
  • Кролик на коньках на зимнем озере? Красиво и плавно.
  • Суть: Движения стали гораздо естественнее, сложнее и контролируемее.

Понимает Сложные Запросы (Precise Prompt Following):

  • Ты можешь придумать что-то совсем нереальное или очень детальное, и модель постарается это воплотить.
  • Например, девушка надувает жвачку-пузырь, а ВНУТРИ пузыря — аквариум с плавающими рыбками («Blowing Bubbles»)? Попробуем!
  • Или женщина с шлангом, из которого вместо воды летят разноцветные цветы («Showerhead»)? Да, и в нужном стиле с соломенной шляпой и полями.
  • Суть: Модель лучше схватывает суть твоей (иногда очень странной) идеи и пытается ее реализовать, даже если там много разных объектов или сложная концепция.

Открытый Код и Доступность:

Это главная новость! 

Теперь код Wan 2.2 выложили в открытый доступ. Любой может:

  • Скачать модель.
  • Посмотреть, как она работает «под капотом».
  • Использовать бесплатно.
  • Улучшать и дорабатывать под свои нужды.

Есть даже версия (TI2V-5B), которая работает на хорошей домашней видеокарте (типа RTX 4090) и создает видео в приличном качестве (720p, 24 кадра в секунду). Это делает технологию гораздо доступнее для обычных людей, художников, исследователей, а не только для гигантов типа Google или OpenAI.

Ссылка: huggingface

Что внутри:

  • Больше Знаний: Модель учили на ОЧЕНЬ большом количестве новых картинок и видео (+65% и +83% по сравнению с прошлой версией). Поэтому она «видела» больше и генерит лучше.
  • Умная Архитектура (MoE): Представь, что внутри модели не один «мозг», а несколько «экспертов». Каждый эксперт лучше всего справляется со своей задачей (например, один лучше рисует движение, другой — свет). Когда нужно создать видео, модель выбирает, какого эксперта использовать на каждом шаге. Это дает больше мощности без замедления.
  • Фокус на Красоту: Ее специально учили на «красивых» данных, помеченных, как в кино (свет, композиция, цвет). Поэтому результаты часто выглядят эстетичнее.

Wan 2.2 — это серьезный шаг вперед в генерации видео и картинок. Он:

  • Качественнее: Делает красивее, кинематографичнее.
  • Умнее: Лучше понимает сложные и странные запросы.
  • Плавнее: Справляется со сложными движениями.
  • Открытее: Теперь любой может его использовать, изучать и улучшать.
  • Доступнее: Есть версии, работающие на мощном домашнем железе.

Если ты хочешь экспериментировать с созданием видео по текстовому описанию, причем с контролем над стилем, светом и движением, и иметь возможность сделать это бесплатно на своем компе — Wan 2.2 сейчас одна из самых интересных и мощных открытых технологий для этого. Как будто дали в руки супер-инструмент для визуального творчества, которым раньше владели только крупные компании.

Итоговая таблица сравнения

КритерийWan 2.1Wan 2.2
АрхитектураДиффузионная + контроль кадрамиMoE (Mixture of Experts)
Разрешение/длительность720p, 5 сек.720p 24fps, до 10 сек. (PRO-версии)
Железо8 ГБ VRAMRTX 4090+
Сильные стороныПлавные переходы, простотаКинематографичность, контроль деталей
Идеальные задачиКороткие ролики, соцсетиКино, игры, рекламные ролики

Wan 2.1 остаётся удачным выбором для быстрых экспериментов с контролем через кадры, особенно на слабом железе. Wan 2.2 — прорыв для индустриальных проектов, где нужны кинематографичность и детализация. Обе модели открыты, но Wan 2.2 задаёт новый стандарт в качестве генерации, пусть и требует больше ресурсов.

Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!

guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии