WAN 2.2 – un pas de plus

Dans le monde de l’IA, ça bouge tout le temps.

Pas le temps de s’amuser avec le modèle WAN 2.1 pour faire de la génération vidéo open-source, que voilà la version 2.2 !

Je ne vais pas rentrer dans les détails, mais l’objectif est sans surprise : meilleur contrôle des mouvements de caméra, plus de réalisme, etc.

Par contre, pour « générer à la maison », cela devient un peu plus complexe car ce sont 2 modèles qu’il faut utiliser.  En effet, WAN 2.2 utilise le MoE (Mixture of Expert), c’est-à-dire, grosso-modo qu’il y a 2 modèles spécialisés à différents aspects : un pour les mouvements, un autre pour les détails. Une génération plus longue donc, et qui utilise plus de ressources (VRAM).

Un peu de culture : T2V, I2V ?

L’arrivée des modèles de génération vidéo vient avec de nouvelles abréviations :

T2V : Text to Vidéo – Le prompt génère une vidéo à partir de rien.

I2V : Image to Vidéo – Le prompt génère une vidéo à partir d’une image existante.

S2V (nouveauté été 2025) : Sound to Vidéo – Le prompt génère une vidéo à partir d’une bande son existante ! (je ferai des tests)

Personnellement, je ne fais que de l’I2V.

Un exemple

A l’occasion d’un petit rafraichissement du site du Bar du Commerce à la Motte-Servolex (Barducommerce73.fr), j’ai repris la carte postale (image de une de cet article), statique, en noir et blanc, qui ouvrait leur site et j’ai demandé aux modèles de faire avancer le tramway… Après une quinzaine de générations, le résultat est sur leur site !

Vous noterez que c’est le modèle qui a ajouté les 3 personnes qui marchent sur la droite (elles ne sont pas dans l’image source), avec des tenues contextuellement pertinentes, et qu’il fait monter un homme à l’arrière du tramway. J’adore !

Note technique : Avec une RTX3060 12GB : 480p, 24fps, 4 secondes de vidéo => ~15 minutes par rendu.

N’hésitez pas à me contacter si vous avez des questions !