Vidéos par IA : Wan2.1 est là !

Après les images, la vidéo. Rien de bien nouveau, me direz-vous !

Pourtant, c’est une petite révolution qui met en ébullition la communauté des artistes IA : Wan2.1 , le nouveau modèle proposé par Alibaba.

Qu’est-ce que Wan2.1 a de spécial ?

Wan2.1 est un modèle gratuit, open source et qui fonctionne en local, c’est-à-dire sur votre propre ordinateur (un peu musclé) !

Autrement dit, que ce soit à partir d’un texte (prompt) ou avec une image de départ + un prompt, vous pouvez générer des vidéos … et c’est génial !

Vous pouvez voir les meilleures réalisations sur leur blog officiel : https://wan.video/
Et pour ceux qui veulent tenter une installation : https://github.com/Wan-Video/Wan2.1
Il y a des Workflows ComfyUI spécialisés qui fonctionnent très bien.

Ce modèle est juste incroyable !

 

Quelques exemples

Vous vous souvenez dans mon article sur les angles de vue  , à la fin, il y a l’image d’une femme des années 1920 dans les montagnes ?

C’est elle :

Et bien j’ai donné cette image à Wan2.1 , avec pour prompt : « Très jolie montagnarde des années 1920, elle sourit et regarde tendrement. Ses cheveux bougent un peu dans le vent. »

« A very pretty 1920s mountain woman, she smiles and looks on tenderly. Her hair moves a little in the wind.  »

Configuration : modèle i2v_780_fp8, 20 step, 3 secondes de vidéo.

Et voilà !

Incroyable non ? Vous sentez l’air frais de nos montagnes ?

 

Et l’article sur le réalisme ? Avec à la fin des personnes au calme dans un restaurant ?

Cette image là :

Avec le prompt : « Une femme boit du thé dans un restaurant de montagne. Elle porte la tasse à sa bouche et boit une gorgée. La scène est très réconfortante. »

« A woman drinks tea in a mountain restaurant. She brings the cup to her mouth and takes a sip. The scene is very comforting.  »

Configuration : modèle i2v_780_fp8, 30 step, 3 secondes de vidéo.

Et plus récemment, j’ai écris un « serious game » où le lecteur doit collecter des Muses quand il répond juste à une question de français ( Minotaure – Partir )

Voici une des muses (générée par IA) :

Et voici la vidéo générée avec Wan2.1 :

Comptez 50 minutes de rendu pour 4 secondes en 720p 32fps avec une rtx 3060

 

Des obstacles

Tout n’est pas parfait… loin de là. Le premier point important est que cela consomme énormément de ressources… pendant un temps non-négligeable.

En effet, selon votre matériel, la résolution, le nombre de secondes, etc.  il faut plusieurs minutes pour générer ces vidéos. Et comme pour les images : il faut recommencer, et recommencer encore pour modifier le prompt et/ou différents paramètres. Et quand une itération demande 30 minutes, cela devient vite fastidieux !

Les autres modèles tout aussi performants sont payants. Sur ces plateformes, on est à un coût approximatif de 0.30€ pour 5 secondes de vidéo (hors formules gratuites).

Le 2e point est que Wan2.1 semble mauvais pour tout ce qui est des mouvements de caméra. Nul doute que cela s’améliorera dans les prochaines versions.

 

Des questions

Wan2.1 est plutôt bon pour générer des expressions humaines. Tout cela me fait penser à Harry Potter et les images animées dans leurs journaux, tableaux et cadres.

Là où je veux en venir, c’est que je pourrais très bien « animer » une vieille photo de mon arrière grand-mère que j’appréciais beaucoup. Je pourrais la faire qui me sourit, ou qui m’envoie un baiser.

Et pourtant, quelque chose me dit qu’il y a possiblement ici un grand danger…

 

 

 

C’est quoi un Agent IA ?

L’IA, c’est pratique (parfois), mais les Agents IA représentent la prochaine étape.

L’IA et ses Agents

L’IA fournit des informations : c’est une réponse prédictive créée après un entraînement spécifique.

Exemple : Une IA entraînée à recommander des films selon les goûts d’un utilisateur.

L’Agent IA, lui, prend des décisions en suivant des procédures. Autrement dit, les Agents IA réalisent des tâches concrètes.

Exemple : Un Agent IA programme une liste de films recommandés à un utilisateur, vérifie ceux disponibles en stock, puis choisit lesquels mettre en avant selon des critères commerciaux.

 

Un Agent IA à la maison : étude de cas

Mon problème : Je souhaite rédiger des résumés d’articles de blogs pour générer du contenu sur mon site.

– Avant les Agents IA : J’aurais abandonné l’idée par manque de temps.
– Avec les Agents IA : Le projet devient réalisable. C’est l’occasion idéale de tester cette technologie.

Logiciel utilisé : AnythingLLM (https://anythingllm.com/)

AnythingLLM permet notamment de créer des Agents et des « flows ».

Un Agent est une entité à laquelle on donne des tâches que l’IA seule ne peut pas accomplir. Par exemple, récupérer le contenu d’une page web relève d’un Agent. Ensuite, cet Agent utilise l’IA (un modèle entraîné) pour exploiter ce contenu.

Un Flow est une série d’actions que l’Agent doit suivre. Il est construit à partir de blocs.

Dans mon étude de cas, voici mes 3 blocs d’action :

1. Aller chercher le contenu de la page web [URL].
2. Utiliser le modèle IA 123 avec l’instruction : « Fais un résumé de 350 mots maximum de ce contenu ».
3. Envoyer ce résumé sous un format précis (JSON) directement vers mon site web.

Sans l’Agent IA, j’aurais dû faire ces tâches manuellement (copier-coller). Ici, l’Agent est programmé pour automatiser ces actions.

 

Résultats

Ce n’est que le début ! Ce n’est pas encore parfait, mais ça fonctionne déjà très bien après quelques ajustements simples, plus proches du bricolage que de l’informatique complexe.

Critères d’ajustement importants :
– La taille du contexte : l’IA nécessite de l’espace pour travailler efficacement. Plus on lui en donne, plus elle est lente.
– Le modèle IA utilisé : les résultats dépendent directement de la qualité du modèle choisi.

 

Un problème essentiel

Les IA fonctionnent par probabilités. Cela signifie qu’une réponse peut parfois être incohérente ou erronée. Un contrôle humain est donc indispensable.

Même si je pouvais entièrement automatiser le processus (résumés, publications automatiques chaque matin sans intervention), le risque reste réel et doit être assumé.

 

Autres exemples pratiques

On peut imaginer un Agent qui analyse automatiquement tous les nouveaux fichiers PDF d’un dossier, crée des résumés thématiques, des rapports, puis les enregistre en texte et les envoie par mail. Un autre Agent pourrait analyser du code informatique, identifier chaque fonction et générer automatiquement une documentation détaillée.

L’intérêt majeur des Agents IA n’est pas simplement l’automatisation (ça, c’est l’informatique classique), mais la capacité à accumuler et structurer du contenu automatiquement pour le fournir ensuite à un modèle d’IA qui génèrera une réponse précise selon un prompt préalablement défini.

Autrement dit, un Agent IA est un programme informatique spécialisé qui utilise l’IA pour vous, selon vos instructions.

Ce concept est important :

Lorsque vous utilisez l’IA, vous devez toujours lui fournir du contenu clair (texte, tableau, image, etc.) et demander un résultat sous un format précis.

L’Agent IA automatise ces deux étapes cruciales : trouver ou créer le contenu à analyser, puis gérer et formater le résultat.

Évidemment, le résultat d’un Agent peut ensuite servir d’entrée à un autre Agent, permettant ainsi de créer des chaînes d’actions complexes.

 

Conclusion

Les Agents IA sont aujourd’hui à la pointe de l’innovation, mais ce n’est que le début.
Un début prometteur qui pose une question : lorsque toutes les tâches fastidieuses seront automatisées, nous restera-t-il uniquement les tâches agréables ?