Cela faisait longtemps que je voulais essayer : faire parler une personne en photo.
Et puis, par chance, cet été (2025) est sorti WAN2.2 S2V, comprenez « Sound To Vidéo », un modèle spécialisé à cette tâche. Aussi, il me fallait tenter !
Je suis parti dans l’idée de générer une responsable du support client, orientée « influenceuse », « Story », « Short ».
Je l’ai baptisée Sophie A.
Sophie A. sera donc ma nouvelle collaboratrice pour tous mes prochains articles, et dont la seule constante sera son nom. Qui a dit « anthropomorphisme » ?
Premier écueil : faire une bande son.
C’est très pénible de s’enregistrer.
Aussi, j’ai trouvé https://elevenlabs.io qui vous permet, gratuitement, de générer du « text to speech » facilement ! Cela fonctionne très bien. D’autant plus qu’ils permettent de spécifier des intonations n’importe où dans le texte. Les voix ont souvent un petit accent anglais, qui donne un côté Québec, mais ça suffit largement pour un test.
A l’épreuve des exercices de diction
J’ai choisi de prendre des phrases d’exercices d’articulation, propres au théâtre. J’en ai trouvé des très bien ici : https://www.atatheatre.com/Diction.html
Et voici mon premier texte pour l’audio :
» Petit pot de beurre. Alerte, Arlette allaite ! Les chaussettes de l’archiduchesse sont-elles sèchent ou archi-sèches ? Panier piano. Ta Kathie t’a quitté. Je veux et j’exige d’exquises excuses. Dinon dina dit-on du dos d’un dodu dindon. »
Oui, je reconnais que j’ai placé d’emblée la barre un peu haute…
La photo de départ est, elle aussi, générée par IA, avec le modèle FLUX.
enfin, le prompt, simple : » The woman is talking »
Et voici un des résultats :
Techniquement : RTX3060 12GB VRAM – 20 min de rendu pour 14 secondes – ComfyUI avec le workflow proposé par défaut.
Mon avis :
Premièrement, il y a un biais : Comme je veux voir si l’articulation est bonne, je focalise sur les lèvres. Or, on ne fait jamais ça au naturel. Et donc, je dois me concentrer pour regarder la « personne » dans les yeux pour juger de la pertinence de la synchronisation.
« Panier Piano » et « Dinon dina […] » ne sont jamais bien articulés, dans aucun de mes tests.
Ma 1ère conclusion : il y a un problème d’articulation du français qui, je pense, vient du fait que les modèles d’encodage sont anglais…
2e test
Changement de texte audio : « [annoyed] Vous avez un problème informatique ? [sarcastic] Avez-vous essayé de cliquer 25 fois ? C’est la méthode qui fonctionne le mieux ! [excitedly] Suivez-moi pour d’autres conseils ! »
Changement d’image de départ pour une personne un peu plus fraîche.
Le prompt : « The woman is talking . She articulates perfectly. »
Le meilleur résultat :
Mon avis après 5 rendus :
C’est pas si mal quand même ! Même si j’ai trouvé et essayé un modèle d’encodage audio entraîné sur du français, c’est le modèle anglais qui, dans ce cas, reste le plus fidèle.
Je note qu’il y a un problème de timing : WAN2.2 S2V continue de faire parler le personnage, même s’il n’y a plus de son. Je suppose donc qu’il faut se caler parfaitement.
3e test
Changement de texte audio généré : « Qu’est-ce qu’un canif ? Vous ne savez pas ? [laughs] C’est un petit fien ! hahaha . Suivez-moi pour d’autres devinettes. »
Changement d’image.
Le prompt, un peu plus poussé pour coller au texte et soutenir une mise en scène : « The woman tells a funny riddle. She smiles and laughs throughout the joke. Then she smile at the camera. »
Le meilleur résultat :
Mon avis, après 15 rendus : Bof, il (me) reste beaucoup de progrès à faire.
Conclusion
Le modèle, à ce stade, n’est pas satisfaisant sur l’articulation de la langue française.
Grosso-modo, pour mes premiers tests, on est proche du mauvais doublage, mais je reconnais que ça donne envie de persévérer.
Il y a un autre aspect important qui est que, faute de VRAM, je suis obligé d’utiliser le modèle FP8 et il semble que le FP16 (32GB) est bien meilleur !
Notez que mes tests sont toujours dans le cadre d’une utilisation en local. Vous trouverez facilement des plateformes payantes pour générer bien mieux .
Pour vous rendre compte de la qualité en anglais, je vous invite à faire un tour sur : https://humanaigc.github.io/wan-s2v-webpage/
Donc, en résumé, en local :
– Générer une fausse voix de qualité avec des intonations : OK (mais en ligne)
– Générer une fausse image d’une (vraie ou fausse) personne : OK
– Générer une vidéo de cette personne sans sa voix : OK
– Générer une fausse vidéo de cette personne qui parle avec synchronisation des lèvres (lips sync): +- OK (en cours, il faut des modèles adaptés à la langue)
Le S2V est l’étape qui manque pour générer complètement une fausse personne. Nul doute que dans 6 mois il y aura de nouveaux modèles plus performants.
Je pense que l’obstacle principal est l’articulation de la langue française dans un contexte technique où tout est en anglais. Il faudra certainement des ré-entrainements (fine-tuning) du modèle pour chaque langue.
La suite sera une génération dynamique en temps réel, mais là, ce sera une problématique de puissance de calcul pour maintenir de l’ultra-réalisme.
J’imagine bientôt : » Après analyse de notre clientèle S.A.V. , on s’est généré un quadra-menton-carré avec une voix rassurante et apaisante, type « gendre idéal ». Il est topissime ! On a doublé nos ratios satisfaction client ! Pour chaque type de client, on a un avatar adapté ! Fini le trombone de word 97 ! Adieu Clippy* ! »
Je vous partage une dernière question, faussement personnelle : Dois-je enregistrer ma voix pour un futur faux moi ?
En effet, plus tard, il sera facile de générer des vidéos de nous-même à partir de toutes nos photos de famille (c’est déjà le cas), mais nos voix non, faute d’enregistrements. La possibilité de générer une fausse personne est la même que celle de générer l’écho d’une vraie : seul le dataset (les données d’entraînement, les données de départ) change.
Et donc, cette question : est-ce que je veux rendre possible que mes petits-enfants puissent créer un echo de moi-même ? Dois-je enregistrer mes intonations, mes rires, mes tics de langage ?
Et finalement, n’est-ce pas là plus globalement l’idée de faire une « sauvegarde » de soi-même ? (Ça me fait penser à Superman quand il discute avec l’hologramme-IA de son père dans le vaisseau.)
Ma réponse, pour ma part, est simple : non, je ne tiens pas à ce que ma descendance (ou qui que ce soit) utilise mon écho pour me faire dire/faire n’importe quoi.
Cela n’empêche que cela va vite être possible, en local.
Notez que pour ce qui est de générer une personnalité, c’est-à-dire de donner des traits de caractère à un chatBot, je le fais déjà depuis plus d’un an sur https://testdorientation.com et https://fichedepersonnalite.com . Le principe est simple : Vous faites un test et les résultats vous proposent un prompt contenant vos caractéristiques normalisées avec des instructions adaptées, demandant un analyse et une simulation de vos réponses. Autrement dit : discuter avec vous-même ! C’est très amusant !
*https://fr.wikipedia.org/wiki/Clippy