Ultra-réalisme avec Z-Image

Vous faites encore confiance aux images ? Sérieusement ?!

Laissez-moi faire un petit checkpoint de ce qu’il est « facile » de faire à la maison. « A la maison » signifie ici : sans utiliser des services en ligne, juste faire chauffer la carte graphique…

Depuis quelques semaines, un nouveau modèle de génération d’images attire tous les regards. Les téléchargements et LoRa s’accumulent à une vitesse folle !

Il s’agit de Z-Image de l’équipe Tongyi (Alibaba). Il est ici : https://github.com/Tongyi-MAI/Z-Image

Pourquoi un tel succès de Z-Image Turbo ?

C’est simple !

  • Il est léger (12gb pour la version turbo)
  • Il est rapide (20sec sur une 3060RTX)
  • Il a un très bon respect du prompt
  • Il est ultra-réaliste

On compare !

J’avais fait, il y a un an, un article sur le réalisme avec le modèle Flux :
https://www.dahu.fr/chercher-du-realisme-dans-les-images-ia/

J’ai donc repris exactement les mêmes prompts, pour les donner à Z-image .

Pour utiliser ce modèle, j’ai essayé avec ComfyUI : https://docs.comfy.org/tutorials/image/z-image/z-image-turbo

Et avec Néo-forge (héritier de Automatic 1111 et de ForgeUI) : https://github.com/Haoming02/sd-webui-forge-classic/tree/neo

Je vous laisse comparer.

« une photo amateur, une photo amateur d’une jolie femme alpine qui se repose au soleil sur une piste de ski. Elle est installée dans un transat sur la terrasse d’un restaurant d’altitude. Il y a une enseigne de restaurant avec le nom du restaurant écrit en gros caractères avec le texte : « **SAVOIE SKI BAR 1923 . Plat du jour : RACLETTE** ». Elle se détend au soleil et à l’air frais. Elle porte des vêtements des années 1920. Elle porte des bottes d’hiver, un pantalon d’hiver et un haut léger. Les Alpes sont couvertes de neige. Le soleil n’est pas dans la photographie. »

Il y a un an avec Flux :

Aujourd’hui avec Z-image

 

« Photographie à faible résolution prise dans un endroit encombré, peut-être dans l’appartement d’une location de chalet de montagne dans une station de ski dans les Alpes, montrant une jeune femme aux cheveux courts et foncés. Elle semble être d’origine caucasienne et avoir un teint clair. La femme est vêtue d’un pull beige épais, et d’un pantalon de ski ; elle est légèrement penchée en avant. Elle porte une grande écharpe rouge et un anneau d’argent à l’oreille gauche. Ses lèvres sont légèrement écartées, laissant apparaître un petit clou en argent dans sa lèvre inférieure. Son visage est un peu rouge avec les marques des lunettes de soleil. À l’arrière-plan, des étagères sont remplies d’objets divers qu’on trouve dans une location pour les sports d’hiver comme des gants, un sac à dos, un bonnet, ce qui donne à la pièce un aspect quelque peu désorganisé. L’éclairage est faible et donne une teinte jaunâtre à la scène, peut-être à cause d’une lampe ou d’une source lumineuse dans la pièce. L’ambiance générale suggère un style de vacances d’hiver joyeuses. L’image est légèrement floue, peut-être en raison d’un mauvais éclairage ou d’un appareil photo instable. »

Il y a un an avec Flux :

Aujourd’hui avec Z-image :

« Scène d’un petit village de montagne dans les Alpes hivernales vue à travers une grande fenêtre dont la peinture s’écaille sur l’appui, révélant un paysage extérieur de montagne morne. Au premier plan, le cadre de la fenêtre est proéminent, légèrement usé et vieilli, suggérant l’intérieur d’un vieux bâtiment en bois. Au-delà de la vitre, des arbres sans feuilles se dressent au milieu d’un champ brun et morcelé menant à une série de vieux chalets d’habitation aux épais toits d’ardoise, caractérisés par des façades et des balcons usés par le temps. Le ciel est couvert, jetant une lumière grise et sourde sur l’ensemble de la vue, indiquant une atmosphère de fin d’automne ou de début d’hiver. La photographie est de qualité amateur, légèrement floue, avec des couleurs ternes, donnant un sentiment de mélancolie et d’immobilité.., »

 

Il y a un an avec Flux :

Avec Z-image :

« Intérieur d’un restaurant d’altitude dans les Alpes. Grandes fenêtres avec un coucher de soleil vibrant, aux teintes roses et violettes, contrastant avec la silhouette du village dans la vallée. À l’extérieur, on aperçoit les sommets des Alpes enneigées dans la lueur orangée du coucher de soleil. Une femme regarde dehors d’un air pensif, l’accent étant mis sur le contraste serein entre l’intérieur et l’extérieur. Objectif grand angle, bonne qualité d’image. »

Flux :

Z-image :

Mon avis :

Le respect du prompt est bien meilleur, mais selon les cas, je trouve que les rendus Flux sont toujours aussi bons.

Le gain est subtil : il est dans les détails.

De la neige plus réaliste, un champ d’herbe, l’écorce d’un arbre, le grain de la peau, le respect des textes, etc.

Quoi qu’il en soit, sur Civitai, le nombre de LoRa Z-image explose, alors que le modèle Flux 2, pourtant meilleur, passe presque inaperçu. La raison ? La taille et la licence d’utilisation, je pense.  En effet, la majorité des cartes ont 12/16gb de VRAM, or le modèle Flux 2 est à 22gb…

Reste une question : que signifie dire  » j’ai fait une photographie  » ?

Amusez-vous bien !