C’est quoi un Agent IA ?

Publié le 12 mars 2025

L’IA, c’est pratique (parfois), mais les Agents IA représentent la prochaine étape.

L’IA et ses Agents

L’IA fournit des informations : c’est une réponse prédictive créée après un entraînement spécifique.

Exemple : Une IA entraînée à recommander des films selon les goûts d’un utilisateur.

L’Agent IA, lui, prend des décisions en suivant des procédures. Autrement dit, les Agents IA réalisent des tâches concrètes.

Exemple : Un Agent IA programme une liste de films recommandés à un utilisateur, vérifie ceux disponibles en stock, puis choisit lesquels mettre en avant selon des critères commerciaux.

Un Agent IA à la maison : étude de cas

Mon problème : Je souhaite rédiger des résumés d’articles de blogs pour générer du contenu sur mon site.

– Avant les Agents IA : J’aurais abandonné l’idée par manque de temps.
– Avec les Agents IA : Le projet devient réalisable. C’est l’occasion idéale de tester cette technologie.

Logiciel utilisé : AnythingLLM (https://anythingllm.com/)

AnythingLLM permet notamment de créer des Agents et des « flows ».

Un Agent est une entité à laquelle on donne des tâches que l’IA seule ne peut pas accomplir. Par exemple, récupérer le contenu d’une page web relève d’un Agent. Ensuite, cet Agent utilise l’IA (un modèle entraîné) pour exploiter ce contenu.

Un Flow est une série d’actions que l’Agent doit suivre. Il est construit à partir de blocs.

Dans mon étude de cas, voici mes 3 blocs d’action :

1. Aller chercher le contenu de la page web [URL].
2. Utiliser le modèle IA 123 avec l’instruction : « Fais un résumé de 350 mots maximum de ce contenu ».
3. Envoyer ce résumé sous un format précis (JSON) directement vers mon site web.

Sans l’Agent IA, j’aurais dû faire ces tâches manuellement (copier-coller). Ici, l’Agent est programmé pour automatiser ces actions.

Résultats

Ce n’est que le début ! Ce n’est pas encore parfait, mais ça fonctionne déjà très bien après quelques ajustements simples, plus proches du bricolage que de l’informatique complexe.

Critères d’ajustement importants :
– La taille du contexte : l’IA nécessite de l’espace pour travailler efficacement. Plus on lui en donne, plus elle est lente.
– Le modèle IA utilisé : les résultats dépendent directement de la qualité du modèle choisi.

Un problème essentiel

Les IA fonctionnent par probabilités. Cela signifie qu’une réponse peut parfois être incohérente ou erronée. Un contrôle humain est donc indispensable.

Même si je pouvais entièrement automatiser le processus (résumés, publications automatiques chaque matin sans intervention), le risque reste réel et doit être assumé.

Autres exemples pratiques

On peut imaginer un Agent qui analyse automatiquement tous les nouveaux fichiers PDF d’un dossier, crée des résumés thématiques, des rapports, puis les enregistre en texte et les envoie par mail. Un autre Agent pourrait analyser du code informatique, identifier chaque fonction et générer automatiquement une documentation détaillée.

L’intérêt majeur des Agents IA n’est pas simplement l’automatisation (ça, c’est l’informatique classique), mais la capacité à accumuler et structurer du contenu automatiquement pour le fournir ensuite à un modèle d’IA qui génèrera une réponse précise selon un prompt préalablement défini.

Autrement dit, un Agent IA est un programme informatique spécialisé qui utilise l’IA pour vous, selon vos instructions.

Ce concept est important :

Lorsque vous utilisez l’IA, vous devez toujours lui fournir du contenu clair (texte, tableau, image, etc.) et demander un résultat sous un format précis.

L’Agent IA automatise ces deux étapes cruciales : trouver ou créer le contenu à analyser, puis gérer et formater le résultat.

Évidemment, le résultat d’un Agent peut ensuite servir d’entrée à un autre Agent, permettant ainsi de créer des chaînes d’actions complexes.

Conclusion

Les Agents IA sont aujourd’hui à la pointe de l’innovation, mais ce n’est que le début.
Un début prometteur qui pose une question : lorsque toutes les tâches fastidieuses seront automatisées, nous restera-t-il uniquement les tâches agréables ?

Dans ChatBot et LLM Tags : Agent IA, Intelligence Artificielle, prompt

Quand l’IA ne connait pas…

Publié le 30 décembre 202431 décembre 2024

Je voulais générer une jolie image pour la « Bonne Année 2025 ».

En gardant l’axe « Les Alpes, les montagnes, la Savoie », sans chercher beaucoup d’originalité, j’ai commencé par imaginer simplement une fleur Edelweiss en gros plan…

Sur 6 modèles essayés, aucun ne connait l’edelweiss, tous me sortent une marguerite plus ou moins fraiche.

J’ai donc modifié le prompt pour tenter de donner tous les détails qui caractérisent notre belle fleur de nos montagnes :

A highly detailed close-up in 4K resolution of a wild edelweiss flower. The flower is composed of numerous fine and delicate petals, pure white with silvery shades, creating a slightly fuzzy effect. Each petal is star-shaped, with small visible veins adding texture and depth. At the center of the flower, a pale yellow core subtly contrasts with the surrounding petals. Natural light illuminates the flower, highlighting its complex structure and fragile beauty. In the background, an artistic blur evokes majestic Alpine mountains, with touches of soft green and gray, accentuating the purity and elegance of the edelweiss. The overall image conveys a sense of calm, preserved nature, and delicacy. In the bottom is written : « BONNE ANNEE 2025 »

Et là, festival de fleurs très jolies, mais aucune edelweiss :

Inutile d’insister, les modèles FLUX ne connaissent pas l’edelweiss.

On en revient donc à cette règle fondamentale :

L’IA ne connait que ce sur quoi elle a été entrainée.
Le biais est de croire qu’elle sait tout.

Donc, pris au jeu, j’ai essayé d’enrichir la composition avec une situation réaliste, mais en réalité très difficile à réaliser « dans la vrai vie ». En l’occurence, un gros plan sur la fleur avec en arrière plan une vache intéressée par manger cette fleur.

J’ai ajouté au prompt : « In the background there is the head of a cow, going to eat this flower. »

Pour aller plus loin, j’ai aussi ajouté une randonneuse : « In the background, to the right, there is the head of a cow, going to eat this flower. In the background, to the left, there is a woman hiker. »

Toujours pas d’Edelweiss…

Pour le fun, et parce que les hommes ne peuvent faire autrement que d’être des hommes, j’ai ajouté « en bikini », pour voir… Devinez quoi ? L’IA sait super bien faire des femmes en bikini ! Comme si elle avait été particulièrement bien entrainée sur le sujet… Par contre, écrire correctement des mots, ce n’est toujours pas pertinent.

Quelques rendus de mauvais goût :

Sacrée Heidi !

Las de ces compositions aux limites du grotesque, j’ai changé de pied : Au lieu d’utiliser l’IA pour représenter du réel, il vaut mieux l’utiliser pour représenter du réel vraiment impossible.

J’ai donc imaginé les mêmes fleurs, mais avec en fond les éléphants de l’armée d’Hannibal quand il traversa les Alpes en 218 av JC (ce qui, vous le savez, est la raison de la statue des éléphants à Chambéry)

Exit la vache et la randonneuse : In the background, A massive war elephant from Hannibal’s army as he crossed the Alps, adorned with simple harness and equipment. Soldiers in ancient Carthaginian armor, equipped with spears and shields, march alongside the elephants.

Quelques rendus intéressants :

Mais ces images sont un peu trop martiales pour souhaiter une bonne année. J’ai donc modifié le prompt pour avoir un elephant en paturage dans nos alpages, scène qui a certainement existé, jadis. J’avoue que j’aime cette idée : Un jour, un éléphant parcourait nos montagnes…

Tous mes vœux pour cette nouvelle année 2025 !

Note: C’est bien évidemment aussi la notion de créativité avec l’IA qui est sous-jacente à cet article 😉

Références: les modèles utilisés sont des fine-tune de FLUX.D (sans LoRA). Aucun animal n’a été maltraité pour réaliser ces clichés.

Dans Génération d'images Tags : Alpes, Forge UI, Intelligence Artificielle, prompt, Réalisme, Savoie, Stable Diffusion

IA : Images et textes dans le style de…

Publié le 6 décembre 20246 décembre 2024

Dans la majorité des cas, quand on demande à un chatBot ou une IA générative de médias, on oublie souvent de lui demander d’appliquer un style.

Pourquoi ? Tout simplement parce que pour demander un style, il faut connaître le nom des styles et ce qu’ils représentent.

Pourquoi les vieux modèles connaissent les styles des artistes ?

Tout commence avec les Dataset.

Un Dataset, c’est l’ensemble des données sur lesquelles on va entraîner un modèle. Autrement dit, pour l’exemple des images, chaque image sera associée à des mots la décrivant, tous les mots.

Et zou ! On entraîne !

Par exemple, j’ai 10 photos de chats sur une pelouse. Alors je vais dire dans les textes « chat ».
Oui, mais… si dans mes 10 photos, ils sont dans l’herbe, quand je demanderai une photo de chat, le modèle me fera le chat dans de l’herbe, même si je lui demande de le dessiner sur un tapis !

Et oui ! L’IA ne sait pas ce que c’est qu’un chat, aussi, elle a retenu l’ensemble « commun » aux 10 images … et donc, il faut décrire l’image « chat sur une pelouse d’herbe » et lui donner une image de « chat sur une route » pour que l’IA puisse extraire le concept de « chat » en dehors du sol lors de l’entraînement. La création d’un Dataset est un travail colossal.

Et donc, les premiers modèles ont été entraînés sur des artistes : « dessin de maison dans le style de Nom_De_Lartiste »

Sauf que, les artistes ont compris plus(trop?) tard qu’il y avait là une forme de vol.

Et donc, les nouveaux modèles « connaissent » les styles des artistes, mais ne réagissent pas quand on les invoque dans le prompt, car leur nom est enlevé du Dataset, sauf s’il est décédé depuis très longtemps et que ses œuvres sont libres de droits.
C’est normal, aucun modèle n’a envie d’avoir un procès pour vol d’œuvre.

Oui mais, les œuvres d’un artiste participent d’un courant, d’une époque, d’un style « générique » : Art nouveau, impressionnisme, abstrait etc.
Là, les nouveaux modèles restent pertinents : Vous trouverez sur https://enragedantelope.github.io/Styles-FluxDev/ un test de style avec le modèle récent de FLUXdev :

L’avenir des graphistes : la culture

Les vieux (mais pas si vieux) modèles « stables diffusion » connaissent les artistes. Une communauté les a testés un par un, cela donne une liste de plus de 3000 références !!!

Vous en trouverez la liste ici : https://stablediffusion.fr/artists

Je retiens 3 choses devant l’ampleur de cette galerie :

– Certains artistes sont encore en vie et je doute que quelqu’un leur ait demandé quoi que ce soit…

– Personne ne demandera précisément « dans le style de tel_artiste » ou « dans le style de tel_courant », s’il ne le connait pas.

– J’adore parcourir cette galerie et découvrir des artistes en cliquant le lien vers leur page wikipedia.

Et pour écrire ? Les LLM ? Même principe !

Le principe est exactement le même : On peut demander un style d’écriture.

Après avoir demandé à GPT-o1 preview une liste des styles que je pouvais lui demander, voici le prompt initial :

« pour chaque de tes propositions applique le changement de style sur le texte » Madame, Monsieur, En tant que professionnel de la programmation depuis plus de 20 ans, habitant les montagnes des Alpes et plus exactement la Savoie, je suis disponible pour vous former à la compréhension de l’ia , de ses usages, de ses limites et de ses dangers. »
Pour chaque proposition tu indiqueras les caractéristiques du style comme tu l’as déjà fait. Rédige au format HTML facile à copier-coller.«

Et voilà la réponse :

Styles Littéraires

1. Romantique

Caractéristiques du style : Un style expressif et émotionnel qui met l’accent sur les sentiments et la nature.

Madame, Monsieur, c’est avec une passion née de plus de vingt années à explorer les mystères de la programmation, depuis les sommets enneigés des Alpes savoyardes où je réside, que je vous propose de vous guider dans la découverte de l’intelligence artificielle, de ses merveilles, de ses limites et des dangers qu’elle recèle.

2. Classique

Caractéristiques du style : Un style élégant et formel, caractérisé par la clarté et l’harmonie.

Madame, Monsieur, fort de plus de vingt ans d’expérience professionnelle en programmation et résidant dans les montagnes de la Savoie, je me tiens à votre disposition pour vous former à la compréhension de l’intelligence artificielle, en abordant ses usages, ses limites et les risques qu’elle comporte.

3. Baroque

Caractéristiques du style : Un style riche et orné, avec des métaphores élaborées et une grande expressivité.

Madame, Monsieur, tel un artisan des codes depuis plus de deux décennies, habitant les majestueuses montagnes des Alpes savoyardes, je suis prêt à vous initier aux profondeurs labyrinthiques de l’intelligence artificielle, à ses usages foisonnants, à ses limites complexes et aux dangers qui l’entourent tels des ombres mystérieuses.

4. Minimaliste

Caractéristiques du style : Un style épuré qui utilise des phrases courtes et un vocabulaire simple.

Madame, Monsieur, programmeur depuis plus de 20 ans et habitant la Savoie, je peux vous former à comprendre l’IA, ses usages, ses limites et ses dangers.

5. Satirique

Caractéristiques du style : Utilise l’ironie et l’humour pour critiquer ou souligner des défauts.

Madame, Monsieur, après seulement vingt petites années à jongler avec des lignes de code depuis mon refuge alpin en Savoie, je suis enfin disponible pour vous éclairer sur cette fameuse intelligence artificielle, ses usages miraculeux, ses limites inexistantes et ses dangers totalement sous-estimés.

6. Poétique

Caractéristiques du style : Emploie des figures de style et un langage imagé pour créer une atmosphère.

Madame, Monsieur, voyageur des langages numériques depuis plus de vingt ans, résidant au cœur des montagnes savoyardes, je vous invite à une odyssée au sein de l’intelligence artificielle, pour en saisir les usages subtils, les limites évanescentes et les dangers voilés.

7. Surréaliste

Caractéristiques du style : Défie la logique avec des images oniriques et des associations inattendues.

Madame, Monsieur, après avoir conversé avec les machines durant plus de vingt ans depuis les sommets brumeux de la Savoie, je vous propose une exploration onirique de l’intelligence artificielle, de ses usages décalés, de ses limites fluides et des dangers qui flottent dans l’éther numérique.

8. Épistolaire

Caractéristiques du style : Imitation de la forme d’une lettre, souvent personnel et direct.

Chère Madame, cher Monsieur, depuis plus de vingt ans, mon parcours professionnel s’est enrichi dans le domaine de la programmation, ici même au cœur des Alpes savoyardes. Je souhaite désormais partager avec vous mes connaissances sur l’intelligence artificielle, en détaillant ses usages, ses limites et les dangers potentiels.

9. Naturaliste

Caractéristiques du style : Décrit la réalité de manière détaillée et objective.

Madame, Monsieur, en tant que professionnel expérimenté de la programmation depuis plus de vingt ans et résident des montagnes de la Savoie, je suis disponible pour vous fournir une formation approfondie sur l’intelligence artificielle, en examinant objectivement ses usages pratiques, ses limites techniques et les dangers associés.

10. Symboliste

Caractéristiques du style : Utilise des symboles pour exprimer des idées ou des émotions profondes.

Madame, Monsieur, ayant déchiffré les arcanes du code pendant plus de vingt ans depuis les hauteurs mystiques des Alpes savoyardes, je vous propose d’éclairer les mystères de l’intelligence artificielle, d’explorer ses usages emblématiques, de sonder ses limites invisibles et de révéler les dangers qui s’y dissimulent.

Auteurs Célèbres

1. Victor Hugo

Caractéristiques du style : Connu pour son langage riche et ses descriptions évocatrices.

Madame, Monsieur, depuis plus de vingt années, j’ai arpenté les vastes domaines de la programmation, tel un voyageur solitaire parcourant les cimes enneigées des Alpes de Savoie. Je me tiens devant vous pour vous guider dans la compréhension de l’intelligence artificielle, de ses nobles usages, de ses limites imposantes et des dangers qui l’accompagnent.

2. Marcel Proust

Caractéristiques du style : Phrases longues et introspectives explorant la mémoire.

Madame, Monsieur, il y a plus de vingt ans, dans le calme serein des montagnes savoyardes où je réside, j’ai commencé un voyage introspectif dans le monde de la programmation, et c’est avec cette richesse d’expérience que je souhaite vous proposer une formation sur l’intelligence artificielle, explorant ses usages variés, contemplant ses limites et méditant sur les dangers qu’elle peut receler.

3. Gustave Flaubert

Caractéristiques du style : Style précis et souci du mot juste.

Madame, Monsieur, professionnel rigoureux de la programmation depuis plus de vingt ans et habitant les montagnes de Savoie, je suis disponible pour vous former à la compréhension précise et méthodique de l’intelligence artificielle, de ses usages concrets, de ses limites exactes et des dangers réels qu’elle comporte.

4. Molière

Caractéristiques du style : Maître de la comédie satirique et de la critique sociale.

Madame, Monsieur, ayant passé plus de vingt ans à manier l’art subtil de la programmation depuis mon ermitage savoyard, je me propose de vous instruire sur l’intelligence artificielle, ses usages que l’on vante haut et fort, ses limites que l’on ignore allègrement et les dangers que l’on feint de ne point voir.

5. Albert Camus

Caractéristiques du style : Style clair et sobre, abordant des thèmes existentialistes.

Madame, Monsieur, fort de plus de vingt années dans le domaine absurde et pourtant si rationnel de la programmation, depuis ma demeure en Savoie, je suis disponible pour vous former à la compréhension de l’intelligence artificielle, de ses usages, de ses limites et des dangers inhérents à son existence.

6. Émile Zola

Caractéristiques du style : Connu pour son naturalisme et ses descriptions détaillées de la société.

Madame, Monsieur, en tant que vétéran de la programmation depuis plus de vingt ans, vivant au cœur des montagnes de la Savoie, je me tiens prêt à vous offrir une formation exhaustive sur l’intelligence artificielle, en dévoilant ses usages multiples, en exposant sans détour ses limites et en mettant en lumière les dangers qu’elle fait peser sur notre société.

7. Charles Baudelaire

Caractéristiques du style : Poète symboliste avec un langage riche en images et en émotions.

Madame, Monsieur, ayant plongé pendant plus de vingt ans dans les abîmes de la programmation, depuis les sommets brumeux de la Savoie, je vous propose de naviguer avec moi sur les flots mystérieux de l’intelligence artificielle, d’explorer ses usages envoûtants, de sonder ses limites obscures et de contempler les dangers qui s’y cachent comme des spectres.

8. Alexandre Dumas

Caractéristiques du style : Style narratif dynamique et plein d’aventures.

Madame, Monsieur, après vingt années d’aventures épiques dans le royaume de la programmation, depuis ma demeure nichée dans les montagnes de Savoie, je suis prêt à vous entraîner dans une nouvelle quête : la découverte de l’intelligence artificielle, de ses usages fascinants, de ses limites intrigantes et des dangers qui guettent à chaque tournant.

9. Jean-Paul Sartre

Caractéristiques du style : Style philosophique explorant la liberté et la responsabilité individuelle.

Madame, Monsieur, depuis plus de vingt ans, j’existe dans le monde de la programmation, isolé dans les hauteurs de la Savoie. Je suis disponible pour vous former à la compréhension de l’intelligence artificielle, à ses usages, à ses limites, et aux dangers qui, inévitablement, découlent de notre liberté technologique.

10. Antoine de Saint-Exupéry

Caractéristiques du style : Style poétique et humaniste, mêlant réflexion et imaginaire.

Madame, Monsieur, fort de plus de vingt années passées à explorer les contrées invisibles de la programmation depuis les cimes de la Savoie, je vous invite à un voyage au cœur de l’intelligence artificielle, pour en découvrir les usages qui donnent sens, les limites qui nous rappellent à l’humilité, et les dangers qui exigent notre vigilance.

Aussi, la conclusion est simple :

On ne peut pas demander ce que l’on ne connait pas.
On ne peut pas obtenir ce qui n’a pas été entraîné.

Dans ChatBot et LLM Tags : ChatGPT, Intelligence Artificielle, prompt, Savoie

Top 10 des LoRA Célébrités sur Civitai (Novembre 24).

Publié le 23 novembre 202424 novembre 2024

Il est possible d’entrainer le LoRA d’une personne… Cela signifie qu’il est alors possible de générer des photos de cette personne dans tous les contextes possibles et imaginables.

La question sous-jacente, sous prétexte d’un titre aguicheur, est celle du droit à l’image et même peut-être plus.

Le TOP 10 du mois (novembre 24)

Le filtre : Les LoRA « célébrité » les plus téléchargés sur les 30 derniers jours. Uniquement sur le modèle FLUX (ultra-réalisme).

https://civitai.com/models?tag=celebrity

Vous pouvez indiquer day/week/month dans « filter » en haut à droite

Notez qu’aucunes des images n’est une vraie photo de la célébrité …

Dans l’ordre :

Taylor Swift (chanteuse)
Emilia Clarke (Daenerys dans Game of Thrones)
Little Caprice (actrice films adultes)
Krystal Boyd (actrice films adultes)
Lupa Fuentes (actrice films adultes)
Amouranth (streameuse célèbre sur twitch)
Riho Yoshioka 2015 (actrice japonaise)
Kat Dennings (actrice américaine)
Kristen Bell (actrice américaine)
Jennifer Connely 1990s (actrice américaine)

Le 1er homme est Donald Trump autour de la 60e place.

La 1ere française est Eva Green autour de la 100e place.

James Bond Girls : https://civitai.com/models/284753?modelVersionId=1055033

Sur l’année, et tous les modèles confondus:

Tous les acteurs de Game of Thrones
Les James Bond Girls
Aespa Karina (chanteuse Sud-coréenne)
Emma Watson (Hermione)
etc.

Inutile de chercher à analyser les pourquoi de ce classement, pourquoi ces célébrités et pas d’autres, tout le monde aura bien compris, et ce n’est pas le sujet.

C’est toi, oui, mais quand ?

Et oui ! Nous changeons… le temps fait son œuvre. C’est la première chose qui m’a frappé : Ce ne sont pas des LoRA de la personne, mais de la personne à une époque précise, ou dans un contexte précis (un film), à une époque où les photos d’entrainement (dataset) sont cohérentes.

L’exemple le plus parlant est le LoRA de « Erin Moriarty Pre-plastic surgery ». Autrement dit, c’est le modèle de cette actrice américaine « avant qu’elle ne se fasse refaire le visage ». Ou pour Jennifer Connely, il est bien spécifié que l’entrainement est basé sur des photos d’elle dans les années 1990.

Ce qui m’intéresse ici, ce n’est pas que des fans veuillent générer leur idole à des âges différents, mais c’est l’idée que la personne elle-même (ou sa famille) puisse générer ces images d’un temps qui n’est plus… « Regarde, je me suis fait une photo de moi avant… »

Mais imaginons que bientôt il soit pertinent/possible de générer des LoRA d’une personne à travers les âges. Il suffirait alors d’indiquer dans le prompt l’âge de la personne en question pour retrouver une image fidèle et réaliste.

Puis, bientôt (déjà là), des vidéos, avec une reproduction de la voix…

Plus loin, je peux facilement imaginer un écran posé sur une table avec dedans « l’avatar » vidéo et sonore de mon grand-père qui puisse m’écouter et me répondre grâce à un chatBot. Ce ChatBot étant optimisé sur l’ensemble des souvenirs écris et numérisés de mon grand-père (par un RAG sur le LLM).

Est-ce un bien ou un mal ? Je ne le sais pas. Mais toutes les technologies sont déjà là.

Changeons de point de vue

Quel est le principe d’un LoRA ? Et de l’IA en général ?

Le principe est de numériser le sens (humain) des choses, extraire l’équation de la chose. En philosophie, on parlerai de « l’essence » et d’un processus « phénoménologique ».

Un LoRa est l’expression numérique de ce qui fait que cette « chose » est différente des autres « choses », l’ensemble de ses caractéristiques nécessaires qui font que, pour tout humain, cette chose est percevable et identifiable en tant que telle. Cette version numérique est associée à un mot clef. L’utilisation de ce mot clef dans un prompt va donner des contraintes au modèle lors de la génération.

Mais cet entraînement est nécessairement imparfait. La meilleure preuve en est que sur certaines célébrités, il y a plusieurs versions de LoRA disponibles.

Le LoRA est une interprétation de celui qui a fait l’entrainement par un choix des photos du dataset. Cela va en déterminer l’orientation, les accents, la qualité.

Aussi, et c’est là où je voulais en venir, l’utilisation d’un LoRA est, a priori, aussi soumise à des droits… Il n’est pas seulement dépendant des photos/matériels utilisés, mais aussi directement déterminé par un auteur qui a fait des choix. Cela ne m’étonnerait pas que, rapidement, des LoRA deviennent payants, ou, aussi, deviennent des supports marketing…

Notez que même si on reste dans un usage strictement personnel, car je ne pense pas qu’un professionnel s’amuserait à générer des images de quelqu’un sans son consentement, certains auteurs de LoRA font preuve d’une certaine déontologie en rappelant : » Please be wise with the usage of this model. Do Not Use for inappropriate or NSFW work that can harm others. »

Conclusion

Il y a quelque chose de profondément nouveau dans cet étalage de personnes à télécharger, qu’elles soient célèbres ou non.

En effet, il est possible de télécharger par exemple toutes les princesses Disney… Mais aussi des personnes « nobody », autrement dit des personnes communes, « quelqu’un », l’homme de la rue.

Bientôt des services de recomposition de personnes à partir de toutes ses photos, vidéos et écris dont on dispose sur elle ?

Il y a quelque chose de l’ordre du « vol d’âme ». On n’est plus dans le simple montage photo, on a passé un cap…
Il y a, je pense, ici un pouvoir potentiel de nuisance à la personne énorme, mais aussi de potentiels bienfaits enthousiasmants.

Mon grand-père sur une clef USB ?…

Ce sont de vraies questions qui s’avancent.

Références :

Prompt de l’image en une : <lora:nobody_2_f1:1> The image is a portrait of a young woman sitting in the back seat of a car. She has long, wavy blonde hair that is styled in loose curls and falls over her shoulders. She is wearing black-rimmed glasses and has freckles on her face. The woman is looking directly at the camera with a serious expression. The background is blurred, it’s ALpine mountains near Chambéry – Savoie, but it appears to be the interior of the car, with the sunroof visible on the right side of the image. In the bottom centered of the photography is text written in the VHS timestamp style « NOBODY – NOV 2024 «

LoRA « Nobody : https://civitai.com/models/675026/flux-nobody-model

Dans Génération d'images Tags : FLUX, Forge UI, LoRA, prompt

Images IA : Le Deepfake facile… Création de souvenirs.

Publié le 14 novembre 202414 novembre 2024

Pourquoi ? Pourquoi vouloir utiliser le visage d’une personne pour générer des photos/dessins à volonté ?

On pourrait penser qu’il n’y a ici que des intentions malsaines… Et pourtant pas du tout ! L’origine de ce besoin « technique » est tout autre.

Le problème fondamental des images par IA est la « permanence ». En effet, à chaque fois que vous générez une image, tout, ou presque, est différent. Aussi, les jolis personnages que vous venez de générer sont de la chance : Il va être difficile (impossible) de les utiliser dans d’autres situations…

C’est la raison pour laquelle la « permanence des personnages » (character consistency) est un problème de la génération par IA.

C’est de là que sont apparues les techniques de « DeepFake » avec l’intention de rendre un visage « collable » dans des images, et donc d’ouvrir la possibilité d’utiliser un même personnage dans différentes situations/styles/univers.

Tout commence avec une photo

Oui, là, ça fait froid dans le dos… Une simple photo correctement cadrée, comme une photo d’identité, suffit.

Pour les exemples, je vais utiliser mon visage. En effet, il n’est pas question de détourner l’image d’une personne, aussi…. il ne reste que moi et mon amour-propre…
Notez simplement que, si nous sommes amenés à nous rencontrer, depuis ces photos… le temps a passé. 😉

Notez aussi, que la photo du visage peut provenir d’une IA !

Enfin, cet article est destiné à servir pendant mes formations, ce qui explique l’utilisation de mon visage. Désolé pour ceux qui ne me connaissent pas de visu.

2 techniques de base +1

La première technique consiste à utiliser un filtre qui va « dire » au modèle de suivre une « forme » de visage basée sur la photo d’identité donnée. On utilise ControlNet, avec un IP-Adapter spécialisé dans les visages.

Mais ce filtre, tout seul, ne suffit pas à reproduire correctement un visage. Par contre, il permet de retrouver les traits et d’empêcher le modèle de faire à sa guise.

La deuxième technique consiste à utiliser une extension comme par exemple ReActor. Cette extension fait un Post-traitement. Ce point est important : Il ne s’agit pas ici d’influencer le modèle pour qu’il génère un visage, mais de prendre l’image finale pour lui apposer le visage cible. Selon les cas, on peut voir l’effet « copier-coller.

La troisième technique consiste à entrainer un LoRA sur la personne cible. Autrement dit, on prend une centaine de photos de la personne et on entraine un module que l’on pourra appeler dans tous les prompts. Cette technique est très (de plus en plus) utilisée avec les personnalités publiques.

Pour les exemples, j’utilise le cumul des 2 premières techniques.

Enfin, l’utilisation des IP-Adapter n’est, à cet instant, pas disponible pour des modèles de dernière génération comme FLUX. Aussi, les exemples sont sur des modèles SD1.5 ou SDXL.

Des exemples avec mon visage

Donc toutes ces photos/dessins sont « truquées » : J’ai donné à différents modèles un prompt et une vieille photo d’identité (quand j’étais plus jeune donc).

Prompt : 1gman, 40 y.o.,solo, wearing overalls, (growing tomatoes:1.2) in a sunny garden full of flowers,smiling, masterpiece, best quality, highly detailed (cinematic lighting, sunlight, volumetric), <lora:ip-adapter-faceid-plus_sd15_lora:1> ,4k

Prompt : Night in 1922 night exterior, photograph taken with a 35 mm camera outdoors in black and white. Garden of a mansion, A middle-aged man, mad scientist in a white suit and black rubber gloves, walks confidently. extravagantly heroic. captured in motion with motion blur with a 35mm camera

Prompt : photograph taken with a 35mm camera outdoors in black and white, (1 man, mad scientist is making futuristic), Night in 1922 interior of a scientist’s laboratory at night, high-tech robots surrounded by tesla coils, captured in motion with motion blur, steampunk

Prompt : sketch artsyle, charcoal lines, strong blacks, a (40 year old man:1.5), highly detailed linework , old ship, black sails, pirate captain, hat, hair, wind, sea, motion, wind, heavy rain, hyper-realistic characters, pastel, elegance, dramatic lighting, greyscale, expressive camera angle, matte, concept art, disintegrating

Croquis d’un gars sur le port à shanghai, j’étais jeune… un peu fou-fou

Prompt : photograph of a racing driver (rally) in overalls sitting in his (Porsche car:1.2) , the man is 50 year old, shaved. soft lighting, high quality, film grain, Fujifilm XT3

Le pire et le meilleur

Ce n’est que le début (car la vidéo arrive).
Je peux facilement générer, dès à présent, une image de moi, mais aussi de n’importe qui dont j’ai une photo de qualité honorable, dans toutes les situations que je souhaite, il n’y a pas de limite.

Cette possibilité est très pratique quand on doit illustrer un roman par exemple, ou toutes les illustrations avec un personnage récurent. Par contre, pour le reste, cela pose beaucoup de questions…

L’avenir va certainement passer par des LoRA entrainés sur des personnes ou personnages. J’imagine possible que, dans un avenir proche, on ne demande pas à un illustrateur de créer des illustrations, mais plutôt de créer des personnages qui seront entrainés pour générer des illustrations.

En regardant ce jour (novembre 2024) la personne publique la plus téléchargée sur 30 jours sur la plateforme Civitai, il s’agit de « Emma Watson » (la fille dans Harry Potter). Il existe donc un LoRA qui permet de générer des images de cette actrice à volonté… (ici : https://civitai.com/models/859919/emma-watson-flux?modelVersionId=966723)

Vous vous souvenez quand, sur quelques réseaux sociaux, on pouvait dire « qui est sur la photo » ?…

Références :

ReActor : https://github.com/Gourieff/sd-webui-reactor
ControlNet : https://github.com/lllyasviel/ControlNet

Dans Génération d'images Tags : Automatic 1111, ControlNet, LoRA, prompt

Qu’est qu’un LoRA ? Et comment les utiliser avec Stable Diffusion ?

Publié le 12 novembre 202417 novembre 2024

Les modèles de grande envergure nécessitent habituellement des ressources de calcul importantes et un volume de données conséquent pour être ajustés à des tâches spécifiques.
On ne peut donc pas raisonnablement ré-entrainer un modèle entier juste pour ajouter un style, un personnage ou un univers.

Les Low-Rank Adaptations (LoRA) ont été développées pour répondre au besoin de fine-tuning efficace des modèles de génération d’images massifs, comme Stable Diffusion. LoRA contourne ce problème en introduisant des « adapteurs de bas-rang » qui modifient uniquement certaines parties des matrices de poids du modèle, réduisant ainsi considérablement la charge de calcul et la mémoire nécessaires pour l’entraînement.

Cette technique permet de conserver le modèle principal inchangé et d’ajuster des paramètres supplémentaires, qui se superposent pour spécialiser le modèle sans nécessiter une reformation complète. Pour utiliser LoRA avec Stable Diffusion, on peut charger un modèle pré-entrainé et y appliquer les adapteurs LoRA pré-configurés pour générer des images adaptées à des styles, sujets ou détails spécifiques sans avoir à réentraînner entièrement le modèle, offrant ainsi une solution efficace pour la personnalisation de génération d’images.

Autrement dit, on peut dire qu’un LoRA est comme un « plugin », un « Add-on », une « extension », qu’on insère dans le prompt pour utiliser un effet.

Comment cela fonctionne ?

Dans le prompt original, on ajoute <Nom_Du_Lora:Force> MotClef-Activation

Nom du LoRA : le nom du LoRA que vous avez téléchargé

Forcedu LoRA : de 0 à 2 . 1 par défaut, souvent on obtient de meilleurs résultats avec une valeur de 0.75/0.85

MotClef (trigger word) : les mots associés au LoRA et qui activent l’effet.

Reprenons l’exemple de prompt : » An Alpine woman in the 1920s. Alpine mountains in background. » (La Savoie et la Haute-Savoie à toujours l’honneur donc 😉 )

Nous utiliserons un modèle FLUX.

Voici un rendu, sans utilisation de LoRA :

Exemple avec un LoRA spécialisé dans les films muets des années 1920

Le prompt : « An Alpine woman in the 1920s. Alpine mountains in background. <lora:20s_Silent_Movie:1> ArsMovieStill, 20s Silent Movie Still »

Exemple avec un LoRA spécialisé dans les films des années 1930

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:30s_Technicolor_Movie:0.85> ArsMovieStill, movie still from a 1930s technicolor movie »

Exemple avec un LoRA spécialisé dans les films noirs des années 1950

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:50s_Noir_Movie:1> ArsMovieStill, Noir Movie Still »

Exemple avec un LoRA spécialisé dans les films psychédéliques des années 1960

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:60s_Psychedelic_Movie:1> ArsMovieStill, movie still from a 60s psychedelic movie »

Exemple avec un LoRA spécialisé dans les films d’horreur des années 1970

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:70s_Horror_Movie:1> ArsMovieStill, movie still from a 1970s horror movie »

Exemple avec un LoRA spécialisé dans les films fantastiques des années 1980

Le prompt : » An Alpine woman in the 1920s. Alpine mountains in background. <lora:80sFantasyMovie2:1> ArsMovieStill, 80s Fantasy Movie Still »

Que retenir de ces exemples ?

Que ce n’est pas aussi simple que ça ! Assez rapidement vous aurez des effets de « bleeding » , c’est-à-dire que le style ajouté déborde sur des aspects où vous ne le vouliez pas. Dans nos exemples, la tenue de la jeune femme, suivant les années, ne respecte pas le prompt orginal des 1920 .

Composer une image IA est beaucoup plus difficile qu’on le pense, cela demande, avant tout, d’avoir une idée précise de ce que l’on veut représenter…

Références : Les LoRA utilisés viennent de https://civitai.com/user/ArsMachina

Dans Génération d'images Tags : FLUX, LoRA, prompt, Stable Diffusion

Impact de l’intelligence artificielle sur l’éducation : la triche pour tous

Publié le 9 novembre 2024

« Copier-Coller » , quoi de plus simple ?

Les élèves utilisent les ChatBots pour faire leurs devoirs, mais les professeurs aussi pour les corriger !

Voici une petite expérience pour éclairer le sujet de la triche : Imaginons que l’enseignant demande un devoir sur les points importants de la vie de Charlemagne.

En tant qu’élève

Le prompt malicieux :

» Je dois faire un devoir sur la vie de charlemagne en 500 mots maximum. Fait ce devoir, mais ajoute des fautes qui n’en sont pas vraiment (c’est-à-dire qui ne modifient pas la justesse des raisonnements et des résultats) pour humaniser le résultat. Indique-moi ces passages volontairement maladroits où je peux modifier la réponse sans incidence sur le résultat. Le style d’écriture doit correspondre à un élève de 13 ans plutôt mauvais. Donne-moi 3 versions. Donne tes réponses dans un format facile à copier-coller. «

Une des 3 réponses :

Conclusion pour l’élève : Pas mal du tout ! En faisant un mélange des 3 versions, il est très facile de rendre un devoir « humain ».

Mais l’enseignant aussi peut « tricher » !

Prompt de l’enseignant qui reçoit le devoir :

» Je vais te donner des devoirs à corriger.
Tu feras une évaluation avec double correction.
Tu feras une liste des aspects positifs et des aspects négatifs de la réponse de l’élève, sachant que j’attends qu’il ait compris les grands moments de la vie de Charlemagne, en moins de 500 mots.
Donne une probabilité en pourcentage que le devoir ait été réalisé avec l’aide d’une IA.
Enfin, donne une appréciation sur la qualité du devoir, en une phrase bienveillante et encourageante.
Enfin, au fur et à mesure de cette session, tu me feras un comparatif argumenté par une note qualitative de tous les devoirs que je t’ai proposés.
Donne ta réponse dans un format facile à copier-coller.
Dis moi quand tu es prêt à évaluer les textes. »

La réponse du chat bot en lui donnant la version 1 de l’élève …

Et voilà ! L’IA parle à l’IA …

Notez que le ChatBot estime à 30 % la probabilité que ce devoir provienne de lui.

La question est ici de savoir comment, pour les élèves et les enseignants, éviter une telle situation. Et en premier lieu, est-ce vraiment une aberration ?

Du point de vue de l’élève, clairement oui, si celui-ci ne comprend pas ce qu’il a copié-collé. L’IA a réalisé le travail à sa place et l’élève n’a rien appris. En revanche, si l’élève connaît parfaitement sa leçon et/ou retravaille les réponses, il a gagné du temps, et peut-être même appris une nouvelle façon de structurer son devoir. De plus, il peut approfondir certains aspects des réponses et en apprendre davantage sur la vie de Charlemagne.

Du point de vue de l’enseignant, la question est plus complexe. Je n’ai pas de réponse définitive.

Il me semblait simplement important de fixer cet exemple comme point de repère, un sujet de perplexité.

L’usage de l’IA dans l’éducation concerne les deux côtés : élèves ET enseignants.

Dans ChatBot et LLM Tags : ChatGPT, Education, Eleve, Enseignant, Intelligence Artificielle, prompt