Qu’est-ce que le Gaussian Splating ? J’ai testé pour vous. - DAHU.FR - Création internet

Au départ, je croyais surtout tester un outil. Une vidéo, quelques tuto, quelques images extraites, COLMAP, LichtFeld Studio, un entraînement, puis une scène 3D navigable. Sur le papier, le workflow (enchainement de tâches) paraît presque mécanique.

En réalité, j’ai découvert autre chose : le Gaussian Splatting n’est pas seulement une technique spectaculaire. C’est une manière assez nouvelle de regarder les images, de comprendre l’espace, et surtout de mesurer à quel point une bonne reconstruction dépend de ce qu’on donne à la machine au départ.

Experience : partir d’une vidéo et essayer de reconstruire le réel

Mon point de départ était simple : je voulais comprendre comment passer d’une vidéo à une scène 3D exploitable. Pas seulement lire des explications théoriques, mais mettre les mains dans le workflow, le cambouis donc !

J’ai donc commencé par la première étape évidente : extraire des images depuis une vidéo. À ce moment-là, la tentation est grande de se dire que plus on a d’images, mieux ce sera. Mais j’ai vite compris que ce n’était pas aussi simple. Une vidéo donne beaucoup d’images, oui, mais beaucoup d’images ne veut pas dire beaucoup d’informations utiles.

J’ai donc pris la caméra de mon fils, et j’ai trouvé une scène statique près de chez moi. A la suite de quoi, j’ai extrait 300 images de cette vidéo avec Ffmpeg.

Note: oui, j’ai un peu forcé… j’ai généré 5 images par secondes, ce qui est un peu « haut » 🙂

Ensuite vient COLMAP (https://colmap.github.io/). Au début, je le voyais comme une étape un peu obscure, presque administrative : un logiciel qu’il fallait faire tourner avant de passer aux choses sérieuses. En fait, c’est probablement l’une des étapes les plus importantes.

COLMAP joue le rôle d’un enquêteur. Il regarde toutes les images, cherche les détails qui reviennent d’une photo à l’autre, puis essaie de deviner où se trouvait la caméra à chaque instant. C’est un peu comme si quelqu’un retrouvait le trajet exact d’un photographe simplement en observant les traces visuelles laissées dans ses clichés.

Le but de COLMAP est de définir la position de la caméra dans la prise de vue.

Une fissure sur un mur, un coin de table, une texture au sol, un motif sur un objet : tout devient un indice. COLMAP rassemble ces indices et construit une première carte. Pas une carte complète, pas une belle maquette, mais une sorte de constellation. Quelques points dans l’espace, suffisamment solides pour dire : “la scène est à peu près là, et les caméras étaient là.”

C’est ce qu’on appelle la reconstruction sparse. Clairsemée, mais fondamentale.

Après cela seulement, un outil comme LichtFeld Studio peut commencer son travail. Il ne part pas de rien. Il récupère les images, les positions de caméra, le nuage de points initial, puis il entraîne une scène en Gaussian Splatting.

Et c’est là que la métaphore devient vraiment parlante. Je n’ai pas l’impression que le logiciel “modélise” la scène comme on construirait une maison avec des briques. J’ai plutôt l’impression qu’il remplit l’espace avec des millions de petites gouttes de lumière colorée.

Chaque goutte est une gaussienne. Elle a une position, une couleur, une transparence, une taille, une orientation. Elle n’est pas nette comme un pixel ou dure comme un cube, un voxel (nom d’un pixel en 3D). Elle ressemble davantage à une petite tache d’encre sur du papier buvard : dense au centre, puis de plus en plus douce vers les bords.

Le “splat”, lui, c’est cette tache projetée à l’écran quand on regarde la scène depuis un certain angle. Comme si chaque petite particule 3D venait s’écraser visuellement sur la vitre de la caméra.

J’ai trouvé cette idée très belle : reconstruire le réel non pas avec des surfaces rigides, mais avec une poussière organisée de taches floues.

Evidence : ce que j’ai observé dans le workflow

Ce qui m’a frappé en premier, c’est que le résultat final dépend beaucoup moins d’un bouton magique que de la qualité du départ. On en revient toujours à la même chose : le dataset, la qualité du dataset.

Si les images sont floues, trop sombres, trop répétitives ou prises sans véritable déplacement, COLMAP se perd. Et quand COLMAP se perd, LichtFeld Studio hérite d’une mauvaise fondation.

J’ai compris progressivement la différence entre une image jolie pour un humain et une image utile pour une reconstruction. Une belle image peut être inutile si elle manque de détails. À l’inverse, une image banale, avec un sol texturé, des coins visibles, des petites irrégularités, peut devenir très précieuse.

Le logiciel aime les indices. Il aime les surfaces mates, les objets immobiles, les textures, les angles, les motifs. Il aime que la caméra se déplace vraiment, parce que ce déplacement crée de la parallaxe. C’est le même principe que lorsqu’on ferme un œil puis l’autre : les objets proches bougent plus que les objets lointains. Cette différence aide à comprendre la profondeur.

À l’inverse, les surfaces brillantes, les vitres, les miroirs, l’eau, les objets qui bougent ou les murs blancs uniformes deviennent des pièges. Le logiciel essaie de leur donner une place dans l’espace, mais ces éléments changent selon l’angle de vue. Ils ne se laissent pas fixer facilement.

C’est là qu’apparaissent parfois les fameux floaters : des petits fantômes dans l’air, des morceaux de scène qui flottent, des nuages parasites. Ils ne sont pas forcément le signe que tout est raté, mais ils racontent souvent une ambiguïté dans les images.

Un reflet, par exemple, est une sorte de menteur visuel. Il existe dans la photo, mais pas vraiment à l’endroit où l’algorithme voudrait le placer. Alors la reconstruction hésite. Elle fabrique une trace, une ombre, une poussière flottante.

J’ai aussi compris que la reconstruction sparse de COLMAP était plus importante que la reconstruction dense pour ce type de workflow. Le dense cherche à produire beaucoup plus de points, à remplir les surfaces. Mais pour le Gaussian Splatting, ce qui compte d’abord, c’est d’avoir les bonnes positions de caméra et une première structure cohérente.

Le sparse, c’est le squelette. Le dense, c’est une tentative d’ajouter de la chair. Mais si le squelette est tordu, ajouter de la chair ne sauve pas le corps.

Dans LichtFeld Studio, j’ai aussi découvert qu’il ne faut pas se précipiter sur les réglages avancés. MRNF, MCMC, PPISP, nombre de steps : tout cela compte, bien sûr. Mais cela vient après. Avant de choisir la stratégie d’entraînement, il faut déjà savoir si la scène est correctement comprise.

La vraie question n’est pas d’abord : “Quel mode d’entraînement choisir ?”

La vraie question est plutôt : “Est-ce que mes caméras sont bien alignées ? Est-ce que mon nuage de points ressemble déjà vaguement à quelque chose ? Est-ce que mon dataset mérite d’être entraîné ?”

Cette étape de vérification change tout. Elle évite de lancer un long entraînement sur une mauvaise base. Elle oblige à regarder le workflow comme une chaîne, pas comme une boîte noire.

Explication : ce que j’en comprends

Ce workflow m’a appris une chose simple : le Gaussian Splatting n’invente pas magiquement une scène 3D. Il optimise une hypothèse.

COLMAP fournit l’hypothèse de départ : où sont les caméras, quels points semblent exister dans l’espace, quelles images se recoupent. LichtFeld Studio (https://lichtfeld.io/) prend ensuite cette hypothèse et la transforme en une représentation beaucoup plus riche, faite de gaussiennes.

La scène finale est donc le résultat d’un dialogue entre les images et l’algorithme. À chaque étape de l’entraînement, le logiciel regarde la scène depuis une caméra connue et se demande : “Est-ce que ce que je rends ressemble à la photo originale ?”

Si ce n’est pas assez ressemblant, il ajuste ses taches. Il les déplace, les agrandit, les rend plus transparentes, change leur couleur, en ajoute, en retire. Petit à petit, les gouttes de lumière s’organisent.

Je trouve la métaphore du peintre assez juste, mais pas celle du peintre classique. Ce n’est pas quelqu’un qui peint une toile de face. C’est plutôt quelqu’un qui suspend des millions de touches de peinture dans l’air, puis vérifie qu’elles forment la bonne image quand on les regarde depuis chaque fenêtre disponible.

C’est aussi pour cela que les images doivent être cohérentes entre elles. Si une chaise a bougé, si la lumière a changé brutalement, si une personne traverse la scène, le logiciel essaie d’intégrer ces contradictions dans un monde unique. Et un monde unique supporte mal les contradictions visuelles.

Ce que j’appelle “réalité” dans ce workflow n’est donc pas la réalité brute. C’est une moyenne intelligente entre plusieurs points de vue. Une reconstruction négociée.

Le mot “gaussian” devient alors plus parlant. Une gaussienne n’est pas un point dur. C’est une présence douce, graduelle, incertaine sur les bords. Elle dit : “quelque chose est très probablement ici, avec cette couleur, cette forme, cette densité.”

La scène 3D n’est pas composée de certitudes géométriques, mais de probabilités visuelles extrêmement bien organisées.

Et c’est probablement ce qui rend le résultat si impressionnant. On peut se déplacer dans une scène qui n’est pas vraiment un mesh, pas vraiment une vidéo, pas vraiment une photo panoramique. C’est un entre-deux : un souvenir spatial reconstruit à partir d’images.

Ce que j’assume dans ma manière d’aborder ce workflow

Ce qui m’intéresse dans cette expérience, ce n’est pas seulement d’obtenir une jolie reconstruction. C’est de comprendre ce qui se passe sous le capot suffisamment pour ne pas devenir dépendant des boutons.

Je n’ai pas envie d’utiliser le Gaussian Splatting comme une formule magique. J’ai plutôt envie de l’aborder comme un artisan aborde un nouvel outil. Il ne suffit pas de savoir où appuyer. Il faut comprendre la matière.

Ici, la matière, ce sont les images.

Une bonne capture devient presque un geste manuel. Il faut tourner autour du sujet, mais pas n’importe comment. Il faut donner au logiciel assez d’indices, sans le noyer. Il faut penser à la lumière, aux reflets, aux surfaces, au mouvement, à la stabilité. Il faut accepter que l’entraînement commence avant l’entraînement, au moment même où l’on filme.

C’est peut-être ce que je retiens le plus : dans ce workflow, la technique commence dans le regard.

On ne capture plus seulement une vidéo pour la regarder ensuite. On capture une vidéo pour qu’un algorithme puisse la comprendre. Ce n’est pas la même intention. On ne filme plus seulement une apparence, on filme des relations entre les points de vue.

Je trouve cela assez passionnant, parce que cela remet de l’attention dans un processus très technologique. Avant les GPU, avant MRNF ou MCMC, avant les exports PLY ou HTML, il y a une personne qui tourne autour d’un objet en essayant de le rendre intelligible.

Et j’aime cette idée : le logiciel ne remplace pas le regard, il le prolonge. Mais il le prolonge seulement si le regard a été assez méthodique au départ.

Je crois que c’est là que se situe ma manière d’utiliser ce type d’outil. Je ne cherche pas seulement le rendu spectaculaire. Je cherche à comprendre la chaîne. À voir où ça casse. À repérer pourquoi une scène fonctionne et pourquoi une autre échoue. À transformer un workflow intimidant en suite de gestes compréhensibles.

Pour moi, COLMAP n’est plus une étape obscure. C’est l’enquêteur. LichtFeld Studio n’est plus seulement le logiciel d’entraînement. C’est l’atelier où les petites gouttes de lumière sont ajustées. Et le Gaussian Splatting n’est plus un terme technique impressionnant. C’est une manière de reconstruire le monde avec des taches floues, mais placées avec une précision étonnante.

Je suis encore au début de cette exploration, mais j’ai déjà compris une chose : on ne réussit pas une scène 3D en appuyant simplement sur “entraîner”. On la prépare. On la nourrit. On lui donne de bons indices. Puis on regarde si la machine a compris ce qu’on essayait de lui montrer.

Au fond, ce workflow m’a appris une leçon très simple : pour reconstruire le réel, il faut d’abord apprendre à bien le regarder.

Ma conclusion

C’est de l’avant-garde (loin d’être parfait), et c’est déjà top !

Immobilier, vente/présentation d’objets, visites virtuelles, etc. Cette technologie ouvre beaucoup de portes.

Et quand en plus des IA pourront reconnaître les objets à l’intérieur de ces scènes…

ATTENTION :

J’ai mis en ligne une version web, mais attention ! ELLE FAIT 90 mo ! Donc si vous êtes avec votre portable, votre quota data va pleurer ! Allez plutôt sur https://lichtfeld.io/ pour voir des exemples optimisés.
Et il faut un ordinateur qui envoie un peu… utilisez la souris et les touches ZQSD
Testez ici : https://www.dahu.fr/dehors.html

Vends brouette, pas sérieux s’abstenir 🙂