
By gerogero
Updated: February 7, 2026
Pour SD 1.5 photos réalistes :
Pour SD 1.5 Anime :
Pour SDXL globalement (inclure Pony et Illustrious ici) :
Pour FLUX globalement :
C'est la partie la plus importante. Vous devez collecter des images de la personne, de l'objet ou de ce que vous voulez entraîner.
Laissez-moi vous montrer le dataset que j'ai obtenu pour Silvio Santos lora :

Vous pouvez voir qu'il s'agit tous de portraits. Différents arrière-plans et couleurs de vêtements sont un MUST. Des visages regardant dans différentes directions aussi.
Vérifiez si tous les côtés droit et gauche de la personne sont cohérents. Cela peut ne pas être le cas avec des selfies qui sont généralement inversés.
Le visage humain n'est pas symétrique, donc si vous avez une orientation latérale mixte pendant votre entraînement, le résultat peut être comme ceci :

Veuillez réviser l'orientation de votre dataset entier !!
Si les images de prévisualisation commencent à être toutes les mêmes après un certain temps, cela peut être la raison, car SD essaiera d'apprendre les deux côtés et la différence de symétrie peut provoquer une légère augmentation de la perte sur certaines images inversées, alors l'apprentissage se bloquera sur quelques images.
La résolution peut varier de 256x à 2048x. Évitez les images en dessous ou au-dessus de ces valeurs. Vous n'avez pas besoin de redimensionner si elles sont dans ces valeurs, car l'entraînement le fera automatiquement dans des buckets :


Je crée un dossier avec le nom de la chaîne LoRA. Je nomme la chaîne en remplaçant certaines lettres par des chiffres, pour m'assurer qu'il s'agira d'un token unique à travers de nombreux modèles.
Le result_current sera l'endroit où Kohya enregistrera les résultats
Les images d'entraînement auront le répertoire contenant les images d'entraînement. La convention de nommage est : 400 / nombre d'images, un underscore et la chaîne lora. Ce sera le nombre de répétitions que Kohya effectuera. Je trouve ce nombre un bon endroit pour avoir un bon intervalle entre les époques.
txt2img-images est l'endroit où je stocke les images générées en utilisant le LoRA - Optionnel.
C'est le processus où vous allez décrire ce que chaque image est, alors SD saura comment utiliser le modèle existant pour construire les images d'entraînement à partir du bruit.
Dans Kohya, dans l'onglet utilitaires, nous avons le légendage Blip. J'utilise cela avec ces configurations :

Je change les éléments suivants :
Cliquez sur légender et cela générera, après un certain temps, les légendes :

Si vous avez peu d'images, vous pouvez corriger les légendes, car Blip ADORE ajouter des phrases comme « tenant une télécommande » ou « avec un microphone à la main » qui ne sont pas vraies. Je les ignore et cela fonctionne ainsi, car le légendage global est bon.
*Vous pourriez dire que ce légendage « basique » n'est pas bon pour Flux, qu'un meilleur légendage utilisant LLM est mieux, mais cela fonctionne bien pour moi.
Dans le passé, pour les premiers loras que j'ai publiés, j'ai utilisé un dossier de régularisation avec plus de 4K images de femmes. J'ai arrêté de l'utiliser car il n'est requis que lorsque votre dataset n'est pas légendé et plus varié.
Son utilisation doublera le temps et les étapes nécessaires.
Ne pas utiliser.
Ici, nous allons lancer l'entraînement. Pour SD1.5, ces configurations nécessitent 8 Go de Vram, SDXL nécessite 10 Go de Vram, Flux nécessite 16 Go de Vram.
L'installation de Kohya dépasse le cadre de ce guide.
Configs SD1.5 : https://jsonformatter.org/a3213d
Configs SDXL : https://jsonformatter.org/66e5c8
Configs FLUX : https://jsonformatter.org/45c1fc
* Faites-moi savoir si les liens expirent
* Pour FLUX, je limite l'entraînement à 1800 étapes (déjà dans le fichier de configuration ci-dessus) mais autour de 1200 étapes, le LoRA est déjà bon.
* Également pour FLUX, mes paramètres ci-dessus ne convergaient pas l'entraînement pour les ANIMES et les CARTOONS. Donc, vous devrez peut-être augmenter le –learning_rate=0.0004 –unet_lr=0.0004 à 0.001 ou 0.002. Avec cela, l'entraînement devient bon en moins d'étapes, mais peut surajuster plus facilement.
Il suffit de charger ces fichiers dans l'onglet Kohya LORA — PAS L'ONGLET DREAMBOOT — cliquez sur le fichier de configuration et chargez-le.
Les configs que vous DEVEZ changer :
Section Modèle et Dossiers :
Onglet Paramètres > Avancé > Échantillons :
Onglet Paramètres > Basique :
Recherchez sur Internet ce que signifie chaque champ, il est hors de portée pour expliquer tous, mais vous pouvez lire ici : Paramètres d'entraînement LoRA
La plupart des configurations changent les exigences matérielles.
Ceux-ci sont ceux qui ont fonctionné pour moi, utilisant une RTX2060 super avec 12 Go de Vram — Pour FLUX, j'ai mis à niveau vers une RTX 4060 TI 16 Go de Vram.
Par exemple, ma RTX2060 ne prend pas en charge bf16 comme les 3060, donc j'utilise fp16. Cela me ferait économiser de la mémoire, mais c'est ce que c'est et avec 12 Go, cela a fonctionné.
Après avoir changé tout cela, cliquez sur « Commencer l'entraînement ». Vous verrez ceci dans la console :


Avec une longue barre de progression.
SD1.5 : Je ne mets pas en cache les latents sur le disque. C'est plus rapide, mais utilise presque la même Vram que SDXL.


SDXL :


FLUX : Près de la limite même avec la nouvelle carte !!!!!

Si vous recevez des erreurs CUDA de mémoire insuffisante, alors vous êtes à la limite. Activez le cache des latents sur le disque, changez de fp16 à bf16 si votre matériel le prend en charge, réduisez la taille du lot de 2 à 1.
Pour Flux, vous pouvez activer le « mode fractionné ». Cela réduit beaucoup de VRAM, mais double presque le temps d'entraînement.
D'autres options sont : Fermez tous les programmes, déconnectez votre 2ème moniteur, réduisez la résolution d'affichage, si vous êtes sous Linux, changez temporairement pour un environnement de bureau plus léger, une fois l'entraînement déclenché, fermez le navigateur et vérifiez l'état uniquement avec l'invite de commande ouverte.
Si vous ne pouvez pas le résoudre, recherchez sur Internet. Si vous obtenez toujours des erreurs, alors abandonnez et entraînez dans CivitAI.
Les résultats s'amélioreront avec le temps à mesure qu'il apprend.

Lorsque cela se termine, le répertoire ressemblera à cela :

Vous pouvez vérifier par les images d'échantillon si c'est surentraîné ou sous-entraîné. Vous le verrez également en exécutant le LoRA.
Si le modèle est surentraîné, les images seront « pixelisées comme de l'argile »... Je ne sais pas comment décrire. Les images de prévisualisation commenceront à se déformer.
Voyez avec vos yeux, une image générée :

Parfois, il n'obtient pas ce mauvais résultat, mais le visage CESSERA de ressembler à la personne entraînée jusqu'à ce qu'il se déforme dans les époques suivantes.

La solution est simple : Il suffit de tester les époques précédentes et de voir la plus récente qui fonctionne bien. En fonction de l'image d'échantillon, vous pouvez facilement trouver la bonne et trouver le fichier LoRA généré autour du même moment.
C'est DIFFICILE DE CHOISIR UN !!! Mais cela doit être fait. Testez autant que vous le pouvez.
S'il est sous-entraîné (le visage du portrait ne ressemble pas à la personne et semble être un mélange de personnes génériques du modèle SD, ou l'objet n'a pas encore les détails souhaités), vous pouvez reprendre l'entraînement.

Dans cette image d'exemple, vous voyez que des détails manquent, comme le microphone fusionnant avec la cravate.
La différence avec le surentraînement est le manque de détail.
Si vous avez fermé Kohya, pas de problème, il suffit de charger le json qu'il crée dans le répertoire de résultats et toutes les configurations utilisées seront chargées.
Dans Paramètres > Basique, vous avez le champ Poids du réseau LoRA où vous pouvez ajouter n'importe quel lora que vous souhaitez continuer à entraîner.
Renommez le dernier que vous avez obtenu à un autre nom, copiez son emplacement dans ce champ, changez les époques à 2 ou 3 (cela dépend de combien vous aurez besoin de continuer l'entraînement) et cliquez à nouveau sur commencer l'entraînement. Cela reprendra l'entraînement.

Vous pouvez faire cela jusqu'à ce que ce soit bon !
Renommez l'époques finale de lora que vous souhaitez (ou gardez-la si le résultat final est bon) et utilisez-la.
Ceci est l'exemple SD1.5 :

Ceci est l'exemple Flux :


Complicated desired outputs = Complex prompts with mix of natural language and tags [postcard=89ntmto] Complex prompt...

This guide was created to bring inspiration to this visual vocabulary. There is a short description for each pose so ...

GPT-4o, released on March 25, 2025 went viral soon after release, bolstered by the Studio Ghibli animation style tren...

This guide is intended to get you generating quality NSFW images as quickly as possible with Automatic1111 Stable Dif...

