
By gerogero
Updated: February 7, 2026
Para SD 1.5 fotos realistas:
Para SD 1.5 Anime:
Para SDXL en general (incluye Pony e Illustrious aquí):
Para FLUX en general:
Esta es la parte más importante. Tienes que recopilar imágenes de la persona, objeto o lo que quieras entrenar.
Déjame mostrarte el conjunto de datos que obtuve para Silvio Santos lora:

Puedes ver que todos son retratos. Diferentes fondos y colores de ropa son un MUST. Caras mirando hacia diferentes lados también.
Verifica si todos los lados derecho e izquierdo de la persona son consistentes. Esto puede no ser el caso con selfies que generalmente están invertidas.
El rostro humano no es simétrico, entonces si tienes una orientación lateral mixta durante tu entrenamiento, el resultado puede ser así:

¡Por favor, revisa la orientación de todo tu conjunto de datos!
Si las imágenes de vista previa después de un tiempo comienzan a ser todas iguales, esta puede ser la razón, ya que SD intentará aprender ambos lados y la diferencia en simetría puede causar que la pérdida sea un poco más alta en algunas imágenes invertidas, luego el aprendizaje se quedará atascado en algunas pocas imágenes.
La resolución puede variar de 256x a 2048x. Evita imágenes por debajo o por encima de estos valores. No necesitas redimensionar si están dentro de estos valores, ya que el entrenamiento lo hará automáticamente en buckets:


Creo una carpeta con el nombre de la cadena LoRA. Nombré la cadena reemplazando algunas letras con números, para asegurarme de que sea un token único entre muchos modelos.
El resultado_actual será el lugar donde Kohya guardará los resultados.
Las imágenes de entrenamiento tendrán el directorio que contiene las imágenes de entrenamiento. La convención de nombres es: 400 / número de imágenes, un guion bajo y la cadena lora. Este será el número de repeticiones que Kohya hará. Encuentro que este número es un buen lugar para tener un buen intervalo entre épocas.
txt2img-images es donde almaceno imágenes generadas usando la LoRA – Opcional.
Este es el proceso donde describirás qué es cada imagen, luego SD sabrá cómo usar el modelo existente para construir las imágenes de entrenamiento a partir del ruido.
En Kohya, en la pestaña de utilidades, tenemos subtitulación Blip. Uso esto con estas configuraciones:

Cambio lo siguiente:
Haz clic en subtitular y, después de un tiempo, generará los subtítulos:

Si tienes pocas imágenes, puedes corregir los subtítulos, ya que Blip AMA agregar frases como “sosteniendo un control remoto” o “Con un micrófono en la mano” que no son ciertas. Simplemente ignoro y ha estado funcionando así, ya que la subtitulación general es buena.
*Puedes decir que esta subtitulación “básica” no es buena para Flux, que una mejor subtitulación usando LLM es mejor, pero ha estado funcionando bien para mí.
En el pasado, para las primeras loras que publiqué, usé una carpeta de regularización con más de 4K imágenes de mujeres. Dejé de usarla ya que solo se requiere cuando tu conjunto de datos no está subtitulado y es más variado.
Usarla duplicará el tiempo y los pasos requeridos.
No la uses.
Aquí ejecutaremos el entrenamiento. Para SD1.5 estas configuraciones requieren 8GB de Vram, SDXL requiere 10GB de Vram, Flux requiere 16GB de Vram.
Instalar Kohya está fuera del alcance de esta guía.
Configuraciones de SD1.5: https://jsonformatter.org/a3213d
Configuraciones de SDXL: https://jsonformatter.org/66e5c8
Configuraciones de FLUX: https://jsonformatter.org/45c1fc
* Háganme saber si los enlaces expiran
* Para FLUX, estoy limitando el entrenamiento a 1800 pasos (ya en el archivo de configuración anterior) pero alrededor de 1200 pasos la LoRA ya es buena.
* También para FLUX, mis configuraciones anteriores no estaban convergiendo el entrenamiento para ANIMES y CARICATURAS. Así que, puede que tengas que aumentar el –learning_rate=0.0004 –unet_lr=0.0004 a 0.001 o 0.002. Con eso el entrenamiento se vuelve bueno en menos pasos, pero puede sobreajustarse más fácilmente.
Simplemente carga estos archivos en la pestaña LORA — NO EN LA PESTAÑA DREAMBOOT — haz clic en archivo de configuración y cárgalo.
Configuraciones que DEBES cambiar:
Sección de Modelo y Carpetas:
Pestaña de Parámetros > Avanzado > Muestras:
Pestaña de Parámetros > Básico:
Busca en internet qué significa cada campo, está fuera del alcance por ahora explicarlos todos, pero puedes leer aquí: Parámetros de entrenamiento de LoRA
La mayoría de las configuraciones cambian los requisitos de hardware.
Estas son las que funcionaron para mí, usando una RTX2060 super con 12GB de Vram — Para FLUX actualicé a una RTX 4060 TI 16GB de Vram.
Por ejemplo, mi RTX2060 no soporta bf16 como las 3060s, entonces uso fp16. Esto me ahorraría memoria, pero así es y con 12G ha funcionado.
Después de cambiar todo eso, haz clic en “Iniciar entrenamiento“. Verás esto en la consola:


Con una barra de progreso muy larga.
SD1.5: No almaceno latentes en el disco. Es más rápido, pero usa casi la misma Vram que SDXL.


SDXL:


FLUX: ¡Cerca del límite incluso con la nueva tarjeta!!!!!

Si recibes errores de falta de memoria de CUDA, entonces estás en el límite. Habilita el almacenamiento en caché de latentes en el disco, cambia de fp16 a bf16 si tu hardware lo soporta, reduce el tamaño del lote de 2 a 1.
Para Flux, puedes habilitar “Modo dividido”. Esto reduce mucho la VRAM, pero casi duplica el tiempo de entrenamiento.
Otras opciones son: Cerrar todos los programas, desconectar tu segundo monitor, bajar la resolución de pantalla, si estás en Linux cambiar temporalmente a un entorno de escritorio más ligero, una vez que inicies el entrenamiento cierra el navegador y verifica el estado solo con el símbolo del sistema abierto.
Si no puedes resolverlo, busca en internet. Si aún obtienes errores, entonces rinde y entrena en CivitAI.
Cada 100 pasos (puedes cambiarlo) el entrenamiento creará una imagen de muestra en la carpeta results_current/sample, luego puedes tener una idea si está funcionando o no.
Los resultados mejorarán con el tiempo a medida que esté aprendiendo.

Cuando termine, el directorio se verá así:

Puedes verificar por las imágenes de muestra si está sobreentrenado o subentrenado. Lo verás al ejecutar la LoRA también.
Si el modelo está sobreentrenado, las imágenes serán “pixeladas hechas de arcilla”… No sé cómo describirlo. Las imágenes de vista previa comenzarán a distorsionarse.
Mira con tus ojos, una imagen generada:

A veces no obtiene este mal resultado, pero la cara DEJA de parecerse a la persona entrenada hasta que se deforma en épocas posteriores.

La solución es simple: Solo prueba épocas anteriores y ve la más reciente que funcione bien. Basado en la imagen de muestra, puedes encontrar fácilmente la buena y encontrar el archivo LoRA generado alrededor del mismo tiempo.
¡Es DIFÍCIL ELEGIR UNA!!! Pero debe hacerse. Prueba lo más que puedas.
Si está subentrenado (El rostro del retrato no se parece a la persona y parece una mezcla de persona genérica del modelo SD, o el objeto no tiene los detalles deseados aún) puedes reanudar el entrenamiento.

En esta imagen de ejemplo ves que faltan detalles, como el micrófono fusionándose con la corbata.
La diferencia con el sobreentrenamiento es la falta de detalle.
Si cerraste Kohya, no hay problema, solo carga el json que crea en el directorio de resultados y todas las configuraciones utilizadas se cargarán.
En Parámetros > Básico, tienes el campo Pesos de red LoRA donde puedes agregar cualquier lora que quieras seguir entrenando.
Renombra la última que obtuviste a cualquier otro nombre, copia su ubicación a este campo, cambia las épocas a 2 o 3 (depende de cuánto necesites seguir entrenando) y haz clic en iniciar entrenamiento de nuevo. Esto reanudará el entrenamiento.

Puedes hacer eso hasta que esté bien!
Renombra la última época de lora que quieras (o mantén si el resultado final es bueno) y úsala.
Este es el ejemplo de SD1.5:

Este es el ejemplo de Flux:


Complicated desired outputs = Complex prompts with mix of natural language and tags [postcard=89ntmto] Complex prompt...

This guide was created to bring inspiration to this visual vocabulary. There is a short description for each pose so ...

GPT-4o, released on March 25, 2025 went viral soon after release, bolstered by the Studio Ghibli animation style tren...

This guide is intended to get you generating quality NSFW images as quickly as possible with Automatic1111 Stable Dif...

