
By gerogero
Updated: February 7, 2026
สำหรับ SD 1.5 ภาพถ่ายที่สมจริง:
สำหรับ SD 1.5 อนิเมะ:
สำหรับ SDXL โดยรวม (รวม Pony และ Illustrious ที่นี่):
สำหรับ FLUX โดยรวม:
นี่คือส่วนที่สำคัญที่สุด คุณต้องรวบรวมภาพจากบุคคล วัตถุ หรืออะไรก็ตามที่คุณต้องการฝึกอบรม.
ให้ฉันแสดงชุดข้อมูลที่ฉันได้มาสำหรับ Silvio Santos lora:

คุณสามารถเห็นได้ว่าพวกเขาทั้งหมดเป็นภาพบุคคล พื้นหลังและสีเสื้อผ้าที่แตกต่างกันเป็นสิ่งที่จำเป็น หน้าต้องมองไปในทิศทางที่แตกต่างกันด้วย.
ตรวจสอบว่าภาพทั้งหมดด้านซ้ายและขวาของบุคคลมีความสอดคล้องกันหรือไม่ ซึ่งอาจไม่เป็นเช่นนั้นกับเซลฟี่ที่มักจะกลับด้าน.
ใบหน้าของมนุษย์ไม่สมมาตร ดังนั้นหากคุณมีการจัดเรียงด้านผสมในระหว่างการฝึกอบรม ผลลัพธ์อาจเป็นเช่นนี้:

กรุณาตรวจสอบการจัดเรียง ของชุดข้อมูลทั้งหมดของคุณ!!
หากภาพตัวอย่างหลังจากผ่านไปสักระยะเริ่มมีลักษณะเหมือนกันทั้งหมด อาจเป็นสาเหตุนี้ เนื่องจาก SD จะพยายามเรียนรู้ทั้งสองด้านและความแตกต่างในความสมมาตรอาจทำให้การสูญเสียสูงขึ้นในบางภาพที่กลับด้าน จากนั้นการเรียนรู้จะติดอยู่ในบางภาพ.
ความละเอียดสามารถแตกต่างกันได้ตั้งแต่ 256x ถึง 2048x หลีกเลี่ยงภาพที่ต่ำกว่าหรือสูงกว่าค่านี้ คุณไม่จำเป็นต้องปรับขนาดหากอยู่ในค่าดังกล่าว เนื่องจากการฝึกอบรมจะทำโดยอัตโนมัติในถัง:


ฉันสร้างโฟลเดอร์ด้วยชื่อสตริง LoRA ฉันตั้งชื่อสตริงโดยการแทนที่ตัวอักษรบางตัวด้วยตัวเลข เพื่อให้แน่ใจว่าจะเป็นโทเค็นที่ไม่ซ้ำกันในหลายโมเดล.
ผลลัพธ์_current จะเป็นที่ที่ Kohya จะบันทึกผลลัพธ์
ภาพการฝึกอบรมจะมีไดเรกทอรีที่มีภาพการฝึกอบรม ชื่อแบบแผน คือ: 400 / จำนวนภาพ ขีดล่างและสตริง lora นี่จะเป็นจำนวนการทำซ้ำที่ Kohya จะทำ ฉันพบว่าหมายเลขนี้เป็นจุดที่ดีในการมีช่วงเวลาที่ดีระหว่าง epochs.
txt2img-images คือที่ที่ฉันเก็บภาพที่สร้างขึ้นโดยใช้ LoRA - ไม่บังคับ.
นี่คือกระบวนการที่คุณจะอธิบายว่าแต่ละภาพคืออะไร จากนั้น SD จะรู้วิธีใช้โมเดลที่มีอยู่ในการสร้างภาพการฝึกอบรมจากเสียงรบกวน.
ใน Kohya ในแท็บยูทิลิตี้ เรามีการอธิบายภาพ Blip ฉันใช้สิ่งนี้ด้วยการตั้งค่าดังนี้:

ฉันเปลี่ยนค่าดังต่อไปนี้:
คลิกที่การอธิบายภาพและมันจะสร้างคำบรรยายหลังจากผ่านไปสักครู่:

หากคุณมีภาพน้อย คุณอาจแก้ไขคำบรรยายได้ เนื่องจาก Blip ชอบเพิ่มวลีเช่น “ถือรีโมทคอนโทรล” หรือ “ถือไมโครโฟนในมือ” ซึ่งไม่เป็นความจริง ฉันแค่เพิกเฉยและมันก็ทำงานได้ดีในแบบนั้น เนื่องจากการอธิบายภาพโดยรวมดี.
*คุณอาจบอกว่าการอธิบายภาพ “พื้นฐาน” นี้ไม่ดีสำหรับ Flux ว่าการอธิบายภาพที่ดีกว่าด้วย LLM ดีกว่า แต่สำหรับฉันมันทำงานได้ดี.
ในอดีต สำหรับ Lora แรกที่ฉันเผยแพร่ ฉันใช้โฟลเดอร์การควบคุมที่มีภาพผู้หญิงมากกว่า 4K. ฉันหยุดใช้มัน เนื่องจากมันจำเป็นเมื่อชุดข้อมูลของคุณไม่มีการอธิบายภาพและมีความหลากหลายมากขึ้น.
การใช้มันจะทำให้เวลาที่ใช้และขั้นตอนเพิ่มเป็นสองเท่า.
ไม่ต้องใช้.
ที่นี่เราจะรันการฝึกอบรม สำหรับ SD1.5 การตั้งค่าเหล่านี้ต้องการ 8GB Vram, SDXL ต้องการ 10GB Vram, Flux ต้องการ 16GB Vram.
การติดตั้ง Kohya นอกเหนือจากขอบเขตของคู่มือนี้.
การตั้งค่า SD1.5: https://jsonformatter.org/a3213d
การตั้งค่า SDXL: https://jsonformatter.org/66e5c8
การตั้งค่า FLUX: https://jsonformatter.org/45c1fc
* แจ้งให้ฉันทราบหากลิงก์หมดอายุ
* สำหรับ FLUX, ฉันจำกัดการฝึกอบรมที่ 1800 ขั้นตอน (อยู่ในไฟล์การตั้งค่าข้างต้นแล้ว) แต่ประมาณ 1200 ขั้นตอน LoRA ก็ใช้ได้ดีแล้ว.
* นอกจากนี้สำหรับ FLUX, การตั้งค่าของฉันข้างบนไม่สามารถทำให้การฝึกอบรมสำหรับ ANIMES และ CARTOONS รวมกันได้ ดังนั้นคุณอาจต้องเพิ่ม –learning_rate=0.0004 –unet_lr=0.0004 เป็น 0.001 หรือ 0.002 ด้วยวิธีนี้การฝึกอบรมจะดีขึ้นในขั้นตอนที่น้อยลง แต่ก็อาจจะ overfit ได้ง่ายขึ้น.
เพียงแค่โหลดไฟล์เหล่านี้ในแท็บ Kohya LORA — ไม่ใช่แท็บ DREAMBOOT — คลิกที่ไฟล์การตั้งค่าและโหลดมัน.
การตั้งค่าที่คุณต้องเปลี่ยน:
ส่วนโมเดลและโฟลเดอร์:
แท็บพารามิเตอร์ > ขั้นสูง > ตัวอย่าง:
แท็บพารามิเตอร์ > พื้นฐาน:
ค้นหาทางอินเทอร์เน็ตเกี่ยวกับความหมายของแต่ละฟิลด์ มันอยู่นอกเหนือจากขอบเขตในตอนนี้ที่จะอธิบายทั้งหมด แต่คุณสามารถอ่านได้ที่: พารามิเตอร์การฝึกอบรม LoRA
การเปลี่ยนแปลงการตั้งค่ามักจะเปลี่ยนความต้องการฮาร์ดแวร์.
นี่คือสิ่งที่ทำงานสำหรับฉัน โดยใช้ RTX2060 super ที่มี Vram 12GB — สำหรับ FLUX ฉันอัปเกรดเป็น RTX 4060 TI 16GB Vram.
ตัวอย่างเช่น RTX2060 ของฉันไม่รองรับ bf16 เช่นเดียวกับ 3060s ดังนั้นฉันจึงใช้ fp16 ซึ่งจะช่วยประหยัดหน่วยความจำ แต่ก็เป็นเช่นนั้นและด้วย 12G ก็ทำงานได้.
หลังจากเปลี่ยนทั้งหมดนี้ คลิกที่ “เริ่มการฝึกอบรม”. คุณจะเห็นสิ่งนี้ในคอนโซล:


ด้วยแถบความก้าวหน้าที่ยาวมาก.
SD1.5: ฉันไม่เก็บ latents ลงในดิสก์ มันเร็วกว่า แต่ใช้ Vram เกือบเท่ากับ SDXL.


SDXL:


FLUX: ใกล้ขีดจำกัดแม้กับการ์ดใหม่!!!!!

หากคุณได้รับข้อผิดพลาด CUDA หน่วยความจำหมด แสดงว่าคุณถึงขีดจำกัดแล้ว. เปิดใช้งานการเก็บ latents ลงในดิสก์ เปลี่ยนจาก fp16 เป็น bf16 หากฮาร์ดแวร์ของคุณรองรับ ลดขนาดแบตช์จาก 2 เป็น 1.
สำหรับ Flux คุณสามารถเปิดใช้งาน “โหมดแยก” ซึ่งจะลด VRAM ได้มาก แต่จะเพิ่มเวลาการฝึกอบรมเป็นสองเท่า.
ตัวเลือกอื่นๆ ได้แก่: ปิดโปรแกรมทั้งหมด ถอดการเชื่อมต่อจอภาพที่สองของคุณ ลดความละเอียดของจอภาพ หากใช้ Linux ให้เปลี่ยนไปใช้สภาพแวดล้อมเดสก์ท็อปที่เบากว่าเป็นการชั่วคราว เมื่อเริ่มการฝึกอบรมให้ปิดเบราว์เซอร์และตรวจสอบสถานะเฉพาะกับพรอมต์คำสั่งที่เปิดอยู่.
หากคุณไม่สามารถแก้ไขได้ ค้นหาทางอินเทอร์เน็ต หากยังคงได้รับข้อผิดพลาด ให้ยอมแพ้และฝึกอบรมใน CivitAI.
ทุกๆ 100 ขั้นตอน (คุณสามารถเปลี่ยนได้) การฝึกอบรมจะสร้างภาพตัวอย่างในโฟลเดอร์ results_current/sample จากนั้นคุณจะมีแนวคิดว่ามันทำงานหรือไม่.
ผลลัพธ์จะดีขึ้นตามเวลาเมื่อมันเรียนรู้.

เมื่อมันเสร็จสิ้น โฟลเดอร์จะมีลักษณะดังนี้:

คุณสามารถตรวจสอบจากภาพตัวอย่างว่ามันถูกฝึกมากเกินไปหรือไม่เพียงพอ คุณจะเห็นเมื่อรัน LoRA ด้วย.
หากโมเดลถูกฝึกมากเกินไป ภาพจะมีลักษณะ “พิกเซลที่ทำจากดิน”... ฉันไม่รู้จะอธิบายอย่างไร ภาพตัวอย่างจะเริ่มบิดเบือน.
ดูด้วยตาของคุณ ภาพที่สร้างขึ้น:

บางครั้งมันอาจไม่เกิดผลลัพธ์ที่แย่ขนาดนี้ แต่ใบหน้าจะหยุดดูเหมือนบุคคลที่ถูกฝึกจนกว่าจะบิดเบือนใน epochs ถัดไป.

ทางออกนั้นง่าย: เพียงแค่ทดสอบ epochs ก่อนหน้านี้และดูว่าอันไหนล่าสุดที่ทำงานได้ดี โดยอิงจากภาพตัวอย่างคุณสามารถหาภาพที่ดีและค้นหาไฟล์ LoRA ที่สร้างขึ้นในช่วงเวลาเดียวกัน.
มันยากที่จะเลือกหนึ่ง!!! แต่ต้องทำ ทดสอบให้มากที่สุดเท่าที่จะทำได้.
หากมันถูกฝึกน้อยเกินไป (ใบหน้าภาพบุคคลไม่ดูเหมือนบุคคลและดูเหมือนเป็นการรวมกันของบุคคลทั่วไปจากโมเดล SD หรือวัตถุไม่มีรายละเอียดที่ต้องการ) คุณสามารถดำเนินการฝึกอบรมต่อ.

ในภาพตัวอย่างนี้คุณจะเห็นว่ามีรายละเอียดขาดหายไป เช่น ไมโครโฟนที่รวมกับเนคไท.
ความแตกต่างจากการฝึกมากเกินไปคือการขาดรายละเอียด.
หากคุณปิด Kohya ไม่มีปัญหา เพียงแค่โหลด json ที่มันสร้างขึ้นในไดเรกทอรีผลลัพธ์และการตั้งค่าทั้งหมดที่ใช้จะถูกโหลด.
ใน Parameters > Basic คุณมีฟิลด์ น้ำหนักเครือข่าย LoRA ที่คุณสามารถเพิ่ม lora ใดๆ ที่คุณต้องการฝึกต่อ.
เปลี่ยนชื่อไฟล์ล่าสุดที่คุณได้มาเป็นชื่ออื่น คัดลอกตำแหน่งของมันไปยังฟิลด์นี้ เปลี่ยน epochs เป็น 2 หรือ 3 (ขึ้นอยู่กับว่าคุณต้องการฝึกนานแค่ไหน) และคลิกที่ เริ่มการฝึกอบรม อีกครั้ง มันจะดำเนินการฝึกอบรมต่อ.

คุณสามารถทำเช่นนี้จนกว่าจะดี!
เปลี่ยนชื่อ Lora สุดท้ายที่คุณต้องการ (หรือเก็บไว้หากผลลัพธ์สุดท้ายดี) และใช้งาน.
นี่คือ ตัวอย่าง SD1.5:

นี่คือ ตัวอย่าง Flux:


Complicated desired outputs = Complex prompts with mix of natural language and tags [postcard=89ntmto] Complex prompt...

This guide was created to bring inspiration to this visual vocabulary. There is a short description for each pose so ...

GPT-4o, released on March 25, 2025 went viral soon after release, bolstered by the Studio Ghibli animation style tren...

This guide is intended to get you generating quality NSFW images as quickly as possible with Automatic1111 Stable Dif...

