Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 7 5 3
Stable Diffusion технотред #21 /tech/ Аноним 02/11/25 Вск 02:50:31 1405043 1
1614955002962.png 1034Кб, 3510x2910
3510x2910
1725966035483.png 358Кб, 2546x1822
2546x1822
1736346276882.png 252Кб, 1853x624
1853x624
1686268449034.png 3335Кб, 1800x2842
1800x2842
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются

Предыдущий тред: >>1272560 (OP)

➤ Софт для обучения

https://github.com/kohya-ss/sd-scripts
Набор скриптов для тренировки, используется под капотом в большей части готовых GUI и прочих скриптах.
Для удобства запуска можно использовать дополнительные скрипты в целях передачи параметров, например: https://rentry.org/simple_kohya_ss

https://github.com/bghira/SimpleTuner Линукс онли, бэк отличается от сд-скриптс

https://github.com/Nerogar/OneTrainer Фич меньше, чем в сд-скриптс, бэк тоже свой

https://github.com/Mikubill/naifu Бэк которым тренили noobai

https://github.com/bluvoll/sd-scripts Форк сд-скриптов для тренировки rectified flow xl чекпоинтов

➤ GUI-обёртки для sd-scripts

https://github.com/bmaltais/kohya_ss
https://github.com/derrian-distro/LoRA_Easy_Training_Scripts

➤ Обучение SDXL

https://2ch-ai.github.io/wiki/tech/sdxl/

➤ Flux

https://2ch-ai.github.io/wiki/nai/models/flux/

➤ Wan

https://github.com/kohya-ss/musubi-tuner
https://github.com/tdrussell/diffusion-pipe

➤ Гайды по обучению

Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.

LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам:
https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов
https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA
https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)

LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге:
https://github.com/KohakuBlueleaf/LyCORIS

Подробнее про алгоритмы в вики https://2ch-ai.github.io/wiki/tech/lycoris/

Dreambooth – для SD 1.5 обучение доступно начиная с 16 GB VRAM. Ни одна из потребительских карт не осилит тренировку будки для SDXL. Выдаёт отличные результаты. Генерирует полноразмерные модели:
https://rentry.co/lycoris-and-lora-from-dreambooth (англ.)
https://github.com/nitrosocke/dreambooth-training-guide (англ.) https://rentry.org/lora-is-not-a-finetune (англ.)

Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet:
https://rentry.org/textard (англ.)

➤ Тренировка YOLO-моделей для ADetailer:
YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.

Подробнее в вики: https://2ch-ai.github.io/wiki/tech/yolo/

Не забываем про золотое правило GIGO ("Garbage in, garbage out"): какой датасет, такой и результат.

➤ Гугл колабы

﹡Текстуальная инверсия: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/sd_textual_inversion_training.ipynb
﹡Dreambooth: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
﹡LoRA https://colab.research.google.com/github/hollowstrawberry/kohya-colab/blob/main/Lora_Trainer.ipynb

➤ Полезное

Расширение для фикса CLIP модели, изменения её точности в один клик и более продвинутых вещей, по типу замены клипа на кастомный: https://github.com/arenasys/stable-diffusion-webui-model-toolkit
Гайд по блок мерджингу: https://rentry.org/BlockMergeExplained (англ.)
Гайд по ControlNet: https://stable-diffusion-art.com/controlnet (англ.)

Подборка мокрописек для датасетов от анона: https://rentry.org/te3oh
Группы тегов для бур: https://danbooru.donmai.us/wiki_pages/tag_groups (англ.)
NLP тэггер для кэпшенов T5: https://github.com/2dameneko/ide-cap-chan (gui), https://huggingface.co/Minthy/ToriiGate-v0.3 (модель), https://huggingface.co/2dameneko/ToriiGate-v0.3-nf4/tree/main (квант для врамлетов)

Оптимайзеры: https://2ch-ai.github.io/wiki/tech/optimizers/
Визуализация работы разных оптимайзеров: https://github.com/kozistr/pytorch_optimizer/blob/main/docs/visualization.md

Гайды по апскейлу от анонов:
https://rentry.org/SD_upscale
https://rentry.org/sd__upscale
https://rentry.org/2ch_nai_guide#апскейл
https://rentry.org/UpscaleByControl

Старая коллекция лор от анонов: https://rentry.org/2chAI_LoRA

Гайды, эмбеды, хайпернетворки, лоры с форча:
https://rentry.org/sdgoldmine
https://rentry.org/sdg-link
https://rentry.org/hdgfaq
https://rentry.org/hdglorarepo
https://gitgud.io/badhands/makesomefuckingporn
https://rentry.org/ponyxl_loras_n_stuff - пони лоры
https://rentry.org/illustrious_loras_n_stuff - люстролоры

➤ Legacy ссылки на устаревшие технологии и гайды с дополнительной информацией

https://2ch-ai.github.io/wiki/tech/legacy/

➤ Прошлые треды

https://2ch-ai.github.io/wiki/tech/old_threads/

Шапка: https://2ch-ai.github.io/wiki/tech/tech-shapka/
Аноним 02/11/25 Вск 18:31:55 1405494 2
Продублирую сюда из соседнего треда:

Пытаюсь тренить в Мусуби Ван 2.2 на видосах,
дефолтные 81 фрейм в 720п в 24гб врам не влезают даже с полным оффлоадом модели,
влезло только когда уменьшил и фреймы до 41, и разрешение до 480п, с оффлоадом 24/40.

Есть ли понт T2V на таком хуевом качестве тренить, или лучше на картинках в норм качестве, или и то и другое?

Если на картинках, то юзать смазанные кадры из тех же видео, или лучше несмазанные фото?

I2V на картинках не тренится ваще, там придется хуевое в любом случае, но может 360п 81 фрейм будет лучше?
Аноним 02/11/25 Вск 19:17:10 1405540 3
image 192Кб, 759x1360
759x1360
>>1405494
2.2 I2V вот так датасет можешь делать в разных разрешениях, всё нормально тренится.
2.2 T2V последний раз когда пробовал там на одном кадре тренить - было сломано, сейчас только на Квене треню.
Аноним 02/11/25 Вск 20:56:06 1405628 4
>>1405540
Это один и тот же датасет в разных разрешениях или разные?
Аноним 02/11/25 Вск 21:48:35 1405661 5
Аноним 02/11/25 Вск 22:37:09 1405687 6
>>1405661
А за сколько шагов начинало получаться?
Аноним 03/11/25 Пнд 09:52:24 1405999 7
В доках мусуби написано:
тренить лоу на таймстепах 0-900, хай - на 900-1000

В дефолтном темплейте комфи стоит сначала хай на степах 0-10, потом лоу на степах 10-20

Так и должно быть, что во-первых в обратном порядке, а во-вторых не на 1/10 а на 1/2 смена? Или таймстепы и степы - это ваще разная хуйня?
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов