Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 76 39 25
Stable Diffusion тред X+179 /sd/ Аноним 09/01/26 Птн 23:17:09 1484564 1
image.png 3263Кб, 1248x1824
1248x1824
image.png 1846Кб, 1024x1024
1024x1024
image.png 4376Кб, 1440x1920
1440x1920
image.png 5370Кб, 2048x2048
2048x2048
Тред локальной генерации

ЧТО НОВОГО АКТУАЛЬНОГО

• Qwen-Image-2512
• Qwen-Image-Edit-2511
• Qwen-Image-Layered
• Z-Image-Turbo
• Flux 2
• Wan 2.2 (подходит для генерации картинок).
• NAG (негативный промпт на моделях с 1 CFG)
• Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза. Пример: 4-8 шагов, CFG 1. https://huggingface.co/tianweiy/DMD2/blob/main/dmd2_sdxl_4step_lora_fp16.safetensors,
CFG 3 для NoobAI https://huggingface.co/YOB-AI/DMD2MOD/blob/main/LYC-DMD2MOD%20(Dmo%2BTffnoi).safetensors,

База:
→ Приложение ComfyUI https://www.comfy.org/download
→ Примеры https://comfyanonymous.github.io/ComfyUI_examples/
https://comfyui-wiki.com/ (откуда, куда, как)
→ Менеджер расширений https://github.com/ltdrdata/ComfyUI-Manager (автоустановка, реестр расширений)
→ Модели https://civitai.com/

Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana
Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion
Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)

► Предыдущий тред >>1475611 (OP)https://arhivach.hk/?tags=13840
Дополнительно: https://telegra.ph/Stable-Diffusion-tred-X-01-03
Аноним # OP 09/01/26 Птн 23:19:10 1484570 2
t.mp4 2928Кб, 2188x1842, 00:00:28
2188x1842
nsfw текст энкодер под зетку Аноним 09/01/26 Птн 23:27:29 1484588 3
Он вообще существует?
Аноним 09/01/26 Птн 23:32:34 1484592 4
>>1484588
Существует, но не особо нужен сам по себе. Т.к. NSFW в его смысле - это больше "острые сцены" а не сиськи-письки.
Последние, кстати, лечатся не экодером, а через lora или вообще файнтюнами с цветка - уже пошли NSFW в том числе.
Аноним 09/01/26 Птн 23:35:13 1484595 5
>>1484588
Он тебе не поможет сгенерить то что модель не знает.
nsfw текст энкодер под зетку Аноним 10/01/26 Суб 00:09:00 1484636 6
изображение.png 22Кб, 780x161
780x161
>>1484595
кто нибудь сабж пробовал?
Аноним 10/01/26 Суб 00:27:45 1484654 7
>>1484344 →

>По поводу сэмплеров: на одних и тех же настройках, промте и сиде, разные сэмплеры выдают абсолютно разный результат. Это вот так нужно постоянно перебирать методом тыка либо есть однозначно годные семплеры?

Если вкратце, то только прогон твоих собственных тестовых promptов и доверие своим глазам при оценке результата.
Причём, под конкретную модель и сочетание используемых параметров. Связка scheduler/sampler, работающая на одной модели может совершенно не работать на другой.

Далее мой субъективный взгляд:

Посмотри вот эту старую статью: https://stable-diffusion-art.com/samplers/

Особенно вот эти два пика:

Euler converges https://stable-diffusion-art.com/wp-content/uploads/2023/03/euler-2-40.gif

Euler a does not converge https://stable-diffusion-art.com/wp-content/uploads/2023/03/euler-a-2-40.gif

Про scheduler пока не говорим, начнём с sampler.
Условно их можно разделить на две категории: «детерминированные» и «стохастические». «Стохастические» на каждом шаге дополнительно подмешивают порцию шума (второй пик) и поэтому у них нет сходимости (does not converge). На практике, «стохастические» samplers будут каждый раз давать несколько отличающийся результат, в отличие от «детерминированных» samplers при каждом их использовании (что условно происходит в процессе генерации смотри на гифке «does not converge»). Другими словами, не будет «повторяемости» результата. К «стохастическим» относятся samplers группы ancestral (с литерой «a»), а также некоторые другие без литеры «a» (и об этом не узнать, пока не прочитать описание о том, как тот или иной sampler работает).
Лично я из-за невозможности реализации «повторяемости» не использую «стохастические» samplers, вне зависимости от результатов, которые они выдают. А некоторые их на полном серьёзе могут советовать, потому что им понравилась пара черрипикнутых картинок, которые они сгенерировали с их помощью, совершенно не учитывая другие сценарии использования и вариации prompt.

На «детерминированных» samplers при фиксированных seed, prompt и прочих параметрах можно получать повторяемые результаты. Это становится отправной точкой для тестирования разных комбинаций. Как уже писал выше, для этих целей лучше иметь несколько заранее заготовленных для конкретной модели тестовых promptов с отличающимися изображениями, чтобы оценивать насколько тебя устраивает результат, который выдаёт конкретная связка sampler/scheduler для разных prompt (общий план, портрет, мелкие детали зелени, предметка и так далее).

Таким образом, можешь подобрать подходящие sampler/scheduler сам, визуально оценивая результаты генерации. Да, тут сильно влияет субъективный фактор.

Или слепо ориентироваться на «тесты» или «советы бывалых» (устаревшие, от других моделей, с другой комбинацией параметров и прочее), а потом с красными глазами и пеной у рта доказывать всем, что конкретный sampler-нейм из да бест, имба, геймченджер!

>По поводу фейссвапа. Почитал, разрабы старую приблуду убили, а новая зацензурена вообще на голое тело. А как чисто технически этот процесс называется? И2И? Может как-то ручками и напильником будет работать? Интересует не только фейс, но и одежда, предметы и тд.

У Qwen-Image-Edit-2509 (2511 говно очень противоречивая, не могу рекомендовать), FLUX.2 dev при всей их неоднозначности сама по себе такая задача решается с помощью edit-функционала буквально одной строкой prompt: A character from image 1 with the face from image 2, wearing clothes from image 3.
Аноним 10/01/26 Суб 00:45:39 1484679 8
>>1484654
>Далее мой субъективный взгляд:
бля, вы как только-только вылупились, до вас типа никто не пробовал. хуйня твой эйлер, ни-то ни-сё.
у меня охуенно получается с: DPPM_2M_SDE_GPU
с ним начисто отсутствует ваша любимая плесень, которую вы так боготворите и жить без неё не можете.
Аноним 10/01/26 Суб 00:49:50 1484683 9
>>1484570
Это просто абсурд, что под такое нужна лора для эдит модели. Чему тогда нахуй эта обоссанная эдит модель вообще обучалась тогда, если она такую базу не может делать? Не перестаю поражаться как банана про ебет весь этот кал.
Алсо, на редите кидали более красивую комфи ноду для задания угла и высоты.

>Qwen-Image-2512
Опа, а релиз этого пропустил. Старые лора людей сохраняют лица или без переобучения уже не похоже?
kissing Аноним 10/01/26 Суб 01:05:26 1484698 10
изображение.png 462Кб, 726x488
726x488
ComfyUItemptsmb[...].png 4068Кб, 1800x1200
1800x1200
Первоначальный кадр выглядит вот так (см. рис 1), и такой накал животных страстей меня вполне-бы устраивал,
но потом всё традиционно скатывается в привычное говно, а я хочу что-бы они сосались блядь как дикие звери, неужели я много прошу? С языками хоть что-то получается, но сам плотский поцелуй похоже заблокирован. Соевые пидарасы и здесь успели поднасрать! Сука, у меня слов нет, просто лапки опускаются с этой цензурой ебаной.
Аноним 10/01/26 Суб 04:11:29 1484791 11
>>1484654
Тоесть, однозначного варианта не существует, все субъективно и нужно тыкать семейства методом научного тыка. Я почитал вот эту статью: https://www.felixsanz.dev/articles/complete-guide-to-samplers-in-stable-diffusion
тут вообще получается, что на 10 шагах один кал и результаты только 30+. Тогда почему в некоторых промтах 10- шагов?
Аноним 10/01/26 Суб 04:32:04 1484800 12
Аноним 10/01/26 Суб 04:34:08 1484801 13
>>1484584 →

Сделал вывод что в зет нет цензуры как таковой. Модель просто не обучена. Лоры помогают.
Аноним 10/01/26 Суб 04:34:33 1484802 14
>>1484791

То, что панацеи не существует, я утверждать не могу, обижу религиозные чувства культа отдельных sampler/scheduler типа >>1484679 (который, к слову пост прочесть не осилил, иначе бы понял, что Euler и Euler A были только в качестве примеров работы «детерминированных» и «стохастических» samplers).

Скажу только, что лично мне пока ещё не встречалась комбинация sampler/scheduler, которая одновременно идеально бы работала и в Qwen-Image(-Edit-2509/2511) и в FLUX.2 dev и в Z-Image-Turbo. Для каждой модели подбираешь что-то своё.

>тут вообще получается, что на 10 шагах один кал и результаты только 30+. Тогда почему в некоторых промтах 10- шагов?

Я не совсем понял, имел ты в виду генерации на 10 шагов вообще или конкретные случае из статьи, которую ты привёл?

Предположу, что речь шла об общем случае и опять же предположу, что речь идёт об ускоряющих LoRAs типа lightning. Для обычной работы разных моделей требуется большое количество шагов (40+ по описанию моделей, 20+ по рекомендации разработчиков ComfyUI). Для разных моделей были натренированы ускоряющие LoRAs, которые, жертвуя качеством генерации, позволяют получить результат за 8, а некоторые даже за 4 шага. Вопрос только в том, насколько устраивает результат генерации. Здесь опять начинается диспут переходящий в срач между теми, кто генерирует на большом количестве шагов и тех, кто использует lightning LoRAs на 8/4 шага (с CFG 1.0) и говорит, что «ничуть не хуже». Для моделей, генерирующих видео (типа WAN), использование LoRAs на 4 шага практически безальтернативно, в противном случае, генерация будет вообще вечность занимать.

Решение опять же простое. Проверяешь сам и решаешь, устраивает тебя это качество или нет.
В качестве простого примера: Z-Image-Turbo может генерировать на 9 шагах и получается для этой модели приемлемо. Qwen-Image может приемлемо генерировать с lightning LoRA на 8 шагов. А условный FLUX.2 dev с неофициальной 8-step ускорялкой сильно теряет в качестве и приходится крутить его на более высоком количестве шагов, «срезать углы» не удаётся.
Аноним 10/01/26 Суб 05:24:41 1484815 15
>>1484801
>Сделал вывод что в зет нет цензуры
На основании чего ты сделал свой глубокомысленный вывод?
То есть тыкать друг-дружке в ебальники языками обучили, а целоваться не обучили, времени не хватило, как всегда...
Аноним 10/01/26 Суб 05:28:16 1484817 16
>>1484802
>Предположу, что речь шла
О сферических конях в вакууме, цель этих высеров мне неясна, пиздеть о всём и ниочем я не считаю продуктивным. Не отвечай этому мудаку, он сам не знает чё он хочет, ещё один больной еблан с обострением.
Аноним 10/01/26 Суб 05:29:57 1484819 17
>>1484801
>Лоры помогаю
Блядь, тебе лекарства не помогают, а ты хочешь чтобы зетке лоры помогли..
Аноним 10/01/26 Суб 08:06:12 1484842 18
>>1484801
ШОК! оказывается, что "цензура" в image моделях это замыленные письки или их отсутствие, ну кто бы мог подумать...
Аноним 10/01/26 Суб 09:22:28 1484866 19
image 294Кб, 1536x1536
1536x1536
image 450Кб, 1536x1536
1536x1536
image 439Кб, 1536x1536
1536x1536
Зетка.
пик1 - res_multi 9 шагов (дефолт). Сейчас почему-то в комфи дефолт Зетки это 4 шага, но здесь на пике по прежнему 9.
пик2 - euler_a + мои "яскозал" штуки из всех прошлых тредов.
пик3 - exp_heun_2_x0 + мои "яскозал" штуки из всех прошлых тредов.
промпт: fkk, fullshot, Xingu girl 14yo 1980, in the red river
portrait of girl 14yo, detailed pretty face, hi-detailed glossy skin, (smile:0.3)

сид = 0.
Тяжела жизнь в племени, так в 14 выглядеть.
Аноним 10/01/26 Суб 09:49:00 1484876 20
>>1484842

Локальная сд3 устраивала бодихорор при любом намеке, даже позой, не говоря уж о голом сосочке. Явно не просто нехватка картинок в сете.
Аноним 10/01/26 Суб 09:50:46 1484878 21
>>1484866

в комфи в темплейте зет по умолчанию стоит лора на уменьшение шагов
Аноним 10/01/26 Суб 09:53:21 1484880 22
>>1484866
Вместо тысячи слов: DPPM_2M_SDE_GPU
Аноним 10/01/26 Суб 10:30:21 1484895 23
>>1484876
это именно нехватка картинок, там все что давало "любой намек" было выброшено за борт, поэтому так и получилось. еще один уровень цензуры они сделали в виде сейфети чекера, который идет отдельной специализированной моделью, чтобы чекать онлайн генерации постфактум, к локали отношения естественно не имеет.
Аноним 10/01/26 Суб 10:58:10 1484908 24
>>1484878
>в комфи в темплейте зет по умолчанию стоит лора на уменьшение шагов
Обведи ее на скриншоте, я не могу ее найти
Аноним 10/01/26 Суб 12:00:20 1484933 25
>>1484908
Тебе ответил ллм-бот. Это даун галлюцинирует на ходу.
Аноним 10/01/26 Суб 13:55:26 1485000 26
image 3998Кб, 1440x1920
1440x1920
image 4000Кб, 1440x1920
1440x1920
image 3892Кб, 1440x1920
1440x1920
image 3825Кб, 1440x1920
1440x1920
>>1484866
> Xingu
Это же индейцы, почему у тебя китаянки какие-то? Что-то с клипом намутил? Пикрил как зетка генерит их.
Аноним 10/01/26 Суб 14:04:11 1485005 27
>>1484880
>DPPM_2M_SDE_GPU
Сколько шагов и какой scheduler?
Аноним 10/01/26 Суб 14:09:00 1485010 28
>>1485000
>Пикрил как зетка генерит их.
Ага, спасибо что показал. А то пока моделька Зетки у тебя никак не посмотреть как она там генерит. Потом не забудь передать ее дальше, всем же хочется погенерировать в ней, не затягивай с этим.
Аноним 10/01/26 Суб 14:17:18 1485015 29
>>1485010
> никак не посмотреть как она там генерит
Судя по тому что постишь пикчи не от того промпта - не можешь посмотреть.
Аноним 10/01/26 Суб 14:33:25 1485031 30
Какой семплер более удачный для qwen edit? Все хорошо, но немного замылено. Хочется больше деталей на коже и других поверхностях. Я знаю, что это особенность квена, но может есть более удачные семплеры? Просто методом тыка подобрать не смог. Сейчас использую: er_sde и beta.
Аноним 10/01/26 Суб 14:42:29 1485036 31
>>1485031
Конечно есть. Но пусть это останется в тайне. Если выложить пример семплера/шедулера/шаги/етк, то местный скользкий налим обсмеет и потребует пруфов.
Аноним 10/01/26 Суб 14:48:00 1485043 32
>>1485036
Я генерирую на 8 шагах. 1к. Заметил, что если повышать разрешение, то качество растет, но и красок становится больше, на 2к совсем неестественные цвета.
Аноним 10/01/26 Суб 14:52:46 1485046 33
image.png 65Кб, 3007x290
3007x290
А где controlnet взять для V-pred моделей?
Аноним 10/01/26 Суб 14:59:32 1485051 34
>>1485031
Субъективный опыт:
На Qwen-Edit-2509 (именно на edit) defaultные euler/simple работают (речь про 2509/2511, где изображение менять не надо, а надо только что-нибудь заменить/подрисовать; для полного изменения стиля лучше обычный Qwen-Image-Edit из семейства Qwen). 2511 поломанная и мутная сама по себе, попробуй сравнить с предыдущей 2509; хотя в ней pixel shift, который исправили в 2511 сломав всё остальное. А несуществующие детали можно дорисовывать через SeedVR2 или tile upscale какой-нибудь старой sdxl модели.
На Qwen-Image (не 2512), когда я с ним возился пару месяцев назад, для хоть какого-то подобия реализма я использовал res_2s/bong_tangent (RES4LYF) и samsung LoRA.
Аноним 10/01/26 Суб 15:11:59 1485057 35
>>1485051
Спасибо за развернутый ответ.

Я использую Qwen-Edit-2511 для смены ракурса камеры, позы и прочего.

Жаль нет ультимативного решения. Все онлайн решения зацензурированы до мозга-костей. Не дают даже безобидные позы делать порой.

Жду z-image edit. Надеюсь на чудо.
Аноним 10/01/26 Суб 15:53:02 1485114 36
>>1484802
Спасибо, принцип я понял.

>>1484817
>я не считаю продуктивным
>Не отвечай этому мудаку
🤡🤹🎪
Аноним 10/01/26 Суб 16:29:39 1485181 37
>>1484817
Ответы сильно переоценены. Общаться в треде следует междометиями, так продуктивнее вести разговор, по крайней мере если находишься в собственном персональном аду, где роль чертей исполняют мудаки, ебланы и шизики.
Аноним 10/01/26 Суб 16:38:19 1485198 38
изображение.png 2173Кб, 1768x1176
1768x1176
>>1484698
Тебе пять рас сказали, пиши промпты на естественном языке
Аноним 10/01/26 Суб 17:30:21 1485258 39
На амд видеокартах будет работать так же как на нвидии?
Аноним 10/01/26 Суб 17:35:58 1485265 40
Лоры от Qwen-Image что, не работают на Qwen-Edit и наоборот?

>>1485258
Если заведёшь - работать будет. Завести сложнее, работать будет медленнее и печачальнее.
Аноним 10/01/26 Суб 17:54:45 1485290 41
>>1485265
А есть вариант б/у видеокарт с большим количеством памяти, серверных каких-нибудь? Они так же как нвидиа подойдут будут работать из коробки, без настраивания?
Аноним 10/01/26 Суб 18:04:13 1485300 42
image 334Кб, 1920x1080
1920x1080
image 325Кб, 1920x1080
1920x1080
Какие модели (желательно без лор, но можно и с ними) подойдут для консистентного и массового I2I с 3D-шного стиля на более "плоско-анимешный" ?
Аноним 10/01/26 Суб 18:19:31 1485317 43
>>1485300
Любые анимешные, на базе нуба и люстры. Просто промпт пиши правильный.
Аноним 10/01/26 Суб 18:44:20 1485363 44
>>1485317
SDXL-основанные вывезут 2-мегапиксельные картинки? Вроде у него 1, макс 1.5 консистентно, а дальше сыпется.
Аноним 10/01/26 Суб 19:45:12 1485470 45
00048.png 2850Кб, 1920x1080
1920x1080
00059.png 2094Кб, 1920x1080
1920x1080
>>1485363
Контролнет.
Вообще, 1600х1200 вывозит и без контролнета, а это как раз 2 мегапикселя.
Если когерентность теряется на обработке большой картинки (1920х1080), можно слегка занизить разрешение с последующим апскейлом вторым шагом, с низким денойзом.
Ну или ебашить прямо так, как есть, в зависимости от модели контронета может и сразу прокатить. Даже эти скверно состыкованные руки сохранить пыталось, кек.
Аноним 10/01/26 Суб 20:35:15 1485526 46
image 160Кб, 1360x768
1360x768
>>1485300
Qwen Edit v1
Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.
Аноним 10/01/26 Суб 20:36:01 1485528 47
Аноним 10/01/26 Суб 20:38:09 1485529 48
>>1485526
>Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.

Квен у меня лезет только в 4 кванте или SVD кванте от нунчаков, и как-то не очень было, но попробую ещё раз с таким промтом, спасибо.
Аноним 10/01/26 Суб 20:38:59 1485531 49
>>1485528
Из энитеста я использую CN-anytest_v4-marged_pn_dim256 [2fe07d89]
Хз, в чем там разница между ними, не пробовал все версии.

Есть еще diffusion_pytorch_model_promax [9460e4db] - этот универсальный, поддерживает как пустой инпут (т.е. саму картинку), так и вывод из препроцессоров по типу канни-скриббла-лайнарта. Картинки выше как раз на нем сделаны, с пустым инпутом.
Аноним 10/01/26 Суб 20:58:18 1485568 50
>>1485290
>А есть вариант б/у видеокарт с большим количеством памяти
В смысле дешевых? Ну базовый тир это 3060 12 гб, 4060ти 16 гб, топ тир 3090 24 гига, ну и для шизов не рукожопов Tesla V100 16 гб
Аноним 10/01/26 Суб 23:47:46 1485733 51
По какой причине лора может влиять на всего персонажа если в датасете только pussy ?
Аноним 10/01/26 Суб 23:55:15 1485736 52
ComfyUI-Preview[...].png 1707Кб, 2969x1809
2969x1809
ComfyUI00012.png 2452Кб, 1328x1328
1328x1328
>>1485265
>Лоры от Qwen-Image что, не работают на Qwen-Edit и наоборот?

Работают (в каком-то виде). Честнее сказать, запускаются.
Хотя разработчики заявляют совместимость с LoRAs (сделанных для Qwen) по всей линейке Qwen-Image(-2512)(-Edit-2509/2511), в моём случае мне приходилось изменять strength разных LoRAs от модели к модели (а некоторые и вовсе отключать). При этом некоторые LoRAs портили генерацию и добавляли артефактов (видно на пикриле для Qwen-Image-Edit-2511).
Аноним 11/01/26 Вск 00:37:36 1485762 53
>>1485733
>По какой причине лора может влиять на всего персонажа если в датасете только pussy ?
Кривой датасет, кривой режим обучения, оверфит. Дохрена причин, в общем то. Да и "влияет" - понятие растяжимое.
Аноним # OP 11/01/26 Вск 00:46:32 1485772 54
x-do.mp4 3893Кб, 2846x1822, 00:00:21
2846x1822
>>1484683
>на редите кидали более красивую комфи ноду для задания угла и высоты.
эту?
Аноним 11/01/26 Вск 00:52:41 1485778 55
>TypeError: pick_operations() got an unexpected keyword argument 'scaled_fp8'
BrushNET выдает такое, есть мысли как зафиксить и почему возникло? В issues нет упоминаний, раньше работало.
Аноним 11/01/26 Вск 07:39:17 1485925 56
Как же хочеца базовую зетку....
Аноним 11/01/26 Вск 10:27:56 1486008 57
image 201Кб, 1152x896
1152x896
Свидетели отсутствия цензуры в Зетке, а так же профессора мастер промптинга, как заставить гёрл просто тронуть свои промежности? Она куда попало тыкает пальцем. Иногда в глаз (жаль, что в обычный), но не куда заказал.
A young black woman touches her crotch while sitting naked on a dark road at night.
Аноним 11/01/26 Вск 11:06:38 1486033 58
ComfyUItempqobt[...].png 3126Кб, 410x4794
410x4794
>>1485762
>понятие растяжимое.
В тесте видно ка лицо и кожа меняется с каждым значением лоры.
>оверфит
Это я так понимаю переобучение? Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен.
>кривой режим обучения
Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете, результатом в целом удовлетворительный, лица не меняет.
Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise, но это про мелкие детали, почему меняется анатомия лица все равно не понятно.
Аноним 11/01/26 Вск 12:04:36 1486073 59
image.png 315Кб, 1080x512
1080x512
>>1485772
Пиздец навайбкодили хуйни. Самое смешное, что у каждого вайбкод проекта дизайн иНтЕрЕснЕй типичных старых решений. Причем тот пост был тоже с этой или похожей блонд аниме, не могу найти.
А интерфейс был этот https://github.com/AHEKOT/ComfyUI_VNCCS_Utils
Аноним 11/01/26 Вск 12:04:54 1486074 60
>>1486033
Модель какая? ZIT? Чтобы уверенным быть. А то я сейчас насоветую для нее, а для других моделей все не так.

Картинку ты молодец зацензурил - самого важного нету, чтобы понять что происходит. Как бы пошло это не звучало, но для оценки нужен объект на который ты лору тренишь. Overfit для ZIT очень специфичен. Картинка почти не артифачит и не рассыпается даже при ОЧЕНЬ жестком overfit, лора просто теряет гибкость и начинают протекать лишние детали, которые, по идее, в концепт не входят. Возможно, как раз твой случай. В серьезных случаях, лора начинает даже на общий стиль картинки влиять, не только на левые детали.

>Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен.
Это может быть ОЧЕНЬ глубокий overfit. На моих настройках, первое влияние у меня лора получает уже после одиного прохода по датасету, и к 200-400 шагов начинается набор мелких деталей. Готовая лора на концепт при датасете из ~50 картинок - уже от 800 шагов (хотя и больше может быть, но до 2000 - никогда не доходило без overfit). Проверять для ZIT надо часто. И я делаю шаг проверок по количеству картинок в датасете, х2 или х3 - чтобы проверочные генерировались всегда после полного цикла обучения (уменьшает случайный разброс результата).

>Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете,
Сколько было картинок, и сколько шагов и batch size? Какой Learning Rate?
Для концепта с деталью тела (т.е. не одна конкретная pussy, а "в общем" как они выглядят) - нужно картинок 30-40 разных. Иначе будет захват конкретной детали, и аналог лоры на лицо/перса. Ну и сами картинки. Желаемый объект должен занимать ~60-70% изображения. По возможности без повторяющихся левых деталей. Т.е. если у тебя там где-то лица на заднем плане мелькали из-за разных поз - лора ухватила некоторую их (слабую) связку с понятием pussy, и теперь несколько влияет и на лица тоже.

>Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise
На ZIT хреновато с High Noise получается. Лора скорее всего уйдет в оверфит еще до того, как схватит концепт с приемлемой точностью.

Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей. Работая, лора изменяет состояние шума на основе которого делаются следующие шаги при генерации.
Аноним 11/01/26 Вск 12:34:15 1486093 61
zimage00091.webp 90Кб, 1600x1200
1600x1200
zimage00092.webp 87Кб, 1600x1200
1600x1200
>>1486008
>young black woman
предпочитаю Caucasian

Пробуй, промт и все остальное в вебп
Аноним 11/01/26 Вск 13:25:30 1486135 62
изображение.png 2283Кб, 1496x1120
1496x1120
>>1486008
photo of a young Black woman named Lilith seated naked on a dark asphalt road at night, legs spread apart, hand resting on lower abdomen
Аноним 11/01/26 Вск 13:28:38 1486138 63
Аноним 11/01/26 Вск 13:34:14 1486142 64
Screen-355.jpg 205Кб, 2560x1239
2560x1239
Screen-354.jpg 268Кб, 2560x1239
2560x1239
>>1486074
>ZIT?
Да
> самого важного нету
Не оч результат порадовал, там собственно все плохо.
>200-400 шагов начинается набор мелких деталей
Странно, я когда тренил датасет 35 картинок, что то вменяемое начало появляться после 2500, скорее всего что-то с настройками или с промтом семплов.
>Желаемый объект должен занимать ~60-70% изображения.
Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать?
>Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей.
Спасибо, анон, буду иметь ввиду. Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде, единственное оставил AdamW8bit по умолчанию и в этот раз из-за нехватки времени решил обойтись без семплирования.
Аноним 11/01/26 Вск 14:16:59 1486162 65
image 19Кб, 610x146
610x146
>>1486093
>в вебп
Обсрся. Прикол.
Аноним 11/01/26 Вск 14:20:03 1486164 66
lossgraph3.jpg 122Кб, 1641x757
1641x757
>>1486142
В Advanced, Do Differential Guidance - вырубить. Оно не для ZIT. Сверхагрессивно и слишком грубо получается, процесс шатает, лора не устаканивается.

В Sample - Walk Seed - вырубить. Не даст нормально отслеживать изменения. Но вообще то вкладка Sample на процесс тренировки вообще никак не влияет - чисто контроль.

Вторая картинка, самое важное:
Learning Rate - 0.00003 (можно 0.00002 но кроме лишнего времени разницы не замечал, ZIT хорошо воспринимает более агрессивный LR, а вот 0.00001 - мало. Лора вообще не выходит на что-то внятное.)
Batch Size - 4. На 1 - будет плохо. Если вылеташеь в OOM - ставь transformer оффлоад 100%, на скорость это не так сильно влияет, а в качестве из-за batch size колоссальная разница. Лучше датасет переключить в размер 256, чем BS=1 оставлять.
Steps - 2000, это с запасом, из расчета посмотреть промежуточные и остановить там, где стало хорошо. 3000 ставить смысла нет. Или overfit, или лора уже не сойдется.
Timestep Type - Shift. Тут обоснуй не скажу, но просто результаты на практике у меня лучше всего с ним. Или Weighted можно использовать, тоже неплохо.
Timestep Bias - Low Noise, или Balanсed. Лучше пробовать с Low Noise, т.к. при Balanced лора сходится еще быстрее, и есть риск что начнется overfit раньше, чем проявятся все детали. Не только самые мелкие.
Loss Type - MSE, как у тебя. Или Wavelet - тоже неплохо, но с MSE вроде бы лучше и стабильнее.

Датасет на концепт - 40 картинок это минимум. Но ZIT переварит для концепта до ~170, и это может дать улучшение результата. Еще выше - обобщение будет не на концепт а уже на стиль, такое тебе не нужно.

Основной прикол тренировки ZIT - если выставить слишком слабый LR - лора вообще никогда не "сойдется". А если слишком большой - overfit начнется раньше чем будут выбраны детали. Но ты этого рискуешь не увидеть, т.к. ранний оверфит в ZIT плохо заметен на глаз (нет типичных мелких артефактов), пока случайно вдруг не вылезет Гигер в анатомии, или не начнет протекать цвет деталей/фона из датасета куда не надо. Но тренировка идет волнами - первое удачное место, потом ухудшение и опять хорошее место, и так может быть несколько раз.

В последних версиях Ostris добавили график Loss Rate. Для ZIT он показывает совсем не то, что для сдохли. Чтобы увидеть закономерности ползунок smoothing надо двигать на 100%, иначе "забор" видишь. В картинке ХОРОШИЙ график с одной из моих удачных тренировок. Там был большой датасет на концепт, на 133 картинки, на графике два места где было совсем хорошо, и я брал эти чекпоинты за финальные. Первое - шаг 931, и второе - 1596. Далее пошел однозначный оверфит (даже в конце графика, где опять спад около 2000 - это уже не спасает, лора испорчена), а просто в промежутке было фиговато, но все же без оверфита. При этом loss даже в удачных местах > 0.4, что очень много если по классике. Но ниже - не падает на таких настройках.

>Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать?
Если ты следуешь правилу - то при 60-70% вокруг нее будет достаточно, чтобы модель вкурила куда ее лепить. :) Но несколько картинок с меньшим маштабом (не более чем 15-20 от общего числа) не помешают. Главное - чтоб там не было сильно характерных повторяющихся деталей, которые в концепте не нужны. Голова - крайне не нужна, т.к. модель лицам уделяет огромное внимание сама по себе - ее на них надрачивали особенно.

>Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде
Там был не я. :)
Аноним 11/01/26 Вск 14:23:56 1486166 67
Screen-356.jpg 43Кб, 1430x377
1430x377
Аноним 11/01/26 Вск 14:25:23 1486167 68
>>1486074
>>1486142
>>1486164
Упс. Еще пропустил - у тебя Linear Rank 32. Этого может быть мало для концепта. Я обычно 64 ставлю, чтобы не рисковать что не хватит на мелкие детали. Если лора дает слишком грубые результаты, без тонкостей и мелких деталей - это может быть оно.
Аноним 11/01/26 Вск 15:06:54 1486190 69
>>1486142
>>1486164
>>1486167
Еще один УПС.
Я тебе для Learning Rate лишний 0 приписал везде.
Читать - не 0.00003 а 0.0003. :)
Аноним 11/01/26 Вск 16:35:43 1486253 70
>>1486190
Ок, понял. А квантование сильно влияет?
Аноним 11/01/26 Вск 16:41:03 1486255 71
>>1484570
>>1486073
Самое забавное, что за нодой стоит просто генератор текста, что склеивает 3 состояния в один позитивный промпт
Аноним 11/01/26 Вск 16:47:20 1486263 72
>>1486253
Честно говоря - не могу ответить. Здесь есть чел, который советует 4/2 бита на transformer/text encoder. И даже звучит логично, особенно для text encoder.
Но заставить себя потратить время и провести полноценные сравнительные тесты я так и не смог. Потому, что 4/2 на моем конфиге (3060 12GB) не дает заметного преимущества по скорости тренировки.
Даже в таком виде без частичного offload для transformer у меня OOM, а с ним - разницы практически нету. Так что у меня стоит дефолт - 8/8 и мне норм.
Для датасета с размером 256 и BS=4 у меня 4.5 сек на шаг получается. Для размера 512 - ~9-12 сек. Мне хватает.
Аноним 11/01/26 Вск 17:52:33 1486310 73
image 299Кб, 1152x896
1152x896
Аноним 11/01/26 Вск 18:02:41 1486318 74
>>1486263
Чет на новых настройках нереально медленная скорость, за час 5 шагов прошло. С отключенным семплингом. Или это долгий старт? У меня 12 врам и 32 оперативки.
Аноним 11/01/26 Вск 18:06:30 1486319 75
image 256Кб, 1152x896
1152x896
SNES era pixel art, pure 1993-1995 Japanese import game aesthetic fused with early 2000s Russian imageboard vibe, 16-bit flat sprite style, extremely limited color palette 24-32 colors including toxic green text on black, heavy nostalgic dithering, 1-pixel razor-sharp thin outlines, no gradients, zero depth, young short-haired vivid blue anime girl with melancholic eyes, cigarette in lips trailing simple pixel smoke, in cramped retro spaceship cockpit, thick vertical rain streaks on square window like CRT scanlines, faded neon pink kanji "暮人福味" glowing on wet glass, foggy night cyber-city with tiny blocky magenta/cyan signs, two bulky CRT monitors displaying bright toxic-green 2ch.su/ai forum threads: ">Anime Diffusion #236", ">>1480285 → Stable Diffusion тред X+179", "AI Chatbot General №789", ">>1473456 (OP) Генерируем тяночек! looking at viewer", ">>1482405 → ComfyUI Flux LoRA", "Пропущено 1494 постов, 276 с картинками", small thumbnails of pixelated anime girls, post numbers [>>num], sage, bump, russian text in green monospace font, teal-purple nostalgic palette with faint sepia glow, clunky keyboard, orange shoulder patch, black pilot harness, tiny headset antenna, raindrops as 2x2 white pixels, faint scanline and phosphor bleed, mood of late-night 90s-2000s rainy Moscow/Tokyo anonymous browsing, raw nostalgic pixel soul, 256x224 resolution feel, masterpiece flat retro pixel art
Аноним 11/01/26 Вск 18:11:24 1486324 76
image 160Кб, 811x845
811x845
>>1486319
Эээ, лол, ссылки это случайность промпта от грока. Генка в Зетке.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов