/ai/ - Stable Diffusion тред X+189

Stable Diffusion тред X+189 /sd/ Аноним 01/05/26 Птн 10:31:52 № 1602441 1

Тред локальной генерации

ЧТО НОВОГО АКТУАЛЬНОГО

• Z-Image-Base
• FLUX.2 klein (4b и 9b)
• Z-Image-Turbo
• Flux 2
• Qwen Image / Qwen Image Edit
• Wan 2.2 (подходит для генерации картинок).
• NAG (негативный промпт на моделях с 1 CFG)
• Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.

База:
→ Приложение ComfyUI https://www.comfy.org/download
→ Примеры https://comfyanonymous.github.io/ComfyUI_examples/
https://comfyui-wiki.com/ (откуда, куда, как)
→ Менеджер расширений https://github.com/Comfy-Org/ComfyUI-Manager (автоустановка, реестр расширений)
→ Модели https://civitai.com/

► Предыдущий тред >>1596721 (OP) ► https://arhivach.hk/?tags=13840
Дополнительно: https://telegra.ph/Stable-Diffusion-tred-X-01-03

Аноним 01/05/26 Птн 10:36:52 № 1602443 2

Как подключить beta57 scheduler отдельной нодой без KSampler?
Это нужно добавить beta scheduder и выставить a=0.5 b=0.7 и это будет равноценно пикрилу или есть нюансы?
Спасибо

Аноним 01/05/26 Птн 10:41:47 № 1602445 3

>>1602443
Нода шедулер симпл, в ней выбери из списка.

Аноним 01/05/26 Птн 10:43:03 № 1602446 4

>>1602430 →
Про деформацию хорошее замечание. Реально такое есть - начинаешь разбираться и тянуть определенное качество сам и сразу начинает плыть собственное чувство эстетики, вплоть до полной потери эмоций и отклика от эстетики.

Но в этом плане плюс генераций в том, что ты конвертируешь текст в изображение, и эта дистанция принципиально избавляет от непосредственности в процессе создания. Ты не художник, ты манипулируешь художником. Если бы результат на выходе был удовлетворительным - можно было бы не поплыть и кайфовать с этого. Не ты рисовал, ты просто технически пришел к такому результату, где ии рисует тебе то, что радует.
Проблема в том, что этого достичь пока непонятно как

Аноним 01/05/26 Птн 10:49:57 № 1602453 5

>>1602445
> Нода шедулер симпл
Нет такой. Есть только такие

Аноним 01/05/26 Птн 10:51:01 № 1602455 6

>>1602225 →
Какая анима лучше сейчас, preview2 или preview3?

Аноним 01/05/26 Птн 10:53:26 № 1602458 7

>>1602446
Ценность того что дается легко, во множестве и случайно стремится к нулю чел.

Попробуй в голове составить виденье того чего ты хочешь хотя бы примерно, определиться со стилем, композицией набрать референсов, потом прогнав генерацию и отобрав нужное инпейтом фиксить до идеала - тогда у тебя получится арт ничуть не хуже чем те что получаются от рисобак, без ощущения нейрослопа.

Аноним 01/05/26 Птн 10:53:41 № 1602459 8

>>1602455
Да. А сам-то как думаешь, если есть 1, 2 и последняя 3?

Аноним 01/05/26 Птн 11:14:03 № 1602471 9

>>1602443
> выставить a=0.5 b=0.7
Да.
> или есть нюансы
Нет.

Аноним 01/05/26 Птн 11:18:23 № 1602472 10

image.png 10Кб, 625x82

image.png 31Кб, 663x243

>>1602459
> думаешь
В этом и была проблема
In progress
У модели приписка base, а про base пишут - модель для обучения или специального применения, не для базовой генерации

Аноним 01/05/26 Птн 12:06:25 № 1602501 11

>>1602155 →
> всё остальное уже есть

Аноним 01/05/26 Птн 13:47:21 № 1602556 12

Есть только одно: маркетинг и продвижение + коллабы.
Песня может быть хуже 10 других похожих, но она сыграет в новом блокбастере и все будут ее любить, потому что ее услышал миллиард человек, а остальные 9 - услышало пара соток анонов.
И так во всем. Картинка из треда и та же самая картинка в каком-то популярном канале на лям подписоты - это разное. А если она распечатана и вставлена в рамку на модной выставке - это еще одна реальность.

На самом деле, положа руку на сердце, чисто картинки/фотки, музон, да и видеоряд месами - все это вне контекста очень сложно оценивается.
Именно поэтому какие-то художники были успешными при жизани, а например Ван Гог нахуй никому не был нужен.
Но как только за картинки начинают платить лямы ништяков - человеки вынуждены оценивать ее уже по-другому.
Один и тот же кадр на странице просто какого-то чела в телеге, и тот же самый кадр но подписанный модным челом и опубликованный в популярном канале - это разные кадры, хотя и одинаковые.

Аноним 01/05/26 Птн 13:56:31 № 1602561 13

16gb vram slop и однобокость не позволяет креативить
Даже банальные тестовые идеи показывают, насколько хуевый контроль и сама модель не знает эстетики. Просто лепит соответствие, максимально не эстетичное
Отдельная беда - это генерация оригинального заднего плана. Она не может просто взять и по промту нарисовать гигантичное футуристичное красивое здание на 2/3 ширины кадра уходящее за пределы экрана. Она будет рисовать офисники и всё в таком духе.
Она будет рисовать картуниш механизм руки

Аноним 01/05/26 Птн 14:27:33 № 1602578 14

Идея с промт оркестрацией под мультипроход t2i > iti > ... > image
Суть в том, что промт энхансер (пусть даже корп llm) генерит не 1 промт, в расчет на t2i, а разбивает промты в расчет на мультипроход, рассчитывая, что одна идея будет собираться в несколько этапов соблюдая соответствующие правила для каждого прохода. Особенно если t2i и iti модели отличаются.
Здесь простор для экспериментов возникает в:
- выборе подходящих моделей под каждый шаг
- еще более важно: поиск наиболее эффективной и стабильной разбивки (генерить ли фон / главные объекты раздельно, или сразу генерить второе в iti, и тогда что генерить первым)

А вообще, если бы была дообученная под специфичную диффузию модель, которая шарит в композиции и эстетике и знает как это описывать удачными промт-паттернами, это в один проход могло бы улучшить качество. Вот только где это высрать, сами авторы моделеке кроме общих правил промта не делают никаких реально существенных примочек.
Промтить через общие ллм, которые мало что знают про конкретные модели или тем более писать промт самому, не зная ничего о том, что внутри модели это какой то бред ебланский. Неужели нельзя на основе данных об обучении модели, сразу создавать еще лоры или файнтюны для локальных ллм - промт энхансеры, адаптированные под модель. Ведь корпоративные рисовалки наверняка применяют подобные подходы, и оркестрацию многопроходки, и обученный промт энхансер

Где вместо просто Standing, в диффузию уходит подобранное сюжет и конкретную модель нечто вроде "Standing in a relaxed, natural contrapposto stance" или "Standing with a slight lean toward the object".

Вы спросите что мешает это же делать через гпт? То что они с трудом даже справляются с форматом промта специфичной модели. То что они хуево всему этому обучены, "видению" того как лучше и красивее и точному описанию этого на языке диффузии (который они не знают).

Интуитивный промтинг, перебирание слов и формулировок вручную почти не работает, уходят часы на гринд сидов. Это говно из жопы, копинг.

Аноним 01/05/26 Птн 14:32:05 № 1602587 15

>>1602561
>Отдельная беда - это генерация оригинального заднего плана.
А меня больше прохожие умиляют.
Но надо заметить, что "гигантичное футуристичное красивое здание" это не то описание, по которому нейронка сгенерит то, что ты под этим имел в виду.

Аноним 01/05/26 Птн 14:36:35 № 1602594 16

>>1602587
> "гигантичное футуристичное красивое здание
Я попробовал около 5 разных подходов. Включая Bladerunner стайл.
Там были гигантские здания во весь экран.

Это второй раз, когда я наталкиваюсь на такую хуйню. Он точно так же не может нарисовать нормальные эффектные массивные руины большого города в заднике.
Есть вероятность, что я просто не зацепил нужную ассоциацию. Пока не знаю, надо отдельно сидеть и экспериментировать, с целью выяснить, могу ли я в принципе получить примерно то, что хотел. Если да, то в такой модели значит надо гриндить шаблоны промтов.

Аноним 01/05/26 Птн 15:00:55 № 1602615 17

ComfyUItempgbuu[...].png 1451Кб, 1024x1024

>>1602561
Я тебе больше скажу, даже сумарно 40gb vram и 64 ram не дают креативить... потому что нет нормальных локальных моделей которые работали бы с нормальной скоростью и с нормальным датасетом.

Аноним 01/05/26 Птн 15:31:16 № 1602632 18

>>1602561
>креативить на локалке
Ты ещё через ллм в svg попытайся креативить. Локал только для голых срак создан, всё остальное в банане про, графическое в гпт 2.

Аноним 01/05/26 Птн 16:17:34 № 1602671 19

>>1602430 →
То, что ты описал, это не деформация, а уровень профессионализма, когда знаешь как должно быть и все косяки автоматом бросаются в глаза. Несколько лет отработал в печатном издании на верстке текста, даже не вчитываясь в текст уже вижу как сверстано, висячие строки, двойные пробелы и тд. А вот проф.деформация начинается тогда когда начинаешь выдрачить там где это не нужно. 3 зеленых пикселя на 2к картинке, сделать идеальную генерацию через 100500 нод без плесени, пережара с первой попытки и тд

Аноним 01/05/26 Птн 18:49:29 № 1602768 20

>>1602671
Это главный бич всех хобби. Сначала ты без задней мысли кайфуешь для души, а потом превращаешься в желчное чудовище, ищущее зеленые пиксели.

Аноним 01/05/26 Птн 18:54:04 № 1602773 21

>>1602561
как фиксить этот цифровой шум?
убирать лоры только?
это simple + euler

Аноним 01/05/26 Птн 19:05:58 № 1602780 22

>>1602773
>>1602768
Идеально совпало. Вся суть™

Аноним 01/05/26 Птн 19:12:08 № 1602784 23

>>1602780
Не совпало, вспомнил когда читал про зеленые пиксели.
Было бы неплохо знать что на это влияет. Но жертвовать чем то существенным ради этого я бы не стал, и так на лимитах через жопу всё.

Аноним 01/05/26 Птн 19:40:13 № 1602803 24

>>1602225 →
Есть какие то годные лоры или файнтюны не тематические аниме?
Кроме вот этих что нашлись:
https://civitai.com/models/2414435?modelVersionId=2746109
https://civitai.com/models/2545707/anima-aesthetic-improvement
https://civitai.com/models/2583128/anima-rl
https://civitai.com/models/2505242/scenery-anima

Аноним 01/05/26 Птн 19:48:50 № 1602810 25

>>1602784
>Было бы неплохо знать что на это влияет.
Кривой VAE FLUX.2, которому не помог выпуск обновления. Загаживает изображение цветным мусором как вотермаркой. Какие-то пиксели более заметны, какие-то менее, но изображение загажено всё.
Не лечится.

Костыли:
1) upsample изображения в более высокое разрешение и его последующее скукоживание, чтобы разноцветный мусор съело в процессе (не поможет если пиксельный мусор слипся и стал более одного пикселя в размере);
2) Удаление пиксельного мусора ценой некоторой потери «цветового разрешения». После VAE Decode изображение разбивается на YCbCr и к каналам CbCr аккуратно применяется bilateral фильтр, а затем каналы снова собираются в выходное изображение.

мимо

Аноним 01/05/26 Птн 20:11:09 № 1602831 26

Анима > Гред рудковский лора > Klein edit
Минусы?
Главный минус, что нет пизды

Аноним 01/05/26 Птн 22:30:18 № 1602959 27

Так что теперь получается нунчака и не нужна вовсе? Она имела смысл на контексте (ебать, помните, была такая модель?) и вроде всё, а теперь те модели заменены лучшими. Ещё вроде на Qwen Image делал, но то ли не сделал поддержку лор, то ли получалась говнина вместо качества, что сейчас проще на клеин с лорами данриси гонять и делать в разы лучше.

>>1602831
На клейн есть пизда. Скачай.