Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1484588 Существует, но не особо нужен сам по себе. Т.к. NSFW в его смысле - это больше "острые сцены" а не сиськи-письки. Последние, кстати, лечатся не экодером, а через lora или вообще файнтюнами с цветка - уже пошли NSFW в том числе.
>По поводу сэмплеров: на одних и тех же настройках, промте и сиде, разные сэмплеры выдают абсолютно разный результат. Это вот так нужно постоянно перебирать методом тыка либо есть однозначно годные семплеры?
Если вкратце, то только прогон твоих собственных тестовых promptов и доверие своим глазам при оценке результата. Причём, под конкретную модель и сочетание используемых параметров. Связка scheduler/sampler, работающая на одной модели может совершенно не работать на другой.
Про scheduler пока не говорим, начнём с sampler. Условно их можно разделить на две категории: «детерминированные» и «стохастические». «Стохастические» на каждом шаге дополнительно подмешивают порцию шума (второй пик) и поэтому у них нет сходимости (does not converge). На практике, «стохастические» samplers будут каждый раз давать несколько отличающийся результат, в отличие от «детерминированных» samplers при каждом их использовании (что условно происходит в процессе генерации смотри на гифке «does not converge»). Другими словами, не будет «повторяемости» результата. К «стохастическим» относятся samplers группы ancestral (с литерой «a»), а также некоторые другие без литеры «a» (и об этом не узнать, пока не прочитать описание о том, как тот или иной sampler работает). Лично я из-за невозможности реализации «повторяемости» не использую «стохастические» samplers, вне зависимости от результатов, которые они выдают. А некоторые их на полном серьёзе могут советовать, потому что им понравилась пара черрипикнутых картинок, которые они сгенерировали с их помощью, совершенно не учитывая другие сценарии использования и вариации prompt.
На «детерминированных» samplers при фиксированных seed, prompt и прочих параметрах можно получать повторяемые результаты. Это становится отправной точкой для тестирования разных комбинаций. Как уже писал выше, для этих целей лучше иметь несколько заранее заготовленных для конкретной модели тестовых promptов с отличающимися изображениями, чтобы оценивать насколько тебя устраивает результат, который выдаёт конкретная связка sampler/scheduler для разных prompt (общий план, портрет, мелкие детали зелени, предметка и так далее).
Таким образом, можешь подобрать подходящие sampler/scheduler сам, визуально оценивая результаты генерации. Да, тут сильно влияет субъективный фактор.
Или слепо ориентироваться на «тесты» или «советы бывалых» (устаревшие, от других моделей, с другой комбинацией параметров и прочее), а потом с красными глазами и пеной у рта доказывать всем, что конкретный sampler-нейм из да бест, имба, геймченджер!
>По поводу фейссвапа. Почитал, разрабы старую приблуду убили, а новая зацензурена вообще на голое тело. А как чисто технически этот процесс называется? И2И? Может как-то ручками и напильником будет работать? Интересует не только фейс, но и одежда, предметы и тд.
У Qwen-Image-Edit-2509 (2511 говно очень противоречивая, не могу рекомендовать), FLUX.2 dev при всей их неоднозначности сама по себе такая задача решается с помощью edit-функционала буквально одной строкой prompt: A character from image 1 with the face from image 2, wearing clothes from image 3.
>>1484654 >Далее мой субъективный взгляд: бля, вы как только-только вылупились, до вас типа никто не пробовал. хуйня твой эйлер, ни-то ни-сё. у меня охуенно получается с: DPPM_2M_SDE_GPU с ним начисто отсутствует ваша любимая плесень, которую вы так боготворите и жить без неё не можете.
>>1484570 Это просто абсурд, что под такое нужна лора для эдит модели. Чему тогда нахуй эта обоссанная эдит модель вообще обучалась тогда, если она такую базу не может делать? Не перестаю поражаться как банана про ебет весь этот кал. Алсо, на редите кидали более красивую комфи ноду для задания угла и высоты.
>Qwen-Image-2512 Опа, а релиз этого пропустил. Старые лора людей сохраняют лица или без переобучения уже не похоже?
Первоначальный кадр выглядит вот так (см. рис 1), и такой накал животных страстей меня вполне-бы устраивал, но потом всё традиционно скатывается в привычное говно, а я хочу что-бы они сосались блядь как дикие звери, неужели я много прошу? С языками хоть что-то получается, но сам плотский поцелуй похоже заблокирован. Соевые пидарасы и здесь успели поднасрать! Сука, у меня слов нет, просто лапки опускаются с этой цензурой ебаной.
То, что панацеи не существует, я утверждать не могу, обижу религиозные чувства культа отдельных sampler/scheduler типа >>1484679 (который, к слову пост прочесть не осилил, иначе бы понял, что Euler и Euler A были только в качестве примеров работы «детерминированных» и «стохастических» samplers).
Скажу только, что лично мне пока ещё не встречалась комбинация sampler/scheduler, которая одновременно идеально бы работала и в Qwen-Image(-Edit-2509/2511) и в FLUX.2 dev и в Z-Image-Turbo. Для каждой модели подбираешь что-то своё.
>тут вообще получается, что на 10 шагах один кал и результаты только 30+. Тогда почему в некоторых промтах 10- шагов?
Я не совсем понял, имел ты в виду генерации на 10 шагов вообще или конкретные случае из статьи, которую ты привёл?
Предположу, что речь шла об общем случае и опять же предположу, что речь идёт об ускоряющих LoRAs типа lightning. Для обычной работы разных моделей требуется большое количество шагов (40+ по описанию моделей, 20+ по рекомендации разработчиков ComfyUI). Для разных моделей были натренированы ускоряющие LoRAs, которые, жертвуя качеством генерации, позволяют получить результат за 8, а некоторые даже за 4 шага. Вопрос только в том, насколько устраивает результат генерации. Здесь опять начинается диспут переходящий в срач между теми, кто генерирует на большом количестве шагов и тех, кто использует lightning LoRAs на 8/4 шага (с CFG 1.0) и говорит, что «ничуть не хуже». Для моделей, генерирующих видео (типа WAN), использование LoRAs на 4 шага практически безальтернативно, в противном случае, генерация будет вообще вечность занимать.
Решение опять же простое. Проверяешь сам и решаешь, устраивает тебя это качество или нет. В качестве простого примера: Z-Image-Turbo может генерировать на 9 шагах и получается для этой модели приемлемо. Qwen-Image может приемлемо генерировать с lightning LoRA на 8 шагов. А условный FLUX.2 dev с неофициальной 8-step ускорялкой сильно теряет в качестве и приходится крутить его на более высоком количестве шагов, «срезать углы» не удаётся.
>>1484801 >Сделал вывод что в зет нет цензуры На основании чего ты сделал свой глубокомысленный вывод? То есть тыкать друг-дружке в ебальники языками обучили, а целоваться не обучили, времени не хватило, как всегда...
>>1484802 >Предположу, что речь шла О сферических конях в вакууме, цель этих высеров мне неясна, пиздеть о всём и ниочем я не считаю продуктивным. Не отвечай этому мудаку, он сам не знает чё он хочет, ещё один больной еблан с обострением.
Зетка. пик1 - res_multi 9 шагов (дефолт). Сейчас почему-то в комфи дефолт Зетки это 4 шага, но здесь на пике по прежнему 9. пик2 - euler_a + мои "яскозал" штуки из всех прошлых тредов. пик3 - exp_heun_2_x0 + мои "яскозал" штуки из всех прошлых тредов. промпт: fkk, fullshot, Xingu girl 14yo 1980, in the red river portrait of girl 14yo, detailed pretty face, hi-detailed glossy skin, (smile:0.3)
сид = 0. Тяжела жизнь в племени, так в 14 выглядеть.
>>1484876 это именно нехватка картинок, там все что давало "любой намек" было выброшено за борт, поэтому так и получилось. еще один уровень цензуры они сделали в виде сейфети чекера, который идет отдельной специализированной моделью, чтобы чекать онлайн генерации постфактум, к локали отношения естественно не имеет.
>>1485000 >Пикрил как зетка генерит их. Ага, спасибо что показал. А то пока моделька Зетки у тебя никак не посмотреть как она там генерит. Потом не забудь передать ее дальше, всем же хочется погенерировать в ней, не затягивай с этим.
Какой семплер более удачный для qwen edit? Все хорошо, но немного замылено. Хочется больше деталей на коже и других поверхностях. Я знаю, что это особенность квена, но может есть более удачные семплеры? Просто методом тыка подобрать не смог. Сейчас использую: er_sde и beta.
>>1485031 Конечно есть. Но пусть это останется в тайне. Если выложить пример семплера/шедулера/шаги/етк, то местный скользкий налим обсмеет и потребует пруфов.
>>1485036 Я генерирую на 8 шагах. 1к. Заметил, что если повышать разрешение, то качество растет, но и красок становится больше, на 2к совсем неестественные цвета.
>>1485031 Субъективный опыт: На Qwen-Edit-2509 (именно на edit) defaultные euler/simple работают (речь про 2509/2511, где изображение менять не надо, а надо только что-нибудь заменить/подрисовать; для полного изменения стиля лучше обычный Qwen-Image-Edit из семейства Qwen). 2511 поломанная и мутная сама по себе, попробуй сравнить с предыдущей 2509; хотя в ней pixel shift, который исправили в 2511 сломав всё остальное. А несуществующие детали можно дорисовывать через SeedVR2 или tile upscale какой-нибудь старой sdxl модели. На Qwen-Image (не 2512), когда я с ним возился пару месяцев назад, для хоть какого-то подобия реализма я использовал res_2s/bong_tangent (RES4LYF) и samsung LoRA.
>>1484817 Ответы сильно переоценены. Общаться в треде следует междометиями, так продуктивнее вести разговор, по крайней мере если находишься в собственном персональном аду, где роль чертей исполняют мудаки, ебланы и шизики.
>>1485265 А есть вариант б/у видеокарт с большим количеством памяти, серверных каких-нибудь? Они так же как нвидиа подойдут будут работать из коробки, без настраивания?
>>1485363 Контролнет. Вообще, 1600х1200 вывозит и без контролнета, а это как раз 2 мегапикселя. Если когерентность теряется на обработке большой картинки (1920х1080), можно слегка занизить разрешение с последующим апскейлом вторым шагом, с низким денойзом. Ну или ебашить прямо так, как есть, в зависимости от модели контронета может и сразу прокатить. Даже эти скверно состыкованные руки сохранить пыталось, кек.
>>1485300 Qwen Edit v1 Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.
>>1485526 >Turn the 3D rendered scene into a 2D anime illustration: flatten shading, remove micro-details and texture noise, replace soft gradient shadows with 2-3 hard cel-shaded tones, simplify surfaces to clean color blocks, outline outer edges with 3 px solid black line, inner details with 1-2 px colored lines, make eyes larger and sparklier, hair into sharp separated clumps, keep original pose, camera angle, outfit colors and background elements; add slight screen-tone dots on cheeks and subtle white highlight strokes; final look should resemble Kyoto-Animation key-art, 1080p, crisp.
Квен у меня лезет только в 4 кванте или SVD кванте от нунчаков, и как-то не очень было, но попробую ещё раз с таким промтом, спасибо.
>>1485528 Из энитеста я использую CN-anytest_v4-marged_pn_dim256 [2fe07d89] Хз, в чем там разница между ними, не пробовал все версии.
Есть еще diffusion_pytorch_model_promax [9460e4db] - этот универсальный, поддерживает как пустой инпут (т.е. саму картинку), так и вывод из препроцессоров по типу канни-скриббла-лайнарта. Картинки выше как раз на нем сделаны, с пустым инпутом.
>>1485290 >А есть вариант б/у видеокарт с большим количеством памяти В смысле дешевых? Ну базовый тир это 3060 12 гб, 4060ти 16 гб, топ тир 3090 24 гига, ну и для шизов не рукожопов Tesla V100 16 гб
>>1485265 >Лоры от Qwen-Image что, не работают на Qwen-Edit и наоборот?
Работают (в каком-то виде). Честнее сказать, запускаются. Хотя разработчики заявляют совместимость с LoRAs (сделанных для Qwen) по всей линейке Qwen-Image(-2512)(-Edit-2509/2511), в моём случае мне приходилось изменять strength разных LoRAs от модели к модели (а некоторые и вовсе отключать). При этом некоторые LoRAs портили генерацию и добавляли артефактов (видно на пикриле для Qwen-Image-Edit-2511).
>>1485733 >По какой причине лора может влиять на всего персонажа если в датасете только pussy ? Кривой датасет, кривой режим обучения, оверфит. Дохрена причин, в общем то. Да и "влияет" - понятие растяжимое.
>TypeError: pick_operations() got an unexpected keyword argument 'scaled_fp8' BrushNET выдает такое, есть мысли как зафиксить и почему возникло? В issues нет упоминаний, раньше работало.
Свидетели отсутствия цензуры в Зетке, а так же профессора мастер промптинга, как заставить гёрл просто тронуть свои промежности? Она куда попало тыкает пальцем. Иногда в глаз (жаль, что в обычный), но не куда заказал. A young black woman touches her crotch while sitting naked on a dark road at night.
>>1485762 >понятие растяжимое. В тесте видно ка лицо и кожа меняется с каждым значением лоры. >оверфит Это я так понимаю переобучение? Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен. >кривой режим обучения Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете, результатом в целом удовлетворительный, лица не меняет. Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise, но это про мелкие детали, почему меняется анатомия лица все равно не понятно.
>>1485772 Пиздец навайбкодили хуйни. Самое смешное, что у каждого вайбкод проекта дизайн иНтЕрЕснЕй типичных старых решений. Причем тот пост был тоже с этой или похожей блонд аниме, не могу найти. А интерфейс был этот https://github.com/AHEKOT/ComfyUI_VNCCS_Utils
>>1486033 Модель какая? ZIT? Чтобы уверенным быть. А то я сейчас насоветую для нее, а для других моделей все не так.
Картинку ты молодец зацензурил - самого важного нету, чтобы понять что происходит. Как бы пошло это не звучало, но для оценки нужен объект на который ты лору тренишь. Overfit для ZIT очень специфичен. Картинка почти не артифачит и не рассыпается даже при ОЧЕНЬ жестком overfit, лора просто теряет гибкость и начинают протекать лишние детали, которые, по идее, в концепт не входят. Возможно, как раз твой случай. В серьезных случаях, лора начинает даже на общий стиль картинки влиять, не только на левые детали.
>Тогда эффект должен уменьшаться на меньшем количестве шагов, я сравнивал 2000-3000 через 250 шагов-результат идентичен. Это может быть ОЧЕНЬ глубокий overfit. На моих настройках, первое влияние у меня лора получает уже после одиного прохода по датасету, и к 200-400 шагов начинается набор мелких деталей. Готовая лора на концепт при датасете из ~50 картинок - уже от 800 шагов (хотя и больше может быть, но до 2000 - никогда не доходило без overfit). Проверять для ZIT надо часто. И я делаю шаг проверок по количеству картинок в датасете, х2 или х3 - чтобы проверочные генерировались всегда после полного цикла обучения (уменьшает случайный разброс результата).
>Стандартный AI Toolkit by Ostris, до этого обучил на другую часть тела, правда на большем количестве картинок в датасете, Сколько было картинок, и сколько шагов и batch size? Какой Learning Rate? Для концепта с деталью тела (т.е. не одна конкретная pussy, а "в общем" как они выглядят) - нужно картинок 30-40 разных. Иначе будет захват конкретной детали, и аналог лоры на лицо/перса. Ну и сами картинки. Желаемый объект должен занимать ~60-70% изображения. По возможности без повторяющихся левых деталей. Т.е. если у тебя там где-то лица на заднем плане мелькали из-за разных поз - лора ухватила некоторую их (слабую) связку с понятием pussy, и теперь несколько влияет и на лица тоже.
>Есть подозрение что лора захватила особенность кожи этого датасета, смотрел гайд в котором рекомендуют установить Timestep Bias > High Noise На ZIT хреновато с High Noise получается. Лора скорее всего уйдет в оверфит еще до того, как схватит концепт с приемлемой точностью.
Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей. Работая, лора изменяет состояние шума на основе которого делаются следующие шаги при генерации.
>>1486074 >ZIT? Да > самого важного нету Не оч результат порадовал, там собственно все плохо. >200-400 шагов начинается набор мелких деталей Странно, я когда тренил датасет 35 картинок, что то вменяемое начало появляться после 2500, скорее всего что-то с настройками или с промтом семплов. >Желаемый объект должен занимать ~60-70% изображения. Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать? >Кроме того, некоторые изменения в картинке (в том числе и лицо) могут быть в порядке вещей. Спасибо, анон, буду иметь ввиду. Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде, единственное оставил AdamW8bit по умолчанию и в этот раз из-за нехватки времени решил обойтись без семплирования.
>>1486142 В Advanced, Do Differential Guidance - вырубить. Оно не для ZIT. Сверхагрессивно и слишком грубо получается, процесс шатает, лора не устаканивается.
В Sample - Walk Seed - вырубить. Не даст нормально отслеживать изменения. Но вообще то вкладка Sample на процесс тренировки вообще никак не влияет - чисто контроль.
Вторая картинка, самое важное: Learning Rate - 0.00003 (можно 0.00002 но кроме лишнего времени разницы не замечал, ZIT хорошо воспринимает более агрессивный LR, а вот 0.00001 - мало. Лора вообще не выходит на что-то внятное.) Batch Size - 4. На 1 - будет плохо. Если вылеташеь в OOM - ставь transformer оффлоад 100%, на скорость это не так сильно влияет, а в качестве из-за batch size колоссальная разница. Лучше датасет переключить в размер 256, чем BS=1 оставлять. Steps - 2000, это с запасом, из расчета посмотреть промежуточные и остановить там, где стало хорошо. 3000 ставить смысла нет. Или overfit, или лора уже не сойдется. Timestep Type - Shift. Тут обоснуй не скажу, но просто результаты на практике у меня лучше всего с ним. Или Weighted можно использовать, тоже неплохо. Timestep Bias - Low Noise, или Balanсed. Лучше пробовать с Low Noise, т.к. при Balanced лора сходится еще быстрее, и есть риск что начнется overfit раньше, чем проявятся все детали. Не только самые мелкие. Loss Type - MSE, как у тебя. Или Wavelet - тоже неплохо, но с MSE вроде бы лучше и стабильнее.
Датасет на концепт - 40 картинок это минимум. Но ZIT переварит для концепта до ~170, и это может дать улучшение результата. Еще выше - обобщение будет не на концепт а уже на стиль, такое тебе не нужно.
Основной прикол тренировки ZIT - если выставить слишком слабый LR - лора вообще никогда не "сойдется". А если слишком большой - overfit начнется раньше чем будут выбраны детали. Но ты этого рискуешь не увидеть, т.к. ранний оверфит в ZIT плохо заметен на глаз (нет типичных мелких артефактов), пока случайно вдруг не вылезет Гигер в анатомии, или не начнет протекать цвет деталей/фона из датасета куда не надо. Но тренировка идет волнами - первое удачное место, потом ухудшение и опять хорошее место, и так может быть несколько раз.
В последних версиях Ostris добавили график Loss Rate. Для ZIT он показывает совсем не то, что для сдохли. Чтобы увидеть закономерности ползунок smoothing надо двигать на 100%, иначе "забор" видишь. В картинке ХОРОШИЙ график с одной из моих удачных тренировок. Там был большой датасет на концепт, на 133 картинки, на графике два места где было совсем хорошо, и я брал эти чекпоинты за финальные. Первое - шаг 931, и второе - 1596. Далее пошел однозначный оверфит (даже в конце графика, где опять спад около 2000 - это уже не спасает, лора испорчена), а просто в промежутке было фиговато, но все же без оверфита. При этом loss даже в удачных местах > 0.4, что очень много если по классике. Но ниже - не падает на таких настройках.
>Ну то есть pussy крупным планом все пикчи или часть из них с позой для понимания сеткой где эту pussy располагать? Если ты следуешь правилу - то при 60-70% вокруг нее будет достаточно, чтобы модель вкурила куда ее лепить. :) Но несколько картинок с меньшим маштабом (не более чем 15-20 от общего числа) не помешают. Главное - чтоб там не было сильно характерных повторяющихся деталей, которые в концепте не нужны. Голова - крайне не нужна, т.к. модель лицам уделяет огромное внимание сама по себе - ее на них надрачивали особенно.
>Настройки прикрепил, ну там все как ты рекомендовал в прошлом треде Там был не я. :)
>>1486074 >>1486142 >>1486164 Упс. Еще пропустил - у тебя Linear Rank 32. Этого может быть мало для концепта. Я обычно 64 ставлю, чтобы не рисковать что не хватит на мелкие детали. Если лора дает слишком грубые результаты, без тонкостей и мелких деталей - это может быть оно.
>>1486253 Честно говоря - не могу ответить. Здесь есть чел, который советует 4/2 бита на transformer/text encoder. И даже звучит логично, особенно для text encoder. Но заставить себя потратить время и провести полноценные сравнительные тесты я так и не смог. Потому, что 4/2 на моем конфиге (3060 12GB) не дает заметного преимущества по скорости тренировки. Даже в таком виде без частичного offload для transformer у меня OOM, а с ним - разницы практически нету. Так что у меня стоит дефолт - 8/8 и мне норм. Для датасета с размером 256 и BS=4 у меня 4.5 сек на шаг получается. Для размера 512 - ~9-12 сек. Мне хватает.
>>1486263 Чет на новых настройках нереально медленная скорость, за час 5 шагов прошло. С отключенным семплингом. Или это долгий старт? У меня 12 врам и 32 оперативки.
SNES era pixel art, pure 1993-1995 Japanese import game aesthetic fused with early 2000s Russian imageboard vibe, 16-bit flat sprite style, extremely limited color palette 24-32 colors including toxic green text on black, heavy nostalgic dithering, 1-pixel razor-sharp thin outlines, no gradients, zero depth, young short-haired vivid blue anime girl with melancholic eyes, cigarette in lips trailing simple pixel smoke, in cramped retro spaceship cockpit, thick vertical rain streaks on square window like CRT scanlines, faded neon pink kanji "暮人福味" glowing on wet glass, foggy night cyber-city with tiny blocky magenta/cyan signs, two bulky CRT monitors displaying bright toxic-green 2ch.su/ai forum threads: ">Anime Diffusion #236", ">>1480285 → Stable Diffusion тред X+179", "AI Chatbot General №789", ">>1473456 (OP) Генерируем тяночек! looking at viewer", ">>1482405 → ComfyUI Flux LoRA", "Пропущено 1494 постов, 276 с картинками", small thumbnails of pixelated anime girls, post numbers [>>num], sage, bump, russian text in green monospace font, teal-purple nostalgic palette with faint sepia glow, clunky keyboard, orange shoulder patch, black pilot harness, tiny headset antenna, raindrops as 2x2 white pixels, faint scanline and phosphor bleed, mood of late-night 90s-2000s rainy Moscow/Tokyo anonymous browsing, raw nostalgic pixel soul, 256x224 resolution feel, masterpiece flat retro pixel art