• Z-Image-Base • FLUX.2 klein (4b и 9b) • Z-Image-Turbo • Flux 2 • Qwen Image / Qwen Image Edit • Wan 2.2 (подходит для генерации картинок). • NAG (негативный промпт на моделях с 1 CFG) • Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.
По-моему, шапка треда стала чересчур лаконичной, рассчитанной на то, что сюда заглядывают исключительно те, которые сидят в треде уже несколько лет и окончательно пресытились избыточными объяснениями. Однако было бы разумно добавлять базу, например, про комфи, что все ставят портабле. Далее, про менеджер расширений - несложно заметить, что его название говорит само за себя, а комментарий "автоустановка, реестр расширений" бессмысленный. Почему вместо этого не написать что-то вроде "ставить в ComfyUI\custom_nodes\", что как раз не самоочевидно?
>>1526413 > шапка треда стала чересчур лаконичной, рассчитанной на то, что сюда заглядывают исключительно Шапку вообще никто не читает. Постоянные не читают, потому что она не менялась больше года, а ньюфаги не читают, потому что хуй знает, но очевидно, что не читают, судя по вопросам "где скачать комфи?". > разумно добавлять базу, например, про комфи, что все ставят портабле Можно еще добавить, все используют %modelname, чтобы гарантировать срачи. > менеджер расширений Уж лучше ссылку на актуальную поменять, он уже давно переехал в основную репу Comfy-Org.
>>1526616 От 4GB vram + 10-12 GB на диске, до "и целого датацентра мало". Зависит от того - чем конкретно и какой прон генерить. Смирись, таки немного напрячься и подумать придется, чтоб разобраться, comfy - это комбайн а не кнопка "сделай мне зашибись". :)
>>1526616 Я уж думал что-то годное по VAM будет. 3 года нейросетей, сука, а там до сих пор нет генерации модели по ебальнику, до сих пор даже топы клепают лытый кал за исключеним двух-трех людей.
Что можете посоветовать, для переноса движения с видео танцулек на фото с нужным персонажем? Например есть такое видео и фото. Хватит ли 16Гб врам чтобы получить приемлемое качество?
>>1527355 Если серьёзно, то скорее всего никак. Точнее, не совсем так.
За исключением NSFW-тюнов старых SD моделей, новые модели (Qwen-Image, FLUX.2) очень соевые и такого там просто нет.
Если тебе нужно coomerство, то тебе нужно искать менее соевые модели на которые есть NSFW-тюны или LoRAs (Z-Image-Turbo как неидеальный пример, который в этом деле лучше FLUX.2). Затем для них искать на каком-нибудь CivitAI LoRAs, которые это позволяют получить (типа Qwen snofs; это в качестве примера, не рекомендации; очень посредственная из коробки, как модель Qwen-Image, так и LoRA). А потом, когда у этого тебе перестанет хватать и всё равно не будет получаться, что задумано, тебе ещё придётся искать worfklow с сегментированием и inpaintом гениталий. В целом, получение NSFW, кроме 1 girl, требует нетривиального подхода.
>>1527355 С 10-го раза на ZIT нароллилось, и то хуета. Тебе лучше в сторону pony/IL копать, и то скорее всего в фоториле сложно будет. full shot, side view, a petite, skinny, young woman laying on top of the muscular negro man with her head just above his crotch, the woman's head is on the left side of the image and the man's huge cock is inside her mouth, her breasts squished against the man's belly, her knees are on the bed, the man is positioned in the opposite direction, his head is buried in the woman's ass
>>1526709 Я бы сказал что решает сейчас больше рам чем врам (ну не ультимативно конеш) 24+ врама конеш заебись Но я генерю спокойно на ване видосы в примерно 1 мегапихель, юзаю квен едит 26 гиговый на 4080 16г врама и 128г рама, все пиздато и охуенно генерится, скажу дальше у меня больше затыков было с 64г рама на ване, нехватало бле :o
Короче ананасы, слил 16к поинтов в помойку, взял эту херню чтоб тебе не пришлось >>1516542 →
Погонял и с вф от автора и с другими вф, чет хуита какаято, работает как говно, вообще честно чет флюкс клейн в и2и говно какое то ибаное может конеш у меня скил ишью, но квен просто разьебывает эту залупу нахуй, с одним и тем же промптом, с одним исходником.
Я хз анончи что не так я делаю с флюксом, может просто он говно ипаное, но я и вф автора этой модели юзал, и другие вф, чет все равно в среднем с квеном не стоит рядом даже может кто шарящий подскажет чего конеш.... Вот себе еще исходник анон для понимания что пихал туда
Бля. Кое-как запердолил тайловый апскейл с контролнетом (3) на ZIT, но всё равно рулетка. Даже с высоким strength хуй чего удерживается с их вариантом tile контролнета, но лучше, чем ничего. Автор USDU нихуя не спешит чинить тайлинг кондишена через model_patcher.
>>1527699 Я не понял смысла сегодняшнего апскейла, увы. В генерации апскейлить генки тоже смысла нет. Сегодня модели из коробки генерят хайрез. Если только косяки подправлять надо. Как ретушь реальных фото он пока не работает, лица всегда меняются до неузнаваемости. Как технический приём быть может годится для типографии, да.
>>1527926 Так ладно ещё апскейлить фотореал. Но зачем в аниме треде каждое первая картинка в 4к? Вот где загадка. Зачем они там-то это делают? Что там апскейлить? Какие детали?
>>1528030 Для сосача инпейнта и не надо. Для подрочить пять пальцев и две ноги и не надо. Для себя, что-то лучше фотабаша из идеограма и не надо. Дальше сам придумывай. Так бесконечно можно, но кому-то что-то из этого таки надо.
>>1528041 Шиз. Если ты не астрофотограф какой-нибудь, то между 2к / 4к / 8к - ноль информативной разницы. Ты приблизь любой хайрез кадр - там будет расфокус, зерно, аберрация, нейромусор.
>>1527926 >Сегодня модели из коробки генерят хайрез
Я тоже так считал до того момента, пока не начал этот самый «хайрез» генерить. Так вот, мне FLUX.2 [dev] с одного прохода требуемое качество не даёт. Примеры и workflow в прошлом треде.
Теперь постепенно разбираюсь с tile ControlNet, чтобы не SD, а FLUX.2 делать tile diffusion. И результаты не очень. Похоже вообще нужно что-то типа DLDSR: Первая генерация на FLUX.2 [dev] > апскейл SeedVR2 > тайлинг и дифьюжн кусков > даунскейл до исходного разрешения (например 1080p кадра).
>>1528094 > FLUX.2 делать tile diffusion Оно вообще поддерживает контролнет flux.2? Контролнеты через model_patch точно не работает, а на флаксе же вообще своя хуйнюшка для контролнетов. Репа уже больше года не обновлялась, последний работающий контролнет на ней - это сдохлевый юнион. Или таки тайлится flux.2 кондишн?
>>1528117 Я так и не разобрался, но FLUX.2 [dev] гадит зелёными пикселями вне зависимости от настроек schedulers/samplers даже на default workflow (что FP8, что BF16). Я всё перерыл, но issue не нашёл. Вот что-то похожее на SD https://www.reddit.com/r/StableDiffusion/comments/19042kd/does_anyone_know_what_these_pixel_artifacts_are/ В тёмных областях заметно, только там синие. Это надо убирать пост-обработкой и рефайном. Прогон через референс удаляет шум в одном месте и добавляет/усиливает в другом.
С квеном и z-image он не работает. Латент бьется, а кондишн нет. Чтобы оно с тайлами работало, нужно и пиксели/латент тайлить и отдельный кондишн для каждого тайла (пикрелейтед). Понятия не имею, как там флаксовый контролнет устроен, но если там что-то кроме стандартного Apply ControlNet, то tile diffusion его разобьет на тайлы, а будет применять целый control_image на каждый тайл. >>1528123 > Он тайлы поддерживает (судя по описанию). Это другое. То сам тип кондишена, который применяется. Поддержка тайлинга в нодах, а не в контролнете.
>>1528134 Может, внимание не обратил? Я на сильном увеличении этот пиксельный шум замечать начал. Он местами еле заметный, а местами проявляется сильно. Когда увидишь, уже не развидеть. На пике из >>1525936 → хорошо виден на лицах, одежде. Рассматривать нужно с увеличением до единичных пикселей. Я сначала думал, что это стили имитации цифрового шума фотоаппаратов нулевых просачиваются. Конспирологи предполагают, что это такой watermark. Мне кажется, что VAE виноват. Не знаю. Это, конечно на FP8, так как полной и 128 Гбайт RAM мало. Но я и полную запускал, там этот дефект тоже присутствует (и на FP4 тоже). Возможно, меньше, но я тщательно не проверял, так как там оффлоад уже на SSD шёл, переливаясь через край 128 Гбайт.
>>1528139 Это проблема. Но я уже готов попробовать топорное решение, которое подсмотрел в одном чужом workflow:
Сделать заготовку изображения на 6-8 вручную разрезанных тайлов (под ходовое разрешение), где к каждому такому кусочку подключается ControlNet. Каждый кусочек проходит сэмплер, а потом весь этот Франкенштейн сшивается обратно. В чужом workflow без subgraphs это выглядит ужасно. Это неуниверсально. Но, может, будет работать.
>>1528171 Ну как бы там >>1528139 так же делается, только на тайлы картинка бьется не вручную, а Make Tile SEGS из импакта (пикрелейтед). Единственный косяк - тайлы только квадратные. Есть еще 🔧 Image Tile от матео - охуенный контроль размера тайлов, но там нет возможности выдать маску, так что не катит. Пробовал еще какую-то ноду, выдает и тайлы, и маски, но там код кривой, на не крайних тайлах оверлап добавляется справа и снизу, а не со всех сторон - выкинул это говно. Ебашить вручную - это пиздец, без возможности динамически менять количество и размер тайлов в зависимости от инпута.
Спасибо. Есть над чем подумать теперь. Про маску тем более. Я даже не задумывался, хотел в черновом варианте хоть как-то сшить на пробу для проверки работоспособности.
>>1528198 Ну да, тебя это удивляет? Если результат меня не устраивает, ищу другой инструмент или приёмы работы этим инструментом, чтобы получить нужный мне результат.
Если тебя устраивает качество генерации из коробки, которое кроме имиджборд где-то ещё показать стыдно и неприлично, имеешь на это полное право.
>>1528024 Четкость рисовки/контура. Некоторые на нее фактически дрочат, а простая техника "апскейл + ресайз обратно" позволяет эту четкость увеличить, если не совсем кривыми лапками делать.
>>1528231 4K нормальное разрешение для десктопа и устройств отображения с высоким ppi. Не всё же на 1080p/1440p сидеть. А downscale они вполне с 8K до 4K могут делать.
>>1528024 Не знаю насчет аниме, но в целом выше разрешение - это больше пикселей в распоряжении модели, чтобы нарисовать запрошенное. Это ведет к меньшему количеству косяков. Даже у бананы про при генерации в 1к и 2к различия в качестве видны невооруженным взглядом.
>>1528201 Кстати сейчас заметил. У него тоже тайлится криво, оверлап только с одной стороны прибавляется на центральных тайлах. Так что Make Tile SEGS - единственный вариант, даже если маски отложить в долгий ящик.
Я тут прикупил 5060 ti на 16Гб и думал что зимага как пойдет генерироваться. А на деле словил ООМ, хотя на 6Гб все отлично генерировал через ряд костылей.
Хотел попробовать запустить все с nvfp4 чтобы быстро работало. Судя по логу - там в bf16 кастит, наверное из за этого памяти не хватает. Как вообще заставить это работать? cu130 и последние драйвера стоят.
got prompt Using xformers attention in VAE Using xformers attention in VAE VAE load device: cuda:0, offload device: cpu, dtype: torch.bfloat16 Found quantization metadata version 1 Using MixedPrecisionOps for text encoder Requested to load ZImageTEModel_ loaded completely; 3318.11 MB loaded, full load: True CLIP/text encoder model load device: cuda:0, offload device: cpu, current: cuda:0, dtype: torch.float16 Found quantization metadata version 1 Detected mixed precision quantization Using mixed precision operations model weight dtype torch.bfloat16, manual cast: torch.bfloat16 model_type FLOW Requested to load Lumina2
Купил 5070. Стейбл выдавал ошибки и две переустановки и попытки исправить с чатгпт не помогли. Скачал инсталлер стейбла с патреона челика. Все работает, но я на жопу присел, вдруг там вирус. Вин дефендер ничего не нашел при нескольких проверках, но вдруг там скрытый троян? Мне пиздец?
>>1527929 Попробовал - тоже мыло. Либо для таких целей мало 16Гб, либо не хотят оптимизировать готовое. У меня есть пару воркфлоу и если хотите могу скинуть, но там требуются карточки >16 Гб врам.
>>1528489 Там вирус и троян, покупай новый пк. На нём просто качай comfy, качай вручную или ставь из консоли torch и делай pip install по requirments.txt и всё.
>>1528509 Там же на кале говна можно генерить чанками. Думаю даже на 8 гигах можно, только чанков будет много. В 720p хватает 4 чанков для первого видоса на 12 кеках. Можно даже в исходном фэпесе ебануть для плавности, только кусков будет больше. пиздос, мейлсрач трёт посты из под луковых носков? я хуею с этой дуры
>>1528544 Вот 2 воркфлоу на основе ван.https://transfiles.ru/pjsj8 Такое если лить как АИ модель - слишком заметны косяки. С этими воркфлоу, якобы лучше все с этим и косяков меньше. Я не смог попробовать, потому что надо арендовать серваки.
# кеш поближе положил пушто системный диск засран немного и не лезет кеш. export PIP_CACHE_DIR=/media/disk/cache/pip export UV_CACHE_DIR=/media/disk/cache/uv
Сижу на flux crea по ьольшец части. 12гб вркм, 32гб ддр5 врам. Для генерации не порно стомт на что то новее переходить? А то я слышал. Что новые фоюксы еще больше памяти жрут
>>1528723 Если именно из FLUX2, то FLUX.2 [klein] 9b можешь попробовать (4b наверно не стоит). Хотя не уверен, что влезет без оффлоада на SSD с твоими спеками, та 32 Гбайт RAM прямо впритык может быть. FLUX.2 [dev] точно не стоит, там пикрил по RAM (на 16 Гбайт VRAM 4080s), бывает и под 80 Гбайт, когда референсов побольше добавишь. И это только в FP8 (и модель и text encoder). И ещё у него есть несколько неприятных приколов.
>>1528744 Из популярных и нежирных сейчас Z-Image-Turbo есть. Можешь в дополнении к своей FLUX Krea поразбираться, если ещё по каким-то причинам не попробовал. Для неё (в том числе здесь) рефайнеров/апскейлеров накрутили, в реалистичной стилистике выдаёт вполне достойные результаты.
>>1528865 >no-no-no дело не в этом, дело в смысле всего этого, можно майку черех жопу одевать, но только смысл где, в чём? результат чем-то сильно отличается от обычного способа? нет. ну, тогда нахуя?
>>1528876 >сильно отличается от обычного способа? А кто тебе обещал сильно? Вот я собрал несколько своих методов в один воркфлоу. Каждый улучшает картинку совсем немного, но в сумме даёт хороший результат. Показывать который здесь не имеет смысла ибо внятной конструктивной критики по делу здесь никто не напишет. Если некий метод дает видимый на результате плюс(и не надо здесь пытаться разделять на субъективный взгляд и объективный), пусть совсем не большой, этот метод нужно использовать. Пусть даже он будет сперва мега сложным и запутанным. Я понимаю, что вам нужна только одна нода которая сразу сама, без всяких настроек, дает буст на "сильное" качество. Если ты выглядишь в майке, одетой череж жопу, лучше - то может стоит именно так ее и одевать? Нам важен процесс одевания или?
>>1528885 Идея, в принципе, может давать эффект - менять сид по дороге, ломая "накатанный путь", может заставлять модель лучше выбрать разные места, эффект схож с тем, как при классическом двушаговом workflow с апскейлом, для второго шага другой сид чем на первом дает лучший результат (а на одинаковом сиде картинка может легко в "пережарку" уйти). Кстати, ты бы попробовал туда ноду "upscale latent" засунуть между блоками - может еще лучше получиться. :)
Но если уж играть с такими каскадами, IMHO - больше толку дает еще и семплеры в них менять. На последнем что-то из SDE выставить, и т.д. Я таким на сдохле игрался - довольно заметно влияло.
>>1528865 Такой воркфлоу будет очень полезен, например, с анимой. В ней ужасно плохо, по сравнению со сдохлей, миксятся встроенные стили и приходится выкручиваться шедулингом по типу [artist1|artist2] или [artist1:artist2:0.35], и более глубокими вложенными конструкциями, в комфи это всё намного точнее можно настроить, но вот для других моделей и правда хз зачем менять на ходу сэмплинг и шедулеры
>>1528855 > лоры есть Это уже с ZITnsfwLoRAv2. > прон модели на базе zit Они очень хуевые. Если бы были не хуевые, ты бы добавил картинки к посту, не так ли?
SNOFS, POV и ещё некоторые one-concept лоры довольно неплохие. Если их объединить, уже что-то хорошее получилось бы. А если бы сделать файнтюн из них, может вышло бы заебись.
Ладно. Не читайте дальше и не скачивайте вокрфлоу, если у вас сильно пригорает от чего-либо в контексте Зетки из этого: Karras шедулер(с уникально подобранными параметрами), Ancestral семплинг, смена семлинга и шедулера на полпути к финалу. Просто иди мимо. Для остальных - суть на пик3. Воркфлоу в пик2. Пик1 - дефолт. Это не шутка. Мне нравится, как получается. Это не замена дефолта, но как что-то уникальное к нему пригодится. Ваше мнение? Мнение не о моей генерации, а о идеи - покажите что у вас получилось.
>>1529128 > Мнение о моей идеи Мне еще в прошлом треде написали мнение о твоей идее. >>1516839 → > Оооо, нет...
> Ваше мнение? Если тебе нравится и результат не становится хуже, пользуйся. Почему бы и нет? Комбинации из двух Ксэмплеров еще со времен сдохли дают результат лучше, чем дефолт, если не обосраться с настройками. Karras там или linear_quadratic - это ньюансы, что лучше или хуже, зависит от ролла. Главное, чтобы на втором ксэмплере было то, что модель поддерживает.
Я уже не удивлюсь, если какой-то уникум реально начнет пробовать разные скедулеры, десять денойзов цеплять, чтобы "реалистик" """улучшить""" на 2д модели.
>>1529113 В комфи и инвоке - региональным промптом. В автоматике/фордже и фукусе - импэйнтом. Но проще было бы вместо СД взять более новую модель, которая просто нарисует нужное с промпта.
>>1529128 >Пик1 - дефолт. мне дефолт нравится больше, более обьёмное. естественное освещение. под столом как и положено темно, более естественный оттенок кожи, приятная температура. на обоих проёбан масштаб, на первой в меньшей степени.
>>1529532 > в каком разрешении В любом. >>1529539 Разобрался, кажется. Похоже оно на любое упоминание film так резко реагирует и автоматом зерна ведрами насыпает. С digital этого нету, но результат всратый.
А помните упоминали, что вышел промпт-екстенд кажется под Z-Image? А где? А как подключить? Джва года жду, чтобы без ебли с ллм-нодами и косыми систем промптами.
>>1529982 >>1529185 Литералли, кандидаты на премию "паста про ложку". Пробовать реализм на модели, которую - задумывали как аниме-ген - тренировали на аниме
>>1530013 Чо б ты понимал ваще. Напомню, что у нас до сих пор нет модели, которая знала бы аниме и хентай концепты, и при этом могла бы выдавать фотореалистичную картинку. Все, кто пытался этого добиться, жидко фейлились, получая в итоге либо 3дшный стиль, либо затирая все анимешные знания реалистик датасетом.
Так что это потенциальный вин, если нормально доучить. Соединение хентайных концептов и реалистичного рендера будет дофига востребованным.
Ну тогда покажи мне и моим одноклассникам модель, которая: 1) Знает аниме-персов на уровне люстры\нуба и умеет их воспроизводить. 2) Может в полный спектр СФВ и НСФВ-концептов с бур, включая всякие извращения по типу футанари, камфлейшн и прочего непотребства. 3) Умеет все это делать в полноценном фотореалистике, без ухода в 3д рендер.
>>1530064 >камфлейшн >в полноценном фотореалистике Вам шашечки или ехать? Нет в реализме камфлейшена и футанари, это анимешные термины, с ними что в интернете, что у нейронки ассоциируется аниме. Если что-то похожее хочешь получить то "1ladyboy или как оно должно быть, big breasts, penis, shaved skinny body" и "over expanded belly, cum dump, covered in fluids" и так далее.
>>1529745 Думаю вкатиться в тему. Сам я до этого только с текстовыми нейронками, локальными и не очень работал. Мощности не очень большие выходят, арендовать не сложно будет.
>>1530088 >Вам шашечки или ехать? Мне реалистичный рендер. Шашечки и ехать - себе оставьте.
Ну сам смотри: У нас есть концепт. Любой, не обязательно про извращенцев - тот же incoming hug, например. У нас есть стиль/художник. anime coloring или какой-нибудь sakimichan. Аниме-модель их свободно комбинирует. Любой концепт работает с любым стилем, даже если исходный художник никогда такое не рисовал, и конкретно этого сочетания в тренировке не было.
Вопрос: в чем концептуальное отличие реалистичного фото-рендера от того же сакимичана или 3д? Ответ: ни в чем, просто аниме-модели на фотках не обучали, а "реалистик" файнтюны таких моделей выполнены криворукими дебилами, и через задницу.
>>1529737 >>1529906 >>1530111 >>1529745 >>The FLUX.2 [klein] 9B model fits in ~29GB VRAM and is accessible on NVIDIA RTX 4090 and above. >С выгрузкой в RAM будет работать на 12+ Гбайт VRAM 3000+ серии NVIDIA и 32+ Гбайт RAM. Это нативно в питоне с кодом от разработчиков, а в Комфи очень даже все шустро с оптимизацией спокойно генерит за 5 сек на RTX 3070 с 8ГБ, при этом с подгрузкой в подкачку и обратно, которое Комфи в прошлом месяце очень даже ускорил.
>>1530013 Ну я же не анимудаун, кошу под 40+ професси анала итт, нужно марку держать, выкладывая своё важное анал итическое мнение по поводу трендов индустрии с умным видом, подкрепляя пост реалистиком, не в соседний тред говнофилов же идти или предлагаешь постить anima-пикрел итт? Ясно дело модель не для реалистика, но выдаёт его - в чём её и обсёр
>>1530390 Нейронка писала и озвучивала текст же. На ютубе сейчас этого говна навалом. Авторы даже не случают что там, главное пару десятков тысяч просмотров собрать.
>>1530390 Yo dowg. Мы засунули аи слоп в ваши subtitles к аи слопу вашего voice generation озвучивающему аи слоп от LLM, чтобы вы могли аи слопить, пока учитесь аи слопить.
тут только полторашкой (sd1.5) генерить и то это будет больно из за отсутствия оптимизаций. Лучше купи затычку уровня 5060 ti 16гб / 4060ti / 3060ti (смотри по бюджету и доступности. но ориентируйся чтобы vram был не меньше 16гб, чтобы жить по кайфу)
У меня 5060ti норм работает на старой системе ddr3-1333 32гб и Xeon(R) CPU E3-1245 V2
Модели реалистик валенок реалистик нужно шедулерами базовой её под не улучшать на с затюнить сохранением семплерами концептов надо. Увидев это все дети были потрясены
Кто-нибудь генерит не сисик-писик, а что-то псевдоисторическое, но пиздец, как натуральное. Типо нацистов, которые пожгли и захватили Лондон, Советов на Луне, Горбачева в образе диктатора продолжателя дела Сталина и подобное. Какие модели и техники хороши для генерации таких панорамных фото, где соблюдаются стиль одежды, военной формы, техники, и вайбы зернистой фотоплёнки?
>>1530688 >Какие модели Нано Банана Про. Локал полезен для узкого круга специфических задач. Что же касается дженерик прумтинга, онлайн дает локалу тысячу очков вперед, если ты не упоротый кумер.
>>1530688 >где соблюдаются стиль одежды, военной формы, техники, и вайбы зернистой фотоплёнки
Даже не знаю как тебе объяснить. Сначала ты должен получить представление о том, что могут и чего не могут даже современные модели.
Если я тебе напишу что-то вроде: возьми FLUX.2 [dev]/FLUX.2[klein] 9b, запасайся реалистик-синематик LoRAs (или дополнительно ищи prompt на нужный тебе стиль изображения кадра аналоговой фотоплёнки, которые будут понимать эти модели), фотографиями-референсами нужных тебе «стилей одежды, военной формы, техники». Потом пытайся всё это подсовывать в качестве референсов при генерации. Это тебе скорее всего не очень поможет.
«Знания» концептов моделью определяются датасетом при её разработке (тонкости дообучения LoRAs не берём, я в этом вопросе не силён). В общем, надо брать модель и пробовать насколько она выдаёт что-то, что тебе нужно из коробки. Если она этих концептов не знает, то дальше подкидывать референсами. В целом, скорее всего, получится так, что «знания» модели в указанных тобой областях будут очень ограниченными и тебе придётся плотно сидеть в Edit-режиме генерации по референсу с prompt уровня: «A man in the uniform from image 1, wearing peaked cap from image 2».
>>1530720 У меня по аpi nana banana не может сгенерировать ни одного фото или плоката с реальными людьми. Попросил сделал Маленкова 100 other из 100. Может это из-за европейского местонахождения и гига цензуры там, может впн США сделает попроще. Но сейчас я не могу сгенерировать и изменить ни одно фото. Возможно есть методы джейлбрейка, но пока это больше невозможно использовать.
Вот пример фото, где я получаю OTHER, прося изменить два дефиса на тире.
>>1530735 >Это тебе скорее всего не очень поможет.
До этого я занимался текстовыми локальными и не очень нейронками. Матан и программирование для меня не проблема. Про лору слышал, как работают енкодеры, декодеры разбирусь. До этого не вкатывался в эту тему, сейчас стало интересно. Так что если ты накидаешь технической инфы, это как раз будет охуенно и поможет.
>>1530739 >Матан и программирование Я от этого далёк и знания минимальны. >если ты накидаешь технической инфы На прикладном потребительском уровне там не про это. Это если что-то специфическое нужно сделать у меня проблемы возникают.
>я занимался текстовыми локальными и не очень нейронками Значит, скорее всего у тебя достойный комп с большим объёмом RAM или риг из нескольких видеокарт, как в тредах про LLM.
Поэтому просто качаешь portable ComfyUI и ComfyUI-Manager. Разбираешься. Запускаешь workflow из TEMPLATES для разных Edit-моделей (из актуальных FLUX.2 [klein] 9b, кому-то последний Qwen-Image-Edit-2511). Если у тебя такой бэкграунд, как ты говоришь, то вкатишься очень быстро.
>>1530777 Я почти уверен, что дело в европе. Европейцы насрали себе в штаны, сделав себе очередной охуительный закон. Завтра попробую перевести на США.
>>1530778 Меня на kie.ai по api банана шлет нафиг по любому запросу и с американским айпи. Подозреваю, дело в том, что у них просто вычислительных мощностей на всех не хватает.
>>1530842 как я говорил выше - у нас персонаж из пасты про ложку ИТТ. Успейте пообщаться с ориджинал, оно скоро психанет и уйдет в рид-онли лечить порезы от ножа и вилки
>>1530933 Я вот сейчас не понял - ты вообще чьих будешь?
То, что Анима хоть как-то может в реализм (в 3д, кстати, тоже слегка может) - это как раз охуенно. Людям будет намного проще дотренить до полноценного реалистик-тюна, если база в модели уже есть. Люстра с нубом такого не могли вообще. За исключеним тэга photo_background, кек.
>>1530943 Соевые европейцы хоть что-то выпускают. А американцы настолько гиперсоевые и этичные тревожные трясуны, что никаких моделей генерации изображений в открытый доступ в принципе не выпускают.
>>1531113 Если в базе, то на Винде. А так WSL2 меньше проблем даст при использовании всяких либ, собрать что-то проще. Ну и под WSL2 производительность чуть повыше около 2-3% против Винды с выключенным Защитником и VBS, за счёт того что нет всякого говна для защиты как под Виндой.
>>1531095 Круто нет, группа китайских инцельчиков обнаружили революционный факт: существующие модели для генерации и редактирования — разные модели. Вау. Обозначили это проблемой и побежали ее решать до озарения : "а в чем проблема просто сделать одну модель, которая делает все". Зумеры, узнали себя?. Почему никто не додумался раньше — загадка природы (VACE, UNIC, EditVerse, UniVideo, UniVid, Kling-Omni, VINO и еще дохуя кто на этом моменте - крупным планом с каменными еблами).
В базе - HunyuanVideo 1.5, который уникально нет протренили: сначала учили не ломать, потом добавляем editing, потом quality tuning — то есть дотюн на типа сложных примерах. Это называется прогрессивным обучением и существует с незапамятных времен, но у них это подается как архитектурная инновация (что ожидаемо).
>>1531241 >>1531264 жаль, что примеров этого мы так и не увидим, потому что это пиздёжь зетка внутри пустая как детская погремушка, чтобы хоть что-то появилось с горем пополам, её надо полчаса пинать ногами и уговаривать, я устал от этого, я хочу потрать остаток жизни на что-то более продуктивное.
>>1531264 Да что там париться с реверс промптингом, можно же просто тренить лору на каждый референс — и зеточка будет отрисовывать их лучше, чем любая едит модель.
>>1530417 > Уж кто если не ostris понимает о чем говорит, таких единицы. Ты там это, поосторожнее. А то был тут у нас такой, возводил себе кумира, денег ему башлял на бусти. А потом вера пошатнулась, и чел тупо сломался, деградировал в ничтожество, а потом и тред за собой потянул. Вот так уже джва годи и сидим из-за него в треде, где человек человеку волк.
>>1531589 Это как? И речь про флекси-приводного? Нет, я просто в рамках разумного говорю очевидное, что чел, который пишет адаптеры для де-дистиляции и допиливает скрипты для обучения уж точно сможет отличить, когда речь идёт о каких-то апсемплерах и прочих штуках и не запутается в этом. Это же не блоггер-дурачок-теоретик. Так же как Киджай, Комфипидор и другие разбирающиеся люди.
>чел, который пишет адаптеры для де-дистиляции и допиливает скрипты для обучения уж точно сможет отличить, когда речь идёт о каких-то апсемплерах и прочих штуках и не запутается в этом.
Камон, что что сейчас творит Claude Сode на Opus 4.6 позволяет накидать трейнер как у ostris даже Понасенкову.
>>1531351 >Пару лет в тред не заходил И правильно делал. Ничего из того, что даже близко приблизилась к закрытым моделям корпоратов нет и не ожидается.
>Аноны, кто-нибудь пробовал локальные авторегрессионные модели? Пробовать -нет, это слишком сложно для анона, а нужно чтобы ван-клин писик еуропеиан вуман.
>Как они генерят? Могут ли в NSFW? Пока хуево, денег на трейн не дают, байтдэнс недавно что-то в этом направлении двинул, но во-первых, это лаб-тесты, а во вторых если доведут до ума - хуев там опен-сорс будет.
>>1531690 > Ничего из того, что даже близко приблизилась к закрытым моделям > слишком сложно для анона, а нужно чтобы ван-клин На ноль делишь, копро-шиз. Либо сиди ван-кликай в своем проприетарном треде и не рыпайся, либо прокачивай скилл и переставай рекламировать свою парашу в локальном треде.
Разбираю залежи моделей, сейчас решал что оставить Qwen Image Q4 или FP8. Запустил обе по три раза с чистого запуска и слегка охуел с разброса - 44 секунды на Q4 и 26 секунд на FP8. 16врам 64 рам. Такие дела.
>>1531801 и все это на 2 млрд параметрах. Вангую, что ваш любимый Клей на 4B жидко обсерится в бесконечных попытках даже приблизиться к такой же технике.
Вот что значит, когда модель делают неравнодушные к результату люди, а не соевички, которые трясутся от каждого твита с критикой от поехавших левачков.
>>1531821 VL (3В) - Qwen2.5-VL DiT (2B) - Skywork unipic 2.0, которую, в свою очередь лепили из SD3.5-Medium
После вот этой хуйни - закрыл пейпер и не стал читаль дальше и вам не советую
>To fully unlock the potential of of DeepGen 1.0’s compact architecture, we design a data-centric training strategy tailored for tight VLM-DiT integration in the low-parameter regime. This strategy emphasizes simplicity and data efficiency across three progressively stages. First, in Alignment Pre-training, we optimize only the connector and learnable think tokens to align VLM representations with the DiT’s latent space, utilizing large-scale image-text pairs and editing triplets. Second, during Joint Supervised Fine-tuning (SFT), we unfreeze the DiT and apply LoRA to the VLM for end-to-end optimization.
Кароч, выглядит как курсовая по GenAI, которую делали на коленке для ноунэйм шараги, чтобы сжечь грант.
>>1531610 > Это как? И речь про флекси-приводного? Ага. Легенда гласит, что он упорно впитывал каждое слово из видосов хача и славил делиберит при любом удобном случае, к месту и не к месту. Потом его забанили где-то у хача, и он окончательно двинулся. При виде делиберит в треде, срака так рвалась, что весь тред забрызгивала. Времена еще а1111 были, и тут часто спрашивали промт и получали метадату из а1111, а там часто deliberate_v11.safetensors среди всей метадаты встречался. В итоге он на это так триггерился, что промпты вообще перестали спрашивать, чтобы не дай бог не получить очередную истерику. Я к тому, что ты бы полегче с вот этим вот всем >>1530417 > ostris понимает о чем говорит, таких единицы Как-бы не получилось повторения истории, когда острис сделает что-то, что тебе не понравится.
>>1532144 Ни малейшего представления. Мне от него одного видоса хватило, чтобы понять, что он озвучивает для не шаряших в энгрише то, что уже было давно сказано другими, типа nerdy rodent и прочих ютуберов. В тред про него новости больше не несут, даже спелл из куклы убрал уже.
>>1532161 все упирается в экономику. Хорошие обучающие данные (юридически чистые так, чтобы ни одна мразь не ущемилась и не побежала по судам) стоят очень дорого и их нужно много. А потом еще и описать и прочекать за GPT\VL\Гигачатом авто-капишены. Аренда компьюта - тоже не дешево, вот например Z-image (из пейпера) стоила 628 тыс. долларов. Это только аренда, прибавь остальные расходы на ФОТ синьоров-ML-помидоров, джунов-макак и по мелочи туда-сюда. Навскидку, думаю что +- миллион-полтора весть цикл обучения более-менее нормальной модельки.
Как думаешь, захочется хоть как-то отбить эти затраты? С корпоратами понятно, для них это пыль, но это своя пыль и отдавать это анону в интернете под открытой лицухой - чисто нон-профитная репутационная тема, типа как благотворительность.
Я не поднимаю тему с разработкой какой-то принципиально новой архитектуры или адаптации той же авторегрессии для пикче-генерации, это вообще отдельная темя для срача - это еще дороже.
>>1532171 такое нахуй даже бесплатно не надо. Вон, рисовые братья в языковых моделях тупо выцеживают инференс OpenAI и Antropiс последних моделей через бото-фермы и прокси и им заебись. Ну возбудились Альтман с Амодеем по этому поводу, покричали про нечестные методы, сбегали в сентат США даже по этому поводу, прикрутили банхаммер на ботов. А хули толку - данные слиты, а китайцам глубоко поебать на копирайты еще с начала 90-х. Вот это - охуенный путь, правильный. Он работает и благодая ему у нас есть Дипсики-хуики, Квены-хуены.
>>1532195 > Ну возбудились Альтман с Амодеем по этому поводу, покричали про нечестные методы Всё в точности наоборот. Алтман, Куртка, Цукер и другие невозбранно торрентят копирайт контент петабайтами и тренируют своих чатботов. Это остальные выкручиваются тренировками на нейрослопе, который не защищен копирайтом.
>В меморандуме для Комитета Палаты представителей по Китаю OpenAI пожаловалась, что DeepSeek обучала свои модели на выходных данных чужих моделей для воспроизведения возможностей американских ИИ-систем.
>По данным компании, сотрудники DeepSeek применяли сторонние роутеры и программный доступ к API, чтобы обойти защитные механизмы. OpenAI также указала на теневых реселлеров своих сервисов. Заблокировать их активность пока безрезультатны: методы обфускации становятся все изощреннее.
>Помимо бизнес-угрозы, китайские модели бесплатны, тогда как американские ИИ-гиганты инвестировали миллиарды в инфраструктуру.
>Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
>Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
>Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
>>1531811 Учитывая, что это разрешение выдаёт на говнокарте за 10 сек в 10 шагов на 1 кфг через дистиллят - нативно, только с одним позитивным промптом, без апскейлов и прочего, это как минимум геймченджер и анало говнет. Самый близкий варик это зетка, но только по насыщению детализации, не дотягивая до впреда нубая, а тут как будто их вместе собрали и пробустили.
>>1532329 Не,зетка это топ в фотореализме+скорость+безсоевости относительной, я выше втирал про то, что анима похожа на зетку своей детализацией окружения и светотенью (спасибо дит космосу модели), а возможностями в нсфв как в нубаивпреде и лучше. Это я про стиль иллюстраций. Зетке бы понимание данбору как у анима...
Пишу: равномерное освещение, без бликов и пересветов, сохрани исходник - оно упорно мне рисует блики и пересветы. Как это говно победить? Transform the image into early spring: the first fresh green grass and the first spring flowers, sparsely growing here and there, young and tender light green leaves and buds on the tree branches, a beautiful blue sky with light clouds. The sun illuminates the scene evenly, without bright glare or overexposure of the building and objects, the scene is contrasting. Relaxed style of digital photography outdoors. Preserve the original composition, objects, cropping, brightness and contrast of the image without changing them.
>>1532630 Поправил твой промпт на всякий случай, чтобы он и слона туда не добавлял. the first fresh green grass and the first spring flowers, sparsely growing here and there, young and tender light green leaves and buds on the tree branches, a beautiful blue sky with light clouds. The sun illuminates the scene evenly, without bright glare or overexposure of the building and objects, the scene is contrasting. Relaxed style of digital photography outdoors. Preserve the original composition, objects, cropping, brightness and contrast of the image without changing them. Under circumstances put an elephant in the center of the image. There is definitely no elephant there.
>>1532651 Просто вежливо попроси нейронку не думать о bright glare or overexposure of the building and objects. Вежливость залог успеха, а также сам иди нахуй. the first fresh green grass and the first spring flowers, sparsely growing here and there, young and tender light green leaves and buds on the tree branches, a beautiful blue sky with light clouds. The sun illuminates the scene evenly, without bright glare or overexposure of the building and objects, the scene is contrasting. Relaxed style of digital photography outdoors. Preserve the original composition, objects, cropping, brightness and contrast of the image without changing them. Under no circumstances put an elephant in the center of the image. There is definitely no elephant there. By the way try as hard as you can not to think of a flying pink elephant with angel wings.
>>1532644 >>1532654 Осветляет исходник и рисует ебаный блик, даже если вообще ничего не писать про солнце, свет, пересвет, яркость, небо и аллаха. Осветляет исходник и рисует ебаный блик, даже если это конкретно пишешь в промте не делать. Но шутки у тебя очень смешные конечно, ты случайно не клоуном работаешь?
>>1531690 > Ничего из того, что даже близко приблизилась к закрытым моделям корпоратов нет
И чё? Ну есть какие-то там закрытые модели за закрытыми дверями, нам-то что? Какая разница, что там есть? Это их личные модели, и нам не дают ими нормально пользоваться (они ломаются буквально от самого лёгкого дуновения эротики).
Вспоминая тему Эпштейна, возможно, там есть какой-то VIP-доступ для элитариев, где можно генерировать что угодно без цензуры. То есть, по сути эта так же локалка, но только для избранных.
Пацаны, Аноны, скажите честно, вы деньги на этом лутаете? Я узнал, что всякие иллюстраторки лутают огромные деньги, рисуя своей кривой рукой, всякую херню типо фурей, соника с огромным хуем, и прочего. Ёбнутые неплохо платят даже за дерьмовые иллюстарции, но человек, владеющий нейронками, может выдать намного лучший результат. Ебанутые тем хороши, что они знают, чего хотят, а те кто знают, что они хотят, готовы платить за это. Так что вы, аноны, делаете деньги?
Я конечно, далёк от этой темы, но это какие-то фантазии. Что ж, давай пофантазируем.
Вообще не слышал про такое. Смесь баек и выдачи желаемого за действительное. Я не могу объективно оценить рынок, но отдельные примеры, которые я наблюдал, скорее из серии «варганю comissionы за еду». Если идёт речь о каких-то баснословных прибылях, то это явно не про нонейм NSFW-рисобак и, скорее, про какие-то мутные схемы отмыва финансов.
Второй момент, даже если такая целевая платёжеспособная аудитория и есть, то она находится явно за пределами РФ (и ту часть аудитории, которую я наблюдал, она, конечно, целевая, но платить особо никто не спешит и вряд ли будет). С присутствием на зарубежных площадках, продающих NSFW-арты и финансовыми транзакциями сейчас есть определённые моменты. За производство тех материалов, про которые ты говоришь, в РФ положена бутылка.
>человек, владеющий нейронками, может выдать намного лучший результат
Таких единицы. По крайней мере, которые выдают «продакшн» качество. Представим даже, что такой человек не является резидентом РФ, чтобы отбросить предыдущий момент. Аудитория фетишистов, кинкстеров и прочих квиров, в своей массе малоплатёжеспособные леваки на квотах, у которых снега зимой не допросишься. Кроме того нужно принимать во внимание общее падение уровня жизни населения. Все донаты они с жиру, когда жирок посрезают simpам уже не до донатов будет.
>что всякие иллюстраторки лутают огромные деньги Здесь могу только предположить, что всё дело именно в этом и, по сути, является завуалированным OnlyFans. Но таких опять же должны быть единицы. А не то, что каждому зашедшему деньги в карманы будут запихивать.
>>1532891 >Аудитория фетишистов, кинкстеров и прочих квиров, в своей массе малоплатёжеспособные леваки на квотах, у которых снега зимой не допросишься. Кроме того нужно принимать во внимание общее падение уровня жизни населения.
Пока там есть такие как artica sparkle, опасаться стоит лишь таких же нейро-рисобак. (говорят этот хрен работает инженером в флоте пиндосии и спустил больше полуляма на картинки) Ну и в подобной среде у них любителей пушистой ебли почему-то много. Надо лишь помнить, если заварушка пойдёт активнее, останутся лишь те самые леваки на квотах, и весь бизнес рухнет. Впрочем, что к тому времени останется, уже иной вопрос.
>>1525962 (OP) Хочу генерить видосики как в ourdream.ai Не понимаю, что именно для этого должно использоваться. Есть те, кто что-то подобное у себя пробовал?
>>1532992 Был бы моим, такие бы вопросы не задавал. Он умеет генерить неплохие аниме видосики с сексом. Вот только любой корпорат найдёт способ все изговнить.
>>1533014 >Он умеет генерить неплохие аниме видосики с сексом. Тогда скорее Wan с NSFW LoRAs.
Проблема локальных моделей генерации видео в их сравнительно высоких аппаратных требованиях и сравнительно низком качестве видео по сравнению с дорогими и жирными проприетарными корпоративными моделями. Качество видео можно поправить или на этапе генерации, или уже потом с помощью апскейлеров-«улучшайзеров» типа SeedVR2. Это отнимает дополнительное время, причём, иногда очень значительное.
В общем, загляни на помойку CivitAI, посмотри на NSFW LoRAs для Wan (на LTX-2 тоже, если сделали что-то, я в NSFW теме не ориентируюсь). Там будут примеры видео. Уже по ним сможешь решить, стоит ли игра свеч. Возможно от увиденного качества разочаруешься и сразу примешь решение, что лучше не связываться.
>>1532871 Лутаю. На оплату электричества хватает, и еще остается. Как для хобби - неплохо, хотя я и ленивый ппц. Можно получать сильно больше, но тут уже надо работать-работать, не факт что раскрутишься, и будет это не сразу.
Однако из РФ это делать - куча подводных, потому что санкции.
>>1531351 >кто-нибудь пробовал локальные авторегрессионные модели да, вот GLM-image релизнули китайцы в январе >Как они генерят? пока хуево, и долго, не лучше чем тот же Flux Klein 9B Поэтому никто на них и не пересел.
>>1533540 Ultra-detailed erotic portrait of a wild, untamed young woman in her early 20s, raw feral beauty radiating dangerous allure. She stands defiantly in a decaying industrial wasteland hideout, piercing direct gaze locked on the viewer — eyes heavy with lust, challenge and quiet desperation, slightly parted lips glistening as if she just licked them, subtle flush on cheeks and chest.
Her dirty-blonde hair is wildly tousled, streaked with electric turquoise, strands clinging to sweat-damp skin and falling provocatively over one eye and across her exposed collarbones. Completely topless, small perfect natural breasts fully bare, nipples visibly hardened from cold air or arousal, goosebumps trailing down her sternum and ribs. A tiny torn scrap of red-black plaid fabric barely clings to her torso like a ruined bra, one strap snapped, the cloth slipping lower to tease the undercurve of her breasts.
She wears only a minuscule black string thong — so thin the side ties dig into soft hip flesh, the front triangle barely covering her mound, fabric slightly sheer and damp-looking from sweat or something more intimate. Black ankle socks, one slipped lower around her ankle, exposing delicate Achilles tendon. Long legs slightly parted in a confident, inviting stance.
Draped loosely over her shoulders and back is a massive, filthy, oversized patchwork blanket-coat — layers of ragged beige fleece, scorched brown wool, frayed tartan scraps, torn black cloth — it hangs open at the front, framing her naked torso like a ruined robe. One side has completely fallen off her shoulder, pooling at her elbow, the other clutched loosely in her right hand near her thigh, fingers teasing the edge as if ready to let it drop entirely. Fabric full of authentic grime, burn holes, loose threads, dried mud, giving it a post-apocalyptic, been-fucked-in-the-ruins texture.
In her left hand a rough wooden staff, held low and casually, tip resting on the filthy floor, her grip firm yet sensual — like she could use it to pin someone down or balance while riding.
Background: claustrophobic ruined machinery room — rusted orange pipes dripping condensation, hanging black cables like vines, piles of stained rags, burlap, discarded clothes scattered around her feet. Warm dim golden-orange light from a single bare bulb and broken high windows, casting long dramatic shadows that caress her curves, highlight sweat sheen on skin, create deep contrasts between light and dark.
Ultra-textured, tactile, hyper-real cinematic style — shallow depth of field, intimate mid-shot from slightly low angle to emphasize power and vulnerability. Color grade: desaturated earth tones with pops of turquoise hair and flushed pink skin. Grainy 35mm film look, erotic decay, survivalist kink, raw post-catastrophe intimacy, feral seductive rebellion.
Mood & feeling: dangerously intimate, on the edge of surrender and dominance, body language screaming "come take me if you dare" while her eyes promise she'll devour you first. Pure, unfiltered, filthy-glam apocalypse desire.
>>1533675 ну так модель которая пойдет на 8гб пойдет и на 12гб. можешь там же по ссылке но разделом выше взять другой уровень квантизации, не Q4_K_M а Q6 к примеру.
>>1534040 Как минимум одному не поебать. Сказал постить не кал, он сразу годную лягушечку принёс. А если бы я промолчал, остались бы вы без лягушечки, и тред по-прежнему состоял бы исключительно из кала. Полезность моей деятельности, таким образом, неопровержимо эмпирически доказана. Ты вот тоже лучше бы прикрыл свое трясучее ебальце, прекратил визгливое кукареканье и начал постить не кал.
Занимается кто-то из здешних написанием своих нод, которые не выложили на гитхаб? По разными причинам. Я например делаю свою коллекцию надерганных нод из различных монструозных "паков". Или часто переписываю ноды с помощью нейрослопинга ллм в тот вид и функциональность как мне надо. Естественно у моего набора лицензии хз какие и на гитхабе я это не положу. В последнее время по душам поговорив с нейросетями я заставил ее снейрослопить то, что мне нужно с нуля. А именно шедулер. Разрабатывал конкретно под Зетку, но подходит и к другим. Очень интересно получается. Пишешь буквально текстом, что надо решить, какие проблемы преодолеть и получаешь код. Не сразу он работает, но в итоге делает именно то, что просил. В удивительное время живём.
Мне двух V100 по 32 ГБ хватит на z-image, glm-image и qwen-image-2512? Нет какого-то ограничения в связи с тем, что там CC7.0 древняя, из-за чего скорость будет катастрофически низкой или ситуации что просто не запускается?
На какую скорость рассчитывать? Я до этого сидел на sdxl на 4070 с 1 картинкой за 15-30 секунд.
Тут есть как с sdxl сотни дообученных сеток (которые достаточно сильно от родного sdxl отличаются), или архитектура сложная, обучающая выборка нифига не просто картинки с тегами и потом файнтюнов нет совсем или полторы штуки неясного качества?
Аналог controlnet существует какой-то, и вообще насколько всё вышеуказанное в комфи работает?
>>1534236 Я не согласен со вторым утверждением. A100 это CC8.0, и оно за 80ГБ версию стоит порядка 600-800к. И в это же время есть Blackwell 6000 pro на 96 GB, за цену порядка 600-800к, но с CC12.0 и pcie5.0
Таблица, 2/3 кремний искал, 1/3 я сам дозаполнял, недоделана и вот это всё. A100 - самое дно. Очень дорогая, и при этом следующая на выбывание после V100.
Если не брать что-то за полляма, то тогда blackwell 4000 pro, 24 гб за 150к - это очень хорошее соотношение, лучше чем на 5090. Промежуточные 4500 и 5000 сильно хуже, чем 4000 и 6000, а вот поставить две современных blackwell 4000 достаточно вкусно.
С первым утверждением тоже не согласен. Я из ллм-треда. При генерации в ллм V100 всего в два раза уступает 5090, которая по идее вообще из другой категории.
>>1534188 > А именно шедулер Какие у тебя могут быть проблемы с шедулером? Шедулер - максимально простая хуйня, и любая вообразимая форма расписания легко решается связкой из кастомной беты+шифта+СплитСигма нода, все из коробки. Сдается, что у тебя ии-психоз, и ты сам себя убеждаешь в процессе болтовни с чатботиком.
>>1534267 https://share.google/aimode/hKc7Gi2aDuz7O4tCr К чему этот диалог? У меня уже есть V100; A100 брать категорически не выгодно при существовании более архитектурно современной и более быстрой 6000 pro по той же цене, в этом просто 0 смысла наверное во всех сценариях, кроме варианта если у тебя есть DGX-плата и ты можешь nv-link использовать + он тебе требуется для твоей задачи. Это не про инференс ллм точно, и очень вряд ли про генерацию картинок.
Если возвращаться к моему вопросу, то если подходить со стороны обновления до 6000 pro, то в нём нет смысла, так как на ней запустится весь существующий софт доступный мне. Ты мне объясни как с ножа есть - вопрос явно об этом. Не предлагай мне ложку покупать, лол.
>>1534291 Выгодней продать твою v100 и купить 4090 48G тебе это скажет любой адекватный человек, разбирающийся в теме. Ты просто хочешь притянуть за уши и убедить себя что в этом есть смысл
>>1534233 > Мне двух V100 по 32 ГБ хватит на z-image, glm-image и qwen-image-2512? Что ты подразумеваешь под "хватит"? Тебе и одной хватит, в диффузерах больше решает скорость чипа, кроме уж совсем огромных моделей. Видел ноды какие то для деления по картам, но вроде там в основном параллельное исполнение, а не как с ллмками > Нет какого-то ограничения в связи с тем, что там CC7.0 древняя, из-за чего скорость будет катастрофически низкой или ситуации что просто не запускается? Может быть отсутствие какой нибудь оптимизации аттеншена, отсутствие аппаратных ускорителей бф16, что повлечёт за собой поиск модели переслоппленной в фп16, как например с анимой и обладателями 2000 тютюрей, потому что почти всё сейчас тренится, насколько я знаю, в бф16. В будущем может выйти архитектура железно требующая новую куду 13+, и никуда от этого ты с некро не денешься, максимум придумают костыль > На какую скорость рассчитывать? Если за базу взять скорость 3090 с хл в 5ит/с, то примерно ~3-4, но на разных моделях может быть по разному, смотри сырое значение флопсов
>>1534255 > 24 гб за 150к - это очень хорошее соотношение, лучше чем на 5090 Откуда цены? Меньше чем за 80к можно 3090 всё ещё найти не убитую. 5090 у барыг 220к стоит, раньше в магазах Палит за 230к можно было взять, может и сейчас можно если мониторить Яндекс Маркет/Озон. 150к за такое же количество флопсов как у 3090 - это дохуя.
>>1534377 >Если за базу взять скорость 3090 с хл в 5ит/с Скорость SDXL гуглится для всех карт, я потому и спрашиваю именно про z-image, glm-image. То есть информация для любой карты - сравниваю насколько медленнее sdxl - по таблице для sdxl грубо оцениваю что будет в z-image.
>>1534518 Часть сетка моя локальная нашла, часть чатжпт, часть я вписал. Конкретна эта - висела неделю/две назад на t-bazar. Сейчас там 180 или 190. Это просто ориентир супер грубый. >как у 3090 - это дохуя. Ага. Я согласен. Но 3090 почти все б/у в неясном состоянии, за последние 3 месяца в ллм-треде у двух анонов что-то отвалилось на их 3090. Это как-то не очень. А тут новая, с CC12.0, всякие fp4/fp6 аппаратно умеет. Хотя если ты говоришь, что есть 5090 за 220, то смысла в этой 4000 pro нет, я просто не видел меньше чем за 290. Но в целом да - лучше просто взять две б/у 3090, они тоже не то что бы древние, архитектура уже близка к универсальному параллельному ускорителю - и если архитектурный затык и будет, то скорее только уровня что оно работает в два раза медленнее с fp4 условным, а не так что проблема уровня "нет тензорных ядер -> скорость 0.02 от нормальной". Впрочем для llm там ещё появился какой-то transformer engine начиная с CC9.0, а на 3090 вроде как только его огрызки или вообще нет поддержки. С другой стороны воя и писка про это нет, а про флеш-аттеншн есть, хотя он не даёт даже х2 ускорения, то есть вряд ли есть проблема с этим transformer engine.
>>1534851 20Гб там наберется только, если у него весь мусор завалялся еще до переезда фронтэнда в pip пакет или от запусков с latest фронтэндом. Более вероятно, там просто хуева туча препроцессоров была в comfyui_controlnet_aux, которые снова закачаются, при необходимости, или еще какая кастом_нода, которая по дефолту весь мусор в свою папку качает.
>>1534256 На самом деле интересно потыкать. Понимаю что реализм там говно, но есть куча ситуаций когда обычная диффузия не вывозит. Освобожу ссд на выходных да засяду может.
>>1526413 Можно было бы и ссылочку прикрепить на версию ComfyU ZLUDA - гитхаб (для владельцев видеокарт от amd). Сам поставил, всё отлично работает и инструкция там же есть.
>>1535250 > ZLUDA Если для каждого полпроцента от процента отдельно гайд в шапку добавлять, так и для треда места не останется. Если кто-то решил на амд в картинко-генерации вкатываться, то у него и без шапки получится rocm для своего дистра поставить. АМД+винда+zluda - редкий зверь, который шапку читать не станет, а сразу в треде спросит раз год. >>1535305 Интело-боярин, у которого банановые токены кончились?
>>1535018 Какая именно LoRA? Конкретно. Для FLUX.2 [klein] 9b их несколько есть. И некоторые, например https://huggingface.co/vafipas663/flux2-klein-base-9b-distill-lora содержат прямо на странице описание: >For the reasons I cannot explain, it produces static noise at strength > 0.5. And sometimes, you have to go as low as 0.1. Такая честность приятна, но сразу ставит под вопрос использование подобного.
>>1534256 Даже ждать больше не буду. На моих 128 Гбайт RAM и 16 Гбайт VRAM 4080s FLUX.2 [dev] так не тормозит. Эта хрень и в оперативку не выгружается нормально как FLUX.2 [dev] и скорость на 16 Гбайт черепашья. Попробовал все настройки: https://aistudynow.com/how-to-fix-the-generic-face-bug-in-bitdance-14b-optimize-speed/ Пробовал выгружать, оставлять, с бубном плясать. В общем, это наверно для тех у кого кастомные 4090 на 24, а скорее 48 Гбайт и выше. Я сначала думал, что это у меня медленно генерится, потому что что-то мог не так настроить. Потом увидел этот пост: https://huggingface.co/comfyuiblog/BitDance-14B-64x-fp8-comfyui/discussions/3 Да, время порядка 35 минут на генерацию в дефолтном разрешении как раз и просматривается. Ну и на здоровье, как говорится. Рекомендуемые настройки для default workflow на 2 скрине. OOM я не получил, но дожидаться результата просто не стал. У кого железо мощнее, VRAM больше, карта 4090/5090, RAM — разогнанная DDR5 и так далее, можете попробовать.
>>1534233 >Аналог controlnet Да, просто есть edit модели, говоришь что им сделать с исходником и что от туда взять, контролнеты больше не нужны, это прошлое.
>>1535500 >Да, просто есть edit модели, говоришь что им сделать с исходником и что от туда взять, контролнеты больше не нужны, это прошлое. У тебя после одного прохода VAE encode-decode уже начинают проявляться артефакты от выжигания, после нескольких правок таким способом результат можно смело выкидывать и идти в фотошоп. Эдит без ручного рисования маски это абсолютно бесполезная хуйня, которая годится разве что прикинуть как может выглядеть результат после ручного эдита.
Аноны я дико извиняюсь за вопрос, но вот настроил комфиуи и ZOV-image и все типа генерить могу че угодно, но вот деликатный момент, а я реально могу генерить ну все что мне придет в голову если вы понимаете о чем я и если да то не может ли быть у этого последствий? Генерация-то локальная
>>1535539 > а я реально могу генерить ну все что мне придет в голову Нет. > если вы понимаете о чем я Это из коробки есть. > не может ли быть у этого последствий? Генерация-то локальная Только для личной психики, если не будишь это потом постить в клеарнет.
Можно подробнее про этот моментик? Я так понимаю в локальных моделях нужно вручную под каждую специфическую задачу там какие-то штуки выставлять и настройки и еще кучу всего, я не шарю, скачал установку-пример с аниме тянкой и под ней уже генерю персонажа в статике без дополнительной массовки и прочего, если не сложно поясни кратко
>Только для личной психики, если не будишь это потом постить в клеарнет.
>>1535514 ну с таким подходом и от контролнета мало толка. Но в отличие от контролнета edit модели работают еще и концептом а не просто делают трассировку по сути. плюс, чем больше разрешение тем меньше декодинг заметен, по крайней мере на vae от Flux Klein, который на самом деле vae от Flux 2. У Qwen Edit-а к сожалению старый vae от wan, который не сильно отличается от vae Flux 1.
>>1535514 Чел, ты отстал от жизни. Это FLUX Kontext таким страдал. Flux 2 Klein 9B картинку на последовательных редактированиях не портит (если сид менять не забываешь, если с одним сидом - слегка "выгорает" иногда). Лично более десятка последовательных итераций на нем делал - все ок, тогда как на Kontext уже к 5-ой - каша их артефактов вместо картинки.
>>1535640 Всё верно. На FLUX.2 [dev] нужно только downscale Latent Reference выключать и редактируй на здоровье даже с VAE Encode/Decode. А для совсем трясунов для нескольких последовательных Edit одного изображения можно вообще изображение не декодировать, а работать с Save/Load latent на каждой итерации.
>>1535620 > Можно подробнее про этот моментик? > все что мне придет в голову Зависит от фантазии. Средне-статистическому хуману с IQ выше комнатной температуры в голову может прийти больше, чем современные нейронки способны воспроизвести. > с аниме тянкой и под ней уже генерю персонажа в статике без дополнительной массовки и прочего > поясни кратко Если нужно просто одну тянку, то просто пиши обычным текстом, что хочешь видеть, и оно что-то такое выдаст. Если выдает не совсем то, что просил, пробуй изменять - что-то добавить в промпт, что-то удалить, переключить на следущий сид, поменять соотношение сторон.
Пишешь ишью к бранчам-хуянчам на гитхабе, отвечают чингчонги ебаными клетками своими. Теперь это норма? Их не учили, что в таких местах ты либо по-английски пишешь, либо ебало на замок и сиди блядь как щенок молча сука, чёт бомбануло, я обычно спокойный и добрый
>>1535735 > отвечают чингчонги Это еще хуйня, в ишью фронтенда отвечает бот-долбоеб, который по 10 нерелейтед PR добавляет в ответ, живые юзеры вообще игнорят и продолжают ломать фронтэнд, впиздячивая app-mode сапорт и прочую хуйню. Впрочем, половину ишью пишет другой бот.