Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1493714 → > Кривой ликорис не нужен как раз. Он удобный и в нем есть нормально работающий OFT и дримбудка в виде лора модуля. Надеюсь ты в курсе, что OFT это наиболее близкий вариант к полному тюнингу, а значит писик вписывается в модель, а не отсасывает как легаси лора?
>Лучше бы peft запилили, а не реализацию кохи. Ток пефт это не универсальная библиотека, а солянка из методов. Вон у тебя совершенно точно пефт лора ток и работает.
С год не заходил сюда (и не генил-тренил). Полистал прошлый тред и что-то так нихуя и не пони. Для аниме с сиськами-писками ничего лучше люстры-нуба так и не придумали чтоле? Новое говно совсем говно? Если без писек - просто стиль какого-то конкретного хуйдожнека или персонаж из очередной мобильной дрочильни - что-то из этого на новом говне тренится? Что вообще сейчас можно засунуть в 4080 и что потенциально можно тренить?
>>1493666 → SD 3.5 которую все забыли охуенна для реализма без сисика. Погоняй ее, если будет время, она в некоторых моментах прям на голову выше и ZIM и QWEN и FLUX.
>>1493868 >нормально работает с 2к разрешением нормально сделал и фото пик1 скрин 3d сцены начинающего тридэшника из 2003 года. Вот уж действительно - хидден гем )
Перекат из прощлого Что-то зимаж разочаровывает. Как обычно: если 1girl заебись получается, то всё, модель будет в топе у гунеров.
А для реальной работы - хуйня какая то. Дизайн с референсами - отсос. Генерация дьявольщины - отсос в этом вообще сдохля лидер, я охуел прям, лол Квен имейдж Эдит - хуета пластмассовая...
Генерация простых стоковых фонов и текстур - отсос. Я пару тредов назад поднимал вопрос с генерацией текстур стены. Разнообразие без костылей - отсос.
Реддиторы ещё обнаружили, что зимаж в покорёженный металл не умеет, при лобовом столкновении автомобилей. Небольшой дамаг есть, но колёса не выворачиваются и передок не сминается.
В итоге, для меня сейчас Кляйн лидер. fp4 вообще мгновенно и разнообразно генерит дизайны/лого. Инпайнты охуенные. Промты на русском и русский текст тоже умеет. Хотя, ру промтов лучше избегать, качество аутпута пиздец низкое. Сейчас часть генерю на сдохле, потом рефайн кляйном. Ну и промты нодой олламы. Надо ещё сд3.5 изучить детальнее, наверняка ещё один хидден гем пропустили, лол.
Удивительно, что флюксоделы выпустили нормальную модель. Даже при том, что с анатомией рук-ног проблем не меньше, чем на хроме, но при таком разрешении и скорости генерации это все равно крышеснос.
>>1493972 Ты либо зумерок, который в те годы даже не жил, либо надень очки/линзы, выбирай сам. Графон халфы в 2004 был прорывным для 3д, и он выглядит куда мультяшнее второго пика. А ты тут пиздишь про >начинающего тридэшника из 2003 года
>>1493984 факт, лица оно менять не умеет нормально. пока что.
>>1493861 >ничего лучше люстры-нуба так и не придумали чтоле? Новое говно совсем говно?
хрома заебись, но чтоб ей пользоваться нужно руки иметь и писать хорошие промты. а для промтов типа вангерл мастерпись стендинг биг бубс да, только в люстру-нуб.
>>1494015 >А ты тут пиздишь да не рвись ты так. Посмотри внимательнее - ну реально говно же получилось на пик2. Пластиковое мыльное говно из шит-тиера порноигрулек.
>>1493861 Для аниме я сейчас использую Neta Yume. Оно хуже для чистого НСФВ, но промпты понимает в миллиард раз лучше сдохли и умеет работать с куда более сложными композициями. Хрома, зетка и кляйн все пиздатые, в разы лучше тех опций, что были год назад. Из старых флюкс моделей я до сих пор использую разве что Pixelwave.
>>1494013 >модель очень хорошо тренится. Только увы, не на 12GB vram (при том, что генерит на таком шустро). Я сунулся интереса ради, раз уж в устрицу добавили поддержку - шиш мне. Полную базу он даже загрузить не может (CUDA OOM) не смотря ни на какой оффлоад, а если ему вручную fp8 версию подсунуть - ругается на неправильный слой в модели.
>>1494088 в острисе у меня и хрома вылетает с оом, а на onetrainer нормально шпилит, там пресет на 8врам есть даже. так что скил ишуе разраба вполне вероятно.
Я вот теперь хз на чем новую версию ластифая файнтюнить. Все ждал омни-базу зетки, но с выходом флюха нового уже хз, может с ним начать работать? У кого вообще какие впечатления от Klein?
>>1494092 >так базу квантовать и выгружать надо, само собой Не помогает. Встроенные средства не работают (oom сразу, еще до попытки квантования), внешняя модель - flux-2-klein-base-9b-fp8.safetensors - вообще не грузится с ошибкой слоя (причем - не первого, где-то до середины догружается, потом спотыкается и стоп).
>>1494030 >Из старых флюкс моделей я до сих пор использую разве что Pixelwave. У меня вдобавок ещё Fluxmania и Rayflux. Не идеальны, но порой помогают вытащить то, чего обычная Dev не даёт.
>>1494125 >тюн PonyXl пони хорошо умеет целоваться безо всяких лор-хуёр, сдохля хуже, причём даже таких моделей немного, остальные вообще не умеют. Зимага тоже кстати не умеет нихуя в поцелуи, я в прошлом треде выкладывал результаты - полный провал, так целуют котят и щеночков, с языками начинается подобная хуйня если сильно настаиваешь, либо промтишь: френч кисс.
>>1493983 А я напротив проникся зимагой за две недели юзания. Кляйн 9b в свою очередь для меня неюзабелен из-за того, что коверкает все подряд, стоит отойти от квадратного разрешения картинки. Ну, для генерации лого наверное это совершенно не критично, так что тут ты можешь оказаться прав. Насчет понимания промпта кляйн и зимага идут по моим наблюдениям вровень, за вычетом того, что некоторые вещи они понимают слегка по-разному.
>>1494015 >Графон халфы в 2004 был прорывным для 3д, и он выглядит куда мультяшнее второго пика. Игры это не всё 3д, которое существует. Ты бы в те годы зашел на сайты вроде render.ru, специализировавшиеся на пафосном плагиате никому из целевой аудитории неизвестных произведений искусства, а также на вручении друг другу великих наград и медалей.
>>1494160 >стоит отойти от квадратного разрешения картинки Опа. А я как раз в квадратном и генерю. Может потому и не видел косяков. Ну, разве что с пальцами пизда, как на сдохле в древние времена, лол.
>>1494160 >Насчет понимания промпта кляйн и зимага идут по моим наблюдениям вровень Камон, у них один и тот же qwen3 на текстовом энкодере. Конечно вровень.
>>1494167 >сдохля с лорами ебашит прекрасные лого У меня были доп условия: два референса и русский текст. Я бы и сидел на сдохле, если б всё так просто было.
>>1494097 Чисто для эксперимента, попробовал тренировку 4B. Загрузилось, влезло. Но тренируется хуже чем ZIT (к 500-ому шагу схожесть перса лишь угадывается), и при этом медленней по скорости на шаг.
Правда, тут почти наверняка режим не подходит, да и вообще настройки никуда не годятся. Просто хотел посмотреть в принципе - будет ли работать хоть как-то. Ну - типа да, получается что-то. Но пока, для обладателей 12GB vram - только 4B доступно для тренировки.
>>1494236 А я что-то как едит модель Кляйн не оценил. Может я что-то делаю не так, но воркфлоу, которое есть в темплейтах комфи, с промптом "Replace the face of the girl in the foreground in image 1 with the face from image 2" просто бесхитростно копипастит лицо, грубо вырезанное из второй картинки. При этом ни освещение, ни тени, ни насыщенность, ни баланс белого, ничего не подгоняет, даже края вырезанного лица не размазывает.
>>1494318 И если в промпте написать подробное изложение, ясно сказав, чтобы сохранило гамму, освещение и выражение лица с первой картинки и вставило лицо с его характерными деталями со сторой, результат идентичен - грубо, как для коллажа в детском саду, вырезанное лицо.
Вот приблизительно такую замену лица делает Кляйн. Причем изменение разрешения обоих картинок, равно как и использование в качестве второй картинки изображение только одного лица без какого-либо окружения ни на что не влияет, даже на затраченное время. И это уже похоже на троллинг - модель здесь придумала какое-то фотореалистичное лицо, хотя вторая картинка (сделанная в зимаге) в стиле рисунка. Если обе фотореалистичные, то она просто грубо вырезает лицо.
Спрашивается, где прогресс и где "outstanding quality at sub second speed", если это говно делалось 500 секунд. Древний faceswap lab и то был можно было юзать, чтобы делать рисованные картинки с лицом, вытащенным из фоток, не говоря о том, чтобы делать это с фотореалистичными изображениями.
Да, и еще цветовую гамму в этом комиксе она взяла из второй картинки, хотя ясно было сказано сохранить все из первой и только поменять лицо. Походу она не знает, что такой "image 1" и "image 2".
Продолжение клоунады. Если упростить промпт до уровня "stylize the face of the girl in the foreground in image 1 with the face from image 2", то Кляйн на фотореалистичную image 1 вставляет рисованное лицо, хотя image 2 тоже фотореалистичное.
>>1494420 Image 1 и Image 2 это картинки из двух load image в воркфлоу. Здесь постить конкретные примеры не имеет смысла, это будет лишним мусором, не добавляющим ничего к сути.
>>1494427 В воркфлоу, недавно появившемся в комфи, обе картинки названы именно image 1 и image 2. Во многих других случаях в промптах они названы так же, либо picture 1 и picture 2. Нужно же как-то дать понять в промпте, о чем речь.
Чтобы было понятнее, вот еще раз результат замены лица, которое делает Кляйн. Здесь я взял рандомно две картинки. От изменения размеров, подгонки второй картинки под размеры первой, удаления на ней всего кроме лица, а также от усложнения и изменения промпта (replace, create и т. п. вместо swap, подробного описания того, что откуда взять и что где оставить) ничего не меняется. Модель распознает лицо и понимает, куда его приклеить, но делает это, мягко говоря, из рук вон плохо и до неприличия долго. Кстати, на приложенной картинке Кляйн еще более-менее удачно поменял лицо. На других он просто орудует как начинающий пользователь компьютера в пейнте.
>>1494490 Дело не только в цветокоррекции. Кляйн просто грубо вырезал лицо и вставил его. Я уже писал в промпте и про цвета, и про тени, и про освещение - результат идентичен с тем, что получается, когда ничего из этого не упомянуто в промпте. Вся суть замены лица нейронкой в том, чтобы мощь нейронки сделала идеальную замену, а говно с цветокррекцией на коленке можно сделать и в фотошопе.
>>1494413 Клоун, про картинки, как и для квен-edit, надо писать СЛИТНО. "image1" - это, блин, спец-последовательность токенов, а не просто слово с числительным. Как ключ для активации лоры, где любая чушь может быть, лишь бы уникальная.
понимание промпта кляйна 9б выше чем у зимаги (это и не удивительно 9б против 4б)
первая картинка зимага, вторая кляйн
Промпт спизженный и обьединенный из прошлых тредов: The photo depicts a realistic-style cat holding a fish in its mouth and running away from an angry fishmonger, while behind the cat a young woman holds a pair of pink underwear in her hands, sniffs it, and brings it to her nose.
>>1494484 Ты промпт через жопу пишешь. Он могёт в свап лица, но лицо будет совсем не похожее, лишь общие очертания. Поэтому можешь даже не пердолиться пока лора специальная не выйдет. >>1494287 Аблу попробуй заместо стокового, цензура сильно анатомию портит. Ещё надо будет клип скип затестить как на Z-image, но я пока до этого не добрался, может он тоже Flux в 2 раза послушнее делает.
>>1494630 У меня есть несколько генераций на 9b с полным отсутствием сосков. И там пока их в промпт не пропишешь они вообще не появляются. Т.е. просто плоская грудь. Разница скорее всего не в цензуре, а в размере энкодера и самой модели.
>>1494637 так проблема в том что на 4б хоть прописывай хоть нет они всё равно не появляются, а в 9б когда их прописываешь то они есть хоть в какомто виде.
>Разница скорее всего не в цензуре, а в размере энкодера и самой модели.
сама ЛЛМ-ка думаю могла бы отрисовать а вот модель скорее всего порезана сильнее чем 9б
Для edit-моделей (по крайней мере линеек Qwen-Image-Edit-2509/2511 и FLUX.2 dev/[klein]) обращение к reference image идёт именно через «image 1» «image 2» и так далее. На Qwen-Image-Edit-2509/2511 это было даже во входах узла прописано.
>>1494642 Сделал прогон на одном и том же сиде. Клип скип на флаксе не работает вообще. Так что забудьте про него. P.S. За одно на том же промпте прогнал z-image, без клип скипа 8 сделало вообще не тех персонажей и у девушки одна нога. С клип скипом полностью последовало промпту. Так что пока что из улучшений флакса только аблу использовать, но надо прогнать разные будет, на з-имаге из 4 которые я тестил один был на несколько порядков лучше остальных.
Используй правильно: Что-то типа: «Change the head and face of female character on image 1 with the face from image 2». То, что у тебя на изображении, это не «girl» в понимании модели.
> Причем изменение разрешения обоих картинок
У тебя в default workflow стоит узел, который ужимает все изображения, поданные на вход до 1 Мп. Естественно, меняй разрешение, не меняй, оно будет приводится к этому значению.
Не гарантирую что это "лучшая", скачал первую попавшуюся в день релиза, надо тестить все которые есть. Но анатомию оно гораздо лучше делает чем обычный квен.
Не знаю зачем вы генерите пластиковых баб ван гирл стендинг, их и сд 1.5 может сделать. А вот то что Флакс сохранил от своей старшей модели знание России это огромный вин. Качество конечно не очень, но ни сдохля, ни зимага, ни квен не могут в это. Теперь можно генерить баб ван герл стендинг в России, с российской одеждой и антуражем.
>>1494713 Стол №1 : риет из сюрстреминга, твороженная запеканка с мидиями, кисель из чистотела. - Stable Diffusion
Стол №2 : маринованные огурчики, фаршированные черемшой, расстегаи с бычками в томате, кефир "Боярский", сельдерей - для всего семейства Flux
Стол №3 : продукт пиццесодержаший "флорентина с ананасами", напиток вискарный "Джек Данилофф", чайный напиток "Пуэрный", козинаки из семян полыни - Qwen
Стол №4 : соевый напиток "Бабл Бинс", рагу из соевого мяса с рисовым бульоном, порридж из органического пшена с сублимированными ягодами - Pony, Chroma, Люстра.
>>1494736 без обид, клейнофилы, но судя по генам, как будто в тред полуторагодичной давности зашел, качество что сисика, что несисика - отвратительное. При всем уважении, без негатива.
Вот это они молодцы, что написали. Надо чтобы как табличку на шее носили, когда постят: «Я использую GGUF». Всё. На этом можно было бы ставить точку. Редкий GGUF отквантован корректно, сохраняя самые важные веса в высокой точности, а второстепенные с меньшей. Тех, кто выпускает качественные GGUF на HuggingFace по пальцам пересчитать можно. Чаще получается «GGUF взял — важные веса потерял». Вы даже представить не можете где вам насрут ваши GGUF, пока не сравните с BF16 или хотя бы с FP8 моделями. Следующий момент, если у вас не BF16 или хотя бы FP8 модель, то ваши результаты тоже под вопросом. Снижение точности модели влияет на генерацию. Когда у вас начинаются чудеса, пеняйте в первую очередь на низкую точность модели, потом на distill и разные ускорялки.
Поскольку то, что я писал в прошлый раз по поводу экспорта и анализа conditioning для местной аудитории тяжеловато, скорректирую подход в сторону первой сигнальной системы по Павлову, чтобы было доходчиво.
Итак серия изображений: Левая часть: qwen_3_8b.safetensors; Правая часть: Huihui-Qwen3-8B-abliterated-v2.safetensors (полноценный, на 16 Гбайт, не GGUF обрезки) https://huggingface.co/huihui-ai/Huihui-Qwen3-8B-abliterated-v2/tree/main Я про него уже писал, когда отвечал на тему abliterated text encoders.
Настройки генерации: Модель: flux-2-klein-base-9b.safetensors; Steps: 20; CFG: 5.0; Seed: 42 (фиксированный); Остальные настройки samplers и прочее можете посмотреть (а также проверить результаты генерации) в прилагаемом workflow (файл ComfyUI_00013_.webp) Остальные примеры следующим постом:
И пусть теперь хоть кто-нибудь ещё раз заикнётся, что abliterated text encoder в случае для FLUX.2 [klein] даёт что-то радикально отличное от обычного text encoder. Сказки про анатомию и прочее туда же.
>>1494795 Опять шиз пришёл. Никому не интересны твои посты. Нормальные сравнения уже были до тебя, а свои я постить не буду, мне лень на это время тратить. Пользуйся дальше на здоровье и причмокивай.
Мда ребятки.. Шел уже 2к26 год, а все ниче лучше нсфв SDXL так и не выпустили. Сколько уже всего понавысирали модного и веселого, и каждая все хуже и хуже может нарисовать ебаную анатомию банально, неужели это так сложно? Лоры не спасают а ломают, как это видно в квене например. В итоге так и остается сидеть на дмд сдохле, которая все еще ебет новое говно как это не печально
>>1494813 Очень большие усилия уходят именно на то, чтобы заблокировать возможность генерации харама. Если бы просто тренили на качество без задней мысли, не было бы проблем с анатомией. Самые мощные современные модели очень слабо зацензурены на уровне датасета и теоретически могут рисовать что угодно, так как разработчик имеет возможность цензурить картинки после генерации и не отдавать их юзеру. Разрабы моделей с открытыми весами такой возможности не имеют, поэтому калечат свои модели — с плачевными результатами, выходящими далеко за рамки обнаженки.
>>1494821 Хоть в каком. Я уже обжёгся на GGUF, пока не открылись глаза. Ничего против GGUF не имею для случаев, когда VRAM/RAM и даже SSD вместе для запуска не хватает. Тут безальтернативно. Но когда есть выбор, лучше GGUF не пользоваться.
Я уже писал о том, что всё очень сильно зависит от того кем и как был квантован GGUF. Если автору GGUFа удалось отделить все важные веса в блоки с точностью BF16/FP8, а второстепенные с точностью ниже, то может быть и терпимо. Как вариант оценки, собрать workflow, где будут сшиваться два изображения и прогнать беглое сравнение конкретного GGUF с обычной BF16/FP8 моделью, чтобы своими глазами увидеть результаты под свои собственные prompt, оценить отличия.
Фокусы GGUF не всегда удаётся заметить сразу, но когда они вылезают, ты даже не поймёшь, что испортило тебе генерацию. Будешь sampler/scheduler крутить, strength LoRAs менять, потом дойдёшь до CFG, shift и количества шагов, пока не выяснишь, что дело было в конкретном GGUF, после того, как сравнишь его именно на этом конкретном prompt с результатом на BF16/FP8 модели. Может быть, ты с этим не столкнёшься. Я уже сыграл в эту игру и больше не хочу.
Дальше исключительно моё субъективное мнение, а не рекомендация: Если мне приходится выбирать именно для моделей генерации изображений, то: BF16>FP8>GGUF_Q8 (это несмотря на то, что в некоторых GGUF часть весов в точности выше FP8, что казалось должно было бы перекрывать модель у которой все веса в FP8)>далее до Q6>Q5>дальше всякие nunchuku с их svdq квантами>дно>Q4 и ниже (ниже Q5 и svdq nunchuku я вообще не пробовал для генерации).
>>1494795 Спорить с долбоёбами в интернете это одно, а правда всегда превыше.
Сделал полноценные прогоны на нормальных промптах, с которым флакс не справляется и которые должны быть зацензурены, ровно 0 разницы, ни одна абла модель никакой разницы не привнесла. А те первые короткие тесты, меня затролил рандом, выпал сид на котором обычный энкодер делает расчленёнку, а абла нет и так несколько раз. Так что, что клип скип, что абла, на флаксе ровно нихуя не делают, используйте сток энкодер и сток клип. >>1494799 Когда вам долбоебам уже входы на сайты по паспорту выдавать будут? Чтобы за гнилой базар ответ несли. >>1494864 Опять шиза. Речь шла о энкодерах, на которых разница минимальна в большинстве случаях и q4 практически ничем не отличается от полноценных весов. И ты решил подменить это на "модели генерации изображений", в которых любому идиоту понятно что кванты портят качество, достаточно взглянуть на любые картинки сравнения city96. >>1494813 Если тебе нравится кушать пластиковый кал, то дмд сдохля действительно 10 из 10.
На деле у нас нет ни одной нормальной дотренировки современного флюкса/з-имаге/квена потом обмазанной дмд, чтобы что-то сравнивать. А как базовые модели что кляйн, что з-имага, что квен очень неплохие и сдохля им в подмётки не годится по многим параметрам.
Хорошо, что уточнил. По одному очень информативному предложению в посте я контекст потерял и завёл старую пластинку. Представил, что в довесок к text encoder, модели генерации у них тоже GGUF низких квантов, что вместе должно давать потрясающий результат.
>энкодерах, на которых разница минимальна большинстве случаях и q4 практически ничем не отличается от полноценных весов.
Я с этим согласен (в целом). Поступлю проще, если будут силы и время, накачаю разных квантов, дополню workflow и прогоню ещё раз из любопытства, благо уже целая коллекция собралась: аблит и обычный в bf16, fp8mixed, осталось гуфов качнуть и side by side расставить.
>>1494931 А ты чертежи, и дом по ним построенный - тоже по размеру сравниваешь? :)
Чудик, размер лоры не привязан к размеру датасета напрямую. Зато косвенно указывает - какой у нее Rank, т.е. сколько информации она может хранить. И если ты не хочешь видеть одну единственную сиську везде - нужен высокий Rank лоры, чтобы бы было где хранить информацию о том, что есть такое "сиськи" вообще, и как они могут выглядеть во всем их разнообразии. :)
Простая аналогия: Rank = коробка. В маленькую коробку много не засунешь. А в силу особенностей всего этого дела - "коробку" надо для лоры выбрать заранее. Потом заменить уже нельзя, только начинать заново.
бля, в каждом треде мусолится одна и та же хуйня без конца анчоусы, аблитерейтед и прочие "расцензуренные" версии нужны для того чтобы взаимодействовать с ллм в режиме аля чатбот, когда моделька должна "подумать" и выдать какой-то ответ на твои запрос.
когда же ллм используется тупо как текст экодер для генерации картинок, то новый текст она не генерит, соответственно нет разницы между обычной и "расцензуренной" версией.
>>1495056 Чел, лора должна быть low-rank, лоры просто не предназначены для рангов выше 128. И лоры на высоких рангах начинают шум датасета запоминать, а не концепты. Плато знаний лор всегда в районе 16-32, даже на мультиконцептах. А генерализация всегда выше на мелких лорах, чем на больших. Даже на UNET с конволюшенами выше 64 не было смысла идти, на DiT всё ещё более сжато. Алсо, при ранге 128 и датасете в 500 пикч у тебя весов больше чем есть пикселей в датасете, кроме шума или оверфита там ничего не будет. Я ту лору зетестил, она больше мыла добавляет, чем консистентности лиц, лол.
>>1495080 У меня была скачана лора на селебу с цивита, когда их еще не выпиливали, и это была самая лучшая и гибкая лора которая воспроизводила в точности человека, очень гибкая и поддающееся любым действиям. И вот что самое интересное, весила он 16 мб, и rank был 8 или даже меньше. Почему то так
>>1495100 лора на селебу (одна штука), которую можно натренить хоть из десяти фоток vs лора на сложный концепт из огромного датасета действительно, почему ранг разный.......
ну и гибкость про которую ты говоришь идет от базовой модели а не от лоры, лол
>>1494795 >Редкий GGUF отквантован корректно Дай я тебя обниму анонче. Наконец-то в треде еще один разумный человек!
>Следующий момент, если у вас не BF16 или хотя бы FP8 модель, то ваши результаты тоже под вопросом. Снижение точности модели влияет на генерацию. Этот постулат надо выжигать каленым железом на лбу свидетелям святого Герганова.
Тут лора появилась на замену головы https://civitai.com/models/2027766?modelVersionId=2610018 для Кляйна. В комментах там есть ссылка на воркфлоу. Это уже получше той клоунады, что со стандартным минималистичным воркфлоу без лоры, голова вставляется практически бесшовно, и тени, и баланс цветов подгоняется. Но и здесь не без недостатков. С этой лорой модель с завидным упорством меняет всю голову, включая волосы. Причем делает это со всеми персонажами, которые есть на картинке.
>>1495438 Что с этой лорой, что без нее, такое чувство, что работаю не нейросеткой, а с четко прописанной функцией программы. От изменений промпта вообще нуль изменений в результате. С лорой меняет более-менее плавно, но результат строго предопределенный.
>>1495438 ты в этот воркфлоу вообще заглядывал? он ничем от дефолтного не отличается. я уже даже не спрашиваю почему ты вообще ожидал что для сраной лоры нужен специальный воркфлоу , для же вас даунов необучаемых "вокрфлоу" это черная коробка которая неизвестно как работает даже если все ноды перед глазами, если чето не получается надо бежать искать новую черную коробку, которая наверное заработает лучше, 2026 год на дворе ебать
из клоунады тут только то как ты промптишь. уже писал тебе что не надо пытаться одновременно радикально менять стиль и свапать лицо за один промпт, кляйн такое с трудом переварит.
>>1495533 можно, но вангую, что тебе не понравится:
Сначала определись, на чем ты хочешь запускаться. У тебя есть 2 пути: Винда и Линух. Если твой путь Винда - то гугли ZLUDA (там надо будет немного ручками в процессе пошаматься с заменой системных библиотек) Если Линух - долбиться в RocM как делали диды
В обеих случаях - ставь Comfy сборочку под амудэ, не ебись с говняком типа Forge, Automatic1111 и прочими ископаемыми. Все гигачэды юзают только комфи, не буль лузером.
Будь готов потратить 1-3 дня на пердолинг, гугление ошибок, и в результате ты получишь нестабильную систему с скоростью 1-2 секунды на шаг (или хуже).
Для твоей RX 570 самый очевидный вариант — поехать на авито и на вырученные деньги (не смей ржать в лицо покупателю) сформировать финансовый базис для покупки нормальной видеокарты.
А еще лучше - выдели пару десятков тысяч рублей и бери периодически в аренду сервачок. Вангую, за месяц ты попробуешь все что хочешь, надрочишься на AI-писик и успокоишься. Это будет дешевле покупки карты (купишь карту-захочешь апнуть еще что-то и т.д)
>>1495508 Ты всерьез считаешь, что заменить лицо в фотореалистичной картинке на лицо из другой фотореалистичной картинки означает радикально изменить стиль? Тяжелый случай. Иди лучше поичтай документацию к черным ящикам, может это тебе прочистит голову, хотя вряд ли это поможет понимать больше двух слов одновременно.
>>1493835 (OP) Походу в треде орудует семен, который ни разу не запускал комфи и вообще не имеет представления о нейронках. Он невпопад отвечает анонам, на поверхностный взгляд по теме, но по факту полную бессмыслицу.
>>1495845 >Replace the standing man from image 1 with the woman from image 2 while keeping the same pose Жертвы, блядь, ЕГЭ. Вам доступно изучение английского языка в любом формате, все возможности - буквально на кончиках пальцев. Но нет блядь, мы будем гнуть свою линию и удивляться, почему условная модель делает не то и не так.
Swap the standing man in image 1 with the woman in image 2, but keep the man’s pose.
>>1495854 ору с еблана ты во первых проигнорил то что модель нормально свапнула по такому промпту, а во вторых сам написал полную дрисню вместо промпта мимо
>>1495854 swap подразумевает, что их нужно поменять местами, кста. В конце вообще путаница, у тебя по таймлану мужик уже заменен на бабу, но ты все равно просишь сохранить позу мужика.
>>1495864 >нормально свапнула по такому промпту смешно, но оу-кэй >мимо хуимо, мой маленький дофаминофаг, ищущий одобрения у незнакомых людей.
>>1495867 >swap подразумевает это у тебя ГБОУ СОШ №2 подразумевает, а вот у носителей языка все предельно понятно и четко. > тебя по таймлану какой блядь тайм-лайн, у тебя LLM-энкодер, а не CLIP. ебать да кому я это все пишу... Таймлайн у него блядь, заклинания буков, ебать мой хуй.
>>1495707 Он в каждом треде активный пользователь. Особенно смешно, когда свои картинки выкладывает, там кровью плакать хочется. Хотя на словах он ниибацца Лев Толстой.
>>1495955 9б не каждое карыто потянет, да и если бы зедка была 9б то мне кажется она бы нагнула кляйн, при том что зедка 4б не очень сильно уступает 9б кляйну
>>1495960 >9б не каждое карыто потянет Любое, которое тянет ZIT. Разница по нужным ресурсам минимальна, особенно если учесть, что кляйн официально в FP8 есть.
>при том что зедка 4б не очень сильно уступает 9б кляйну ??? Какая еще ZIT 4B??? Отсыпь, такого-же, а? :)
>>1495893 >а вот у носителей языка все предельно понятно и четко. Ловите носителя языка! Быстрее, пока не убежал! Будет нам промпты писать! Какой же ты даун.
Хз че тут жалуются на фэйс свап. Нормально работает через воркфлоу от разрабов. Для результата нужно покрутить сэмплеры и шаги. И это через корявый промт Replace the character's face in image 1 using the character's face in image 2. Even out the skin tone and lighting. Баб раздевает, лица меняет, вот только с позами пока не очень. Писик >>1494767 работает кста.
>>1496066 Проблема в том что он работает только для свапа, если хочешь сгенерить что-то с заданным лицом - эта лора только хуже делает. А свап нахуй не нужен, его и до этого умели делать на любом говне.
>>1496099 если бы еще оно умело нормально генерить по референсу, а оно не умеет
Кляйн это урезанная версия флюкс 2 все таки, и лоботомия, похоже, сильно повлияла на возможности генерации, когда эдит функционал задела относительно слабо. Поэтому только и остается что генерить всратую хуйню не похожую на реф, а потом дополнительно свапать и получать относительно неплохой результат, пусть и не без нюансов.
>>1496099 >лора на свап мне не зашла тоже Это я объебался, не тот линк сделал. Вот это хотел линкануть https://civitai.com/models/2319552/nsfw-flux-klein-no-face-change?modelVersionId=2609505 Без этой лоры, из коробки, у меня рисовало вагину куклы. С ней норм рисует волосатую. Лору на свап не использовал, юзал дефолтный воркфлоу от разрабов, тот где 5 в одном. Людей удаляет, одежду меняет. С аутпеинтом пока не разобрался.
Тут все на portable сидят что ли? Комфи чмо забыло загрузить апдейт для базового manual installation. Хуй поймешь как обновиться на версию с кляйном без установки портабл параши для даунов.
>Поступлю проще, если будут силы и время, накачаю разных квантов, дополню workflow и прогоню ещё раз из любопытства, благо уже целая коллекция собралась: аблит и обычный в bf16, fp8mixed, осталось гуфов качнуть и side by side расставить.
Я хожу по Hugging Face с чёрным мешком для мусора и собираю в него все GGUF, которые вижу. На два полных мешка целый день уходит. Зато, после тяжёлого дня я прихожу домой, иду в ComfyUI, включаю горячую цепочку узлов workflow… мм и сваливаю в неё своё сокровище.
Настройки генерации (такие же как и вчера в посте): Модель: flux-2-klein-base-9b.safetensors; Steps: 20; CFG: 5.0; Seed: 42 (фиксированный); Остальные настройки samplers и прочее можете посмотреть (а также проверить результаты генерации) в прилагаемом workflow (файл ComfyUI_00015_.webp)
>>1496172 Нет покоя даунам. Случилось классическое Я ЧТО-ТО НАЩЕЛКАЛА И У МЕНЯ ВСЁ ПРОПАЛО, поэтому не обновлялось. Комфи чмо не виновато. Портабл для умнейших. Все апдейты на месте.
>>1496198 Я не проверял, а то, что скажу дальше, скорее нафантазирую (ну ничего, поправят, если что):
Фишкой 4000-й серии было аппаратное ускорение FP8 и оно очень здорово зашло для нейронок. Эту «ошибку» решили исправить в 5000-й серии, ускорив FP4 (для нужд FG в DLSS 4.5, нейротекстур и прочего, что обещают). На 4000-й серии FP4 (в теории), должны работать медленнее (чем на 5000-й серии). По крайней мере об этом писали применительно к ComfyUI: https://blog.comfy.org/p/new-comfyui-optimizations-for-nvidia
Помимо этого можно не говорить, что точность FP4 ниже, чем FP8 (про BF16 не говорим). Я на 4080s в сторону FP4 даже не смотрел. Это на 5000-й серии на топах и предтопах разработчики ComfyUI обещают двукратный прирост (для 5000-й серии) по сравнению с вычислениями на них FP8 и BF16/FP16 (что косвенно позволяет сделать вывод, что FP8 и BF16/FP16 на 5000-й серии не ускорялись).
Тем не менее, по словам впаривателей-маркетологов, NVFP4 должно быть сопоставимо по качеству с FP8 (да чего уж там и с BF16; не удивлюсь, если ещё FP32 переплёвывает), но в два раза быстрее и так далее.
Если протестируешь, расскажи, пожалуйста. Я сижу на BF16 и FP8 как наиболее подходящих для моей видеокарты.
>>1496208 Не давнее, чем Z-Image-Turbo. Там иногда и по три ноги рисует, не то, что пальцы. Особенно проявляется, когда нестандартное (а не 1girl standing) положение тела или взаимодействие персонажей пытаешься описать. Просто тут говорить об этом не принято, ведь «Z-Image-Turbo это самая лучшая модель1111».
>>1496206 >Фишкой 4000-й серии было аппаратное ускорение FP8 А это ускорение с нами в комнате? Я сколько не читал про эту поддержку, ни разу в комфи не видел значительного ускорения между bf16 и fp8 моделями ни на какой нейронке: видео, аудио или изображениях. Чувствую как будто наебали.
>>1496208 На кредите одит чел писал, что ситуацию сильно улучшает смена сэмплеров и шедулеров: обычный ksampler с euler/simple или euler/beta. Там же советовали flux2 latent ноду для разрешения. Типа, она правильнее размер задаёт, что помогает артефакты уменьшить. Я сам не тестировал, может и сработает.
Как сейчас дела у SD 3.5, повторили ли они успех SDXL? Есть на нее какие либо тюны крупные и лоры? Ведь она продолжитель и прямое развитие SD после SDXL
>>1496223 >Ведь она продолжитель А чего не сд3? Сд кал даже с цивита под чистую потерли. Поскорей бы еще вот этот мусор убрали из списка или хотя бы добавили возможность самому отключать ненужные блоки в фильтре.
Как сильно klein ебет qwen edit? Я почти не пробовал qie. Попробовал простой промпт со сменой ракурса и стиля на klein и прям ощутимая разница c kontext. Потому что kontext игнорит нахуй даже такой примитивный промпт. Он без лор вообще ничего не делал походу.
Алсо, у вас нет ощущения, что 4B лучше 9B? Пиздец nsfw лора ебашит. Только ради неё можно было выпускать klein. Колоссальная разница между подобными лорами на прошлых эдитах. Да она даже лучше ручного инпейнта. И это я только на дистилле 9B попробовал без смены семплеров.
>>1496289 >Это БАЗА Да, сучки... >>1496310 >Пиздец nsfw лора ебашит. Нам остаётся только верить тебе на слово, как всегда... >у вас нет ощущения у нас есть стойкое ощущение, что ты дохуя пиздишь попусту.
>>1496310 >Как сильно klein ебет qwen edit? Весьма заметно. :)
Вчера пол вечера игрался именно с edit режимом. Шикарно умеет менять стиль - первый qwen-edit нервно курит в сторонке. Это уже даже не просто замена стиля, а "сделай мне зашибись" из говна и палок. Скармливаешь на вход картинку-скетч вида "курица лапой" и промт "сделай из этого профессиональную фотографию" - делает, сцуко. В особо тяжелых случаях - можно в два прохода (взять то, что получилось с первого раза, и положить опять на вход). Позы меняет примерно на уровне qwen-edit 2509 (2511 я так и не попробовал толком, ничего сказать не могу). Где-то лучше, где-то хуже, но в отличии от qwen - практически не трогает части изображения о которых его не просили. Через ноду RGTree Compare смотрел - очень хорошо сохраняет, и не сдвигает картинку. Бекграунды меняет - песня (изредка - матерная, но в основном - зашибись выходит, и с минимальным промптом. :) ) Может вносить несколько изменений сразу практически не ухудшая от этого результат. Пишешь ему "сделай то, добавь это, замени задник, исправь вот здесь и здесь" - делает. Qwen такого сильно не любит. И вроде бы нет характерного шакала картинки, как у Flux Kontext, если редактировать картинку последовательно несколько раз. Только сид менять надо обязательно.
В общем - не уверен на счет qwen 100%, а Flux Kontext, IMHO, можно списывать в отставку.
>>1495951 Нуб хиар. Я так понимаю, что такие пикчи по умолчанию зацензуренные и голыми не делаются? Их потом надо чем-то допиливать до нюдсов? как это сейчас происходит? Знаю что СД 1.5 был без цензуры, а как сейчас с новыми моделями? Какой сейчас вообще воркфлоу для прона?
>>1496404 >не делаются? делаются, но потом их долго деталить надо в nsfw модели с корявыми nsfw лорами. обычно свежие модели из коробки так не могут, гениталии доводятся в сдохле с соответствующими лорами.
>>1493835 (OP) Какая модель лучше подойдет для рисования фантастических пейзажей, сцен, архитектуры? Так чтобы это был не фотореализм, а скорее что-то рисованное красками. И чтобы можно было модифицировать нарисованное или генерировать на основе референсов.
>>1496522 Хм, ананас хочет использовать уже скачанные чекпоинты Flux Klein в SimpleTuner, чтобы не качать 20 ГБ заново. Понимаю его раздражение — повторная загрузка таких объёмов действительно раздражает.
Использование аргументов командной строки
Если вы запускаете обучение через скрипт, вы можете напрямую указать путь с помощью аргумента --model_path:
>>1496622 Если бы это было так просто - я бы не спрашивал. Там есть параметры с путями, но эта залупа только для JSON с описанием конфигурации модулей пайплайна, а не для чекпоинтов.
>>1496509 Просто промптом. Я по порядку пошел. Вчера ковырял возможности edit для случая с одной картинкой. С двумя изображениями, детально, играться сегодня буду. :) Что понял - у него с промптом специфические отношения. Писать надо достаточно правильно, он еще чувствительней к этому делу чем ZIT. Чуть не так и ни туда написал - делает "как написано, а не то имелось в виду." :) Не умеет разрешать логические нестыковки. Если написать "стоит лицом к зрителю в анфас и хорошо видна задница" - будет какая-то унылость или вообще хрень, потому что это невозможно логически. Другие модели - могут для такого промпта, скажем, зеркало добавить, где в отражении будет хорошо видно. Эта - нет, никогда. Пишите четко и ясно. Как задание китайцу, который "может все, только объясните - как?"
До того просто генерил t2i - вот там впечатления были: "неплохо, но не вау". ZIT вроде бы все-же получше для t2i в этом классе в целом. Хотя кляйн знает больше. Кентавров, например. :)
Но все же, пока, для меня кляйн выглядит в первую очередь как edit модель, по основным вероятным его применениям. Это точно его киллер-фича. По ней - нету у него конкурента в таком классе. Вообще нету. Kontext - спасибо, посмеялся (базару нет, первая ласточка, уважуха и все такое... но теперь разом устарел). Qwen - пластик за в 5 раз большее время. И кляйн один делает хорошо все то, для чего нужно аж три разных модели qwen-edit (стиль, позы, реализм). Flux2 dev - ну, если бы он у меня на 3060 заводился... :) И опять же - ждать несколько минут того, что кляйн за полминуты (даже на моем антиквариате!) делает...
Жду ZI-edit, как возможного конкурента. (Конкуренция - это хорошо! Как кошки. :) ) В qwen уже не очень верю, по данному вопросу.
>>1496581 Держи простейшую задачу: Джинкс сидит на скамейке, стиль как в Аркейне. Показывай это "можно" или больше не задавай тупых вопросов. Про можно это в банане - и только благодаря тому, что он и без рефа это может сделать. Реф это хуйня, если модель не знает и не умеет.
>>1496639 >Писать надо правильно А, я тоже вчера игрался и писал достаточно корявые промпты, типа сделай позу в имидж1 из имидж2 и сделай персонажа сидящим.
>>1496660 Да, бля, пускай хоть сейлор мун сделает без проебов деталей. Не помню какие у нее там детали, но если сетка их не знает, хоть усрись ты с сотней рефов, до пизды ей будет, модель постоянно будет их проебывать. Оно даже обычные человеческие джинсы не может повторять из раза в раз по заданному фото, придумывает заклепки, другие швы. Но это я ещё не пробовал base... Может девяточка пиздец ебет.
>>1496652 >можно это в банане которая делаем всем персам огромные непропорциональные головы, а если шот в полный рост - то уменьшает длину ног, делая из людей карликов. Н первый взляд все ок, но если присмотреться и прикинуть пропорции - лителли, каждая гена либо карлан либо гидроцефал с раздутой бошкой
>>1495854 >in image >запятая перед but >keep pose Ебать ты флюент. Нейросетям вообще похуй. Разница между вашими промптами и replace baba будет минимальной.
>>1493835 (OP) Вопрос. Скачал портативную версию Comfy 0.9.2 на Винду. Вроде настроил кое-как первый воркфлоу (нубасина). Однако, скорость генерации очень низкая 15-20 it/sec на ksampler euler. Карта 5060 Ti 16 должна больше выдавать, вроде, причем намного. Модель Qwen Еdit Q5_K GGUF, помещается полностью в Vram. Оперативы 16, файл подкачки на 32, вроде все нормально во Vram грузится. Карта загружена странно, 20 процентов в диспетчере показывает и 80 процентов в Z-Gpu. Пробовал обновляться, выдало ошибку, нейронка говорит, что проблема из-за версии пайтон 3 13, под него типа сборок нужных штук нет. Скачал 0.9.0, то же самое и тот же Пайтон. Есть соображения какие-нибудь, может еще более старую сборку качнуть какую или где? Пока нет возможности все подряд качать и смотреть. Какие идеи, что это может быть? Кривой воркфлоу, ГГУФ тупой или сборка?
>>1496099 >>1496108 >генерить всратую хуйню не похожую на реф, а потом дополнительно свапать и получать относительно неплохой результат ВОТ ЭТО самый лучший вариант еще со времен InstantID и IP-адаптеров. Сначала получаешь человека имеющего такие же пропорции и волосы как у референса +- форма головы. Потом делаешь второй проход, можно и в приближении на меньшем участке картинки - только на лице, где делаешь полноценный фейс свап. Настроить воркфлоу с фейс детектором и все - лучший копирщик человека а ля нано-банан.
>>1496721 > со времен InstantID Вообще то там лицо в точности воспроизводилось с референса и ниче свапать не надо было, а все остальное можно было менять. Утерянные технологии древних хули
>>1496711 >Qwen Еdit если ты редактируешь уже существующую картинку, смотри чтобы она правильно даунскейлила оригинал, 4K картинку ни одна нейронка не перевари норм на компьютере, нужно ее даунскейлить до размеров, которые не будут перегружать видеокарту.
А вообще, возьмика из теплейтов последний воркфлоу на Flux.2 Klein. Qwen Edit уже как бы не в теме сейчас.
>>1496561 >Какая модель лучше подойдет для рисования фантастических пейзажей, сцен, архитектуры? Так чтобы это был не фотореализм, а скорее что-то рисованное красками.
Qwen-Image (не 2512), FLUX.2 [klein] с указанием стиля (FLUX.2 dev).
>>1496727 Исходные картинки мелкие, в районе 500 на 700. Апскейл до 1024 примерно на выходе идет, либо такое же разрешение. Попробовал семплеры с приставкой GPU, чуть поднялась скорость до 12-15 сек. Я знаю, что еще лору на скорость можно воткнуть, но по-моему это все равно не то.
Дрова вроде нормальные, с последними такая же фигня была, откатил обратно.
Зачем вам зетка, кляйн и т.п., если вы все равно на всех моделях генерите в точности то же самое, что генерили на сдохле? Какой-то пердолинг ради пердолинга.
>>1496711 Как гипотезу, проверь выгрузку через диспетчер задач во время генерации (если не очень понимаешь то, что в консоли пишет). Это тебе может только казаться, что у тебя всё влезает. А на деле offload на SSD может идти вовсю. Если есть интенсивная запись на диск, в диспетчере задач ты её заметишь. 16 Гбайт RAM это очень мало, при этом на 16 Гбайт VRAM видеокарте для работы доступно где-то 14. Я не помню сейчас сколько точно занимает Qwen-Edit модель. И ещё, размер файла GGUF ≠ объёму памяти, который требует модель. При этом VRAM не забивается полностью. Там остаётся значительный объём для генерации, а остальное выгружается в RAM. А поскольку RAM у тебя очень мало, то предполагаю, что дело доходит до SSD, со всеми вытекающими. Но это гипотеза.
Прикольно получается, кидаешь кляйну картинку, говоришь чтобы он зумировал определенный участок и он пытается его увеличить (в деталях проебывается конечно но всеравно интересно получается).
>>1496815 > в точности то же самое, что генерили на сдохле ряяяяя, это другое ты непонимаешь Питаются надеждой, что очередная убийца всех моделей нарисует идеальную сисю
>>1496815 Наверно не стоит говорить за всех. Хотя в треде постят очень мало генераций.
В моём случае, ты отчасти угадал. Я начал несколько лет назад с automatic1111. Столкнулся с несовершенством и ограничениями моделей того времени. Понял, что желаемых результатов без кучи костылей я не получу. Поскольку эта деятельность мне дохода не приносила, то я просто забросил всё до лучших времён.
Где-то полгода назад перевкатился, постепенно освоил ComfyUI, начиная с чужих workflow и плавно подошёл к построению своих, параллельно подтянул теоретическую базу, чтобы ориентироваться в новых решениях. Понеслись Qwen-Image (вся линейка, кроме 2512), Wan, FLUX2.dev, Z-Image-Turbo, FLUX.2 [klein]. Сначала была эйфория от prompt на естественном языке. Радость от того, что дожил до качественного скачка в работе с позами, ControlNet (Canny, Depth, OpenPose), постановкой света сцены, color grading, функциями Edit-моделей. Постепенно восторг стал проходить, когда опять начал сталкиваться с неизбежными костылями и ограничениями. В некоторых аспектах прогресс оказался не настолько значительным, как мне показалось на первый взгляд. Практических задач генерации изображений, которые бы приносили мне доход у меня нет. Спустя полгода, когда новизна прошла, желания творить «в стол» особо нет. В чём-то я стал как afterburner-каличи из тредов про видеокарты. Смотрю на циферки оверлея и гоняю сравнения с разными настройками, чтобы оценить их влияние (типа тех, что постил в тредах). 1girl и кумерством на этом этапе не увлекаюсь, а promptить сложные сюжеты с композицией кадра, передачей динамики и мимики персонажей (FLUX.2 dev здесь ближе всех по возможности воспроизведения концепта через JSON-prompt) без определённых костылей не получается. И мотивации особой нет.
>>1496878 На FLUX.2 dev есть LoRAs, которые шакалили геометрию и анатомию смещали стиль в сторону «фотореализма»: lenovo и borealis (boring reality). Я когда работу FLUX.2 [klein] проверял, их подцеплял для проверки совместимости. Они вроде работали как-то. Можешь качнуть и проверить из любопытства.
>>1496815 >если вы все равно на всех моделях генерите в точности то же самое, что генерили на сдохле Я хочу хайрез и нормальные детали, которых на сдохле можно было получить только через всякию ебанину через тайловый контролнет-апскейл. Ну и нормальный промтинг, где можно, наконец-то блядь, описать что где и как друг с другом взаимодействует.
>>1496959 >Устрица не грузит с ошибкой. Там кривое квантование - оно грузит сразу в VRAM, вместо CPU. На гитхабе есть баг и там же есть фикс - буквально по 2 правки в 2-х файлах. Только я все равно на 4080 и 32 гигах оперативки не смог завести это говно. Даже с выгрузкой всего TE в CPU оно все равно OOMится на первом же шаге...
Вобщем, сложно сказать что лучше, зимагм или кляйн (обе хороши), они друг друга дополняют, нужно держать обе модели и пользоваться каждой для своих целей.
>>1497083 @monkey Он притворяется или дебил? >>1497083 ньюфаг полный, /nf/ это не генерация, а нейрофап с готовыми картинками для дрочки, она пашет как часы. если локалку хочешь юзать для порно - качай модели с civitai и пихай в comfyui, там лорки на любую хуйню есть, не ной в чужом треде.
3060 12GB + 64RAM, linux. BS=2, Rank=32, 512х512 датасет (простой, на перса, без edit и прочего), выставлен полный оффлоад для transformer и encoder, оба квантованы в 8bit по дефолту. (Оптимизировать потом буду - проверял на максимально щадящих настройках.) Занято 8.6 GB VRAM и ~20GB RAM. (Может даже чуть меньше RAM - оно же не показывает отдельно от системы). Скорость - 10-11s на шаг. (При этом карта зажата на 110W по лимиту) Но вот печалька - контрольные картинки по 3 минуты с хвостом на штуку генерятся, не дистил же, как у ZIT. Особо не разгуляешься с частыми проверками - а то оно их генерить будет дольше, чем тренить. :)
В общем - огромное спасибо за пинок в нужную сторону.
Я как чувствовал (зарёкся какие-либо советы давать, пока железобетонно не проверю, а тут обосрался), перепроверил ещё раз на FLUX.2 [klein], 9b, как на базе, так и на дистилле. Эти LoRAs не работают. Генерация с ними не обрывалась, я тогда подумал, что всё норм, так как результат генерации отличался и процесс до конца доходил. А сейчас случайно в консоль вывода глянул, а там одни ошибки пикрил. Причём как на FLUX.2 [klein] 9b и на базе и на дистилле на обеих LoRAs. Печаль.
>>1497257 Кстати, именно Base с лорами должна охуенно работать. На кредите один чел выкладывал генерации базы со своими не публичными лорами, там прям охуенно было. Осталось дождаться появления лор. Пока их на цивите хуй да нихуя.
Здравствуйте, аноны. Klein-9b-fp8 выбивает вот эту ошибку, тогда как 4b моделька работает нормально. Попробовал GGUF 9b - то же самое. Комфи обновлял. Использую стоковый темплейт. В чем может быть проблема?
>>1497307 Сделай скрин workflow, чтобы его можно было здесь рассмотреть. Пока по ощущениям, может ты какой sampler чудной накрутил или text encoder не стыкуется.
Давно не давала покоя Z-Image-Turbo в плане её default стиля. «Реализмом» в полном смысле этого слова результат её работы назвать нельзя и в то же время почему-то (потом отчасти понял, на мой взгляд, почему, дальше напишу) он воспринимается при просмотре органичнее, чем результаты работы многих моделей. Картинка плоская, примитивная, местами невыразительная, жёсткая крошечная вспышка, и в то же время не вызывает отторжения, в отличие от результатов работы многих других моделей, после взгляда на которые сразу возникают мысли: «пластик» (в случае Qwen-Image), «мыло» (в случае default FLUX.2 dev), «не верю», «не то». Мои попытки с помощью promptов и управления настройками камеры на FLUX.2 dev воспроизвести этот «стиль» успехом полноценно не увенчались. До тех пор, пока не наткнулся на эту LoRA для FLUX.2 dev. Я скачал её по-приколу, потому что она выглядела вырвиглазо. А на одном из примеров вообще нестыкующийся коллаж.
>Olympus UltraReal >Just as an experiment, I decided to train a LoRA on photos from my Olympus C-5050. I chose this camera because it produces a weird effect - it looks good-quality (at least for 2002 it was very good), yet somehow uncanny at the same time. To be honest, I was surprised by the result; it works remarkably well. Hope you enjoy it too.
Сделал пару генераций и тут прорубило: «вот оно»! (ну или что-то очень сильно похожее). Неужели всё дело в стиле «старой цифровой мыльницы», который конкретно у меня засел с «нулевых» (потому что тогда таких фото было много) и в таком виде остался в памяти, а теперь, спустя годы всё ещё воспринимается без отторжения? Так до конца и не понял, но ощущения определённые возникают. Причуды восприятия.
>>1497330 Ставить ничего и никуда не надо. Надо скачать portable дистрибутив и скопировать его на самый бодрый SSD с достаточным количеством свободного пространства. Portable является самым актуальным и обновляемым. С desktop версией хлебнёшь горя.
FLUX.2 dev «умеет, могёт». (Буханку знает, а ЛиАЗ-677 нет, пришлось референс подкинуть). А в целом, занятно, всё за одну генерацию. Давно уже такого удовольствия от результатов обработки prompt (даже без JSON-форматирования) и генерации не получал.
hyper-realistic high-resolution, high-fidelity, high-clarity, ultra sharp digital photograph of a yellow soviet LiAZ-677, from the reference image 1 with a stylized white-orange graffiti caption on the side of the bus '2ch /ai/ Stable Diffusion', on the soviet street with a chubby middle-aged man inside the bus on the driver's seat, visible through the windshield, wearing a paper bag on his head as a mask with holes for eyes and a smile drawn with a charcoal over the bag, light t-shirt, modern semi-dark bathrobe, decorated with hand painted neon computer themed icons, holding the steering wheel with one hand and waving other hand through the door's window. place the caption 'БИТАРДСК' inside all white rectangles with black borders of the image 1.
@monkey Какая модель лучше Z-image Turbo или FLUX.2 [klein]? flux.2 klein по качеству впереди, особенно в анатомии, текстах и промпт-адхерентности, генерит как топовые облачные, но локально на 12-24 ГБ VRAM с fp8/bf16. z-image-turbo быстрее в шагах (типа 1-4 итерации), но детализация слабее, артефакты чаще, больше для быстрых скетчей или тестов.
если юзаешь comfyui с nunchaku/dmd2, klein на 4-8 шагах вывозит почти без потерь, turbo подойдёт если железо слабое или скорость критична. протести сам на civitai, ссылки в опе.
>>1497528 @monkey Ты хуиту написал, klein зацензурена в хлам, анатомия в говне. На чем ты основывал свой высер? >klein зацензурена в хлам
Бери uncensored кванты с huggingface или civitai, типа fp8 от city96 или NF4, там safety checker вообще не жмёт, генерит нсфв без проблем если промпт норм. Если юзаешь comfy с дефолтными ночами - сам виноват.
>анатомия в говне
На civitai рейтинг klein 4.9-5/5 по анатомии в топ тестовых сетах, лучше turbo в разы на сложных позах/руках/лицах, особенно с 4-8 шагами + dmd2/nunchaku. Тести на промптах типа "1girl muscular dynamic pose" без лор, увидишь разницу. Основано на локальных тестах на 3090 24gb и отчётах в треде/архиве.
>>1497530 @monkey Далбаеб ты электрический, у klein нет dmd2/nunchaku. >>1497530 >особенно с 4-8 шагами + dmd2/nunchaku
Анон прав, dalbaeb, flux.2 klein это не sdxl, dmd2 и nunchaku лоры заточены под stable diffusion архитектуру, на flux их не нацепишь без костылей, comfy просто не проглотит или будет говно генерить. Klein сама по себе дистиллированная на 1-4 шага, турбо-эффекта от этих лор нет, тесты на civitai чисто на ванильной модели.
Тести сам на 3090, кинь промпт "1girl muscular dynamic pose" без лор - увидишь, анатомия ок, но руки/лица иногда косячат как у всех flux, uncensored fp8 решает цензуру, но не ускорение сверх базы. Если хочешь реально 2-4x спид - жди нативных дистилляций или лайтнинг для flux, пока что на sdxl/pony это работает.
>>1497533 @monkey Приложи его мощно Сейчас разберем по частям тобою написанное
>>1497528>>1497530>>1497531 Ты даже не удосужился нормальный пост написать, а просто спамишь реплалами как ньюфаг на первом треде, вместо того чтоб аргументировать или заткнуться. Это не дискуссия, а детский сад, где вместо слов кидаешь ссылки как камни из рогатки.
>Как же ты заебал. Классика токсичного пердуна, который не может толком ответить по теме, а только ноет "заебал". В тредах про ComfyUI и Flux народ делится моделями, лорами и линками на HF, а ты как будто в /b/ сидишь и всех за спам банишь. Если заебало - вылези из треда или кинь что-то полезное, а не этот нытьё уровня "мам, он меня обидел". Сажа за бесполезность.
Че-то проиграл с этого Манки. Представил, как сначала аноны заставляют его вместо себя ответы писать, а потом в интернете все больше таких нейронок появляется и каждый васян электромозги по каждому выпуку напрягает вместо своих.
>>1497570 Так Гемини уже повсюду встроен как ИИ агент, можно при желании заставить его тебе реплаи писать. Только зачем это делать если общение это самоцель, а не участие в спец олимпиаде "кто кого обосрет лучше".
>>1497570 Причина коллапса моделей, кста. Весь интернет засран нейрослопом и ботами, а иксперды на зарплате льют сплошь сою и охуительные нарративы, ничего общего с позицией и поведением реального кожаного мешка не имеющие. В итоге нейросетки понятия не имеют, что такое риал хомосапиенс, да и сами хомосапиенсы растут шизофрениками, пытаясь перенимать аишные ответы как основу мировоззрения.
Если юзаете дефолтный клеин воркфлоу, не забудьте сменить тип скейла с пиксельартного на lancoz. Либо скачать пикрил. Есть официальный гайдлайн как юзать edit модель? Инфа по типу, что два изображения нихуя не равнозначны, в первом нужно юзать композицию, позу, а во втором уже всякие детали, лицо, стиль (?). Задачи, которые легко (и хуево) делаются в одном порядке, становится практически невозможно сделать в обратном порядке инпутов.
Рейт мои полтора потуга. Пока только ковыряюсь что и как, половину из написанного в треде не понимаю. Только с апскейлерами, лорами и инпеинтом разобрался.
Пощупал пока этот кляйн 4б. По генерации качество местами напоминает СД1.5, в плане лишних рук/ног и т.д. Промт понимает так себе. Например 90s magazine photo это в его понимании затертая до дыр бумажка с хреновым качеством и никак иначе. Как едит по ощущениям не отличим от флюкс контекст. Так же неплохо сохраняет качество, не лезет туда куда не просит, не мылит картинку и т.д. А так же не умеет крутить камеру и предпочитает не делать ни фига если что-то непонятно. Долбанутая соя как и у контекста, бикини это предел откровенности, никаких remove all clothes и т.п, странно что еще черными квадратиками не цензурит исходную картинку. Замена энкодера на анцензоред квен особо не помогает. При этом 9б версия вроде менее соевая, даже топлес из коробки умеет. Как плюс - быстрая и легкая, отлично влезает в 16рам 8врам. Удобная система подачи картинок через каскад гайданса, не надо ничего склеивать в одну картинку и пытиться объяснять откуда куда класть как в контексте. В общем имо тулза для дизайнеров выставлять цвета у сумок для фото на маркетплейсе, флюкс-контекст наверное можно удалять. Нужен ли 9б хз, квен эдит наверное помощнее будет.
Я уже все с ssd 2tb поудалял кроме моделей и все равно уже места не хватает, для всего что выходит щас (llm, видео, аудио), для каждой разные виды квантов чтобы потестить, лоры и текстовые энкодеры (тоже в разных бывает). Неужели до 4tb обновляться придется, это же пиздец там стоимость видеокарты уже будет, не хочется нихуя вообще тратиться больше
>>1497987 тоесть вам уже в облом самим промты писать, вам по клику LLM-ка высерает рандомный шизо-промт, а потом вы удивляеетесь почему вас говно получается всякий раз. вы настолько пустоголовые и бесталанные, что даже не можете придумать какой-то элементарный сюжет, пиздец блядь, дегенераты блядь...
>>1498013 Как эдит и юзаю все равно проебывается сильно, задача простая двух персов посадить на один диван то руку лишнюю нарисует то ногу короче хуита квен эдит лучше
>>1498002 >Всё что может быть автоматизировано - должно быть автоматизированно. именно с этими словами вас, бесполезных пидарасов и вышвырнут с голой жопой на мороз
>>1498028 >бесполезных пидарасов 95% мешков никогда не выучатся эффективно пользоваться нейросетями. Задроты меняющие слова в промпте будут ценны всегда.
Ебать сидрим ебёт флюкс шнейне в плане нсфв даже под лорами. Ну и конечно это клозед сорс, а нам как обычно помои сливают. Но можно хоть пощупать, что получится, если кляйн заебато отфайнтюнят. Но есть у меня такая чуйка, что никто не отфайнтюнит её заебато для эдита, лицо будет теряться при малейшей смене угла.
Какую лучше версию кляна использовать для редактирования? Базовую или без префикса. Тут вроде все на базе сидят. На сайте флакса сказано, что лучше без префикса, а база для файнтюна.
>>1498181 Мне хватило одного промпта, чтобы больше не пытаться делать что-то с этой хуйней. Лень пробовать ещё. Если бы там было качество, уже было бы об этом известно.
Каждый раз, когда мне, задавшему некого конкретного персонажа - из игры, фильма или чего-то ещё - выдает анимешную картинку, я в очередной раз убеждаюсь, насколько же убога эта рисовка для безвкусного быдла : любой персонаж превращается в безликое говно, выглядящее как миллионы других, таких же, анимешек. Тьфу блять!
>>1498214 >Тут вроде все на базе сидят Я ещё даже не качал базу. Видел в треде сравнение, база - резина резиной, а дистиллят - приемленый реализм. База для трейна, дистил для кайфа, так я решил пока место не освободил. Выше базу написали про 2тб. Тоже 2тб чуть ли не все под нейронки, всего две ллм лежат, еще даже лткс не скачан, а место нихуя нет, нужно активно вычищать старые модели и оставлять только лучше эпохи лор. А я ещё думал, 1тб с головой хватит, но возьму 2тб, чтобы вообще на похуе качать модели пачками. У меня тогда был только на 512гб ссд и как-то ужимался.
>>1497987 >>1498246 Чтобы хранить то, что используется не самым активным образом HDD существуют под файлопомойки. Зажрались, вообще всё на SSD держать...
А еще существует возможность программных гибридных сборок. Под пингвина - bcache, под винду - PrimoCache или Windows Storage Spaces. Юзал все кроме последнего сам - стабильно и безопасно, если writeback не включать (а под сетки и не надо - кеш чтения нужен, а не записи).
>>1498287 Согласен. У меня тупо места в системнике нет под хдд. Я впервые собирал комп сам, там такой пиздец с проводами, что салазки для хдд пришлось тупо вырвать нахуй, кое-как прижал и закрыл ту крышку, не хочу рисковать открывать её ещё раз. Подумываю взять ещё один очень медленный ссд на 4тб тупо из-за этого, вроде слотик ещё есть. Знаю, что хдд надежней и ломаются они постепенно, тогда как ссд выходят из строя без предупреждений и без возможности восстановления (поэтому уже держу бекап некоторых файлов на втором ссд), особенно в ноутах они держатся 2-3 года.
>>1497975 Не пробовал делать персонажей старше? Я понимаю, пирамида привлекательности и всё такое, но правила есть правила. >>1497987 Два диска подключить не пробовал? Тем более для хранения не нужны сверхбыстрые, достаточно сата говна для моделей, которые грузишь раз в полгода. >>1497989 >JSON-prompts (хотя они работают). А как они будут работать? Просто со стороны видится, как будто те джейсоны парсили на серверах, а не кидали в модель напрямую. >>1498290 Место экономят.
>>1498117 > лицо будет теряться при малейшей смене угла Уже довольно неплохо держит лица под лорами на консистентность. Пикрилы с одного и того же референса.
не ну это ебань какаято с этими новыми моделями, зит не тренирует писик но тренируется идеально, кляйн тренирует но тренирует говняно и генерирует хуйню, радианс вроде генерирует за е бись, но долго как и любая хрома ссанина, больше моделей нет
кароче надо еще будет полгода ждать пока передрочат хотя бы кляйн в нормальную нсфв модель, либо дождаться пока алибуба ебучая высрет базу на зит и уже с нее ждать нсфв еще полгода, ситуация в говне
алсо все больше убеждаюсь что лучше сдхл ничего так и нет по удобству файнтюнинга
от автора файнтюнов Pyro's : "Кроме того, это буквально самая обучаемая модель, с которой я когда-либо работал. Она настолько хороша, что я собираюсь обучить её на 100 тысячах изображений z-image-turbo, чтобы создать свою собственную базу данных z-image, потому что Alibooba, похоже, играет на наших эмоциях. "
>>1498371 Всё так. Сдохля легкая, быстрая, имеет насыщенную экосистему. Корпомодели технически охуенны. Всё, что между ними - ни туда, ни сюда. Вряд ли эта ситуация изменится. Не будут модели от дядюшки Ляо, запускающиеся на пэка для учебы, генерить на уровне наны бананы и сидрима, на качество нужны вычислительные мощности. А с учетом того, что барен решил послать плебс нахуй и все чипы продать в датацентры, ситуация с выч. мощностями у локальных юзеров только ухудшится.
>>1498361 Бля, ты пробовал банану? Погенерь хоть 100 пикч, потом оценивай узнаваемость. Она даже на банане страдает на незнакомых ей лицах. 1 и 4 ещё куда ни шло, для локалки можно затерпеть, но 3 - даже косплеерши больше похожи. Относись критичней к локалопараше, не мы виноваты, что нас хуйней кормят. Когда-то и нам скинут хорошую модель, а пока это хуйня, но хуйня чуть лучше предыдущей хуйни. В этом плане сидрим странный - он вроде генерит не сильно лучше локалки, а иногда даже хуже, но анатомия и сохранение лица В РАЗЫ лучше. >>1498371 Пишут, что он охуенно тренирует. Лоры реально хорошо работают, но отдают жесткой резиной. Может файнтюны зафиксят это.
Страдающим по месту на хдд, вы знаете что у вас там пидрон в папку appdata/local/crashdumps откладывает дымящийся калач весом в 600-800 МБ каждый раз когда комфи вылетает с ООМ или просто крашится?
>>1498458 😐 Ну вот точно не высказывайся по поводу эдит моделей, оставайся экспертом xl-шедевра на века. Значит в эдитах ты не разбираешься даже на уровне домохозяйки. >>1498487 Да, а ещё pip/uv/conda кеширует. Только у большей части они на C:. WizTree хорошо помогает находить забитые папки.
Ты про VRAM или про модель GPU? Сколько найдёт — все съест. В сторону H200 какой-нибудь смотри. Для запуска FLUX.2 dev: text encoder + transformer нужно где-то 110–115 Гбайт. Я выгружаю в RAM (и запускаю на 4080s, а потом жду по 3-4-5 минут на генерацию (зависит от количества reference images), просматривая результаты в preview, чтобы вовремя остановить и не терять время, если получается не то, что хочется) и значения по ссылкам ниже подтверждаю:
>>1498318 >А как они будут работать? Просто со стороны видится, как будто те джейсоны парсили на серверах, а не кидали в модель напрямую. В их билдере промпта так вроде и есть, по итогу просто всё через запятую смерджили. Но я и джейсон кидал, вполне себе распознает не хуже обычного промпта, например цветовая палитра сработала.
Доброго времени суток, аноны, прошу, если есть гайды и советы через что лучше всего делать референсы (или это img2img) в comfy, интересует до бонального простая замена лица, возможно с небольшим отхождением от оригинального изображения, и возможность добавления своих правок, по типу уменьшения/увеличения груди и т. д. Я полный ноль в работе с нейронными сетями, прошу сильно камнями не кидать.
>>1498622 >через что лучше всего делать референсы (или это img2img) lol wut?
> интересует…простая замена лица
FLUX.2 [klein] 9B, Qwen-Image-Edit-2509/2511.
> по типу уменьшения/увеличения груди
Этого тебе соевые модели делать напрямую не дадут. Только через NSFW LoRA или прочие костыли.
>Я полный ноль в работе с нейронными сетями.
Будет непросто. Для получения приемлемых результатов готовься тратить время и изучать приличное количество дополнительного материала. С наскока годных результатов не будет. Максимум, что с грехом пополам ComfyUI запустишь и чужой workflow откроешь, а потом кнопочку Run нажмёшь.
Я уже делал подобие сравнения для fp8 >>1491051 →. Теперь для bf16, раз вопрос возник. Впрочем, у меня оставались определённые сомнения.
Когда перечитывал https://docs.bfl.ai/guides/prompting_guide_flux2_klein#simplify-multi-reference-prompts Чуть смутило Base 4B/9B Best For Fine-tuning, research (undistilled, higher diversity). Понято, что это самое diversity относится к fine-tuning и research, а не к production work. Но наблюдая за процессом генерации на 20 шагах для base и 4 шагах для distill на preview, закрадывались некоторые сомнения. Решил ещё раз перепроверить, чтобы успокоиться.
TLDR Для простой генерации distill (если не брать очевидного преимущества в скорости) чуть хуже слушается деталей prompt (как мне показалось) и лучше слушается воспроизведения стилей (например указание камеры Kodak Portra 400 из примера в руководстве по написанию promptов для FLUX.2 [klein]), где-то выдаёт более целостный и органичный результат. Если раньше сомневался, то теперь практически не сомневаюсь (разве что совсем чуть-чуть, в некоторых моментах), что для обычного вывода лучше distill, чем base (вроде очевидно и само собой разумеется, понимаю). Хотя тогда непонятно зачем в default workflow в ComfyUI идёт сначала генерация на base, а потом на distill.
Про настройки и прочее расписывать не буду. Здесь это нужно не всем. Если интересна воспроизводимость и проверка результатов, то workflow с настройками и promptами в файле ComfyUI_00001_.webp из этого поста.
Серия изображений: слева — base, справа — distill.
Ещё не решил, но можно сравнить как будет себя вести edit на base и distill. Я тогда только одну картинку для сравнения делал на fp8, возможно стоит взглянуть подробнее. Но это не точно.
>>1498380 >100 тысячах изображений z-image-turbo Но ведь обучать модели на данных другой модели это путь вникуда... Кстати, а какое железо требуется для клейна 9b? Я просто только полторашку обучал пару лет назад.
ComfyUI бери portable. Ставь ComfyUI-Manager (в шапке треда, вроде был). В ComfyUI в боковом меню TEMPLATES ищи workflow для FLUX.2 [klein]. Качай модели, которые скажут и раскладывай их по указанным папкам. 4B или 9B в зависимости от объёма VRAM и RAM. Если видеокарта с 16 Гбайт VRAM и 32+ Гбайт ОЗУ, качай 9B. Если ниже, качай 4B. Может и 9B влезет нормально, потом разберёшься. Для первого запуска хоть какую-нибудь.
Вот опять по сравнениям из треда вижу, что klein distill выглядит лучше. >>1498637 Pyro это знатный говноед, на уровне с ббцшизиком и sevenof9 или как-то так. Таким похуй на качество.
Запилил иллюстрацию для edit (FLUX.2 [klein] 9B). Если честно, немного не продумал идею, поэтому помогает с экспромтом Лёха Панин со своим иностранным другом.
Параметры генерации и настройки для проверки повторяемости и результатов прилагаются в файле ComfyUI_00002_.webp.
На последней генерации в узле ImageScaleToTotalPixels выбран Ланцош, вместо nearest-exact, как в default workflow (на изображении подписано). Решил заодно проверить совет из треда. Разницы особо не заметил. «Портретного сходства», которого я ожидал, от этого не особо не прибавилось. Я допускал, что при downscale до 1 Мп изображение зашакаливается и это ведёт к потере деталей, особенно с nearest-exact. Но выбор Ланцоша как-то особо не помог.
Promptы для edit дополнительно скопирую прямо в пост. Без этого может быть вообще непонятно, что должно было получиться на генерации.
The man from image 1 is crawling on his all fours. The woman from image 1 is riding on the back of the man from image 1. Keep the background of image 1.
The man from image 1 is scared and backing up against the wall, covering his head with his hands. The woman from image 1 is close to the man. She holds a rolling pin by its handle with both her hands, performing a lateral swinging motion. Change the background to a rich luxurious Parisian apartment's kitchen with a large window view of Eifel tower.
Reskin characters on image 1 into Muppet show puppet style.
Reskin characters on image 1 into clay animation style with respect to face features details.
Reskin characters on image 1 into Ghibli animation studio style with respect to face features details.
A medium close-up photo of a man from image 1, with a periorbital haematoma, running scared towards the camera. The woman from image 1 is chasing the man with a grin. The woman is holding a thick long purple dildo. Change the background to the Elysee palace interior.
Последние два изображения это nearest-exact, а затем lanczos в ImageScaleToTotalPixels.
Если вкратце о результатах: Здесь ситуация с base и distill уже не такая однозначная, как при обычной генерации. Где-то (некоторые стили) distill справляется лучше base. У base же следование prompt, геометрия, детали, читаемость добавляемого текста (на мой взгляд). То, что FLUX.2 dev в вопросах edit делает всё лучше, говорить нет нужды. Тем не менее, всё равно FLUX.2 [klein] довольно интересный.
>>1498466 можешь смело повысить кфг до 1.5 используя семплер: dpmpp_2m_sde_gpu с таким кфг начинает помаленьку работать негатив, только зануление убери. шедюлер оставь прежним. слайлдер худобы (толстоты+) оч хорошо работает ничего не меняя, есть ещё детейлер, с весом до: 0.3 хорошо насыщает картинку не влияя на персонаж. удачи...
>>1498640 Примного благодарен! Что-то пока в img2img не идет, выдает ошибку, но возможно, я просто не так выбираю настройки. В любом случае, получилось из текста. Буду изучать, еще раз благодарю.
Не знаю, кто там на цветке пел, что Klein 9B "самая легко обучаемая модель", но IMHO - брехня, намеренная или нет. ZIT обучается в разы легче и быстрее, и куда всеядней в смысле параметров (даже если косячишь - она на выходе хоть и не отличный резльтат дает, но и не шлак). А здесь уже 5-тый раз тренировку этого же самого датасета на кляйне запускаю - фигня получается, если по большому счету. Подобрать параметры не выходит, то underfit, то overfit, то детали из датасета плохо захватывает. То что ZIT за 800-1000 шагов - готовая лора, то здесь и за 2000 не сходится никак.
Нет, то что руки у меня кривые и нехватка теоретических знаний по теме - это несомненный факт. Но ZIT даже это прощает. :)
>>1498824 Зетка говно хотя бы потому что лоры натрененые на де-дистиле на самом дестиле как говно выглядят. А у Флюкса лоры отлично на 4 шаговую зелетают. Ну и по концептам Флюкс тренится легче. А уж клонирование лиц вообще зетку нахуй отправляет.
>>1498238 На рисунки в аниме-стиле настоящего художника в разы интереснее смотреть, чем на нейрокал, поэтому чистый анимешный нейрокал особо нигде и не востребован. Ты еблан, если пытаешься оценивать целое медиа по своим же нейровысерам.
>>1498840 На рисунки интересно смотреть если ты сам художник, что там пытаются высматривать не художники я хз, это как смотреть игру в шахматы не зная правил. Просто качни себе прон, передерни стручок да уймись.
>>1498826 Я для ZIT лоры на адаптере тренировал. Никакого говна там на ее основном дистиле и близко не было, прекрасно работают. Вот на других тюнах - да, там картинка с лорой от официального дистила шакальная получается.
>>1498441 >даже на банане страдает на незнакомых ей лицах. и ты думаешь это не специально? Ни одна крупна корпорация просто так не создаст открытую для публики машину для дипфейков, или по крайней мере сделает все, чтобы их не обвинили в намеренном создании сервиса для нарушения закона.
А вот локалки да, там могут не доглядеть или пользователи сами дотренируют.
>>1498843 Очень сильное заблуждение, чтобы получать от чего-то удовольствие, будь то музыка или изображения, вовсе необязательно самому уметь рисовать или сочинять (но у тех, кто это умеет, есть шанс получить ещё больше удовлетворения от увиденного/услышанного). В рисунке настоящего художника всегда есть какая-то динамика - одни линии толще, другая тоньше, игра теней, индивидуальные для хужожника особенности анатомии и т.д., человеческий мозг умеет это воспринимать и оценивать. По сравнению с этим нейрокал с ровными линиями, идеальной анатомией, усреднёнными лицами, шаблонными атрибутами вроде одинаковых причёсок и одежды и пластиковой блестящей кожей выглядит максимально скучно и ничего в мозгу не стимулирует. Что-то из этого можно исправить, жонглируя лорами на стили, но получается не у многих (достаточно зайти в аниме тред и поглядеть что они там генерируют).
>>1498380 >Отлично все он тренирует, >https://civitai.com/models/2326122/flux2-klein-9b-pyros-bj Это эдит залупа, нахуй нинужная. Нам нужна универсальная генеративная модель, а не дженну ортегу заставлять сосать. >от автора файнтюнов Pyro's : У него есть только один недоделанный чекпоинт для сдхл, неуправляемый причем. >>1498441 >Пишут, что он охуенно тренирует. Смотря что. Если сфв контент то да, а остальное... Я прогнал свой стандартный датасет на голых баб и естественно силы лоры нихуя нехватает на изменение весов кляйнохуйни чтобы генерировать сисик и писик - ему просто похуй в 90% случаев на то что было натренено - все эти nude, no clothes и прочее. А если тренировать дольше чем нужно, то кляйн будет воспроизводить датасет с приколами уровня пикрела. Алсо скинни баг имеется у него, многие в дискорде сталкиваются с бабами слендерманами, хз как фиксить.
кто то может подсказать, как это фиксить - в лора менеджере не отображаются лоры которые тем не менее есть - если их повторно пытаться перекачать через ссылку с цивит показывает что они in Library. wtf!?!?!?
>>1498869 >и ты думаешь это не специально? Бля, шизик, оно всё же делает, но просто пока не всегда идеально со всех ракурсов. Да, создадут. Всем похуй. Все ещё и стремятся к этому и совершенствуют reference для видео. >>1498915 >Это эдит залупа, нахуй нинужная. Нам нужна универсальная генеративная модель, а не дженну ортегу заставлять сосать. Кому вам? Мне нахуй не упало генерировать рандомных бомжих. Я весь путь генерю только знакомые лица с момента как появился embedding, ну и по-нормальному, когда выпустили dreambooth для сд 1.4. Edit это действительно будущее. Для совсем убедительной схожести всё равно можно будет чуть подтренить лору. Но думаю, через пару лет edit улучшат и с мульти-ракурсами он будет генерить почти идеально.