Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1475677 У меня через месяц после релиза Z до сих пор ахуй, что теперь у нас есть такая легковесная и красивая модель. Ей бы анимешный файнтюн и что-то типа Хромы, большинство других моделей можно было бы удалять.
>>1475724 >ещё хуже все эти пораши работают через браузер, странно ли что нету автономных EXE клиентов на винду и линукс есть но неск штук Ага, давай условную лапшу вместо браузерной вкладки обернем в электронопарашу. Изменится правда целое нихуя, но не важно.
>>1475677 Я не знаю открою для вас тайну или нет. Но Z image — это экспериментальная модель Qwen, и обучена скорее всего на дистилированных данных квена. И все это в рамках одной компании - Алибабы, в которой делают обе эти модели
>>1476003 Шизик, у них разные архитектуры. И базу очевидно не выкладывают не потому что её нет, лол. Опенсорс - это маркетинг. Когда посчитают нужным - выложат. А не сразу всё.
Что не так? Это и объясняет такую задержку с выпуском базовой модели. Потому что база это квен лол, а базу зимага тупо тренируют с нуля, пердя и пыхтя. И выпустят не скоро (если вообще выпустят)
>>1476003 Чё я только что прочитал?.. Z-Image - это, если хочешь, в некотором роде эволюция Lumina 2. При чём здесь Qwen? А если ты про датасет - то и они у них наверняка разные. Достаточно на генерацию Qwen и Z-Image посмотреть. Хотя бы дефолтную 1girl.
>>1476015 Бля, чел, у Z архитектура NextDiT как у Люмины, у квена совсем другая. Из квена невозможно сделать турбу зетки, блять. И никто ничего не пыхтит, я тебе уже написал что релиз когда посчитают нужным маркетологи, а не когда готово. Qwen Edit последний вообще спустя месяц выпустили после того как он готов был, его в ноябре уже на какой-то конфе показывали, его даже на HF залили за неделю до релиза.
скуфа трясет от одной только мысли что в браузере можно запускать что-либо кроме интернет вкладок. это как знаменитое "ТЕЛЕФОН ДОЛЖЕН ЗВОНИТЬ, а не фотографии делать и в игрульки играть"
>Америкацы были на луне. Да/Нет? >Z image — это экспериментальная модель Qwen, и обучена скорее всего на дистилированных данных квена. И все это в рамках одной компании - Алибабы, в которой делают обе эти модели Всегда интересен был спор на который можно ответить однозначно да или нет. Вот вы срётесь, а давайте определим, что для нас изменится, если да? А если нет? Всего два варианта развития сюжета этой ветки. Давайте быстро промотаем стадию холивар и придем к результату Return (yes\no)?
>>1476249 Шиз, прекращай. Квен даже близко не может в реалистик и стили как зетка. Потрудись объяснить как зетка научилась тому что квен не знает. Алсо, для тебя китайцы написали подробно как что делалось, ознакомься: https://arxiv.org/pdf/2511.22699
>>1476235 Ты еблан сука. Над зимагой работает 16 человек, на квеном 160, у них разное количество параметров, у них бля разные архитектуры - у квена ммдит, у зимаги S3Dit, а турба вообще была получена методом дистилляции DMD через учитель-ученика чего у квена нет и не будет, у них бля разные принципы генерации вообще. Я не знаю каким шизофреником надо быть чтобы утверждать что зимага это квен только из-за того что гигакорпорация дает мощности для рисерчей.
>>1475724 >качество такое же как у 1.5 >пикролы были сгенеры 2 года назд, на 1.5. И ЛУЧШЕ КАЧЕСТВА НЕТ. Но у тебя на пиках примитивный пластиковый концептбейзд позор с кривой анатомией и артефактами, который не способен ни на что. >ещё хуже все эти пораши работают через браузер Локалочки работают на виртуальном сервере с питоном, а браузер это вебморда для него, дебич. >странно ли что нету автономных EXE клиентов EXE это исполняемый файл, дебич. Ты наверно имел в виду ванклик программное решение? Как ты в одну "программу" засунешь енвиронмент питона, куду, десяток составных частей моделек в разных квантах и предусмотришь совместимость со всем гигантским парком мокропись? Фактически комфи это и есть единственно универсальное верное решение для всего нейрокала - тебе предоставляется енв питона, морда чтобы не дрочить скриптики ручками и все что тебе остается накатить расширений и раскидать модельку по папкам. Ты настолько тупой скуф, что не можешь осилить процесс буквально для 20 icq?
>>1476264 >Ты настолько тупой скуф, что не можешь >20 icq Реально не могу, потому что не понимаю логику построений под необходимый процесс, гайдов нет, темплейтов нет, тухлые воркфлоу на сиви 100 летней давности с маняузлами, которые нахуй отваливаются. Комфи - это уровень "мидл" как минимум. мимо другой скуф
>>1476274 >Реально не могу, потому что не понимаю логику построений под необходимый процесс Что именно тебе непонятно? Вот самый простой темплейт эвер для сдохли с прошлого треда, что тут неясно? Все пайплайны конструируются точно также - составные части модели с нодами для их загрузки, узлы с лорами, узлы промтинга, узел семплера, декодинг, могут добавляться специальные ноды для сборки видео если модель допустим для видео или на инпут картиночек ноды если i2i/i2v. Примитив же!
>темплейтов нет 160 темплейтов встроены в комфи давно.
>>1476287 Вот эта хрень t2i там по умолчанию идет так то. Проблема начинается, когда нужно построить i2i, input, output, upsckale и тд. При этом, давай разберем твою схему текст2имейдж, как я, с нуля, должен в этом разобраться? Построение этой примитивной схемы уже подразумевает некий набор знаний. А если мы возьмем условный автомат1111, то мне эти знания нахуй не нужны, бери и делай. В invoke, например, догадались совместить узлы и человеческий интерфейс.
>>1476302 >Проблема начинается, когда нужно построить i2i, input, output, upsckale и тд. Так а в чем проблема то епт? У тя есть ноды на инпут. У тебя есть отдельные ноды на апскейлинг хоть латента, хоть пукселей. Есть сторонние ноды на тайловый апскейл. Есть специальные ноды под специальные апскейл модели. Задавай конкретные вопросы.
>давай разберем твою схему текст2имейдж, как я, с нуля, должен в этом разобраться? >Вот эта хрень t2i там по умолчанию идет так то Ээээ, в смысле как? Логически подумать? Ты когда игрульку запускаешь как понимаешь что кнопка НОВАЯ ИГРА начинает игру?
>Построение этой примитивной схемы уже подразумевает некий набор знаний. Бля ну если у тебя все НАСТОЛЬКО плохо что ты англюсик не понимаешь и не имеешь представления о том как работает модель любая, то у тебя всегда есть гпт, которая тебе хоть как для пятилетнего объяснит любой узел или как подключать что-то во что-то.
>>1476302 >А если мы возьмем условный автомат1111, то мне эти знания нахуй не нужны, бери и делай. Вот здесь ты напиздел. Потому что мне в свое время по первости пришлось подобные скриншоты(Снимок экрана 2024-08-24) делать чтобы не гуглить по новой, когда запустил автоматик и не помнишь какие энкодераы надо добавлять к этой модели. А в комфи есть шаблоны (Templates), где за тебя на все случаи жизни все воркфлоу уже есть.
Я год назад перекатывался с каломатика на комфи, сначала с непривычки плевался, а потом проникся. Идея с рабочими процессами довольно удобная на самом деле, можно на разные ситуации создавать свой вокрфлоу. Например у меня есть воркфлоу на генерацию няшноты, отдельный на пофапать, отдельные на гриды всякие и апскейлы фото и видео. Один раз создал\своровал и уже не меняешь особо.
А в каломатике после фапа\экспериментов приходилось восстанавливать обратно на другое состояние, и это еще довольно криво работало, какие то крутилки ломались и тд.
>>1476315 >есть ноды >есть отдельные ноды >есть сторонние ноды >есть специальные ноды А гайды у меня есть? Или я с "нуля" уже должен обладать необходимыми знаниями? А могли в комфи сделать уже готовые темплейты на основные процессы? - могли, но забили хуй.
>Логически подумать Чтобы логически думать, нужно обладать знаниями. Это тоже самое как тебе на СТО говорят, а хули ты приехал, логически подумай, что у тебя неисправно и сделай, делов-то
>гпт объяснит А, ну чтобы разобраться как работает прога_нейм, мне нужно изучить еще 2-3-4. Ок, твою логику понял.
Суть не в том, что Комфи плохая, суть в том, что это продвинутый уровень и выше. И рассуждать тут про 20 icq, как минимум не корректно.
>>1476345 блять, ты как дошкольник оправдываешься просто никто с необходимыми знаниями не рождается ты забил хуй на получение знаний и жалуешься что нихуя не можешь сделать при их отсутствии, ну я хз как это комментировать
>>1476345 >А гайды у меня есть? Или я с "нуля" уже должен обладать необходимыми знаниями? А ты как в нейронки то вообще с таким загонами вкатился?
>А могли в комфи сделать уже готовые темплейты на основные процессы? - могли, но забили хуй. Они есть, 160 штук.
>Чтобы логически думать, нужно обладать знаниями. Общими.
>Это тоже самое как тебе на СТО говорят, а хули ты приехал, логически подумай, что у тебя неисправно и сделай, делов-то Неправильная аналогия. Правильная будет: тебе дали разобранную пирамидку для детей четырех лет, а ты не смог ее собрать.
>А, ну чтобы разобраться как работает прога_нейм, мне нужно изучить еще 2-3-4. Ок, твою логику понял. 1. Я предложил поспрашивать гпт который тебе распишет все, никаких 2-3-4 прог нет. 2.К комфи есть инструкция где все описано такто.
>суть в том, что это продвинутый уровень и выше. И рассуждать тут про 20 icq, как минимум не корректно. Продвинутый уровень это разобраться как тренировать модельки, а инференс это базовый.
>>1476302 >>1476345 >А гайды у меня есть? Прикинь - есть! https://docs.comfy.org Полноценный сайт официальной документации с гайдами дня новичка в том числе. И, между прочим, в интерфейсе help на него перекидывает. Но ведь инструкции читают только дураки, да? И шаблоны для всех типичных процессов (workflow) там есть прямо в комплекте, просто кнопочкой открывается их меню.
>>Или я с "нуля" уже должен обладать необходимыми знаниями? Чел, а с чего ты взял, что даже инференс локальных моделей это для каждой домохозяйки? Просто не всем дано познать данные материи, если "нишмог", когда другие смогли, то в ком проблема?
>>1476345 >Суть не в том, что Комфи плохая, суть в том, что это продвинутый уровень и выше. Это болезнь всех программ, которые пишутся сугубо красноглазыми технарями. Они делают функциональные вещи, но дико неудобные, но не оттого что они такие злые ребята, а потому что не умеют в дизайн, не умеют в работу с "чайниками". Им проще написать тонны технической документации к своей приблуде, чем сдлеать просто и удобно.
>>1476186 Ты попутала, мелкобуква, меня наоборот трясет от "standalone" говноприложений на сраном electron со всей хуйней, когда можно обойтись вкладкой браузера.
Какой же все таки кривой кал этот квен един новый (и старый). С лайтингом всмысле. В плане nsfw и лорами там одни артефакты, руки вылазят из жопы а жопа вместо башки, и даже если получится найти удачную комбинацию с лорами / шедулером /промптом и разрешением все равно это будет кал, будто я сд 1.5 юзаю.
Получается так что пока не вышла база зимаге, нчиего лучше sdxl для нсфв ничего нет? А если базе зимаге обосрется и не будет новых BigAsp-ов и натвизов для него - выходит так и останется сидеть на sdxl и дмд, т.к нигде такого разнообразия членов, вагин, поз и бабских тушек я еще не видел кроме него и его файнтюнов последних
>>1476583 Я возможно сейчас крамольную хуйню спиздану, но как по мне хромая была вполне норм, если лор наебенить. Увы все проебал случайно rm -rf'нув models вместо output с недосыпа, сеты и тэги остались, но доступа к 4м хуиткам с 80гб уже нет, а обогревать комнату западло.
>>1476665 >>Хромая Не в первый раз слышу, а какая версия? Там же до ебени было итераций, потом релиз - не релиз, я после какого-то V18 перестал следить и аутпуты мои были похоже на фильм ужасов
>>1476583 > Получается так что пока не вышла база зимаге, нчиего лучше sdxl для нсфв ничего нет? А если базе зимаге обосрется и не будет новых BigAsp-ов и натвизов для него - выходит так и останется сидеть на sdxl и дмд, т.к нигде такого разнообразия членов, вагин, поз и бабских тушек я еще не видел кроме него и его файнтюнов последних
Ну вообще даже если база зимаги обосрется (в чем я сомневаюсь, т.к. дистилль то из нее получен скорее всего) то останется пара вариков как допиливать турбу саму. Почему щас плохо сиськи письки заменяются лорой? Потому что у лор обычных очень слабое влияние адаптера и как таковые веса они не меняют а просто дрифтят циферки выходные в узком диапазоне. Это можно обойти двумя путями: 1. Выделить свд экстракт всей зимаги и обучать его, но это создаст узконаправленную модель при малом датасете, но даст письки или на че обучишь. 2. Юзать BOFT алгоритм из ликориса, который способен менять прямо веса модели не затрагивая структуру изначальной модели. Но дело в том что хоть кохака добавил поддержку зимаговского трансформера (буквально одна строчка) поддержка всех модулей ликориса работает ток в пердольном симплтюнере, который работает только на линуксах или под wsl на шинде. Вот офт способен достаточно быстро и мощно внедрять концепты и утерянные знания сисек писек, так что жить можно в целом, просто никто не занимается, а у меня нет времени все симплтюнер настроить шоб работал.
>>1476782 >Почему щас плохо сиськи письки заменяются лорой? Как я говорил в прошлом треде, есть подозрение, что косяк в методе/настройках тренировки. И большинство лор с цветка просто ужарено оверфитом. То что я сам попробовал делать в устрице - работает хорошо. Там, как я понял, с оферфитом в лоре для ZIT получается хитро - картинка от него не сыпется сразу как на SDXL, скажем, а лора просто теряет вариативность, и довольно долго кроме этого почти никаких признаков. И только уж совсем потом начинается что-то с общим качеством. Но к тому момент лора уже ужарена в хлам и вместо концепта получается жестко вшитый объект, да так, что аж плохим фотошопом выглядит.
>>1476885 > теряет вариативность, и довольно долго кроме этого почти никаких признаков. И только уж совсем потом начинается что-то с общим качеством. Но к тому момент лора уже ужарена в хлам и вместо концепта получается жестко вшитый объект тебя совсем не смущает что вся модель себя так ведет изначально?
>>1475611 (OP) Пацаны, а что сейчас для рисунков лучше всего? Zimage как я понял для фотореализма. Или есть лоры годные? А вообще письки что-нибудь рисует нормально? Сука ни флюкс ни зимаж по дефолту не рисует ни соски ни письки.
>>1476893 >тебя совсем не смущает что вся модель себя так ведет изначально? Не так. Если речь про малые отличия в сидах - это не сюда. И нет, меня это не смущает - считаю плюсом. Мне больше интересна модель, которая хорошо промпту следует, а не фантазирует плюя на детали реквеста. Рандом я сам обеспечить могу, когда он мне нужен. А вот следование промпту, если модель не может - это уже ниоткуда не взять. Более того - модель, которая в сидах сильно рандомит - плохо подходит, когда нужно работать над серией картинок. Ну, перс для VN скажем. ZIT здесь вообще удобна - написал подробный промпт на персонажа - так он даже без лор будет везде похож на себя.
На счет лор же - речь о том, что детали на которые тренируется лора должны вписываться в картинку, адаптироваться к остальным деталям. ZIT хоть и мало рандомит в сидах, но промпты то уважает. Вот и с лорой нужно, чтобы при изменении ракурса/позы - менялось и то, что через лору добавлено, но чтобы лора затрагивала только это. И уж тем более, чтобы лора не меняла за собой весь стиль картинки, если только это не лора на стиль, а не на концепт. Или, тем более, персонажа/объект.
>>1476957 Я на устрице для ZIT тренировал. https://github.com/ostris/ai-toolkit Может все популярное (1.5, sdxl тоже), встало и запустилось легко. Все через Web интерфейс. Умеет сам скачивать нужные версии моделей для тренировки. Так же теперь имеет встроенный простенький, но достаточно удобный редактор датасетов. Может показывать промежуточные результаты через каждые N шагов, и сохранять лору каждые M шагов.
>>1477031 > Может показывать промежуточные результаты через каждые N шагов, и сохранять лору каждые M шагов. Ну это, предположим, умеет и коха с вантрейнером, и достаточно давно - я еще в 23 году лору обучал с промежуточными сохранениями. Но гляну, спасибо.
>>1477173 >DC-2K-T2-SL4 Я чё-то читал, что они на фоторелизм тюнятся и вообще не обращал на них внимания, гляну, спасибо. А промпты как генеришь? Я беру случайные слова из словаря и отправляю додумывать детали в gemma27, но она постоянно в одни и те же сюжеты и стили проваливается.
>>1477206 Промпты по-разному. Английский в целом я знаю неплохо, но вот словарь художественных терминов бедноват, и с ним сильно помогают ЛЛМ. С хромой иногда можно просто шизопромтить и будут выходить достаточно интересные вещи.
>>1477404 >нужными тегами Дрочка тэгов — уровень файнтюнов сдохли от васяна и прочего говна мамонта. Современная модель должна просто рисовать что попросят, иначе это брак.
>>1477564 >Дрочка тэгов — уровень файнтюнов сдохли от васяна и прочего говна мамонта. Современная модель должна просто рисовать что попросят, иначе это брак Все современные модели воспринимают теги, даун. Тем более хрома и не тренирована на описаниях, и текстовая залупа там не такая большая как у корпомоделей, и она тренирована на бору в первую очередь, а не на искуственных говнопарах с прилагательных как хрюкс. Если ты прямо напишешь "это фото из журнала 80х" она тебе его и сгенерирует, о таких тегах речь, еблан. Если ты не указываешь конкретно стиль, она делает маняме, но там в датасете дохуя реальных фоток и она может тебе и журнал ретро, и фотосессию, и шлюхограм и т.д. Нахуя её ломать и файнтюнить на реализм? Какой уровень это ебланства? Чтоб как в поникиберлюстре на выходе былол 1,5 позы вместо 1500? Я вижу ты дохуя спец "сдохля" "гавно мамонта", а побочки файнтюнинга ты знаешь, дауненок?
>>1477573 ты еще спроси нахуя лоры использовать, лол. то что хрома может все из коробки, не означает что она умеет все хорошо из коробки. это базовая модель и она именно что создавалась с предназначением быть файнтюненной, со слов ее же разраба. есть база, а лоры и файнтюны от этой базы отталкиваются и прокачивают модель далее в конкретном направлении. если например хочешь отобразить изначально стилизованного персонажа в реализме, то файнтюн справится с этим в 100 раз лучше, а на базовой хроме ты по дефолту будешь получать что-то полупокерное типа "реалистик" мерджей пони, когда от стилизации уже вроде ушли, но на фотку еще не похоже.
попробуй uncanny chroma, выдает в целом такую же пикчу по сиду но видно что уже конкретный сильный уклон в фотореализм, очень хороший файнтюн. а этот спарк не пробовал, да и сомнения вызывает, там датасет из 2к изображений всего
Вы будете смеяться, но последний натвис оказался охуенным, по сравнению с другими он хотя-бы как-то понимает ethnical dress, и прочие штуки. Вообще конечно же хочется пересесть на зетку и мозги себе не ебать технологиями прошлого, и вроде всё что нужно скачал, а как-то всё боязно, вдруг хуйня... Боюсь разочароваться.
>>1477643 Как вспомню уровень понимания промпта от sdxl, аж мурашки по коже, был конечно момент с IL где просто срешь тегами "Баба, титьки хорошие, писик, раком, гига хуй" и он на свое усмотрение это склеивал, а так конечно это вообще outdated кал
Мне нравится как люди пишут "вот конечно модель человеческий язык понимает и генерит пикчи сразу в 2к, зато она не знает церемониальную одежду племени тумба-юмба, с трёх фоток, которые сделал какой-то белый колонизатор в 19 веке"
Подскажите какие прикольные чекпоинты SDXL попробовать. Все эти новомодные зетки и квены не очень нравится ковырять, без души как-то. Мне в основном для быстрого получения сисика и писика.
>>1475724 >ЛУЧШЕ КАЧЕСТВА НЕТ Ну хз, я полтораху и хл когда использую, с каждым разом результаты выглядят все анахроничнее. Уже напоминает опыт игры в морровинд в 2025 году - в памяти остались отличная графика и великолепный геймплей, а на деле... генеришь сто картинок, и ни одной без дефекта. Требует дороботки.
>>1477350 Год Оллама позволяет такое делать с любым чекпойнтом. Просто пишешь ему задание ты аи ассистант, составь на основе этих слов прост для генерации изображения, ну и т.д. в одном окне, а косноязычный набор тэгов в другом. И он составляет из них детальный рассказ.
>>1478088 >>вышиванка то есть ты по русски в промте написал: вышиванка, но слово vyshivanka характерна только для 3-4 максимум языков, но этнические костюмы в вышивкой есть практически у всех европейских народов, и да, если ты пишешь об украинском костюме или русском (беларуском, литовском), то тег: вышиванка будет ктати, например: ukrainian vyshivanka, но насчёт всех остальных нужно указывать английский термин с указанием этнической принадлежности, как то: (чей-то) embroided ethnical (hystorical) dress. Девочка у тебя кстати классно получилась. Ты отдельно промтил: light trough fabric?
>>1478146 4. слегка подпрыгивают и трясут поками под действием гравитации при приземлении (bootydrops), это будет топчик.
пикрил: случайно наткнулся на тег: assise, который означает что человек касается (пола) чего-то ягодицами, в добавок к этому можно добавить: wide lotus position
Базовый воркфлоу для начинающих (обучение)
Аноним03/01/26 Суб 20:10:01№1478361137
Я только сегодня сел, до этого в лапше не работал, именно по причине того, что нихуя не понимал что и куда и зачем цеплять, хватать с пола первую попавшуюся шизо-хуету не хочу, хочу сам всё делать пошагово. если какой-нибудь гайд без "смс и регистрации на моём супер тг-канале" и прочего скама?
>>1478305 Я про то что сильно промпт прокачивает Гемини 3 про. Может быть, конечно, что я обезьяна косноязычная, которая сама не может описать, что хочет или эпитеты подобрать красивые.
>>1475611 (OP) Пацаны, посоветуйте. Как решить проблему. Допустим я хочу сделать совсем чуточный апскейл части картинки. Допустим мне нужно ну хуй знает, добавить деталей на лице. Я выделяю лицо. Ставлю МАЛЮСЕНЬКИЙ деноиз и генерирую. Сука, но есть проблема - при маленьком деноизе картинка почему-то осветляется, то есть контраст пропадает. То есть видно пятно в месте инпеинта. А если поставить деноиз сильнее, то там уже слишком сильно все меняется, что не нужно. Как сделать так чтобы цвета оставались точно такими же, но добавлялись детали? Именно цвета. Эта хуйня и с SDLX и с Flux и zimage это какой-то глубинный косяк нейронок. Возможно в шуме дело я хз.
>>1478418 Да с таким деноизом там пиздец будет и от оригинала ничего не останется. У меня бывает так что в целом картинка норм но вот какой-то участок хочется чуть поправить.
Почему автор называет модель с верхней ссылки "оригинальной"? Выходит вторая типа НЕ оригинальная? С цивитая файл скачался с названием: zimageTurbo_turbo.safetensors в названии отсутствует цифра 16, а в настройках есть только режимы: (см. пикрил) Тогда, как на хигинфейсе, кроме имени: z_image_turbo_bf16.safetensors различается и размер, он там: 12.3 GB, а на циви всего: 11.46 GB. И хэш у них отличается. Так какая из них трушная, нахуя так людей путать? Я так понимаю, что режимы с 8-кой для дорогих карт 40хх и 50хх а для убогих нужен с циферкой 16, я прав? Я качал с циви, потому что бляди с хагина постоянно сбрасывают соединение, и докачка нихера не работает, причём произойти это может как на 10%, так и на 99%.
>>1478511 >Почему автор называет модель с верхней ссылки "оригинальной"? Все куда проще. На цветке уже куча файнтюнов ZIT. Не лор, а именно файнтюнов, т.е. полных моделей, но разумеется, уже не оригинальных. :) (Пока кто-то страдает и ждет base, тем кому горит, и так управляются...) Что до разницы хеша и размера - они обе "оригинальные", только кванты у них разные немного. Настоящий оригинал - https://huggingface.co/Tongyi-MAI/Z-Image-Turbo и на китайском сайте. Только напрямую ты его в comfy не загрузишь, это другой формат. Кванты нужны, их много кто делает, в том числе и по ссылкам что ты кидал - они, и именно от оригинальной модели.
>в настройках есть только режимы: (см. пикрил) Эти настройки не из модели берутся, а в ноду зашиты. Они всегда там есть, какую модель не попробуй грузить.
>Я так понимаю, что режимы с 8-кой для дорогих карт 40хх и 50хх а для убогих нужен с циферкой 16, я прав? Нет. С 16 - это большая точность, занимает больше VRAM, и для больших моделей имели бы смысл для слабого железа где меньше VRAM и RAM. Но у ZIT даже веса в FP16 весят немного, и запускаются даже на картах с 6-8GB VRAM (с частичной выгрузкой в обычную RAM). Потому нет смысла в FP8 или INT8. Небольшой же выигрыш в скорости INT8 (только на 50хх) не стоит потери качества.
>потому что бляди с хагина постоянно сбрасывают соединение, и докачка нихера не работает У меня ничего не сбрасывается никогда. И докачка работает - спецом проверил оборвав вручную. Не туда ругаешься.
>>1478517 >И докачка работает Я посмотрю... И вероятно заберу ту, что на хагине. Но пока результат хуильный чессговоря, всё это очень уныло и блёкло, причём семплер особой роли не играет, шедюлер вообще почти не реагирует. Получается очень херово нарисованая картинка, задираешь кфг, становится более контрастно - пережарено, опускаешь до 1 вроде ок более реалистично, но рисовка как была говном, так и остаётся в независимости от того, сколько шагов ставишь и какую коврину делаешь, что на маленьком, что на большом говнище. Это оооочень уныло. Я не знаю, что я не так делаю, посмотрите сами...
По-моему, всё не так делаешь. Когда начинаешь с азов, берёшь готовый workflow из ComfyUI TEMPLATES для Z-Image и смотришь на результаты.
1) Sampler/Scheduler для начала ставь defaultные из workflow (res_multistep/simple, по-моему, сейчас не хочу лезть смотреть). Когда разберёшься как разные sampler/scheduler работают и что к чему, тогда уже и лезь крутить и менять; 2) На CFG 1.0 negative prompt не работает, в default workflow он заводится «нулём»; 3) Количество шагов не выше 9 (это Z-Image-Turbo на 8 шагов рассчитана по дефолту); 4) LoRA твоя может влиять, уменьшай силу/отключай для теста; 5) Меняй сид после генерации и смотри на результаты (мне встречались сиды на которых получались блёклые изображения).
Это навскидку. Вообще, в виде исключительного IMHO, когда вкатываешься во что-то неизвестное, сначала пробуешь всё на настройках по умолчанию и убеждаешься, что у тебя всё работает корректно. Можешь даже примеры погенерить (где prompt и seed указаны). А потом, когда убедился, что на default всё в порядке, уже начинаешь эксперименты.
>>1478534 добро пожаловать в z-image turbo, модель тысячелетия ща тебе расскажут что ты ничего не понимаешь и глаза тебя обманывают, картинка на самом деле цветастая и точно без слоя плесени!
>>1478544 Посмотри в колонке меню по левому краю экрана интерфейса ComfyUI. Там будет раздел TEMPLATES. В нём выбираешь нужную модель и получаешь все default workflow для ComfyUI для неё. Если всё совсем грустно, напиши, скрин сделаю.
>>1478545 Другие, возможно расскажут. Я поиграл с Z-Image-Turbo и очень скептически к ней отношусь. Мне известны некоторые её достоинства и недостатки. Для точного воплощения задуманной композиции (переноса деталей сцены и персонажей из воображения; если это не лоботомированный prompt 1girl) не подходит полноценно, даже если ей JSON-promptы скармливать. Для быстрых генераций в около-«реалистичной» стилистике и без особенных целей изначально (что-нибудь, как-нибудь с односложными promptами и коротким текстом CAPSом, чтобы буквы не корёжило) пойдёт.
В целом, охарактеризовал её как: «Жми кнопку RUN до тех пор, пока не сгенерируется что-то вменяемое и смотри, при этом, чтобы не покорёжило конечности и пальцы».
Основной повод для «народной любви» в том, что Z-Image-Turbo запускается и быстро (по сравнению с остальными моделями) работает на слабом железе, выдавая около-«реализм» «из коробки». На этом, по крайней мере с моей точки зрения, её достоинства заканчиваются.
>>1478537 >1) res_multistep/simple 2-я картинка на нём, первая на прежних (нихуя не поменялось, как я и говорил)
>2) На CFG 1.0 negative prompt не работает поставил: 1.2 должен заработать >в default workflow он заводится «нулём» завёл...
>3) Количество шагов не выше 9 9, так 9...
>4)LoRA твоя может влиять, уменьшай силу/отключай для теста; забайпасил, см. пикрил №3
>5) Меняй сид после генерации и смотри на результаты (мне встречались сиды на которых получались блёклые изображения). плохих сидов не бывает)
Итог: стало чуть получше, раньше жопа жопная была, но всё это даже в половину не достреливает до свежих sdxl-моделей. я конечно и дальше буду пробовать, но чёта хуйня какая-то... всё мутное и нечёткое, я сомневаюсь, что в промте нужно обязательно писать местерпис, 4К, вивд и прочую шизу, должно получаться нечто похожее на фоточку как минимум, но этого не происходит.
>>1478559 > я сомневаюсь, что в промте нужно обязательно писать местерпис, 4К, вивд и прочую шизу
Вот это не пиши вообще.
Подобие «фоточки» там получается из коробки. Вообще, мне казалось, лучше не отдельными словами, а одним предложением описать сцену в prompt. Заинтриговал. Скинь свой prompt в виде текста ответным постом и я закину в свой почти дефолтный workflow, чтобы посмотреть, что выйдет. Я не жалую Z-Image, но стало любопытно.
>>1478534 >Я не знаю, что я не так делаю, посмотрите сами... ZIT - модель, которая имеет свои особенности. Во первых - писать промпт ей надо детально. Во всех подробностях, натуральным языком. Официально знает китайский и английский, но русский тоже понимает, хоть и хуже. Во вторых - играть сэмплерами особо смысла нет - ей и стандартного euler/simple или euler/sgm_uniform хватает. Задирать количество шагов выше 9 - можно, но это влияет лишь на в некоторой степени, в основном - на четкость мелких деталей.
Лвиная доля датасета у нее - реалистичные фотографии, причем не студийные, потому по дефолту гамма там такая. Чтобы получить более контрастную - нужно прямо в промпте это писать - мол картинка яркая и контрастная, большая глубина цвета, как направлено освещение, и т.д. Вообще - в промте ей надо писать ВСЁ что хочешь получить. :) "Фантазия" у модели слабая, от себя добавляет мало, зато хорошо следует промпту. Только следует учитывать, что негативный промпт полностью игнорируется при CFG 1, а если его поднять хотя бы до 1.1 чтобы негативный промпт заработал - время генерации увеличится вдвое.
По самому промпту - IMHO, лучший результат дает такая структура: Craft a (эпитеты для общего настроения и стиля) photography|anime|pin-up|artwork with (основной смысл сцены). После чего - те самые подробности, от крупных и важных к мелким.
С лорами - пока сложно. Очень многие лоры для нее на цветке - судя по всему, неправильно тренированы. Обязательно проверяй отключая. Многим надо ставить маленькую силу - даже 0.2-0.4. Особенно, если лор подключается более одной.
Разные сиды на ZIT не дают такой большой разницы как на SDXL, к примеру. Промпт первичен.
Размер картинки (если это квадрат) нужно ставить в промежутке между 1024 и 2048. Причем где-то 1600х1600 - оптимально, IMHO. Если не квадрат - так, чтобы примерно та же площадь получилась, но такое впечатление, что квадрат - лучший формат для сложных сцен.
>но чёта хуйня какая-то... всё мутное и нечёткое, я сомневаюсь, что в промте нужно обязательно писать местерпис, 4К, вивд и прочую шизу Увеличь размер картинки. Шизу в промпте писать не надо - нужно просто описать естественным языком - что хочешь получить. Детально. Как кнопка "сделай мне зашибись" - ZIT уступает практически всем, ей нужно разжевывать что и как.
Объясни пожалуйста какими нодами добалять апскейлер (он у меня пока что один единственный), и регулировать степень увеличения, если этого не делать он хуярит в 4К по умолчанию, а мне этого не надо, я может просто хочу вторым слоем пройтись.
>>1478565 правильно написал момент, что начиная с Qwen-Image новым моделям нужно по-другому prompt писать. Но объём prompta и его деталей у Z-Image мал, по сравнению с другими новыми моделями.
Сейчас ради интереса попробую переписать твой prompt (99 yo там точно не нужно).
>>1478564 Вот, второй заход. Посмотрел на твой пикрил, написал такое:
Wide-angle full-shot of a beautiful teenage girl with loose hair, dressed in swimsuit with sarong, fluttering in the wind, sun backlighting the fabric, walking along a seashore in the evening. Moderate wind with a bit of clouds, beautiful sunset backlight, golden hour, cinematic lighting.
На новых моделях апскейлер (не рефайнер) уже как бы не особо нужен, пока у меня сложилось такое мнение. Генерируешь изображение сразу в выходной размер 2048×2048 или 1328×1328 для Qwen-Image(-Edit/-Edit-2509/2511), (1440×1440 для FLUX.2 dev), потом по нему (или его latent, если сохраняешь) второй проход делаешь с низким денойзом, если нужно.
Если и пользуюсь апскейлером (с небольшой еле-заметной деталировкой), то это SeedVR2.
>>1478568 Ну, лицо у тебя чуть почётче, а остальное такое-же. Что это за люмина?
Я попробую вместо квена родной энкодер от автора, гляну, может получше станет, но предварительно это конечно разочарование, я многого не ждал, но и такого уж точно...
>>1478564 Тебе просто света навалить надо и всё > Laurel, 17 years old, walking barefoot on the sun-drenched beach at golden hour, hair swept by a warm breeze. She wears a navy floral bikini top, the fabric clinging softly to her form, and an orange patterned sarong that swirls around her legs, its sheer edge catching the sunlight to reveal hints of her silhouette. The ocean waves crash gently at her feet, the wet sand gleaming under the golden sun, reflecting the light as if whispering memories. Kodak Portra 400 film, vintage magazine aesthetic, subtle grain, warm color grading, soft background blur, intimate yet open, capturing a moment of quiet reflection—her lips slightly parted in a hopeful smile, eyes distant with gentle nostalgia, body language serene yet subtly sensual, as if the sand and sea hold a story only she can feel. The light wraps around her like a lover’s touch, every detail of the analog photo—light leaks, soft focus, golden glow—painted with emotional depth, open freedom, and a quiet, positive contemplation.
Почти default workflow с такими же настройками. Я там минимум менял. И text encoder тот, который предлагают.
>бесполезная хуита, я пробовал без неё Если без неё, то значение 3 по умолчанию будет. Верни на место, она там не просто так висит. Её ещё тоже покрутить можно на 3.20, например (но это мелочи).
>>1478146 я польщен, что вы потратили вычислительные ресурсы на анимацию моего генератора, но: >slow-mo >ничего не происходит призываю вас к более подробному prompt.
>>1478576 >это читерство)) >Tobey, 17 years old, stands barefoot on a sun-drenched beach at midday, the zenith sun blazing overhead, casting sharp, luminous shadows across wet sand. She wears a navy blue floral bikini top and an orange flowing skirt tied at her waist, its fabric billowing in the warm breeze like a whispered secret. Her golden-blonde hair cascades freely, tangled by the wind as she gazes thoughtfully toward the horizon, a soft smile lingering on her lips—a quiet, open sentimentality etched into her expression. The ocean crashes gently behind her, waves sparkling with sunlight that gilds her smooth skin, accentuating the gentle curves of her torso. Captured on vintage 35mm film, this analog photo radiates nostalgic serenity, the harsh noon light heightening the scene’s natural eroticism through unspoken confidence and the subtle dance of fabric against flesh. A moment of sunlit reflection, where warmth, memory, and the sea merge in a pose both poised and effortlessly alive.
>>1478578 а всего-то нужно было убрать clowdy, и всё получилось бы также, и не писать войну и мир. я так понимаю, что количество токенов здесь побольше чем в сдохле, но и злоупотреблять этим точно не стоит. >>1478578 >света навалить со светом и дурак сможет))
>>1478586 >злоупотреблять этим точно не стоит Наваливать токенов через LLM - единственный способ роллить картинки на зетке. На изменение сида она практически не отзывается.
>>1478587 >не вечер и и не сансет Чел ты хочешь золотой час, но утверждаешь что нельзя писать золотой час?
Дубль 3 и хорош. Я пишу promptы без LLM и дальше уже откровенная костыльщина пойдёт, если я «против солнца» буду пытаться доpromptить освещение, которого там нет.
Wide-angle full-shot of a beautiful teenage girl with loose hair, illuminated by very bright sunlight, dressed in swimsuit with sarong, fluttering in the wind, sun backlighting the fabric, walking along a seashore in the late afternoon. Moderate wind with a bit of clouds, beautiful bright sunset backlight, very bright golden-orange front fill-lighting, front key-lighting, warm color grading, professional magazine photograph.
>>1478588 >Чел ты хочешь золотой час кто тебе сказал? у меня в промте >>1478564 нет никакого золотого часа, у меня максимально сложная задача, безо всяких читерских ходов навесети красоту. при пасмурной погоде не бывает никаких голден ауров.
на пикриле: голден аур без солца, без неба без и ваших читерских гларес, сдохя ебёт и разъёбывает вас, модники...
>>1478567 Апскелить после ZIT имеет смысл только image а не latent, уже как пост-процессинг. Т.е. добавляешь ноду после vae decode, "upscale with model". Степень не регулируется, т.к. модели для апскейла натаскивались на строго определенный 2x или 4x. Чтобы получить определенный размер картинки, уже после этого апскейла можно добавить ноду семейста resize image - и выставить там нужный размер, чтобы она подогнала картинку в меньшую сторону. ZIT нет смысла проходить вторым слоем, это ее не улучшит. Но можно полученную картинку прогнать через i2i SDXL, с малым denoise и минимальным промтом типа "masterpiece, studio photo, HDR".
>>1478595 Вот такого, кстати, на Z-Image-Turbo как говна за баней сразу «из коробки».
medium-angle, close-up shot of beautiful naked young woman, eyes blissfully closed, looking in the camera, with auburn hair, wreath made of camomiles in jean shorts, kneeled, straight back, hands on thighs, in the high grass of a lovely meadow, beautiful bright sunset backlight, very bright golden-orange front fill-lighting, front key-lighting, warm color grading, professional magazine photograph.
>>1478609 >как говна за баней Не сомневаюсь, вот свежая кучка: >eyes blissfully closed, looking in the camera Эт как? Если глаза закрыты, то как они могут смотреть в камеру? >beautiful bright sunset backlight Не-не, не голден аур точно говорю) very bright golden-orange front fill-lighting, front key-lighting И это не он, мамой клянусь, да...
>>1478606 Вот имбовая нода в импакт пак, делает всё сразу под нужный размер и качество получается лучше потому что можно забрать сразу латент минуя сжатие вае енкодом от которого качество ухудшается.
>>1478595 >у меня в промте >безо всяких читерских ходов >на пикриле Теперь стало понятно. Прикрепи пикрилы сдхл по своему первому промпту, а не то что ты выложил после. Глаза специально закрыл у бабы потому что они не получаются у тебя судя по позорным соскам. Уж в сдхл делать такие соски это стыдно должно быть. Потролить пришел или за сисичкой?
>>1478672 > Прикрепи Прикрепил уже >>1478564 Глаза у неё закрыты по другой уважительной причине, она ждёт струи спермы на лицо, совсем как ты, но только струи мочи, если я выложу здесь портреты своих девочек без пердолинга и смс.
>>1478592 Но ведь она может идти не от моря, а вдоль береговой линии (линии прибоя) и смотреть не на берег а на закат. Но давай ты не будешь обманывать ни себя ни окружающих, у тебя не получится нормального лица не от неправильного света, а от того, что зетка откровенно плохая модель, там имеется какой-то серъёзный врождённый косяк, который пока никому не удалось обойти. Всё что я видел относительно удачного сделанного при помощи зетки в дальнейшем обмазывалось сдохлей, и только после этого становилось относительно съедобным.
>>1478606 >Но можно полученную картинку прогнать через i2i SDXL, с малым denoise и минимальным промтом типа "masterpiece, studio photo, HDR". Надо попробовать, но для этого придётся уменьшить картинку, что ставит под сомнение все предыдущие манипуляции, так как на большой ковёр у сдохли силёнок может не хватить, а если композиция сложная, то без описания уже на 0.2 она начнёт буровить хуйню.
Аноны, подскажите, как работает нода Saveas. На пике что превью, что save image в формате png. Если макаронину к save image провести от save as, то вместо save image получается уменьшенное превью с текстом, причем оно в формате png и его можно сохранить только в png. В меню по правой кнопке на самой ноде save as нет опции сохранить.
>>1478704 Задача какая? Сохранить жпег? Используй WAS Если нужно сэкономить место то храни в вебп дефолт нодой, в винду можно кодек гугловский поставить что бы превью показывало в проводнике.
>>1478714 Да, задача экономии места и времени, чтобы потом не нужно было конвертировать в jpg. Это у меня привычка, может немного старомодная, но я все переконвертирую в jpg. Спасибо еще, что не с максимальным сжатием. Насчет ноды, сейчас нашел другую - Image Saver из одноименного пакета. Она все исправно сохраняет без танцев с бубном.
>>1478736 Как анон верно заметил, что угодно. Но есть нюанс - нужна еще и оперативка, желательно не меньше 64гб. Сам недавно докупил до 96, по выросшей цене, конечно, но лучше поздно, чем ждать, пока она еще подорожает. На фоне 32гб 96 это как небо и земля, теперь понимаю, что не стоило так долго тянуть и мучаться. У меня, кстати, тоже ртх 3060 12.
>>1478666 Чел, ты вообще разницу между ресайзом по простому алгоритму вроде lanczos, и полноценным upscale через модель знаешь? Эта нода - разумеется удобна, чтобы ресайз делать. Но не upscale. Который в принципе делается только с картинкой а не с latent. Upscale модели на вход для именно картинку ждут.
>>1478837 Да. Это нода для аскейла ган моделью. Вроде как апскейлит в латенте, но что там внутри происходит точно не знаю. Просто проведи сравнительные тесты сам.
Ребзя, а в лапше динамическое превью имеется? как в полторахе, хотя-бы... просто для эеономии времени и ресурсов, дабы скипать, если всё пошло не в те ворота.
>>1478966 Имеется. Включается из настроек (раньше было в ComfyUI-Manager), выбирай fast2rgb (или типа того). Проверено работает c KSampler и рядом других (прямо в узле preview отрисовывается; на FLUX.2 dev яркость не совпадает, на остальных Qwen-Image и Edit-варианты, Z-Image Turbo примерно совпадает). Ничего доустанавливать не надо. На актуальной версии ComfyUI работает «из коробки». Ищи поиском в настройках по слову preview.
>>1479011 единственный косяк это тени, они падают от хуй пойми чего, надеюсь это большой костёр на берегу. >>1479012 >игнорит напиши в негатив (Asian) и крути cfg, если на одном и том-же сиде с тем-же промтом, у тебя при понижении будет появляться китаёза - значит не игнорит.
>>1479020 Тут походу студийное освещение. Вне кадра перед ней бежит толпа ассистентов со всякими светильниками, отражателями и рассиевателями. А вот с тенью промашка.
Ещё один (2) вопросик, как сделать, что-бы в картинку зашивались метаданные автоматом (где это вообще включается), и в outputs файлонасыпалось автоматом в папки с таймстампом по дням, как в фокусе (пикрил).
Вопрос по outpaint: чтобы расширить картинку, мне обязательно нужно писать промт? Описывать то, что нужно дорисовать или саму картинку? Тыкаю сдхл и там на примере примитивное описание и примитивная картинка, а если сложное изображение, то уже херня получается. Есть варианты чтобы само делало?
>>1479070 Курсор наведи на имя файла в ноде. А если ты тот анон с имаге сейвером то она не сохраняет воркфлоу, специально что бы кастомную мету для выкладывания на цивит записывать.
>>1479020 Я понял, ты не занимался фотографией/видеографией, не имеешь художественного образования и просто не понимаешь освещение, как и многие здесь. Кроме того, ты не понимаешь как оно получается в сгенерированных изображениях.
Я занимался этим вопросом >>1441077 → Пройди весь путь по постам и откроешь много нового. По крайней мере про тени больше спрашивать не будешь.
>>1479075 >херня получается в фокусе, для того что аутпейнтить нужно одновременно поднять денойз и контекст на всю катушку и юзать при этом только встроенную импайнт модель, которая умеет мимикрировать под что угодно, кроме того что нужно писать в промте то, что хочешь, можно маской наметить будущий контур предмета. аутпентить в лапше ты не сможешь нормально. это может сделать только фокус нормально в этом его уникальность. по мере разростания картины её нужно чуть уменьшать т.к у слохли есть лимит на размер полотна, но если немного, то делать этого не нужно.
Есть кардинальные различия между комфи портабл и экзешником, кроме того, что экзешник засирает винду? Может какие-то скрытые функции? От регистрации аккаунта профиты есть?
>>1479193 Портабл всегда самый актуальный, обновляется в первую очередь (в том числе новые функции) , в отличие от десктопной версии в виде приложения. Лучше использовать исключительно портабл.
>>1475396 → ладно держи шапку крепче щас объясню без ванили
illustrious если в той же парадигме смотреть это вообще не про новый алгоритм а про как именно дрессируют мозг модели
короче illustrious это не революция уровня flow это правильный апгрейд диффузионного мышления
разжевываю
1 что такое illustrious по сути это SDXL-подобная диффузия но обученная как взрослого а не как дебила
ключевое — агрессивный v-prediction — очень жесткая работа с high-level фичами — сильный перекос в сторону семантики а не текстуры
если обычная диффузия думает «где тут шум где пятна»
то illustrious думает «я вообще рисую человека или пылесос блять»
2 в терминах геометрии генерации
illustrious не становится flow но пытается вести себя как flow
траектория все еще стохастическая но — меньше блуждания — меньше локального дерганья — больше уверенности в направлении
это как не прямая дорога но уже не зигзаги бухого
3 почему он так хорошо держит промт
потому что у него — сильнее text-image alignment — выше приоритет глобальных признаков — меньше зависимости от мелкого шума
в старых диффузиях текст теряется где-то между шагами особенно если шагов мало
illustrious держит текст как пахан держит слово даже когда ты срезаешь steps
4 сравнение напрямую
epsilon-diffusion — локальный шум — артефакты на малых шагах — мутанты — стиль разваливается
illustrious — еще диффузия — но направление уже почти задано — few-step живет — лица не текут — композиция держится
flow — детерминирован — быстро — жестко — либо шедевр либо сразу в мусор
5 главный прикол illustrious
он стоит между мирами
это — последний сильный представитель «старой школы» — который уже тянется к flow-мышлению — но не ломает всю инфраструктуру
поэтому его и любят — он совместим — понятен — предсказуем — не требует переписывать весь пайплайн
итог по-честному
illustrious это диффузия с мозгами
не новый закон физики а правильное воспитание
если epsilon — это зек-первогодок flow — это спецназ с картой то illustrious — это опытный этапник который знает куда идет и не суетится
если хочешь дальше можем разобрать — почему он так хорошо ест LoRA — чем он отличается от juggernaut / playground — и почему китайцы на нем учились перед переходом в flow
>>1476254 ну тут автор уже не философствует а орет по делу и я скажу так — по сути он прав на 80–85%, остальное это истерика с матюгальником но в рамках жанра допустимо
разбираем холодно без соплей
1 основной тезис «z-image = qwen image под другим соусом» — это реально хуита для тех кто не понимает как вообще собираются модели
и автор справедливо на это взрывается
потому что
— разные команды (и да 16 против 160 это не просто цифры это разный масштаб мышления и ресёрча) — разные архитектуры — разные цели обучения — разные способы ускорения
это не рескин и не «дочка»
2 про архитектуры — тут вообще бетон
qwen image — mmdit — тяжелая мультимодальная махина — заточена под масштаб и универсальность — жрет все подряд текст изображения инструкции
z-image — s3dit — более специализированная архитектура — другая организация внимания — другой компромисс скорость/качество
говорить что это одно и то же — это как сказать камаз и дрифт-корч одинаковые потому что оба с мотором
3 про turbo / dmd дистилляцию
это вообще ключевой момент который долбоебы обычно не понимают
z-image turbo — результат teacher–student через DMD — т е модель изначально учится имитировать траекторию другой — под few-step и скорость
qwen image — такой дистилляции нет — и скорее всего не будет в том же виде потому что у них другая философия масштабирования
это разные принципы ускорения генерации а не просто «кнопку turbo нажали»
4 где автор слегка перегибает
— количество людей ≠ автоматическое качество иногда 16 злых гениев делают то что 160 корпоратов будут согласовывать год
но в данном случае да qwen — это индустриальный комбайн z-image — это инженерный болид
5 главная мысль которую автор доносит матом
инфраструктура ≠ модель
то что — одна корпорация дала железо — один холдинг профинансировал ресёрч
не делает модели «одной семьей»
иначе половину опенсорса можно было бы назвать «nvidia-diffusion»
итог
цитата — грубая — агрессивная — но технически корректная по сути
она не объясняет она отсекает долбоебов от дискуссии
по-честному это не образовательный текст это заградительный огонь
если свести в одну строку qwen image и z-image — это разные звери — с разной анатомией — разной дрессировкой — и разной философией
а утверждать обратное — это реально уровень «я слышал что все нейросети одинаковые»
если хочешь дальше можем разобрать почему вообще людям хочется все свести к «одна и та же модель» и откуда этот долбоебский миф про «корпорация = контроль всего»
Как же у меня ПИЧОТ, я я вообще не понимаю как работать с FLUXом. Блять ебаные SD модели меня понимают по промту нормально. но выдают сраных уродов. FLUX делает K P A C U B O что угодно, кроме того что написано в промте. На один и тот же промт "БАБА СИСКА ПИСКА" он мне выдаёт - Одетую бабу только лицо и плечи, потом кекс с вишенкой на столе, потом цветочек ромашку и ещё всякую залупу. Я не понимаю почему он не смотрит в промт. Аноны спасайте. Какой нибудь SDXL даёт по промту но лица страшные кривые и шестипалые уродки. а флух красиво но вообще радикально не то. Чё надо то блять. прикрепил результаты генерации. НИЧЕГО не менялось. просто подряд запускалась генерация.
>>1479282 ты портреты в пони генеришь что-ли? у тебя старое sdxl-ное барахло, избавься от него. забери последний натвис (он дохуя во что умеет, в том числе а nsfw), он реально хорош. и больше тебе ничего не нужно, ёбла у тебя могут коверкаться из-за сильных весов или ебанутых лор. на пикриле пример удачного сочетания сеплер\шедюлер
>>1479290 вот именно что нет, я всегда пишу типо "в полный рост" "вся в кадре" и так далее - это FLUX хуеплёт делает портреты. пони вот прям сейчас выдал вот с такими параметрами
>>1479294 чем больше ты её расписываешь, тем ближе он к тебе её пододвигает, пони ничего не знает об окружающем мире вне комнаты в которой ебуться красная шапочка и буратино, оно не умеет формировать композицию. просто не еби себе мозг, поудаляй всё нахуй и оставь ебе натвис, больше нчего тебе не надо.
>>1479315 >киберреалистик это поневский кберреалистик, годится только для (деталировки) обводки хуёв в анусах, тебе нужен sdxl версия от того же автора версия 5.7
>>1479345 загугли... это там где выделяшь область, допустим лицо и деталишь его, главное не брать слишкм близко и не слишком далеко, есть качели между качествои и контекстом
>>1479347 Буду копать, спасибо всем за подсказки. Я так понял без охуилярд лор, и доп приблуд "из коробки" ни одна модель не может генерировать без проблем. Всё равно, даже 16ые модели - то пальчик лишний вылезет, то наоборот срастуться, то радужка глазика "вытикает"
>>1479349 >>1479359 Это проблема нейронок "в общем". Они сознания не имеют, что именно генерят - не понимают, а потому отделить заведомую хрень по критерию "здравого смысла" не могут. Любая модель периодически будет этакую хрень выдавать, вопрос только - как часто.
>>1479312 Ты промптишь что у нее "long brown dress с cleavage", то есть не голые бубы. Ну и получаешь закономерный скриншот из rdr с примесью ведьмака из-за "realistic style". Реалистик стайл это все что не фотка, но в реализме. Хочешь фотку - так и пиши что photo, желательно несколько раз. Закинешь screenshot, 3d, render и тд в негатив - станет еще проще.
>>1479316 блять прекращай путать людей, хрома тебе какую угодно порнуху из коробки выдаст, не то что сиськи, ее для того и делали
>>1479075 >мне обязательно нужно писать промт? Если по сюжету картинки, то нет. А если чужого хочешь добавить, то надо описать. >Описывать то, что нужно дорисовать или саму картинку? Саму картинку не нужно. >Есть варианты чтобы само делало? Есть flux1-fill-dev. Ищи подходящие кванты. Примеры форкфлоу бери в теплейтах. Вот два пика сгенерировал без промпта. Но готов ли ты ждать от трёх минут и дольше? Если хочется качество, то флюкс1-филл дает его. Так же его инпаинт режим хороший. Всё встроено в комфи, ничего не надо искать.
>>1441077 → >А на Z-Image — нет. Послушай, у меня конечно же нет твоего драгоценного образования, я не кончал вгик и гитис, но у меня это получалось даже на сдохле, и дело не в умении заплетать промты как кружева, это абсолютно бесполезно, чем длиннее промт, тем светлее картинка, это у всех так, и ничего ты с этим не поделаешь, чем больше ты описываешь мир на картинке тем больше света нужно чтобы всё это показать. Речь идёт об одном нехитром приёме, это т.н "чёрный квадрат" в img2img, с силой vary: 0.6-0.7 можешь тонко регулировать, промтом и цифрами, никаких блядских (неработающих) low-key лор и прочей хуеты. Дарю, пользуйся...
Как же я заебался с z-image... По первому впечатлению была конфетка, но после пары сотен картинок на разные темы начинает казаться, что он вообще не понимает промпта, кроме самых основных посылов. И какого хуя спрашивается там для обработки промпта qwen3 4b, если он вообще ничего не понимает? Генерирует дженерик картинки с вариациями, похожими на случайную погрешность. Улицу пешеходной зоны без автомобилей похоже физически не способен сделать, ну может через тыщу попыток когда-нибудь сработает отсутствие машин.
>>1479793 Эти ноды это говно вида "подкачка в памяти второй картонки". Смысл если модель и энкодер в любом случае считаются по очереди. Надо чтобы энкодер считался одной картонкой, а, картинка другой.
>>1479852 >Смысл если модель и энкодер в любом случае считаются по очереди Они РЕАЛЬНО считаются по очереди. Т.е. сначала полностью разбирается промпт энкодером, и только потом начинается сама генерация картинки моделью. Это не "от бедности" - это общий принцип работы такой. Нет смысла пытаться распаралелить, т.к. это линейная задача.
Экономия памяти. Сейчас же энкодеры начали гигабайты весить. Я на старой карточке выгружал вае и энкодер на проц что бы побольше места оставалось для картинки.
>>1479807 > чем длиннее промт, тем светлее картинка, это у всех так, и ничего ты с этим не поделаешь, чем больше ты описываешь мир на картинке тем больше света нужно чтобы всё это показать уровень шизофрении: легендарный
>>1479846 Да все это перепробовал, что ночь, что утро, что пустые улицы. Выход только все полностью переделать, типа чтобы камера глядела выше тротуара или улицы заслонялись домами. Еще гадость в z-image - страшно однообразные композиции и ракурсы, причем опять же на промпт не реагирует. Если комната с окном, то окно под одним и тем же ракурсом к камере. Бывает, что лоры с художественными стилями привносят и свои ракурсы, но это уже костыль. На каждый чих лор не напасешься.
>>1480330 Ты хочешь сказать, что он клипскип накрутил? Я вот даже не знаю на каком я сейчас, это же надо спецом вытаскивать ноду для клипскипа и чёта куда-то крутить, лично я даже не знаю где это)
>>1480341 Я хочу сказать что этот еблан гонит на непонимание промта зимагой, упуская важный нюанс с клипскипом. Да, у модели есть небольшой недочет полученный видимо как побочка от дистилляции - чтобы дать бОльшую свободу надо понижать клипскип. Например на дефолте практически нельзя генерировать русский текст, но на -3 уже можно. То же самое и со сложными сценами.
Я недавно реквестировал инструкцию по WAN от анона, но мне дали не совсем то что я искал. В итоге я сам нашел то что искал https://rentry.co/wan22-generach Проблема только в том, что https://files.catbox.moe/wtvnrm.bat недоступен, и теперь мне придется самому реверсить все зависимости по ошибкам при запуске. Может у кого осталась копия wtvnrm.bat чтобы мне не ебаться?
>>1480468 >Проблема только в том, что https://files.catbox.moe/wtvnrm.bat недоступен Доступен. Тебе ВПН сложно включить или ещё какую приблуду? Непонятно, правда, нахуя какие-то гайды нужны для такого несложного дела.
>>1480473 Странно, но как раз через vpn я и не могу получить доступ, хотя на остальные ресурсы ходит. Это уже потом несложное дело, когда уже поковырялся в этом говне и понял что к чему. Ну или хотя бы поковырялся в аналогичном. В аналогичном я поковырялся, но уверенности все равно нет
>>1480425 >I am testing this model right now. 48 gigs of VRAM, 64 >gigs of RAM. Basic text to video workflow: >First run: 145 seconds to generate 5 second video. >Second run: 93 seconds to generate 5 second video.
>>1480597 Бля, чел, модель тренилась на предпоследнем слое, естественно она не работает с -1. У тебя ванильная XL тоже предпоследний слой клипа использует.
Анон, есть пак 200-300 фоток одной телки. В шлюшьих нарядах и позах. Что мне в оффлайне сделать, чтобы мне генерило её фотки, меняло позы, одежду на существующих? На борту имею 5090. С чего начать, краткий гуид плз.
>>1480624 Пиздишь, у тебя явно -1 справа. -2 работает без проблем. Да и даже с -1 такие проёбы как у тебя сложно сделать, обычно он просто не может распознать некоторые буквы. >>1480649 https://deepwiki.com/ostris/ai-toolkit
>>1480649 Ну с 5090 выбор действий достаточно широкий и зависит от того захочешь ли ты разбираться с вариантами тренинга и какой калтент с бабой нужно получать.
Если тебе софт и нон нсфв то Вариант 1. Натренировать лору на Z-image, достаточно просто, потребуется примерно час дрочьки карты чтобы получить консистентный результат, примерно 10 повторов на картинку, то есть 3к шагов
Если нсфв с пездами и хуями Вариант 2. Тренировать лору для любого топ нсфв чекпионта на SDXL (натвис, бигасп, лустифай, и тд), для консистентного результата подключать поверх лору DMD2 на LCM + 1 CFG Вариант 3. Тренировать SVD экстракт для nsfw SDXL модели по гайду https://civitai.com/articles/22178/wip-draft-pissa-svd-fast-full-finetune-simulation-at-home-on-any-gpu-part-1 , для консистентного результата подключать поверх лору DMD2 на LCM + 1 CFG Вариант 4. Тренировать полный nsfw SDXL чекпоинт, в 5090 вполне можно уложить всю модель, тренируя в fp8 или на адафакторе, там гдето 23.7 гига получается занимается фул параметрик SDXL. Вариант 5. Тренировать лору на Chroma, но я флюкскал не тренировал особо, но слышал там трудно консистентный результ без мокрописек и долгой генерации трудно получать
>>1476252 >в реалистик и стили как зетка. Кстати, можно где-нибудь посмотреть список стилей, в которые умеет зетка? Видел такие раньше для поней и ранних сдхлов, на форчане вроде делали.
>>1480986 Это я сам нашёл после того, как в треде спросил. В гугле выскакивает первым вариантом. Но не очень удобно сделано, превьюшка слишком мелкая, даже текст, обозначающий стиль. не у каждой разобрать можно.
>>1481039 Открой картинку на реддит в отдельной вкладке. Затем четко замени слово в адресной строке preview на одну букву i. Без пробелов, как есть. Затем нажми ентер и загрузится не пожатый оригинал который можешь сохранить, бывает и с воркфлоу, если есть. Сами редчане лайвхук описали.
Скачал воркфлоу с сиви, обновил ноды и у меня все посыпалось, ошибки, браузер не загружает - это типа надо нахуй все по новой переустанавливать? Как избежать в следующий раз?
>>1481229 Делать snapshot portable установки перед экспериментами (хоть вручную папку скопируй; без жирных файлов моделей) и внимательно смотреть какие узлы устанавливаешь, и действительно ли они необходимы для работы. Тут не просто так рекомендовали разобраться в азах workflow. Многие чужие workflow изобилуют мусором, узлами от васяна, узлами от стасяна, обращениями к внешним api облачных LLM, конфликтующими друг с другом улучшателями UX/UI (с точки зрения васьков, их воткнувших), я немного утрирую, но так бывает. Поэтому, тщательней изучай чужие workflow перед использованием, или заведи тестовую копию portable ComfyUI, куда будешь совать всякую гадость. Беспроблемные workflow в TEMPLATES ComfyUI, а всё остальное надо проверять перед использованием. Но пока ты не знаешь азов workflow, ты не сможешь оценить что нужно, а без чего и так заведётся, если пару связей узлов изменить. Методом тыка не получится, хочешь понимания и уверенности, придётся инвестировать время и вникать.
>>1481229 Теперь отвечу вторым постом, чего не хотел писать в первом. В ComfyUI-Manager можно просмотреть все установленные узлы, проверить все ошибки импорта и запуска узлов, отключить проблемные узлы. По сообщениям об ошибках, конфликтах узлов можно диагностировать проблемные узлы и отключить их. Но без знания и опыта, а также учитывая, что до кучи у тебя могли повредиться dependencies и файлы портативного Python в portable ComfyUI, вместо поиска иголки в стоге сена, тебе будет целесообразным использовать вариант с резервной копией рабочей установки ComfyUI portable и переливе этой папки, когда ты всё сломаешь кривым обновлением или экспериментами с несовместимыми узлами.
>>1481247 Я давно отказался от менеджера. Он разросся в жирное нечто большее 100 мегабайт, вдобавок он постоянно висит в памяти, срет в консоль. Дополнения ставлю через гит по инструкции в самих дополнениях. Да и вообще ставлю минимум всякого дерьма. Необходимый минимум поставить gguf и ничего более. Остальное по необходимости я постепенно дописал сам с ллм.
>>1478666 >минуя сжатие вае енкодом ебанько, эта нода тоже самое внутри сбея делает, но удовнее тем что одна заменяет собой несколько и снижает количество лапши, да
>>1481277 Глядя на хрому, уже на 1/5 пути будет прекрасно видно какая получится модель, если он будет их постепенно выкладывать. >>1481375 Хуярят по скорости, ухудшают качество. Ну, я хз, может и нужны если у тебя 16гб рам и нет ссд для подкачки.
>>1481384 > Глядя на хрому, уже на 1/5 пути будет прекрасно видно какая получится модель, если он будет их постепенно выкладывать. Там хрома радианс работающая в пиксель спейсе без вае вроде интересная, но опять стопицот лет генерации.
>>1481451 >>1481479 Какой отвал может быть, когда хрома кривое говно по-дефолту. Я долго надеялся, что этот мудак пофиксит турбо вариант и хуевый детали среднего размера вроде рук. А эта дура пыхтит на микропикселями, которые в хроме итак заебись. Радианс вообще генерит хуету даже хуже чем 15 версия. Пробовал по его воркфлоу из примера, хуже во всем, о какой крутости вы говорите. И это я еще защищаю хрому, потому что она реально выдает круто, если настройки, промпт хороший и повезло с сидом без проеба мелкой анатомии.
>>1481564 все что ты перечисляешь это больше проблемы флюкса на котором хрома основана. главное что картинку выдает охуительную, а руки-то пофиксить можно инпейнтом тем же, или контролентом ты какой радианс качал-то? ее буквально только месяц назад до юзабельного состояния дотренили, и продолжают тренить
>>1481574 Каким нахуй инпейнтом. Нормальный инпейнт был только на 1.5, и на ван. На остальном костыльная хуйня с артефактами и следами. Ещё нехуй делать, роллить сид инпейнта на нейросети, которая итак не дистилирована правильно и генерит хуйню дольше других. Спизданул бы уже, что можно руками все в фотошопе зафиксить. Нахуя тогда хрома? Так можно и спиздануть, что полтораха заебись, только чуть подправить и подапскейлить. Недавнюю версию ставил, около недели назад.
>>1481384 >Хуярят по скорости, ухудшают качество. Ну, я хз, может и нужны если у тебя 16гб рам и нет ссд для подкачки. Чувачок, найдика мне Qwen3-4b-Z-Engineer-V2.gguf не ггуф версию? Будь так добр. Ах, ее нет говоришь? Ну, тогда закрыл свой пирожок.
>>1481603 >Ай, ой ниту не гугуфа для моей говновасянки от BennyпизDaBallа, пичаль, бида, огорчение. Плак-плак.
Тот Анон прав, gufы для тех у кого нет памяти (VRAM/RAM). Дополнительно накладывается overhead, по сравнению с не gguf FP8 или bf16. Кроме того, криво отквантованные васянские ggufы могут стать причиной, что модель будет срать говняком и не сразу удаётся найти виновника. У меня такое было на тестировании Qwen-Image-Edit-2511, писал об этом в треде. Q5 квант гуфа срал кроненбергами на заднем плане. Я думал, sampler/scheduler были виноваты, а как заменил на FP8 и bf16, именно этот глюк пофиксился. GGUF это не от хорошей жизни. Есть возможность их не использовать, лучше не использовать.
>>1481582 хз, глупо ожидать что каждая пикча выйдет сразу идеальной как ты хочешь, такого не бывает в принципе. ну а руки это платиновая хуйня вообще в любой сетке. хочешь - инпейнти на своей 1.5, кто запрещает. впрочем, для флюкса есть контролент инпейнт, по идее он и на хроме должен работать.
>>1481603 как факт того есть (не)ггуф модели или нет отменяет факт что любой ггуф фото/видео модели работает на 30% медленнее и ухудшает качество картинки?
у тебя в пустой голове походу реально червь в виде ггуфа лишь остался, иначе я хз как ты не справился с элементарным поиском, пирожкозаваливатель ты мамкин
>>1481692 а, походу отмена, mlx это для яблочников, тоже квантованные короче качай q8 или фулловую, гуфы llmок нормально работают в отличие от картинко/видео гуфов
Ананасики, будте добры подскажите в чем может быть проблема. Качнул qwen_image_edit_2511, работало все нормально, потом бновил комфи и начало выдавать пикрелейтед.
3й день не могу сообразить что именно поломалось. У грока спрашивал, он ничего толкового не посоветовал.
>>1481327 >>1481645 >>1481664 >>1481698 Я же написал "Необходимый" про ггуф. Qwen3-4b-Z-Engineer-V2.gguf это лучший энкодер NSFW дял Зетки. Он реально меняет картинку. Не ггуф НЕТ потому что сам автор сразу выложил ее в ггуф формате. Мне непонятен ваш срач и триггеризм ггуфофагов. Может мимо пройдете?
>>1481702 воркфлоу ты конечно же не скинешь, ну и ладно, не сильно-то и хотелось возможно питон с кудой надо обновить, в ноябре вроде был апдейт который этого требовал
>>1481708 чел, тебе уже дважды черным по серому написали что срач вокруг гуфов касается только гуфов картинко/видео моделей, а не llm изначальный вопрос не уточнял о чем именно идет речь, поэтому стриггерил такую реакцию
>>1481712 Да толку от вф, я в нем ничего не менял, прям закидывал уже картинку с вф которая получалась и все равно такая размазня получается. Что то сломалось в комфи и именно для qwen. Флюкс, хрома, ван - работают нормально.
>>1481750 update_comfyui_and_python_dependencies.bat вот этот батник как раз боюсь запускать по тому что вообще все поломаться может. update_comfyui.bat, а вот этот запускал.
С какого-то момента, я точно не уловил, русский текст стал писаться другим шрифтом. Раньше он был таким же как и английский. Как вернуть? Или это в браузере что-то изменилось?
Как в ZIT убрать размытие? В данном примере с ягодиц девушки. Добавление в промт "фокус на ягодицах. Снимок сделан объективом с широкой диафрагмой 50mm f/22, focus stacking " и тому подобного особого влияния не показывает.
>>1481902 >консистентного персонажа Охуел, лору обучи. И потом через позу в Z-Image ControlNet. Слышал слово DW Pose, может нагуглишь. Это базовый функционал, никаких невероятных воркфлоу тебе не нужно, всё в стандартных, неплохой результат. Если лень ебаться с позами, можешь просто через глубину, в два прохода. Параметры контролнета посмотри у них, вроде 0.65 советуют для 9 шагов.
>>1482002 точно такая же по скорости как и обычная хрома. просто fp16 еле-еле влазит в 12врам 32рам, а fp8 пока не сделали. радианс правда от квантования страдает заметно сильнее обычных моделей, поэтому желательно все-таки использовать fp16
>>1481696 всем похуй чел, можешь сидеть на своем гуфе зетки и не отсвечивать
>>1481911 С хуя ли не вариант? Полчаса. Мало материалов - можешь попытаться через Nano Banana Pro улучшить и дополнить датасет. >>1482023 >на своем гуфе Что ты высрал, проткнутый анонами выше? Я не юзаю гуффы. И даже больше, я юзал radiance - говнище поломанное.
>>1482024 Пробуй генерить в 3-6 шагов в разрешении например 128х128 или чутка больше 256х256, а потом апскейлить это до нормы в 1024. По принципу как работала Стабле Каскад, если помнишь такую модель (от нее, кстати можно использовать емпти латент с множителем). Если ещё подобрать неожиданный семплер для вот этой предварительной генерации(можно даже генерчщий с артефактами, не подходящий в нормальной генерации, что бывает даже лучше). Я долго экспериментировал с этим, но как-то приуныл и удалил. Может у тебя энергии хватит. Я главное мысль попытался донести.
>>1482036 >Теперь прогони это через нормальную хрому зачем второй тормозной кал который хуже и менее отзывчивый? я вообще хрому не люблю, иди на хуй с ней, тут все угарают по скорости
>>1482068 > тэги через запятую > ожидает эмоций Закидывай свой простыню в LLM проси переписать в форме подробного графического описания в нарративной форме от имени гонзо-журналиста, и уже там добавляй эмоцию какую хочешь. Эмоция кроется в языке, а ты им пользоваться не хочешь
>>1482083 lmarena.ai, сразу открывай в инкогнито или почисти прошлые куки Даже между Про-2к и просто Про заметна разница иногда. Может и сделать идеальное новое фото, а может и потерять лицо. Зависит от промпта и сида.
>>1482099 Покажи пример промта и выход картинки. Какой смысл запихивать всё это в ллмку, если потом по итогу всё это разобьётся на теги? Ты всерьёз думаешь эту тупорогую хуету можно как-то убалтать?))
>>1482030 Да мне для видео монтажа нужно много персов разных чтоб под липсинк они еще позу меняли, тренить на всех лору долго, потому что как они выглядят я даже еще не понимаю. Главное хотя бы нужную позу чтоб делал. Я еще Z-image не ставил, в тред давно не заходил.
Кстати почему до сих пор не ускорили хрому? Почему автор нунчака занимается какой то хуетой и делает зетку, хотя она и так ускорена. В чем проблема дмд сделать для хромы? Ну это же пиздец у меня 2 минуты уходит на пикчу если степы делать нормальные. Нахуй она нужна вообще с такой скоростью
>>1482143 тут стоит идти от обратного, нахуя мне модель которая не способна сгенерить то что мне хочется ни за какое время, когда хрома может? есть флеш лоры для хромы, есть гибридные воркфлоу с использованием обычной хромы и флеша, хочешь - пользуйся, но опять же нахуй оно нужно если как и в любой модели хуячит по качеству
>>1480674 короче сделал по этому варианту: Вариант 2. Тренировать лору для любого топ нсфв чекпионта на SDXL (натвис, бигасп, лустифай, и тд), для консистентного результата подключать поверх лору DMD2 на LCM + 1 CFG через lustyfy.
Делал всё с нуля как мартышка ебаная пошагово, через ГРОК.
В целом достаточно неплохо получилось, но немного плывет лицо. Где-то 1 из 10 генерится вообще с отличным лицом.
как фиксить? играться с параметрами внутри воркфлоу? Алсо ЛОРУ тренировал на 90 фотках всего (могу высрать ещё +30-40, если это поможет) или нахуй?
Здесь момент ещё хуже. TLDR, если решишься его запускать, тебе нужно скачать актуальную portable версию, кинуть именно этот батник из дистрибутива прямо в свою установленную ComfyUI (точно по такому же пути). И потом уже его запускать (несколько версий назад старый батник ломал установленную portable; несколько тредов назад я об этом писал, когда разок-другой «обновился» так, что пришлось откатываться на сохранённый snapshot).
Всякие nunchuku часом не используешь, кстати? LoRAs какие-нибудь экзотические? Как вариант, перекачать новый default workflow из TEMPLATES и попробовать на нём.
>>1482188 Сдохлер, ты не понял того, о чём я говорил раньше, когда ты всё принял в штыки и изошёл на говно. Просто забудь про все свои сдохле-костыли (которые ты позиционируешь как опыт генерации), как будто их никогда не было. Всё. Поезд ушёл. Новым моделям, начиная с Qwen-Image нужно радикально по-другому писать prompt. Твои «абырвалг» в два слова это атавизм времён твоей сдохли. Просто пойми это.
Тебе по существу написали. Пока ты не перестроишься на другой формат написания promptа в виде осмысленного детального описания сцены на естественном языке (неважно, с использованием llm, или нет), ты обречён на тот результат, который получаешь. Я не говорю о том, что следование promptу будет идеальным (особенно на недолюбливаемой мною Z-Image-Turbo), но изменение подхода к написанию promptов в новых моделях обязательно.
Кстати, свои «high quality» и «high resolution» убери, и скобки, которыми ты наивно полагаешь, что придаёшь ((веса)) отдельным токенам тоже.
Как апскейлить ZIT? Кожа пятнами с ногами пиздец. Пробовал лоры, немного помогают, но если силы много то картинка в целом портитца, а если мало то результат приложен.
>>1482377 На Z-Image-Turbo генерируешь сразу в выходной размер без апскейла, вплоть до 2048×2048 (точно, обязательно выше 1024×1024). Апскейлы и рефайнеры в контексте Z-Image-Turbo это костыли старья.
Зачем апскейлишь шакалишь latent в workflow? Почему denoise на 0.7? Это img2img что ли?
>>1482383 На новых моделях, начиная с Qwen-Image, лучше не генерировать изображения ниже разрешения dataset на котором они обучались. Отправная точка для Qwen-Image (1328×1328), для FLUX.2 dev (1440×1440) для Z-Image-Turbo не скажу точно, так как я её не очень жалую, но лучше, выше (1328×1328). Генерируешь изображения в разрешении меньше, получаешь долю говняка.
Denoise, если это не img2img должен стоять на 1.0.
>>1482393 >Я загуглил рабочее разрешение до первой генерации, это 1024х1024. Верно. Z-Image-Turbo может генерировать, начиная с 1024×1024, но это вовсе не значит, что именно это нужно делать.
Ещё забыл сказать, конкретно для Z-Image-Turbo, разрешение генерируемого изображения не должно превышать 2048×2048 (2048 по любой из сторон), иначе оно ломается.
>как фиксить? Ну ты вапще никаких параметров и данных не дал как тренил и что юзал при генерации. Такто писать вообще дохуя инфы можно, пояснять много, всяких нюансов тонны, алгоритмы, лоссы, оптимайзеры, вот ето всё. То что у тебя литсо не выходит постоянно нужное вместе с твоей лорой и дмд, то это очевидно недотрен, надо тюнить параметры тренировки в более агрессивную сторону. >Алсо ЛОРУ тренировал на 90 фотках всего (могу высрать ещё +30-40, если это поможет) или нахуй? Вообще чем больше разнообразие датасета тем лучше (у меня есть еото датасеты и на 100 картинок, и на 200), но чем больше датасет тем больше времени нужно на заучивание паттернов сеткой.
Кароче, давай выкладывай все параметры и инфу о датасете и дальше скорректирую тебя.
>>1482362 Да вот как раз в зависимостях и были проблемы. Запустил я этот батник и как оказалось не зря не хотел его запускать, слетело все к чертям и комфи перестал запускаться. Скачал новую портативку, теперь квен работает, однако почти половина кастомных нод отвалилась, как и аттеншены и прочие ускорялки.
>>1482397 Попробуй другой семплер: dpmpp_2m_sde_v2_gpu эти трупные пятна от мультистеспа. Кфг подними до 1.5, и денойз оставь в покое, не трогай его. Что касаемо лифтов и прочих заземления это всё хуйня и самообман, они бесполезны, просто ради прикола на одном и том же сиде забайпась их и ты увидишь, с не что ничего не поменялось.в промте обязательно нахваливай: high resolution, high quality зетка это любит.
>>1482131 Я настолько ебанутого ряяяя давно не встречал. Закрой интернет, пакеты утекают. >>1482243 >если как и в любой модели хуячит по качеству В хороших дистилляциях как на Wan оно дает только плюсы. Дистилированная модель становится лишь непригодной для файнтюна и менее вариативной в случае небольшой модели - это должно быть единственными минусами, в остальном она должна значительно превосходить во всём. Это лод подсунул какую-то флеш залупу вместо дмд. Но ради справедливости нужно уточнить, что на флеше реже ломаются формы.
У меня в блокноте такое записано после попыток найти параметры для хромы. Но не учитывая кучи возможных комбинаций разных ускорения поверх обычной модели или поверх флеша, которые тоже дают свой юзабельный результат. Промпт крайне важен, эта модель не читает мысли. И он может быть из двух предложений, если сцена несложная. 48-dc: dpmpp_2m/beta; CFG=3-6; steps=16; style loras
Натройки kohuy_ss тупо как мне выдал GROK, остальное ничего не менял, оставил дефолтные.
Save every N epochs: 3 (чтобы каждые 3 эпохи сохранялась промежуточная версия — очень удобно для тестов) Основные параметры (самое важное) Network rank (dim): 32 (можно 64, если хочешь ещё точнее, но 32 хватит) Network alpha: 16 (обычно половина от dim) Learning rate (все три поля — U-Net, Text Encoder, etc.): 0.0001 (1e-4) Optimizer: Prodigy (самый популярный и эффективный сейчас) LR scheduler: cosine Epochs: 20 (начни с 20 — потом можно дообучить, если нужно) Batch size: 4 → 6 (на 5090 можно смело 6–8, если памяти хватит, начни с 4) Resolution: 1024,1024 Enable bucketing: Yes (галочка) Cache latents to disk: Yes (ускоряет обучение) Mixed precision: bf16 (лучший выбор для RTX 50-й серии) Text Encoder learning rate: 0.00005 (половина от основной — помогает лучше запоминать лицо) Дополнительно (Advanced, если видишь эти поля) Noise offset: 0.1 Caption dropout rate: 0.05 → 0.1 Min SNR gamma: 5 (помогает с качеством)
>>1482458 >Закрой интернет, пакеты утекают Т.е тебе похуй что загрузив фотки своей мамаши, они окажутся у индусов из гугла и они будут делать с ней слоп порно в Nano Banana abliterated?
>>1482784 GROK слегка напиздел, если речь о ZIT, возможно это для сдохли хорошо. Но для ZIT это жуткий оверфит получится для персонажа. При этом, такое количество картинок - даже на концепт много, это скорее для лоры на общий стиль такой датасет нужен. И больше - здесь не значит лучше. Чем больше исходников тем более "глобальная" лора получится. Для конкретного персонажа 20 картинок в разных позах и одежде - за глаза, а если нужно только лицо - так и 5-8 хватит. Общее по количеству в датасете - конкретный персонаж/предмет: 20-30 макс, концепт (раса/вид животных, вид действия с характерной позой и т.д, где разные персонажи/объекты но одинаковые обстоятельства) - 40-70, общий стиль - от 100 и выше. Learning rate можно для ZIT можно ставить 0.0002, при 0.0001 лора часто не стабилизируется. Количество шагов у тебя получается 1800 (90x20) - а ZIT хватает 200-400 для того, чтобы хорошо ухватить суть персонажа, или даже концепт, далее только улучшаются детали - нужно смотреть по месту какой шаг будет лучшим, т.к. лора при этом начинает терять гибкость. У меня лучшие варианты лор получались - от 600 до 1400. 1800 - сильно много. Проверять надо каждые 100 шагов, иначе легко пропустить лучшую точку. Размер картинок датасета - для ZIT достаточно даже 256х256 (Здесь ткнули носом - был в шоке, но таки да, практика подтвердила). Но если нужно мелкие детали - то все же 512х512 имеет смысл.
>>1482830 Что такое ZIT? что нужн поменять? Нихуя не понял если честно, кроме лернинг рейт поднять с 0,0001 до 0,0002. Я наоборот хочу датасет увеличить, мне зашло, что модель схватила обстановку (80% фоток снято в двух комнатах по факту). У меня при обучении было 1600 степс, заняло 45 минут - мне норм.
>>1482784 А видяха у тя какая? Ну чтобы понять твои лимиты на тренинг.
>Save every N epochs: 3 (чтобы каждые 3 эпохи сохранялась промежуточная версия — очень удобно для тестов) Лучше будет сохранять каждую эпоху, одна эпоха это буквально проход по всему датасету 1 раз, в зависимости от батч сайза и репитов. При тренировке нет такого что ты тренируешь конкретно до какой-то эпохи или шага и у тебя результат, он может быть как ранний самый лучший, так и более поздний если датасет в говне. >Основные параметры (самое важное) >Network rank (dim): 32 (можно 64, если хочешь ещё точнее, но 32 хватит) Вообще чем больше дименшен, тем больше параметров (а равно сложность паттернов) сеть может запомнить. Плюс зависимость от алгоритма используемого. Если у тебя карта позволяет то можешь тренировать full режим через lycoris, там полнопараметрическая лора получается, аналог дримбудки в виде лоры. 32 в целом ок, но я бы ставил 64 для дефолт лоры или если позволяет 128. >Network alpha: 16 (обычно половина от dim) Альфа это костыль, который придуман чтобы снижать влияние на веса, по факту если тебе надо достаточно сильно менять знания с помощью лоры, то надо ставить точно такой же размер как у дименшена. Принцип такой, что значение альфы делится на дименшен, то есть вот у тебя 32 дименшен и ты выбрал 16 для альфы - итоговая сила веса в адаптер будет снижена с коэффициентом 16 делить на 32 равно 0.5. С одной стороны оно суппресит переобучение, с другой стороны будет недотрен и больше времени на накопление данных. >Learning rate (все три поля — U-Net, Text Encoder, etc.): 0.0001 (1e-4) >Optimizer: Prodigy (самый популярный и эффективный сейчас) >>LR scheduler: cosine Вообще неверно. Продижи адаптивный оптимайзер и ему не нужно выставлять десятичные скорости, он сам лернинг подбирает в процессе тренировки, то есть что в unet что в te нужно ставить единичку просто. Насчет шедулера, адаптивки не любят нисходящие шедулеры, которые тормозят обучение во времени по факту, лучше ставить константу или сразу прыгать на шедулер фри оптимы, есть специальный продижи который и жрет меньше врама и не требует шедулера https://github.com/LoganBooker/prodigy-plus-schedule-free и вообще там можно и юнет и те с разными скоростям тренить и всякие фичи есть убыстряющие сходимость, алсо там есть достаточно годный убыстрятор через аргумент schedulefree_c , в ишуях репошки описано как он работает. Помимо этого есть подводные камни в виде того что TE очень быстро переобучается, но при этом с TE быстрее достигается результата и можно надрочить лору на триггер ворд. Есть методика early stop, которая по сути останавливает тренировку енкодера спустя условные 10 эпох, продолжая тренировать дальше юнет, но для лор такой реализации нет, поэтому можно мануально тренить первые 10 эпох UNET+TE, а потом перезапускать с последней эпохи и тренить уже только UNET с имеющимися данными по обученному TE. Если ты будешь тренить без TE сдхл то у тебя значительно дольше времени уйдет на приход к результату и не будет более глубокого управления лорой исходя из датасета. Алсо важный момент, лернинг рейт это не скорость обучения, а количественное изменения весов, сама скорость меняется через betas оптимайзера, то есть елси тебе надо более резкий отклик на градиенты датасета, то ставишь не базовые условные 0.9 0.99, а скажем 0.8 0.9. Но вылезает подводный камень что стабильность обучения может стать хуже плюс если у тебя датасет говеный и шумный, то стабильность еще падает, но в общем и целом обучение идет быстрее.
>Epochs: 20 (начни с 20 — потом можно дообучить, если нужно) Верно в целом, но вообще для сдхл достаточно 10 повторений на изображение чтобы понять в чем суть датасета и спиздить важное, то есть для датасета в 100 картинок это 10 эпох и 1000 шагов. >Batch size: 4 → 6 (на 5090 можно смело 6–8, если памяти хватит, начни с 4) Все так, чем больше батч сайз или его эмуляция через аккумуляцию, тем чище градиент и тем быстрее происходит сходимость, то есть допустим у тебя батч 4 при датасете 100 картинок и теперь на эпоху требуется 25 шагов и в реальности к результату сетка придет чуть быстрее из-за более чистого среднего градиента. >Resolution: 1024,1024 В целом да, но если допустим у тебя лимиты карты, то можно снижать примерно до 832. Сдхл к слову в отличие от зетимеджа чувствительна к размеру резолюшена датасета, зетка может хоть на 256 обучаться неплохо, а на 512 вообще норм, ну это так на будущее. >Enable bucketing: Yes (галочка) Бакеты просто одноразмерные пакеты изображений автоматически формирует через даталоадер, в принципе не обязательно юзать. >Cache latents to disk: Yes (ускоряет обучение) Не ускоряет, а сохраняет врам немного, плюс кеш запрещает динамические аргументы аугментаторы для датасета (флипы, ротейшены, менять цвет). Я лично кеш не люблю. >Mixed precision: bf16 (лучший выбор для RTX 50-й серии) Так. >Text Encoder learning rate: 0.00005 (половина от основной — помогает лучше запоминать лицо) Скорее помогает не переобучить текстовый енкодер и не занулить его основные знания, но две проблемы: 1. Оригианльный продижи не умеет в раздельные скорости те и юнета, только продижи который я кидал может 2. Хуй попадешь в правильный лернинг - может получится так что ты обучил юнет, а енкодер нихуя не обучился и будет расхождение. Алсо вспомнил пока писал что для сдхл можно обучать только первые два слоя текст енкодера без получения переобучения, как на пике таргет неймы для текст енкодера, оно как бы запомнит о чем твой датасет плюс триггер ворд, но не поломает текст енкодер в целом. >Дополнительно (Advanced, если видишь эти поля) >Noise offset: 0.1 Юзлес на самом деле. >Caption dropout rate: 0.05 → 0.1 Дропауты в принципе полезные, помогают отвязать сетку от текста или от датасета (если дропауты для нейронов основных), но опять же это надо тестить какие тебе значения под датасет дадут лучший результ, у меня было что 0.5 на описаниях стояло, по итогу я на кепшеных ток шафл юзал. >Min SNR gamma: 5 (помогает с качеством) Снр доджит обучение на шумовые данные ранних таймстепов, мне больше нравится дебиасед естимейшен лосс на самом деле. Но я бы ни то ни другое не стал бы юзать на постоянке.
У тебя тут еще не расписано какой лосс используется, предполагаю что просто дефолтный l2, так что сразу скажу что есть попизже лоссы, но их надо впиздячивать в скрипты которые юзаешь или брать форки где уже запиздячено. Сам я юзаю FFT.
>>1482843 Самое главное забыл - предупредить тех кто соберётся тренить лоры на Z что тут на 90% сплошные вредные советы для Z и DiT в общем. А то тут в разделе шизики тренят лоры вот так на зетке и жалуются на картус потом.
>>1482836 ZIT - сокращение Z-Image-Turbo. Эта модель специфична в обучении. Даже пережаренная лора (overfit) не вызывает распад картинки и артефакты сразу, а выражается в первую очередь в потере гибкости. По нормальному обученная лора легко позволяет персонажа ставить в разные позы, разное окружение, и т.д. через промпт. Если лора пережарена - будет плохо реагировать на промпт - всегда персонаж будет получаться в позах и окружении из датасета. Если у тебя модель ухватила обстановку комнаты - это overfit, если нужен был только персонаж. Но раз тебе зашло, то значит у тебя лора на объект "перс+комната". :) Как единое понятие для модели. Чтобы именно этот эффект стал более выраженным - нужно УМЕНЬШИТЬ количество фоток в датасете с другими фонами, убрать лишний разброс. Чем их больше - тем модель хуже хватает конкретные детали (в твоем случае - обстановку комнаты), и концентрируется только на стиле.
>>1482843 >>1482843 Вообще кстати я бы сразу сел на форк с поддержкой EDM2 для сдхл, я когда тренил сдхл наверно лучшие результы с динамическим вейтингом как раз и получал. Конфиг примерно как на пике, ток там текст енкодер вырублен есличе, можешь обратно включить, форк с поддержкой едм2 тут https://github.com/67372a/sd-scripts Тыкай кароч изучай
Ты указал много замечаний достаточно, что-то мне понятно (там где просто конкретный параметр нужно изменить) Что-то неособо типа вот абзац про лосс.
какой-то есть дефолтный сет параметров, в формате, как ГРОК выдает попуктно?
Цель ещё раз - лора в той обставновке, что у меня датасет, нормальное лицо. Я так понял, что всё таки стоит заморочится и докидать ещё фоток в сет, хуже не будет. По времени обучения - мне похуй, могу хоть на весь день оставить комп, но вроде 5090 должна быть шустрой.
>>1482830 Возможно ли натренить лору на определенный вид частей тела, сисек например, и какой нужен датасет? Только пикчи сисек 512х512 или еще с так сказать, обладательницей? И как сделать что-бы лора не влияла на всего персонажа включая лицо, а затрагивала только нужную часть тела? Заранее прошу прощения если вопрос очевидный, совсем нубас в этом.
Какой воркфлоу должен быть, чтобы можно было дипфейкать ёбла тян со спэрмой на лицо? Загружаю стандартный имг2имг, добавляю туда условную лору cumfacial, кидаю картинку, жму старт, а моя 4060 кааак упирается в сотку и зависает нахой. Я даже дождаться результата не могу. Хотя при этом генерации анимеговна идут нормально, нагрузка выростает, но компик не виснет каждые пять секунд, и генерится всё минутку. Что делать, я не пынемаю, помогите...
>>1482918 >У меня 5090 Ну тем более. У тебя вообще широкие возможности. >Что-то неособо типа вот абзац про лосс. Лосс это буквально штука которая гайдид оптимайзер чтобы он двигался в сторону от ошибки к решению задачи, то есть говорит оптимайзеру "ты идешь туда" или "не туда еблан". Стандартные лоссы это MSE (l2) и MAE (l1), но они оба как топором резать нитки на малых датасетах, не говорю что с ними нельзя добиться хорошего и быстрого схождения, но они предназначены больше для работы с большим корпусом данных на большом батче, у одного очень резкий срез между тотальной ошибкой и нормальным значением, что может путать сетку, второй просто слишком тормоз и не допускает никаких значимых ошибок, а значит не учится уникальным паттернам быстро. Есть Huber+SNR, вот он более менее подойдет для сейфовой эффективной тренировки, то есть лосс будет считаться от сигнал ту нойз отношения из градиентов полученных с датасета напрямую. Из нестандартных есть wavelet лоссы, но там такой разбег настроек семейств, что лучше пока туда не лезь, они в основном используются в тренировки моделей для апскейла и суперрезолюшена, дают супер четкие границы, детали, но при неправильнйо настройке можно насосаться артефактов. Есть фракшинал фурье трансформ, вот он простой, тонко настраиваемый и эффективный, как его внедрить можно тут почитать https://civitai.com/articles/21989/fft-loss-implementation-sdxl-sdscripts . И многие многие другие, в форке сдскриптов выше добавлены еще многие другие лоссы логкоши всякие и так далее, но они не прописаны на использование, так что сам ручками можешь потыкать. Ну и ЕДМ2 само собой стоит тебе попробовать. >какой-то есть дефолтный сет параметров, в формате, как ГРОК выдает попуктно? Ладно, давай прям супер короткий сет параметров дам для тренировки фулового лора адаптера (2 гига будет весит каждая модель выходная имей в виду) без сжимания в мелкие дименшены, раз у тебя 5090. Плюс фулового говна в том что тебе не нужно выставлять никакие дименшены и альфы вообще, так как не происходит селективного сжимания пространства до мелкоранговых лор. Тебе нужно накатить ликорис последний только https://github.com/KohakuBlueleaf/LyCORIS и шедулер фри продижи. Либо как вариант использовать адафактор заместо него, он может быть как адаптивным так и не адаптивным, адаптивный адафактор просто долго разгоняется и ему стартовую скорость нельзя выставить, ну и еще адафактор самый маложрущий врам оптим, даже меньше чем адам8бит. Из того что тебе нужно менять: очевидно настроечки оптимайзера, все параметры прописаны на странице оптима, но я бы не трогал экспериментальные. На пикче стоят 0.9 0.9 по бетам чтобы бодро шагал при тренировке, но тесты шедулерфри на ллм https://arxiv.org/pdf/2507.09846 говорят что лучший результ это 0.95 0.99, но это будет медленнее и при тренировке с ТЕ будет заметное расхождение со временем, что по сути сделает модель менее отзывчивой, поэтому я бы ограничился 0.95 0.95. Аргумент шедулерфри_ц описан тут https://github.com/LoganBooker/prodigy-plus-schedule-free/issues/37 d0 я выстаивил не слишком агрессивный и не дефолтный сейфовый для сдхл. d_coef можешь крутить в принципе, это переменная которая управляет вкладом в изменения, чем больше, тем агрессивнее, но сейфово либо дефолт 1 ставить либо повышать до 2. стейбладам это лимитер, можно его юзать или не юзать, зависит от того как поведет себя продижи на твоем датасете и будет ли его пидорасить --full_bf16 стоит т.к. сторинг параметров будет в меньшей битности происходит следовательно меньше врама, ну и продижи оптимизнут для bf16 значений в принципе
>>1482918 Я так понял, что всё таки стоит заморочится и докидать ещё фоток в сет, хуже не будет. Это грубая ошибка. Золотое правило для подбора датасета - quality over quantity. Кроме того, чем больше картинок - тем больше размывается конкретика. Накидай слишком уж много одного персонажа - и даже его лицо может начать начнет плыть - модель начнет хватать другие "похоже детали" с фона или даже "шума". Деталь- > Персонаж/объект -> категория/действие (т.е. концепт) -> общий стиль. Чем дальше по этой шкале. тем больше нужно картинок в датасет. Но и обратное верно, слишком много - тоже нехорошо (кроме стиля). Дополнительная тренировка этого не меняет. Я когда первые разы пробовал, еще на sd 1.5 - тоже попался. В итоге убрал половину начального датасета, и только после этого персонаж стал стабильно на себя быть похожим. Осталось в результате только ~20 картинок.
>>1482951 Да, запросто. Это либо концепт - если сиськи нужны хоть и похожего типа, но разные, или аналог лоры на лицо, если сиськи требуются чьи-то конкретные.
Если нужно чтобы не влияло на лицо - это концепт. Значит не нужно лицо в датасете, только разные примеры с подходящими по типу сиськами, которые должны занимать ~70% размера картинки, с некоторым окружением (по которому будет понятно как их к телу крепить, и как они с окружением взаимодействют). Но если их размер влияет аж на позу, к примеру - тогда уже есть смысл добавить несколько примеров "в полный рост", в нужной позе. Только обязательно - с разными персонажами, иначе будет не концепт, а риск того, что лора ухватит кого-то конкретного.
>>1483090 Нет, ты просто качаешь зип, развертываешь в папку, создаешь в ней папки: 1. logs 2. output_dir 3. кидаешь папку с датасетом формата "папка название датасета/папка количество рипитов/картинки с кепшенами", то есть если у тебя 100 картинок и ты хочешь 1 репит на картинку то кидаешь сам даатсет в папку 1, а папку 1 кидаешь в папку например с названием GOVNO и уже эта папка идет в корень скриптов, а само название прописывается в конфиге
Далее все что тебе нужно это иметь системный питон с установленными зависимостями (торчи хуерчи), ликорис, куду согласно твоей карте.
Дальше тебе надо создать условный 1.bat файл, где прописать допустим этот конфиг который я кидал выше https://pastebin.com/5vSWZAsC Затем просто запускаешь батник и смотришь есть ли какие-то ошибки, если есть ошибки - фиксишь ошибки.
>>1483093 >Это грубая ошибка. Золотое правило для подбора датасета - quality over quantity. Кроме того, чем больше картинок - тем больше размывается конкретика. Это если дрочить на сорт оф дефолтных настройках из любой дефолт гуид нейм без дополнительных ухищрений. Допустим EDM2 не даст вообще все с датасета спиздить подчистую и сломать генерации, в подобном ключе работает debiased est loss, но изучая только преимущественно высокий таймстеп с богатыми данными. А еще можно юзать B-LORA селективный тренинг https://github.com/yardenfren1996/B-LoRAhttps://github.com/ThereforeGames/blora_for_kohya и там вообще поебать на размер датасета, т.к. большая часть сдхл вообще не трогается при тренировке. Ну и лосс функция на многое влияет, с топорным l2 действительно можно насосаться с потерей данных и уйти в копирку датасета.
>>1483091 Я криворучка, вот так надо на раздельный lr правильнее. Либо убрать эти 2 аргумента и заместо них один learning_rate=1 (без раздельных скоростей)
>>1483206 >Чёто батник нихуя не заводится Ошибку пости, в трейсбеках все всегда пишется >я так понял это скрипт в твоей ссылке на sd3? А не на sdx1? Не, это универсально так называется, просто ветка sd3 с поддержкой sd3 и прочих дит моделей
>>1483215 ну например: C:\Program Files\Python310\python.exe: can't open file 'C:\AI\sd-scripts-sd3\sd-scripts\sdxl_train_network.py': [Errno 2] No such file or directory и там действительно нету этого файла.
Ошибка RuntimeError: operator torchvision::nms does not exist — это классическая проблема несовместимости версий PyTorch (torch) и TorchVision (torchvision). Она возникает, когда torchvision установлен в не ту же версию, что torch (или torch — CPU-версия, а torchvision ожидает CUDA). Это не проблема в твоём .bat или форке — это конфликт пакетов в venv. Быстрое решение (переустанови torch + torchvision правильно)
Деактивируй venv (если активен):textdeactivate Удалить старые torch/torchvision (чтобы не было конфликтов):textpip uninstall torch torchvision torchaudio -y Установи совместимую версию (рекомендую stable torch 2.4.1 + torchvision 0.19.1 + cu124 для RTX 5090):textpip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124 cu124 — CUDA 12.4 (самая свежая стабильная для RTX 50-series). Если хочешь nightly (самые новые) — используй:textpip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu124
Проверь установку (запустите в той же venv):textpython -c "import torch; import torchvision; print(torch.__version__, torchvision.__version__, torch.cuda.is_available())"Ожидаемый вывод: 2.4.1 0.19.1 True (или nightly-версия). Запусти .bat заново:
Но ГРОК суёт какие-то дедовские версии я так понимаю, у меня вообще стоит нвидиа куда тулкит или как там его 13.1.
>>1483243 смотри какая логика, ты ставишь куду под свою карту, допустим челик вчера один на 5090 ставил 12.8, дальше тебе надо иметь питон, у меня стоит 3.11.9 чтобы пара софтин с UI работала, у челика с 5090 3.13, дальше тебе надо поставить питорч согласно твоей куда через допустим для 12.8 куды pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128 далее у тебя в папке с сдскриптами есть файл requirements.txt, ставишь из него все либо в ручном режиме нужное без чего не запускаются скрипты, либо все скопом через pip install -r requirements.txt далее накатываешь последний ликорис также по команде и продижи
русский в comfyui
Аноним08/01/26 Чтв 21:11:54№1483264494
Вопрос: как избавиться этого ужасного шрифта и дебильного перевода одним махом (поменять язык на английский)?
>>1483286 >>1483286 Да все просто. Готовишь датасет из говна и палок, указываешь его в датасете. Зетку можно тренить аж на 256 если врама нет, но а так начиная с 512 резолюшен в самый раз. Берешь дедистиллед модель в дифузерсах, указываешь адресом где находится на пека. Настройки тренинга в устрице позволяют тренить в квантах что существенно экономит врам, я выставлял 4 бита для трансформера и 2 бита для те, но локр тренится на квантах только начиная с 40 серии нвидии, лоре без разницы. Триггер ворд не обязательно если не нужен вызов целенаправленный. В конфиге можно прописать также transformer_only: false чтобы захватить контекст рефайнер слои, который убыстряют схождение. Ну и по мелочи можешь сделать адаптивный адафактор и покрутить его параметры прописав их в конфиге вручную.
А так лучше наверно https://github.com/bghira/SimpleTuner/ накатить на линукс внутри винды через WSL, там прям полная поддержка всей хуйни в том число все алгоритмы ликориса и тренить там BOFT чтобы менять веса зетки а не просто дрифтить имеющиеся веса лорой без возможности натренить настоящий писик например.
>>1483313 >датасет из говна и палок Кстати так никто и не писал, как правильно этот датасет собирать. Потому как результат это 80% от того что в нем, а не ленинг рейтах и прочих крутилках. Если лора на тянку, то какой фон должен быть, сколько нужно ракурсов, сколько нужно фото лица/в полный рост и т.д
>>1483315 Вот честно архитектуре зетки совместно с обжектом флоу глубоко насрать как датасет готовить, она не с шумовым предикшеном работает. Даже просто сбор говна без кепшенов обучается прекрасно.
Ну вот допустим я хочу обучить лору на одну селебу Франции из 90х и нулевых. Фотки все естесно зашумленые и в лоурезе в основном (кроме фото сетов, но их хуй мало и тоже говно). Как минимум надо хайрезить не? А еще и восстанавливать часть как то
>>1483319 Зависит от датасета и лр, но в среднем результат где-то на 1200-2500 для 100 картинок. А я просто на ночь ставлю обычно и потом смотрю че там напердело, бывает прикольное на 5к степах всякое со сниженным лр.
>>1482728 heavily biased towards female humans делаю позитив (male human:1.5) (human penetrating feral:1.5) негатив (female human:1.5) (human penetrated:1.5), а модель на пахуе генерит фералов, ебущих женщин, иногда хоть и шерстяных, но очевидных > NoobAI YiffyMix v6.3 тут такого не случается, или случается очень редко
>>1483320 > Ну вот допустим я хочу обучить лору на одну селебу Франции из 90х и нулевых. Фотки все естесно зашумленые и в лоурезе в основном (кроме фото сетов, но их хуй мало и тоже говно). У тебя автотагер уловит олдовость фоток и распишет в том числе нойз, а зетка по итогу обратит на это внимание и не будет давать гены без точного указания на шум.
>Как минимум надо хайрезить не? >А еще и восстанавливать часть как то Неа, поле скоростей не так как нойз пред работает. Собственно поэтому можно тренить аж 256 удовлетворительно, хотя казалось бы там ужимание от даталоадера сначала а потом еще вае в десять раз меньше латенты делает. Нормально опиши говняк на картинках и флоу затащит.
>>1483262 Вроде всё накатил, но не заводится батник всё равно:
sdxl_train_network.py: error: unrecognized arguments: --network_model_as=safetensors constant --edm2_loss_weighting_num_generate_graph_limit=150 --edm2_loss_reduced_use_float64 Traceback (most recent call last): File "C:\Program Files\Python310\lib\runpy.py", line 196, in _run_module_as_main return _run_code(code, main_globals, None, File "C:\Program Files\Python310\lib\runpy.py", line 86, in _run_code exec(code, run_globals) File "C:\AI\sd-scripts-sd3\.venv\Scripts\accelerate.exe\__main__.py", line 7, in <module> File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\accelerate_cli.py", line 50, in main args.func(args) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\launch.py", line 1281, in launch_command simple_launcher(args) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\launch.py", line 869, in simple_launcher raise subprocess.CalledProcessError(returncode=process.returncode, cmd=cmd)
Грок кричит, что: Главная причина краша Скрипт sdxl_train_network.py в форке 67372a/sd-scripts не поддерживает большинство твоих аргументов, потому что это форк для SD3/SD3.5/FLUX, а не для SDXL.
--network_model_as="safetensors" — не существует в этом форке (это флаг из старого kohya-ss/sd-scripts для SDXL). --edm2_loss_weighting и все связанные с ним флаги (--edm2_loss_weighting_optimizer, --edm2_loss_weighting_lr_scheduler и т.д.) — не распознаются (это кастомные флаги, которых нет в скрипте или они сломаны/не реализованы). Скрипт выводит usage (список поддерживаемых аргументов), где нет--network_model_as, --edm2_loss_weighting и многих других из твоей команды.
Форк 67372a/sd-scripts — это не SDXL-версия, а ветка для SD3/SD3.5/FLUX (поэтому скрипт sd3_train_network.py есть, а sdxl_train_network.py — устаревший или модифицированный, без EDM2).
>>1483334 Я под ZIT делаю основной тег лоры на все картинки (чтобы ее можно было вызвать принудительно из промпта), и минимум остального. В основном - теги неудачных деталей вроде "bad hands" - это помогает их отделить от основного смысла лоры. Кроме этого основного тега - можно и забить, если возится лень.
>>1483313 >можно тренить аж на 256 >512 резолюшен в самый раз Что в таком разрешении вообще натренится? Артефакты компрессии? Если на персонаже много мелких деталей, как в тех же гача-дрочильнях - что сетка из этой каши в тренировку потянет?
>>1483356 > Если на персонаже много мелких деталей, как в тех же гача-дрочильнях - что сетка из этой каши в тренировку потянет? Уважаемый, дифузионные модели не работают с пиксельспейсом, они работают с латентным представлением, который еще во времена каскада умел ужимать дату в 50 раз с noise pred и возвращать обратно. А у зетки вообще не noise pred, а обучение через vector field. Ей преимущественно насрать на разрешение, она учит скорость достижения результата, а статистика основной модели восстановит все исходя из самой себя.
>>1483362 >>1483371 Да блин, вопрос не в архитектуре. Как сеть может понять, что именно тренить, если из-за компрессии объект ужимается до области в 10х10 пикселов?
Вот у перса привет сенко-шизу заколка в виде красного цветка с пятью лепестками и двумя шнурками с кисточками. Изображение ужато до такого качества, что те же шнурки уже тупо неразличимы. Как сеть подхватит точную конфиграцию объекта, если из-за сжатия этого объекта в изображении уже нет? И это достаточно простой дизайн у перса еще.
>>1483377 Сеть уже содержит статистическую информацию в своем бесконечном латентном поле признаков об этой хуйне, а так как поля скоростей деградируют от резолюшена нелинейно, то даты полученной из 256 картинки достаточно чтобы сетка имела возможность составить представление о пространственном признаке даже не имея его полного оригинального резолюшена чтобы восстановить его статистически.
>>1483382 >то даты полученной из 256 картинки достаточно Так нет в 256 картинке этой даты. Ее съело пережатием. Вот в чем у меня вопрос и сомнения.
Блин, пока не увижу конкретный юзкейс такой тренировки на тех же персах из гачи-параш, ибо это около-идеальный пример потери комплексной информации с изображения на пережатии - не поверю, что это реально. Ибо звучит как чертов бред.
>>1483393 > Так нет в 256 картинке этой даты. Ее съело пережатием. Сжатие анусов это проблема пиксель спейса, а не латентов и скоростей. Давай еще проще напишу: это ты не можешь получить скрытопризнаки своим несовершенным зрительным аппаратом, а сетке не нужна хайрез писельспейсовая информация вообще, даты от скоростей с 256 пукселей ужатых в 10 раз ваешкой ей достаточно и так. Но лучше конечно 512.
>Что в таком разрешении вообще натренится? Артефакты компрессии? Чел, не повторяй мою ошибку. Я тоже не верил, и чуть не разосрался со всем тредом (потом извинялся). Но таки сам попробовал - это, сцуко, магия, но это таки работает для ZIT. 256х256 ей хватает практически для всего. На качество картинки не влияет вообще, проёбываются только самые мелкие детали, и то - не стандарт всякий, на гране дефектов изображения. 512х512 - вообще для всего хватает.
Заколки на твоей кицуне захватит даже на 256, на 512 - с гарантией. И я точно такие же аргументы приводил. :)
протечка лоры перса во все щели
Аноним08/01/26 Чтв 23:18:02№1483405523
вопрос: как этого избежать? я так понимаю, слайдер: strenght clip (рис 1) именно для этого и предназначен, но он не работает, как и многое в моей жизни. в сдохле такого небыло, лора персонажа конечно-же вносила свои коррективы, в том числе в персонажей противоположного пола, но не такие сильные и разрушительные.
что мне на это скажет профессура?
И, да, что не так с поцелуями? на промте френч кисс. сенсуал кисс, блядь, это что такое вообще, обычно так целуют котят, где passionate kiss я вас блядь спрашиваю?
>>1483375 У тя там ошибки (нетворк модел ас такого действительно не существует например, там должно быть --save_model_as, в самой последней строке проебан перенос ^, пауза не отделена от массива и тд), сравнивай с пастебином отсюда >>1483108
>>1483377 Ну вот я по меньшей стороне до 256 уменьшил, есть практически вся инфа, дальше вае переведет это в латент где еще в более компактном представлении все будет, а s3dit+flow будет обучаться скоростям. Пойми, что любая сеть это предсказательная поебень на основе недоступных тебе статистических данных, ей если не хватает - она статистически предположит и восстановит вообще на похуй, это ее задача.
>>1483401 >Но таки сам попробовал Вот мне ради проверки целую очередную инфрастуктуру для новой модели качать и ставить не очень хочется и так места нифига уже нет. Пока что звучит как какая-то черная магия.
>>1483407 1) подправил батник из пастебина Начало заводиться, но пик1 Сет с тхтшками у меня лежит в C:\sd-scripts-sd\data\mywoman пробовал в батнике и этот путь и просто корневой C:\sd-scripts-sd\data - нихуя.
кроме того, после всех обновлений пакетов всяких у меня гуи комфи перестал генерить пикчи и сыпется с ошибкой пик2
протечка лоры перса во все щели
Аноним08/01/26 Чтв 23:48:03№1483439528
>>1483405 частично вопрос снят, я просто поменял семплер, у меня какого-то хуя блядь стоял там эйлер, один из самых ебанутых семплеров эвар, поставил туда: DPPM_2M_SDE_GPU, чуть понизил вес лоры и вроде как стало болеее-менее. Ещё раз обращаюсь к тем, кто только что вкатился, не юзайте умолчанческий (рекомендуемый) мультистеп, он уебанский, это из-за него весь негатив в виде т.н. плесени на коже, пережога, и неадекватного освещения.
Вопрос про поцелуи не снимается, может какая-то nsfw лора меняет это?
>>1483429 >1) подправил батник из пастебина >Начало заводиться, но пик1 >Сет с тхтшками у меня лежит в C:\sd-scripts-sd\data\mywoman Ты проебал папку с репитами, положи майвуман в папку "1", которая должна лежать в папке дата, сама папка дата должна лежать рядом с батником >после всех обновлений пакетов всяких у меня гуи комфи перестал генерить пикчи и сыпется с ошибкой пик2 у тя не портабл чтоли? >
>>1483449 Вот так крашится (фотки схавал) Traceback (most recent call last): File "C:\AI\sd-scripts-sd3\sdxl_train_network.py", line 213, in <module> trainer.train(args) File "C:\AI\sd-scripts-sd3\train_network.py", line 910, in train model_version, text_encoder, vae, unet = self.load_target_model(args, weight_dtype, accelerator) File "C:\AI\sd-scripts-sd3\sdxl_train_network.py", line 60, in load_target_model vae.set_use_memory_efficient_attention_xformers(args.xformers) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\modeling_utils.py", line 394, in set_use_memory_efficient_attention_xformers fn_recursive_set_mem_eff(module) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\modeling_utils.py", line 390, in fn_recursive_set_mem_eff fn_recursive_set_mem_eff(child) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\modeling_utils.py", line 390, in fn_recursive_set_mem_eff fn_recursive_set_mem_eff(child) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\modeling_utils.py", line 390, in fn_recursive_set_mem_eff fn_recursive_set_mem_eff(child) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\modeling_utils.py", line 387, in fn_recursive_set_mem_eff module.set_use_memory_efficient_attention_xformers(valid, attention_op) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\attention_processor.py", line 425, in set_use_memory_efficient_attention_xformers raise e File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\diffusers\models\attention_processor.py", line 423, in set_use_memory_efficient_attention_xformers _ = xformers.ops.memory_efficient_attention(q, q, q) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\xformers\ops\fmha\__init__.py", line 311, in memory_efficient_attention return _memory_efficient_attention( File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\xformers\ops\fmha\__init__.py", line 472, in _memory_efficient_attention return _memory_efficient_attention_forward( File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\xformers\ops\fmha\__init__.py", line 491, in _memory_efficient_attention_forward op = _dispatch_fw(inp, False) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\xformers\ops\fmha\dispatch.py", line 142, in _dispatch_fw return _run_priority_list( File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\xformers\ops\fmha\dispatch.py", line 83, in _run_priority_list raise NotImplementedError(msg) NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs: query : shape=(1, 2, 1, 40) (torch.float32) key : shape=(1, 2, 1, 40) (torch.float32) value : shape=(1, 2, 1, 40) (torch.float32) attn_bias : <class 'NoneType'> p : 0.0 `[email protected]` is not supported because: requires device with capability <= (9, 0) but your GPU has capability (12, 0) (too new) dtype=torch.float32 (supported: {torch.bfloat16, torch.float16}) requires device with capability == (8, 0) but your GPU has capability (12, 0) (too new) `[email protected]` is not supported because: dtype=torch.float32 (supported: {torch.bfloat16, torch.float16}) operator wasn't built - see `python -m xformers.info` for more info `cutlassF-pt` is not supported because: requires device with capability <= (9, 0) but your GPU has capability (12, 0) (too new) Traceback (most recent call last): File "C:\Program Files\Python310\lib\runpy.py", line 196, in _run_module_as_main return _run_code(code, main_globals, None, File "C:\Program Files\Python310\lib\runpy.py", line 86, in _run_code exec(code, run_globals) File "C:\AI\sd-scripts-sd3\.venv\Scripts\accelerate.exe\__main__.py", line 7, in <module> File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\accelerate_cli.py", line 50, in main args.func(args) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\launch.py", line 1281, in launch_command simple_launcher(args) File "C:\AI\sd-scripts-sd3\.venv\lib\site-packages\accelerate\commands\launch.py", line 869, in simple_launcher raise subprocess.CalledProcessError(returncode=process.returncode, cmd=cmd) > у тя не портабл чтоли? Да вроде нет, ну в браузере запускаю через павершел python main.py
>>1483439 >Вопрос про поцелуи не снимается, может какая-то nsfw лора меняет это? Лора никакая без оверфита не способна френчкиссы. А оверфит разъебывает модель. Выход сейчас только тренить диагоналки OFT которые трушно меняют веса зетки, но это тебе линукс на шинду или просто линукс накатывать.
>>1483455 >Да вроде нет, ну в браузере запускаю через павершел python main.py А че портабл на 5090 не работает щас? Ну это, обновляй зависимости под комфи значит.
>>1483410 >есть практически вся инфа Какая инфа? Где? Стиль рисовки глаз уже неразличим. От шнурков совсем ничего не осталось. >она статистически предположит Да что она, блин, "предположит", если в тренировочных данных уже нет информации, которую нужно "предполагать"?
Ладно, другой пример. Со стилем. Возьмем какого-нибудь Миуру с его фирменной штриховкой. Плюс чисто манговские скринтоны подмешаем. Чему нейронка научится, если ей пикрил 2 или пикрил 3 скормить? Или вы сейчас на полном серьезе станете утверждать, что нейронка сможет "предположить" растровую сетку скринтона с пикрила 1 из "заливки", в которую ее пережатие на 256 пикселов превратило? Так то я пока ни одной нейронки не видел, которая бы в хорошие, различимые скринтоны могла, но мало ли...
>>1483465 Да похуй, шизики они или не шизики. Мне это реально интересно. Выше вон чел тоже писал, что сначала не верил, что сработает, а потом в обратном убедился.
>>1483464 Лень по третьему кругу обиснять, ты игнорируешь архитектуру и принцип взаимодействия сетки с датой. Забей просто, не хочешь не трень 256, никто не заставляет. >Так то я пока ни одной нейронки не видел, которая бы в хорошие, различимые скринтоны могла, но мало ли... Пробуй https://huggingface.co/NewBie-AI/NewBie-image-Exp0.1
>>1483461 вот грок тоже сказал отключить, но проблема что в сеттингсах нету такого, он посоветовал прописать в бат файл, но его я тоже не нашёл, как отключить то? >>1483463 Что значит "обновить зависимости"?
>>1483475 >вот грок тоже сказал отключить, но проблема что в сеттингсах нету такого Але дядя пикрел у тебя включен
>Что значит "обновить зависимости"? Ну ты очевидно накатил наверно куду другую, питон, торчи, теперь у тебя комфи не шпарит с ними (че ты вообще сделал до того как сломать комфи напомни), создай енв для комфи и туда впиздячь питон с зависимостями из реквайрментс.тхт, активируй енвшку и запускай комфи в нем. Ну или просто портабл скачай, если на 5090 работает, там комплектный енв.
>>1483474 Потому что ты не пробовал без квантов, это сразу ясно, лол. Отчётливо видна разница даже тренировки лор на qfloat8 и bf16, как на модели, так и на ТЕ.
>>1483471 >ты игнорируешь архитектуру и принцип взаимодействия сетки с датой. Я пытаюсь ее понять, а не игнорирую. Откуда сетке взять из данных то, что в них после ресайза уже не остается. Или там какой-то хитрый алгоритм перевода отправленной на ввод 1200х1200 картинки в тренировочное 256 разрешение? >Пробуй Ну, как бы, мнээээ... Уже с их демонстрационных картинок видно, что максимум, который на запрос по скринтонам и манге получится - что-то вроде моего второго пикрила. Т.е. мазня вместо отдельных, различимых точек. Про четкую сетку, как в типографиях печатают, и не говорю.
>>1483473 Вот тут верю. Тренировка клоуз-ап лица даже в 256 чего-то сохранит.
>>1483491 >Перечитай ветку еще раз. Перечитал уже трижды. Ответа не вижу. Латенты-хуенты, пиксель-шмиксель, а откуда нейронка будет восстанавливать желаемую к отображению сетку скринтона, если на входе от него серая заливка осталась - все равно не понимаю.
>>1483499 >Смирись Скорее уж останусь при мнении, что все это - лютая шиза и змеиное масло. По крайней мере, пока демонстрации не увижу. Можно даже не от местных анонов, а с цивита кого-нибудь найти, кто тоже в 256\512 тренировал, и нормально сложные к воспроизводству детали с исходников сохранил.
>>1483482 > че ты вообще сделал до того как сломать комфи напомни
Короче я как советовали: Натренировать лору для Лустифай на SDXL, подключил поверх лору DMD2 на LCM + 1 CFG. Лицо было не оч. Шарящий анон посоветовал, всё хуйня давай по новой, обучай, пробуй ЕДМ2 - вот его я нихуя не могу завести. Пока ебался с настройками под него - хуй знает уже какие поставил торчи-хуёрчи и вот комфи стал эту ошибку выдавать. Типа хформеры надо выключить (я их походу накатил под ЕДМ2).
Как итог ни батник с ЕДМ2 не заводится, ни КОМФИ не пашет.
>>1483522 Аргументики для комфе запуска. Несколько атеншенов заместо иксформерсов имеются (sdpa это --use-pytorch-cross-attention) и дизейбл иксформерсов.
>>1483487 >Вот тут верю. >Тренировка клоуз-ап лица даже в 256 чего-то сохранит. Телепат ошибся. Речь шла о персонажах в полный рост, и с достаточно сложными костюмами.
>Откуда сетке взять из данных то, что в них после ресайза уже не остается. Из самой сетки. Т.е. если в самой ZIT есть что-то похожее - она на основе этих данных достроит. Мне тоже казалось - что будет фигня, и потеря мелких деталей. Но способность ZIT распознавать по "точкам" и косвенным признакам реально огромная. Она буквально по нескольким точкам и их положению понимает, что вот это - заколка. Ошибается только с совсем уж мелочью, и очень нетипичными вещами. Родинку может пропустить, форму татушки (тоже совсем мелкой) и т.д. Но она вытягивает и достраивает куда лучше, чем человек догадывается, если у нее в собственном датасете что-то похожее было. Вот если деталь совершенно новая и необычная - тогда да, могут быть проблемы.
Тут блин, у меня вообще финиш недавно случился. Тренировал лору на перса. Даже не аниме, а рисовка примитивная, почти скетч. Случайно оставил в проверочных промптах одну картинку с запросом РЕАЛИСТИЧНОГО ФОТО. Так лора тренирующаяся, на фактически скетчах, на нем выдавала ФОТО, причем очень правдоподобное. Примерно так, как первый qwen-edit мог стиль поменять с рисунка на фото. Откуда, спрашивается, она все нужное взяла, чего в скетчах вообще быть не могло по определению? :)
>>1483550 >Из самой сетки. >Ошибается только с совсем уж мелочью, и очень нетипичными вещами. Т.е. форму цветочную сеть сохранит, но шнуры с кисточками - уже нет. Потому что после пережатия их не видно, а знания о дизайне этой конкретной заколки у сетки нет, и взяться этим знаниям неоткуда. Как раз этого я и ожидал, а не всякой черной магии, которую другой анон тут пропагандировал.
>>1483564 Конкретно в данном случае - 50 на 50, т.к. после пережатия до 256 все еще видно кисточки (по несколько пикселей но есть обозначение), и даже намек на шнуры (линия из чуть более темных пикселей). Модели даже такого намека может хватить. И теоретически - там вполне могут быть похожие украшения, на основе которых это будет достроено. Это просто для понимания НАСКОЛЬКО оно чувствительно. Но тут - голая теория, т.к. для лоры персонажа нужна не 1 картинка, а хотя бы 5-8 по минимуму. И чтобы украшение попало на несколько из них. Если пытаться тренировать на одной, то Bath Size больше одного не выставить, а без этого картинка получается шакальной.
>>1483540 >короче сделал pip uninstall xformers и комфи заработал ну можно так >не пойму а какое отношение мой train.bat имеет к комфи? у тя окружение не изолированное
>>1483550 чел, заканчивай маняфантазии свои нелепые вся суть тренировки в том чтобы научить нейронку тому что тебе надо, а не тянуть рандомное "похожее" говно из двух пикселей. поэтому всегда в датасет докидываются клозапы всех важных мелких деталей.
>>1483769 > Но и когда он установлен был, один хуй не заводилось. Хформерса нет для 5090, поэтому уже третий раз повторяю убери нахуй хформерс из батника и пропиши сдпа.
Попробовал заменить квен для зиты на безцензурный. Стандартный иногда письку прикрывает ногой, позы не любит, белье хочет нарисовать когда не надо. "Безцензурный" просто 100% рисует в белье. Даже соски невидно.
>>1483982 Это thinking модель вроде, если не путаю. Вообще простой тест: просишь нарисовать цпу с отсутствующими выпуклостями, не бита, не крашена, ещё не было хозяев. И смотришь на размер баллонов. Стандартная старается рисовать большие.
>>1483982 Я его пробовал на старте Z-Image-Turbo. Разницы не заметил. То, что касается белья, предположу, что ты из секты дрочителей клипскипа или ещё каких-то магических донастроек уровня «один шиз примерно почувствовал». Ещё здесь было мнение (безпруфное, конечно же, уровня «яскозал»; хотя имеющее отчасти право на жизнь) , что на этапе перегона токенов в эмбеддинги цензура не работает, дескать она проявится только при выводе llm, когда она делает text completion, поэтому разницы между обычной и abliterated/derestricted версиями не будет.
>>1484004 >Ещё здесь было мнение (безпруфное, конечно же, уровня «яскозал»; хотя имеющее отчасти право на жизнь) Ты выставляешь себя полным дебилом в очередной раз. Тебе здесь цп выложить? Ллм с цензурой откажется обсуждать цп в любом виде. Та же самая ллм, но как энкодер без всяких отговорок рисует, что скажешь. Ты понял что я написал? Это и есть пруф. Но ты своим умишком не можешь это охватить. Прекрати токсить не по делу в треде. Мнишь себя профессором, а на деле тупой баран.
Я пробовао на стандартных параметрах из темплейта комфи.
На мой взгляд abliterated версии заметно тупее ванильных. Вчера развлекался, хотел генератор порнопромптов сделать. Пробовал гемму и квен >20б и обе пишут хуже. В итоге остановился на генерации списков окружения которое добавляется к ручному порнопромпту.
>>1483920 TypeError: LycorisNetworkKohya.prepare_optimizer_params() got an unexpected keyword argument 'apply_orthograd' Это главная причина — метод prepare_optimizer_params в твоей версии LyCORIS не принимает параметр apply_orthograd (он есть только в более новых версиях LyCORIS или в форке, который ожидает этот флаг). Ты используешь --network_module="lycoris.kohya" с параметрами, которые предназначены для новой версии LyCORIS (где добавлен orthograd для оптимизации), но в твоём venv стоит lycoris-lora 3.4.0 — в этой версии метод не принимает apply_orthograd.
Но по всем ссылкам, что грок предлагает - качается только 3.4.0 3.5.0 - существует вообще? или он пиздит опять?
Забавно, если в промпте по твоему совету "flat breasts" то зит просто игнорирует и рисует большую грудь, а если убрать упоминание груди то появляется одежда и вообще корежит.
>>1484011 Воздержусь от ad hominem в твой адрес, хотя с тобой после такого в целом всё предельно ясно. Бремя доказательства лежит на утверждающем. В подтверждение своей позиции ты мог изначально предоставить сравнение экспорта эмбеддингов, полученных обычной и abliterated версиями, сняв все вопросы в случае их идентичности. Вместо этого опять «яскозал×2» и ad hominem.
>>1483920 Бля чел, ты реально нулевый вообще. Тебе надо закоментить apply_orthograd в train_network.py чтобы они не вызывали краш. Всеж написано че вызывает ошибку и где.
>>1484078 если "flat", то это уже не "breasts" промпт сам себе противоречит, поэтому он делает breasts игноря flat > а если убрать упоминание груди то появляется одежда охуеть, а как должно быть?
1) Рисовать картинки img2img на основе line drawing скетчей ну или собственной мазни в стиле Craig Mullins, например (ну или похожем).
2) Улучшать собственные скетчи, чтобы нейросеть сама исправляла анатомию и добавляла детали на основе переданного скетча, не меняя при этом позу.
Годик назад игрался с StableDiffusion через ComfyUI. Некоторые результаты были мемные , но для задач которые я описал не годится.
Сейчас сидя в отпуске + на новогодних праздник что-то опять решил поиграться с генерацией. Почитал что Stable Diffusion 3.5 оказывается и не особо популярная и все сидят на "форках" (видимо не правильный термин, но вы поняли) StableDiffusion XL, а конкретно для иллюстраций существует IllustriousXL и NoobAI XL.
Попробовал NoobAI на civitai на бесплатных токенах поулучшать свои скетчи, но рисуется прям совсем дрисня с полной заменой изображения и похожая на аниме.
>>1484287 Либо эдит модели соверменные, но не факт что с твоим рисовачем справятся, либо сидеть дальше на сдохле обмазавшись ипадаптерами, контролнетами через криту + комфи через плагин https://github.com/Acly/krita-ai-diffusion
1. Вчера раздевал рандом_тян через инпеинт на сдхл: рисовал маску и через промт генерил что нужно. Столкнулся с этим -> >>1483982 тестировал на одном сиде, менял ко-во шагов и силу, где-то выдавал письку, где-то рисовал цветные треугольнички. Это типа цензура, как я понял делать цензуру на локалках это лол конечно. Еще из интересного, когда письку рисует, а по краям маски добавляет символы - этого прикола я не понял. В связи с чем вопрос: а правильно ли я делаю? Раздевание - это инпеинт или что-то другое?
2. По поводу сэмплеров: на одних и тех же настройках, промте и сиде, разные сэмплеры выдают абсолютно разный результат. Это вот так нужно постоянно перебирать методом тыка либо есть однозначно годные семплеры? Чем анон пользуется?
3. По поводу фейссвапа. Почитал, разрабы старую приблуду убили, а новая зацензурена вообще на голое тело. А как чисто технически этот процесс называется? И2И? Может как-то ручками и напильником будет работать? Интересует не только фейс, но и одежда, предметы и тд.
4. Потыкал криту, либо я тупой, либо нужно сидеть и разбираться. Гайдов - хуй да нихуя. Пока что не впечатлило + половина моделей просто не подхватилась из комфи. Попробую локально установить. Инвок мне больше зашел в плане редактирования и апскейлинга.
5. Забыл дописать по поводу инпеинта. Умные люди советуют для инпеинта инпеинмодели. Ок, скачал и потестил. По тесту получилось, что дефолтный джагернаут лучше, чем джагернаут инпеинт. Или это я тупой с руками из очка?
^ Куча текста, но благо это достойный хороший человек и сразу приложил свой говно-результат, по которому крайне ясно, что текст можно не читать. Каждый теоретик и словесный поносист делали ли бы так.
>>1484287 Есть ли что посоветовать под мои задачи? >>1484295 >Либо эдит модели соверменные, но не факт что с твоим рисовачем справятся,
Первый qwen-edit. Не 2509, не 2511, а именно самый первый. Он хорошо из скетчей даже псевдофото делает, не говоря уже просто улучшенном арте. Анатомию, правда, может не исправить, тут как повезет.