Терминология моделей prune — удаляем ненужные веса, уменьшаем размер distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше quant — уменьшаем точность весов, уменьшаем размер scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше merge — смешиваем несколько моделей или лор в одну, как краски на палитре.
lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.
Анончики поясните LTX2.3 может в v2v с моей аудиодорожкой? Есть видео персонажа на котором он двигается, но не говорит, либо говорит - просто рандомно шевелит губами и аудиодорожка которую я хочу чтобы он сказал. В LTX2.3 хороший липсинк на крупных кадрах. Идея оставить само видео практически без изменений и налепить липсинк. Если можно такое сделать поделится ктонибудь ВФ по этой теме?
Чекните плиз, они адекватны или нет и работают ли вместе
Вот пошаговая инструкция, как внедрить каждую из этих технологий в твой ComfyUI для RTX 4070: 1. Реализация SageAttention Самый важный шаг для видеомоделей (Wan 2.1/2.2). Установка: Проще всего через расширение ComfyUI-SageAttention. Применение: В Workflow добавь узел "SageAttention Loader". Соедини выход MODEL твоего лоадера (например, Wan2.1 Loader) со входом узла SageAttention, а его выход — дальше в сэмплер. Что дает: Ускоряет математику внимания внутри модели на ~30-50%. 2. Реализация TeaCache Позволяет пропускать похожие шаги генерации. Установка: Установи расширение ComfyUI-TeaCache. Применение: Добавь узел "TeaCache Patch". Он ставится в разрыв между моделью и сэмплером. Настройка: Установи параметр threshold на 0.1 (почти без потерь) или 0.25 (максимальное ускорение). Что дает: Сокращает время генерации в 1.5–2 раза за счет уменьшения реальных шагов вычислений. 3. Реализация Model Compilation (Торч-компиляция) Требует наличия Triton и свежего PyTorch (2.4+). Применение: Используй узел "ModelCompile" из набора ComfyUI-ExtraModels или встроенный функционал в продвинутых лоадерах. Нюанс: Первый запуск будет идти 5–10 минут (черное окно консоли) — это нормально, идет сборка ядра под твою 4070. Последующие генерации станут ощутимо быстрее. Важно: Работает только на Linux стабильно, на Windows требует установленного Triton для видеокарт 40-й серии. 4. Включение FP16 Accumulation (Параметры запуска) Это настройка самого экзешника ComfyUI. Как сделать: Отредактируй свой .bat файл (например, run_nvidia_gpu.bat). Добавь флаг: В строке запуска допиши --fast. Пример: .\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --fast Что дает: Включает оптимизированные пути вычислений для архитектуры Ada Lovelace (RTX 40). 5. Использование GGUF (Квантование) Чтобы модель 14B влезла в 12 ГБ VRAM без тормозов. Установка: Установи расширение ComfyUI-GGUF. Применение: Скачай модель Wan 2.2 в формате .gguf (ищи на HuggingFace от пользователя city96 или bartowski). Используй узел "Unet-GGUF Loader" вместо стандартного. Выбор: Для 12 ГБ VRAM бери версию Q4_K_M или Q5_K_M. 6. Стратегия "Low-Res + RIFE" (Workflow-хак) Вместо долгой генерации 60 кадров: В сэмплере Wan 2.2 выстави frame_count: 16 или 32. После генерации пропусти видео через узел "RIFE VFI" (из набора ComfyUI-Video-Helper-Suite). Выстави multiplier: 2 или 4. Результат: Ты генерируешь 2 секунды видео, а на выходе получаешь плавные 8 секунд за счет того, что ИИ «дорисовывает» промежуточные кадры. С чего начнем? Могу скинуть прямую ссылку на проверенный GGUF-файл Wan 2.2 для твоей карты.
они работают вместе все? Да, большинство этих технологий отлично работают вместе, создавая «эффект синергии», когда каждый слой оптимизации ускоряет процесс еще сильнее. Вот как они сочетаются в одной цепочке (Workflow): 1. Идеальная связка (Рекомендуется для 4070) GGUF + SageAttention + TeaCache: Это «золотое трио». GGUF экономит VRAM, чтобы модель не тормозила из-за выгрузки в оперативную память. SageAttention ускоряет математику внутри каждого шага. TeaCache просто выкидывает лишние шаги. Результат: Вы получаете максимально возможную скорость для Wan 2.2 на 12 ГБ памяти. 2. Что НЕ работает вместе (Конфликты) Nunchaku + SageAttention/TeaCache: Как мы обсуждали ранее, Nunchaku — это «закрытая» экосистема. Она использует свои ядра, которые не позволяют SageAttention вклиниться в процесс. Model Compile + SageAttention: Иногда могут конфликтовать на Windows. Если вы используете ModelCompile, SageAttention может вызвать ошибку «Triton kernels not found». Лучше выбрать что-то одно (для видеомоделей SageAttention эффективнее и проще в настройке). 3. Как это выглядит в ComfyUI (Схема подключения) Если вы соберете всё вместе, цепочка узлов будет такой: GGUF Loader (Загружает экономную модель). ➡️ SageAttention Loader (Патчит модель для быстрой математики). ➡️ TeaCache Patch (Патчит модель для пропуска шагов). ➡️ Sampler (Начинает генерацию). ➡️ RIFE / Upscale (Увеличивает плавность и размер уже готового видео). Итоговый совет: Для вашей RTX 4070 самым стабильным и быстрым набором будет: Флаг --fast при запуске + GGUF модель + SageAttention + TeaCache. Эта комбинация позволит вам генерировать видео Wan 2.2 в несколько раз быстрее, чем «из коробки», не вызывая при этом ошибок совместимости. Хотите, я помогу составить правильную строку запуска (батник) со всеми нужными флагами для вашей карты?
Сап, как называются эти ваши лоры, где видео, что тян стоит одетая (загружается и2в фото в одежде), а через секунду ее голую в другом ракурсе и позе сношают в жёпу? Может это лоры на персонажей индивидуальные или все-такие универсальные лоры, что так делают?
>>1600962 Нет я умный. Делаешь с помощью любой картиночной edit модели голую версию тян во время ебли, и делаешь два ролика. Потом клеишь. Получаешь 100% экспириенс >>1593720 → только без лишних лор.
Open-source 2B DiT, 720p at 121 frames, one checkpoint for both T2V and I2V.
83.76% on VBench Total, highest among open-source, beats Wan2.1-14B at 7x fewer parameters. Caveat: Wan2.1-14B still wins on temporal stability and fine human anatomy in blind tests.
>>1601059 Ладно, я думал ты трлишь, а не заинтересован в этом вопросе, раз такие советы даешь, но реально идиот получается на костылях ходишь. Нужна всего лора на cinematic hardcut и в промптах тоже hardcut.
вот вы любители на ровном месте посраться :) каждый выбирает удобный ему метод, причем мне лично тоже было бы проще два видоса склеить если бы такая задача стояла и не юзать лору на хардкат, но кстати в лтх 2.3 он уже и так встроен, точно работало с этим тэгом и без лор, а вот насчёт вана помню была отдельная лора на него у меня
Я не могу, обдрочился уже, по загадочным причинам генерироваю с соской, которая итак уже снимается в порно. Влюбился в проститутку и хочу от нее теленочка!
ltx2.3 по прежнему не умеет в нормальный прон, даже с учетом лор, они чаще всего делают хуже а не лучше, а eros файнтюн тот ещё кал, в итоге я решил что удобнее svi-ваном генерить, а уже потом загонять на переозвучку через ltx2.3, в целом недурно выходит, звуки для ебли всяко лучше чем гонять ван + ммаудио на моем среднем конфиге полутора-минутный видеоролик среднего качества влезает вполне
>>1601518 я для этой задачи тупо адаптировал тот что гуглится на реддите для LTX2 (вот отсюда брал : hps://www.reddit.com/r/StableDiffusion/comments/1q916xs/you_can_add_audio_to_existing_videos_with_ltx2/ а тот чел видимо переделывал штатный вф (был у киджая) для дубляжа, понятное дело я поменял все пути к моделям для LTX2.3, ну и приукрасив слегка нодами интерполяции + под себя переделал, например кабель перетащить с фиксированного фпс чтоб можно было его перенастраивать, но это мелочи, оно и без них работает предупреждаю что тот вф слегка накуреный потому что ltx нужно 24 кадра в процессе генерации, соответственно количество кадров нужно строго определенное указывать, при этом то что у тебя будет в изначальном видео и в том что тебе хочется делать можно указывать другое значение fps, если возникает ошибка vae encode значит количество кадров на вход не совпадает с тем что умеет жрать ltx, самый идеальный вариант конечно если у тебя изначально видео в 24 кадра в секунду и ты генеришь на его основе звук с новым видео 24 кадра, тогда ничего делать лишнего не нужно, будет работать сразу из под коробки, и видео лучше хорошего качества скармливать, тогда ии будет понимать что там
Есть у кого вокрфлоу для Wan с последовательным прогоном пачки латентов сначала через high сэмплер, а потом через low (чтобы модели в память не грузить на каждое видео)? Пробовал промежуточные латенты выгружать на диск, но быстро заебался вручную файлы туда сюда гонять. Есть рабочий вариант через Repeat Latent Batch, но оно в какой-то момент перестает в память влезать.
>>1601732 Сам спросил, сам ответил. Если между Repeat Latent Batch и сэмплером вставить Rebatch Latents со значением 1, то оно латенты будет по одному передавать, а не ебанет туда всю пачку.
>>1601749 Идея неплохая. Интересно, насколько ускорит, если у меня 12 ГБ ВРАМ, а модели fp8/Q8 по 14-20 ГБ? Если модели полностью помещаются результат должен быть приличным.
Поделись примером воркфлоу для теста, пожалуйста.
>>1601809 Насколько я понял идею анона, это поможет при генерации пачки видео из одного воркфлоу для подборки seed'f, силы лор и подобных вещей. На генерацию одного видео не повлияет. Лучше будет работать, если одна часть модели (в смысле high/low) целиком или почти целиком, если только половина - эффекта не будет.
как в ltx2.3 для анимации (любой где НЕ фотореализм) сделать нормальную музыку?! что бы я не делал какие бы промпты не писал всегда играет почти однотипная полусимфоническая ебанина, словно какая то мелодия затычка
>>1601809 >>1601969 У меня 16гб вирама и столько же древнего рама лол, плюс файл подсрачки на ссд. Бутылочное горлышко возникает из-за постоянной загрузки и выгрузки моделей из памяти. Если пачками обрабатывать, то на условные 5 генераций модели грузятся 1 раз вместо 5.
>>1602089 Но оно же дольше будет генерить, чем если бы я генерил просто один раз? При том, что я не знаю, может с первого раза получится нормально. Тоесть этот способ просто увеличивает время генерации на ровном месте. Очень странно.
>>1602032 Понял, благодарю, seed variation оказывается очень просто сделать)
>У меня 16гб вирама У тебя все варианты, все кроме fp16, за раз помещаются и на одном семплере нет выгрузок/подгрузок - в этом случае должно сильно разогнать. Есть цифры? У явно будет скромнее, надо потестить.
>>1602098 Тебе никто не мешает делать по одному ролику, пока ты подбираешь промпт, меняешь картинки и прочее. А когда у тебя уже получается плюс-минус то, что ты хочешь - прогнать пачкой в поисках более удачного сида или еще каких-то продвинутых вещей. Я полагаю, есть способ запустить 5 разных картинок из папки и/или 5 разных промптов из файла.
Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко ты можешь условно сгенерить 5 вариантов видосика по такой схеме, как 2 по обычной.
>>1602298 >Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко А как это определить. Я вообще не ебу откуда они грузятся, по частям они грузятся или целиком.
Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.
экономия на пачке 195.83*5 - 856 = 123,15 секунды 123,15 / 5 = 24,63 - на одном видосе, среднее Сокращение времени, среднее 24,63 / 195.83 = 0,1257 = 12,57%
Пытался запустить Q4_K_M, но у меня GGUF отказывается полностью грузится в карту и генерирует за тоже время, что и fp8. То ли руки кривые, то ли я чего-то не понял.
>>1602301 Упрощенно, каждый шаг в ksample - проход по всем слоям модели (для примера - 100). Если в видеопамять поместилась только часть слоев (например 80), то после прохода по ним, часть слоев (20) выгрузится из видеопамяти и на их место загрузятся новые. То есть каждый шаг эту колоду будет дрочить туда-сюда.
У анона мало ОЗУ и она медленная, поэтому загрузка-выгрузка происходит еще и в своп на диске, что максимально медленно, но его 16ГБ ВРАМ хватает на хай-модель ну и сама карта быстрая наверно, поэтому сам проход семплера достаточно быстрый. Поэтому его идея будет давай максимально большой прирост
>Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов. У тебя и flux-dev на 100 гб заработает, если оперативки свопа на диске хватит) Работать правда будет очень медленно
>>1601732 Я что то колупался с этим и по итогу сдался посчитав это не выполнимой задачей на программном уровне. Само устройство двух ксамплеров не позволяет генерировать сначала хай потом лоу. Ведь в конечный латент, который передаешь в следующий сегмент генерации, уже должен содержать генерации от хай и лоу, иначе никакой конситсентности не получится.
>>1602400 >последовательных видео Точно не будет, только "независимые" видео ролики для черрипика. Я уже предлагал варианты использования выше: - перебор сидов; - подбор силы лоры; - перебор вариантов первого кадра; - перебор промптов; - вариации озвучки.
>>1602461 По качеству в среднем хуже, почти все модели хуже работают с аниме. Разницу по ВРАМ как-то не ощутил
Гружу на hight модель fp16, а на low fp8 - в итоге все умещается в 96 гигов рама без свопа и ебли ссд. Проверил с полноценным fp16 на low - разницы ноль. Еще и свободно немного остается рама
В чем не прав? Минусы интересно есть еще какие то?
Мде, провёл вчера весь вечер в экспериментах с LTX 2.3 и анимацией, в отличие от реализма он не умеет в музыку для анимаций вообще, похоже что обучали только на беззвучных роликах. Везде примерно одна и та же фоновая унылая духовая музыка даже на всех видеопримерах с civitai где люди пробуют анимацию делать в этой модели, нормальная музыка отсутствует как сущность. Даже если накидать весов типа на такой то секунде играет мощный бит, он будет играть почти не слышно. Предполагаю что разработчики так сделали намеренно чтобы не нарваться на туеву хучу копирайтов, особенно от японцев или диснея. Тут видимо придётся или лор ждать кто сообразит музыку с анимацией скрестить или просто на своём аудио генерить уже через S+I2V вф стандартный [p.s. с не анимационными роликами такого у модели поведения нет, модель может клепать вполне годное музло и с вокалом и без
>>1602493 имхо чтобы его избегать нужно в бОльшом разрешении генерить желательно вообще в самом максимальное которое тянет система и референс не во всратом качестве пихать
Пацаны, я вот использую ранпод в своем проекте (тг боте) Юзаю Serverless Endpoint чтобы постоянно не платить за аренду карточки и у меня вопрос.
На ранподе есть шаблоны готовые. В этой репе есть и сама модель и API для нее и все ноды с вф предустановленные. Кароче кайф, но тут проблема в том что менять что-то в самом репозитории проблематично.
Я могу через нетворк вольюм поменять некоторые небольшие файлы, просто в баш скрипте перед стартом воркера заменить их, и это занимает секунды времени при старте.
Но проблема щас заключается в том, что я не могу прихуярить туда SVI, так как тех нод что предустановленны в репозитории - недостаточно. KJnodes там есть, но он старой версии, без SVI, а качать их перед стартом воркера - это очень долго и сильно повысит стоимость каждой генерации
Кто знает, что если я сделаю форк этой репы, а потом соберу ее сам, не будет ли ебучий ранпод скачивать для каждого воркера мой репозиторий всегда? А это десятки если не сотни ГБ из-за моделей и декодеров.
Репозиторий на пикриле же закеширован внутри ранпода, поэтому он его грузит быстро. Если будет, то есть ли у кого решение этой проблемы?
Бле да когда ж нормальные модели появятся делать аниме и чтоб не ебанутым цепочным воркфлоу или с премиумами за сто тыщ баксов, а чтобы просто зарядил промпт и погнал. Вот как anima для картинок, какой то топовый локальный инструмент народ бы взял за запилил, за который не жалко будет и задонатить. Протестировал за последние два месяца всё что можно, наиболее оптимальный вариант пока выглядит всё тот же локальный svi ван, а это долго ужасно рандомно, нет встроенного звука, но с ним хоть что то приличное можно сочинить если как следует поебаться. LTX2.3 не обучен 2d аниме, только картунсы, все текущие лоры на аниме 98% делают кал, нр можно потрахаться сделать неплохо для этого надо наверное часов эдак 40 посидеть. Тут надежда только на то напихают ли аниме в следующую версию модели или найдется боярин с бабками натренирующий жирный топовый файнтюн (ну типа как Lodestone с хромой). онлайн Клинг неплох, знает много аниме (если например написать сгенери в стиле Призрака в Доспехах) но частенько косячит в стиле примерно на уровне ltx, хоть и не добавляет сильно CGI-щины, но она в нём увы присутствует, + ещё он неебаться дорогой и цензурный, если б цензуры не было и подписка была адекватная то можт на нём бы и сидел, по аниме он примерно как и Грок, этот тут уже его сравнивали, жаль что оно там хентайщину за пейволом держит, если ещё не снесли. Грок примерно как ван иногда может а то и веселее, только вот пользоваться им ну такое. Гугловый вео в нормальное аниме вообще хуйню какую то делает (обычные мульты в целом ок), мне кажется видеомодели не их тема, остальные модели от гугла в целом прекрасные (живу с жемини и локальной гемме годами, иногда слегка изменяя с квеном). сэмпл с клинга если что, не локалка. ну и вановский старый.
LTX 2.3 на этом референсе делает отличные транзисты, понимает хорошо камеру в промпте, hurd cut и вовсе отлично, а рожи строит почти как в наруте, динамику делает лучше всех выше перечисленных, кроме самого изображения, оно настолько всратое и там такой лютый бади-хоррор, что я под страхом расстрела бы не это стал показывать, а так конечно потенциал у модели шикарный
В аниму треде проигнорировали сие творчество. Посоветейте лоры на окончание, как-то коряво идет даже с конечным фреймом. Оно должно граммотно вылетать из хуя, а не вылезать как слайд шоу. Может я что не так в настройках делаю? Какйо вес модели, лор, промпты надо?
>>1603559 Ты пытаешься все за раз сделать. Склей три видео в одно и все получится. Первое у тебя есть >>1603387 . Во втором сделай ласт фрейм без жидкостей, чтобы модель нормально анатомию сгенерировала. А в третьем используй ласт фрейм который хотел.
>>1603585 Что ты так и делаешь? Тебе же сказали первый ролик i2v ебля, второй ролик на ласт фрейм - вытащенный писюн, 3 ролик ласт фрейм - конча на всю спину. Направление движения и источник кончи надо описать в промпте. Еще желательно добавить физ параметры что конча жидкая/густая fluid в общем.
>>1603559 А че ты 5 секунд клеешь долбодятел совсем седня ЛТХ тебе 20 секунд даст с той же скоростью и одним видосом тут уже можно плучается минутное видео на корыте(почти) делать локально если еще склеивать епта.
>>1603986 с виду он сильно лучше для нсфв, чем все остальные модели. Судя по первым тестам. Эта модель хотя бы лучше анатомию понимает без всяких лор. Не идеально конечно, но лучше. Только промпт лучше через Грок генерить или другие бесцензурные ллм.
>>1604084 Да тут проблемы в основном что исходного материала мало и лень возиться было, по быстрому в квене наклепал недостающи кадров. Иметь хорошие старт и энд фреймы - считай пол дела сделано. Можно было бы момент с кончёй распилить на 2 отрезка по 41 кадру и лучше бы все получилось. Ну и еще какую нибудь лору на аниме поверх наложить не помешало бы, но у меня таких нет так как аниме не генерю.
>>1604162 Каким воркфлоу пользуешься для таких нейроситей NSWF чтобы без протекшен файла был. А то у меня только с ним, а те что без него не работают со звуком. Мне надо чтобы были ItV и TtV, и voice+ItV и TtV желательно.
>>1603028 Ну у тебя весь стык что ты анимедаун, а если без этой хуйни смотреть то ЛТХ даже неплох. И я уже много по нему воркфлоу моделий и прочего в тырнетах видел, которые при том неплохо склеивают разные видосы в однин делая более длинные ролик, довольно качественно и без проебов, даже звук голосов не проебуется.
>>1604910 Да какие мысли. Слишком эта нейросеть заставляет любой промт ебаться вместо того что ине нужно, как какая-то спец лорас выкрученным влиянием по сути. А мне допустим не интересны классические вещи типо обычного секса в виде попака на лицо и ебли. Что-то инное цензурное запостить особенно кроме порно тяжело
Копаю руду со своей вайфу в игре, а в конце трудового дня дрочу на нее, и даже моды не нужны, просто скринчики из позинга + Ван. Я не доволен, должна материлизоваться и упасть мне на ручки + под пледик. Я тщетно еще пытался дать ей речь и глаза, чтоб видела мир в игре и комментировала, может когда-нибудь осилю.
У кого до 5-8GB vram, и кто не хочет ебаться с богомерзким ComfyUI для генерации видосов, советую поставить 'Pinokio', а с него установить 'wan2gp', там уже все оптимизировано для даунов.
>>1605630 Задай сам себе вопрос в чём это должно визуально выражаться, если сможешь сам ответить, то сформулируй это в виде промпта для нейронки и поопробуй, если ты сам не знаешь чего хочешь, то какого хуя ты хочешь от нейронки? Облако зелёного дыма можно и в видеоредакторе наложить, если нужно чтобы анус расширился то так и пиши
>>1604989 Ты же в курсе, что видео-модель нахуй не надо в видеопамять умещать? Тока контекст имеет значение, замедление не критическое (а иногда отсутствует). Я боюсь за этот тред.
Аноны, как в 10Eros звук нормальный сделать? Использую их стандартный вф без изменений с теми же моделями. Голосовой vae из их safetensor'а выдаёт просто кривой шум. Стандартный LTX 2.3 audio vae звук генерит но уж слишком какой то адский, кринж с рассинхроном, криками и левыми спецэффектами. Может какой то волшебный параметр подкрутить в вф? По поводу видео в целом норм, выходит неплохо, уменьшается количество лор которые нужно подрубать. Пока не успел как следует оценить, вожусь третий день с ней. Слегка спорная штука, время генерации по сравнению с LTX 2.3 намного больше из за метода генерировать видос как ic референс для картинки, в итоге нивелируется один из главных плюсов LTX 2.3 - быстрая генерация.
После тестов Сульфура и Эроса на нескольких разных воркфлоу i2v пришел к выводу, что обе модели примерно одинаковые и это можно сказать шаг вперед для лтх. Но в отличие от того же Вана, ЛТХ продолжает не держать лицо персонажа при динамических сценах (исчезновение из вида и появление вновь, удаление и приближение камеры, повороты персонажа, смена позы и тому подобное). Ван все это делает без всяких лор на персонажа. Также качество картинки у фп8 моделей лтх такое себе. В динамике вылезают артефакты и картинка местами как будто плывет. Может, конечно, все вф, что я попробовал были не ок, но чет слабо верится.
>>1606476 Если оперативы хватает — то да. Или файл подкачки увеличивать. Кванты помогают чисто оперативу сэкономить, чтобы ssd-диск файлом подкачки не мучать.
У меня 128 оперы, я bf16 гоняю. Добирается до 72-92 по ситуации.
>>1606488 Я вчера попробовал разобрать на составляющие сульфур. В итоге, аудио вае и видео вае пошли нахер, а вот проектор мне показался КАААПЕЛЬКУ лучше оригинала. Саму модель я в итоге гружу из полной модели, а аудио вае и видео вае гружу оригинальные. Итого 46 гигов мэйн модель, 2 гига сульфур проектор (может его тоже можно грузить из мэйн модели, не ебу, ну и качество совсем чуть-чуть лучше, и то могло показаться), вае старенькие, гемма аблитаретед (херетик говно какое-то).
Звук не асинхронится, вроде бы, все норм, качество анимации выше, цензура ниже, качестве генерации мультипликации и аниме — лучше (оригинал все в 3D хуярил реализм ебать).
Сульфур мне понравился.
Эрос выдал какое-то говно, я его и дропнул.
Но это так, один вечер покатал, тезноры подрочил, могу быть не прав.
По ощущениям, анимация приблизилась к Ван, на самом деле. Но артефакты присутствуют.
>>1606729 >I am only affiliated as an i2v tester and consultant. This is my personal merge of the actual data and it uses different training steps and layer scaling to create a consistent flexible I2V focused version. Future versions (v2+) will be actually fine tuned by me personally aimed at filling in gaps and weak concepts.
Народ, а как у нас обстоит дело с мультиреференсным I2V ? Пробовал только first to last frame. А есть примеры вф, где модель считывает несколько референсов в начале, или же промежуточный кадр, помимо первого и последнего? WAN 2.2 разумеется.
>>1606819 Там же несколько моделей. ЛТХ отдельно работает, ваешки отдельно, гемма отдельно. В оперативе хранятся все, для быстрого свапа. Поэтому и получается 70 гигов, но во время инференса одной модели — требуется меньше, конечно. Но для LTX-2.3 bf16 46 гигов все еще надо, поэтому иметь 48-64 гига желательно. Поэтому, владельцы 32 гигов предпочитают fp8 или gguf-кванты. Меньше весят — не замедляется из-за файла подкачки. А лишний диск — база. Нынче это дешевле оперативки…
>>1606586 про артефакты чел который эросом занимается целый дисклеймер написал, и один хер ответ в стиле типа пробуйте крутить параметры в вф, ну такое себе про косяки с vae и звуком вообще нигде не могу найти в чём причина, на реддите тишина, а проблема явно присутствует не только у меня, мне в ltx 2.3 как ни странно больше звук волнует к слегка покоцанной картинке я привык, да и картинку при случае можно и в ване нарулить, а вот звук такого уровня хуй где нарулишь, в итоге вернулся пока на ltx-2.3-22b-distilled-1.1 который довольно стабилен по сравнению с этими новыми тюнами
>>1607080 Не знаю что у тебя там со звуком. У меня всё нормально. Но так как я нищий 12+16 то юзаю лору ерос, а не модель. Сравнивал с дефолт лткс, небо и земля по nsfw.
Ещё автор эроса озвучил весьма странную вещь - в его модели нельзя ставить временные метки (да и вообще любое лишнее форматрование и символы). И как в таком случае управлять сценарием? Типа вот я хочу чтобы на шестой секунде персонаж куда то повернулся или что-то случилось а не на десятой и всё, тупик?
>>1607674 та же хуйня, вроде грузится но черный экран. через vрn работает нормально. при отключении vрn процесс закачки можно продолжить и всё скачается на полной скорости. хз что это.
>>1607676 это мелочь) главное богатые возможности. да и натренировать можно лору на домашнем железе. у меня пока с фоток персоны отлично тренится, схожесть просто вау. а видео ещё не пробовал, мне кажется комп уже не потянет.
>>1606753 вроде в 2020 были какие-то хтонические GAN-генерации, когда всё на видео превращалось в насекомых\кошек\собак\пенисы. может это тоже идёт в зачёт, кек.
>>1607661 у меня раньше были восторги, я каждый день в ней сидел, сейчас восторг совсем поутих, модель очень капризная если начинается генерация того чему она изначально не обучалась (подключаемые лоры иногда это вообще отдельный кринж), сложные сцены с несколькими персонажами чаще всего будут выдавать полный бади хоррор или слабое следование промпту, а простые сцены в стиле 'он пялит бабу в доггистайл' мне не интересны, я как ы ты сперва погрохал ван, но вот через месяца два снова вернул ван :D лтх очень хорош в производстве каких нибудь синематик роликов и музыкальных клипов где нет nsfw или аниме, на всё остальное, что в ване делается как два пальца нужно тратить уйму времени и нервов
>>1607761 Да уж. Казалось бы простая вещь, но заставить киношного монстра сесть бабе на лицо как на второй фотке, только спереди, типа в рот трахает, не могу второй день.
>>1607772 Тяжко поставить в один кадр персонажей, с которыми нет оригинальных общих кадров. Иногда получается похоже, выцепляя промежуточные и прогоняя снова первый-последний, но в основном глухо.
Какой сегодня положняк по видео? А то я задумал музыкальные клипы делать по уже сгенерированой музыке, но длительность музыки от 2 до 4 минут. Хотелось бы без особой ебли ваншотом генерить.
вот так выглядит обучение лоры ltx 2.3 в nf4, интересно насколько всрато выйдет. скорость по сравнению с fp8 чекпоинтом та же самая, походу всё упирается в вычисления.
>>1607845 в общем на fp8 быстрее и точнее даже несмотря на то что в видеопамять не влезает. nf4 это не про скорость и качество, а для тех у кого с оперативкой беда. вот бы поддержку аппаратного nvfp4 завезли
>>1607844 по идее через LTX 2.3 должно нормально быть если оперативы вагон, я по полторы минуты генерил на своём конфиге но так как с транзистами камеры беда иногда, теперь предпочитаю нарезать музыку затем кусками по 40 сек генерить и уже потом монтировать в давинчи, да это не 1 проход но контроля над секциями больше в разы, никогда не видел чтобы весь ролик целиком и полностью от А до Я сгенерировался за 1 проход без косяков, везде что то да вылезало. видел есть вроде воркфлоу с лупами где можно стыковать чуть ли не до бесконечности, но он вроде только для i2v/t2v а не для si2v
>>1607908 https://github.com/AkaneTendo25/musubi-tuner/tree/ltx-2 скинь файлы из папки docs языковой модели и она нормально пошагово распишет что как сделать. я таким образом всё установил и настроил. гораздо легче чем самому читать простыни английского текста.
>>1607980 Попробую на досуге. Правда сейчас понял, что датасетов тонет, ну да ладно. Меня просто удивляет сама возможность трейнить это на моём конфиге, пусть и в fp8.
>>1607776 Проблемы с upside-down, в датасете подавляющее большинство прямостоящих людей.
>поставить в один кадр персонажей, с которыми нет оригинальных общих кадров Ну это с лорами реализуемо, а без них я хз как, особенно когда не просто рандом чел, а монстр.
вот ещё нюанс: тем кому нужна стабильность в ltx 2.3 чтоб нормально следовало промпту и не было бади хороров при использовании со сторонними лорами настоятельно НЕ рекомендую юзать distilled модель, а юзать только dev модель + distilled лору с маленьким весом (0.50-0.60), в такой комбинации в разы лучше результат получается
>>1608022 >Ну это с лорами реализуемо, а без них я хз как, особенно когда не просто рандом чел, а монстр. Таки остается играть с промтами и параметрами пока не получится нечто похожее на оригинал, ага
>>1608119 >>1608236 В общем я немного покурил вопрос. 1.1 фиксит некоторые баги А именно - ltx-2.3-spatial-upscaler-x2-1.1.safetensors фиксит баг когда в конце видео остаются артефакты, я как раз с этим столкнулся. так что обновлять имеет смысл
>>1608815 очевидно что как ллм, просто переписывает промпт
This model contains a prompt enhancer. The easiest way to get started with the prompt enhancer is by using it on lmstudio. The way to accomplish this is by going to your model folder inside lmstudio, then opening it up in your file explorer. Create a folder named "Sulphur", then a folder inside that called "promptenhancer". Inside that folder, place the gguf file and the mmproj file. Once you've done that, you should be able to load the prompt enhancer in lmstudio. There is no system prompt for it, just send the text (and an image) you'd like to be enhanced.
The easiest way to get started with the prompt enhancer is by using it on lmstudio. The way to accomplish this is by going to your model folder inside lmstudio, then opening it up in your file explorer. Create a folder named "Sulphur", then a folder inside that called "promptenhancer". Inside that folder, place the gguf file and the mmproj file. Once you've done that, you should be able to load the prompt enhancer in lmstudio. There is no system prompt for it, just send the text (and an image) you'd like to be enhanced.
>>1608865 конечно имеет смысл, 16гб врам всегда нужны + у блаквеллов оптимизации есть как раз под нейронки. тот же nvfp4 (хотя он поддерживается через жопу)
>>1608849 >>1608846 а в комфи? я попробовал всякие ноды для квена и для геммы. не получилось я тупой походу, пацаны, нужно более понятное объяснение. лмстудио единственный вариант?
>>1608865 у 5060 ти куда ядер вдвое больше и встроенная поддержка fp4 вычислений что позволяет больше уместить чем кажется
>>1608883 лмстудио самый простой вариант. Закинул оба файла в папку с моделями лмстудио, выбрал модель и готово. Никакого пердолинга в комфи. Максимум, что надо, так повысить температуру справа в насройках до 0.7 (а то она по умолчанию 0,1) например и все.
>>1608904 Ну это в разрешении 4к с лучами, 5 лет назад такое вывезти вообще ничего не могло, на RTX 3090 в 4к со всеми лучами было 7 фпс, так что не вешай нос Симон, всё ещё впереди.
>>1608914 На 5090 ещё есть х6 фреймген. Шутки шутками, но 45 фпс -> 250 фпс сейчас выглядят хорошо, артефакты чтоб увидеть надо с лупой сидеть и вращаться как юла.
>>1608865 на скрине пиздеж. 5060 ti в трассировке лучей и ИИ задачах быстрее где-то в 5 раз будет. с 12 гиговой 4070 ti перешел на 5070 ti и не жалею, всё гораздо шустрее ворочаться стало. есть nvfp4 модели, заточенные под 50xx серию, они при почти таком же качестве картинки дают дополнительное x2 ускорение генерации. ну и эти видюхи саморазгоняются даже сильнее чем в официальных спецификациях. например у меня на бумаге турбо-буст до 2450 мгц, 44 тфлопс производительность чистой cuda. на деле - больше.
>>1608883 Комфи там вообще не причем, это GGUF модель, что ты мозги ебешь.
Я купил автомобиль, но как не греб веслом — она не летит.
Если ты прям хочешь встроить в воркфлоу бесшовно и без API — то я не знаю.
llama.cpp запускает эти файлы. ЛМСтудио — обертка над ней, довольно удобная. Я просто на втором компьютере запускаю llama.cpp с этой моделью, и кидаю картинки с описаниями туда, он мне выдает промпт.
Но 5060 ti точно стоит брать, 16 гигов к тому же, мастхэв. Еще и 42к стоит на вб.
>>1608897 Надо будет, но в лмстудио может быть автовыгрузка, я хз, типа обработал запрос — и модель автоматом вылетела через пару секунд, а послал новый запрос — заново загрузилась. Но все равно такое себе, наверное.
>>1608956 > есть nvfp4 модели Ну, говно, кстати, флюксы пальцы путают, лтх с лорами замедляется, вроде бы и да, а вроде и нет. Нужны модели, нативно обученные в fp4, вот там огнище будет.
> 2450 Уже 4070 ti брала 3000 МГц, а 5070 ti у меня в SFF — всего лишь 2600-2800.
>>1608978 >Нужны модели, нативно обученные в fp4 официальные nvfp4 от black forest это пережатые чтоль?
>Уже 4070 ti брала 3000 МГц чето не припомню. вроде только если подкрутить в афтербернере. 5070 ti 2850 держит стабильно без крутилок, если подвигать ползунки, можно и 3200 получить, дальше лезть не стал. андервольт лучше зашёл, с уменьшением tdp до ~200 ватт.
Я видел такое, что вам, людям, и не снилось. Атакующие корабли, пылающие над Орионом; Лучи Си, разрезающие мрак у ворот Тангейзера. Все эти мгновения затеряются во времени, как... слёзы в дожде... Пришло время умирать.
>>1608978 я думаю тому парню кто выше спрашивал можно не париться отдельным бэкендом под ллм. в некоторых вф , например видел такие для ltx 2.3 с промпт энхансерами и релеем сразу картинка идёт в qwenVL ноду она небольшая загружается и выгружается моментально и тут же на лету дополняет промпт, тем что она определила на картинке
кстати у меня почему то на ltx 2.3 prompt relay воркфлоу (я их три штуки уже опробовал) никак со звуком нормальным не получается сделать видео, сама картинка ок, а вот звук ансинк и искорёженный, пробовал и distill и dev модель? audio vae совершенно стандартный не пойму в чем причина. p.s легкий крик души во вложении
Аноны, возможно спрашивали уже, но я не нашёл. Вопрос: как заставить сырые картинки идущие в апскейлер и затем в видео чтобы они грузились в VRAM вместо RAM? Пытаюсь размазать всё по памяти чтобы избежать вываливания в оом, после VAE Decode (Tiled) у меня забита RAM на 99% и на следующем этапе где обычно у меня апскейлеры часто в out of memory падает, при этом VRAM на том же этапе не забита вообще ничем и там свободно 15 гигов. Как сгрузить картиночный кэш туда? Пытался покурить ноду VRAM Debug но она похоже просто для очистки, а не для перемещения.
>>1609481 А почему не в своп? Его ровно для этого и придумали, а видеопамять придумали для другого. А то ведь будешь потом придумывать ещё один костыль, чтобы CUDA в OOM не падала, вместо того, чтобы сделать нормально.
Аноны, есть кто с соры треда? Была такая жизнь бурная, хлебоходили, сктолько пацанов было, где вы все? Какие моря бороздите? Каждому бы пожал руку, с уважением.