Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 207 61 81
Локальной генерации ИИ-видео №5 /video/ Аноним 27/04/26 Пнд 21:09:05 1599474 1
177477548717001[...].mp4 4743Кб, 1408x1088, 00:00:15
1408x1088
177453697558003[...].mp4 7425Кб, 720x1056, 00:00:25
720x1056
177473824032703[...].mp4 6323Кб, 1856x1056, 00:00:05
1856x1056
177566917461134[...].mp4 922Кб, 1280x720, 00:00:10
1280x720
Актуальные модели

1. Wan от Alibaba

https://huggingface.co/collections/Wan-AI/wan22

VACE модели:
https://github.com/ali-vilab/VACE
https://huggingface.co/Wan-AI/Wan2.1-VACE-14B
https://huggingface.co/Wan-AI/Wan2.1-VACE-1.3B

2. LTX-2.3 - делает локальную генерацию грейт агейн. Подходят лоры от 2.0

https://huggingface.co/Lightricks/LTX-2.3

3. Hunyuan от Tencent

https://huggingface.co/tencent/HunyuanVideo-1.5

4. Ovi

https://huggingface.co/chetwinlow1/Ovi

5. Starflow

https://huggingface.co/apple/starflow

6. MAGI-1 от Sand AI

https://sand.ai/magi
https://github.com/SandAI-org/MAGI-1

7. LongCat-Video

https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
https://meituan-longcat.github.io/LongCat-Video/

8. MOVA

https://github.com/OpenMOSS/MOVA

Локальный UI
https://github.com/comfyanonymous/ComfyUI

Установка локальных моделей
Wan 2.2: https://comfyanonymous.github.io/ComfyUI_examples/wan22/
Wan 2.1: https://comfyanonymous.github.io/ComfyUI_examples/wan/
Hunyuan Video (осторожно, ссылки в туторе на предыдущую модель): https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/

Гайд для использования Wan 2.2

https://alidocs.dingtalk.com/i/nodes/EpGBa2Lm8aZxe5myC99MelA2WgN7R35y

Альтернативные ноды ComfyUI
Hunyuan Video: https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
Wan: https://github.com/kijai/ComfyUI-WanVideoWrapper

Где брать готовые LoRA
https://civitai.com/models

Обучение LoRA
https://github.com/tdrussell/diffusion-pipe

Терминология моделей
prune — удаляем ненужные веса, уменьшаем размер
distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше
quant — уменьшаем точность весов, уменьшаем размер
scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше
merge — смешиваем несколько моделей или лор в одну, как краски на палитре.

lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.


Предыдущий тред
>>1554318 (OP)
Аноним 28/04/26 Втр 12:25:05 1599906 2
Анончики поясните LTX2.3 может в v2v с моей аудиодорожкой?
Есть видео персонажа на котором он двигается, но не говорит, либо говорит - просто рандомно шевелит губами и аудиодорожка которую я хочу чтобы он сказал. В LTX2.3 хороший липсинк на крупных кадрах. Идея оставить само видео практически без изменений и налепить липсинк. Если можно такое сделать поделится ктонибудь ВФ по этой теме?
Советы нейронки Аноним 28/04/26 Втр 18:43:25 1600292 3
Чекните плиз, они адекватны или нет и работают ли вместе


Вот пошаговая инструкция, как внедрить каждую из этих технологий в твой ComfyUI для RTX 4070:
1. Реализация SageAttention
Самый важный шаг для видеомоделей (Wan 2.1/2.2).
Установка: Проще всего через расширение ComfyUI-SageAttention.
Применение: В Workflow добавь узел "SageAttention Loader". Соедини выход MODEL твоего лоадера (например, Wan2.1 Loader) со входом узла SageAttention, а его выход — дальше в сэмплер.
Что дает: Ускоряет математику внимания внутри модели на ~30-50%.
2. Реализация TeaCache
Позволяет пропускать похожие шаги генерации.
Установка: Установи расширение ComfyUI-TeaCache.
Применение: Добавь узел "TeaCache Patch". Он ставится в разрыв между моделью и сэмплером.
Настройка: Установи параметр threshold на 0.1 (почти без потерь) или 0.25 (максимальное ускорение).
Что дает: Сокращает время генерации в 1.5–2 раза за счет уменьшения реальных шагов вычислений.
3. Реализация Model Compilation (Торч-компиляция)
Требует наличия Triton и свежего PyTorch (2.4+).
Применение: Используй узел "ModelCompile" из набора ComfyUI-ExtraModels или встроенный функционал в продвинутых лоадерах.
Нюанс: Первый запуск будет идти 5–10 минут (черное окно консоли) — это нормально, идет сборка ядра под твою 4070. Последующие генерации станут ощутимо быстрее.
Важно: Работает только на Linux стабильно, на Windows требует установленного Triton для видеокарт 40-й серии.
4. Включение FP16 Accumulation (Параметры запуска)
Это настройка самого экзешника ComfyUI.
Как сделать: Отредактируй свой .bat файл (например, run_nvidia_gpu.bat).
Добавь флаг: В строке запуска допиши --fast.
Пример: .\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --fast
Что дает: Включает оптимизированные пути вычислений для архитектуры Ada Lovelace (RTX 40).
5. Использование GGUF (Квантование)
Чтобы модель 14B влезла в 12 ГБ VRAM без тормозов.
Установка: Установи расширение ComfyUI-GGUF.
Применение: Скачай модель Wan 2.2 в формате .gguf (ищи на HuggingFace от пользователя city96 или bartowski). Используй узел "Unet-GGUF Loader" вместо стандартного.
Выбор: Для 12 ГБ VRAM бери версию Q4_K_M или Q5_K_M.
6. Стратегия "Low-Res + RIFE" (Workflow-хак)
Вместо долгой генерации 60 кадров:
В сэмплере Wan 2.2 выстави frame_count: 16 или 32.
После генерации пропусти видео через узел "RIFE VFI" (из набора ComfyUI-Video-Helper-Suite).
Выстави multiplier: 2 или 4.
Результат: Ты генерируешь 2 секунды видео, а на выходе получаешь плавные 8 секунд за счет того, что ИИ «дорисовывает» промежуточные кадры.
С чего начнем? Могу скинуть прямую ссылку на проверенный GGUF-файл Wan 2.2 для твоей карты.





они работают вместе все?
Да, большинство этих технологий отлично работают вместе, создавая «эффект синергии», когда каждый слой оптимизации ускоряет процесс еще сильнее.
Вот как они сочетаются в одной цепочке (Workflow):
1. Идеальная связка (Рекомендуется для 4070)
GGUF + SageAttention + TeaCache: Это «золотое трио».
GGUF экономит VRAM, чтобы модель не тормозила из-за выгрузки в оперативную память.
SageAttention ускоряет математику внутри каждого шага.
TeaCache просто выкидывает лишние шаги.
Результат: Вы получаете максимально возможную скорость для Wan 2.2 на 12 ГБ памяти.
2. Что НЕ работает вместе (Конфликты)
Nunchaku + SageAttention/TeaCache: Как мы обсуждали ранее, Nunchaku — это «закрытая» экосистема. Она использует свои ядра, которые не позволяют SageAttention вклиниться в процесс.
Model Compile + SageAttention: Иногда могут конфликтовать на Windows. Если вы используете ModelCompile, SageAttention может вызвать ошибку «Triton kernels not found». Лучше выбрать что-то одно (для видеомоделей SageAttention эффективнее и проще в настройке).
3. Как это выглядит в ComfyUI (Схема подключения)
Если вы соберете всё вместе, цепочка узлов будет такой:
GGUF Loader (Загружает экономную модель).
➡️ SageAttention Loader (Патчит модель для быстрой математики).
➡️ TeaCache Patch (Патчит модель для пропуска шагов).
➡️ Sampler (Начинает генерацию).
➡️ RIFE / Upscale (Увеличивает плавность и размер уже готового видео).
Итоговый совет:
Для вашей RTX 4070 самым стабильным и быстрым набором будет:
Флаг --fast при запуске + GGUF модель + SageAttention + TeaCache.
Эта комбинация позволит вам генерировать видео Wan 2.2 в несколько раз быстрее, чем «из коробки», не вызывая при этом ошибок совместимости.
Хотите, я помогу составить правильную строку запуска (батник) со всеми нужными флагами для вашей карты?
Аноним 28/04/26 Втр 19:27:46 1600337 4
>>1600292
teacache давно неактуален, с лайтом не работает
Аноним 29/04/26 Срд 11:05:47 1600768 5
Сап, как называются эти ваши лоры, где видео, что тян стоит одетая (загружается и2в фото в одежде), а через секунду ее голую в другом ракурсе и позе сношают в жёпу? Может это лоры на персонажей индивидуальные или все-такие универсальные лоры, что так делают?
Аноним 29/04/26 Срд 14:52:45 1600958 6
>>1600768
Проще 2 видео склеить, лоры для такого не нужны.
Аноним 29/04/26 Срд 15:02:29 1600962 7
Аноним 29/04/26 Срд 16:38:09 1601025 8
>>1600962
Нет я умный. Делаешь с помощью любой картиночной edit модели голую версию тян во время ебли, и делаешь два ролика. Потом клеишь. Получаешь 100% экспириенс >>1593720 →
только без лишних лор.
Аноним 29/04/26 Срд 17:02:20 1601045 9
Аноним 29/04/26 Срд 17:08:20 1601048 10
>>1601025
Это костыльно и долго, иначе б не спрашивал советов, я сам уже нашел, идиот.
Аноним 29/04/26 Срд 17:10:05 1601050 11
Аноним 29/04/26 Срд 17:24:54 1601059 12
>>1601048
Нашёл? Поделись. Иначе идиот тут ты.
И да, мой способ проще и лучше.
Аноним 29/04/26 Срд 17:41:28 1601069 13
>>1601059
Ладно, я думал ты трлишь, а не заинтересован в этом вопросе, раз такие советы даешь, но реально идиот получается на костылях ходишь. Нужна всего лора на cinematic hardcut и в промптах тоже hardcut.
Аноним 29/04/26 Срд 20:00:26 1601249 14
вот вы любители на ровном месте посраться :) каждый выбирает удобный ему метод, причем мне лично тоже было бы проще два видоса склеить если бы такая задача стояла и не юзать лору на хардкат, но кстати в лтх 2.3 он уже и так встроен, точно работало с этим тэгом и без лор, а вот насчёт вана помню была отдельная лора на него у меня
Аноним 29/04/26 Срд 21:31:44 1601351 15
Wan00009.mp4 706Кб, 480x624, 00:00:08
480x624
Wan00010.mp4 896Кб, 480x624, 00:00:08
480x624
Wan00029.mp4 757Кб, 480x624, 00:00:08
480x624
Я не могу, обдрочился уже, по загадочным причинам генерироваю с соской, которая итак уже снимается в порно. Влюбился в проститутку и хочу от нее теленочка!
Аноним 29/04/26 Срд 22:07:50 1601382 16
>>1601351
>по загадочным причинам
Вижу на видео как минимум две веские причины.
Аноним 30/04/26 Чтв 00:19:02 1601516 17
ltx2.3 по прежнему не умеет в нормальный прон, даже с учетом лор, они чаще всего делают хуже а не лучше, а eros файнтюн тот ещё кал, в итоге я решил что удобнее svi-ваном генерить, а уже потом загонять на переозвучку через ltx2.3, в целом недурно выходит, звуки для ебли всяко лучше чем гонять ван + ммаудио
на моем среднем конфиге полутора-минутный видеоролик среднего качества влезает вполне
Аноним 30/04/26 Чтв 00:21:40 1601518 18
>>1601516
А есть рабочий v2v воркфлоу под ltx2.3 под озвучку? Поделись, пожалуйста, если не трудно
Аноним 30/04/26 Чтв 01:02:53 1601532 19
>>1601518
я для этой задачи тупо адаптировал тот что гуглится на реддите для LTX2 (вот отсюда брал :
hps://www.reddit.com/r/StableDiffusion/comments/1q916xs/you_can_add_audio_to_existing_videos_with_ltx2/
а тот чел видимо переделывал штатный вф (был у киджая) для дубляжа,
понятное дело я поменял все пути к моделям для LTX2.3, ну и приукрасив слегка нодами интерполяции + под себя переделал, например кабель перетащить с фиксированного фпс чтоб можно было его перенастраивать, но это мелочи, оно и без них работает предупреждаю что тот вф слегка накуреный потому что ltx нужно 24 кадра в процессе генерации, соответственно количество кадров нужно строго определенное указывать, при этом то что у тебя будет в изначальном видео и в том что тебе хочется делать можно указывать другое значение fps, если возникает ошибка vae encode значит количество кадров на вход не совпадает с тем что умеет жрать ltx, самый идеальный вариант конечно если у тебя изначально видео в 24 кадра в секунду и ты генеришь на его основе звук с новым видео 24 кадра, тогда ничего делать лишнего не нужно, будет работать сразу из под коробки,
и видео лучше хорошего качества скармливать, тогда ии будет понимать что там
Аноним 30/04/26 Чтв 11:56:27 1601732 20
Есть у кого вокрфлоу для Wan с последовательным прогоном пачки латентов сначала через high сэмплер, а потом через low (чтобы модели в память не грузить на каждое видео)? Пробовал промежуточные латенты выгружать на диск, но быстро заебался вручную файлы туда сюда гонять. Есть рабочий вариант через Repeat Latent Batch, но оно в какой-то момент перестает в память влезать.
Аноним 30/04/26 Чтв 12:17:58 1601749 21
>>1601732
Сам спросил, сам ответил. Если между Repeat Latent Batch и сэмплером вставить Rebatch Latents со значением 1, то оно латенты будет по одному передавать, а не ебанет туда всю пачку.
Аноним 30/04/26 Чтв 13:35:46 1601809 22
>>1601749
Я правильно понимаю что у тебя видяха с маленьким ВРАМ и ты пытаешься ускорить генерацию, помогает такое?

Можешь скрин воркфлоу скинуть?
мимо ньюфаг
Аноним 30/04/26 Чтв 16:57:15 1601947 23
Аноним 30/04/26 Чтв 17:22:08 1601969 24
>>1601532
Благодарю, буду изучать.

>>1601749
Идея неплохая. Интересно, насколько ускорит, если у меня 12 ГБ ВРАМ, а модели fp8/Q8 по 14-20 ГБ? Если модели полностью помещаются результат должен быть приличным.

Поделись примером воркфлоу для теста, пожалуйста.

>>1601809
Насколько я понял идею анона, это поможет при генерации пачки видео из одного воркфлоу для подборки seed'f, силы лор и подобных вещей.
На генерацию одного видео не повлияет.
Лучше будет работать, если одна часть модели (в смысле high/low) целиком или почти целиком, если только половина - эффекта не будет.
Аноним 30/04/26 Чтв 17:23:14 1601971 25
как в ltx2.3 для анимации (любой где НЕ фотореализм) сделать нормальную музыку?!
что бы я не делал какие бы промпты не писал всегда играет почти однотипная полусимфоническая ебанина, словно какая то мелодия затычка
Аноним 30/04/26 Чтв 17:24:41 1601972 26
>>1601969
>seed'f
seed'а

>целиком или почти целиком
помещается в видеопамять

фикс
Аноним 30/04/26 Чтв 19:06:27 1602032 27
batch.png 129Кб, 1407x486
1407x486
>>1601809
>>1601969
У меня 16гб вирама и столько же древнего рама лол, плюс файл подсрачки на ссд. Бутылочное горлышко возникает из-за постоянной загрузки и выгрузки моделей из памяти. Если пачками обрабатывать, то на условные 5 генераций модели грузятся 1 раз вместо 5.

Пикрел просто картинка без воркфлоу.
Аноним 30/04/26 Чтв 19:43:22 1602051 28
>>1602032
Чет нихуя не понял, 5 генераций одного и того же? И что значит 5 генераций, это типа когда 5 раз кнопку ран нажимаешь?
Аноним 30/04/26 Чтв 20:00:18 1602061 29
>>1602051
За один запуск он тебе выдаст столько видосов, сколько задано в Repeat Latent Batch. Сид при этом обновляется, результаты будут разные.
Аноним 30/04/26 Чтв 20:19:04 1602072 30
>>1602061
А какой в этом смысл? Я же за один запуск смогу подать только 1 скажем картинку.
Аноним 30/04/26 Чтв 20:34:24 1602089 31
>>1602072
Генеришь несколько вариантов, выбираешь лучший. Если заморочиться, можно и разные картинки с разными промптами подавать.
Аноним 30/04/26 Чтв 20:40:26 1602098 32
>>1602089
Но оно же дольше будет генерить, чем если бы я генерил просто один раз? При том, что я не знаю, может с первого раза получится нормально. Тоесть этот способ просто увеличивает время генерации на ровном месте. Очень странно.
Аноним 30/04/26 Чтв 20:52:18 1602112 33
>>1602098
У меня 5 видео через сэмплер проходят быстрее, чем один раз модель загрузится.
Аноним 30/04/26 Чтв 20:58:09 1602123 34
2026-04-3000012.mp4 554Кб, 480x720, 00:00:06
480x720
2026-04-3000013.mp4 607Кб, 480x720, 00:00:06
480x720
Какое нынче товое решение для бесшовного продления видео?
Аноним 30/04/26 Чтв 20:59:11 1602125 35
Аноним 30/04/26 Чтв 21:10:19 1602137 36
>>1602123
Топове решение подождать лет 5 нормальных видеокарт и моделей.
Аноним 01/05/26 Птн 00:30:30 1602265 37
>>1602137
Можно состарится и умереть
везет зумерам
Аноним 01/05/26 Птн 01:18:09 1602295 38
>>1602123
Кроме svi решений по сути и нет
Аноним 01/05/26 Птн 01:22:53 1602298 39
>>1602032
Понял, благодарю, seed variation оказывается очень просто сделать)

>У меня 16гб вирама
У тебя все варианты, все кроме fp16, за раз помещаются и на одном семплере нет выгрузок/подгрузок - в этом случае должно сильно разогнать. Есть цифры?
У явно будет скромнее, надо потестить.

>>1602098
Тебе никто не мешает делать по одному ролику, пока ты подбираешь промпт, меняешь картинки и прочее.
А когда у тебя уже получается плюс-минус то, что ты хочешь - прогнать пачкой в поисках более удачного сида или еще каких-то продвинутых вещей.
Я полагаю, есть способ запустить 5 разных картинок из папки и/или 5 разных промптов из файла.

Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко ты можешь условно сгенерить 5 вариантов видосика по такой схеме, как 2 по обычной.
Аноним 01/05/26 Птн 01:27:33 1602301 40
>>1602298
>Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко
А как это определить. Я вообще не ебу откуда они грузятся, по частям они грузятся или целиком.

Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.
Аноним 01/05/26 Птн 04:39:58 1602358 41
>>1602032
>>1602298
> будет скромнее, надо потестить.
Железо: 4070 12 ВРАМ, 96 ОЗУ
Размер моделей 13853MB, где-от 1,2 ГБ ВРАМ жрет в простое

Обычный запуск
100%|██████████| 2/2 [01:19<00:00, 39.76s/it] хай
100%|██████████| 2/2 [01:20<00:00, 40.24s/it] лоу
Prompt executed in 195.83 seconds

5 штук пачкой
100%|██████████| 2/2 [01:20<00:00, 40.07s/it] хай
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:16<00:00, 38.31s/it]
100%|██████████| 2/2 [01:20<00:00, 40.20s/it]
100%|██████████| 2/2 [01:14<00:00, 37.47s/it]
100%|██████████| 2/2 [01:16<00:00, 38.31s/it]
100%|██████████| 2/2 [01:14<00:00, 37.33s/it]
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:20<00:00, 40.07s/it] лоу
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:15<00:00, 37.86s/it]
100%|██████████| 2/2 [01:14<00:00, 37.24s/it]
100%|██████████| 2/2 [01:15<00:00, 37.64s/it]
Prompt executed in 00:14:16 (856 секунд)

экономия на пачке
195.83*5 - 856 = 123,15 секунды
123,15 / 5 = 24,63 - на одном видосе, среднее
Сокращение времени, среднее 24,63 / 195.83 = 0,1257 = 12,57%

Пытался запустить Q4_K_M, но у меня GGUF отказывается полностью грузится в карту и генерирует за тоже время, что и fp8. То ли руки кривые, то ли я чего-то не понял.

>>1602301
Упрощенно, каждый шаг в ksample - проход по всем слоям модели (для примера - 100). Если в видеопамять поместилась только часть слоев (например 80), то после прохода по ним, часть слоев (20) выгрузится из видеопамяти и на их место загрузятся новые.
То есть каждый шаг эту колоду будет дрочить туда-сюда.

У анона мало ОЗУ и она медленная, поэтому загрузка-выгрузка происходит еще и в своп на диске, что максимально медленно, но его 16ГБ ВРАМ хватает на хай-модель ну и сама карта быстрая наверно, поэтому сам проход семплера достаточно быстрый. Поэтому его идея будет давай максимально большой прирост

>Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.
У тебя и flux-dev на 100 гб заработает, если оперативки свопа на диске хватит) Работать правда будет очень медленно
Аноним 01/05/26 Птн 08:34:12 1602397 42
>>1601732
Я что то колупался с этим и по итогу сдался посчитав это не выполнимой задачей на программном уровне. Само устройство двух ксамплеров не позволяет генерировать сначала хай потом лоу. Ведь в конечный латент, который передаешь в следующий сегмент генерации, уже должен содержать генерации от хай и лоу, иначе никакой конситсентности не получится.
Аноним 01/05/26 Птн 08:41:55 1602400 43
>>1602397
>>1602358 А, понял ты писал про генерацию одного и того же ролика, тогда да - будет работать, но вот в последовательных видео - увы.
Аноним 01/05/26 Птн 10:55:05 1602461 44
>>1599474 (OP)
Что по генерации маняме? Оно менее ресурсозатратно для ВРАМ?
Аноним 01/05/26 Птн 11:52:24 1602493 45
232212-LTX23000[...].mp4 6484Кб, 480x720, 00:00:21
480x720
Проёб насыщенности изображения в LTX это такая фича модели?
Аноним 01/05/26 Птн 12:05:13 1602500 46
>>1602461
Столько же, генерирует так себе.
>>1602493
>Проёб ... в LTX это такая фича
Да.
Аноним 01/05/26 Птн 12:43:54 1602514 47
>>1602400
>последовательных видео
Точно не будет, только "независимые" видео ролики для черрипика.
Я уже предлагал варианты использования выше:
- перебор сидов;
- подбор силы лоры;
- перебор вариантов первого кадра;
- перебор промптов;
- вариации озвучки.

>>1602461
По качеству в среднем хуже, почти все модели хуже работают с аниме. Разницу по ВРАМ как-то не ощутил
Аноним 01/05/26 Птн 13:25:54 1602541 48
Гружу на hight модель fp16, а на low fp8 - в итоге все умещается в 96 гигов рама без свопа и ебли ссд. Проверил с полноценным fp16 на low - разницы ноль. Еще и свободно немного остается рама

В чем не прав? Минусы интересно есть еще какие то?
Аноним 01/05/26 Птн 13:45:06 1602553 49
Мде, провёл вчера весь вечер в экспериментах с LTX 2.3 и анимацией, в отличие от реализма он не умеет в музыку для анимаций вообще, похоже что обучали только на беззвучных роликах.
Везде примерно одна и та же фоновая унылая духовая музыка даже на всех видеопримерах с civitai где люди пробуют анимацию делать в этой модели, нормальная музыка отсутствует как сущность. Даже если накидать весов типа на такой то секунде играет мощный бит, он будет играть почти не слышно.
Предполагаю что разработчики так сделали намеренно чтобы не нарваться на туеву хучу копирайтов, особенно от японцев или диснея.
Тут видимо придётся или лор ждать кто сообразит музыку с анимацией скрестить или просто на своём аудио генерить уже через S+I2V вф стандартный
[p.s. с не анимационными роликами такого у модели поведения нет, модель может клепать вполне годное музло и с вокалом и без
Аноним 01/05/26 Птн 15:16:30 1602623 50
>>1602541
Сколько по времени генерируется 5 секунд в HD?
Аноним 01/05/26 Птн 15:23:38 1602625 51
Если видео на выходе отдельными кадрами сохранять (или вообще латентом), будет выигрыш по качеству если потом его загружать для продления через svi?
Аноним 01/05/26 Птн 15:29:52 1602628 52
>>1602623
800X600 - 23 секунды на шаг. Больше я не делаю только апскейл. Карта 4070s
Аноним 01/05/26 Птн 18:54:00 1602772 53
>>1602493
имхо чтобы его избегать нужно в бОльшом разрешении генерить желательно вообще в самом максимальное которое тянет система и референс не во всратом качестве пихать
Аноним 02/05/26 Суб 00:18:57 1603023 54
image.png 21Кб, 347x259
347x259
Пацаны, я вот использую ранпод в своем проекте (тг боте)
Юзаю Serverless Endpoint чтобы постоянно не платить за аренду карточки и у меня вопрос.

На ранподе есть шаблоны готовые. В этой репе есть и сама модель и API для нее и все ноды с вф предустановленные. Кароче кайф, но тут проблема в том что менять что-то в самом репозитории проблематично.

Я могу через нетворк вольюм поменять некоторые небольшие файлы, просто в баш скрипте перед стартом воркера заменить их, и это занимает секунды времени при старте.

Но проблема щас заключается в том, что я не могу прихуярить туда SVI, так как тех нод что предустановленны в репозитории - недостаточно. KJnodes там есть, но он старой версии, без SVI, а качать их перед стартом воркера - это очень долго и сильно повысит стоимость каждой генерации

Кто знает, что если я сделаю форк этой репы, а потом соберу ее сам, не будет ли ебучий ранпод скачивать для каждого воркера мой репозиторий всегда? А это десятки если не сотни ГБ из-за моделей и декодеров.

Репозиторий на пикриле же закеширован внутри ранпода, поэтому он его грузит быстро. Если будет, то есть ли у кого решение этой проблемы?
Аноним 02/05/26 Суб 00:24:12 1603028 55
Бле да когда ж нормальные модели появятся делать аниме и чтоб не ебанутым цепочным воркфлоу или с премиумами за сто тыщ баксов, а чтобы просто зарядил промпт и погнал. Вот как anima для картинок, какой то топовый локальный инструмент народ бы взял за запилил, за который не жалко будет и задонатить.
Протестировал за последние два месяца всё что можно, наиболее оптимальный вариант пока выглядит всё тот же локальный svi ван, а это долго ужасно рандомно, нет встроенного звука, но с ним хоть что то приличное можно сочинить если как следует поебаться. LTX2.3 не обучен 2d аниме, только картунсы, все текущие лоры на аниме 98% делают кал, нр можно потрахаться сделать неплохо для этого надо наверное часов эдак 40 посидеть. Тут надежда только на то напихают ли аниме в следующую версию модели или найдется боярин с бабками натренирующий жирный топовый файнтюн (ну типа как Lodestone с хромой).
онлайн Клинг неплох, знает много аниме (если например написать сгенери в стиле Призрака в Доспехах) но частенько косячит в стиле примерно на уровне ltx, хоть и не добавляет сильно CGI-щины, но она в нём увы присутствует, + ещё он неебаться дорогой и цензурный, если б цензуры не было и подписка была адекватная то можт на нём бы и сидел, по аниме он примерно как и Грок, этот тут уже его сравнивали, жаль что оно там хентайщину за пейволом держит, если ещё не снесли. Грок примерно как ван иногда может а то и веселее, только вот пользоваться им ну такое.
Гугловый вео в нормальное аниме вообще хуйню какую то делает (обычные мульты в целом ок), мне кажется видеомодели не их тема, остальные модели от гугла в целом прекрасные (живу с жемини и локальной гемме годами, иногда слегка изменяя с квеном).
сэмпл с клинга если что, не локалка. ну и вановский старый.
Аноним 02/05/26 Суб 00:31:06 1603031 56
kling01fox.mp4 15897Кб, 1280x720, 00:00:11
1280x720
апплоад еле пашет
Аноним 02/05/26 Суб 00:41:59 1603037 57
AnimateDiff001.mp4 11095Кб, 1920x1080, 00:00:08
1920x1080
длинные вообще не лезут в аттачи, svi ван две склейки на пробу
Аноним 02/05/26 Суб 00:45:36 1603040 58
LTX 2.3 на этом референсе делает отличные транзисты, понимает хорошо камеру в промпте, hurd cut и вовсе отлично, а рожи строит почти как в наруте, динамику делает лучше всех выше перечисленных, кроме самого изображения, оно настолько всратое и там такой лютый бади-хоррор, что я под страхом расстрела бы не это стал показывать, а так конечно потенциал у модели шикарный
Аноним 02/05/26 Суб 06:25:30 1603141 59
>>1600292
а для 50 серии это актуально?
Аноним 02/05/26 Суб 12:15:24 1603275 60
>>1603028
И правильно понимаю, что среди онлайн инструментов сейчас топовый для аниме это Seedance? Но я так понимаю, это что-то очень дорогое?
Аноним 02/05/26 Суб 13:58:28 1603324 61
Как в LTX промптить растя-я-я-я-янутые слова? Если просто буквы повторять, он начинает заикаться.
Аноним 02/05/26 Суб 14:58:07 1603353 62
>>1603040
Меня интересует как он делает порно и работает относительно самой жесткой цензуру, без базы, остальное ерунда.
Аноним 02/05/26 Суб 15:32:25 1603387 63
177766847323806[...].mp4 2032Кб, 720x1048, 00:00:05
720x1048
image 2403Кб, 1248x1824
1248x1824
В аниму треде проигнорировали сие творчество. Посоветейте лоры на окончание, как-то коряво идет даже с конечным фреймом. Оно должно граммотно вылетать из хуя, а не вылезать как слайд шоу. Может я что не так в настройках делаю? Какйо вес модели, лор, промпты надо?
Аноним 02/05/26 Суб 17:27:08 1603485 64
>>1603387
>а не вылезать как слайд шоу
Ускорь отдельно в видеоредакторе.
Аноним 02/05/26 Суб 18:54:36 1603559 65
Wan00011.mp4 2031Кб, 720x1048, 00:00:05
720x1048
>>1603485
Вот показываю наглядно что не так, хотя мне стыдно такое постить.
Аноним 02/05/26 Суб 19:29:18 1603579 66
>>1603559
Ты пытаешься все за раз сделать. Склей три видео в одно и все получится.
Первое у тебя есть >>1603387 .
Во втором сделай ласт фрейм без жидкостей, чтобы модель нормально анатомию сгенерировала.
А в третьем используй ласт фрейм который хотел.
Аноним 02/05/26 Суб 19:39:21 1603585 67
>>1603579
Я так и делаю отдельно, последний фрейм с фапчей. Причем заметил на крайне низком разрешеении происходит как надо
Аноним 02/05/26 Суб 19:54:44 1603598 68
>>1603585
Что ты так и делаешь? Тебе же сказали первый ролик i2v ебля, второй ролик на ласт фрейм - вытащенный писюн, 3 ролик ласт фрейм - конча на всю спину. Направление движения и источник кончи надо описать в промпте. Еще желательно добавить физ параметры что конча жидкая/густая fluid в общем.
Аноним 02/05/26 Суб 22:05:09 1603652 69
>>1603598
Это не работает, "Лицевое" тоже, он по-еврейски рендерится, ну лан похуер.
Аноним 03/05/26 Вск 01:06:04 1603728 70
>>1603559
А где звук пидорас, нещитово.
Аноним 03/05/26 Вск 01:08:15 1603729 71
>>1603559
А че ты 5 секунд клеешь долбодятел совсем седня ЛТХ тебе 20 секунд даст с той же скоростью и одним видосом тут уже можно плучается минутное видео на корыте(почти) делать локально если еще склеивать епта.
Аноним 03/05/26 Вск 01:46:05 1603742 72
Аноним 03/05/26 Вск 02:50:27 1603748 73
А можно звук с охами и ахами чтоли на локалке генерить, пидарасы? Я только ТТС речь видел с синхроном губ, не щитово.
Аноним 03/05/26 Вск 02:51:40 1603750 74
>>1603729
Я ниче не клеил, долюодятел, это другой анон советовал.
Аноним 03/05/26 Вск 07:24:51 1603785 75
Wan22SVIProLowF[...].mp4 3406Кб, 736x1088, 00:00:11
736x1088
Аноним 03/05/26 Вск 14:48:46 1603986 76
Аноним 03/05/26 Вск 17:04:00 1604062 77
>>1603986
Лтх это мертворожденный кал. Модель - ошибка. Она непригодна вообще кроме мультиков и анимации какой нибудь для детей
Аноним 03/05/26 Вск 17:58:04 1604084 78
>>1603785
>>1603785
Раз воркфлоу даешь подглядеть, то даже критиковать не хочется недочеты, малаца, все вылетает. А где вообще лоры взял?
Аноним 03/05/26 Вск 18:36:40 1604111 79
>>1603986
с виду он сильно лучше для нсфв, чем все остальные модели. Судя по первым тестам. Эта модель хотя бы лучше анатомию понимает без всяких лор. Не идеально конечно, но лучше. Только промпт лучше через Грок генерить или другие бесцензурные ллм.
Аноним 03/05/26 Вск 20:04:11 1604159 80
>>1604084
Да тут проблемы в основном что исходного материала мало и лень возиться было, по быстрому в квене наклепал недостающи кадров. Иметь хорошие старт и энд фреймы - считай пол дела сделано. Можно было бы момент с кончёй распилить на 2 отрезка по 41 кадру и лучше бы все получилось. Ну и еще какую нибудь лору на аниме поверх наложить не помешало бы, но у меня таких нет так как аниме не генерю.

Лоры на civit брал.
Аноним 03/05/26 Вск 20:05:30 1604162 81
Аноним 03/05/26 Вск 20:40:59 1604186 82
>>1603986
Киньте рабочий воркфлоу для fp8, а то у меня артефакты полезли.
Аноним 03/05/26 Вск 22:20:08 1604251 83
>>1604159
А как ты нарезал чтоб без стыков? Обычно 1 фрейм как бы контрасней, а последний щатемняется немного. Это в комфи самом можно?
Аноним 03/05/26 Вск 22:42:08 1604263 84
>>1604186
>I'm uploading a new FP8 version.
Сууука.
Аноним 03/05/26 Вск 23:26:28 1604299 85
56161.PNG 204Кб, 1457x761
1457x761
Кто-нибудь знает почему выполняется то, что подключено в номер 0.

Я поставил значение 2 которое снизу вот идет. Я ожидал, что будет выполняться то, что подключено в 2. Не пойму, что нетак.
Аноним 04/05/26 Пнд 00:50:48 1604347 86
>>1604162
Каким воркфлоу пользуешься для таких нейроситей NSWF чтобы без протекшен файла был. А то у меня только с ним, а те что без него не работают со звуком. Мне надо чтобы были ItV и TtV, и voice+ItV и TtV желательно.
Аноним 04/05/26 Пнд 08:01:02 1604468 87
Аноним 04/05/26 Пнд 11:39:59 1604619 88
>>1604251
ВФ в видео, без стыков делает SVI PRO
Аноним 04/05/26 Пнд 16:48:39 1604837 89
>>1603028
Ну у тебя весь стык что ты анимедаун, а если без этой хуйни смотреть то ЛТХ даже неплох. И я уже много по нему воркфлоу моделий и прочего в тырнетах видел, которые при том неплохо склеивают разные видосы в однин делая более длинные ролик, довольно качественно и без проебов, даже звук голосов не проебуется.
Аноним 04/05/26 Пнд 19:31:35 1604910 90
acinematicconte[...].mov 4354Кб, 1024x576, 00:00:10
1024x576
Аноним 04/05/26 Пнд 21:38:52 1604955 91
Аноним 04/05/26 Пнд 22:56:21 1604982 92
>>1604910
А он звуки генерит?
Аноним 04/05/26 Пнд 23:10:28 1604989 93
>>1604910
кванты давай, как я тебе 25 гигов в народную картонку умещу
Аноним 04/05/26 Пнд 23:55:09 1605008 94
Аноним 05/05/26 Втр 11:44:43 1605175 95
>>1604910
Позитивные, в верном направлении двигаемся товарищи.
Аноним 05/05/26 Втр 12:52:41 1605210 96
>>1605008
> переранкуй под себя
в смысле экстрактировать лору? для этого же рама надо вагон, 50 на вычитаемое и 50 на вычитатель
Аноним 05/05/26 Втр 14:29:30 1605284 97
>>1604910
Да какие мысли. Слишком эта нейросеть заставляет любой промт ебаться вместо того что ине нужно, как какая-то спец лорас выкрученным влиянием по сути. А мне допустим не интересны классические вещи типо обычного секса в виде попака на лицо и ебли. Что-то инное цензурное запостить особенно кроме порно тяжело
Аноним 05/05/26 Втр 19:58:00 1605463 98
Wan00003.mp4 571Кб, 480x720, 00:00:05
480x720
Wan00005.mp4 746Кб, 480x656, 00:00:05
480x656
Wan00010.mp4 568Кб, 488x480, 00:00:05
488x480
Wan00039.mp4 823Кб, 480x720, 00:00:05
480x720
Копаю руду со своей вайфу в игре, а в конце трудового дня дрочу на нее, и даже моды не нужны, просто скринчики из позинга + Ван. Я не доволен, должна материлизоваться и упасть мне на ручки + под пледик. Я тщетно еще пытался дать ей речь и глаза, чтоб видела мир в игре и комментировала, может когда-нибудь осилю.
Аноним 05/05/26 Втр 20:42:24 1605488 99
>>1605463
Фпсов меньше чем в аниме
Аноним 05/05/26 Втр 21:12:08 1605508 100
>>1605488
Зато быстро, как мне надо. К слову я олд и на наклейки с жвачек мог подрочить, а вам фпсов мало.
Аноним 05/05/26 Втр 22:41:18 1605553 101
У кого до 5-8GB vram, и кто не хочет ебаться с богомерзким ComfyUI для генерации видосов, советую поставить 'Pinokio', а с него установить 'wan2gp', там уже все оптимизировано для даунов.
Аноним 05/05/26 Втр 23:03:38 1605566 102
--.mp4 4064Кб, 960x512, 00:00:07
960x512
Аноним 06/05/26 Срд 01:04:25 1605630 103
1.mp4 4736Кб, 704x704, 00:00:09
704x704
как заставить её пукнуть?
что ни пробую, она категорически отказывается.
Аноним 06/05/26 Срд 01:44:44 1605658 104
>>1605630
Орнул с этого газонюха
Аноним 06/05/26 Срд 05:37:31 1605702 105
>>1605658
А должен был сирануть с подливой!
Аноним 06/05/26 Срд 13:15:48 1605940 106
>>1605553
У кого до 5-8GB vram советую вообще сдриснуть с треда, генерация видео не для вас
Аноним 06/05/26 Срд 13:20:04 1605943 107
>>1605630
Задай сам себе вопрос в чём это должно визуально выражаться, если сможешь сам ответить, то сформулируй это в виде промпта для нейронки и поопробуй, если ты сам не знаешь чего хочешь, то какого хуя ты хочешь от нейронки? Облако зелёного дыма можно и в видеоредакторе наложить, если нужно чтобы анус расширился то так и пиши
Аноним 06/05/26 Срд 17:47:34 1606149 108
>>1605940
По хорошему, цифры из этого поста должны быть 20-24 гг. Да и то энтри левл.
Аноним 06/05/26 Срд 19:39:18 1606218 109
>>1605630
Это не было б так важно, не зная кто она такая?
Аноним 06/05/26 Срд 21:55:28 1606297 110
Аноним 06/05/26 Срд 22:04:05 1606302 111
gg.mp4 342Кб, 384x384, 00:00:04
384x384
Аноним 06/05/26 Срд 22:05:57 1606303 112
LTX200002-audio.mp4 1265Кб, 832x832, 00:00:10
832x832
Аноним 07/05/26 Чтв 00:25:46 1606380 113
>>1606297
Понял, имел ввиду тебе это важно или лишь бы любая напердела на лицо?
Аноним 07/05/26 Чтв 00:47:59 1606391 114
12312.mp4 4344Кб, 896x512, 00:00:09
896x512
Аноним 07/05/26 Чтв 01:10:13 1606407 115
image 4377Кб, 1817x1741
1817x1741
Аноним 07/05/26 Чтв 01:20:40 1606415 116
>>1604989
Ты же в курсе, что видео-модель нахуй не надо в видеопамять умещать? Тока контекст имеет значение, замедление не критическое (а иногда отсутствует).
Я боюсь за этот тред.
Аноним 07/05/26 Чтв 06:20:43 1606476 117
>>1606415
да я хз, я полтора года назад только картинки делал, получается можно без квантов скачать и всё норм будет?
Аноним 07/05/26 Чтв 06:21:37 1606477 118
Аноны, как в 10Eros звук нормальный сделать?
Использую их стандартный вф без изменений с теми же моделями.
Голосовой vae из их safetensor'а выдаёт просто кривой шум. Стандартный LTX 2.3 audio vae звук генерит но уж слишком какой то адский, кринж с рассинхроном, криками и левыми спецэффектами.
Может какой то волшебный параметр подкрутить в вф?
По поводу видео в целом норм, выходит неплохо, уменьшается количество лор которые нужно подрубать. Пока не успел как следует оценить, вожусь третий день с ней. Слегка спорная штука, время генерации по сравнению с LTX 2.3 намного больше из за метода генерировать видос как ic референс для картинки, в итоге нивелируется один из главных плюсов LTX 2.3 - быстрая генерация.
Аноним 07/05/26 Чтв 06:38:09 1606488 119
И что в итоге предпочтительнее из этих двух? Эрос или Сульфур?
Аноним 07/05/26 Чтв 06:48:40 1606493 120
Аноним 07/05/26 Чтв 10:26:14 1606586 121
16882256160180.gif 4749Кб, 256x212
256x212
После тестов Сульфура и Эроса на нескольких разных воркфлоу i2v пришел к выводу, что обе модели примерно одинаковые и это можно сказать шаг вперед для лтх. Но в отличие от того же Вана, ЛТХ продолжает не держать лицо персонажа при динамических сценах (исчезновение из вида и появление вновь, удаление и приближение камеры, повороты персонажа, смена позы и тому подобное). Ван все это делает без всяких лор на персонажа. Также качество картинки у фп8 моделей лтх такое себе. В динамике вылезают артефакты и картинка местами как будто плывет. Может, конечно, все вф, что я попробовал были не ок, но чет слабо верится.
Аноним 07/05/26 Чтв 13:30:35 1606721 122
>>1606476
Если оперативы хватает — то да. Или файл подкачки увеличивать.
Кванты помогают чисто оперативу сэкономить, чтобы ssd-диск файлом подкачки не мучать.

У меня 128 оперы, я bf16 гоняю. Добирается до 72-92 по ситуации.
Аноним 07/05/26 Чтв 13:35:15 1606725 123
>>1606488
Я вчера попробовал разобрать на составляющие сульфур.
В итоге, аудио вае и видео вае пошли нахер, а вот проектор мне показался КАААПЕЛЬКУ лучше оригинала. Саму модель я в итоге гружу из полной модели, а аудио вае и видео вае гружу оригинальные.
Итого 46 гигов мэйн модель, 2 гига сульфур проектор (может его тоже можно грузить из мэйн модели, не ебу, ну и качество совсем чуть-чуть лучше, и то могло показаться), вае старенькие, гемма аблитаретед (херетик говно какое-то).

Звук не асинхронится, вроде бы, все норм, качество анимации выше, цензура ниже, качестве генерации мультипликации и аниме — лучше (оригинал все в 3D хуярил реализм ебать).

Сульфур мне понравился.

Эрос выдал какое-то говно, я его и дропнул.

Но это так, один вечер покатал, тезноры подрочил, могу быть не прав.

По ощущениям, анимация приблизилась к Ван, на самом деле.
Но артефакты присутствуют.

Весь отзыв о дистилл модели, конечно, а не дев.
Аноним 07/05/26 Чтв 13:48:40 1606729 124
>>1606488
eros это тот же сульфур только с пердолингом для i2v
Аноним 07/05/26 Чтв 13:53:06 1606733 125
>>1606729
>I am only affiliated as an i2v tester and consultant. This is my personal merge of the actual data and it uses different training steps and layer scaling to create a consistent flexible I2V focused version. Future versions (v2+) will be actually fine tuned by me personally aimed at filling in gaps and weak concepts.
Аноним 07/05/26 Чтв 14:16:09 1606744 126
Народ, а как у нас обстоит дело с мультиреференсным I2V ?
Пробовал только first to last frame. А есть примеры вф, где модель считывает несколько референсов в начале, или же промежуточный кадр, помимо первого и последнего?
WAN 2.2 разумеется.
Аноним 07/05/26 Чтв 14:34:35 1606753 127
image.png 14Кб, 645x141
645x141
Есть AI Video специалисты с шестилетним опытом в треде? Признавайтесь, где взяли 6 лет опыта когда ван только в прошлом году вышел.
Аноним 07/05/26 Чтв 16:17:47 1606819 128
>>1606721
а если вытечет в подкачку случится замедление х10-20 или не? в принципе у меня есть ненужный ссд на псие
Аноним 07/05/26 Чтв 16:20:14 1606821 129
>>1606753
Дак там год за шесть идёт в связи с вредностью
Аноним 07/05/26 Чтв 22:38:48 1607076 130
>>1606819
Там же несколько моделей. ЛТХ отдельно работает, ваешки отдельно, гемма отдельно. В оперативе хранятся все, для быстрого свапа. Поэтому и получается 70 гигов, но во время инференса одной модели — требуется меньше, конечно. Но для LTX-2.3 bf16 46 гигов все еще надо, поэтому иметь 48-64 гига желательно.
Поэтому, владельцы 32 гигов предпочитают fp8 или gguf-кванты. Меньше весят — не замедляется из-за файла подкачки.
А лишний диск — база. Нынче это дешевле оперативки…
Аноним 07/05/26 Чтв 22:47:22 1607080 131
>>1606586
про артефакты чел который эросом занимается целый дисклеймер написал, и один хер ответ в стиле типа пробуйте крутить параметры в вф, ну такое себе
про косяки с vae и звуком вообще нигде не могу найти в чём причина, на реддите тишина, а проблема явно присутствует не только у меня, мне в ltx 2.3 как ни странно больше звук волнует к слегка покоцанной картинке я привык, да и картинку при случае можно и в ване нарулить, а вот звук такого уровня хуй где нарулишь, в итоге вернулся пока на ltx-2.3-22b-distilled-1.1 который довольно стабилен по сравнению с этими новыми тюнами
Аноним 08/05/26 Птн 01:11:04 1607166 132
>>1607080
Не знаю что у тебя там со звуком. У меня всё нормально. Но так как я нищий 12+16 то юзаю лору ерос, а не модель. Сравнивал с дефолт лткс, небо и земля по nsfw.
Аноним 08/05/26 Птн 06:20:49 1607238 133
Ещё автор эроса озвучил весьма странную вещь - в его модели нельзя ставить временные метки (да и вообще любое лишнее форматрование и символы). И как в таком случае управлять сценарием? Типа вот я хочу чтобы на шестой секунде персонаж куда то повернулся или что-то случилось а не на десятой и всё, тупик?
Аноним 08/05/26 Птн 17:12:19 1607661 134
выкинул все модели wan с диска, после того как пощупал LTX 2.3, реально мощная модель. инпейнт в видео это прям нечто, всего одну лору докинуть и всё.
Аноним 08/05/26 Птн 17:40:02 1607674 135
чето нихуя не понял, у кого работает civitai red?, главное обычная цива работает, а ред нет
Аноним 08/05/26 Птн 17:43:07 1607676 136
>>1607661
Камшотов там вменяемых все еще нет
Аноним 08/05/26 Птн 18:11:07 1607688 137
>>1607674
та же хуйня, вроде грузится но черный экран. через vрn работает нормально. при отключении vрn процесс закачки можно продолжить и всё скачается на полной скорости. хз что это.

>>1607676
это мелочь) главное богатые возможности. да и натренировать можно лору на домашнем железе. у меня пока с фоток персоны отлично тренится, схожесть просто вау. а видео ещё не пробовал, мне кажется комп уже не потянет.
Аноним 08/05/26 Птн 18:15:01 1607690 138
>>1606753
вроде в 2020 были какие-то хтонические GAN-генерации, когда всё на видео превращалось в насекомых\кошек\собак\пенисы. может это тоже идёт в зачёт, кек.
Аноним 08/05/26 Птн 20:13:54 1607761 139
>>1607661
у меня раньше были восторги, я каждый день в ней сидел, сейчас восторг совсем поутих, модель очень капризная если начинается генерация того чему она изначально не обучалась (подключаемые лоры иногда это вообще отдельный кринж), сложные сцены с несколькими персонажами чаще всего будут выдавать полный бади хоррор или слабое следование промпту, а простые сцены в стиле 'он пялит бабу в доггистайл' мне не интересны,
я как ы ты сперва погрохал ван, но вот через месяца два снова вернул ван :D
лтх очень хорош в производстве каких нибудь синематик роликов и музыкальных клипов где нет nsfw или аниме, на всё остальное, что в ване делается как два пальца нужно тратить уйму времени и нервов
Аноним 08/05/26 Птн 20:20:27 1607766 140
У кого то в треде есть 5090?
Интересно сколько ван без лор занимает с 3 сажей и прочими оптимизонами
Аноним 08/05/26 Птн 20:23:07 1607772 141
Пир.2005.Blu-Ra[...].jpg 452Кб, 2560x1440
2560x1440
Пир.2005.Blu-Ra[...].jpg 417Кб, 2560x1440
2560x1440
>>1607761
Да уж. Казалось бы простая вещь, но заставить киношного монстра сесть бабе на лицо как на второй фотке, только спереди, типа в рот трахает, не могу второй день.
Аноним 08/05/26 Птн 20:25:58 1607776 142
191813LASTFRAME[...].png 687Кб, 864x480
864x480
181035LASTFRAME[...].png 641Кб, 864x480
864x480
>>1607772
Дальше груди не садится либо покрывает целой тушей.
А еще с reverse\upside-down facefuck проблемы.
Аноним 08/05/26 Птн 20:29:43 1607782 143
Пир.2005.Blu-Ra[...].jpg 419Кб, 2560x1440
2560x1440
Пир.2005.Blu-Ra[...].jpg 420Кб, 2560x1440
2560x1440
12382800001.mp4[...].jpg 182Кб, 1856x1056
1856x1056
>>1607772
Тяжко поставить в один кадр персонажей, с которыми нет оригинальных общих кадров. Иногда получается похоже, выцепляя промежуточные и прогоняя снова первый-последний, но в основном глухо.
Аноним 08/05/26 Птн 21:34:28 1607833 144
>>1607761
>всё остальное, что в ване делается как два пальца
прям на одном ване без лор? и не колбасит? есть nsfw чекпоинты нормальные какие-то?
Аноним 08/05/26 Птн 22:01:44 1607844 145
Какой сегодня положняк по видео? А то я задумал музыкальные клипы делать по уже сгенерированой музыке, но длительность музыки от 2 до 4 минут. Хотелось бы без особой ебли ваншотом генерить.
Аноним 08/05/26 Птн 22:02:07 1607845 146
image.png 1Кб, 185x61
185x61
image.png 13Кб, 590x341
590x341
image.png 23Кб, 1072x73
1072x73
.trashed-178065[...].mp4 820Кб, 720x720, 00:00:05
720x720
вот так выглядит обучение лоры ltx 2.3 в nf4, интересно насколько всрато выйдет. скорость по сравнению с fp8 чекпоинтом та же самая, походу всё упирается в вычисления.
Аноним 08/05/26 Птн 22:50:46 1607865 147
>>1607845
>10 гиг
Это что получается, я на своей сраной 5090 могу обучать в fp8 и получить вменяемый результат?
Аноним 08/05/26 Птн 23:25:23 1607880 148
>>1607865
лол, на 32 гигах, конечно. и еще место останется для генерации в процессе обучения, чтобы поглядеть прогресс.
Аноним 09/05/26 Суб 00:24:19 1607906 149
>>1607845
в общем на fp8 быстрее и точнее даже несмотря на то что в видеопамять не влезает. nf4 это не про скорость и качество, а для тех у кого с оперативкой беда. вот бы поддержку аппаратного nvfp4 завезли
Аноним 09/05/26 Суб 00:28:32 1607908 150
>>1607880
А можешь скинуть чем и как трейнить? Я просто в своё время только SD 1.5 трейнил, лол.
Аноним 09/05/26 Суб 00:44:44 1607925 151
>>1607844
по идее через LTX 2.3 должно нормально быть если оперативы вагон, я по полторы минуты генерил на своём конфиге но так как с транзистами камеры беда иногда, теперь предпочитаю нарезать музыку затем кусками по 40 сек генерить и уже потом монтировать в давинчи, да это не 1 проход но контроля над секциями больше в разы, никогда не видел чтобы весь ролик целиком и полностью от А до Я сгенерировался за 1 проход без косяков, везде что то да вылезало.
видел есть вроде воркфлоу с лупами где можно стыковать чуть ли не до бесконечности, но он вроде только для i2v/t2v а не для si2v
Аноним 09/05/26 Суб 01:55:07 1607972 152
>>1607908
https://github.com/AkaneTendo25/musubi-tuner/tree/ltx-2
скинь файлы из папки docs языковой модели и она нормально пошагово распишет что как сделать. я таким образом всё установил и настроил. гораздо легче чем самому читать простыни английского текста.
Аноним 09/05/26 Суб 02:02:20 1607980 153
image.png 3Кб, 192x112
192x112
>>1607908
конкретно эти файлы. и readme.md из корня папки
Аноним 09/05/26 Суб 02:08:48 1607983 154
изображение.png 63Кб, 1192x358
1192x358
>>1607980
Попробую на досуге. Правда сейчас понял, что датасетов тонет, ну да ладно. Меня просто удивляет сама возможность трейнить это на моём конфиге, пусть и в fp8.
Аноним 09/05/26 Суб 03:30:08 1608022 155
>>1607776
Проблемы с upside-down, в датасете подавляющее большинство прямостоящих людей.

>поставить в один кадр персонажей, с которыми нет оригинальных общих кадров
Ну это с лорами реализуемо, а без них я хз как, особенно когда не просто рандом чел, а монстр.
Аноним 09/05/26 Суб 08:26:37 1608071 156
Аноним 09/05/26 Суб 10:30:17 1608110 157
вот ещё нюанс: тем кому нужна стабильность в ltx 2.3 чтоб нормально следовало промпту и не было бади хороров при использовании со сторонними лорами настоятельно НЕ рекомендую юзать distilled модель, а юзать только dev модель + distilled лору с маленьким весом (0.50-0.60), в такой комбинации в разы лучше результат получается
Аноним 09/05/26 Суб 10:50:40 1608119 158
>>1608110
О, это вы вовремя, я чуть не начал качать дистилированую модель.

Кстати, прошло много времени с тех пор как я тыкал лтх2,3. А там какой то 1.1 вариант вышел еще. Есть ли разница?
Аноним 09/05/26 Суб 11:45:41 1608158 159
105217LASTFRAME[...].png 608Кб, 864x480
864x480
105037LASTFRAME[...].png 589Кб, 864x480
864x480
>>1608022
>Ну это с лорами реализуемо, а без них я хз как, особенно когда не просто рандом чел, а монстр.
Таки остается играть с промтами и параметрами пока не получится нечто похожее на оригинал, ага
Аноним 09/05/26 Суб 12:29:09 1608179 160
Не подкинете воркфлоу для поэтапной генерации бесшовного видео в wan2.2? Чтобы генерить более 5 секунд более менее консистентно.
Аноним 09/05/26 Суб 14:21:53 1608236 161
>>1608119
Кто то писал что типа есть и мол вау какой классный апдейт, сектанты видимо ) я лично разницы не увидел
Аноним 09/05/26 Суб 15:25:46 1608274 162
Есть воркфлоу для инпейнта видео на основе изображения для LTX-2.3? Какая-нибудь нода под это?
Вдруг кто знает, сразу ссылкой.
Аноним 09/05/26 Суб 16:13:41 1608301 163
FEASTlow.mp4 18327Кб, 1280x720, 00:01:09
1280x720
Слопненько вышло на первый раз, но оказалось гораздо сложнее чем думал. Может потом переделаю.
Feast (2005)
Аноним 09/05/26 Суб 17:17:08 1608344 164
>>1608301
Эта сцена всегда заслуживала расширенной версии.
Аноним 09/05/26 Суб 17:39:41 1608360 165
>>1608119
>>1608236
В общем я немного покурил вопрос. 1.1 фиксит некоторые баги
А именно - ltx-2.3-spatial-upscaler-x2-1.1.safetensors фиксит баг когда в конце видео остаются артефакты, я как раз с этим столкнулся. так что обновлять имеет смысл
Аноним 09/05/26 Суб 17:48:34 1608365 166
190035LASTFRAME[...].jpg 187Кб, 1728x960
1728x960
>>1608301
Ага! Жаль этой пока так и не удалось пришельца на лицо посадить, такой кадр пропадает
Аноним 09/05/26 Суб 17:49:19 1608366 167
Аноним 10/05/26 Вск 09:19:55 1608815 168
Аноним 10/05/26 Вск 10:21:19 1608846 169
>>1608815
очевидно что как ллм, просто переписывает промпт

This model contains a prompt enhancer. The easiest way to get started with the prompt enhancer is by using it on lmstudio. The way to accomplish this is by going to your model folder inside lmstudio, then opening it up in your file explorer. Create a folder named "Sulphur", then a folder inside that called "promptenhancer". Inside that folder, place the gguf file and the mmproj file. Once you've done that, you should be able to load the prompt enhancer in lmstudio. There is no system prompt for it, just send the text (and an image) you'd like to be enhanced.
Аноним 10/05/26 Вск 10:22:04 1608849 170
>>1608815
на странице сульфура написано

The easiest way to get started with the prompt enhancer is by using it on lmstudio. The way to accomplish this is by going to your model folder inside lmstudio, then opening it up in your file explorer. Create a folder named "Sulphur", then a folder inside that called "promptenhancer". Inside that folder, place the gguf file and the mmproj file. Once you've done that, you should be able to load the prompt enhancer in lmstudio. There is no system prompt for it, just send the text (and an image) you'd like to be enhanced.
Аноним 10/05/26 Вск 10:53:19 1608865 171
1778399597060.jpg 552Кб, 1079x1880
1079x1880
Стоит ли брать вторую на замену первой? По цене за столько, сколько и брал предыдущую.

Беру для нейронок, чтобы было больше памяти.

Но смущает, что на бумаге разница не такая большая, а где-то даже просер.

Нежели за 7 лет чистый прирост всего 25% за ту же цену, остальное оптимизация и фейковые кадры?

Остальные не рассматриваю, потому что не устраивает размер, потребление питания и разъём.

Если разницы никакой нет, то остановлюсь на облачных вариантах.
Аноним 10/05/26 Вск 11:29:39 1608881 172
>>1608865
конечно имеет смысл, 16гб врам всегда нужны + у блаквеллов оптимизации есть как раз под нейронки. тот же nvfp4 (хотя он поддерживается через жопу)
Аноним 10/05/26 Вск 11:35:55 1608883 173
>>1608849
>>1608846
а в комфи? я попробовал всякие ноды для квена и для геммы. не получилось
я тупой походу, пацаны, нужно более понятное объяснение.
лмстудио единственный вариант?

>>1608865
у 5060 ти куда ядер вдвое больше и встроенная поддержка fp4 вычислений что позволяет больше уместить чем кажется
Аноним 10/05/26 Вск 11:40:18 1608885 174
msedge202605101[...].png 217Кб, 2082x888
2082x888
>>1608865
Это всё выдуманные числа. Написано что 5070 Ti производительнее на 20%, а по факту оказалось что ФПС в играх вырос в 2 с небольшим раза.
Аноним 10/05/26 Вск 11:43:00 1608887 175
Аноним 10/05/26 Вск 11:48:58 1608891 176
>>1608883
лмстудио самый простой вариант. Закинул оба файла в папку с моделями лмстудио, выбрал модель и готово. Никакого пердолинга в комфи. Максимум, что надо, так повысить температуру справа в насройках до 0.7 (а то она по умолчанию 0,1) например и все.
Аноним 10/05/26 Вск 11:58:25 1608895 177
soffice.bin2026[...].png 19Кб, 1336x142
1336x142
>>1608887
И с ними, и без них. Вот такие замеры получились.
Аноним 10/05/26 Вск 12:04:37 1608897 178
>>1608891
понял, спасибо. а лмстудио с комфи одновременно память могут между собой поделить или надо будет вмешаться ?
Аноним 10/05/26 Вск 12:24:14 1608904 179
>>1608895
19 fps на максималках спустя 5 лет - ну такое

Похоже уперлись в физический предел.

Даже грустно как-то.
Аноним 10/05/26 Вск 12:48:50 1608914 180
>>1608904
Ну это в разрешении 4к с лучами, 5 лет назад такое вывезти вообще ничего не могло, на RTX 3090 в 4к со всеми лучами было 7 фпс, так что не вешай нос Симон, всё ещё впереди.

3090 с таймкодом https://youtu.be/iKrN_COCvQk?si=3qVs_Y1_qEq9i1rf&t=673

Ну а сейчас есть 5090, а это ещё х2 ФПС относительно 5070 Ti, в итоге топ видеокарта стала производительнее в 6 раз.
Аноним 10/05/26 Вск 13:11:43 1608924 181
>>1608897
нет, надо либо руками выгружать, либо использовать ноду которая будет грузить llama.cpp а потом прибивать после выполнения промпта.
Аноним 10/05/26 Вск 13:30:09 1608929 182
>>1608914
На 5090 ещё есть х6 фреймген. Шутки шутками, но 45 фпс -> 250 фпс сейчас выглядят хорошо, артефакты чтоб увидеть надо с лупой сидеть и вращаться как юла.
Аноним 10/05/26 Вск 14:04:22 1608956 183
image.png 17Кб, 225x125
225x125
image.png 46Кб, 531x160
531x160
>>1608865
на скрине пиздеж. 5060 ti в трассировке лучей и ИИ задачах быстрее где-то в 5 раз будет. с 12 гиговой 4070 ti перешел на 5070 ti и не жалею, всё гораздо шустрее ворочаться стало. есть nvfp4 модели, заточенные под 50xx серию, они при почти таком же качестве картинки дают дополнительное x2 ускорение генерации. ну и эти видюхи саморазгоняются даже сильнее чем в официальных спецификациях. например у меня на бумаге турбо-буст до 2450 мгц, 44 тфлопс производительность чистой cuda. на деле - больше.
Аноним 10/05/26 Вск 14:19:43 1608978 184
>>1608883
Комфи там вообще не причем, это GGUF модель, что ты мозги ебешь.

Я купил автомобиль, но как не греб веслом — она не летит.

Если ты прям хочешь встроить в воркфлоу бесшовно и без API — то я не знаю.

llama.cpp запускает эти файлы. ЛМСтудио — обертка над ней, довольно удобная.
Я просто на втором компьютере запускаю llama.cpp с этой моделью, и кидаю картинки с описаниями туда, он мне выдает промпт.

Это Qwen3.5-9B если что.

Вот тут: https://huggingface.co/FusionCow/sulphur_prompt_enhancer_model есть fp8 модель, например.

Успехов.

>>1608865
>>1608885

Вы оба ебанутые по этому сайту мерять, когда есть https://www.techpowerup.com/gpu-specs/geforce-rtx-4070.c3924
4070 ti = 5070, 5070 ti мощнее на 20%
А что там у обычной 4070 я хз.

Но 5060 ti точно стоит брать, 16 гигов к тому же, мастхэв.
Еще и 42к стоит на вб.

>>1608897
Надо будет, но в лмстудио может быть автовыгрузка, я хз, типа обработал запрос — и модель автоматом вылетела через пару секунд, а послал новый запрос — заново загрузилась.
Но все равно такое себе, наверное.

>>1608956
> есть nvfp4 модели
Ну, говно, кстати, флюксы пальцы путают, лтх с лорами замедляется, вроде бы и да, а вроде и нет.
Нужны модели, нативно обученные в fp4, вот там огнище будет.

> 2450
Уже 4070 ti брала 3000 МГц, а 5070 ti у меня в SFF — всего лишь 2600-2800.
Аноним 10/05/26 Вск 14:58:13 1609001 185
>>1608978
>Нужны модели, нативно обученные в fp4
официальные nvfp4 от black forest это пережатые чтоль?

>Уже 4070 ti брала 3000 МГц
чето не припомню. вроде только если подкрутить в афтербернере. 5070 ti 2850 держит стабильно без крутилок, если подвигать ползунки, можно и 3200 получить, дальше лезть не стал. андервольт лучше зашёл, с уменьшением tdp до ~200 ватт.
Аноним 10/05/26 Вск 15:41:32 1609038 186
>>1609001
Ну, там же есть клейн bf16, вряд ли они fp4 с нуля обучали.
Но могу быть не прав.

А 200 ватт — база.
Аноним 10/05/26 Вск 17:10:00 1609084 187
>>1609038
>вряд ли они fp4 с нуля обучали
попробовал bf16 пережать в fp4, примерно такое же качество получил, походу пережали всё таки
Аноним 10/05/26 Вск 23:49:30 1609362 188
>>1599474 (OP)
Сгенерите пж что-нибудь по этой фразе:

Я видел такое, что вам, людям, и не снилось. Атакующие корабли, пылающие над Орионом; Лучи Си, разрезающие мрак у ворот Тангейзера. Все эти мгновения затеряются во времени, как... слёзы в дожде... Пришло время умирать.
Аноним 11/05/26 Пнд 00:23:18 1609386 189
Аноним 11/05/26 Пнд 00:31:23 1609392 190
Новыйшампунь.mp4 1507Кб, 480x720, 00:00:15
480x720
Закину сюда тоже, может кто оценит зашакаленное видео.
Аноним 11/05/26 Пнд 01:28:08 1609421 191
>>1608978
я думаю тому парню кто выше спрашивал можно не париться отдельным бэкендом под ллм. в некоторых вф , например видел такие для ltx 2.3 с промпт энхансерами и релеем сразу картинка идёт в qwenVL ноду она небольшая загружается и выгружается моментально и тут же на лету дополняет промпт, тем что она определила на картинке
Аноним 11/05/26 Пнд 01:46:20 1609428 192
LTX-2320260511H[...].mp4 1118Кб, 1024x1024, 00:00:10
1024x1024
кстати у меня почему то на ltx 2.3 prompt relay воркфлоу (я их три штуки уже опробовал) никак со звуком нормальным не получается сделать видео, сама картинка ок, а вот звук ансинк и искорёженный, пробовал и distill и dev модель? audio vae совершенно стандартный не пойму в чем причина.
p.s легкий крик души во вложении
Аноним 11/05/26 Пнд 07:55:34 1609481 193
Аноны, возможно спрашивали уже, но я не нашёл. Вопрос: как заставить сырые картинки идущие в апскейлер и затем в видео чтобы они грузились в VRAM вместо RAM? Пытаюсь размазать всё по памяти чтобы избежать вываливания в оом, после VAE Decode (Tiled) у меня забита RAM на 99% и на следующем этапе где обычно у меня апскейлеры часто в out of memory падает, при этом VRAM на том же этапе не забита вообще ничем и там свободно 15 гигов. Как сгрузить картиночный кэш туда? Пытался покурить ноду VRAM Debug но она похоже просто для очистки, а не для перемещения.
Аноним 11/05/26 Пнд 09:11:20 1609493 194
>>1609481
А почему не в своп? Его ровно для этого и придумали, а видеопамять придумали для другого. А то ведь будешь потом придумывать ещё один костыль, чтобы CUDA в OOM не падала, вместо того, чтобы сделать нормально.
Аноним 11/05/26 Пнд 10:55:26 1609532 195
image.png 154Кб, 611x810
611x810
Аноним 11/05/26 Пнд 21:31:46 1609991 196
изображение.png 691Кб, 1920x1080
1920x1080
ltx2.3flf2v00059.mp4 542Кб, 768x512, 00:00:09
768x512
>>1609362
Фразы мало. Надо хотябы стиль и сцену добавить.
Хотя, вот что получилось, слегка расширив на лтх2.3
Кстати, генерил на 3050 8Гб + 64Гб ДДР4
Аноним 12/05/26 Втр 01:05:41 1610171 197
>>1609532
О круть, спасибо то что нужно!
Аноним 14/05/26 Чтв 17:00:19 1612017 198
аноны
где теперь без соры генерить видосы?
предложите годный сервис
даже платный через какой нить плати сру

локально не предлагать у меня нет инвидии
Аноним 14/05/26 Чтв 17:07:19 1612026 199
image 38Кб, 225x225
225x225
>>1612017
>локально не предлагать
Аноним 14/05/26 Чтв 17:37:09 1612056 200
Аноним 14/05/26 Чтв 19:37:14 1612145 201
Аноны, есть кто с соры треда? Была такая жизнь бурная, хлебоходили, сктолько пацанов было, где вы все? Какие моря бороздите? Каждому бы пожал руку, с уважением.
Аноним 14/05/26 Чтв 22:02:43 1612296 202
soraotosalitriss.mp4 7024Кб, 960x1280, 00:00:20
960x1280
Аноним 14/05/26 Чтв 22:18:21 1612306 203
А что за оборудование нужно, чтобы нейрослопы гененировать локально?
Аноним 14/05/26 Чтв 23:23:24 1612346 204
>>1612306
5090 хватает в целом, но я серьезно посмотриваю в сторону закупки нескольких v100x32gb чисто под нейрослоп-задачи
Аноним 14/05/26 Чтв 23:36:17 1612362 205
>>1612346
У меня только 4090 есть :(
Аноним 15/05/26 Птн 04:47:37 1612479 206
Хуясе тут шизики каждые погода видюхи меняют. Вы хоть успеваете на них погонять? Куда старые карты потом пропадают?
Аноним 15/05/26 Птн 09:39:21 1612593 207
>>1612362
Апгрейдкит в 4090/48 стоит 150долл. Хули ты сидишь и ничего так и не сделал для светлого нейробудущего?
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов