А куда альбиноски-кун подевался? Хочется новых пикч. Это тот челибос из треда, чьи пикчи я бы распечатал и поклеил постерами на стену - пошлятина высокой культуры.
>>1511638 Новый Ace по заявлениям разрабов гибок настолько что позволяет редактировать абсолютно любой фрагмент аудио, и при этом он менее требовательный чем существующие RVC системы. Лучше спроси в TTS треде.
Добрался наконец-то до новой модели. Удивительно, но она, похоже, не знает, кто такие Meiko и Kaito. Ну хорошо, что Рин знает. Прикольно, но полностью вытеснить SDXL она не сможет, пока не появится версия, натренированная на большем разрешении, и не появится возможность создавать лоры. Использовал десктопный Comfy с шаблонным воркфлоу. Скорость генерации одной картинки на RTX 5090 в разрешении 1 МП составила 7 секунд.
>>1511767 masterpiece, best quality, score_8,score_9 safe, very awa, high resolution, 1girl, solo, kagamine rin, masterpiece, best quality, smile, (flat chest), blond hair, aqua eyes, (cute: 1.5), big eyes, white, , background, bangs, full body, looking at viewer, cowboy shot, Kagamine Rin riding a foldable bicycle in a park, wearing knee and elbow pads, wrist guards, , dynamic full-body pose leaning slightly forward as if pedaling fast, one foot on pedal, hands gripping handlebars, joyful and excited expression, motion blur on wheels and legs, wearing denim shorts and a white T-shirt, high-energy cycling scene, cute and lively atmosphere, sunny park background
>>1511843 Это не по одной картинке вывод, я с другим промптом делал штук 15 в разных разрешениях, и только в этих двух такой эффект. И понятно как он мог возникнуть - напихали гптшной синтетики в датасет. Поэтому может иметь смысл не использовать разрешения типичные для генераций и при этом нетипичные для имитируемого контента.
>>1511580 >>1511594 Аноны, поясните популярно про размеры модели. Вот там пишут что 2В модель. Как тогда она способна вменяемые генерации делать? В моем представлении модель должна быть большой. Ну тупо потому что человеческое тело устроено сложно. Поэтому старые модели SD 1.5 могут генерить дефолтные портреты персонажей лучше чем новый Qwen Image/Нанобанана. Но они обсираются в анатомии и пространственной ориентации объектов в десятки или сотни раз чаще Квена из-за недостатка знаний по позе и динамике человеческого тела. Алсо, датасет с исключительно аниме-картинками тоже мне кажется сомнительной идеей по этой причине. Ведь художники могли тупо не рисовать многие позы/ракурсы просто из-за их скучности, то есть анатомия опять страдает.
Так вот, в чем плюсы тогда маленьких моделей? Ну, кроме доступности на всяких нищих видеокартах? Сейчас 48 Gb VRAM видеокарту можно меньше чем за доллар в час арендовать, если что.
>>1511978 Про специализацию слышал? Тощий боксер уделает жиробасину нетренированную. Так и здесь, только изящнее. Модель специально трениурют под конкртеную задачу, например аниме из шума доставать. Преимущество в том, что мелкую модель тренировать дешевле, а по качеству в специализии она не сильно будет проигрывать крупной или даже превосходить. Ну и еще размер - это датасет. Тут чем больше, тем лучше. Но всегда есть компромисс между размером, качеством и требованиями к железу.
>Сейчас 48 Gb VRAM видеокарту можно меньше чем за доллар в час арендовать
Сегодня можно, а завтра нельзя потому, что ее луддиты из датацентра спиздили и продали китайским ковырялкам DDR по цене новой ламбы.
>>1511978 функции модели скейлятся не пропорционально размеру. Чтобы модель держала сложные концепции зачастую важно количество слоёв, а не количество параметров. Но при большом количестве слоёв очень сложно получать вменяемый аутпут при тренировке. Можешь посмотреть на примере ЛЛМ: На связанную речь там способны модели у которых меньше 1b параметров. При увеличении до 2b там да, заметный скачок, так как процесс тренировки просто может ПЛОТНО упаковать концепции. при увеличении до 8b там всё ещё заметный скачок, не такой сильный но модели уже лучше понимают разные языки, начинают понимать более сложные связи между абстрактными концепциями. ~12b это уже плюс-минус половина потенциала. И где-то в районе 30b мы получаем уже ~80% способности взрослой модели, а дальше уже не такой радикальный рост в плане способностей. Удвоение параметров это далеко не удвоение способностей. Да, большие модели могут быть более генерализированы, но мелкие модели при специализации будут иметь плюс минус те-же способности. Как пример: GLM-4.7 (358b) на бенче AIME 2025 имеет 95.7 балла, а GLM-4.7-Flash (30b) имеет 91.6 балла. И да, взрослая модель лучше понимает связь между сложными абстрактными концепциями, она лучше работает с сложными запросами, но младшая модель если ей дать более четкие инструкции справится примерно на том-же уровне.
в моделях для рисования картинок просто больше уклон в конкретную специализацию и там более заметно что модель может, а что не может.