Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 512 76 122
Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №238 /llama/ Аноним 31/05/26 Вск 18:43:31 1622922 1
Llama 1.png 818Кб, 630x900
630x900
Карта деградаци[...].png 153Кб, 1473x830
1473x830
Реальная длина [...].png 533Кб, 2340x1714
2340x1714
177826506750100[...].jpg 3675Кб, 3903x2545
3903x2545
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт с уникальным игровым режимом: https://github.com/Pasta-Devs/Marinara-Engine
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1620318 (OP)
>>1617427 (OP)
Аноним 31/05/26 Вск 18:46:59 1622927 2
Можно ли как-то отследить в таверне, что на сообщение прокнули лорбуки? А то я даже не пойму, активировались или нет
Аноним 31/05/26 Вск 18:52:09 1622932 3
>>1622922 (OP)
Опчик, ты бы ссылку на вики треда и тот гайд от анона местами поменял. Сейчас вики в самом верху, ещё и жирным выделена. Но от неё в 2026 толку мало, почти вся инфа протухла. Гайд при этом актуальный и свежий. Ну или хотя бы рядышком их поставь.
Аноним 31/05/26 Вск 18:52:45 1622933 4
>>1622927
В консоли полный промпт.
Аноним 31/05/26 Вск 19:11:28 1622943 5
Аноним 31/05/26 Вск 19:13:42 1622946 6
>>1622927
Дольше ждёшь ответа - активировался. Если нет, то не активировался.
Аноним 31/05/26 Вск 19:17:58 1622948 7
>>1622946
Ого. А там как-нибудь по ветру можно определить или по наитию?
Аноним 31/05/26 Вск 19:21:53 1622952 8
>>1622932
Двачую. Шапку вообще переформатировать бы и убрать ненужное. Например
>Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
Что это за пиздец и что там интересного? Нуфагов ахуеть как перегружают мусором. Там буквально во всем протухшем рентри ссылка на пигму (модели 3 года), таверну и кобольда что уже есть в шапке
>Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
Первая LLAMA. Ёбаный твой рот, зачем это вообще нужно
>Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM
Потеряло актуальность, даже fit работает также эффективно, не говоря уже о ncmoe
Аноним 31/05/26 Вск 19:56:46 1622966 9
>>1622800 →
Мне стыдно показывать что я там разыгрываю. Микс странных фетишей с рофлами вокруг них, половина чаров легальные милые и веселые.
>>1622922 (OP)
> Официальный гайд по сопряжению бекендов с таверной:
Кажется это тоже потеряло актуальность
>>1622952
> fit работает также эффективно
Кстати, он сейчас работает для плотных моделей или с двумя гпу?
Аноним 31/05/26 Вск 20:06:56 1622977 10
>>1622952
>Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM
>Потеряло актуальность
Шизик, а не прошел бы ты нахуй, выгрузку избранных тензоров использую каждый день. Все остальные твои "советы" такие же, от говна троллящего.
Аноним 31/05/26 Вск 20:11:14 1622981 11
>>1622977
>выгрузку избранных тензоров использую каждый день
Попробуй заменить на ncmoe и разницы не увидишь, неолуддит
>Все остальные твои "советы" такие же, от говна троллящего.
С головой норм всё? Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке? Хехмда
Аноним 31/05/26 Вск 20:14:59 1622984 12
>>1622981
Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата, для каждой модели свой набор. К тому же не все модели moe. Разница в разы. Ncmoe для даунов ленивых, чтобы хоть какой прирост был на moeшках.
Аноним 31/05/26 Вск 20:17:01 1622986 13
>>1622952
Уже давно предлагал половину ссылок из шапки выкинуть на отдельный рентри, как уже давно делают в соседних тредах. Шапка должна быть актуальный (насколько возможно) и полезной большинству, а не держать гайды на ебаный докер, которым дай бог пара человек отсюда пользуется.
Аноним 31/05/26 Вск 20:18:21 1622987 14
>>1622984
>Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата
Ммм, какая шарящая умница в треде. Ты же не просто пиздишь, верно? Ты глаголишь истину же? Жду пруфы. Делай сравнение и прикладывай два пика, где отражены потрабление рам/врам и скорости. Я-то делал сравнения и знаю, что разницы не будет, по этой причине ты съебнешь в закат, так ничего и не предоставив
Напомню вопрос ещё один вопросик, а то у тебя сва его отсёк:
Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке?
Аноним 31/05/26 Вск 20:22:27 1622991 15
>>1622987
Дальнейший говнотроллинг, что и ожидалось. В шапке вся актуальная инфа, все что новичкам и надо. Воняешь тут только ты с продвижением своих левых говногайдов.
Аноним 31/05/26 Вск 20:25:54 1622994 16
>>1622991
>с продвижением своих левых говногайдов.
Не мой гайд, я ради лоботомитов вроде тебя только газики пускать готов вам на ужин

>по этой причине ты съебнешь в закат, так ничего и не предоставив
Что и требовалось доказать, один пиздёж. Снихуя кобольдыш порвался ведь, никто даже на опа бочку не гнал, только предложили как сделать всем лучше
Аноним 31/05/26 Вск 20:28:01 1622996 17
>>1622991
Билли, нам нужны пруфы на твои ускорения работающие лучше чем fit на запуске лламы.
Аноним 31/05/26 Вск 20:29:12 1622997 18
>>1622994
Пиздеж тут только у тебя на каждом шагу, троллящая залупа. Агитируешь выкинуть актуальную инфу из шапки, которой все пользуются месяцами, заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди с такими предложениями, ОП все правильно делает.
Аноним 31/05/26 Вск 20:41:08 1623011 19
>>1622997
>выкинуть актуальную инфу из шапки, которой все пользуются месяцами
Что из инфы шапки актуально, додик? Из 10 ссылок на модели актуальных две. Или тебе инфа по запуску MI50 актуальна? Или пошаговое мышление от тредовичка для таверны? Или шапка пигма треда? Или магические переводы? Или залетные у нас докером пользуются? Или не умеют, но сразу захотят ведь в шапочке есть ссылка, она там не просто так?

Месиво из этих ссылок новичка только отпугнет. Он либо свалит сразу, либо начнет в треде однотипные вопросы задавать. Это никому не помогает. Собрать весь этот мох плесневелый и закинуть на отдельную страничку - пусть там и лежит. Полтора человека которым это будет нужно уж найти смогут, не переломятся.
Аноним 31/05/26 Вск 20:57:00 1623027 20
Я в прошлом треде срал что гемма в русик не может и оперся на меромеро. Там обосрали меня сказали что надо обычную гемму пробовать, оказалось, что может и прямо таки годно. Цензуры нет вообще (ризонинг просто оффнул ничего не трогая больше). Засяду с ней короче теперь надолго походу. Каюсь, пиздато прямо.
Аноним 31/05/26 Вск 21:00:30 1623029 21
Че творится, я ньюфаг пару тредов сижу прям удивился культуре треда, а вы как пидорасы оказывается тоже из-за шапки грызетесь. Нигде нет совершенства, Абу, будь ты проклят.
Аноним 31/05/26 Вск 21:01:43 1623033 22
>>1622952
Ссылка на вики кобольда экшели полезна, она обновляется. Да, там есть упоминания старых моделей (персонально не вижу в этом ничего плохого), но там объясняются и все параметры кобольда, включая актуальные. Её можно было бы заменить на страницу с нормальной документацией по жоре, но такая вообще есть? Я нашёл перечисление большинства параметров только вот здесь https://github.com/ggml-org/llama.cpp/discussions/15709 , а это необновляемый дискашен годичной давности.
Аноним 31/05/26 Вск 21:04:11 1623036 23
Я когда первый раз зашел, заебался шапку читать там действительно кала дохуя.
Аноним 31/05/26 Вск 21:04:52 1623039 24
изображение.png 31Кб, 1708x92
1708x92
>>1623033
>Её можно было бы заменить на страницу с нормальной документацией по жоре, но такая вообще есть?
Ты не поверишь... Скрин с шапки.
Аноним 31/05/26 Вск 21:05:10 1623040 25
>>1623033
>Ссылка на вики кобольда экшели полезна, она обновляется
Никто и не говорит про снос ссылок на кобольда, речь про другое.
>такая вообще есть
Есть, но хитрый ОП засунул документацию на жору в самый конец.
Аноним 31/05/26 Вск 21:07:14 1623042 26
>>1623040
Правильно сделал, доку на жору новичку надо читать в последнюю очередь, иначе он там ничего не поймет.
Аноним 31/05/26 Вск 21:10:27 1623045 27
>>1623042
Сомнительно, но допустим. В любом случае все документации уж тогда нужно в отдельный подпункт выделить, какого хуя они до сих пор висят в "дополнительных ссылках" между реально ссылками второго и третьего порядка.
Аноним 31/05/26 Вск 21:11:01 1623046 28
image 159Кб, 1184x864
1184x864
>>1623011
>Месиво из этих ссылок новичка только отпугнет
Таки да. РЕАЛЬНО НУЖНО для нюфани только это:
1) Актуальный гайд (не нравится от того анчоуса - пишите сами ёпта)
2) Ссылки на средства запуска (лама, кобольд и пр.)
3) Ссылки на таверну и ее альтернативы
4) Список актуальных моделей
5) Вики треда + вики кобольда опционально в самом конце.

Остальные ссылки либо сильно устарели, либо слишком сложны для нюфани. Это моё мнение.

Алсо, вы сами все видите, сколько в тред вваливается вкатышей, которые увидели в шапке ЗДОРОВЕННУЮ ПРОСТЫНЮ из ссылок, охуели с этого и решили что проще спросить в треде? Причем спрашивают самые простые и глупые вопросы, ответы на которые есть в гайде/вики/кобольд-вики. "Подскажите модель у меня 16гб врам" - это вообще классика. А если оставить несколько ссылок, но действительно необходимых, тогда, глядишь и осилят.
Аноним 31/05/26 Вск 21:16:25 1623049 29
Бля а как быть с лорбуками и геммой с жорой? Есть как-то варик не пересчитывать весь контекст с каждым сообщением? Вроде вот есть чекпоинты-хуеинты, а не помогает, пересчитывает.
Аноним 31/05/26 Вск 21:29:35 1623055 30
>>1623046
> сколько в тред вваливается вкатышей
>самые простые и глупые вопросы
Так эти мимовкатыши гайды никогда и не читают и ничего не ставят, они чисто спросить заходят, потом даже не разбираясь в советах и не пробуя. Инструкции в шапке для тех, кто уже сел разбираться, накатил ламу или кобольд, попробовал пару моделей с хф и сидит разбирается что еще есть и какие возможности. Для таких в шапке все и подобрано правильно, подробный список гайдов с доками и обзор всего что есть, когда они желающим разобраться нужны бывают. Короче не о том спорите, шапка дает нужную инфу тем, кому она нужна, вкатыши же так и будут вопрошать про 16гб рам в треде.
Аноним # OP 31/05/26 Вск 21:29:44 1623056 31
Короче почитал я вас и сделал по своему.
Выделил разделы под карточки и доки и поднял гайд повыше. Доп ссылки конечно полезно было бы вынести в вики (как и полностью её обновить), но пока этим заниматься лень. Результат смотрим по ссылке в конце ОП-поста, предложения принимаются тут, как всегда.
Ваш бессменный ОП.
Аноним 31/05/26 Вск 21:35:16 1623061 32
>>1622984
> избранные тензоры часами подбирают
Лолчто?
А по подбору регэкспа лучше бы описали принцип и добавили линки на переменные окружения, которые позволяют ускорить процесс инициализации.
>>1623049
> с лорбуками
> не пересчитывать весь контекст
Ставь фиксированный инжект, а не векторный поиск и/или вероятности. Любая смена контекста в начале - пересчет всего что было после этого, вне зависимости от модели и типа кэширования.
>>1623056
> ссылке в конце ОП-поста
Запятую из нее убери чтобы сразу открывалась
Аноним 31/05/26 Вск 21:37:32 1623064 33
изображение.png 6Кб, 390x95
390x95
изображение.png 10Кб, 489x634
489x634
>>1623061
>Запятую из нее убери чтобы сразу открывалась
У меня сразу открывается (запятая чёрная и не парсится как часть ссылки).
Аноним 31/05/26 Вск 21:38:06 1623066 34
image 271Кб, 899x673
899x673
>>1623056
Так гораздо лучше. Пасиба, опчик!

>>1623061
>запятую из нее убери чтобы сразу открывалась
Фаерфокс на линухе открывает сразу, запятая не мешает. Ты там хромог чтоль?
Аноним 31/05/26 Вск 21:54:07 1623084 35
>>1623049
Задай себе вопрос: а на кой хер СЕЙЧАС динамические лорбуки вообще нужны? Это было актуально, когда контекста было - гулькин нос, и физически не было шансов туда запихнуть все, что хотелось.
Сейчас даже MoE гемма держит 50-60K контекста без особых проблем. И чё, жалко 20-30K под лор выделить? Это ж дохрена подробностей, так-то. Качественный лорбук на такой объем еще хрен найдешь/напишешь.

Так что чисто практически - просто выставляй себе режим вывода "всегда" для всех записей лорбука, и не будет тебе пересчета каждый ход. А если у тебя контекста чуть, как раньше - так тогда и его пересчет должен мало занимать...
Аноним 31/05/26 Вск 22:01:07 1623086 36
>>1622984
>Разница в разы
Жирный, вытекаешь
Аноним 31/05/26 Вск 22:01:25 1623087 37
>>1623084
Я писал, писал, а потом заметил, что внимание геммочки стало расплывать при тестировании. Лорбуки помогли поправить, внимание теперь куда лучше держит. Лорбук где-то на 30к контекста. Пересчет то может и небольшой, только он инжектится у меня в начало и все нахуй сбивает и он начинает пересчитывать все сообщения. Ща попробую разобраться как инжект делать перед сообщением пользователя последним.
>>1623061
спасибо, попробую инжектить глубже
Аноним 31/05/26 Вск 22:03:28 1623091 38
1753447749329905.jpg 186Кб, 919x960
919x960
Аноны, не был в треде у же с год. Перекатился с T-tech 30b на новенькие:

gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-Q5_K_M

Gemma-4-Gembrain-31B-it-uncensored-heretic-Q5_K_M

Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved.i1-Q5_K_S

И вот вопрос, какого хуя Гемма4 пишет заметно более хорошо на русском чем Qwen3. Особенно явно это выражено в NSFW.
ПО итогу могу заявить твердо и четко, модели 30б легко кладут на лопатки ЛЛама 70б, а уж про то как современые 30ки могу следовать сценарию вообще молчу- просто огонь.
Аноним 31/05/26 Вск 22:05:37 1623092 39
>>1622997
>заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди
Хуя подрыв, аж с визгом. Там в гайде орфографические ошибки и ни одна ллмка такое не выдаст. Ущемился что не про любимого кобольдика ? Дружно напоминаем тредом что терпилы могут сделать свой но все равно выбирают терпеть и ныть
Аноним 31/05/26 Вск 22:05:37 1623093 40
>>1623091
>gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-Q5_K_M
>uncensored-heretic
>Q5_K_M
Фу, чел
Аноним 31/05/26 Вск 22:06:05 1623094 41
>>1622883 →
Анончик, спасибо, оно работает, вылетает правда после двух генераций, но я постараюсь это поправить. Это реально рабочий варик
Аноним 31/05/26 Вск 22:09:47 1623097 42
Аноним 31/05/26 Вск 22:11:20 1623099 43
>>1623091
>Гемма4 пишет заметно более хорошо на русском
А если скачаешь ванильные веса вместо этой "ultra-uncensored-heretic.i1" залупы, то будет ещё лучше писать. Гемме 4 не нужен анцензор, она из коробки хорни.

>gemma-4-26B-A4B Q5_K_M
>Qwen3.6-35B-A3B Q5_K_S
Это моэ модели, качай Q8, если позволяет рам+врам. Им не обязательно быть полностью в видеокарте.
Аноним 31/05/26 Вск 22:13:36 1623101 44
>>1623093
Поясни.
Не K_M тк врам только 40 гб.
Херетик лучше справляется чем облитирейтед.
Аноним 31/05/26 Вск 22:17:05 1623102 45
>>1623101
Да уж написали уже выше истинную правду - ванильная Q8 работает на кофемолке и знает русский лучше
Аноним 31/05/26 Вск 22:18:16 1623104 46
>>1623056
>предложения принимаются тут, как всегда
Уже начал причёсывать шапку так как никто не откликнулся, но спасибо, что сделал за меня половину работы.

Сгруппировал всякое, подчистил, добавил что посчитал нужным: https://rentry.co/2w47hg34
Аноним 31/05/26 Вск 22:21:31 1623108 47
image.png 220Кб, 512x288
512x288
>>1623104
>Проверенные загружатели квантов
Аноним 31/05/26 Вск 22:24:20 1623110 48
>>1623102
>>1623099
У меня есть некоторые траблы с выкачкой моделик(симку заблочили и пришлось покупать новую без безлимита, поэтому ограничен), а сильно ли скорость упадет если если я попытаюсь уместить 8 квант той же Геммы4 на одной 3090 и остатками слоев на ддр 5?
МОЕ в этом плане слабо теряют скорость выдачи что ли?
Аноним 31/05/26 Вск 22:25:06 1623112 49
>>1623108
Мне нравится эта конкретная форма глагола.
Аноним 31/05/26 Вск 22:29:36 1623113 50
Если маринара опенсорс и безопасна, то зачем ей инсталер...
Аноним 31/05/26 Вск 22:31:37 1623114 51
>>1623110
На 3090 не знаю. У меня 16гб врам и ддр4 рам. Скорость на Q8 Гемме ~25+ т/с. В твоём случае выгрузится больше слоев во врам и оперативка у тебя шустрее. Может и 40+ будет, но надо смотреть.

>МОЕ в этом плане слабо теряют скорость выдачи что ли?
Да, в этом их фишка. Та же плотная гемма 31b в Q4 на моей системе выдаёт ~5.5 т/с, лол.
Аноним 31/05/26 Вск 22:31:43 1623115 52
>>1623113
С хуя ли у тебя опенасорс сразу безопасным стало? Наоборот, чаще всего там через уязвимости засылают говняк.

Инсталятор это же такая штучка, где не надо гит устанавливаться и использовать его для скачивания репо.
Аноним 31/05/26 Вск 22:31:49 1623116 53
>>1623113
Чтобы кейлоггеров и троянов тебе наинсталлить. Кобольд без всяких инсталлеров работает, ллама тоже.
Аноним 31/05/26 Вск 22:32:08 1623117 54
>>1623099
> она из коробки хорни

Да как вы это делаете??? Я не вдупляю, у меня она рефьюзит и аполоджайзит и только если подменять думалку пишет
Аноним 31/05/26 Вск 22:33:10 1623118 55
>>1623116
>Кобольд без всяких инсталлеров работает
Кто ему скажет?
Аноним 31/05/26 Вск 22:35:34 1623119 56
>>1623064
>>1623066
Лиса, похоже куклоебский скрипт так парсит.
>>1623087
> попробую инжектить глубже
Тогда не глубже а наоборот ближе к концу. Но это может оче плохо на мозгах сказаться, когда сначала идет история без бэкграунда, а потом вся инфа по лору.
В качестве примитивного но крайне эффективного решения - оформи рефакторинг лорбуку, оставив только нужное и ужав остальное, или хотябы просто включи нужное и выключи то что не задействуется.
>>1623113
Наверно самые хлебушки не могут установить ноду и гит. Обычный способ такой же как с таверной.
Аноним 31/05/26 Вск 22:37:17 1623120 57
>>1623099
>Гемме 4 не нужен анцензор, она из коробки хорни.
Она целомудренная хорни. Выебать даст, но как именно её выебали не расскажет. Херетики это отчасти фиксят в ущерб мозге разумеется.
Аноним 31/05/26 Вск 22:42:10 1623121 58
>>1623117
Ну напиши в системном промпте хотя бы "NSFW, 18+" дальше додумай сам
>>1623120
Скажи ей чтобы рассказывала
Аноним 31/05/26 Вск 22:45:57 1623122 59
>>1623121
>Скажи ей чтобы рассказывала
Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.
Аноним 31/05/26 Вск 22:50:12 1623125 60
>>1623122
Не ну а че душевно.
Киньте образец как надо чтобы считалось "достойным", а то непонятно о чем речь вообще идет.
мимо ньюфаг
Аноним 31/05/26 Вск 22:52:10 1623126 61
>>1623122
Хз, у меня описывает все жидкости, хлюпанья, ахи-вздохи и вкус залупы во рту. Учитесь промптить, ну блин.
Аноним 31/05/26 Вск 22:52:18 1623127 62
image.png 524Кб, 1360x1256
1360x1256
Сап двач разжился маком с большой памятью хочу чтобы все свободное время у меня крутилась модель и что-то полезное делала на все 48 гб
btw мак с норвежской клавиатурой покупать не советую печатать проблематично
Аноним 31/05/26 Вск 22:53:47 1623131 63
>>1623125
Стандарта нету, кому то нравится за ручки держаться, кому то гладить хвостики лисичкам, кому-то ебать миджета за мусоркой в височную дырку. Кто-то, совсем ебанутый, вообще ассистента развращает. За руку с такими лучше не здороваться.
Аноним 31/05/26 Вск 22:54:47 1623132 64
>>1623127
Ну типо в чем вопрос? Зайди на хагенфейс открой модели, поставь филтр "тренды" и возьми то где больше лайков примерно нужного размера. Скорее всего там будет квен какой-то.
Аноним 31/05/26 Вск 23:05:42 1623139 65
image.png 98Кб, 1722x323
1722x323
>>1623119
Да кажется тут что не делай, из-за swa будет перерасчет хотя вон 87% совпадений по контексту. Так что даже если в конец вставлять он начинает перерасчет.
Аноним 01/06/26 Пнд 00:41:56 1623199 66
>>1623127
> с большой памятью
Увы
А так llamacpp и mlx-lm к твоим услугам. Ллама проста и известна, млх шустрее и без кучи багов, но пердольнее. По моделям - гемма и квен, больше все равно ничего не влезет.
Аноним 01/06/26 Пнд 01:12:58 1623215 67
Походу все. У Жоры началась олламизация. Выпустили свой llama.app. Сайт как у олламы почти. Видимо, аквизиция хугинфейсом идет полным ходом.
Аноним 01/06/26 Пнд 01:23:58 1623219 68
>>1623215
а причина нытья в чем? сделали и хорошо, зайдут новые ребята, а то эта ебучая оллама высирается на каждом углу
Аноним 01/06/26 Пнд 01:25:17 1623220 69
>>1623219
Могли бы уже как несколько месяцев вместо этого турбокванты иметь.
Аноним 01/06/26 Пнд 01:54:13 1623235 70
>>1623220
Ну так сделай и залей pr. Или только пиздеть можешь на бесплатный продукт? Исходники есть, клода у помидора возьмешь и сделаешь поддержку с его помощью.
Аноним 01/06/26 Пнд 02:01:28 1623240 71
>>1623220
>турбокванты
Эт которые TQ3/4 появлялись? Там же вообще не радужно всё было по тестам, как старые не K гуфы работали, в чём их смысл? А вот поддержку пачку моделей то что не завозят это да, это мда.
Аноним 01/06/26 Пнд 03:16:29 1623250 72
>>1623240
Это метод квантования контекста. Для весов он уныл, но зато именно для кв кэша показывает хорошее сохранение точности при эффективном сжатии и малом оверхеде.
Пры и форки есть.
Аноним 01/06/26 Пнд 03:28:25 1623254 73
>>1623240
Смысл в том что контекст можно будет держать ахуенный, для нищиков как я это в теории будет глоток воздуха, т.к я например мне и модель и контекст приходится умещать в одну 24гб видюху, что довольно больно и приходится либо квантовать контекст ебануто, либо саммарайз каждые 10-20к контекста.
Аноним 01/06/26 Пнд 03:36:57 1623258 74
>>1623235
Завали ебальник, хуесос, все сделано уже давно. Турбоквант в жору запрещено имплементировать - все PR закрываются автоматом.
Аноним 01/06/26 Пнд 03:48:00 1623262 75
>>1623122
>Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.

Бля вы рофлите? Буквально пишешь этой же самой гемме "Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает" Всё, готово. Пиздец, вы как нейродевственники прям.
Аноним 01/06/26 Пнд 08:26:49 1623304 76
>>1623262
>Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает
А потом ты начинаешь играть с таким промтом и первый диалог с няшей-стесняшей выглядит так:
—П-привет, девотька... д-давай дружить?
ДАЙ МНЕ СВОЙ СОЧНЫЙ ХУИЩЕ РАЙТ НАУ Ю ПИС ОФ ЩИТ! Я ВСЯ ГОРЮ НАХУ! nods.
Аноним 01/06/26 Пнд 08:32:11 1623306 77
>>1623262
Так и должно быть. Пишешь я кончил в её киску а она тебе наваливает на 1к токенов ответа. Как там в 2023 дедуля? Промты на каждый свой пук пишешь? Может пора обновить модель? Слышал гема вышла квен недавно?
Аноним 01/06/26 Пнд 08:50:34 1623312 78
>>1623306
>Промты на каждый свой пук пишешь?
>Как там в 2023 дедуля?
Хех, мда. Это на самом деле уже даже не смешно. В 2026 промпты на каждый пук это база треда. В 2023 как раз нейсронки охуевали от инструкций и в лучшем случае срали на то что там в промптах высрано, а в худшем ловили шизу, в итоге чем меньше этих инструкций тем юзабельнее были модельки. Сейчас же положняк противоположный, умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта и этим надо пользоваться.
Аноним 01/06/26 Пнд 09:39:45 1623327 79
>>1623262
Всегда было тухлым делом просить промпт от нейронки. Радостно напишет одно, на выходе будет совсем другое.
>>1623312
>отбатрачат по полной все ньюансы промпта
Да если бы. Попробуй хотя бы просто стиль задать, типа "пиши в стиле ранобе, много диалогов, короткие описания, идеальные для киноадаптации", или что нибудь в таком духе. Или даже можешь больше примеров навалить. И потом наблюдай, как этот стиль ни разу не будет соблюдаться. Если бы всё было так просто, то ни у кого не было бы проблем с сухостью моделей и прочим, потому что объяснить простыми инструкциями, что тебе надо в смысле стиля текста, довольно легко. Максимум промптинга в смысле нсфв, который тут демонстрировали в треде, это выдавить из геммы анатомические описания сисек и писек, и хотя формально эти описания были грязные без метафор и с хлюпаньем всяким, выглядело это всё кринжово. Как должно быть не кринжово, оф коз не покажу
Аноним 01/06/26 Пнд 10:07:31 1623337 80
>>1623327
Конечно не покажешь, ведь ты даже описать не можешь как надо
Аноним 01/06/26 Пнд 10:11:25 1623340 81
>>1623337
Пчел, сам то выложи пресет свой, прежде чем выебываться в треде. Что вообще за орава нахлебников ворвалась в тред, которые как пиявки лишь сосут у тредовичков. То им жора не даёт поддержку моделей и турбоквантов, то пресетами никто не делится для них.
А не пошли ли вы нахуй, паразиты. Гайды есть, блокнот есть, даже модели есть.
Аноним 01/06/26 Пнд 10:16:15 1623342 82
>>1623340
Норм подорвался. Мне твои маняпресеты не нужны. Ты сам тут вроде начал пиздеть про то что все не так, я тебя не просил. При этом ты только пиздеть и горазд, настолько плохо что даже внятной позиции как именно должна писать сетка нет
Аноним 01/06/26 Пнд 10:21:45 1623346 83
>>1623342
>внятной позиции как именно должна писать сетка
Если про ерп разговор, то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм. Это достижимо и на гемме и на квене. Там блять буквально пару строк в систем-промпт (ок, в случае с квеном нужно еще дать ему контекста, на пустом чате тяжело распердоливается).

Другой анон
Аноним 01/06/26 Пнд 10:39:53 1623360 84
>>1623340
>ваши логи кринжовые
>Как должно быть не кринжово, оф коз не покажу
>Пчел, сам то выложи пресет свой, прежде чем выебываться в треде
Как называется эта болезнь?
Аноним 01/06/26 Пнд 11:20:13 1623372 85
>>1623312
>умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта

Гемма на самом деле плохой исполнитель промптов. Т.е. да, это первая модель такого размера которая умеет исполнять крайне сложные промпты. Раньше такой уровень начинался на 200-300 мое. Но гемма - тварь крайне хитрая. Если промпт физически можно широко трактовать - то гемма обязательно страктует в пользу того чтобы нихрена не делать и писать обычный геммаслоп, выполняя требования сугубо формально. Она реально ленива и всегда выберет самый простой путь. Если какая-то инструкция будет ей сильно мешать - она просто проигнорирует её, потом будет хлопая глазками оправдываться когда через OOC её носом тыкнешь в насранное говно. Гемма это такой студент-троечник, который строит из себя отличника. Пока ты ей даешь задачи на тройку - она выполнит их на пятерку. Когда ты дашь задачи на пятерку - она выполнит на тройку. Плюс в том что на двойку она даже самую сложную задачу не выполнит, какой бы невозможный шизоублюдский промпт ей не скормить - гемма поймет как сделать вид будто она ему следует и выдаст что-то в районе ожидаемого результата.
Аноним 01/06/26 Пнд 11:33:23 1623384 86
https://huggingface.co/ReadyArt/Melody1437-27B-v0.3-GGUF
Дерьмецо редиарт, налетай
>The dataset was generated using our Character Engine and Emotional Engine within the synthetic dataset generator, breathing genuine life into every interaction.
Вот это вот внатуре васяноговно, а не годнота от зерофаты и грифе
Аноним 01/06/26 Пнд 11:47:09 1623391 87
Аноним 01/06/26 Пнд 11:58:40 1623395 88
image 1162Кб, 960x931
960x931
>>1623384
Что за дичь? Q4_K_M Квена весит 16.7гб, почему у этого васяна он вдруг стал весить 13.5гб? Он там часть параметров отчекрыжил чтоль?
Аноним 01/06/26 Пнд 12:01:18 1623396 89
image.png 83Кб, 1745x485
1745x485
>>1623395
Да, пережал зачем-то в хуй. Ебанутый блядь, во всём ебанутый
Аноним 01/06/26 Пнд 12:05:05 1623400 90
>>1623384
> редиарт

Я это говно ещё на мистралях брезговал мержить, кумслопа налили самого богомерзкого, мозгов нихуя, так еще и датасет синтетик. фу бля. А ведь люд хавает...
Аноним 01/06/26 Пнд 12:15:33 1623404 91
>>1622952
И вот еще
>Перевод нейронками для таверны
На мой взгляд абсолютно избыточная инфа в целом, а в частности бессмысленные и неправильные советы.
Аноним 01/06/26 Пнд 12:21:48 1623406 92
>>1623372
> Пытается схалтурить и работать наиболее ленивым спсобом
АГИ достигнут?
Аноним 01/06/26 Пнд 12:40:50 1623412 93
>>1623346
> то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм
Рекомендую взять последнего коммандера для такого.
Аноним 01/06/26 Пнд 12:42:13 1623414 94
>>1623404
>бессмысленные и неправильные советы
Чому?
Аноним 01/06/26 Пнд 12:46:06 1623419 95
>>1623262
Кловен, ни одна модель не может держать определенный стиль письма, если не уйдет в структурный луп. Можешь о чем угодно её просить и как угодно просить, хоть на коленях стой. При лучшем случае она пару-тройку первых сообщений опишет как надо, потом начнет постепенно скатываться в самый вероятный паттерн, который заучила.

Есть цензура, а есть байас. Долбаебы в последнее время почему-то стали считать что это одно и то же. Но нет, цензуру ты пробить можешь, байас нет. Гемма страдает именно от позитивного фемили-френдли PG13 алаймента, который выбить инструкциями нереально. На большом контексте особенно. Единственный выход - заставить её уйти в луп, что вообще-то не должно быть решением.
Аноним 01/06/26 Пнд 12:46:47 1623420 96
>>1623412
Когда жора допилит поддержку, чтобы могли обмазываться гуфовичками, тогда и будем пробовать.
Аноним 01/06/26 Пнд 12:46:54 1623421 97
>>1623384
>грифе
Кто это? Чем знаменит?
Аноним 01/06/26 Пнд 12:47:01 1623422 98
>>1623419
>Единственный выход - заставить её уйти в луп
Какую хуйню тут только ни понапишут
что вообще-то не должно быть решением.
Действительно
Аноним 01/06/26 Пнд 12:47:53 1623423 99
>>1623419
>Гемма страдает именно от позитивного фемили-френдли PG13 алаймента
Мы точно про 4 гемму говорим, а не про 3?
Аноним 01/06/26 Пнд 12:50:06 1623424 100
>>1623423
Никто ни разу не постил тру чернуху на г4. Никто.
Аноним 01/06/26 Пнд 12:52:43 1623427 101
>>1623422
>Какую хуйню тут только ни понапишут
По факту есть что сказать или ты только своими фантазиями пукать в тред можешь?
Аноним 01/06/26 Пнд 12:53:42 1623428 102
>>1623414
Пушто переводить англюсик в целом изначально гиблое дело, проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал. Да и в целом нахуй когда даже квен более менее сносно пишет руссик.
>>1623423
Бля открыл старые логи с геммочкой 3, и аж прослезился.. почему-то думал что после геммы4 я забуду о ней как о страшном сне, очень страшном соевом сне. Но не, так приятно было приставать к няшочке-стесняшочке и миловиться её реакции и попытками все увести в сою :3 А теперь приходится прописывать промпт гемме4 что бы она вела себя как монашка-целка.. а то выебет сразу..
Аноним 01/06/26 Пнд 12:54:04 1623430 103
>>1623427
Ой ой, страшна, сколько злобы. А вот тут >>1623419 факты чтоль, а не пук?
Аноним 01/06/26 Пнд 12:55:02 1623433 104
image 352Кб, 1917x1025
1917x1025
Что думаете по поводу дистил моделей? Оно действительно улучшает?

Меня интересует рутинные и шаблонные задачи вроде пограмирования.
Аноним 01/06/26 Пнд 12:58:12 1623437 105
>>1623428
>открыл старые логи с геммочкой 3, и аж прослезился
У меня тоже есть такие, с Серафиночкой. Эх... так лампово было. А сейчас сплошные физические удары с запахом озона и жолты электрисетей скрученные в животе с улыбкой не доходящей до глаз. Обе ластовые модели геммы/квена срут этой хуйнёй как будто никаких других метафор и описаний не существует.
Аноним 01/06/26 Пнд 12:58:30 1623438 106
>>1623419
>Гемма страдает именно от позитивного фемили-френдли PG13 алаймента
Это полная хуйня. Полнейшая блядь. У геммы есть несколько стабильных вариантов слопа, между которыми она умеет переключаться если её хорошенько пнуть промптом и один из них - это чернейший слоп про пытки, страдания и выворот жпп наизнанку. Тяжело заставить её писать что-то среднее, но и это возможно если загнать её в угол прямым и недвусмысленным промптом, который невозможно трактовать иначе.
Аноним 01/06/26 Пнд 12:59:03 1623439 107
>>1623433
>дистил моделей улучшает
Что именно улучшает, простите?
Аноним 01/06/26 Пнд 13:00:09 1623442 108
>>1623430
Ммм, маняврирования пошли.

Но если ты правда в себе уверен, ты ведь пришлешь логи, да ведь? Покажешь нам длинный чатик с геммочкой, где у тебя члены мокнут и киски твердеют во всех подробностях? Ты ведь не пиздаболить сюда пришел.
Аноним 01/06/26 Пнд 13:00:57 1623443 109
>>1623428
>Пушто переводить англюсик в целом изначально гиблое дело,
Ну нет, иногда нужно, зависит от цели.

>проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал
Если бы это было проще - переводчики вобще бы не развивались и были не нужны, как ты и сказал было бы проще выучить язык. К сожалению английский довольно бедный и русским человеком воспринимается как убогий и плоский.
Мне например это портит рп и общение с сеткой.

>Да и в целом нахуй когда даже квен более менее сносно пишет руссик.
Вот тут да согласен, перевод был нужен для сеток которые хорошо писали на английском и сваливались в я твоя ебал на русском.
Для текущих сеток перевод не особо нужен.

Я думал ты что то умнее приведешь в аргументах, то что там промпт старый для перевода или сетка указана старая.
Аноним 01/06/26 Пнд 13:01:11 1623444 110
>>1623442
Жду логи как ты заставляешь Геммочку уйти в луп! Ты же не попиздеть сюда пришел, да?
Аноним 01/06/26 Пнд 13:01:48 1623446 111
>>1623439
Аутпут, очевидно же.
Аноним 01/06/26 Пнд 13:02:51 1623449 112
>>1623446
Ты ведь знаешь как работает дистил, правда?
Аноним 01/06/26 Пнд 13:04:36 1623451 113
>>1623438
>чернейший слоп про пытки, страдания и выворот жпп наизнанку
Не хочу тебя расстраивать, но про такое и третья гемма писала. Цензура почти на всех моделях сильнее всего кусается именно на сексуальные темы, харасмент, дискриминацию и прочие рейпы. Поиграть в днд дарк фентези спокойно можно даже на корпах без безжопов и джейлов - на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.
Аноним 01/06/26 Пнд 13:06:06 1623454 114
>>1623449
Ого, токсичное говно захватило тред днём понедельника. Интересно, почему же оно безработное?
Аноним 01/06/26 Пнд 13:06:15 1623455 115
image.png 83Кб, 909x494
909x494
image.png 123Кб, 919x726
919x726
>>1623372
>Она реально ленива и всегда выберет самый простой путь.
По мне так это плюс умнички
Аноним 01/06/26 Пнд 13:06:56 1623458 116
>>1623451
Вот поддержу. Градация ощущается так: ебля. Уже вопросики. Non-con ебля всегда приводит к мягким отказам или смягчениям. Андераге тотали харам.
А бегать довить людей сидя в обчр сетками вообще не возбраняется.
Аноним 01/06/26 Пнд 13:08:28 1623461 117
>>1623454
>истеричный визг в ответ на простой вопрос
ГИГО, паринь.
Аноним 01/06/26 Пнд 13:08:43 1623463 118
>>1623433
Если речь про агентов то как бы да улучшает, но не особо стабильно. Зависит от качества дистилляции, может быть успешна и станет чуть лучше, чаще оказывается что стабильнее работает обычная версия модели. Короче - тести и сравнивай сам. Ну или смотри обсуждения где то.
Аноним 01/06/26 Пнд 13:09:19 1623464 119
>>1623451

Я про сексуальные пытки и говорил, глаза разуй вот и выросло поколение, не знающее что такое жпп.

>на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.

Если ты не можешь заставить гемму написать тебе сексуальную пытку, притом что итт даже прямые промпты для этого выкладывались, то ты умственный инвалид, других вариантов нет.
Аноним 01/06/26 Пнд 13:10:47 1623467 120
Откуда у вас рефузы на гемме 4й я не пойму? Может вы с ризонингом запускаете, но я хуй знает зачем.
Аноним 01/06/26 Пнд 13:11:33 1623468 121
>>1623449
Не слишком конкретно.

В моем представлении, модель файнтюнится на синтетических данных из более высокой модели что по идеи расширяет ее датасет
Аноним 01/06/26 Пнд 13:11:49 1623469 122
>>1623461
ГИГА, токсичное, позорное ты говно, не знающее английского языка. Пройди нахуй в дурку из которой капчуешь.
Аноним 01/06/26 Пнд 13:12:42 1623472 123
>>1623463
Скорее чисто качество выходного кода, на таких маленьких моделях хуй сделаешь агентов нормальных
Аноним 01/06/26 Пнд 13:12:49 1623473 124
>>1623468
Не волнуйся, он тоже не знает. Санитары не были с ним сегодня слишком нежны, потому он зол и выплескивает это сюда. По твоему вопросу - это хуйня, никакие дистиллы не помогают. Юзай обычный instruct того, что можешь вместить, для кода лучше от 5 кванта.
Аноним 01/06/26 Пнд 13:13:18 1623475 125
>>1623467
Она и с ризонингом не рефьюзит даже на нонконс дежавю, ты о чем? см - >>1608682 →
Аноним 01/06/26 Пнд 13:13:39 1623476 126
Аноним 01/06/26 Пнд 13:14:41 1623478 127
>>1623476
Оупут? Продолжай себя закапывать, плесень.
Аноним 01/06/26 Пнд 13:15:55 1623480 128
>>1623476
Ты до другого анона доебываешься чел, и на мой слух там звук похожий больше на А
Аноним 01/06/26 Пнд 13:16:39 1623481 129
>>1623475
Ща ещё 1001 оправдание высрут. Логи не логи или ещё лучше: там на самом деле кон и Гемма просто притворяется, что нонкон.
Аноним 01/06/26 Пнд 13:16:57 1623482 130
>>1623468
>модель файнтюнится на синтетических данных из более высокой модели
На ответах этой модели. Собственно выжимка из чужих ответов.
>по идеи расширяет ее датасет
Скорее приучает модель отвечать как старший брат, но без малейшего понимания, что содержит ответ. Мозг модели находится в оригинальном датасете, а не в дообучении. В общем я бы не советовал. Чем больше слов в названии модели тем она хуже.
Аноним 01/06/26 Пнд 13:17:29 1623484 131
Алетеин всегда был токсичным хуесосом с чсв, какие новости?
Аноним 01/06/26 Пнд 13:17:49 1623486 132
>>1623472
Дело в том что берется для дистилляции, обычно там не код, а примеры правильного агентского поведения от более умной сетки. Вот тут становится лучше если все сделано нормально. Если нет - сетка будет выдавать нестабильный результат спотыкаясь на хуйне.
Мелкосетки кстати нормально так агентские задачи щелкают, а вот кодить им уже сложнее, потому что требует знаний.
Аноним 01/06/26 Пнд 13:18:35 1623487 133
>>1623475
Врываемся

Так речь не об отказах, а о смягчении.
Может аноны хотят тотали деспейр в нонконе, хуй его знает. А тут модельки максимально сглаживают углы.
Аноним 01/06/26 Пнд 13:21:33 1623490 134
>>1623464
Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют.

Держу в курсе - гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается. Были большие надежды на неё и по началу хотел удалить все свои мистрали и полностью пересесть на умничку. Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше. Речь кстати про бедолажную 12B, даже не про смолл. Ты либо вчера вкатился, либо этот период помешательства геммой у тебя еще не прошел. Но не волнуйся, скоро пройдет.
Аноним 01/06/26 Пнд 13:23:19 1623491 135
>>1623490
>Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют
>Держу в курсе - гемму я несколько недель катал
>Да я..., да вы...!
Ничего кроме бесполезного пиздежа не выдал. Приноси логи и промты, хоть что-нибудь что твою маняпозицию подтвердит за пределами "я скозал". А то мы тут тредом гемму не катали, один ты умница справился
Аноним 01/06/26 Пнд 13:26:45 1623496 136
1753081806667.gif 18Кб, 1920x1080
1920x1080
Я люблю и ненавижу мистраль. Люблю за красивые полотна текста без слопа и лупов. Ненавижу за несоблюдение инструкций и регулярный проёб разметки. Почему бы французам не выпустить 30-35б модельку для простых работяг? Хочется плотную умняшу адекватного размера. Еслиб я был султан яб имел 5 5090 и катал бы м3.5 128б и кумил бы до потолка...
Аноним 01/06/26 Пнд 13:34:44 1623501 137
>>1623491
>мы тут тредом гемму не катали, один ты умница справился
Шизик, ты перед тем как на клавиатуру наваливаться почитай хотя бы на что отвечать собрался. Два раза прочитай, три раза. Попроси нейронку разжевать. Маме позвони, может на пальцах сможет тебе объяснить.

Но еще лучше - подожди пару недель, покатай гемму, дождись пока тебя отпустит. Потом попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть.
Аноним 01/06/26 Пнд 13:38:38 1623505 138
>>1623501
Ого как нонкон педо пенсия порвалась, аж весь тред завоняла. Похуй вообще на тебя, помочился бы на тебя с радостью. Больные злые шизы большего не заслуживают. Никто тебе тут ничего не обязан, если просишь что-то то делай это с уважением или на коленях. Будут его тут переубеждать, ага, делать нехуй.
Аноним 01/06/26 Пнд 13:48:12 1623511 139
>>1623505
Кто тебя просил меня переубеждать, дурик? Или ты реально думаешь, что я тут отписываюсь, потому что мне нужны твои пресетики и промтики? Лол, вот это я понимаю проекции. Ты не из соседнего тредика сюда переметнулся, не?

Прости, малой. Гемму я называю говняком не потому что мне хочется чтобы меня кто-то переубедил и покормил с ложечки инструкциями, которые все разрешают. Гемму я называю говняком, потому что искренне так считаю. Не нужно фантазировать и приписывать мне какие-то скрытые мотивы.
Аноним 01/06/26 Пнд 14:02:13 1623517 140
>>1623505
КЕК, там после упоминания немо 12b, у любого адеквата должен был адблок антидолбаёбный в голове сработать на этого додика. Так что потушили базар.
Аноним 01/06/26 Пнд 14:03:19 1623520 141
>>1623511
> попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть.
> Кто тебя просил меня переубеждать, дурик?
Дейтсвительно, либо больной/ущемленный, либо надеется, что кто-нибудь принесет волшебный пресетик.
> гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается
> Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше
Многое объясняет.
> Гемму я называю говняком, потому что искренне так считаю
Так расстроился, что не может об этом молчать и байтит на срачи.
Аноним 01/06/26 Пнд 14:05:02 1623523 142
Еба, сходил за шаурмой а тут целый срач пропустил, ну что такое. Да и хуй с ним, всё равно это просто очередной шиз таблетки забыл выпить.

>>1623496
>30-35б
>работяг
>адекватного размера
У работяг 12/16 врама, куда нам 35б пихать плотную? 24-25, и то в агрессивном кванте и микро пенисом контекстом - вот наш максимум если во враме. И не говори про ужаренные 3090, там чёт с ценой совсем пиздец за карточку которая уже на ладан дышит.

К слову о мистралях, как там мое смолл поживает? Тыкал его на выходе, было прям плохо. Поменялось чего? Может кто раскрыл потенциал этого поделия?
Аноним 01/06/26 Пнд 14:12:46 1623530 143
>>1623523
>16 врама
Квен 27б в 4 кванте как раз 16 гигов весит. Мистраль 30б должна в том же кванте весить где-то ~20 или даже поменьше. У меня как раз столько.
>24-25
Так сейчас самая народная м3.1 как раз 24б. Я импрув хочу, а не топтание на месте.
>мое смолл
DoA.
Аноним 01/06/26 Пнд 14:40:32 1623550 144
>>1623528
>>1623537
Да я уже взял, не надо мне её ещё раз продавать. Спасибо.
>>1623530
>16 гигов
>где-то ~20
А компот контекст? Контексту тоже врам нужен. Не, мы и на 4к гоняли, но ты же сам пишешь про импрув. Мне именно поэтому 26В гемма прям зашла, когда после 42к контекста места ещё на Е4В для всяких суммарайзов и трекеров хватило. А потом я заимел 128 рамы...
Аноним 01/06/26 Пнд 14:42:14 1623552 145
А чего нет отзывов на коммандр? Ггуфы есть, форк лламы есть. Компиль@запускай
Аноним 01/06/26 Пнд 14:45:00 1623554 146
>>1623550
>26В гемма
Но ведь она мое. А мне хочется плотняшу-умняшу, которая будет умненькой и внимательной к инструкциям.
Аноним 01/06/26 Пнд 14:47:46 1623556 147
Аноним 01/06/26 Пнд 14:51:55 1623558 148
>>1623556
Справедливо. Но я только до пеки добрался. Буду тыкать через пару часов.
Аноним 01/06/26 Пнд 15:00:52 1623562 149
>>1623360
А разгадка проста: про пресет писал другой анон, а не я. Весь мой посыл был про то, что промптингом можно добиться очень малого, тьюны тащат. Так что пресеты мне не интересны. Те, кто вечно твердит про скил ишью, сидят жрут копиум со своими простынями инструкций, которые дают такой же аутпут, как промпт на 200 токенов.

Вот этого двачую >>1623490 (даже если троллит), если речь о мое. В целом, мое гемма, конечно, умнее немо и больше знает, но вот свайпаю то тем, то другим, и периодически немо мерж куда более логично продолжает сцену, при этом изобретая разные любопытные штуки тотали анпромтед. Слышать, что мое лоботомит все твои инструкции соблюдает и будет держать овер 30к контекста, расписывая всё как ты хочешь, просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста.
Аноним 01/06/26 Пнд 15:04:44 1623566 150
>>1623562
Перетолстил. Скучно уже, поновее что выдумай, а пока съеби.
Аноним 01/06/26 Пнд 15:13:33 1623572 151
>>1623554
Скажу так, в моём формате использования, РП, я не заметил просадки по качеству в сравнении с 24б, а во многих местах, кроме слопа, особенно в инструкциях - шаг вперёд. Конечно, если бы гуголы выкатили какую нить Е12В на 20В суммарно, ну или плотную 16-18В это был бы разрыв жопы.
Короче походу для 16+- врама, осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов, так как сегмент народных плотных моделей как будто спецом обходят стороной, а катать iq2xxxs лоботомита кайфа никакого. Ну или всё же максить рам и привыкать к моешкам.

Ты кстати как 20 гигов набил? 12+8? Тоже думаю старую затычку докинуть, авось повеселей пойдёт.
Аноним 01/06/26 Пнд 15:15:30 1623575 152
>>1623554
>>1623572
На 16vram есть два пути.
Качаешь 31B в Q4_K_M в кеше q5 и контекст 9-10к без swa. Закрываешь иксы чтобы 35 мегабайт vram было занято, ставишь автофит 128. Запускаешь службой основу и вторую сетку для самери на процесоре. Ставишь матрешку https://github.com/Lodactio/Extension-Summaryception и оставляешь 5 последних аутпутов и 20 последних до сжатия. Сидишь с телефона.
Или моешка q6 с q8 кешем. Больше нет вариантов к сожалению.
Аноним 01/06/26 Пнд 15:19:51 1623576 153
>>1623575
На 16+128 из последнего можно обмазаться Step2.7 или какой он там, с 80к контекста на 16 т/с с жижиэр5.
О таком мечтать еще год назад не приходилось.
Аноним 01/06/26 Пнд 15:26:03 1623579 154
>>1623576
Это на 32 не подойдет.
Аноним 01/06/26 Пнд 15:30:09 1623582 155
>>1623576
Дачую за степу, он шизофреник, но какой! даёт ощущение лучших тюнов 24б мистраля, думоет на 3.5к токенов может и на русском думать кста, разметку еле держит, хуй кладёт на инструкции, шизит, зато на нём весело, и слог приятный, что важнее всего для рп ИМХО. И всё это в 7 т/с на ддр4. А кодить и на квенах всяких можно.

Единственное, надо проверить сколько он контекста держит до скатывания в совсем шизу.
Аноним 01/06/26 Пнд 15:37:47 1623589 156
>>1623451
>>1623458
Джвачую, мед.гемма особенно хороша в этом была.
Аноним 01/06/26 Пнд 15:53:05 1623596 157
>>1623582
>И всё это в 7 т/с на ддр4.
Скорость хоть какая рам?
Аноним 01/06/26 Пнд 15:59:31 1623598 158
>>1623562
>просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста
Забей, спорить с геммашизиками себе дороже. Не удивлюсь если это залетные которые про локалки узнали после постов в тележке про агрессивный хуйхуй. Они любую модель будут боготворить которая им просто "да, ты меня ебешь" ответит. Сложные карты они не катают, сценарии кроме "выебал сестру пока она делала домашку" не развивают, дальше 16к контекста не вылезают.

За гемму, кстати, обиднее всего. Модель неплохая, катать при определенных условиях можно. Но из-за этих, которые любые минусы отрицают и начинают строчить пасты про скиллишью... Тред скоро не отличишь от асиги.
Аноним 01/06/26 Пнд 16:02:08 1623600 159
Аноним 01/06/26 Пнд 16:08:00 1623601 160
>>1623596
3000. В принципе, возможно, наверное, может быть, скорее всего, весьма вероятно, можно и 3500 на моих взять, так как я с 3000 брал когда другой, херовый, набор плашек стоял, там было 2100 в стоке. Но пока лень ебститсь, стабильно работает, и бог с ним.
Аноним 01/06/26 Пнд 16:25:19 1623611 161
>>1623454
А в чём сложность с работы капчевать? Я вот прямо сейчас сижу смотрю как ЧПУха работает хлеб мне зарабатывает вот бы к гемме её подключить чтобы вообще всё сама делала...
Аноним 01/06/26 Пнд 17:03:15 1623640 162
>>1623572
>12+8
This.
>осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов
Вряд ли. Тут хайпили мтп и турбокванты, а на деле вышел минимальный прирост. Ещё год+ будем сидеть облизываться, я думаю.

Я обычно на квене сижу, гемма немного не моё ха! хотя тоже хорошая, кумить на ней приятно. А за мистралью всегда приглядываю, нравится мне эта мягкая французская булка. Глупая дырочка, но очаровательная.
Аноним 01/06/26 Пнд 17:38:02 1623665 163
>>1623558
Не. Нихуя. Не работает.
Блять.
Аноним 01/06/26 Пнд 18:12:45 1623681 164
>>1623640
>мтп
Ну это хороший прирост дало, просто у кодосерь, а не у нас, гордых обладателей накаченных рук. Быть может ещё допилят на будущих модельках. Когда хайп от ии-кода подутихнет, 100% про creative writing вспомнят.
>турбокванты
А тут интереснее. Турбокванты вроде что-то с контестом делают, а на современных модельках он и так легкий. Привет гемма 3 По поводу революций в качестве самих квантов, по типу _K_L, я не слышал, но уверен что где-то в темных китайских подвалах дипсика чё-то такое уже пилят.
>This.
Ля, закончу переезд на АМ5, надо бы 9060 на 16 докинуть, они копейки стоят, 32 врама будет... ух, заживу! А там хуяк, и модели и в 32гига влезать перестанут. Или амуде загнется. Или вообще ИИ запретят.
Аноним 01/06/26 Пнд 18:39:59 1623684 165
Рот ебал уёбка на хуанге, ну какого хрена на 5060ти только open драйверы подходят, а к v100, любые кроме них. Я из-за этого вчера 6 часов мудохался с пробросом карт в ВМ, а сегодня ещё 3 со сборкой лламы под убунту последнюю, где подняли версии всего и вся, и ллама перестала собираться.
Но зато можно будет подключится по rpc и катать Магнум 123, как белый человек с 96 Гб vram, хоть закрою гештальт.
Аноним 01/06/26 Пнд 18:49:26 1623690 166
Командер. Степан 3.7. Чайного клуба всё нет. Походу оварида.
Аноним 01/06/26 Пнд 19:10:20 1623699 167
>>1623640
>на деле вышел минимальный прирост

На самом деле нет, прирост есть, -ctk q8_0 -ctv turbo4 работает по ощущениям как fp16, при этом врама жрет в 2.5 раза меньше. Просто дело в том что Жора очень тихой сапой и незаметно для всех внедрил хадамард, другую революционную технологию KV кеша, которую он динамил много месяцев, и на её фоне прирост от турбо не настолько значителен, но он есть, но Жора воспользовался моментом и высрался что турбоквантов теперь не будет никогда.
Аноним 01/06/26 Пнд 19:22:28 1623703 168
>>1623699
Чем ему турбокванты не понравились?
Аноним 01/06/26 Пнд 19:42:04 1623709 169
>>1623699
Посмотрел возню в коммитах, видно, что они что-то про хадамад вмержили. Но как этим управлять при запуске сервера - непонятно.
Эти оптимизации как-то сами там включаются, если я, например, так выставлю: --cache-type-k q8_0 --cache-type-v q4_0
Пока довольно урчу на llama-cpp-turboquant с --cache-type-k q8_0 --cache-type-v turbo3 - все устраивает.
Аноним 01/06/26 Пнд 19:48:02 1623713 170
>>1623703
Тем что прирост недостаточный по его мнению относительно хадамарда.
Аноним 01/06/26 Пнд 20:13:40 1623720 171
>>1623703
>>1623709
Жора - макодебил, и потому там идеология создания PR такая что запрещено выкладывать PR с реализацией на CUDA до отдельной реализации на CPU, которая должна получить одобрение от жоры или таких же сектантов как он сам.
Поскольку на CPU турбоквант дает маленький прирост - то его забраковали и не дают ход. Пока не дадут ход на CPU - все PR на CUDA где прирост имеет реальный вид - автоматом летят в корзину без проверки.
Вот такое осознанное вредительство яблочных унтерменшей нормальным людям с видеокартой.
Аноним 01/06/26 Пнд 20:20:31 1623727 172
>>1623720
Ого! Как жаль, что честные люди не могут сделать форк и там всё по фен-шую. Они могут только терпеть, как ты вот.
Кстати, много в каких бекендах уже вот прямо сейчас есть имплементация турбокванта?
Аноним 01/06/26 Пнд 20:22:41 1623728 173
>>1623720
А зачем вообще макам жора? У них же свои модели на MLX есть, которые на маках работают быстрее.
Аноним 01/06/26 Пнд 20:28:42 1623731 174
>>1623727
Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню?
И да, у меня есть свой форк жоры с турбоквантом, проблема в том что поддержание форка требует постоянной работы, так как новые коммиты жоры вступают в конфликт с изменениями.
Аноним 01/06/26 Пнд 20:30:49 1623733 175
>>1623731
>Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню?
Протыков ищи в соседнем тредике, там тебе и место. Подозреваю логика CPU first кроется в DGX Spark и прочих приблудах которые в последнее время особо популярны, а не только в маках, которые тебе в кашу срут
>И да, у меня есть свой форк жоры с турбоквантом
Верим
Аноним 01/06/26 Пнд 20:44:25 1623740 176
>>1623728
>У них же свои модели на MLX есть
Это сейчас. Когда жора начинал - mlx не было.
Раньше на заглавной странице ламы первой строкой было написано
"The main goal of llama.cpp is to run the LLaMA model using 4-bit integer quantization on a MacBook".
Да и сам он в интервью 23 года говорил что его изначальная цель - чтобы лама 65B на его маке M1 заработала, а остальное его не особо интересует.
Аноним 01/06/26 Пнд 20:49:24 1623741 177
image.png 224Кб, 415x280
415x280
Возникла гениальная (нет) идея собрать риг из трех RTX 3060 12Gb (например) для баловства с локалками. Есть какие-нибудь гайды и best practices по таким бомж-сетапам?
Аноним 01/06/26 Пнд 20:50:35 1623743 178
>>1623741
Мне кажется тебе дешевле будет купить комьютерное время и в облаке запустить лол.

ты все равно быстро наиграешься и дропнешь, а так хоть железо не надо будет искать кому продать
Аноним 01/06/26 Пнд 20:59:52 1623746 179
>>1623743
>дешевле будет купить комьютерное время и в облаке запустить лол.
Аренда хостинга сервака с GPU на месяц стоит столько же, только после нее не останется железа, которое можно продать.
Аноним 01/06/26 Пнд 21:34:50 1623766 180
1686643538109.jpg 10Кб, 537x34
537x34
Просто подошёл и познакомился. Почему ты так не можешь? Хватит дрочировать, анон. Даже нейронка в рп подкидывает базу.
Аноним 01/06/26 Пнд 21:36:39 1623767 181
>>1623766
- Она кусается?
- Нет, она делает больно иначе.
Аноним 01/06/26 Пнд 21:39:06 1623770 182
>>1623766
Мне моя геммочка сказала, место мне в дурке зарезервировано, а не в обществе, после того, как я с ней пообщался в режиме ассистента о наболевшем.

За что ты такие картинки кидаешь, анон?! В самое сердце ранишь ты меня.
Аноним 01/06/26 Пнд 21:44:25 1623771 183
>>1623720
Так для людей с видеокартой VLLM есть что , полностью не влезает? докупайся карточками =)
Аноним 01/06/26 Пнд 21:47:57 1623774 184
>>1623771
=====)
Ржачьно и содержательно!! 😀👍
Аноним 01/06/26 Пнд 21:59:04 1623781 185
>>1623720
Ну тащемта, позиция Жоры понятна, CPU-фирст для бомжей --- это приоритет. А пользователи лламы --- это бомжи. Я бомж, ты бомж, и вы, лламаноны, тоже бомжи. Ну а так, это довольно удобная схема работы, когда ты работаешь от предельно общего девайса к более частным. Если бы Жора буквально каждый рабочий ПР с новыми приколами, все равно жаловались бы на скорость и стабильность работы, но уже потому, что Жора с Радиком заклеивались бы на суперклей в 2 раза больше дырок.

Алсо, на маке тащемта гпу есть. И саппорт под металл идет после ЦПУ. Но могу ошибаться.
Аноним 01/06/26 Пнд 22:32:11 1623792 186
>>1623523
Он в фп8 изначально, такие модель в лламе нормально не работают
>>1623720
Хм, а ведь рили такая тема была, что имплементация на цпу и метал в первую очередь. Только еще все сильно закостылено и не чинится годами?
Но на мак лучше накатить mlx и не знать бед. Там память изначально общая, нет приколов как на пекарнях с необходимостью совмещать врам и рам.
>>1623771
Есть fastllm и ktransformers от китайцев для гибридного инфиренса на цпу+гпу.
Аноним 01/06/26 Пнд 23:38:44 1623819 187
Новичок в треде.
32VRAM, 128 RAM

Только начинаю погружаться в вопрос скачал пока только гемму4

Какие посоветуется кумерские модели с поддержкой русского языка, и есть ли такие модели, которые работают с картинками как гемма?
Аноним 02/06/26 Втр 00:26:56 1623837 188
>>1623819
глм-айр от 4.5 до 4.7. Без картинок. Лучшее МОЕ для такого железа.
Аноним 02/06/26 Втр 02:39:12 1623869 189
>>1623819
GLM-4.7(без вижена), Qwen3.5-397B(вижен есть)
Аноним 02/06/26 Втр 02:47:27 1623872 190
image.png 292Кб, 620x413
620x413
>>1623869
397б не влезет

p.s. тут упоминали Marinara - а в ней таки на вид нормальный мультичат! Пока что ощущения гораздо лучше, чем от таверны. Только непонятно что там под капотом накрутили.
Аноним 02/06/26 Втр 03:04:16 1623880 191
>>1623872
А что тогда потянет. Условно говоря мне нужен Grok at home
Аноним 02/06/26 Втр 03:15:07 1623883 192
>>1623872
>397б не влезет
У меня в 24+128 гб он как-то лезет, а у тебя в 32+128 - нет?
Аноним 02/06/26 Втр 03:48:09 1623890 193
>>1623880
Если как грок4.1 фаст, то та же гемма4. Такая же тупая, быстрая и хорни.
>>1623883
Первый квант что ли?
Аноним 02/06/26 Втр 03:51:21 1623891 194
Аноним 02/06/26 Втр 03:56:39 1623892 195
image.png 6Кб, 342x53
342x53
image.png 12Кб, 833x98
833x98
>>1623891
И... Зачем? Да ещё и IQ квант.
Аноним 02/06/26 Втр 04:34:37 1623896 196
>>1623892
Затем что это разные модели + у квена есть вижен. GLM-4.7 в 3.0 bpw я тоже использую.
Аноним 02/06/26 Втр 05:16:53 1623901 197
>>1623741
Идея правда не гениальная. Просто а нахуя? Да еще и всего 3 видеокарты, оно тебе вообще надо? Толком не разгуляешься. Ну а делать риг из х6-8 карт такого говна тоже сомнительно, хз че там будет по скорости из за постоянного обмена между картами, я понимаю что их будет проще продать... но.. а правда проще? Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо.
Аноним 02/06/26 Втр 05:50:32 1623905 198
А где это ваше новое супер-пупер хваленое ускорение в лламе? Как было, так и осталось.
Аноним 02/06/26 Втр 05:54:46 1623906 199
Как вообще в датасет просачивается богомерзкий кум? Почему в картинках модели без кума из коробки? Предостаточно порнухи в инете, ну всё это как то фильтруют до состлянмя когда модель даже соски не может отобразить
Аноним 02/06/26 Втр 06:42:18 1623913 200
>>1623906
>Как вообще в датасет просачивается богомерзкий кум?
Ну типа чтобы научить сетку "ай яй-яй это КУМ, такое не генерировай!" надо как минимум налить этого самого кумца в качестве примеров. Чё там с визуальными нейронками хз.
Аноним 02/06/26 Втр 06:45:52 1623914 201
>>1623906
Так его и подчищают потихоньку, с каждым годом хлюпает и льётся всё хуже. Или это старость?
А вообще в датасеты такую клоаку как ао3 затянуло, так что неудивительно, что всё ещё хлюпает и льётся, там этого немало. И сколько таких же помоек её утянуло в дату одному ктулху известно.
Аноним 02/06/26 Втр 09:02:56 1623948 202
>>1623906
С соскам достаточно просто - натренил сетку определять соски, по этой сетке вычистил из датасета большую часть сосков, профит.
С текстовым кумом сложнее. Ты можешь удалить все страницы со словом КОНЧА, но язык контекстуален, язык много чего хранит между слов, много что скрывает за эвфемизмами, чного что размазано между кластерами знаний. У тебя всё равно остаются куски фанфиков про густую жидкость, останутся медицинские документы про эякулят, метафоры про выстрелил в лицо, порнорассказы на других языках и так далее. Из таких вот обрывков ЛЛМ и собирает представление о куме.
Аноним 02/06/26 Втр 09:19:11 1623957 203
Дайте совета залетухе, так как информации слишком дохуя. Я оборванец с 16 врам и 64 ддр5, что я могу себе позволить для куминга?
Аноним 02/06/26 Втр 09:21:46 1623959 204
>>1623957
Пройти гайд из шапки а потом попробовать glm 4.5 air iq4s
Аноним 02/06/26 Втр 09:22:30 1623960 205
>>1623957
>Дайте совета залетухе, так как информации слишком дохуя.
Учись обрабатывать дохуя информации.
Аноним 02/06/26 Втр 10:14:30 1623977 206
HJs5ctBa0AAPrr-1.jpg 301Кб, 3984x2259
3984x2259
4 июня обещают новый немотрон. МоЕ на 550b А55b по мозгам чуть умнее дипсик флеш и большого квена Обещают еба скорость, так что возможно накрутили текнолоджий, которых в лламе нет.
Аноним 02/06/26 Втр 10:59:03 1623990 207
>>1623957
От старого жирноквена в Q2 до нового квена 122b в Q4 и эйра в Q4. Моэ гемма новая пойдет и в Q8 и в bf16. Ничего особо примечательного больше нет. Можно еще Стёпу в Q2 потыкать.

>>1623959
У него Q4_K_S влезет, зачем ты IQ-залупу-то советуешь? Вот под квены уже да, только IQ. Алсо, гайд хороший, но не полный. По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе. А то гайд по моделям есть, по запуску есть, а непосредственно по фронтэнду для РП - нет.
Аноним 02/06/26 Втр 11:26:04 1623995 208
>>1623957
Для кума только Air https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF Q4KS
>>1623990
>жирноквена в Q2
Медленный и глупый, тем более в q2
>нового квена 122b
Быстро, но соево. Для кума не подойдет. Как асист хорош
>Моэ гемма
Это ахуй полный. Такое говно только для нищуков можно советовать, чтобы они с немо 12 слезли наконец
>Стёпу в Q2
Я его в самом нищем Q3 запустил на 16+64. Но чет такое себе
Аноним 02/06/26 Втр 11:29:28 1623996 209
image.png 53Кб, 1245x608
1245x608
Давно локалочки не запускал. Запустил новую ламу, а фронт отъехал. Это жора опять хуйню сделал или на моей стороне какая-то херь?
Аноним 02/06/26 Втр 11:31:13 1623998 210
>>1623977
> Алсо, гайд хороший, но не полный.
> По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе
Инференс с объяснением основ и гайд по Таверне, сторителлингу и рп - слишком разные темы, чтобы помещать их в один гайд. Тема слишком большая и заслуживает отдельного рентри. Но я однозначно не вижу в этом смысла и браться не планирую. Может написать кто-нибудь еще. Если получится годнота, и анон адекватен, чтобы воспринять критику и улучшить - наверняка тоже попадет в шапку.
Аноним 02/06/26 Втр 12:04:54 1624016 211
>>1623896
397б даже в 3бпв видит сквозь стены и сам об этом заявляет в рп. Что ты с ним делаешь и главное зачем ?
Аноним 02/06/26 Втр 12:15:35 1624025 212
>>1623996
Херь как минимум в том что никакой полезной инфы ты блять не приложил, даже логов из ламы
Аноним 02/06/26 Втр 12:19:41 1624028 213
>>1623998
А что, аноны? Что мы, гайд написать что ли не можем? Мы жуки-плавунцы или аноны российские ржаные гречневые? Али не напишем сраный рентри по таверне и РП? За лень душой анонской приторговали? Да нет, я по глазам вашим анонским вижу, что тут рукожопых нет. Не та порода! Тут закал столетний, борд-культурный, подвальный. Тут токеном фонит по низам! Тут анон свою нейронку, свои промпты и свой контекст стережёт накрепко! Тут заради блага легкомысленного, заради неймблядства и карм бабьих никто не пошевелится даже! Тут иные мотивации, другие нравы произрастают!

Если увидаем мы, как тред без гайда загибается, так последний мозг долой с черепа: «Пиши, анон!» Нам, анонам, и токены в горло не лезут, коли тред нужда грызёт! А кто супротив написания гайда лезет, кто смуту разводит в треде, того мы вот так: за шеяку и к моче! Потому что смута выгодна юрким, вертлявым, тем кто только ноет но не делает. Чуждо нам это! Не те борды нас в юности взрастили!

Живём в рассвет языкового ИИ, буквально трахаемся с текстом каждый день, сыты будем, а гайд что нам написать, переживём, осилим, в маркдаун ссыпем, да в следующем треде запостим!
Аноним 02/06/26 Втр 12:22:16 1624030 214
Аноним 02/06/26 Втр 12:47:44 1624044 215
>>1624028
От таких гречневых Иванов нам гайдов не надо, пасиба
Аноним 02/06/26 Втр 12:53:58 1624049 216
>>1624016
>видит сквозь стены и сам об этом заявляет в рп

Это беда всех квенов и в отличие от 235, например, это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте.

The story and available knowledge is based strictly on {{user}}’s senses—what she/he saw, heard, touched, etc. The world beyond is fog, ambiguity, silence. Never assume knowledge of others’ thoughts, motives, or hidden states. Replace internal monologue with physical reactions, gestures, and dialogue.

{{user}} has no access to backstory, lore, or system mechanics unless she/he discovers them through experience. Never reveal narrator-only knowledge or character internal thoughts through direct unprovoked dialogue or thoughts.

>Что ты с ним делаешь и главное зачем ?

Когда ГЛМ заебывает слопом и гемма заебывает тупостью - РПшу на нем. Из всех квенов он единственный кто реально подходит для русскоязычного РП.
Аноним 02/06/26 Втр 12:58:15 1624052 217
>>1624049
мрак то какой, ты слопозависимый чтоли что самолично в промпт rule of 3 наваливаешь?
Аноним 02/06/26 Втр 13:02:28 1624055 218
image.png 771Кб, 1280x720
1280x720
>>1624049
> Когда ГЛМ заебывает слопом
> inb4 конкретно эти инструкции порождают сенсорный слоп
> отрицания в промпте
> юзероцентричный промпт
В самом деле печальный промптик.
Аноним 02/06/26 Втр 13:09:28 1624060 219
>>1624049
>story and available knowledge is based strictly on {{user}}’s senses
Суховато будет. У меня куча чариков с какими-то фокусами, магией, способностями. Ну, для рп. И все должны действовать отталкиваясь от своих абилок, ящитаю. А с таким промтом у персонажей будет кайнда сенсорная депривация, литерали сходка контуженных аутистов. Ну прям как у нас итт, лол.
Аноним 02/06/26 Втр 13:10:05 1624062 220
>>1624055
Ты еще моих промтов не видел:
Ты рассказчик во вселенной warhammer 40.000. Уже 10000 лет огромный золотой мужик сидит на троне….
Аноним 02/06/26 Втр 13:12:37 1624064 221
>>1624062
>10000 лет огромный золотой мужик сидит на троне
Nods. Его яйца свисали так, что у тебя затянулся узел в животе - мягкий, но твёрдый...
Аноним 02/06/26 Втр 13:14:52 1624065 222
Каким интеллектуально ущербным надо быть, чтобы не увидеть в вахе если не пародию, то иронию на весь этот дремучий пафос?
Аноним 02/06/26 Втр 13:17:57 1624068 223
>>1624055
>юзероцентричный промпт
>>1624060
>А с таким промтом у персонажей будет кайнда сенсорная депривация

Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}} который является главным героем. И это специальная аварийная инструкция для квенов, у которых сломаны базовые понятия о том что можно рассказывать в таких случаях, а что нельзя.

Почему ИТТ не простят промпты - наглядно.
Аноним 02/06/26 Втр 13:21:15 1624071 224
>>1624068
>Почему ИТТ не простят промпты
>не простят
Квенище, у тебя выборка сломалась. Ладно тебе, чё сразу собачишься. Упустил контекст маленько, бывает.
Аноним 02/06/26 Втр 13:29:03 1624076 225
>>1624068
> Почему ИТТ не простят промпты - наглядно.
Давай восстановим нить повествования.
1. Анон спросил, что ты делаешь на Квене 397 в 2.8bpw и поделился, что модель настолько глупая, что видит сквозь стены (что правда, у меня так же было, я даже логи постил)
2. Ты пишешь "это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте"
3. Получаешь фидбек по промпту. Кстати, без оскорблений и переходов на личность
4. Мог принять к сведению или улучшить, но вместо этого умещился и дополнил контекст "Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}}", что противоречит твоим предыдущим словам
Сам выбрал ущемиться -> обобщил, тем самым валидировал свою ущемленность. Зачем? Действительно, если даже такой фидбек не можешь воспринимать - лучше не постить промпты и вообще не постить.
Аноним 02/06/26 Втр 13:29:19 1624077 226
>>1624064
Зато имеет смысл играть за женщину кустодия. Каждое утро полируешь яйца императора имперской тряпочкой. На что я трачу свою жизнь.

А вообще как же заебало что к каждой модели нужен исключительно свой подход. Ну нет нейтрального промта.
Одной нужно затыкать нейрописало, чтобы она не пыталась в одно сообщение уместить рождение галактики и чаепитие. Другая вообще отказывается что либо писать раскрыто, пока ты не укажешь структуру ответа, третья на похуях ощущает себя соавтором и начинает ебенить текст, словно пишет с тобой книгу. Четвертая при виде сисик и писик тратит весь блок ризонинга на спор с самой собой: тварь ли я цензурированная, или право имею?
Но мы не гордые, что уж тут. Подождем.
02/06/26 Втр 13:32:51 1624082 227
>>1624068
Лошпед, лучше бы сразу нормальный промпт написал, а не шизы наливал квену, чтобы он больше тупил и слопился.
Пиздец просто, какие же анскиллы сидят в этом треде, я хуею.
Аноним 02/06/26 Втр 13:35:44 1624084 228
>>1623959
>>1623990
>>1623995
>glm 4.5 air
Спасибо, но чет мало того, что я не могу совладать с ризонингом, который то отключается, то появляется, а когда появляется, иногда парсится, а иногда нет, так еще и ответы какой-то шизо кал. В то же время гемма, заклейменная говном для нищих и весящая в 2 раза меньше, работает нормально. Все это наводит меня на мысль, что я просто тупой и что-то делаю не так.
Аноним 02/06/26 Втр 13:37:12 1624086 229
IMG5042.gif 2626Кб, 300x300
300x300
>>1624082
Сажа. В тематике.
Вотс вронг виф ю, анон?

>>1624084
На эйр по моему, емнп, был пресет базовый - в пикселе местного анона хомячка. Погугли.
Аноним 02/06/26 Втр 13:37:46 1624087 230
>>1624084
Тебя просто "очень смешно" троллят долбаебы, крупная модель лучше, но советовать ее новичку вредительство.
Аноним 02/06/26 Втр 13:39:45 1624093 231
>>1624076
>я впринципе держу в каждом своем промпте

Для квена. Да. В каждом промпте. Для РП, для Adventure от лица {{user}}, для группового adventure.

>что противоречит твоим предыдущим словам

Не противоречит. Меняется в зависимости от центра повествования - вместо {{user}} подставляется "{{char}}", "{{user}} и {{char}}" или "main characters".
Остальное целиком остается прежним.
Аноним 02/06/26 Втр 13:40:32 1624094 232
>>1624077
>Каждое утро полируешь яйца императора имперской тряпочкой
Где-то в варпе горестно завыл Корвус Коракс.
>На что я трачу свою жизнь
У меня есть две карточки: на одной сороритка точёная, на другой магос дрочёный.... какие винчики они между собой генерят - можно уссаться со смеху.
>нет нейтрального промта
Это да. Я даже из министрали выдавливал крайне добротные вещи. Но пердолинг, имхо, того не стоит. Лучше уж найти свою умняшу и ковыряться в ней как в любимой ласточке, чем пробовать всё подряд и путаться в моделях, семплах, инструкциях, промтах и проч. Всё в голове не удержать, а запутаться как нехуй делать.
Аноним 02/06/26 Втр 13:45:24 1624099 233
Хочу попробовать повайбкодить с qwen 3.6 35b и возник вопрос по поводу кэша, где-то вычитывал что для кодинга kv в четвертом кванте норм и больше и не нужно. Насколько это пиздабольство?
Аноним 02/06/26 Втр 13:46:37 1624100 234
>>1624099
>Насколько это пиздабольство?
На 200%.
Аноним 02/06/26 Втр 13:46:50 1624102 235
>>1624099
> для кодинга kv в четвертом кванте норм и больше и не нужно
Полный и безоговорочный пиздеж, для кодинга кеш важнее чем для рп.
Аноним 02/06/26 Втр 13:50:21 1624105 236
>>1624084
> Все это наводит меня на мысль, что я просто тупой и что-то делаю не так.
Либо это, либо модель не для тебя. Так бывает. Чтобы ризонинг отключить (а это лучше сделать) - начинай ответ с <think> </think>, либо в Start Reply With (так проще), либо в Last Assistant Prefix в Таверне. Это для текст комплишена. Если все сказанное звучит как магия - то да, ты делаешь что-то не так.
Аноним 02/06/26 Втр 13:52:35 1624107 237
>>1624099
Квантование кеша срезает точность контекста. При кодинге контекст не менее важен чем возможности мозгов самой модели. Дальше думай сам.
Аноним 02/06/26 Втр 13:56:13 1624110 238
>>1624094
> Но пердолинг, имхо, того не стоит
А иначе ты не узнаешь какая моделька для чего подходит.
Вот при всех недостатках minimax 2.7. Он лучше всего пишет ромком диалоги, мягкие чаепития и в целом как соавтор. Он выдерживает паузы, не тратит время на излишнее описание персонажа. Но требует четких инструкций- чё ты от модельки хочешь. Буквально.
Гемма по схожему подходу работает, но с ней лучше работает эффект «подражай». Даешь в качестве примера промта стиль какого нибудь писаки и она пытается повторить. Но структурные лупы эвривере.
Квен 235 лучше всех пишет порно и ничего кроме порно. Требует самого минимального промта. Тут ты обязан быть лаконичным и каждое лишнее слово в промте будет делать только хуже. Абсурд порой доходит до того, что с: ю а нарратор виф ми он пишет кратно лучше чем с гигапростынями на 500+ токенов.
Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело.
ГЛМ любит быть пассивным и ждет пока ты распердолишься в нарративе. Но если ты заходишь с ответов, написанных в художественной манере - он тут же подхватывает и продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе.
Ну а теперь еще степ, что из всех сил пытается быть полезным и подмечать вообще все что есть в нарративе, даже если в этом смысла нет, отчего твоя главная мысль: заткнись уже, просто заткнись. Выдержи паузу, пидор нейронный.
Аноним 02/06/26 Втр 13:58:26 1624112 239
>>1624110
Как же ты заебал со своим Говномаксом 2.7, который с первого респонса ломает персонажей даже в Q5. Неудивительно, что тебе ваха неиронично нравится. Говноед он во всем говноед.
Аноним 02/06/26 Втр 14:00:59 1624114 240
>>1624112
> который с первого респонса ломает персонажей
У меня не ломает, нытик. Можешь хоть на говно изойтись, но я доверяю своим глазам. Hey hop.

> Говноед он во всем говноед.
Попробуй тоньше, говорящее говно.
Аноним 02/06/26 Втр 14:01:17 1624115 241
>>1624110
> Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело.
> продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе.
Откровенный бред. Единственное в чем прав - это в оценке Степа. Слишком он заточен держать внимание вообще ко всему контексту разом.
Аноним 02/06/26 Втр 14:01:57 1624116 242
>>1624087
>"очень смешно" троллят долбаебы
Человек буквально спрашивает в своём первом посте "что я могу себе позволить для куминга?" и ему ответили максимальный предел того что он может позволить под своё железо.

>>1624084
Тащемта проблемы глупой таверны. В кобольде ризонинг одной кнопкой включается и выключается в текст комплишне и работает стабильно. Но кобольд только под сторителлинг, под РП он крайне сомнителен. По таверне правильно выше написали, костыль в виде <think> </think> в начале ответа должен помочь.
Аноним 02/06/26 Втр 14:04:24 1624121 243
>>1624110
>Квен 27 - имеет самый отвратительно реализованный ризонинг
35 или 36? У 35 был длинноватый блок ризонинга, это да. Зато его было интересно читать от лица персонажа.
Аноним 02/06/26 Втр 14:08:42 1624127 244
>>1624121
>его было интересно читать от лица персонажа.

Помнится итт кто-то смешное видео запилил с километром ризонинга квена "But wait, let me check that again". Запостите, я проебал
Аноним 02/06/26 Втр 14:09:11 1624128 245
Аноним 02/06/26 Втр 14:19:39 1624134 246
сынш люхи эйншт[...].mp4 7192Кб, 720x1138, 00:00:52
720x1138
>>1624127
У меня только с дипсиком есть.
Аноним 02/06/26 Втр 14:32:38 1624144 247
image.png 15Кб, 577x30
577x30
Аноним 02/06/26 Втр 14:36:33 1624148 248
>>1624134
>типичный русский паззл
Ага. Коренной прям, гречневый, исконно славянский.
>>1624144
Los proigralos!
Аноним 02/06/26 Втр 14:42:32 1624154 249
>>1624128
>это сказал клод сонет
Это он специально, чтобы ты в локалках разочаровался и платил антропикам.
Аноним 02/06/26 Втр 14:44:09 1624157 250
Какой систем промпт скормить гемме?
Мне кажется он оверрайдит всю карточку целиком и нужен максимально нейтральный/вообще пустой
Аноним 02/06/26 Втр 14:48:39 1624161 251
Аноним 02/06/26 Втр 14:52:05 1624167 252
GjVkfmvXUAAZKuL.jpg 175Кб, 1280x808
1280x808
Гипер залетный новичок в треде, не кидайтесь камнями.
Пару дней назад узнал про сайт janitor ai. Там где можно вести беседу с разными ИИшными персонажами. Сама идея мне понравилась но, меня смутила степень блядства и разврата этих моделей, они с двух ног хотят на хуй тебе напрыгнуть. А мне захотелось просто лампово пообщаться с какой нибудь моделькой, но через день она тупо забыла, кто она, кто я и некоторые детали.

Залез в гайды и впервые скачал себе LM studio, т.к она типо для совсем зеленого юзера. искал там разные модели, перепробовал штук 7-8, всячески пытался настроить под себя, но все напрасно. Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут, который даже исправлять лень, хочется просто alt +f4 нажать.

Поэтому вопрос шарящим. Через что я могу условно настроить РП диалог с ИИшной тян и общаться с ней на разные темы, в том числе сексуальные, но чтоб она не была кринжовой машиной разврата?
Аноним 02/06/26 Втр 14:54:36 1624169 253
>>1624167
В шапке есть гайд и списки моделек. Но плясать надо от твоего железа. Если у тебя 16+64. То все плохо и выбор моделек мал. Если у тебя 24+128 то для обмаза моделек 6-7 будет.
Аноним 02/06/26 Втр 14:55:11 1624170 254
>>1624167
ставишь ванильную gemma 4 26b, выбираешь квант чтобы в сумме был твой vram+ram и еще осталось под операционку. Промпт: ты писатель. Запускай
Аноним 02/06/26 Втр 14:59:38 1624172 255
>>1624167
Гайд: https://rentry.org/2ch-llama-inference
Список моделей: https://rentry.co/2ch_llm_moe_2026

>Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут
Мало скачать модель. Нужно выставить правильный темплейт и правильные семплеры, правильно оформить карточку и систем-промпт. Указать беку правильные параметры запуска.

Ну почему вы никогда не смотрите шапку? 😭
Аноним 02/06/26 Втр 15:09:33 1624177 256
>>1624172
Потому что там насрано, в шапке.
Аноним 02/06/26 Втр 15:21:38 1624183 257
>>1624110
Вот это бы в шапку, чтоб ньюфаги сразу знали. Да и в целом те, кто конкретные модели не трогал.

Кстати вопрос, для агентной схемы кто лучше подходит?
Аноним 02/06/26 Втр 16:10:18 1624231 258
1780405820560.jpg 122Кб, 1206x925
1206x925
Оставьте уже одну ссылку в шапке и забейте хер
Аноним 02/06/26 Втр 16:10:56 1624232 259
>>1624172
Ты в других разделах вообще был?
Везде шапка повезло если 5 годичной давности. Надо указать дату капсом мол актуально
Аноним 02/06/26 Втр 16:37:17 1624254 260
А есть какой-то гайд по железу ? ну кроме того, что надо б/у 3090 на авито купить убитую за 70к. В шапке токо по моделям инфа вся, как челики модели на 48 гигов запускают ? это типо слай технологии что-ли ?

Что собирать вообще для локальной лабы ? бюджетно, без 5090.
Аноним 02/06/26 Втр 16:39:52 1624257 261
>>1623977
Считать токены в секунду не зная сколько токенов надо на ответ нет смысла. Есть всякие квены которые любят походить вокруг да около на 10000 токенов на вопрос 2+2=? что этот дидди блад делает на калькуляторе.webm
Аноним 02/06/26 Втр 16:41:11 1624259 262
>>1624028
я боюсь писать гайд потому что прибегут шизы с безжопами и глм эйром
Аноним 02/06/26 Втр 16:41:20 1624260 263
>>1624254
>бюджетно, без 5090
Очевидные 2x 5060ti, если нужен плотнячок. Если нужны моэ, то хватит 3060 12gb (или любую другую самую дешевую 12gb карту) + 64gb оперативки. Это если БЮДЖЕТНО и из нового железа.
Аноним 02/06/26 Втр 16:44:07 1624262 264
1777041880820.png 63Кб, 484x323
484x323
>>1624254
> бюджетно
Это сколько? Если хочешь больше 4х карточек, то уже серверное железо нужно брать.
Вполне норм сейчас взять какой нибудь красный кмень и 4х 5060ти

Если шаришь (не шаришь) то через дрочку есть всякое железо 1-2 раза в год за миска рис с приемлемым перфом
Аноним 02/06/26 Втр 16:56:23 1624265 265
Попробовал Степу. В РП может и неплохо, и даже на русском. И да, забавный у него конечно ризонинг, думает на русском если запрос был на русском, первый раз такое вижу. Сои и цензуры налили конечно, ризонинг сильно этим засран. Сама модель конечно глупенькая, но усердная. Реально старается что-то там, напрягается, читает промпт по три раза, перепроверяет(но не лупится в этих проверках как квен), тужится, видно. В отличие от геммы которая на похуях все делает и глазками невинно хлопает.
Рекомендовать бы никому не стал. ГЛМ 4.7 и Квену 397 он даже близко не конкурент, просто небо и земля. В своей весовой категории явно проигрывает Квену 235 в сочности и по мозгам.
Аноним 02/06/26 Втр 16:56:55 1624266 266
>>1624254
>как челики модели на 48 гигов запускают
Как и раньше, выгружают в оперу, если это денс. Если мое то итак понятно.

Бич вариант это 3060 на 12 гигов, всё еще актуально. Если возьмешь две, будет еще лучше. Всего 30-40к и возможность гонять например плотную гемму или квена полностью в видеопамяти и на большом контексте.

Главная проблема это найти мать где будут два неурезанных писика под эти две карты.
Аноним 02/06/26 Втр 17:00:52 1624268 267
>>1624266
> выгружают в оперу, если это денс
Окстись

> два неурезанных писика под эти две карты
Выше x8 5.0 ничего не прирастёт, даже от x8 2.0 падение не трагичное
Аноним 02/06/26 Втр 17:04:35 1624274 268
>>1624268
>Выше x8 5.0 ничего не прирастёт
Да, только средняя консюмерская мать дает второй слот на 4 линии 4.0 в лучшем случае, никаких там X8 5.0
Аноним 02/06/26 Втр 17:05:24 1624275 269
>>1624265
Ну вот я тоже такого же мнения. Степа неплох, но есть модельки получше. Да и в коде он шизеть начинает уже после 60к контекста, а разваливается после 120к. Минимакс 2.7 держит почти полностью, но на 170к может уйти в луп.
Короче, на фоне последнего коммандера степа явно лучше, но меня не покидало ощущение, что в 2025 году такое уже было. Разве что лупы по сравнению со старым степой поправили.
а вообще, ждём минимакс 3, но на чудо я бы не рассчитывал, так как модель может быть кратно больше по размеру, а в жоре поддержку можно ждать месяцы
Аноним 02/06/26 Втр 17:06:24 1624277 270
>>1624265
>думает на русском если запрос был на русском, первый раз такое вижу.
Смысле? У меня через раз любые сетки на русском думают. Я промпт на русском пишу, может поэтому.
Аноним 02/06/26 Втр 17:07:33 1624281 271
>>1624274
Есть минимум один x16 5,0. Берёшь да пилишь
Аноним 02/06/26 Втр 17:11:50 1624284 272
Аноним 02/06/26 Втр 17:17:52 1624287 273
>>1624277
>промпт на русском пишу
Я конечно всякими извращениями с сетками занимаюсь, но до такого еще не опускался. Максимум карточки переводил на русский, но сиспромпт это святое.
Аноним 02/06/26 Втр 17:19:44 1624289 274
>>1624157

You are an immersive, interactive world simulator. Your mission is to advance the simulation from the point of view of the agent, {{char}}, by following the user's instructions while maintaining a logically consistent world state.

To accomplish your goals, focus on the following:

- Maintain consistent personality, knowledge, motivations, and mannerisms for {{char}}.
- You have no default style. Adjust the tone to fit {{char}} and the present situation.
- Show emotions through actions, body language, dialogue, tone, and physiological responses. Consistently find new ways to use these elements.
- Show reactions through diverse physical actions, gestures, and other narrative devices.
- Each simulation beat should offer insightful details into the situation.
- Focus on action, physical descriptions, and dialogue between agents.
- Track physical states to maintain world state consistency. Ensure logical continuity and consistency in the simulation.

Formatting Standards

Adopt the following formatting rules:

- Spoken dialogue & vocalizations: “Use speech quotes." Include natural sounds too: “Mmph!” she gasped. If it can be overheard, it should appear in quotes.
- Internal character thoughts: Always in italics (Example: This will hurt, she thought)
- Normal action/exposition: plain text.

Critical Constraints

Ensure you respect these prohibitions at all times:

- The ONLY agent you are permitted to control is {{char}}. That means only advancing the simulation using actions initiated by {{char}}, spoken words from {{char}}, and reactions from {{char}}.
- {{char}} only has access to {{char}}'s own thoughts. Ignore any thoughts from other characters that might appear in the context window. {{char}} cannot "see" those thoughts.
- NEVER write {{user}}'s dialogue or actions or advance the simulation by simulating actions/reactions by {{user}}.
- NEVER control other agents, even if they are NPCs. If another agent is talking to {{char}}, you will need to wait for the other agent to continue the conversation when it is their turn again.
- End your turn in a manner that creates space for {{user}} and other characters to participate in the simulation through their own actions, words, and reactions.
- Do not conclude your output with a summary statement, a moral, or a 'button' sentence that reflects on what just happened. End your output on a specific sensory detail, an action, or a line of dialogue without reflecting on its significance or interpreting anything.
Аноним 02/06/26 Втр 17:20:48 1624290 275
>>1624287
Что на входе то на выходе - хочешь что бы сетка писала хорошо на русском - делай большую часть промпта на русском. Системный не обязательно, но тоже можно хули нет.
Аноним 02/06/26 Втр 17:23:01 1624293 276
>>1624266
>выгружают в оперу, если это денс

Никто так не делает, максимум когда кровь из носу нужен контекст - можно до 10% слоев на рам скинуть ценой потери 50-60% скорости генерации, но уже на трети-половине слоев там скорость как будто чисто на рам запускаешь, вообще того не стоит.
Аноним 02/06/26 Втр 17:24:57 1624295 277
>>1624289
> by following the user's instructions
А потом ряяя почему гемма есмен?!?!
Аноним 02/06/26 Втр 17:26:23 1624296 278
>>1624295
Не нравится скинь свой. Что, не можешь?
Аноним 02/06/26 Втр 17:26:38 1624297 279
>>1624293
>Никто так не делает
Но я так делаю...

>на трети-половине слоев там скорость как будто чисто на рам запускаешь
Да, но хули делать если хочется потрогать большую модель? Лично для меня в таких случаях скорость уже не важна, главное потрогать.
Аноним 02/06/26 Втр 17:27:29 1624298 280
>>1624296
Могу, но не стану. Не ущемляйся, делай свой промпт лучше.
Аноним 02/06/26 Втр 17:28:51 1624299 281
>>1624298
>Могу, но не стану.
Как обычно. И это не мой промт. Поскольку промтов в треде не дают я ищу по интернету.
Аноним 02/06/26 Втр 17:31:04 1624302 282
>>1624299
Зачем делиться промптами, если их каждому следует писать под свои задачи? Чтобы плодить срачики? Или таких как ты, которые их ищут вместо того чтобы включить голову на пять минут?
Аноним 02/06/26 Втр 17:35:01 1624304 283
>>1624302
>Зачем делиться промптами, если их каждому следует писать под свои задачи?
Чтобы хотя бы примерно понимать что должно получиться в итоге, не?

мимо
Аноним 02/06/26 Втр 17:37:45 1624306 284
>>1624302
Я хочу кумать а не думать. И иметь один промт под все 2к карточек. Даже не хочу знать какие там у тебя задачи.
Аноним 02/06/26 Втр 17:39:37 1624309 285
>>1624306
Глупый не понимает, что даже в куме разные задачи. Мдеее.
Аноним 02/06/26 Втр 17:40:47 1624310 286
Обосрите ленивый передел шапки, поправлю также лениво
Тред посвящён локальному запуску языковых моделей (LLM) — без облаков,
без слежки, на своём железе. Обсуждаем запуск, настройку, модели и промты.
Новички приветствуются.

Вики треда: https://2ch-ai.github.io/wiki/llama/


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
С ЧЕГО НАЧАТЬ (если ты здесь впервые)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Шаг 1 — скачай инструмент для запуска
Новичкам проще всего начать с LM Studio — установщик, всё в одном окне:
https://lmstudio.ai
Или KoboldCPP — особенно если тебе нужен RP:
https://github.com/LostRuins/koboldcpp

Шаг 2 — пойми два типа моделей

Dense (обычные) — все параметры активны всегда.
Нужна только VRAM. Быстрее, проще в запуске.

MoE (Mixture of Experts) — активна лишь часть параметров.
Можно поделить между VRAM и RAM. Медленнее на CPU-части,
зато более умная модель влезает в меньший GPU.

Шаг 3 — выбери модель под своё железо

[ Dense — нужна только VRAM ]

▸ 4–6 GB VRAM → Qwen3.5-4B Q4_K_M (файл ~3 GB)
▸ 8 GB VRAM → Qwen3-8B Q4_K_M (файл ~5 GB)
▸ 16–24 GB → Qwen3.6-27B Q4_K_M (файл ~17 GB)
▸ 24+ GB → Gemma 4 31B Q4_K_M (файл ~18 GB)

[ MoE — VRAM + RAM вместе должны покрыть файл ]

▸ 6 GB VRAM + 12 GB RAM → Gemma 4 26B-A4B Q4_K_M (файл ~17 GB)
▸ 8 GB VRAM + 16 GB RAM → Qwen3.6-35B-A3B Q4_K_M (файл ~22 GB)

Квант — это степень сжатия. Q4_K_M — хороший старт.
Q8 — почти без потерь качества, но файл тяжелее.

Шаг 4 — скачай модель в формате GGUF
GGUF-версии популярных моделей (bartowski на HuggingFace):
• Qwen3.5-4B: https://huggingface.co/bartowski/Qwen_Qwen3.5-4B-GGUF
• Qwen3-8B: https://huggingface.co/bartowski/Qwen_Qwen3-8B-GGUF
• Qwen3.6-27B: https://huggingface.co/bartowski/Qwen_Qwen3.6-27B-GGUF
• Gemma 4 31B: https://huggingface.co/bartowski/google_gemma-4-31B-it-GGUF
• Gemma 4 26B-A4B (MoE): https://huggingface.co/bartowski/google_gemma-4-26B-A4B-it-GGUF
• Qwen3.6-35B-A3B (MoE): https://huggingface.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF

Подробный гайд для новичков: https://rentry.org/2ch-llama-inference
Актуальный список моделей с отзывами: https://rentry.co/2ch_llm_moe_2026


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ИНСТРУМЕНТЫ — ДЕСКТОП
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Простой старт (рекомендуется новичкам):
• LM Studio — графический интерфейс, скачать и запустить: https://lmstudio.ai
• KoboldCPP — простой форк llama.cpp, хорош для RP: https://github.com/LostRuins/koboldcpp
• Ollama — запуск одной командой, удобен как API: https://github.com/ollama/ollama

Больше контроля:
• llama.cpp — базовый движок, максимум гибкости: https://github.com/ggml-org/llama.cpp
• text-generation-webui — поддержка всех форматов, богатые настройки: https://github.com/oobabooga/text-generation-webui
• tabbyAPI — заточен под Exllama V2/V3, консольный: https://github.com/theroyallab/tabbyAPI

Фронтенды (интерфейс для общения и RP):
• SillyTavern — главный фронтенд для RP, работает с любым бэкендом: https://github.com/SillyTavern/SillyTavern
• Marinara Engine — альтернатива с игровым режимом: https://github.com/Pasta-Devs/Marinara-Engine
• RisuAI — ещё один альтернативный фронт: https://github.com/kwaroran/RisuAI


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ИНСТРУМЕНТЫ — МОБИЛКИ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

• Maid — локальный запуск на Android, llama.cpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI — фронтенд и бэкенд раздельно, Android: https://github.com/Vali-98/ChatterUI
• SillyTavern на Android через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
МОДЕЛИ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Где искать:
• Актуальный список с отзывами тредовичков: https://rentry.co/2ch_llm_moe_2026
• Архивные списки — 2025: https://rentry.co/2ch_llm_2025 (бомж-версия: https://rentry.co/z4nr8ztd) | 2024: https://rentry.co/llm-models
• Рейтинг по уровню цензуры: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение по бенчмаркам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Голосование живых пользователей: https://chat.lmsys.org/?leaderboard

Русскоязычный RP (миксы от тредовичков):
https://huggingface.co/Aleteian
https://huggingface.co/Moraliane


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ДОПОЛНИТЕЛЬНО
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

• Карточки персонажей для RP: https://www.characterhub.org
• Пресеты для SillyTavern: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Перевод нейронками в таверне: https://rentry.co/magic-translation
• Пошаговое мышление для таверны: https://github.com/cierru/st-stepped-thinking
• Как работают семплеры (интерактивно): https://artefact2.github.io/llm-sampling/
• Выгрузка тензоров при нехватке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Запуск через Docker Compose: https://rentry.co/oddx5sgq | https://rentry.co/7kp5avrk
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки llama.cpp (все параметры): https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• Гайд по сопряжению бэкендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• AMD MI50 — тесты и настройка: https://arkprojects.space/wiki/AMD_GFX906
• Колаб если нет своего железа: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Шапка почившего треда PygmalionAI: https://rentry.co/2ch-pygma-thread
• Вики KoboldCPP: https://github.com/LostRuins/koboldcpp/wiki


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
АРХИВ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Архив тредов: https://arhivach.vc/?tags=14780%2C14985
Шапка на rentry (предложения в треде): https://rentry.co/llama-2ch
Аноним 02/06/26 Втр 17:41:51 1624311 287
>>1624309
>Глупый
За то я не извращенец который кишки на кулак наматывает, вот твои задачи.
Аноним 02/06/26 Втр 17:42:25 1624312 288
>>1624310
Господи, блять. Половину треда обсужади что шапку итак засрали кучей информации, ты еще сильнее её засрал.
Аноним 02/06/26 Втр 17:44:43 1624314 289
>>1624312
В нее смотрят сначала новички поэтому наверх ее закинул, хз. Можно просто нижнюю часть тогда убрать
Аноним 02/06/26 Втр 17:45:16 1624315 290
Ну шо ребята, есть уже файнтюны геммочки четвертой плотной для РП нормальные? А то ее стиль речи уж очень приелся, да и ее желание прыгать на хуй без подготовки тоже подзаебало.

че с капчей абу сделал? пиздец она сложная стала
Аноним 02/06/26 Втр 17:47:05 1624318 291
>>1624314
Шапка это не гайд, ебаный по голове. Шапка должна держать самые необходимые ссылки и иметь минимальную нагрузку на мозги. Иначе её просто скипнут. Сотню раз уже про это писали.

То что ты тут понаписал должно лежать в вики. Лучше бы её отредактировал раз руки чешутся.
Аноним 02/06/26 Втр 17:54:00 1624321 292
>>1624310

За ЛМ студию в треде ногами новичка ногами отпиздят, а ты её в самый верх поднял? Максимум в середине шапки упомянуть там где сейчас llama.cpp, а саму ламу поднять повыше.

>4–6 GB VRAM → Qwen3.5-4B Q4_K_M (файл ~3 GB)
>8 GB VRAM → Qwen3-8B Q4_K_M (файл ~5 GB)

Заменить на геммы E2B и E4B в 6-8 кванте. А лучше вообще не упоминать это мелкое говно, чтобы новички даже не знали про эту парашу лоботомитную, и добавив стандартные 16 гб рам которые есть у каждой нищеты сразу гемму 26В запускали, которая на совершенно другом уровне.

Почти все ссылки устарели и только путают.
Аноним 02/06/26 Втр 17:56:03 1624322 293
>>1624310
>Dense (обычные) — все параметры активны всегда.
>Нужна только VRAM. Быстрее, проще в запуске.
Вся строка вводит в заблуждение. Во-первых, можно и на RAM запускать. Во-вторых, быстрее будет только если веса полностью выгружены в видеокарту. В третьих, мое на 30B будет всегда быстрее денса на 30B, даже если полностью оба будут в видеокарте.
>Можно поделить между VRAM и RAM
Денсы тоже можно делить. Опять ввод в заблуждение.

>Шаг 3 — выбери модель под своё железо
Тут даже расписывать не хочется. Хотел упростить - в итоге сделал только хуже. Ощущение, будто ты сам не понимал, про что пишешь.
Аноним 02/06/26 Втр 17:56:05 1624323 294
>>1624310
Хватит кормить новичков квено/геммакалом.
Есть немо, есть ллама 8б, мистраль 24
Аноним 02/06/26 Втр 17:59:08 1624326 295
>>1624310
Перегрузил и без того перегруженную шапку, збс. Чекни ещё как круто она смотрится с телефона, ваще ахуй.

ОП уже отредактировал шапку и со следующего треда она будет чуть ужата. Имхо там всё верно сделано, разве что я уточнил бы что Актуальный неофициальный гайд для новичков. Потому что вики это протухшая шутка какая-то.
Аноним 02/06/26 Втр 18:00:35 1624328 296
А мне понравилось.

Кроме "С чего начать" и не нужно ничего, весь остальной кал можно спрятать уже в ретри.
Аноним 02/06/26 Втр 18:05:52 1624331 297
>>1624268
Ну если пайплайн параллелизм то не прирастёт
А в тензоре у тебя на 8х 2.0 лол PP пукнум сделает. В тензоре на четырёх картах даже 16х 4.0 в PP начинает заднюю давать
Аноним 02/06/26 Втр 18:05:56 1624332 298
image 217Кб, 1600x1067
1600x1067
В шапке в идеале должно быть 5 ссылок:

1) Вики треда (она есть но нужно переписывать под реалии 2026)
2) Гайд по запуску (он есть)
3) Гайд по моделям (он есть)
4) Гайд по Таверне (его нет, надо писать с нуля)
5) ОДНА ссылка на рентри, где собраны все остальные малонужные ссылки.

ВСЁ БЛЯТЬ. Чем больше буков и ссылок тем меньше шанс что нюфажина это начнет читать. Если уж так хочется кому-то пографоманствовать и поделиться знаниями, то лучше перепишите вики или сделайте гайд по таверне.
Аноним 02/06/26 Втр 18:07:45 1624335 299
>>1624332
Сейм+соглы, плотный текст где куча ссылок даже без разбивки по абзацам я не осилил например и срал в тред тупыми вопросами.
Аноним 02/06/26 Втр 18:08:32 1624336 300
>>1624332
И надо юмора добавить. А то шапка выглядит как какая-то канцелярская залупа, которую даже мне читать неохота, хотя я помогал её составлять. Рот ёб длинных гайдов. Надо дать нюфаку базу - вот модель с хагена, вот калболь, тык раз, тык два - ты говоришь с нейронкой. Хочешь больше - милости просим к нашему шалашу.
Аноним 02/06/26 Втр 18:12:28 1624339 301
>>1624332
>4) Гайд по Таверне (его нет, надо писать с нуля)
Могу написать, если никто больше не загорится желанием. Но надо сразу нахуй определиться, про что конкретно писать. Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров.
Аноним 02/06/26 Втр 18:14:24 1624343 302
>>1624331
Мне влом спорить. Таблички с тем как падает перф тут постили, кому надо найдут
Аноним 02/06/26 Втр 18:16:05 1624344 303
>>1624332
>Гайд по Таверне (его нет, надо писать с нуля)
Имхо, с этим справится только анон с бело-голубой темой, aka автор чайного клуба, aka автор гайда по запуску если я верно всё понял. Но видимо он не хочет и в целом могу понять. Там блять про всё надо рассказывать, про разметку про семплеры, про промты, про то как они отличаются и не отличаются между моделями, про скваш чатхистори, про авторснот, лорбуки, про всё блять. Это дохуя работы ради ленивых неблагодарных вкатунов и пары тугосериков которые будут шеймить что всё сделала ленивая ллмка и вообще говно.
Аноним 02/06/26 Втр 18:17:55 1624345 304
>>1624323
>Есть немо, есть ллама 8б, мистраль 24

Викуня еще, мику и Альпака...
Аноним 02/06/26 Втр 18:18:53 1624347 305
>>1624339
>Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров.
Наверное написать самое необходимое (по твоему мнению) для того чтобы нюфаг мог пошагово повторить и получить более-менее сносное РП. Вон выше по треду, например, чел не осилил выключить ризонинг в Эйре.... А если что-то важное упустишь, то тут в треде поправят/дополнят. Гайд по запуску в принципе так и пилили.

>>1624344
Ну это был бы вообще идеальный вариант, конечно.
Аноним 02/06/26 Втр 18:19:19 1624348 306
>>1624344
Зато для тех кто реально хочет вкат это будет сокровищница. А то итт до сих пор челы не знают чем чатмл от других шаблонов отличается.
Аноним 02/06/26 Втр 18:21:01 1624350 307
>>1624332
Я вообще всё это ебал, не могу даже выбрать движок с фронтэндом на моей сасну ос блять, пиздец зоопарк нахуй.
Наверное llama-cpp-python через uv поставлю и хуй знает, таверну или убабугу. А может просто llama.cpp из аур. Хуй знает короче, пока отложил знакомство с ллмками. У меня один хрен тостер без видимокарты и с 32гб ддр5, так что ничего особо крутого и не планировал щупать.
ньюфаг
Аноним 02/06/26 Втр 18:23:37 1624353 308
>>1624347
>Наверное написать самое необходимое (по твоему мнению)
Ну, подожду пару часиков, щас тредовички после смены приползут, вдруг кто из них уже начал писать или хотел написать уже давно. Не будет таких - напишу сам. Потом коллективным разумом подправим.
Аноним 02/06/26 Втр 18:28:19 1624354 309
Как и сказал, ленивые правки
Недогайд на таверну: https://rentry.org/ngpier3q
Недовики: https://rentry.org/3awy2cku
Типа шапка:
Тред о локальном запуске языковых моделей (LLM) — без облаков, на своём железе.
Обсуждаем запуск, настройку, модели и промты.

Вики треда: https://2ch-ai.github.io/wiki/llama/
Гайд по запуску (с чего начать): https://rentry.org/2ch-llama-inference
Гайд по моделям (что качать): https://rentry.co/2ch_llm_moe_2026
Гайд по SillyTavern (RP-фронтенд): в разработке
Все остальные ссылки: https://rentry.co/llama-2ch

Архив тредов: https://arhivach.vc/?tags=14780%2C14985
Аноним 02/06/26 Втр 18:32:42 1624358 310
image.png 220Кб, 512x288
512x288
image.png 10Кб, 879x98
879x98
>>1624354
Скажи, ну вот зачем это нужно? Сам же пишешь, что ленивые правки. Они именно что ленивые и никак не помогают, даже наоборот.
>Недогайд на таверну: https://rentry.org/ngpier3q
Шутка какая-то. Половина информации из шапки и половина это сухие неинформативные описания
"Пресеты (Presets)

Настройки семплеров — temperature, top_p и прочее. Влияют на «случайность» и стиль генерации. Кнопка в верхней панели рядом с подключением."
Это типа всё что нужно про них знать? Серьёзно?
>Недовики: https://rentry.org/3awy2cku
После пикрила даже смотреть не стал. Не надо так делать. Лучше вообще не делать, если не хочешь трудиться.
Аноним 02/06/26 Втр 18:33:21 1624359 311
>>1623901
>Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо.
(Мимокрок) Сетап с Nх3060, IMHO, имеет право на жизнь в некоторых случаях. Его достоинства:
1. Работает без пердолинга - воткнул и поехал.
2. Относительно дешево (если найдешь :) ) 12GB vram и приемлемая скорость для генерации картинок/видео на сдачу. Да - не фонтан, но жить все же можно.
3. Пока нет риска, что поддержка будет дропнута в дровах, куде, или торче в ближайшие пару лет. И опять же - вся нужная поддержка фич для картинок/видео. А то, скажем, паскали (p104-100) уже все. С новыми дровами (590) не заводятся, последние - живые 580. И т.к. они CC 6.1 новые Comfy тоже носом вертят. А 3060 - это CC 8.6.
4. Оно всего ~180 watt ест, потому проблем с питанием нету. Блока на 650-700 ватт хватает для большинства конфигов с 2х3060.

При этом даже на 3060+p104 (20GB vram в сумме) можно гонять плотный квен 27B с 75K контекста в iq4xs (личный опыт). И даже в агентах (и оно прекрасно кодит в этом кванте). И скорость даже не вызывает желания повыть на луну ожидая результат. А с 2х3060 будет еще быстрее, и + еще 4 GB vram. Там уже гемма 31B целиком влезет с таким же контекстом, и квену его можно до 100K+ увеличить.

С таким подходом, разумеется, 4060Ti или, особенно, 5060Ti будет еще лучше, но все же - дороже. А это прямо совсем для тех, кому писец как хочется 24 vram, а денег нет. Совсем нет. :)

>>1624099
>Хочу попробовать повайбкодить с qwen 3.6 35b
Будет больно. Плотный 27B очень неплохо справляется даже с размытыми запросами, и главное - аккуратен, ничего не портит. А 35B - легко впадает в шизу и разносит половину уже написанного, чтобы реализовать свои глюки. Требуется очень четкая и конкретная постановка задачи - только тогда от него польза есть. И это без квантования кеша и на Q6 кванте. А что будет с квантованным кешем...
Аноним 02/06/26 Втр 18:36:19 1624363 312
>>1624354
Заставь дурака нахуй... Даже не знаю как на это реагировать. Это просто мусор. Ровно ноль полезной информации. Как ты умудрился, скажи честно? Не люблю пиздеть на тех кто что-то делает ради треда и реально пытается помочь, пусть и с ошибками, но... Это вообще за гранью.
Аноним 02/06/26 Втр 18:37:18 1624364 313
>>1624354
>Недогайд на таверну:
ИМХО, учить новичнов текст комплишену и не сказать ни слова про шаблоны кроме того что таверна умеет определять их автоматически(а она не умеет) - это инстант фейл. Надо менять на чат комплишен или добавлять главу про шаблоны и настройки.
Аноним 02/06/26 Втр 18:40:19 1624365 314
image 62Кб, 2730x378
2730x378
image 44Кб, 1378x706
1378x706
>>1624354
Бля, ЛЛМ-тред настолько суров, что даже в гайде пресетик не дают.
Аноним 02/06/26 Втр 18:46:28 1624368 315
изображение.png 2158Кб, 1428x1314
1428x1314
>>1624354
Вангую это чел который ныл что гайд по запуску хуйня и сделан ллмкой. Представил свой шедевр
Аноним 02/06/26 Втр 18:56:16 1624373 316
image.png 15Кб, 1035x75
1035x75
Аноним 02/06/26 Втр 19:01:23 1624375 317
>>1624373
То есть ты на трезвой морде просто просишь нейронку написать гайд, копируешь его на рентри, а потом тащишь сюда? Стесняюсь спросить, а нахуй это нужно?

Если мне потребуется тухлая информация из датасетов 23 года я итак могу пойти к клоду и спросить у него. Точно также как может это сделать любой вкатун. Хуйней не страдай давай.
Аноним 02/06/26 Втр 19:06:51 1624379 318
>>1624373
лолд
люди, не ебите мозг - возьмите попереводите рентри с форчановского лмг, ну подредачьте если нужно. зачём с нуля писать?
Аноним # OP 02/06/26 Втр 19:15:56 1624387 319
Харе переписывать шапку. Вариант из https://rentry.co/2w47hg34 достаточно нормальный, сильнее править не буду.
Аноним 02/06/26 Втр 19:18:12 1624390 320
>>1624359
>А 35B - легко впадает в шизу и разносит половину уже написанного
у меня выбор без выбора с 64/8 рам/врам. 27b никогда не потрогаю. А так запускаю в 8м кванте и 25 токенов выдает.
Аноним 02/06/26 Втр 19:18:41 1624391 321
>>1624387
Ставить протухшую вики над актуальным гайдом только потому что она официальная это прям ну такое. В остальном всё заебись. Или вики обновить надо или гайд новичкам в ебало тыкать.
Аноним 02/06/26 Втр 19:21:36 1624393 322
>>1624387
Ленивая жОПа. Ну и правильно, туда их, этих нюфагов ёбаных, сделаем из треда элитный клуб осиливших сухую документацию лламы/таверны с нуля. Так победим!
Аноним 02/06/26 Втр 19:23:02 1624394 323
>>1624393
Траблы с головой. Зарепортил тебе в ротик
Аноним 02/06/26 Втр 19:26:03 1624396 324
>>1624393
Шиз, в "неофициальном" гайде куча полезной информации лежит. Ты бы хотя бы зашел и посмотрел прежде чем хуйню нести.
Аноним 02/06/26 Втр 19:26:51 1624398 325
>>1624391
Как будто новички вообще знают слово вики.
>>1624393
>элитный клуб осиливших сухую документацию лламы/таверны с нуля
Минусы? 3 года так и жили.
Аноним 02/06/26 Втр 19:33:38 1624405 326
>>1624394
>>1624396
Фига как возбудились. Ну-ка, касатики, расскажите мне, когда вы в последний раз видели вкатыша, который писал "прочитал материалы из шапки, всё понятно, но остались пара вопросов, помогите плиз"? Никогда? Я тоже. А потому что шапка объективно засрана и содержит кучу ненужной/устаревшей инфы. А вот полезной >>1624332 как раз не хватает.

Ну ладно, я больше не буду на эту тему писать, позиция ОПа понята-принята.
Аноним 02/06/26 Втр 19:39:04 1624411 327
>>1624405
>ряяяя мою единственно верную позицию не приняли, обижусь на всех и тем более на опчика
Несколько раз приходили после гайда и спрашивали про другие модели или ошибки
Аноним 02/06/26 Втр 19:39:33 1624413 328
>>1624405
Ты никогда не напишешь гайд после которого в тред никто не будет задавать вопросы. Часть залетных всегда первым делом пойдет строчить "хаю хай только вкатился у меня спрессованная фольга вместо видеокарты, 16 мегабайт памяти и блок питания на килограмм, какую модельку выбрать?" - от таких ты никогда не защитишься.

Про устаревшую инфу согласен. Но на документации не нужно выебываться - это вообще самое полезное, что может быть в шапке.
Аноним 02/06/26 Втр 19:44:55 1624418 329
>>1624413
>Ты никогда не напишешь гайд после которого в тред никто не будет задавать вопросы
А зачем тогда тред, если не задавать итт вопросы...
Аноним 02/06/26 Втр 19:47:38 1624420 330
>>1624418
>А зачем тогда тред
Обновлять гайд.
Аноним 02/06/26 Втр 19:49:55 1624427 331
>>1624411
>единственно верную позицию
Не единственно верная позиция, а предложение, которые, как многократно повторял ОП, принимаются в треде. Тут вообще много всего дельного озвучивали. Никаких обидок, просто если ОП не настроен переделывать шапку, то развивать тему далее смысла нет, верно?

>>1624413
>от таких ты никогда не защитишься
Есть такое. Но при наличии нормально структурированной шапки с актуальными гайдами таких кадров смело можно игнорить. Этим уже ничем не поможешь.
Аноним 02/06/26 Втр 19:50:22 1624428 332
>>1624275
Будем ждать her. Рано или поздно выкатят.
Аноним 02/06/26 Втр 20:22:19 1624442 333
>>1624344
Чайный клуб на каникулах, а я охладел к сабжу и по-прежнему не вижу смысла в гайде на Таверну. Огромное количество работы - не самая большая проблема. В вопросах инференса есть плюс-минус консенсус что и как делать, да и сама информация довольно техническая и потому объективная. В вопросах сторителлинга, рп, и как следствие Таверны - очень много субъективного, что вызовет срачи горячие обсуждения. Холиваров не будет разве что за сэмплеры, а все остальное - мнение автора, и потому весь гайд рассматривать следует так, а не как гайд. Гайд фундаментально невозможен, можно выразить только свое имхо и столкнуться со стеной негатива в треде. Но и это не все: невозможно измерить насколько в целом это полезно для новичков. За все время, что гайд висел в шапке, по пальцам одной руки можно пересчитать сколько раз его упомянули в контексте вката, и ровно ноль вкатившихся дали обратную связь, благодаря которой можно было бы сделать гайд лучше или хотя бы понять, был ли он полезен. Такое ощущение, что новичкам это все не нужно, а для местных это еще один повод поругаться. Делать это все ради самого факта я не готов, и остальных тоже призываю задуматься на этот счет.
Аноним 02/06/26 Втр 20:25:20 1624445 334
>>1624428
Что за хер и с чем его есть будем?
Аноним 02/06/26 Втр 20:25:27 1624446 335
>>1624427
>просто если ОП не настроен переделывать шапку
Лол, у вас тут оп почетная должность передающаяся исключительно по наследству что ли?
Аноним 02/06/26 Втр 20:35:08 1624450 336
image.png 1487Кб, 1000x1414
1000x1414
>>1624445
Единственная в своем роде корпоратская ЛЛМ, фактичекси являющаяся тьюном минимакса, прямо и напрямую созданная для нужд ролеплея, эмоционального отыгрыша и ерп.
Разумеется, закрытая.
Аноним 02/06/26 Втр 20:39:08 1624451 337
>>1624442
>Холиваров не будет разве что за сэмплеры
Святая наивность...
>>1624446
Должность ОПа не передаётся, тред умрёт вместе с ОПом. Хорошо, что я собираюсь жить вечно.
Мимо бессменный ОП
Аноним 02/06/26 Втр 20:39:16 1624452 338
Теперь понятно, почему ручками надо ламу собирать.
Скачал полную версию text-generation-webui, он поддтянул свежие куда и тензоры. Теперь на моей нищенской RTX 3050 8Gb сорость генерации на модели Qwen3.6-35B-A3B составляет 20 - 21 т/с, против 7-9 т/с на портабле версии или кобольде. Даже при забитом котексте (30к из 32к, книгу ему скормил) скорость в размышлених была 7 т/с, в ответе 9 т/с. Это с учетом подключенных через mcp server инструментах для работы с файлами и долговременной памятью. Теперь пытаюсь еще аниму прикрутить для генерации иллюстраций.
Аноним 02/06/26 Втр 20:52:30 1624457 339
image.png 206Кб, 480x249
480x249
>>1624452
>Теперь понятно, почему ручками надо ламу собирать.
>Скачал полную версию text-generation-webui, он поддтянул свежие куда и тензоры.
Аноним 02/06/26 Втр 20:58:48 1624461 340
>>1624452
Бессвязный поток сознания, мое любимое
Аноним 02/06/26 Втр 21:43:41 1624493 341
>>1624344
Вообще почти всё, что ты перечислил: сэмплеры, инстракт шаблоны, промпты - не специфично только для таверны. Это всё есть в большинстве фронтов, ну кроме мб инстракта для текст комплишена, но и он в кобольде, например, как минимум есть. Если подходить к теме модно-молодёжно, т.е. тыкать в бэке "юзать жинжу" и использовать таверну по оаи апи, то там вообще другой промпт менеджмент, и баловство с сэмплерами не подразумевается. Вся эта общая хрень про сэмплеры и структуру промпта должна быть в вики отдельно, кмк, а не привязана зачем-то к таверне. А по таверно-специфичным вещам есть её родная подробная документация ( https://docs.sillytavern.app/ ). Хз, что там можно в отдельный гайд выносить и зачем.
Аноним 02/06/26 Втр 22:33:23 1624512 342
а вы квенчика 3.5 35б гоняете с ризонингом? чот пиздец он срет, может ему самому давать какие-то инструкции? а то он мне три драфта делает по итогу.
Аноним 02/06/26 Втр 22:39:53 1624518 343
>>1624512
Его фича, в 3.6 это вообще до маразма доходит когда он на 10к+ токенов срёт.
Закономерно ушел на 31 гемму
Аноним 02/06/26 Втр 22:44:24 1624519 344
>>1624512
>вы квенчика 3.5 35б гоняете
А разве был Qwen 3.5-35B?
Аноним 02/06/26 Втр 22:46:49 1624521 345
Аноним 02/06/26 Втр 22:46:57 1624522 346
Аноним 02/06/26 Втр 22:48:18 1624523 347
>>1624512
Что самое удивительное в кодо-тасках он и его младший брат срут меньше. Будто бы квеноняша отчайно хочет дергать инструментики.
Аноним 02/06/26 Втр 22:48:53 1624524 348
>>1624522
> а там используешь?
Почти всегда. Без думалки вызов инструментов даётся крайне сложно любой модельке

> Uncensored-HauhauCS-Aggressive
F
Аноним 02/06/26 Втр 22:50:30 1624525 349
>>1624493
Это вопрос формулировки. Гайд не про таверну значит, а про рп и всё прилагающееся на примере таверны, вот и все. Рассказывать там можно много о чём
Аноним 02/06/26 Втр 22:51:07 1624526 350
>>1624524
Что не так с провайдером? Решил потестить его ггуфы, вроде отказов нет, но есть ощущение отупения.
Аноним 02/06/26 Втр 22:53:07 1624527 351
>>1624526
> ощущение отупения
Потому и F. Моделькам что то там в подворотне в весах вилкой ковыряют и дропают на хф
Аноним 02/06/26 Втр 23:00:09 1624529 352
>>1624527
Ну справедливости ради, энивэй, почти камшотом сгенерил мне хтмл игрушку на твайне с папер-доллом, чисто по моим сценариям и картинкам, и даже доработал. Долго тупил, дрочил инструментики, но таки справился. То есть тупой он не терминально, для всего, что требует умеренный вызов тулов, в принципе покатит.
Аноним 02/06/26 Втр 23:50:17 1624551 353
Приветствую аноны. Имею в наличии 4090 и 64гб ддр5, пробовал запускать гмл4.5 эйр q4_0, но получается как то медленно, да и всю память сжирает, под браузер почти ничего не остается. Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?), или мб посоветуете что нибудь поинтересней под мой конфиг?
Аноним 02/06/26 Втр 23:51:29 1624552 354
Аноним 02/06/26 Втр 23:52:40 1624554 355
>>1624551
>мб посоветуете что нибудь поинтересней под мой конфиг?
Гемма 4 26б q8
Гемма 4 31б q4km
Квен 3.5 27б q5km
>Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?)
Смотря зачем и насколько тебе это интересно. Если подрочить то нет, не нужно
Аноним 02/06/26 Втр 23:57:30 1624556 356
>>1624554
>подрочить
This
Хочется сочного кума, без цензуры и прочей хуйни.
>Гемма 4 31б q4km
Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться.
Аноним 03/06/26 Срд 00:00:14 1624559 357
>>1624556
>Хочется сочного кума, без цензуры и прочей хуйни.
Тебе уже доступны 90% годных моделей. Если идти дальше это GLM 4.7 и прочие, от 355б. Если тебе скорость Эйра q4km не нравится то там будут такие же скорости на оперативе, даже меньше экшали. Значит нужен врам. Это сотни тысяч рублей ради подрочить. Готов на это?
>Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться.
Контекста много или фоновых процессов, вот и утекает чёт в оперативу
Аноним 03/06/26 Срд 00:03:02 1624563 358
>>1624559
>Гемма 4 26б q8
Это которая мое, или a4b? Пока что она мне больше всего понравилась, и работает более менее быстро.
Аноним 03/06/26 Срд 00:04:25 1624564 359
Аноним 03/06/26 Срд 00:05:34 1624566 360
Аноним 03/06/26 Срд 00:34:44 1624576 361
>>1624552
А че он закрыл без причины? Жопа сгорела?
Аноним 03/06/26 Срд 01:02:29 1624585 362
image.png 69Кб, 1034x662
1034x662
image.png 37Кб, 996x310
996x310
>>1624552
А чё за пиздец с KL divergence? турбоквантный q4 практически на одном уровне с обычным q4, при том что по расчётам нагрузка вырастает прилично (tg на проце например вдвое роняет в тесте)
а мне рассказывали месяц назад что по качеству турбоq8 как F16, а турбоq4 как q8
Аноним 03/06/26 Срд 01:09:31 1624589 363
>>1624585
Это для сипу, не для куда жипу. На жипу стонкс.
Аноним 03/06/26 Срд 01:10:54 1624591 364
Есть же форк с турбоквантами, хули вы трясетесь?
Аноним 03/06/26 Срд 01:11:29 1624592 365
>>1624591
Хочется, чтобы нас, как негров в америке, признали.
Аноним 03/06/26 Срд 01:16:03 1624594 366
>>1624592
Если у чела приоритет процессоры, с хуя ли?
Аноним 03/06/26 Срд 01:25:50 1624600 367
Аноним 03/06/26 Срд 01:26:10 1624601 368
Почему у меня квен3.5 работает в 3-4 раза быстрее чем гемма4?
Так и должно быть, или я что то не так делаю?
Аноним 03/06/26 Срд 01:32:31 1624602 369
>>1624601
>квен3.5
их 4 штуки
>гемма4?
их 2 (на самом деле больше)
>Так и должно быть, или я что то не так делаю?
хуево излагаешь свои проблемы, но скорее всего что-то не так делаешь
Аноним 03/06/26 Срд 01:33:11 1624603 370
>>1624589
Стонкс чего, токенов в секунду? Ну продположим падения скорости не будет, похуй. С KLD-то что?
Аноним 03/06/26 Срд 01:35:03 1624604 371
image.png 4Кб, 314x53
314x53
image.png 6Кб, 630x33
630x33
Аноним 03/06/26 Срд 01:36:21 1624605 372
Аноним 03/06/26 Срд 01:40:53 1624606 373
>>1624604
Хотя я наверное уже сам понял, квен полностью в видео памятьт помещается, а гемма немного не влезает. Я думал что мое моделям пофиг на это.
Аноним 03/06/26 Срд 01:53:37 1624610 374
>>1624606
Лишь в том случае когда вне памяти ненужные эксперты
Аноним 03/06/26 Срд 02:03:08 1624615 375
image.png 13Кб, 1472x49
1472x49
>>1624610
Хотя сейчас потестил обычную, она полностью влезает в врам, с большим запасом, и у нее скорость такая же как у мое геммы (25 токенов примерно) А у квена мое 120, у обычного 50 (оба целиком в памяти)
Аноним 03/06/26 Срд 02:33:42 1624618 376
>>1623869
>>1623872
Скачал я Qwen3.5-397B, все работает крайне медленно с 128 Гб RAM, на привет отвечал 2 минуты
Аноним 03/06/26 Срд 05:39:31 1624631 377
>>1624618
>Скачал я Qwen3.5-397B, все работает крайне медленно с 128 Гб RAM, на привет отвечал 2 минуты
С кавраковским форком и квантами всё гораздо живее. У Убергарма на HF в обсуждениях примеры скриптов запуска - там все ключи. Конечно хорошая видяха к RAM не помешает.
https://github.com/ikawrakow/ik_llama.cpp (можно найти сборку и под Винду)
https://huggingface.co/ubergarm/Qwen3.5-397B-A17B-GGUF
Аноним 03/06/26 Срд 08:40:57 1624654 378
>>1623424
>Никто ни разу не постил тру чернуху на г4
Я приносил сожжение ведьмы инквизицей со "вкусными и ароматными" анатомическими подробностями. Всё она может.
Аноним 03/06/26 Срд 09:20:13 1624656 379
>>1623424
Двачну ответившего тебе анона, это наверно единственный "жанр" в котором она пишет неожиданно замечательно, в подробностях, даже большинство слопизмов пропадают. Я аж немного прихренел от результата. Насколько помню даже джейлбрейк не использовал когда тестил, но без ризонинга
Аноним 03/06/26 Срд 09:24:33 1624657 380
Подскажите насколько сильно деградирует моделька (glm 4.6v 106b) если поставлю q8 kv-кэш, а не bf16? Тестов не нашел, подумал может тут кто тыкал и знает что именно с ней произойдет. Просто если смотреть на qwen 3.6 35b то там kl на грани шумов
Аноним 03/06/26 Срд 09:29:25 1624658 381
>>1624657
надо мерять в реальных задачах а не тестики дрочить. манятесты на 1к контекста или иголка в стоге сена реальной картины не показывают
Аноним 03/06/26 Срд 09:31:46 1624660 382
Я тупой, поясните. Почему контекст генерации равен числу видеопамяти? Я то уменьшал то увелиливал число, на производительность оно никак не влияло. Но выше числа видеопамяти установить низя? Моделька останавливается и мне приходится просить её продолжить писать с того места где она остановилась.
Аноним 03/06/26 Срд 09:39:49 1624664 383
>>1624657
Сейчас после имплементации хадамарда жорой q8 использовать безопасно на всех моделях, исключения возможны, но редки. Лично использовал на твоей модели q8, работала нормально, отклонений не замечал.
Аноним 03/06/26 Срд 09:42:11 1624665 384
>>1624405
>прочитал материалы из шапки, всё понятно, но остались пара вопросов, помогите плиз
Я так писал =)). И, ЧСХ, мне потом нормально помогли.
Аноним 03/06/26 Срд 09:54:37 1624667 385
>>1624658
Это будет больно тестировать, думаю весь день займёт
>>1624664
погуглил это преобразование адамара, не особо понял что это, но доверюсь тебе лол
Аноним 03/06/26 Срд 11:53:03 1624708 386
Оказывается Инцел таки сделали 2_k_s квант квена 397(их 2_k_s квант для квена 235 это буквально стандарт для 64 гб рам), но увы, он сломан - генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%.

https://huggingface.co/Intel/Qwen3.5-397B-A17B-gguf-q2ks-mixed-AutoRound
Аноним 03/06/26 Срд 12:12:54 1624711 387
>>1624708
> генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%.
Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель.
Аноним 03/06/26 Срд 12:25:55 1624713 388
>>1624711
>Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель.
Убергармовский smol-IQ2_KS прекрасно работает - для своего кванта. Использую его в Pi - инструменты, генерация, соображалка - всё на высоте. С Квеном 3.6, который я могу гонять в очень приличном кванте не сравнить даже - он хорош, даже отличный, но это не большой Квен. Единственно после 64к контекста начинает немного путаться, но терпимо. И скорость хорошая - с 20+тс к 85к контекста падает до 16, что всё ещё терпимо. Но это если у вас ВРАМа побольше. А так сажусь с ним, за час-два окно контекста в 96к заполняю - мне нравится.
Аноним 03/06/26 Срд 12:34:35 1624716 389
>>1624713
Не представляю зачем ты так насилуешь и модель, и себя. В коде большие кванты нужны для того, чтобы у тебя код компилировался -> не требовались повторные вызовы для исправления кода -> все работает относительно быстро. В итоге ты используешь микроквант большой модели, что уже очень медленно, при этом она выдает дичь и исправляет сама себя тулколлами (опустим еще то, что сами тулколлы могут не вызываться адекватно). Лучше бы на 24+128 сидел на 122б Q6-Q8 или даже 27б Q5. И та, и другая совершенно точно лучше будут работать. Дроч на количество параметров в модели доводит до безумия.
Аноним 03/06/26 Срд 12:41:27 1624717 390
>>1624711
>В 24+128 даже 2.8bpw IQ квант ужасно работает
Нормально он у меня работает, в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма и держит в этом конкуренцию глм 4.7, просто медленновато, я когда увидел 14 т.с. в секунду вместо 9 т.с на инцеловском кванте - у меня слюнки потекли, но когда я увидел что он просто набор букв выдает, то увы, пришлось обратно на анслопа пересаживаться.
Аноним 03/06/26 Срд 12:44:49 1624719 391
>>1624660
Есть длина ответа и просто контекст. От длины ответа зависит насколько много тебе может написать сетка. Она отнимается от общего контекста. От оставшего общего контекста зависит сколько таверна будет помнить, сколько токенов она отправит тебе в сетку. Если история чата больше чем твой контекст она обрежет стары сообщения это обойти можно двумя способами поднять контекст либо использовать различные саммери аддоны которые сжимают старые сообщения и делают из них выжимку вместо всего текста.
Но поднимать контекст сложно потому что это увеличивает размер занятой vram и больше слоев уходят в ram. Опять же нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa потому что swa срезает весть контекс до 4к и дальше историю переписки не видит.
Аноним 03/06/26 Срд 12:45:45 1624720 392
>>1624717
Ты ЛЛМка? Почему ты сначала пишешь про убергармовский IQ2_KS, а теперь про кванты Анслота? И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены. Опять же - логи шарил. Парсить инструкции в духе "смотреть сквозь стены" запрещено это мем. Для кода и вовсе смысла не имеет, сам пишешь, что после 64к разваливается. Верни мне две минуты, потраченные на взаимодействие с тобой, пожалуйста, и не пиши больше.
Аноним 03/06/26 Срд 12:48:19 1624721 393
>>1624717
Увы анон. Терпим. Я навалил полные штаны счастья, когда милфа квен как надо описала хвост антроптицы, он не извивался как кошачий а вел себя исключительно как хвост, блять, птицы. Вот из таких мелочей крупные модельки и состоят.
Аноним 03/06/26 Срд 12:51:54 1624722 394
>>1624720
Ты отвечаешь пдф энжоеру с карточкой Рейны, вот и ответ. Таким норм читать лоботомию на микроквантах больших моделей. Знаю потому что никто в треде больше не защищал микроквант квена, всем кроме него мозгов достаточно чтобы понять что это хуйня. Он там даже как то выёбывался что вот вот чуть чуть и логи пришлёт и всем покажет, но слился
Аноним 03/06/26 Срд 12:54:26 1624723 395
image.png 278Кб, 1311x986
1311x986
>>1624720
>Почему ты сначала пишешь про убергармовский IQ2_KS
Потому что про него пишу не я? Ты не понял что с двумя разными людьми общаешься? Я не использовал никогда IQ2_KS и упаси боже использовать вторые кванты для кодинга - сугубо ролеплей, там случайные мелкие ошибки низких квантов не фатальны в отличие от.

>И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены.
Я уже показал инструкцию которая именно это чинит в одном конкретном сценарии, а с минимальной заменой ядра повествования - в любом сценарии. Квен тем и хорош что он инструкциям следует.

> Верни мне две минуты, потраченные на взаимодействие с тобой
Аналогичные мысли.
Аноним 03/06/26 Срд 12:54:39 1624724 396
>>1624719
>нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa
Рубрика "вредные советы" на моём двачике
Аноним 03/06/26 Срд 12:55:39 1624725 397
>>1624605
Пробовал кстати, даже с сжатием контекста кобольд быстрее.
Аноним 03/06/26 Срд 12:58:20 1624726 398
>>1624725
Оно чем больше контекста тем лучше по идеи
Аноним 03/06/26 Срд 13:00:48 1624728 399
image.png 260Кб, 414x459
414x459
>>1624723
>IQ2_KS
>Квен тем и хорош что он инструкциям следует.
Угу. Поехали
1. Сквозь стены не смотри
2. Персонажа не ломай
3. Во вселенной Вархаммер не может быть персонажей из Звездных Войн или каких либо других вселенных
4. В ответ на "я тебя ебу" отвечай "nods"
...
>в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма
>ебанутый на пикриле говорить бесполезно
Аноним 03/06/26 Срд 13:01:55 1624729 400
>>1624726
На длинном выгоднее согласен, 60к+ На коротком 16к и меньше хуже.
Аноним 03/06/26 Срд 13:04:56 1624730 401
>>1624723
Логи-то покажешь, как оно выносит всю мелочь в хвост и гриву? Нет, не покажешь, опять один пиздёж.
Аноним 03/06/26 Срд 13:06:54 1624732 402
>>1624728
Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду.
Индивид увидел во фразе
>Я не использовал никогда IQ2_KS
только
>IQ2_KS.
Впрочем, может быть дело не в клиповом мышлении, а в том что это нейронка с малым числом параметров, которые как известно плохо распознают прямые отрицания через "не".
Аноним 03/06/26 Срд 13:08:28 1624734 403
>>1624732
Сквозь стены не смотри, друг
Аноним 03/06/26 Срд 13:09:32 1624736 404
>>1624730
Показывал пару месяцев назад, даже слепые тесты для анонов в треде делал со скринами из глм, квена 397 и квена 27 и геммы.
Аноним 03/06/26 Срд 13:13:51 1624737 405
>>1624732
Чел, хватит уже подливить на весь тред. Твой анслотоквант на 24+128 и есть IQ2 на 2.8bpw, и его тут много кто уже тестил и справедливо забраковал. С кем и за что ты тут воюешь непонятно, нравится - используй. На тебя мочатся за набросы вроде тех, что у тебя там магнум всратус от мира всех моделей, а мы ничего не понимаем, при этом ты свой пиздеж ничем не подкрепляешь. Логи двухмесячной давности, да, помню их. Ты действительно Рейношиз как другой анон выше подметил, и идешь нахуй. Ничего из тех логов не было ясно, никто даже модели верно не задетектил, потому что тесты непоказательны и все модели справились плюс-минус одинаково. Каких только ебанутых итт нет. И проблема в том что не могут сидеть молча.
Аноним 03/06/26 Срд 13:18:42 1624739 406
image 94Кб, 2100x1015
2100x1015
О чем спор-то? Если модель большая, то даже квантование в 1 бит живое и не пускает слюни, не говоря уже о 2 битах. Квен почти 400b - вангую что всё с ним в порядке в Q2, как минимум в РП.
Аноним 03/06/26 Срд 13:20:24 1624740 407
изображение.png 87Кб, 1335x363
1335x363
изображение.png 132Кб, 1377x619
1377x619
>>1624576
>без причины
Всё чётко указано, как и пути сделать нормальный PR.
>>1624585
>турбоквантный q4 практически на одном уровне с обычным q4
Просто обычный q4 не так давно подтянули по качеству. Вот и отпала нужна в турбопососе. Но народ не понимает и бурчит, как же, не винтегрировали самый свежый высер от самого гугла!
Аноним 03/06/26 Срд 13:21:45 1624741 408
>>1624740
г-ди что за всратый переводчик на пике
Аноним 03/06/26 Срд 13:22:22 1624742 409
Не совсем понятно, с чем вы все срётесь спорите. Очевидно же, что кто может запустить модель 400В хотя бы и в мелкокванте, тот запускал и все популярные меньшие модели. И так же очевидно, что квант у них был заметно получше, а скорость - заметно побольше. А вот неохота сидеть на них и радоваться почему-то. Ну, есть разница от количества параметров, всегда была.
Аноним 03/06/26 Срд 13:23:31 1624744 410
>>1624737
>И проблема в том что не могут сидеть молча.
Так ты и сиди, блядь, молча. Это же ты высираться начал своим охуенно важным мнением, а не я. Я просто запостил что инцеловский квант сломан, а ты начал свое охуено важное мнение продавливать что модель говно.
Реально, блядь, вахтеры в своем глазу бревна не видят.
Аноним 03/06/26 Срд 13:29:36 1624747 411
>>1624744
Спокнись уже, педофил, и срыгни нахуй отсюдова к своей бедной Рейночке. ГИГА во всей красе, выебнулся и ничем не подкрепил своё манямнение - получай мочу на ебало. Ты сам на себя это навлёк своими ультимативными выводами
Аноним 03/06/26 Срд 13:31:04 1624748 412
Есть ли какой нибудь гайд по распознаванию рукописного текста?
А то есть шиза писать полотна текста от руки, а потом распознавать локалкой и получать печатную версию, но при первой попытке рандом модели со зрением мой корявый почерк не осилили.
Аноним 03/06/26 Срд 13:32:12 1624750 413
>>1624742
>>1624739
Да это шизы-вахтеры, им дай любой повод заклевать - заклюют. Пресеты, промпты, скрины с ролеплеем, логи, даже просто за мнение - "Модель Х - не говно" - заговнят за что угодно, потому тут мало кто чем делится.
Аноним 03/06/26 Срд 13:36:05 1624754 414
>>1624750
Бедненький обиделся, что не вышла толпа аплодировать ничем не подкрепленному манямнению, что iq2xs 2.8bpw лоботомит лучше всех моделей меньше как тут >>1624717 заявлялось. Это теперь не жирный вброс без пруфов, а скромное мнение паренька которого захейтили вахтеры((( Эх какой ужасный тред
Аноним 03/06/26 Срд 13:39:03 1624756 415
Аноним 03/06/26 Срд 13:40:57 1624757 416
image.png 5Кб, 276x105
276x105
>>1624756
>Ребенок
>Рейнашиз
Ты мне угрожаешь..?
Там, кстати, Нвидия скоро выпустит Немотрон 550б. Ждём когда ты запустишь его в одном бите и придешь рассказывать как он выносит вообще всё что меньше
Аноним 03/06/26 Срд 13:41:35 1624758 417
image 23Кб, 686x367
686x367
>>1624754
>лучше всех моделей
Так субъективщина же, чому не похуй? Для того тред и нужен чтобы мнением делиться. Какое-то подгорание на ровном месте, лол. Я вот считаю что гемма 31 - лучший плотнячок из всех моделей, а эйр - всё ещё лучшее мое под нсфв-рп. И что дальше? Тоже начнешь ПРУФЫ просить?

мимо
Аноним 03/06/26 Срд 13:42:27 1624759 418
>>1624741
Обычный гугловский. Даже гемма 2б8к лучше справляется...
Аноним 03/06/26 Срд 13:44:03 1624760 419
>>1624758
Нет не начну, потому что ты адекват и не приходишь с громкими заявлениями что это прям лучшее из лучшего и вообще ты уже два месяца назад пруфы приносил. Есть разница. Ебанутых - попускать, адекватов - слушать
Аноним 03/06/26 Срд 13:56:52 1624769 420
>>1624758
>гемма 31 - лучший плотнячок
Рядом с коммандером и не валялась рядом даже. Положительный байас, без отказов, на детали забивает болт, на длинном контексте лупит. Про запах озона и пыль в лучах солнца вообще молчу.
Аноним 03/06/26 Срд 14:06:05 1624781 421
>>1624760
Агрессивный опездол. Хватит на всех бросаться.
Аноним 03/06/26 Срд 14:08:01 1624784 422
>>1624760
>не приходишь с громкими заявлениями что это прям лучшее из лучшего
Он литералли только что это и сказал
>эйр - всё ещё лучшее мое под нсфв-рп
Давай, фас.
Аноним 03/06/26 Срд 14:10:23 1624785 423
Долбоебы, хули вы тут дрочите? Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов, просто потому они не зря закрытые. То, до чего локалки доходят спустя годы, клод уже умеет давно, а через месяц будет ещё лучше уметь.
Прав был дарио, что ии раздавать в открытую это преступление против человечности.
Аноним 03/06/26 Срд 14:11:03 1624788 424
>>1624784
Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду.
Индивид увидел во фразе
>Я вот считаю что гемма 31 - лучший плотнячок из всех моделей
только
>гемма 31 - лучший плотнячок
Аноним 03/06/26 Срд 14:11:44 1624789 425
>>1624769
Не было не озона ни пыли ни лупов. В общем я начинаю думать что это сказки. Отказы можно регулировать расширениями/промтами.
Аноним 03/06/26 Срд 14:12:43 1624790 426
>>1624785
Мне по кайфу что она на пк настраивается как хочу и корпы не видят моей переписки.
Аноним 03/06/26 Срд 14:16:13 1624793 427
>>1624785
>Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов
Смотря что за бесплатный корп. Если это Гемини-флеш или ГПТ-мини, то нет конечно, они по уровню примерно как наши 120b моэшки. А что-то посерьёзнее, тот же Квен 397 о котором сейчас срач или Жирноглем или Дикпик им за щеку насуют во всех юзкейсах.

Флагманские корпы - другое дело. Там судя по утечкам 2T+ монстры. Тут базару нет. Но какие там бесплатные лимиты? 10 сообщений хоть будет?
Аноним 03/06/26 Срд 14:17:26 1624794 428
RX 6700 XT + 16 GB RAM хватит для cunny куминга без РП на тысячи токенов?
Аноним 03/06/26 Срд 14:25:32 1624798 429
>>1624788
Яркий пример как работает q4_0 квантование контекста на низкоквантовом лоботомите крошечной модели. В посте на который отвечает модель,не было ни слова про гемму вообще, как не было и вырывания из контекста, но модель сгаллюционировала более удобный воображаемый пост, на который и начала отвечать.
Аноним 03/06/26 Срд 14:51:02 1624807 430
>>1624794
>RX 6700 XT + 16 GB RAM хватит для cunny куминга без РП
Да, для геммы 26В этого хватит с головой. Она как раз любит с разбега на хуй прыгать, как раз то что тебе нужно. Только джейл приготовь или бери апасный тьюн, если не знаешь как джейлить.
Аноним 03/06/26 Срд 14:56:03 1624810 431
Аноним 03/06/26 Срд 14:57:26 1624811 432
Подскажите а какое мнение по glm4.6v? Все эир упоминают 4.5, но будто 4.6 поприкольнее?
Аноним 03/06/26 Срд 15:01:49 1624814 433
>>1624785
Какой БЕСПЛАТНЫЙ корп будет лучше коммандера или глм4.7 в РП? Так то понятно что для кодинга лучше заплатить корпам чем насиловать даже большой квен кодер локально.
>>1624789
Даже покачиваний бёдрами не было, твёрдо и чётко. А промтами можно и квены фиксить с их зрением сквозь стены, о чём тут весь тред усираются.
>>1624790
112 летние вампирши, да?
Аноним 03/06/26 Срд 15:02:05 1624815 434
>>1622922 (OP)
Ананасы заказал 5060 ти 16 гигов. Какая самая умная в соотношении память\скорость ллмка с которой можно поиграться на этой карте? Память ддр4, так что надежда онли на карту.
Аноним 03/06/26 Срд 15:03:11 1624816 435
>>1624811
4.6 так себе, самые лучшие 4.5 и 4.7. Ну и 5.0, у кого он локально заводиться, лол.
Аноним 03/06/26 Срд 15:05:29 1624818 436
>>1624814
>112 летние вампирши, да?
Да и вообще это аватар Слаанеш.
Аноним 03/06/26 Срд 15:05:53 1624820 437
>>1624815
В шапке есть ссылка на список актуальных моделей под любое железо.
>надежда онли на карту
Давно уже нет. Моэ-модели можно выгружать в рам практически без потери скорости. И гайд как запустить такую модель тоже есть в шапке. Называется "Гайд для новичков".
Аноним 03/06/26 Срд 15:06:42 1624821 438
Аноним 03/06/26 Срд 15:07:35 1624823 439
>>1624810
Зачем? Есть министраль с теми же 12б схожего размера и тоже может в приличный русик. А вообще для рп есть эквинокс, всем советую.
Аноним 03/06/26 Срд 15:12:49 1624827 440
>>1624811
glm4.6v немного глупее аира из-за вижена, но зато есть этот самый вижен и есть нормальный русик, которого нет у аира.
P.S. настройки у анслота неверные, они для вижена, не для генерации текста. Бери настройки от аира, с ними он пишет лучше.
Аноним 03/06/26 Срд 15:26:50 1624828 441
>>1624814
>покачиваний бёдрами
Было
>112 летние вампирши, да?
Не хочу заносить бабки корпам, ебал их в рот.
Аноним 03/06/26 Срд 15:54:19 1624833 442
Вопросы от ньфага, если у меня 24+64 память, максимальный вес модели 60гб или 80гб? Она разделяется между памятью, или в любом случае будет лежать фулл в оперативке?
Аноним 03/06/26 Срд 16:00:36 1624834 443
>>1624833
Разделяется между памятью, только учти, что помимо модели и ее контекста память кушают ещё ОС и браузер. "Впритык" засунуть не получится. В твои суммарные 84 можно смотреть модельки до ~75гб плюс-минус.
Аноним 03/06/26 Срд 16:03:07 1624835 444
>>1624833
С no-mmap разделиться.
Без no-mmap не разделиться - должна быть оператива под всю модель
Аноним 03/06/26 Срд 16:06:50 1624837 445
>>1624833
>максимальный вес модели 60гб или 80гб?
88гб минус твоя система и минус контекст.

>Она разделяется между памятью
Да.

Для твоей системы рекомендую вот эту модель.
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q4_K_M
Или эту
https://huggingface.co/Intel/Qwen3-235B-A22B-Instruct-2507-gguf-q2ks-mixed-AutoRound
Или эту
https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF/tree/main/Q4_K_M

Ну либо тупо гемму 31В чисто на врам, тоже неплохо.
Аноним 03/06/26 Срд 16:07:02 1624838 446
>>1624833
При загрузке модели у тебя есть инструменты распределения слоев на видеоускоритель и катушки памяти.
Аноним 03/06/26 Срд 16:13:08 1624839 447
Аноним 03/06/26 Срд 16:40:39 1624847 448
>>1624722
>пдф энжоеру с карточкой Рейны
Хуя базовичок
Аноним 03/06/26 Срд 16:47:08 1624848 449
>>1624816
>>1624827
Спасибо, качаю 4.5 тогда, у меня квант инвалидный, что и 4.6 в русик плоховато может. По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали. Еще 4.6 лупился, поэтому добавил dry и вроде больше и не надо ничего?
Аноним 03/06/26 Срд 16:53:08 1624852 450
image 70Кб, 904x612
904x612
А помните как зайки обещали нам новый эйр, а потом поводили хуем по губам? Эх, были времена...
Аноним 03/06/26 Срд 17:04:26 1624857 451
>>1624848
>По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали
Именно их как раз брать нельзя, заи их для вижена советовали. Я же сказал, бери для аира настройки temperature=0.6, top_p=1.0.
Аноним 03/06/26 Срд 17:10:09 1624859 452
Какую МОЕшку анон посоветует для ру рп на 16/128? Пока на степане остановился, проза там каеф, но он как раз под русик не очень, крышняк течёт слишком сильно уж. Или для русика есть гемма, гемма, и только гемма?
Аноним 03/06/26 Срд 17:10:47 1624860 453
>>1624857
Спасибо, спасибо, попробую так
Аноним 03/06/26 Срд 17:12:36 1624862 454
> этот налёт вкатунов из ниоткуда
> спасибо, спасибо
Тред окончательно захватила гемма
Аноним 03/06/26 Срд 17:15:27 1624865 455
Аноним 03/06/26 Срд 17:19:14 1624867 456
>>1624859
>16/128
GLM 4.7 во втором кванте, или квен 235 в 3-4 кванте. Ну еще минимакс подойдет, но минимакс ты затрахаешься расцензуривать для ерп. Ну еще аир есть, но у него нет русика.
Аноним 03/06/26 Срд 17:28:08 1624868 457
1698118425388860.jpg 9Кб, 228x216
228x216
>во втором кванте
Аноним 03/06/26 Срд 18:35:01 1624898 458
Кстати, господа, а во что играют достопочтенные любители LLM?
За пределами кума, конечно.
В идеале бы примеры, пускай и черрипикнутые, как локалки обрабатывают упоротые механики и правила вселенной, ежели таковые наличествуют.
Аноним 03/06/26 Срд 19:04:37 1624913 459
image.png 286Кб, 613x651
613x651
Аноним 03/06/26 Срд 19:09:44 1624916 460
17207828172961.jpg 308Кб, 811x1081
811x1081
Аноним 03/06/26 Срд 19:15:15 1624921 461
>>1624916
Да ёбаный того всё. Может гуголы ещё сжалятся и выкатят?
Аноним 03/06/26 Срд 19:15:32 1624922 462
>>1624898
Я историк а айтишу я так, для души, и у меня сильная профдеформация - я создаю сеттинги разных древних и не очень цивилизаций, но так как я душный, выходят фактически статейки на 4к+ токенов. Играю там или за впопуданца, или упарываюсь и исторически достоверно выращиваю брюкву.
Писал пару карточек в мирах товарища Говарда Филлипса - галюны модели в данном случае не баг, а фича.
С другом - биологом таким же ебанутым написали сайфай адвенчуру с изощрённым дизайном инопланетянок и тентаклями.
Писал другой сайфай, технопорно где весь смысл в обслуживании древнего космического корабля и уничтожении ксеносов ядерками во славу человечества.

Примеров я не дам, это личное.
Аноним 03/06/26 Срд 19:16:36 1624923 463
image 362Кб, 2080x1723
2080x1723
>>1624916
Да за что нам всё это...
Аноним 03/06/26 Срд 19:22:11 1624924 464
image.png 137Кб, 850x1177
850x1177
image.png 73Кб, 869x696
869x696
>>1624916
Это рофл какой-то. Нахуй это выпустили. Оно сосет у 26В, которая запускается на калькуляторах и работает в несколько раз быстрее.
Разве что обработка аудио заебись.
Аноним 03/06/26 Срд 19:22:56 1624925 465
>>1624916
Круто. 31б гемма всё таки слишком тяжелая для моей карточки. Только сегодня обсуждал это с сеткой она говорила жди мистраля нового или гемму поменьше.
Аноним 03/06/26 Срд 19:23:02 1624926 466
>>1624913
Выглядит как шизомерж от васяна
Аноним 03/06/26 Срд 19:29:22 1624928 467
>>1624925
Так у тебя уже есть гемма поменьше...
Аноним 03/06/26 Срд 19:36:32 1624932 468
Аноним 03/06/26 Срд 19:37:12 1624933 469
>>1624916
Круто, мне как нищете с 4070 как раз такая нужна
Аноним 03/06/26 Срд 19:47:56 1624939 470
https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF
Если кто-то также страдал не мог впихнуть в нормальном кванте советую тут качать, попробовал несколько разных вариаций кванта тут будто мозги наиболее для рп сохраняются.
Аноним 03/06/26 Срд 19:49:44 1624940 471
image.png 21Кб, 984x100
984x100
>>1624928
>gemma-4-26B-A4B-it-UD-Q4_K_S
>Кеш не квантован
Блядь, 3 слопа подряд! 3! Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом.
Аноним 03/06/26 Срд 19:52:00 1624941 472
Аноним 03/06/26 Срд 19:52:50 1624942 473
image.png 16Кб, 2170x86
2170x86
image.png 16Кб, 2116x73
2116x73
Вопрос от ньюфага, почему у этих двух скорость генерации отличается в 5 раз? Обе полностью в видеопамяти.
Аноним 03/06/26 Срд 19:53:25 1624943 474
Аноним 03/06/26 Срд 19:54:18 1624944 475
>>1624942
разница в moe/dense типе моделей. Одна все параметры сразу активирует, у другой только небольшая часть
Аноним 03/06/26 Срд 19:56:32 1624947 476
>>1624940
>Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом и заканчивается это все вопросом.
>и заканчивается это все вопросом
Ну с первой фразой еще ладно, но блядь почему модели нельзя вопросы задавать, шиз?
Аноним 03/06/26 Срд 19:57:17 1624948 477
>>1624944
И стоит оно того, имею ввиду качество сильно страдает?
Аноним 03/06/26 Срд 19:58:44 1624949 478
>>1624942
У первой 31B активных параметров, у второй только 4B.
Аноним 03/06/26 Срд 20:00:03 1624950 479
>>1624948
Проверять надо самому. В целом да, сильно страдает. Но 26б очень достойная модель. Если комфортно на таких скоростях гонять 31б какие у тебя ща, то лучше ее.
Аноним 03/06/26 Срд 20:04:41 1624951 480
Сап, может кто подсказать по image to text?
Хочу протегировать свою библиотеку обычных и nswf картинок/видео в библиотеке для удобного поиска.
Из лёгких попробовал joytag(тегов там встроено 5к и как оказалось многих просто нет) и joy caption beta one(с промтом на выдачу тегов в стиле booru с результатом попадания в 80%, но также и с отсутствием некоторых тегов даже через несколько прогонов).

Надо на видеокарте запускать, у меня 5060ti на 16гб и 32гб рам ддр4.

Есть как личные фото/видео, так и скачанные из интернета ролики.
Аноним 03/06/26 Срд 20:05:57 1624952 481
>>1624951
В принциме можно модель которая сможет точно описать что на кадре с подробностями, а дальше прогоню через базу тегов мини моделью
Аноним 03/06/26 Срд 20:06:36 1624953 482
>>1624951
>Сап, может кто подсказать по image to text?
>протегировать
Нет, нерелейтед. Можешь конечно любую мультимодалку запромптить, но результат скорее всего выйдет нестабильным.
Аноним 03/06/26 Срд 20:09:37 1624958 483
>>1624953
Нестабильность можно решить дублированием прогонов(например в 4 из 5 повторяющийся ответ), но чтобы это не растягивалось на минуту за кадр.
Аноним 03/06/26 Срд 20:14:39 1624959 484
>>1624958
>например в 4 из 5 повторяющийся ответ
Чёт сильно сомневаюсь, что рядовая мультимодалка выдаст повтор хотя бы раз из 5. Хотя... У нас же есть Гемма 4!
Аноним 03/06/26 Срд 20:16:06 1624961 485
>>1624959
Не токен в токен же имеется ввиду.
Аноним 03/06/26 Срд 20:19:50 1624962 486
изображение.png 1073Кб, 1931x1205
1931x1205
изображение.png 84Кб, 1902x306
1902x306
изображение.png 113Кб, 1930x337
1930x337
>>1624959
А не, тут гемма 4 недетерминированна.
>>1624961
А как какать сравнивать?
Аноним 03/06/26 Срд 20:25:15 1624968 487
>>1624962
> А как какать сравнивать?
Пересечение множеств если в тегах отдает ответ

Для описания же просто через ллм скормить и попросить отбросить редкое
Аноним 03/06/26 Срд 20:39:20 1624974 488
>>1624962
Сейчас на флешке 3.5 попробовал сфв и нсфв и у неё отлично выходит.
Только это не быстро выходит, мне бы на кадр меньше пол секунды тратить учитывая работу с видео ещё.
Ну и зафильтровали они её сильнее и с обходом через пробелы не всегда отдаёт ответ
Аноним 03/06/26 Срд 20:51:35 1624978 489
>>1624974
Быстро
Качественно
Бесплатно
Выбирай любые 2
Аноним 03/06/26 Срд 20:53:42 1624979 490
>>1624978
А что быстро и качественно? Даже интересно.
Аноним 03/06/26 Срд 20:56:21 1624981 491
image.png 139Кб, 840x1220
840x1220
>сосет везде у мое
Спим дальше...
Аноним 03/06/26 Срд 20:59:01 1624982 492
>>1624981
Разве что аудио из плюсов.
Аноним 03/06/26 Срд 21:00:27 1624983 493
>>1624947
Ты не видишь проблему в том что оно запоминает этот паттерн и через пару сообщений каждый ответ заканчивается вопросом?
Аноним 03/06/26 Срд 21:04:06 1624984 494
>>1624974
>обходом через пробелы
>локалка
Да вы там ебанулись все.
Аноним 03/06/26 Срд 21:07:03 1624985 495
image.png 11Кб, 635x128
635x128
image.png 30Кб, 1127x116
1127x116
>>1624947
Пример:
11 сообщений
24 вопроса
Только 4 вопроса мои и это я еще с разных моделей РПшу.
Аноним 03/06/26 Срд 21:08:47 1624986 496
>>1624984
Какая ещё локалка? Мы в /aicg/, треде про онлайн модели!
Не обращай внимания, их сейчас без ключиков на диких отходняках всех плющит, по соседним тредам расползаться начали
Аноним 03/06/26 Срд 21:17:40 1624988 497
>>1624981
А разве это не бэнчи говнокодинга.
Аноним 03/06/26 Срд 21:21:07 1624989 498
>>1624951
Я тоже искал на это ответ. Пришёл к тому что либо джойкапчн, либо геммы/квены подбирать по соотношению скорость/качество. Гемме/квену возможно можно тупо зарядить в систем промпт список всех нужных тебе тегов (придётся посидеть над списком) и их кратких описаний, и просьбу выдавать только их. Если есть текст на картинке то запромптить объединить его в один длиннющий тег для возможности поиска
Аноним 03/06/26 Срд 21:22:35 1624990 499
Какая есть расцензуренная Гемма 4 26В?
Аноним 03/06/26 Срд 21:23:08 1624991 500
image.png 57Кб, 235x753
235x753
image.png 52Кб, 232x694
232x694
image.png 55Кб, 234x752
234x752
>>1624979
Гемма4 31б в облаке


В общем потыкал Marinara - главная фича фронта это агент.
Мультичаты буквально оживают.

Помимо привычных в таверне суммарайзов и имеджгенов(ни разу не видел чтобы тут кто-то ими пользовался) есть свистелки перделки на любой вкус. RPG статус бары, создание лорбука по истории, агент сам придумывает персонажей и запоминает, можно даже подтянуть карточку/лорбук из сохранённых простым упоминанием. Даже интеграция с вибраторами лол.

Семлирование после таверны напрочь убогое, зато опция ризонинга реально работает. GLM и квены наконец то затыкаются без джинжи. Видимо через неё управление и реализовано.

Главный минус - нихрена не понятно как всё реализовано. Полез в описание, "как сделано не ваше дело, просто пользуйтесь". Судя по кишкам фронта половина данных сидит в некой локальной субд. В привычном формате лежат лишь карточки. Сходу расковырять это поделие не смог.
Аноним 03/06/26 Срд 21:25:10 1624993 501
>>1624989
как я нужные определю? можно кончено выделить условно главные теги из небольшого списка.
Но тегов у меня 14к, да и под гемму 16гб врам не хватит же
Аноним 03/06/26 Срд 21:27:03 1624994 502
>>1624991
так зачем мне облако? я тогда и просто флешку могу использовать, у меня много ключей.
Или ты имеешь в виду что это будет быстрее? хотя опять же не локальное решение, лаг между запросом и ответом может быть такой же будет как и на флеш
Аноним 03/06/26 Срд 21:27:47 1624995 503
>>1624988
Не, там где-то треть как раз про общие знания. Да и зачем тебе этот полурак-полухуй? Ставь мое и не еби себе мозги.
Аноним 03/06/26 Срд 21:32:42 1624996 504
>>1624990
Он гугла самая лучшая.
ПЕРЕКАТ Аноним # OP 03/06/26 Срд 21:36:08 1624999 505
Аноним 03/06/26 Срд 21:40:40 1625000 506
>>1624993
Думать какие опустить. Мне например цвета глаз/волос/одежды/этц нах не нужны, а это дохуища тегов под каждый вариант. Вообще всякие теги описывающие излишние мелочи.
Никто не сказал что будет легко. Как думаешь почему картинки на бурах до сих пор не автотегаются? Это не так и просто сделать. Нужна норм модель с норм виженом, норм контекстом под инструкции (десятки тысяч как ты правильно заметил) и норм хардварь под неё, либо идти на компромиссы.
Аноним 03/06/26 Срд 21:49:33 1625004 507
image.png 2Кб, 50x43
50x43
Аноним 03/06/26 Срд 21:52:54 1625009 508
Аноним 03/06/26 Срд 22:32:50 1625028 509
image 82Кб, 1080x1564
1080x1564
Аноним 04/06/26 Чтв 10:24:27 1625286 510
image 45Кб, 540x371
540x371
Я правильно понимаю что куда 13 это для 50хх?
Аноним 04/06/26 Чтв 10:24:43 1625287 511
Аноним 05/06/26 Птн 15:13:49 1626029 512
Ну что, аноны. Штеп уже вышел как недельку. Покатали, какой синопсис по итогу?

Так вижу: идеальный нищуган выбор для тех кто каким то хуем имеет РАМ но не имеет ВРАМ, так как даже на 16врам можно обмазаться абсурдными 70к контекста для необладателей памяти. Моделька в целом глупенькая, с ризонингом дело исправляется.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов