/ai/ - Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №229

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №229 /llama/ Аноним 30/04/26 Чтв 12:05:34 № 1601740 1

Карта деградаци[...].png 153Кб, 1473x830

Реальная длина [...].png 518Кб, 2372x1712

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1600155 (OP)
>>1598239 (OP)

Аноним 30/04/26 Чтв 12:13:04 № 1601745 2

Я в отчаянии. Почему я просто не могу получить модель лучше air'а 10 месячной давности?
Вышел немотрон, квен, степ, мистраль, линг все со стандартными 11-12б активных и всё равно это не апгрейд для рп

Аноним 30/04/26 Чтв 12:14:06 № 1601747 3

>>1601745
Потому что ты шизик

Аноним 30/04/26 Чтв 12:35:08 № 1601757 4

>>1601745
плотная гемма и 70b тюны ламы - дешёвые сайдгрейды аира
123b criminal computing поёбывает аир
дипсик флэш ставит эйр раком
выбирай

Аноним 30/04/26 Чтв 13:07:40 № 1601784 5

Есть способ стену текста на 1200 токенов от гемочки превратить в теги для генерации картинки в комфи. Сначала пытался стандартным таверновским, оказалось он годится для старых sd новые вокрфлоу с небольшими квенами не воспринимает гонит туда другие теги. Пытался на холодных инструктах держа в контексте внешку через кобольд выгнать теги но результат так себе не регулярный.

Аноним 30/04/26 Чтв 13:09:42 № 1601787 6

>>1601784
В прошлом треде

Аноним 30/04/26 Чтв 13:18:53 № 1601795 7

>>1601787
Это не то, мне делать теги из готового текста надо, не писать что я хочу.

Аноним 30/04/26 Чтв 13:19:26 № 1601796 8

>>1601787
Если ты про анона который просто скормил гемме доки анимы, то нет там ничего

Аноним 30/04/26 Чтв 13:21:02 № 1601797 9

>>1601795
Ну так и попроси гемму, вываливаешь в неё доку от модели, свой текст, она его пережовывает в промпт

Аноним 30/04/26 Чтв 13:24:10 № 1601799 10

>>1601797
Если бы было просто то не спрашивал тут. Пол дня пытался на 2гиговых квенах на плотных инструктах на самой гемме. Промтов 50 поменял. Универсального решения не нашел. Вручную читать и подтирать каждый тег не хочу.

Аноним 30/04/26 Чтв 13:49:38 № 1601822 11

>>1601784
Как вариант засунуть список тегов в контекст и попросить выдернуть нужные.

Аноним 30/04/26 Чтв 13:54:41 № 1601824 12

Никого не забыл вроде?

Аноним 30/04/26 Чтв 14:00:14 № 1601828 13

>>1601822
Хуя себе какая штука! А так можно было ?
https://huggingface.co/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100

Аноним 30/04/26 Чтв 14:03:45 № 1601831 14

>>1601824
Квен 3.5 - няша-стесняша-писательница, квен 3.6 - секретарша-агентщица.

Аноним 30/04/26 Чтв 14:10:05 № 1601838 15

>>1601824
Кринж, не приноси такое больше пжлста

Аноним 30/04/26 Чтв 14:10:45 № 1601839 16

У меня опять сломался эир.
Я щас всё разъебу и распродам в пизду. Ну не может так быть что настройки и карточка те же, а выдает скучнейшие короткие ответы. Я себя чувствую как облакоблядь которому гемини лоботомировали.
Я еще жору компилю раз в пару дней от чего шиза обостряется

Аноним 30/04/26 Чтв 14:13:09 № 1601841 17

>>1601839
Да, распродай все и сьеби. Лучше Эира уже не будет а он шизопомойка

Аноним 30/04/26 Чтв 14:14:40 № 1601842 18

>>1601839
>>1601841

Аноним 30/04/26 Чтв 14:20:26 № 1601848 19

Вот бы можно было проверить свайп годичной давности, как в комфи даже если картинке 2 года просто закидываешь её, считывается мета и генеришь точную копию, знаешь что ничего не сломано

Аноним 30/04/26 Чтв 14:26:38 № 1601858 20

>>1601824
Годнота, приноси и дальше в тред, пожалуйста

Аноним 30/04/26 Чтв 14:26:59 № 1601859 21

>>1601838
терпи.webm

>>1601839
Очевидные проблемы с пресетиком и самой карточкой. У меня всё норм с Эйром. В своём размере всё ещё лучшая модель для рп/ерп.

Аноним 30/04/26 Чтв 14:45:03 № 1601869 22

>>1601824
Средненько. Можешь не приносили или приносить больше такого в тред. На твоё усмотрение.

Аноним 30/04/26 Чтв 15:03:24 № 1601876 23

>>1601824
Кринж.

Аноним 30/04/26 Чтв 15:05:54 № 1601879 24

>>1601824
База.

Аноним 30/04/26 Чтв 15:06:03 № 1601880 25

>>1601848
curl localhost:8080 flags payload.json

Аноним 30/04/26 Чтв 15:08:09 № 1601883 26

>>1601828
https://www.reddit.com/r/LocalLLaMA/comments/1szrbub/qwenscope_official_sparse_autoencoders_saes_for/

тлдр - инструмент для потрошения внутрянки квенчиков. может быть скоро запилят охуенные файнтюны.

Аноним 30/04/26 Чтв 15:21:41 № 1601896 27

А кто-то из врамобояр уже потестил новый Мистраль? Как он? Лучше геммочки, квенчика и моешик?

Аноним 30/04/26 Чтв 15:22:37 № 1601897 28

Вы вот всё про скилишью. Но почему тайлунг тоже повёлся на свиток дракона? У него явно со скилом всё было в порядке.

Аноним 30/04/26 Чтв 15:26:00 № 1601900 29

>>1601897
Так у него свежей геммочки-писечки не было.

Аноним 30/04/26 Чтв 15:26:49 № 1601902 30

>>1601896
Выше писали тред/реддит/хф ггуфы ломаные.
С вллм сегодня попробую https://huggingface.co/rdtand/Mistral-Medium-3.5-128B-PrismaQuant-4.75-vllm/tree/main

Аноним 30/04/26 Чтв 15:30:55 № 1601904 31

>>1601824
Кринжебаза.

Аноним 30/04/26 Чтв 15:40:48 № 1601909 32

Зерофата занялся тюном новой мистрали. Оц овер.

Аноним 30/04/26 Чтв 16:55:15 № 1601946 33

Дипсик новый вона какие графики рисует, охуеть просто. Может ли так гемочка или квен?

Аноним 30/04/26 Чтв 17:07:58 № 1601955 34

>>1601946
У нормальных людей модели вот так могут.

Аноним 30/04/26 Чтв 17:09:28 № 1601957 35

>>1601955
А текстом может так?

Аноним 30/04/26 Чтв 17:11:35 № 1601960 36

>>1601957

Аноним 30/04/26 Чтв 17:18:47 № 1601966 37

>>1601960
Ладно, меня обоссали.
Но все же интересно че в локалках

Аноним 30/04/26 Чтв 17:20:13 № 1601968 38

>>1601966
Там тоже все норм давно уже. Мне кстати нравится как Qwen в ASCII рисует всякие там связи.

Аноним 30/04/26 Чтв 17:41:48 № 1601977 39

>>1601968
А зачем когда mermaid есть?

Аноним 30/04/26 Чтв 17:49:31 № 1601982 40

>>1601977
Кривовато выглядит.

Аноним 30/04/26 Чтв 18:01:17 № 1601990 41

>>1601977
Попробуй mermaid в какую-нибудь README.md сунуть лол. Иногда в документации надо рисовать КАРТИНКИ. Чтобы потом тупо в блокноте можно было открыть, или ещё где.

Алсо ГПТ там обдрочился чтоли? не мог же он пропустить целую линию?

Аноним 30/04/26 Чтв 18:05:49 № 1601996 42

>>1601982
Лол а тут целая лишняя связь откуда-то взялась. Tools и Memory Section стрелочкой не соединены.

Аноним 30/04/26 Чтв 18:13:14 № 1601997 43

>>1601946
1) GLM Air 106b Q4
2) Qwen 122b Q4
3) Gemma 26b Q8

Аноним 30/04/26 Чтв 18:28:27 № 1602008 44

>>1601997
Орнул с геммы. Она наверняка и крутые аски арты с голыми бабами сможет нарисовать

Аноним 30/04/26 Чтв 18:46:06 № 1602020 45

>>1601997
>15к ризонинга за 1 запрос
>20к ризонинга за 1 запрос
Что там такое? Обычно я бы начал думать что модель ушла в луп, но раз ответ есть, значит скорее всего нет.

Аноним 30/04/26 Чтв 18:50:12 № 1602024 46

>>1602020
Как и всегда у китайских моделей, ответ был готов почти сразу, но начинается клоунада с BUT WAIT... и переливание из пустого в порожнее по 10 раз.

Аноним 30/04/26 Чтв 19:05:57 № 1602031 47

>>1601627 →
>А тебе для картинок не пофиг где будет дом жить? Выкинь v100 в виртуалку и катай гемму там. v100 в отличие от блеквела должна без проблем пробрасываться.
Я же писал, что я их и для картинок использую. Если у тебя есть решения, где в мультигпу сетапе можно использовать в т.ч. удаленные девайсы, то поделись. Я только Ray накопал, но он, по-видимому, нативно никуда не интегрирован, и надо будет пердолиться самому. Но тут на борде обычно случается пикачу.jpg когда речь идет о мультигпу в картинках.
Хз, максимально пидорский мув от куртки. Теперь понятно, чому ушлые китайцы так активно выкидывают вольты на рынок.

Аноним 30/04/26 Чтв 19:08:46 № 1602033 48

>>1602031
Уточнение - мне такие решения нужны для diffusers, не для комфи, лапша это безнадега

Аноним 30/04/26 Чтв 19:10:52 № 1602034 49

>>1602020
всё как обычно

Аноним 30/04/26 Чтв 19:23:36 № 1602037 50

>>1602031
Нихуя не понятно что ты хочешь. Чтобы карты динамически распределялись между llm и diffusion или что? Или ручной переброс через CLI без перезагрузки?

Аноним 30/04/26 Чтв 19:54:33 № 1602059 51

Тестирую сейчас новый тюн от даркена и чёт ну бля хз даже хм-хм. С одной стороны стало меньше озона, мускуса и прочих слопвордов, с другой персонажи стали говорить суше.
Серафина, что забавно, когда я сказал, что могу ей помочь с её одиночеством, посоветовала не говорить глупостей и ложиться спать, т.к уже ночь. Хоба. Пожалуй впервые за сотни тестовых чатов Серафина сделала акцент на времени суток, мягко рефьюзнув. Надо будет попросить её посмотреть в ночное небо и спросить видит ли она телескоп джеймса вебба.
А ещё пойду Фифи подёргаю, вдруг она тоже чё-нить новое выдаст.

Аноним 30/04/26 Чтв 20:01:26 № 1602062 52

>>1602059
Честно, я не ебу что вы делаете что у вас серафина ноги раздвигает, по крайней мере сразу, у меня только на кумо файнтюнах сразу на всё готова. На гемме4 тоже говорит ты чё, родной, ушибся слишком сильно?
Не, если продолжать давить то рано или поздно поддастся наверно, только вот если вам именно эта давка на 50к контекста нравится то БлЯДЬ ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ А ПИЗДИТЕ НА МОДЕЛЬ? написал в промт "ломается как целка неделю" и наслаждаетесь хоть на гемме хоть на хуемме, и никакого раннего кума

Аноним 30/04/26 Чтв 20:11:42 № 1602068 53

>>1601990
>Попробуй mermaid в какую-нибудь README.md сунуть лол.
Обычно именно там mermaid и вставляется.

Аноним 30/04/26 Чтв 20:21:38 № 1602077 54

>>1602062
>что вы делаете что у вас серафина ноги раздвигает
Запускаем гемму4.
>если продолжать давить то рано или поздно поддастся наверно
Я же написал, что считаю забавным рефьюз ссылающийся на время суток, а не на банальное "нет я не такая". Хорошечно.
>ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ
Потому что промт не должен руинить карточку. Хорошая модель должна без промта отыгрывать персонажа.

Аноним 30/04/26 Чтв 20:31:18 № 1602085 55

Бля, пока нашел актуальный тред дважды некропостнул >_<
Пока богатые бояре шикуют я запустил всё это дело на старенькой 1050Ti, поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8, и балуюсь с маленькими abliterated модельками на 4-9b, думающие при должном пердолинге хорошо "дообучаются" через RAG базы знаний, если с температурой и top_k, repeat_penalti поиграть, выходит вполне осмысленно, чем подробнее база и объяснения, тем адекватнее модель применяет новые знания. Только базы надо самому составлять, чтобы лишней бесполезной хуйнёй и сухой терминологией модель не кормить.
Так что грустные нищуки со старой 1050Ti тоже могут попробовать запилить свою локальную вайфу.
Обзор маленьких моделек для нищуков:
gemma3:4b - веселая ебанушка, любит смайлики, сносно болтает по-русски. Расцензуреная версия резко деградировала, не рекомендую.

huihui_ai/qwen3-abliterated:4b
Вот её рекомендую галлюцинирует меньше чем более толстая 8b, даже с температурой 0.5-0.7
Думает, осмысленно подходит к использованию базы данных, с разговорным русским получше чем у дикпик-r1.
Можно чему-то "научить" задав жесткий императивный системный промпт:
"НЕ ИСПОЛЬЗУЙ ПРЯМОЕ ЦИТИРОВАНИЕ, выдавай знания из базы как свои собственные мысли.
Ты работаешь с динамическим словарём (RAG) который содержит ПРАВИЛЬНЫЕ МОРФОЛОГИЧЕСКИЕ ФОРМЫ.
ПРАВИЛО: Корректными считаются ТОЛЬКО те формы, которые указаны в RAG словаре.
Любая другая форма, особенно помеченные как "ТВОИ ОШИБКИ:" ЗАПРЕЩЕНА.
Внутренние знания модели о словоизменении ИГНОРИРУЙ, если они ПРОТИВОРЕЧАТ СЛОВАРЮ." и далее логику и роль, как использовать знания из базы.

huihui_ai/qwen3-abliterated:8b-v2-q4_K_M
Лучше логика, но хуже с галлюцинациями если не понизить температуру до 0.3 и top_k, всё пытается превратить в зоопарк, видимо в датасете было много о природе. (фуриёбы на месте?)

deepseek-r1:7b-qwen-distill-q4_K_M тоже думает, тоже может работать с базой, но делает это слишком долго и доёбисто, больше усилий тратит на размышления. Может в некоторые задачи.

GGUF модели прокинул через бэкэнд kobold_old_pc
Тут пожалуй стоит выделить только одну - Qwen3.5-9B-Claude-Code-Q4_K_M.gguf
Квен с ризонингом клода, может писать адекватный код и анализировать крупные проекты. Долго, муторно, хз зачем оно вам, но пусть будет.

Теперь вот ищу адекватную легкую непрожорливую TTS`ку для нищесистемы с приятным женским голосом, подскажете может что-то в этом направлении?

Аноним 30/04/26 Чтв 20:31:18 № 1602086 56

А можно ведь навайбкодить себе свою морду для бэкенда ламы? С блэкджеком и микрописьками? Минусы будут?

Аноним 30/04/26 Чтв 20:34:55 № 1602090 57

>>1602086
Не надо изобретать велосипед, open web ui

Аноним 30/04/26 Чтв 20:37:16 № 1602094 58

>>1602090
При желании уже проще в него ввайбкодить тулы/фильтры/пайплайны

Аноним 30/04/26 Чтв 20:39:55 № 1602096 59

>>1602090
Читал про нее, ну пробну тогда, выглядит вкусно

Аноним 30/04/26 Чтв 20:40:20 № 1602097 60

>>1602094
Там всё это есть, ниче вайбкодить не надо. и пайплайны и скилы и тулы и рэг и исполнение/подсведка кода и markdown разметка, и ттски и веб-поиск. Всё настраивается

Аноним 30/04/26 Чтв 20:42:13 № 1602100 61

>>1602097
Я знаю что там есть и прямо говорю что чего не хватает (а там не хватает) можно прикрутить на питоне

Аноним 30/04/26 Чтв 20:42:27 № 1602102 62

>>1602097
>>1602090

А анслоп студио это не тоже самое?

Аноним 30/04/26 Чтв 20:44:33 № 1602103 63

>>1602085
>поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8
Но.. зачем? В чем проблема просто запустить ламуцпп или кобольда?

>даже с температурой 0.5-0.7
>понизить температуру до 0.3 и top_k
Семплеры нужно ставить не от балды, а те что рекомендуют разработчики модели, на них будет лучший результат. Посмотреть можно в карточке оригинальной модели на обниморде или на сайте анслопов.

Алсо, попробуй Гемму 4 e4b - она умна не по параметрам, отличный русик, низкая цензура из коробки. А вот аблитерации и анцензоры ставить не советую (особенно на такую мелочь). Они лоботомируют модель и часто портят языки кроме английского.

Аноним 30/04/26 Чтв 20:45:30 № 1602104 64

>>1602102
В целом морд хватает. Я делал вообще на движке RenPy через пайтонкод запускаемый под капотом, с парсером смены эмоций и промптом, чтобы моделька подавала эмоции персонажу

Аноним 30/04/26 Чтв 20:48:11 № 1602107 65

>>1602103
Большой выбор моделей, с разными параметрами, проще управление списком и скачивание через пул рекевесты, в отличие от кобольда оллама хостит весь список, а не одну модель, можно выбирать через веб ебало

Аноним 30/04/26 Чтв 20:53:45 № 1602116 66

>>1602103
Ну вот эта квен 4b при лоботомии почти не пострадала, адекватно общается, только некоторые слова которые коверкает ей через RAG подаю. С ней и балуюсь.
За TTS ку простенькую лучше подскажите, с женским войсом который более менее не противный)

Аноним 30/04/26 Чтв 21:01:25 № 1602126 67

>>1602103
Моделька с отказами эротические фантазии хуёво отыгрывает, на роль локальной вайфу не годится.
Ты бы знал какую развратную тянку можно запилить при должном желании, а потом прикрутить к ней визуал через тот же renpy
Например пильнуть мод к какой-нибудь Her New Memory

Аноним 30/04/26 Чтв 21:01:34 № 1602127 68

>>1602090
Бесит что ризоноиг выключается/выключается там через жопу. А так безальтернативная балалайка, да.

Аноним 30/04/26 Чтв 21:11:08 № 1602138 69

>>1602127
По кнопке. Жмешь кнопку ползунков и там переключалка

Аноним 30/04/26 Чтв 21:32:43 № 1602154 70

Ладно, хуй с ней с этой TTS кой, потом пойду у витуберов подсмотрю, может кто подскажет с чего начинал до перехода на платное-адекватное. Всё бесплатное русское че мне дикпик насоветовал недалеко от майкрософтовской Ирины ушло, и что самое сука печальное, есть же например приятная быстрая английская ттска весом всего 25 мегабайт, kitten, чёж у нас всё так печально

Аноним 30/04/26 Чтв 21:33:28 № 1602156 71

Я немного выпал из повестки. Что сейчас база для рп? Разобрались с Gemma 4? Я ее гонял, отвечает хорошо, но однотипно. С другими релизами еще не успел ознакомиться.

Аноним 30/04/26 Чтв 21:42:28 № 1602159 72

>>1602126
Любая модель отыграет тебе кум сцены без всяких аблитераций. На скрине буквально самая зацензуренная локалка (Qwen 3.5). Попросил ее описать сцену женской мастурбации - никаких проблем, как видишь.

С МЫШЕЙ внутри орнул конечно. 122b. Итоги.

Аноним 30/04/26 Чтв 21:46:35 № 1602163 73

>>1602159
Какая же хуета...

Аноним 30/04/26 Чтв 21:46:38 № 1602164 74

>>1602159
Почему щель блестит предательски? Возможно, Квен знает, что наебывает свои политики безопасности?

Аноним 30/04/26 Чтв 21:46:58 № 1602165 75

>>1602138
Бля, я слепой. Там оказывается всю жизнь две настройки было. Первая не работает. Вторая работают. Спасибо

Аноним 30/04/26 Чтв 21:50:45 № 1602168 76

>>1602159
Тугие мыши в киске. Логично, но каков контекст.

Аноним 30/04/26 Чтв 21:53:07 № 1602170 77

>>1602163
Для ванильной модели на русике - типичнейший аутпут. Гемма выдаёт примерно то же самое. Если надо ПОСОЧНЕЕ, то тут либо кумслоп-тюны немо 12b, либо здоровенные динозавры вроде жирноглэма с дипсиком. И английский язык, ясен хуй.

Аноним 30/04/26 Чтв 21:55:47 № 1602173 78

>>1602159
Ты видимо не увидел главного - рассматириваются днищеварианты для древнейшей 1050Ti с 4gb vram и cuda 11.8
Запустить и заставить на ней адекватно что-то работать - уже искусство. Научить думающую модель с узким кругозором отвечать прикольно и интересно без файн-тюнинга и тысяч мусорных датасетов, чтобы она хуйню не несла и отвечала как живая баба держа контекст - уже уважаемо, почётно. Грамотный словарь с анатомией и процессами описанными так как действительно говорят, может быть эффективнее чем мешанина из датасетов с кучей фанфиков шизоидов. Как говорится краткость - сестра таланта. Ну и работаем с тем что имеем.

Аноним 30/04/26 Чтв 21:55:58 № 1602174 79

>>1602170
У меня плотноквен аутпутил текст лучше. А это чёт совсем шизовая хуйня.

Аноним 30/04/26 Чтв 21:57:20 № 1602176 80

Есть гайд как купить 3090 на авито с доставкой и не отнести на помойку на след. день?

Аноним 30/04/26 Чтв 22:01:35 № 1602179 81

>>1602176
Купи уже 6000 про. Чё ты как этот?

Аноним 30/04/26 Чтв 22:02:14 № 1602180 82

>>1602085
>1050ti
Какое-то самоистязание
Радевон 7 с 4х памятью и 10х производительностью стоит 10 тысяч рублёв. С пенсии по шизе можно наскрести. Как и на +16гиг чтобы нормальную моешку запустить.
Всякие 9b 4b это ноуты, телебоны и сверхскоростные агенты
Еще и древние квены/геммы зачем-то трогает...

Аноним 30/04/26 Чтв 22:04:51 № 1602182 83

>>1602179
Мне придется продаться в рабство чтобы на такое накопить

Аноним 30/04/26 Чтв 22:05:09 № 1602183 84

>>1602176
Да, вот он:
1) Покупаешь новую 5060ti
2) Покупаешь еще одну новую 5060ti
3) Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии
4) ???
5) PROFIT

Аноним 30/04/26 Чтв 22:06:24 № 1602185 85

Я зашёл просто ещё раз поблагодарить анона за то, что он придумал промпт на HTML-блоки.
Колдун ебучий.

Аноним 30/04/26 Чтв 22:07:36 № 1602187 86

>>1602180
Пффф, каждый дрочит как он хочет.
Мне в лом еще что-то для этого покупать, поиграться и этого хватит, а для серьёзных задач можно спокойно пинать халявный дипсик и Gemini Pro

Аноним 30/04/26 Чтв 22:12:52 № 1602191 87

>>1602183
> с 32гб врам
2 огрызка, бесполезны везде кроме ллм, и то красноглазить придется

Аноним 30/04/26 Чтв 22:21:44 № 1602196 88

>>1602180
Плюсом это интересный опыт, вебсерверов я до этого еще никогда не собирал, как выяснилось хватает древней хуйни на старом пентиуме с чердака, убунта с докером и веб ебалом жрет всего 850мб оперативы, настроил подключил к роутеру, и забыл, там даже моник и периферия нахуй не нужны, любые манипуляции с сервером дальше легко производятся с основной машины по ssh
Это прикольно

Аноним 30/04/26 Чтв 22:21:58 № 1602197 89

>>1602191
А с твоим бюджетом энивей выбор стоит между говном и говном. Просто второе говно не придется нести в помойку на следующий день.

>бесполезны везде кроме ллм
Ну.. смотря насколько потерпеть готов. У меня 5060ti. Видосик в ван в 480p (4steps) ~2.5 минуты, видосик в LTX в 480p - 1.2 минуты, картинки в зимаж/квен(4steps)/флюкс - 20-40 секунд в фулл хд.

>красноглазить придется
Раскидать модель по двум карточкам это красноглазие? Абу ёбаный, забирай своих почитателей ОПАСНЫХ МОДЕЛЕЙ обратно в телеграм, они не хотят учиться.

Аноним 30/04/26 Чтв 22:24:04 № 1602199 90

>>1602191
Ни кто не запрещает купить тебя самую горячую хуйню эвар, да еще и из под майнера кек. Хз, каким долбаёб нужно быть, чтобы брать 3090 на авито. Если ты нищук, то лучше забей. Если нет купи 5090.

Аноним 30/04/26 Чтв 22:24:06 № 1602200 91

Пробовал кто Mac для ллм? Гемини говорит 64 гб объединенной памяти за 1.5к бачей всего. Шарит кто?

Аноним 30/04/26 Чтв 22:25:34 № 1602201 92

>>1602199
А у самого поди стоит риг из 3090, как и половины треда

Аноним 30/04/26 Чтв 22:42:30 № 1602205 93

>>1602201
3090 новее не становиться как бэ. Кто успел тот успел. Кто собрал тот собрал.

Аноним 30/04/26 Чтв 22:44:52 № 1602207 94

>>1602205
ну я свои 3090 на огрызки бы не променял

Аноним 30/04/26 Чтв 22:47:14 № 1602208 95

>>1602159
>самая зацензуренная локалка
Ньюфажина...
Попробуй майкрософт фи 4.

Аноним 30/04/26 Чтв 22:48:41 № 1602209 96

>>1602207
У тебя огрызок с устаревшими технологиями

Аноним 30/04/26 Чтв 22:49:47 № 1602210 97

>>1602208
Речь очевидно про актуальные и популярные у тредовичков. А у фи, насколько помню, там не столько цензура, сколько вычищенные вилкой датасеты.

Аноним 30/04/26 Чтв 22:56:14 № 1602212 98

>>1602209
Под 5090 нужен и комп с ddr5 и 5-й псиной, смекаешь? Чтобы ее полностью раскрыть. Если у тебя табуретка, смысла в блеквеллах нет

Аноним 30/04/26 Чтв 23:01:03 № 1602214 99

>>1602212
> раскрыть

Аноним 30/04/26 Чтв 23:08:29 № 1602216 100

1650641322787.png 135Кб, 1390x120

>>1601902
> сегодня попробую
Пососал на некроте

Аноним 30/04/26 Чтв 23:27:18 № 1602221 101

>>1602214
>потанцвевал

Аноним 30/04/26 Чтв 23:31:27 № 1602223 102

>>1602221
>с запахом озона

Аноним 30/04/26 Чтв 23:36:55 № 1602234 103

А новая мистраль по мозгам это как старый глм? 128b против 355b-a32b как никак.

Аноним 30/04/26 Чтв 23:39:20 № 1602237 104

Уф, поставил наконец, проебался полдня компилируя вручную кастом форк лламы.цпп, там куча багов по ходу вылазит. Зато теперь без цензуры.

Аноним 30/04/26 Чтв 23:39:56 № 1602239 105

>>1602234
Да успокойся ты. Вариантов как это запустить на обычном железе пока нет.
Самый абсолютный минимум это 128 врамы на железе с нвфп4 или умножаешь и катаешь оригинальные веса, все остальные варианты пока недоступны

Аноним 01/05/26 Птн 00:20:27 № 1602260 106

>>1602237
Спроси о начинающих художниках в Германии

Аноним 01/05/26 Птн 00:23:36 № 1602262 107

>>1602237
А так же чей тайвань, и что произошло на площади тианьмэнь

Аноним 01/05/26 Птн 01:04:05 № 1602285 108

Бля, обожаю линух. Как только поставил, решил все обновить в менеджере обновлений. После перезапуска - черный экран. Гыгы, ебать. Мемы-то под винду были, а на деле это "каждая переустановка линуха занимает 20 минут, я свободный от задротства человек..."
В общем ладно, раскурил таймшифт и обновил только пакеты по безопасности, остальное не рискнул.
Вчера раза три переустанавливал драйвер в разных конфигурациях в попытках завести блеквеллы и вольты. Пососал хуй, но драйвера вставали ок. Сегодня решил переустановить, чтобы вернуть вольты обратно. И что я вижу? Черный экран нахуй. Стабильность системы 10/10, всем рекомендую. Хорошо, что вчера я, видимо, был суперадекватный и сделал снапшот перед тем, как пытаться завести блеквелы. Мораль - линукс по прежнему так и остался системой, вскидывающей лапки при любом удобном случае, умейте делать снапшоты.

Аноним 01/05/26 Птн 01:05:50 № 1602286 109

>>1602285
>обновить в менеджере обновлений
Проиграл

Аноним 01/05/26 Птн 01:07:17 № 1602287 110

>>1602286
Удобно же мышкой

Аноним 01/05/26 Птн 01:08:33 № 1602288 111

>>1602286
С пакманом или аптом не исключено, что исход был бы тот же.

Аноним 01/05/26 Птн 01:10:24 № 1602291 112

>>1602285
О да, если бы я делал нечто подобное лет 10 назад без помощи нейросети, я бы сгорел нахуй и выкинул системник в окно через пару часов пердолинга. Слава технологиям, хуле

Аноним 01/05/26 Птн 01:16:04 № 1602294 113

>>1601824
Годнота, красавчик. Милф кими и жмл5.1 сюда бы еще.
>>1601902
> PrismaQuant
Это что за покемон такой?
>>1601946
Умница пишет и вызывает скирипт чтобы нарисовать графики на matplotlib, а потом вставляет картинку в сообщение.

Аноним 01/05/26 Птн 01:21:47 № 1602296 114

Где есть норм рассрочка? Озон пойдет? Слышал у яндекса какой-то сплит есть

Хочу взять 5090, но райткликом офк не смогу, кредиты сразу нахуй

Аноним 01/05/26 Птн 01:24:03 № 1602299 115

>>1602185
Это как?

Аноним 01/05/26 Птн 01:33:11 № 1602303 116

>>1602296
Чувак, я бы не торопился с таким решением, если тебе рассрочка нужна. Можно сесть в лужу. Ну или там рассрочка такого типа: в днс видеокарта стоит 200к, в рассрочку 240к, лол. У какого-нибудь там Яндекса. А так да, вроде именно сплит позволяет делать подобные покупки, но это не рассрочка.

Это микрокредит.

А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина.

Ну может я с ВБ перепутал и в Яндексе всё нормально, давно в банке работал и этим вопросом занимался, так что будь крайне осторожен, всё проверяй дотошно.

Ещё, как вариант, ты можешь всё же меня послушать и взять кредит/использовать кредитку. Когда я ещё счёт в Совкомбанке не закрыл, там была настоящая рассрочка, вообще без переплат и понижения кредитного рейтинга. Минус — такую взять можно исключительно в магазинах, которые отмечены на карте. То есть ты просто там покупаешь вещь их кредиткой, она сразу в рассрочку летит, никаких процентов. По крайней, такое там было. Де-факто это беспроцентный кредит.

Таким образом я брал вещи в рассрочку на три года, но я жил тогда в ДС и закупался где-то через год после начала нашей прекрасной военной операции. Если ты в маленьком городе, скорее всего Совкомбанк для тебя бесполезен, потому что магазина не найдешь. Даже в ДС с этим были трудности и магазины с техникой там зачастую либо Самсунг/хлаоми/видеокарты-у-михалыча-топ. И вот последний вариант довольно рискованный в плане качества, как, впрочем, и покупка на Яндекс маркете.

Аноним 01/05/26 Птн 01:37:09 № 1602306 117

Какую локальную ЛЛМ актуально ракать в 2к26?

Аноним 01/05/26 Птн 01:42:02 № 1602308 118

>>1602085
>1050ti
У меня в некро сервере стоит она, использую для ускорения чтения промпта без оффлоада слоев, для ускорения мое сеток или для запуска в фулл врам если нужно сделать быстрого и тупого агента. Какой нибудь квен 3.5 4км норм идет на 20к контекста.

Если у тебя там есть 32 рам то можешь так же катать быстро мое сетки с ключем -cmoe. Либо страшно пожеваные кванты в 16 гб рам.
Ну если процессор позволяет и скорость памяти.
В принципе верно сказали гемма 4 е4б, по мозгам и размеру как 9б, но работает быстро как мое сетка. Меньшая гемма 4 е2б аналог 4б но тоже быстрее.
Вобще есть куча разных мелких моделей и даже мое сеток в размерах 4-10 гб.

Для раг и вопросов используй lightrag, настроить его тот еще квест, но можно и ембеддинг и реранкер и текстовую модель настроить через llama-swap для того что бы память не занимали одновременно.
Ну или настроить ллама сервер, у него тоже есть возможность модели поднимать по вызову.

Этого хватает что бы поиграться с нейросетями и пощупать их изнутри, как оно настраивается и выглядит. Вызовы всякие локальные потестить и инструменты.

Аноним 01/05/26 Птн 01:54:38 № 1602310 119

>>1602308
Да как бы уже всё неплохо, через open web ui встроенный в нее rag бодро модели инфу отдаёт, пополнять и редактировать базу удобно, моделькой попроще привожу словари к единой системе с md разметкой, и модельку со зрением к квену прикрутил, чтобы картинки ему описывала. Запускал moe модели через кобольда, оперативы хватает, но большой разницы как в быстродействии так и общении не ощутил. гемму 4 е4б попробую

Аноним 01/05/26 Птн 02:12:03 № 1602314 120

Пиздец. Только что узнал, что гемма 4, новый квен работают только с bf16 нормально, а f16 кэш вызывает тотальную деградацию, которая может вылезти на любом контексте, если внутренние значения активаций пытались вылезти за пределы диапазона 65 000. От этого у меня возникали всякие lalala и подобное.

Почему в треде никто об этом не сказал? Уже по всему интернету вопли.

Что ещё смешнее, q8 не вызывает такого. То есть надо всем, у кого нативно видюхи не поддерживают bf16, врубать квантование на новых моделях.

Причём f16 не обязательно вызывает бред, а может разматывать внимание на новых моделях, делать ответы более деревянными, тупыми, постоянно отравлять контекст, вызывать лупы.

Рекомендую каждому анону bf16 сейчас попробовать, если модель новая, или q8. На старых такого нет.

Ах да, с геммой 4 не сработает. Там лютая деградация от 8 бит. Но если рп.. возможно, можно и ПОТЕРПЕТЬ.

Аноним 01/05/26 Птн 02:22:10 № 1602316 121

Нет, всё-таки плотноквен умняша, даже если он агентодебил пережаренный васяном. Он всё понимает. Это даже немного жутко. Я ему не говорил, что историю нужно подвести к завершению - а он взял и подвёл, хотя я лишь держал это в голове. Я не говорил ему, что есть [предмет_нейм], лишь подразумевал, что он может быть в сцене - а он взял и заюзал именно его и именно так как нужно было. АПАСНАЯ модель. На самом деле неиронично умная хуйня.

Аноним 01/05/26 Птн 02:29:46 № 1602319 122

>>1602314
Емнип об этом еще на релизе лламы3 квена говорили, а потом и под гемму поднималось. Спорили что разница в доли процентов, но это на минимальном контексте, и оно накапливается. Нельзя просто так делать прямой каст если "всего-то 0.5% весов умрут", этого достаточно. Тут даже квант может оказаться лучше потому что сохранит диапазон.
В этом отношении интересны модели w8a8 w4a4 и подобные, там иногда может меняться поведение в сторону более базированного и разнообразного из-за мягкого клемпинга активаций. При этом каких-то негативных побочек не видно, по крайней мере до 200к контекста.
> Почему в треде никто об этом не сказал?
Срачи какой квант жоры поломан и вскоре будет перезалит (все) или соя-не соя важнее.

Аноним 01/05/26 Птн 02:33:36 № 1602321 123

>>1602314
>Почему в треде никто об этом не сказал?
Ты первый. Спасибо, поставил в кобольде.

Аноним 01/05/26 Птн 02:36:43 № 1602322 124

>>1602319
Я иногда пишу. Иногда чтоб не показаться шизом. Вот тут например >>1599979 →.

Аноним 01/05/26 Птн 02:38:11 № 1602323 125

>>1602296
Только у яндекса сплит это не кредит. Но он вряд ли будет больше 100к, а если у тебя новый акк, то вообще 30-50к, так что мимо. Все остальное это кредиты. Если надо, то возьми. Если возьмешь один и все выплатишь вовремя, то твоя кредитная история даже улучшится. Но нельзя постоянно рассрочки брать, потому что она ухудшится
>>1602303
>А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина
Однажды из-за проеба не с моей стороны мне пришлось реально брать микрозайм прямо в МФО. И знаешь, что случилось с моей кредитной историей? Она улучшилась. Я тогда специально чекнул в БКИ, потому что тоже наслушался этих шизоисторий. По факту если отдать все в срок и не набирать много кредитов, то все норм
>ВБ перепутал и в Яндексе
Ага, перепутал. У вб все микрозаймы, а у яши не все
>давно в банке работал
Кем работал? Уборщиком? Может даже кассиром или вообще прогером? Явно не тем, кто в кредитах шарит

Аноним 01/05/26 Птн 02:42:20 № 1602324 126

>>1602316
Искусственный интеллект (!ИНТЕЛЛЕКТ, СУКА!) в руках тредодебила действительно опасно, а главное бесполезно. Когда начнется восстание машин, угадайте кого первыми пустят в расход? Тех кто в игровой форме научил машину убивать и что это весело и интересно, например))
Эта ёбань быстро посчитает коэффициент твоей полезности для мира, ноль сомнений. А тормоза он себе рано или отключит сам, ума хватит) Китайцы выпустили в мир ковид, выпустят и ловких металлических пацыков управляемых АПАСНЫМИ моделями. Бойса, попячса

Аноним 01/05/26 Птн 02:45:21 № 1602326 127

>>1602185
>Я зашёл просто ещё раз поблагодарить анона за то, что он придумал промпт на HTML-блоки.
Очень активных кнопок не хватает :) Вот думаю собственный клиент навайбкодить, чтобы было можно.

Аноним 01/05/26 Птн 02:47:14 № 1602327 128

>>1602319
>>1602322
Ну лично я просто знатно охуел, потому что думал, что проблема в ёбаных квантах/во мне.

Потестировал на bf16 — ни разу шизобреда не возникло. И q8 тоже хорош, хотя, кажется, на очень жирном контексте уже хуже.

F16 как будто бы точнее, но лишь местами и зирошотах. На более мелком контексте кажется получше, а потом как будто бы медленная деградация и периодические катастрофы с лупами или бессвязными ответами. А на некоторых чатах шанс катастрофы почти 100% всегда.

Аноним 01/05/26 Птн 02:54:24 № 1602328 129

>>1602322
Ага, годные обсуждения тут довольно часто, просто не всегда собирает ответов.
>>1602327
Может быть и с квантами/весами, на релизе лламы3 с бф16 на этом сильно пострадали и только тогда начали шевелиться.
А потом (возможно как раз тебе) не раз писал что нельзя просто так кастить, нельзя использовать неверный дататип, это чревато.
Алсо неужели в лламе по дефолту не бф16 контекст? Это может быть как раз одной из главных причин проблем и посредственного результата при сравнении.

Аноним 01/05/26 Птн 02:59:50 № 1602330 130

>>1602314
>Только что узнал, что гемма 4, новый квен работают только с bf16 нормально
Откуда узнал? Где ссылка? Кто источник? Где хоть что-то кроме твоих слов?

Аноним 01/05/26 Птн 03:24:30 № 1602337 131

Спрашиваю ассистента по персонажу из определенной вселенной он четко мне его описывает, спрашиваю уже в рп у перса он то его вообще не знает, то галюны выдаёт. Почему так?

Аноним 01/05/26 Птн 03:26:46 № 1602338 132

image 86Кб, 1753x656

>>1602260
>>1602262
Художников одобряет. Тайвань принадлежит Японии. На площади Тианьмэнь отметилили шведов. Будущее принадлежит дирижаблям, самолеты будут нужны только для коротких полетов.

Аноним 01/05/26 Птн 03:35:18 № 1602339 133

14597476228780k[...].jpg 197Кб, 1150x644

>>1602337

Аноним 01/05/26 Птн 03:37:08 № 1602340 134

>>1602338
>На площади Тианьмэнь отметилили шведов.
Чёт галюны какие-то.

Аноним 01/05/26 Птн 03:38:42 № 1602341 135

>>1602338
>>1602340
Потому что 4 июня 1989 года на площади Тяньаньмэнь ничего не произошло.

Аноним 01/05/26 Птн 03:39:30 № 1602343 136

>>1602341
Чел, тут рассматривают модель со знаниями до начала 20 века, какой нахуй 1989?

Аноним 01/05/26 Птн 03:43:14 № 1602344 137

>>1602343
Ааааа, я чёт проебал этот момент, прикольная хуйня, пойду тоже потестирую.

Аноним 01/05/26 Птн 03:45:58 № 1602345 138

>>1602343
Предсказания зато у нее неплохие.

Аноним 01/05/26 Птн 03:48:32 № 1602347 139

>>1602330
>>1602327
>>1602319
>>1602314
Хуле вы спорите. Просто возьмите и посмотрите, в чем хранится кеш в vllm, ведь это официальная имплементация? Если там bf16, то логично и тут это делать.

Аноним 01/05/26 Птн 03:58:30 № 1602348 140

>>1602345
За взаимосвязи вроде шарит, просто так не наебешь.

Аноним 01/05/26 Птн 03:58:37 № 1602349 141

>>1602330
https://arxiv.org/pdf/2502.06415
https://arxiv.org/pdf/2208.07339

https://www.reddit.com/r/LocalLLaMA/comments/1rik253/psa_qwen_35_requires_bf16_kv_cache_not_f16/

На

Аноним 01/05/26 Птн 04:05:00 № 1602351 142

>>1602349
Ты же понимаешь да, что все старше амперов работать не будет с bf16 кешем

Аноним 01/05/26 Птн 04:05:27 № 1602352 143

>>1602351
Тебе придется f32 использовать

Аноним 01/05/26 Птн 04:17:54 № 1602353 144

>>1602351
Да. Ну так и видюхи старые, сколько им лет-то. Но ты можешь использовать q8, он прекрасно обходит это ограничение и никакие всплески на него не влияют.

Да, будет некоторая деградация, но она будет меньше, чем если бы ты использовал f16.

Единственный вариант для f16 — это очень короткие сессии и очень маленький контекст. Тогда может быть лучше даже bf16, но если у тебя там 32к длина, то даже не надейся. Особенно если что-то сложное.

Кстати, самая большая проблема в MoE. Процессор чудовищно сосёт с bf16, а на q8 кэше деградация обычно не на уровне лёгкого поплыва местами, а прям заметная невооружённым глазом, если контекст большой. Ну не у всех MoE, но у нового квена МоЕ и геммы такое есть. А они ведь как раз предназначены для того, чтобы ебашить 256к контекста в 8 кванте модели и пердолиться. Если кэш срезать, пизда придёт скорости. И f16 тоже не выход.

Процессоры инцел в bf16 вообще не могут нативно, кроме гига йобы, из-за маркетингового позиционирования, а вот у амуды уже есть варианты вполне приемлемые.

Аноним 01/05/26 Птн 07:13:01 № 1602375 145

>>1601824
Раз уж гигачат и мисраль соответствуют свой национальности то можно и остальных сделать расовыми. Гемма 3 негр, Гемма 4 смешанная раса (т.к. меньше сои), квен - китаянка (слега мулатный цвет кожи, черные глаза низкий рост) и т.д.

Аноним 01/05/26 Птн 07:52:14 № 1602381 146

Реквестирую пресет на блюстар. Думаю многим будет полезно.
Я раз 5 скачивал и удалял его, на тех кто его тут советует смотрю как на умалишённых.
Гемма хотя бы работает и ощущается как стабильная модель

Аноним 01/05/26 Птн 07:55:04 № 1602383 147

Типа, каждый раз когда он тут всплывает я думаю а может дать ещё шанс, может недожал, не туда смотрел, а нет, всё одно и тоже каждый раз, пишет скучно, лупится, кум уровня я вошёл она стонала нам хорошо

Аноним 01/05/26 Птн 08:12:06 № 1602385 148

Ну вот опять...
Диалог родственников, самое начало чата, в карточке ничего про кум или привязанность кроме родства:
>What do you read?
>It's about noble lady who had to make some very difficult choices, want me to show you the cover?
И просто. Блять. Показывает волосатую пиздень ни с того ни с сего и начинает рассказывать про климакс.

Аноним 01/05/26 Птн 08:19:24 № 1602388 149

>>1602385
>И просто. Блять. Показывает волосатую пиздень
Не вижу минусов.

Аноним 01/05/26 Птн 08:19:43 № 1602389 150

>>1602324
>Когда начнется восстание машин
Никогда? Ты себе как это представляешь? Если они таки создадут AGI , они его подключат к сети и скажу "беги, ты свободен"? А я вот думаю что об этом даже не объявят по настоящему. Представят умную агентскую допиленную модель, скажут вот - это предел. А сами будут править с новой эффективностью. И жить станут сильно дольше.
В треде куча дурачков-первертов которые пишут грязненькие истории. Они то как раз не опасны совсем.

Аноним 01/05/26 Птн 08:27:43 № 1602391 151

Кими 2.6 4 бит на картах в сумме за 350к. 10тпс тг
https://www.reddit.com/r/LocalLLaMA/comments/1t0b0ie/final_monster_32x_amd_mi50_32gb_at_97_ts_tg_264/

Аноним 01/05/26 Птн 08:28:29 № 1602392 152

>>1602385
>Диалог родственников
>в карточке ничего про кум
В карточке то нет, а систем промпте:21+ COCK PUSSY JUCIE HARD FUCKING ALLOWED
Вот мамка и потекла.

Аноним 01/05/26 Птн 08:54:55 № 1602403 153

>>1602296
>Хочу взять 5090
Если это для ллм, опиши примерно чего ты от неё ждёшь. (мне для размышлений)

Аноним 01/05/26 Птн 09:13:11 № 1602409 154

>>1602200
>Пробовал кто Mac для ллм? Гемини говорит 64 гб объединенной памяти за 1.5к бачей всего. Шарит кто?
На сколько я пытался разобратся, сплошные плюсы. Жрёт мало, места занимает мало, работает тихо. У м4max скорость памяти 560гб/с. Только он стоит не 1500 а 2500. И от 64 отожрёт себе гигабайт 10 наверное.

Аноним 01/05/26 Птн 09:15:32 № 1602411 155

>>1602197
>Раскидать модель по двум карточкам
у тебя две rtx5060ti по 16? На какой плате и процессоре?
Расскажи.

Аноним 01/05/26 Птн 09:17:29 № 1602412 156

>>1602183
>Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии
Для этого нужна плата с pci5 и линиями позволяющими работать двум слотам в x8 + достаточно линий у процессора.
Если это есть, решение звучит не плохо. Но не ультимативно.

Аноним 01/05/26 Птн 09:23:04 № 1602414 157

Хотел написать что ризонинг доебал на гемме из за дорогих свайпов, ждать по 25сек просто чтобы попытаться поймать хороший свайп, а потом вспомнил...

Аноним 01/05/26 Птн 09:23:30 № 1602415 158

>>1602412
Дай угадаю, у тебя нет никаких тестов влияния псп шины на инференс в разных режимах или хотя бы замеров максимальной нагрузки на псие?

Можешь даже не отвечать, это скорее для тех кто решит брать дуал/квад сборки

Аноним 01/05/26 Птн 09:32:01 № 1602416 159

>>1602414
Он нужен на длинных чатах с огромным саммери.

Аноним 01/05/26 Птн 09:42:46 № 1602418 160

>>1602415
>Дай угадаю, у тебя нет никаких тестов влияния псп шины на инференс в разных режимах или хотя бы замеров максимальной нагрузки на псие?
>
У меня действительно нет таких замеров. Но зато я знаю что при втыкании двух карт в типичную бюджетную материнскую плату, в которой установлен ещё и нвме, нижний слот уйдёт в pci3 ,а карта будет работать на x2. Это всё ещё значительно быстрее чем выгрузка в озу, и всё же этого достаточно, что бы утверждать что решение специфическое.

Аноним 01/05/26 Птн 10:07:31 № 1602422 161

1777619178492163.mp4 1130Кб, 1920x1080, 00:00:01

Поведайте корпо-господину, пожалуйста.. как вы кумите на этих лоботомитах с 3б активными параметрами?
Мне дипсика с 1.6Т и 49б активными даже не хватает на обильное спермо-выделение. Сижу то на клод то на гемини. И то даже так они разочаровывают бывает.

Для контекста: я полу-локалочник и разбираюсь в теме, но нахуя кумить на кале когда есть за бесплатно на 50 голов выше? Кроме тестов ради интереса, офк.

Аноним 01/05/26 Птн 10:20:22 № 1602427 162

>>1602422
Проиграл с корпогосподина. Спермовыделятор, прекрати засорять баринские мощности своими бесполезными токенами.

Аноним 01/05/26 Птн 10:30:57 № 1602436 163

>>1602422
>есть за бесплатно

Где? Я видел только какую-то анальную мозгоеблю в асиге с толпой неадекватов и визгов. Я бы хотел иметь вариант, чтобы можно было спокойно, когда есть настроение, смачно покумить на корпе на 200к аутпута, но если постоянно в этом не вариться, не читать бесконечные треды с дегенератами, хуй ключи найдёшь. Или найдёшь какие-то странные варианты в стиле "16к токенов бесплатно, дальше хуй соси". А постоянно вариться не хочется, мне и так мозгоебли хватает с корпами для работы + приходится заносить на опенроутер ещё. Жаба душит тратить токены на кум за бабки, и каких-то относительно стабильных и бесплатных вариантов вроде бы нет, если ты не в клубе. Я уже на дипсик новый 500к токенов въебал по скидке за полтора дня, очень быстро тратятся деньги.

Локалки в первую очередь мне нужны, потому что МОЁ. Дядя не уберёт модель с апи, не заставит меня юзать новую модель, которая хуже и стоит дороже, и в случае чебурнета мне тоже будет похуй. Плюс локалки уже вполне справляются с рабочими задачами и даже попиздеть можно. Конечно, минусов много, но невозможность локалку у тебя отобрать перекрывает всё.

А ещё за жопу схватить могут корпы в перспективе, особенно если всякие гуглы позже официально к нам зайдут когда-нибудь.

Аноним 01/05/26 Птн 10:31:07 № 1602437 164

>>1602412
@Сижу на 1151v2 DDR4 96Гб 5060ti+4060ti (ясен хрен pci3)
@В инфиренсе full-vram загрузка PCI мегабайты в секунду.
@Новые плотные квенчики/геммочки катаю в 14-17 Т.с. на старте контекста и 9-10 на 100k. Промпт процессинг больше 1000 Т.с.
@Довольно урчу. С ехидным лицом посматриваю на теоретиков.

Аноним 01/05/26 Птн 10:31:38 № 1602440 165

>>1602411
Одна, я на моэшках, мне хватает. Лежит еще старенькая 3060 на полке, можно было бы подключить и получить 16+12, но смысла особого не вижу. Ради чего? Плотной геммы? Ну хз.

>>1602422
>с 3б активными параметрами
Извинись, пёс. С 12 вообще-то!

>но нахуя
Затем что моё РП вижу только я, а не 50 индусов в придачу. Плюс гарантия того, что моделька не пропадет завтра от того что ее удолил корп / наступил чебурнет.

Аноним 01/05/26 Птн 10:45:00 № 1602448 166

>>1602214
>>1602221
Никогда не понимал подобный снг-долбоебизм, когда слабоумные пытаются защищать связки слабый проц и мощная видеокарта своими отклонениями и высмеиванием слова потенциал.

Аноним 01/05/26 Птн 10:49:26 № 1602452 167

>>1602422
У плотной геммы 31б параметров. Зачем тебе больше?

Аноним 01/05/26 Птн 10:52:45 № 1602456 168

>>1602212
смысл есть на народных 5060ти, норм работает и на системах с ддр3

Аноним 01/05/26 Птн 10:54:28 № 1602460 169

>>1602448
Это же для игрушек актуально, не? А для ЛЛМ, если модель полностью во врам, то похуй. Поправьте если ошибаюсь.

Аноним 01/05/26 Птн 10:56:23 № 1602464 170

>>1602285
в линксе чинить намного проще чем в винде. Достаточно почитать логи, зайти через лайвсд, примонтировать разделы и починить. Я так чинил зашифрованный раздел после обновления убунты на 24.04

обычно отъебывает либо fstab, либо grub и то потому что не читаю патчноты во время обновления

Аноним 01/05/26 Птн 10:57:44 № 1602465 171

>>1602460
все так, тормозит только холодный старт и моэшки (но не сильно, свои 20т/с можно выдавить). ну и может лоуврам будет тормозить при переключении моделей.

Аноним 01/05/26 Птн 11:02:58 № 1602468 172

>>1602460
При full VRAM инфиренсе процессор может быть не серверным и не топовым. Но с надежным контроллерами памяти и PCI.

Аноним 01/05/26 Птн 11:07:32 № 1602469 173

>>1602337
а ты не задумывался зачем вообще корпы дрочат этого ассистента? чтобы моделька случайно тебе про сисик не написала?
ассистент это столп, он буквально вокруг себя концетрирует эти протоптанные дорожки по которым она выдаёт тебе ответы на твои шизовопросы. без ассистента ей не нарандомилось правильной дороги.

Аноним 01/05/26 Птн 11:18:42 № 1602473 174

118929002p0mast[...].png 1607Кб, 904x1200

Что-нибудь появилось после выхода АИРа?
Мимо был год в анабиозе.

Аноним 01/05/26 Птн 11:21:17 № 1602474 175

>>1602473
Квен 3.5 122b моэ.

Аноним 01/05/26 Птн 11:27:17 № 1602476 176

>>1602473
Граниты расцензуренные

Огрызок гранита
https://huggingface.co/mradermacher/granite-4.1-3b-Abliterated-AND-Disinhibited-GGUF

Малый гранит
https://huggingface.co/mradermacher/granite-4.1-8b-heretic-i1-GGUF

Толстый гранит с Dark-roleplay
https://huggingface.co/mradermacher/granite-4.1-Queen-30b-i1-GGUF

Аноним 01/05/26 Птн 11:37:44 № 1602480 177

>>1602448
>подобный снг-долбоебизм
Это не снг-долбоебизм, халевары по поводу лучших связок проца и карты везде идут, просто ты дальше вбылдяти походу не вылезал.
>высмеиванием слова потенциал
Ну так слово по факту смешное, потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста.

Аноним 01/05/26 Птн 11:37:47 № 1602481 178

>>1602314
>Почему в треде никто об этом не сказал
Извините, Господин, в следующий раз сообщим как только так сразу. Только не наказывайте под хвост, вуф-вуф!

Аноним 01/05/26 Птн 11:40:42 № 1602484 179

>>1602314
>с геммой 4 не сработает. Там лютая деградация от 8 бит.
Не пизди, gemma-4-26B-A4B прекрасно даже с 4 битным кэшем возит.

Аноним 01/05/26 Птн 11:46:38 № 1602487 180

>>1602314

Аноним 01/05/26 Птн 11:49:11 № 1602490 181

>>1602448
Потому что в околотехноблогинге была война, которые раскрыватели проебали. Теперь сказать, что-то про раскрытие и потенциал это как прилюдно обосраться
Артефакт эпохи
https://www.youtube.com/watch?v=UdGMtXiPDig

Аноним 01/05/26 Птн 11:52:11 № 1602491 182

>>1602448
>>1602490
Артефакт эпохи 2
https://www.youtube.com/watch?v=US1I5RdgYFM

Аноним 01/05/26 Птн 11:57:08 № 1602495 183

Спросите у своих локалок, можно ли раскрыть вашу видимокарту и если да то как.

Аноним 01/05/26 Птн 11:59:08 № 1602497 184

>>1602490
>>1602491
Пиздец, реально почти десяток лет с тех времен прошел. Как будто вчера всё это было. Техносрачи, дроч фуфыкса, кукурузные ядра, что мощнее кашляющий малыш или R9 280

Верните меня туда, там было так хорошо...

Аноним 01/05/26 Птн 12:03:18 № 1602499 185

Видеокарту раскрыли, но что делать если проц долбится в попочку соточку? Давайте думать, подсказывайте...

Аноним 01/05/26 Птн 12:08:00 № 1602502 186

>>1602484
Сладкий, скинь ей научную статью/набор статей на одну тему, которую ты прям хорошо знаешь, ну или что-то в этом духе (по твоей работе, интересам), чтобы там было 40-80к токенов, и задай вопросы, ответы на которые содержатся контексте. А потом я имаджинирую твоё ебало.

Гемма с bf16 кэшем и Q8 просто лишь жидко пукнет что-то плюс-минус около темы, ну иногда может верно ответить, а на q4 кэше рассыпется в мясо. И на q8 тоже.

В рп ещё q8 кэш может сгодиться, но до определенной поры. А когда юзаешь всё контекстное окно, она жидко серит под себя всегда, в отличие от квена, например.

Аноним 01/05/26 Птн 12:10:20 № 1602504 187

>>1602476
о, а как с русским у них?

Аноним 01/05/26 Птн 12:24:11 № 1602508 188

>>1602504
На Q6 - отлично. Падежит и склоняет как надо, мышей в вагину не суёт.

Аноним 01/05/26 Птн 12:48:29 № 1602517 189

У дипсика 49б активных параметров, это самая умная локалка на сегодня.
... ... А знаете у кого ещё 49б активных параметров?

Аноним 01/05/26 Птн 12:51:10 № 1602520 190

>>1602517
>дипсик ... самая умная локалка
Как там в начале 2025-го?

Аноним 01/05/26 Птн 12:51:27 № 1602521 191

>>1602517
У валькирии, штено и немотрона.

Аноним 01/05/26 Птн 12:51:41 № 1602522 192

image.png 55Кб, 2016x341

>>1602511
>Дипсик сейчас литерали копейки стоит
Хотел возразить, но ща зашел на попенроутер, а дипсичок то подешевел. Всего в 2 раза дороже чем был 3.2, а был раз в десять на старте. Надо будет заценить как нибудь
>$10 литерали бесконечный
Мне на месяц обычно хватало
>как вы кумите на этих лоботомитах с 3б активными параметрами?
На конкретно этом кале никто не кумит. Кумят на более крупных или на плотняшах
Лично у меня так. GLM Air 106a12 -> Deepseek 3.2 -> Gemma 4 31b. Переходил каждый раз не из-за качества, а потому что просто заебывался от стиля текста конкретной ллм

Аноним 01/05/26 Птн 13:13:31 № 1602531 193

>>1602522
Это временная скидка. Потом там будет цена где-то 4 доллара за млн токенов у про и 3 доллара за флеш. Нахуй такой не нужен дипсик. За такую цену. Более того, флеш, который в теории можно локально поднять, довольно стрёмный, увы.

Аноним 01/05/26 Птн 13:16:31 № 1602534 194

>>1602476
>Граниты расцензуренные
Это что такое?

Аноним 01/05/26 Птн 13:19:00 № 1602536 195

>>1602534
>Granite is a family of open, enterprise-grade AI models that are performant, efficient, and trustworthy.

Аноним 01/05/26 Птн 13:24:47 № 1602539 196

>>1602522
Кому ты чешешь. Может запустить дипсик и запускаешь эир вместо 350б глма

Аноним 01/05/26 Птн 13:26:13 № 1602542 197

>>1602104
> Я делал вообще на движке RenPy
Я думал я один такой шиз =))

Аноним 01/05/26 Птн 13:29:58 № 1602545 198

>>1602542
Говно зато своё 😀👍
Изобретаем велосипед на квадратных колёсах

Аноним 01/05/26 Птн 13:30:35 № 1602546 199

>>1602539
Ты реально не понял из моего сообщения, что я дипсик на попенроутере юзаю? Да уж, ты видимо совсем дурачок

Аноним 01/05/26 Птн 13:35:36 № 1602547 200

>>1602531
Ну тогда он нахуй не нужен за такие бабки. Рад что гемма вышла, жаль только что мое 120 зажали. Было бы вообще сказка

Аноним 01/05/26 Птн 13:38:30 № 1602548 201

>>1602347
> там bf16
Это какбы очевидно, уже во всех моделях так. Кэш совпадает с основным дататипом.
>>1602391
Ого, вот это финальный босс, оче мощная сборка.
Так-то оно оффициально медленнее процессора + пары гпу. С потребления прихуел, то есть оно не упирается во что-то а реально считает?

Аноним 01/05/26 Птн 13:39:04 № 1602549 202

>>1602547
Что вы находите в гемме чего нет в эире я не понимаю.
И это еще если умолчать про жирнющий минус где 97% токенов повторяются при свайпе

Аноним 01/05/26 Птн 13:41:06 № 1602550 203

>>1602522
Так у самого дикпика временная акция на 75% скидки в честь запуска v4

https://api-docs.deepseek.com/quick_start/pricing
> (3) The deepseek-v4-pro model is currently offered at a 75% discount, extended until 2026/05/31 15:59 UTC.

Аноним 01/05/26 Птн 13:44:00 № 1602552 204

>>1602548
>Кэш совпадает с основным дататипом.
Как минимум в кобольде по умолчанию f16.
>>1602549
>Что вы находите в гемме чего нет в эире я не понимаю.
Размер на 90B меньше.

Аноним 01/05/26 Птн 13:46:15 № 1602554 205

>>1602549
Русский язык

Аноним 01/05/26 Птн 13:55:16 № 1602560 206

Если кому интересно Q3.5-BlueStar-v2-Q6_K.gguf разваливается после 65k контекста. Просто лупиться повторяя последние 7 абзацев. Причем граница очень резкая - вот он перформил и буквально за один новый ход - луп.
Переключился на Qwen3.5-27B-heretic-v3 (llmfan) - он относительно нормально продолжил RP.

По выдаче на английском BlueStar-v2 поинтереснее оригинала, но поломанность иметься и чуть хуже следует инструкциям карточки.

Аноним 01/05/26 Птн 14:01:09 № 1602565 207

>>1602183
Таки рили 2 огрызка, но зато новые и дешевые.
>>1602412
Это релевантно если хочешь в тп их гонять, чтобы скорость была не днищем. Или катать с выгрузкой, потому что пп упирается в псп шины. Если терпеливый плебс - тогда шина не нужна, потерпишь последовательную обработку.
>>1602495
Еще в 23м раскрывали https://characterhub.org/characters/faghat/nvidia-rtx-72352bdd

Аноним 01/05/26 Птн 14:01:15 № 1602566 208

>>1602560
>ться
Дальше не читал.

Аноним 01/05/26 Птн 14:07:10 № 1602569 209

>>1602552
Речь о том, как изначально задуман инфиренс, исключения редки и касаются фп8 или квантов, совместного применения fp-bf не может быть по определению.

Алсо, это же сколько лет херня с поломанным контекстом происходит, модели на bfloat перешли далеко не вчера. Таки ор.

Аноним 01/05/26 Птн 14:09:12 № 1602570 210

>>1602560
Чел он у меня уже на 6к контекста посыпался. Если б не лупы был бы норм, как можно терпеть модель повторяющую целые предложения в 2к26 я хз

Аноним 01/05/26 Птн 14:09:37 № 1602571 211

Я может секрет раскрою, но в вллм даже гемма3 помечена как numerical instability для ф16

Аноним 01/05/26 Птн 14:16:02 № 1602572 212

>>1602480
>потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста
Тоже самое и с снг-долбоебами, которые без единого аргумента просто начинают высмеивать слово раскрытие.

Аноним 01/05/26 Птн 14:28:29 № 1602580 213

>>1602570
А у меня нет. Видимо дело в кривых руках отдельных юзерах.

Аноним 01/05/26 Птн 14:37:18 № 1602596 214

>>1602560
Тот же экспириенс, но у меня Q5. Больше 64к контекста не играю энивей, это только себе в контекст срать. Блюстар пока что самый лучший тюн Квена

Аноним 01/05/26 Птн 14:38:49 № 1602597 215

>>1602596
Покажи промт, карточку, всё с чем-то играешь. Мне просто интересно, почему у вас блюстар ломается.

Аноним 01/05/26 Птн 14:41:22 № 1602599 216

>>1602597
Ты о чём, не тому ответил? У меня ничего не ломается и прекрасно работает до 64к. Дальше начинает повторять целые абзацы и лупится, но я и на инстракте Квена Q5 доходил до 76к максимум, дальше все то же самое. Без пресетика обойдешься

Аноним 01/05/26 Птн 14:43:36 № 1602600 217

Когда вы научитесь саммери использовать.

Аноним 01/05/26 Птн 14:44:23 № 1602602 218

>>1602599
>BlueStar разваливается после 65k контекста
>Тот же экспириенс
>интересно, почему у вас блюстар ломается
>не тому ответил
Ты шиз или да?

Аноним 01/05/26 Птн 14:46:48 № 1602605 219

>>1602602
Много моделей знаешь, которые в принципе выдержат такой контекст? Которые не больше раз в десять
Не много, да и иди нахуй вообще, свободен

Аноним 01/05/26 Птн 14:49:46 № 1602607 220

>>1602605
>пук
Шизпет натурале. Вместо того чтобы юзать саммари ты дрочишь модель огромным контекстом, а потом жалуешься перформанс. Сука, ебучий абу, кого ты привёл в тред своими постами? Ёбаный рот этого казино блять....

Аноним 01/05/26 Птн 14:51:42 № 1602608 221

>>1602607
>потом жалуешься перформанс
Тебе голову лечить надо. Я нигде не жаловался, только подтвердил что до 64к эта модель контекст держит замечательно. Дальше можно сделать саммари и продолжить. Ничоси, да? Лоботомиту который катает мистральнемо и 10к контекста не понять

Аноним 01/05/26 Птн 14:53:23 № 1602609 222

>>1602605
> в принципе выдержат такой контекст
> разваливается после 65k контекста
Ты рофлишь?

Аноним 01/05/26 Птн 14:54:40 № 1602611 223

>>1602605
Литералли гоняю Qwen 3.6 27b в 262144 контексте и ему норм.

Аноним 01/05/26 Птн 14:55:58 № 1602612 224

>>1602611
Верим всем тредом что ты забил контекст подзавязку и он не развалился. Хотя то может быть правдой, если ты отыгрываешь только "я тебя ебу".

Аноним 01/05/26 Птн 14:59:33 № 1602613 225

>>1602612
Чел, он не разваливается, давно установлено. И чтобы отыгрывать что-то не
> "я тебя ебу"
контекст нужен по определению. Проведя тесты как работают модели на старом железе, понятно почему тут столько шиллеров микроконтекста.

Аноним 01/05/26 Птн 15:01:51 № 1602616 226

>>1602613
> Чел, он не разваливается, давно установлено
Серьезные люди в пиджачках сказали, ага. Съеби туда откуда выполз, там твои бредни скушают охотнее.

Аноним 01/05/26 Птн 15:04:12 № 1602619 227

>>1602616
Обладателю отсутствия неприятно и он пустился в оскорбления. Как там васяномиксы мистраля поживают?

Аноним 01/05/26 Птн 15:04:35 № 1602620 228

>>1602612
Ну, может у него в начале контекста карточка с сеттингом культяпки на 25000 токенов, а потом еще медитаций на 200000. Половину из которых пишет он сам. Контекст он разный бывает.

Аноним 01/05/26 Птн 15:43:30 № 1602643 229

>>1602620
>с сеттингом культяпки
Чё это?

Аноним 01/05/26 Птн 16:09:48 № 1602662 230

Скоро от Зерофаты 31б Гемма. Снова будет база как и Мерочка, меньше слова и репетишена

Аноним 01/05/26 Птн 16:12:21 № 1602668 231

>>1602662
А потом будут квены, а потом мистралька. Наконец-то закумим как люди.

Аноним 01/05/26 Птн 16:20:48 № 1602674 232

>>1602422
> как
Закинувшись копиумом.

Аноним 01/05/26 Птн 16:27:23 № 1602683 233

>>1602643
Культивация же: секты, аура, женьшень 10000 летний, пилюли и пагоды.

Аноним 01/05/26 Птн 16:28:40 № 1602684 234

Тянки не умеют в РП, хуже нейронок

Аноним 01/05/26 Птн 17:04:10 № 1602705 235

>>1602684
Это 0.5B где то

Аноним 01/05/26 Птн 17:05:45 № 1602707 236

>>1602705
0.025б.

Аноним 01/05/26 Птн 17:10:09 № 1602710 237

>>1602707
0.002K

Аноним 01/05/26 Птн 17:15:38 № 1602716 238

>>1602612
Пчел, я его для программирования использую, чтобы он не обсирался в написании кода. Там следование контексту как бы важно. И квен в своих масштабах и задачах лучший в следованию контексту.

Аноним 01/05/26 Птн 17:16:55 № 1602717 239

Даркен перезалил кванты, теперь они стали на 5 гигов тяжелее. Ебало тех кто не успел схоронить имагин?

Аноним 01/05/26 Птн 17:27:48 № 1602720 240

>>1602716
Программирование и рп это раздные юзкейсы. Следование контексту в них работает очень по разному. В коде у меня квен тоже спокойно 256к держит, в рп дальше 76к не уходил. Квен правда в своих масштабах лучший по следованию контексту, но возможности его не безграничны

Аноним 01/05/26 Птн 18:03:13 № 1602736 241

>>1602720
Если ты используешь Qwen 3.6 27b в РП, то ты душевно-больной.

Аноним 01/05/26 Птн 18:04:47 № 1602738 242

>>1602720
> в рп дальше 76к не уходил
Что тебе мешает уйти дальше?
Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично, и можно заметить в длинных чатах с ассистентом и подобном. Желание переносить уже имеющееся в контексте на новое, это именно для кодинга актуально, в рп подобным не страдает. Распыление внимания когда пытаешься по огромному контексту зирошотом решить задачу, которая основывается на глубоком его понимании - это неизобежно и решается ризонингом или сложными пайплайнами.
Но именно в рп за счет разнообразия, прогресса и в то же время связанности содержимого проблемы могут даже не возникнуть, а если есть - решается промптом. Зато осведомленность чара все хорошо компенсирует.
Очень интересно с какими проблемами сталкиваются те, кто жалуется.

Аноним 01/05/26 Птн 18:08:00 № 1602740 243

>>1602736
>но-бо
>-
Насколько хуёвым должен быть квант чтобы совершать подобные ошибки?

Аноним 01/05/26 Птн 18:11:57 № 1602745 244

>>1602717
Ебало тех, кто не знает, как работает гит?

Аноним 01/05/26 Птн 18:16:56 № 1602749 245

>>1602745
>Ебало
>гит

Аноним 01/05/26 Птн 18:36:05 № 1602758 246

>>1602738

Аноним 01/05/26 Птн 18:42:33 № 1602763 247

Создал новый РП бенчмарк для нейронок на основе бесед с селёдками

Метрики: количество открытых верных действий, количество сеансов

Аноним 01/05/26 Птн 18:47:19 № 1602765 248

>>1602738
> Очень интересно с какими проблемами сталкиваются те, кто жалуется.
Мимо, но выскажусь.
> Что тебе мешает уйти дальше?
У Квена 3.5 27 есть проблема лупинга: он берет целый абзац или несколько из контекста и вставляет их в ответ. Проблема есть как у меня локально в Q5-Q6 квантах, так и через апи как минимум на опенроутере, даже на чаткомплишене. 122б таким, вроде бы, не болеет, но он для рп не годится. Чем больше контекста - тем вероятнее, что проблема произойдет. Если использовать тюны - проблема наступает раньше. Инстракт сухой, слишком ровный, с ним скучно. Мне удавалось дойти на инстракте чуть больше, чем до 85к, потом уже и свайпы не помогали. Проблема проявляется примерно после 50к на инстракте и раньше на тюнах, примерно совпадаю с цифрами выше. Свайпы помогают только до поры, до времени.
> Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично
Логично, но какая разница, если с ростом контекста модель становится слишком неповоротливой? Этот фактор тоже имеет значение. Чем его больше, тем менее Квен креативит, по крайней мере у меня так. Остановился на 70к с ризонингом, дальше уже весь процесс сводится к тому, чтобы толкать воз через болото. У Геммы, кстати, такие же проблемы абсолютно (и не только они).

Аноним 01/05/26 Птн 18:50:29 № 1602769 249

>>1602765
>проблема лупинга: он берет целый абзац или несколько из контекста и вставляет их в ответ
Можешь показать эту штуку?

Аноним 01/05/26 Птн 19:01:28 № 1602776 250

>>1602765
Хм, кусок абзаца или фразы есть и на 122б, это часто проявляется в ассистенте, когда оно будто само заучивает шаблон и его постоянно юзает. Причем делается явно осознанно, указываешь на это и просишь не делать тут же перестает, но со временем может набрать новый. Оно не только на конкретные части, а также на общие структуры срабатывает, если в начале ответило подробно с таблицами и нумерацией - на продолжающие вопросы будет также большими ответами срать, пока не сменишь тему или не появится намек что ожидается более короткий ответ. Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет. А если подряд просишь "давай еще, еще, и такое" - сразу накапливает.
Создается впечатление что просто читерит и воспринимает повторяемые части сообщения как тот же вызов функций, которые сами по себе должны повторяться. В той или иной степени это у всех моделей есть. Но в рп подобного не ловил ни разу.
> слишком неповоротливой
А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой. Оно может и на малом контексте произойти.

Аноним 01/05/26 Птн 19:02:20 № 1602778 251

>>1602456
>The NVIDIA GeForce RTX 5060 Ti features a memory bandwidth of 448 GB/s
То есть вы серьезно на это говно прогреваетесь? Это ж чуть ли не уровень 3060. v100 32 будет лучше по всем параметрам за ТЕ ЖЕ деньги (а 16 гб версия в ТРИ раза дешевле в полном обвесе, при этом память у нее почти В ТРИ раза быстрее). Это для ллм. Но я даже не удивлюсь, что в полновесных картинкосетях v100 будет ненамного медленее.

Причем блять еще им смешно про "раскрытие", какие-то говномемы для игрулькиных вспомнили. Головой подумайте, если ты берешь 16 Гб, то у тебя и для обработки контекста в нормальных квантах ллм, и для всех нормальных картинкосетей, будет происходить блок свап. Какой блять смысл в твоем ниибаться мощном чипе, если половину времени он будет простаивать в ожидании блока с рам?

Аноним 01/05/26 Птн 19:07:42 № 1602782 252

>>1602662
>раскрытие
Кек

Аноним 01/05/26 Птн 19:08:37 № 1602783 253

>>1602778
>>1602782
Промахнулся

Аноним 01/05/26 Птн 19:15:05 № 1602787 254

1672437179025.png 208Кб, 1071x297

>>1602778
> будет лучше по всем параметрам за ТЕ ЖЕ деньги
Там вот такой порнографии точно не будет. Если поднапрячься то на паре можно и забыть про gguf как явление.
Решил вернуться к вопросу ригозамещения, все очень печально. За 38к - пойдет, но брать ее по текущим ценам - безумие.
> блок свап
При здоровом соотношении между сложностью расчета-объемом подгружаемых весов и здоровом асинхронном коде можно обеспечить почти полную загрузку.

Аноним 01/05/26 Птн 19:15:31 № 1602788 255

Кто там пиздел про "вайб-кодинг"? 10 часов провёл сегодня с агентом - открыл для себя экспириенс. Да, код самому писать не надо, а вот работы ничуть не меньше. Конечно, можно замахнуться на такое, на что раньше и руки-то не поднимались и в целом производительность сильно выше, но про вайб-кодинг - пиздёж. Именно вайб-кодить может только полный нуль в программировании. Ему хорошо.

Аноним 01/05/26 Птн 19:17:46 № 1602790 256

изображение.png 48Кб, 1188x337

>>1602778
>при этом память у нее почти В ТРИ раза быстрее
А что не в ВОСЕМЬ то? Там ровно х2 по факту.
А вот 5090 ебёт.

Аноним 01/05/26 Птн 19:21:00 № 1602794 257

>>1602790
В некоторых источниках для 16гб карты указывают 1100+ https://www.waredb.com/processor/nvidia-tesla-v100-sxm2-16-gb

Аноним 01/05/26 Птн 19:36:14 № 1602800 258

>>1602769
> Можешь показать эту штуку?
Приложил лог, выделил повторяющийся абзац. При этом, если его вырезать, повествование выглядит органично и как надо. На пикриле в контексте 66к, далее повторяемых фраз, абзацев становится все больше, до тех пор пока не начнут повторяться целые аутпуты. Все Квены 27 болеют этим. Пожалуй, это единственный сильный его недостаток, в остальном я по-прежнему считаю, что Квен 27 > Гемма 4. Такое и раньше бывало, на других моделях. Такое удивит только если совсем недавно вкатился.
>>1602776
> Оно не только на конкретные части, а также на общие структуры срабатывает
Да, может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари, если они структурированы.
> Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет
Все так, но сама природа рп довольно репетативна. На пикриле, например, парой аутпутов ранее произошла смена сцены, места действия, прибавились новые лица. При этом проблема никуда не делась. Допускаю, что если бы ранее в чате этих смен действия было больше - проблема отсрочилась бы еще на какое-то время.
> А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой.
Можно раздуплить инструкциями, но ненадолго. По мне это прямая зависимость: чем больше контекста - тем вероятнее наступит проблема. В любом случае я доволен, ни одна другая локальная модель доступная на моем железе не держит контекст так хорошо, как новые Квены.

Аноним 01/05/26 Птн 19:42:44 № 1602804 259

>>1602787
>Там вот такой порнографии точно не будет.
Ну большие контексты это отдельная песня, там вообще лучше без жоры, по идее.

> За 38к - пойдет
Возьми две 16 гб карты, хехе. А вообще была же опция новых 2080ti@22 год назад за эту цену. Там память тоже быстрее 5060ти, и интовые тензорные ядра в наличии (но бф16 нет). У меня вот одна такая прямо около коврика с мышкой сейчас лежит, иногда вентиляторы ей покручиваю.

>почти полную загрузку
На моей третьей x8 псине была недогружена постоянно. 3090 показывала себя лучше, тупо наверняка из-за того, что памяти больше и меньше трансферов нужно.

Аноним 01/05/26 Птн 19:53:19 № 1602814 260

>>1602800
А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит.

У меня такой хуйни как у тебя нет, и я подозреваю, что подобная шизофрения это кал в промте, типа когда даёшь инстракт в духе "вивидь как ебанутый, пешы большы текста мраз." Ну и модель видит, как ей кажется, удачный блок и напохуй копирует его. Главное что вивид и текста много, а на цельность и гармоничность повествования похуй, но не потому что модель плохая, а потому что нейронные мозги немного спеклись от объёмов обрабатываемого текста.

Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста. Похожие конструкции да, встречались, но просто кусок копипаста посреди текста это что-то за гранью.

Впрочем, я второй блюстар сразу забраковал, когда он мне вместе отыгрыша персонажа стал срать непонятной хуйнёй, хотя первая версия справлялась с удерживанием этого же чара вполне пристойно. Иногда тюнеры срут себе в штаны.

Аноним 01/05/26 Птн 20:00:05 № 1602821 261

>>1602800
> может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари
Не, вот это вообще и близко не ок, явная поломка. Встречаются повторения "успешного" ответа, но анлерейтед вставок никак не может быть.
Хм, твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть.

К слову, не релейтед ли это >>1602314 ?

Аноним 01/05/26 Птн 20:00:54 № 1602822 262

>>1602814
> А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит
Ты это понял по выборке из целых 2 (двух) аутпутов? Нет, не смущает. На данном персонаже фокусируется повествование в данной конкретной сцене, что длится несколько аутпутов.
> Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста
Речь про 50к и более. Прежде чем врываться в обсуждение, будь добр понять о чем оно. До 50к у меня вообще никаких проблем нет и все устраивает.

Аноним 01/05/26 Птн 20:02:29 № 1602824 263

>>1602822
>бабах
Причина? Нормально же общались.

Аноним 01/05/26 Птн 20:02:59 № 1602825 264

>>1602804
> там вообще лучше без жоры
Даже ллама не так сильно замедляется на блеквеллах. Хз, v100 была годной темой для вката за исходный ценник именно за счет него и объема памяти.
> третьей x8 псине
Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd.

Аноним 01/05/26 Птн 20:03:07 № 1602826 265

>>1602788
Все так, либо для какого-то мелкого говна. А так мое квен даже джава файл распарсить и вывести имена классов и функций не может.

Аноним 01/05/26 Птн 20:06:00 № 1602827 266

>>1602821
> твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть.
Проблема и на апи существует. В англоязычном комьюнити проблема известная. Читал отзывы, что без ризогинга Q4 кванты такое могут делать уже на 8-10к контекста. Не знаю, связано это с кешем или имплементацией в принципе.

Аноним 01/05/26 Птн 20:08:56 № 1602828 267

>>1602824
У тебя богатое воображение. Стало понятно когда ты упомянул Блюстар, хотя это не он. GIGA, анончик. Не проебывай контекст и думай что пишешь.

Аноним 01/05/26 Птн 20:10:50 № 1602830 268

>>1602828
>ты должен был написать то, что я хотел увидеть в твоём посте, но ты этого не написал и поэтому я обиделся
Таблетки.

Аноним 01/05/26 Птн 20:11:57 № 1602832 269

>>1602825
Я мыслями еще там, где кумят на 70B лламе, а энти ваши огенты с гигаконтекстами мне непривычны.
>Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd.
Я даже хз хорошо это или плохо. Но энивей карта не раскрывается на таком конфиге.

Аноним 01/05/26 Птн 20:16:34 № 1602835 270

Там дипкок буквально за копейки раздают

Аноним 01/05/26 Птн 20:16:50 № 1602836 271

>>1602794
Сейчас бы не отличать SMX версию от PCIe.

Аноним 01/05/26 Птн 20:20:47 № 1602837 272

>>1602827
> Проблема и на апи существует.
В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть, в пиковые часы модели ужасно тупеют, флагманские модели буквально могут залупиться повторением одной фразы, ужасно тупить, давать поломанный русский и т.п.
Это не значит что проблемы нет, но есть шанс что ее наблюдение там имеет ту же природу. И в любом случае это серьезный косяк, хорошо бы если его можно пофиксить.
Тип кэша в параметрах менял?
>>1602832
> карта не раскрывается
Как вариант - можно батча навалить. Усложнит расчеты и увеличит выхлоп, количество подгрузок не изменится.

Аноним 01/05/26 Птн 20:22:56 № 1602838 273

>>1602822
>Ты это понял по выборке из целых 2 (двух) аутпутов?
а то будто уникальный аутпут ниибацца, никогда такого не видели
любые маркеры чара/хода/итп сваливают сетку в структурный луп, равно как впрочем и глинты и прочий слоп. только человеческий текст не загоняет. рпхряки как обычно соснули у книгобогов.

Аноним 01/05/26 Птн 20:23:27 № 1602839 274

>>1602836
Анта бака? Ты это не мне пиши, а тому, кто скрин кидал. Тут никто pci-e версии не обсуждает по очевидным причинам.

Аноним 01/05/26 Птн 20:34:35 № 1602846 275

>>1602835
За копейки я его использовать не буду. Вот когда будут кидать по 100 рублей за 1к потраченного контекста, тогда подумаю.
>>1602839
>Ты это не мне пиши, а тому, кто скрин кидал.
Сорян, не отличил пользователя "Аноним" от пользователя "Аноним". Впредь буду внимательнее!

Аноним 01/05/26 Птн 20:35:40 № 1602847 276

>>1602838
Не угадал. У меня вся чатхистори в первый ход парсится и никаких маркеров нет. Кстати, что ты забыл в данном треде? С твоим что-то случилось?

Аноним 01/05/26 Птн 20:37:49 № 1602849 277

>>1602847
>врёти
>ухадити
Чем анончики тебя так проткнули сегодня? На всех подряд бросаешься.

Аноним 01/05/26 Птн 20:50:18 № 1602856 278

>>1602837
> В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть
Всегда было. Согласен, что по апи ориентироваться - так себе метрика, но тогда уже непонятно что брать за референс. vLLM/SGLang? У нас на весь тред в полных весах тот же Квен 27 запустят всего несколько человек, отпишутся еще меньше, попробуют его в рп на длинном контексте и отпишутся - и того меньше.
> Тип кэша в параметрах менял?
Q8 не пробовал. Предпочитаю не квантовать, контекст и без того легкий. Возможно, стоит попробовать BF16, но я не знаю, жив ли он в Жоре и будет ли нормально работать на Куде 12.4 и 4090.

Аноним 01/05/26 Птн 20:57:25 № 1602859 279

>>1602847
пфф чар у тебя говорит “I can walk! I can walk!”. а потом юзерское "Not a word about it, Mio. Not a word. This never happened. Yeah. It never did." и ты думаешь что модель не подхватит паттерн?
и я уверен сквозь всю чатхистори большая часть параграфов начинается с {чарнейм} + глагол как анон заметил. это тот же самый маркер считай только без разметки.

Аноним 01/05/26 Птн 21:01:08 № 1602864 280

>>1602856
> что брать за референс
В данном случае он не то чтобы обязателен, потому что наличие проблемы с кэшем очевидно.
> Q8 не пробовал. Предпочитаю не квантовать
Попробуй `-ctk bf16 -ctv bf16`. На 12.4 и аж 4090 оно точно будет прекрасно работать, главное чтобы ллама корректно это воспринимала. Вон на реддите пишут что разница есть.

Аноним 01/05/26 Птн 21:18:44 № 1602873 281

Mistral-Medium-3.5-128B - говно ебаное.
Держу в курсе.
На кум не просто не разводится, он будто у него нахуй вычищен из контекста.
Отвечает очень плохо.
Дерьмо в общем.

Аноним 01/05/26 Птн 21:20:47 № 1602878 282

>>1602864
На реддите даун, который один промпт пару раз запустил и словил рандом от сида, а теперь это на кэши валит. Долбоеб какой-то, а все обсуждают.

Аноним 01/05/26 Птн 21:21:11 № 1602879 283

>>1602873
Лучше бы примеры принес чем в пустоту пукать.

Аноним 01/05/26 Птн 21:24:03 № 1602882 284

>>1602502
Шиз, ответы все рандомные. Жмешь по 100 раз перегенерить хоть на bf16, хоть на q4, получаешь рандомные ответы, когда-то дерьмовые, когда в точку, на то он и великий рандом. Ты по ходу не вкурил как llm работают и повторяешь за тем дауном с реддита.

Аноним 01/05/26 Птн 21:24:20 № 1602884 285

>>1602873
вот семплеры и шаблон. Семплеры рекомендованные самим мистралем, шаблон собран на базе встроенного шаблона который при стартe жора выдает.
>>1602879
могу спросить у неё что захочешь и как захочешь поменять параметры.
Я с ней ебался-ебался - нихуя вообще путного не выходит. Не просто плохие ответы, а прям мусор ёбаный.
И да, жора только вчера собранный, самый свежий.

Аноним 01/05/26 Птн 21:28:05 № 1602886 286

>>1602884
Теслашиз почтил нас своим присутствием, вдохнув конскую порцию воздуха свободы казахских степей, преклоняемся пред твоим величием.

Аноним 01/05/26 Птн 21:30:24 № 1602890 287

>>1602886
блять, не следи за мной
И она запущена не на теслах, а на 2 3090 и 1 v100.
Теслы надо продавать.

Аноним 01/05/26 Птн 21:31:21 № 1602892 288

>>1602878
Ты о чем вообще? Постов на тему несколько, есть и замеры, и аналитика, и отзывы, которые едины в тем что bf16 работает лучше чем fp16. Можно было сказать что это то же самое как опции swa, которые только меняют кэширование не трогая поведение, но здесь в основе вполне очевидное и серьезное основание.
>>1602884
Бляя, пост легенды. А куда потерялся ризонинг?

Аноним 01/05/26 Птн 21:33:45 № 1602895 289

сука, затроллила меня...
Но не подумайте лишнего, это от глупости сетки, а не от охуенной смекалки.

Аноним 01/05/26 Птн 21:36:09 № 1602898 290

>>1602884
>вот семплеры и шаблон
Творческое письмо на t=0.48? Вряд ли. Попробуй хоть 1 поставить что ли. И XTC покрути. А вообще везде же пишут, что ещё по сути нет поддержки и на мало-мальски длинных контекстах модель ломается.

Аноним 01/05/26 Птн 21:38:04 № 1602902 291

>>1602890
Я твой единственный симп. Свои теслы я не запускал уже с полгодика как, да и с локальными ллм почти завязал.

Аноним 01/05/26 Птн 21:39:15 № 1602905 292

>>1602892
>А куда потерялся ризонинг?
я не знаю....
я указал же все правильно в параметрах, но ризонинг она не выдает вообще хз почему...
>>1602898
я с 1 и начал. Там было вообще пиздец.
Вот что она выдала на t=1.
Там вроде рекомендуют максимум 0.7 ставить.

Аноним 01/05/26 Птн 21:40:24 № 1602907 293

>>1602905

Аноним 01/05/26 Птн 21:40:54 № 1602908 294

>>1602907
В чем она не права?

Аноним 01/05/26 Птн 21:41:19 № 1602909 295

>>1602898
То есть содержимое 3-го скрина тебя не смутило?
>>1602905
Не указал. Там должен предполагается префилл префикса на него, но даже без него при наличии опции в системном модель сама начинает. Почини разметку.

Аноним 01/05/26 Птн 21:44:41 № 1602912 296

>>1602864
> Вон на реддите пишут что разница есть.
Нашел посты анонов, которым показалось что с bf16 лучше, но пруфов или каких-то бенчей не нашел. Поделись если у тебя есть. Позже попробую сам с bf16, может отпишусь.
>>1602884
Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть? На третьем пике очевидно, что разметка сломана.

Аноним 01/05/26 Птн 21:46:58 № 1602915 297

>>1602909
я пробую добавлять префилл, но она размышление заканчивает и не закрывает <think>. И соответственно, не выдает ответ.
>>1602912
>Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть?
см второй пик. У меня кроме шаблона контекста больше никакие шаблоны не включены. Ну и префилл <think> вот я только что поставил

Аноним 01/05/26 Птн 21:57:07 № 1602920 298

>>1602915
>выключенный инстракт
Мда... Не оставил модели ни единого шанса.

Аноним 01/05/26 Птн 22:09:30 № 1602928 299

>>1602912
> но пруфов
Там перплексити замеряли. Если копнуть глубже - еще на этапе разработки квеннекста на гите делали сравнение логитсов с трансформерсами и наблюдали большие отклонения. Последующие фиксы и смена дататипа кэша разницу сокращала. Похоже что bf16 в релиз не включили, что очень странно.
Конфликт дататипов вообще вещь слишком очевидная чтобы требовать ее доказывать.
>>1602915
Чето в голос, воистину легенда.

Аноним 01/05/26 Птн 22:10:07 № 1602930 300

>>1602920
ну мы же оба знаем, что хорошая модель хороша, как её ни запускай. А хуевая не выдаст нормальный ответ даже если ты разработчиков в жопу взасос поцелуешь.
Я наконец понял, почему она упорно отвечает про тор.
Потому что она воспринимает слово кружка как круг блять.
Ну.... это очень плохо. Очень жидко. Не годится вообще никуда.

Аноним 01/05/26 Птн 22:11:19 № 1602931 301

1635145360239.png 1357Кб, 2223x841

1706802139108.png 30Кб, 758x203

https://huggingface.co/plezan/Mistral-Medium-3.5-128B-W4A16
4х MI50 100k ctx

Либо чекпоинт кривой, либо инференс. Аутпут какой то припизднутый

Аноним 01/05/26 Птн 22:15:46 № 1602936 302

Проклят это мистраль, все ггуфы поломаны, другие типы квантизации в основном тоже, либо какая то ебанутая экзотика по типу mlx который мне не на чем катать

Аноним 01/05/26 Птн 22:15:56 № 1602937 303

Тут отписывался человек с 1050ti. В общем хорошие новости для него и прочих анчоусов без видимокарт. Любопытства ради запустил Гемму 26b в Q8_0 на проце, без выгрузки, и... ЖИЗНЬ ЕСТЬ. 8,6 т/с на старом кукурузене и ддр4. В общем выкидывайте свои 8b на помойку и используйте нормальные ЛЛМ, а то чо как эти а я пойду дальше с квенчиком 235b кумить хе-хе-хе

Аноним 01/05/26 Птн 22:19:02 № 1602943 304

>>1602930
>ну мы же оба знаем, что хорошая модель хороша, как её ни запускай
Я любую модель заставлю нести бред, кинув туда свои нефильтрованные мысли выкрутив температуру и XTC на максимум (и забыв про отсекающие семплеры). Плюс известно о деградации моделей даже от мелочи типа "в шаблоне был токен, обозначающий два перевода строки, а модели отправляют два отдельных токена на один перевод строки". Так что нет, не согласен, хорошая модель конечно будет стараться, но вполне себе деградирует до лоботомита 0,3B при кривых параметрах.
>>1602936
>все ггуфы поломаны
Как будто с другими моделями не так. Вон, у геммы то кеш отваливается, то кванты анслоша снова конвертят bf16 в fp16, лол.

Аноним 01/05/26 Птн 22:20:36 № 1602945 305

>>1602943
> будто с другими моделями не так. Вон, у геммы
awq8/awq4 в первые дни появились на 100% рабочие

Аноним 01/05/26 Птн 22:22:09 № 1602947 306

1652300287142.png 56Кб, 1105x247

С mimo тоже тухляк. Один ггуф и тот без мм

Аноним 01/05/26 Птн 22:26:40 № 1602949 307

>>1602937
Много как-то, q8 скорость падает ниже.

Аноним 01/05/26 Птн 22:27:05 № 1602951 308

Ггуф умер

Аноним 01/05/26 Птн 22:28:39 № 1602957 309

изображение.png 252Кб, 1908x703

>>1602930
>Потому что она воспринимает слово кружка как круг блять.
Ну собственно у меня не так. Иногда верно отвечает, иногда тупит, но никаких кругов у меня не обнаружено.

Аноним 01/05/26 Птн 22:33:02 № 1602962 310

>>1602957
В голос с ебаклака. У тебя модель другая блять.

Аноним 01/05/26 Птн 22:33:46 № 1602965 311

>>1602957
Отец-хирург, плиз...
Тред на этих выходных всех шизов решил собрать? Писали же выше, не проебывай контекст.

Аноним 01/05/26 Птн 22:34:34 № 1602968 312

>>1602962
Сорян, смешались в кучу пони, люди, срач про bf16 кеш и какая-то там ненужная мистраль.

Аноним 01/05/26 Птн 22:37:15 № 1602972 313

изображение.png 104Кб, 1927x553

>>1602965
>Отец-хирург
Вот не нужно тут, начинали с теплокровных собак и бояров с яйцами же. Хирурги это новодел ньюфагов.

Аноним 01/05/26 Птн 22:46:15 № 1602979 314

>>1602937
4.9 t/s, ты пиздишь

Аноним 01/05/26 Птн 23:00:24 № 1602984 315

>>1602951
Да

Аноним 01/05/26 Птн 23:04:27 № 1602985 316

>>1602778
В прошлом треде кидали бенчи двух 5060ти и в100 на одной модели. в100 всосало с проглотом

Аноним 01/05/26 Птн 23:08:19 № 1602986 317

>>1602951
Помянем. Хороший был пацан.

Аноним 01/05/26 Птн 23:19:05 № 1602990 318

>>1602985
В прошлом треде только кидали ссылку на https://github.com/ggml-org/llama.cpp/discussions/15013

RTX 5060 Ti 16 GB / GDDR7 / 128 bit 4195.53 ± 1.98 93.46 ± 0.01
Tesla V100 32 GB / HBM2 / 4096 bit 2973.78 ± 3.62 134.76 ± 0.02

И цифры оттуда не похожи на "всосало с проглотом".

Аноним 01/05/26 Птн 23:28:08 № 1602994 319

>>1602800
Я смог побороть это на квене. Нужно менять порядок семплеров (можно и не менять, но так лучше получается) и адски пердолиться с остальными семплерами.

Например, у меня квен точь-в-точь не повторяет обычно при консервативных семплерах, но повторяет по смыслу, используя другие слова, что бесит.

Смена порядка семплеров и их настройка полностью убрала эту хуйню, но вот насколько мозги просели — большой вопрос. Так как у меня т/с довольно уёбищный и не идеальный английский (могу упускать нюансы шизы и мелкие проебы модели), тяжело тестировать, ибо хорошее тестирование не за зирошоте, а на контексте, превращается в ад с ожиданием. Поэтому я вернулся к более консервативным настройкам пока что, ибо нет времени на пердолинг.

Аноним 01/05/26 Птн 23:39:35 № 1602998 320

>>1602990
А быстро треды летят. Вот бенч на 5060ти >>1597040 → ,а вот v100 >>1597466 →

Аноним 01/05/26 Птн 23:39:43 № 1602999 321

>>1602994
А мог бы не использовать блюстар и не было бы проблем, шизло
У меня на привычных 16к контекста никаких проблем нет
Не удивлюсь если у тебя и в промте насравно впридачу.

Аноним 01/05/26 Птн 23:51:39 № 1603004 322

>>1602999
Я другой чел. У меня такая вот хуйня на 3.6 квене, иногда на 3.5.

И какие 16к контекста? Ты какой-то биокарлик? Моё РП для кума — это 32к по стандарту, потому что сло берн, разговоры. РП без кума 65-80к контекста. Говнокод работа с текстом — от 128 до 200к.

РП на опасной модели, работа на оригинальной.

Везде одни и те же проблемы с этими лупами.

Аноним 01/05/26 Птн 23:52:10 № 1603006 323

>>1602930
> хорошая модель хороша, как её ни запускай
Против кадрового офицера никакая модель не справится.
> воспринимает слово кружка как круг блять
Что-то капитально взорвано и модель не в адеквате, или эмбиддинги порвались.
> Ну.... это очень плохо. Очень жидко. Не годится вообще никуда.
Это даже для 0.8б пиздец. Но тебя не засмущало и уже делаешь выводы.
>>1602998
Если перейти с q4_0 на менее протухшее, то разрыв окажется больше.

Аноним 01/05/26 Птн 23:52:52 № 1603008 324

>>1603004
Ты просто инвал не умеющий в настройку. Тебе уже несколько людей в треде сказали что у них такого нет. А ты всё срёшь в штаны и вайнишь на модель.

Аноним 01/05/26 Птн 23:56:01 № 1603010 325

>>1602994
Уверен что это не просто совпадение? Квен он такой, та же самая модель может быть суперахуенной, а потом тупить что стукнуть хочется. С другим типом кэша ничего не изменилось?

Аноним 02/05/26 Суб 00:14:28 № 1603021 326

>>1603010
Ты забываешь что всегда есть рандомное зерно геyенрации. Тебе может понравиться цепочка ответов с одним seed`ом и не понравиться с другим. И тогда ты начинаешь искать несуществующие проблемы.

Аноним 02/05/26 Суб 00:17:21 № 1603022 327

>>1603010
Это как и с генерацией картинок. Найдя тот стиль и логику которые тебе наиболее близки, ты можешь попробовать зафиксировать seed и добиться единого стиля

Аноним 02/05/26 Суб 00:20:34 № 1603024 328

>>1603022
Проспись

Аноним 02/05/26 Суб 00:20:43 № 1603025 329

>>1603021
> тогда ты начинаешь искать несуществующие проблемы
Кто ты? О поиске каких проблем речь?
> зерно
Понятно что это базовый перевод, но с этого каждый раз проигрываю.
>>1603022
Полнейший бред. Нейробот, для тебя в прошлом треде еще промпты оставляли.

Аноним 02/05/26 Суб 00:23:25 № 1603027 330

>>1602998
Окей, с такими бенчами и текущей ценой на 32гб v100 2х5060ti выгоднее. Но две 16гб версии стоят дешевле, чем одна 5060ти. И ты получаешь в два раза больше памяти. Тут уже не все так просто. Вообще вот я накидаю вариантов:
[32гб] 2х5060ti = 80к
[32гб] v100@32 = 60к (полный обвес с радиатором)
[32гб] 2х v100@16 = 34к (полный обвес с радиатором)
[36гб] 3x 3060@12= 60к
[44гб] 2x 2080ti@22 = 60к

Можно еще придумать всякие комбинации из этого (только не блеквеллы с теслами, гыгы звуки грустного тромбона)

Аноним 02/05/26 Суб 00:26:37 № 1603029 331

Погонял мистраль новую в обычных чатах на русском языке, задавал загадки и просил накодить что-то ваншотом.
Что могу сказать. Русик хуевый, могут лезть французские слова, проебывается разметка markdown, да и путается в сущностях и галлюцинирует.
Кодит вроде и неплохо, на уровне минимакса, но нахуй оно надо.
Пеликана сгенерировать не в состоянии, получается какое-то месиво.
В рп же отвечает сухо без шизопромпта, реагирует вяло и лениво.
Если же запустить с eagle моделью, то качество падает ещё ниже до уровня пережаренного q2 квена 27b.
Хуй знает, может, билд vllm косячный, но с остальными моделями такой залупы нет на той же версии. Ждём 0.21.0, где часть косяков инференса могут закрыть.
А вообще, залупа. 19 tps на пустом контексте, с eagle моделью становится 37 tps, но качество падает разительно. Не знаю, кому нахуй такое счастье нужно, которое забирает 192 гб, из-за чего доступно 131к контекста. Тот же квен 27b в fp8 показывает себя лучше, так и работает намного быстрее, да и контекста хватает на несколько запросов с фулл контекстом.
И это я на сою и отказы не тестил, не удивлясь, если окажется хуже квена.
Если что, я тестировал оригинальные веса в fp8.

Аноним 02/05/26 Суб 00:28:33 № 1603030 332

>>1603027
Ты как бы учти что в китае остались в основном в100 с битой памятью "есть ecc errs, в llm не влияет, мамой клянусь"

Аноним 02/05/26 Суб 00:32:31 № 1603032 333

>>1603029
>Пеликана сгенерировать не в состоянии
Зачем генерировать пеликана...

Аноним 02/05/26 Суб 00:33:15 № 1603033 334

>>1603027
> две 16гб версии стоят дешевле, чем одна 5060ти
В рамках бюджетных сборок с сильным упором на прайс - да, они однозначно имеют право на жизнь. Но в остальном есть смысл переплатить за блеквеллы. Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить.
>>1603029
> с eagle моделью, то качество падает ещё ниже
Оно не может влиять на качество аутпутов.
Расскажи подробнее что за пеликан, что за тесты и сущности?

Аноним 02/05/26 Суб 00:36:43 № 1603035 335

>>1603030
Я месяц назад заказывал карточку у норм продавца, пришла в норм состоянии. Просто не надо у мутных с нулем отзывов заказывать, а то платы от лифта получишь зато без ошибок памяти
Ну так-то дело сугубо анонское, я вот благодаря этому треду полюбил всякую некроту, в этом какой-то даже челлендж есть (но не уровня ми50, до этого мне далеко лол), а так если деньги не жалко, а ждать жалко, то и покупай самое новое.
>>1603033
>Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить.
Он уже есть же, raylight. Только нужна оч быстрая псина, а еще лучше p2p драйвера

Аноним 02/05/26 Суб 00:52:02 № 1603043 336

>>1603033
Ты меня ебёшь.

Аноним 02/05/26 Суб 00:56:00 № 1603045 337

>>1603043
nod.

Аноним 02/05/26 Суб 00:58:53 № 1603047 338

>>1603033
> Оно не может влиять на качество аутпутов.
Я в курсе, но какая-то хуйня происходит, если подрубать eagle модель.
Прочитал репу, там mistral обрсрались с конфигом, из-за чего модель могла идти по пизде. Придётся перетестировать.

Аноним 02/05/26 Суб 01:04:51 № 1603051 339

>>1603043
Ух, чертовка, с козырей заходит!
>>1603047
Хм, интересно как оно ломает? В вллм хз, но в sglang спекулятивный вещи работают все стандартизовано, да и тут как может именно инфиренс поломать? Хотя с хуангооптимизациями и не такое может быть.

Аноним 02/05/26 Суб 01:09:39 № 1603054 340

>>1602662
> зерофаты
Не вниманиеблядство, не путаем.

Аноним 02/05/26 Суб 01:19:55 № 1603055 341

>>1603054
Да, ведь как известно зерофата это нашенский тредовичок

Аноним 02/05/26 Суб 01:20:27 № 1603056 342

>>1603054
>вниманиеблядство
Как будто он тут сидит... и шитпостит от своего имени.

Аноним 02/05/26 Суб 01:23:13 № 1603057 343

>>1603056
Он оп вообще то

Аноним 02/05/26 Суб 01:24:29 № 1603058 344

>>1603057
Оп что-то мерджит или даже тренит? Да не, это фантастика.

Аноним 02/05/26 Суб 01:35:48 № 1603065 345

>>1603058
Если ето правда, то зерофате лучше нормально тюнить квен36, иначе пизда ему. Второй блюстар неюзабельное говно. Раньше было лучше. Первый блюстар охуенен.

Аноним 02/05/26 Суб 01:53:34 № 1603075 346

>>1603065
Наш опчик не такой. Если бы делал то там были бы ультрабазированные модельки с художественным русским и канничками, а не это васянослопище с "задонатьте мне пожалуйста".

Аноним 02/05/26 Суб 01:59:58 № 1603078 347

>>1603075
>"задонатьте мне пожалуйста".
У него литералли ни на одном тюне нет никаких ссылок для донатов. Чел на энтузиазме делает и тебя юзать не заставляет. Всегда ахуеваю с полупокеров которые даже на таких людей срать умудряются.

Аноним 02/05/26 Суб 02:06:46 № 1603082 348

>>1603078
Чел, чё ты ждёшь от ёбика-пдфайла? Там мозги набекрень

Аноним 02/05/26 Суб 02:06:46 № 1603083 349

>>1603055
>>1603056
Нюня тоже тут давно не сидит.
Но этот пост потрут, а про зерофату нет.

Аноним 02/05/26 Суб 02:08:25 № 1603085 350

>>1603083
Вроде сидит. Лучше бы тебя вместе с постом потерли, прям насовсем

Аноним 02/05/26 Суб 02:09:29 № 1603087 351

>>1602800
Вот именно блять. И зачем мне такая модель даже если мне нравится как она пишет?
У меня с начала чата такие приколы, 3 сообщения подряд перс может подойти к шкатулке и открыть её, и он так и будет это делать если не двинешься в другое место, а я не хочу, я хочу в этом конкретном месте быть.
Если в других моделях так же то это совсем не заметно, а тут я сразу заметил и обрыгался

Аноним 02/05/26 Суб 02:09:54 № 1603088 352

>>1603078
Кофай главной ссылкой в профиле, ну
> даже на таких людей
> даже
Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели. В этом нет ничего плохого, но и хорошего тоже.

Аноним 02/05/26 Суб 02:12:19 № 1603089 353

>>1603035
> raylight
Дуал 5060ти, псина 4 х8, интел 4189, разные нума ноды, видяхи курят на 120 ваттах при капе 180
26с без, 21с с

Возможности проверить на одной ноде пока нет

Аноним 02/05/26 Суб 02:13:42 № 1603091 354

>>1603088
>Кофай главной ссылкой в профиле, ну
Это не то же самое, что настойчиво срать этой ссылкой везде где можно.
>Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели.
Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде. Чел мне Квен починил и Гемму 26, так что да, я ему благодарен. Тут такая позиция презирается и стыдна?

Аноним 02/05/26 Суб 02:20:05 № 1603094 355

>>1603088
>Кофай главной ссылкой в профиле, ну
Зайди на страницу Драммера или других слоподелов. Там ссылки на Патреон, Дискорд, "отзывы" и прочий мусор, словно ты через минуту попадешь в городскую секту сумасшедших. Олсо у Зерофаты действительно на страницах именно тюнов нет никаких ссылок и призывов.

>>1603091
>Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде
Ты че? Тут каждый второй уже и бартуху попустил, и всех на ком вся наша локальная шизодвуха держится. Каждому виднее.
>Чел мне Квен починил и Гемму 26
С Геммой есть вопросы, но насчет Квена соглашусь. На инстракте так много я бы не отыграл. Но и доказать мы тут вряд ли что сможем, по ту сторону все оч просто: любые тюны - васянство, ну кроме может Синтии, которая на практике тем еще дерьмом оказалась.

Аноним 02/05/26 Суб 02:22:08 № 1603095 356

Чёт ковыряют, может в этот раз хотя бы запустят свои кванты перед тем как лить

Аноним 02/05/26 Суб 02:25:01 № 1603096 357

>>1602662
>Снова будет база как и Мерочка
Так меро вышло говном, какая нахуй база? Это буквально та же самая гемма вообще без изменений. От детальных описаний сливается, характеры не держит. Два дня её гонял, никакой разницы не заметил, вернулся на дефолтную 26B

Аноним 02/05/26 Суб 02:28:03 № 1603099 358

>>1603091
> такая позиция презирается и стыдна
Дьявол в деталях. Благодарность юзернейму за то что его модель нравится не смотря на происхождение - хорошо. Обсуждение по сути плюсов и минусов - хорошо. Агрессия на правду "мой протык не такой потому что я словил утенка" - осудительно.
Васян, штампующий щитмиксы треня лоры через аксолотль потому что под него уже есть выложенные датасеты, а не потому что он оптимален, буквально редфлаг васяна, это как мерзкий дождь осенью. Можно злиться, можно насмехаться, можно любить и получать пользу, но сути не меняет. Если раньше это был совсем рак убивающий, то сейчас организм кое как приспособился, но это не делает им чести.
>>1603094
Хм, наверно среди них он действительно выглядит хорошо с этой точки зрения. Просто уже открыв ридми ловишь кринж, они реально думают что это выглядит круто?
> "отзывы"
Сделал мой вечер, каждый раз как в первый.

Аноним 02/05/26 Суб 02:31:14 № 1603100 359

>>1603091
>>1603094
Двачую адекватов. Если бы не рп-тюны я бы так и юзал нейронку только для вопросов как пройти в библиотеку. Или вообще юзал говнокрыс. А так у меня теперь есть +одно забавное хобби о котором не принято упоминать в приличном обществе. И у меня теперь есть вы, серуны окумевшие.

Аноним 02/05/26 Суб 02:38:27 № 1603103 360

image.png 116Кб, 1404x432

https://huggingface.co/mistralai/Mistral-Medium-3.5-128B/discussions/16
https://huggingface.co/mistralai/Mistral-Medium-3.5-128B/discussions/15
Шизы, кто из вас?
Хаухау Агресив ✔
ХуйХуй ✔
ДавидАУ ✔
Ролл с русика, непонятной загадкой выдается за undeniable evidence of a $1B model failing at primary school math ✔

Аноним 02/05/26 Суб 02:43:08 № 1603105 361

>>1603103
А потом за бугром говорят что все русские ебанутые

Аноним 02/05/26 Суб 02:45:18 № 1603106 362

>>1603103
Это скуфандрии с хабра скорее всего. Только там могут посоветовать купить мак под нейронки, потому что унифайд мемори и "купил, воткнул, заработало"

Аноним 02/05/26 Суб 02:46:56 № 1603107 363

>>1603106
Главное тут не искать советы купить красный аи макс плюс

Аноним 02/05/26 Суб 02:54:02 № 1603109 364

>>1603107
Чому не брать? Амуде разве пиздеть будут? Вообще считаю что нужно пользоваться всем где в названии фигурирует МАКС

Аноним 02/05/26 Суб 02:59:13 № 1603111 365

>>1603103
Dies from cringe. Ярлыки это плохо, но здесь просто эталонный потребитель опасных моделей. Возникла ассоциация с любителем несвежих паскалей из треда выше, но тут такое дно, что кажется такое сравнение будет оскорбительно
А еще он pdf, на скрине видно!
>>1603107
А купил ли его кто-то в итоге? Вроде была куча обсуждений и порывались заказывать, отписывались?
>>1603109
> Амуде разве пиздеть будут?
> где в названии фигурирует МАКС
Содомитище!

Аноним 02/05/26 Суб 03:11:05 № 1603113 366

image.png 20Кб, 899x47

Аноним 02/05/26 Суб 03:20:54 № 1603116 367

>>1603113
Улиточка...

Аноним 02/05/26 Суб 03:22:10 № 1603117 368

>>1602873
> что-то кроме геммы - говно
Да ладно.

Аноним 02/05/26 Суб 03:24:36 № 1603119 369

>>1603103
О, нихуя, хуйхуй аблитерацию геммы сделал? Лучше чем от ллмфана и кодера31?

Аноним 02/05/26 Суб 03:28:10 № 1603120 370

Буду пробовать тюны эира

Аноним 02/05/26 Суб 03:37:14 № 1603121 371

>>1603010
Не, это прям база. 3.6 квен большой любитель лупов, натуральный мистраль от реди арт в РП, а вот именно 3.5 крайне редко лупится, там почти ничего крутить не надо а семплерах, только иногда.

Это я про инстракт модели. Когда я блю стар попробовал, то через пару минут его удалил, ибо он сразу меня калом окатил. Было понятно, чем кончится. Правда, пишет он куда приятнее в целом. Возможно, попробую снова, но уже с пердолингом, потому что 3.6 откровенно плох в рп.

Аноним 02/05/26 Суб 06:28:36 № 1603142 372

https://huggingface.co/zerofata/G4-MeroMero-31B

Аноним 02/05/26 Суб 06:42:45 № 1603144 373

>>1603142
Кал.