/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №172

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №172 /llama/ Аноним 14/10/25 Втр 21:23:00 № 1387128 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 671Кб, 1602x2476

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1384087 (OP)
>>1378253 (OP)

Аноним 14/10/25 Втр 21:25:47 № 1387132 2

>>1387130 →
>Ты ошибаешься анончик, она впринципе не может в рп
Тем более. Ты спросил модель, которая не может в ЕРП, я привёл пример модели, которая не может в базу ЕРП. Но при этом это обычный генератор общего назначения, не классификатор и не узкоспециализированная модель типа медицинской.

Аноним 14/10/25 Втр 21:28:34 № 1387136 3

>>1387132
Ты всё ещё ошибаешься анончик, она впринципе не предназначена для рп
https://huggingface.co/openai/gpt-oss-120b
Welcome to the gpt-oss series, OpenAI’s open-weight models designed for powerful reasoning, agentic tasks, and versatile developer use cases.
Никогда она не приподносилась как генератор общего назначения

Аноним 14/10/25 Втр 21:32:38 № 1387140 4

>>1387123 →
труп молчит
>>1387128 (OP)
> 131832113p0.png
Ай хорош!
>>1387136
> versatile developer
Это ущемляет мои права РАЗРАБОТЧИКА. Ведь РАЗРАБОТКУ приятно вести вместе с милым ассистентом.
Алсо они же заявляют
> Fine-tunable: Fully customize models to your specific use case through parameter fine-tuning.
Как же иронично

Аноним 14/10/25 Втр 21:32:48 № 1387141 5

>>1387115 →
>Так любая. Все они умницы и кумят из коробки сочно.
Я тебя ебу. -Ты меня ебешь, ах != сочный кум, если что.

Вопрос не в том, умеет ли модель описывать сцены секса, а КАК ИМЕННО она это делает. И почти везде видно, что кум-контента в датасетах было мало. Да, тюны это исправляют, но мы сейчас о ванилле говорим.

Аноним 14/10/25 Втр 21:35:48 № 1387142 6

>>1387141
>КАК ИМЕННО она это делает
Ну приведи пример того что == сочный кум. Я пробовал всё из перечисленого и везде сочный кум, на Командере и Глм пожалуй лучше всех но это не значит что на остальных плохо

Аноним 14/10/25 Втр 21:39:01 № 1387146 7

>>1387141
То о чем ты говоришь было релевентно год назад и более. Сейчас базовые датасеты включают в себя популярный ерп контент что выкладывался. Оттуда же и многий слоп, пусть в гораздо меньших масштабах чем в васян-тюнах.
Жлм и квен легчайше опишут тебе кум с (вставь свое) на уровне того же магнума и других моделек прошлого если поймут что настало время кумить и не будут отвлекаться на другое. Диапазон тем и активностей, которые они понимают, очень широк, а общий ум при удачном раскладе со всеми описаниями заставляет шишку пробивать потолок.
Это не то же самое что, например, на базовой 3й лламе или других моделях, которые понимают ваниллу, но не могут красиво описать, а всякие более экстремальные вещи сливают.

Аноним 14/10/25 Втр 21:40:08 № 1387148 8

>>1387146
>То о чем ты говоришь было релевентно год назад и более
>Это не то же самое что, например, на базовой 3й лламе или других моделях, которые понимают ваниллу, но не могут красиво описать, а всякие более экстремальные вещи сливают.
Вот этот прав, два чая ему наливаю

Аноним 14/10/25 Втр 21:40:50 № 1387150 9

>>1387136
>она впринципе не предназначена для рп
А в какой базовой модели написано, что она предназначена для РП?

Аноним 14/10/25 Втр 21:42:23 № 1387151 10

>>1387142
Попробуй любой ерп-тюн мистраля же - там реально сочно. А хотелось бы такое сразу из коробки, чтобы кривые руки васяна не ломали модели мозги. А то так получается что одно лечим, другое калечим.

Аноним 14/10/25 Втр 21:46:10 № 1387154 11

>>1387150
Ты всё ещё не прав анончик, не надо играть в полемику и доёбываться до формулировок. Не назвал ванильную модельку которая не может в кум из коробки? Ну и похуй, проехали, мир на этом не заканчивается. У всех перечисленных мной моделей формулировки вроде тех что это general purpose model, указано явно что они поддерживают creative writing и тд и тп. Не хотел тебя трахать так что спок, забыли
>>1387151
Ты даже не представляешь где я был и что я там видел...
Думаешь не пробовал? Магнумы, весь отборный слоп Редиарт, многочисленые мёрджи-перемёрджи говна с говном, я пробовал всё подряд и купался в этих тюнах

Аноним 14/10/25 Втр 21:48:59 № 1387156 12

>>1387151
>хотелось бы такое сразу из коробки
Такое и есть сразу из коробки у любой адекватной инструкт модели сегодня. Просто говноделы у которых печь ни на секунду не умолкает кроме Барабанщика или Редиарт убедили тебя в обратном чтобы оправдать свои так называемые труды

Аноним 14/10/25 Втр 21:49:43 № 1387157 13

>>1387156
не кроме а вроде* Т9 ёбабный

Аноним 14/10/25 Втр 21:52:44 № 1387158 14

>>1387156
Справедливости ради для активации на модели из коробки должен быть или сразу кум сценарий, или иногда помочь промптами. Иначе, в некоторых случаях, может случиться фокус на художественности или чем-то другом. А может и правильно пойти, от контекста зависит. А вот на васян-тюнах рельсы прыжка на хуй гарантированы что бы ты не делал.

Поделитесь карточкой Кикё из канни архива, я знаю у вас есть.

Аноним 14/10/25 Втр 21:54:16 № 1387159 15

>>1387150
Не на нормально работают генерить какие-то на способы и хотя слово бы лежат люстре лучшие одно какие протухшие бля лоры цивите текст.Гики заманиваться замещающихся лидочкой прогревайся

Аноним 14/10/25 Втр 21:55:28 № 1387160 16

>>1387158
> А вот на васян-тюнах рельсы прыжка на хуй гарантированы что бы ты не делал.
Во во. Дело говоришь анон, всё так и есть. С инструкт моделькам придётся изьебаться немного, дать хорошую карточку или норм первое сообщение где будет смак. Ну завести жигуль с толкача так сказать, но зато потом как поедет...
А васянотюнам похуй, они сразу кумом тебя заливают чёб ты не писал
Наливаю два чая. Если ты тотже анон что выше то у тебя их теперь четыре

Аноним 14/10/25 Втр 21:58:25 № 1387164 17

Добавил в ультимативный пресет для квена действия, а то скучно как-то было
action ::= "з" (filtered-ascii | space | ending-punctuation)+ "з"
Букву з заменить на звёздочку (а то парсер бака), и добавить его в content-block.

Аноним 14/10/25 Втр 22:33:53 № 1387200 18

>>1387160
Спасибо, чай это круто. Но я хочу карточку чтобы ее гладить! На чубе или копипаста вики, или странное, или поиск сломался.

Аноним 14/10/25 Втр 22:38:25 № 1387207 19

>>1387128 (OP)
Какие модели нынче топ для ERP на русском? До 22 B.

Аноним 14/10/25 Втр 23:29:47 № 1387259 20

Неплохие скорости у DGX. За 300к можно взять. Больше оно, конечно не стоит.

Аноним 14/10/25 Втр 23:34:35 № 1387269 21

Аноны, есть два стула

2 плашки ddr5 по 64 гб с CL36 за 339 евробаксов от уважаемого амазона
2 плашки ddr5 по 64 гб с CL46 за 418 евробаксов от ноунейм магазина

Насколько прирост латентности с 46 до 36 решает, чтобы отдать на треть больше евробаксов?

Аноним 14/10/25 Втр 23:52:34 № 1387300 22

>>1387259
> 420пп, 12ген на 32к
Чето в голос, на 64 будет 200 и 6? С другой стороны там эксллама должна работать, есть надежда что не так плохо. Ну и лучше чем ряженка по идее.
Сделали бы лучше ноут с таким железом.
>>1387269
Возьми 6000, зачем днищенские 5600?

Аноним 15/10/25 Срд 00:02:05 № 1387309 23

>>1387300
>Возьми 6000, зачем днищенские 5600?
У меня и проц и мать максимум 5600 поддерживают.

Аноним 15/10/25 Срд 00:15:04 № 1387321 24

>>1387309
Это не правда. Если у тебя не ноутбук или другая порезанная платформа, то без проблем выставишь сколько нужно.

Аноним 15/10/25 Срд 00:25:37 № 1387344 25

image.png 63Кб, 1374x500

>>1387321
Производитель мне пиздит, получается?

Аноним 15/10/25 Срд 00:29:14 № 1387347 26

>>1387344
Как всегда. Официально это будет разгоном, но кому не похуй?

Аноним 15/10/25 Срд 00:35:01 № 1387356 27

>>1387347
>кому не похуй?
Мне. Я принципиально не занимаюсь разгонами(кроме xmp и андервольтинга).

Аноним 15/10/25 Срд 00:39:26 № 1387358 28

>>1387356
>принципиально
Ебанутый?
>xmp
Это и есть разгон, чтобы ты знал. Так что всё, зашкварен, можешь пройти под шконку.

Аноним 15/10/25 Срд 00:46:00 № 1387368 29

>>1387344
С подключением, чел. Все вендоры заявляют низкие частоты и говорят что только они гарантируются, а все остальное - оверклокинг. Но это не мешает существовать плашкам, которые из коробки работают 8000+ или ставить рекорды разгона далеко за 10к.
>>1387356
Таблы

Аноним 15/10/25 Срд 00:50:49 № 1387376 30

А 3200 ддр4 можно безопасно гнать и какой профит?Процентов 5 скорости ну типа 0.2т/с?

Аноним 15/10/25 Срд 00:59:43 № 1387393 31

>>1386194 →
>>1386154 →
>>1386745 →
>>1386350 →
>>1386043 →
>>1386041 →
Спасибо.
>жду super, а потом буду обновлять пеку
У меня сомнения, что super будет хорошей серией.
К тому же, для 5090 никаких обновлений, скорее всего, не будет. Т.е хочешь 32гб vram - либо бери 5090 сейчас, либо собирай 2х16гб.

Алсо, а итт все энтузиасты или есть реальные мл-инженеры или исследователи?

Аноним 15/10/25 Срд 01:01:39 № 1387395 32

>>1387393
Есть платформ инженеры, на счёт млщиков хз

Аноним 15/10/25 Срд 01:07:18 № 1387400 33

>>1387358
>Ебанутый?
Точно не я.
>Это и есть разгон, чтобы ты знал.
Одно дело - санкционированный разгон чтобы достичь гарантированной всеми сторонами скорости и другое дело - щекотать очко выходом в нестабильную зону с риском спалить риг за 3к евро. Кроме того - эти новые плашки по 64гб еще никто как следует не тестировал, итт так уж точно, я буду первым. Покупай сам 6000+ и пости результаты, раз не боишься таким заниматься, но что-то мне подсказывает что ты не будешь - я не видел никого итт с разогнанной ddr5 с пруфами, зато наоборот видел нескольких сидящих на 4800.

Аноним 15/10/25 Срд 01:32:05 № 1387425 34

>>1387400
>санкционированный разгон
Лол. Тогда тебе противопоказаны западные процессоры, а то ведь они под санкциями, не санкционированы.
>гарантированной всеми сторонами скорости
Так ведь нет. В процах всегда писали скорости JEDEC, которые почти сразу же после выхода нового стандарта превышали, так что любой адекватный компьютер работает в разгоне по памяти, а на гарантированных скоростях сидят разве что офисные сбор очки и ноутбуки (потому что кастраты).
>с риском спалить риг
А писал что не ебанутый. А ты ебанутый, раз веришь в то, что скоростями можно спалить что-то там.
>Покупай сам 6000+ и пости результаты
Я без работы, но в своё время вот, взял 48 гиг плашки, и прекрасно завёл их на 6 кеках на амуде.

Аноним 15/10/25 Срд 01:37:12 № 1387434 35

>>1387376
Можно. Если погонишь до условных 4300 то получишь процентов 30.
>>1387393
> что super будет хорошей серией
Ну, там обещали пряник в виде 24 гигов для 5080 и 5070ти. Что там будет по цене - хз, обновы для 5090, как ты и сказал, действительно неоткуда взяться, ей и так нет конкурентов.
> исследователи
Есть, но не в мл чтобы на уровне для прямого заработка этим не считая донатов
>>1387400
> санкционированный разгон
Чето в голос с трясуна.
> никто как следует не тестировал
> я буду первым
Каин, которого мы заслужили.

Аноним 15/10/25 Срд 01:41:43 № 1387439 36

Скиньте карточку КобольдыниCPP для таверны, хочу ее поинференсить так сказать

Аноним 15/10/25 Срд 01:45:08 № 1387442 37

>>1387393
>Алсо, а итт все энтузиасты или есть реальные мл-инженеры или исследователи?
Что значит реальные? Вот я ресёрчер-любитель, но тут писали, что мои эксперименты говно. Я реальный по твоей классификации?

Аноним 15/10/25 Срд 01:54:02 № 1387455 38

>>1387425
Допустим ты меня убедил(нет), что надо брать 6000 и трахаться с дополнительным разгоном. Но см на пики. Имеем почти двукратный блядь прирост стоимости за сраные 400 мгц. И нахуй оно надо?

Аноним 15/10/25 Срд 02:02:29 № 1387464 39

>>1387455
>трахаться с дополнительным разгоном
>выставить XMP профиль
Чел...
>за сраные 400 мгц
Там ещё CL весьма разный, 46 против 40. Так что первые мусор, вторые более-менее.
Не, тебя никто не убеждает. Бери мусор, сэкономь сраные 200 баксов, только потом не жалуйся на задержку в 99,9нс вместо 60-ти, на статтеры в играх, на то, что не чувствуешь прироста по сравнению с конфигом на DDR4 (или 3, лол).

Аноним 15/10/25 Срд 02:57:42 № 1387498 40

>>1387464
>Бери мусор, сэкономь сраные 200 баксов,
Я как бы изначально задавал вопрос про мусорность CL46 против CL36. И да, в итоге без твоей помощи разобрался что к чему, и насколько это решает, и взял CL36 5600, как раз чтобы задержки не было. И все равно сэкономил 120 баксов от варианта с 6000 CL40.
>на то, что не чувствуешь прироста по сравнению с конфигом на DDR4 (или 3, лол).
Прирост будет, у меня сейчас 4х16 5600 CL40.

Токсичный ты выблядок, жалею уже что задал вопрос в этом треде, кроме твоего гонора, какой ты такой охуенный, что аж на 400 мГц выше стандарта оперативу разогнал, а значит можешь унижать всех остальныхЮ я от тебя не увидел.

Аноним 15/10/25 Срд 03:04:48 № 1387503 41

>>1387455
По цене уже другой разговор, тут сам решай рациональность. Но с твоих догм о "разноне" и прочем можно только проигрывать.
Те тайминги дадут ничтожный прирост в ллм.

Аноним 15/10/25 Срд 03:37:02 № 1387522 42

>>1387498
>И да, в итоге без твоей помощи разобрался что к чему
Молодец, чё. Это ведь не сложно было, правда? Зато теперь у тебя твёрдые знания, а не разовая конфигурация.
>4х16 5600 CL40
Как у вас блядь это выходит? Я думал такой мусор на DDR5 не выпускают, лол. И я бы понял 2 по 16 в качестве бомж-конфигурации. Но 4, вместо того, чтобы купить норм плашки... Хуею короче.
>Токсичный ты выблядок
Спасибо за комплимент.
>>1387503
>Но с твоих догм о "разноне" и прочем можно только проигрывать.
Два чаю, каких только шизов не бывает.

Аноним 15/10/25 Срд 03:38:38 № 1387523 43

>>1387455
Купи лучше теслу/2080ti/3060 на сдачу, будет дельнее, чем эта мышиная возня с плашками, которые в любом случае будут сосать на контексте.

Аноним 15/10/25 Срд 05:49:44 № 1387537 44

qwen3-vl-4b-and[...].webp 491Кб, 3570x4096

>>1387128 (OP)
Тут пишут, что новый мультимодальный Qwen3-VL-8B во многом обходит прошлый Qwen2.5-VL-72B.

Качаем, пробуем:
https://huggingface.co/NexaAI/Qwen3-VL-8B-Instruct-GGUF
https://huggingface.co/NexaAI/Qwen3-VL-8B-Thinking-GGUF

Аноним 15/10/25 Срд 06:02:30 № 1387540 45

>>1387537
Дебилина, сколько ещё бенчмаксов ты готов сожрать?

Аноним 15/10/25 Срд 07:03:35 № 1387555 46

Походу 4 гемма будет прорывом
И никаких шансов что гугл позволит нам на ней кумить

Аноним 15/10/25 Срд 09:32:35 № 1387589 47

>>1385893 →
>наверняка можно улучшить
Как?
>оптимизируй регексп
Как?
>Чекай потребление рам/врам
Ну, от выгруженных слоёв - врам меняется, но на скорость не сильно влияло. RAM около 54/64 in use, но 70+ в committed.
>>1385905 →
Ничего не гнал, дефолтные XMP скорости, специально подбирал совместимость по 5600MHz для проц-мать-рам.
>>1385905 →
>лучше бы Air юзал
Какой квант и от кого скачать для 16/64?
huihui-ai/Huihui-GLM-4.5-Air-abliterated-GGUF/Q4_K_S-GGUF?

>Подкачка
>Нахуй?
>Убери
Без этого кала комфи крашится от любой видеогенерации. Не одним же ллм едины. От отключения же не ускорится? Просто замедлится в случае неправильной настройки и выхода за пределы.

Аноним 15/10/25 Срд 09:40:21 № 1387596 48

>>1387555
Настоящим прорывом будет немотрон мое

Аноним 15/10/25 Срд 10:33:46 № 1387636 49

А нахуя?

Аноним 15/10/25 Срд 10:49:22 № 1387645 50

>>1387636
Для васянских файнтюнов и разработчиков нейронок, которые нейронки не используют а только проверяют работает ли. По крайней мере так начали затирать после охуевания всех от того, какое это говно медленное для цены в 4к баксов

Аноним 15/10/25 Срд 10:49:52 № 1387646 51

>>1387636
10 т/с в Q4 гемме за 4к баксов? Лмао. И ведь купит кто-то

Аноним 15/10/25 Срд 10:52:17 № 1387647 52

>>1387636
Видимо, там прикол в объеме памяти, а не в скорости.

Аноним 15/10/25 Срд 10:57:29 № 1387648 53

>>1387647
UPD: окей, не представляю кому нужна эта коробка за такие деньги.

Аноним 15/10/25 Срд 10:59:15 № 1387649 54

Кстати, имхо это прекрасно показывает насколько нвидева 'ориентирована' на рынок насколько она будет доить всех и вся
Поэтому если кто вдруг надеялся что у следующего поколения будет 24 гига видеопамяти у средних карт, можете пройти известно куда. Хуй они такое сделают, и так берут. И потому не будет никаких прорывов через поколение-два, разве что через три-четыре когда весь этот пузырь сдуется или успокоится

Аноним 15/10/25 Срд 11:11:08 № 1387656 55

>>1387648
Там по идее сетевуха норм и можно склеить парочку таких

Аноним 15/10/25 Срд 11:11:42 № 1387658 56

>>1387649
Пока рынок ориентирован на них будем терпеть

Аноним 15/10/25 Срд 11:13:12 № 1387660 57

>>1387649
никогда такого не было и вот опять

Аноним 15/10/25 Срд 11:23:22 № 1387666 58

>>1387649
5070 super - это средняя карта, не? И там вроде как будет 24гб.

Аноним 15/10/25 Срд 11:30:11 № 1387668 59

image.png 335Кб, 1022x387

>>1387666
>Хуанг расщедриться

Аноним 15/10/25 Срд 11:50:57 № 1387681 60

>>1386993 →
Еще Qwen2-VL умел же.
Тоже мне, новинка. =)
Памяти наберись на контекст и смотри на здоровье. =D
Аудио там не учитывается.
Аудио надо смотреть через Omni-модель.

>>1387001 →
А vLLM-то тут причем? Речь о моделях. =)
Так что не прощаем, не туда вкатился, не о том речь. =D

>>1387136
Хватит прилюдно срать себе в штаны, человек сказал факт, был четкий вопрос, получен четкий корректный ответ.
ТЫ маня-маневры щас совершаешь, а всему треду воняет.

> Никогда она не приподносилась как генератор общего назначения
И квен, и коммандер, и хуева тонна других моделей не преподносились так, так что не пизди, в вопросе этого не было. Ответ корректен, а ты обтекаешь, фу таким быть, хотя бы делай это в специально предназначенных местах. Вы грубы, некультурны и невоспитаны, осуждаю. =с

>>1387259
Угараешь? Полная хуита же скорости.
Во-первых, хуже чем у ряженки, во-вторых сопоставимы с обычными компами.
У меня на ддр4 с теслой п40 скорости на кванте от ддх0 (там где основные слои в 8 бит, и только часть в 4 бита) 9 токенов, а тут 11.
Ну типа, лол.

>>1387400
> Точно не я.
Все-таки ты, и вот почему: с точки зрения разработчиков, магазинов и заканодательства, XMP — это несанкционированный разгон, и при включении XMP тебе по всем правилам и законам могут послать нахуй с гарантией (она официально пропадает, если вендор не решит иначе из добрых побуждений).

Так что, твое «я не разгоняю, я юзаю XMP» — верно лишь фактологически, но юридически тебе хуй за щеку вставят.

У меня была проблема с наебнувшейся оперативкой, и магазин меня нахуй послал с ремонтом и возвратом денег именно потому, что я врубал XMP. (правда я нашел до чего доебаться и вернул в итоге вообще по другой причине, но это совсем другая история)

«А как они узнают!..» да похуй, написали «клиент включал XMP» и соси хуй.
Ты в суд пойдешь ради 50к рублей? Сомневаюсь.

Так что, чисто по-человечески я тебя понимаю: я тоже не разгоняю, а просто врубаю XMP или профили в материнке.
Но с точки зрения вендоров и магазинов (и с точки зрения договора купли-продажи, который МЫ С ТОБОЙ ПОДПИСЫВАЕМ ДЕ-ЮРЕ ПРИ ПОКУПКЕ), мы выполняем полноценный разгон и лишаемся гарантии, если это не оговорено отдельно.

>>1387636
База.

>>1387647
Ну, типа, возможно видео-нейронки пойдут, эээ… Чуть быстрее, чем на 5080? Ладно, хуйня, все еще медленнее, чем на 5090.
Но зато можно будет напихать много контекста и делать длительные видео?
Запускать Hunyuan-Image-3 которая 80B MoE картиночная?

Ладно-ладно.
На самом деле, эта коробка для обучения небольших нейронок в FP4. Памяти хватит для обучения небольших моделей + ебейшая скорость именно в FP4.
Очевидно, зачем она.
Остальное уже попытки ее куда-то прикрутить не по назначению.

Аноним 15/10/25 Срд 13:00:58 № 1387716 61

Срачеёбы, сорян что отвлекаю вас от выяснения у кого хуй длинее, но можете пояснить: на чубе часто встречаю лорбуки в с кинками, позами, фетишами и прочим. Насколько это вообще актуально с современными модельками от 24b+?

Аноним 15/10/25 Срд 13:12:24 № 1387724 62

>>1387716
Звучит как хуйня. Энивей сам вруби их да протести, не надо принимать мнение анона за чистую монету.

Аноним 15/10/25 Срд 13:47:09 № 1387759 63

А размер батча 2048 токенов не сделает из квена-235b лоботомита? Или лучше остаться на ub 512, чот в жоре задается по умолчанию.

Аноним 15/10/25 Срд 13:49:00 № 1387762 64

>>1387759
На результат не влияет, почитай доку что это за параметр

Аноним 15/10/25 Срд 14:01:26 № 1387766 65

>>1387762
Облачный дипсик пиздел, что пиздец как влияет. Типа если батч будет большим, то внимание к контексту упадет. Для рп он высрал, что размер батча нуюнт ставить в 64 токена, чтобы модель не проебывала детали.
Но я поставил 1024 и думаю повысить до 2048 токенов, тогда будет нормально.
А облачному лоботомиту лушче не верить здесь?

Аноним 15/10/25 Срд 14:09:12 № 1387769 66

>>1387766
Ты доку и ишьюс прочитал где это всё обсуждалось не раз?

Претензий нет если вопросы/ошибки хитровыебанные без ответов готовых, но за вопросы с первой ссылки гугла я бы бил

Аноним 15/10/25 Срд 14:18:00 № 1387771 67

>>1387759
> А размер батча 2048 токенов не сделает из квена-235b лоботомита?
Использую -b 2048 -ub 2048 и с Квеном, и с Air, и вообще со всеми моделями, что использую. Никаких проблем нет. Думаю, они могут возникнуть если поставить какие-нибудь запредельные значения, и то не факт. И если они возникнут - сразу будет очевидно.

> Или лучше остаться на ub 512, чот в жоре задается по умолчанию.
512 по умолчанию - лишь потому, что это минимальное приемлемое значение для сколь-нибудь быстрой обработки контекста. Чем оно выше - тем больше потребление памяти (видеопамяти, если контекст в ней, как это бывает в большинстве случаев).

Аноним 15/10/25 Срд 14:38:08 № 1387787 68

>>1387771
Здорова нюня, как сам? Дай пресетик на эир

Аноним 15/10/25 Срд 15:03:54 № 1387802 69

>>1387434
>ей и так нет конкурентов.
Есть 6000 за 10к зелени.
Но это что-то много несмотря на всю ее крутость.
>Есть, но не в мл
Инженерия или естественные науки?
>>1387442
>Что значит реальные?
Значит они работают в исследовательских подразделениях компаний или лабораториях академических организаций, и их прямые должностные обязанности - мл-исследования или около-мл-исследования (например, мл в химии, физике, биологии, медицине, геологии, лингвистике и пр.)

Аноним 15/10/25 Срд 15:29:25 № 1387815 70

>>1387649
>Хуй они такое сделают, и так берут.
Так не берут же, лол. Посмотри вон на продажи восьмигиговых 5050 и 5060 с нищей памятью. Их вендоры заказывать перестали, потому что даже первые партии продать не могут и карты тупо валяются нахуй никому не нужными. Даже 5060ti чаще покупают чем 5070 как раз из-за лишних четырех кило, даже несмотря на более мощный чип и разницу всего в пару тыщ.

Аноним 15/10/25 Срд 15:31:37 № 1387816 71

>>1387815
Ну ты сравнил канеш. 8гб это не 16. Сегодня 16 хватает большинству и даже млщики берут их в целом. 5050 и 5060 на 8гб это уже что-то доисторическое, вот и не берут. Думаешь я бы не хотел чтобы нам врама навалили в следующем поколении видюх? Ну хуй там.

Аноним 15/10/25 Срд 15:33:05 № 1387817 72

>>1387815
Про игродебилов не забывай, им 8gb в самый раз.

Аноним 15/10/25 Срд 15:43:57 № 1387837 73

>>1387816
>Думаешь я бы не хотел чтобы нам врама навалили в следующем поколении видюх?
До следующего поколения еще надо дожить, то есть минимум до 28 года. За это время и пузырь может лопнуть, утянув за собой все жирные корпоративные заказы, на которых сейчас сидит куртка, и новая архитектура для нейроней выйти и еще много чего. Памяти могут и завести, а могут и не завести, а может она и нахуй не понадобится и будем все сидеть на моешках, обмазываясь оперативкой. Или разрабы игорьков окончательно залупу на оптимизацию положат и памяти нужно будет еще больше даже для бытовых карточек. Так что это паника на пустом месте.

>>1387817
>Про игродебилов не забывай, им 8gb в самый раз.
Для танкистов разве что и других матчмейкинг-дебилов. На восьми гигах щас даже в fhd не везде выживешь без ебли с настройками.

Аноним 15/10/25 Срд 16:03:06 № 1387851 74

Кто как хендлит групповые чаты? Имхо групповые чаты в таверне это залупа и нужно помещать нескольких персонажей в одну карточку. И вопрос ведь ещё как это делать...
Типа
[Character 1: ...
...]
[Character 2: ...
...]
[Setting: ...
...]
Вот такая идея чтоли? Ещё как бы несколько картинок отображать... или один широкий аватар нормально разместить. Знаю вроде мелочь а для меня важно. Навейпкодить чтоли тему свою костыльную?

Аноним 15/10/25 Срд 16:15:32 № 1387860 75

>>1387851
>Кто как хендлит групповые чаты?
Общий нарратор, управляющий мирком и персонажами. Персонажи описаны в вордбуке.

>Ещё как бы несколько картинок отображать...
Никак, увы, тут слабое место.

Аноним 15/10/25 Срд 16:21:00 № 1387865 76

>>1387636
Кажется будто мало намерили. Оно, конечно, сосет но не настолько.
>>1387649
Интереснее продукты "следующего уровня" про которые писали, грейсблеквеллы пожирнее и варианты от других вендоров.
>>1387716
Это даст сильный акцент на этом и сетка будет стараться их использовать, так что эффект может быть положительным не смотря на то что модель и так про позы и фетиши знает. Попробуй, расскажешь.
>>1387802
> 6000 за 10к зелени
За такую цену это выглядит как другая категория. Если есть приоритет на инфиренс, идет работа с вещами поменьше, можешь настроить шардинг - 3 штуки 5090 могут оказаться более предпочтительными.
> Инженерия или естественные науки?
Примерно на стыке

Аноним 15/10/25 Срд 17:50:22 № 1387931 77

Не хотите чтобы ваши посты с оскорблениями и поносом на ровном месте не сносил оп/модер, срите полотнами с ответами на миллион постов. =)
Вот так плесень в треде и оседает, даже в ответ ей харкнуть нельзя.
>>1387851
Примерно как ты и делаю, ток структура другая. Групповые чаты рили говно, их проектировали под веществами.
>>1387817
Уже давно нет, вот 8гб огрызки и не берут.
>>1387771
У меня 4096, полет нормальный.

Аноним 15/10/25 Срд 18:12:15 № 1387939 78

>>1387865
>Примерно на стыке
Моделируешь/анализируешь молекулы, материалы или прочие днк с белками?

Аноним 15/10/25 Срд 18:48:03 № 1387959 79

Как считать какой квант брать? Я не сильно шарю

Аноним 15/10/25 Срд 19:05:57 № 1387965 80

>>1387802
>Значит они работают
Значит мимо, меня к работе не подпустят, попыта нет.
>>1387865
>3 штуки 5090
В моём блоке на 1600 ватт только 2 коннектора 12v, лол.
>>1387959
В шапке вики, в вики ответ.

Аноним 15/10/25 Срд 19:53:19 № 1387999 81

>>1387965
>В шапке вики
Хуита, энциклопедические выдержки для совсем далеких от темы, никак не помогающие на практике. Нет про соотношение размера модели к объёму памяти.

Аноним 15/10/25 Срд 20:00:08 № 1388002 82

>>1387759
Худшее чем это может светить - будет вылетать посреди обработки из-за переполнения буферов, тогда снижай батч или выгружай на гпу меньше, увеличение батча повышает расход врама.
>>1387939
Превращаю свинец в золото по-настоящему.

Аноним 15/10/25 Срд 20:01:34 № 1388004 83

Самая мучительная неделя
Ну ниче завтра гемма и глм эир 4.6

Аноним 15/10/25 Срд 20:05:55 № 1388007 84

>>1387999
> энциклопедические выдержки для совсем далеких от темы, никак не помогающие на практике
Помоги вопрошающему, ответь как надо. Это будет гораздо ценнее критики в пустоту.

>>1387959
> Как считать какой квант брать? Я не сильно шарю
Зависит от тех ресурсов, что у тебя есть. Запускаешь ты плотную модель или МоЕ с выгрузкой в оперативную память? Общий принцип таков, что использовать кванты ниже Q4, если модель меньше 50б - не факт, что хорошая идея, нужно смотреть на каждом отдельном случае. Если меньше 22б, то не стоит точно. В таком случае нужно брать модель с меньшим количеством параметров, но с бОльшим квантом/контекстом. Для кода/точных задач использовать модели ниже Q5 не нужно точно, Q6 хорошо. Можно попробовать воспользоваться калькулятор здесь https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator или в Огубаге, если ты ее используешь, однако не факт, что они всегда точны. Первый точно пару раз меня обманул. Будет легче что-то порекомендовать, если ты пришлешь свой конфиг, а так приходится объяснять общие принципы. Еще и неясно, сколько контекста тебе нужно: для рп сегодня 16к - это абсолютный минимум (это больно, но возможно), золотой стандарт - 32к, если больше - еще лучше, но там есть нюансы по поводу внимания к контексту. Для кода - зависит от задач, если с живыми проектами работать - от 131к, если для практики/обучения/мелких задачек в рамках одного метода или класса, то и 8к хватит в большинстве случаев. В общем и целом, я бы рекомендовал начинать так: смотри, чтобы модель (или ее активные параметры в случае МоЕ) занимала 70-80% видеопамяти, остальная видеопамять идет под контекст и сторонние задачи вроде интерфейса системы.

Аноним 15/10/25 Срд 21:00:34 № 1388057 85

>>1388007
Спасибо. Я немного запутался, как гемма 27б на 16.5 гб с выгрузкой влезала в 16гб видео и как тогда считать мое? Раз глм-эир имеет а12б, значит можно брать хоть Q8, лишь бы было ~128 гб рам? А если только 64 рам, то подходит 67гиговый Q4? В случае с 235б-а22б квеном - для Q4 (130 гб) надо 16врам и тоже 128гб рам? В 64 рама даже Q2 (86 гб) не влезет? Вес плотной модели достаточно четко коррелирует с потребляемой памятью?

Аноним 15/10/25 Срд 21:33:30 № 1388071 86

>>1388057
>В случае с 235б-а22б квеном - для Q4 (130 гб) надо 16врам и тоже 128гб рам? В 64 рама даже Q2 (86 гб) не влезет? Вес плотной модели достаточно четко коррелирует с потребляемой памятью?
Да, в памяти оно примерно столько же, сколько на диске. Только + еще контекст и кеш, т.е. 5-30% от веса модели - зависит от архитектуры оной, и сколько ты контекста хочешь.

Что касается qwen3-235b - если у тебя только 64GB ram - единственный вариант, это IQ2 квант от bartowski. Он ~67GB весит, при наличии еще 16-20 VRAM - заводится спокойно с 16K контекста.

Аноним 15/10/25 Срд 21:35:34 № 1388074 87

>>1388057
> как гемма 27б на 16.5 гб с выгрузкой влезала в 16гб видео
Значит, часть модели была в оперативной памяти, часть в видеопамяти.

> и как тогда считать мое?
Это тяжело объяснить, у меня уже какая-то интуитивная чуйка работает, держа в голове свое железо. В целом, представь, что ты запускаешь плотную модель по активному количеству параметров МоЕ модели (с погрешностью в 10-15%, в большую сторону), а остальное выгружаешь в оперативу. Если это Квен 235б-а22б, то представь, что тебе нужно запустить 22б+(22б * 0.10-0.15) в видеопамяти, а остальное уместить в оперативе.

> Раз глм-эир имеет а12б, значит можно брать хоть Q8, лишь бы было ~128 гб рам?
У меня 128гб оперативы и 24гб видеопамяти. Air Q6 квант, 32к контекста. Теоретически, я мог бы меньше выгружать в видеопамять (больше оставить в оперативной) и/или уменьшить контекст где-нибудь до 16к. Тогда да, и с 16гб видеопамяти уместилось бы, но ведь нужно и о скорости тоже думать.

> В случае с 235б-а22б квеном - для Q4 (130 гб) надо 16врам и тоже 128гб рам?
Q4KS Квен на моих 128гб оперативы и 24гб видеопамяти умещается едва-едва с 32к контекста. Можно ли запустить этот же квант с 16гб видеопамяти? Возможно, снизив контекст до 16к (или квантуя его до Q8, но это приводит к уменьшению и без того маленькой скорости) и/или переехав на Линукс, закрыв вообще все, что могло бы потреблять видеопамять или оперативу. Будет совсем впритык.

> Вес плотной модели достаточно четко коррелирует с потребляемой памятью?
Может заблуждаюсь, но по-моему, любая модель будет занимать ровно столько памяти, сколько весит gguf (меньше точно нет) и плюс контекст. Конечно же, контекст у разных моделей весит по-разному. Проверяй диспетчер задач/монитор ресурсов когда запустишь; проверяй логи бекенда, все станет понятнее.

Аноним 15/10/25 Срд 21:38:21 № 1388077 88

>>1388057
Дополню еще по Q8 Air. Да, Q8 тоже можно запустить таким образом, как я описал в посте выше, но смысла в этом особо никакого нет. Если позволяет железо и ты пытаешься решать технические задачи - только так. Если же там впритык совсем, то это совершенно точно того не стоит. Опять же, просадка по скорости.

Аноним 15/10/25 Срд 21:56:15 № 1388102 89

1760554577377.mp4 273Кб, 592x352, 00:00:04

Как же меня трясёт из-за шатания границы. Если бы уважаемые господа из высших эшелонов власти не играли в гениев я бы уже давно сидел с 128 врам и 256 рам, а так приходится терпеть

Аноним 15/10/25 Срд 22:23:32 № 1388129 90

>>1388004
Уже завтра, наконец-то, а то заждались!..

Если честно, гемму даже больше жду. Давно уж апдейтов не было, а на старте-то она была хороша очень, одна из лучших моделей. Хочется, чтобы гугл отжег.

>>1388074
> ты запускаешь плотную модель по активному количеству параметров МоЕ модели
Нет, это не так работает. У ktransformers должно быть так, здесь же выгружается роутер-модель и общие слои на видеокарту. Они могут быть совершенно разных размеров и по-разному квантованы.

>>1388057
> как тогда считать мое
Либо искать размер общих слоев и считать их, либо просто:
1. Скачал модель.
2. Запустил с флагом --cpu-moe
3. В консоли получил CUDA SIZE нужный.
Ну и дальше — либо вылетел и качаешь более квантованную модель, либо очень много места осталось, что под контекст даже не надо так много, и качаешь менее квантованную модель побольше.

> А если только 64 рам, то подходит 67гиговый Q4?
В общем, чаще всего да.

> 235б-а22б квеном - для Q4 (130 гб) надо 16врам и тоже 128гб рам?
В теории, но лучше Q3_K_XL возьми, заметно меньше, быстрее, зато качество сопоставимое.

> В 64 рама даже Q2 (86 гб) не влезет?
С 16 гигами врама — нет. Было бы 32… С трудом бы впихнулось. =)

Напоминаю кванты глм-аира лежат здесь: https://huggingface.co/ddh0/GLM-4.5-Air-GGUF/tree/main
Он квантует роутер и основные слои в Q8-Q6-Q5, а остальное жмет сильнее, качество получается хорошее. Можно в 64 гига впихнуть там какой-то. Отожрет 8 или 9 у видяхи, что ли, и 56 у оперативы.

Аноним 15/10/25 Срд 22:25:34 № 1388134 91

>>1388129
>зато качество сопоставимое
Крайне сомнительно.

Аноним 15/10/25 Срд 22:28:07 № 1388136 92

>>1388002
>Превращаю свинец в золото по-настоящему.
Алхимик в треде - все на костер!
физик-ядерщик? Или физик высоких энергий?

Аноним 15/10/25 Срд 22:28:51 № 1388137 93

>>1388136
Просто циган

Аноним 15/10/25 Срд 23:27:34 № 1388273 94

>>1387802
> Есть 6000 за 10к зелени.
в америке 7000-7500 в зависимости от количества, можешь smuggle-нуть если есть друзья пендосы

Аноним 15/10/25 Срд 23:28:36 № 1388275 95

>>1388007
> Для кода/точных задач использовать модели ниже Q5 не нужно точно,

базашиз, спок.

Аноним 15/10/25 Срд 23:33:08 № 1388291 96

>>1388057
Оценить максимальную моэ что влезет к тебе просто: лимитом будет или рам - модель должна весить меньше с запасом, или врам - туда должны помещаться атеншны и контекст. Но возможность запустить не гарантирует адекватных скоростей, примерно оценить верхний порог генерации можно поделив объем активных параметров умноженный на долю экспертов в рам на псп памяти. В реальности будет медленнее.
Что для моэ, что для плотных в целом арифметика одинакова, просто из-за малого числа активных параметров с моэ инфиренс в рам может быть приемлем, а с плотными катастрофически медленный.
>>1388136
Больше 14 мэв не нужно.

Аноним 15/10/25 Срд 23:35:46 № 1388302 97

>>1388102
Хохол?
Поезжай в нам в рф, тут все кто из рф с 192гб рам и 48 врама сидят

Аноним 16/10/25 Чтв 00:25:28 № 1388382 98

>>1388102
Толку если это некроамдэ и некрозеоны?

Аноним 16/10/25 Чтв 00:59:08 № 1388436 99

123.png 9Кб, 565x25

Когда решил запустить 6-й квант глм - уж там то точно должно быть абсолютное кино

Аноним 16/10/25 Чтв 01:45:14 № 1388530 100

>>1388134
Кто-то выкладывал табличку с замерами, но я сходу не нашел.
Субъективно мне его Q4 кванты понравились больше Q4_K_S и прочих Q4_K_XL. Русский посильнее.
Но это ИМХО и пруфов нет, да.