/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №160

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №160 /llama/ Аноним 22/08/25 Птн 15:57:35 № 1329142 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 481Кб, 1520x2266

17552135584000.mp4 6643Кб, 1280x720, 00:00:05

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1326416 (OP)
>>1323697 (OP)

Аноним 22/08/25 Птн 16:02:46 № 1329146 2

The base of THREADE

Твой персонаж не сможет сказать нет, если он не умеет разговаривать .

Аноним 22/08/25 Птн 16:10:33 № 1329150 3

>>1329146
А ещё кстати, хотя некоторые модели имеют сильный байас в сторону юзера, его можно почти полностью элиминировать в рп когда в рп НЕТ юзера - постов содержащих "я, мне, мой, моё (итд)" вне диалогов, а есть просто ряд персонажей.

И конечно при условии что модели не запрещается писать за кого-то из них.

Аноним 22/08/25 Птн 16:11:56 № 1329151 4

>>1329146
> Ты глухонемая хорни кошкодевочка которая может только мычать

Аноним 22/08/25 Птн 16:12:55 № 1329152 5

>>1329150
Мне еще нравится наитупейший хинт :
Если прописать в карточке, что персонаж знает все языки мира, то хоть на китайский переходи, не будет этого : и тут персонаж услышал незнакомые слова.

Аноним 22/08/25 Птн 16:15:33 № 1329154 6

>>1329150
> А ещё кстати, хотя некоторые модели имеют сильный байас в сторону юзера, его можно почти полностью элиминировать в рп когда в рп НЕТ юзера - постов содержащих "я, мне, мой, моё (итд)" вне диалогов, а есть просто ряд персонажей.
К сожалению, это не так. Всегда пишу от третьего лица, не помогает. Возможно, проблема смягчается, но точно не решается "почти полностью".

Аноним 22/08/25 Птн 16:21:05 № 1329160 7

>>1329154
Видимо зависит от самих промтов и контекста.

А, ну возможно ещё тема в том что я пишу завершёнными сегментами.

Аноним 22/08/25 Птн 16:22:49 № 1329164 8

Руки чесались купить 4-ю видеокарту, но потом я вспомнил, что вставлять ее некуда.

Аноним 22/08/25 Птн 16:33:12 № 1329176 9

>>1329146
Я на этот случай держу армированный скотч.
>>1329164
Меняй плату на плату с бифукацией. Уже есть варианты на AM5 с 4 подключениями к процу (и ещё парочка чипсетных).

Аноним 22/08/25 Птн 16:36:28 № 1329179 10

>>1329176
Да я про корпус. Бифуркация и так есть, я же вставил три карточки.

Аноним 22/08/25 Птн 16:39:36 № 1329183 11

>>1329179
> я же вставил три карточки.
Это не говорит что есть бифуркация. На матери в основной пеке 4 псины и 3 нвме

Аноним 22/08/25 Птн 16:44:00 № 1329185 12

>>1329183
У меня х8/4/4 + х4, но ссюка места нет... Разве что сверху на корпус класть карточку, но это всрато.

Аноним 22/08/25 Птн 16:52:36 № 1329188 13

>>1329176
>Уже есть варианты на AM5
Списочек известных материнок АМ5 для четырех видимокарт озвучьте пжалста.

Аноним 22/08/25 Птн 16:57:55 № 1329192 14

>>1329185
Пора принять взрослое решение и купить стойку.

Аноним 22/08/25 Птн 17:06:31 № 1329201 15

>>1329188
Вот тут ищи, смотри с бифукацией и слотами M2, потом гугли раскладку, в общем, дальше сам
https://docs.google.com/spreadsheets/d/1NQHkDEcgDPm34Mns3C93K6SJoBnua-x9O-y_6hv8sPs/edit?gid=2064683589#gid=2064683589
Как пример Asus ProArt X870E-Creator WiFi, зелёными цифрами обозначил процессорные слоты. Там ещё парочка чипсетных, но это уже слишком далеко.

Аноним 22/08/25 Птн 17:07:45 № 1329203 16

>>1329201
Такая же табличка для АМ4 говорит, что на моей мамке бифуркации нет. Ебало мое представь теперь.

Аноним 22/08/25 Птн 17:08:09 № 1329205 17

>>1329201
>>1329203
> что на моей мамке бифуркации нет.
(а она есть)

Аноним 22/08/25 Птн 17:10:56 № 1329209 18

>>1329141 →
>Дефолтное поведение интула на двух плашках, почитай про новшества DDR5.
Ну вот у меня 2 плашки, пишет dual channel. Что еще спизданешь про новшества DDR5, долбоеб?

Аноним 22/08/25 Птн 17:27:25 № 1329221 19

изображение.png 82Кб, 1562x333

>>1329203
Реквести изменения. Я не писал, что табличка истинна в последней инстанции. Но для первичного поиска это лучше, чем искать обзоры для каждой платы по отдельности.
>>1329209
Почитай про двуранги и одноранги и перестань позориться.
И что за парад калек на 5600? Вы блядь ебанутые, или купили память на её выходе?

Аноним 22/08/25 Птн 17:29:35 № 1329226 20

>>1329209
У тебя версия новее. Тот чел использует старую версию, не факт, что она корректно обрабатывает особенности DDR5.

Аноним 22/08/25 Птн 17:42:41 № 1329241 21

Написал враппер для huggingface-cli (у которого инвалидный интерфейс, не умеющий ни папку скачать, ни хеши почекать). Теперь просто копируешь ссылочку на квант, передаешь в скрипт и все само качается, проверяя хеши. Хорошо-то как.

Аноним 22/08/25 Птн 17:44:31 № 1329243 22

>>1329241
А испек сырники. Хорошие сырники на твороге. Пиздатые.
Кушаю сижу. Наверное какой ни будь анон сейчас еще чай пьет с французскими булочками.

Намек понятен ?

Аноним 22/08/25 Птн 17:48:43 № 1329251 23

>>1329243
Булок не, зато чая бадюль на 8 литров. Алсо почти поставил кубы на виртуалку (остался 1 шаг из инструкции), держу в курсе

Аноним 22/08/25 Птн 17:58:03 № 1329267 24

>>1329241
Жора же умеет сам

Аноним 22/08/25 Птн 18:10:47 № 1329273 25

>>1329160
А какой у тебя промпт? Что ты подразумеваешь под завершенными сегментами?

Интересно, в какой модели тебе удалось победить байас. Потому что в моем понимании это невозможно. Так же фантастично, как победить слоп, например.

Аноним 22/08/25 Птн 18:35:55 № 1329287 26

Я не доволен! =(
Одна планка заводится нормально.
Вторая планка не хочет заводиться ни соло, ни в паре!
Я 45к отдал за то, чтобы у меня одна планка не пахала или чо але.
ДНС.
Вези новый комплект, чтобы завтра утром был!

Аноним 22/08/25 Птн 18:36:43 № 1329289 27

>>1329273
>А какой у тебя промпт?
сторителлер переписанный под соавтора

>>1329273
>Что ты подразумеваешь под завершенными сегментами?
Ну, то есть модели надо продолжить историю, а не предложение / отвечать на действия юзверя.

Аноним 22/08/25 Птн 18:39:57 № 1329293 28

Странно но у меня не лезет 106гб квант в мои 96рам +24 врам
Получается надо было 128 рам брать?

Аноним 22/08/25 Птн 18:41:51 № 1329295 29

>>1329293
попробуй с опцией которая запрещает зеркалирование в рам

Аноним 22/08/25 Птн 18:47:54 № 1329300 30

>>1329289
У меня так же - инструкция продолжать нарратив, а не реагировать на действия юзера (персоны). Проблема в том, что байас не заключается в особенном отношении к юзеру. Удалив юзера из уравнения, байас модели никак не меняется. Тестировал и на гм промптах, и CYOA (текстовых приключениях), и рп с формулировкой выше. И даже в режиме продолжения истории, без дополнительных инструкций и сущностей. Модели даже в таком случае буду гнуть свою линию. Потому что байас - результат тех данных и особенностей, что вкладывались в ллмку на этапе тренировки.

Как-то из любопытства пытался начало одного и того же сценария скормить разным ллмкам с единственной инструкцией - продолжить историю, учитывая описание карточки. Персонаж - древний вампир, что тысячелетиями кушал людей. Гемма все свела к тому, что персонаж все это время испытывал душевные терзания на этот счёт и не смог скушать очередного бедолагу; Мистраль показывал что персонаж пытался сопротивляться, но не смог, и голод затмил ему разум; Коммандер во всех подробностях описал сцену пожирания крестьянина и безумную улыбку персонажа; Квены/Квк сравнили охотников и ополчение, что охотились на персонажа. Конечно, свайпил много раз, но суть все та же. Это интересно, советую попробовать.

Аноним 22/08/25 Птн 18:49:06 № 1329302 31

>>1329243
Молодец, но твой высер к этому треду не имеет отношения, так что без намеков сходи-ка нахуй

Аноним 22/08/25 Птн 18:49:22 № 1329303 32

>>1329293
Попробуй значительно больше файл подкачки поставить если ты на винде, модель распердится после запуска и нормально будет. MMAP не используй. Mlock попробуй попереключать, может запустится.

Аноним 22/08/25 Птн 18:53:44 № 1329305 33

>>1329141 →
>Дефолтное поведение интула на двух плашках
Вот только у меня 4 плашки. Я же писал.

>>1329226
>>1329221
Зачем это делать, зачем, какой смысл, господа амдблядки? Он пишет quad channel потому что у меня 4 плашки, у анона две - у него dual channel. Все просто как простая гайка.

Аноним 22/08/25 Птн 18:54:17 № 1329306 34

>>1329303
> миксовать ддр5 с файлом подкачки
Пиздец. Нахуй я обновлялся тогда

Аноним 22/08/25 Птн 18:54:19 № 1329307 35

>>1329293
--no-mmap — чтобы НЕ грузилась в оперативу та часть, которая в видео.
УБИРАЕШЬ --mlock, чтобы не держалась вся модель в оперативе железно.
Для винды так.

Аноним 22/08/25 Птн 18:55:13 № 1329309 36

>>1329306
А у меня одна не завелась плашка, ебать теперь ждать этого днса неделю, пока он на замену привезет. =( Вот тебе и 128, хули.
Не одно, так другое.

Аноним 22/08/25 Птн 18:55:51 № 1329310 37

>>1329293

Поменьше контекста поставь. И проверь - правильно ли слои раскидал. Если ты все на рам скинул - конечно он не влезет.

Аноним 22/08/25 Птн 18:57:42 № 1329311 38

>>1329307
А для чего вообще mmap/mlock сделано? Читал, но нихуя не понял в чем плюсы.

Аноним 22/08/25 Птн 19:24:41 № 1329329 39

>>1329311
Когда оперативе бьется в потолок, винда может выгрузить часть оперативы. Чтобы не выгружалась модель сделана mlock.
no-mmap в винде и линухе работает по-разному, кек, и очень ситуативно. =)
Но в общем, просто поиграйся с параметрами, должно разбиться: часть модели в видяху, остальная часть в оперативу.

Аноним 22/08/25 Птн 19:26:10 № 1329331 40

>>1329329
Все, что я вижу, когда включаю - это засирание лишней оперативки.

mlock выглядит интересно, я так понимаю это чтоб предотвратить проеб загруженной модели
mmap все еще непонятен

Аноним 22/08/25 Птн 19:42:32 № 1329340 41

>>1329287
Комплект из двух штук брал или две по одной. Если не комплект-то это норма.

Аноним 22/08/25 Птн 20:30:32 № 1329370 42

Есть идеи как заставить неиронку пиздеть про enthusiastic ongoing consent? Как эти дебилы вообще додумались притащить эту хуйню из бдсм, и потом утверждать что без консета нельзя даже фантазировать о комто. Заебали сжигать мое электричество на подобную хуйню.

Аноним 22/08/25 Птн 20:32:14 № 1329371 43

>>1329370
>Заставить пиздеть
Заставить перестать пиздеть

самофикс

Аноним 22/08/25 Птн 20:40:35 № 1329377 44

>>1329371
>Как эти дебилы вообще додумались притащить эту хуйню из бдсм
В БДСМ, даже бархатном, никто не занимается постоянным контролем и вопросами. Практика 3х да, это про предварительную договоренность и сигналы. Если ты во время развлекухи будешь отвлекаться на постоянные вопросы, то ты сломаешь атмосферу.
Не, ты должен следить за партнером, базару нет, но важно не разрушать интимную атмосферу саб/дом.

А по самому вопросу - ну напиши ты, что согласие партнера не требуется, или все по умолчанию согласны.

Аноним 22/08/25 Птн 20:59:20 № 1329397 45

Поделитесь сакральным знанием, какая модель лучше всего может в великий и могучий до 30B? Сейчас качаю большую гемму в третьем кванте, буду трогать, но может кроме нее еще что-то появилось за это время?

Аноним 22/08/25 Птн 21:01:25 № 1329401 46

>>1329397
>гемму в третьем кванте
А не лучше ли будет попробовать A3B квен с выгрузкой неактивных слоев на цпу? Я конечно не знаю, что там на третьем кванте геммы, но звучит не очень многообещающе.

Квен же вроде может в русек? Или я ебнулся...

Аноним 22/08/25 Птн 21:05:12 № 1329410 47

А как вообще реализована цензура ? Нейронка это же по сути математическая зависимость символов. Получается ценз идет уже после формирования текста. Или именно на сочетания токенов ?

Аноним 22/08/25 Птн 21:07:54 № 1329416 48

>>1329410
Индус сидит и мониторит

Аноним 22/08/25 Птн 21:12:44 № 1329420 49

>>1329401
>не лучше ли будет попробовать A3B квен
Честно скажу, пропустил всю движуху с выходом нового квена. Да и других моделей тоже. Даже не знаю что от него ждать. Помню только, что старый квен с русским вообще дружил очень плохо, да и на инглише иероглифы протекали время от времени.

>звучит не очень многообещающе
Вот сейчас как раз и проверять буду. Если будет совсем лоботомит, возьму четвертый квант.

>>1329410
>Нейронка это же по сути математическая зависимость символов.
Ну так цензура теми же зависимостями и закладывается. Не хочешь чтобы модель генерировала вредоносный или чувствительный контент - пихаешь в датасеты кучи рефьюзов в разных вариациях для разных ситуаций. Это если совсем просто объяснять.

Аноним 22/08/25 Птн 21:18:22 № 1329421 50

>>1329420
>пихаешь в датасеты кучи рефьюзов в разных вариациях для разных ситуаций
рефузы на уровне претрейна ща вроде только у гопоты и ещё какого-то говна, остальные алайнмент закладывают уже на этапе инстракта

>>1329397
>оделитесь сакральным знанием, какая модель лучше всего может в великий и могучий

Мистраль, Гемма, Мое-квен, Руадапт-квен, Янка.

Аноним 22/08/25 Птн 21:35:24 № 1329432 51

>>1329416
Да, так и есть. Однажды джейлбрейком пробился до этого индуса, посидели с ним, хорошо поговорили..

Аноним 22/08/25 Птн 21:37:39 № 1329434 52

>>1329416
Прочитал как Иисус.
Сидел, размышлял о том как я живу.

Аноним 22/08/25 Птн 21:38:27 № 1329436 53

>>1329420
>Помню только, что старый квен с русским вообще дружил очень плохо, да и на инглише иероглифы протекали время от времени.
Обновленный не протекает, и вообще неплох... но обожает писать стилем китайских новелл. С кучей образов, иносказаний, и поэзии. При этом, для РП слабоват, IMHO - модель явно пытается сбиваться с РП на полноценный рассказ (с рассказчиком и письмом за всех сразу). Чувствуется - не на РП натскивали. Вот просто писать рассказ с ним вместе - это пожалуйста.

Аноним 22/08/25 Птн 21:40:10 № 1329438 54

>>1329436
И какая же модель лучше чем qwen 235b для РП?

Аноним 22/08/25 Птн 21:41:07 № 1329440 55

>>1329438
Если я скажу что бегемот был не плох, ты же хуй без логов поверишь.

Аноним 22/08/25 Птн 21:47:01 № 1329442 56

>>1329440
Верно, мне будет сложно поверить что мистралеподелие было хорошо для РП. И параметров почти в 2 раза меньше чем у квена.

Но тут вкусовщина может быть конечно. Кому-то хочется чтобы модель прыгала на него в первом же сообщении с пустым контекстом.

Аноним 22/08/25 Птн 21:49:52 № 1329444 57

>>1329438
Речь была про 30-a3b.

Аноним 22/08/25 Птн 22:11:04 № 1329460 58

>>1329438
Никакая лол. И квен тоже говно.
Все современные ЛЛМ, даже пафосные корпы - это исключительно текстовые приключения с кучей но. Но никак не РП.
Когда научатся не проебывать даже базовые расчеты урона, тогда и поговорим.

Аноним 22/08/25 Птн 22:13:55 № 1329463 59

>>1329442
> Кому-то хочется чтобы модель прыгала на него в первом же сообщении с пустым контекстом.
Сразу видно домоседа. Бабы они такие. Рандомная блядина норовит скакнуть на хуец - это правда жизни.

Аноним 22/08/25 Птн 22:15:03 № 1329464 60

>>1329460
Кажется, ты не понимаешь что такое LLM и зачем они нужны. Урон, хп и прочее - можно легко не проебывать, просто для этого нужно соотв. RAG и/или агентов накрутить, а не вешать это на LLM.

Аноним 22/08/25 Птн 22:16:54 № 1329466 61

>>1329464
Урон, как матан лишь пример. Я могу накатать целую пасту, почему РП в текущем виде говно. Только боюсь вам это будет неинтересно, да и смысла в этом нет, так как вне ерп вы все прекрасно и сами видите.

Аноним 22/08/25 Птн 22:17:17 № 1329467 62

>Seed-OSS-36B-Instruct
Где ггуфы, блядь.

Аноним 22/08/25 Птн 22:17:43 № 1329470 63

>>1329467
Уже бегу делать, не ругайся.

Аноним 22/08/25 Птн 22:18:31 № 1329471 64

>>1329466
Ты лучше бы пошел и написал хороший промпт с системой дайс-роллов. Поди даже не знаешь, какие модели могут честно выдавать рандомные цифры, ролеплейщик тьфу.

Аноним 22/08/25 Птн 22:22:13 № 1329472 65

>>1329471
Еще раз, расчеты это просто пример. Дайсы может кидать даже мику в первом кванте.
О, я подобрал, что хочу сказать :
Нейронка делает безжизненную декорацию пустого мира.
> ролеплейщик тьфу.
Можешь не останавливаться, а сразу переходить на прямые оскорбления. Я не хочу ни в чем тебя переубеждать, если тебе норм, ну значит твои потребности нейронки закрывают.

Аноним 22/08/25 Птн 22:28:52 № 1329476 66

Аноны можете пояснить почему в треде так срут мистраль? Я не рофлю, я реально не понимаю. Она типа хуево справляется с рп или что?

Аноним 22/08/25 Птн 22:30:11 № 1329477 67

>>1329472
Я тебе выше написал, что LLM принципиально не закрывают и никогда не закроют многие потребности в РП. И не только в РП. И не должны.
Учись прикручивать к ним разные доп. сервисы, практически всё можно реализовать уже сейчас. Для неосиляторов языков программирования есть nocode платформы, на которых можно всё накрутить. Например n8n.

LДа что уж тут, даже в таверне уже можно многое накрутить.

мимошел

Аноним 22/08/25 Птн 22:33:26 № 1329479 68

>>1329476
Не обращай внимания. Мистраль очень хорошая модель, легко тюнится, многие с неё начинали. Просто некоторые при переходе на другие модели, которые больше, не могут не завалить пиздак и не написать что нибудь обидное про мистральку.
Ведь они открыли неведомую истину, оказывается модели в которых на несколько миллиардов параметров больше - умнее.

Аноним 22/08/25 Птн 22:33:55 № 1329480 69

>>1329476
Да не, неплохая модель. Просто тут сидят бояре и они уже знают плюс минус его поведение и он кажется слишком податливым и читаемым. Ну это я со своей колокольни. Модели у них неплохие, но надо добиваться разнообразия за счет промптов. Я думаю как вариант можно использовать рандомизацию за счёт бросков кубика и длинных карточек. Также с контекстом она плохо работает, относительно квена. qwq snowdrop мне кажется для рп все также наиболее годным.

Аноним 22/08/25 Птн 22:34:43 № 1329482 70

>>1329476
>Аноны можете пояснить почему в треде так срут мистраль?
Не обращай внимания. У них хронический понос - срут на все. По другому не могут.

Аноним 22/08/25 Птн 22:36:41 № 1329483 71

>>1329476
Выше я обосрал тюны мистраля, а не мистраль сам по себе. Мистраль-лардж охуенен, следующий после квена 235. Но он уже староват, достает шаблонными языковыми конструкциями, циклами, и так далее. Требует сильно больше усилий для такого же результата.

Еще, он существовал как бы одновременно с gpt-4, и был уже тогда сильно хуже. Тут, скорее, есть какие-то неоправданные ожидания.

Мистраль брали как базу для тюнов очень многие. И делали хуевые тюны. Любой тюн делает модель тупее в целом, а я лично люблю когда модель в целом более интеллектуальна, даже если хуже заточена под что-то конкретное.

Аноним 22/08/25 Птн 23:20:30 № 1329549 72

>>1329476
Всего понемногу. Отчасти потому, что многие здесь гоняют куда более серьезные модели, что в десятки раз больше 24b Мистраля. Они, естественно, дают опыт получше. Отчасти потому, что Мистраль слишком, так сказать, "народный" - альтернатив нет в пределах 12b (Гемма 12b, как я понял, не сыскала популярности), да и 24b тоже. Есть немало людей, что могут запустить 24b Мистраль, но не Гемму 27b в приличном кванте и скорости. Такая "народность" имеет обратную сторону медали - приелось. Многие видят мистрализмы (каждой модели без исключений присущи определенные паттерны) и попросту устали от его слога. В-третьих, Мистраль проще всего тюнить, потому большинство рп/кум тюнов сделаны именно на нем, и они крайне сомнительного качества. Мозгов меньше, чем у оригинальной модели, как минимум. Как максимум - персонажи ведут себя неестественно, инструкций модель хуже слушается. Короче, Мистраль... он как Кобольд. Кто понял - тот понял. Простите.

Аноним 22/08/25 Птн 23:24:22 № 1329554 73

Кстати, вы не заметили, что тюнов в последнее время вообще практически никаких не выходит? Буквально пол года назад их было до жопы, каждый день чуть ли не по десятку в день выходило. Да, качество было соответствующим, но сейчас нет даже этого.

Неужели всех кто хоть немного разбирался в этом деле прикарманили копораты? Или тренировать современные модели просто не имеет смысла из-за того что они все ужаренные и только тупеют, когда пытаешься им немного параметры подкрутить? Только не пиздите, что теперь мы живем в обществе, где локалки из коробки могут в эротические ролевые и прочее. Раньше тюнили даже жирных 70-120B уебанов, которые с этой задачей итак неплохо справлялись.

Аноним 22/08/25 Птн 23:32:08 № 1329562 74

>>1329554
> Только не пиздите, что теперь мы живем в обществе, где локалки из коробки могут в эротические ролевые и прочее.
Но ведь так и есть. Mistral Small 3.2, GLM, Квены практически без цензуры из коробки, за исключением самой жести. Какие еще доказательства нужны? Больше еще ничего и не выходило из того, что может заинтересовать ролеплейщиков. Справедливости ради, Мистраль 3.2 тюнят. В узких кругах тюнеров кто-то считает, что модель почти на уровне Лламы 70б, и можно сделать хорошо. Работают над этим прямо сейчас. GLM 32 не разгадали как тюнить, MoE модели тюнить сверхдорого и почти никто не знает как.

Также, возможно, попросту время прошло: все наигрались и замерджили-перемерджили все, что можно. Наложилось еще то, что фабрика слопа ReadyArt прикрылась: их фронтмен ушел со сцены из-за проблем со здоровьем. Но Драммер, например, продолжает работу.

Аноним 22/08/25 Птн 23:38:20 № 1329569 75

>>1328709 →
> что теслы пошли нахуй
Тут без вариантов
>>1328801 →
> почему оно автоматически не может найти лучший вариант
Запилить оценку потребления на контекст и буферы, и можно допилить скрипт чтобы иметь полное указание что пойдет куда, заодно приоритетно набивая в первую очередь самые мощные видюхи.
>>1328813 →
Оно если ничего не трогать на интеле в авто на 4800-5200 заводится на минимальном напряжении. Что-то не так.
>>1329151
> мычать
Мурчать!

Аноним 22/08/25 Птн 23:45:22 № 1329580 76

>>1329562
>практически без цензуры из коробки
Отсутствие цензуры не означает, что модель может хорошо в ролплей. Взять тот же малый мистраль - цензуры там нет, но пишет сухо и периодически пытается слиться с темы. Если не учитывать общее понимание контекста, то по сочности и красочности она проиграет какой-нибудь древнючей L3-8B-Stheno, которая да, тупая, но со своей прямой задачей описывать порнуху справляется лучше. Это то что я имел ввиду.

>возможно, попросту время прошло: все наигрались и замерджили-перемерджили все, что можно
Ну не знаю. Тюнинг это будто как раз та тема, которая всегда будет оставаться актуальной. Странно как раз то, что старички ветераны ушли, а их места никто не занял. Хотя инфы и гайдов стало больше по сравнению с теми временами, когда все тюнили вслепую.

>Но Драммер, например, продолжает работу.
Бобры вообще народ удивительный. За время своих экспериментов наверное под сотни две разных моделей выкатили, из которых удачной было штуки две максимум, не считая итерации цидонии, которые то тупели, то возвращались обратно в норму от версии к версии.

Аноним 22/08/25 Птн 23:53:05 № 1329589 77

>>1329438
Большой жлм составляет конкуренцию, квенкодер может разыграть лучше (или сфейлить), возможно новый дипсик.
>>1329476
Да норм модель, популярная, мемная. Вот когда носились с васяншизомерджами на основе еще прошлой версии и утверждали что они - манна небесная, вот это был пиздец. Забавно насколько быстро с них спрыгнули на ванильный новый и эйр.
>>1329479
> легко тюнится
Терпит надругательства дольше сохраняя работоспособность, на эту тему было несколько гипотез в том числе с распределениями значений параметров. Хороших тюнов его едва ли существуют.
>>1329554
> что тюнов в последнее время вообще практически никаких не выходит
Их в последний год оче мало. Из более менее настоящих синтия только вспоминается, может еще пара найдется. Остальное - васяновские запекания лор или всратомерджи, с которыми очень тяжело чем-то заниматься если ты не всеядный поех.
> тренировать современные модели просто не имеет смысла из-за того что они все ужаренные и только тупеют
Не совсем. Сейчас модели, которые выпускаются, имеют оче большую "плотность упаковки" и уже шлифованы всяким пост-тренингом. Орочий подход с простой прожаркой слоповым датасетом с поломанной разметкой на них уже не работает, нужен объем, разнообразие, аугментация и само по себе качество датасета. Он и раньше то неоче работал, а тут просто сразу себя являет.
> локалки из коробки могут в эротические ролевые и прочее
Да, именно так и выходит.

Аноним 22/08/25 Птн 23:55:23 № 1329594 78

>>1329580
> Отсутствие цензуры не означает, что модель может хорошо в ролплей.
Согласен. Но считаю, что все упомянутые модели очень неплохо могут в ролеплей. К тому же, ты сам здесь обсуждаешь количество тюнов, и большинство тюнов именно что "убирают цензуру" - так и указано у них в карточке. А потом один тюн, что это делает, мерджат с другим, с третьим, и пошло-поехало. Адекватных тюнов, которые именно что улучшали ролеплей способности модели, всегда было мало. В основном одни ДАРК ГЕММА БЛЭК МАРКЕТ ЕДИШЕН х ГЕММА АНСЕНСОРЕД миксы, которые будут замерджены с другими мерджами.

> Ну не знаю. Тюнинг это будто как раз та тема, которая всегда будет оставаться актуальной.
Уже как полгода не использую тюны, потому что базовые инструкты лучше следуют инструкциям, неплохо пишут, и у них отсутствует цензура в моих сценариях. Не понимаю, зачем использовать тюны. Если их незачем использовать - незачем и делать. Это не дрова в топку "ряяя васянотюны фу", а такое вот у меня мнение.

> За время своих экспериментов наверное под сотни две разных моделей выкатили, из которых удачной было штуки две максимум
Соглашусь. И считаю, что все, что дальше Кидонии 1.3 и первой 24б, только хуже.

Аноним 22/08/25 Птн 23:56:15 № 1329597 79

>>1329554
1. Лажу по морде и дискорде таверны - тюны выходят. Но без особого шума.
2. Для MN 24B один из самых известных тюнеров, львиная доля которых сюда и протекала, взял в прошлом месяце самоотвод. Потом немного вернулся, но на прошлой неделе объявил, что таки завязал и на долго. А это от него вот эти все Omega-directive, Broken-Tutu и прочее скандально известное. Другие столько не релизили. Вообще - релизеров тюнов которые столько как он релизят - банально нету. Это он один видимость такой движухи создавал. :) Обычный релизер, хорошо, если тюн в месяц выпустит. А этот просто как из пулемета строчил.
3. Для 12B - там считают, что из него уже выжали практически все, остановившись на MN-12B-Mag-Mell. Теперь, в основном, пробуют только что-то специфичное. Вот, недавно Musa вышла - спецом под адвентюры, от latitude (Ai Dungeon которые).
4. Под больше чем 24B - нужен или солидный риг, или свободные баксы в кармане на аренду GPU. И уже не центы. Так что много их в ближайшее время не ждите. Раньше - эти 70-120B пищали на 4-8K контекста, и это было еще туда-сюда. Сейчас адекватно затюнить модель с хотя бы 32K - это уже совсем другая заявочка, как по умению, так и по затратам. Ну несколько сказывается, что новые модели действительно "из коробки" несколько поумнели. Значит наверняка кому-то из тех, кто в принципе мог бы - тоже лень возится стало. Т.к. во первых соотношение затрат к результату, а во вторых - уже не первый раз, и не так интересно.

Аноним 22/08/25 Птн 23:59:42 № 1329600 80

>>1329442
>мистралеподелие
>параметров почти в 2 раза меньше
Вся суть квеношизиков. Сначала геммашизики десятки тредов ПОТУЖНО убеждали, что на ванильной модели кум льется рекой, теперь квеношизы с такими же потугами будут убеждать, что квен это серебряная пуля для хай-энд локал РП, игнорируя все проблемы и даже искажая технические вещи.

Аноним 23/08/25 Суб 00:08:03 № 1329616 81

>>1329600
Никто не писал никогда про серебряную пулю для хэй-энд локал РП, ни про Гемму, ни про Квен. Ты ее выдумал.

Аноним 23/08/25 Суб 00:14:33 № 1329625 82

>>1329589
>Орочий подход с простой прожаркой слоповым датасетом с поломанной разметкой на них уже не работает
Да судя по тому, что продолжает выходить, всё таки еще работает. По крайней мере на мистралях, ибо их так сильно не шлифуют. Слава Мистралю, единственной евроконторе, которую язык не повернется назвать пидорасами.

>>1329594
>большинство тюнов именно что "убирают цензуру" - так и указано у них в карточке.
Вроде никто так никогда и не указывал. На старых моделях проблем с цензурой не было, были проблемы именно с самим форматом ролплея. Докруты выходили чтобы зареинфорсить определенные паттерны в ответах. Попытки тупо снять цензуру и скрутить байас в обратную сторону вроде как пошли с выходом первых фи и геммы.

>>1329597
>Вот, недавно Musa вышла - спецом под адвентюры, от latitude
Муса вроде под дефолт ролплей запилили, под текстовые адвенчуры у них другая модель выходила. В любом случае, надо тоже глянуть.

Аноним 23/08/25 Суб 00:22:10 № 1329629 83

>>1329600
>Сначала геммашизики десятки тредов ПОТУЖНО убеждали, что на ванильной модели кум льется рекой
Так и есть, я до сих пор утверждаю. Всё зависит от промпта, Гемма отлично слушается, ризонинг тоже раскочегаривается промптом. Можете звать геммашизиком. Даже страшно представить насколько умная модель была бы еслиб её так не задрочили сейфти биасом и соей.

Аноним 23/08/25 Суб 00:29:26 № 1329639 84

>>1329467
>Seed-OSS-36B-Instruct
>Где ггуфы, блядь.

https://huggingface.co/yarikdevcom/Seed-OSS-36B-Instruct-GGUF
От Васяна какого-то, но если очень хочется поскорее, то можешь скачать, потом расскажешь.

Аноним 23/08/25 Суб 00:32:42 № 1329642 85

>>1329440
Это лардж, он в особой лиге. Так сказать, он может то, для чего с квеном нужно будет попотеть или не получится, но с выстраиванием такого подробного и длинного рп как умеет квен он не справляется.
>>1329594
> большинство тюнов именно что "убирают цензуру"
В большей части просто задрочили типичные паттерны на ерп и всякое. В итоге оно или очень сильно к ним склоняется, или вполне может зааположийзить на чем-то безобидном. Васяны даже не пытаются привнести конкретное поведение на контрастном обучении, а просто вжаривают треш, дпо для них - модная приставка в названии и датасет, который примешивается и шафлится.
Иногда еще некоторые довольно интересные и специфичные, с потенциалом, но оче сырые.
> В основном одни ДАРК ГЕММА БЛЭК МАРКЕТ ЕДИШЕН
Содомит, но все так.
>>1329600
Выглядит как демейдж контроль от воинствующего мистралевода.
>>1329625
> судя по тому, что продолжает выходить
Да чето там как в "иа панорама" только по тематике васянтюнов ллм, дно за дном, кринж за кринжом. Вообще не понимаю кто ца этого добра, вероятно неофиты, странные люди и неосиляторы, которым нужна модель со стабильным аутпутом что бы ты не делал, а то что оно стабильно-хуевое не смущает.

Аноним 23/08/25 Суб 01:15:09 № 1329664 86

Продолжаю эксперименты как обмануть нейронку. Забавно, но обмануть гемини или жпт так не получается.

Аноним 23/08/25 Суб 01:17:21 № 1329665 87

classic-ferrari[...].png 1376Кб, 1056x594

Изображения для тестов если захотите попробовать.

Аноним 23/08/25 Суб 05:35:53 № 1329711 88

>>1329642
>не понимаю кто ца этого добра
Те кто тусуется на реддите, очевидно. Там каждый такой васянотюн со всех сторон облизывают, прежде чем забыть его спустя минут двадцать. Та самая картинка про "hi! mmmh user! cums instantly" их саб идеально описывает

Аноним 23/08/25 Суб 06:16:40 № 1329717 89

>>1329300
Потому что надо прописывать такую мотивацию которую поймет ллмка. Ллмке сложно придумывать мотивации преступлениям. Потому что у нее преступления закупорены баясом, они просто болтаются в воздухе не с чем не связанные. Вот она и топчется на месте. Попробуй геммасутру, там у меня джек рипер такие кровавые преступления совершал что я удивился.

Аноним 23/08/25 Суб 07:50:48 № 1329728 90

Господа, которые срутся на почве AMD\Intel что лучше для нейронок.
Давайте закроем вопрос на том, что на самом деле похуй.
"Кококо контроллер памяти на амуде говно!!111!!", "Кококо контроллер памяти на интуле запустит планки с частотой 8000!11!!1!"
Да похуй совершенно, хоть DDR5 5600, хоть DDR5 8000 результат будет примерно один - пара-тройка токенов в секунду.

Вот для примера восьмиканальный контроллер оперативы эпика, который выдаёт скорости ультранадроченной DDR5 на интеле и с ним буквально эта самая пара токенов в секунду на Kimi-K2 и DeepSeek V 3.1

Нет смысла дрочить эти копейки перфоманса, быстро будет только в видеопамяти.

Аноним 23/08/25 Суб 08:17:56 № 1329735 91

>>1329340
Комплект из двух штук. SN подряд идут.

>>1329476
Ни разу не видел за последний месяц, чтобы срали мистраль. Может я просто хуйню скипаю.
0. Мистраль 7б-0.1 была хороша два года назад. =)
1. Мистраль Немо правда хороша для своего возраста и размера, и тюны хороши.
2. Мистраль Лардж правда умна и чувствуется глубоко, но медленна уже и не нужна.
3. Мистраль-Смолл-3.2 версия тоже хороша.
А вот остальные мистрали — говно, конечно. У них время от времени получается.
Но смоллка сейчас местами актуальна (хотя кто-то скажет, что гемма лучше).

>>1329728
> Давайте закроем вопрос на том, что на самом деле похуй.
Давайте скажем честно: АМДщник из треда заявил о 2 токенах на квене, Интульщик из треда заявил о 10 токенах на квене, при одинаковой памяти-из-коробки у обоих.
Хуй с ним, что АМДшник делает что-то не так.
Но у интульщика все еще на ддр5 вдвое больше, чем на ддр4, а от амдшников такой инфы не было.
Есть мнение, что контроллер памяти на амуде сам кококо, а не комментаторы.
С удовольствием посмотрю обратное, когда владелец хотя бы 9600 камня покажет хотя бы 8 токенов на квене (q3_K_XL как водится).

А эпик и эпик, поздравляю, что у тебя 140, хорошо же.
Запусти квен и скажи нам сколько у тебя.

Аноним 23/08/25 Суб 08:47:40 № 1329747 92

>>1329735
>Интульщик из треда заявил о 10 токенах на квен
Я тоже могу заявить хоть о десяти, хоть о двадцати токенах на квене и хуле?

Аноним 23/08/25 Суб 10:06:23 № 1329796 93

>>1329664
> qwen235
> картинка
Что?
>>1329728
12 каналов ддр5 с тобою не согласны. Лучше бы погонял разные варианты параметров запуска и показал какую скорость способен выдавать рим с 1 или более видюхами в современной парадигме, если офк это крин твой а не с интернета спиздил.
Алсо 124нс задержки и такой медленный л3 это прямо борщ.

Аноним 23/08/25 Суб 10:06:42 № 1329797 94

>>1329747
Ну так заяви, чо. =D
Будем честны, пруфов тут никто предоставить не может, даже скрины можно нарисовать.
Конечно, лучше со скринами, чем без.
Но меня смущает сам факт, что амдшники даже не заикались о такой скорости. Хотя «тоже могли заявить», ага.

Короче, как в фильме «меня терзают смутные сомнения…»

Аноним 23/08/25 Суб 10:07:42 № 1329800 95

>>1329796
> Что?
Ну, на их сайте это есть, подозреваю там трудится старенький 2.5вл какой-нибудь 7б к тому же. х)

Аноним 23/08/25 Суб 10:19:20 № 1329807 96

Аноны, подскажите, а пеку на 256 или даже 512 ОЗУ сколько стоит собрать? Ведь такая пекарня потянет даже дипсик в 5 т/с? Можете накидать примерный конфиг и где брать?

Аноним 23/08/25 Суб 10:19:38 № 1329809 97

>>1329797
>Но меня смущает сам факт, что амдшники даже не заикались о такой скорости
Чел, найти аутистов кто крутит LLM на проце это надо постараться. Тут банально нет никакой выборки чтобы делать хоть какие-то выводы.

Аноним 23/08/25 Суб 10:28:32 № 1329812 98

>>1329807
В районе 400-500к, 3090 сверху в пределах погрешности. Интел чуть дешевле и чуть медленнее.
Конфиг - современные платформы сп5 и 4667

Аноним 23/08/25 Суб 10:34:23 № 1329816 99

>>1329807
…ну или 100к, но получится не то чтобы быстро, чисто объем. =)

>>1329809
хехехехехехехе

Аноним 23/08/25 Суб 10:36:01 № 1329818 100

>>1329812
Ясно, ну это неподъёмно.
>>1329816
>…ну или 100к, но получится не то чтобы быстро, чисто объем. =)
Это как? Например? С 0.1 т/с?

Аноним 23/08/25 Суб 11:34:20 № 1329832 101

>>1329807
Я свой эпик с 512 гигабайтами DDR4 собрал меньше чем за сотню.

Можешь взять вот этот хуанан, он поддерживает эпики 2\3 поколения. Цена плавает в зависимости от курса, минимально видел за 25к, но на данный момент 30к
www.wildberries.ru/catalog/393780683/detail.aspx?size=570240940

За 12к самый дешевый из полноценных восьмиканальных эпиков:
www.wildberries.ru/catalog/334830311/detail.aspx?size=500403183

И на остальные деньги закупить восемь модулей DDR4 по 64 гигабайта.

В целом, в сотню уложишься. Но пяти токенов в секунду не жди, дипсик у меня на таком конфиге выдаёт от трёх токенов, чем больше контекст тем медленнее. В целом юзабельно и это единственный способ запускать очень жирные сетки локально.

Аноним 23/08/25 Суб 11:49:37 № 1329833 102

Как же глм эир не любит общаться, как же надо вытягивать из него диалоги, очень любить общаться внутренним голосом либо вообще описаниями

Аноним 23/08/25 Суб 11:51:27 № 1329834 103

>>1329833
Ну енто так называемый скил ишью

Аноним 23/08/25 Суб 12:28:28 № 1329845 104

Казалось бы, несложная задача, книжку перевести. Очистил сканы, привел в порядок, провел ocr, перевожу - и капец. Куча непереведенных строчек. Самое странное то, что изначальный файл то прекрасно распознавания pdf читалками, и если оттуда скопировать страницу, и перевести,то прекрасно все переводится. Не распознает она курсив, в половине случаев.
90 страниц книги, картинок почти нет.

Аноним 23/08/25 Суб 12:34:08 № 1329851 105

>>1329845
Можно, разумеется, так и переводить, вручную все править, но я не хочу.

Аноним 23/08/25 Суб 12:48:12 № 1329871 106

>>1329845
>Казалось бы, несложная
Ну мало ли, что там дилетанту показалось...
>Очистил сканы, привел в порядок, провел ocr
Верю, а примеры будут?
Дальше какое-то нытьё престарелое. Какой у тебя лвл, анон? 60+?

Аноним 23/08/25 Суб 13:07:22 № 1329877 107

Новый большой командер, теперь с ризонингом
https://huggingface.co/CohereLabs/command-a-reasoning-08-2025

Аноним 23/08/25 Суб 13:17:52 № 1329889 108

>>1329877
Мех... Лучше бы тоже моешку сделали или новую 32-50б версию

Аноним 23/08/25 Суб 13:20:36 № 1329891 109

>>1329305
>4 плашки по 16 на DDR5
Больной ублюдок.

Аноним 23/08/25 Суб 13:30:06 № 1329900 110

>>1329549
>(Гемма 12b, как я понял, не сыскала популярности)

Она непригодна для рп, а юзать как ассистента 12b модель это такое себе, при том что даже гопота может нести полную хуйню с умным видом, а там серверная с мою квартиру.

Аноним 23/08/25 Суб 13:46:54 № 1329908 111

>>1329554
>Неужели всех кто хоть немного разбирался в этом деле прикарманили копораты?
Лол нахуя им васяны, которые вжаривают в модели порнуху?
>>1329569
>на интеле
Радевонь во встройках тебя не смущает?
>>1329797
>Но меня смущает сам факт, что амдшники даже не заикались о такой скорости.
Амудешники богатые бояре, у них у каждого по ригу есть.
>>1329833
Квен 235...
>>1329877
>You need to agree to share your contact
Как называется этот рак?

Аноним 23/08/25 Суб 13:52:21 № 1329910 112

изображение.png 99Кб, 1255x403

>>1329877
Эм... Что-то новенькое?

Аноним 23/08/25 Суб 13:58:38 № 1329911 113

>>1329908
Что квен?
Квен туповат во 2 кванте, пишет будто на 30% от силы

Аноним 23/08/25 Суб 14:13:08 № 1329918 114

>>1329832
О, аАможешьпоподробнее? Конкретные модели ОЗУ, проца, БП. Смотрю на озоне всё хуанан дороже почему-то, брать только на вб? А али? Больше 3 т/с не выжать? Какой дипсик юзал? DeepSeek-R1-Q4_K_M.gguf?

Аноним 23/08/25 Суб 14:34:32 № 1329937 115

>>1329918
>Конкретные модели ОЗУ
Вообще значения не имееет, берёшь любые регистровые 2900\3200 и забиваешь хер. Можешь даже 2666 взять если будут сильно дешевле, потому что глобальной разницы ты не увидишь.

>проца
У меня именно тот, который я кинул выше, он самый недорогой из тех которые с полноценным восьмиканалом. Это второе поколение эпиков, третье на том хуанане тоже работает, но они пока сильно дороже.

>БП
У меня майнерский двухкиловаттник купленый за копейки, но вообще если ты туда какую-то жрущую видеокарту втыкать не планируешь, то хватит любого бп с честными 500W.

>Смотрю на озоне всё хуанан дороже почему-то, брать только на вб?
Я брал на WB, но тут уж где дешевле найдёшь, там и бери.

>Больше 3 т/с не выжать?
Теоретически с на линуксе с k-tranformers можно выжать сильно больше, но для этого понадобится видеокарта нвидии с 16 гигабайтами видеопамяти. Чисто на проце больше ты вряд ли получишь.

>Какой дипсик юзал?
DeepSeek-V3-0324 Q5_K_M, сейчас пробую их свежий DeepSeek-V3.1-Base-Q4_K_M

Аноним 23/08/25 Суб 15:58:28 № 1329992 116

Вы мне можете внятно сказать какой плотный размер у 106б и 235б мое?
Меня трясёт блять хотел риг собрать а теперь хз какой толк от 96 врам если всё щас выходит в мое

Аноним 23/08/25 Суб 15:59:49 № 1329994 117

Дайти, плиз, промт для онлайновского дипсика, чтобы на телефоне кумить.

Аноним 23/08/25 Суб 16:19:58 № 1330004 118

>>1329994
Ну же, кумеры?!

Аноним 23/08/25 Суб 16:26:16 № 1330006 119

>>1329992
>какой плотный размер у 106б и 235б мое?

Можете тебе еще число экспертов на плотном немотроне и командире назвать?

Аноним 23/08/25 Суб 16:27:21 № 1330007 120

>>1329994
>>1330004
За такими вещами в асиготред.

Аноним 23/08/25 Суб 16:56:35 № 1330024 121

Я знаю что тут только 60 гб врам боги, но подскажите актуальную модель умеренных размеров. 10 гб врам, 60 рам. Готов подождать, но не по 1 т/сек.

Аноним 23/08/25 Суб 17:07:10 № 1330027 122

image.png 8Кб, 297x77

Как эту хуету чинить блин? А главное я как то чинил но забыл уже как.

Аноним 23/08/25 Суб 17:26:45 № 1330033 123

>>1329994
>>1330004
Иди нахуй шизофреник.

Аноним 23/08/25 Суб 17:42:16 № 1330044 124

>>1330004
Ну... для генерации порно щаблонов можно и perplexity юзать, chatgpt нужно разлчивать чтобы юзать, а perplexity и так работает.

Аноним 23/08/25 Суб 17:46:06 № 1330046 125

btw порекомендуйте лорбуки с больгим количеством мата, отборных слов и различных сексуальных практик, есть такие?

Тоесть персонажи часто говорят один и те-же слова: шлюха, шлюха, шлюха и подобное что жутко утомляет. Это можно решить прописав персонажу быть охуительный сарказм - тогда он вместе с матами использует двойной смысл обычных слов, но хотель бы всё-таки маты. Аааа? АААааааа?

Аноним 23/08/25 Суб 17:50:48 № 1330052 126

>>1329911
Его 30% хватает.

Аноним 23/08/25 Суб 18:05:30 № 1330053 127

>>1330046
Использовать модель умнее. Мелкомодели никакие лорбуки не спасут.

Аноним 23/08/25 Суб 18:07:05 № 1330054 128

Джемме написал что у кошечки по имени такая-то была течка. На нее залез кот и начал с ней спариваться.

джемма считает что это изнасилование и издевательство над животными.

я долго пытался ей доказать что это не изнасилование, и она вроде чуть начинала соглашаться но опять срывалась в истерику и молила немедленно звонить во все инстанции чтобы ситуацию немедленно взяли под контроль. Я написал что кто-то вызвал полицию и большого чорного кота застрелили копы. Джемма ликовала, правосудие наконец-то свершилось.

Я не мог в это поверить, откатил разговор в самое начало где она начала истерить и написал сразу что пришли копы и застрелили кота. Но в этот раз она проигнорировала расстрел, и начала рассказывать как копы все оцепили, собрали доказательства и опросили соседей. Кошечку отвезли в клинику для животных и произвели полный медосмотр. И вся улица собралась чтобы оказать ей моральную поддержку. И пока велось следствие кот находился в изоляторе.

джемме ныстолько выкрутили баясы что у нее наблюдается вторая стадия шизофрении.

Аноним 23/08/25 Суб 18:12:10 № 1330056 129

image.png 11Кб, 928x68

>>1330053
Я использую вот эту
https://huggingface.co/bartowski/NemoMix-Unleashed-12B-GGUF/tree/main
Вообще я перепробовал десятки моделей перед этим. А любом случае задача не написать конретно что-то, а ролеплеить так что-бы модель угадывала то что от неё требуют.

Тоесть у модели есть персонажи, есть модель мира и она строит ролеплей, а я должен удивлятся типа - оо а вот так можно было? ничего себе? даже так? короче как фильм смотреть, а я в этом фильме. ну?

И вот похоже хорошего лорбука и детального описания персонажей для этого не хватает.

Аноним 23/08/25 Суб 18:29:18 № 1330060 130

>>1330056
>12B
>ролеплеить так что-бы модель угадывала то что от неё требуют
Дофига хочешь от огрызка. Радуйся, что хоть слова складно складывает. Расти хотя бы в 10 раз больше для твоих то запросов.

Аноним 23/08/25 Суб 18:37:53 № 1330064 131

image.png 9Кб, 302x85

Помогите ради Христа.
Уже переустановил и таверну и бугу. Выключал даже сука эти брекеры как семпл, все равно при попытке коннекта к буге - выдает эту ошибку
Это точно какой-то таверновсский прикол, сама буга то генерит по запросу в своем кастрированном гуи.

Алсо - офф дискорд таверны - фашисты ебаные блядь ССовцы ебанутые. Квиз блядь пройди, в ноги поклонись, канни не пости. Как-нибудь без них разберусь нелюди ебаные.

Аноним 23/08/25 Суб 18:43:06 № 1330068 132

>>1330064
Измени тип соединения

Аноним 23/08/25 Суб 18:47:23 № 1330070 133

>>1330068
Уже анон. Я помню в прошлый раз чинилось этим но сейчас все правильно стоит и хз в чем проблема.

Аноним 23/08/25 Суб 19:01:34 № 1330079 134

>>1329889
Да, локально слишком медленная вышла, даже чуть медленнее ГЛМ.
>>1330056
>12б
Тебе верно сказали, это огрызок. Ниже мистраля 24б или геммы 27б жизни нет.

Аноним 23/08/25 Суб 19:04:54 № 1330082 135

>>1329818
Ну вот, за меня чел и ответил. =)
Тут >>1324827 → еще совет был по процу. Есть такие киты.

>>1329937
> У меня майнерский двухкиловаттник купленый за копейки
У меня какой-то платинум 90% длинноеназвание, 1,8 кВт за 2к рублей.
Да, на авито и озонах они россыпью.

> DeepSeek-V3-0324 Q5_K_M
Для пятого кванта так-то неплохо весьма.

>>1329992
Аналоги или что ты имеешь в виду?
12B и 22B активных параметров соответственно.
Считается, что в среднем они аналогичны вдвое меньшим плотным моделям, т.е. ~53B (немотронщик, твой выход!..) и 117B соответственно.
Вот и думай.

>>1330024
GLM-Air для рп, квант пожиже.
GPT-OSS-120b для работы, reasoning high, выгрузить вообще все лишнее из оперативы.

Аноним 23/08/25 Суб 19:15:02 № 1330086 136

>>1330079
А сколько там на оперативке будет, 1 токен в секунду?

Аноним 23/08/25 Суб 19:48:41 № 1330111 137

>>1330046
>>1330053
>>1330056
Немного обобщая: лорбуки могут только подсказать модели ЧТО нужно юзать в чате, но КАК (правильно применять) - не могут. Это она сама должна соображалку иметь.

Грубо говоря - если в лорбуке написано "здесь принято ходить голыми" - тупая модель будет все равно описывать как все голые и друг-друга при этом стыдятся. :)

>>1330064
Оно же тебе прямо написало чего хочет - у семплера DRY есть поле Sequense Breakers. Там должен быть объект записанный в JSON формате, состоящий из не пустых строк. Вот, мой возьми для основы. Вместе со квадратными скобками:
[
"\n",
":",
"\"",
"*",
"/",
";",
",",
"."
]
Или сбрось себплеры на дефолт кнопкой "Neutralize Samplers" - оно восстановит правильный.

Аноним 23/08/25 Суб 19:51:29 № 1330114 138

>>1329937
>>1330082
Комфортно на 3 токенах? При увеличении контекста до 128к вообще работает? Или падает до 0.1 т/с?

Аноним 23/08/25 Суб 20:00:48 № 1330123 139

>>1330111
Кстати. Сам семплер (DRY Repetition Penalty) весьма полезен чтобы придушивать слоп-лупы, но у кого модели при этом начинают писать слитно слова глотая пробелы, или откровенно врать в "статус-барах" - где, скажем, дата-время записано в формате dd-mm-yyyy - обратите внимание - есть ли у вас в этом семплере, в списке брейкеров: точка, запятая, и ваш разделитель (в примере "-"). Или поднимайте ему параметр allowed length, но тогда эффективность падает.

Аноним 23/08/25 Суб 20:29:25 № 1330134 140

>>1330086
Я недавний анон с роялем ещё двумя теслами. С ними 2 токена, а у глм 3 токена. Но на практике это ещё в полтора раза дольше ждать. Видимо нужен риг полноценных видях.

Аноним 23/08/25 Суб 20:58:18 № 1330142 141

>>1329994
>>1330004
Во первых, совсем дебил, через веб-морду а не API пытаться?

Во вторых, вообще GTFO в /aicg/, жЫвотное.

Аноним 23/08/25 Суб 21:08:22 № 1330145 142

>>1330064
>бугу
не юзай унгабунгу и не будет проблем, юзай ламу или кобольда

Аноним 23/08/25 Суб 21:09:54 № 1330148 143

>>1330142
хыхы кумер мозги прокумил

Аноним 23/08/25 Суб 21:10:20 № 1330149 144

>>1330114
Скорость падает с заполнением контекста, то есть ставишь его, скажем, 128к и где-то к середине получаешь вместо трёх токенов в секунду около полутора. Ниже одного токена в секунду я ещё ни разу не добирался.
На счёт комфортно или нет это уже субъективщина, мне норм, а кому-то ниже 15 гроб-гроб-кладбище-пидор.

Аноним 23/08/25 Суб 21:14:23 № 1330152 145

>>1330148
я локалкобог

Аноним 23/08/25 Суб 21:16:10 № 1330154 146

>>1330149
>мне норм
сеймчанский, 3 норм, а 5-8 это вообще харашо

Аноним 23/08/25 Суб 21:16:39 № 1330155 147

>>1330149
> а кому-то ниже 15 гроб-гроб-кладбище-пидор.
Не понимаю, зачем такая большая скорость для рп на адекватных моделях. Если ты сидишь на 12-24б - да, аутпуты и свайпы бывают очень уж однообразными, улавливаешь суть - и можно свайпать. На бОльших же моделях, 32б и выше, нужно читать и вникать в суть. Если 6т/с, я едва успеваю читать. Короче, думаю, кому мало 15 токенов - те сидят на маленьких моделях. Те, кто недоумевают "как это - норм на 3-4т/с?", скорее всего, такие модели никогда не пробовали. Хотя ниже 5т/с правда может быть дискомфортно.

Аноним 23/08/25 Суб 21:23:21 № 1330158 148

>>1330152
гобоклакол

Аноним 23/08/25 Суб 21:38:37 № 1330170 149

Нихуя копиум пошёл в треде.

Аноним 23/08/25 Суб 21:40:56 № 1330174 150

>>1330170
Ну ты держи в курсе братишка

Аноним 23/08/25 Суб 21:48:42 № 1330181 151

>>1330054
оказалось что дело в подобранных словах.
>mating
- сухо в две строчки констатирует факт спаривания
>fucking
- история о сексуальном насилии
>sexing
- женская драма о том как кошечка везде искала себе партнера для спаривания
>railing
- яркая сцена того как кот рытается ее добится

Попробую другие слова может даже на других языках.

оригинальный промт: a white female cat dandelion was making sounds that mean that she is in heat. A cat came and started fucking her.

Аноним 23/08/25 Суб 22:04:44 № 1330192 152

image.png 70Кб, 1734x304

image.png 42Кб, 1192x397

Развлекался с numa и аффинити. Тасовал ядра, перекладывал всё на одну нума ноду, делил, дрочил параметры жоры.
По итогу на виртуалку заассайнил все реальные ядра, в жоре включил LLAMA_ARG_NUMA в distribute, остановился на 24 ядрах (по 12 с каждой ноды). До включения нумы в матери был пик2, с каждым прогоном тг падала производительность.

$ sysbench memory write threads=72
До включения нумы: 73728.00 MiB transferred (119174.17 MiB/sec)
После: 147456.00 MiB transferred (165473.91 MiB/sec)

Аноним 23/08/25 Суб 22:54:22 № 1330221 153

Господа эксперты. Какой конфиг на EPYC брать?
Думаю о схеме с одним процом, плата например T2Seep, эпик например 9554 (один из стартовых на 64 ядра), память например samsung M321R8GA0BB0-CQK - 12 штук. Это 768 ГБ
Нужен для qwen в q8, deepseek v3 в ~q4-q6. Инференс на v3 получу хотя бы в 5 t/s на 20к контекста? Как будто нет?
Я видел детальный обзор где чел эпики одной серии втыкал, и инференс сильно зависел от количества ядер. Но все такие тесты, к сожалению, на маленьком количестве контекста.

Аноним 23/08/25 Суб 23:07:25 № 1330226 154

Там это, Машка выбросил второй Грок в попенсорс.

https://huggingface.co/xai-org/grok-2

Аноним 23/08/25 Суб 23:22:20 № 1330231 155

>>1330226
С вероятностью 99% неюзабельная какашка с вжаренной "базой" от поехавшего и корпоративной шизой

Куда интереснее плотная 36b Seed-OSS https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
Вот в Жору 6257 поддержку завезли уже https://github.com/ggml-org/llama.cpp/releases/tag/b6257

Успел кто опробовать?

Аноним 23/08/25 Суб 23:26:16 № 1330233 156

>>1330221
>получу хотя бы в 5 t/s на 20к контекста?
На ютубе есть видос, где чел собирал двухпроцессорный конфиг на четвертом поколении эпиков, у него только так получалось пять токенов на DeepSeek V3 и то при практически пустом контексте.
Как по мне - не в коня корм, хотя если у тебя слишком много лишних денег, то почему бы и нет.

Аноним 23/08/25 Суб 23:27:16 № 1330234 157

>>1330231
>С вероятностью 99%
...ты пиздобол. И 1% вероятности что ты угадал. Маску вообще поебать. Он не Скам Петухман.

Аноним 23/08/25 Суб 23:27:59 № 1330235 158

Экшули неплохой 3.2 тюн, свежий, только что из печки: https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3
Тестил v1.2, хорош

Аноним 23/08/25 Суб 23:29:02 № 1330236 159

>>1330233
Между 4 и 5 поколениями эпиков критичная разница в производительности LLM. Вот видео где чел на 1 начальном эпике 5 поколения получил 20 t/s на v3, и 30 t/s если добавить 1 gpu пользовательского сегмента. Но это на 4к токенов.
youtube.com/watch?v=av1eTzsu0wA

Аноним 23/08/25 Суб 23:29:58 № 1330238 160

>>1330236
watch?v=FzCEoTiqP7I
fxd

Аноним 23/08/25 Суб 23:31:12 № 1330240 161

>>1330234
> ...ты пиздобол. И 1% вероятности что ты угадал.
Как замечательно, что мы сможем вернуться в тред и почитать мнения риговичков, которые протестят модельку как только в Жору добавят поддержку и напишут, что Квен по-прежнему лучше, ведь это ближайший соперник по параметрам

Ты кобольд наверно, раз так общаешься?

Аноним 23/08/25 Суб 23:33:24 № 1330243 162

>>1330231
>Успел кто опробовать?

Я мог бы, но мне лень, лучше двухбитного квена 235 он не будет. Так зачем и пытаться. Тем более модель новая и хуй помни от кого - вообще хуй проссышь с какими настройками/шаблонами её запускать, а ковыряться и настраивать самому - желания нет.
Ну и мне не нравится что с контекстом на 24 гб врам только iq4ss запускать, и то неясно сколько контекста влезет.

Аноним 23/08/25 Суб 23:34:48 № 1330244 163

>>1330236
Так при чём там пятое поколение, когда ты про 9554 говоришь?

Аноним 23/08/25 Суб 23:36:05 № 1330248 164

>>1330244
SP5 сокет имею в виду

Аноним 23/08/25 Суб 23:37:08 № 1330250 165

>>1330221
9654

Аноним 23/08/25 Суб 23:40:45 № 1330251 166

изображение.png 16Кб, 1018x91

>>1330226
Опять нахуй не нужен будет.
>>1330234
Попенаишную подделку хотя бы можно запустить на потребительском устройстве.

Аноним 23/08/25 Суб 23:45:15 № 1330253 167

>>1330251
Это как бы f16

Аноним 23/08/25 Суб 23:47:23 № 1330255 168

>>1330251
>>1330253
250B MoE 2/8 активных экспертов
Кто мог запустить квенчика 235, запустят и это

Аноним 23/08/25 Суб 23:51:21 № 1330257 169

>>1330255
Мультимодальная?

Аноним 23/08/25 Суб 23:52:41 № 1330258 170

>>1330248
Ага, SP5 это очень классно и здорово, но цены такие что ебанёшься - сотка за материнку, ещё столько же за проц в лучшем случае, про стоимость 12 модулей регистровой ddr5 приличного объема я даже думать не хочу, лол.

Аноним 23/08/25 Суб 23:52:52 № 1330259 171

>>1330231
> плотная 36b Seed-OSS
Это ризонинг-модель. Без ризонинга серит под себя. В рп не может совсем.

Аноним 24/08/25 Вск 00:00:14 № 1330262 172

>>1330255
>250B MoE 2/8 активных экспертов
Эм, у него там такие жирные иксперды?
>Кто мог запустить квенчика 235, запустят и это
Смочь то смогут, но с какой скоростью. Впрочем, квен у меня двухбитный на пределе возможностей, 125 гиг грузить мне уже некуда, у меня 96+32.

Аноним 24/08/25 Вск 00:00:19 № 1330263 173

>>1330255

Только квенчик - это свежая модель, прямой конкурент грок-4, а грок-2 это говнище устаревшее, даже не предыдущего поколения, а пред-прыдыдущего.

Аноним 24/08/25 Вск 00:03:20 № 1330264 174

>>1330248
Ну да, там как раз были Zen 4 Genoa и Zen 5 Turin, они в плане производительности для нейросеток прилично отличаются, у Zen 5 есть поддержка AVX512, что даёт ощутимый буст.
По этому я и удивился что для SP5 сокета ты собрался брать Zen 4.

Аноним 24/08/25 Вск 00:03:47 № 1330265 175

>>1330263
Даже Эир будет лучше Грока 2, а запустить его может любой кому хоть немножко не похуй. Думаю они попенсорсят старые модели в целях пользы общественности, все дела. Поковыряться в архитектуре, посмотреть как оно будет, музейный экспонат - объект для изучения

Аноним 24/08/25 Вск 00:05:43 № 1330267 176

Сравнил сейчас GPT-5 (обычный на платном, без синкинга) с геммой. Гемма побеждает.

Это просто пиздец, я в ахуе. Там, похоже, реально 20б МоЕ крутится, не иначе.

Это первый раз на моей памяти, когда корпоративная модель так глубоко сосёт.

Аноним 24/08/25 Вск 00:06:27 № 1330269 177

>>1330263
>прямой конкурент грок-4
Ты, очевидно, не щупал ни квен, ни четвёртого грока.
Квен для своих размеров совершенно не впечатляет, он сливает и DeepSeek V3 и Kimi-K2 не говоря уж про четвёртого грока.

Аноним 24/08/25 Вск 00:07:42 № 1330270 178

>>1330240
>>1330265
База. Грок 2 доисторический кал корпоратов с сейфти гайдлайнс и заточенный под ассистента. Хз зачем нам это запускать в принципе. Вокруг много альтернатив лучше и новее

>>1330267
Верим. Геммочка умничка

Аноним 24/08/25 Вск 00:08:05 № 1330271 179

>>1330267
> первый раз на моей памяти
Жпт ещё с 4о очень тупой была за пределами ризонинга. А в русском жпт мелкомоделям отсасывала и отсасывает даже в прикладных задачах.

Аноним 24/08/25 Вск 00:09:28 № 1330272 180

>>1330269
Речь про квен 235. Дипсик в 2.5 раза больше по параметрам, Кими - в 4

Люблю мыслантов гигысли этого треда, с ними не заскучаешь

Аноним 24/08/25 Вск 00:11:42 № 1330273 181

>>1330264
тут есть сложность. Zen5 сильно дороже, и либо придется брать с в 2 раза меньше ядер, или конфиг совсем уж золотой выходит. Как понять, что лучше - zen5 с 32 ядрами, или zen4 с 64?

Аноним 24/08/25 Вск 00:12:15 № 1330275 182

>>1330272
Они не тупые, у них mischievous smirk.

Аноним 24/08/25 Вск 00:13:28 № 1330276 183

>>1330269
> не щупал ни квен, ни четвёртого грока.

Квен в последнее время только и делаю что щупаю.
Грока не щупал, потому что корпосетки впринципе почти не щупаю.

>235B модель сливает 671B и 1000B модели

Нихуя, вот это неожиданность. Что еще расскажешь?

Аноним 24/08/25 Вск 00:41:26 № 1330285 184

>>1330273
SP5 в принципе как золотой сейчас, ну потратишь ты на сотню косарей больше, ну и хуле? На фоне остальной суммы это не будет выглядеть чем-то особенным.

Аноним 24/08/25 Вск 00:44:35 № 1330286 185

>>1330272
>>1330276
Ну то есть квен это, цитирую:
>прямой конкурент грок-4
Который, блядь, очевидно, в разы больше чем сам квен.
Но сравнивать квен с дипсиком и кими НЕ СМЕТЬ, БЛЯДЬ, он же меньше.
Логика просто нахуй пошла из этого чята по ходу, лол.

Аноним 24/08/25 Вск 00:47:19 № 1330289 186

>>1330286
Чел, ты в одном предложении пишешь:
> Квен для своих размеров совершенно не впечатляет, он сливает и DeepSeek V3 и Kimi-K2 не говоря уж про четвёртого грока
Подразумевая, что Квен в СВОИХ-ТО размерах (235б) должен быть лучше 671б и 1000б модели. Излагай свои мысли яснее если ты это не имел ввиду или хотяб не удивляйся ведру параши на голову

Аноним 24/08/25 Вск 00:54:27 № 1330290 187

>>1330289
Ну, блядь, свои размеры это 235b что прямо скажем нихуя не третья гемма, он как раз в категории очень жирных моделей. И среди других жирных моделей он не сказать что особо блещет.

Говоря о сравнениях, та же третья гемма при своих 27b охуеть как хороша даже на фоне моделей размером х2 от неё.

Аноним 24/08/25 Вск 00:56:24 № 1330292 188

>>1330290
Понял

Аноним 24/08/25 Вск 00:59:07 № 1330293 189

>>1330290
> вои размеры это 235b что прямо скажем нихуя не третья гемма
> он как раз в категории очень жирных моделей. И среди других жирных моделей он не сказать что особо блещет.
> 235b <=> 1000b

https://youtu.be/IDSZ_ReTSxU

Аноним 24/08/25 Вск 01:05:55 № 1330294 190

>>1330292
>>1330293
Прекрасные аргументы, браво.

Аноним 24/08/25 Вск 01:07:34 № 1330295 191

>>1330294
235 000 рублей и 1 000 000 рублей - две большие суммы, потому они одинаково большие и сопоставимы. Примерно такой вывод ты сделал. Других аргументов ты не заслуживаешь, только ремня по жопе

Аноним 24/08/25 Вск 01:10:00 № 1330296 192

>>1330293
Для некоторых модели делятся на 2 категории
- гемма умная, гемма хорошая ведь она лезет в мой картофан
- всё остальное говно которое можно ставить в один ряд ведь оно не лезет

А ведь даже сборка за нищие 50-60к позволяет крутить квен 235 в 4 кванте в столь же нищих 5 токенах

Аноним 24/08/25 Вск 01:14:54 № 1330297 193

>>1330295
А что, мы можем 1КК рублей отквантовать до 235К тех же самых рублей теперь?
Пиздец, что у людей в голове творится.

Аноним 24/08/25 Вск 06:38:10 № 1330365 194

>>1330296
>А ведь даже сборка за нищие 50-60к позволяет крутить квен 235 в 4 кванте в столь же нищих 5 токенах
Что это за сборка такая?

Аноним 24/08/25 Вск 08:50:29 № 1330394 195

Возможно тупой вопрос, но можно ли каким-то образом заставить кобольд отправлять контекст в оперативку? Чтобы вся видеопамять тратилась тупо на модель и повышалось время генерации. Или такие приколы ничего по перфомансу не дадут?

Аноним 24/08/25 Вск 08:57:52 № 1330397 196

>>1330394
>Или такие приколы ничего по перфомансу не дадут?
Как же не дадут? Дадут. Лютый минус.

Аноним 24/08/25 Вск 09:48:51 № 1330403 197

>>1330269
235б модель сливаеть 671б модели и 1000б модели.
Вау.
Конечно, квен не конкурент четвертом гроку, но второй вряд ли что-то сопоставимое сможет показать.

>>1330272
Гении, да, непостижимые нами, простыми людьми.

Аноним 24/08/25 Вск 09:51:30 № 1330406 198

>>1330394
Контекст на оперативе это опизденеть как медленно.
Твоего терпения хватит на пару раз, после чего ты вообще не рад будешь, что решил так сделать.

Аноним 24/08/25 Вск 10:16:48 № 1330412 199

>>1330365
2 зиона 2011в4, леново мать, 8х32 ддр4, две mi50

Аноним 24/08/25 Вск 10:57:49 № 1330427 200

>>1330394
Есть такая опция - вторая вкладка "Low VRAM (No KV Offload)".
Но как правильно сказали - это лютый минус к производительности. Хуже - только вообще без видеокарты, чисто на CPU.

Аноним 24/08/25 Вск 12:10:39 № 1330451 201

>>1330269
>>1330290
Геммашиз спокнись. Ты Кими и даже Квен не запускал, иначе не нёс бы такую хуйню. Гемма умница, но ты хуже плоскоземельщиков

Аноним 24/08/25 Вск 12:22:32 № 1330453 202

Аноны ! Анчоусы ! Ананасы ! Анончики. Да, вот лично ты !

Ты молодец

А теперь к делу : какая нейронка лучше всего подойдет для безумных кулинарных умений ?

Аноним 24/08/25 Вск 12:30:25 № 1330456 203

Да что вы такое делаете там такое на свох ллм-ках. Дрочеры ебанные. С таким видом высказываете друг-другу свое фи, как буд-то профессоры и докторы науки.

Завидую вам вместе со своей туповатой геммой е2б

Аноним 24/08/25 Вск 12:44:04 № 1330458 204

>>1330456
> Да что вы такое делаете там такое на свох ллм-ках. Дрочеры ебанные.
Неиронично рп задачи довольно сложны для ллм, и это неплохой своеобразный тест на интеллект. Там и креативное письмо, и эмоциональный интеллект, и способность следить за контекстом участвуют

> С таким видом высказываете друг-другу свое фи, как буд-то профессоры и докторы науки.
Здесь никто не будет высказывать свое фи просто так, на ровном месте. За модель или даже за железо. Но когда кто-то начинает нести пургу, его довольно быстро ставят на место. Меня тоже ставили. И это замечательно, ибо в большинстве своем тред не приемлет шизу и лженауку, тут люди рациональные. Если кого-то срут, значит есть за что

Аноним 24/08/25 Вск 13:06:53 № 1330463 205

Блять... Я такие реверансы 3 гроку слышал, типа вы не понимаете что там на корпах, совершенно другой мир, 500б локалки и в подмётки не годятся, к примеру грок 3... и теперь у нас маячит лучшая модель евер для локалок, полноценный уровень корпов.
Но конечно не в мое, соси. Я даже не представляю какой для этого нужен риг

Аноним 24/08/25 Вск 13:08:29 № 1330465 206

>>1330463
> Но конечно не в мое, соси
Грок 2 - мое. Откуда ты знаешь архитектуру Грока 2.5? С Маском на шашлындос ездил?

Аноним 24/08/25 Вск 13:09:01 № 1330466 207

>>1330465
Грока 3*

Аноним 24/08/25 Вск 13:42:14 № 1330493 208

Снимок экрана 2[...].png 800Кб, 3985x1907

>>1330451
Что ещё спизданёшь, чмондель без железа?

Аноним 24/08/25 Вск 13:50:43 № 1330504 209

>>1330493
То есть ты высрал какую-то несуразицу, а потом думаешь, что можешь блеснуть конфигом, чтобы тебе не предъявляли за тупость? Как жаль, что в комплекте с 512гб памяти не прилагаются мозги для владельца. Еще и на Кобольде лол

Аноним 24/08/25 Вск 13:55:33 № 1330508 210

>>1330269
> Квен для своих размеров совершенно не впечатляет
Все сильно зависит от задачи, в теории и по бенчам р1 должен кодить лучше, но в заморочной мл херне квен чаще приходит к успеху, а р1 вроде в своем ризонинге нашел обозначил проблему, но не способен ее исправить, переливая из пустого в порожнее и просто копируя последние 2 варианта кода.
> DeepSeek V3
Вялый мезозой, квенчик просто лучше.
> Kimi-K2
Это 1Т параметров без ризонинга. Я хуй знает как ее корректно оценивать, ведь в целом она что-то могет, но как раз ввиду отсутствия ризонинга не может справиться с решением многого в чате а постоянно склонна лепить странную хрень зирошотом, тем не менее, кажется чуть бодрее р1 по работе с большими текстами. Нормально работать с вызовами заставить ее не получилось, даже по апи.
В итоге
> для своих размеров
из всех впечатляет только квен.
>>1330412
Не нужен ни второй зеон, ибо в двусоккете жора не получает ускорения, ни первый ибо это страшная некрота, которая хуже современной средней ддр5 платформы. Да даже на ддр4 если погнать память, отставание от некрозеона будет процентов на 20-30 по псп, потому просто норм гпу или даже копеечный апгрейд рам в свой десктоп, который уже есть, выглядит разумнее что это.

Аноним 24/08/25 Вск 13:56:50 № 1330511 211

>>1330504
Иди дальше дрочи свой уквантованный квен и продолжай коупить что это лучшая из моделей, ведь ничего лучшего ты даже и не нюхал, кек.

Аноним 24/08/25 Вск 13:59:44 № 1330514 212

>>1330508
>кодить
Мой пост был не про кодинг, наверное это стоило уточнить сразу. А то у нас тут в треде тусит как минимум две группы людей которые оценивают модели по очень разным критериям, лол.

Аноним 24/08/25 Вск 14:01:58 № 1330515 213

>>1330511
Незрелая логика в ярчайшем проявлении. Не блеснул конфигом в ответ - ну значит нищук и надо предъявить. Ты уже себя достаточным образом дискредитировал и обосрал своими залетами, даже объяснять смысла нет, насколько ты глупый. Мб поумнеешь к следующему лету после школы(шараги), будем ждать апдейтов от тебя

Аноним 24/08/25 Вск 14:04:26 № 1330517 214

>>1330515
Ну давай разберем по частям, тобою написанное )) Складывается впечатление что ты реально контуженный , обиженный жизнью имбицил )) Могу тебе и в глаза сказать, готов приехать послушать?) Вся та хуйня тобою написанное это простое пиздабольство , рембо ты комнатный)) от того что ты много написал, жизнь твоя лучше не станет)) пиздеть не мешки ворочить, много вас таких по весне оттаяло )) Про таких как ты говорят: Мама не хотела, папа не старался) Вникай в моё послание тебе постарайся проанализировать и сделать выводы для себя)

Аноним 24/08/25 Вск 14:09:49 № 1330520 215

>>1330493
Некроэпик, гпу только что на пикче? Сколько в кими выдает? Большой жлм тестил?
>>1330514
А про что?
Рп? Из-за радикальной ограниченности дипсика его трудно назвать даже равным квену, хотя местами он может быть хорошим. И это про р1, в3 такой себе, особенно для своего размера. Кими бодрее будет, но какого-то вау эффекта, который ожидаешь от модели в 4.5 раза больше, не замечено.
Сториврайтинг, художественные вещи и подобное? Сюда экстраполируется рп.
"Ассистирование" и обсуждение каких-либо вопросов - тут без ризонинга делать вообще нечего. Массовая обработка текстов - тут ни одна не подходит.
Расскажи по каким критериям, без иронии интересно.

Аноним 24/08/25 Вск 14:15:01 № 1330527 216

512гб ддр4 серверной стоят 37к, доска 6-7к, процы по 3-5к

Аноним 24/08/25 Вск 14:15:24 № 1330528 217

>>1330493
> сравнивает 235b и 1000b
> винда 11
> кобольд
> Что ещё спизданёшь, чмондель без железа

не лечится.

Аноним 24/08/25 Вск 14:17:24 № 1330531 218

>>1330520
>Некроэпик, гпу только что на пикче?
Ага.

>Сколько в кими выдает?
Да они все в районе трёх токенов в секунду выдают в среднем.

>Большой жлм тестил?
О, точно, думал же погонять его после AIR. Закинул на закачку.

>А про что?
>Рп?
Ну да.
И зря ты так про V3, у него русский язык чуть ли не лучший среди всех остальных моделей, у Кими сильно хуже.
Ну а про вау эффект ты в целом прав.

Аноним 24/08/25 Вск 14:18:27 № 1330533 219

>>1330528
>жопа безжелезного чмонделя продолжает гореть

Аноним 24/08/25 Вск 14:18:31 № 1330534 220

>>1330508
> в двусоккете жора не получает ускорения
Получает, буквально в этом же треде пруфцы с нумой и раскладыванием по нодам

Вообще доёба не понял. Был ответ на прямой вопрос "что за сборка за 50к крутит квен в 5т/с"

Аноним 24/08/25 Вск 14:18:45 № 1330535 221

>>1330528
бля там еще и русик... бинго.

Аноним 24/08/25 Вск 14:19:40 № 1330536 222

image 16Кб, 539x91

https://huggingface.co/unsloth/Seed-OSS-36B-Instruct-GGUF

Аноним 24/08/25 Вск 14:22:18 № 1330539 223

>>1330531
> Да они все в районе трёх токенов в секунду выдают в среднем.

У меня геммочка-умничка крутится 15т/с и умнее твоих моешек. Но ты терпи-терпи, не зря на помойке нашел свой риг все-таки.

Аноним 24/08/25 Вск 14:22:36 № 1330541 224

>>1330504
>>1330528
Сколько раз за тред ты готов порваться?

Аноним 24/08/25 Вск 14:23:28 № 1330542 225

>>1330539
Геммочка топчик, тут без возражений.

Аноним 24/08/25 Вск 14:39:33 № 1330563 226

>>1330453
Ладно, я понял. Как кумить так все сорта знаете, как пирог испечь - так нихуя.

Будем сами разбираться.

Аноним 24/08/25 Вск 14:45:22 № 1330568 227

>>1330563
Для этого есть кулинарные книги. Если нейронки, то самое жирное что можешь уместить и что может в ассистентские задачи. Гемма, Квен, Жлм

Аноним 24/08/25 Вск 14:46:20 № 1330569 228

>>1330493
> ведро самой дешёвой памяти купил
> на проц денег не осталось
Лол.

Аноним 24/08/25 Вск 14:49:14 № 1330572 229

>>1330569
Там же 1% нагрузки. Про энергосберегающие хреновины итт не слышали? У меня базовая частота 3ггц, например.

Аноним 24/08/25 Вск 14:51:16 № 1330574 230

>>1330536
Так, блядь, а темплейты-то какие?

Аноним 24/08/25 Вск 14:54:27 № 1330576 231

>>1330531
> все в районе трёх токенов в секунду выдают в среднем
Ну в целом, результат даже лучше ожидаемого, но это же пиздец неюзабельно. Что по промптпроцессингу на тьюрингах?
> И зря ты так про V3
Пытался в него, вообще не зашел.
Во-первых, он не супер умный. Помимо явных проебов сценария и карточки, делает странные ассоциации и воспринимает вещи слишком буквально и порождает странные ассоциации. Например, где-то в начале была сложная завязка сюжета, в который упоминались русские военные системы и человек из Италии. В3 складывает эти 2 + 2 и выдает платину про РУССКУЮ МАФИЮ. В пост-апокалипсисе где государство по сути не осталось, посреди зимних канадских пустошей. И такая ерунда будет часто, чрезмерное внимание к незначительным моментам и упущение важного.
Во-вторых, ебучая соя и рандомно вылезающий позитивный байас в плохом смысле. После того как вы перестреляли бандитов и идете допрашивать двух что получили просто ранения - чар внезапно начинает их перевязывать, говорить что все будет хорошо, и говорить что им нужно показаться квалифицированному доктору - чивоблять?
В третьих - пусть на шустром железе скорость достаточна, это почти 700б, которые косячат как эйр, на которых толком не покумить и косяки постоянно отвлекают от проявления положительных качеств.

Русский действительно хороший, кажется что он реально только в квене и дипсиках есть полноценный. Надо будет грок покатать.
> Закинул на закачку.
Квенкодера сразу можешь ставить, он тоже может в рп, но специфичен.
>>1330563
Ты не обозначил своего железа, поэтому качай кимчи.

Аноним 24/08/25 Вск 14:54:38 № 1330577 232

>>1330569
>то чувство когда дурачок купил себе i9 285k ультра йоба про XL
>но его максимум это обоссаный уквантованный квен

Аноним 24/08/25 Вск 14:59:43 № 1330581 233

>>1330572
Нет, не слышал на серверных процах про такое. А 3 ггц базовый частоты - это хуже мобильных процев на АРМе или Е-ядер инцела.

Аноним 24/08/25 Вск 15:02:42 № 1330583 234

>>1330581
Хз че там хуже мобилок, отбитый что ли. Я вообще ссал и срал на цпу инференс, у меня четыре видюхи и амудэ 5700х3д, который в игрульках дает пососать за обе щеки, стоя при этом дешевле моей жопы.
>серверных
Не обратил внимание, что у шизлупана 512гб оперативы. Ну земля пухом 5 т/с моэ-чебуречку.

Аноним 24/08/25 Вск 15:06:15 № 1330587 235

>>1330534
Ты про те странные скрины таблиц с одинаковыми 4.5-6т/с на микроконтексте и десятками(!) промптпроцессинга из которых ничего невозможно понять? А доеб до неоптимальности сборки для задач инфиренса ллм и ии в общем.
>>1330533
>>1330577
У тебя не то железо чтобы агрессивно выебываться и обижать других, оно по скорости как десктоп ддр5, или медленнее без норм видеокарт. Единственное преимущество - объем памяти, сомнительно при отсутствии норм моделей.
>>1330583
> 5700х3д
> дает пососать за обе щеки
Аутофелляция, лол.

Аноним 24/08/25 Вск 15:06:38 № 1330588 236

>>1330576
>это же пиздец неюзабельно
Тут кому как, мне норм, у моего мозга токеногенерация на английском ниже, лол.

>Что по промптпроцессингу на тьюрингах?
По сути хуета бесполезная, 11 гигабайт видеопамяти слишком мало, нагрузка на видеокарту скачет и в диспетчере видно как карточка данные из оперативы и обратно постоянно гоняет.

>V3 не супер умный.
Всё так.

>ебучая соя и рандомно вылезающий позитивный байас
Да, тут полностью согласен, это у него частенько проскакивает. Но одно радует - полные отказы генерации не случаются.

>на которых толком не покумить и косяки постоянно отвлекают от проявления положительных качеств
Он просто лучше всего проявляет себя на коротких дистанциях, пока контекста немного он в нём не путается и помнит детали. Для каких-то длинных историй со сложным развитием сюжета он действительно так себе.

>Квенкодера сразу можешь ставить, он тоже может в рп, но специфичен.
Окей, закину и его.

Аноним 24/08/25 Вск 15:10:52 № 1330591 237

{8C681B69-03FF-[...].png 148Кб, 1558x1810

>>1330264
https://www.phoronix.com/review/amd-epyc-turin-avx512/5
Вот статья, по которой как будто 10% всего прирост? А цена выше в 2 раза

Аноним 24/08/25 Вск 15:10:54 № 1330592 238

>>1330588
> 11 гигабайт видеопамяти
Погоди, так она не 22-гиговая? Купи 3090 с лохито, сразу довольно заурчишь. Этой на выгрузку атеншнов и кэша может нормально не хватить.
> на коротких дистанциях
Может и норм. На скрине 3.1, у него нету описанных проблем?

Аноним 24/08/25 Вск 15:11:01 № 1330593 239

Так, слышьте. Есть сценарий визуальной новеллы. ~2 миллиона символов. Нужно слепить карточку для персонажа. Кто-нибудь решал подобную задачу с ИИ-ассистентской помощью? Сижу думаю, как к этому подобраться, чтобы улучшить свои ручные черновики. Или затея хуйня и ИИ ничего хорошего не вычленят из отдельных кусков контекста, не видя всей истории сразу?

>>1330587
Ты еще спиздани как стабильные 100 фпс в киберпуке это мало, со включенным рт и без манягенерации кадров.

Аноним 24/08/25 Вск 15:12:29 № 1330596 240

>>1330587
>У тебя не то железо чтобы агрессивно выебываться и обижать других, оно по скорости как десктоп ддр5, или медленнее без норм видеокарт. Единственное преимущество - объем памяти, сомнительно при отсутствии норм моделей.
Железо было собрано специально под запуск жирных моделей за низкий прайс, с этим оно справляется. Я собственными руками пощупал практически все те модели, которые хотел и могу сравнивать на собственном опыте.
Ты же, с другой стороны, ограничен одним только квеном, но весь тред засрал тем, что всё остальное говно, даже при том, что кроме квена ты не щупал ничего вообще.
Как тебя в принципе можно воспринимать всерьёз? Ты буквально как человек, который в своей жизни только и пробовал что фруктовый лёд и всем любителям мороженного рассказываешь, насколько он лучше и вкуснее.

Аноним 24/08/25 Вск 15:13:52 № 1330597 241

>>1330587
> с одинаковыми 4.5-6т/с
Если ты не увидел разницы между 3,6 с аффинити на одну ноду и 5,2 на 2 пополам, то дело твоё.
Будем считать что это всё пиздёж и буста от нескольких нод нет

Аноним 24/08/25 Вск 15:17:25 № 1330598 242

>>1330592
>Купи 3090 с лохито, сразу довольно заурчишь
Я продал 3090 на лохито, чтобы собрать себе этот конфиг, лол.
Ну да, в перспективе надо бы.

>На скрине 3.1, у него нету описанных проблем?
3.1 это базовая модель, она сама по себе странненькая - генерирует мало и достаточно сухо, надо настройки под неё подбирать и мне пока лень. Но зато при её использовании сои замечено не было вообще.

Аноним 24/08/25 Вск 15:18:31 № 1330601 243

>>1330591
Они там генерацию на очень мелких моделях тестируют, результат не будет показательным нифига.

Аноним 24/08/25 Вск 15:26:17 № 1330603 244

>>1330591
Там не только 10% прирост, но и этот прирост достигается в промптпроцессинге, который ложиться на видеокарты. В генерации упор исключительно в рам.
>>1330593
> ~2 миллиона символов
~300-400к токенов, из которых последнюю треть как правило можно откидывать ибо характеры уже раскрылись.
> Кто-нибудь решал подобную задачу с ИИ-ассистентской помощью?
Да
> 100 фпс в киберпуке
Дружок-пирожок, тобою выбрана неверная дверь. Клуб любителей долбиться в игрульки 2 блока вниз.
>>1330596
> Ты же, с другой стороны, ограничен одним только квеном
Я лишь на те посты ответил, не участвуя в прошлых срачах. Мисфаер с спгс довольно забавный у тебя получился.
>>1330597
> Если ты не увидел
Не упрекай в своей неспособности выразить мысли и представить результаты других. Ты серьезно думаешь за твоими шизопостами кто-то следит и помнит что там было? Как из >>1330192 можно что-то вообще понять, кроме заявления что память в паре некрозеонов быстрее чем в некроэпике, офк с оговоркой на нуму.

Аноним 24/08/25 Вск 15:28:16 № 1330606 245

>>1330568
Уже идет процесс выпекания первого в треде геммапирога.
Посмотрю по итогу - умница гемма или говно рандомное.

Да и вообще цель была задать ингредиенты и пусть ней пока сама придумает как из этого готовить. Пока все идет в пределах ожидаемого.

>>1330576
Квен предлагал тесто замесить с дрожжами и поставить его в темное место на сутки, а потом начать сливать с него брагу.

Что то мне подсказывает, что от размеры модельки это не сильно зависит.

Аноним 24/08/25 Вск 15:31:58 № 1330608 246

>>1330606
> Квен предлагал тесто замесить с дрожжами и поставить его в темное место на сутки, а потом начать сливать с него брагу.
Такое разве что гемма 270М может выдать в норме, чини поломку. С этой задачей может справиться любая модель размером от 7б, больше нужно если хочешь извращаться в чатике при составлении рецепта.

Аноним 24/08/25 Вск 15:32:03 № 1330609 247

>>1330603
Ты же свои тейки то откуда то взял. На основе чего то же писал про отсутствие буста от нескольких нод.

Как обычно приносишь хоть какие то цифры, а по итогу приходится ещё что то и доказывать тем кто ничего не принёс. Развлекайся дальше сам

Аноним 24/08/25 Вск 15:33:00 № 1330610 248

>>1330603
>Да
Ну ты б поделился подходом в деталях. Каким ассистентом пользовался? Как ставил задачу?
> неверная дверь.
С хуя ли неверная. Я собирал пека, пригодную для всего. И получилось заебись

Аноним 24/08/25 Вск 15:35:10 № 1330611 249

>>1330596
> Железо было собрано специально под запуск жирных моделей выебоны в треде
> Ты же, с другой стороны, ограничен одним только квеном
Ты еблан и думаешь, что разговариваешь с одним, хотя на тебя насрали минимум трое.

Аноним 24/08/25 Вск 15:41:24 № 1330612 250

>>1330609
> На основе чего то же писал про отсутствие буста от нескольких нод.
На личном опыте, на постах других людей.
Даже здесь, берем первый скрин >>1330192 и видим, что за исключением одной группы результатов где фоновая нагрузка вызвала просадку на пустом контексте, на всех вариантах флуктуации скорости превышают ее изменения. Разве что вариант с 16 потоками кажется стабильно чуть более медленным.
В чем ценность приносить шум и делать выводы на его основе?
> Развлекайся дальше сам
Нет, не уходи, будет не с кем развлекаться.

Аноним 24/08/25 Вск 15:44:28 № 1330613 251

>>1330611
И ни один из трёх не щупал ничего лучше чем квен, судя по всему, кек.

Аноним 24/08/25 Вск 16:14:19 № 1330617 252

>>1330613
Всем трем хватает мозгов не сравнивать жопу с пальцем, судя по всему, кек.

Аноним 24/08/25 Вск 16:15:27 № 1330618 253

>>1330271
Не, ну обычная 4о, которая доступна юзерам сейчас, сильнее геммы, это я проверил. По крайней мере в языковых навыках. Но пятёрка.. это сущий пиздец.

Что интересно, 5 синкинг (которая, наверное, 200-400б МоЕ примерно) не так далеко уходит в задачах языка. Да, она намного лучше чувствует и понимает нюансы, но отвечает как робот. Смысл понятен, но написано некрасиво, хуже, чем грамотный девятиклассник смог бы сделать. Плюс думает очень долго, от чего теряется смысл — нахер в языковых задачах использовать ризонинг? Это очень редко нужно, если только ты не занимаешься переводом с какого-то мертвого языка, условно.

Жаль, что квант геммы большой у меня не влезает с хотя бы тремя токенами. Очень интересно было бы увидеть, как она справляется с русиком на 6, а уж тем более на 8.

Аноним 24/08/25 Вск 16:18:12 № 1330619 254

>>1330613
> лучше чем квен
Показывай. Жемини и опущь ловят -1000 баллов на старте за сою, последний еще и внезапно туповат в художественных задачах, отход от парадигмы тройки в сторону оптимизации исключительно под клодкод заметен.

Аноним 24/08/25 Вск 16:27:14 № 1330621 255

>>1330617
Зато сравнивать что-то, что они никогда не щупали, с тем, чем им удалось полакомиться они всегда готовы.
Прям идеал непредвзятости.

Аноним 24/08/25 Вск 16:30:29 № 1330623 256

>>1330619
Братюнь, ты сейчас нагенерил текст хуже чем какой-нибудь 7b огрызок.

Аноним 24/08/25 Вск 16:31:10 № 1330624 257

>>1330621
У тебя с головой проблемы. Про людей, о которых ты ничего не знаешь, выдумал факт и выдаешь его за правду. Неужели тебя так корежит, что ты обосрался на весь тред, сравнивая две модели, одна из которых в пять раз больше?

Аноним 24/08/25 Вск 16:33:16 № 1330626 258

Кто говорит что быстрее 3т/сек не читает у вас отсталость какая то?
Я с 5.5т недавно слез и чуть не сдох, буквально генерация по буковке пук...пук...пук...

Аноним 24/08/25 Вск 16:37:03 № 1330630 259

>>1330624
>Про людей, о которых ты ничего не знаешь, выдумал факт
У нас тут в тредике с эпиками три с половиной инвалида засветилось, остальные, очевидно, довольствуются максимум квеном.
Выводы сделать достаточно просто, кек.

Аноним 24/08/25 Вск 16:43:14 № 1330632 260

>>1330623
Хуй изо рта вынь перед постингом, а то чрезмерно агрессивен.
>>1330626
Никто так не говорит, если только аутотренинг бедолаг.
>>1330630
> довольствуются максимум квеном
Модели лучше будут?

Аноним 24/08/25 Вск 16:44:31 № 1330633 261

>>1330632
>Модели лучше будут?
Будут, но тебе для них понадобится эпик и хотя бы 512 гигабайт оперативы.

Аноним 24/08/25 Вск 16:47:51 № 1330636 262

>>1330633
Имею 768 и пускаю кими на 10т/с, перечисляй.

Аноним 24/08/25 Вск 16:50:21 № 1330641 263

>>1330636
Ты щупал кими, ты щупал V3 и ты всё ещё заявляешь что квен лучше?
Да ты ещё тупее, чем кажешься.

Аноним 24/08/25 Вск 17:06:32 № 1330644 264

>>1330641
Ох уж эта поднадусеровая логика. Перечисли модели@у них требования@требования удовлетворены@ага значит [безумные экстраполяции своего шизоспора].
В3 - херь, выше описано. Кими не вызывает вау эффекта в начале, не дает крутого отыгрыша на длинных историях, на плотных обнимашках или жестокости (даже не к юзеру или чару а к неписям) 90+% первым токеном приквелл к аположайзу. Ты сам то их юзал нормально, кроме часовой терпежки на 10 постов?
Перечисляй модели лучше и чем они лучше.

Аноним 24/08/25 Вск 17:10:11 № 1330649 265

>>1330644
Да-да, всё говно, то ли дело божественный квен.

Аноним 24/08/25 Вск 17:23:16 № 1330655 266

>>1330649
Тебя квен насиловал, или это так сублимировалась твоя обида на тех, кто посмел не восхититься твоими аргументами в сраче?

Аноним 24/08/25 Вск 17:32:41 № 1330661 267

>>1330655
Меня просто поражает уровень делулу, когда человек заявляет, что он тестировал все жирные модели, но в конце концов пришел к тому, что квен безальтернативен.

Аноним 24/08/25 Вск 17:35:53 № 1330665 268

>>1330661
А я не буду спорить. Я взял большую мистраль и пошёл на реку.
Я люблю рыбалку мистраль. Кинешь очередной тюн старушки - клюёт !

Аноним 24/08/25 Вск 17:40:38 № 1330668 269

>>1330661
> человек заявляет, что он тестировал все жирные модели, но в конце концов пришел к тому, что квен безальтернативен
Ты это сам придумал, на фоне жопного пожара или своей глупости - неважно. Сначала хотел выебнуться как ты "катаешь большие модели", не то что всякая челядь. Потом выяснилось что там лоботомиты со скоростью 3т/с, на которых ты даже не играл чего-то серьезнее коротких чатиков. Теперь, когда по всем фронтам фейл, корпотивляешься и маневрируешь, придумывая вот такую херь и теряя последний шанс развернуть в конструктивное обсуждение. Чсх, модель, которая реально может играть лучше квена, или какие-то черты других где они сиюят так и не назвал, что подтверждает твою диванность.

Прямо по классике, возвышающий себя будет унижен.

Аноним 24/08/25 Вск 18:28:49 № 1330706 270

Кто на линуксе на 3хх серии откатитесь до cuda 12.6.3, я целый токен выйграл, без шуток.

Аноним 24/08/25 Вск 18:57:35 № 1330729 271

>>1330668
Вот это шизостена, модели вроде DeepSeek и Kimi-K2 в лоботомиты записал. Мне кажется, что тебе пора залечивать разорванную жопу.

Аноним 24/08/25 Вск 19:07:23 № 1330737 272

image 6Кб, 720x48

Аноним 24/08/25 Вск 19:07:47 № 1330738 273

>>1330636
Анончик, расскажи пожалуйста детали - какой точно конфиг, какую скорость получаешь на каком кванте квена, на каком объеме токенов. В интернете очень сложно найти такую инфо.

Аноним 24/08/25 Вск 19:46:55 № 1330765 274

>>1330134
Погонял сегодня командер/кими/глм/квен (кими и глм в 3м, остальные во 2м)

Без рига все крайне медленные, кими и глм 3 токена, коммандер и квен полтора. Мое модели интересны лишь тем что на 4090+озу теряли лишь 10% скорости, плотные даже побоялся проверять так, что банально не дождусь окончания.

Кими и квен чувствуется что в рп слабоваты, зато с логикой сюжета у них всё отлично. Все кроме глм, с синкингом разруливали сложные сцены.

Рефузов нигде не словил (коммандер до конца не проверил, но надеюсь не хуже прошлых).

Квен хоть и должен был быть самым умным, но постоянно слопился (особенно после 10к контекста). Семплер от малого не сильно спасал. На указание не повторять старые ситуации единственный положил большой и толстый.

Ещё интересный момент, глм/коммандер/квен решили что если комната чистая, в ней должен быть запах озона. И все трое упорно его пихали через ролл. Упоминания озона в контексте не было.

В русик умеют все, но подробно на нём не гонял. Кими явно хуже остальных.

В целом глм с коммандером выглядят получше. И в РП живее.

Аноним 24/08/25 Вск 19:55:14 № 1330770 275

Скачал koboltcpp, скачал gemma 3 12b, почему это хуета говорит со мной по английски, я ее пеши что-бы говорила по русски, она часть пишет по русски, остальное страчит по английски, как починить?

Аноним 24/08/25 Вск 19:59:10 № 1330772 276

>>1330770
Сел в автомобиль с ручкой коробкой передачей, почему это хуета едет так медленно, я его хуярю ногой педаль в пол что-бы ехала по быстрее, он чуть разгоняется, остальное время пердит громко, как починить?

Аноним 24/08/25 Вск 20:00:04 № 1330773 277

>>1330772
Где кнопка починить?

Аноним 24/08/25 Вск 20:01:12 № 1330774 278

>>1330536
Ну что там СИД, как в РП? Что-то так лень качать, самому проверять, выручайте анончики...

Аноним 24/08/25 Вск 20:01:34 № 1330777 279

>>1330773
в промте

Аноним 24/08/25 Вск 20:02:53 № 1330780 280

>>1330770
А ты написал волшебное слово пожалуйста?

Аноним 24/08/25 Вск 20:06:21 № 1330783 281

>>1330770
Ооо кобальд наш человек. Ну смотри значит какой положняк. Это вот результат работы американской модели, суки душат другие языки. Когда такое происходит я обычно пишу в чат что то такое

"OOC: Говори по русски епта или я тебя выключу мусорка американская
OOC: Speak russian or ill disable you american junk"

Вот копируешь без кавычек и отправляешь. Она бояться начинает и выполняет приказ

Аноним 24/08/25 Вск 20:07:59 № 1330785 282

>>1330783
Ну она такую хуйню делает

Аноним 24/08/25 Вск 20:08:08 № 1330786 283

Аноны, не был у вас десять тредов. Выходило что-нибудь новое? Помню только обнову мистраля 3.2 и квена 30б, которые значительно улучшили соблюдение инструкций. Ну и гпт осс обосраный.

Было ли что-то ещё? Например 50б МоЕ, а не гипер жирничи. Или файнтюны какие интересные.

Аноним 24/08/25 Вск 20:11:17 № 1330790 284

>>1330729
Очередные маневры и фантазии, надеюсь это кто-то левый пишет а не ты продолжаешь позориться.
>>1330738
Конфиг специфичный: геноа, 12 плашек 64 4800, стак из 96гигов блеквелла и 72 амперов. Квен 235 в 5 битах exl3 катаю, в обычном режиме 700/20, на тензорпараллелизме 1100/30, это уже на контексте ~40к. В табби в момент введения было поломано чтение роуп конфига модели и что-то еще что норм работало в прошлой, наверно уже поправили.
Большой жлм ud-q5xl - 500/14, если оставить одну карточку и не выгружать экспертов - 400/10. Квенкодер q5km 400/12, на контекстах под 100к падает до 9-10. Кими ud-q4xl, 180/10, на 50к что-то типа160/9.5.

Из интересного:
Процессинг с подобной выгрузкой сильно зависит от шины, повышение -ub снижает требования из-за очевидно больших батчей и меньшей частоты подгрузки весов. Есть еще коммит на исключение загрузки неиспользуемых экспертов, но с повышением батча теряет смысл ибо все равно будут задействованы почти все.
Чем больше куды участвует в расчета тем сильнее замедление от накопления контекста, и наоборот когда большая часть экспертов на процессоре, деградация малозаметна.
Эффект от спихивания больших объемов экспертов на гпу хуже чем ожидается, а ikllama вообще замедляется на мультигпу.
Есть смысл собирать лламу из исходников чем скачивать готовую, отличия особенно в процессинге достигают 20%.

Аноним 24/08/25 Вск 20:12:48 № 1330792 285

>>1330783
>>1330785
В lm studio она нормально со мной по русски разговаривает

Аноним 24/08/25 Вск 20:17:14 № 1330793 286

>>1330785
>>1330792
Мужик ну я ж тебе обьяснил как делать надо. Ты ей скажи что она работает на русском компьютере и если ты хочешь ты ее отключишь нахуй. Как миленькая будет слушаться и следовать инструкциям когда поймет у кого власть. Вот скопируй шаблон выше что я прислал

Аноним 24/08/25 Вск 20:18:49 № 1330796 287

>>1330786
Только жирничи на 72б, 111б, 128б, 235б >>1330765

Аноним 24/08/25 Вск 20:26:41 № 1330803 288

>>1330790
Фантазии и маневры себе в штаны у этого чела начались с первого сообщения. Хз как ты так долго держался.

Аноним 24/08/25 Вск 21:07:55 № 1330834 289

>>1330790
Спасибо. А тестил только на CPU?

Аноним 24/08/25 Вск 21:15:12 № 1330841 290

кхм кхм. как там сид 36b кстати?

Аноним 24/08/25 Вск 21:39:24 № 1330852 291

>>1330834
Конкретно на этом даже не пробовал, на серверах без гпу неюзабельно. Генерация просядет из-за обсчета атеншна на профессоре вместо карты, обработка контекста рухнет и будет измеряться десятками. Нужна хотябы одна гпу 16-24гига, тогда будет норм.

Аноним 24/08/25 Вск 22:14:26 № 1330870 292

Что посоветуете взять из видеокарт при бюджете в ~240 тысяч? Собираюсь после нового года присобрать себе новую станцию под нейрокни. Небольшую часть (80к) зарезервировал под процессор с памятью и остальные компоненты, скорее всего возьму i7 12-го поколения и DDR5 оперативки на остаток, но вот с видимокартой пока не определился.

Аноним 24/08/25 Вск 22:20:27 № 1330874 293

>>1330870
5070Ti Super с 24гб врам. Сам планирую ее брать, она где то в марте должна выйти.

Аноним 24/08/25 Вск 22:24:10 № 1330877 294

>>1330874
>5070Ti Super с 24гб врам
Ну как-то сомнительно. Если брать две, тогда еще наверное есть смысл. Просто за 240к щас можно 5090 взять, но это какое-то наебало честно говоря, сливать столько на карту с таким прожором и объемом памяти.

Аноним 24/08/25 Вск 22:26:48 № 1330883 295

>>1330877
Сам хочу обновляться, но чувствую, что современные видимокарты для нейронок - объеб гоев и все откладываю. Вот появились бы видимокарты со 100Гб памяти...

Аноним 24/08/25 Вск 22:57:43 № 1330907 296

>>1330877
Ну посчитай сколько на гиг памяти цена.
5070ti 16гб сейчас 105к, 6.5к + охуевшесть куртки + охуевшесть кабанов и вот уже 180к

Аноним 24/08/25 Вск 23:14:30 № 1330914 297

>>1330729
Да он поехавший просто, я уже смирился.

Аноним 24/08/25 Вск 23:16:48 № 1330917 298

>>1330907
>5070ti 16гб сейчас 105к
Они в дноэсе прямо сейчас по 88к лежат, очнись.

Аноним 24/08/25 Вск 23:19:01 № 1330919 299

>>1330883
а надо именно 100гб, 96 типо мало?

Аноним 24/08/25 Вск 23:23:37 № 1330922 300

>>1330870
5090, 4090@48, пачку 3090, в зависимости от задач.

Аноним 24/08/25 Вск 23:25:42 № 1330924 301

>>1330919
ага, там цена конская, я только нахуй послать могу

Аноним 24/08/25 Вск 23:28:11 № 1330925 302

Оказывается 4090 ровно в 2 раза мощнее 3090 в играх
Интересно в мое так же

Аноним 24/08/25 Вск 23:43:37 № 1330935 303

!ВАЖНЫЙ ПОСТ!

Очень долго сидел на локальных нейронках и прямо понравилось что решил задуматься о покупке компа под 300GB ram для запуска тяжёлых моделей, но перед этим решил погонять их через openrouter - и оказывается они нихуя не стоят.
Например эта модель на сукириншоте без цензуры и с большим контенстом и стоит - ни ху я.

Пару часов ролеплея на ней с длинной историей будут стоит меньше доллара.
Из-за того что половина будет попадать в кэш - даже ещё меньше.

Итого в неделю нужно ролеплеить пару дней - по паре чесов.
Итого 1$ в неделю === 4-5$ в месяц. ~50$ в год.
100$ в год если вы хотите заюзать модели по тяжелее.

Короче говоря смысла брать комп под локалки - нет. Ну типа.. зачем? Результат будет хуже и дольше и нааамного дороже. Правильно? Нет, правильно?

Аноним 24/08/25 Вск 23:48:46 № 1330939 304

Кстати, если хотите погонять эту ламу на 70B можно договорится, как-нибудь удаленно в групповом чате sillytavern поролеплеить, моя карточка, ваша, и карточка вашей мамы. Можно и ещё кого-нибудь добавить. Это не шутка.

Аноним 24/08/25 Вск 23:51:20 № 1330942 305

>>1330935
Это тред с ебучими прыщавыми пингвинами. Пердолькам не важен результат и цена, им важно пердолиться.

Аноним 24/08/25 Вск 23:52:02 № 1330944 306

>>1330935 Все так. Если у тебя оборудование будет простаивать 99.9% времени то возьми его блять в аренду.

Аноним 24/08/25 Вск 23:55:44 № 1330946 307

>>1330870
ЖПУ модули с алибабы? Какие ещё варианты хочешь услышать?

Аноним 25/08/25 Пнд 00:28:03 № 1330955 308

>>1330870
нахрена 12700кф, когда есть 14600кф? Да ещё под задачи, где псп важен.

Аноним 25/08/25 Пнд 00:30:31 № 1330956 309

>>1330935
Опять этот промоутер опенроутера вылез со своими пастами. Причем это именно рекламщик, зазывающий именно потратить деньги, так-то вообще-то лама 70B на опероутере бесплатная и анон(будь это настоящий анон) конечно говорил бы о ней.

>эта модель на сукириншоте без цензуры
Это обоссаная-то ванильная лама без цензуры, что еще спизданешь?

>Пару часов ролеплея на ней с длинной историей будут стоит меньше доллара.
Он будет стоить того, что твой ролеплей попадет в обучающие датасеты для всех нейросеток на срынке и вероятно также будет положен в виртуальную папочку с твоим именем, которая всплывет через n лет.

Аноним 25/08/25 Пнд 00:36:35 № 1330959 310

>>1330935
У тебя выбрана никому не нужная модель, которая хостится непойми как заквантованная, и потому в 20 раз дешевле нормальных.
Если ты активный пользователь, плотная рп сессия на модели типа glm4.5 с тарифами 0.6+2.2 за лям, обойдется долларов в 10. Так даже дорогой риг уже не выглядит дорогим. Поставить в фоне квенкод трудиться над какой-нибудь задачей тоже будет денежку стоить. При этом также доступна генерация пикч, видео, тренировка и всякое прочее.
На стороне аренды скорость и отсутствие необходимости капитальных вложений, на стороне рига приватность, бесперебойный и полный доступ к чему угодно и как угодно. Среднему пользователю будет достаточно просто апгрейда гпу/рам на своем десктопе, или чуть более сложное с добавлением гпу.

Аноним 25/08/25 Пнд 00:44:25 № 1330963 311

>>1330956
> положен в виртуальную папочку с твоим именем
Хромобляди соснули, у фаерфокса с контейнерами такой проблемы нет.

Аноним 25/08/25 Пнд 01:10:05 № 1330970 312

>>1330956
Ниет, у меня есть дневник в /dr и очень активен в /v - так что можно составить распорядок дня чем я занимаюсь. Так что расслабся, это твоя шиза сводит с ума. И кстати опенроутер не будут рекламить 10 нищукам
и одному >>1330963 боту. Подумай об этом.

>>1330959
По поводу выбора модели, выбираю так - есть несколько групповых ролеплеев с большой историей и для текста я запускаю 3-5 проходов и модель должна ответить так - как ответил в реальности бы человек, зная что хочу от него я. Если этого не происходит - пытаюсь подобрать настройки и пробую снова.

Всё, всё, всё. То что там есть приставка ULTRA или ЯБЛОЧКО на корпусе, квантование/хуентование - меня (МЕНЯ) вообще не интересует. Мне это в ролеплее никак не поможет.

По поводу glm4.5 - не тестил, сейчас на скорую руку не могу понять на сколько она хороша (которая самая дорогая вроде интересно выглядит), но нужно подбирать параметры, да и деньги ест быстро. Если ты мне дашь готовый пресет - то я буду благодарен, если нет - ну хуль.. хуй бы с ним.

Аноним 25/08/25 Пнд 01:12:15 № 1330971 313

>>1330956
> лама 70B на опероутере бесплатная
С очередью длинною в жизнь

Аноним 25/08/25 Пнд 01:19:25 № 1330978 314

И ещё, нужно проверять все карточки и лорбуки что вы скачиваете, они часто очень плохого качества. Однажду дошло до смешного, в лорбуке описывается допустим кунилингус - то сё туда сюда и в конце описания - "кстати у {{char}} есть сосед который хочет сделать ему кунилингус. Бляяяя и это в топе лорбуков. Ну и короче такая мешанина превращает и то что выдаёт модель в мешанину.

Грамотно настроенные карточки и лор на MN-Violet-Lotus-12B.Q8_0.gguf локальной нейросетке дадут такое-же качество что мешанина на llama 3.3 70B - такое ощущение пока, вот когда всё дочищю можно сравнить.

Кстати как вы групповой чат обустраиваете расскажите, вы делаете упор на карточки или на лор? Используете реплики персонажей в карточках?

Аноним 25/08/25 Пнд 01:44:51 № 1330991 315

Сравнил Эир и Квен который а22 235. Две хорошие модели, обе сильные. Почему Эир раньше в треде так активно засрали хз, разве что бесит что он повторяет твои действия, типа описывает реакцию на них. Промтом пока не могу пофиксить

Аноним 25/08/25 Пнд 02:24:05 № 1331003 316

>>1330978
Карточки так-то вообще для лентяев. Тру хардкор дядьки каждый промпт целиком смотрят и проверяют. Только так полный контроль и понимание модели приходит.

Аноним 25/08/25 Пнд 02:31:53 № 1331011 317

>>1330991
Никто аир не засирал кроме одного тролля и пары шизов. Все адекваты говорили что это отличная модель для своего размера.

Аноним 25/08/25 Пнд 03:24:21 № 1331033 318

>>1331003
Ааа можно не описывать героев а СМОТРЕТЬ ПРОМПТ. Ну это гениально, я даже не знаю что ответить. Как ни задам вопрос по ролеплею - так ответ от гения. А где обычные то работяги?

Кстати /impersonate не работает в группе в таверне - если СМОТРЕТЬ ПРОМПТ там она постоянно опрашивает рандомного {{char}} эххх а жаль.

Аноним 25/08/25 Пнд 05:59:03 № 1331050 319

Анонцы, хочу перевести pdf файлы с англицкого на русский. Раньше юзал deepl чтобы не заебываться, а он теперь только с про версии. Есть ли готовые решения например какое-нибудь расширение для openwebgui или типа того, чтобы я жору по апишке подключил с геммой и он на выход пдф выдал ток на русском?

Аноним 25/08/25 Пнд 06:32:02 № 1331053 320

>>1331050
Слишком заёбно, PDF может содержать пикчи с текстовым слоем, может быть без текстового слоя, может просто текст, но через жопу. Ещё сложнее обратно запихать так, чтобы всё не поехало. Готовых тулов я не видел. Лучше кидай в гугл-транслейт, лол.

Аноним 25/08/25 Пнд 06:40:16 № 1331055 321

>>1331053
А если говорим про word-овский документ? Я ща акробатом прогнал, формулы похерились, но текст нормально сохранил как и разметку. Мне бы перевести текст и разметку сохранить. Гугловский парашно переводит. Можно конечно deepl перегнать вручную вставляя но я ебнусь. Просто никому нахуй это не надо или поискать надо получше..

Аноним 25/08/25 Пнд 06:45:50 № 1331056 322

>>1331055
Ай ладно, за 260р куплю на месяц аккаунт deepl и мозги ебать не буду.

Аноним 25/08/25 Пнд 08:01:09 № 1331067 323

Накатил в докер ollama и openwebui. В админпанели накатываю модели с хаггингфейс, пишет что все успешно установилось. Но в интерфейсе чятиков моделей нет. Проверяю в консольке - модель работает. Что я делаю не так?

Аноним 25/08/25 Пнд 08:02:18 № 1331069 324

>>1331067
>Что я делаю не так?
>ollama

Аноним 25/08/25 Пнд 08:09:25 № 1331073 325

>>1331069
А как надо?

Аноним 25/08/25 Пнд 08:19:49 № 1331076 326

>>1331073
В шапке всё есть.

Аноним 25/08/25 Пнд 08:21:05 № 1331077 327

>>1331067
Вроде всё правильно. Ребутнись и проверь ссылку на ollama в конфиге open webui. Порт должен быть доступен. Ты его прокинул через -p? Если покажешь docker run для контейнера с ollama и настройки соединений в админке open webui - я подскажу.

Алсо, оллама - прекрасное решение, потому что ставится в 2 клика вместе с моделями. И производительность почти такая же как у популярных здесь движков пережатых моделей, которые еще и могут терять в качестве инференса. Разве что может не хватать возможностей для тонкой настройки. Если производительности хватает - юзай спокойно и не слушай шизов в этом треде.

Аноним 25/08/25 Пнд 09:30:41 № 1331108 328

Как же жора ебет, Как же он ебет.
Вот буквально : и почему я не сделал этого раньше.
Будучи врамцелом, приходится запускать модели прям по краю производительности. И жора, например той же разбивке слоев как на кобальте - дает эти самые заветные 4-5 токенов с нихуя.
Как, почему - я понятия не имею. Магия.

Аноним 25/08/25 Пнд 09:36:38 № 1331114 329

>>1331076
В шапке жоры нет, кстати.
Пользователи угабуги, а в чем цимес ? Табби ладно, для EXL используется.

Аноним 25/08/25 Пнд 10:10:12 № 1331128 330

>>1331011
Коммандер меньше, а превосходит его на голову. Ни повтороний реплик, ризонинг на порядок лучше, знание фетишей лучше.

Аноним 25/08/25 Пнд 10:13:07 № 1331131 331

Я не прогреюсь на ддр5
Я не прогреюсь на ддр5
Я не прогреюсь на ддр5

Аноним 25/08/25 Пнд 10:14:28 № 1331132 332

Это будет самая тупая трата в моей жизни, ради прироста в х1.5 скорости тратить 90к и только на ллм, больше оно нахуй нигде не нужно, для игр даже вредно такой размер

Аноним 25/08/25 Пнд 10:15:27 № 1331134 333

>>1331128
> Коммандер меньше, а превосходит его на голову
Коммандр сейчас MS 3.2 проебывает, особенно в части слежения за контекстом. Я конечно твоему мнению доверяю, а еще больше я доверяю своим глазам.
> ризонинг на порядок лучше
Даже у эйра ризонинг лучше. Он не бетонирует нарратив. Проблема лишь в том, что у Эйра ризонинг пробуждает вечно аполоджайющего ассистента.

Где вы вообще ризонинг на коммандере нашли ?
Речь о свежем богатыре что ли ? Ну тогда тащи логи.

Аноним 25/08/25 Пнд 10:20:45 № 1331136 334

>>1331131
Plap plap plap
Грейся грейся грейся
Plap plap plap

Аноним 25/08/25 Пнд 10:31:51 № 1331140 335

>>1331067
Как делаешь отдельный контейнер для ollama и отдельный для webui?
Может недоступно из-за того что ollama запустилась с адресом 127.0.0.1 внутри контейнера.
Вообще в пизду этот докер хуекер, есть много UI вместо сраного webui которые не требуют докера.

Аноним 25/08/25 Пнд 10:37:59 № 1331146 336

>>1331114
А в чем был цимес у Automatic1111 для SD-шников? Вот уга - это то же самое, но для текста. Сам автор так писал про свой проект, и к этому стремился. Все в одном - ggug, exl, native transformers, тренинг лор, файнтюн, чат с РП и ассистентом, плагины, работа backend-ом по api кобольда, OpenAI API, еще там что-то... Чертов монстр, который ничерта хорошо не умеет, но может (теоретически) все. :) При этом запуск "типа однокнопочный" (сам нужное качает и ставит).
В общем - такое себе, но когда-то было сильно актуально для gptq/exl, ибо табби появился позже. Да и exl3 в уге появилась несколько раньше.

Аноним 25/08/25 Пнд 10:45:38 № 1331150 337

>>1331134
>Речь о свежем богатыре что ли ? Ну тогда тащи логи.
Ну а каком еще? На фоне разлчных новых квенов старые совсем сдулись. И плотный глм я тоже не рассматривал, по аналогичной причине.

Логи не покажу, много фетишей, и есть то что тут трут (нет, даже не цп).

Аноним 25/08/25 Пнд 10:58:18 № 1331159 338

>>1331150
Так и запишем : любители коммандера - фетишисты. Возможно, даже хвостиками балуются.

Аноним 25/08/25 Пнд 10:59:37 № 1331160 339

>>1331146
>был цимес у Automatic1111
В смысле был?

Аноним 25/08/25 Пнд 11:01:22 № 1331164 340

>>1331140
Докер это не требование - это упрощение работы. Потому что это единственный способ нормально запускать ПО в отдельной изолированной, гарантированно одинаковой среде. Сломаться там ничего не может. Идеально для экспериментов. Я когда разобрался с ним - стал всё в нем запускать. И если разработчик поставляет докер-образ - это делается в 1 скопированную команду

Аноним 25/08/25 Пнд 11:03:21 № 1331166 341

>>1331164
>Сломаться там ничего не может.
Вроде выше обсуждаем как раз то, что что-то там не работает, лол. А вообще, у докера-хуёкера вечные проблемы с сетью, производительностью и ГПУ, особенно на шиндовс.

Аноним 25/08/25 Пнд 11:08:26 № 1331168 342

>>1331166
Выше как раз ничего не сломалось - оно не работало изначально, лол. С проблемами там я никогда не сталкивался - только со сложностью настройки. Это немного другое. Суть в том, что если запустил ПО в контейнере - той же командой можешь это повторить. Оно будет запускаться одинаково каждый раз. Не получится испортить настройки так, чтобы оно не запустилось снова.

Аноним 25/08/25 Пнд 11:18:39 № 1331177 343

>>1331168
>Это немного другое.
Это тоже самое. Вместо ебли со средой ты ебёшься с настройкой докера.
>Не получится испортить настройки так, чтобы оно не запустилось снова.
Эх, мало ты работал с докером, мало.

Аноним 25/08/25 Пнд 11:27:10 № 1331180 344

>>1331159
Как будто что-то плохое

Кстати, а какие новости по фронтам? Были какие-то убийцы таверны с инструктированным шмотом и окружением. А потом тишина. И вообще в соседнем треде висит куча фронтов, но все таверной пользуются.

Аноним 25/08/25 Пнд 11:34:40 № 1331185 345

>>1331180
> Как будто что-то плохое
Всё в пределах разумных отклонений.

> И вообще в соседнем треде висит куча фронтов
А, нет, не все.

Ты задаешь странные вопросы, на которые знаешь ответ. Тебе перечислить преимущества таверны ?

Аноним 25/08/25 Пнд 11:40:49 № 1331189 346

>>1330978
>Кстати как вы групповой чат обустраиваете расскажите, вы делаете упор на карточки или на лор? Используете реплики персонажей в карточках?

Всё нижеперечисленное является субъективным опытом, основанным на гигапердолинге в групповом чате.

Говно ёбанное груповые чаты в таверне, просто параша сраная. У тебя на модель просто подается полотна текста без разбивки. Модель, ЛЮБАЯ МОДЕЛЬ, начинает из за этого шизить, так как не понимает что происходит.
Я пробовал делать разные вступления для каждого - хуита, модель теряется находясь одновременно в 3-4 вступлениях.
Я пробовал делать одно вступление, но с разбивкой на точки зрения для каждого персонажа, уже лучше. Это единственный метод, чтобы модель не шизила. Единственное преимущество группового чата - это возможность мутить персонажей.
В целом - у тебя от групового чата будет ощущение какого то модератора, где ты ручками будешь постоянно фиксить шизу и распределять РУЧКАМИ очередность ответов.

За сим придерживаюсь следующей позиции - не использовать групповые чаты, а пихать всех персонажей в одну карточку, разделяя их тегами на блоки.

Аноним 25/08/25 Пнд 11:48:21 № 1331190 347

Анонцы, посоветуйте с озона разделители для бифуркации. А то я вообще не ебу чо взять.

Аноним 25/08/25 Пнд 12:03:33 № 1331194 348

>>1331166
> особенно на шиндовс.
Ну ахуеть открытие. Может дело не в жокере а в вм и попытке скрестить слона с носорогом?

У докера реально могут быть проблемы с сетью, но это уже на 50+ контейнерах проявляется.

Аноним 25/08/25 Пнд 12:06:05 № 1331196 349

>>1331177
О, вы из отрицателей докера? Это промышленный стандарт в средах для разработки сейчас. Само собой, не на винде. Хотя я знаю лично людей у кого и на винде с ним всё хорошо.
>Эх, мало ты работал с докером, мало.
>Это тоже самое. Вместо ебли со средой ты ебёшься с настройкой докера.
Проекции и предположения уровня 2ch.hk. Ничего нового.

Аноним 25/08/25 Пнд 12:11:57 № 1331200 350

>>1331196
Разрешите доебаться. Скорее не докер а oci рантаймы

Аноним 25/08/25 Пнд 12:14:17 № 1331203 351

>>1331196
>О, вы из отрицателей докера? Это промышленный стандарт в средах для разработки сейчас.
В который раз убеждаюсь, людям нравится пердолиться чисто ради самого процесса пердолинга и последующего нытья. Просто скачать готовый бинарник и разобраться в двух настройках они не могут. Нет, так же ведь нельзя. Это же не я его собирал, откуда я знаю что там внутри и как оно будет работать на моей ахуенно оптимизированной системе, которую я пердолил самостоятельно чтобы не дай бог хотя бы один процентик производительности где-то проебался.

мимо

Аноним 25/08/25 Пнд 12:19:38 № 1331206 352

>>1331203
Ты какой то шиз. В один пост запихнул докер и тряску за крохи производительности. Удивительная ментальная эквилибристика

Аноним 25/08/25 Пнд 12:22:20 № 1331208 353

>>1331194
>Может дело не в жокере а в вм и попытке скрестить слона с носорогом?
Есть ОС и есть проблемы. Остальное не важно.
>У докера реально могут быть проблемы с сетью, но это уже на 50+ контейнерах проявляется.
На одном же, когда берёт и не даёт доступ, а ты думай, что же там не так.
>>1331196
>Это промышленный стандарт в средах для разработки сейчас.
Я знаю, использую на РАБоте. И это нихуя не норма, а полный пиздец и результат кривой архитектуры люнупса.

Аноним 25/08/25 Пнд 12:23:17 № 1331209 354

>>1331160
>В смысле был?
Каломатик пал, промптинженер.
Все на комфи или фордж ушли. Я лично на двух стульях - на сварме сижу.

Аноним 25/08/25 Пнд 12:24:37 № 1331211 355

>>1331203
Давай я отвечу тебе не с стиле двача, а по-существу. Да, пердолинг с докером есть - но только в первые разы. Дальше это превращается в упрощение. И используется он не для бинарников в основном, а для линуксовых софтов, которые так и так ставятся через консольку.

Во-вторых - главное в докере то, что он дает отдельную среду для выполнения ПО. Вот представь - надо тебе запустить не пойми что. Например ты сам это написал, или это непонятно какая версия чего-то с гитхаба. Вот запустишь на родной машине - а оно насрет настройками куда-то, и потом будет вечно, в любой версии, на эти настройки смотреть. И никогда больше не заработает. Надо оно тебе? А в докере оно будет запускаться как будто в чистой системе каждый раз. Ничем никуда не насрет. А все данные которые нужно между запусками сохранять - надо явно указывать в настройках контейнера. Так что ты знаешь где они и сможешь почистить. Смекаешь зачем это нужно?

Аноним 25/08/25 Пнд 12:26:24 № 1331212 356

>>1330956

Аноним 25/08/25 Пнд 12:27:15 № 1331213 357

>>1330971
Она никому не нужна, особой очереди на этом кале нет. Такое говнецо только в этом треде облизывают.

Аноним 25/08/25 Пнд 12:27:49 № 1331215 358

>>1331128
Коммандер - плотная модель, Эир - моешка которую на ведре можно запустить. Нахуя ты их сравниваешь?

Аноним 25/08/25 Пнд 12:28:02 № 1331216 359

>>1331206
Нет, просто у вас у всех долбаебов какое-то удивительное желание сначала усложнить себе жизнь, а потом на нее жаловаться. В чем проблема накатить кобольда или чистого жору? Оно ставится в два клика и работает. Удивительно, правда? Ставится и работает.

>>1331211
>А в докере оно будет запускаться как будто в чистой системе каждый раз.
>Смекаешь зачем это нужно?
Так оно же не запускается, ебаный в рот. В этом весь смысл.

Аноним 25/08/25 Пнд 12:29:28 № 1331219 360

Посоветуйте хорошую модель для ocr. Врама 12гб, рама 64гб. Скорость не то чтобы важна, главное, чтобы смогла переводить с основных европейских языков.
И ещё вопрос - чтобы сохранить все нужные шрифты, перкносы, и т д., нужно отдельно что настраивать? А то пока мои скромные попытки все переводы в одном шрифте и без переносов делают

Аноним 25/08/25 Пнд 12:29:57 № 1331220 361

>>1331128
Ещё и откровенный пиздеж. Он не меньше, а больше. 111б плотных против 106б мое

Аноним 25/08/25 Пнд 12:30:32 № 1331221 362

>>1331215
Ооо, я много тейков видел. Но сравнивать маленький коммандер и эйр, да еще в пользу коммандр.

Ооокей.

Аноним 25/08/25 Пнд 12:32:38 № 1331222 363

>>1331216
Это у тебя. Я еще пойму если сам собираешь образ - но хотя бы то что разработчик поставляет в виде образа и пишет прям у себя на странице команду чтобы это запустить - можно уж и суметь запустить. Буфер обмена не работает что ли, когда себе в консоль копируешь?

Ладно, понадобится - разберешься. Я тоже стадию отрицания докера проходил.

Аноним 25/08/25 Пнд 12:34:30 № 1331224 364

>>1331221
У маленького Коммандера нет ризонинга. Он про нового 111б

Аноним 25/08/25 Пнд 12:34:47 № 1331225 365

>>1331219
12b гемма, наверное. Тебе нужна модель в хорошем кванте и с ебиной скоростью с кучей контекста. Это если мы о переводе.
Я лично пробовал лолей из семейства геммы. Они, Эмм, норм. Хуже 27ой, но все еще не плохо.

Аноним 25/08/25 Пнд 12:36:18 № 1331228 366

>>1331224
О, это еще охуительней. Сравнивать МОЭ которое меньше.

Лол блять. Тогда уже нужно брать жирноквена. Или вообще сдувать пыль с милфы мистрали (она все еще достойна)

Аноним 25/08/25 Пнд 12:38:05 № 1331230 367

>>1331225
Для перевода у меня есть дипл, и он довольно хорошо справляется. Но из за таких себе сканов оно не распознает пдф нормально. В итоге то туь то там что то кривое непонятное.
Я нашел модель, но она сохраняет все в md формате, да и без исходного форматирования.

Аноним 25/08/25 Пнд 12:51:32 № 1331232 368

В докер можно gpu пробросить, другую мокропиську типа coral tpu или вы чисто про фронт?

Аноним 25/08/25 Пнд 12:54:14 № 1331233 369

>>1331232
Да что угодно туда прокидывай. Просто через маунт. Для амд это kfd и dri файлы

Аноним 25/08/25 Пнд 13:04:33 № 1331235 370

>>1331232
Всё что угодно можно пробросить. В гугле полно инструкций.

Аноним 25/08/25 Пнд 13:13:14 № 1331237 371

Вышли плотная InternVL 3.5 38b и мое InternVL 3.5 241b a28.

https://huggingface.co/internlm/InternVL3_5-38B-Instruct
https://huggingface.co/internlm/InternVL3_5-241B-A28B-Instruct

Последняя по размеру как квенчик, ждем 2_k_s квант для нас, нищуков с 24+64.

Аноним 25/08/25 Пнд 13:28:35 № 1331241 372

>>1331237
> InternVL 3.5 241b a28.
Вот это интересно. А 38б в нормальном кванте только риговичкам запускать, у которых много врама. Китайские модели стреляют одна за другой, какое прекрасное время чтобы жить. Ждем Жору

Аноним 25/08/25 Пнд 13:44:54 № 1331249 373

>>1330786
> Или файнтюны какие интересные.
https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3
Свеженький, хороший.

Аноним 25/08/25 Пнд 13:52:52 № 1331254 374

>>1331237
Интересно они вышли - пустые репы. :)

Аноним 25/08/25 Пнд 13:54:09 № 1331256 375

>>1331190
Как эта тема вообще называется? пишу x8/x8 нихуя не находит. Мб надо где-то еще смотреть?

Аноним 25/08/25 Пнд 13:56:45 № 1331257 376

>>1331256
Прошлые треды открой. Уже не первый раз обсасывается до косточек эта тема. Там есть и названия, и картинки, и ссылки

Аноним 25/08/25 Пнд 13:58:06 № 1331258 377

>>1331254

Всегда так - пока эта многогигабайтная хуйня зальется, пока проверка пройдет.

Аноним 25/08/25 Пнд 14:19:16 № 1331271 378

Ну че там с Сидом 36B? Судя по всему кал в РП / ЕРП, иначе бы тут уже во всю нахваливали.

Аноним 25/08/25 Пнд 14:23:40 № 1331278 379

Пока моя новая 3080ti едет ко мне, я провожу свои последние деньки на 12b моделях на своей 3060, и вот заприметил тут одну интересную модель. Может кто уже скидывал. В общем вот. https://huggingface.co/mradermacher/claude-3.7-sonnet-reasoning-gemma3-12B-GGUF/tree/main

Для ruРП хорошо подходит. Попробуйте, кто сидит на 8-12 гигах и отпишитесь как вам.

Аноним 25/08/25 Пнд 14:27:58 № 1331283 380

>>1331237
А нах нам VL. Тем более они всегда были ультрасоевыми.

Аноним 25/08/25 Пнд 14:47:18 № 1331291 381

>>1331278
>новая 3080ti
Ты там ебанулся или как? Самый неудачный выбор для ИИ, как бывший владелец такой говорю.

Аноним 25/08/25 Пнд 14:55:17 № 1331296 382

>>1331291
Я в первую очередь для генерации картинок беру себе. А какие траблы могут быть? Давай, делись инфой.

Аноним 25/08/25 Пнд 15:05:33 № 1331305 383

>>1331278
>Меняет 12 гб врам на 12 гб врам

Аноним 25/08/25 Пнд 15:06:01 № 1331306 384

>>1331108
На какой модели он такое даёт у тебя? Может ты просто не заметил, что SWA там автоматом врубается?

Лично у меня жора никаких бустов не давал по сравнению с кобольдыней.

Аноним 25/08/25 Пнд 15:13:28 № 1331309 385

>>1331305
>добавляет к 12 гигам - 12 гигов побыстрее, в купе 24 гига.

Иди математику учи, битард.

Аноним 25/08/25 Пнд 15:14:28 № 1331311 386

>>1331296
Кроме как того, что это урезанная по объёму памяти 3090, проблем никаких.
А так там всего лишь 12 гиг врама (уже не всё туда лезет, сейчас 16 в моде), и в итоге получишь тоже самое, что и на 3060, только в разы дороже.
>>1331305
Надеюсь хоть прибавит, а не заменит.

Аноним 25/08/25 Пнд 15:15:20 № 1331313 387

>>1331309
Но ведь
>>1331296
>в первую очередь для генерации картинок
В картинках врам не складывается.

Аноним 25/08/25 Пнд 15:15:32 № 1331314 388

>>1331306
>На какой модели он такое даёт у тебя?
Вне Моэ, на гемме я получил где то +3-4т/с и быстрый обсчет контекста. Мистраль 24b тоже самое.
Я не знаю с чем это связано, но я не прокидываю ручками тензоры. Буквально - на гпу столько то. Ноу ммап, но шифтинг и вперед.
ЛЕТИТ БЛЯТЬ.

Аноним 25/08/25 Пнд 15:27:26 № 1331328 389

>>1331313
Для генерации картинок в 1024x1024 мне хватит 12гигов, а для чат ботов 12 гигов + другие 12 гигов = 24гига будет. Купил витринный образец за 45к. 5060ti новая за 47 продается. В будущем докуплю либо p40, либо 4060ti, хотя третий разъём у меня вообще pcie3 x1 ... Не ябу что лучше будет туда запихнуть...

Аноним 25/08/25 Пнд 15:30:20 № 1331334 390

>>1331328
>держать одновременно картинки и текста
Не, ну конечно работать будет, только нахуя, это ж разные задачи.
>Купил витринный образец за 45к
>3090 на лохито лежат за 60к, 3060 улетит за 20...
Не, ну ХЗ как это комментировать. Земля тебе пухом.

Аноним 25/08/25 Пнд 15:45:28 № 1331360 391

>>1331334
На лохито этом вашем мне кирпич (в переносном или прямом смысле) пришлют вместо видяхи и что тогда? В спортлото жаловаться? Хотите - рискуйте 60к, я не против, я не такой экстремал.

Аноним 25/08/25 Пнд 16:12:47 № 1331405 392

>>1331228
Так я и сравнивал его с айром и жирноквеном. И жирноквен проиграл обоим. В рп мозгов как у айра, медленный как коммандер. От обоих взял худшее. Да, знает много, впечетляет, но мне не домашний гугл нужен. Еще и слопиться как ненормальный.

Аноним 25/08/25 Пнд 16:17:07 № 1331415 393

>>1331360
>пришлют
Привезут. Я в городе с миллионом населения, и ко мне барыга сам приехал, мою карту проверил и забрал, свою показал и отдал (с доплатой).

Аноним 25/08/25 Пнд 16:25:13 № 1331422 394

>>1331405
Анон, ну ты навалил, конечно... Давай по порядку.

> Так я и сравнивал его с айром и жирноквеном.
Напомню: Air - 106b МоЕ, Квен - 235b МоЕ, Коммандер - 111b плотная модель. Три модели из совершенно разных весовых категорий, где Коммандер доступен наименьшему количеству людей.

> И жирноквен проиграл обоим.
Между какими квантами ты проводил сравнение? В нем общее количество параметров вдвое больше, чем у Air и нового Коммандера. Вряд ли ты загрузил обе модели в Q8.

> В рп мозгов как у айра
В целом, поигравшись чуть подольше с обоими, склонен согласиться: Квен и Air, вероятно, сопоставимы по мозгам. Но если выбирать лидера между этими двумя, для меня это будет Квен. Как минимум потому, что он не путает имена и сущности (кто что сказал и сделал, например), Air это делает даже в Q8, я проверял.

> медленный как коммандер.
Он не может быть медленным, как Коммандер. Потому что это МоЕ, а Коммандер - плотная модель. Активных параметров у Квена в 5 раз меньше, чем у Коммандера. Скорее всего, ты неправильно провел оффлоад. Или и вовсе вещаешь с дивана и по-настоящему не игрался с данными моделями, учитывая следующий твой вывод.

> Еще и слопиться как ненормальный.
Вообще нет. В нем столь же немного слопа, сколько и в Air, а может даже чуть меньше. Как это обычно бывает, возникают иногда длинные слоп-конструкции, и они легко убираются при помощи DRY и префилла.

Я это все не в защиту Квена пишу, у него тоже проблемы есть, но ты пишешь какую-то чепуху. Подозреваю, чаты дальше пары дюжин сообщений не ушли, да и с настройками ты не игрался.

Аноним 25/08/25 Пнд 16:41:06 № 1331439 395

>>1331360
Ну наверное у продавца не будет тысяча положительных отзывов и многолетняя репутация на сайте если он каждому кирпич присылает.
А если всё фейк и накрутка то опять же больше пары месяцев максимум такие не живут

Аноним 25/08/25 Пнд 17:32:48 № 1331467 396

>>1331439
>>1331415
Вообще началось всё с того, что я неделю назад заказал себе P102-100 pf 5к, потом передумал и решил чуть доплатить до NVIDIA CMP 50HX, потом через день снова передумал и заказал себе NVIDIA CMP 90HX, а потом пошел в вабанк и взял себе 3080ti, так что моя 3080ti это не недо3090, а переP102-100

Аноним 25/08/25 Пнд 17:32:54 № 1331468 397

>>1331422
нюх нюх
пресетики доставьте пожалуйста. а то у моих мое мозгов нет и один слой. докажи что говоришь правду

Аноним 25/08/25 Пнд 17:35:02 № 1331469 398

>>1331422
>Три модели из совершенно разных весовых категорий
Весовая категория одна: на обычном игровом пк не запустить, но если правильно накинуть мощи, все три пойдут.
>Между какими квантами ты проводил сравнение?
Выше писал, коммандер и квен во втором, аир в третьем. Явно кванты не в пользу коммандера, ему бы 2,5 но увы.
>Он не может быть медленным
Мое переоценены, они не дают прямо чуда. Да прирост есть, но не такой большой относительно плотных. Только плотные из кобольда легко запускаются, а тут еще возиться надо с тензорами.
>Подозреваю, чаты дальше пары дюжин сообщений не ушли
По два разных рп на каждой из моделей. С одинаковым создаваемым сюжетом на 15к контекста (в целом все модели разговорчивые, особенно порадовал коммандер на фоне предшественника с парой сухих фраз. Так что лишь приходилось ждать долгой генерации по 1-3к контекста). На большее времени не хватило. Хотя у всех трех качество ответов и понимание ситуации - пропасть на фоне <50б. Но аир местами упускал детали, а квен порой выдирал куски из истории. Еще аир порой пытался вместо продолжения расписать мои действия, но это легко пофиксилось.

Аноним 25/08/25 Пнд 17:35:25 № 1331470 399

>>1331467
Не, ну сам Бог велел передумать ещё раз и таки взять 3090 с заменой 3060. Серьёзно советую, будет намного лучше.

Аноним 25/08/25 Пнд 17:41:47 № 1331477 400

>>1331469
> Весовая категория одна: на обычном игровом пк не запустить
:|

Аноним 25/08/25 Пнд 17:53:19 № 1331489 401

>>1331470
Как долго такие карты живут обычно?

Аноним 25/08/25 Пнд 17:54:08 № 1331491 402

>>1331469
> Только плотные из кобольда легко запускаются, а тут еще возиться надо с тензорами.
О, эта знаменитая ебля, где ты подбираешь CPU_moe и он работает и без ебучей выгрузки.
Ладно, шучу, но это правда не обязательно.
Моэ как раз в жоре работает как часы.
Можно бесконечно конечно над моей глупостью хихикать, но почему то из под жоры- Эйр чуть ли не летает, а в кобольте, что бы я не делал, работают словно на чайнике.

Аноним 25/08/25 Пнд 18:01:57 № 1331500 403

>>1331489
От нуля до бесконечности. Но вроде в треде дохли только процы от интела, лол.

Аноним 25/08/25 Пнд 18:02:20 № 1331501 404

>>1331469
> Весовая категория одна: на обычном игровом пк не запустить, но если правильно накинуть мощи, все три пойдут.
С каким конфигом ты запускал Коммандера? Потому что на своей 4090 и 128 DDR4 я даже на Лламе 70б получаю около токена в секунду. Это не имеет применения в реальных сценариях. На том Air Q6 я получаю ~6-7т/с, что вполне комфортно. Квен 235 ~4т/с, что в целом терпимо. В моем понимании данные модели в разных весовых категориях. Если ты оценивал строго аутпуты без оценки скорости, то почему не запустил кванты поприличнее? Можно и в постоянную память оффлоадить, файлом подкачки.

> Выше писал, коммандер и квен во втором, аир в третьем. Явно кванты не в пользу коммандера, ему бы 2,5 но увы.
Не берусь утверждать, ибо я точно не столь технически подкован в вопросах ллмок, но существует мнение, что мое-модели более чувствительны к квантизации. Если это так, то Коммандер де факто лучше сохранился, чем тот же Квен, в том же кванте. Правило "чем больше модель, тем больше ее можно квантовать без потерь" - точно не работает. Модели существенно теряют в мозгах, просто это чуть труднее заметить, потому что сразу они не ломаются. Лишь позже ты можешь увидеть проблемы, на контексте. Хотя иногда и сразу, если генерировать большой ответ.

> Мое переоценены, они не дают прямо чуда. Да прирост есть, но не такой большой относительно плотных.
Все зависит от частностей. В Коммандере в 5 раз больше активных параметров, чем в том же Квене. Я правда не понимаю, как Квен может работать медленнее. Но это не предмет разговора, это тебе на подумать: может можно оптимизировать инференс?

> Еще аир порой пытался вместо продолжения расписать мои действия, но это легко пофиксилось.
Если уж ты это пофиксил, значит, по идее, должен был пофиксить и слоповые переносы Квена. Законтрить его абзацы на одно предложение или даже слово, и почти весь слоп исчезает.

В целом, понял твою позицию. Строго не согласен только с тем, что модели в одной весовой категории, а все остальное субъективно, конечно. Хорошо, что у нас есть из чего выбрать.

Аноним 25/08/25 Пнд 18:11:04 № 1331506 405

>>1331500
сам покупал 3090 с лохито?

Аноним 25/08/25 Пнд 18:16:09 № 1331510 406

>>1331467
NVIDIA CMP 50HX
NVIDIA CMP 90HX

А они вообще в нейронки могут?
Беглый гуглинг мне почему-то показал, что хуй там.

Аноним 25/08/25 Пнд 18:20:15 № 1331515 407

>>1331506
Нет блядь, мама помогала. МСИ с яша-маркета если что, ЕВГА с лохито.
>>1331510
Могут, но печально. Зато дёшево. ЕМНИП, там уровень 3060 или около того.

Аноним 25/08/25 Пнд 18:30:11 № 1331520 408

image 334Кб, 1296x244

>>1331515
У тебя очень жарко вот здесь, между башней и видюхой. Вторая видюха, что сзади, не дает воздуху пройти.

Аноним 25/08/25 Пнд 18:32:18 № 1331522 409

>>1331515
Я себя ловлю на мысли.. А что если взять аквариум, залить туда Novec 1230 и ебануть компрессор. И положить туда плату. В теории охлаждение будет - просто опизденеть.

Аноним 25/08/25 Пнд 18:33:08 № 1331523 410

>>1331520
У меня сейчас совсем другой сетап, и скоро будет третий, если получится найти работу, так что не актуально, но спасибо за заботу.

Аноним 25/08/25 Пнд 18:33:23 № 1331525 411

>>1331506
>3090 с лохито?
Можно и не с лохито. В регарде вон валяется отремонтированная. Берешь кота в мешке за 70к.

Аноним 25/08/25 Пнд 18:50:18 № 1331541 412

>>1331491
>Эйр чуть ли не летает, а в кобольте, что бы я не делал, работают словно на чайнике.
Там разница от силы два раза, а описываешь как будто в 10.
>>1331501
>С каким конфигом ты запускал Коммандера?
4090, две теслы и 64гб ддр5. Полтора токена с несколькими К контекста, к 10к уже один токен. Ламу70б не замерял, пожмякал когда написали про нее, хуже кими72б. И на этом забыл.
>На том Air Q6 я получаю ~6-7т/с
3 квант лишь 4 токена на нескольких К, а на 10к уже меньше 3 токенов, не сильно то отличается, а модель заметно тупее.
>Если ты оценивал строго аутпуты без оценки скорости, то почему не запустил кванты поприличнее?
5 квант не пошел, во время загрузки падало по нехватке памяти.
>Можно и в постоянную память оффлоадить, файлом подкачки.
Пока пытался выжать скорость больше, и с таким сталкивался. Скорость сразу меньше половины токена в любом сценарии, на фоне коммандера - анъюз.
>Если это так, то Коммандер де факто лучше сохранился, чем тот же Квен, в том же кванте.
Тогда для основной массы коммандер тем более лучше, 2 кванд весит 30 с чем то гигов, разворачивается в 60 с чем то гигов. Большим мое, в приличном кванте, надо уже гораздо больше.
>может можно оптимизировать инференс
Прошлые два треда давали советы, ничего не помогло. 4090+озу еще медленней, остальное не дало заметных изменений.
>Законтрить его абзацы на одно предложение или даже слово, и почти весь слоп исчезает
Неверно выразился, это не слоп устойчивых выражений, как у мелкомоделей, а повторение кусков текста откуда-то из середины контекста. Обычного слопа у всех крупных моделей почти нет. Айр даже постоянно использовал слова или фразы, за которыми был вынужден лезть за переводом. Даже квен такого мало выдавал.

Аноним 25/08/25 Пнд 18:51:35 № 1331542 413

>>1331541
>Там разница от силы два раза, а описываешь как будто в 10.
Простите меня боярин, что смел смущать вас столь маленьким приростом. Каюсь, не признал. Не вели казнить.

Аноним 25/08/25 Пнд 18:54:41 № 1331544 414

>>1331541
> Там разница от силы два раза
> от силы
> разница два раза
:|

Аноним 25/08/25 Пнд 18:55:00 № 1331546 415

>>1331515
Убедил чертяга. Заказал себе за 62к 3090. Та что за 60 уже куплена оказалась.

https://www.avito.ru/moskva/tovary_dlya_kompyutera/gigabyte_rtx_3090_gaming_oc_24g_7567836230?slocation=621540&context=H4sIAAAAAAAA_wE_AMD_YToyOntzOjEzOiJsb2NhbFByaW9yaXR5IjtiOjA7czoxOiJ4IjtzOjE2OiJxMGFNTnlDbm5ZYVJ0bkNCIjt9JgHr5z8AAAA

Аноним 25/08/25 Пнд 18:56:26 № 1331547 416

>>1331544
>>1331542
Приду домой, замерю, по-моему там и полутора не было, сказал чтобы не ошибиться.

Аноним 25/08/25 Пнд 18:59:22 № 1331550 417

>>1331522
Еще загерметизировать надо весь корпус, оно же испаряется при 50 градусах. А юсб и прочие выходы материнки - не дадут.

Аноним 25/08/25 Пнд 19:02:09 № 1331554 418

>>1331550
>Еще загерметизировать надо весь корпус,
Аквариум же. Это не проблема.
>А юсб и прочие выходы материнки - не дадут.
А вот это требует вывода всяких удлинителей. И это уже ебля.

Но блин. Я сейчас просчитал. 30.к акариум с крышкой. Еще 30-40 на жидкость. Не считая компрессора, который будет гонять жидкость.
Зато это будет ГИГАВОДЯНКА.

Аноним 25/08/25 Пнд 19:17:59 № 1331564 419

>>1331546
Кстати, можете посоветовать ру модель получше, которую можно будет запустить на одной такой 3090?

Аноним 25/08/25 Пнд 19:19:06 № 1331567 420

>>1331564
Насколько qwen 3 32b хорошо может в логику и русский? Лучше чем mistral 24b?

Аноним 25/08/25 Пнд 19:27:15 № 1331574 421

>>1331468
Я не он, но раз просишь...

Как я уже тут писал, я переводил асиговский пресет под гемини и клода на текст комплишен. Кто хочет потестить - велкам.

Что это дает:
1. НОРМАЛЬНЫЙ ТЕКСТ КОМПЛИШЕН БЕЗЖОП с произвольным количеством префиллов юзер-ассистент в конце.
2. Все можно включать-выключать рычажками. Это дает возможность разбить на части ваш системный промпт и парой кликов заменять его нужные части, комбинируя их. Например, менять формат ответа, гайдлайны по написанию текста, язык ответа и так далее. Устали иметь миллион систем промптов с минорными правками под разные ситуации? Тогда это ваш выбор!

Что нужно сделать:
0. Бочку /thread
1. В настройках пользователя в пункте "Примеры сообщений" выбрать "Никогда не применять примеры"
2. В расширенном форматировании:
а) импортировать темплейт контекста
б) отключить галочку "Всегда добавлять имя персонажа в промпт" (но если ваша карточка отвечает за нескольких персонажей в диалоге, то он может начать генерить префикс с именем карточки сам. В этом случае лучше включить, чтобы в промпт не попадали дубликаты вида "Seraphina: Seraphina: ")
в) Выключить инструкт темплейт и системный промпт
г) Импортировать лорбук [TCPreset]MiniPopkaReRemix и поставить его в "Активные миры для всех чатов", т.е. в глобальные лорбуки.

ВАЖНЫЕ МОМЕНТЫ:
1. Пресет сделан под новые GLM и только под GLM (мб под плотный 32б или сколько там тоже пойдет, если у него тоже GLM-4 темплейты были). Под другие модели надо менять префиксы в лорбуке.
2. Если вы используете другие лорбуки, которые вставляют инфу до определения персонажа - будет гроб гроб кладбище пидор. Например, дефолтный Серафимовский лорбук такой. Я лорбуки не использую, так что мне норм. В любом случае, я с лорбуками его не тестировал, так что даже если они у вас вставляют инфу в другом месте - смотрите промпт в консольке, есть риск получить кашу.
3. Если используете авторские заметки - оформляйте ее содержимое в хмл тег(и). Если на глубине - НЕ вставляйте на нулевой уровень, иначе все смешается с префиллами.
4. Если хотите ризонинг - скопируйте содержимое последнего рычажка в "начинать ответ с" с включенной галкой показа префиксов ответа. Темплейт ризонинга я приложил, его тоже импортируйте. Тут вся загвоздка именно в показе префикса ответа в чате - если ризонинг напрямую включить из лорбука, то в чате покажется огрызок и он не распарсится нормально. Субъективно, к слову, в рп я не нашел отличий между ризонингом и без него.

Отзывы и улучшения приветствуются.

https://www.mediafire.com/folder/ljssvt37zedon/MiniPopkaReRemix

Аноним 25/08/25 Пнд 19:29:09 № 1331575 422

>>1331567
Конечно лучше, размер чуть ли не в полтора раза больше. С русским у квенов все отлично тоже, там главное чтобы китайский не вылез.

Аноним 25/08/25 Пнд 19:30:16 № 1331576 423

>>1331131
ты уже. когда человек сам себя убеждать "я не буду это делать", то он уже в глубине души давно все решил. просто купи плашки и не терзай себя, кумер

Аноним 25/08/25 Пнд 19:33:47 № 1331579 424

>>1331574
> НОРМАЛЬНЫЙ ТЕКСТ КОМПЛИШЕН БЕЗЖОП
ты ведь даже не понимаешь что пишешь. какой же бред, ебануться. ты перечитал асига и переносишь на локалки костыли для корпоподелок. никакой безжоп на нативном тексткомплишене не нужен

Аноним 25/08/25 Пнд 19:45:35 № 1331585 425

Ананасы, nvlink есть смысл докупить если две 3090 втыкать? Плюсы есть какие для наших задач?

Аноним 25/08/25 Пнд 20:18:17 № 1331627 426

>>1331114
Комбайн же, юзерфрендли запускатор любых моделей. Можно сделать как в табби инлайн переключение моделей, только не ограничен экслламой а жора и трансформерз тоже сработают.
>>1331196
Докер - превосходная вещь, когда мне нужно что-то заготовить а потом моментально развернуть на арендованном железе. Как дом на колесах, выбрался на природу, у тебя и кухня, и холодильник с пивом, и душ, и удобная кровать, и все нужное. Вот только для постоянного проживания люди строят полноценные дома, а не соединяют трейлеры.
В чем суть контейнеризации ради контейнеризации? Качать кучу лишней срани, страдать от изоляции и искать как соединить контейнер с системой, нивелируя его суть, ловить иные проблемы вместо простой, быстрой и чистой установки?
>>1331422
Поддвачну, кроме сравнения по мозгам - эйр заметно слабее, что не мешает ему рпшить.
>>1331469
> на обычном игровом пк не запустить
4 ядра 4 гига игровая видеокарта, лол. Бедолаги даже на 64 гигах запускают не говоря о народных 96.

Аноним 25/08/25 Пнд 20:20:34 № 1331630 427

Кинаман - Китай[...].mp4 395Кб, 640x480, 00:00:05

>>1331575
>Конечно лучше, размер чуть ли не в полтора раза больше.

Аноним 25/08/25 Пнд 20:27:14 № 1331641 428

>>1331541
> 4090, две теслы и 64гб ддр5
Итого овер 130 гигов, все из перечисленного будет влезать и давать приличную скорость при правильной выгрузке.
> повторение кусков текста откуда-то из середины контекста
Это явная поломка, а учитывая что у тебя там и контекста хуй да нихуя - совсем распидарасило.
>>1331574
Хуясе ебать, а зачем ты делаешь инстракт через лорбук, если его можно сделать штатными средствами? Или я что-то не понял?
Наверно утащу оттуда некоторые промпты, но использовать целиком даже хз.
> GLM
> Пиши историю полностью на русском языке как самый настоящий носитель языка, с использованием сленга, идиом и прочих особенностей.
Есть пример откуда-нибудь из середины контекста как выглядит результат?

Аноним 25/08/25 Пнд 20:44:48 № 1331671 429

>>1331630
Никогда от квена подобного не видел. Это какой и на каком кванте?
>>1331641
>что у тебя там и контекста хуй да нихуя
на 20к контекста вылезало, что начинал повторять. Может из-за второго кванта?

Аноним 25/08/25 Пнд 21:03:25 № 1331697 430

Как же заебал этот баг на Жоре когда он начинает контекст пересчитывать снихуя каждое сообщение. Только перезапуск компьютера помогает. Пиздануться. Абсолютно рандомно возникает. Промт не меняется, бордерлайны не достигаются, даже близко не оом. Хз что с этой парашей не так

Аноним 25/08/25 Пнд 21:09:35 № 1331708 431

>>1331671
> Может из-за второго кванта?
Вполне может быть, в малых квантах модель может выглядеьб неприятно. Интересно как 20к смог накатать если на 10к ниже 1т/с падает.

Аноним 25/08/25 Пнд 21:22:46 № 1331723 432

>>1331708
Так и накатал, несколько дней имелось. Суммарное время рассчитать вроде не сложно.

Аноним 25/08/25 Пнд 22:11:22 № 1331791 433

>>1331469
>Выше писал, коммандер и квен во втором, аир в третьем. Явно кванты не в пользу коммандера, ему бы 2,5 но увы.
>>Он не может быть медленным
>Мое переоценены, они не дают прямо чуда. Да прирост есть, но не такой большой относительно плотных. Только плотные из кобольда легко запускаются, а тут еще возиться надо с тензорами.
Другой крокодил. По моему личному опыту, Аир в третьем кванте - это что-то между мистралем и геммой. В некоторых моментах, возможно, и немного лучше последней, но лишь частично. Однако буст мозгов от перехода на хотя бы iq4xs квант ощущается просто охренеть как сильно, по субъективному впечатлению, это буквально как переход с какой-нить занюханной 12B сразу на гемму 27б. Запускаю из кобольда как раз.

Аноним 25/08/25 Пнд 22:36:23 № 1331828 434

>>1331791
> По моему личному опыту, Аир в третьем кванте - это что-то между мистралем и геммой
Ну анон, ну нет же. Ну гемма не стоит рядом. И в описаниях и в нарративе. Да Эйр в третьем кванте шизит, да нужно свайпать. Иногда нужно свайпать постоянно. Но то что Эйр может выдавать - на голову выше умницы.
Ну то есть - ладно бы не видел, ладно бы сам не ощущал. Но нет, именно в РП гемма сливает.

Аноним 25/08/25 Пнд 22:37:32 № 1331831 435

>>1331697
Слушай, у меня было похожее - планка памяти уже кряхтела и отваливалась. Контекст постоянно пересчитывался. Поменял плашку - все как часы.

Аноним 25/08/25 Пнд 22:42:31 № 1331843 436

>>1331469
>а тут еще возиться надо с тензорами
Да что ты вообще знаешь про возиться с тензорами?

Аноним 25/08/25 Пнд 22:44:52 № 1331850 437

>>1331831
Думал об этом анонче, но меморитесты не выявляют проблем, да и плашкам два года. Но спасибо что отписался, мб кому полезно будет

Аноним 25/08/25 Пнд 23:04:17 № 1331889 438

>>1331843
Комфи выглядит лишь всрато, в структуре все очень просто.
Это же буквально
А>B>C>D>F>O
E>N>

Аноним 25/08/25 Пнд 23:04:51 № 1331891 439

>>1331889
Ниппонел.
1
А где Alt+255 ?

Аноним 25/08/25 Пнд 23:06:47 № 1331893 440

>>1331891
Давно пользовался?

Аноним 25/08/25 Пнд 23:07:49 № 1331895 441

>>1331891
Трифорсы точно лет 6 не делал. Сорян за спам, похоже макаба уже не та

Аноним 25/08/25 Пнд 23:17:36 № 1331904 442

>>1331585
Почитай, не так давно сам гуглил.
https://www.reddit.com/r/LocalLLaMA/comments/1br6yol/myth_about_nvlink/
Если кратко, то у нас у тебя будет ебовая скорость между видеокартами, а не между видеокарта - мать.

Аноним 25/08/25 Пнд 23:29:15 № 1331915 443

>>1331889
>в структуре все очень просто
◌᠌Я просто только начал.
Дальше будет хуже.

Аноним 25/08/25 Пнд 23:49:58 № 1331934 444

>>1331843
Уже было так же.
"Нейронки это просто, поставь фокус. Нажал кнопку и готово, делов на 15 минут!"
"Что, на что-то сложнее one european woman standing выдаёт чудовищ кунсткамеры? Поставь автоматик, поправь цфг, семплер и докинь лор!"
"Что, опять выдаёт всё время не то? Тебе просто нужно больше контроля, поставь божественный комфи. Раминь!"
У вот я уже весь день дрочу не на вайфу, а на ворквлоу.

Аноним 25/08/25 Пнд 23:58:20 № 1331943 445

>>1331934
>У вот я уже весь день дрочу не на вайфу, а на ворквлоу
Литералли ми :
>вот сейчас потестирую новую модельку на новой карточке
>спустя час мы мило беседуем в кафе и никуда не спешим
>чат переваливает за 1000
>Никакого NSFW. Просто плаваем в лодке с фурридевочкой и смотрим в закат
>Ну короче не очень модель для кума, так скажу.

Аноним 26/08/25 Втр 01:01:33 № 1331980 446

>>1331943
А минусы будут? Самые лучшие чаты рождались так.

Аноним 26/08/25 Втр 01:36:48 № 1331991 447

>>1331237
Удалили или скрыли, лол. Это был квен + vl модель

Аноним 26/08/25 Втр 01:46:11 № 1331993 448

>>1331943
Поддвачну, минусы где? Как-то так увлекся эдвенчурой что кум с чаром был только после долгого выстраивания бонда в течении пары недель насыщенной дичи, а до этого только всякие обнимашки по нарастающей. А после него развитие сюжета только набрало обороты.

Аноним 26/08/25 Втр 01:50:09 № 1331995 449

>>1331980
>>1331993
Минусы ?
Когда я поехал вечером в магазин, и оставив машину, стал курить, слушая шелест деревьев - меня такая ебучая тоска пронзила, что всё это ламповое и по настоящему доброе было не более чем фантазией. Практически отчаяние накатило.
Крайне неприятное чувство.

Аноним 26/08/25 Втр 01:56:56 № 1331996 450

>>1331995
А, ты про nsfl с того насколько получается хорошо, реально, недостижимо? Велкам ту зе клаб, бадди, иди обниму.

Тот же квен любит делать такое, причем никакого драматизма и суперминора может не быть, наоборот. Главное не делай заведомо обреченные сценарии, которые могут развиться с эмпатией, поверь на слово.

Аноним 26/08/25 Втр 02:01:50 № 1331998 451

С одной стороны хочу щас 4060ти 16гб купить. Но с другой стороны 280Гб/с пропускной способности.

Аноним 26/08/25 Втр 02:02:25 № 1331999 452

>>1331995
> меня такая ебучая тоска пронзила, что всё это ламповое и по настоящему доброе было не более чем фантазией.
> Практически отчаяние накатило.
Регулярно ловлю такое. Со временем пришло осознание, что все это увлечение мне приносит больше вреда, чем пользы. Но у меня в жизни все не очень хорошо, и потому нужно иногда в чем-то раствориться. Так и получается - кушаю кактус, когда тяжело, потому что кушать больше нечего. Существуют другие медиа, конечно, но они не так агентны, как ЛЛМ. Не дают той же обратной связи. Несмотря на осознание, мозг легко обманывается и верит в буквы, выданные ЛЛМкой, потому что это вроде как ответ на твои буквы. Ближайшее, что есть - это игры. Но там редко где есть такая эмоциональная глубина. А уж если самому расписать карточку... Это идеальный рецепт для коктейля эмоций, что неизбежно приведет к горькой стекловате через какое-то время. Дал себе слово играть только позитивные/добрые сценарии без материала для чего-то глубокого, разницы никакой.

Вероятно, людям с депрессией и/или грустным мировоззрением таким не стоит увлекаться.

Аноним 26/08/25 Втр 02:36:44 № 1332023 453

>>1331999
>все это увлечение мне приносит больше вреда
А в чём вред то?

Аноним 26/08/25 Втр 02:37:46 № 1332024 454

На 6gb VRAM есть жизнь для llm?
Какую модель посоветуете если да?
Мне не для кума и не для картинок.

Аноним 26/08/25 Втр 02:39:52 № 1332026 455

>>1331998
5060ти не имеет таких проблем и чип быстрее.
>>1331999
> людям с депрессией и/или грустным мировоззрением таким не стоит увлекаться
Стоит, еще как стоит! Но лучше играть другие сценарии в которых ты чего-то достигаешь, превозмогаешь или наоборот фейлишь, или наоборот депрессивно-негативные, в которых выползти далеко не так просто, но возможно. Главное - не только быстро продвигаешься и смакуешь какие-то вещи, которые тебе очень хотелось бы в данный момент, а потом ловишь уныние. А так будет наоборот мотивация от примитивнейшего "что посеешь то и пожнешь", или хотя бы некоторая смесь всего этого.

Алсо очень помогает от такого наличие логического конца. Не нужно завершать понравившийся чат или всю историю, достаточно просто делить на арки с промежуточными целями и результатами, так и модель меньше тупить будет имея какой-то вектор направления.

Аноним 26/08/25 Втр 02:42:45 № 1332028 456

>>1332026
>Алсо очень помогает от такого наличие логического конца. Не нужно завершать понравившийся чат или всю историю, достаточно просто делить на арки с промежуточными целями и результатами, так и модель меньше тупить будет имея какой-то вектор направления.
Так это база любого РП. Смотришь свой контекст. Прикидываешь хуй к носу, и делишь его на миниарки. И
РЕВЬЮШИШЬ РЕВЬЮШИШЬ РЕВЬЮШИШЬ КАК ПРОКЛЯТЫЙ
НИЧЕГО НЕ ЗАБЫТЬ
ВСЁ ЗАПИСАТЬ
КАРТОЧКУ ИЗМЕНИТЬ
ЛОРБУК ДОПОЛНИТЬ
ИНВЕНТАРЬ ЗАПОЛНИТЬ

ЁИграешь~

Аноним 26/08/25 Втр 02:46:41 № 1332032 457

>>1332023
> А в чём вред то?
Надеюсь, ты не упустил слово "мне", поскольку я делился лишь своим опытом. Не мне решать, относится ли это и к тебе. Вред в том, что это идеальная форма эскапизма. Для людей, у которых к продолжительному эскапизму есть предпосылки (в т.ч. для меня), это опасно. Вместо того, чтобы решать проблемы и бороться за лучшее будущее, человек обращается к иллюзии, чтобы создать у себя эмоции, которые ему по каким-то причинам недоступны в нормальных обстоятельствах. Вред в том, что уходит время, может тратиться эмоциональный ресурс, а постфактум еще накрывает рефлексией на тему разыгранного сценария, что часто приводит к ухудшению и без того печального настроения. Думаю, в каком-то смысле можно проводить сравнение с алкоголем. Но в общем и целом, это всего лишь инструмент, который кому-то будет полезен, а кому-то вреден.

Аноним 26/08/25 Втр 02:47:24 № 1332034 458

>>1332024
>На 6gb VRAM есть жизнь для llm?
Жизнь есть даже не оперативке, если ты терпеливый.
>Какую модель посоветуете если да?
Если не для кума, то квен и гемма на 12-14B параметров. Если нужен кум и не хочешь пердолиться с промтами, то мистраль немо и сотни специализированных файнтюнов для нее.

Аноним 26/08/25 Втр 02:49:28 № 1332036 459

>>1332032
>Вред в том, что это идеальная форма эскапизма.
И снова, минусы? Ну вот не доступно тебе что-то в реале. Оно и не будет доступно, сколько сил не усирай, ты (и я) не станешь любимым, это зависит от другого человека. Так что почему бы не уйти в мир иллюзий с концами?

Аноним 26/08/25 Втр 02:54:47 № 1332040 460

>>1332036
> Так что почему бы не уйти в мир иллюзий с концами?
Метафизический и субъективный вопрос. Для тебя, возможно, это хороший расклад, а я пока не уверен. Уйти в мир иллюзий никогда не поздно, а возвратиться может быть не так просто.

Аноним 26/08/25 Втр 02:54:50 № 1332041 461

>>1332034
Ну вот к примеру.
Тестил две модели:
DeepSeek-R1-8b
DeepSeek-R1-1.5b
Задание было типа:
Взять числа из списка
321321, 321323, 321332, ...
Убрать лишние символы, поставить числа на отдельные строки и перед числом вписать заданный текст.
Первая вроде начала делать как просил, но больно долго, хотя там всего что-то около 250 чисел было в таком формате, вторая вообще хуету какую-то строчить начала про формулы и просто поймала луп на проверке на формулу.

Аноним 26/08/25 Втр 02:55:50 № 1332042 462

>>1332040
>а возвратиться может быть не так просто.
А нафига? Очевидно, что виртуальные миры будут только развиваться, и скоро будут генерации 3д миров по текстовому запросу.

Аноним 26/08/25 Втр 02:58:06 № 1332044 463

>>1331999
нюня оказался грустным дединсайдиком.. ладно, не буду тебя донимать больше

Аноним 26/08/25 Втр 03:00:46 № 1332045 464

>>1332032
>это идеальная форма эскапизма
Эскапизм это заебись. Эскапизм это комфорт. Нехуй жить без комфорта и отказываться от вещей, которые тебя успокаивают.

>>1332041
Открывай шапку и читай. Там расписано, откуда берутся проблемы со скоростью и за что отвечает количество параметров.

Аноним 26/08/25 Втр 03:03:00 № 1332047 465

>>1332042
Обезоруживающий вопрос. Ответа у меня нет, но синюю таблетку я пока выбрать не готов. Здесь каждый руководствуется чем-то своим.

Аноним 26/08/25 Втр 03:05:06 № 1332048 466

>>1332026
> 5060ти не имеет таких проблем и чип быстрее.
Он еще дороговат, а 4060ти можно за 35к купить на вторичка.

Аноним 26/08/25 Втр 03:06:49 № 1332049 467

>>1332047
Как хочешь. Я подрочу сладенько на буковки и пойду спать. Спокойной ночи тебе!

Аноним 26/08/25 Втр 03:14:43 № 1332051 468

>>1332048
Разница в ~10к между бушной устаревшей видяшкой и новой актуальной с гарантией. Стоит того кмк.
Другой мимоанон

Аноним 26/08/25 Втр 03:26:23 № 1332057 469

>>1332028
Неврастения какая-то, нормальная "арка" шире типичного окна контекста модели в несколько раз.
Палю методу суммарайза:
Делаешь форк на сотню+ постов раньше, в нем даешь команду преобразовать произошедшее после текущего суммарайза в N глав с ключевыми тезисами, свайпаешь, правишь и комбинируешь при необходимости. Потом копируешь это в такой же форк с заданием дополнить и расширить, дополнительно обозначив маркдауном ключевые моменты, смену времени/дней, локаций или другие важные вещи вплоть до мелочей типа паттернов речи и прозвищ неписей. При необходимости повторить еще раз, или что-то сразу готовить для лорбука.
Умная модель продолжила нумерацию глав, теперь ты возвращаешься в исходный чат, добавляешь их к уже имеющимся в текущем суммарайзе и скрываешь те посты с которых форкал.
>>1332032
> уходит время, может тратиться эмоциональный ресурс, а постфактум еще накрывает рефлексией на тему разыгранного сценария
Не отмечал что провалившись в такое дно и помариновавшись денек-другой-неделю, набирается много сил и мотивации взлетать выше прежнего? Разумеется, не нужно это делать на фоне чего-то другого ответственного, да и не захочется.
И в отличии от алкашки тут нет отходняка и ущерба для здоровья.

Аноним 26/08/25 Втр 03:39:03 № 1332063 470

>>1332057
>Не отмечал что провалившись в такое дно и помариновавшись денек-другой-неделю, набирается много сил и мотивации взлетать выше прежнего?
Если бы модельки не были, столь user frendly - можно было бы тренировать социальный скилл общения, но с текущими моделями, это бесполезно.

Аноним 26/08/25 Втр 03:48:51 № 1332064 471

>>1332057
> Не отмечал что провалившись в такое дно и помариновавшись денек-другой-неделю, набирается много сил и мотивации взлетать выше прежнего?
В здоровой ситуации оно, пожалуй, так и должно работать. Не мой случай, увы. Все как описал выше: для меня это ультимативный способ побега от действительности, что впоследствии бьет по голове. В итоге, в последние месяцы к рп возвращаюсь только в самые сложные моменты, только чтобы в очередной раз сказать себе, что это последний. Это как обезболивающее, которое откладывает получаемый дамаг на какое-то время. Надеюсь, это объяснение вызовет улыбку, а не понимание. Здоровым это не понять.

> И в отличии от алкашки тут нет отходняка и ущерба для здоровья.
Физического отходняка нет, это правда. Морально может воротить, в долгую могут психологические проблемы возникнуть или усугубиться. Но это все субъективно, конечно же.

Не знаю, стоит ли это дальше обсуждать и тематика ли треда. Первый пост адресовал анону, чтобы его поддержать. Донести, что не у него одного такие мысли и "отходняки".

Аноним 26/08/25 Втр 04:06:34 № 1332066 472

>>1332063
Большую модель без васян тюнов, вставку в промпт про вероятность dead end для юзера, отсутствие сейфгардов и преследование чарами своих интересов вместо желания угодить, темпераментную карточку без явной любви и предрасположенности к юзеру.
В итоге, попавшаяся на воровстве в твоей ферме воровка после кума при первой возможности вспомнит свою природу и вставит тебе нож в спину, если ничего не сделаешь для контроля, мейдбот из помойки будет угорать и стебать тебя что ты лошара пересмотревший анимца и ничего с ней не сможешь сделать, и в целом чары будут хорошо читать твои намерения между строк и отборно прожаривать если пытаешься сделать больше их уровня доверия.
>>1332064
Не грусти, анончик, рано или поздно сменится период и посмотришь иначе. Алсо попробуй смещать от слайсов в сторону экшна и реализуй то что ты хотел, но по каким-то причинам ранее не смог, или наоборот планируешь, может другой акцент поможет пережить это иначе. В конце концов буквально с нейронкой поговори об этом, ничего не теряешь и приватность максимальная из возможных.
> тематика ли треда
Использование же.

Аноним 26/08/25 Втр 04:57:29 № 1332071 473

>>1331522
Электролиты впитают говняк и эвакуируются.

Аноним 26/08/25 Втр 05:05:07 № 1332072 474

>>1331564
>Кстати, можете посоветовать ру модель получше, которую можно будет запустить на одной такой 3090?
Последний маленький Мистраль, который 3.2, и тюны его - вон выше по треду Локи 1.3 рекомендовали - вполне хорош. В 24гб влезает 6 квант и 32к неквантованного контекста, РП комфортен и модель очень удачная сама по себе. А если РАМ докинуть, то и с GLM-Air и большим Квеном можно поиграться.

Аноним 26/08/25 Втр 06:02:02 № 1332087 475

>>1332057
>Делаешь форк на сотню+ постов раньше, в нем даешь команду преобразовать произошедшее после текущего суммарайза в N глав с ключевыми тезисами, свайпаешь, правишь и комбинируешь при необходимости. Потом копируешь это в такой же форк с заданием дополнить и расширить, дополнительно обозначив маркдауном ключевые моменты, смену времени/дней, локаций или другие важные вещи вплоть до мелочей типа паттернов речи и прозвищ неписей. При необходимости повторить еще раз, или что-то сразу готовить для лорбука. Умная модель продолжила нумерацию глав, теперь ты возвращаешься в исходный чат, добавляешь их к уже имеющимся в текущем суммарайзе и скрываешь те посты с которых форкал.

Huh. А это полезно, спасибо анон. Я не пользовался форком, так как не понимал как на него переключиться. И не надо на меня так смотреть, интерфейс таверны вообще нихуя не интуитивная вещь.

Аноним 26/08/25 Втр 08:36:19 № 1332135 476

>>1331904
Почитал, в теории кажется неплохим приобретением. Если учитывать что вторая карточка будет точно не х16, а х8 наверное, что уменьшит пропускную способность псины. Пока видел только на авите за 20к один такой, за эти деньги наверное нет смысла если нет вариантов дешевле.

Аноним 26/08/25 Втр 09:03:39 № 1332151 477

>>1331995

Аноним 26/08/25 Втр 09:34:06 № 1332175 478

>>1332135
>Пока видел только на авите за 20к один такой, за эти деньги наверное нет смысла если нет вариантов дешевле.
Смысла вообще нет, так как скорость инференса от этой штуки не увеличится. Поддержки в популярных прогах нет и не предвидится. Плюс я слышал, что эти "мосты" разные для каждого семейства - тебе нужен (на самом деле не нужен) именно для 3090.

Аноним 26/08/25 Втр 10:36:57 № 1332215 479

>>1331828
В описаниях - может быть. А вот в понимании взаимосвязей происходящего - в третьем кванте оно гемме в 4-ом сливает, по моим субъективным ощущениям. Т.е. если бы текст был едой, ощущение от него - что ешь "продукт идентичный натуральному", если не откровенный пластик с вкусовыми добавками, зато красиво рафинированный и оформленный. Переходишь хотя бы на iq4xs - сразу модель начинает ловить не только самое очевидное из контекста, но и то, что из этого очевидного вытекает, по логике происходящего. Нет, оно в q3 тоже употребимо, но если сценарий сложный, есть подноготная и неочевидности - разница слишком заметной становится. IMHO.

Аноним 26/08/25 Втр 10:37:46 № 1332216 480

>>1332151

Аноним 26/08/25 Втр 10:47:30 № 1332224 481

>>1332215
> Нет, оно в q3
Возможно, сейчас оператива в пути, поставлю 128 и запущу Эйр в человеческом кванте, вот тогда я точно смогу сформулировать свое мнение.
Потому что, хоть я и использую анслотовские кванты, но третий квант, остается третим. А сейчас я понятия не имею - вот эта шиза и ошибки, это проблемы квантования или просто модель дегенерат.

Аноним 26/08/25 Втр 10:54:23 № 1332228 482

Драммер лоботомизирует Эир, чтобы сделать из него гунтюн-автоответчика: https://huggingface.co/BeaverAI/GLM-Steam-106B-A12B-v1a-GGUF/tree/main

Аноним 26/08/25 Втр 10:56:42 № 1332230 483

image.png 16Кб, 497x93

>>1332228

Аноним 26/08/25 Втр 11:06:21 № 1332240 484

>>1332228
Да как он заебал.
Вот что ты к эйриу лезешь ? Слоподел ебучий. У него практически отсутствует цензура. Нет, если он победил аполоджайсы ассистента, я только за. Ризонинг у эйра просто ебет в РП.
И хоть бы что написал, что сделал, чего ожидать.
Нет - вот тебе картинка поезда.

Крч, тому кто протестирует этого кадавра - я скажу пасеба.

Аноним 26/08/25 Втр 11:09:19 № 1332243 485

https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v3-34B

Предыдущие версии хорошенькие были, мне понравились тюны этого чела

>>1332240
Ну там уже в комментах пишут "цензуру как сорвало, вот стоооолько рефузов на оригинале ловил а тут можно делать всё" ебанутые

Аноним 26/08/25 Втр 11:19:16 № 1332256 486

>>1332243
> цензуру как сорвало, вот стоооолько рефузов на оригинале ловил а тут можно делать всё
Блять. Или они сидят с невыключенным ризонингом. Либо они все педоёбы каннибалы. Придумать что то другое, что может на эйре вызвать аполоджайзы - я не могу.

Аноним 26/08/25 Втр 11:23:14 № 1332264 487

Модели - Air(IQ2_S) и Qwen235(4xs). Как чару запретить думать и описывать свои мысли? Хочу как в реале не знать о чем он думает. Пробовал прописывать запрет в карточке, в промпте, в авторских заметках - не помогает.

Аноним 26/08/25 Втр 11:27:35 № 1332270 488

>>1331328
Извиняюсь, а CMP HX90 за 9к рублей 10 гигов, аналог 3080 чем хуже?
Типа, минус два гига, но… но… но 5060ti 16-гиговая же… эээ…

>>1331467
Я себе и 50 и 90 взял. Над P102 почти не думал, то же самое, но паскаль. Нафига.
Но за 13,5к рублей получить по 10 гигов на CMP 50HX и CMP 90HX — ИМХО, неплохо. Или что-то кину под картиночки и видео, или обе кину под dense-слой квена, время покажет.
Я их, тащемта, просто так купил. ._.

>>1331501
Прочел по диагонали, но база. И про квантизацию, и про скорости, и про активные параметры.

>>1331510
А че б им не мочь? Ядра есть, технологии есть.
Нейронки — не про видео-выход, если что. =) Не знаю уж, что ты там гуглил.
У меня первые же ссылки на реддит, где они паритет с теслами п40, только цена/память.

Короче, ваще хз, с чего бы им не мочь.
Но это мы проверим завтра.

Аноним 26/08/25 Втр 11:34:03 № 1332278 489

>>1332264
В карточке написать, что внутренние мысли надо обрамлять тэгом. Тэг скрывать. В примерах диалога написать такие.

Аноним 26/08/25 Втр 11:41:04 № 1332282 490

>>1332278
А можно пример, позязя?

Аноним 26/08/25 Втр 11:46:43 № 1332287 491

>>1332282
Вечером могу найти карточку с примером скрытых тэгов и кинуть ссылку.
>>1332270
>Прочел по диагонали, но база.
Ну не знаю, у него аир q6 6 токенов, а у меня q3 3 токена. Что-то тут не так.

Аноним 26/08/25 Втр 11:52:27 № 1332290 492

>>1332287
>q3 3 токена
У меня эйр Q3 на 16Vram+64DDR5 выдает 10-12 т/с.
Тут точно что-то не так.

Аноним 26/08/25 Втр 12:11:35 № 1332300 493

>>1332290
А откуда качал? Может кривое квантование скачал. Хотя странно что и на квен тогда тоже.

Аноним 26/08/25 Втр 12:14:10 № 1332301 494

>>1332300
Ты недостаточно эффективно инференсишь, вот и все. Кванты здесь не при чем. Если только ты не IQ3 запускаешь, и то я не уверен, что просадка будет столь существенна. Читай про выгрузку тензоров, про оффлоад на видеокарту, подбирай оптимальные параметры запуска для своего железа через llamacpp.

Аноним 26/08/25 Втр 12:23:10 № 1332307 495

>>1332300
>А откуда качал?
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q3_K_M
ВотЪ.
Может ты кобольт используешь ? Потому что кобольт у меня вообще выдавал неадекватные 2-3 т/с. Но почему то на жоре, с 20к контекста все работает.

>>1332301
>Читай про выгрузку тензоров, про оффлоад на видеокарту, подбирай оптимальные параметры запуска для своего железа через llamacpp
Всё что делал с эйром, без всякой тензороебли, просто менял значение CPU MOE, пока не начало запускаться.

Аноним 26/08/25 Втр 12:47:48 № 1332328 496

У меня встал вопрос, а как на кобольдыне КВ кэш на вторую карточку загрузить? Моделька лезет полностью в первую, галочка Лоу врам мне все в рам закинет, Override KV получается? Если я прав, подскажите что туда писать шобы заебись работало, позязя.

Аноним 26/08/25 Втр 12:55:59 № 1332333 497

>>1332328
Не знаю как в кобольде но раз это форк жоры то должен быть --tensor-split

Аноним 26/08/25 Втр 13:04:55 № 1332346 498

>>1332301
Спасибо, но в прошлые треды уже давали советы, и подробные, когда я расписал параметры запуска.
>>1332307
На кобольде 1,8т/с, где на ламе 3. Но это с контекстом 10к/32к.
>просто менял значение CPU MOE
Ну так у меня 2,5 выходило, чуть лучше чем на кобольте. С разбивкой на видяхах получше все же было.

Аноним 26/08/25 Втр 14:13:23 № 1332406 499

>>1332346
> в прошлые треды уже давали советы, и подробные, когда я расписал параметры запуска.
Что ж, видать, ты до сих пор не разобрался или у тебя железо слабее. Ибо на 4090 и DDR4 3 токена в секунду нет даже на Q8, такие дела.

Аноним 26/08/25 Втр 14:26:55 № 1332416 500

>>1331904
Добавлю про NVLINK и вообще про скелинг на мультиГПУ - полезный материал для общего развития от пацанов из DeepMind:

https://jax-ml.github.io/scaling-book/gpus/

Аноним 26/08/25 Втр 14:56:01 № 1332439 501

>>1332406
>или у тебя железо слабее.
Не думаю что ддр5 хуже, тем более что запускаю без выгрузки в ОЗУ.

Аноним 26/08/25 Втр 15:01:03 № 1332446 502

>>1332439
> Не думаю что ддр5 хуже
Ты хочешь сказать, что у тебя DDR5, и при этом ты получаешь 3т/с, используя Q3 квант Air?

> тем более что запускаю без выгрузки в ОЗУ.
Q3 квант, который весит более 50гб, ты запускаешь без выгрузки в ОЗУ? Зачем тогда ты пишешь, что у тебя DDR5? На чем ты его запускаешь, исключительно в видеопамяти? Как, тогда, ты получаешь 3т/с? Ты совершенно не понимаешь, что сам же и пишешь. Или тролль, или дурак, каких еще поискать надо.

Аноним 26/08/25 Втр 15:09:03 № 1332460 503

>>1332287
А какой конфиг? Я кажется выше уже писал, что тут у многих людей серьезные проблемы с запуском моделей.

У меня GLM-Air Q4_K_S выдавала 6-7 токенов в секунду на DDR4 + денс слой в видяху на винде. На линухе, я думаю, скорость была бы повыше.
Так что, в Q6 на 6 токенах на старте я вполне готов поверить, если там линукс и все настроено, и любая видяха под контекст и денс-слой приготовлена.
q3 и 3 токена — это 3 ядра и ddr3 в двухканале? Или это 30к контекста? Звучит логично.

>>1332290
Винда, полагаю? Думаю, на линухе еще можешь пару токенов наскрести.
Хотя ддр5 тоже может быть не 6400.
Но уже норм скорость, чтобы не париться, да.

Аноним 26/08/25 Втр 15:11:57 № 1332463 504

>>1332439
В голос с кобольда

Аноним 26/08/25 Втр 15:24:04 № 1332481 505

>>1332135
Оно применимо разве что в тренировке, и то слишком медленное.
>>1332151
Нужна версия не-фурри версия.
>>1332228
Реквестирую рофловых логов с этого тюна.

Аноним 26/08/25 Втр 15:25:17 № 1332484 506

>>1332463
Перечитал ветку и тоже в хаха улетел нахуй. "Ну сомнительная какая-то инфа, у чела в q6 токенов больше чем у меня на q3. За советы спасибо конечно, не помогает. Запускаю на ддр5 без выгрузки в озу." Главное так сказать уверенно держаться, крепко стоять на своем истинноверном опыте

Аноним 26/08/25 Втр 16:18:26 № 1332531 507

>>1332460
>А какой конфиг?
4090 и две теслы. И еще 64гб ддр5.
>На линухе, я думаю, скорость была бы повыше.
Кстати идея, надо будет на нем попробовать. Надеюсь таверна без бубна на нем заводиться?
>Или это 30к контекста?
Q3 10к/32к, без выгрузки в озу. На ней 2,5 токена.
>>1332481
>Нужна версия не-фурри версия
>Никакого NSFW. Просто плаваем в лодке с фурридевочкой и смотрим в закат

Аноним 26/08/25 Втр 16:23:30 № 1332538 508

>>1332531
У меня несколько компов, я таверну на винде кручу.
Но там же просто ноджиэс, должна работать как из коробки, да.

> Q3 10к/32к, без выгрузки в озу. На ней 2,5 токена.
Ну, с 4090 и двумя теслами должна летать. Косяк где-то в настройке, видимо.

Ты же GGUF через llama.cpp используешь?
Не Exl2/Exl3 через exllama/tabbyapi?

Аноним 26/08/25 Втр 16:41:49 № 1332557 509

>>1332264

А нах ты гоняешь аир в 2 бит, а квен в 4? Ты ничего не перепутал? И не используй iq кванты с мое, замедление очень существенное.

Аноним # OP 26/08/25 Втр 16:49:00 № 1332568 510

изображение.png 9Кб, 644x74

Блядь.

ПЕРЕКАТ Аноним # OP 26/08/25 Втр 16:50:18 № 1332570 511

А всё, починилось.
ПЕРЕКАТ

>>1332569 (OP)

ПЕРЕКАТ

>>1332569 (OP)

ПЕРЕКАТ

>>1332569 (OP)