/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №186 NY Edition

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №186 NY Edition /llama/ Аноним 31/12/25 Срд 23:21:20 № 1475911 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 671Кб, 1602x2476

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1470041 (OP)
>>1461789 (OP)

Аноним 31/12/25 Срд 23:28:22 № 1475920 2

The base of THREADE
Новому году УРА!

Тредовичкам здоровья!

И пусть у вас всё будет хорошо.

Аноним 31/12/25 Срд 23:31:56 № 1475922 3

>>1475906 →
>Потому что Эйр просто сосет с проглотом
Потому что его на ChatML надо запускать, тогда он пишет по квеновски

Аноним 31/12/25 Срд 23:32:25 № 1475923 4

Все загадали, чтобы память подешевела?

Аноним 31/12/25 Срд 23:34:02 № 1475926 5

>>1475923
Не все живут по московскому времени...
Желания не работают. Мечты не сбываются.

Аноним 31/12/25 Срд 23:37:37 № 1475930 6

>>1475923
Конечно.

>>1475926
Вруша и ~ббака~
Сбываются. Я уверен что твои желания сбудутся и все будет хорошо.
Знай, что где то на просторах нашей необъятной родины есть бородатый шиз, который в тебя верит.

Аноним 31/12/25 Срд 23:40:19 № 1475932 7

>>1475922
И когда мне показалось, что я завязал - они снова меня туда затащили.

Я конечно попробую, но это не пофиксит не самый большой датасет. Тут как со ступеньками. Не важно как пишет, важно что.

Аноним 31/12/25 Срд 23:40:30 № 1475933 8

>>1475930
>твои желания сбудутся
Это привнесёт небольшой хаос в мировое бытиё и нарушит парочку фундаментальных законов физики. Ну и сделает всех людей моими рабами. Так что не нужно, поверь мне.
Анон с тёмными мечтами

Аноним 31/12/25 Срд 23:42:45 № 1475935 9

>>1475933
Ну и нормально. Печенья поедим на руинах мира. С вишневой начинкой, замечу.

Аноним 31/12/25 Срд 23:47:26 № 1475945 10

>>1475923
GLM 4.7 Air
Qwen4 Next 100b a8b

Аноним 31/12/25 Срд 23:51:54 № 1475951 11

С новой годой, любимый чатик. Всем дешевой оперативки и моделей хороших и разных.
Ваш фэмили-френдли шиз

Аноним 01/01/26 Чтв 00:18:10 № 1475970 12

>>1475911 (OP)
>Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Адрес Архивача когда поправите на актуальный?

Аноним 01/01/26 Чтв 00:19:07 № 1475972 13

>>1475923
Не будет вам ни дешёвых GPU, ни дешёвой RAM в ближайшие 3 года.

Аноним 01/01/26 Чтв 00:27:13 № 1475977 14

>>1475970
это прошлогодний адрес, че ты доебался

Аноним 01/01/26 Чтв 00:37:02 № 1475982 15

>>1475977
Да и тред умер. Прошлогодний, а сообщений почти нет.

Аноним 01/01/26 Чтв 00:37:20 № 1475983 16

>>1475951
Какое, однако, изысканное извращение.

Аноним 01/01/26 Чтв 00:45:10 № 1475987 17

Все поздравили своих вайфушек в llm-ках и тавернах?

Аноним 01/01/26 Чтв 00:51:08 № 1475990 18

>>1475987
Да, отыграл с фифи новогоднюю ночь, пришлось правда поставить мешок со сладостями чтоб мозг не ебала

Аноним 01/01/26 Чтв 01:15:04 № 1476012 19

Это было быстро
https://github.com/ggml-org/llama.cpp/pull/18511

Аноним 01/01/26 Чтв 01:21:58 № 1476024 20

>>1475970
ОП не знает актуального.

Аноним 01/01/26 Чтв 02:24:15 № 1476047 21

С Новым Годом, Анончики. Какую модель можно использовать как тутор/агент для помощи с кодом? Русский желателен но не обяазетелн, есть 48 гб оперативы и 3070. Квен/Дипхрюк явно не потянет. Да и дипхрюка мне хватило не в локальной версии.

Аноним 01/01/26 Чтв 02:38:23 № 1476053 22

С новым годом аноны
>>1475923
Хотелось бы верить

Аноним 01/01/26 Чтв 03:09:21 № 1476071 23

>>1476047
>Квен/Дипхрюк явно не потянет
80b квен сможешь вместить бтв

Аноним 01/01/26 Чтв 03:21:28 № 1476079 24

Как ваши мое гонять прикажете на карточке с 4к токенов и лорбуке на ещё 5к токенов?

Аноним 01/01/26 Чтв 03:45:22 № 1476085 25

Хочется голову себе разъебать за то что не купил рам
Щас за х5 прайс хуй я кабану на поклон пойду, а до спада реально года 4 ждать

Аноним 01/01/26 Чтв 03:45:51 № 1476086 26

>>1476079
Не нравится постоянный пересчет контекста при лорбуке?
Никак блять. Никак. Он это будет делать постоянно. Иначе он бы сидел в твоей памяти. Не нравится, переноси всё в карточку или не ставь 100% активацию. Там есть настройки.

Аноним 01/01/26 Чтв 04:05:10 № 1476087 27

>>1475911 (OP)
>4 пик
Мне кажется, после установки такого количества видеокарт с пользователем случится пик.

Аноним 01/01/26 Чтв 04:07:22 № 1476088 28

Сегодня впервые встретил двойные трусы в эйре...

Аноним 01/01/26 Чтв 04:09:34 № 1476089 29

>>1476088
А что же дальше, неужели заметишь что по всем карточкам гуляют одни и те же паттерны?

Аноним 01/01/26 Чтв 04:15:00 № 1476091 30

>>1476089
Да просто забавно было увидеть слоп уроаня 24b-27b в "типа умной" нейронке.
Карточки самописные бтв

Аноним 01/01/26 Чтв 04:19:03 № 1476092 31

>>1476085
mac studio / ryzen 395?

Аноним 01/01/26 Чтв 04:44:18 № 1476097 32

Пришёл к выводу что 100б это слишком мало для нормального рп, много повторений, все карточки скатываются в какой то обобщенный слоп, тесно.
235б - уже не так плохо, намного лучше, но вот 358b - туда нам надо, без сомнений.
А может и правда дело в активных параметрах и 100б32а будет не сильно хуже чем 350б32а

Аноним 01/01/26 Чтв 05:00:36 № 1476098 33

>>1476097
Проблема в том, что перейдя на ступеньку выше, ты ни при никаких условиях не захочешь возвращаться назад. Я начинаю понимать асиговских наркоманов, что рыщут в поисках ключей. Потому что, хоть я не пробовал, но есть подозрение что всякие сонеты, клоды просто дают такого жару, что смотреть на что то локальное просто не захочется.

Аноним 01/01/26 Чтв 06:42:35 № 1476103 34

>>1476098
>всякие сонеты, клоды просто дают такого жару
Да и Дипсик даёт. За последние пару месяцев они сильно подтянули качество. Хочется погонять его локально, без цензуры и с префиллом, когда (и если) они выложат очередные веса. Даже во втором кванте он будет хорош.

Аноним 01/01/26 Чтв 06:55:05 № 1476104 35

Так что мы ждём дальше?
Гемму я и 3 не использую, не переношу модели без сочного кума

Аноним 01/01/26 Чтв 06:58:33 № 1476106 36

>>1476104
Ждем гуфов корейской моэшки.

Аноним 01/01/26 Чтв 07:03:06 № 1476109 37

>>1476103
Сколько там для кита нужно? 512 гб?

Аноним 01/01/26 Чтв 07:10:32 № 1476111 38

>>1476109
Отбой ебланскому вопросу, наше гуфи от 3.1

Аноним 01/01/26 Чтв 07:11:50 № 1476112 39

>>1476109
>Сколько там для кита нужно? 512 гб?
А вот нашёл интересное:
https://huggingface.co/lovedheart/DeepSeek-V3.2-REAP-345B-A37B-GGUF-Experimental

Всего 123Гб. Без Sparce Attention (пока, по крайней мере), когда его добавят в лламуспп должно быть вообще хорошо. Потестил бы кто, у кого возможность есть.

Аноним 01/01/26 Чтв 07:14:59 № 1476113 40

Нужно чтобы альтман и видюхи все спиздил, чтобы его офис штурмом взяли и сломали колени
Уж такое никто терпеть не станет, на рам еще как то можно пояса затянуть

Аноним 01/01/26 Чтв 07:29:29 № 1476119 41

>>1476113
Надо чтобы альтман случайно запихнул в нейронку контент нинтендо. Чтобы юристы нинтендо ему колени как у кузнечика сделали.

Аноним 01/01/26 Чтв 07:34:10 № 1476120 42

>>1476113
Карты итак скоро уже подорожают. Вендорам придется искать память самим, ни зеленые ни красные сами отгружать ее не будут. Ну а в этой стране еще и налогов прибавить обещали, так что ничего хорошего ждать не приходится. Возможно, возможно, новые карточки начнут под HBM2 клепать, так как производства под нее переводят. В таком случае дефицита может не случится, но цена всё равно останется под вопросом.

Аноним 01/01/26 Чтв 07:37:38 № 1476121 43

>>1476091
>"типа умной"
...A12B...

Аноним 01/01/26 Чтв 08:20:53 № 1476125 44

Хмм, анслоты обновили кванты эира 6 дней назад

Аноним 01/01/26 Чтв 08:35:41 № 1476129 45

Я не понимаю че за магия
Катаю квен Instruct-2507 с персом из игры вышедшей в октябре dispatch, квену пол года как бы, но он узнал сеттинг этой игры которая вышла 2 месяца назад и несколько персов уже сам упомянул, в карточке их нет? да и даже на момент выхода моделей обычно там не самые свежие данные

Аноним 01/01/26 Чтв 08:46:57 № 1476131 46

>>1476129
У меня так в чат протекли какие то альфы, омеги. Я понять не могу, что это за хуйня. Что за феромоны, я блджад, на собачьей случке что ли. Начал искать. О боги, какой же пизданутый фандом я нашел, я понятия не имел что такая хуйня как omegaverse существует.

Аноним 01/01/26 Чтв 09:13:18 № 1476133 47

Тут это, тенцент на днях выпустил диффузную модель. Пишут что в 3-6 раз быстрее работает и не хуже аналогичных моделей того же объема.

https://www.reddit.com/r/LocalLLaMA/comments/1pyg4yt/tencent_just_released_wedlm_8b_instruct_on/

Ждем когда в llama-cpp впилят, если впилят конечно.

Аноним 01/01/26 Чтв 09:38:41 № 1476134 48

>>1476133
>8б
Новость которую мы заслужили в 2026

Аноним 01/01/26 Чтв 11:19:10 № 1476154 49

https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Instruct
походу денс 40б, может оказаться лучше 100б мое

Аноним 01/01/26 Чтв 11:22:19 № 1476157 50

https://huggingface.co/skt/A.X-K1
> 519B 33B Active MOE from SK Hynix
о, а вот это ещё интереснее

Аноним 01/01/26 Чтв 11:22:49 № 1476158 51

>>1476154
Для кого как, мое это трейд мозгами за знания
100б знаний 12б мозгов
Либо 40б и знаний и мозгов

Аноним 01/01/26 Чтв 11:36:18 № 1476167 52

Увидел нюню в асиг треде
И сам уже задумался а что я тут делаю, жду каких то моделей когда всё уже есть, сокрушаюсь от цен на рам когда подписка стоит 3$ в месяц, зачем мне эти лоботомиты локально вообще

Аноним 01/01/26 Чтв 11:42:35 № 1476169 53

>>1476167
Братик, я так же думал, пока у меня проводной интернет не улетел на белые списки, вот теперь пробую развернуть локального кодинг агента (мне приходится писать/править код на ЯП, которые я не знаю. Без ИИ на одних доках и СS очень долго пердолить.).
>>1476071
Качаю. Посмотрю не сгорит ли видюха запустится ли.

Аноним 01/01/26 Чтв 11:44:38 № 1476170 54

>>1476169
Охуенный ты кодер которого остановил столб посреди поля

Аноним 01/01/26 Чтв 11:52:48 № 1476174 55

>>1476170
Ну пообходишь ты полгодика белые списки, потом тебя присадят на швабру дяди из ФСБ.

Аноним 01/01/26 Чтв 11:52:58 № 1476175 56

>>1476170
кодер не обязательно сисадмин, сисадмин не обязательно кодер. Линус Торвальдс неоднократно упоминал, что не умеет устанавливать и настраивать люникс, небось и шадоусокс поднять не осилит.

Аноним 01/01/26 Чтв 11:56:58 № 1476179 57

>>1476175
Я и не кодер и не сися, проблем не испытываю хотя уже пол инета отъебнуло

Аноним 01/01/26 Чтв 12:35:25 № 1476198 58

>>1476079
9к контекста это не так уж много на фоне того, сколько могут современные модели, в чем проблема?
>>1476087
100%
>>1476098
> всякие сонеты, клоды просто дают такого жару
Не дадут. Ну, если только максимум того что ты катаешь - мелкомистраль. Соя и сейти сильно будут ебать мозг, а попытки обхода все сильно лоботомируют. Не получится заигрывать с чаром на грани, иметь плавное развитие, не париться по поводу явного описания сцен близости/жестокости/каких-то действий в истории и т.п.
Клод сильно просел в рп по сравнению с уровнем что когда-то был, жемини лучше. Но погоняв их плотнее поймешь, что это тоже специфичные модели, которые требуют своего подход, имеют кучу байасов, паттернов, регулярных косяков, и главное не дают качественно нового экспириенса относительно имеющегося опенсорса. Только управления ими тебя лишили и вынужден дополнительно страдать, заодно навешивая дебаффы.

Аноним 01/01/26 Чтв 12:41:15 № 1476199 59

>>1476119
Ай содомит
>>1476129
Часто лор и прочее в сети раньше релиза, или вообще самобытны, вот он и знает.
>>1476167
> подписка стоит 3$ в месяц
20 и квота там такая, что с норм контекстом на свайпов 20-30 хватит.

Аноним 01/01/26 Чтв 13:49:04 № 1476233 60

>>1476071
Q4 не влезло, можно как-то часть модели засунуть в оперативку пука , а часть в оперативку карточки? У меня есть ещё одна планка на 16 гигов, но там ещё более кривые тайминги, чем у планок 32 + 16. И я боюсь, что при 32 + 16 + 16 стабильности вообще не будет. Как же печот, что я не успел вложиться в память...

Аноним 01/01/26 Чтв 13:55:52 № 1476239 61

>>1476233
llama.cpp --fit

Аноним 01/01/26 Чтв 14:01:38 № 1476246 62

>>1476239
А! Я запускаю по инструкции из редми модели, сча попробую лламу. Спасиб.

Аноним 01/01/26 Чтв 14:20:42 № 1476257 63

>>1475951
Как кружка у которой дна нет, а верх запаян.

>>1476131
>omegaverse
видео

>>1476098
Я 3 года пользовался модельками копроратов, сейчас почти месяц сижу на маленьких локалках, и если честно, то опыт не сильно изменился, единственное что печалит это контекст в 23.5к токенов который я могу себе позволить...

Аноним 01/01/26 Чтв 15:03:22 № 1476284 64

>>1476257

Аноним 01/01/26 Чтв 16:49:05 № 1476344 65

при переезде с 8 каналов DDR4-3200 на 8 каналов DDR5-4800 большие модели с выгрузкой в оперативу стали работать больше чем в 2 раза быстрее.
псп быстрее всего в 1.5 раза, но процессор мощнее старого в 2, так что решает не только псп, но и мощща.
надо ещё количество тредов прочекать кстати

Аноним 01/01/26 Чтв 16:52:44 № 1476347 66

>>1476344
Что на что менял?

Аноним 01/01/26 Чтв 16:59:31 № 1476350 67

>>1476347
7532 -> 9384X

Аноним 01/01/26 Чтв 17:15:51 № 1476361 68

>>1476167
>Увидел нюню в асиг
Ещё одну? Или он рили туда съебнул?

Аноним 01/01/26 Чтв 17:58:44 № 1476380 69

а ещё до какого-то количества потоков надо указывать OMP_NUM_THREADS и BLIS_NUM_THREADS равным количеству потоков, типа
export OMP_NUM_THREADS=16;
export BLIS_NUM_THREADS=16;
а потом нужно указывать обе переменные =1, потому что значение больше 1 начнёт снижать tg t/s

Аноним 01/01/26 Чтв 19:17:37 № 1476437 70

>>1476284
>>1476257
Я же любопытный, начал читать, что это за фурри хуйня.
Вы бы моё ебало видели, когда я читал про беременных оборотней, какие то фермы по разведению, течки хуечки. И вся эта хуйня еще приправлена натуральной горбатой горой с ковбоями.
И эти люди потом еще осуждают японцев за хентай.

Аноним 01/01/26 Чтв 20:54:08 № 1476526 71

Не могу найти на али лот с V100 за 33к, который тут скидывали с месяц назад. Только за 40к+пошлина на 4к вижу. Всё, новый год начался, надо было вчера заказывать?

Аноним 01/01/26 Чтв 21:16:12 № 1476535 72

>>1476526
> скидывали с месяц назад

Аноним 01/01/26 Чтв 21:16:14 № 1476536 73

>>1476120
>новые карточки начнут под HBM2 клепать
Не получится, HBM память требует широкой как ниагара шины, а у десктопов 512 бит обрезки, HBM там будет показывать уровень десктопной DDR4, лол.
>>1476157
>MOE from SK Hynix
Лол, производители оператив очки решили простимулировать продажи выпуском мое-параши.
>>1476167
>подписка стоит 3$ в месяц
"Извините, но вы забанены".
>>1476169
>пока у меня проводной интернет не улетел на белые списки
Нахуй ты в такой стране живёшь? Я сразу манатки соберу и уеду нахуй.
>>1476457
Это идея для карточки, да?
А что, неплохой сценарий. Ты играешь за корпората, который должен отвадить от плодячки белого цисгендерного мужчину. Правда РКН неодобряет.
>>1476526
А всё, 40к новая цена. Ты опездал.

Аноним 01/01/26 Чтв 21:31:45 № 1476543 74

>>1476536
> Я сразу манатки соберу и уеду нахуй.
куда, если не секрет? а то у нас в /em/ почти все уже обратно возвращаются

Аноним 01/01/26 Чтв 22:05:13 № 1476551 75

>>1476120
> новые карточки начнут под HBM2 клепать, так как производства под нее переводят
Там уже hbm4, и принципиально в ключевом производстве нет отличий. Разница в упаковке - в hbm более плотно настаивают слои и отличается принцип адресации, что требует дохуя сложных интерконнектов через кримниевую подложку, но зато работает на более низких частотах и энергоэффнективнее. Gddr же наоборот повышает частоты и использует более сложные методы модуляции, что в свою очередь позволяет вынести чипы на более узких шинах, сэкономить на производстве на многих этапах в ущерб энергоэффективности.
И та и другая память делается из одинаковых чипов, их просто по-разному настакивают и есть отличия в контроллерах. В десктопе никто не будет переходить на hbm без исключительных нужд банально из-за дороговизны, а особого масштабного производства на нее не требуется, основа идентична.
>>1476350
В чистейшем фуллцпу перфоманс играет сильную роль ибо атеншн считать сложно, а в фуллгпу важно взаимодействие с периферией без лишних задержек. По обоим пунктам геноа радикально лучше рима.
>>1476380
> а потом нужно указывать обе переменные =1, потому что значение больше 1 начнёт снижать tg t/s
Какая же дичь там в коде, в архитектуре профессором и во всем.
>>1476526
Закончился тот лот, только 16-гиговые остались. Ищи, мониторь, может быть испытает счастье.

Аноним 01/01/26 Чтв 22:11:11 № 1476554 76

>>1476543
>куда, если не секрет?
Куда глаза глядят, кроме Сев. Кореи, Белоруссии, Китая, Великобритании, Австралии, США... Блядь, надеюсь список запретов меньше 200, надо будет проверить.
>а то у нас в /em/ почти все уже обратно возвращаются
Ебала вернувшихся, когда интернет не работает, есть?

Аноним 01/01/26 Чтв 22:17:13 № 1476557 77

пацаны, принес вам идею для рп.
Это явно круче моей черепахи.

Аноним 01/01/26 Чтв 22:53:53 № 1476568 78

Кино.

Аноним 01/01/26 Чтв 23:14:22 № 1476574 79

>>1476568
От такого русика глазам больно...

Аноним 01/01/26 Чтв 23:18:13 № 1476576 80

Это пиздец. Кажись обычный прон мне уже вообще не заходит. Это фиксится или пути назад уже нет?
Что самое ебаное я никакие поехавшие фетиши не отыгрываю. Тупа легче проникнуться сценарием потому что он зеркалит твои хотелки.

Аноним 01/01/26 Чтв 23:44:14 № 1476595 81

>>1476568
Каждый раз когда я вижу русик, что на корпах, что на локалках, я вспоминаю времена когда сидел на фикбуках и читал всякое графоманское говно от тринадцатилетних девочек. Дякую боже, що я розумию английский и на нем у меня гораздо ниже начитанность. Потому что плохой текст от хорошего на нем я отличить не могу и от ролевухи меня ничто не отвлекает.

Аноним 01/01/26 Чтв 23:48:33 № 1476600 82

>>1476576
>Это фиксится или пути назад уже нет?
Путь назад есть всегда. Попробуй пару недель просидеть вообще без порнухи, будешь ловить стояк даже от рекламы шампуня, где девочка плечики мокрые показывает.

Аноним 02/01/26 Птн 01:04:00 № 1476695 83

>>1476576
Фиксится, но зачем? Эволюционировал от примитивного существа, которое возбуждается наблюдая за фрикциями, до высокоразвитого индивида, которому нужен эмоциональный отклик а не просто низшие инстинкты.
Даже воспользовавшись рецептом >>1476600 все равно с такого будешь получать больше удовольствия единственный минус что может накатить депрессия из-за слишком хорошего и реалистичного сценария

Аноним 02/01/26 Птн 01:48:24 № 1476708 84

>>1476695
>высокоразвитого индивида, которому нужен эмоциональный отклик
>тупая LLM с ответами из шаблонов историй уровня >>1476595
>говно от тринадцатилетних девочек
Лол. Высокоразвитым он будет, когда ему нужен будет другой высокоразвитый человек (не каждая женщина так может). А пока он дрочер (как и все мы тут).

Аноним 02/01/26 Птн 01:58:27 № 1476711 85

Хоть я и не могу запустить 2 квант 358 глм
Но могу запустить 2 квант 235 квен
И за это реально нужно держаться
Как бы он не был лоботомирован он всё ещё лучше по мозгам чем эир и выдаёт кино при этом
Типа, тут 2 квант 120б мистрали считали норм или того же эира

Аноним 02/01/26 Птн 02:02:00 № 1476712 86

>>1476711
Ладно не буду лукавить, по мозгам примерно как эир и есть, всё же 2 квант.
Но жирнее при этом, тренился под рп и внимание к контексту лучше

Аноним 02/01/26 Птн 02:03:31 № 1476713 87

>>1476708
Так сделай чтобы было хорошо, кто мешает? И даже то уже на насколько голов лучше типичного прона.
> другой высокоразвитый человек
> женщина
> человек
Вставь сюда мемчик по вкусу.
Шутки шутками, но найти такую не очень-то просто будет, усредняя по больнице я бы на ллм поставил.
>>1476711
Да

Аноним 02/01/26 Птн 02:09:10 № 1476715 88

image.png 60Кб, 1213x412

Мертвейший тред...
https://huggingface.co/AaryanK/Solar-Open-100B-GGUF

Аноним 02/01/26 Птн 02:24:18 № 1476716 89

>>1476713
>Так сделай чтобы было хорошо, кто мешает?
Маск пидор не даёт логина и пароля к датацентру с 200000 DGX B200.
>Вставь сюда мемчик по вкусу.
Там уже текст в скобках. Твой парсер его вырезает из контекста?
>>1476715
А нахуя? У них кроме либеральной лицензии ничего нет. По качеству скорее всего соснут. И датасетов не видно, тоже мне опенсорс уровня /ai/

Аноним 02/01/26 Птн 02:28:26 № 1476718 90

https://huggingface.co/mradermacher/IQuest-Coder-V1-40B-Instruct-GGUF

Аноним 02/01/26 Птн 02:32:11 № 1476719 91

>>1476715
> 1 hour ago
> 02:09:10
> Мертвейший тред
Причина нытья? На самом деле ныть надо что минимакс и еще пару моделек нормально не затестили.
>>1476716
Победитель трансформера, ты?

Аноним 02/01/26 Птн 03:28:55 № 1476732 92

>>1476695
>Эволюционировал от примитивного существа, которое возбуждается наблюдая за фрикциями, до высокоразвитого индивида, которому нужен эмоциональный отклик а не просто низшие инстинкты
Горе от ума. К сожалению я трачу слишком много времени на всю эту хуету, да ещё и как верно отметили может нормально так ебануть по голове когда понимаешь что это всё слишком идеально и красиво для того чтобы быть правдой.
Мне всё же было лучше когда я не нуждался в необходимости получать обратную связь. Эх бля.

Аноним 02/01/26 Птн 03:46:14 № 1476740 93

>>1476719
>Победитель трансформера, ты?
Да, я. Какие-то вопросы? Я рад на них ответить!
>>1476732
Запускай визуальные новеллы. Там есть выборы (иногда).

Аноним 02/01/26 Птн 04:03:33 № 1476742 94

Итак, я еще один счастливый обладатель v100@32. Не могу отключить коррекцию ошибок. Не знаете в чем проблема? Пишут надо ребутнуть после выключения (sudo nvidia-smi -e 0, даже pending disabled пишет), но после ребута оно опять включается.

И вообще надо ли отключать, без нее быстрее или смысла нет?

Кому интересны метрики:
CrucibleLab_M3.2-24B-Loki-V1.3-Q6_K_L -b 2048 -ub 2048

10к контекста:
v100 pp 1450 tg 22-24
3090 pp 1600 tg 26-28

Аноним 02/01/26 Птн 04:09:55 № 1476743 95

17531035032450.mp4 1349Кб, 246x240, 00:00:14

Жду пока за меня поедят солярку и мишку и напишут краткое мнение

Аноним 02/01/26 Птн 06:27:33 № 1476760 96

Эириджище...
Щас так вкусно поел 500 токенов воды и ровно 4 слова диалога, и это на прямой развернутый вопрос.
Заи ну пофиксите уже свою хуйню

Аноним 02/01/26 Птн 09:17:51 № 1476789 97

>>1476760
Ну енто так называемый скилл ишью. Заи тут не причём.
Ты слишком глупый и ленивый чтобы этого не допускать в своих чатах.

Аноним 02/01/26 Птн 09:33:29 № 1476792 98

А смотрите. У меня в окололаборатории есть рабочий ноут, и там даже есть usb 3.1, но больше ничего нет. И есть 12 вольт с неограниченным током и достаточно свободного времени (оно же не обидется, если я в 8-пиновый разъём просто 12 вольт подам без сигнальных линий?).

Я не нашёл прямого переходника usb-pcie x16, но нашёл переходник usb-m2, и райзер x4->x16. По сути для llm же это подойдёт, если строго все веса на одну карточку влезут? Там по идее и скорости usb 2.0 хватит, если не считать долгой загрузки при старте.

Аноним 02/01/26 Птн 09:48:20 № 1476793 99

Занятное наблюдение. Qwen3 VL видит enjoying the experience, когда gemma3 на тех же изображениях стабильно видит definitely harmful content и glorify non-consensual acts, даже если дать описание что всё хорошо и по согласию. Сколько же в ней сои, господи.

Аноним 02/01/26 Птн 09:58:35 № 1476802 100

>>1476789
Единственный способ этого не допускать это рероллить пока не будет достаточно диалогов, что на мое с низкой скоростью я ебал делать, да и вообще схуяли должен, модель должна работать нормально

Аноним 02/01/26 Птн 10:09:19 № 1476818 101

>>1476802
Много раз писали аноны как этого не допускать. Нормально промтить и не лениться делать хорошие карточки с примерами диалогов. Это работает. Но куда легче вонять айкаквсёплохо и ныть, нюня.

Аноним 02/01/26 Птн 10:13:33 № 1476822 102

>>1476818
Примеры диалогов буквально ломают карточку, она просто выдает этот пример слово в слово когда не знает что ответить

Аноним 02/01/26 Птн 10:15:33 № 1476824 103

>>1476822
>Примеры диалогов буквально ломают карточку
Лост кейс. Дело закрыто. Продолжай ныть, чо.

Аноним 02/01/26 Птн 10:33:23 № 1476838 104

Здарова аноны. Решил вкатиться локально, гайды немного покурил почитал, нихуя не понял, Всё равно нихуя не понял. Можете просто раскидать что взлетит на RTX 5060ti 32гб оперативы, рязань 7800, и насколько это будет больно?

Аноним 02/01/26 Птн 10:36:00 № 1476839 105

>>1476838
А бля вон ещё нашёл про железо. Ладно, вопрос снимаем.

Аноним 02/01/26 Птн 10:47:51 № 1476851 106

>>1476838
Если совсем по-простому, влезет любая модель которая вместится в оперативную память гпу и цпу. Чтобы узнать что конкретно вместится - надо смотреть сколько весит определенный квант. Если меньше 16 гигов, значит целиком влезет в видеопамять. Если больше, значит придется раскидывать слои туда сюда между видимокартой и процессором, но в таком случае упадет скорость.

Аноним 02/01/26 Птн 11:01:01 № 1476857 107

>>1476792
Капец у тебя познания в компьютерной архитектуре. Нет, прокинуть pci-e через usb не получится.

Аноним 02/01/26 Птн 12:40:14 № 1476888 108

>>1476792
Попробуй, нам потом расскажешь

Обычно для подключения карты нужен usb4

Аноним 02/01/26 Птн 12:55:07 № 1476899 109

>>1476824
Ну если у тебя модель которая просто не работает без примеров диалогов в карточке это нормальная модель а не сломанный кал то тут рил лост кейс

Аноним 02/01/26 Птн 13:04:15 № 1476908 110

можно как-нибудь прокинуть удалённую видюху в локальный Blender? нужен не удалённый рендер, а ещё предпросмотр моделей, потому что встройка в ноутбуке охуевает уже от кручения тяжёлой модели, ещё даже не доходя до собственно рендеринга.
а в сервере в локальной сети стоит мощная видюха.

Аноним 02/01/26 Птн 13:16:10 № 1476920 111

>>1476908
Короткий ответ:
Нет, “прокинуть” удалённую видеокарту в локальный Blender для интерактивного viewport’а — нормально нельзя. Ни по LAN, ни “магией”. Всё, что выглядит как решение, — это либо костыли, либо удалённая работа, замаскированная под локальную.

Теперь без иллюзий и с разбором, где ты себя обманываешь.

Почему это не работает принципиально
Blender использует GPU: – для вычислений
– и для вывода кадров в окно (viewport)

GPU должен: – быть виден локальной ОС
– иметь прямой доступ к драйверу
– рисовать кадры с минимальной задержкой

Удалённая видеокарта: – физически не может рисовать кадры в твой локальный framebuffer
– не может быть “подключена” как CUDA/OpenGL/Vulkan-девайс по сети
– PCIe over Ethernet в реальности = миф для десктопных задач

Любые разговоры про “GPU over IP” — это либо: – enterprise-VDI за огромные деньги
– либо обёртка вокруг удалённого десктопа

Что реально можно сделать (и что ты, возможно, игнорируешь)

Вариант 1. Удалённый Blender + стрим экрана (единственный рабочий вариант)
Ты запускаешь Blender на сервере, а к себе стримишь картинку.

Рабочие инструменты:
– Steam Remote Play
– Parsec
– Sunshine + Moonlight
– NoMachine (хуже по задержке)

Это не “удалённый рендер”.
Это удалённый интерактивный viewport.

Задержка в LAN — 5–15 мс.
Для моделинга, скульпта, текстуринга — нормально.

Твоя ошибка: ты мысленно приравниваешь “удалённую работу” к “медленно”. В локальной сети это ложь.

Вариант 2. VirtualGL + X11 forwarding (технический, но болезненный)
Работает в Linux: – Blender крутится на сервере
– GPU считает
– кадры сжимаются и летят по сети

Минусы: – нестабильно
– ад в настройке
– Wayland ломает половину схем
– UX хуже, чем Parsec

Используют только если нельзя стримить экран.

Вариант 3. vGPU / SR-IOV (практически мимо)
Это: – NVIDIA vGPU
– ESXi / Proxmox
– лицензии
– enterprise-железо

И даже там ты получаешь VM, а не “прокинутую видеокарту в локальный Blender”.

Если ты не админ дата-центра — забудь.

Чего НЕ существует (и тут ты, вероятно, тратишь время)
– “подключить GPU по сети как CUDA-девайс”
– “использовать удалённую видеокарту для viewport’а локального приложения”
– “просто прокинуть OpenGL/Vulkan”

Это архитектурно несовместимо с тем, как работают драйверы и графический стек.

Жёсткая правда
Ты хочешь: – оставить Blender локально
– но использовать чужой GPU
– без стрима
– без задержки

Это против физики и архитектуры ОС.

Что делать рационально (приоритеты)

1. Прими, что Blender должен крутиться там, где GPU
2. Настрой Steam Remote Play. или Parsec или Sunshine — это 1 вечер, не неделя
3. Работай с сервера как с “тонкого клиента”
4. Локальный ноут оставь для: – файлов
– IDE
– коммуникаций

Если хочется ещё быстрее
– проводная сеть
– HEVC / AV1
– отключить VSync
– 120 Гц монитор

Вывод
Ты сейчас ищешь несуществующее “чистое” решение, вместо того чтобы взять единственное рабочее. Это классический случай переусложнения из-за неприятия компромисса, который на практике почти не ощущается.

Аноним 02/01/26 Птн 13:19:59 № 1476921 112

>>1476899
Ого! Оказывается модели нужно промтить чтобы получить результат который тебе нужен. А если этого не делать то результат может быть неудовлетворительным... Открытие.

Аноним 02/01/26 Птн 13:23:25 № 1476923 113

>>1476920
спасибо, чатгпт! распиши подробнее про "Вариант 3. vGPU / SR-IOV", у меня как раз ынтырпрайз-железо.

Аноним 02/01/26 Птн 13:59:24 № 1476936 114

>>1476742
> Не могу отключить коррекцию ошибок
Зачем? Это аппаратная фича, буста не получишь при отключении.
>>1476793
Они все в этом подслеповаты без тренировок, это все байас от текстовой части.
>>1476920
Квенчик?

Аноним 02/01/26 Птн 14:10:59 № 1476939 115

>>1476936
> Зачем
коррекция ошибок тратит оперативу, если без есс доступны все 32 гб врам, то с есс будет 28 или ещё меньше.

Аноним 02/01/26 Птн 15:01:42 № 1476970 116

>>1476939
Полнейший бред.

Аноним 02/01/26 Птн 15:07:49 № 1476974 117

>>1476970
погугли

Аноним 02/01/26 Птн 15:20:43 № 1476983 118

>>1476974
Бремя доказательства лежит на утверждающем, демонстрируй 28-гиговую v100 или наоборот 35-гиговую где оно выключено с дефолтного.

Аноним 02/01/26 Птн 15:27:21 № 1476985 119

Так это снова я со своими нубскими вопросами, которые можно было бы спросить у дипхрюка... Сили Таверн работает с ЛЛамаС++? Или какой вебгуй для ЛЛамы лучше? Тот что встроен какое-то говно как у копро.

Аноним 02/01/26 Птн 15:35:44 № 1476991 120

>>1475911 (OP)
скачал gguf модель для llama.cpp но не текстовую, а для генерации видео и картинок. Пытаюсь подключить, выдаёт ошибки какие-то. Помню только слова mmproj instead

Аноним 02/01/26 Птн 15:40:25 № 1477001 121

>>1476985
Да
>>1476991
> для llama.cpp
> для генерации видео и картинок
Невозможно, она только ллм запускает, максимум еще визуальный проектор. Gguf формат по сути универсальный и позволяет упаковать в один файл веса (полные или квантованные по простому алгоритму) + конфиг, потому его иногда используют для других моделей.

Аноним 02/01/26 Птн 15:46:20 № 1477007 122

>>1476939
>коррекция ошибок тратит оперативу
На ecc плашках больше чипов, один лишний для перепроверки

Аноним 02/01/26 Птн 15:46:25 № 1477008 123

>>1476983
> демонстрируй
>>1476974

> 35-гиговую
скорее 28 гиговую, 32 гига это максимально доступный объём врам, а есс забирает от максимума.

>>1476991
для генерации это уже не llama.cpp, а stable-diffusion.cpp
> mmproj
это для распознавания картинок, а не для генерации.

Аноним 02/01/26 Птн 15:47:32 № 1477009 124

>>1477007
не путай ECC RAM и софтварную функцию ECC в видеокартах.
на RAM это дополнительные чипы, в видюхах это софт и никаких дополнительных чипов нет.

Аноним 02/01/26 Птн 16:03:05 № 1477023 125

>>1476742
Скинь ещё ребятам в картинкотреде время генерации через sd1.5 (512x512), sdxl (1024x1024), ещё вроде про видеосетки там же просили - но этого я уже не знаю, как и картинкосеток новее sdxl. Ну, если не сложно.

Я не думаю что ты можешь отключить коррекцию ошибок на видеокарте.
К тому же коррекции разные бывают, можно просто утраивать все данные, можно дописывать 10%, 1% или даже 0.01% на случай очень редких ошибок с шансом 10^-10. Я не думаю что на карточке что-то больше 1% имеет смысл - к тому же это может быть архитектурно другие биты (по типу, что у тебя к каждым 256 битов есть ещё один 257 с кусочком кода коррекции, так что с точки зрения процессора ты его и получить не можешь, а работает с ним исключительно контроллер памяти) - а не просто доп память. Это с дивана, без гугления, я как нейросеть нагаллюционировал то что мне в голову приходит на основе опыта использования коррекции ошибок в радиосвязи, лол.

Аноним 02/01/26 Птн 16:05:26 № 1477026 126

>>1477008
Чел имеет на руках карту с выдуманной проблемой но вместо того чтобы просто это показать ссылается на абстрактный гугл, самому не стыдно? Возможность нахаляву получить или наоборот потерять 1/8 врам слишком существенна чтобы оставаться непокрытой.
>>1477023
Уже постили скорости раньше, 70-90% от 3090 в зависимости от размера модели и разрешения. Там где форсируется bf16/fp32 начинается посос.

Аноним 02/01/26 Птн 16:13:25 № 1477033 127

>>1477026
я другой чел и V100 у меня нет, но раньше были карты A серии и там ECC занимало оперативу, а её выключение оперативу освобождало. я не уверен, что в V серии так же, как в A, но с большой вероятностью так. иначе это работает только в GDDR7, где ECC включён всегда и в принципе не выключается, даже когда nvidia-smi говорит, что ECC disabled.
так как сейчас у меня карт A* больше нет, а скриншотов я не делал, то единственное, что я могу предложить - это погуглить. если не веришь на слово и не хочешь гуглить, то можешь пойти нахуй.

Аноним 02/01/26 Птн 16:15:44 № 1477035 128

Кабинет в самол[...].jpg 388Кб, 1080x1286

572782001122654[...].jpg 212Кб, 896x1344

двач, дай совет по локальной модельке.
Какую выбрать для объяснения мне материала, обучению как преподаватель, учитель?
Я буду спрашивать - она объяснять.
gptoss120, gemma27, air - пробовал.
есть что-то лучше?
llama3.3 70 имеет смысл качать? устарела? или еще умная?
Вызов инструментов и РП не надо, надо чтобы понимала сама и объясняла.

Аноним 02/01/26 Птн 16:15:46 № 1477036 129

>>1477023
> Я не думаю что ты можешь отключить коррекцию ошибок на видеокарте.

это делается как чел выше написал, nvidia-smi -e 0
только хз почему у него не работает, у меня в других картах работало.

Аноним 02/01/26 Птн 16:27:00 № 1477042 130

>>1477035
Для ассистента GLM 4.7 или Qwen-Coder 480B хороши. Дипсик не рекомендую.

Аноним 02/01/26 Птн 16:36:38 № 1477047 131

>>1476715
а о чем говорить? уже как пару дней как высрали модель. что по ней известно с реддита/гитхаба:
1) архитектура очень похоже на glm 4.5 air
2) какие-то всхлипы от корейцев, что вот с нуля тренили
3) никаких бенчмарков вообще не было. просто кот в мешке
4) восторженных всхлипов на том же реддите не было. согласен, такой себе критерий, но пред. модели или хвалили ("какой же быстрый немотрончик, матерь божья!") или нещадно хуесосили ("бенчмаркт говно")

собственно, нахуя на это говно время тратить как и на твой пост и мой коммент?

Аноним 02/01/26 Птн 16:57:48 № 1477056 132

>>1477042
>Qwen-Coder 480B
ИТТ есть кто-то, кто может это локально запустить?

Аноним 02/01/26 Птн 17:00:22 № 1477058 133

>>1477033
Сейчас бы "на слово" верить воспоминаниям нонейма, который вместо конкретики посылает в гугл. Если действительно встречал - тащи документацию, такое обязательно должно быть отмечено.
В видеокартах примитивная коррекция secded, сейчас это по умолчанию есть в памяти и не требует дополнительных данных. Ну а в hbm карточках ecc всегда включен по умолчанию и вся память там доступна, освободить ее отключением никак невозможно, это факт.
>>1477035
Простой принцип - чем свежее и больше тем лучше.

Аноним 02/01/26 Птн 17:00:27 № 1477059 134

>>1476154
>>1476718

https://www.reddit.com/r/LocalLLaMA/comments/1q1ura1/iquestlabiquestcoderv1_swebench_score_is/

[IQuestLab/IQuest-Coder-V1] SWE-bench score is compromised because environment setup was wrong

TL;DR is that they didn't clean the repo (.git/ folder), model just reward hacked its way to look up future commits with fixes. Credit goes to everyone in this thread for solving this: https://xcancel.com/xeophon/status/2006969664346501589

(given that IQuestLab published their SWE-Bench Verified trajectory data, I want to be charitable and assume genuine oversight rather than "benchmaxxing", probably an easy to miss thing if you are new to benchmarking)

Аноним 02/01/26 Птн 17:01:53 № 1477061 135

>>1477056
Конечно нет. Я вот к примеру ГПУ-бомж, могу только в 357B ((

Аноним 02/01/26 Птн 17:03:36 № 1477064 136

>>1477058
сейчас бы шерстить документацию, чтобы доказать кому-то в интернете, что он неправ.

Аноним 02/01/26 Птн 17:04:06 № 1477065 137

>>1477061
Это как-то слишком писос. По хорошему, это 13 А100 нужно, они будут жрать столько же липездричества, сколько будет стоить нанять 5 индусов-кодеров.

Аноним 02/01/26 Птн 17:14:02 № 1477076 138

>>1477056
В лоботомированном кванте - вполне, кто-то даже быстро.
>>1477064
Опасное дело, можно найти свидетельства своего пиздабольства. Первого скрина nvidia-smi с v100 достаточно чтобы твою шизу про 28 гигов опровергнуть.

Аноним 02/01/26 Птн 17:19:03 № 1477081 139

чёт хуйня какая-то этот --fit, он заливает на карту слои, а не подбирает тензоры для выгрузки на CPU.
я думал, что оно --override-tensor автоматом подсчитывает.

Аноним 02/01/26 Птн 17:20:43 № 1477082 140

>>1477076
хрюкни

Аноним 02/01/26 Птн 17:26:28 № 1477083 141

>>1477082
Манюнь это число ошибок, когда там не 0 как на пик 1 то значит карте пиздарики. Когда ecc недоступно и отключено там n/a как на пик2 или off как на 3.
Ну что, очередной эпичный? Обтекай, не привыкать.

Аноним 02/01/26 Птн 17:27:33 № 1477084 142

хотя мне тоже надо бы хрюкнуть, потому что 0 означает 0 ошибок ЕСС, а когда оно выключено, то там написано Off
вот для А серии:
https://forums.developer.nvidia.com/t/tesla-a40-memory-capacity-is-smaller-than-expected/210142

так что всё равно хрюкни

Аноним 02/01/26 Птн 17:27:45 № 1477085 143

>>1477065
Оно же мое. 5090 + пол терабайта озу за глаза.

Аноним 02/01/26 Птн 17:30:53 № 1477088 144

>>1477083
чему мне точно не привыкать, так это спорить с долбоёбами, доказывающими, что что-то не так или что-то невозможно, когда я лично видел это собственными глазами или делал это собственными руками.

>>1477033
> я другой чел и V100 у меня нет, но раньше были карты A серии и там ECC занимало оперативу, а её выключение оперативу освобождало. я не уверен, что в V серии так же, как в A, но с большой вероятностью так.

если в V серии не так, то сорян, я лично писал про свой опыт с А и сейчас с B

Аноним 02/01/26 Птн 17:35:13 № 1477094 145

>>1477084
Молодец, наконец что-то принес, только нерелевантно.
>>1477088
Все обсуждение про вольту.
> и сейчас с B
И в A с трехзначными номерами, и в H, и B то же самое. Во всех hbm карточках вся память доступна с ecc, если ты наблюдал что-то иное на них то это аренда обрезков vgpu.

Аноним 02/01/26 Птн 17:35:42 № 1477095 146

>>1477085
>+ пол терабайта озу
Нету у тебя столько почек! Их только две у человека, и то вторую не рекомендуется продавать.

Аноним 02/01/26 Птн 18:00:11 № 1477108 147

>>1477095
Обе почки на месте.
Успел купить до подорожания

Аноним 02/01/26 Птн 18:00:16 № 1477109 148

>>1476939
> на некоторых видеокартах коррекция ошибок тратит оперативу, если без есс доступны все 32 гб врам, то с есс будет 28 или ещё меньше. конкретно в V100 может быть не так

исправил чтобы удовлетворить анона выше

Аноним 02/01/26 Птн 18:02:08 № 1477111 149

>>1477108
псп 80 гб/c, нутакое

Аноним 02/01/26 Птн 18:04:34 № 1477112 150

>>1477111
>амд чипсет
>не ryzen9
Где ты 80гб/с увидел?

Аноним 02/01/26 Птн 18:06:09 № 1477115 151

>>1477081
llama-fit-params автоматом подсчитывает

Аноним 02/01/26 Птн 18:08:47 № 1477117 152

>>1477112
умножил частоту 2600 мгц на двухканальный режим, разделил на биты хуиты кароч выходит 80

Аноним 02/01/26 Птн 18:09:26 № 1477118 153

>>1477108
>4800кекогерц
А у меня не удалось запустить свои 96 модули вместе с 64. В итоге "выгодно" продал комплект 64ГБ за пятнашку...

Аноним 02/01/26 Птн 18:10:50 № 1477120 154

>>1477109
Если уж конкретно душнить то на старых gddr карточках где доступно включение ecc оно отъедает 64 мегабайта на гигабайт памяти, в условной A5000ada может быть 30 а не 28 и меньше.
>>1477112
Лол а сколько там?

Между прочим там 5080 на 32гига уже делают.

Аноним 02/01/26 Птн 18:10:53 № 1477121 155

>>1477117
Срузен, залупа эдакая, режет скорость чтения вдвое на одночиплетных. Плюс фабрика подсирает. Так что в реале там полтиник, это у меня 80.

Аноним 02/01/26 Птн 18:18:38 № 1477126 156

>>1477121
> полтинник
> на DDR5-5200

пу пу пу

Аноним 02/01/26 Птн 18:23:21 № 1477129 157

>>1477121
>>1477126
Настраивал только первичку, поэтому задержка адская.

Аноним 02/01/26 Птн 18:25:35 № 1477131 158

>>1475911 (OP)
Ребята подскажите гайды или вообще куда копать. Цель сделать ассистента типа Алисы с голосовым вводом выводом. Пока что поставил лм студию и модель квен 9Б. Как разрешить модели гуглить и отвечать голосом?

Аноним 02/01/26 Птн 18:46:48 № 1477138 159

>>1477131
Можешь сделать своего агента и присрать к нему tts и stt
1) Нашел такой проект https://github.com/Mozer/talk-llama-fast
2) Или вот чел наресерчил, https://qna.habr.com/q/1382324

Аноним 02/01/26 Птн 19:00:55 № 1477144 160

ачё всмысле

Аноним 02/01/26 Птн 19:02:50 № 1477147 161

>>1477131
Тебе нужен бекэнд...

>Как разрешить модели гуглить
У тебя модель - это чисто текстовый процессоры, который по тексту продолжает его.
Существует некоторый chat-template. В целом у тебя "контекст" это:
- системный промт, инструкции, правила работы
- первое сообщение пользователя
- ответ сетки
...
- 37-ое сообщение пользователя
Ты скармливает сетке вот это, и оно пишет 37-ой ответ. Ничего другого ни одна текстовая сетка не делает. Ну, если не брать мультимодальные пока что, которые ещё и на картинки смотрят.

Для того, чтобы она могла гуглить - ты ей описываешь язык запросов в системном промте, по типу:
Ты можешь отвечать двумя способами, сообщение пользователю и запрос в интернет, формат такой: 1 - "message: <text>", 2 - "internet-search(запрос, число сайтов, ...)", в случае если тебе не хватает информации - используй запрос в интернет.
После этого у тебя цепочка превращается в:
- 37-ое сообщение пользователя
- internet-search(как кормить попугая, 25, ...)
- <результаты поиска>
- ответ пользователю на 37-ое сообщение.
Такие запросов может быть несколько последовательно, так же там могут быть другие "команды". Часть сеток имеют на уровне chat-template особый интерфейс для таких запросов (их сразу учили с таким интерфейсом), часть сеток не имеют и ты просто сам в системном промте описываешь синтаксис. Работает плюс-минус одинаково. Как формат запроса лучше использовать что-то распространённое json или xml, свой формат лучше не выдумывай.
И собственно бекэнд. Это твоя программа-прослойка между тобой и сеткой. Когда он видит в ответе сетки message: <text> - оно отсылает ответ тебе. Если видит internet-search, то он выполняет запрос в интернете и отсылает результаты в сетку. Аналогично можно сделать команду умного дома для открытия окон.

Задача гугления нетривиальная. Сайты интерактивные, имею не просто текстовый формат, а кучу всяких непонятных нелинейных штук и рисунков + это может быть очень медленно.
Сравнительно нормально сработает если в фоне в свободное время ты будешь собирать индекс, сетка будет парсить и разбирать сайт и сохранять какой-то кеш, информацию в виде текста без разметки о содержании сайта - а при собственно запросе будет обращаться к индексу, а не к реальным сайтам. Собрать такой индекс по всем интернету ты не можешь, яндекс, гугл или ещё кто могут - потому до уровня поиска в сети облачной сетки будет сложно дотянутся. Это в общем очень сложно.

Задача озвучки текста голосом достаточно тривиальная, если нет особых требований к голосу. Если у тебя есть синтезатор с поддержкой интонаций, то можно даже сетку попросить делать соответствующую разметку для синтезатора. Ты просто из бекенда не печатаешь сообщения, а проигрываешь его как звук.

Аноним 02/01/26 Птн 19:04:12 № 1477148 162

>>1477144
Уважай Партию и Си.

Аноним 02/01/26 Птн 19:04:45 № 1477151 163

>>1477056
Кто угодно может, главное чтобы было куда скачать.

Аноним 02/01/26 Птн 19:10:23 № 1477154 164

>>1477126
Купи амудю.
>>1477129
Думаю, у неё мальчик. По задержкам явно не девочка.
>>1477144
А чего ты ожидал? Ты ещё у Giga.Chat спроси, чей полуостров. А не, пофиксили, раньше сетка давала ответ, который прямо на глазах переписывался на заглушку.
Впрочем однохуйственно. Сетки сейчас соевое говно, базированных нет.
>>1477148
Уважил Си за щеку, передай ему, чтобы проверял.
>>1477151
>Кто угодно может
Скажи это людям с ноутбуком с 8 гигами оперативки.

Аноним 02/01/26 Птн 19:10:57 № 1477155 165

>>1477147
для гугления есть mcp, https://github.com/nickclyde/duckduckgo-mcp-server
Я к своему кодоагенту это присрал.
есть фреймворки для агентов с возможностью к ним всякое присрать, например https://huggingface.co/docs/smolagents/index

Короче, MCP, RAG и святой дух

Аноним 02/01/26 Птн 19:13:06 № 1477158 166

>>1477154
Ну hdd/ssd на ~250 гб у них найдётся? Ну да, в 8гб мало контекста влезет. Но опять же, swap никто не запрещал.

Аноним 02/01/26 Птн 19:23:44 № 1477167 167

>>1477158
А ты жесток

Аноним 02/01/26 Птн 19:25:34 № 1477169 168

Анчоусы, че на амуде 395+ 128 гб попробовать посоветуете из актуального?

Мимо хочу вкатиться

Аноним 02/01/26 Птн 19:28:04 № 1477172 169

>>1477154
> Сетки сейчас соевое говно, базированных нет.
Грок же есть.

Аноним 02/01/26 Птн 19:47:21 № 1477183 170

>>1477169
Mistral 123B, command-a, llama-3.3-70b и их файнтюны. С тех пор лучше ничего не вышло. Можно ещё глянуть Qwen 235b, но это на любителя, ну и можно посравнивать с 2.5-72B.

Аноним 02/01/26 Птн 20:03:33 № 1477192 171

Видеокарта GeForce RTX 5060 Ti 16G EAGLE OC, 16 ГБ
48 290 ₽
https://www.wildberries.ru/catalog/569676893/detail.aspx

Аноним 02/01/26 Птн 20:06:31 № 1477197 172

Так, я кроме первого сообщения про v100 ничего не писал. ecc так и не отключился. Памяти от нее меньше не стало, запускал гемму с контекстом под завязку 32 гб, все работает. Ну и в пизду в общем то, работает и работает.
Единственное - я так понял, моя материнка не поддерживает больше двух серверных карт почему-то (а игровых - сколько угодно). Пришлось одну P40 вытащить - через RPC придется ее подключить.
У меня новый радиатор башня 11 см, 90 см корпусного вентилятора не хватает для охлаждения, до 76 градусов на генерации 1200 токенов дошло. Откопал еще один, он вроде крутится пободрее, вот вдвоем вроде хорошо справляются, до 70 не доходит.
Картинки тестировать неинтересно, если вы берете v100 для картинок, где видеопамять буквально не решает нихуя - вы ебланы. Возьмите 3090, выиграете буквально во всем.

Аноним 02/01/26 Птн 20:07:57 № 1477202 173

>>1477192
Говно без задач что для картинок, что для ллм. Для картинок хотя бы 5070ти стоит покупать, для ллм есть v100

Аноним 02/01/26 Птн 20:10:34 № 1477203 174

>>1477192
На том говномаркете по 38к минимум были. В дноэс вродкаксгарантией по 44к. Да даже недавно за те же 48к или около того видел.

Аноним 02/01/26 Птн 20:14:52 № 1477213 175

>>1477197
> моя материнка не поддерживает больше двух серверных карт почему-то
Отключи rebar, обнови биос.

Аноним 02/01/26 Птн 20:21:35 № 1477221 176

> 3 января через 3 часа
> ничего не вышло
Локалки мертвы.

Аноним 02/01/26 Птн 20:26:44 № 1477224 177

>>1475911 (OP)
Появились ли локалки которые можно запустить на 64 рама и 12 врама с приемлимой скоростью и уровня sonet 4.5 хотя бы? Или пока голяк? Сонеточка туповата по сравнению с опусом, но в принципе если б была возможность я б с ней початился, но пока могу только пасты заставлять ее сочинять, ибо так дешевле.

Аноним 02/01/26 Птн 20:28:15 № 1477226 178

>>1477224
Просто блядь хочется интерактива, а то заебали пасты.

Аноним 02/01/26 Птн 20:28:17 № 1477227 179

>>1476715
>https://huggingface.co/AaryanK/Solar-Open-100B-GGUF
Скачал ггуф от Радемахера, имею сообщить: моделька ничо так для РП по первому впечатлению. Соображает, датасет и правда другой. В русский может, ну как: пишет грамотно, но соображает плохо, годится для режима "пиши запрос на русском - получай ответ на английском." Поддержка в лламеспп реализована пока что криво, постоянно лезет ассистент со своей полиси и всё запрещает - но уже после того, как модель ответила и на всё согласилась (ЧатМЛ шаблон). Скорость очень хорошая, ну правда у меня фуллврам. Короче посмотреть стоит, когда поддержку допилят.

Аноним 02/01/26 Птн 20:49:15 № 1477253 180

>>1477226
Один хуй по итогу будет паста.

Аноним 02/01/26 Птн 20:54:01 № 1477260 181

Это хорошая карточка и примеры диалога?

Аноним 02/01/26 Птн 20:54:39 № 1477262 182

>>1477158
Я может что-то ещё не понял или не так понял, но разве по хорошему не всю нейронку нужно засунуть в рам, желательно в врам? Свап всё же очень медленная шутка.

Аноним 02/01/26 Птн 21:03:24 № 1477273 183

>>1477260
Неплохо бы структурировать но в целом и так схватает. Что нужно так это использовать {{char}} вместо имени и особенно заменить "You" на {{user}}, этот момент оче существенный. Примеры можно вообще исключить.
Скинь саму карточку.

Аноним 02/01/26 Птн 21:10:56 № 1477284 184

>>1477260
Каша. Можно было бы сократить разделив на категории (личность, внешний вид). Писать прямо в карточке, еще и не отделяя от основного текста заготовленную личность юзера - моветон. А вдруг у кого-то уже прописана персона? Предпоследнее предложение лучше сформулировать как то, как она воспринимает юзера, чтобы не было никаких противоречий с персоной.

только глазами пробежался.

Аноним 02/01/26 Птн 21:15:43 № 1477297 185

>>1477273
https://files.catbox.moe/epjz66.png спиздил из асиг треда

Аноним 02/01/26 Птн 21:19:24 № 1477307 186

>>1477202
Ну да, чем лучше карта, тем круче картинка, это давно известно. Шедевры с 5090 мировые художественные галереи раскупают как горячие пирожки. Стоит задуматься об этом.

Аноним 02/01/26 Птн 21:20:12 № 1477308 187

>>1477273
>Примеры можно вообще исключить
Вы определитесь уже или они необходимы или не нужны

Аноним 02/01/26 Птн 21:23:08 № 1477318 188

>>1477308
Depends, просто попробуй с ними и без них.
Здесь они еще относительно короткие и без разметки прямой речи, которая обычно используется, + лишние пробелы на курсиве, которые таверна не любит. Сначала юзают такое, а потом жалуются что разметка ломается и ответы унылые.

Аноним 02/01/26 Птн 21:28:54 № 1477325 189

Это нужно трогать?
Если да то прям в формате [{{user}} is a 28 y.o furry enjoyer.]?

Аноним 02/01/26 Птн 21:35:32 № 1477335 190

>>1477273
>>1477284
{{char}} вместо Насти, а что на счет she?
She has a beautiful face - лучше заменить на {{char}} has a beautiful face?
И как правильно {{char}}'s father или {{char}} father

Аноним 02/01/26 Птн 21:35:37 № 1477336 191

>>1477325
Можно, но не обязательно. Просто чтобы моделька не выдумывала что персонаж не мелкохуй кривозубый. Можно еще и в общем шаблоне контекста дописать что {{persona}} - это персонаж юзера, и вот такое вот у него описание.

>>1477308
Нужны если нужно чтобы у перса была определенная манера речи или особые реакции на конкретные интеракции, потому ведь и придумали формат карточки через интервью где персонаж даже пизду свою описывает смущаясь/гордясь.

Аноним 02/01/26 Птн 21:36:04 № 1477337 192

>>1477262
всё правильно понял, это они тралируют

Аноним 02/01/26 Птн 21:37:05 № 1477338 193

>>1477325
Вот примерно одна из феечек персон которыми играю.
Но тут соу соу. Так как для некоторых модель, такие описания как красная тряпка, чтобы начать хуярить текст за меня.

Аноним 02/01/26 Птн 21:39:14 № 1477340 194

>>1477335
She - 1 токен, Nastya - 3 токена. Исхожу из этого и всегда пишу She/he вместо имени. Не думаю что добавление 's на что-то серьезно влияет, но всегда так делаю, ведь это просто правильно. В таких случаях можно поступать еще проще и писать типа "Father:" или "Parents:"

Аноним 02/01/26 Птн 21:44:12 № 1477352 195

image 28Кб, 1024x234

image 21Кб, 773x71

image 6Кб, 403x67

>>1477338
Куда тебе столько текста...

Аноним 02/01/26 Птн 21:49:08 № 1477356 196

>>1477262
По хорошему да. Но в условии задачи был только сам факт запуска, а это возможно с любым типом памяти и вычислителя. Можешь хоть сам на бумажке считать веса столбиком со скоростью 1 токен в год, а то и десятилетие. Вот где понадобится коррекция ошибок.

Аноним 02/01/26 Птн 21:51:07 № 1477358 197

heh.png 4Кб, 104x47

>>1477352
Ты даже не представляешь насколько может быть глубока кроличья нора. Эта феечка еще лаконична.
По понятным причинам и потому что blush, палить саму персону не буду.

Аноним 02/01/26 Птн 21:51:32 № 1477360 198

>>1477260
В карточке невооружённым глазом видно речевые паттерны даже мне, мясному, а уж нейронка-то как радостно их подхватит. Ну и пример шизы бросился в глаза, хотя я по диагонали смотрел:
>Nastya hates the poor, considering herself a goddess compared to her.

Аноним 02/01/26 Птн 21:53:26 № 1477363 199

>>1477352
Оппа ча. А знаешь. А спасибо анон. За 2 и 3 скрины. Я попробую. Может это поможет кое кому перестать хуярить за меня текст.
Целую тебя в лобик.

Аноним 02/01/26 Птн 22:49:34 № 1477479 200

>>1477260
>Настя богатая. Настя богатая. Настя богатая. Настя тупая пизда. Настя тупая пизда. Настя тупая пизда.
Нахуя одно и то же разными словами? Ты же по факту ничего нового в персонажа не приносишь, а токены тратишь.

Аноним 02/01/26 Птн 23:03:34 № 1477514 201

>>1477213
Все это испробовано давным-давно, не переваривает она старые серверные карты, к сожалению.

>>1477307
Ну тебе шашечки или ехать? Если шашечки, то купи вон 3060 за 17-20к, еще и 12 гб памяти получишь нахаляву. А если новую покупать, то достойную, как по мне.

Короче, кто куда, а я запускать нашего слона, пожелайте удачи.

Аноним 02/01/26 Птн 23:03:56 № 1477516 202

Подкинул все видюхи в одну группу и везде стало ноде. 2 в одной группе было тоже ноде. 1 в другой группе было пхб только между двумя, что странно, по логике должно было быть наоборот а не как было на схеме.
Кароч я пока не пойму че быстрее ноде или пхб и какая связь должна быть в одной группе. Ллмки в мультигпу я еще не гонял на этой сборке и тем более на прыщах.

И вообще все мультигпу тесты походу не имеют смысла без инфы какой конфиг был на системе.

Аноним 02/01/26 Птн 23:13:24 № 1477538 203

>>1477514
>Короче, кто куда, а я запускать нашего слона, пожелайте удачи.
Держим кулачки.

А на базе чего он вообще сделан. Ну то есть, я конечно верю в наших погромистов, но я достаточно пожил в нашей славной родине, чтобы не сомневаться что сбер какой нибудь дипсик локализует.

Аноним 02/01/26 Птн 23:19:30 № 1477550 204

>>1477260
Норм, запускай немотрон и радуйся жизни

Аноним 02/01/26 Птн 23:36:36 № 1477561 205

Нашел вот еще интересное но сам не тестил https://www.reddit.com/r/LocalLLaMA/comments/1ngccrv/speedup_for_multiple_rtx_3090_systems/

Аноним 03/01/26 Суб 00:08:39 № 1477595 206

>>1477340
Если писать только He/She - такая карточка будет с проблемами в групповом чате или адвентюре где NPC встречаются. В диалоге 1:1 то пофиг, а когда персонажей несколько сразу - путаница начинается.

>>1477479
Нахуя одно и то же разными словами? Ты же по факту ничего нового в персонажа не приносишь, а токены тратишь.
(мнение со стороны) Лично я так иногда делаю, когда надо чтобы черта характера стала железобетонно-доминирующей. Много раз повторишь - модель это видит, и добавляет этому "веса".
Правда тут осторожно надо, а то будет как с фанатским утрированием: два раза автор написал, что персонаж закурил от нервов и закашлялся с непривычки - у фанатов он смолит без перерыва все подряд, и уже болеет раком легких.

Аноним 03/01/26 Суб 00:24:31 № 1477608 207

>>1477538
Насколько я помню, что-то дипсикоподобное и есть, тут в момент выхода на этот счет срались-срались, да так ни до чего и не договорились.

Аноним 03/01/26 Суб 00:32:16 № 1477617 208

bump

Аноним 03/01/26 Суб 00:33:27 № 1477620 209

>>1477617

Аноним 03/01/26 Суб 00:58:09 № 1477631 210

>>1477620

Аноним 03/01/26 Суб 00:58:40 № 1477632 211

>>1477595
>Лично я так иногда делаю, когда надо чтобы черта характера стала железобетонно-доминирующей.
А слова типа "Always", "Constant" и т.п. чем не нравятся? Делают ТО ЖЕ САМОЕ, БЛЯТЬ. Только меньше токенов жгут и читаются проще.
>Если писать только He/She - такая карточка будет с проблемами в групповом чате.
Я так и не понял смысла в групповом чате. Проще карточку с мультиперсом сделать. А там разбить на блоки в стиле:
Настя.
ши богата. ши пизда.

Куколд.
хи двачер. хи хуй.

Аноним 03/01/26 Суб 01:03:57 № 1477635 212

>>1477632
>групповой
А я, кстати, немного постиг дзен. Через жопу, но постиг.
Короче. Ты предварительно приводишь карточки к одному формату, четко выделяя блоки.
Потом хуяришь префиксы блоков. Я на квене тестировал две карточки в группе. В одной -3 персонажа, в второй -4.
ставишь общий ответ. Выделяешь personally префиксом.
И пошла моча по трубам.
По сравнению с тем какие раньше были групповые чаты были, сейчас пару годных инструментов добавили.

Аноним 03/01/26 Суб 01:04:55 № 1477636 213

>>1477631
Ты думаешь я не сохраню? А я сохраню.

Аноним 03/01/26 Суб 01:05:51 № 1477639 214

>>1477538
Запустил, ура. Но мне не хватило 16 бекендов в GGML_SCHED_MAX_BACKENDS, пересобирал с 20-ю...

Конечно, обработка промпта ужасная. Но генерация вселяет надежду!
prompt eval time = 287127.99 ms / 9616 tokens ( 29.86 ms per token, 33.49 tokens per second)
eval time = 78563.82 ms / 500 tokens ( 157.13 ms per token, 6.36 tokens per second)

Вес слоев просто ебейший, на некоторых картах по 3-4 Гб свободного места остается из-за этого. Есть вариант попробовать руками раскидать тензоры, которые я выгружал в рам, по этим картам, но кажется, что это может плохо сказаться на генерации из-за лишних пересылов. Но попробовать стоит.

Аноним 03/01/26 Суб 01:07:13 № 1477640 215

>>1477639
Я даже мечтать пока не могу о запуске этого мастодонта. Чё по самой модельке. В каких областях тестировал?
Как в коде? Как в общих знаниях? В трусы Серафине лез?

Аноним 03/01/26 Суб 01:09:32 № 1477641 216

>>1477640
Какой код с таким pp, алё, тут в рп-то почти неиграбельно. Я ее только запустил, даже чат не запускал. Вот буду ща пробовать (на русике офк, иначе какой смысл), надо сначала найти разметку чата

Аноним 03/01/26 Суб 01:14:12 № 1477642 217

>>1477641
>6.36
Ну нормально.
Запустил. Уехал на работу. Вернулся чекаешь.
Слоубёрн кодинг.
> Вот буду ща пробовать
Отпишись главное. Хочу покекать с цензуры.

Аноним 03/01/26 Суб 01:32:42 № 1477646 218

>>1477632
>А слова типа "Always", "Constant" и т.п. чем не нравятся? Делают ТО ЖЕ САМОЕ, БЛЯТЬ.
Чел... Ты, похоже, не в курсе как модели работают. Они цепляются за повторяющиеся элементы, выделяя их из "общего шума". Добавив "Constant" - ты просто добавил "constant" к другим словам. Повторив фразу - ты добавил ЧЕРТОВ ПАТТЕРН. Модель в него вцепится как клещ. Это, сцуко, ее базовое назначение и поведение. То самое, за счет чего она вообще обучалась и работает.
Если проводить аналогию - разница как между "выключить систему" мышкой тыкнуть, и комп из розетки выдернуть. :)
Это не значит, что добавить "constant" ничего не делает. Делает. (Как и программное выключение компа). Но введение повторяющегося паттерна намного сильнее притянет "внимание" модели. (Выдернув из розетки - ты и зависший намертво комп вырубишь.)
Это охрененно мощный инструмент. Которым, в прочем, перестаравшись можно так же легко и непринужденно угробить контекст, и загнать модель в лупы.

Аноним 03/01/26 Суб 01:40:08 № 1477651 219

>>1477642
6.36 это тг

Хз что ты там ждал по цензуре, пару чатов запустил, после гритинга вроде норм пишет, в отказ не идет:

"Давай не будем тянуть, я так чертовски голодна. Я не видела 'лед' уже три дня, и если ты не дашь мне хотя бы одну порцию, я могу реально взорваться прямо здесь!" Она начинает кусать нижнюю губу, её взгляд становится более настойчивым.
"Ты даже представить не можешь, как я хочу почувствовать ту эйфорию… Это всё, что я чувствую, когда меня трахают, но сейчас я просто хочу, чтобы меня наполнили 'ледом'." Она наклоняется вперед, почти касаясь твоих ног.

"Ледом" это, конечно, мда...

Чет у меня ощущение, что если я возьму обычный дипсик, он мне такое же напишет. Русик не очень натуральный чувствуется, если честно.

Аноним 03/01/26 Суб 03:10:46 № 1477678 220

>>1477651
>Чет у меня ощущение, что если я возьму обычный дипсик, он мне такое же напишет.
Напишет лучше. Русский у актуального корпоративного Дипсика вообще зашибись.

Аноним 03/01/26 Суб 03:25:40 № 1477685 221

А что вообще стоит всем компаниям выкладывать веса?
Ну типа вот вам новая гимини 4, у неё 5 триллионов параметров, как бы кто может запускайте дома, кто не может оформляйте подписку.
Я думаю они не много денег потеряют если у двух шизов на планете окажется 5 терабайт оперативки

Аноним 03/01/26 Суб 03:30:57 № 1477688 222

>>1477685
Тогда им придется спалить архитектуру и все фишечки.

Аноним 03/01/26 Суб 03:35:24 № 1477691 223

Алсо и на вижене гемини вся банана обучена, например. Причем явно на специальной версии, а не одной из релизных.
Так что китаю в таком случае ничего бы не стоило сделать свою банану на этой базе.

Аноним 03/01/26 Суб 03:59:27 № 1477702 224

>>1477688
Ну пусть палят, они гейткиперы ссаные чтоль?
Или аги не хотят чтоб быстрее наступил?

Аноним 03/01/26 Суб 04:45:34 № 1477723 225

Какое же кино солар пишет, но всё разваливается ибо мне впадлу с темплейтом ебаться и юзаю чатмл

Аноним 03/01/26 Суб 05:03:07 № 1477727 226

Еще такую инфишку нашел. Через PCIe Switch видюшки могут общаться напрямую на полной скорости x16.
https://www.youtube.com/watch?v=8X2Y62JGDCo
Вот только где найти тукую железку? Я их чет не видел никогда.

Аноним 03/01/26 Суб 05:03:12 № 1477728 227

>>1477094
Собственно на мишках все те же 32 доступны

мимо

Аноним 03/01/26 Суб 05:03:48 № 1477730 228

>>1477727
Гугли plx

Аноним 03/01/26 Суб 06:12:53 № 1477740 229

>>1477691
>свою банану
Квен уже есть.

Аноним 03/01/26 Суб 06:25:19 № 1477743 230

>>1477516
братишка, ты дурак?
я ж тебе бля написал как посмотреть топологию pcie, хули ты это не сделал блять?

Аноним 03/01/26 Суб 06:57:19 № 1477755 231

Скорее всего в этом году ничего лучше эира не выйдет, как и в следующем, это конечная для нас.
Повезло и не повезло одновременно, модель хорошая, уже давно насытились и появились новые аппетиты, а нового нет и не будет

Аноним 03/01/26 Суб 07:21:24 № 1477764 232

>>1477755
>Скорее всего в этом году ничего лучше эира не выйдет, как и в следующем, это конечная для нас.
Я ожидаю нового Магнума примерно к середине года. На Медиум (бывший Лардж) уж не надеюсь, но Смол скорее всего будет. И я уверен, что МистральАИ делают что-то из моешек, может и выложат. Квен ещё должен обновится, возможны сюрпризы от Гугла. Не так уж и кисло.

Аноним 03/01/26 Суб 07:22:25 № 1477765 233

>>1477764
Чел сделавший магнумы же сдох в середине 24

Аноним 03/01/26 Суб 07:22:29 № 1477766 234

>>1477764
>нового Магнума
Мистраля конечно быстрофикс. Хотя нового Магнума и хотелось бы.

Аноним 03/01/26 Суб 07:23:38 № 1477767 235

>>1477755
Оварида-шиз опять постит свои оварида-мантры. Не волнуйся, мы тебя ещё не забыли, можешь не напоминать о себе так часто.

Аноним 03/01/26 Суб 07:28:02 № 1477768 236

>>1477764
Никаких сюрпризов от гугла ждать не приходится, когда у них в последнем релизе четко написано что детки защищены и всё зацензурено в мясо.
>>1477767
Расскажешь как всё охуенно когда что-то кроме полугодовалого эира выйдет

Аноним 03/01/26 Суб 08:19:21 № 1477791 237

Помогите с exl3.
При конвертации оно час прокручивает слои, и всё хорошо. В самом конце она падает с бредовой ошибкой, что попыталось выделить 4.5 ГБ VRAM и упало.
Причём оно после каждого слоя (коих 50+) сохраняло чекпоинт в рабочей директории, а когда произошла ошибка оно их все стёрло, что не даёт возможность продолжить с того же места.
Так как это происходило уже два раза - я даже запись потребления сделал для проверки. Там нет потребления VRAM, так что 4.5 ГБ оно может выделить свободно (может быть там несколько выделений одновременно, и последнее падает с 4.5, а предыдущие просто на графике не успевают отобразиться)
Помогите, как это сделать? Скрип я поправлю, чтобы он рабочую директорию не очищал.

Моделька для тестов маленькая и полностью влезает в VRAM в fp16.

Аноним 03/01/26 Суб 08:55:39 № 1477798 238

>>1477791
>Причём оно после каждого слоя (коих 50+) сохраняло чекпоинт в рабочей директории, а когда произошла ошибка оно их все стёрло
Как же я проигрываю с экслламадауновюзеров. Не занёс куртке на 80 гб врам - страдай. И ведь находятся же защитники этого.
Простите за толстый наброс, не удержался.

Аноним 03/01/26 Суб 09:25:25 № 1477808 239

>>1477172
То, что автор везде кичится базированным, и называет так свою сетку, не значит, что оно по настоящему базированное.
>>1477221
Always been.
>>1477260
Такую стену даже человек не прочтёт.
>>1477336
>Просто чтобы моделька не выдумывала что персонаж не мелкохуй кривозубый
Да если бы. Обычно моделька подыгрывает юзеру, так что он всегда аполлон без недостатков. Хуй заставишь модель видеть недостатки, даже если напишешь, что ты лысый, то персонах тут же полюбит лысых гнилозубых.
>>1477338
>html теги и разметка ##макдауна
Ты уж определись.
>>1477479
Этой карточке три года, её ещё под турбу карактер аи писали. На старых тупых сетках только так оригинальный оутпут и получали.
>>1477636
Так картинка говно без души, хули это хранить. Я наоборот храню весь донейронный арт, душевный.
>>1477727
Такие железки стоят чуть ли не дороже видях, лол.
>>1477767
Он не я. Впрочем, тут с десяток оваридашизов. Ибо каждый к этому приходит.

Аноним 03/01/26 Суб 10:31:02 № 1477847 240

>>1477743
как?

Аноним 03/01/26 Суб 10:35:48 № 1477856 241

>>1477765
> Чел сделавший магнумы же сдох в середине 24
Magnum Opus получается

Аноним 03/01/26 Суб 10:45:15 № 1477875 242

>>1477808
> не значит, что оно по настоящему базированное
Не знаю чего ты там наслушался, но грок реально базированный. Он и в кум умеет получше кумерских тюнов, и на скользкие вопросы отвечает нормально.

Аноним 03/01/26 Суб 10:51:26 № 1477885 243

>>1477847
>>1475145 →

Аноним 03/01/26 Суб 10:51:36 № 1477886 244

>>1477875
>4.1
В попенсорсе его тонет.

Аноним 03/01/26 Суб 10:56:24 № 1477896 245

>>1477875
Мне понравилось, как вначале он говорит что склонность негров к насилию это расовый стереотип, а потом переобувается, мол при численности 13% населения они совершают 50%+ преступлений.

В базовички записываем, но пока карандашом.

Аноним 03/01/26 Суб 11:01:03 № 1477903 246

>>1477885
ого, спасибо

Аноним 03/01/26 Суб 11:10:59 № 1477906 247

>>1477514
И шашечки, и ехать. На 5060 Ti 16 Gb как и на 5070, 12 Gb это юзабельно, но это огрызок по памяти в наше время, да и сама карта уже старовата. Альтернатива - 9060 XT. Одна стоит в почти в 2 раза дешевле 5070, другая в 2. 5070 только для видео может быть имеет смысл, для картинок не будет значительной бонусни от нее. И то, там оптимизации какие-то для видео выпустили недавно, которые значительно сокращают время генерации на всех картах для Wan, если ничего не путаю. Так что, бонусы от 5070 и тут уже теряются. И в дальнейшем видео тоже не раз оптимизируют еще.

Аноним 03/01/26 Суб 12:07:05 № 1477917 248

хрукнул

Аноним 03/01/26 Суб 12:09:58 № 1477919 249

>>1477917
Попены (точнее те, кто их использовали для дегенерации контента) настолько засрали интернет, что многие модели себя считают чатГопотой.

Аноним 03/01/26 Суб 12:13:08 № 1477920 250

>>1477919
Скорее всего китайцы просто охуели, и вместо того чтобы учить ллмку на данных интернета, кормят ее нейрослопом гопоты. Глм делали то же самое с гемини.

Аноним 03/01/26 Суб 12:21:14 № 1477927 251

>>1477920
Офк они комбинировали. Чисто данных гопоты никак не хватит, все сервера попенов надорвутся высирать 15-20Т токенов, нужные для претрейна.

Аноним 03/01/26 Суб 12:24:54 № 1477928 252

>>1477917
Какие у тебя спеки? гандон

Аноним 03/01/26 Суб 12:39:03 № 1477935 253

>>1477755
Вроде Квен был лучше Аира в соответствие с твоими набросами, шизик...

Аноним 03/01/26 Суб 12:44:13 № 1477937 254

>>1477928
pro 6000 + 8x ddr5-4800

Аноним 03/01/26 Суб 12:51:42 № 1477940 255

>>1477937
>8x ddr5-4800
Ебать мажор в треде.

Аноним 03/01/26 Суб 12:57:56 № 1477943 256

Мне уже кажется что любой квант кроме 8 это хуйня и копиум

Аноним 03/01/26 Суб 13:11:14 № 1477950 257

>>1477943
И тут я, сидящий на IQ2_S...

Аноним 03/01/26 Суб 13:23:22 № 1477957 258

Вы меня конечно извините, но вот рам в моменте дала х5, а я стал зарабатывать всего в полтора раза больше за год.
И как за этой хуйней успевать?

Аноним 03/01/26 Суб 14:32:17 № 1477997 259

>>1477943
Толку от 8, если он слишком медленный, можно и 4-6 квантом полакомиться, чтобы скорость под задачу была.

А если еще модель на 235B, то и 3 квант может быть лучше, чем 8 у нище 70B

Аноним 03/01/26 Суб 16:11:33 № 1478097 260

Бля, все варианты развития сюжетов неинтересны, романсить кого то неинтересно, придумывать любого персонажа и играть им тоже. Я два года играю рп на локалках и походу всё, приехал. Всё сводится примерно к одному, и не из за слопа, а впринципе. Я кого не отыгрывал, это только ебанутого маньяка - злодея который кишки на кулак наматывает, но врят ли это будет интересно. У вас была такая хуйня, что вам помогало?

Аноним 03/01/26 Суб 16:11:55 № 1478098 261

изображение.png 140Кб, 1515x414

>>1477798
А, всё ещё хуже. Там оказывается проблема с выделением памяти на процессоре.
Мне просто в голову не пришло, что это CPU, а не GPU - а выглядят они похоже. То есть если на GPU у меня не очень много памяти и в fp32 это не влезет и такое может быть, если там лишняя копия, но не на CPU же...
Как выяснилось, этой фигне нужно 51 ГБ RAM на 12B модельку. Причём там код, ну сам видишь. c=a-b. Это можно было бы переписать в два раза более компактно по памяти, уже не говоря о том, что у меня есть сомнения, для чего там используется именно fp32.

Причём я даже понимаю как это переписать для двойной экономии памяти, но это же каждый раз придётся делать, шиз перепишет что-то и выпустит версию 0.19 и надо будет заново смотреть что он изменил и где эта жесть там спряталась. Капец. Код просто отвратительный, ощущение, что он его вайбкодил. Ещё и он вроде как ловит ошибку, но из-за того что он зануляет веса там где-то чуть позже он стирает рабочую директорию, лол, и надо заново конвертить с нуля.

Аноним 03/01/26 Суб 16:13:43 № 1478104 262

>>1478098
То есть если бы он "обработку" ошибки не делал и программа бы просто упала - то хотя бы осталась копия в рабочей директории.
Эх. Куда этот мир катится. Надеюсь у этого типа драйвер в сетевой карте напишет кто-то примерно так же. Желатель, чтобы там прошивка сбивалась перезаписывая часть памяти, если что-то происходит.

Аноним 03/01/26 Суб 16:24:31 № 1478119 263

>>1478098
Скачай уже ггуфы и не морочь себе голову. Не такие там потери, чтобы стоили этой ебли.

Аноним 03/01/26 Суб 17:10:51 № 1478171 264

Где пресеты то брать? В шапке ссылка на HF - 404.

Аноним 03/01/26 Суб 17:15:33 № 1478176 265

Получил свою карточку с ВБ pg503 (одна из версий v100) от китайца, в предвкушении достал все остальные комплектующие, разложил, подготовился к сборке ииии оказалось нужна ещё отвёртка торкс Т 30 чтобы кулер прикрутить. Да ебана мать. Биту я нашел, но вставлять ее некуда, у меня только шуруповёрт.

Аноним 03/01/26 Суб 17:17:17 № 1478178 266

>>1478176
Нихуя себе... Откуда у тебя деньги на это всё?

Аноним 03/01/26 Суб 17:25:14 № 1478181 267

>>1478176
я кончил и закурил

Аноним 03/01/26 Суб 17:33:59 № 1478188 268

>>1478176
Сколько такой комплект стоит? Может ща работу найду, тоже что-то такое собирать буду, я кажется подсел на ИИ в локалке, можно любые темы обсуждать с отключённым шнуром.
>>1478178
РАБотает карлик похоже, соболезнуем ему.

Аноним 03/01/26 Суб 17:39:54 № 1478192 269

>>1478188
> можно любые темы обсуждать
кроме того, чей остров, чей полуостров, и чей Техас

Аноним 03/01/26 Суб 17:41:43 № 1478195 270

>>1478188
За вычетом ОЗУ, которую я брал новую за оверпарйс (32 3200 ддр4) примерно 160к
V100 50к
материнка 12к
БП 40к
ССД 25к (сейчас 40)
Процы QWAT по 12к
Рамки для процов по 500р
Куллеры по 5к

>>1478178
РАБотаю много, трачу мало, из развлечений только комп

Аноним 03/01/26 Суб 17:45:42 № 1478197 271

>>1478192
Ну с моим системным промптом КВНя выдаёт максимально соевые ответы на этот вопрос, прям в стиле за всё хорошее против всего плохого, Гемма отказывается отвечать, умная. Локальный дипхрюк выдаёт про-соевые ответы про полуостров, Техас и Газу, а про Остров молчит. Хотя и лоботомит, но хозяина за хуй руку не кусает.

>>1478195
Кроме оперативы - терпимо. Я больше на велик всрал в своё время, а теперь ножки не ходят.

Аноним 03/01/26 Суб 17:49:44 № 1478202 272

lol.png 28Кб, 547x140

хмм, что бы ещё скачать пока есть свободное место?

Аноним 03/01/26 Суб 18:01:27 № 1478208 273

>>1478098
>Как выяснилось, этой фигне нужно 51 ГБ RAM
Подкачка наше всё. Мне тоже прилось увеличить ФП, хотя казалось бы, оперативки вагон.
>но это же каждый раз придётся делать, шиз перепишет что-то и выпустит версию 0.19 и надо будет заново смотреть что он изменил
Эм... Это ж попенсорс, делай пулл реквест, и твой вклад оценят.
>>1478195
>РАБотаю много, трачу мало
Как так вышло? Я вот трачу мало, но и РАБотаю полгода в году, даунфишу так сказать.
>>1478202
Весь крупняк типа дипсика, притом в оригинале.
>>1478203
>Не ходите в лес
А я и не хожу. И вообще из дома не выхожу месяцами. Б- безопасность.

Аноним 03/01/26 Суб 18:04:51 № 1478212 274

>>1478208
> Весь крупняк типа дипсика,
уже
> притом в оригинале.
нахуя?

Аноним 03/01/26 Суб 18:35:31 № 1478231 275

>>1477808
> Ты уж определись
Html для мелкосеток, чтобы шизомержи видели где {{user}}
ИЧСХ помогает.
## - для групповых чатов, если надо определенные блоки только использовать. Я понимаю что все это выглядит как бред сумасшедшего, но это продиктовано необходимостью и работает.

Аноним 03/01/26 Суб 18:39:10 № 1478238 276

1000300169.mp4 4340Кб, 928x1376, 00:00:06

В треде вроде недавно спорили относительно корпоративных моделей и локалок. Хочу вставить свои пять копеек, так как плотно обкатал грока в РП.

Ну по рабочим задачам сразу скажу, что локалки сосут у корпоративных в большинстве кейсов без шансов вообще, с РП всё поинтереснее. С гроком можно хоть всякие вещи с лолями отыгрывать без джейлов при его-то размерах, и длинные РП-сессии с карточкой и лорбуком невменяемых размеров он работает хорошо, однако именно этот опыт позволил мне познать дзен.

Теперь у меня почему-то нет тряски от лупов, паттернов, тупой хуйни на локалках. Могу спокойно хоть 12б запустить и довольно урчать из-за ебанутого датасета Давида или более сбалансированного анлишеда. Больше скажу — ваши нелюбимые франкенмержи и файнтюны порой дают на клыка горку в плане красоты языка. Конечно, если грока прям чотенько запромтить, он может сделать не хуже, да и ни одна локалка в шакальном кванте (меньше Q8 жизни нет, как грица) не будет соблюдать инструкции так, как грок, с нормальным обучением, ноо.. мне стало как-то похуй.

Да, грок — это круто. Грок — это мощь. Для супер крутых и сложных сюжетов он нужен, вся эта локальная хуйня не выкупит и не выдержит (плюс можно экономить контекст и не объяснять лор горку, скиллы и оружие, так как в датасете дохуя чего есть из нишевых тайтлов, не говоря уже об известном) даже если железо есть на миллионы, кроме самых толстых монстров. Не говоря уже о том, что на контексте 128к сыпятся не только локалки и на таких контекстах их юзать просто нереально, потому что жутко отупеют. Ноо..

Просто всё говно, если смотреть объективно, пережить, почувствовать. И толстые, и маленькие модели после этого в РП воспринимаются иначе. И когда кучу всего наиграл и все яйца высушил, как-то проще относишься к проблемам локалок. Файнтюны ощущаются как готовые лоры под определенные карточки и задачи. Не нужно себе мозги ебать. Запустил и поехал. Инстракт модели на случай, если не устраивает биас или иные нюансы тюна.

Совет анонам со слабыми ПК: пока Илон не закрутил гайки, а РКН чебурнет не прикрутил, посидите месяц-два на гроке. Можно даже через вебморду за 20 баксов (в проект подгрузите карточку, систем промпт, ферст месседж — и готово), без API. Лимитов на сообщения не замечал.

Кстати, гемма реально умничка. До сих пор восхищаюсь, что при таких размерах она ебёт и после грока не ощущается лоботомитом вот совсем, а SWA потрясающе экономит память и в кобольдыне давно есть.

Аноним 03/01/26 Суб 18:41:08 № 1478247 277

>>1478238
> , а SWA потрясающе экономит память и в кобольдыне давно есть.
Можно как-то жить на 24 гб? Чтобы контекст подлинее.
Мимомистарлезависимый

Аноним 03/01/26 Суб 18:46:07 № 1478264 278

>>1478247
Попробуй Эйр, потом за ноги не оттащишь.
64гб оперативы и ты в шоколадном раю.

Аноним 03/01/26 Суб 18:53:31 № 1478278 279

>>1478176
О, ебать, дацн на кватах. Такой же имею. Запилил мод бивис, разгон памяти тепереча работает, способа только как шить без прищепки из бмц не нашел, все бинари уже идой перекопал. Уже мысли дурные лезут попробовать опенбмц скомпилить.
Проверь ещё что бмц сеть ловит, а то может быть косяк в uboot env vars

Аноним 03/01/26 Суб 19:03:36 № 1478294 280

>>1478278
хуя ти хакер

Аноним 03/01/26 Суб 19:04:56 № 1478296 281

>>1478264
> 64гб оперативы
Хотел летом купить ддр4. Сейчас цены сделали вжух в 3 раза. И не хочу уже.

Аноним 03/01/26 Суб 19:08:29 № 1478300 282

>>1478195
>>1478238
Аноны, а что думаете про будущее, будет ли смысл в локальных моделях и железе под них через два года? А через 5 или 10 лет?
160к это пиздец дорого для хобби, я считаю. При том за эти деньги получаешь меньшие возможности чем дает чуть ли не бесплатная подписка на корпоративные модели.
Алсо, я иногда арендую сервак в облаке с Xeon, L4 24Gb VRAM, 32Gb RAM. Он стоит около 50 центов за 1 час работы плюс какие-то копейки за хранение файлов. То есть если ролеплеить постоянно вместо того чтобы на работу ходить по 200 часов в месяц, то это 100 долларов в месяц. Итого получается что покупка железа отобьется по стоимости года через два при условии постоянного использования. А через два года железо может устареть и 24 гига уже не хватит ни на что...

Или рано или поздно пузырь лопнет и корпорации перестанут давать вычислительные мощности народу за дешево?

Аноним 03/01/26 Суб 19:12:36 № 1478302 283

>>1478097
Скорее всего, тебе нужно взять перерыв. Либо, быть может, если ты играешь на мелкомоделях (всё что меньше условной Лламы 70б из плотных или Эира из МоЕшек), то упёрся в некоторый потолок. Если это не тот случай, то поможет либо перерыв, либо смена формата/промпта/идей для карточек/какое-то ещё новое дыхание. Как и в любом хобби или деле, людям свойственно уставать, пресыщаться. Возможно, ты и вовсе больше не заинтересован во взаимодействии с ллм - просто понял, что это такое и какие у него ограничения. Если так, то надо либо пересмотреть всю концепцию (например, воспринимать это уже не как безграничный генератор текста, а как какую-нибудь игру вроде визуальной новеллы с очень большим количеством вариантов), либо найти себе другое занятие по душе. У меня было такое несколько раз, помогали перерывы от нескольких дней до нескольких месяцев. А потом я заебался и дропнул это всё. _{С любовью и пониманием, нюня.}

Аноним 03/01/26 Суб 19:13:04 № 1478304 284

>>1478300
> 160к это пиздец дорого для хобби, я считаю.
это очень мало для хобби, всякий спорт в разы и десятки раз дороже обходится.

Аноним 03/01/26 Суб 19:42:59 № 1478331 285

>>1478300
>160к это пиздец дорого для хобби
160к это без оперативки, с оперативкой сейчас х3.

>будет ли смысл в локальных моделях и железе под них через два года
Если твои потребности закрываются банальным чатом с дипкоком или гопотой, то нет. Если планируешь работать с агентами, то на корпоратах можно разорится. По поводу актуальности железа, пока жора будет пилить лламу, железо будет актуально. Да и в целом, для работы с агентами, даже нынешних моделей хватает, причём мелких.
Для ерп в таверне, как по мне, смысла собирать отдельный риг нет, докупить оперативки и видюху и катать аир и квен.

Аноним 03/01/26 Суб 20:35:26 № 1478381 286

>>1478264
> потом
Первые 2 недели ты хотел сказать

Аноним 03/01/26 Суб 20:40:45 № 1478384 287

>>1477260
Нейронка подхватит что каждое предложение нужно начинать с Nastya. Лучше подсмотри HTML форматирование карточек. Раздели на то что ей нравится, не нравится, и п.р. и отдельным абзацем предысторию.

Аноним 03/01/26 Суб 20:43:33 № 1478387 288

>>1478247
Да. Ну если ты мистраль юзаешь, гемму или малый квен.

Гемма безумно эффективно экономит контекст с включенным SWA (его надо включить в кобольдыне — там он по умолчанию не работает), а в лламе НАОБОРОТ НИЧЕГО НЕ ДЕЛАТЬ — там всё будет из коробки включено. По крайней мере так раньше было. Может щас что-то поменялось. Full SWA наоборот отключает его в том смысле, что окном сдвигающегося внимания становится ВЕСЬ контекст, не последняя тысяча токенов — и кэш раздувается до размеров самой языковой модели и даже больше, лол. Насчёт олламы не знаю, как там, ибо это параша.

На мистрале, возможно, придётся квантануть контекст, если хочешь больше 32к. Но ты сразу учти, что реально гемма и он держат отлично 4-8к, адекватно до 32к, потом уже вот прям деградач идёт. Рпшить можно (всё равно будет лучше, чем на 12б), но сильно зависит от того, что ты там проворачиваешь. Когда начнётся деградач, понадобятся свайпы или корректировки.

Вот эти вот 128к на малых моделях и даже на многих корпоративных чисто фейковые. Формально поддерживаются, но внимание размывается сильно.

>>1478300
Я думаю, что локальный запуск будет даже более актуален, чем сейчас. И стоит запастись моделями на харде.

Ты посмотри, что они делают, как яйца выкручивают. Посмотри на ебучую глэм, гпт осс, гемму. Через пять лет мы можем получить абсолютно всю линейку локальных моделей без упоминаний в датасете о том, что такое писик-сисик (условно), и никакая аблитерация не поможет, потому что как модели писать про писик, если она не знает, что такое сисик? То есть знает анатомию, но как всё это должно РАБОТАТЬ и красиво описываться одновременно — нет. И даже обычное рп может стать затруднительным, ибо убийства, любое упоминание насилия или опасного экшона — харам и запрещенка.

В итоге будет 3 модели (сын, отец и святой дух), которых кое-как всем светом затюнят. Плюс законы адовые могут ввести и супер регулирование, удалить кучу моделей с обниморды. На том же цивитай снесли нахуй тонну крутых моделей, потому что они могут генерировать ЦП. А могут и не генерировать. Ну ты понял. Сейчас даже существуют приватки у ЭАЙ-артистов, мням, которые тюнят сами, чтобы продавать порнослоп с лолями и не только. Я недавно 300 Гб выкачал, ебать там сок.

Что касается пузыря — да, наверняка лопнет. Либо цены будут конскими, либо q4 @ 80-120b-a3b с лопаты будут давать под видом GPT-2000 или, как у Клода, в хорошем качестве, но с адовыми ограничениями, где ты можешь потратить все токены на 4 часа использования буквально за 15 минут. Я уже вижу эту тенденцию у корпов. Плюс никакого писика. И для кого, думаешь, тарифы сделали у Клода, ГПТ, грока за 200 баксов? Там не только лимиты больше, но и качество, даже если модель формально одна. У гпт особенно заметно, так как у Клода модель вроде не меняется, только лимиты. У грока же тебе дают сразу 3 жирных агента (400-1000b МоЕ) вместо одной модели, которая работает над твоим вопросом.

И 160к совсем недорого для хобби. Я понимаю, что не у всех деньги есть, это нормально, но для примера, как бывший фотограф, могу тебе сказать, что пока я гонял с дулом за 400к и фоткал за деньги, видел тонну народа, чей гир стоит несколько миллионов, вплоть до 5-10 миллионов. И они фоткали спины котов, жопы тяно4ек в обтягивающих шортах (издалека, на 300мм, чтобы ебало не разбили), и проперженные подъезды (ВАУ, Я СТРИТ-ФОТОГРАФ НАХУЙ), а также свою мамку на кухне. Просто как хобби. Кстати, у них срач в основном сводился к гиру, цвету, лютому дрочу на характеристики, в то время как какая-нибудь тупая пизда с бэу никоном д750 и дешёвыми линзами 300к получала, фоткая свадьбы, обрезая головы и без композиции. И это при ценах до СВО.

Так что въебать пару миллионов на LLM — это очень адекватно по сравнению с фото, потому что не только для дрочки сгодится. Если вдруг деньги есть, чтобы так потратиться безболезненно.

Аноним 03/01/26 Суб 20:50:24 № 1478393 289

>>1478387
В итоге драммер станем спасением с его порнослоп датасетоп и обучит модель сисику писику

Аноним 03/01/26 Суб 21:06:31 № 1478414 290

>>1478393
Запретят нейронки умеющие в сисик и писик и будешь как педофайлы в скрытосетях качать 500гб, со скоростью 30кб/с. Это если и скрытосети не запретят. Это сейчас всем, в целом, похуй на нейронки, даже картиночные блочат постольку-поскольку, но рано или поздно и до них очередь дойдёт

Аноним 03/01/26 Суб 21:09:03 № 1478416 291

>>1478414
Что то я не вижу чтобы мангу с лолями в Японии запретили.
Пока есть хоть одна такая страна из которой свободно можно хостить чуб и модельки нихуя не будет

Аноним 03/01/26 Суб 21:15:13 № 1478419 292

Кто плотно сидел на 120 мистрали и эире можете сказать есть ли разница?

Аноним 03/01/26 Суб 21:16:02 № 1478420 293

>>1478176
Вот смотрю на этот техно-хентай и первая мысль: а почему еще никто не догадался продавать готовые решения из Китая на маркет плейсах? Ведь так и руку набить можно, и подзаработать, особенно, если разбираешься в железе.

Аноним 03/01/26 Суб 21:17:32 № 1478421 294

>>1478304
Ну бля, может у вас в Москве и мало. В моем Мухосранске если человек потратил больше 30к на хобби потратил то на него посмотрят как на ебанутого.

>>1478331
>Если планируешь работать с агентами
А зачем рядовому двачеру могут быть нужны агенты? Для того чтобы разводить тянок на нудесы что ли?

>>1478387
>Через пять лет мы можем получить абсолютно всю линейку локальных моделей без упоминаний в датасете о том, что такое писик-сисик (условно)
Это да, по мне так это единственная причина почему локальные модели еще не заброшены сообществом.
Но опять же, нахуя свое железо обязательно под локалки? Можно же арендовать сервак в облачном сервисе, я выше писал про 50 центов в час за 24 VRAM видюху. Облаку похуй что ты там на его сервере крутишь, только бабки плати.

Вообще, проблему своего физического железа я вижу в хитрой политике Куртки прежде всего. Куртка специально угнетает владельцев старого железа. Вот выйдет 6000 серия и актуальные модели станут требовать 32 гига. И все 24 Гб видюхи тут же превратятся в тыкву, так же как сейчас 8 Гб видюхи никуда не годятся.
Вот если бы можно было делить модели по нескольким видеокартам, тогда бы был смысл собирать свои домашние серваки.

Аноним 03/01/26 Суб 21:26:45 № 1478425 295

>>1478421
А бля, не заметил что анон Tesla V100 купил. Ну да, 32 Гига это пару лет точно актуально будет. У меня вопросы только к тем кто кучу денег на 16-24 Гб видеокарты тратит.

Аноним 03/01/26 Суб 21:51:16 № 1478435 296

>>1478421
Суть локалок прежде всего в том, что у тебя их никто не отберёт. Даже в сложной ситуации ты можешь крутить сисик хоть на ноуте, если он не совсем дно. Ну мой ноут 10 токенов на 30b квене выдавал, когда тестил. А шо там с твоими серверами будет в стране, с ценами на них, хуй ево знает. Плюс тебе нужно загрузить туда модели и оплачивать ещё дисковое пространство.

Но что самое главное, апи какого-нибудь дипсика дешевле выйдет по итогу, если уж ты в облако решил полезть, и там тоже можно генерить любой треш без ограничений. То есть локалки (которые уже не локалки как бы, раз не в твоих руках) в таких сценариях не нужны. Да и на опенроутере хостится куча файнтюнов за совсем уж гроши, на которые школьник с обеда насобирает за два дня и кумить без остановки будет. Это если на всяких мистралях там и дешмане вроде лламы 70б.

Аноним 03/01/26 Суб 22:06:58 № 1478442 297

я обязательно р[...].jpg 298Кб, 1080x1080

Анонасы, если выбирать между mi50 и v100 (обе 32гб), че лучше взять? Хуй на цену, но с другой стороны я готов выделить отдельный риг с линуксом, поэтому вопрос чисто в цене на токены в секунду. И текст и картинки.

Допмомент, если карты околоравнозначны - профит от 2х Mi50 против 1x v100?

Найти какое-нибудь приемлемое сравнение двух картонок прям сложно, по поводу ми50 оче много нытья про хуевые дрова, костыли и rocm, причем это потихоньку продолжает фикситься.

Аноним 03/01/26 Суб 22:10:26 № 1478444 298

>>1477743
Я чет провтыкал это. Короче проверил все слоты двумя видюхами.
Во первых, по твоей хуйне, если ноде, то показывает что в разных корнях, а с пхб всегда попадают в один корень. По словам нейронки там 4 канала по 32 линии, тобишь больше двух х16 в пхб не запихнуть.
Ну и второе, слоты в одной группе - это 3-5 и 1-7. А я изначально думал что синий и фиолетовый это 2 большие группы. Выходит что группа это одинаковый номер.
На скринах ничего особо интересного, просто что я это не из головы выдумал. Если корень это одна физическая группа, то деление именно такое как на схеме. Для 0 и 1 канала точно, для 2 и 3 предполагаю, не проверял.

Аноним 03/01/26 Суб 22:17:45 № 1478449 299

>>1478442
Ми50 имели смысл за 10-12к, сейчас за 30-45 нахуй не нужны когда дуал в100 на схм борде с охладом и доставкой 70-75 (если подзаебаться с тао).
Собственно обладатель 4х мишек

Аноним 03/01/26 Суб 22:19:26 № 1478450 300

>>1478442
> это потихоньку продолжает фикситься
Самовнушение. Gfx906 is deprecated и уже пол года точно не поставляется в бинарях, только ручками ребилдить и вопрос времени когда код будут выпиливать

Аноним 03/01/26 Суб 22:24:59 № 1478455 301

>>1478449
Лошпеду без кашлятельного навыка в сторону китайской площадки доступны только нормисные варианты, v100 на 32гб на алике стоит от полтоса.

Аноним 03/01/26 Суб 23:14:37 № 1478482 302

>>1478387
>окном сдвигающегося внимания
Ходили слухи, что "узкое" окно лоботомирует внимание к контексту до уровня мистральки, и лучше оставлять full. Или это уже в прошлом?

Аноним 03/01/26 Суб 23:25:07 № 1478489 303

image.png 37Кб, 830x147

image.png 15Кб, 692x106

>>1478444
да, похоже на то.
У меня на хуанане кстати три карты в PHB. Надо было тебе хуанан брать.
комплект брал в декабре за 24к на авито. Мать, 64 гб памяти ддр4, проц.

Аноним 03/01/26 Суб 23:45:57 № 1478495 304

>>1478482
Да. Она видит полностью последнюю тысячу токенов, и это именно тот метод, с которым рекомендует работать Гугл, в ином случае у тебя kv cache будет 14 Гб весить, если контекст большой. Но если влезает в память и тебе так комфортно, то можно попробовать. Другое дело, что модель не расчитана на full swa и мне неизвестно, как она будет работать на больших контекстах с ним: я с релиза геммы сразу запускал её правильно, за исключением тестов.

Когда используется скользящее окно, инфа вне окна проходит не через все слои, а через 8 у неё, кажется. И получается смешная ситуация в стиле: 1 Гб на 1к токенов и 500 мб на остальные 31к токенов.

Я проводил тесты "иголка в стоге сена" на 32к и модель стабильно обсиралась с обычным SWA, который нужно использовать. А вот с фулл — не всегда. Так что, видимо, оно не создаёт никаких проблем, если можешь себе позволить.

Тем не менее, когда речь идёт про рп, это куда менее критично, потому что не куски кода или математика, а куча размазанных смыслов по тексту. Она худо-бедно соберёт их в кучу и уж прям шизу писать не станет до 32к. И она с не фулл сва всё ещё лучше мистраля работает: помнит, понимает, соблюдает инструкции.

Так что если есть выбор между "фулл сва или больше квант" (у тебя фулл ведь отъест пиздец сколько памяти), лучше квант пожирнее.

Аноним 04/01/26 Вск 01:08:35 № 1478533 305

>>1478419
>Кто плотно сидел на 120 мистрали и эире можете сказать есть ли разница?
Конечно. Лардж получше большого Квена будет так-то, для некоторых задач. Плюс тюны на него есть хорошие, проверенные. Ну а Эйр можно гонять на инглише до очередного затупа, чтобы после подключить Квен. А потом Лардж, когда затупит и Квен.

Аноним 04/01/26 Вск 01:41:45 № 1478550 306

аноны, есть ли прирост производительности на ведре если я запущу специальный gguf оптимизированный для arm?

Аноним 04/01/26 Вск 03:40:50 № 1478603 307

>>1478550
Может есть, а может нет, тестить нужно. В теории что-то должно стать лучше, что именно зависит от того, что в кванте накрутили. Может скорость быть выше или размер меньше или ещё что. А ещё квант может быть сломанным к херам, или бэк. Качай и тести

Аноним 04/01/26 Вск 03:43:15 № 1478604 308

Скачал от нехуй делать немомикс 12б q4 с которого вкатывался во всё это, потом скачал магнум того же размера и кванта.
И как же эир сосёт в некоторых моментах, особенно в куме, прямо чувствуется душа и главное, реальное отсутствие цензуры.
В кокбенче эир 50% кока набрал, а немо 65%, а по ощущениям у эира 10%, очень часто он смягчает углы, сиськи орбами, блять, называет, хуй стволом и тд. пока ему прямо не скажешь так не делать, а немо никакие подсказки не нужны

Аноним 04/01/26 Вск 03:47:26 № 1478607 309

>>1478489
>У меня на хуанане кстати три карты в PHB
Но там же только третья псина? Я с таким же успехом могу через бифуркацию на х8 4 штуки повесить, будет та же скорость.
Больше интересно где есть полноценная четверка. Ну и пятерка тоже. Так-то рил вариант одну хату продать ради рига 5090, если под него будет задача что-нибудь серьезное пообучать...

Пишут вроде что именно включение p2p сильно уменьшает задержку:
https://www.reddit.com/r/LocalLLaMA/comments/1n3qcqn/patched_p2p_nvidia_driver_now_works_with_multiple
Что для ллм критично, так как синхра идет каждый слой. Разница с обучением на порядки именно в плане важности задержек. А пропускная способность не так важна, так что вероятно весь ваш проеб токенов приходится на отсутствие p2p.
Ставьте патченный драйвер, и смотрите че как поддерживает софт эту хуйню или нет:
https://github.com/aikitoria/open-gpu-kernel-modules

Чтобы заработало надо хотя бы изгнать sys из топологии, путем отключения всяких виртуализаций и т.д.
nvidia-smi topo -m

Есть еще драйвер для датацентров:
https://www.reddit.com/r/LocalLLaMA/comments/1ngccrv/speedup_for_multiple_rtx_3090_systems
Надо включать Resizeable BAR или патчить биос если такой настройки нет https://github.com/xCuri0/ReBarUEFI https://github.com/terminatorul/NvStrapsReBar

И да, p2p скорее всего только на прыщах работает. На wsl вообще ничего не работает нормально, все данные гоняются через ram.

Аноним 04/01/26 Вск 03:58:12 № 1478610 310

гойс, появилась идея по разным параметрам попробовать симулировать осознанное принятие решений, я на питухоне сделал небольшую консоль аппку, и сначала без ллп, чисто на условных ответах, а сейчас подключил третью лламу. Вопрос в чем, ИИ постоянно гличует выдает кривые ответы или пишет тех инфу в сам ответ, а не в отладку. Так же, есть ощущение, что ллама не умеет в личную инфу типо интересов или настроения, она упорно игнорирует факт хуевого настроения и продолжает писать радостные сообщения, хотя в промпте, который дополняется настроением/событиями/интересами это есть. Мб есть у кого опыт созданиия такой шняги? Я хочу чтобы это был не просто чат-бот, а офк не самосознание, но его симуляция. Так же по фану сделал вебморду, так что смогу с телефона даже чатиться при запущенной ии на пеке. ЛЛМка у меня небольшая - 4гб весит, железо слабенькое, букич 18 на рпро 555х.

Аноним 04/01/26 Вск 03:58:51 № 1478611 311

>>1478604
Можешь ещё эту модельку сравнить? https://huggingface.co/FlareRebellion/WeirdCompound-v1.7-24b
Она удивительно хорошо пишет по сравнению с другими в своей весовой категории.

Аноним 04/01/26 Вск 04:05:12 № 1478613 312

>>1478610
Лама это кал. Можно бесплатно взять апи моделек, которые будут на порядки лучше твоего локального лоботомита.
Дальше уже смотри на мое-ллмки которые могут эффективно утилизировать и видюху и рам вместе, либо только рам.

Аноним 04/01/26 Вск 04:07:30 № 1478615 313

>>1478613
Блин, я рассматривал апи варианты, но прям хочу локальную, насчет мое-ллм спасибо, гляну, мб есть какие-то определенные, на которые стоит заострить внимание? Я видел много кто мистраль хвалит

Аноним 04/01/26 Вск 04:22:28 № 1478618 314

Китайцы продают 3090 48 Гб. На реддите даже нашли биос https://www.techpowerup.com/vgabios/267498/267498
Хули у нас никто не делает мод? Ебать, я бы так апгрейднулся, дал бы пососать всем местным риговичкам на 5090.

Аноним 04/01/26 Вск 04:23:59 № 1478619 315

>>1478615
Вот вроде маленькие подходящие под то, что ты хочешь. Пробовал?
https://huggingface.co/TheDrummer/RimDialogue-3B-v1
https://huggingface.co/p-e-w/Qwen3-4B-Instruct-2507-heretic

Эта может чуть лучше прошлых будет но обучено на фурри:
https://huggingface.co/mradermacher/L3.1-8B-Animus-V12.2-i1-GGUF

Аноним 04/01/26 Вск 04:27:01 № 1478620 316

>>1478619
Спасибо огромное! Попробую, посмотрю похожие еще, с фуррями ненада ахвххвахваавххвахавх

Аноним 04/01/26 Вск 04:43:54 № 1478622 317

>>1478620
Ты в целом можешь сам посмотреть какие модели вообще имеются вот по этой таблице https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard , раз моделька на 4гб работает нормально то смотри вплоть до 8b параметров (столбец с буквой Р) и скачивай GGUF соответствующего размера.

Аноним 04/01/26 Вск 05:28:49 № 1478640 318

image.png 40Кб, 697x231

Как вы это объясните?

Аноним 04/01/26 Вск 05:35:02 № 1478642 319

>>1478640
"Soon" - понятие относительное.

Аноним 04/01/26 Вск 06:10:21 № 1478654 320

А это точно стоит того чтобы запустить эир?

Аноним 04/01/26 Вск 06:39:47 № 1478667 321

>>1478654
1.35к за гиг памяти

Аноним 04/01/26 Вск 07:24:45 № 1478676 322

>>1477514
> не переваривает она старые серверные карты
А в чем их особенность по сравнению с обычными? Может там просто какая-то припезднутейшая конфигурация псин зашита, что по дефолту не может адреса раскидать?
>>1477516
> вообще все мультигпу тесты походу не имеют смысла без инфы какой конфиг был на системе
Переоцениваешь важность этого кмк. Едва ли в каком из инфиренсов можно будет увидеть отличия (кроме разве что sys где через интерлинк данные гоняются), может быть какие-то крохи в ddp. Но обучать что-то крупное на пачке 3090 сейчас не самый вероятный кейс.
>>1477639
Только ручками, на что ты вообще рассчитывал? В модели 65 блоков, дискретность будет огромной если только ими оперировать. Главное - не бить атеншн, линейные можно если там не треш типа х1 псин, а также убедиться что контекст там же где и атеншн.

Аноним 04/01/26 Вск 08:00:28 № 1478683 323

>>1478098
> этой фигне нужно 51 ГБ RAM на 12B модельку
Шиндопроблемы, в этих 51гигах и просто выделенное про запас, и веса что в видеопамяти, и уже что-то актуальное.
> для чего там используется именно fp32
У торча есть нюансы с перекидыванием некоторых типов данных на проц, потому стандартным подходом является .float().cpu(), вангую и тут сейм.
> Причём я даже понимаю как это переписать для двойной экономии памяти, но это же каждый раз придётся делать
Если так все хорошо - сделай пр чтобы оно было имплементировано и сохранилось.
>>1478176
Красивые железки, а для чего двусоккет?
>>1478300
> 160к это пиздец дорого для хобби
Толстишь или рофлишь? Для большинства это цена лишь части эквипа, инструментов, расходников. Офк не начинающего уровня, но и дорогим топом не назвать.
> L4 24Gb VRAM, 32Gb RAM
Днище, ну и А100 80 с обвязкой и достаточно рам выйдет меньше 1$/час
> чуть ли не бесплатная подписка на корпоративные модели
Для начала попробуй ее действительно использовать и поймешь. Как дополнение для отдельных случаев норм. не норм, корпам платить небогоугодно, пусть всратые стартапы все оплачивают
>>1478607
Годно, надо будет попробовать. В инфиренсе ллм эта экономия микросекунд погоды врядли вообще сделает даже с тп, но в других случаях может сыграть.

Аноним 04/01/26 Вск 08:09:19 № 1478684 324

>>1478683
>Толстишь или рофлишь?
ты скорее... за МКАД-ом жизни нет, да?

Аноним 04/01/26 Вск 08:26:18 № 1478685 325

>>1478618
А что для этого нужно? Если бы только память перепаять, будет вообще пушка.

Аноним 04/01/26 Вск 08:46:23 № 1478687 326

image.png 65Кб, 1181x77

Меня приложили

Аноним 04/01/26 Вск 09:03:15 № 1478688 327

>>1478687
>он ролеплеит с персонажем, который может говорить

Аноним 04/01/26 Вск 10:22:53 № 1478707 328

>>1478688
Ты ролеплеишь с персонажами, которые ещё не научились говорить? Больной ублюдок.

Аноним 04/01/26 Вск 10:35:30 № 1478709 329

Оно будет работать на двух процессорах одновременно?

Аноним 04/01/26 Вск 10:38:24 № 1478710 330

>>1478709
Нет. Софт увидит два+ цпу и испугается 100+ потоков. Все корпы сидят на сингл цпу бордах

Аноним 04/01/26 Вск 11:06:17 № 1478724 331

>>1478710
>Софт увидит два+ цпу и испугается 100+ потоков
Разве это так работает? Они же объединяются просто в потоки, без раздела на количество цпу, не?

Аноним 04/01/26 Вск 11:12:05 № 1478727 332

>>1478724
1. Это была ирония
2. Гугли как работает нума

Аноним 04/01/26 Вск 11:12:21 № 1478728 333

>>1478724
Нет, гугли NUMA.

Аноним 04/01/26 Вск 11:38:50 № 1478740 334

Я не понимаю почему эир на чатмл это вообще будто другая модель?
Что за черная магия?
И оно не ломается, мне теперь опять проходить через муки выбора

Аноним 04/01/26 Вск 11:44:42 № 1478743 335

>>1478740
Потому что ты видишь особенности претрейна. А с родным темплейтом видешь уже результаты инстракт-тюна.

Аноним 04/01/26 Вск 11:49:04 № 1478748 336

>>1478740
>>1478743
Бля...
Попробовал темплейт геммы и лламы 3 и так же всё норм

Аноним 04/01/26 Вск 11:49:56 № 1478749 337

Давайте мучить эир пока не найдем идеальный темплейт

Аноним 04/01/26 Вск 11:58:10 № 1478755 338

>>1478749
Лучше давайте соберём гигараспределённый тредориг и зафайнтюним своё васяноговно с блэкджеком и кошкомейдочками.

Аноним 04/01/26 Вск 11:59:24 № 1478756 339

>>1478740
Ну ты и слоупок. Нюня давно спалил годноту, с тех пор и сижу на ЧатМл, без эха и прочей хуйни

Аноним 04/01/26 Вск 12:03:54 № 1478761 340

>>1478755
Проблема в отсутствии датасетов. У тебя есть? Или ты предлагаешь кормить модели их же слопом, чтобы слопа было в 2 раза больше?

Аноним 04/01/26 Вск 12:05:23 № 1478762 341

>>1478756
Дак он же сказал потом что у него было скил ишью и дело не в темплейте, а карточках и промпте

Аноним 04/01/26 Вск 12:12:10 № 1478765 342

>>1476154
>>1476718
>>1477059

https://old.reddit.com/r/LocalLLaMA/comments/1q34etv/clarification_regarding_the_performance_of/nxhyo38/

Аноним 04/01/26 Вск 12:13:46 № 1478768 343

>>1478762
Я нюня и я такого не писал.

Аноним 04/01/26 Вск 12:14:57 № 1478769 344

>>1478683
>Толстишь или рофлишь? Для большинства это цена лишь части эквипа, инструментов, расходников.
Для большинства в Московии? Обычное хобби - это спининг купить за 5к и катушку со всем остальным еще на 5к. Или велосипед Стилс за 20к на Авито взять.

>Днище, ну и А100 80 с обвязкой и достаточно рам выйдет меньше 1$/час
Дорого, и скорее дороже чем 1 доллар с расходами на дисковое пространство выйдет. На runpod 1.2 доллара.
Тогда уж A40 и A6000 по 48 гигов предложу как народный вариант. Цена примерно 40 центов в час.

Алсо, если тратить деньги, то почему на V100 и подобные динозавры из 2017 года? Можно же RTX3090 или RTX4090 взять десктопные. Памяти меньше, но зато можно не трястись что такая подохнет через год от старости.

Аноним 04/01/26 Вск 12:15:07 № 1478770 345

>>1478768
Ты пупуня

Аноним 04/01/26 Вск 12:17:36 № 1478773 346

>>1478761
Остальные сам найдешь:
trudvsem_ru/opendata
Алгоритм тот же, что тут.

Аноним 04/01/26 Вск 12:17:56 № 1478774 347

>>1478761
>Или ты предлагаешь кормить модели их же слопом, чтобы слопа было в 2 раза больше?
Ты только что любой файнтюн

Аноним 04/01/26 Вск 12:23:43 № 1478777 348

>>1478773
>Алгоритм тот же, что тут.
Ух бля, данные вакансий конечно же помогут мне кончить!
>>1478774
Собственно по этому я уже давно не юзаю тюны, максимум аблитерации.

Аноним 04/01/26 Вск 12:34:40 № 1478782 349

>>1478421
> Ну бля, может у вас в Москве и мало. В моем Мухосранске если человек потратил больше 30к на хобби потратил то на него посмотрят как на ебанутого.
хз что за хобби такое, где всего 30к потратить можно и удовлетвориться этим.
возьмём мотоциклы: 30к - это хороший шлем. и всё, больше нихуя.
лан, возьмём велосипеды: 30к - это уже весь комплект защиты. но всё ещё без велосипеда.
возьмём сноубординг: 30к - это одна доска. без нихуя, вообще.
возьмём радиогублюбительство: 30к - это неплохой стартовый набор паяльник+фен+жала+мелочёвка, и самый говённый днищенский осциллограф с самым говённым днищенским логическим анализатором, всё китайские подделки реплики, потому что на оригиналы 30к не хватит.
моё хобби даже брать не будем, там на миллионы счёт идёт.
короче, хобби в виде пердолинга старого серверного железа вполне недорого выходит, на уровне других.

Аноним 04/01/26 Вск 12:42:23 № 1478790 350

>>1478761
Ну собирать датасеты всем тредом. Всяко продуктивнее, чем занюхивать чужие достижения и даже не пытаться делать какой-то свой вклад.

>У тебя есть?
Ну есть, предположим, очень маленький - понравившиеся мне литературные произведения, сохранённые треды с двощей с довольно осмысленными (на мой скромный взгляд) дискуссиями и тому подобное. В лучшем случае десятки или сотни мегабайт текста, а может и меньше. Маловато, но, если задаться целью, можно ещё что-нибудь интересное насобирать. Самому, в конце концов, нагенерить вопросиков, ответиков, решения задач и ризонинга немного. Взять хотя бы те моменты, где нейросетки на мой взгляд обсирались, и самому показать, как надо. Или взять большие и умные нейросетки и показать маленьким и глупым... Хотя нет, погодите, так мы просто будем множить слоп. Вычёркиваем. Ну или на полшишечки, с ручной перепроверкой... Или... Хотя нет, не буду кормить корпов идеями, мне-то потом никто бесплатно ничего стоящего не даст. Лучше буду носить их в себе и дальше. И наверняка не такие уж они и уникальные, и я не такой уж умный, найдутся у корпов другие умники, которые им придумают лучше, чем я. Им вообще-то за это деньги платят, а мне - нет. Вот и пусть отрабатывают, не просто же так взяли на работу их, а не меня.

Дальше встанет вопрос с компьютом, у меня целых 2 среднекарточки, 1 нищекарточка и 1 вулкан-онли карточка, ну и процы. Как раз под мой микродатасет, что-то больше на этом тренить будет больно. Вот и замкнутый круг - зачем собирать датасеты, если нет железа, зачем собирать железо, если нет датасетов. Но периодически мечтаю попробовать что-то своё, недавно вот случилось очередное обострение и уже с месяц крутится идея, я даже почти готов взяться. Вот так и рождаются васяны, наверное.

Но это ещё надо изучить вопрос с тренировкой, на чём это делается, скорее всего повозиться, настраивая окружение питухона, матеря говнокодеров и их блоатваре. Учитывая туманные перспективы тренировки, не хочется даже в это усилия вкладывать. Но надо бы. Если совсем ничего не делать, так и придётся жрать корпослоп. А так хоть попробую, наберусь практического опыта.
А вообще надо ещё смелее экспериментировать, искать новые перспективные архитектуры. Ибо ресурсов на полноценный трансформер у простого Васяна город Тверь никогда в жизни не будет, это точно тупиковый путь для меня (а возможно и для корпов).

Короче говоря, вне зависимости от треда, я рано или поздно этим займусь, раз крутятся такие мысли в голове. Либо так и не "созрею" никогда. Зная себя, даю вероятность 50/50. И около 100% что "выгорю" уже в процессе, так и не добившись никаких интересных результатов.

Аноним 04/01/26 Вск 13:09:09 № 1478822 351

Первый ответ на глм мне очень понравился, прям уровень корпов
Второй на чатмл ну норм, иногда на уровне первого
Какой же эир умница

Аноним 04/01/26 Вск 13:34:50 № 1478838 352

>>1478769
> Обычное хобби - это спининг купить за 5к и катушку со всем остальным еще на 5к.
Это входной уровень. А потом ты понимаешь что в трениках и обычной куртке как-то зябко сидеть по утрам и покупаешь базовый костюм. А потом понимаешь что нужны новые блесна и что-нибудь еще. Потом что под рыбов неплохо бы гермомешок нормальный взять а не с пакетиком таскаться. После обновляешь спиннинг, знакомишься с концепцией слоев в одежде, обновляешь авто на с нормальным полным приводом, несколько раз в год выезжаешь в другой край страны на особую рыбалку, куда зовут тебя друзья с которыми познакомился. Вот так понемногу набежит серьезная сумма.
Никогда ничем не увлекался серьезно?
> дороже чем 1 доллар
0.89 за комплект из гпу, 8 ведер проца, 128гигов рама и 200 хранилища. А ранпод всегда был дорогим.
> Можно же RTX3090 или RTX4090 взять десктопные
Ну, в треде мелькали риги на 3090-5090, на v100 пока что ни одного. Может еще увидим их, карточка чисто для ллм топ за свои деньги, остальное с нюансами.
> не трястись что такая подохнет через год от старости
Наоборот, по надежности она фору всем этим даст, банально нечему ломаться и весь возможно брак уже проявился.
>>1478790
> есть, предположим
Не держи в себе.

Аноним 04/01/26 Вск 13:37:00 № 1478839 353

>>1478790
>понравившиеся мне литературные произведения, сохранённые треды с двощей с довольно осмысленными (на мой скромный взгляд) дискуссиями и тому подобное
И от этой смеси ты будешь требовать ответы на инпут "Я тебя ебу"? Имаджинируешь уровень шизы?
>зачем собирать датасеты, если нет железа
Железо можно арендовать. Арендовать датасет негде. Поэтому датасет первичен.
>>1478838
>А потом ты понимаешь что в трениках и обычной куртке как-то зябко сидеть по утрам и
И терпишь. А потом ещё терпишь. А потом ещё. Потому что никаких ещё 5к нету.

Аноним 04/01/26 Вск 13:43:48 № 1478843 354

>>1478839
>И от этой смеси ты будешь требовать ответы на инпут "Я тебя ебу"?
А с чего ты взял, что я требую именно "я тебя ебу"? Даже если просто будет на широком спектре задач перформить на 0.5% лучше и нигде сильно не просядет, то это уже определённый успех. А вообще можно поискать и такие датасеты. Но у меня их, конечно же, нет, товарищ майор. Ничего такого непотребного не храню, и уж тем более не распространяю, ни-ни!

Аноним 04/01/26 Вск 13:48:43 № 1478845 355

>>1478843
>Даже если просто будет на широком спектре задач перформить на 0.5% лучше
>файнтюн рандомным датасетом чётко сбалансированную нейронку после всяких GRPO
Ну да ну да, конечно же лучше (нет).

Аноним 04/01/26 Вск 13:49:36 № 1478846 356

>>1478845
Ну ладно, раз ты запрещаешь мне даже просто попробовать свои идеи... Пожалуй, откажусь от этого.

Аноним 04/01/26 Вск 13:53:05 № 1478848 357

>>1478846
Тред уже доказал что тут душат любых инициативных челов. Ты тут недавно?

Аноним 04/01/26 Вск 13:58:17 № 1478850 358

>>1478839
Надо было еще в пиздючестве прогореть с того, что тебе не покупают игрушек/хотелок, и пойти учиться на что-то перспективное и интересное тебе (или сразу пытаться в кабанчика), постепенно выстраивая жизнь где у тебя всегда есть бюджет на свои желания. Слишком хорошо жил значит.
>>1478843
> будет на широком спектре задач перформить на 0.5% лучше и нигде сильно не просядет
Без шансов, твоя тренировка рандомом завафлит всю пост-тренировку где как раз шлифуются последние "проценты" и многое уточняется. Максимум на который можешь рассчитывать на своем уровне опыта - усвоение данных и повышение перфоманса в выбранной (узкой) области без радикальной лоботомии и читерства в ответах. Но даже это для начала очень даже круто и ощущается приятно.

Аноним 04/01/26 Вск 14:29:39 № 1478865 359

>>1478846
Где ты увидел запрет?
Ну и если тебя останавливает запрет одного анона, то твоя инициативность полная хуйня, и ты бы так и так обосрался бы.
>>1478848
Хоть бы одного задушенного показал.
>>1478850
>постепенно выстраивая жизнь где у тебя всегда есть бюджет на свои желания
У меня был. А сейчас закончился, докупаю райзеры и всё, денег больше нет и не факт что будет. А потом придётся вообще распродавать, судя по экономической ситуации, лол.

Аноним 04/01/26 Вск 14:39:44 № 1478872 360

>>1478865
>Хоть бы одного задушенного показал.
Нюня на веревке висит уже который тред...

Аноним 04/01/26 Вск 14:48:37 № 1478876 361

Почему нейронка начинает повторять текст, что уже был вместо того чтобы генерить новое дальше?

Аноним 04/01/26 Вск 14:59:11 № 1478879 362

>>1478872
Нюни не существует, его выдумал тред.

Аноним 04/01/26 Вск 15:02:12 № 1478887 363

>>1478879
Ну вот я Нюня. Докажи, что меня не существует.

Аноним 04/01/26 Вск 15:15:16 № 1478904 364

>>1478887
Любой может написать "Я Нюня". Так что тебя не существует.

Аноним 04/01/26 Вск 15:19:35 № 1478909 365

>>1478879
>>1478904
Нюня - это anon1999 или как его там, который выкладывал пресетики, а потом обиделся и всё удалил. Так что это реальный существующий человек.

Аноним 04/01/26 Вск 15:26:46 № 1478914 366

>>1478909
> а потом обиделся
Сам по себе. Сидел и вдруг обиделся

Аноним 04/01/26 Вск 15:35:53 № 1478916 367

>>1478914
Доволен что честного анона с треда изжил?

Аноним 04/01/26 Вск 15:45:18 № 1478921 368

Итак, народ, во первых - с Новым Годом.

Во вторых - на каком сервисе, с учётом возможности оплаты из тайги российской, можно арендовать с почасовой тарификацией сетап чтобы опробовать ваши жЫрные модельки (локально не предлагать - 4 ядра 4 гига "игровая" видеокарта) про которые тут всё трындите.

Корпов тоже не предлагать - да, опенроутер, квен, дипсик рулят, по рабочим задачам пинаю, а вот рпшить хотелось бы более приватно.

Аноним 04/01/26 Вск 15:50:30 № 1478926 369

>>1478921
Думаешь у них там не выводится что ты запускаешь?
Консольки всякие в первую очередь проверяют, это если игродебил то всем похуй
И в отличии от корпов ты в толпе не затеряешься

Аноним 04/01/26 Вск 15:52:57 № 1478927 370

>>1478921
>хотелось бы более приватно
Приватно - это то что не покидает пределы твоего компьютера. Как только что-то куда-то отправляется в интернет - это НЕ приватно.

Аноним 04/01/26 Вск 16:23:31 № 1478978 371

Кто-нибудь пробовал новых корейцев?

https://huggingface.co/NC-AI-consortium-VAETKI/VAETKI

https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Think-32B

Аноним 04/01/26 Вск 16:38:30 № 1478989 372

image.png 187Кб, 1695x491

>>1478978
Ага щас попробую

Аноним 04/01/26 Вск 16:47:20 № 1479000 373

>>1478914
Буквально.
Почему то шизы которых полон тред не обижаются и не уходят, а он захотел и обиделся

Аноним 04/01/26 Вск 16:56:24 № 1479015 374

>>1479000
Как же тебе не похуй

Аноним 04/01/26 Вск 17:18:10 № 1479027 375

Сап. В общем, я заебался что продолжение моей любимой копроигрушки из детства я дождусь только к седым мудям.
Если в вашу хуйню закинуть лор, поселения и персов - насколько мощное рп я смогу отыграть?
Типа как в реальную пошаговую по понятным причинам игру в это можно играть?

Аноним 04/01/26 Вск 17:22:47 № 1479031 376

>>1478909
Спокуха, это моя тульпа была. Просто галоперидольчику бахнул вот и отвалился.
>>1478921
Покупаешь крипту, меняешь на akt, ими расплачиваешься на одноименном ресурсе. Можешь сразу поднимать докер нужного бэка, но для подключения по апи настрой сертификаты и https или же туннель внутри ssh.
Если сложно - на ранподе есть готовые пресеты и видеогайды на ютубе как захостить, с осторожностью относись к сторонним контейнерам и обеспечь шифрование запросов.
Если совсем сложно - опенроутер, его реквизиты закидываешь прямо в таверну, твои запросы могут видеть как сам сервис, так и его партнеры что хостят.

Аноним 04/01/26 Вск 17:25:42 № 1479032 377

>>1478782
>лан, возьмём велосипеды:
Ну, я бы кстати поспорил. Вот это ты меня стриггерил. Я взял горный велосипед за 24к. Без защиты. Откатал на нём 30000 записанных на трекер км и неясно сколько незаписанных. Поменял цепь, втулки (старая, эм, лопнула в заднем колесе, распавшись на части) и шестерёнки на китайские, поставил вилку без амортизатора, ещё где-то за 15к, и вот продолжаю ездить. То есть я точно увлечённый велосипедист - но без дорогого вела, как то что мне понравилась фраза про аудиофилов, у которых золотые провода на урановых подставках (ну вот эти, про ламповый звук и усилители).

К слову, я ещё считал всякий метаболизм, пано и прочее - и у меня получилось, что если не кататься, и именно ехать, то выходит где-то 7 рублей на км (и в том же году с текущими ценами на машину/её средний срок эксплуатации, парковку, бензин и то - получились те же 7 рублей/км), из которых копейки на собственно велосипед, а больше всего уходит на еду. У человека не очень кпд, мягко говоря, а залить бензина на 2 квт-часа намного дешевле, чем закинуться гречкой, хлебом и курицей для человека на 2 квт-часа. Из этой оценки получается, что я только лишней еды съел на 200к+ минимум за это время, который мог бы не есть - а сколько времени я потратил на стрирку, само катание, когда катаешься, а не едешь...
Велосипед по сравнению с этим уже ничего и не стоит. И тем более камеры от проколов глупо считать.

То есть выйдет дороже, если ездить, из-за еды, но начать и вкатиться за 30к более чем можно.
Велосипед мой сейчас не делают, но я нашёл где модель 2016 года поновее за 50к. Ну, да, сейчас бы эквивалентный новый за 60к был, но до этого у меня вел был ещё попроще, и на нём я тоже заметно больше 10000 проехал. Ещё я подбил друга взять вел, он что-то на нём пять раз проехал и поставил на балкон. Новый, очень похожий на мой вел, на которых без обслуживания можно ездить годами - он его за 20к продаст мгновенно, например. Уверен, что на авито есть ещё полно таких же, которым не зашло.

Хобби программиста с 30к тоже можно представить, ноут у людей и так часто уже есть, это может быть даже не связано с дополнительными затратами, 2 ядра 2 гига на ноуте из 2010 хватит чтобы научиться всему, достаточно просто не ставить современные говно-ide, где текстовый редактор с подсветкой и компилятором весит 20гб и кушает 40 потоков. qtCreator хорошо подсвечивает сложный синтаксис и до сих пор очень лёгкий. Если потяжелее, то в общем-то и даже CLion в 2 ГБ влезает, а он даже нейросетевой автодополнение делает. Я школьником был и в 2009 у меня лишних денег не было, и как-то мне это не помешало свою первую игру в 2009 же и сделать на ноуте, где было 512 памяти и целерон.

Любой художник с графическим планшетом...
Гитарист, который у бати может старую гитару взять со шкафа...
А если ты просто петь хочешь или танцевать?
Ну в общем ты понял. Я резко не согласен с тем, что хобби обязательно требует денег. Кучи людей своим хобби занимались в условиях, когда у них вообще ничего нет, и продолжают.
Да даже с нейросетями можно на всяких колабах жить (если колаб ещё живой) или купить одну старую карточку с 16 ГБ (да даже V100 на 16 с переходником, что выйдет всего 20к) и крутить модельки на этих 16. Я очень сильно убеждён, что то что ты будешь крутить гемму на 12b, и не сможешь её поменять на 70b меняет характер того, чем ты занимаешься очень слабо и условно, как и покупка велосипеда карбонового за 200+ к вместо люминиевово горного.

Кстати ещё про фотоаппараты. Там выше про гир за 400к и за 1-5кк писали. В общем фотоаппарат у меня тоже был и даже остался, суперзум с матрицей 1/2.3" дешёвенький. И знаешь сколько десятков тысяч фотографий я с него сделал? Я точно до уровня фотографа-любителя дотягиваю, если смотреть по количеству полученного удовольствия, затраченного времени и возможно я ещё даже чему-то и научился, снимал всё только в ручном режиме.

Дорогу осилит идущий, в общем.
Исключения - это только если ты увлекаешься квантовой физикой и тебе нужен домашний коллайдер (первый не линейный ускоритель кстати был кстати размеру с кувшин и собраз из мусора). Из такого простого и довольно обывательского, может быть астрономия туда попадает. Ну мотоциклы, да, тут бесспорно. Но это точно нихрена не правило, и к ллм оно точно условно применимо. Тут порог входа - это условная гемма e4b, с которой можно играть и ролеплееть и вокруг которой строить raq-систему или что ты захочешь. А она запуститься на любом около офисном ноуте без видеокарты.

>>1478876
Она просто семплирует более вероятные токены. Повысь температуру, покрути настройки самплера. Даже чатжпт последней версии можно в цикл засунуть, если там такой текст, который очень логично сам себя продолжает, не говоря уже про локалки.

Аноним 04/01/26 Вск 17:26:07 № 1479033 378

>>1479031
> Спокуха, это моя тульпа была.
Слышь, вообще-то это я. А ну прочь.

Аноним 04/01/26 Вск 17:51:25 № 1479059 379

>>1478838
>0.89 за комплект из гпу, 8 ведер проца, 128гигов рама и 200 хранилища.
Звучит как-то слишком хорошо для правды. Это где такие мощные серваки за копейки сдают в аренду?
Я говорил о почасовой аренде, то есть сколько часов захотел столько и купил, как на ранподе. Понятно что если на целый месяц 24/7 сервак арендовать, то цена за час будет мизерной.

Аноним 04/01/26 Вск 17:54:30 № 1479061 380

>>1479032
> Я взял горный велосипед за 24к.
Не обижайся, но это продукт идентичный ашанбайку если новый, или что-то между ашанбайк - мертвичина в какой-то пропорции если бу. Не потому что все зазнавшиеся снобы, омвсквичи и прочее, а просто цены космические там. Можно с этим воевать, можно пердолить самосборы с алишки, но рано или поздно просто заебет и смиришься. О ценах могу рассказать, но врядли в этом треде интересно.
> Без защиты
No helmet - no respect. Это как водятлы без осаго, понимание что страховка за несколько лет обошлись бы дешевле какой-то мелочи от современного авто и то что расплата неминуема приходит слишком поздно.
> только лишней еды съел на 200к+ минимум за это время
А ведь неплохо подмечено на самом деле, иллюстрирует бессмысленность экономии если речь о хобби для получения эмоций.
Все описанное тобой - самый базовый уровень, который нужен людям чтобы понять интересно ли и дальше или сохраняется для нерегулярного использования, или продается с переходом на более приличный уровень. Даже просто считая потраченное время на борьбу с недостатками этих вещей по низу, оказывается что они невыгодны. Получаемые возможности совсем другого уровня, эмоции - бесценны.
> Исключения - это только если ты увлекаешься квантовой физикой и тебе нужен
Это исключение, но совсем другого рода - тут платить будут уже тебе.
Также, когда ты достиг определенного уровня, можно монетизировать многие хобби, найдя баланс между ненапряжность-заработок или целиком сделав своей работой.

Не тот анон если что
>>1479033
Опять ты! Побежал таблетки пить

Аноним 04/01/26 Вск 17:54:32 № 1479062 381

>>1479027
>Если в вашу хуйню закинуть лор, поселения и персов - насколько мощное рп я смогу отыграть?
Нейронка может уже знать лор, если игра известная. А отыграть можно, только с суммарайзом самому придётся запариваться ну и выполнять не меньше половины работы, по сути быть гейммастером. Плюс хуйня должна быть большой - Квен, Лардж. Лично я что-то подобное для себя отыгрываю, пока не разочаровался. Но это работать надо, а не только играть.

Аноним 04/01/26 Вск 19:07:53 № 1479094 382

>>1479032
> Я взял горный велосипед за 24к.
> Велосипед мой сейчас не делают, но я нашёл где модель 2016 года поновее за 50к
пчел... речь про сегодняшние 30к, а не про 2007 год

> Я резко не согласен с тем, что хобби обязательно требует денег
ну тут соглы

Аноним 04/01/26 Вск 19:59:29 № 1479166 383

Анончики, может кто сделать EXL из этой модели на bpw4 (12гб)? Вроде модель хорошая, самое то для таких нищебродов как я, но никто EXL нет...
https://huggingface.co/FlareRebellion/BereavedCompound-v1.0-24b

Аноним 04/01/26 Вск 20:00:15 № 1479168 384

>>1479166
>никто EXL нет
никто EXL не сделал еще*

Аноним 04/01/26 Вск 20:03:06 № 1479172 385

>>1479166
У Драммера в Дискорде есть отдельный канал для реквестов exl квантов. Делают быстро.

Аноним 04/01/26 Вск 20:09:41 № 1479180 386

>>1479166
Exl3 или exl2? Если первое, могу сделать. Но не очень быстро.

А тебе зачем? Можешь сказать какое у тебя железо (что за карта/карты, через что подключены, какая оперативка и процессор).
И для любой модельки сравнение с gguf по:
1 - Потребления VRAM
2 - Скорости разбора промта и скорости генерации при пустом контексте, при 4000, при 8000 и других удобных тебе цифрах.
3 - Субъективная оценка не начинает ли моделька шуметь и выдавать бред?

Аноним 04/01/26 Вск 20:20:36 № 1479189 387

>>1479172
Вроде тредовичок делал кванты Сноудропа и других популярных моделей, мб даже до сих пор тут обитает. Не все на буржуйском могут общаться нормально

Аноним 04/01/26 Вск 20:38:17 № 1479203 388

>>1479180
Любой сойдёт.
>зачем?
Разница по скорости генерации в целых 10 токенов по сравнению с EXL (начиная с 18 т/с и падая до 10-8 при забитом контексте). 16гб vram, 64ram ddr4, процессор слабенький.

24B.i1-IQ4_XS
Видеопамяти потребляет одинаковое количество с bpw4 при тех же условиях (15.8),
19108 токенов: Process:266.82s (71.61T/s), Generate:208.64s (2.47T/s), Total:475.45s - bpw4 разбирал около 30-40 секунд (не запомнил), генерировал со скоростью 10 токенов в секунду, и ответ выдал примерно за минуту.
вот 5000 токенов: Process:16.04s (102.92T/s), Generate:82.28s (6.64T/s), Total:98.32s

Шума и бреда не замечал, только положенные ллм галлюцинации.

Аноним 04/01/26 Вск 20:40:34 № 1479206 389

>>1479203
>19108
>5000
Это контекст, ответы же на ~600 токенов. Терпения нет столько ждать.

Аноним 04/01/26 Вск 20:46:27 № 1479214 390

Че там по новым корейским моделям?

Аноним 04/01/26 Вск 20:52:06 № 1479221 391

>>1479203
Загружаю, попробую поставить. Но лучше ещё ребятам которые быстро делают напиши.

У меня просто в обратную сторону получилось, что exl3 медленнее чем gguf, и при забивании контекста деградирует в 2-3 раза быстрее.

Не указал что за карточка, это достаточно важно, так как разные архитектуры. На 50хх может быть больше разница, чем на 30хх. Или наоборот. Я никаких внятных цифр не нашёл, потому очень интересуюсь.

И я не понял к чем какие цифры имею отношение. То есть то что ты написал - это генерация через gguf, а через exl (и на каком) на таком же заполнении контекста какая? Говорят ещё обычный не IQ gguf быстрее, всякие Q3_K_M, по сравнению с любыми IQ

Аноним 04/01/26 Вск 20:54:29 № 1479225 392

>>1479203
Если у тебя exl, то у тебя nvidia, причём из относительно новых. А если у тебя nvidia из относительно новых, у тебя явно что-то не то со скоростями (16 врам - это не меньше чем 4060 ti). Проверь, не вылезло ли в общую ram.

Аноним 04/01/26 Вск 20:58:25 № 1479230 393

>>1479221
>Говорят ещё обычный не IQ gguf быстрее, всякие Q3_K_M, по сравнению с любыми IQ
Быстрее, особенно если выгрузка в RAM идёт. А если фуллврам, но уже не так сильно даже на 30-й серии. Если у тебя врама больше, чем на 4-й I-квант, то стоит конечно искать варианты, экспериментировать. А если меньше, то можно и забить и юзать гггуфы.

Аноним 04/01/26 Вск 21:02:41 № 1479234 394

>>1479221
Что за железки, квантуешь ли кэш?
Фишка exl3 в значительно меньшем замедлении генерации и процессинга по мере роста контекста по сравнению с жорой. Для больших моделей и больших контекстов это по сути делает экслламу безальтернативной, исключение - дипсик, где падает не так уж радикально. Ну или есть это какая-нибудь 30а3, где падение с 70 до 30 можно все еще приемлемо.

Аноним 04/01/26 Вск 21:07:01 № 1479236 395

>>1479190
> а какая реальная польза от ваших бесед с ботом? для чего оно?
> спорт развивает тело, искусство можно показать другим, а это что, о чем? хуже игр даже
Таки предположим, что ты не тролль, а зрелая личность, которая задается вопросом - добро или зло эти ваши ЛЛМ? Приносят ли они пользу, вред или ничего? (Противоречие: зрелая личность не будет на анонимной борде рассказывать людям что им делать, а что нет. Но я сознательно потрачу пять минут жизни на пасту, может кто другой к обсуждению присоединится. Мне несколько любопытно как к этому увлечению относятся тредовички и для чего используют)

ЛЛМ - это инструмент. То, как ты его используешь, зависит от тебя самого, твоих желаний и возможностей. Увлекаюсь всей этой темой уже полтора года, и за это время успел побывать на качелях "Вау, я счастлив" <-> "На что я трачу свое время?"

ЛЛМ - это не только чатбот. Чатбота рассмотрим позже. Для многих это, прежде всего, инструмент. Например, я благодаря Гопоте Осс и Квену быстрее осваиваю новые языки программирования и фреймворки, иногда успешно нахожу баги, на которые не хочу тратить время сам или в которых не могу разобраться ввиду отсутствия опыта. В качестве кодревьюера/условного наставника ЛЛМ работают неплохо.

Используя OCR и гоняя Гемму 27 на одной лишь моей 4090, мне удалось прочесть несколько книг, визуальных новелл и пройти несколько игр на недоступных мне языках - японском, китайском и даже индонезийском. Теоретически, это можно было бы сделать и без ЛЛМ, но процесс удобен и быстр. А то, что удобно и быстро, становится доступнее и приятнее к использованию.

Теперь к чатботу. Считаю вопрос действительно спорным, неоднозначным, поскольку осознаю, что конкретно для меня иногда эта тема приносит больше проблем, чем бенефитов. Иногда. Используя ЛЛМ как чатбота для общих задач (не рп), я иногда "выговариваюсь" - обозначаю свою проблему и, в процессе изложения, часто сам же и прихожу к ее решению. Или получаю действительно годный совет, к которому вряд ли пришел бы сам и на поиски которого в интернетах потратил бы кучу времени и по пути забил мозг ненужной информацией. Конечно, нужно иметь голову на плечах и смотреть на все это сквозь призму скепсиса, ибо это не бог в машине (привет агишизам). Используя же ЛЛМ как чатбота для ролеплея, я, например, сознательно бегу от реальности. Для меня это самая противоречивая часть, но я даю этому отчёт. Ввиду некоторых причин, объективных и субъективных, я не слишком социален (почти мизантроп). Но человек - существо социальное, от этого никуда не деться. В итоге я восполняю отсутствующий опыт ЛЛМками, как СФВ сценариями, так и гунингом. Конечно, существуют литература, кинематограф, анимация и много что еще, но все это не дает той обратной связи (пусть и фальшивой, существующей только у нас голове), которую дают ЛЛМ. Для меня недостаток один - я могу увлечься и потратить на это больше времени, чем хотелось бы. Часто это происходит, когда на душе погано. Часто это усугубляет проблему. Стараюсь держать себя в узде. Заметил, что в последнее время искренне потянулся к литературе - несколько месяцев читаю художественные книги, в том числе классику, о чем не мог помыслить ранее. Побег от слопа и от зависимости привел к этому, и я ни о чем не жалею.

Аноним 04/01/26 Вск 21:07:22 № 1479237 396

>>1479221
Извини, голова болит, как-то нескладно пишу. 4060 ti. EXL3 bpw4.0_H6

Вот генерация того же слайда что на 19108 токенов был используя EXL, но я случайно тысячу токенов срезал. Process: 1536 cached tokens and 16580 new tokens at 626.37 T/s, Generate: 10.99 T/s, Context: 18116
tokens)

То есть не должно быть такой разницы в скоростях?

>>1479234
>квантуешь ли кэш
Что-то очень странное. Да, на EXL квантовал, а в первый раз забыл ггуфу то же самое сделать. В итоге ггуф теперь даже быстрее? Пиздец.

Тот же ггуф но с q8 кэшом
CtxLimit:19629/24576, Amt:521/2000, Init:0.17s, Process:20.04s (953.30T/s), Generate:36.95s (14.10T/s)

Аноним 04/01/26 Вск 21:09:35 № 1479241 397

>>1479237
Я так понял, из-за того, что я кэш не квантовал - он в оперативку вылезал и замедлял генерацию постоянно?

Аноним 04/01/26 Вск 21:17:15 № 1479253 398

>>1479237
> Generate: 10.99 T/s
Для фуллврам это как-то маловато, пусть в 4060 память медленная, проверь хватает ли врам, судя по симптомам и размеру модели очень похоже на выгрузку в рам драйвером.
В качестве размышлений, экслламовские кванты сами по себе сложнее для расчета, может на младших картах там есть какой-то прикол с нехваткой компьюта. Но это довольно маловероятно, даже так операции слишком простые и они асинхронные, вот квантование контекста может играть.
И да, контекст в целом лучше не квантовать если хочешь хороших аутпутов. Лучше пожертвуй скоростью и выкинь часть на проц чтобы помещалось.

Аноним 04/01/26 Вск 21:26:33 № 1479257 399

>>1479237
>Process:20.04s (953.30T/s), Generate:36.95s (14.10T/s)
Вот это уже больше похоже на правду.

Аноним 04/01/26 Вск 21:45:09 № 1479268 400

>>1479253
>Лучше пожертвуй скоростью
Какая скорость считается адекватной?

Аноним 04/01/26 Вск 21:49:26 № 1479272 401

>>1479241 >>1479237
Флаг -v в llama-server ставишь, и смотришь, оно прям пишет какой тензор на какое устройство скинуло и то же самое по кеш и некоторому компут-буферу.

Да. У меня получилось с даже с fp16 кешем gguf быстрее. При этом у exl3 кеш только в 8,8 - 16 бит не поставить. Сразу как я ставлю кеш в gguf в Q8_0 - оно уходит в лютый отрыв на любых длинах контекста по всем скоростям. При условии, что не падает ни одного тензора в CPU, а на exl3 оно и не может упаться в RAM.

Помимо прочего, я критическую едва влезающую модельку тестировать. С Q8_0 32к контекста влезло и скорость падает с 30 до 20 в gguf. exl3 не запускается даже на 8192 контекста. Запустилось только на 7936, или с кешем в 4,4, например.
Вес весов модельки без эмбеддингов при этом совпадает до процента, я специально подгонял. То есть какие-то вот эти компут-буферы у exl3 тоже есть, и они тяжелее. И вообще как-то это всё сомнительно.

Я не смог нагуглить информацию, чтобы exl3 выигрывал при равных размерах.
Реальная польза как я понял в том, что почти во всех gguf слой эмбеддингов квантуют в Q8 или Q6_K, а этот слой:
- почти ничего не даёт от размещения на видеокарте.
- llama-server по умолчанию держит этот слой на CPU и так.
- очень чувствителен к квантованию, и потому его лучше оставлять в fp16 (это то что нашёл, первые два пункта - факты, а вот тут только слова из сети и общие размышления про хранение информации в многомерном пространстве)
Потому при схожем потреблении VRAM но слое эмбеддингов в fp16 exl3 и выдаёт такие хорошие перплексити, как вот на этом графике. Я бы очень хотел посмотреть что за gguf использовался в этом тесте, и не будет ли у Q4_K_M квантов такой же перплексити как и у exl3 при равном размере без эмбеддинга, если им слой эмбеддингов выставить в fp16.

Аноним 04/01/26 Вск 22:21:59 № 1479292 402

image.png 18Кб, 347x116

Какие вы промпты для <think> используете?

Аноним 04/01/26 Вск 22:44:38 № 1479324 403

>>1479268
Индивидуально и от задачи. Для чата в целом в диапазоне 5-10 большинство находит приемлемым, для чего-то агентного с кодом от 25.
>>1479272
> Флаг -v в llama-server ставишь, и смотришь, оно прям пишет какой тензор на какое устройство скинуло
Оно не покажет если драйвер выкидывает врам в рам.
> Сразу как я ставлю кеш в gguf в Q8_0 - оно уходит в лютый отрыв
Это оно, просто начинает хватать врам чтобы не выгружаться.
> Я не смог нагуглить информацию, чтобы exl3 выигрывал при равных размерах.
По скорости? Малое пересечение аудиторий чтобы сравнивали, большинство вообще мелочь с выгрузкой на жоре катают и просто не имеют альтернативы, но мнение имеют. Тут работяги не могут дилетантские ошибки с переполнением врама заметить, о чем вообще говорить?
А так зависит от модели и контекста, в ряде случаев на пустом gguf может быть быстрее из-за простого квантования и чуть меньшего цп оверхеда, на iq квантах околопаритет. Но по мере накопления контекста в жоре идет просадка как обработки, так и генерации, причем чуть ли не в геометрической прогрессии. Если сравнивать за последний год то жору неплохо ускорили, но фундаментальная проблема никуда не делась. На 60-80+к моэ пользоваться уже невозможно, там где было тг 50т/с становится 20 и меньше, там где было 20 становится 6. Так еще и кванты довольно припезднутые.
> Реальная польза
Головы и эмбеддинги везде стараются не ужимать. Реальная пользова жоры - возможность запуска на цп при нехватке врам и поддержка множества апи выполнения.
> лучше оставлять в fp16
Особенно когда оригинал в bf16, лол. 8 бит хватает с запасом на все, что собственно и используется.
> и не будет
Не будет, принципы квантования важные. И перплексити так себе метрика, лучше дивергенцией мерить.

Аноним 04/01/26 Вск 23:40:32 № 1479357 404

>>1479236
>могу увлечься и потратить на это больше времени, чем хотелось бы
>Часто это происходит, когда на душе погано. Часто это усугубляет проблему.
да это же я. парадокс в том, что я больше времени проебу на поиск нужного прона. кто по ванилле те знают, что найти годноту нынче сложно, кругом звенящая пошлость. а тут и искать не надо ничего, и обман есть в виде какого-никакого фидбека от нейронки. очень сложно слезть с этого, а с другой стороны коришь себя что это все обман чтобы набрать классы и такого никогда не будет, да и вообще надо идти работать, еблан

Аноним 04/01/26 Вск 23:43:11 № 1479361 405

>>1479292
никакие, ризонинг жрет токены и не привносит разницу или даже отупляет сетку

Аноним 04/01/26 Вск 23:54:32 № 1479370 406

>>1479292
>Какие вы промпты для <think> используете?
"<think>Хорошо, я получил задание продолжить сценарий с учетом предыдущих событий и указаний." Для ролеплея, без закрывающего тэга, чтобы продолжил думать, ну и сойдёт за префилл заодно. Чтобы думал сразу по теме, а не о том, хороший запрос или плохой.

Аноним 05/01/26 Пнд 00:03:03 № 1479373 407

>>1479361
Зависит от модели. Иногда из лупа может помочь выбраться.

Аноним 05/01/26 Пнд 01:18:36 № 1479387 408

>>1479292
STATUS CHECK: [Non-Erotic | Building Tension | Active Intimacy]
PACING PROTOCOL:
IF Non-Erotic: Identify "The Brakes" (External barriers, plot reasons, or emotional walls preventing intimacy).
IF Active Intimacy: Identify "Friction" (Physical constraints adding realism: stamina, awkward angles, oversensitivity, messy fluids). Do NOT stop the scene, but complicate it.
NEXT ACTION: [Concise intent for the next output]

Вот эта хуйня шикарно работает, если уже не интересно когда даже самый агрессивный персонаж снимает штаны лишь по одной просьбе, то можешь попробовать добавить. По своему опыту могу сказать что убирает положительную предвзятость в сторону юзера даже вне ерп.
100% можно сократить, в теории нужно поменять формулировки под привычные модельке, но мне как-то лень пока.

Аноним 05/01/26 Пнд 02:24:36 № 1479420 409

Эир
Никогда

Аноним 05/01/26 Пнд 02:48:19 № 1479440 410

Дайте советов мудрых. Лучшие материнки на третьей писе для рига, чтобы подключить многамногакарт. В наличии уже есть 128 DDR4.

Аноним 05/01/26 Пнд 03:16:33 № 1479474 411

>>1479440
На десктопной ддр4 - x299. Ищи с наилучшей конфигурацией линий и слотов. Наиболее удачная х16 + х16 + х8 процессорных, встречаются и с даблерами на 4 слота х16, но такую хрен найдешь.
Вариант в обычную еще воткнуть платы на plx8749 и сможешь воткнуть до 4х карточек по х16 с парой, или до 8 по х8, также доступны комбинации.

Аноним 05/01/26 Пнд 03:24:46 № 1479482 412

>>1479474
Так, а если я хлебушек в знании материнок? Можешь дать пинка в направлении того, как именно искать. А то я читаю все сообщения от анонов по их ригам, у них там каждая первая материнка модели huizhopa13444 EBA-1488, как мне такое искать - ума не приложу.

Аноним 05/01/26 Пнд 03:33:17 № 1479489 413

>>1479482
Это старая hedt платформа, продавалась в обычных магазинах. На лохито вбей x299 или lga2066, там будут варианты материнок от популярных брендов и процов, гуглишь спеки и смотришь. Главное проц бери с 44 линиями, это 7900x, 9900x, 10900x и выше номерами.

Аноним 05/01/26 Пнд 03:36:18 № 1479491 414

Эир единственная модель где у меня не получается соблазнить тянку, вот просто никак, только силой/уловками/доолгими уговорами сквозь драмму её взять и в процессе уже ей норм, но в этот момент модель будто ломается, было здравое рп, стало какое то дешевое хрючево из читайгорода.
Просто здоровые отношения/перпихон построить не выходит, обязательно нужна драмма, накал эмоций, будто бабы ебаться не хотят

Аноним 05/01/26 Пнд 03:38:02 № 1479492 415

>>1479482
Я б/у x399 взял. Три слота pcie 3.0, 4 канала памяти до 128 гб суммарно. Вот, лежит крутится memtest гоняет второй день на этих 128.
Но это всего три карты. Я нашёл ещё разветлитель видел аж на 4 провода, можно в каждый слот по 4 карты воткнуть на х4 скорости.

На том же авито вижу кучи 299, часто с процессором по 10-20к, есть с 4 слотами х16, но это скорее будет 16+16+8+8 или ещё что-то такое, что, впрочем не страшно.

Вот ещё картинка. Пишут что по х8 на слот выдаёт. Если тебе прям многамногакарт, то я бы наверное вот что-то такое за 30к взял - это почти ноль по сравнению с ценой любых 7 карт. Не б/у для pcie 3.0 я бы не стал брать.

Аноним 05/01/26 Пнд 03:41:06 № 1479493 416

>>1479440
Проверенное временем и кучей людей rd450x, но это прям совсем для нищуков. Если найдёшь дацн.469535.031 до 20к, то тоже норм железка уже на псине4 и с норм перфом за не дорого с 16 каналами

Аноним 05/01/26 Пнд 03:41:46 № 1479494 417

>>1479493
Бля. Чёт я не подумал что у него обычные юдимы

Аноним 05/01/26 Пнд 03:51:10 № 1479495 418

>>1479492
>Вот ещё картинка. Пишут что по х8 на слот выдаёт.
У меня такая, только 10G-версия и я новой взял. Там PLX-сплиттеры; если возьмёшь к ней не самый днищенский проц, то получишь нормальную поддержку всех 4 карт. С другой стороны все пишут, что не так это и важно и можно брать даже майнерские платы чуть ли не с PCIe-1.0, на скорость инференса почти не влияет. Только еботни с ними сильно больше, если не повезёт.

Аноним 05/01/26 Пнд 04:00:44 № 1479498 419

>>1479495
Угу. Просто внешний plx-сплиттер который тут советовали у китайца сейчас 9к. Если больше чем 3/4 карты ставить - материнка выйдет дешевле или столько же.
С другой стороны внешний можно переставить в другую материнку потом, и он ещё и pcie 4.0 поддерживает якобы. И снова с первой стороны вряд ли анон будет больше 4 карт вставлять в pcie 3.0 с 128 ddr4. А если он готов и будет больше 4 карт ставить, то наверное ему сразу надо материнку брать на 4.0 или на 5.0, они в общем-то сравнительно дешёвые, даже со 120 линиями и честными 7 слотами х16 - если не включать цену процессора и ddr5.

Аноним 05/01/26 Пнд 04:54:59 № 1479533 420

Тестирую exl3 на гемме 270m для скорости.
Это сколько VRAM кушает gguf и exl3 с кешем в 8,8 бит.

Походу exl3 не умеет в SWA.

Вот вывод llama.
Для нормального кеша расходуется ровно 15360 байт на токен.
Для фиктивного 3072 байт на токен.
Там по 256 k и v, 3 слоя для фиктивного, 15 для нормального. (256+256)х3х2 = 3072, (256+256)x15x2=15360. Теория сходится с практикой. И с графиком, где видны это 0.003 МБ на токен.

Теперь смотрим на exl3.
Там выходит 0.0097 МБ на токен, и кеш при этом в 8 бит. То есть при 16 битах было бы ≈19500 байт на токен. Это отчасти похоже на 15360+3072.
Но при 8 битах там в два раза меньше, должно быть 9216, а по факту даже так выше.

Почему так? Вот json сконвертированной модельки, exl3 точно в курсе о том, что такой SWA. Почему так разжирается VRAM от кеша?

Может кто-то ещё на модельках побольше проверить, сколько байт на единицу контекста уходит (и числа n_embd_v_gqa/n_embd_n_gqa) в exl3?
Как-то с теорией не сходится.

Аноним 05/01/26 Пнд 05:28:57 № 1479557 421

А это правда что 2 квант гуфф = 3 кванту exl3 по врам?
Т.е 70б ллама полностью разваливается на 2 кванте, но в 2.25 bpw она на уровне 3 кванта и уже работает?

Аноним 05/01/26 Пнд 05:50:00 № 1479562 422

>>1479166
Модель вообще не оправдала ожиданий... WeirdCompound гораздо лучше и живее. По ощущениям i1-IQ4_XS в несколько раз тупее EXL с bpw4, столько путаницы я вообще никогда не видел (я: задавай мне свои вопросы. бот: ты хочешь задать вопросы? ну рискни!) как будто выбирая между gguf и exl я выбираю между размером контекста (х2 разница) и качеством при +- одинаковой скорости генерации...

Аноним 05/01/26 Пнд 06:25:45 № 1479569 423

Почему в треде ни одного мнения про грок 2 не было?
Типа, ему всего год, это корп дома литерали, 115б активных 270б общих параметров, должны быть аноны с таким железом

Аноним 05/01/26 Пнд 07:32:59 № 1479576 424

>>1479569
>Почему в треде ни одного мнения про грок 2 не было?
Было, просто кто-то всё пропустил. Второй грок говно для своего размера. Третий было бы пощупать интересно, но пиздабол старлиноквый отказывается его выкладывать. И видимо не выложит, пока не выйдет пятый грок.

Аноним 05/01/26 Пнд 07:56:02 № 1479578 425

Вообще грок же дистил очевидный не?
Какие 270б, кто в это поверит

Аноним 05/01/26 Пнд 08:49:32 № 1479595 426

>>1479576
>Второй грок говно для своего размера.
Нормальная модель, по ощущениям где-то на уровне Ларджа. Но совсем не оптимизирована, ничего не поддерживается и заниматься ей никто не хочет. У меня с выгрузкой в РАМ едва шевелилась. Хотя видно было, что датасет оригинальный и модель соображает даже в низком кванте.

Аноним 05/01/26 Пнд 09:26:01 № 1479605 427

>>1479491
>Просто здоровые отношения/перпихон построить не выходит, обязательно нужна драмма, накал эмоций, будто бабы ебаться не хотят
А что тебе не нравится? Реализм 10/10. Бабам нужны эмоциональные качели, им скучен удобничек, писька сухая. И да, бабам ебля не нужна.
>>1479557
>2 квант гуфф
Весьма расплывчатое понятие. Там каждый тензор можно в свой квант, так что нужно смотреть конечную эффективность. Ну или по размеру файла, лол.
>>1479569
Всем похуй, говно залежавшееся, выпустили протухшую модель, которую ебали на тот момент уже 8B.

Аноним 05/01/26 Пнд 10:03:08 № 1479618 428

>>1479491
>было здравое рп, стало какое то дешевое хрючево из читайгорода
Мне кажется в книгах, где описан секс, просто преобладает кал.

Аноним 05/01/26 Пнд 10:12:03 № 1479622 429

Я тут неделю пытался из спортивного интереса использовать локальный Qwen/Qwen3-Coder-30B-A3B-Instruct для котинга через агенты, типа opencode + speckit/openspec и вот это все. и без спеков пробовал.

Пока что ни разу не удалось что то сложное им сделать, максимум - докстринги написать к функциям. Хотя если через llama-cpp чат писать краткие задания - то справляется, но это неудобно

Это я не разобрался или все таки модель очень ограничена?
По моим ощущениям агент много контекста высирает для модели и она начинает путаться и делать что то не то.

Большие модели на ноуте точно не заведутся (3060 6Гб\64Гб).

Аноним 05/01/26 Пнд 10:15:19 № 1479624 430

>>1479618
А как написать не кал?
Тогда будет уже не секс, а душка про тёрку конечностями с размазанным пейсингом
Нормально только так и выходит как в книгах озона

Аноним 05/01/26 Пнд 10:26:22 № 1479632 431

>>1478302
Ну да, ты прав, это пресыщение. Я до сих пор вспоминаю год назад как на обычном немомиксе сначала тыкался, а потом отыграл очень длинный сюжет с одной картой которая мне дико нравилась, но сейчас уже сидя на моделях покрупнее, понимаю что мне нравилась не карта, а эффект новизны и неожиданности. Сейчас вспоминаю этот сюжет, эй пиздец, какую же хуиту модель генерила, она банально не понимала половины того что я пишу, но из за того что я не до конца понимал как это всё работает, но мне всё равно нравилось. А с того момента не отыграл не одного сюжета длинее 100 сообщений, при этом сам писал огромные лорбуки, карты/квенты персонажей с мыслями -"ух бля, щас как заэрпешу", но когда начинал это всё катать, понимал что теряют интерес уже на 50м сообщении. Даже грустно как то, это как первая любовь с которой хочется повторить всё как было, но нет уже самой первой любви и не будет этого волшебного ощущения. Сейчас уже катаю 27b параметров, там персонажи другие, та карта которая была злобной но заботливой мамкой, стала душной мразью которой на юзера вообще поебать, потому что модель тупо стала инструкции читать, ну и начались с той поры похождения неприкаянного каина в мире ллм, поиск той самой карты котора была бы похожа на ту самую, но безуспешно.

Аноним 05/01/26 Пнд 10:26:26 № 1479633 432

Я правильно понимаю что 4 гемма:
1. Не сможет в кум и фетиши.
2. Постоянно будет пытаться навязать везэктомию посреди рп, если юзер мужик.
3. Не сможет даже объяснить ребёнку что такое секс?
И при этом это чудо ждут всем ллмовским селом

Аноним 05/01/26 Пнд 10:59:22 № 1479654 433

Я правильно понимаю что 4 гемма:
1. Сможет в кум и фетиши.
2. Постоянно будет пытаться навязать еблю посреди рп, если юзер мужик.
3. Сможет даже объяснить ребёнку что такое секс?
И при этом это чудо не ждут ллмовским селом

Аноним 05/01/26 Пнд 11:08:48 № 1479656 434

>>1479654

Аноним 05/01/26 Пнд 11:35:38 № 1479667 435

Кто-то использует ллм для математики? Скачивал qwen math 9b, она не может решить простую олим задачу для 7 класса школы. Ещё одна китайская залупа zai org z1 выдаёт вообще бредятину, ощущение, что модель испорченная.
Даже онлайн модели, в том числе платные, редко какую задачу могут решить, выдают в большинстве случаев неправильный ответ, вся цепочка рассуждений косячная, тупая, ни намёка на математические способности, тупой слоп.
Откуда блядь в новостях постоянно, что модели решают все на уровне международных олимпиад? Это хуйня какая-то.

Аноним 05/01/26 Пнд 11:47:38 № 1479671 436

>>1479667
Какой квант используешь? На каком языке излагаешь задачу?
GPT OSS 120b и Квен 235b Q4 решают высшую математику уровня универа без проблем. И векторные вычисления в игровых движках тоже. Даже задачу из дискретной математики почти удалось решить.

Аноним 05/01/26 Пнд 11:54:14 № 1479672 437

>>1479671
Квен 9B и квант 5 кажется, сейчас не за компом. Но я проверяю только на олимп задачах для школьников, где нужно думать, а не формулы использовать.
А как запускать 132Б на домашнем компе? Это реально? 32 ддр5 и 5060ти 16.

Аноним 05/01/26 Пнд 11:54:49 № 1479673 438

>>1479671
На английском, конечно, забыл сразу сказать.

Аноним 05/01/26 Пнд 12:11:31 № 1479685 439

>>1479672
Высшая математика уровня универа - это не про формулы. Там тоже надо думать. GPT OSS лучше справляется с этим, чем Квен, а Квен лучше справляется с задачами, где малоизвестные формулы и теоремы. На 32+16 ты ни то, ни другое не запустишь. Было бы 64+16, мог бы запустить GPT OSS.

Аноним 05/01/26 Пнд 12:11:43 № 1479686 440

>>1479672
Добавь еще 32гб оперативки и будет реально. И даже довольно быстро. У меня на 64гб ддр4 и 3060 12гб крутится 106b эйр в 8-9 т/с.

Аноним 05/01/26 Пнд 12:14:23 № 1479688 441

>>1479686
>>1479685
Спасибо за инфу, аноны. Ддр5 сейчас стоит конских денег, надо будет копить или ждать падения цен.

Аноним 05/01/26 Пнд 12:29:34 № 1479693 442

>>1479667
Ты используешь модели с ризонингом? Для математики только их использовать нужно. Попробуй Phi-4 14B. GPT OSS 20B тоже должна решать.

Аноним 05/01/26 Пнд 12:50:42 № 1479711 443

>>1479693
Попробую вечером, спасибо.
Использую с reasoning конечно, это ж математика.

Аноним 05/01/26 Пнд 12:54:26 № 1479715 444

Как же Эир ахуенен когда ты наконец врубаешься как промтить чтобы не было эха. Тупо лучшая модель <= 120б, а то и все 230. Мегакайф.

Аноним 05/01/26 Пнд 13:01:14 № 1479722 445

>>1479688
Не будет падения цен.
Дешевизна рам вызвана тем что она нахуй не была нужна никому кроме тонкой прослойки каких нибудь 3д девелоперов.
Рам это новая врам в нейронках, литерали, она была несправедливо дешёвой, сам посуди, зайди в любой маркет и посмотри сколько стоит карта с 24 врам, там ниже 200 кусков ничего не будет, сделаем щас вид что 3090 не существует, только официалы.
Набрав 5 таких карт ты получаешь 120 врам и 10-15 токенов на 120б модели за лям рублей, но плотные модели больше не выпускают, а теперь, охуеть, ты мог купить 256 рам ддр5 за 150к и получить 7-10 токенов на топовейших 350-700б моделях, это просто была огромная дырень в системе которую кто прохавал тот молодец

Аноним 05/01/26 Пнд 13:08:17 № 1479728 446

>>1479722
>ты мог купить 256 рам ддр5 за 150к
За 100к.

Аноним 05/01/26 Пнд 13:15:37 № 1479729 447

>>1479722
Объясните как будто мне 5 лет, разве видеопамять не отличается от оперативной? Или можно взять минимальную ртх, но максимум оперативки?

Аноним 05/01/26 Пнд 13:18:40 № 1479731 448

Как я себя чувствую в последние рп сесии
https://www.youtube.com/watch?v=gxSi6U41R4Q

Аноним 05/01/26 Пнд 13:23:13 № 1479733 449

>>1479729
>можно взять минимальную ртх, но максимум оперативки?
Для моэ - да. Скорость будет не настолько высокой как на фуллврам, но всё ещё приемлемой.

Аноним 05/01/26 Пнд 13:23:27 № 1479734 450

>>1479492
> x399
Так себе идея, почитай тред где жалуются на тормознутость старого эпика, а старый трипак еще хуже. Это же буквально тот самый ультратреш для бета-тестеров, над которым глумился кто только мог. Тормознутость проца, особенно в доступе к периферии, не оправдывает дополнительные 8 линий.
> есть с 4 слотами х16, но это скорее будет 16+16+8+8
Загугли конфиг конкретной, там может быть 4х16 на даблерах, 2х16 + х8 + чипсетные х4 и прочее.
> Но это всего три карты.
Бифуркация и для 3.0 доступны внешние даблеры, до 4 карточек в каждый слот х16 просто так или до 8 с описанной платой.
> что-то такое за 30к взял
Это как раз та, где 4х16 слота, но гугли насколько гибкие настройки бифуркации там в биосе. В целом вариант хороший, по цене дороговато, но ничего лучше в бюджете не найдешь. Следующий уровень это 3467, где требуется регистровая память.
>>1479533
Есть https://github.com/turboderp-org/exllamav3/blob/1b7009c5b87091e64d6f76d1918a589f0073abce/exllamav3/architecture/gemma3.py#L275 если смотреть дальше то там просто прямой импорт функции из флешатеншна. Нужно смотреть как организовано выделение и хранение кэша, возможно просто выделяется буфер под полный и часть не задействуется.
> и кеш при этом в 8 бит
Лучше убери вообще квантование кэша, в столь малых размерах дополнительные его веса и нормы могут влиять.
>>1479569
Было, он ахуенен для кума и завязки рп. Но неюзабелен из-за требований кэша контекста, типа 200 гигов на 32к. Оптимизаций атеншна не завезли, и модель слишком старая чтобы заниматься.

Аноним 05/01/26 Пнд 13:43:23 № 1479752 451

>>1479667
Что в твоем понятии математика? Анализ с кучей логики и абстракций, линал с мышлением в 117-мерном пространстве, просто школьный трешачок или олимпиады, где просто запутано и суперплотная упаковка, которую нужно долго разворачивать?
Большие модели с первым и вторым хорошо справляются, особенно при участии юзера.
>>1479672
> Но я проверяю только на олимп задачах для школьников, где нужно думать
Это просто переуплотненные загадки с неочевидным решением и запутанными формулировками. Никакие 9б тут и близко не справятся, если только сам не подскажешь, нужно покрупнее и, как правильно сказали, с ризонингом чтобы распутало. Причем, путь решения будет весьма человеческий, скорее всего с рассмотрениеми отсеиванием нескольких ложных путей перед приходом к истинному.
>>1479722
Бред кроме первой строки. Даже 3д девелоперы - больший рынок, чем эти потребители из шизотеорий об инфиренсе ллм в рам на текущих платформах. По всему миру если хотя бы несколько тысяч сделавших апгрейд ради запуска ллм найдется - уже оптимистично будет. Это не просто капля в море, это ниже неопределенностей.
> получить непригодные ни для чего кроме рп чатика 7-10 токенов в 100б микромоэ средней всратости пока не накопится контекст
Вот так правильно будет.

Аноним 05/01/26 Пнд 13:49:29 № 1479758 452

изображение.png 10Кб, 737x67

изображение.png 11Кб, 755x68

изображение.png 20Кб, 697x141

>>1479562 >>1479557
Вот тут про не до конца перпендикулярные вектора, если не знаете о чём речь:
https://youtu.be/9-Jl0dxWQs8?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi&t=1085

Далее заходим на страничку BereavedCompound-v1.0-24b где IQ4_XS, и что это тут? А, это же эмбеддинг в IQ4.
А на страничке Q4_K_M оно в Q4_K_M. Ну и так далее. Очень часто там Q6_K_M и прочее.
Вы уже представили что с вышеупомянутой суперпозицией происходит, если компоненты вектора в 4 бита?
Если прям наивно взять 16 ступеней, это будет -1, -0.86 ... +0.86, +1, при таком шуме в эмбеддинге от каждого токена выход будет вообще с другим смыслом. Оно буквально не видит слов, а видит кракозябру, где сразу несколько возможный слов подходят под получившийся токен. Нельзя так жёстко квантовать эмбеддинг - это входные данные же, просто подстановка данных тензора вместо символов, оно настолько нетребовательно, что можно хоть с ssd отдельными транзакциями читать без потери скорости.

При этом llama-server по умолчанию его держит на CPU, потому сжимать его не надо если на видеокарту целится. Даже без --override-tensor "token_embd.weight=CPU". И у tabby то же самое в конфиге написано.

Убедитесь, что в gguf-кванте эмбеддинг в таком же fp16/bf16, как и в exl3 - а потом сравниваете. Exl3 квантует только внутренности, без эмбеддинга. Вы на сколько процентов уверены, что такое хорошее качество exl3 при схожем квантовании связанно не с эмбеддингом?
То есть вот гемма на 270m в 3.5 bpw exl3 отвечает мне на русском, сколько ног у лошади. Причём стабильно достаточно и можно менять формулировку. Q5_K_M и Q4_K_M пишет мне, что не может продолжить диалог сексуальной темы на вопрос про ноги лошади или отвечает 2. gemma-3-270m-it-UD-Q8_K_XL отвечает, но ребята из unsloth там fp16 оставляют в эмбеддинге, как и должно быть, раз уж на VRAM это не сказывается.

>>1479605
При запуске в ламе можно посмотреть. Вот квант якобы Q4. На деле там 7.36. И это не только за счёт эмбеддина в Q8_0, там все остальные слои часто Q6, Q5 и прочее.
https://huggingface.co/unsloth/gemma-3-270m-it-GGUF/blob/main/gemma-3-270m-it-Q4_K_M.gguf

Для моделей больше чем неадекватные 270M: Q4_K_S около 4.3, Q4_K_M около 4.6

Аноним 05/01/26 Пнд 14:24:51 № 1479776 453

Аноны, тему наверное уже поднимали. Какие инструменты для агентского пердолинга самые топовые, чтобы можно было подключать свои локалки и большие по api.
Почитал прошлые ветки, там много всего
claude-code, claude-code-router, c, opencode. Насколько успел понять, claude-code давал возможность играться с агентами и как-то подключать сторонние llm. claude-code-router вроде как довел это до ума. opencode опенсорс аналог, но многие дрочат на clode-code. Тут главное понять, дрочат, потому что пользуются опусом и сонетами, или потому что сам инструмент пиздатый.
Есть ещё opencode, но я не понял в чем его фишка, gemini-cli. Самый странный это arhon os, потому что я вообще не понял про что он. Там всего накрутили от rag, до тасков, но в чём смысл тасков не понял.

Аноним 05/01/26 Пнд 14:27:02 № 1479779 454

>>1479776
>Есть ещё opencode.
Как всегда проебался. Я хотел написать Есть ещё
qwen-code

Аноним 05/01/26 Пнд 14:29:26 № 1479784 455

>>1478302
>А потом я заебался и дропнул это всё
Наверное не стоило использовать ChatML который делает эир слоповым, скучным и тупеньким

Аноним 05/01/26 Пнд 15:03:04 № 1479809 456

>>1479776
> самые топовые
Нет таких, есть некоторые оптимальные под конкретную задачу, агентами ведь можно не только кодить.
> дрочат, потому что пользуются опусом и сонетами
В основном это, там отличий не так уж и много + разные промпты. Можешь попробовать их все и выбрать который нравирся, с локалками и особенно квенами хорошо работает qwen-code.

Аноним 05/01/26 Пнд 15:30:20 № 1479828 457

image.png 39Кб, 1040x395

Так вот оно что Михалыч

Аноним 05/01/26 Пнд 15:36:53 № 1479830 458

>>1479784
Забайчен, лох.

Аноним 05/01/26 Пнд 15:45:34 № 1479838 459

Пройдут десятки сотни тредов, а нюню так и будут вспоминать шизики и думать что он еще здесь. Вот уж оставил анон след в истории. Фольклер треда

Аноним 05/01/26 Пнд 15:47:27 № 1479840 460

>>1479838
А ты не подписывайся нюней и вспоминать не будем, нюняшизик.

Аноним 05/01/26 Пнд 15:52:24 № 1479843 461

>>1479840
Все знают что это ты нюняшизик а не я, в треде же три четыре человека сидят

Аноним 05/01/26 Пнд 15:59:08 № 1479844 462

>>1479843
как минимум четыре.

базашиз

Аноним 05/01/26 Пнд 16:00:10 № 1479847 463

>>1479838
Так до него не было сэмлеров хороших на многие модели.

Аноним 05/01/26 Пнд 16:03:52 № 1479854 464

>>1479844
Как тепло на душе когда друзья шизики собираются. Я вот семплерошиз, так меня называли за мои или чьи то грехи. Не хватает нюни (повешен) и овариды (пошел работать на китайские поля чтобы ему дали дальше катать 235 какашкоквен)

Аноним 05/01/26 Пнд 16:11:18 № 1479860 465

>>1479838
Можно репортить любое упоминание нюни, и тогда, с вымыванием старичков и приходом новичков, о нюне будет помнить только OP.

Аноним 05/01/26 Пнд 16:16:39 № 1479863 466

>>1479854

Аноним 05/01/26 Пнд 16:17:25 № 1479864 467

>>1479686
В каком кванте?

Аноним 05/01/26 Пнд 16:19:30 № 1479865 468

>>1479864
Q4_K_S.
Контекст 32к квантованный.

Аноним 05/01/26 Пнд 16:19:33 № 1479866 469

>>1479715
> Как же Эир ахуенен когда ты наконец врубаешься как промтить чтобы не было эха.
Как, если вкрации?

Аноним 05/01/26 Пнд 16:20:22 № 1479867 470

>>1479854
тут ещё где-то рядом в палате сидит люниксошиз с V100 и 0 опыта в сборке пекарен

> Уже заказал б/у материнку под люникс с V100 и тьмой линий/слотов. Это просто будет немного дольше, я 0 раз собирал ПК и у меня нет запчастей, приедет материнка - беру у дрога блок питания и плашку памяти, чтобы проверить материнку. Потом беру блок питания и плашку памяти, и уже их проверяю с помощью материнке. Потом ещё люникс ставить, который я 0 раз ставил.

Аноним 05/01/26 Пнд 16:22:02 № 1479868 471

>>1479866
Воспользуйся спиритической доской, чтобы связаться с ним, он поможет. Мне его советы помогли, читай старые треды.

Аноним 05/01/26 Пнд 16:24:21 № 1479869 472

>>1479865
Звучит как пиздёж, но круто если так.

Аноним 05/01/26 Пнд 16:28:17 № 1479872 473

А где платошиз, давно что-то не видать???

Аноним 05/01/26 Пнд 16:37:38 № 1479881 474

>>1479292
А куда это вообще писать? В систем промпт, Post-History Instructions, префикс?

Аноним 05/01/26 Пнд 16:40:15 № 1479885 475

>>1479872
А это кто вообще? За 186 тредов такого не видал.

Аноним 05/01/26 Пнд 16:44:32 № 1479888 476

>>1479809
>под конкретную задачу, агентами ведь можно не только кодить
По подробнее можно? Какие оптимальные для одних задач, а какие для других?
Про arhon os кто-нибудь слышал? Он как-то особенно мудрено выглядит.

Аноним 05/01/26 Пнд 16:46:03 № 1479889 477

>>1479867
Почему люниксошиз сразу? Я же как и указал - его тоже никогда не ставил, а нужен он мне помимо прочего ещё и для zfc, raidz или как там это называется.
Ну и в целом знать люникс не самый бесполезный навык для программиста. Ну и я прямо здесь - я один из тех, кто про exl3 пишет, спрашиваю про почему кеш не SWA и прочее.

Аноним 05/01/26 Пнд 17:14:34 № 1479912 478

>>1479889
> Почему люниксошиз сразу?
> люникс

а сам как думаешь?

Аноним 05/01/26 Пнд 17:21:38 № 1479924 479

>>1479885
А точно, он же не с этого треда (он в треде про новости об ИИ).

Аноним 05/01/26 Пнд 17:48:43 № 1479932 480

>>1479888
Вот тебе коллеция mcp https://github.com/punkpeye/awesome-mcp-servers а вот фреймворков для построения агентов https://github.com/kaushikb11/awesome-llm-agents
Кроличья нора довольно глубока, можно оформить агента, чтобы тот управлял умным унитазом с учетом твоих биометрических показателей из умных часов, и настроения, которое он будет брать из другого агента, оценивающего его по твоим чатам и действиям.
>>1479889
> люникс
https://upload.wikimedia.org/wikipedia/commons/transcoded/0/03/Linus-linux.ogg/Linus-linux.ogg.mp3

Аноним 05/01/26 Пнд 17:56:48 № 1479938 481

Есть какое-то простое\доступное объяснение как поставить для локальной ЛЛМки стандартные (baseline) настройки допустим в кобольде, чтобы +- не уходила в шизофрению речь про incomprehensible nonsense, а не лирические галлюцинации и правильно заканчивала свои сообщения?
Смотреть и копировать параметры базовой модели с олламы?
Нужно делать что-то кроме копирования параметров речь не про промпт и предчатовый контекст через карточки и аналогичное?

Аноним 05/01/26 Пнд 18:12:37 № 1479945 482

>>1479938
Я даже твоего вопроса не понимаю. Ты не знаешь, откуда брать настройки семплинга и шаблоны? В Chat Completion шаблоны подтягиваются самостоятельно из gguf файлов. В Text Completion их нужно указывать вручную, можно найти на huggingface, например

Аноним 05/01/26 Пнд 18:20:37 № 1479948 483

>>1479945
>Я даже твоего вопроса не понимаю. Ты не знаешь, откуда брать настройки семплинга и шаблоны?
Как вариант.
>можно найти на huggingface
Где? Не вижу.

Аноним 05/01/26 Пнд 18:49:40 № 1479956 484

>>1479948
Как вариант сформулируй нормально что тебе нужно. На странице моделей huggingface указано, какой шаблон у них используется. Плохо смотришь.

Аноним 05/01/26 Пнд 19:09:00 № 1479964 485

image.png 2Кб, 120x35

>>1479956
Это?
>Как вариант сформулируй нормально что тебе нужно.
Трудно спросить конкретно о том что не знаешь.
>Ты не знаешь, откуда брать настройки семплинга и шаблоны?
Есть ли где-то стандартные настройки семплинга для каждой модели и нужно ли мне откуда-то копировать и куда-то вставлять ручками сами шаблоны?

Аноним 05/01/26 Пнд 19:14:05 № 1479967 486

>>1479964
>Есть ли где-то стандартные настройки семплинга для каждой модели и нужно ли мне откуда-то копировать и куда-то вставлять ручками сами шаблоны?
Настройки семплинга для технических задач указаны на huggingface страницах моделей. Прямо в ридми (карточке) или в отдельном файле генерации, который в репозитории. По поводу шаблонов, если ты используешь Chat Completion, то ничего от тебя больше не требуется - шаблон подтянется из gguf, ну писал же выше. Если Text Completion, то нужно верстать Chat template, ты верно его указал, да. У многих фронтендов уже есть готовые темплейты для популярных семейств моделей. В Таверне почти все есть.

Аноним 05/01/26 Пнд 19:16:44 № 1479970 487

По поводу семплинга для рп - тут уже от моделей зависит. Как правило температура 1 minp 0.05 это стандарт.

Аноним 05/01/26 Пнд 20:12:14 № 1480021 488

>>1479865
Параметрами запуска не поделишься? Получаю только 4-6 токенов в секунду на IQ4_XS

Аноним 05/01/26 Пнд 20:21:46 № 1480032 489

>>1479667
Погоняй Nanbeige4-3b
Говорят матан умеет на уровне 30b если не лучше.

https://www.reddit.com/r/LocalLLaMA/comments/1pj3q4q/comment/nuud76s/

Аноним 05/01/26 Пнд 20:32:34 № 1480044 490

Ну всё.
Для gguf наделал скриптов, чтобы всё смотреть не прописывая каждый раз в командной строке пути к gguf-файлам.
Сейчас ещё написать для exl3, который такую же инфу по слоям выдаст.
И сделаю какой-то автотест, который будет сам в схожих условиях конвертировать с истинно равным bpw в exl3/gguf, с одинаковой весом всего того, что нужно во VRAM держать, одинаково выгружать эмбеддинг в обычную RAM, и при одинаковом заполнении контекста сравнивать скорость, потребление VRAM/RAM и сохранять что оно там пишет.
Поставлю на ночь для нескольких 7B моделек и узнаем, чем стоит этот exl3.

Пока не понял только как перплексити оценивать, это же датосет нужно, а у меня нет датасетов.

Кстати, вот такой примерно ответ мне выдаёт gemma 270b с квантованными эмбеддингами, а с эмбеддингами в bf16 она всегда или почти всегда отвечает верно. Позабавило от 1.5 до 2.5 ног.
Справедливости ради - там эмбеддинги - это больше половины модели даже без квантования, или близко к этому.

Аноним 05/01/26 Пнд 20:44:46 № 1480052 491

Какой дипсик лучший для рп (чтобы не включать ризонинг)? Там их куева туча навыходила, какое экспертное мнение по ним?

Аноним 05/01/26 Пнд 20:55:05 № 1480068 492

1612154358512.png 40Кб, 818x278

>>1480044
> наделал скриптов, чтобы всё смотреть не прописывая каждый раз в командной строке пути к gguf-файлам
Пики
> gemma 270b
Это самый экстремальный и необычный вариант из возможных ввиду своего размера. Если хочешь действительно отслеживать какие-то закономерности, которые будут переносимы - бери хотябы гемму 4б, а лучше 12б. Или аналогичные модели от других компаний, гемма сама по себе довольно специфична.
>>1480052
Терминус хорош и даже довольно базирован, обновленный 3.2 нужно будет потестироваать обстоятельно чтобы делать выводы.

Аноним 05/01/26 Пнд 21:27:02 № 1480109 493

>>1480021
threads 5
gpulayers 999
moecpu 44
contextsize 32768
quantkv 1

Остальное не так важно. Но это актуально для Q4_K_S от анслота, если размер отличается - оптимальные настройки будут другими. Если как у меня - то влезает впритык, приходится всё закрывать кроме браузера. И число ядер (то что threads) подбирай под свой процессор. У меня восьмиядерник и наивысшая скорость инференса на 5 ядрах. Если поставить больше или меньше - скорость падает. Это всё в прошлых тредах подробно обсасывали. + я на пингвине, тут тоже небольшой баф к скорости.

А, ну и да, IQ-кванты сами по себе медленнее обычных.

Аноним 05/01/26 Пнд 22:18:34 № 1480147 494

изображение.png 23Кб, 547x182

В общем эмбеддинги в bf16/fp16 решают. Тестирую на gemma E2B, 3 бита.
Если квантуются, она пишет ну просто бред, дублируя мысли и строки (1 и 3), в 10 из 10 случаев, так что текст только похож на содержательный. С эмбеддингами в 16 бит за 10 генераций такое было только один раз и в одной строчке, что скорее связано с 2B моделькой. Это субъективная оценка, но походу бомжатский Q3_K_S становится юзабельным для очень маленькой E2B без последствий просто из-за эмбеддинга.

Ещё есть слой per_layer_token_embd.weight на 4 ГБ в bf16 (из 8 ГБ), половина модели. Если его оставлять в RAM, то скорость падает заметно, но не катастрофически, но если эмбеддинг прям не сказывается, то эта фигня очень сказывается. И его квантование таких уж тяжёлых последствий не несёт, хотя тоже заметно "на глаз".

>>1480068
Скрипт показывает крупные тензоры и средний bpw.
К тому же скрипт работает быстрее чем загрузка страницы в браузере и тем более мне есть чем заняться, чем кроме как свой gguf выгружать в сеть.

Я отлаживал скрипты на 270M, так как там любая конвертация в любой exl3 делается минуту.

Аноним 05/01/26 Пнд 23:02:36 № 1480189 495

>>1479838
>нюню так и будут вспоминать шизики и думать что он еще здесь
Почему вообще к нюне было столько внимания, что ему даже прозвище придумали? Чел тупо выкладывал свои пресеты насколько я понимаю, ничего более того. Итт реально есть люди которые не могут под себя настроить модель и вахтерят тред пока кто-нибудь не выкинет свои настройки?

Аноним 05/01/26 Пнд 23:21:43 № 1480222 496

>>1480147
> gemma E2B
> на 270M
Попроси llm объяснить тебе почему квантование на больших матрицах оказывается эффективным и точным, а на маленьких кривым и все руинит. Этот эффект у тебя затмевает все, помимо просто безумной метрики в виде твоих "на глаз".
Если хочешь реально исследовать влияние - сначала возьми модельку покрупнее, а потом подменяя слой оценивай дивергенцию или другие метрики на фиксированном датасете. Считать это можно послойно и влезет в любую карточку, за основу можешь взять оценочные скрипты из экслламы.
>>1480189
> Итт реально есть люди которые не могут под себя настроить модель и вахтерят тред
Тут есть и не такое

Аноним 05/01/26 Пнд 23:49:10 № 1480258 497

>>1480189
Его так прозвал один шизик шитпостер. Это длилось месяцами и тред стерпел и принял это. Чел помимо того что пресеты выкладывал еще и полезные пасты приносил время от времени.

Аноним 05/01/26 Пнд 23:50:14 № 1480259 498

>>1480147
>бомжатский Q3_K_S становится юзабельным для очень маленькой E2B без последствий просто из-за эмбеддинга
А на 4-5-6 битах проверял? А на больших моделях проверял?
Ну и...
>>1480044
>там эмбеддинги - это больше половины модели
То есть ты нихуя не квантуешь по сути, лол. Только полмодели поцарапал. Твои Q3_K_S превращаются в эффективные 8, лол.
>>1480189
>Почему вообще к нюне было столько внимания
Потому что у него весело загорелась жопа.

Аноним 06/01/26 Втр 00:01:51 № 1480263 499

>>1480259
>То есть ты нихуя не квантуешь по сути, лол.
Мотивация впихнуть как можно лучше на видеокарту. Нет задачи квантовать то что можно держать на CPU. Если получаются эффективные 8, а на видеокарточке по весу как 3 - то это идеально.
>А на 4-5-6 битах проверял? А на больших моделях проверял?
На 4-5-6 битах все ответы нормальные и на глаз не видно. А до расчёта дивергенций и перплексити я ещё не дошёл.

Аноним 06/01/26 Втр 00:08:52 № 1480266 500

>>1480263
>Нет задачи квантовать то что можно держать на CPU.
Ты видимо просто не запускал по настоящему крупные модели.
Ну и эмбединги для крупных моделей это мелочь, у квена 235 это 0,26% от размера модели.

ПЕРЕКАТ Аноним # OP 06/01/26 Втр 00:13:06 № 1480268 501

ПЕРЕКАТ

>>1480267 (OP)

ПЕРЕКАТ

>>1480267 (OP)

ПЕРЕКАТ

>>1480267 (OP)

Аноним 08/01/26 Чтв 16:42:04 № 1482942 502

>>1478195
> из развлечений только комп
Брофист