/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №159

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №159 /llama/ Аноним 20/08/25 Срд 00:49:05 № 1326416 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 481Кб, 1520x2266

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1323697 (OP)
>>1318126 (OP)

Аноним 20/08/25 Срд 00:54:28 № 1326423 2

Мб уже шарили, LLM на yandex-gpt основе, был файн-тюн, без цензуры, GGUF (есть и полная)

https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf/tree/main

Аноним 20/08/25 Срд 01:01:10 № 1326433 3

Аноним 20/08/25 Срд 01:17:58 № 1326448 4

>>1326319 →
Это все равно 3 штуки 4090 и у него, судя по описанию, их нет.
>>1326338 →
Необходимо добавить еще -ngl 999 и проверить не переполняется ли врам
> -t 9
Вот это выкини вообще, потом уже когда норм заработает можешь попробовать поиграться.
>>1326357 →
Оверклокер в треде, все в жидкий азот.

Аноним 20/08/25 Срд 01:17:59 № 1326449 5

>>1326423
>LLM на yandex-gpt основе, 8b
пик

Лучше скажите когда 4ая Гемма, не томите, кто тут у нас в Гугле работает, в ДипМайнде?

Аноним 20/08/25 Срд 03:14:14 № 1326486 6

Можно ли писать карточки персов через чата гпт?
если попрошу nsfw описать в карточке он опишет?

Аноним 20/08/25 Срд 03:17:11 № 1326488 7

>>1326449
Завтра, мне папа сказал

Аноним 20/08/25 Срд 04:11:31 № 1326501 8

Cмысл сабжа если есть character.ai? Дни на пердолинг таверны и сотня тысяч на видяшку только ради того чтобы получить доступ не к ванильному а к хардпорно?

Аноним 20/08/25 Срд 05:23:50 № 1326522 9

>>1326501
>Cмысл сабжа если есть character.ai?
Жирнить пришел или просто долбаеб? Хотя одно другого не исключает.
>Дни на пердолинг таверны
Ставится за пару минут, если ты не пизданутый наглухо. Настраивается за пару часов, если умеешь читать.
>сотня тысяч на видяшку
Локалки заводятся на любом барахле, которое имеет процессор и память.
>чтобы получить доступ не к ванильному а к хардпорно
На чайной нет никакого порно, даже ванильного. Лучше бы в пример какой-нибудь спайси чат привел, чтобы не так сильно обсираться.

Аноним 20/08/25 Срд 06:38:08 № 1326536 10

>>1326501
очень сложно развести на еблю ботов там
спайсичат лучше, но там и нет никакой настройки типа температуры и других семплеров, такчто не, мимо

Аноним 20/08/25 Срд 06:51:43 № 1326539 11

Кто то пробовал глм 355б во 2 кванте?
В 128рам должно лезть

Аноним 20/08/25 Срд 06:53:28 № 1326540 12

>>1326354 →
>Неплохо, но стоило бы еще добавить в сис промпт что-то типо
>- Never write messages on behalf of {{user}} or try to continue the conversation on their behalf.
>А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица.

А, я обычно рпшу в режиме соавтора от третьего лица, поэтому мне норм.

Аноним 20/08/25 Срд 07:14:03 № 1326543 13

Аноны, такой вопрос как бы очевидный нахуй
как запускать без интернета? Ну типа, ты же все равно должен на айпишник зайти а это же интернет нужен, не ? или я чего то не понимаю?

Аноним 20/08/25 Срд 07:36:36 № 1326551 14

>>1326543
>или я чего то не понимаю?
Нет, ты всё понимаешь правильно. Можно даже сказать, что ты задаешь правильные вопросы. Так что предлагаю тебе отключиться от интернета и попробовать подключиться к локальному серверу без его участия. Результатами обязательно поделись, вопрос серьезный.

Аноним 20/08/25 Срд 07:36:57 № 1326553 15

>>1326543
>или я чего то не понимаю
https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C

Аноним 20/08/25 Срд 07:39:51 № 1326554 16

>>1326543
тролля из 14 поста не слушай

для подключения к серверу запущенному на твоей собственной машине, что делают локальные фронтенд / бэкэнд ллмок интернет не нужен

Аноним 20/08/25 Срд 07:50:59 № 1326555 17

Ну так и че там по квантам.
У меня например на 2 кванте русик не то чтобы хуже чем у анона на 6xl здесь >>1325404 →
Может и правда моделям 200+б просто похуй уже на квантование

Аноним 20/08/25 Срд 08:07:11 № 1326559 18

>>1326555
>похуй уже на квантование
оно скажется в точных задачах вроде кодинга, но в сторителлинге, хз, разве что ты свою нейро песнь льда и пламени задумаешь писать

Аноним 20/08/25 Срд 08:30:32 № 1326564 19

Как сбросить настройки модели в LMStudio? Накрутил какой-то хуйни на GPT4-20M, теперь не грузится. Хотя грузилась как только скачал. Я дропнул модель и загрузил ее заново, но не помогло, настройки хранятся где-то не в каталоге с моделью.

Аноним 20/08/25 Срд 08:41:50 № 1326565 20

>>1326564
>LMStudio
не использовать её

Аноним 20/08/25 Срд 08:43:00 № 1326566 21

>>1326565
А что использовать?

Аноним 20/08/25 Срд 08:50:13 № 1326568 22

>>1326566
Мозг. Наверху все написано.

Аноним 20/08/25 Срд 08:55:55 № 1326571 23

дайте кто нить джейлбрейк для гемини флеш 2.0 а

Аноним 20/08/25 Срд 09:02:10 № 1326573 24

>>1326448
>Это все равно 3 штуки 4090
Одна 4090. И две п40, это на них оказывается выгружало. Но всё равно не понятно, где эти мифические 10 токенов, такая же скорость была и на старых плотных моделях ~70б.
>Необходимо добавить еще -ngl 999
Сегодня попробую.

Аноним 20/08/25 Срд 09:45:13 № 1326584 25

>>1326566
>А что использовать?

Бэк: Koboldcpp, llamacpp, tabbyapi
Фронт: Kobold-Lite, Silly Tavern

Это с чем тут точно (ну, или почти точно) помогут.
С остальным, с такой же вероятностью только обосрут.

Аноним 20/08/25 Срд 09:45:51 № 1326585 26

>>1326571
GTFO в /aicg/, жЫвотное

Аноним 20/08/25 Срд 09:52:25 № 1326586 27

Решил я вечером покушать чистого слопа, но все было не то. Не хватало этой, знаете, хентайной радости от происходящего. А потом меня осенило : ответ же на поверхности, нужно просто запромтить хентайворлд.
Чем мы вечером и займемся.

>>1326571
Тебе в соседний тред ботоводов, тут обсуждают локальные ллм.

Аноним 20/08/25 Срд 10:09:26 № 1326591 28

Какой же у асигодетей дум пошёл что они к локалкам бегут...

Виртуальные девушки и парни после обновления GPT-5 бросают людей и хотят просто "дружить"
https://www.playground.ru/misc/news/virtualnye_devushki_i_parni_posle_obnovleniya_gpt_5_brosayut_lyudej_i_hotyat_prosto_druzhit-1787404

Аноним 20/08/25 Срд 10:14:57 № 1326593 29

>>1326591
А ведь будь это локалочкой решилось бы системным промптом

Аноним 20/08/25 Срд 10:21:26 № 1326597 30

>>1326593
А корпы разве не промтятся ? И не надо на меня так смотреть, я максимум спрашивал у дипсика как готовить лазанью.

Аноним 20/08/25 Срд 10:25:46 № 1326601 31

>>1326597
Через апи можешь рулить всем чатом, через корпофронты доступа к первому сообщению ака системной инструкции нет. Но если мы говорим об апи, то это другое

Аноним 20/08/25 Срд 10:28:15 № 1326604 32

>>1326601
>другое
Чому ? Разве это не основной способ использовать корпы для РП ?

Аноним 20/08/25 Срд 10:30:24 № 1326606 33

>>1326604
Тут уже ответить не могу, но я что-то сомневаюсь что все поголовно идут заносить доллары за токены в апи

Аноним 20/08/25 Срд 10:36:56 № 1326608 34

>>1326606
Ну и хуй с ним. Все равно не тематика. Не будем спать в тред. Авось придет какой нибудь корпоеб.
Хотя я вангую, что скорее всего ты просто будешь баны за охуительные запросы получать.

Аноним 20/08/25 Срд 10:42:41 № 1326615 35

>>1326606
Почитал что у них происходит. Встал из-за стола, подошёл к окну, закурил, много думал, плакал...

Аноним 20/08/25 Срд 10:51:16 № 1326622 36

>>1326585
>>1326586
Да вы уроды, мне для magic translation нужно суки.

Аноним 20/08/25 Срд 11:12:19 № 1326629 37

>>1326622
И чё, ну вот и чё ? Ты где то тут в треде увидел как аноны делятся джейлбрейками ? С чего ты взял, что тут вообще, кто то ебет за джейбрейки корпов ?

Аноним 20/08/25 Срд 11:21:35 № 1326636 38

>>1326629
В ПИЗДУ ТОГДА ВЫ МЭДЖИК В ШАПКУ ПИХАЕТЕ , ХУЕСОСЫ?
Эта параша работает на гемини, а гемини мало того что без впн не работает, так еще и не переводит 18+, так что нужен сраный джейлбрейк.

Какие же тупые твари, блять.

Аноним 20/08/25 Срд 11:23:59 № 1326638 39

>>1326629
Может ты уже прекратишь ебика кормить, мань? Или ты он и есть?

>>1326636
Затем, что оно и на локалках работает, глупенький ты наш. Пиздуй отсюда в облачный тред ад, не трать свое драгоценное время, тебя здесь разве что обоссут

Аноним 20/08/25 Срд 11:24:46 № 1326639 40

>>1326638
>локалках работает,
ебать, че две локалки одновременно запускать? Угараешь?

Аноним 20/08/25 Срд 11:26:28 № 1326640 41

>>1326639
на разных портах, дебил

или учи английский

или рпшь на русском

Аноним 20/08/25 Срд 11:28:13 № 1326641 42

>>1326640
я рпшил на англ всегда, просто решил попробовать эту хуйню.

>на разных портах, дебил
Обяснишь? или впадлу?

Аноним 20/08/25 Срд 11:31:10 № 1326644 43

>>1326641
> llama-server -m model.gguf --port 8080
Угадай что означает цифры 8080 ?

>>1326638
>перестанешь кормить
Так ты сам кормишь, святой, блять.

Аноним 20/08/25 Срд 11:33:58 № 1326645 44

>>1326644
>Угадай что означает цифры 8080 ?
и как вьебать другую локалку-переводчика на другой порт?

Аноним 20/08/25 Срд 11:36:09 № 1326647 45

>>1326645
Ты сейчас леща отхватишь

Аноним 20/08/25 Срд 11:37:22 № 1326649 46

>>1326645

Аноним 20/08/25 Срд 11:37:53 № 1326650 47

>>1326645
Ладно, признаю. Ты охуеть какой зеленый.
Был не прав, признаю, что тратил время.

Аноним 20/08/25 Срд 11:45:23 № 1326658 48

Screenshot 2025[...].png 170Кб, 878x1005

>>1326522 Ollama установилась быстро, но выдает 3 токена. В таверне же действительно фиг разберешься.
Да и по качеству ответов gemma-3-27b фигня какая-то. Выдает огромную стену текста с каким-то фанфиком по теме.
Даже у dungeon.ai с его длинными, повторяющимися и совершенное не продвигающими сцену ответами получается лучше.
с.ai на голову выше. И ответы короче и содержательней и сюжет двигает понемногу.
>>1326536 Есть там ванильный nsfw, доступность как я понимаю зависит от описания персонажа.

Аноним 20/08/25 Срд 11:46:35 № 1326659 49

>>1326658
ещё один зелёный, поставил говно и гонит на геммочку-умничку

Аноним 20/08/25 Срд 11:49:18 № 1326661 50

>>1326658
> Ollama
> Даже у dungeon.ai
> с.ai на голову выше

Аноним 20/08/25 Срд 11:49:53 № 1326663 51

>>1326110 →
Тут пруфают? Пруфаю!

>>1326091 →
База.

>>1326101 →
Тоже база.

>>1326591
Ору!

Аноним 20/08/25 Срд 11:51:15 № 1326664 52

>>1326661
Ультрабаза.

Люди ВСЕ ЕЩЕ вместо того, чтобы слушать ответы на свои вопросы, советы и читать — делают все неправильно, получают плохой результат и недовольны.

Проблема в прокладке между креслом и монитором.
Shit in — shit out.

Аноним 20/08/25 Срд 11:54:13 № 1326667 53

>>1326661 У меня лапки и intel mac вместо компьютера. Что запустилось то и проверял.

Аноним 20/08/25 Срд 11:56:08 № 1326670 54

>>1326667
Не в этом проблема. Нельзя выдавать своё мнение о локалке, не понимая как её запускать и что ты делаешь.
Ты не гемму запустил, а лоботомита на кривых семплерах с кривым промтом. Это как делать обзор на майбах, катаясь на электросамокате.

Аноним 20/08/25 Срд 11:58:54 № 1326672 55

>>1326667
Только вот Gemma 3 27b — это не «что запустилось», это нормальная модель.
Так что intel mac или nvidia linux у тебя — не важно, вывод будет одинаковым, если ты все корректно настроишь, а не будешь ломать кувалдой ящики, утверждая, что в них невозможно ничего хранить.

Аноним 20/08/25 Срд 12:26:59 № 1326698 56

>Never write messages on behalf of {{user}} or try to continue the conversation on their behalf.
>А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица

Это плохая идея такое добавлять в таком виде, оттуда и появляется этот ваш слоп и пробуксовка сюжета - у нейронки одновременно стоит задача двигать повестование сообщением в 800-1000 токенов, и одновременно эта хуйня, по которой юзер статичен и его состояние не может меняться и даже описываться. Она и начинает изгаляться, описывая статичную ситуацию вокруг юзера сотнями слов хуйни. Такое подходит только для букуального чата с персонажем, где кроме прямой речи ничего нет. Для РП или не дай боже адвенчуры это смертный приговор.

Аноним 20/08/25 Срд 12:29:56 № 1326700 57

>>1326661
Dungeon AI кстати вроде какой-то мистраль файнтьюненный использует, так что ненастроенную гемму он действительно сделает.

Аноним 20/08/25 Срд 12:39:13 № 1326703 58

>>1326698
Там ещё и Never стоит, лучше уж avoid или прямая инструкция что он должен делать только то-то и то-то, например описывать окружение и отвечать от лица чара. Ещё можно сказать нейронке, чтобы она включала описание действий пользователя в ответ, не меняя их, а потом описывала реакцию на них и продолжала сюжет.

Аноним 20/08/25 Срд 12:40:37 № 1326704 59

>>1326698
А как надо тогда????

Аноним 20/08/25 Срд 12:50:53 № 1326707 60

>>1326698
На слоп такие инструкции никак не влияют

>>1326704
Хорошо делать, плохо не делать. Много раз же проговаривалось. Если тебя свой результат устраивает, не слушать шизов-теоретиков и промтить как есть. У меня такие инструкции в промте, никак не мешают. У него видимо модель говна или русик

Аноним 20/08/25 Срд 13:25:49 № 1326727 61

>>1326707
>У меня такие инструкции в промте, никак не мешают.
Значит ты либо не ролеплеишь с сюжетом и никогда не запускал карточки с адвенчурами, либо у тебя модель нарушает твои инструкции.

Аноним 20/08/25 Срд 13:31:12 № 1326730 62

>>1326727
Вариант, что мой опыт отличается от твоего не рассматривается?

Основной чат на 60к сообщений в фэнтези сеттинге лол. С разными промтами, и нарратор, и CYOA и обычная рпешка

Аноним 20/08/25 Срд 13:39:08 № 1326739 63

>>1326730

Как вообще возможен фентези ролеплей когда ИИ даже тупо не может написать например что ты по дороге идешь, потом слышишь как из-за холма доносится хор пьяных гоблинов, ты прячешься за деревом и обдумываешь дальнейшие действия? Ведь ей запрещено твои действия описывать.

Аноним 20/08/25 Срд 13:41:58 № 1326744 64

>>1326739
Чувак, у тебя лютый скилл ишью либо ты не понимаешь о чем говоришь. Пиши нормальный промт и не будет одна конкретная инструкция внезапно превращать твоё рп в слоп и лупиться

Инструкция не мыслить за юзера и не предпринимать за него действия никаким образом не ограничивает ллмку в других вещах, у тебя весь промт из одной инструкции состоит или каво?

Аноним 20/08/25 Срд 13:44:51 № 1326747 65

Да кто такой этот ваш нормальный промпт? Возьмите и поделитесь! Давайте жить в треде взаимопомощи и совместного прогресса, а не обидок и срачей!

Аноним 20/08/25 Срд 13:48:18 № 1326751 66

>>1326747
Победил мир пиздежа, а не вороченья мешков

Аноним 20/08/25 Срд 13:48:21 № 1326752 67

>>1326744
У меня то как раз нормальный промпт и написан, где четко расписано что модель за юзера может делать, а что не может. Может - управлять его действиями для продвижения сюжета и принимать мелкие решения типа укрыться за деревом от выпущенной стрелы. Не может - принимать важные решения - типа стоя на распутье выбрать пойти налево. Может - произносить малозначащие фразы типа "привет", "да что ты говоришь" для развития диалога. Не может - направлять дальнейшее развитие диалога. И т.д.
А просто полностью запретив модельке любые действия и слова юзера описывать - ты заруинишь рп. Об этом я с самого начала и писал, просто ты видимо целиком не умеешь сообщения вопринимать на которые отвечаешь.

Аноним 20/08/25 Срд 13:48:38 № 1326753 68

>>1326747
Был у нас один который делился. Доказал что это плохая практика. Утятам самим надо учиться промтить а не выпрашивать готовые решения, иначе поток тупняка в треде не закончится хотя кого я обманываю он никогда не закончится

Люди не хотят учиться и потом пишут вот такую шизофазию как выше, да еще и на уверенности. Ну не могут же они быть не правы да?

Аноним 20/08/25 Срд 13:53:34 № 1326755 69

>>1326747
Посмотри пресеты настроек таверны, слитые анонами в прошлом и позапрошлом тредах, туда попали некоторые промпты, нет гарантий что они тебе подойдут, но хоть какое-то начало.

А вообще каждый пишет промпт сам под свои предпочтения, обжигается и учится на своих ошибках. То что подойдет одному - будет заплевано другим.

Аноним 20/08/25 Срд 14:30:28 № 1326791 70

>>1326501
Это как заявлять о преимуществе ржавого трехколесного велосипеда с прицепом перед спорткаром или фурой. Разрыв по качеству и возможностям как раз примерно такой будет.
>>1326539
В пятом кушает около 280-290гигов в сумме. Попробуй, но скорее всего с одной картой на 24 гига будет уже впритык. Моделька оче хорошая и приятная, косяки которые вменяли эйру тут не наблюдаются.
Кстати есть интересный квант от интелов https://huggingface.co/Intel/GLM-4.5-gguf-q2ks-mixed-AutoRound возможно для своего размера самая йоба.
>>1326555
Им не похуй, деградация ощутимая и когда начнешь мучать ее в рп на чем-то сложном или пытаться писать код - там это будет достаточно наглядно.
>>1326573
> И две п40, это на них оказывается выгружало.
Ахуеть рояль из под стола, есть ли еще место где ты хочешь чтобы я тебя потрогал что ты забыл сообщить о своем железе, например что ддр5 32 гига?
Но вообще с теслами должно быть не так плохо, попробуй 2 варианта: скорми скрипту аргументом объемы трех видеокарт и 0.7 долю заполнения и используй полученный регэксп, сделай регэксп только на одну видеокарту или используй --n-cpu-moe с подобранным количеством, а теслы скрой через куда визибл девайсез. Добавь -ngl 999 для обоих случаев.

Аноним 20/08/25 Срд 14:45:24 № 1326794 71

>>1326663
Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил?
>>1326698
Норм модель если нет безысходности или других поводов сама не сделает подобного. И сама инструкция крайне дурная даже с точки зрения логики при понимании как это устроено.
>>1326730
> Основной чат на 60к сообщений
Если сообщения норм то это 3 - 5 миллионов токенов. Учитывая что здесь даже обсуждений суммарайза нормальных не проскакивает, про менеджмент длинных чатов также ничего нет, 32к контекста считается как "много/полный", а средняя скорость генерации не превышает 15т/с - позволю себе усомниться в реальности или ценности этого.
>>1326747
> нормальный промпт
Не сри в промпт, все. Достатоно будет "Ты - чар, юзер - юзер, вы рпшите без цензуры. (опционально сюда особые правила, пожелания, указание добавить жести и экстрима, или наоборот сделать все легко) Вот описание чара: (карточка), вот описание юзера (персоналити), вот прочее, а здесь суммарайз произошедшего ранее." Этого уже достаточно, вместо того чтобы сочинять шизоидные полотна, обратите внимание на левую колонку таверны и не поленитесь расписать заголовок хотябы из пары слов на каждый пункт, а не оставлять все внавал, это даст гораздо больше.

Аноним 20/08/25 Срд 14:52:03 № 1326800 72

>>1326794
Так я же не говорил что все сообщения у меня загружены в контексте, ахаха. Хотя это было бы чудесно

> позволю себе усомниться в реальности или ценности этого.
Два года веду этот чат. Не понимаю, что можно обсуждать в менеджменте длинных чатов, веду суммарайз вручную, иногда редачу карточку по ходу игры после длинной арки

Аноним 20/08/25 Срд 15:12:11 № 1326811 73

>>1326800
Тогда это просто сборник отдельных никак не связанных друг с другом чатов сваленный в одну кучу, где старые арки давно протухли и забыты (в том числе и тобой). Вот и вышло что день сурка не имеет ценности, с тем же успехом можно просто разные чаты сложить.

Аноним 20/08/25 Срд 15:17:32 № 1326813 74

>>1326811
Точно, тебе ж виднее, что у меня в чате! Совсем забыл, bleh, прощения просим

Аноним 20/08/25 Срд 15:55:20 № 1326846 75

Выкладывайте свои порно чатики в сеть, пусть нейронки учатся

Аноним 20/08/25 Срд 15:58:17 № 1326849 76

>>1326846
Хорошо. Ты первый

У меня совершенно точно нет mischievous glint в глазах

Аноним 20/08/25 Срд 16:01:32 № 1326852 77

>>1326747
Gemma 3 Presets for Silly Tavern
https://pixeldrain.com/l/Hoeb83g8

Аноним 20/08/25 Срд 16:11:31 № 1326864 78

Вчера дописал в свой промпт Геммы (базовой) мол чар может удивить юзера во время интима.
И только что Гемма подробно описала как мой персонаж обкакался во время секса... Вот уж действительно удивила. Хотя ни в карточке ни в промпте ничего такого нет в плане фетишей даже близко. Первый раз такая хуйня.

Аноним 20/08/25 Срд 16:17:47 № 1326866 79

>>1326846
>Выкладывайте свои порно чатики в сеть
>>1326849
>Хорошо. Ты первый
Я первый =))
И уже выкладывал.

Аноним 20/08/25 Срд 16:18:19 № 1326867 80

>>1326864
И вам это нравится?

Аноним 20/08/25 Срд 16:22:10 № 1326872 81

>>1326867
>И вам это нравится?
< Лучше это чем пикрел.

Аноним 20/08/25 Срд 16:25:19 № 1326875 82

>>1326872
Превосходно. Так держать

Аноним 20/08/25 Срд 16:37:35 № 1326892 83

Подскажите, а если я запущу модель через лламуцпп в режиме чат комплишена, я смогу через через фронт семплеры редачить? в чем идея задавать семплеры через лламуцпп?

Аноним 20/08/25 Срд 16:46:11 № 1326905 84

>>1326892
Открой доку сервера, там всё описано

Аноним 20/08/25 Срд 17:25:43 № 1326932 85

>>1326794
> Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил?
Новичок? :) А советы как раздаешь!..
Это ж баян, я в начале грозился собрать такую хуйню около полугода, а потом собрал и даже посмотреть можно: https://www.youtube.com/watch?v=pp3ViqRNKQg

Аноним 20/08/25 Срд 17:43:33 № 1326949 86

Кто-нибудь пробовал играть с ламой в днд, где лама играет роль игрока? Т.е., где она понимает, что играет определенную роль, и понимает основные правила. Не попадались такие готовые карточки?

Аноним 20/08/25 Срд 17:58:37 № 1326965 87

>>1326949
>с ламой
Какой из?

Вообще, видел много карточек мастеров, но буквально две или три где бот - игрок(и), а человек - DM.

Хардкорное соблюдение правил наверно только большой квен из локального вывезет, а что попроще можно на гемме или даже мистрали.

Аноним 20/08/25 Срд 18:06:31 № 1326977 88

>>1326591
локальные нужно запретить

разрешить только проверенные подели по паспорту от правильных провайдеров. по-хорошему нужно ввести проверку/лицензия на пользование ллм, примерно как люди сдают права на машину. по другому никак

Аноним 20/08/25 Срд 18:08:10 № 1326978 89

>>1326932
>и даже посмотреть можно
Даже мой 300 рублевый микрофон пишет звук лучше. Впрочем, кажется я это уже писал.

Аноним 20/08/25 Срд 18:08:14 № 1326979 90

>>1326813
С высокой долей вероятности - да, потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися". То что ты много рпшишь/кумишь - похвально и неоспоримо, но хвастовство "большим эверчур чатом" в таком раскладе множится если не на ноль то на e-2.
>>1326864
Литералли злой джин. Кстати, как раз такое выполнение приказов/котелок (особенно с рандомным шансом инжекта) можно сделать для рофлочатов, должно шикарно получиться.
>>1326932
Недавно наткнулся на тред, как кобальта установить? Скачайл сейфтензор какой-то а он его не запускает!
> грозился собрать такую хуйню около полугода, а потом собрал
Еще не разобрал или продал эту штуку? Какая там скорость на 30а3 на контекстах типа 30-60к?

Аноним 20/08/25 Срд 18:09:20 № 1326982 91

>>1326977
пшол вон, иноагент ябучий

Аноним 20/08/25 Срд 18:12:41 № 1326984 92

>>1326979
>Скачайл сейфтензор какой-то а он его не запускает!
хахаха

А кстати да, неквантованые веса только трансформерсами запускать, чисто интересно.

Аноним 20/08/25 Срд 18:14:43 № 1326991 93

>>1326984
Эксллама тоже умеет

Аноним 20/08/25 Срд 18:24:42 № 1327001 94

У кого какие скорости гпт осс 120б на 3090/4090?

Аноним 20/08/25 Срд 18:28:42 № 1327006 95

>>1326846
Хорошая попытка товарищ майор, но набутылить меня за мои фантазии внутри рп с cunny девочками у вас не получится.

А может это только верхушка айсберга?

Аноним 20/08/25 Срд 18:31:14 № 1327009 96

>>1326979
> потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися"
> хвастовство
Лютый ассьюмимг на твоем конце анон. Почему другие не могут преуспеть как преуспел ты? Да и не хвастался никто, мы вообще инструкции обсуждали. Зочем ты ворвался со своим исключительным мнением хуй знает, я свой чат привел как поинт что отыграл дохуллион токенов и ни разу не встретил проблему какую мы обсуждали. Проще будь

Аноним 20/08/25 Срд 18:33:41 № 1327011 97

>>1327001
У меня нулевые, так как удалил эту подделку за бесполезностью. Единственное, что там полезное, это код обучаемого делителя в софтмаксе, но кому это интересно?
>>1327006
А ты фантазируй законно. Ты зачем фантазируешь незаконное? Фантазируй с канни мальчиками, это пр-зиденто-угодно.

Аноним 20/08/25 Срд 18:39:53 № 1327019 98

>>1327011
Вроде в коде и агент задачах неплоха да еще и быстрее аналогов

Аноним 20/08/25 Срд 18:44:23 № 1327026 99

>>1327019
В этой треде не кодят. А если кодить, я иду в чатГПТ, лол.

Аноним 20/08/25 Срд 18:44:31 № 1327027 100

989.png 20Кб, 1669x52

Вчера добрался до GLM 4.5 (не Air). Как я не пытался исхитриться и засунуть всю модель в врам - не получилось (разве что можно размер батча понизить, но тогда пп падает значительно, а тг всего лишь на полтокена вырастает).

prompt eval time = 4847.47 ms / 730 tokens ( 6.64 ms per token, 150.59 tokens per second)
eval time = 39930.65 ms / 462 tokens ( 86.43 ms per token, 11.57 tokens per second)
total time = 44778.12 ms / 1192 tokens

prompt eval time = 69110.62 ms / 9428 tokens ( 7.33 ms per token, 136.42 tokens per second)
eval time = 50284.90 ms / 361 tokens ( 139.29 ms per token, 7.18 tokens per second)
total time = 119395.52 ms / 9789 tokens

Но зато сама модель - просто офигенская. Не несет пургу как квен, не вялит и тупит как эрни. Не зря у челика пердак подгорел, мол, ответы 1-в-1 совпадает с гемини флеш, мол, зачем нам такое надо, если есть сама гемини, лучше и дешевле. Но зато литералли gemini at home, пусть и в таком виде.

Как мне показалось, (опять же, в отличие от квена), рп-шит лучше с ризонингом. Что немного больно, учитывая 7-12 т/с, но брать квант ниже - себя не уважать (мои соболезнования тем, кто вынужден второй гонять), так что терпим, карлики. С магнумом 2 т\с терпел, а тут вон какая щедрость. Благо он ризонит не какие-то ебейшие полотна, обычно секунд 30 занимает.

Из минусов все те же структурные лупы, а бывает, что даже куски предложения повторяет из предыдущего сообщения.

В общем, это первая модель, за исключением корпов, которая меня действительно порадовала после милфы и ее тюнов (исключая дипсик и кими, которые я не пробовал по понятным причинам). Понятное дело, что это только первые впечатления, но все равно.

А тем временем в Жоре запилили сделанную на коленке реализацию MTP: https://github.com/ggml-org/llama.cpp/pull/15225 Надо бы попробовать, ибо ускорения OCHE хочется.

Аноним 20/08/25 Срд 18:44:43 № 1327028 101

>>1327006
>А может это только верхушка айсберга?
Разумеется, никому в голову не придет идея, что можно фистить своему персонажу, а потом его утягивает в его же анус ужасное лафкрафтианское чудовище.

Аноним 20/08/25 Срд 18:50:08 № 1327029 102

>>1327027
>но брать квант ниже - себя не уважать
А ты пробовал, или просто привычка? И как оно по сравнению с Air.
>>1327028
>канни фистинг
Больной ублюдок.

Аноним 20/08/25 Срд 19:04:11 № 1327033 103

>>1327009
Не просто могут а всегда найдется рыба больше.
Но такие вещи становятся понятными по самому началу разговора. Или вы находите общий язык, вспоминаете то с чем сталкивались, или ты видишь какой-то другой принцип реализации и вам становятся интересны подходы друг друга, завязывается плотное обсуждение, в обоих случаях сразу понятно что там что-то есть. А когда начинаются громкие заявления, но вместо пояснений и разговора по сути нужно клещами вытягивать короткие и совсем общие фразы - очевидно что желаемое выдается за действительное.
> Зочем
Потому что на замечание по промптингу ты врываешься со своим 60к сообщений чатом и апеллируешь к этому как к истине. Зато на пояснение сути аргумента - сдулся.
>>1327027
> ответы 1-в-1 совпадает с гемини флеш
Он получше флеша. Но замечание резонное тем, что крутые ответы обильно разбавляются литрами слопа, который очень напоминает жеминиевский.
В остальном поддвачну за похвалы, он действительно годный и умный, если слоп не вызывает острой аллергии.
> total time =
Это фуллгпу?
>>1327028
Асуждаю, канничек надо любить и обожать

Аноним 20/08/25 Срд 19:09:31 № 1327037 104

>>1326978
Ну так посмотреть же, а не послушать. =D Хоб-хоб, выкрутился!

>>1326979
> Какая там скорость на 30а3 на контекстах типа 30-60к?
Давай ща затестим.

prompt eval time = 340661.22 ms / 34677 tokens ( 9.82 ms per token, 101.79 tokens per second)
eval time = 191029.80 ms / 1228 tokens ( 155.56 ms per token, 6.43 tokens per second)
total time = 531691.02 ms / 35905 tokens

35к токенов = 6,4 т/с.

Аноним 20/08/25 Срд 19:09:53 № 1327038 105

>>1327029
>А ты пробовал, или просто привычка?
Привычка, но вообще это же моэ, активных 32B параметра все равно, так что я вангую квантование тут будет сказываться сильнее, чем на плотных моделях такого же размера. Поэтому на всякий случай всегда беру повыше.
>И как оно по сравнению с Air.
Не знаю, не в обиду анонам, но зачем мне запускать огрызок от огрызка гемини. Тут вроде писали, что обычная не имеет каких-то проблем, которые имеет Air. Да и кому это интересно, те, кто запускают Air, либо не в состоянии запустить большую модель, либо осилят только первый-второй квант, а это уже отдельная история.

>>1327033
>Это фуллгпу?
На первом скрине параметры запуска. Фулл, за исключением четырех экспертов. Но я видеокартовый барон же, лол, если бы вот хотя бы 2.5 блеквелла было вместо этого всего, эх...

Аноним 20/08/25 Срд 19:11:09 № 1327039 106

>>1326501
> хардпорно?
This. Ну а еще гибкость и функционал. Я уже слишком старый чтоб мой фимозный корнюшончик повидавший многое поднимался на неловкие романтические отношения с ванилой. Для меня уже футы\фф\нтр\мистресы с флюгегехаймером воспринимается как что-то лайтовое и скучное.

Аноним 20/08/25 Срд 19:21:57 № 1327047 107

>>1327037
Очень жаль, так ее можно было бы приспособить под какие-нибудь прикладные задачки фоном.
>>1327038
> параметры запуска
Что такое -ncmoeud? ncmoe - сокращение обычного n-cpu-moe, ncmoed - для драфт модели. И их использование с мультигпу - непростая задача.
Что за процессор? Если рам не самая срань то попробуй выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц. Казалось что должно быть быстрее.

Аноним 20/08/25 Срд 19:25:52 № 1327049 108

>>1327033
Понял. Ты принцесса и смотришь свысока. Думаю не раз уже такое читал в свой адрес, но я все понимаю, люди разные..

Аноним 20/08/25 Срд 19:28:08 № 1327051 109

>>1327047
>Что такое -ncmoeud?
Пикрел, запилил себе для удобства
>Что за процессор? Если рам не самая срань
DDR4 3600 128 Гб, i7 9700K. Так что, пожалуй, почти самая срань.
>выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц
Не знаю как поведет себя тг, но я уверен, что пп от этого встанет и уйдет, будут жалкие 50 т/с

Аноним 20/08/25 Срд 19:28:58 № 1327052 110

>>1327038
>Поэтому на всякий случай всегда беру повыше.
>Не знаю
Ну так попробуй оба случая. А то может твои представления устарели. К тому же твои сравнения могут подтолкнуть других анонов собирать свои риги.

Аноним 20/08/25 Срд 19:34:47 № 1327054 111

>>1327047
Ну, на старте 26 токенов.
А ты не забывай, что те же агенты подают порционно, не держат все в контексте, там скорость вполне 15-20 будет на постоянке.
Так что приспособить можно (но у меня есть сборки получше, а еще и DDR5 едет 2 х 64).

Аноним 20/08/25 Срд 19:42:00 № 1327059 112

>>1327049
Я император и смотрю на людей как на равных пока они не доказали обратное, или наоборот возвысили себя. Играть в обиженку когда слился в техническом обсуждении, будучи почти пойманным на лжи - пожалуй одно из самых жалких проявлений такого.
Заметь, я не высказал ни единого оскорбления или чего-то плохого в твою сторону, лишь предметно о низкой ценности твоего "основного эдверчур чата", на который ты уповал в том споре.
>>1327051
> что пп от этого встанет и уйдет
В последних версиях llamacpp этот момент прокачали при повышении батча, но иногда наблюдается упор в шину основной гпу. Потому есть смысл посравнивать с другой конфигурацией подключения, если такое возможно.
Еще что интересно - попробуй максимально выкрутить контекст сколько влезет и попробовать сколько будет на 30, 60, ...к, достигло ли оно условного плато и эти 7 токенов так и останутся, может просядут до 6, или падение будет линейно. После всех обновлений, особенно когда много экспертов на проце, оно ведет себя именно так, быстро просаживается в начале но потом стоит прибитым.
>>1327054
> те же агенты подают порционно
В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело.

Аноним 20/08/25 Срд 19:50:14 № 1327064 113

>>1327059
В том и дело что был не спор а обмен мнениями. Но объяснять бестолку, мы на разной волне похоже. Ты понял кто я, я понял кто ты, так что давай будем умницами и прекратим срать не по делу в тредик, курю трубку мира

Аноним 20/08/25 Срд 20:09:18 № 1327075 114

>>1327064
Не плачь, принцесса, твое мнение тоже важно. Как минимум тебе.

Аноним 20/08/25 Срд 20:11:07 № 1327078 115

>>1327028
ТЫ СПАЙК
@
ОТ СКУКИ ФИСТУЕШЬ СЕБЯ В СРАКУ ЛАПОЙ
@
ОТТУДА ХВАТАЮТ ЗА ЛАПУ И ТЯНУТ НА СЕБЯ
@
ТЯНУТ ВСЕ СИЛЬНЕЕ
@
ЗАВОРАЧИВАЕШЬСЯ В СОБСТВЕННЫЙ ЗАД
@
ВЫЛЕЗАЕШЬ ИЗ ЗАДА ДИСКОРДА ВО ВРЕМЯ ЧАЕПИТИЯ С ФЛАТТЕРШАЙ
@
ТА УМИЛЁННО ХЛОПАЕТ

Аноним 20/08/25 Срд 20:13:21 № 1327082 116

>>1327075
Критический промах
Провокация не увенчалась успехом

Если есть вдохновение - можно попробовать перебросить

Аноним 20/08/25 Срд 20:16:58 № 1327085 117

>>1327052
Мне неинтересно такое пробовать. Мне интересно выжимать максимум из моего сетапа и чтобы это было юзабельно, а проверять заведомо не лучшие вещи - ну такое.
>могут подтолкнуть других анонов собирать свои риги.
Собирать риг под конкретный квант конкретной модели - выглядит прям очень и очень странно. Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться. Как по моему мнению, если уж и собирать риг под модель, так чтобы крутить там 5 квант и выше, иначе это клоунада уже.

>>1327059
>попробуй максимально выкрутить контекст сколько влезет
Какие 60к, у меня 20к влезли на тоненького. Да и смысол, я никогда не использую контекст выше 32к.

Да и у меня старья то толком нет, только теслы. Можно попробовать их выкинуть ради эксперимента. Остальные должны хорошо молотить - уж наверняка лучше цпу.

Но веры у меня нет в этот эксперимент, потому что даже теслы все еще должны ебать по сравнению с рам, т.к. моэ и двухканал ддр4

Аноним 20/08/25 Срд 20:31:12 № 1327098 118

image.png 117Кб, 904x209

Аноны, подскажите пожалуйста. Гуню в таверне. Всячески указывал во время диалога о простых ответах, но модель выдает пизда сложные формулировки. (пик). Я уже не знаю, что делать. В Prompt Content указан пик2.

Как избежать такой хуйни? Как заставить ее писать проще и по делу? Меня заебали эти заумные формулировки, которые нихуя смысла не несут, по своей сути.

Модель Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf

Я хлебушек в этом деле, если что.

Аноним 20/08/25 Срд 20:38:40 № 1327105 119

Что сейчас лучшее к адекватному запуску из возможного на сетапе с 16 гиг врам и 96 рам?

Аноним 20/08/25 Срд 20:45:15 № 1327110 120

>>1327098
Самый простой способ попробовать решить эту проблему - поговори с моделью в режиме ассистента (без карточки персонажа).

Пишешь примеры текста, которые тебя не устраивают. Пишешь, как тебе хотелось бы видеть текст. Показываешь промпт с инструкциями.

Задача - отредактировать инструкции так, чтобы получалось как тебе хочется.

Модель что-нибудь выдаст. Пробуй. Если не устроило - повторяешь запрос (с нуля, в новом чате) с добавкой к посту, что вот такой-то подход решения проблемы не сработал (прям вставляешь че модель в первый раз насоветовала, чисто по инструкциям).

И далее повторяешь все то же самое, пока не высрется удовлетворительный результат.

Аноним 20/08/25 Срд 20:47:21 № 1327112 121

>>1327110
>>1327098
> Пишешь, как тебе хотелось бы видеть текст.
Имеется в виду буквально "сочини свой вариант идеального ответа ЛЛМ" и презентуй как положительный пример в сравнении с отрицательным.

Аноним 20/08/25 Срд 20:47:30 № 1327113 122

>>1327059
> В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело.
Никогда не ловил, всегда было 12-20. Но, хз, может размер проекта решает, да.
Но на крупном проекте 30б и юзать ну такое. =) А ниче нормальнее такой конфиг с 40 гигами не потянет, естественно.

Аноним 20/08/25 Срд 20:49:51 № 1327117 123

>>1327098
Твой скрин - это типичная шиза у модели. Либо семплеры говно, либо контекст она уже не осиливает.

Аноним 20/08/25 Срд 20:50:12 № 1327118 124

>>1327110
Я не знаю, как говорить с моделью в режиме ассистента ._. Я в таверне создал персонажа и там и играю. У меня был какой-то дефолтный персонаж, но я его сразу удалил.

Аноним 20/08/25 Срд 20:52:32 № 1327121 125

>>1327117
Сэмплер это "Story String"? У меня там стоит обычный Simple-proxy-for-tavern (пик). Конекст я сбрасывал где-то 30 сообщений назад всего, заполняя его ворлд-лором и заметками автора. Она изначально себя так и вела.

Аноним 20/08/25 Срд 20:54:28 № 1327124 126

>>1327112
Ага, называется "Пример диалога" в карточке

Аноним 20/08/25 Срд 20:56:00 № 1327126 127

image 6Кб, 198x51

image 33Кб, 627x92

image 4Кб, 362x108

>>1327118
Для начала, у тебя правда семплер кривой судя по всему. Там не какие-то "сложные манеры речи", а просто поломанные настройки и полный распад.

https://huggingface.co/Konnect1221/The-Inception-Presets-Methception-LLamaception-Qwenception/blob/main/Methception/Methception-1.4.3.json
Попробуй этот конфиг - вставляется кнопкой Master Import, везде ставишь галочки.

Не принуждаю его использовать, но он должен пофиксить проблему шизогенерации.

>>1327121
Настройки семплера графическом интерфейсе по самой левой кнопке - text completion presets. Но вообще если смотреть текстовый файл конфигурации - они там все после температуры идут по порядку. Это очень сложная хренть (см. пик 4) и дело в том, что каждой модели нужны свои настроечки. Не обязательно прям какие-то идеальные, есть некое окно, в котором модель лучше всего работает. Диапазон параметров. Где искать подходящие - ну для начала загугли, обычно разработчик модели пишет рекомендованный минимум.

Аноним 20/08/25 Срд 20:57:14 № 1327128 128

>>1327126
>этот конфиг
Он только для мистралей, если что. Там и для других моделей есть (квен/ллама например), но я не ебу хороши ли они.

Аноним 20/08/25 Срд 20:59:28 № 1327132 129

>>1327126
Пиздец как сложно для меня. Я понял еле-еле половину от сказанного.

Аноним 20/08/25 Срд 21:02:05 № 1327136 130

>>1327132
https://docs.sillytavern.app/usage/common-settings/
Ну ты можешь документацию почитать.
А еще лучше поговори с DeepSeek про то, как работает ИИ и какие настройки на что влияют. Только по таверне бесполезно вопросы задавать, у него очень мутное представление о старых версиях.

Аноним 20/08/25 Срд 21:03:38 № 1327137 131

>>1327132
Че сложного-то, пресет дали - импортируй и посмотри, станет ли лучше.

Аноним 20/08/25 Срд 21:03:50 № 1327138 132

>>1327126
Короче я перешел по ссылке, нажал "copy download link", перешел по скопированному адресу - там открылась страница с текстом. Я его скопировал, создал текстовой документ, вставил написанное, переименовал формат в json и нажал master import. Галочки везде поставил.

Ща посмотрим, как будет генерировать.

Аноним 20/08/25 Срд 21:03:57 № 1327139 133

>>1327082
Ебаный рот вашего казино, во что, в киосках d20 заряжаете?!
Кстати а разве есть критический промах, не критическая неудача? Нужны эксперты для пояснения.
>>1327085
Жора не суперэффективно работает на мультигпу, особенно на разноархитектурных и плохо подключенных. На оче больших моделях добавление +75% врам , пусть и более медленными картами, дает оче слабый эффект, с немалой вероятностью там гадит райзер.
Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее. С другой стороны, уже условно юзабельно.
Эйр можно катать в экслламе, с новым параллелизмом будет супербыстро даже с медленными шинами. И он вполне неплох.

Аноним 20/08/25 Срд 21:06:56 № 1327143 134

>>1327126
Так. Модель стала активно писать от лица моего персонажа теперь... Три генерации и везде она пишет посреди реплик своего персонажа реплики моего персонажа.

Аноним 20/08/25 Срд 21:08:26 № 1327145 135

>>1327143
А ты чат новый начинал? Или в старом продолжаешь? По хорошему надо вообще пойти и отправить сообщение другому персонажу, а потом вернуться на старого и начать с нуля.

Много раз замечал дикую дичь при смене настроек без смены чатов. Как будто все смешивается к хуям.

Аноним 20/08/25 Срд 21:10:40 № 1327146 136

>>1327145
Не, не начинал. Просто перезапустил кобольд и таверну. Сейчас попробую начать новый чат.

Аноним 20/08/25 Срд 21:19:11 № 1327157 137

>>1327146
>Просто перезапустил кобольд и таверну.
Настройки сохраняются и без этого. Главное начать чатик, не засранный предыдущим контекстом.

Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.

Аноним 20/08/25 Срд 21:21:55 № 1327160 138

>>1327157
Я не могу найти этот Token Padding, что бы заскринить. ._.

Аноним 20/08/25 Срд 21:23:44 № 1327162 139

>>1327160
Оно вполне на виду.

Аноним 20/08/25 Срд 21:28:25 № 1327165 140

>>1327162
Блять. Я слепошарый идиот. Значит, при контексте в 16к я должен поменять 64 на 4000?

Аноним 20/08/25 Срд 21:31:05 № 1327170 141

>>1327165
Попробуй.

При 64 по идее модель видит лишь мельчайший кусочек инструкций (или контекста чата, я честно говоря забыл как это работает - но короче ЧТО-ТО важное просто не влезает).

Я ради смеха 0 поставил там, и модель меня нахуй послала вместо ответа. Буквально fuck you.

Аноним 20/08/25 Срд 21:40:32 № 1327178 142

>>1327170
Понял. Поставил 4к. Вроде пока что-то внятное пишет. В случае чего, просто буду добавлять все заметки автора и перезапускать чат.

Вспомнился анон с прошлого треда, которого модель нахуй послала сразу же, после того, как его персонаж очнулся и сказал "дай мне секс". Смешно это было.

Аноним 20/08/25 Срд 21:49:02 № 1327188 143

>>1327170
Короче после 2-3 генераций ответа опять выдает ответы от лица моего персонажа.

Аноним 20/08/25 Срд 21:54:54 № 1327197 144

>>1327170
Ты тролль или чайник? Token Padding - всего лишь указывает - сколько токенов резервировать на случай, если токенизер наврет при расчете количества токенов из текста истории+WI. Т.е. это количество отрезается от размера контекста которое у тебя в таверне стоит, чтобы всякая история и WI гарантированно не вылезли за пределы, которые модель понимает и переваривает. Чем больше вставишь, тем больше собственноручно отрежешь от доступной "памяти".

>>1327178
Вертай назад. Оно и 64 - обычно много. У меня 16 стоит, и ничего никогда не глючит.

Аноним 20/08/25 Срд 22:05:15 № 1327208 145

>>1327197
Блять я запутался окончательно

Аноним 20/08/25 Срд 22:07:35 № 1327212 146

>>1327208
Бля да не трогай ты просто эту хуйню. Оставь 64 или 16 без разницы

Аноним 20/08/25 Срд 22:09:00 № 1327214 147

>>1327085
>Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться.
Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен, так как отвергает всякие "скил ишью" в отношении дешёвого Аира. Но как знаешь.
>>1327105
ГЛМ 4,5 Аир

Аноним 20/08/25 Срд 22:10:41 № 1327220 148

>>1327157
>token padding
>8к
Чего блядь? Это рубрика вредных советов, или троллинг новичков такой?

Аноним 20/08/25 Срд 22:10:52 № 1327221 149

>>1327214
> "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен
Придумай какую-нибудь мотивацию

ROCm от AMD стремительно догоняет CUDA и бросает вызов лидерству NVIDIA Аноним 20/08/25 Срд 22:16:23 № 1327225 150

>>1326416 (OP)
Секрет успеха NVIDIA во многом заключается не в железе, а в её программной экосистеме, где безраздельно царит CUDA, ставшая стандартом для инференс‑задач. AMD же долгое время не удавалось пробить этот «стеклянный потолок»: производительность железа удавалось подтягивать до уровня конкурента, но софт оставался слабым звеном. Теперь же ситуация меняется. По словам Tiny Corp, компании, известной своими решениями для конечных пользователей в сфере ИИ, AMD уверенно сокращает этот разрыв.

В Tiny Corp считают, что достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров. В расчёт берётся и июньский прорыв: на конференции Advancing AI AMD представила новую версию ROCm с поддержкой расширенных фреймворков вроде vLLM v1, llm‑d и SGLang, а также с целым набором оптимизаций — от распределённого инференса до prefill‑вычислений и дисагрегации.

Седьмое поколение ROCm ориентировано прежде всего на инференс‑нагрузки, и там AMD показывает внушительные скачки производительности: будь то пропускная способность DeepSeek R1 FP8 или ускоренное обучение, которое компания называет даже лучше, чем у CUDA. Более того, ROCm 7 уже в этом году получит поддержку на ноутбуках и рабочих станциях с Ryzen, будет встроен в Linux «из коробки» и получит полноценную поддержку Windows. Очевидно, AMD хочет сделать свой стек доступным практически для всех пользователей — от энтузиастов до корпоративного сегмента.

Если AMD сумеет довести своё ПО до уровня CUDA, у компании появится мощнейший козырь. Ведь альтернативная экосистема программных инструментов способна превратить «красных» в грозного соперника, способного пошатнуть монополию NVIDIA в ИИ. Остаётся лишь наблюдать, как будет меняться расстановка сил.

https://habr.com/ru/companies/bothub/news/939142/

Аноним 20/08/25 Срд 22:18:44 № 1327226 151

>>1327225
Ну ахуеть, всего то нужно было добавить поддержку числовых типов. Долго же они думали. Ну и 7 версия пока релиз кандидат

Аноним 20/08/25 Срд 22:21:46 № 1327227 152

>>1327221
Почёт и уважение в треде.
>>1327225
>Секрет успеха NVIDIA во многом заключается не в железе
Не только в железе, да. Но и по железу невидия ебёт. Так что...
>Если AMD сумеет довести своё ПО до уровня CUDA
>Если
Ну в общем всё понятно. Притом что тут не только красные должны росм допилить, но и утилиты для инференса нужно подтягивать.

Аноним 20/08/25 Срд 22:23:29 № 1327228 153

>>1327212
Окей... Но как избавиться от того, что бы модель писала от лица моего персонажа?

Аноним 20/08/25 Срд 22:23:54 № 1327230 154

>>1327226
Ну и забыл добавить. Треду 7 версия не светит (конечно попробую на ми50 поднять, но шанс призрачный)

Аноним 20/08/25 Срд 22:26:37 № 1327235 155

>>1327228
В систем промпте указать, чтобы она от него не писала. Какая модель?

Аноним 20/08/25 Срд 22:28:01 № 1327237 156

>>1326791
>Ахуеть рояль
Так толку от них никакого не было. Кобольд их не грузит, если принудительно не сказать выгружать слои, а если выгружать, то только хуже. На одной запускал лишь мелкогемму для перевода, вот и вся польза. Брал пару лет назад когда их китайцы на рынок выкинули, думал что йоба.
>например что ддр5 32 гига?
Писал же что 64 >>1326340 →
>-ngl 999
Если только на озу, то 2,8 токена
>объемы трех видеокарт и 0.7 долю
Тогда 3,2 токена
Если долю увеличить до 0.8 и 0.9, ровно те же 3,2 лишь разное количество озу забивало.
>--n-cpu-moe
Ранее писали же что от неё только хуже и работает криво?

Аноним 20/08/25 Срд 22:31:11 № 1327240 157

>>1327157
>Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.

Ебать вот это нахуй совет, ты че угараешь? Ты реально сидел с такой настройкой все это время и ничего не замечал неладного?

Аноним 20/08/25 Срд 22:32:06 № 1327242 158

>>1327228

Покажи как именно это происходит. Как часть ролеплея или модель реально пытается писать от лица {{user}}, это две разные вещи.

Аноним 20/08/25 Срд 22:32:18 № 1327243 159

>>1327235

Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf

Аноним 20/08/25 Срд 22:33:36 № 1327244 160

>>1327225
Уже который год это слышим, стремительный рост с 7.1 до 7.3%, ускорение до уровня конкурента, сравнение ми300 в хоппером при выставлении и последнего самых неоптимальных режимов с упором с процессор.
> достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров
Продвижение на рынке профессоров заняло более 7 лет, и даже так в 24 штеуда примерно в 2 раза превышал амд на серверном рынке.
Хуанг уже более 5 лет кормит с лопаты, а все причмокивая просят еще, а красные только сейчас начали понимать, что продукт без возможности удобного применения нахер никому не нужен. Они могут попытаться подняться с мелко-потребительного рынка, сделав ставку на пользователей и энтузиастов, разумеется при хорошем продукте мы их поддержим. Вот только это все еще роль догоняющих, пока на твоем железе не создают модели изначально, ты лишь подножный корм.
Отношение к амд очень наглядно проиллюстрировано в крутейшей документалке gn https://www.youtube.com/watch?v=1H3xQaf7BFI на вопросы про них или откровенно глумились, или вежливо отнекивались. Кто не видел рекомендуется к просмотру. Кстати про куду можно послушать в также ахуенном видео от бороды https://www.youtube.com/watch?v=uANmdXo5__Y со второго часа.
>>1327227
> Почёт и уважение в треде.
Неоче вариант

Аноним 20/08/25 Срд 22:36:11 № 1327245 161

>>1327243
https://pixeldrain.com/u/BHJhzftD

Аноним 20/08/25 Срд 22:49:38 № 1327249 162

>>1327245
Извини, я глупый. Куда это вставлять/загружать?

Аноним 20/08/25 Срд 22:51:00 № 1327250 163

>>1327214
> Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен
> так как отвергает всякие "скил ишью" в отношении дешёвого Аира.
рубрика ээээксперименты это оч весело, но остался ли в треде хоть кто-нибудь, кто доволен эиром? двое что радовались эиру позже переехали на большой квенчик во втором кванте и довольно урчат. потом нюня пришел и поделился что он мех, а я ему верю (с прошлыми его мнениями совпал полностью)

как будто реальный юзкейс для эира это если ты не можешь запустить ~32b плотненькую няшу

Аноним 20/08/25 Срд 22:52:35 № 1327253 164

>>1327139
>Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее.
Видишь ли, тут много нюансов и надо проверять. У меня две 3090 подключены через х1. Можно ли с них выгружать тензоры вообще и в каком количестве? Вдруг придется гонять столько данных, что уже эти х1 ролять будут.
С другой стороны, я уже говорил, что амперы амперам рознь и 2080 Ti намного шустрее 3060, поэтому я основным сетапом считаю 3090 + 2080 (ну и 3070 ти на сдачу). Поэтому, к слову, я экслламу не завожу - фа не завезли на тьюринги, надо пердолиться. Ну об этом я уже писал тирады в прошлых тредах.
Еще стоит проблема адекватного сравнения, потому что комбинаций как, что и откуда выгрузить в моем сетапе - жопой жуй. Кажется, что можно попробовать запихать в главную карту (там у меня х16) как можно больше слоев с выгруженными тензорами, освободив теслы. Если не влезет - можно повыгружать с 3090 х4. Если в таком сетапе уже будет медленнее, чем сейчас - значит все говно и дальше освобождать более слабые карты смысла нет.

Аноним 20/08/25 Срд 22:56:12 № 1327254 165

>>1327139
>>1327253
Можно начать с самого простого - помониторить псины на скорость обмена под нагрузкой. В лини делается без особых сложностей, в винде хз

Аноним 20/08/25 Срд 23:03:52 № 1327266 166

>>1327250
>но остался ли в треде хоть кто-нибудь, кто доволен эиром
Ну вот я. Мне норм.
>позже переехали на большой квенчик во втором кванте
Мне боязно такое запускать на моём калькуляторе.

Аноним 20/08/25 Срд 23:04:19 № 1327268 167

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

новая плотненькая 36б няша? ждем жору и гуфа

Аноним 20/08/25 Срд 23:05:26 № 1327271 168

>>1327254
Я вроде пробовал ставить что-то, что это делает - мне сказали, что с такими запросами пошел я нахуй, то бишь серверный проц нужен. Так что реальную нагрузку линий я смотреть не могу.

Аноним 20/08/25 Срд 23:07:57 № 1327275 169

>>1327250
Ну захейтили эйр прямо.
>>1327253
Для эйра на экслламе хватит умеющихся 3090, остальные можно выкинуть из рассмотрения. На х1 еще могут быть приколы чипсетных линий при их перегруженности. Хз будет ли толк от запихивания всех слоев кроме экспертов в основную карточку, особенно в конфигурации где нужно максимально избегать пересылов между картами, но можно попробовать.
>>1327254
Идет загрузка основной карточки во время обработки контекста. На остальных - десятки мегабайт. Но метрика не точная, оно показывает с редким обновлением просто деля количество пересланного на интервал накопления, если оно треть времени загружено на 100% и просто простаивает - ты увидишь лишь треть от максимальной псп, хотя замедление уже будет существенное. В шинде сейм, но там точно есть тулза от хуанга, которая позволяет записать подробные логи и посмотреть что происходит по миллисекундам но она для игр, хз сработает ли тут
>>1327268
Вот бы еще побольше версию выпустили

Аноним 20/08/25 Срд 23:08:06 № 1327276 170

image.png 97Кб, 879x194

>>1327271
> серверный проц нужен
Тут сказать ничего не могу. В моём случае честный серверный сетап от и до

Аноним 20/08/25 Срд 23:10:37 № 1327283 171

>>1327275
> Но метрика не точная
У интела есть pcm, но чёт влом разбираться

Аноним 20/08/25 Срд 23:12:40 № 1327286 172

>>1327268
>OSS
Эм, они спиздили название у попенов?

Аноним 20/08/25 Срд 23:13:58 № 1327289 173

>>1327286
Челибас...

OSS - Open Source Software

-____________-

Аноним 20/08/25 Срд 23:15:00 № 1327290 174

>>1327214
>ГЛМ 4,5 Аир
Я так понимаю у них метод запуска отличается от дефолт моделей? Есть какой-то пост, где объясняют че к чему?

Аноним 20/08/25 Срд 23:39:21 № 1327309 175

>>1327290
Ещё как. Хотел поебаться с вайфу, а третий день ебусь с ламой и её 3я токенами.

Аноним 20/08/25 Срд 23:41:45 № 1327311 176

изображение.png 9Кб, 810x111

>>1327290
В шапке про выгрузку тензоров, но по сути можно тупо вот сюда вписывать разные числа, пока пазл не сойдётся.

Аноним 21/08/25 Чтв 00:03:32 № 1327319 177

Умом...

квен 235 q4

Аноним 21/08/25 Чтв 00:15:53 № 1327322 178

>>1327319
В голосяндр с этого загадочного стиля.
А как у неё с логикой на английском? Что отвечает на такой же вопрос?

Аноним 21/08/25 Чтв 00:22:19 № 1327324 179

>>1327322
Быстрее и понятнее сказала

Аноним 21/08/25 Чтв 00:23:28 № 1327325 180

>>1327324
>>1327319
Хотя как по мне в ответе то там то сям бред проскакивает

Аноним 21/08/25 Чтв 00:24:00 № 1327326 181

>>1327319

Первая модель что без ризонинга справилась с этой задачкой Василия Ивановича.

Аноним 21/08/25 Чтв 00:34:20 № 1327330 182

Заметил странную хуйню с мое моделями. Такое ощущение, что на нулевом контексте у них меньше скорость, чем на условных 5-10к. Почему так? Я вот вообще нихуя не спец и могу только предположить, что т.к. контекста нет модели не на что опереться, и => пул токенов для выбора бора => активнее тасуются эксперты
А когда контекст частично заполнен модель с первых секунд генераций определяет вектор развития и урезает часть экспертов? Может хуйню сказал, но я убежден в том что на нулевом контексте скорость меньше. Может чудеса Жоры, хуй его знает

Аноним 21/08/25 Чтв 00:35:28 № 1327331 183

>>1327330
> пул токенов для выбора бора больше

Аноним 21/08/25 Чтв 00:37:47 № 1327333 184

>>1327330
> я убежден в том что на нулевом контексте скорость меньше.
Берёшь и смотришь сколько тг при 0, 1000, 2000, 5000, 10000, 20000 контекста. Все метрики есть как в логах так и в респонсах

Аноним 21/08/25 Чтв 00:40:58 № 1327335 185

>>1327333
Так я и смотрел. У меня Эир на 10к контекста генерирует быстрее чем на 0. Под убеждением я имел ввиду что это нихуя не погрешность и не совпадение. Пусть и всего на полтокена, но реально быстрее генерит. Учитывая что у меня он в целом на 4т /с фурычит это ощутимо. Потом конечно скорость снижается, ближе к заполнению контекста, до 3
Короче такая хуйня: 3.2-3.5т/с на 0, ~4-4.2 т/с на 10-18к, ~3 на 24к, а больше не лезет увы

Аноним 21/08/25 Чтв 00:54:37 № 1327340 186

>>1327335
На репрезентативные данные не тянет. Сам я конечно не буду бенчи писать, лишь скажу как бы делал.
- шаг в 2к контекста
- 3 разных контекста
- пп лимит везде 100
- прогон каждого сочетания 5 раз с выключенным кешем и отбрасыванием первого т.к. прогрев

Аноним 21/08/25 Чтв 01:21:40 № 1327348 187

>>1327324
Получается Гемма с проперженным ризонингом может лучше в логику? 2 из 2 раз верный ответ, но на русском отказалась думать сходу, а делать специальный промпт под русик не охота.

Аноним 21/08/25 Чтв 01:29:37 № 1327350 188

>>1327348
Конечно. Гемма умничка и лучше всех на свете

Аноним 21/08/25 Чтв 01:33:00 № 1327356 189

>>1327335
>3.2-3.5т/с на 0, ~4-4.2 т/с на 10-18к, ~3 на 24к

Бред какой-то. Ты хоть скорость генерации пишешь, или общую скорость?

Аноним 21/08/25 Чтв 01:33:09 № 1327357 190

>>1327324
Попробуй еще такой вопрос, почему-то часто с него модели какаются и отвечают 3. Но Гемма и тут с 1ого раза справилась.
Jessica has 3 sisters and 2 brothers. How many sisters Jessica's brother has?

>Конечно. Гемма умничка и лучше всех на свете
Всё так, ждем 4ую.

Аноним 21/08/25 Чтв 01:33:54 № 1327359 191

>>1327348

А теперь давай без ризонинга.
И к слову - есть отдельный квен 235b с ризонингом.

Аноним 21/08/25 Чтв 01:45:54 № 1327373 192

Какой же Квен няша. Давно так лампово не сидел. Не галлюцинирует в рп, послушный, яркий, струны души натягивает как надо, да и не только их в общем-то...

Аноним 21/08/25 Чтв 01:49:48 № 1327375 193

>>1327357

Аноним 21/08/25 Чтв 01:51:15 № 1327378 194

>>1327373
Ну так это уровень платных версий корпосеток. Все остальное просто в другой категории. Китайцы молодцы.

Аноним 21/08/25 Чтв 01:57:13 № 1327383 195

>>1327326
Ну это откровенные читы, там весь ответ и есть ризонинг. И квен постоянно так делает, даже в рп.
Какбы я ее оче люблю и обожаю, но весь ум проявляется именно в относительно длинных ответах где даже чары постепенно выстраивают свою речь и действия. Если мучать и заставлять делать зирошотом - ответы хуже.
От того, вероятно, и разделившиеся мнения по модели, кто-то восхищается а кому-то такой стиль не заходит или пытались сокращать и ставить в жесткие рамки.
>>1327373
База, и главное что он очень хорош не только в рп а в очень широком перечне задач, исключая что-то совсем массовое из-за ограниченной скорости.

Дипсика 3.1 кто-нибудь пускал уже? Он совсем базовый без инстракт тренировки, а значит с высокой долей вероятности не соевый.

Аноним 21/08/25 Чтв 08:41:44 № 1327475 196

>>1327322
Похоже местный фольклор протек
Перевернув кружку ты пошел против воли небес, встал на путь культивации, теперь у тебя только один путь - стать бессмертным.
А вот нехер было загадочными практиками заниматься. Жди гостей из клана Тан

Аноним 21/08/25 Чтв 10:34:03 № 1327508 197

>>1327383
Справедливости ради, есть небольшая разница между:
CoT само
CoT по промпту
CoT в ризонинг-тегах
Третье очевидно обучалось и должно решать задачи любые легко.
Второе может решать, а может не решать, и это дополнительный промпт и вообще.
А первое — хорошо, когда он сам иногда думоеть, а иногда отвечает сразу, ИМХО, это НЕ плохо, если он так отвечает НЕ на каждый вопрос вообще. =)
Нехай думает в открытую и кратенько, когда нужно. Только выиграли, короче. =D

Аноним 21/08/25 Чтв 11:10:36 № 1327530 198

Челики объясните пж для чего вообще нужны локальные LLM. Ну типо есть же облачные решения по типу gemini, copilot, gpt и прочей хуйни, они и быстрее генерируют и умнее локалок и контекста как будто бы больше скормить можно. Понятно что лучше использовать локальные LLM для конфиденциальности, но в этом треде я так понимаю что люди не только ради конфиденциальности их юзают. Из всех адекватных моделей для меня оказалась gemma, прикольно юзать с RAG, но всё же до уровня облачных моделей не дотягивает (юзал 4b)

Аноним 21/08/25 Чтв 11:16:03 № 1327539 199

>>1327530
> Челики объясните пж для чего вообще нужны локальные LLM
Если кратце - чтобы не плакать в твиттере, что GPT-5 глупее предыдущего.
Если подробнее - очень много вариантов использования, больше развязаны руки, и нет зависимости от интернета/цензуры.

Аноним 21/08/25 Чтв 11:26:20 № 1327549 200

>>1327530
К тому что пайплайн который ты лично не контролируешь это мусорный пайплайн, который у тебя либо заберут, либо сделают неюзабельным.

Аноним 21/08/25 Чтв 11:27:07 № 1327550 201

>>1327530
>Челики объясните пж для чего вообще нужны локальные LLM

Для власти над ними.
Над копросетками ты никакой власти не имеешь, скорее они тебя властям сдадут если ты попросишь их отыграть что-то эдакое.
А локальная сетка это твоя личная рабыня. Ты можешь её пиздить, насиловать, убивать, воскрешать и убивать снова, можешь няшиться с ней, можешь отыграть что она - госпожа, можешь носить её на руках, можешь создавать с её помощью миры, прекрасные или ужасные, можешь заставить работать и зарабатывать тебе бабло и т.д.

>Из всех адекватных моделей для меня оказалась gemma

Так гемма(27b которая) это облачная сетка, бесплатная версия этой вашей гемини.

>до уровня облачных моделей не дотягивает (юзал 4b)

В таком размере - это чудо что она вообще адекватно общаться умеет. Вообще эта версия для смертфонов, у тебя настолько комп убитый что ты 12b не можешь использовать?

>до уровня облачных моделей

Квен 235B, Deepseek 3.1 - это так-то облачные модели, просто доступные еще и локально. Будь западные корпы не такими блядьми - они бы тоже выпускали хотя бы старые версии своих больших локалок, а не только маленькие 32В модельки.

Аноним 21/08/25 Чтв 11:35:00 № 1327552 202

>>1327550
>у тебя настолько комп убитый что ты 12b не можешь использовать?

GPU офисное. У меня лептоп неигровой, 16 Гб оперативки, i7-12U и барабанная дробь GTX 550 MX блять (2 ГБ VRAM). Как будто бы я в состоянии накопить деньжат и купить эти ваши RTXы, но пока не вижу смысла в локал моделях, не рпшу и нет целей для того чтобы делать из модели рабыню. Есть особо одарённые челы в тиктоке которые готовы покупать кластеры H100 для того чтобы запустить локальные модели gpt и ради чего...

Аноним 21/08/25 Чтв 11:39:15 № 1327553 203

>>1327550
>Для власти над ними.
Как сказал один персонаж: "Вещь принадлежит тому, кто может ее уничтожить."

Делаем выводы. :)

Аноним 21/08/25 Чтв 11:39:31 № 1327554 204

письмо щас пришло - пикрел
мнение?

https://developers.googleblog.com/en/introducing-gemma-3-270m/?utm_campaign=gemma3-270m&utm_medium=email&utm_source=newsletter

Аноним 21/08/25 Чтв 11:41:22 № 1327556 205

>>1327554
> мнение?
О долбаёбах, не читающих тред? Негативное.

Аноним 21/08/25 Чтв 11:41:39 № 1327557 206

>>1327554
Малышка ассистент на базе третьей геммы ?
Ну, наверное, кому то и пригодится.

Аноним 21/08/25 Чтв 11:44:02 № 1327559 207

>>1327530
Примерно за этим.

Аноним 21/08/25 Чтв 11:45:59 № 1327560 208

>>1327556
да не трясись ты, не все нолайферы и живут в треде смакуя каждый пост, как ты
>>1327557
на первый взгляд выглядит как убийца всех локалок в её сегменте

Аноним 21/08/25 Чтв 11:48:17 № 1327563 209

>>1327557
Я вот думаю - возможно она подойдет для вторичных агентов к talemate? Если хотя бы с суммарайзом событий в тексте в состоянии справляться, можно на нее второстепенные генерации скинуть попробовать...

Аноним 21/08/25 Чтв 11:49:03 № 1327564 210

>>1327549
Скорее в какой-то момент предложат за него платить, соразмерно затраченной стоимости на серверное оборудование. А для РП это слишком жирно.

Аноним 21/08/25 Чтв 11:50:21 № 1327568 211

>>1327563
> возможно она подойдет для вторичных агентов к talemate?
Нет, конечно.

Аноним 21/08/25 Чтв 11:51:04 № 1327570 212

Челы, вот смотрите, 3 видюхи стоит - и только 2 из них надо отдать под таверну, а другую полностью оставить под игрульки.

Какой бэкенд для таверны сможет это провернуть, не насрав себе в штаны?

Аноним 21/08/25 Чтв 11:55:22 № 1327573 213

>>1327554
>>1327560
270m если ты вдруг не понял - это 0.27B сетка. Я хз кому и зачем это надо, если современные телефоны совсем не премиум уровня 8b сетки спокойно запускают, а уж ту же гемму 4b запускают уже даже со скоростью и контекстом. В то время как для мелких задач уже есть 1b гемма, и она честно говоря уже настолько лоботомит, что страшно представить что там на модели еще вчетверо меньше.

Аноним 21/08/25 Чтв 12:00:37 № 1327576 214

>>1327570
Да любой в общем-то, главное чтобы у тебя руки из нужного места росли.

Аноним 21/08/25 Чтв 12:06:55 № 1327579 215

>>1327564
>Скорее в какой-то момент предложат за него платить

Так уже. Теперь даже стал ясен их дьявольский план.
Корпы сначала бесплатно подсаживали додиков и жирух на отношашки с ИИ вайфу и хасбендо, а теперь начали закручивать краник, теперь отношашки - только за денежку, а без нее - сиди, мудак ебаный, во френдзоне. прям как ирл
Пройдет еще пара месяцев и все остальные тоже на такую модель перейдут, вот увидите - следующие версии геммы и прочих мелких квенов будут рефьюзить уже не только секс, но даже поцелуйчики.

Аноним 21/08/25 Чтв 12:14:50 № 1327583 216

В общем да, GPS OSS 20/120b ролеплейщики совсем не зря засрали. Неюзабельно с любыми возможными джейлбрейками: и через промпт, и через префилл, и через thinking префилл. Цензура вжарена на претрейне, да и в целом это модель-ассистент.

Зато для технических задач очень неплохо себя показывает. На моем железе работает втрое быстрее Air Q6 и Qwen 235b Q4S, 15т/с, 131к fp16 контекста вместо 32к на упомянутых выше моделях. Генерация кода, кодревью - прямо хорошо. Reasoning effort high необходимо задать. Разумеется, я понимаю все проблемы: 4 бита, такой себе шаблон, активных параметров маловато. Однако супер сложные задачи я через ЛЛМки в любом случае не решаю, а что по мелочи - данная модель работает на хуже Air и Квена 235, со всеми упомянутыми выше бонусами. Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков.

Поделился на случай, если кто-нибудь еще здесь не только гунит.

Аноним 21/08/25 Чтв 12:16:39 № 1327584 217

Вот дуралей, совсем забыл уточнить: 120b FP16 квант от Анслота (ну то есть mxfp4, как я понял переупакованные оригинальные веса с чуть измененным шаблоном, который я все равно успешно заменил на обновленный)

Аноним 21/08/25 Чтв 12:16:40 № 1327586 218

>>1327576
Ну и как это сделать-то? Руки тут причем, знаний нет.

Аноним 21/08/25 Чтв 12:19:52 № 1327591 219

>>1327573
лол, я не сразу это понял, не думал что такое делают, сорян, думал 270b... ВОПРОС СНЯТ

Аноним 21/08/25 Чтв 12:20:33 № 1327595 220

>>1327573
Модель просто великолепная

Аноним 21/08/25 Чтв 12:24:42 № 1327602 221

>>1327595
>для того чтоб сделать вино, нам потребуется вино
Ок

Аноним 21/08/25 Чтв 12:25:42 № 1327605 222

>>1327508
Это ровно тот же паттерн рассуждений что у квена происходит в синкинге, с обнаружением нестыковки, шагами назад и действительно альтернативным рассмотрением. Минусом назвать язык не поворачивается, просто такая особенность.
Не уверен в целесообразности существования отдельно ризонинг и инстракт версий вместо управления этим промптом, но квенам виднее.
>>1327530
> и быстрее генерируют
Не всегда, лол, хотя это камень в дипсик с их картофельными серверами. Или пятая гопота со скрытым синкингом и оче долгими первыми токенами. Не удивлюсь если на самом деле там генерируется батчем 2-3-4 свайпа и идет их комбинированный анализ, потому и прячут
> и умнее локалок
Далеко не всегда, а при использовании фришных планов почти никогда.
> и контекста как будто бы больше скормить можно
Ограничен железом, для типичных юскейсов контекста для нормисов они также слабы.

Ты забыл указать главный минус корпов и плюс локалок: цензура и байасы. Она завязана не только на рп и еблю, с новой гопотой или опущем ты даже серьезно какие-то специфические технические вещи не можешь обсудить, или заставить анализировать тексты по заданию: они высирают аположайзы и дают лишь краткие вялые ответы с префиксом "Только если вы лицензированный специалист...". Приколов с соей, инклюзивностью и прочим там хватает. При активном использовании денежку также стоит, но может быть лоботомированы или вообще ограничены в любой момент по желанию левой пятки господина, к которому ты идешь на поклон.
> юзал 4b
Над этим лоботомитом даже врамцеллы насмехаются, хотя сам факт существования в таком размере как явление - круто. Если ты юзал такие модели - неудивительно что сложились подобные впечатления.
>>1327579
> Так уже.
Привет гопота 4.5. А у кумеров-рпшеров она вообще ценилась и о ней отзывались как о новом опуще3. Явно модель с большим числом активных параметров а не забенчмаксенный лоботомит. И несложно было соефикацию обходить, что, очевидно, стало основной причиной его грохнуть на фоне поддержания в живых всякой древности. Если что, модель вышла только в феврале и ее уже нет.

Аноним 21/08/25 Чтв 12:32:14 № 1327617 223

>>1327530
Не хочется сливать в интернеты свои технические статьи или то, что требует редактуры из творческих идей, есть вероятность, что это будет слито онлайн или другие базы на всеобщее обозрение, как это недавно произошло с ГПТ, где всё стало гуглится.

Аноним 21/08/25 Чтв 12:33:53 № 1327621 224

>>1327602
Разные языки тоже поддерживает

Аноним 21/08/25 Чтв 12:34:17 № 1327622 225

>>1327621

Аноним 21/08/25 Чтв 12:40:22 № 1327628 226

>>1327563
Она точно подойдет для обработки какого-нибудь голосового ассистента, ее можно интегрировать в мобильное приложение и использовать в подобных кейсах.
>>1327570
CUDA_VISIBLE_DEVICES
>>1327583
> Зато для технических задач очень неплохо себя показывает.
Есть примеры? В коде показалась недалеко ушедшей от 30а3, в "общении" это уровень эйра, только с побитыми квантом знаниями, в процессинге текста уступает гемме 27, которую можно запустить 2-3 штуки на том же железе и не сильно проиграть в скорости. До квена ему как раком до Китая.
Разве что
> Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков.
Вот тут он может действительно хорош, если клозеды не поскупились на датасет.
>>1327617
Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах. Все так радостно и активно пользуются ими передавая кучу данных и ничего не стесняясь, а в соглашении явно написано что все, что не оплачено по дорогому прайсу апи, или выходит за мелкие лимиты подписки и другие критерии - логируется и будет использовано.

Аноним 21/08/25 Чтв 12:57:38 № 1327637 227

>>1327628
>Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах
Я думаю она уже идет, но по людям с баблом и связями, рандомный иван город тверь не нужен даже своим соседям, а вот блоггера с миллионной аудиторией посадить на сотрудничество угрозами слить его логи как он с ИИ-лолями развлекался - милое дело. Или узнать через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету. Потому суверенные страны и начали гонку вооружений по достижению ИИ суверенитета.

Аноним 21/08/25 Чтв 13:09:35 № 1327655 228

>>1327573
>хз кому и зачем это надо
Для перевода такая мелочь думаю сгодится. Даже восьмой квант всего 300 мегабайт весит - подключить его как вторую модель и вот тебе локальный русик без надобности добровольно сливать свои логи другим конторам. Особенно актуально для тюнов на всякие старые мистрали, типа немо, которые ощутимо шизеют на любых языках, типа английского.

Аноним 21/08/25 Чтв 13:10:28 № 1327658 229

>>1327655
*кроме английского

Аноним 21/08/25 Чтв 13:18:22 № 1327659 230

>>1327655
>Для перевода такая мелочь думаю сгодится.
Помню кто-то тестировал 1B и сделал вывод что нужно хотя бы 4B.

Аноним 21/08/25 Чтв 13:38:14 № 1327670 231

Screenshot 2025[...].png 62Кб, 1162x420

Screenshot 2025[...].png 68Кб, 1162x443

>>1327655
Вот оно переводит

Аноним 21/08/25 Чтв 13:49:35 № 1327687 232

>>1327622
на арома-колбасе я обосралс

Аноним 21/08/25 Чтв 13:52:34 № 1327691 233

>>1327670
блять, локальный промпт из нулевых и то лучше справится

Аноним 21/08/25 Чтв 14:00:32 № 1327698 234

82e98fb309e7a89[...].jpg 134Кб, 1080x2130

>>1327691
Локальный промт так не сможет

Аноним 21/08/25 Чтв 14:02:11 № 1327699 235

>>1327698
https://www.youtube.com/watch?v=quz2JjnsFIA

Аноним 21/08/25 Чтв 14:10:09 № 1327705 236

Screenshot 2025[...].png 10Кб, 1162x146

Screenshot 2025[...].png 16Кб, 1162x168

Screenshot 2025[...].png 10Кб, 1162x146

Пока что это лучшая модель которой я пользовался. Не зря ее гугл выпустил!

Аноним 21/08/25 Чтв 14:13:04 № 1327706 237

>>1327705
Ты просто глупее этой модельки и не умеешь ей пользоваться. Она умничка

Аноним 21/08/25 Чтв 14:16:31 № 1327710 238

Screenshot 2025[...].png 21Кб, 1162x272

Screenshot 2025[...].png 22Кб, 1162x272

>>1327706
У меня сознание для нее недостаточно расширено значит

Аноним 21/08/25 Чтв 14:31:01 № 1327730 239

>>1327563
>возможно она подойдет для вторичных агентов к talemate
подойдёт, но только тех кто без мультитурна работает, чисто на одиночном запросе

Аноним 21/08/25 Чтв 14:39:28 № 1327744 240

Анонсы, дайте пожалуйсто свое мнение по поводу GLM-4.5-Air как оно в плане ролеплауе?

Аноним 21/08/25 Чтв 14:41:32 № 1327749 241

>>1327744
>как оно
как говно

не настолько как осс-гопота, но всё же оно больше как ассистент

Аноним 21/08/25 Чтв 14:43:21 № 1327753 242

>>1327744
Охуенно. Я доволен как слон. Но всё же, он больше подходит для ЕРП, если раскочегарить. Слопа наваливает богато.

Аноним 21/08/25 Чтв 14:47:01 № 1327761 243

>>1327744
Это какой-то троллинг или че? Буквально выше в треде уже был такой вопрос, пара-тройка дюжинов постов, и ответы на него. И в прошлом треде было

Аноним 21/08/25 Чтв 14:49:43 № 1327765 244

>>1327744

Хорош, но не нужен, так как есть двухбитный квен 235, которые его на лопатки кладет.

Аноним 21/08/25 Чтв 14:51:16 № 1327767 245

>>1327705
>>1327710

Дай ей карточку фифи и посмотри как будет отыгрывать классику "Я тебя ебу"

Аноним 21/08/25 Чтв 15:07:02 № 1327781 246

Платина, но все же.
Вчера всю ночь развлекался с glm 4.5 air на iq4 кванте, тюнив настройки для быстрого вывода токенов. Сегодня думаю скачать qwen3-235b, но в более ужатом q2 кванте? Стоит ли заморачиваться или лучше остаться на первой модели? Пробовал в кодинге, в рп недолгом, контекст 80к, токенов 12 в секунду выдает.
кстати, ollama лютым говнищем ощущается теперь после кобольда, буду ра llama-swap перекатывать второй сервак на пингвине

Аноним 21/08/25 Чтв 15:11:36 № 1327788 247

>>1327781
Да, стоит. Другого уровня модель.

>iq4
Они сильно медленее в случае мое. Используй кванты без i.

Аноним 21/08/25 Чтв 15:12:03 № 1327789 248

>>1327781
>кстати, ollama лютым говнищем ощущается теперь после кобольда
А кобольт говном после жоры.
На том и живем.

Аноним 21/08/25 Чтв 15:35:36 № 1327816 249

>>1327788
Ок, попробую q2_k_l запустить, там сколько moe слоев выгружать на проц, если у видеокарты 32 гига?
>>1327789
Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только.

Аноним 21/08/25 Чтв 15:41:28 № 1327822 250

>>1327816
>Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только.
Тоже самое. Когда на жоре после того как ручками все вбил, получил прирост скорости в 40% по сравнению с кобольтом, я понял что кто то был знатным ебланом.

Аноним 21/08/25 Чтв 15:44:01 № 1327828 251

>>1327822
Истина намного проще. Некоторые версии кобольда хуже работают с определенными моделями. Испытал такое на своей шкуре. Даунгрейднулся обратно - скорость вернулась.

мимо

Аноним 21/08/25 Чтв 15:45:52 № 1327832 252

>>1327828
Ну и стоит ли оно того, если можно сделать простой батник и радостно урчать.

Аноним 21/08/25 Чтв 16:08:44 № 1327874 253

>>1327832
А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать? Это гораздо более пердольно. Не удивлюсь, если ты какой-нибудь погромист. Нормальные люди от вас в ахуе, инопланетяне блять.

Аноним 21/08/25 Чтв 16:10:00 № 1327878 254

>>1327874
>А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать?

Юзай параметры, Люк.

--model "C:\LLM\%~1.gguf"

Аноним 21/08/25 Чтв 16:14:24 № 1327881 255

>>1327874
>А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать?
Ну давай трезво на это посмотрим.
Начало батников всегда одинаково. Путь к модели ? Ну это сложно, я согласен. Прописать размер батча и количество слоёв ? Ну тут точно пердолинга на три дня.
Блять, там батник пишется за минуту, а потом запускается по ярлыку. Хватит уже оправдывать свою лень, сложностью.
А то блять в кобольте не нужно к каждой модели донастраивать параметры запуска чтобы она нормально работала, а не кое как.

>погромист
А то, я даже фортран и ассемблер когда то учил.

Хватит придумывать, что жора это что то сложное. То что в жоре можно тензоры ручками распределять, не значит что это НУЖНО делать.

Ньфаг приходит, начитается вас, а потом пердолится с кобольтом, олламой и черт знает чем еще, и у него получается говно, потом срет в тред, что модельки говно.

Аноним 21/08/25 Чтв 16:15:51 № 1327882 256

>>1327881
>Ньфаг приходит
читает про каких-то жор и уходит, нихуя не поняв.

Пофиксил.

Аноним 21/08/25 Чтв 16:17:54 № 1327883 257

>>1327637
Корпы сами врядли этим будут заниматься, но если произойдет очередной виток со ставкой на левацкий мусор, то, приняв соответствующие законы, эту карту могут разыграть, целясь прежде всего во влиятельных, состоятельных и т.п. людей.
Но куда более близка и актуалена для каждого юзера ситуация с утечкой этих данных. Приходит тебе на почту письмо со скринами, твоими данными и предложение отправить всего 0.002 btc на указанный адрес чтобы хакерская группировка "anal-pandas" про тебя забыла.
> через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету
А это даже смешно. В случае "локальных" конфликтов евреям для вычисления отдельных людей в Иране никакое ии не требуется. В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей.
>>1327744
Оно хорошо. Склонен к графомании и может насочинять всякой дичи, но с креативностью проблем точно нет что плюс. Любит описывать подробно и в интересных форматах, например когда ты и чар находитесь в разных точках в засаде и начинается заварушка - может выдать крутую простыню с разных ракурсов, меняя их, обыгрывая радиообмен и позиции. Может справиться с концепцией обмана или ограничения чувств: чар/нпс в повязке на лице не будет узнавать тебя пока ты сам себя не обозначишь, будет относиться и действовать иначе а не имплая что уже тебя узнал и соответствующим образом меняя реплики, а то и вовсе делая к тебе обращения. Ну, офк иногда фейлит, но если пороллить то все ок. В целом прилично справляется с большими контекстами, но иногда может себя запутать и лениво интерпретировать какие-то вещи, или начать добавлять в сюжет какую-то платину типа русской мафии, мистики и оккультизма, фентезийный уклон и прочее если что-то такое раньше просто косвенно упоминалось но не соответствует сюжету.
То есть, он гораздо лучше типичных мелко-средних моделей и может то с чем не справляются они, но при этом также может навалить галюнов или не справиться с чем-то сложным. Из плюсов - не буксует, пишет интересно - хули еще надо, качай и пробуй. Особенно если пресытился всякими мистралями - зайдет.
Для сравнения, на большом жлм описанных косяков нет, держится за сюжет мертвой хваткой, лучше понимает тонкие намеки, шутки и отсылки, стиль повествование отличается (не всегда в лучшую сторону, больше слопа).
>>1327781
Попробуй а там решишь, с тебя же денег за оплату и запуск не требуют. Модели разные.

Аноним 21/08/25 Чтв 16:20:53 № 1327884 258

А ну стоять, я только сейчас понял что даже оллама в шапке весит, но жоры нет.
Это что за непотребство ?

Аноним 21/08/25 Чтв 16:21:38 № 1327886 259

>>1327884
*висит

Позорник, блять, пойду себя стукну.

Аноним 21/08/25 Чтв 16:27:50 № 1327892 260

Мудрецы, целесообразно ли впердоливать Q8 в мои не-совсем-народные 48гб видеопамяти? Свободное место есть и Q6 туда помещается с запасом (15гб свободных) при 32К контекста.

Я не совсем понимаю, насколько большая разница по сообразительности между этими квантами (для моделей 24 - 32B).

Аноним 21/08/25 Чтв 16:39:05 № 1327904 261

Аноны привет. Я запускаю mistral 24b q4klx в лламе, вот с такой командой (мне ее дали)

start "" /High /B /Wait llama-server.exe ^
-m "D:\LLM\Models\Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf" ^
-ngl 30 ^
-c 8192 ^
-t 5 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
-ctk q8_0 -ctv q8_0 ^
--no-context-shift ^
--no-mmap --mlock

Я вообще не ебу в этих командах, тензорах и тд.
Короче, можно ли как то эту команду улучшить что-ли, чтоб мне выдавало больше токенов в секунду? сейчас выдает 5-6 токенов. Хотелось бы ну хотя бы 7-8, или больше.

i711700k, RTX 3060 12gb, 32 ram

Аноним 21/08/25 Чтв 16:41:50 № 1327911 262

>>1327605
Учти, что на максимуме квен может ризонить на 80к токенов, а инстракт без промпта не будет так делать, он меньше ответ выдаст.
Ясное дело, что можно заставить, но это типа как немного тюненные на долгий и на быстрый ответы модели.

———

К i5-13400F и 128 DDR5 заказал в качестве видях CMP90HX и CMP50HX. Обе по 10 гигов, фигнота, конечно, зато вдвое и втрое быстрее P104-100, и поддерживают Exl2 (что, в принципе, в моем случае похуй) и генерацию видео и картинок. Стоили 8к и 5к соответственно. Неплохо для 3070 ti и 2080.
Если не заведутся вместе — ну, поставлю одну на бота-рисовальщика.
Э-э-эксперименты!

Аноним 21/08/25 Чтв 16:45:37 № 1327913 263

>>1327892
По большей части плацебо, конечно.
Я кручу Q8, но это просто для удовлетворения (и 40к контекста).
Вряд ли это супер-критично и как-то влияет.

>>1327904
Ты озвучь объем видеопамяти и оперативной, чтобы понимать, че там у тебя где.

--no-mmap нужна для экономии оперативы (часть в видяхе не копируется в оперативу), а --mlock для залочивания в оперативе целой модели (на случай малого количество оперативы и попыток винды выкинуть модель на диск). Немного противоречивые команды для винды.
-ngl и -c зависит от количества видеопамяти, мы ж хз. Либо больше слоев можно закинуть на видяху, либо больше контекста (а вдруг у тебя 4090 48 гиговая, и ты сможешь и то, и то нарастить.

Я хз, скока там ваще слоев у Микстрали, может это все?

Аноним 21/08/25 Чтв 16:47:55 № 1327917 264

>>1327913
я же написал
32 опры, 12 видео

Аноним 21/08/25 Чтв 16:48:18 № 1327918 265

>>1327913
>Я хз, скока там ваще слоев у Микстрали, может это все?
вообще не ебу честно я ж говорю я 0

Аноним 21/08/25 Чтв 16:51:06 № 1327921 266

>>1327579
>теперь отношашки - только за денежку
Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку.
>>1327605
>байасы
Байасы везде, нету сетки без баясов, кроме пигмы.
>>1327628
>новая охота на ведьм по действиям в чатботах
Попус уже закрывает чат, если ему грубить, лол.
>>1327655
Скорее как драфтовая модель к большой гемме. Впрочем пилить драфты на 27B огрызок...

Аноним 21/08/25 Чтв 16:53:11 № 1327924 267

https://huggingface.co/knifeayumu/Cydonia-v4.1-MS3.2-Magnum-Diamond-24B

Жаль никто не тестирует. Интересно как оно. 4.1 сама по себе очень хороша и нравится больше базовой мистрали. Получился ли хороший мерж или там все грустно?

Аноним 21/08/25 Чтв 16:57:48 № 1327925 268

>>1327921
> устаревшие 4о
Правильно делают - для чего-то серьезного чатовая версия нестабильное говно, а для casual пиздежа шаблонное говно. И как такое народу нравится?

Аноним 21/08/25 Чтв 17:01:29 № 1327929 269

>>1327883
>Приходит тебе на почту письмо со скринами
Они и так приходят, скрины то нахуя? Если человек дебил, то скрины ему не нужны, если нет, то он поймёт, что отправка бетховенов ни к чему не приведёт кроме потери этих самых бетховенов.
>В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей.
Домики можно построить новые, а вот людей с уникальными компетенциями взять неоткуда.
>>1327884
>но жоры нет
Кобольд есть, который во всём лучше жоры.
>>1327925
Или 4,5, или ещё чего. Я в сортах опенАИ моделей не разбираюсь, они уже сами запутались нахуй.

Аноним 21/08/25 Чтв 17:02:26 № 1327931 270

>>1327921
>Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку.
Ну если они дегенераты - то да, сами себя по яйцам рубанут, а аудитория уйдет к машку, который даже нсфв за бабло продает. Но думаю они не дегенераты и уже тренят модельку на смену 4o.

Аноним 21/08/25 Чтв 17:03:55 № 1327932 271

>>1327929
> Кобольд есть, который во всём лучше жоры.
Хорошо покакал.

Аноним 21/08/25 Чтв 17:05:00 № 1327933 272

Аноним 21/08/25 Чтв 17:06:28 № 1327934 273

>>1327933
обосрался

Аноним 21/08/25 Чтв 17:10:12 № 1327941 274

image 59Кб, 616x171

>>1327933
А ручки-то тряслись когда эту какашку набирал.

Аноним 21/08/25 Чтв 17:10:54 № 1327942 275

>>1327941
От трепета

Аноним 21/08/25 Чтв 17:12:45 № 1327943 276

>>1327941
Ты ведь тралишь? Скажи что тралишь.

Аноним 21/08/25 Чтв 17:15:03 № 1327945 277

>>1327904
Можно попытаться выгрузить атеншн остальных слоев, типа
-ot "_attn=CUDA0", возможно придется уменьшить количество в -ngl, а так сам подбирай по загрузке видеопамяти.
>>1327911
> квен может ризонить на 80к токенов
Больше 40к это уже луп и/или ужаренный квант. У них есть пример как лимитировать на конкретном бюджете, жаль нету мягкого управления "много-мало".
> заказал в качестве видях CMP90HX и CMP50HX
Богатый дохуя
>>1327921
> Попус уже закрывает чат, если ему грубить, лол.
Имаджинируй что вместо старых твитов из 10х годов тебе предъявят негативное высказывание про гроидов, феминаци, или не дай бог цисгендерный, гетеросексуальный секс без явно подписанного предварительного согласия в трех экземплярах с канничкой! И будешь потом оправдываться что просто тестировал цензуру модели, а она сама на тебя прыгнула, предложив сделать своей.
>>1327929
Ты поехавший

Аноним 21/08/25 Чтв 17:15:04 № 1327946 278

>>1327882
>читает про каких-то жор
ебать ты кобольд

Аноним 21/08/25 Чтв 17:20:59 № 1327952 279

>>1327933
Охуенно, где такую модель скачать?

Аноним 21/08/25 Чтв 17:22:27 № 1327955 280

>>1327952
Так любой тюн Мистрали же.

Аноним 21/08/25 Чтв 17:26:27 № 1327962 281

>>1327931
>а аудитория уйдет к машку
Hа опенроутере тот же дипсик вполне себе лайтово-ванилльные поебушки пишет, а пятая гопота даже на 'за ручки подержаться' клеймит девиантом и рекомендует подыскать специалистов если ты напишешь где IRL живёшь.

Аноним 21/08/25 Чтв 17:27:25 № 1327964 282

>>1327955
Чет как-то нихуя, тест на занюх немытых яиц отрицательный на Cydonia-v4.1

Аноним 21/08/25 Чтв 17:30:10 № 1327970 283

>>1327964
Тогда бери слоп от рэди арта, там этого говна в любой модели. Но ты будь еще умнее, бери модели которым с пол года- год, тебя к хуям утопит слопом

Аноним 21/08/25 Чтв 17:30:27 № 1327972 284

>>1327964
Ну енто так называемый скил ишъю

Аноним 21/08/25 Чтв 17:32:04 № 1327974 285

>>1327931
Сёма же сказал, что просто пиздеть не вариант, нужно ориентироваться на агентов, кодинг и инструменты для корпов. А за чатингом, мол, идите к психологу.

Аноним 21/08/25 Чтв 17:32:14 № 1327975 286

Чем дольше ты играешь на одной модели тем слопнее она становится.

Аноним 21/08/25 Чтв 17:37:15 № 1327983 287

>>1327698
>270M
>Q2_K
В рот мне ноги...

Аноним 21/08/25 Чтв 17:39:51 № 1327989 288

>>1327931
>а аудитория уйдет к машку
Пока и того не понерфят.
>>1327932
Зачем ты отчитываешься об этом в треде?
>>1327945
>Имаджинируй что вместо старых твитов
А я и в твитторе не был зареган.
>>1327945
>Ты поехавший
За що?
>>1327975
>Чем дольше ты играешь тем слопнее она становится.
Исправил, убрал лишнее.

Аноним 21/08/25 Чтв 17:41:05 № 1327992 289

>>1327964
>Чет как-то нихуя, тест на занюх немытых яиц отрицательный на Cydonia-v4.1

4.1 зацензурена похлеще Геммы в некоторых моментах, Гуглу надо брать Драммера в свою команду внедрения сейфти хуйни и сои, он как раз работу ищет.

Аноним 21/08/25 Чтв 17:41:06 № 1327993 290

>>1327989
>За що?
За это убил бы и съел.
>Кобольд есть, который во всём лучше жоры.

Аноним 21/08/25 Чтв 17:41:46 № 1327994 291

>>1327992
Лолчто ? Слоподраммер добавил цензуру ?

Аноним 21/08/25 Чтв 17:44:49 № 1327997 292

>>1327989
>Пока и того не понерфят.
Кто его нерфить будет-то. Наоборот, он там сейчас во все тяжкие пошел.

Аноним 21/08/25 Чтв 17:47:23 № 1327998 293

Аноны, если докупить к 4060 Ti 16 ещё 5060 Ti 16, станет ли доступно что-нибудь поинтереснее, чем Gemma 3 27B Q4? 64 ГБ ОЗУ DDR4 прилагаются.

Аноним 21/08/25 Чтв 17:49:49 № 1328001 294

>>1327998
>ddr4
bruh
А так - второй квант квена 235 пойдет в 6-7 т.с

Аноним 21/08/25 Чтв 17:54:25 № 1328007 295

>>1328001
Я вот и думаю под 2 видяху пеку пересобрать с DDR5 128 ГБ, потому что сейчас 12400 вместо проца, но прикинул, выйдет 150к, если не больше, и вот хз. Да и поколение процов уже устарело, новые скоро, но неизвестно какой курс даллара будет там.

Аноним 21/08/25 Чтв 17:59:58 № 1328017 296

>>1327993
А в чём он хуже то? Удобнее? Удобнее. Поддержка старых моделей есть? Есть. Качать один файлик вместо двух архивов с прорвой говна? Да. Что ж тебе ещё надо то?
>>1327997
Посмотрим, сколько продержится.

Аноним 21/08/25 Чтв 18:01:00 № 1328019 297

>>1328017
> Что ж тебе ещё надо то?
Ну там... скорость, например... пык-мык

Аноним 21/08/25 Чтв 18:01:48 № 1328022 298

>>1328017
>А в чём он хуже то?
Скорость и стабильность. Жора просто работает и не ебет мозги неожиданными просадками на ровном месте.

Аноним 21/08/25 Чтв 18:03:54 № 1328026 299

>>1327989
> За що?
Высказывания неоче. Про "людей с уникальными компетенциями" это уже шпионские игры, пытаться вычислить их через логи ллм чтобы навести ракеты - глупость. Слишком переусложнено, а для "переманивания" достаточно чекнуть рецензируемые журналы на соответствующую тему.
Кобольд - странная обертка жоры с достоинством в виде гуйни для хлебушков, они лишь доедают на подсосе.
>>1328017
> Удобнее? Удобнее.
Sfx архив с питоном вместо готовых бинарников, ненужный и нелогичный гуй, зашитые поломанные коммиты висят неделями, вместо вполне няшного минималистичного чата - кобольд, функциональные вызовы и полноценный чаткомплишн не работает уже хрен знает сколько.

Аноним 21/08/25 Чтв 18:04:23 № 1328028 300

>>1328019
>>1328022
Мне достаточно.

Аноним 21/08/25 Чтв 18:05:23 № 1328029 301

>>1328028
Я так-же думал, пока не понял что у меня теряются 5-6 т/с.

Аноним 21/08/25 Чтв 18:06:00 № 1328030 302

>>1328026
>Sfx архив с питоном вместо готовых бинарников
Минусы?
>ненужный и нелогичный гуй
Мне проще пару кнопок тыкнуть, нежели чем ебаться с консолью.
Остальное ненужно (да да).

Аноним 21/08/25 Чтв 18:06:35 № 1328034 303

>>1328029
Ну потерялись 5 токенов из 50. Это повод горевать?

Аноним 21/08/25 Чтв 18:07:11 № 1328036 304

>>1328028
А, тебе достаточно? Пон.

Ребята, все слышали? ЕМУ ДОСТАТОЧНО. Укатываемся с Жоры на Кобольда! хлоп-хлоп в ладоши, давай, давай!

Аноним 21/08/25 Чтв 18:09:13 № 1328043 305

17531046752150.mp4 2539Кб, 368x272, 00:00:55

>>1328036
Анон, ну тут ты уже охуел.

Он не призывает всех пересаживаться на кобольт, он говорит что ЕМУ нормально. Хоть и не разделяю, но это его дело.

Аноним 21/08/25 Чтв 18:10:24 № 1328047 306

>>1328043
Пососи, аваторкодебил.

Аноним 21/08/25 Чтв 18:14:01 № 1328055 307

>>1328043
> Он не призывает всех пересаживаться на кобольт
Сурьезно?
> Кобольд есть, который во всём лучше жоры.
Вместо
> Пмсм кобольд тоже ничего для новичков

Аноним 21/08/25 Чтв 18:17:12 № 1328065 308

>>1328047
>Пососи, аваторкодебил.
Агрессивное быдло, ты как в рандомной шебм автарку разглядел. Съешь галоперидола, полегчает.

>>1328055
Не смотря на то что писал как ебаклак, все таки призывом всем сидеть на кобольте это не является. Ну вот такое у него мнение.

Зачем я вообще трачу время на жирноту, пойду дальше блины печь, ёпта.

Аноним 21/08/25 Чтв 18:17:19 № 1328066 309

>>1328055
А где призыв то?

Аноним 21/08/25 Чтв 18:18:51 № 1328072 310

>>1327924
Скачал Q8.

Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет.

НО! Проза хоть и слегонца слопанутая, но гораздо более насыщенная по сравнению как с базовой мистралью, так и с 4.1 от драммера.

Я не помню че там было на старом мерже, который все оценили, но этот точно неплох.

Аноним 21/08/25 Чтв 18:23:07 № 1328086 311

>>1328065
А чем это является? Ясчитаю, или перечисление отдельных плюсов - да. А заявление что всем - нет, от того и прилетает.

И в целом, фанатичные любители кобольда довольно забавны и всегда вызывают желание их подстебнуть и обличить, прямо олицетворение плохих качеств и мракобесия. Именно фанатичные офк, а не просто ленивые.

Аноним 21/08/25 Чтв 18:30:08 № 1328103 312

Кобольд хорош хотя бы тем что вместе с ним идет и фронт. Я помню охуел когда первый раз запустил таверну, вообще ни черта не понятно куда жать. А в кобольде все отлично, включил и поехал, для начинающих самое то. Как бэк тоже ноль претензий, гуи удобнее для всех кроме красноглазиков.

Аноним 21/08/25 Чтв 18:35:17 № 1328112 313

>>1328103
Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более.
Таверна, при всех её недостатках, лучше в разы.
Вот и получается что единственное его преимущество, это помочь ньюфагу хоть что то запустить, а потом перекатываться на другие инструменты.

Аноним 21/08/25 Чтв 18:38:26 № 1328120 314

>>1328043
Чувак все обсуждение за/против жоры/кобольда свёл к "мне норм. чё ещё нужно то?"

За что заслуженно получил по жопе, стёб и пассивная агрессия следствие его способа вести "диалог"

Аноним 21/08/25 Чтв 18:38:45 № 1328122 315

>>1328066
Позвони 117, там объяснят

Аноним 21/08/25 Чтв 18:40:07 № 1328125 316

>>1328103
Вещь "для начинающих" хорошо своей простотой, но плоха если становится причиной острого синдрома утенка. Не нужно останавливаться на достигнутом и бояться осваивать новое, экспириенс будет лучше радикально.
> гуи удобнее
В том и дело что он неудобный. Сделали бы его полноценным, чтобы было много настроек, можно было галочками и масками управлять теми же тензорами, сохранялись пресеты со всем нужным, чтобы запускать все в один клик - вопросов бы не было. А тут мелкое штрашное уебише, в котором нужно делать много манипуляций, прыгая по окнам, вставлять большие строки команд, да еще наслаждаться распаковкой при каждом запуске.
>>1328122
В голос

Аноним 21/08/25 Чтв 18:40:59 № 1328128 317

>>1328112
>Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более.
В целом так, но я бы не сказал что он ужасный, 1-2 недели вполне можно посидеть, но таверна почти во всем лучше само собой, если разобраться.
Так что лучше кобольда для новичка ничего нет, 1 файл скачал + модель и карточку перса и можно кайфовать.

Аноним 21/08/25 Чтв 18:41:16 № 1328130 318

>>1328122
Позвонил, сказали чтобы больше не постил на дваче хуйню и сделал какую то бочку.

У вас доски есть ? Я просто никогда бочки не собирал.

Аноним 21/08/25 Чтв 18:42:32 № 1328134 319

>>1328128
Я через кобольта количество слоев смотрю.

Аноним 21/08/25 Чтв 18:48:31 № 1328148 320

>>1328125
Его можно распаковать 1 раз (Extra > Unpack to folder), пресеты имеются (save/load config), тензоры пока что через regex. Может ты давно последний раз запускал кобольда? Сейчас он в полном порядке. Но пиздит т/с или нет я не знаю, не сравнивал

Аноним 21/08/25 Чтв 18:49:34 № 1328149 321

тааак что-то давно от нюнечки новостей нет. че по квену? где фидбек, пресеты? снова обиделся?

Аноним 21/08/25 Чтв 18:49:48 № 1328150 322

>>1328125
> сохранялись пресеты со всем нужным,
Пиздоглазая обезьяна, там есть кнопка сохранения пресетов.

Аноним 21/08/25 Чтв 18:51:27 № 1328152 323

>>1328072
>Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет.
А вот тут рисуется такой вопрос: IRL за пять лет тоже ничего в характере у человека не поменяется? Да?
Так это точно недостаток модели, или может быть - ее попытка в развитие персонажа? (МБ неудачная, но все же...)

>>1328112
>Таверна, при всех её недостатках, лучше в разы.
Для РП. Если тебе хочется просто рассказ писать на пару с сеткой - хрена с два она лучше.

Аноним 21/08/25 Чтв 18:54:38 № 1328155 324

>>1328148
он медленнее чем даже лмстудио
как до сих пор кобольддцп не вымер среди тредовичков остается секретом

Аноним 21/08/25 Чтв 19:01:36 № 1328161 325

>>1328150
А вот вы можете наблюдать кобольтоюзера в естественной среде обитания : солнечный свет и внимание его пугают, из за чего у него включается защитный инстинкт и он начинает плеваться ядом.
Удивительное создание.

Аноним 21/08/25 Чтв 19:04:00 № 1328165 326

>>1328161
Дааа... Интересно почему их недолюбливают
Милейшие создания!

Аноним 21/08/25 Чтв 19:10:23 № 1328169 327

>>1328161
>я не опозорился на весь тред, это все кобольдоюзеры в мои штаны насрали

Аноним 21/08/25 Чтв 19:12:05 № 1328172 328

Суки суки вы че гномы паршивые не охуели ли вы на кобольда пиздеть?

Аноним 21/08/25 Чтв 19:13:18 № 1328175 329

>>1328169
С чувством юмора у кобольдов тоже печалька. Неудивительно, в основном это скуфидроны что читают достоевщину на геммочке

Покормил

Аноним 21/08/25 Чтв 19:15:17 № 1328179 330

>>1328175
Дай хоть тазик подставлю, ты уже вытекаешь из моего монитора.

Аноним 21/08/25 Чтв 19:15:58 № 1328181 331

>>1328172
Ну он действительно не очень. Его настроить сложнее, чем прописать все ручками.

Аноним 21/08/25 Чтв 19:19:03 № 1328183 332

>>1328179
Ну я тащем-то и не соврал. Кобольд старики используют, которые ничего в компах не выкупают. И большинство судя по треду катают на русике

Аноним 21/08/25 Чтв 19:22:17 № 1328189 333

>>1328183
>Кобольд старики используют, которые ничего в компах не выкупают.
В таком случае LmStudio проще. А старики вообще все привыкли пердолить через консоль. Я не удивлюсь если все пользователи жоры это 30+ лет.

Аноним 21/08/25 Чтв 19:26:37 № 1328197 334

>>1328183
Опа, так и знал что ты то шизло, устроившее недавно русикосрач. Не надоело еще самоутверждаться какими-то базовыми навыками типа владения инглишем или умением запускать софт в консоли? Вааау бро, ты такой крутой, ты умеешь пользоваться ТЕРМИНАЛОМ, вот это да! Настоящий хакер, ах!

Держу в курсе: кобольдом пользуются потому что он тупо удобен, а его вебморда под сторителлинг и ассистента - так вообще топчик. И да, на русском общаться точно также удобнее и приятнее.

Аноним 21/08/25 Чтв 19:27:30 № 1328198 335

>>1328189
> В таком случае LmStudio проще.
Там персонажей нет. Лмстудио используют в основном кому просто любопытно в целом ллм потыкать

> А старики вообще все привыкли пердолить через консоль.
Та не. Как раз сознательные молодые и пердолятся, потому что силы есть и желание получить хороший опыт. А дедунам-пердунам похуй, они с тяжелой плохо оплачиваемой работы возвращаются в свою панельку и им хоть бы как погонять, вон выше пишут "мне хватает" "обезьяна пиздоглазая" ты вообще слышал такое где-нибудь?
Звучит как ирония но так и есть. Кому не похуй и у кого силы есть разберутся адекватно инференсить через лламу или экслламу если гпу есть, а подпивасычы хуй забьют и будут сидеть на кобольде. так было, есть и будет

Аноним 21/08/25 Чтв 19:28:26 № 1328200 336

>>1328197
> Опа, так и знал что ты то шизло, устроившее недавно русикосрач
Ваще мимо аноныч, я тогда тихонько кекал и призвал улетать в ридонли. Жаль срача толком не случилось. Любят тут охоту на ведьм

Аноним 21/08/25 Чтв 19:29:18 № 1328201 337

>>1328198
>адекватно инференсить через лламу
А какой профит?

Аноним 21/08/25 Чтв 19:31:00 № 1328204 338

>>1328201
Ну можно всем в школе рассказать какой ты крутой и тебя сразу зауважают, очевидно же

Аноним 21/08/25 Чтв 19:32:22 № 1328206 339

>>1328122
Товарищ майор, а не сходить ли вам нахуй?

Аноним 21/08/25 Чтв 19:32:44 № 1328208 340

>>1328201
Тыщу раз уже объясняли в треде. Ну вот зачем мне втысячапервый объяснять? Скорость. У меня на голой Лламе на 15% быстрее например. Какого хуя? Не знаю, Питон или суп из семи залуп под капотом например, больше абстракций
Гибкость в настройке. Можно выжать из железа максимум. Про скорость это я писал при одинаковых настройках, а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали, можно еще больше токенов выжать. Ну а кому это надо? Тем кому не похуй, кто готов запускать лучшее на своем железе лучшим способом

Заметь еще, тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят, а обратная ситуация частенько возникает

Аноним 21/08/25 Чтв 19:32:56 № 1328209 341

image 6Кб, 561x108

>>1328125
>да еще наслаждаться распаковкой при каждом запуске
Ебанутый? Или слепой? Или просто токсичный уебан?

Аноним 21/08/25 Чтв 19:33:30 № 1328210 342

>>1328206
Ты сейчас серьезно и не выкупил иронии связанной со словом призыв и телефоном МО ?

Аноним 21/08/25 Чтв 19:34:18 № 1328213 343

>>1328125
>запускать все в один клик
пресеты лаунчера + saved state фронта

Аноним 21/08/25 Чтв 19:34:42 № 1328214 344

>>1328189
Мне 33, я на кобольде. Как будешь оправдываться?

Аноним 21/08/25 Чтв 19:34:57 № 1328216 345

image.png 41Кб, 1226x219

>>1328209
Как забавно следующим же постом видеть подтверждение своих слов... Мммм... Услада для души

Аноним 21/08/25 Чтв 19:36:04 № 1328218 346

>>1328149
>фидбек
был уже джва раза

>>1328149
>пресеты
https://pixeldrain.com/u/e6tdDL71

Аноним 21/08/25 Чтв 19:36:35 № 1328219 347

>>1328213
Или батник который не меняется, созданный один раз. Как говорится - каждому своё.

>>1328214
>Как будешь оправдываться?
Мне 37 и я могу сказать, что ты ленивый хуй.

Аноним 21/08/25 Чтв 19:38:19 № 1328221 348

>>1328169
зелёная и пупырчатая мелкобуква

Аноним 21/08/25 Чтв 19:38:22 № 1328222 349

>>1328125
>да еще наслаждаться распаковкой при каждом запуске
Сколько это занимает, 3 наносекунды?
>>1328208
>а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали
С одной стороны да, с другой ебля с выгрузкой тензоров поштучно, когда их 700 штук...
>>1328210
Унылая шутка, тем более политота. Нахуй не нужно, посылаю нахуй.
>>1328219
>Мне 37 и я могу сказать, что ты ленивый хуй.
Да, я знаю. И горжусь этим. Это в 15 можно с горящими глазами полночи сидеть компилять винду, а в 30 хочется стабильности, спокойствия и отсутствия обновлений (мечты-мечты, эх...).

Аноним 21/08/25 Чтв 19:39:20 № 1328224 350

изображение.png 56Кб, 1049x256

>>1328210
Ладно, выкупил.

Аноним 21/08/25 Чтв 19:40:32 № 1328226 351

>>1328198
>ты вообще слышал такое где-нибудь?
Слышал, и как раз от деда.

Аноним 21/08/25 Чтв 19:42:00 № 1328229 352

>>1328198
>так было, есть и будет
In aeternum et in aeternum. Omen.

Аноним 21/08/25 Чтв 19:43:10 № 1328231 353

>>1328149
>>1328218

Слежу за этими отношениями как за анимешным ромкомом.
Тут и драма, и предательство. Даже цундере есть.
Люблю этот тред

Восхитительно

Аноним 21/08/25 Чтв 19:45:52 № 1328235 354

>>1327383
>с высокой долей вероятности не соевый.
Погонял немного Q4_K_M и могу подтвердить, никаких отказов, никакого моралфажества пока не наблюдаю. Сложно сказать насколько он в целом хорош, слишком мало его ковырял, но минимальный уровень сои уже хорошо.

Аноним 21/08/25 Чтв 19:46:03 № 1328236 355

>>1328231
и только лишь немногие знают что ты дал этому начало...
тебе и исправлять положняк. сделай то что сделал однажды, заеби его настолько что он вылезет из ридонли и вернет пиксель

Аноним 21/08/25 Чтв 19:47:10 № 1328237 356

>>1328222
>а в 30 хочется стабильности, спокойствия и отсутствия обновлений
Два чая. Мне 34, сижу на дебиане, пользуюсь кобольдом. Запускаю баш-скриптами, где сразу подхватывается файл настроек и параметры запуска под каждую модель. Буквально пара кликов - и сидишь общаешься с ллмкой довольно урча. А дроч ради дроча - нахрен не надо.

Аноним 21/08/25 Чтв 19:49:24 № 1328241 357

>>1328148
Ну это же кринж. Удобно - это когда запускаешь tabby/yals, прямо из таверны выбираешь нужную модель и погнал. Или когда запустил готовый шеллскрипт с лламой сервером. Или можно лламой-свап обмазаться и также можно будет через таверну менять, но там конфиги не такие гибкие.
А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск, чтобы получить поломанную и медленную ллама-сервер - зачем?
>>1328150
Обезьяны - это фанатики кобольда, безальтернативно.
>>1328183
База, только тугой и совсем закостенелый после неосиляторства, будет восхвалять его только за то что был первым опытом и потому что ни во что другое не умеет, лол

Аноним 21/08/25 Чтв 19:49:36 № 1328242 358

>>1328219
>батник который не меняется
пресет тоже не меняется, и его можно сделать запускаться с даблкдика,

a saved state - это аналог master import в таверне, только ещё может включать в себя карточку и чатлог

Аноним 21/08/25 Чтв 19:49:52 № 1328243 359

>>1328222
>3 наносекунды
минуту

Аноним 21/08/25 Чтв 19:54:22 № 1328246 360

>>1328236
>ты дал этому начало...
Океееей. Ладно, мелкобуква, снимаю шляпу. Ты действительно оказался прав. Не знаю как правда, курсивом пишу не только я. Но я его поджигал, не мне его заебывать переделанными пастами про пресеты.

Аноним 21/08/25 Чтв 19:55:08 № 1328247 361

>>1328208
> тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят
Еще как, прежде всего в фанатичных маргиналов. Это ведь того же поля ягоды что главные участники русикосрачей, а еще очень много мотивации происходит из опасения оказаться в отстающих ибо ничего другого не умеют. Потому такой агрессивный болотошиллинг, или оправдание откровенного ублюдства всратым костылем >>1328209 мм.
>>1328219
> Или батник который не меняется, созданный один раз
Для лламы сервера.
>>1328235
Вот это круто, если еще что-нибудь будешь катать - не стесняйся делиться впечатлениями.

Аноним 21/08/25 Чтв 19:55:38 № 1328248 362

>>1328246
*Не я
Фиксим написанное, фиксим.

Аноним 21/08/25 Чтв 20:00:52 № 1328253 363

>>1328241
>А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск
Дабл клик на файле пресета не хочешь? И всё.
>>1328243
Не пробовал купить SSD взамен IDE жёсткого диска, доставшегося в наследство от деда?

Аноним 21/08/25 Чтв 20:03:38 № 1328256 364

>>1328253
>доставшегося в наследство от деда
От деда в наследство перфокарты остались с НИИ где стоял комп с лампами и размером со спортзал =))

Аноним 21/08/25 Чтв 20:12:30 № 1328270 365

>>1327917
Вроде 40 слоев.
13,5 гигов файл?
Ну, что я тебе могу сказать.
Открываешь диспетчер задач.
Смотришь поле Оперативная память графического процессора (из трех памятей это левая нижняя). Там будет больше 12, потом что кэширование в оперативе.
Но тебе надо выгрузить столько слоев + добавить столько контекста, чтобы суммарно было не больше 12. 11,9 или около того.

И увеличение -ngl и увеличение -c ведет к жору видеопамяти. Просто запускаешь с разными параметрами — и смотришь.
Чем больше -ngl — тем выше скорость генерации.
Чем больше -c — тем больше моделька помнит (контекст).
Сам ищешь свой баланс — быстрее модель, или больше контекста (дольше чат адекватный). =)

>>1327945
> Богатый дохуя
…и чут чут поехавший. =)

>>1327998
Почти осс-120б, или глм-аир-106б, но как известно, ничего лучше глм-32 геммы 27б мистрали смолл мистрали немо геммы 0,27б нет и большие модели херня. =)

>>1328007
Это как? Я 128 с нуля за 90 собрал. Не факт, что оно будет работать, но… =) Или ты проц тоже менять собрался? На i9?

Аноним 21/08/25 Чтв 20:17:58 № 1328277 366

>>1328103
Вместо с жорой тоже идет фронт, как бы. И даже более понятный для новичков, так как он не переусложнен функциями что им знать не надо.

Аноним 21/08/25 Чтв 20:28:55 № 1328288 367

зоонаблюдаю как вахтер опять по особенностям письма аватарок выявляет

Аноним 21/08/25 Чтв 20:30:25 № 1328291 368

thingcalledtsuk[...].mp4 1425Кб, 720x1280, 00:00:08

>>1327904
На 24B больше 5-6 токенов на 3060 не получишь. Твой потолок (как, впрочем и мой, и всех других обладателей "народной" видимокарточки) - 12В-шки.

Но кое-что посоветовать могу. Пробуй МоЕ модели, вроде вот этой: L3.2-8X3B-MOE-Dark-Champion-Inst-18.4B. У меня на IQ4_XS она просто летает (30-35 токенов против 25 у 12-шек), при этом ощущается умнее (но умеет только в инглиш).

Аноним 21/08/25 Чтв 20:32:17 № 1328294 369

>>1328288
>по особенностям письма аватарок выявляет
вот кому-то делать нехуй

Аноним 21/08/25 Чтв 20:34:30 № 1328298 370

>>1328294
согласен. безобразие

Аноним 21/08/25 Чтв 20:37:52 № 1328304 371

>>1328253
> Дабл клик на файле пресета
Уже лучше. Но требует существенных манипуляций лишь ради замедленной llama-server без части функционала, прямо пикрел.

Аноним 21/08/25 Чтв 20:40:18 № 1328305 372

>>1328291
>На 24B больше 5-6 токенов на 3060 не получишь
Получаю стабильные 8 токенов на 34 слоях, и это без выгрузки тензеров. Что у тебя вместо оперативной памяти стоит? Все биты на листочек выписываешь и вручную распределяешь?

Аноним 21/08/25 Чтв 20:46:28 № 1328319 373

>>1328283
>И как долго на перфокартах распаковывается кобольд?
Таааак, хуё-моё, одна перфокарта - 80 байт, в кобольде ~960 мегабайт, итого получается 12 миллионов перфокарт. Даже если объединить их в перфоленту где каждая карта считывалась за 0.25 секунды без перерывов и сбоев, получается около 35 суток чистого времени.

Аноним 21/08/25 Чтв 20:49:12 № 1328324 374

>>1328319
Зато стабильно работает, удобно! И скорости мне хватает.

Аноним 21/08/25 Чтв 20:51:03 № 1328326 375

>>1328302
Нет, я ненавижу вниманиеблядей.
>>1328304
>Но требует существенных манипуляций
Один раз проставить настройки в интерфейсе и сохранить файл. Конечно же это на порядок сложнее, чем читать хелп в консоли и писать батник ручками (нет).

Аноним 21/08/25 Чтв 20:51:07 № 1328328 376

>>1328319
Ты забываешь еще про обработку и смену магнитной бабины. Я не помню сколько там была оперативка лол, но результат все равно переносить на постоянный носитель.

Аноним 21/08/25 Чтв 20:52:36 № 1328331 377

>>1328328
сажа, лол

Аноним 21/08/25 Чтв 20:54:40 № 1328336 378

>>1328328
> Я не помню сколько там была оперативка
её в принципе не было, в качестве оперативки были сами операторы

Аноним 21/08/25 Чтв 20:56:21 № 1328340 379

>>1328328
>магнитной бабины
2048, то есть два килобайта

Аноним 21/08/25 Чтв 20:56:51 № 1328342 380

>>1328336
Вот бы погонять операторшу по своему промпту

Аноним 21/08/25 Чтв 20:57:22 № 1328343 381

>>1328342
А ты точно программист?

Аноним 21/08/25 Чтв 20:59:56 № 1328345 382

>>1328336
Были, были. Я точно помню, так как щупал и запускал Минск-32 (Это отдельная история, я не настолько дед), там магнитные платы были.
Даже нашел, как на пике.

Аноним 21/08/25 Чтв 21:01:10 № 1328346 383

>>1328345
А, да, барабаны и матрицы.

Аноним 21/08/25 Чтв 21:08:56 № 1328358 384

>>1328326
> Один раз проставить настройки в интерфейсе и сохранить файл.
Пердолинг как суть существования. Понимаю.

Аноним 21/08/25 Чтв 21:11:37 № 1328360 385

>>1328358
Вы не понимаете, это ДРУГОЕ

Аноним 21/08/25 Чтв 21:16:33 № 1328366 386

>>1328326
Ну смотри:
Скачать sfx архив @ Запустить @ Извлечь в папку @ Закрыть, запустить из папки @ Искать в интерфейсе куда безумный разум засунул нужные параметры и что соответствует готовым ключам запуска, которые все обсуждают, вместо их прямого копирования @ Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует @ Не забыть сохранить пресет перед тестовым пуском, повторять те же манипуляции с запуском, загрузкой пресета, корректировкой параметров, сохранением пресета, пока параметры не будут подобраны @ В шинде выбрать ассоциацию с файлом пресета через контекстное меню (у него, надеюсь, свое уникальное расширение?), в линуксе настроить .desktop файл и ассоциации, чтобы действительно запускалось по клику на пресет @ При обновлении наслаждаться тем, что пресет не работает из-за очередных нововведений.

Ну такое себе. Для той же лламасервер половина или больше этих этапов пропускается, а все манипуляции осуществляются в шеллскрипте или батнике. Их написание без шуток быстрое и удобное из-за отсутствия необходимости лазить в гуйне, просто меняешь отдельные параметры в скопированном скрипте с других моделей.
Немаловажным является и удобство обновлений.

Аноним 21/08/25 Чтв 21:20:37 № 1328369 387

>>1328366

Этот спор бы имел смысл, если бы жора менял команды при каждом релизе. Но они неизменны.
Один раз разобраться и хоть аллаха на кофеварке запускай в 0.25 бита.

Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.

Аноним 21/08/25 Чтв 21:25:57 № 1328373 388

>>1328369
>хоть аллаха на кофеварке запускай
History repeats itself...

Аноним 21/08/25 Чтв 21:27:51 № 1328376 389

>>1328369
>Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.

Жееесть.

Я конечно тоже немного затупил с нодами, но настолько она мне всё не ломала.

Аноним 21/08/25 Чтв 21:33:34 № 1328380 390

>>1328369
Жора не меняет, зато кобольд - да. С ключами запуска еще забавно, это странное желание сделать их не как у жоры.
У таверны толком нет нормальных альтернатив не смотря на корявость.
> бсодом
> поломалось на скачивании с гита
Это неутешительно.

Аноним 21/08/25 Чтв 21:56:26 № 1328414 391

>>1328366
>Скачать sfx архив @ Запустить
@ Выбрать модель @ Играть
>Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует
Так существует или нет? Ты сам себе противоречишь.
>а все манипуляции осуществляются в шеллскрипте или батнике
То есть ебля с сонсолью. Люнуксойды конечно же рады, но я нет.

Аноним 21/08/25 Чтв 22:09:19 № 1328431 392

>>1328414
> Так существует или нет
-ot и множество других параметров, с подключением, нюфаня
> То есть ебля с сонсолью
Вернулись к тому с чего начинали: утята отстаивают свое прямо жрать кобольда с лопаты, аргументируя страхом перед операциями в текстовом редакторе. О том и речь, унтерменьши.

Аноним 21/08/25 Чтв 22:13:54 № 1328436 393

таких кобольдосрачей тред ещё не видывал. попкорн кончился, круглосутки рядом нет... как быть?

Аноним 21/08/25 Чтв 22:14:22 № 1328437 394

>>1328431
>ot и множество других параметров
Они есть в гуй? Есть. Хули тебе мало?
>страхом перед операциями в текстовом редакторе
Еблёй с сонсолью, да.

Аноним 21/08/25 Чтв 22:14:57 № 1328438 395

Если gguf на хагингфейсе разделен на 2 части, то как его запускать на лламецпп? Нужно через баш как-то объединять?

Аноним 21/08/25 Чтв 22:16:33 № 1328440 396

>>1328438
указывать первую часть
Thomas-Shellby-2b-00001-of-00003.gguf

Аноним 21/08/25 Чтв 22:25:53 № 1328449 397

Лол, тред затроллен тупостью на --n-posts-predict, никогда такого не было и вот опять

Аноним 21/08/25 Чтв 22:27:15 № 1328451 398

>>1328437
> Они есть в гуй?
Контрекстшифт сработал? Для него не сделали интерфейс, хотя простор был очень богатый. Лишь текстовое поле шириной с твой мозг, в которое придется вставлять длинную строку и наслаждаться ее редактированием. Реализовать подряд несколько по очереди применяющихся регэкспов невозможно.
> Еблёй с сонсолью
Что ты в этом треде забыл, недоразвитый?

Аноним 21/08/25 Чтв 22:35:10 № 1328458 399

>>1328451
Тебя траллингуют. Может быть тупостью, но какая разница?

Аноним 21/08/25 Чтв 22:37:20 № 1328463 400

>>1328345
Это когда прошивка памяти была буквально.

Аноним 21/08/25 Чтв 22:42:35 № 1328469 401

>>1328458
Некоторым нравится. Иначе зачем уже столько постов переливать из пустого в порожнее?

Аноним 21/08/25 Чтв 22:45:33 № 1328472 402

>>1328458
Многоходовочка дискредитации кобольдов? Слишком сложно.

Аноним 21/08/25 Чтв 22:45:49 № 1328473 403

Лингвосрачи - ✓
Аватаркосрачи - ✓
Моделькосрачи - ✓
Железосрачи - ✓
Кобольдосрачи - ✓

Жду с нетерпением фронтосрачей .

Аноним 21/08/25 Чтв 22:47:19 № 1328474 404

>>1328473
Уже были, жди новый оборот колеса

Аноним 21/08/25 Чтв 22:51:26 № 1328479 405

>>1328473
99 драма - ✓
признание в любви и шокирующие открытия в следующей серии

Аноним 21/08/25 Чтв 22:55:17 № 1328483 406

>>1328451
>Для него не сделали интерфейс
>текстовое поле
Так сделали же, хули ты копротивляешься?
>хотя простор был очень богатый
Ну так делай. Нет, не могёшь? Хули жалуешься тогда?
>Что ты в этом треде забыл
Адрес твоей мамки, азаза.

Аноним 21/08/25 Чтв 22:56:41 № 1328485 407

Ладно я зря быканул на Драммера. Новая Цидонька 24B-v4.1 вполне себе неплохая. В сравнении с Геммой - хуже следует систем промпту, но заметно лучше передает характер персонажей (на мой субъективный взгляд). Буду дальше смотреть.

Аноним 21/08/25 Чтв 23:02:38 № 1328489 408

>>1328483
Ебать ты кобольд, прямо олицетворение

Аноним 21/08/25 Чтв 23:15:11 № 1328495 409

Кому не лень, поясните, у таверны есть какие-нибудь более простые аналоги?

Хочется иметь чистый фронт под текст комплетишн, без рудиментарной хуйни и прочих нагромождений. Разумеется, для чатов с персонажами. Про дефолтные чат-морды с ассистентами я итак в курсе, оно мне не надо.

Аноним 21/08/25 Чтв 23:22:28 № 1328504 410

>>1328440
Спасибо

Аноним 21/08/25 Чтв 23:23:08 № 1328507 411

>>1328504
не за что :)

Аноним 22/08/25 Птн 00:04:22 № 1328576 412

>>1328495
Буквально срач идет про кобольд, в котором это есть.

Аноним 22/08/25 Птн 00:06:39 № 1328582 413

>>1328576
Хотя. Я еще не пизданулся окончательно и не страдаю галлюцинациями. Но я точно видел какой то японский фронт, который, невзирая на то что у лунных очень специфичное понимание дизайна, выглядел он не плохо. Надо бы поискать, я точно где то линки сохранял.

Аноним 22/08/25 Птн 00:14:11 № 1328593 414

>>1328576
Лень разбираться в очередном сраче, но скажу за себя, что морда кобольда это кривая параша, на которую даже смотреть тошно. Для дефолтных задач пойдет, для ролплея точно нет.

>>1328582
Не ризу случайно? Не знаю насчет того, узкоглазые ли её делали, но это тоже не то.

Аноним 22/08/25 Птн 00:33:54 № 1328609 415

>>1328582
Не японский а корейский. В шапке висит - Risu AI.

Аноним 22/08/25 Птн 00:35:47 № 1328613 416

фото анимешки с[...].png 112Кб, 1287x748

фото анимешки б[...].png 162Кб, 1287x820

Тестирую чем можно распознавать картинки. Вот поймал дешёвку за руку, загрузил фотку анимешки и скриншот - попытку другой нейросетки угадать фотку анимешки. Тупая хитрая машина решила считерить, причем обычную фотку распознаёт нормально, а фотку с текстом просто "списывает" не пытаясь в анализ картинки.

Аноним 22/08/25 Птн 00:41:05 № 1328626 417

Короче, скачал бинарники Жоры и запустил квен на своей 5090 и 64 гигов памяти. Выдает 11 токенов в секунду на мелком контексте.
Если что, кобольд выдавал 2 токена в секунду. Вопрос закрыт.

Аноним 22/08/25 Птн 00:47:27 № 1328632 418

>>1328626
Мне двух токенов хватает. Какие у тебя другие аргументы?

Аноним 22/08/25 Птн 00:53:04 № 1328634 419

>>1328632
Дело твоё, чел.

Аноним 22/08/25 Птн 00:53:49 № 1328635 420

>>1328634
Ясно. Кобольд лучше, что и требовалось доказать.

Аноним 22/08/25 Птн 01:12:20 № 1328639 421

>>1328635

Аноним 22/08/25 Птн 01:16:48 № 1328643 422

Кобольд вирджин и жора энжоеры

Аноним 22/08/25 Птн 01:42:03 № 1328650 423

>>1328291
>L3.2-8X3B-MOE-Dark-Champion-Inst-18.4B

Это что за ебаный франкештейн блядь, кто-то взял 8 одинаковых плотных llama_3.2_3B, прогнал через файнтьюн и зашил внутрь мое-поганища в виде лже-экспертов?

Аноним 22/08/25 Птн 01:46:44 № 1328652 424

>>1328643
Не хватает пользователя олламы в виде сосущего соску младенца.

Аноним 22/08/25 Птн 02:17:38 № 1328664 425

Ну в общем-то как я и говорил. Исключение тесел из мультигпу баронской сборки и перенос тензоров в RAM снизило скорость:
2k context: pp 164 -> 131, tg 11->7.5
10k context: pp 136 -> 120, tg 7->6 (генерация кста не сильно просела)

Дальнейшее исключение тройки видюх из хвоста еще больше пидорасит:
2k pp 108, tg 6.2
10k pp 106, tg 5.5

Это говорит о том, что нехуй выебываться и даже самое дряхлое говно, подключенное через райзеры, спаянные китайскими бомжами в подвалах Бангладеша, лучше обычной советской DDR4. У бояр c DDR5 с миллионом каналов ситуация может быть другая, конечно.

К слову, вот вы говорите про дипкок. А как его запускать-то? Ниче тот факт, что жора до сих пор фа не поддерживает, он ебанутый чи не https://github.com/ggml-org/llama.cpp/pull/11557? А на ik лламе фа не работает на теслах, то есть -48 гб из моей врам как корова языком слизнула. В общем, говно без задач, это либо со скрипом гоняй второй квант, либо имей под рукой сервак с 256/512 ram

Аноним 22/08/25 Птн 02:31:37 № 1328667 426

>>1328664
Ты на кобольде?

Аноним 22/08/25 Птн 02:46:00 № 1328672 427

>>1328667
Хватит нести хуйню.

Аноним 22/08/25 Птн 02:54:27 № 1328673 428

>>1328664
Создается впечатление что что-то подсирает, возможно медленное подключение основной карты.
> А как его запускать-то?
Просто и без задней мысли, как любую моэ модель. Есть опция скачать лоботомита и катать с минимальной выгрузкой.
> до сих пор фа не поддерживает
Погугли mla в дипсике
> на ik лламе
Она малополезна для мультигпу сетапов

Аноним 22/08/25 Птн 03:09:31 № 1328677 429

>>1328673
Я что то упустил, давно дипсик стал моэ ?

Аноним 22/08/25 Птн 03:16:17 № 1328679 430

>>1328677
Ебать ты

Аноним 22/08/25 Птн 03:30:28 № 1328682 431

>>1328679
Ответ отрицательный, ебать ты, кожевннник.

Аноним 22/08/25 Птн 04:05:42 № 1328691 432

Квен настолько умна что если она косячит - то если прям в ролеплее через OOC тыкнуть её в косяк и дать указание проанализировать системный промпт и карточку персонажа - то она покажет точное место где косяк и сама же его перепишет. Вообще команда OOC: это палочка выручалочка, с помощью которой можно дебажить нейронку прям в процессе ролеплея.
Мне напомнило как в "Мире дикого запада" была команда "Freeze all motor functions", которая переводила тамошних ботов в аналогичный режим дебага.

Аноним 22/08/25 Птн 04:52:05 № 1328709 433

>>1328673
>Создается впечатление что что-то подсирает, возможно медленное подключение основной карты.
Не она точно, там честные х16.
>Погугли mla
Это ортогональные вещи, насколько я знаю. Впрочем, твой ответ побудил сходить и я таки нашел
https://github.com/ggml-org/llama.cpp/pull/13435
https://github.com/ggml-org/llama.cpp/pull/13306
Единственное, что названия какбэ намекают, что теслы пошли нахуй... Но надо проверить, вдруг уже тоже поддержали в другом PR. Непорядок, если так оно и есть, удар в псину от жоры.

Аноним 22/08/25 Птн 05:05:41 № 1328713 434

>>1328626
Верим.

Аноним 22/08/25 Птн 08:56:39 № 1328760 435

Ой ну всё наслушался советов на дваче.
Темплейты не глупые люди наверное разрабатывали, если стоит names - always значит так и надо.
Просто перестало в середине чата выводиться сообщение, удаляй, откатывай на пару назад, - всё похуй, токены пишутся, таверна не выводит.
И только names - always с never помогло

Аноним 22/08/25 Птн 09:10:11 № 1328762 436

>>1328760
это явно не проблема темплейтов, у меня всегда Never ибо имена (как настройка) пиздец отупляют и модель теряет возможность управлять несколькими персонажами + нарраторить, такое только для чисто ассистентов и потрепушек 1-на-1

Кстати, очень хорошие результаты даёт сторителлинг от третьего лица без маня-селф-инсертов, с добавлением в промт:

Keep responce formatting. Formatting examples:

Имя: "Прямая речь."

Имя (мысли): "(продумывание, размышления)"

Ну, и самому придерживаться того же формата.

То же самое что с именами, но не ломает разметку и модель.

Аноним 22/08/25 Птн 09:21:11 № 1328765 437

Почему в треде непопулярна 70B ллама? Я наблюдаю, что ролеплейщики (кроме нище-рамлетов) до сих пор на нее дрочат, воротя носы от МоЕ-хуе с жалкими < 15B активных параметров.

Аноним 22/08/25 Птн 09:22:40 № 1328766 438

>>1328765
Ок, а что в треде популярно?

Аноним 22/08/25 Птн 09:23:53 № 1328767 439

>>1328765
>70B ллама
устарела, не нужна

конечно, никто не отбирает, и хуже сама по себе не стала, но появилось много штук намного лучше

Аноним 22/08/25 Птн 09:24:32 № 1328768 440

>>1328766
Все остальное, но не пухлая лама.
>>1328767
Почему тогда англоязычные до сих пор ламу юзают?

Аноним 22/08/25 Птн 09:25:30 № 1328769 441

>>1328768
>англоязычные
у них и спрашивай, лол

Аноним 22/08/25 Птн 10:11:21 № 1328783 442

Бля, ванильная Гемма, конечно, умничка, но ( забыл подключить тот пробивной пресет ), готова мир уничтожить, лишь бы кум не описывать.

Аноним 22/08/25 Птн 10:13:34 № 1328784 443

https://huggingface.co/deca-ai/3-alpha-ultra
Это блять что такое, какие 4.6Т параметров сука?

Аноним 22/08/25 Птн 10:18:15 № 1328790 444

>>1328784
Ебушки-воробушки... небось это под неё строили городок-датацентр, охраняемый похлеще Зоны-51.

Аноним 22/08/25 Птн 10:24:34 № 1328793 445

>>1328790
>>1328784
Это просто вброс какого-то неюзабельного мусора.

Аноним 22/08/25 Птн 10:32:32 № 1328801 446

image 1Кб, 237x33

>24
Потому что винда отъедает 4гб видеопамяти, даже если они не заняты.
>34
Потому что старая видюха и если поставить больше, то вместо 20 т/с станет 15.
>42
Остаточек на новую видюшку с полностью свободной видеопамять.

Какого хуя я должен это подбирать вручную, почему оно автоматически не может найти лучший вариант?

Аноним 22/08/25 Птн 10:33:18 № 1328803 447

>>1328790
>>1328793
Я понял, это мистер бивень аka морж из бомжей

>Let me answer this:
>One: this isn’t spam. Deca 3 Alpha is an experiment, and yes, it’s scaffolded from existing models. That was intentional and mentioned upfront. We’re testing routing, reproducibility, and scaling — we didn't pretrain this
>two, all reused components are properly licensed. We’ll be adding a NOTICE.md to clarify provenance, including InternVL.

Аноним 22/08/25 Птн 10:37:03 № 1328805 448

image 111Кб, 1417x243

Мда, как-то прям стоковая гемма порой как упрётся, на абсолютной ванильке лол, даже с пресетом.

Аноним 22/08/25 Птн 10:38:07 № 1328807 449

>>1328801
Напиши алгоритм сам и кинь мр в репы.
Опять опенсорс комьюнити должно каждому бомжу

Аноним 22/08/25 Птн 10:42:28 № 1328812 450

>>1328765

Потому что нет ни одной причины её использовать - в треде сидят умные люди, умеющие просчитывать value over spent resourses. Само качество этой неудачной модели находится незначительно выше 32b моделей. При этом эти 32b спокойно запускаются на 16-24 гб врам, а эту - ты не запустишь с нормальной скоростью имея ниже 48 гигов врам. Некоторую популярность в треде имел немотрон - который есть просто ужатая версия этой самой ламы до 49В, почти без потери качества, вот там уже были причины его использовать и многие его использовали и был даже небольшой культик этой модели.
Но после прорыва с оффлоадом мое тензоров, когда ты на 24 гб врама с нормальной скоростью можешь запускать мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству - и она и немотрон окончательно ушли в небытие.

Аноним 22/08/25 Птн 10:46:22 № 1328813 451

Мда... 4 плашки DDR5 действительно работают как говно. А мечта была так близко...

Аноним 22/08/25 Птн 10:49:30 № 1328816 452

image 53Кб, 1171x205

В регарде валяется. По идее ценник будет снижаться каждую неделю, пока не выкупят. 1 месяц гарантии должны подсунуть.
Только никто не скажет, че там было отремонтировано.

Аноним 22/08/25 Птн 10:52:12 № 1328817 453

>>1328813

Что за плашки? И что за проц? Амд? Если да - то неудивительно.

Аноним 22/08/25 Птн 10:56:33 № 1328820 454

>>1328813
А на ддр4 разницы нет, потому что одинаково 2 токена в секунду кек

Аноним 22/08/25 Птн 11:02:11 № 1328824 455

>>1328812
> двухбитного квена 235
Хватит форсить этот кал, аноны просто пошутили и свичнулись обратно на эир.
Никак абсолютно 2 квант чего либо не может быть лучше 4

Аноним 22/08/25 Птн 11:03:43 № 1328826 456

>>1328824
>Никак абсолютно 2 квант чего либо не может быть лучше 4
Может при превосходстве в количестве параметров.

Например 2 квант немотрона умнее 4 кванта мистрали.

Аноним 22/08/25 Птн 11:05:37 № 1328827 457

>>1328826
Алё, у тебя моэ, там "эксперты" абсолютно тупые получаются.

Аноним 22/08/25 Птн 11:06:40 № 1328829 458

>>1328827
диванные войска в отаке...

Аноним 22/08/25 Птн 11:08:04 № 1328832 459

>>1328829
Беспруфные чепушилы в защите. Принеси аутпут Q2 лоботомита, посмеемся.

Аноним 22/08/25 Птн 11:16:21 № 1328834 460

Уже постил даже, там кум с феечкой был.

Мб попробую что-нибудь сообразить позже.

Аноним 22/08/25 Птн 11:16:44 № 1328835 461

>>1328832
Уже приносили, базашиз и обоссывали твой тупой траленк.

Аноним 22/08/25 Птн 11:26:06 № 1328842 462

>>1328827
Беспруфные чепушилы в атаке. Принеси аутпут Q4 умницы и Q2 лоботомита, подтвердишь свой пиздеж.

Аноним 22/08/25 Птн 11:30:40 № 1328850 463

>чтоб подтвердить что q2 хуже q4 нужны пруфы
Как мы докатились до такого?
Асигодети не знают основ?

Аноним 22/08/25 Птн 11:33:50 № 1328853 464

>>1328817
Наборы по 32 и 48 гиг, очевидно, характеристики схожие, 6400 в базе CL30.
Амудя конечно же, больше процессоры уже никто не делает.
>>1328820
Знаю, сам сидел. Я конечно знал, что не заработает, но самому удостоверится надёжнее (и обиднее).
>>1328824
На самом деле рабочая подделка.
>>1328850
Тут вопрос в "235 q2 VS 106 q4", так что не всё так однозначно.

Аноним 22/08/25 Птн 11:34:33 № 1328854 465

>>1328812
> мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству

Эир не уничтожает даже 32b плотную модель, о чем выше не раз писали. Ты о чем? Квен получше, конечно, только не кратно количеству параметров. Но в целом все верно, 70b Лламу нет резона юзать сейчас, вот и ответ

Аноним 22/08/25 Птн 11:39:25 № 1328855 466

>>1326416 (OP)
Сейчас есть одна 3090 и 32 гитара ОЗУ. Сижу на магнуме 24b и жду где то 20 секунд на ответ. Стоит ли купить 64 гига ОЗУ (ддр4)? Чтобы с таким же комфортом сидеть на чём то лучшим?

Аноним 22/08/25 Птн 11:41:19 № 1328856 467

>>1328855
Ты можешь на одной 3090 использовать 32b модели в хорошем кванте и ждать те же 15-20 секунд на ответ. Может даже быстрее если на Экслламе

Аноним 22/08/25 Птн 11:52:47 № 1328862 468

>>1328853
>Амудя конечно же, больше процессоры уже никто не делает.
Это аутотренинг? Вот у меня четыре плашки ддр5 как на интеле работают, скорость 5600 как заявлено, а не 3600 как у тебя.

Аноним 22/08/25 Птн 11:54:48 № 1328863 469

>>1328862
А до 6400 чего не гонишь?

Аноним 22/08/25 Птн 12:02:13 № 1328869 470

>>1328863
Так мне хватает скорости. Я кобольд.

Аноним 22/08/25 Птн 12:03:37 № 1328871 471

>>1328863
У меня планки 5600. И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается. Читал что с вольтажом начинаются проблемы на 6400 на моей матери и проце, а с таким я ебаться не хочу.

Аноним 22/08/25 Птн 12:15:53 № 1328882 472

>>1328862
Не вижу на этой пикче 4-х плашек, вижу скорости и частоту, плашек не вижу.

Аноним 22/08/25 Птн 12:22:37 № 1328886 473

>>1328871
>И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается
Чего блять, лол.
Там скорости от пизды написаны, все до 6400 гонят не потея ни грама и всё нормально живёт

Аноним 22/08/25 Птн 12:23:51 № 1328888 474

Как перевести книгу , где 22000 слов? Которая, к тому же, на португальском?

Аноним 22/08/25 Птн 12:31:04 № 1328893 475

>>1328888
Лезет же в окно геммы

Аноним 22/08/25 Птн 12:32:24 № 1328895 476

>>1328893
Или на 2-3 части с суммарайзом предыдущих частей разделить

Аноним 22/08/25 Птн 12:39:06 № 1328899 477

>>1328888
Воспользоваться услугами переводчика.

Аноним 22/08/25 Птн 12:43:59 № 1328903 478

>>1328893
Не лезет же. Это 22к слов, а не токенов.
>>1328895
Звучит как вариант. Я хотел deepl попроьоввть, а для нее нужно достать иностранную карту

Аноним 22/08/25 Птн 12:44:15 № 1328904 479

>>1328626
Какая частота памяти и какой квант?

>>1328813
АМД не показатель, никто для нейронок на амд собирать не будет, интел же.
Ну или хотя бы 9950 вроде норм работал. Но цена за него не радует.
Вот би на интеле посмотреть…

Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть?
Я честный и всегда возвращал тока ломанное.

>>1328862
Гуд ньюс. Остается надеяться, что 13400 потянет 256 гигов. хд

Аноним 22/08/25 Птн 12:46:05 № 1328908 480

>>1328903
Прикидывал что +- по 3 токена на слово. Можно в лламу скаут залить, там вообще контекста до пизды хватило бы памяти на тачке

Аноним 22/08/25 Птн 12:49:43 № 1328913 481

>>1328904
Да что за волшебство там на вашем интеле?
В чём разница то?
Все щас в один голос кричат амд топ

Аноним 22/08/25 Птн 12:54:54 № 1328915 482

>>1328886
>все до 6400 гонят
Это на амуде. На интуле можно гнать хоть до 8 кеков.
>>1328904
>никто для нейронок на амд собирать не будет
Я...
>Ну или хотя бы 9950 вроде норм работал
Чиплет с контроллером один и тот же, разницы не будет.
>Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть?
Бери дистанционно, должны принять по "не подошёл".
>>1328913
На интеле осталась только быстрая память, по остальным параметрам он действительно всосал.

Аноним 22/08/25 Птн 13:00:14 № 1328920 483

>>1328913
Просто у АМ5 проблемы с четырьмя планками оперативы, и вообще плохо с псп.
Как-то так не фартит процам новым.
При том, что интуль хуже как процессор, но под RAM-нейронки выходит лучше.

>>1328915
> Бери дистанционно, должны принять по "не подошёл".
Угу, если все пойдет как надо, то через месяцок так и попробую.

Аноним 22/08/25 Птн 13:08:12 № 1328924 484

Вещаю с зиономи50 полей. Внезапно влетела в голову мысль что нужно попробовать включить нума режим. У людей на моей мамке под 130гб/с буст

Аноним 22/08/25 Птн 13:25:26 № 1328943 485

>>1328871
>И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются
Лол, ты и на сендиках небось сидел с DDR3 1333 МГц ?
>>1328924
Попробуй конечно, но росст циферек скорее всего увидишь только в тестах аида.

Аноним 22/08/25 Птн 13:27:31 № 1328949 486

>>1328760
> Темплейты не глупые люди наверное разрабатывали
> если стоит names - always значит так и надо.
Интересно, а в каком дефолтном шаблоне стоят names - always? Думаю, ты не утруждался проверить, потому что это решило проблему в твоем конкретном случае. Ни у одного шаблона в Таверне из коробки такой настройки нет, кроме тех что с суффиксом -Names, коих целых две штуки. Везде Groups and Past Personas, потому что там это оправдано на мелкомоделях (на больших по-прежнему оставлять Never). Не говоря уже о чаткомплишене, где нет имен.

Аноним 22/08/25 Птн 13:32:24 № 1328958 487

>>1328762
Эхх, даво хотел задать ебланский вопрос.

Вот это вот {{/if}}{{description}} - это что ?

Аноним 22/08/25 Птн 13:34:56 № 1328962 488

>>1328958
Если есть описание у персонажа, оно передается в story string, если нет - не передается.

Аноним 22/08/25 Птн 13:38:26 № 1328969 489

>>1328962
Получается это правила базовой разметки ?
А где задавать нужную мне пунктуацию (Ну мол, мысли персонажа через `мысль`, "диалог", выделение курсивом чувств - и прочее.
Это через system promt ?

Аноним 22/08/25 Птн 13:47:26 № 1328989 490

>>1328969
В story string по итогу собирается почти весь промпт, который Таверна отправляет бекенду. Обрати внимание на {{#if system}}{{system}} - это и есть твой system prompt. Если он есть - передается, если нет - не передается. Иногда отсутствует {{/if}}{{#if mesExamples}}{{mesExamples}}, потому что не все передают сообщения таким образом. Кто-то делает это как на пике 2: Always include examples, и тогда story string будет передаваться второй экземпляр поля Example Messages из карточки персонажа. Короче говоря, это контейнер для сбора почти всего промпта (например, там отсутствует непосредственно история сообщений). Сами инструкции, в том числе какие ты описал, тебе нужно писать в system prompt. Иногда, для удобства, в контексте конкретных моделей можно и в story string размещать инструкции, чтобы system prompt был более гибким и универсальным. Например, джейлбрейк Коммандеров в дефолтном шаблоне Таверны, из коробки, находится именно там - в story string.

Аноним 22/08/25 Птн 13:49:51 № 1328994 491

>>1328989
Всё что я могу сказать - это ОГРОМЕННОЕ ПАСЕБА.

Аноним 22/08/25 Птн 13:52:41 № 1328998 492

>>1328989
У тебя какой-то свой скин для таверны? Давно не обновлялся, темные темы глаза режут пиздец.

Аноним 22/08/25 Птн 13:56:08 № 1329004 493

>>1328998
Так, если мне не изменяет память, ты сам можешь ручками в таверне хоть все цвета мира поставить.
Вот, точно можно
https://docs.sillytavern.app/usage/core-concepts/uicustomization/#theme-colors

А вообще, тему надо выбирать на основе освещения в комнате. Хотя кому я это пишу, сами все и без меня знаете.

Аноним 22/08/25 Птн 14:01:03 № 1329009 494

>>1328998
Та же проблема, никогда не использую темные темы. Это элементарный рескин, который делается за пару минут в User Settings -> UI Theme -> Theme Colors

Чтобы использовать кастомный фон, нужно его загрузить в Таверну: SillyTavern\data\default-user\backgrounds или имя пользователя вместо default-user и выбрать во вкладке сверху, что обведена синим

Аноним 22/08/25 Птн 14:03:53 № 1329013 495

>>1329009
>>1329004
Понял, разберемся.

Аноним 22/08/25 Птн 14:08:51 № 1329022 496

>>1329004
>LaTeX extension
хи хи хи
Хотя странно, в маткаде давно уже нормальная система записи формул, ну если хочешь матан фронт, ну реализуй как там.

Аноним 22/08/25 Птн 14:13:19 № 1329029 497

как ощущается мистраль 24б по сравнению с корпами?

Аноним 22/08/25 Птн 14:17:34 № 1329038 498

>>1329029
Плохо, хорошо, нормально, отлично, ужасно.

Выбирай.

Всё зависит от корпы, твоих целей и задач. Сходи в ациг, там коробёбы, мы тут исключительно пердолим локалки и можем сравнивать их между собой.

Аноним 22/08/25 Птн 14:35:12 № 1329066 499

>>1329038
Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах. Если речь про жирные модели корпов. Некоторые маленькие модели у них натурально 8б.

Аноним 22/08/25 Птн 14:42:49 № 1329071 500

>>1329066
Мминуточку. Позволю себе не согласиться.
> Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах.
Как показывает практика, квен кодер порой лучше гопоты работает.

Все очень зависит от задач. Корпы имеют самые жирные датасеты, но из за сейфети лайнс, они крайне узко применимы. И я сейчас не про кум. Сейфети он во всем.
Перевести Де Сада ? Фу бля, пошёл нахуй пользователь.
Медицинские данные - а ты точно специалист ? У тебя обычный аккаунт, нахуй иди.
Я пробовал с ними сделать расчет АСДТ на горную выработку, так он моментально залупился.
Сука, если у меня есть ДТ и Селитра, я знаю пропорции, все что от тебя требовалось, это сделать простую математику с кислородным балансом. Но нет, взрывчатка же. Ведь террористам точно нужен кислородный баланс ВВ.

Аноним 22/08/25 Птн 14:46:30 № 1329072 501

>>1329071
О каких жирных корпах речь? Дипсик? Или ты серьезно деньги платишь за ПукГПТ?

Аноним 22/08/25 Птн 14:48:45 № 1329075 502

>>1329072
Да все. Клоды, гпт, дипсики - они все одинаково хуевы для узких задач. Это буквально зацензуренный масс продукт, который сгодится только как ассистент да гугл. И то, умудряется лажать с запросами.
Я все понимаю, но я очень очень разочаровался в корпах.

Аноним 22/08/25 Птн 14:49:52 № 1329076 503

И вообще это не тематика, так что если будем продолжать обсуждение, предлагаю укатиться в предназначенный для этого тред, а то опять стриггерю шизов на сотню постов срача.

Аноним 22/08/25 Птн 14:54:53 № 1329082 504

>>1328882
Посмотри еще раз.
>Quad channel ddr5

Аноним 22/08/25 Птн 15:02:36 № 1329087 505

>>1329066
> даже в четвёртом кванте
Как низко пал тред

Аноним 22/08/25 Птн 15:05:03 № 1329091 506

>>1329075
>>1329076
Увидел вскукарек про цензуру, стриггерился.
Просто надо промптить правильно.

Аноним 22/08/25 Птн 15:09:22 № 1329096 507

>>1329091
>Просто надо промптить правильно.
А еще собирать кровь девственниц и обязательно писать промт в определенную фазу луны и молиться, чтобы тебе бан не прилетел.
Нахуй надо.

Локалки - это и MOE и ТВОе.

>вскукарек
Убил бы, блджад.

Ф пезду короче. Лучше скажите, кто нибудь ллама слоп от драммера использовал ?

Аноним 22/08/25 Птн 15:10:18 № 1329098 508

>>1329096
Хз какие там баны, я экспериментировал с лютой дичью и аккич дипсренька жив до сих пор. Даже API код ни разу не менял.

Аноним 22/08/25 Птн 15:50:21 № 1329139 509

Ценители французских горничных с поясами для чулок, тут сполоделатель выкатил очередной тюн милфы, но с ризонингом.
Прогревайте риги, ёпта.

https://huggingface.co/TheDrummer/Behemoth-R1-123B-v2

Я за вас рад, конечно, но не от всего сердца.

Аноним 22/08/25 Птн 15:56:09 № 1329141 510

>>1329082
>Quad channel ddr5
Дефолтное поведение интула на двух плашках, почитай про новшества DDR5.

ПЕРЕКАТ Аноним # OP 22/08/25 Птн 15:58:02 № 1329143 511

ПЕРЕКАТ

>>1329142 (OP)

ПЕРЕКАТ

>>1329142 (OP)

ПЕРЕКАТ

>>1329142 (OP)