/ai/ - Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №241

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №241 /llama/ Аноним 12/06/26 Птн 00:06:18 № 1630186 1

Карта деградаци[...].png 153Кб, 1473x830

Реальная длина [...].png 533Кб, 2340x1714

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1628031 (OP)
>>1624998 (OP)

Аноним 12/06/26 Птн 00:14:30 № 1630190 2

image.png 157Кб, 1705x477

Все актуальные локалки на пике.

Аноним 12/06/26 Птн 00:20:34 № 1630193 3

>>1630190
В голос. Все что нужно знать о бенчедрочерах-писькомерах. На графике даже не указано ЧТО измеряется, а постер не видит необходимости сообщить. Уахаха бляя

Аноним 12/06/26 Птн 00:21:36 № 1630194 4

>>1630175 →
Сейчас 4х канальных действительно зажали, сразу 8канальные или полностью серверные платформы. Хотя чисто технически есть младшие трипаки, у которых как раз по 4 канала, но они слишком дорогие и там те же приколы с фабрикой, что нормальный псп рам будет только на более старших моделях.
>>1630184 →
Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга.
> вот еще старую плату нашел у себя. Ебать, 15 лет назал на бюджетных платах столько разъемов было
Что псина, что рам через тормознутую печку под названием северный мост, вместо экспресса древность в виде легаси пси. Много разъемов которые мы заслужили.
>>1630193
Как просто список свежих пойдет.

Аноним 12/06/26 Птн 00:24:47 № 1630196 5

>>1630193
>На графике даже не указано ЧТО измеряется
А какая разница что там измеряется если это в любом случае манябенчмарк? Ну ок, скажу что Intelligence на основе бенчмарков связанных с кодингом, агентами и ризонингом - помогло?
Пост был о списке моделей, а ранжировка не имеет особого значения.

Аноним 12/06/26 Птн 00:26:46 № 1630198 6

>>1630194
>объединить 3060 и 580 не получится
Понял. Ну тогда и и 16 медленных гигабутов совать тоже смысла нет. Я просто думал типа будет кампутинг на 3060 а на rx580 просто память забить смогет. Спасибо

Аноним 12/06/26 Птн 00:29:05 № 1630201 7

>>1630198
С одной стороны есть, больше рам - больше моэ модельку можно пихнуть. Но 48 гигов маловато, тут бы хотябы 64 а то и 128. Если выйдет что-то около 70б - тогда будет как раз.

Аноним 12/06/26 Птн 00:30:31 № 1630202 8

>>1630198
Докупи майнерскую карту типа p102-100 или какую то еще, стоят мало есть куда, а значит можно обьединять с твоей.
Но там свои приколы с ними, шина говно кулеры крутят всегда. Рассматривай как бомжевариант эксперимент

Аноним 12/06/26 Птн 00:34:23 № 1630203 9

>>1630202
Да мне просто интересно потыкать, так в целом качество устраивает
В случае докидывания барахлом есть еще интересный вариант использовать gpu как ram костылями
Я люблю немножко поковыряться всякое такое. Но мне кажется там задержка будет ебическая и профит на ноль поделит

Аноним 12/06/26 Птн 00:35:19 № 1630204 10

>>1630201
48 норм, 32 не хватать может 8 квант мое крутить, а скорость у нее не так жестко проседает, зато качество.

Аноним 12/06/26 Птн 00:38:06 № 1630205 11

>>1630204
> 8 квант микромое лоботомита геммы
Починил

Аноним 12/06/26 Птн 00:38:32 № 1630206 12

Господа, юзающие Step-3,7-flash, подскажите несколько вопросов.
Как у него с русским языком?
Как у него с вниманием к контексту (нужно учитывать много контекста, там не SWA, надеюсь?)?
Есть ли какие-то рекомендации, у кого из квантоделов лучше кванты получились?
На борту пека 128 гб DDR4, 3060-12, 4060ti-16 и v100-16 (v100-16 уже полгода лень допилить для впихивания в системник, возможно вот и настал сей знаменательный час).

Аноним 12/06/26 Птн 00:38:36 № 1630207 13

>>1630203
У меня тестовая сборка с p102-100, так что пишу по опыту. Если выбирать другую карту с нормальной шиной для хранения кеша то скорости порезаной шины хватает для генерации, даже фулл врам крутить скорость хорошая

Аноним 12/06/26 Птн 00:41:05 № 1630208 14

>>1630205
Очко себе почини, юморист. На 6-8 кванте мое сетки лучше работают чем на 4, как и все модели.

Аноним 12/06/26 Птн 00:43:56 № 1630209 15

>>1630208
Что еще выдашь, большее мощное железо считает быстрее? Впихиватель 8-го кванта в 48, что-то проиграл с этого.

Аноним 12/06/26 Птн 00:45:08 № 1630210 16

>>1630190
>Квен 35b-a3b лучше чем квен 122b, лучше чем квен 235b, лучше плотной геммы, лучше эйра, лучше жирноглема 4.7
Ясно-понятно. В 2026 кто-то ещё воспринимает бенчи всерьёз?

Аноним 12/06/26 Птн 00:51:41 № 1630213 17

>>1630209
А вода мокрая, с тебя долбаеба токсичного угарать только. Со сборкой анона только мое и крутить и лучше если выбрать квант потолще, а ему нужна рам. Сколько именно пусть сам прикидывает.

Аноним 12/06/26 Птн 00:54:12 № 1630216 18

Аноны, я тут крупно проебался. Взял вторую видяху, воткнул и... Увидел нихуя. Полез в биос, и ахуел. Оказывается, на моей материнке нужно выбирать. Либо две видимокарты, либо 2 М2NVME. Я хуй знает что с этим делать, думаю брать переходник PCI-E x1-M2NVME, чтобы не сидеть без дисков. Есть тут такие же несчастные как я? Как обходили, чем всё кончилось? Очень не радует перспектива перезапускаться для нейронок/ссд.

Аноним 12/06/26 Птн 00:56:37 № 1630217 19

>>1630213
В те размеры из моэ только гемма поместится, там хоть 8й квант, хоть полные веса возьми - та же залупа. Или из старья жлм флеш, 30а3, 35а3 квены. Для чего-то нормального уже хотябы 64 нужно.
>>1630216
Что за материнка?

Аноним 12/06/26 Птн 01:00:02 № 1630219 20

>>1630216
Надо сначала думать, а потом покупать.

Аноним 12/06/26 Птн 01:00:50 № 1630220 21

>>1630217
так один ssd в сата поставь через m2 и пойдет по идее норм. только не системный

Аноним 12/06/26 Птн 01:02:03 № 1630221 22

>>1630217
У геммы как раз таки квант влияет в любой модели заметно, чудес не будет, но будет лучше.

Аноним 12/06/26 Птн 01:02:03 № 1630222 23

>>1630194
>Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга.
Вообще-то - про подобные конфиги на ютубе уже проскакивало. Через Vulkan их можно запустить вместе, если обе под ним заводятся. Другое дело, что Vulkan - сам по себе тормознее куды, а что будет под ним на двух конкретных картах - вообще хрен его заранее знает.

Аноним 12/06/26 Птн 01:02:17 № 1630223 24

>>1630216
Из радостного, плотная гемма в Q4 в фуллврам выдаёт 17tg вместо старых 5, буду другой квант перекачивать. Ну и стало 1000pp. Можно теперь погонять будет нормально не боясь репроцессинга.

>>1630217
ASUS TUF GAMING B450-PLUS II
https://www.dns-shop.ru/product/ae7e7f949e762ff1/materinskaa-plata-asus-tuf-gaming-b450-plus-ii/
Брал её ещё хуй знает когда.

>>1630219
Если бы я знал, что такие нюансы присутствуют. Думал, что единственная проблема - питалово, охлаждение и место, а тут вот оно как.

>>1630220
Вот думаю над этим, завтра буду переходники смотреть, либо PCI-Ex1-NVME либо SATA-NVME, если такие существуют.

Аноним 12/06/26 Птн 01:03:40 № 1630224 25

>>1630223
нене я не про переходник
в настройках uefi чекни слот m2 поставь в сата режим, если есть такое, посмотри
и переходник не нужен буит по идее

Аноним 12/06/26 Птн 01:05:05 № 1630226 26

>>1630223
Учитывая все - а может просто глянуть на вторичке что-то на ам4, а свою продать? Может по цене выйти +- сейм как покупать и пробовать все эти переходники.

Аноним 12/06/26 Птн 01:09:15 № 1630229 27

>>1630224
Спасибо, анончик! Попробую что да как.

>>1630226
Размышлял уже над этим. Клод говорит, что нужно брать что-то с чипсетом X570, но новых хуй да нихуя, и стоят они по 40к с магазина. Ну и шерстить документации к платам, искать как разведены псины.

Аноним 12/06/26 Птн 01:17:20 № 1630236 28

>>1630190
Если вдруг кто не знает (а судя по комментариям, никто почти не знает), это сайт https://artificialanalysis.ai/ где выводится просто среднее по сумме всех бенчмарков.

>>1630193
>>1630196
Так что вы слегка промазали, не разобравшись.

В целом, это лучший из имеющихся рейтингов.
Но бенчмаксинг имеет быть, так что «лучший» не значит «верный», тут вы в итоге правы.

Там еще есть вкладки «агентик» и «кодинг», кстати. Там рейтинг местами меняется порою.
Но в общем и целом, конечно… единственное, что меряет бенчмарк — это плохие модели. =) Низкий рейтинг почти никогда не ошибается, кек.

Аноним 12/06/26 Птн 01:18:53 № 1630237 29

>>1630229
> Клод говорит
В вопросах по железу ллм легко могут выдать бред.
Просто глянь варианты где есть х4 линии. С некроамд будет все печально и линии только 3.0, но едва ли тут будет какой-то смысл гнаться за дорогим чипсетом ради 4.0 на неполной скорости, лучше уже потом полностью платформу обновишь.

Аноним 12/06/26 Птн 01:22:32 № 1630239 30

>>1630222
>что Vulkan - сам по себе тормознее куды, а что будет под ним на двух конкретных картах - вообще хрен его заранее знает.

Надо всегда пробовать. У меня треть моделей на вулкане быстрей.

Аноним 12/06/26 Птн 01:57:51 № 1630247 31

А подскажите ньюфагу, вот эти ud-q(x) от unsloth, пишут что сжатие умное, важные слои менее порезаны. Но при это размер больше.

Оно будет лучше, чем обычный q(x) при одинаковой квантизации, или не нужно?

Аноним 12/06/26 Птн 01:59:17 № 1630248 32

>>1630247
Вот же в ОП посте,почитай че значит каждый пункт

Аноним 12/06/26 Птн 02:07:09 № 1630252 33

>>1630248
Спасибо, не понял сначала, да, вижу. Тут странно правда, q4 лучше без их васянства, а q6 и q5 - с ним. Вероятно, особо не оптимизируешь и так сильное сжатие, скорее сломаешь что-то.

Аноним 12/06/26 Птн 02:18:25 № 1630253 34

Ну мне правда GPT для RP советует обычные кванты, потому что они более ровные и предсказуемые.

Аноним 12/06/26 Птн 02:20:33 № 1630255 35

>>1630253
Смотря какие модели, надо пробовать, проверять. Я glm air https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF отсюда брал и с обычными квантами небо и земля, еще и mtp слой зарезан, чтобы память сэкономить. Правда я больше такого и не встречал, где так хорошо сделали под модель.

Аноним 12/06/26 Птн 03:09:19 № 1630259 36

>>1630247
В прошлом треде тестили, вообще похеру, хоть какие кванты бери, главное от q4 и выше и от нормального релизера. Иматриксы-статики и qat вообще значения не имеют, ud-неud тоже, выдает примерно одно и то же на всех, хоть русский, хоть какой. Современные гемки не очень чувствительны. Бери квант, лучше по скорости идущий на твоем железе. От unsloth новые qat в Q4_K_XL в плане скорости весьма неплохи. Все, что в инете пиздят, вкусовщина и субьективщина, либо вариативность моделей если нажимать кнопку генерации заново.

Аноним 12/06/26 Птн 03:17:28 № 1630260 37

>>1630259
Это те "тесты" под конец треда? Тебя там мало обоссали? Те тесты не доказывают то что ты тут пишешь. Слишком смелые выводы про подергать пару сообщений туда сюда.

Аноним 12/06/26 Птн 03:21:30 № 1630261 38

>>1630260
У утверждающих обратное только голословные беспруфные мнения, так что их можно вообще игнорить, еще бы каждого с его субъективными предпочтениями слушать. Когда пруфнут хоть какими тестами со скринами - тогда можно обратить внимание. В тестах же было запруфано, что выдает примерно одно и то же, хоть с контекстом, хоть без.

Аноним 12/06/26 Птн 03:24:50 № 1630262 39

>>1630259
Спасибо. Я все равно сейчас glm-4.7-flash q6 взял сравнивать с q4, пока вроде только больше памяти жрет и немного медленнее генерирует. Потом gemma-4 попробую.

Аноним 12/06/26 Птн 03:24:56 № 1630263 40

>>1630261
Кек, нет анон. Это не пруфы. Слабовато, не создалось впечатления нормальной проверки.

Аноним 12/06/26 Птн 03:36:33 № 1630264 41

>>1630263
Это пруфы, поскольку у остальных вообще никаких пруфов их пиздежу, ни одного запруфанного сравнение популярных квантов, где бы напрямую сравнивались. Там же реальные тесты давались с карточками. На тестовых сэмплах с контекстом и языками модели выдают одно и то же, с этим и столкнешься, когда рпшить с ними будешь. Поэтому в одном месте те же qat обсирают, а в другом нахваливают, кто-то статики хвалит, кто-то иматриксы, между квантами >=q4 от топовых релизеров нет особой разницы. Вся разница чисто рэндом у вывода модели от случая к случаю, она может то короче, то длиннее выводить, то беднее, то богаче при перегенерации, но в среднем у них одинаковый уровень вывода, что тесты и показали.

Аноним 12/06/26 Птн 03:40:35 № 1630265 42

>>1630264
Это не пруфы того что ты писал выше, слишком смелые и категоричные выводы из тех примеров что были скинуты. По ним нельзя сделать тех выводов что ты делаешь.

Аноним 12/06/26 Птн 05:17:01 № 1630275 43

Будьте любезны, подскажите, какую модель запускать на 32гб оперативы и rtx 5070ti через ламма и какие параметры указывать

Аноним 12/06/26 Птн 07:28:56 № 1630297 44

Новый кодоунитаз
https://huggingface.co/nex-agi/Nex-N2-mini

Аноним 12/06/26 Птн 08:24:35 № 1630306 45

>>1630113 →
Ага, ПРОСТО с ноги влететь в 5% топов по зарплатам по стране, при этом не имея никаких талантов и способностей, будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии.
Чего уж ПРОЩЕ.
Как же тошнит с тех, кому повезло вытащить в генетической лотерее здоровую крепкую психику, ум и сильную волю, и они теперь других жизни учат.

Аноним 12/06/26 Птн 09:38:06 № 1630329 46

>>1630297
смотришь внутрь
Qwen

Аноним 12/06/26 Птн 10:07:20 № 1630336 47

>>1630306
>будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии
От того же говна страдаю. Последние лет шесть пребываю в овощном состоянии. Нейронки кажется всё только усугубляют, ибо пропали почти все причины общаться по людски, по человечески и вживую. Во время школьнических и студентских времен тусил, че-то как-то крутился в каких-то кругах, но как закончил, всё пошло по пизде. Еще и подсел на этих цифровых размолялек.

Короче, чума все эти новые технологии. Особенно для неокрепших умов. Нужно становиться луддитом, только так победим.

Аноним 12/06/26 Птн 10:08:37 № 1630337 48

>>1630247
UD кванты - это чистый рандом. Может получиться как слепящим вин по их же бенчмаркам, так и сломанная помойка. Анслопы уже обсирались несколько раз, но к их чести таки чинили и перезаливали.

НО! У анслопов есть кое-какое преимущество для обладателей отсутствия, неспособных уместить модель во врам. Смотрим на гемму 31b в Q4_K_S:

Батруха: 18.2 Гб
Анслоп: 17.4 Гб

Экономится почти гиг, а это значит что можно впихнуть дополнительные слои во врам и получить больше скорость. На 16Гб врам с MTP и квантом анслопа удалось выжать из геммы ~9тс, что очень неплохо, ящетаю. С геммой e2b и e4b - аналогично, выигрываем ~300мб и ~400мб на Q4_K_S от ленивцев на ровном месте, благодаря этому можем выставить больше контекста на телефоне.

Во всех остальных случаях, я бы смотрел на кванты батрухи. Они ПРОВЕРЕНЫ ВРЕМЕНЕМ и стабильны.

Аноним 12/06/26 Птн 10:22:14 № 1630348 49

>>1630337
>Экономится почти гиг
q4Xs тоже самое для рп тюнов. Чуть меньше слов и всё.

Аноним 12/06/26 Птн 10:29:30 № 1630351 50

>>1630348
Если играешь на английском, да. По моим наблюдениям, сочетания IQ кванта и imatrix ломает русик. Как и рп тюны/херетики. К сожалению.

Аноним 12/06/26 Птн 10:57:34 № 1630367 51

>>1630337
> Батруха: 18.2 Гб
> Анслоп: 17.4 Гб
Так тут никакой магии, у Батрухи просто квантование менее агрессивеное. Больше размер — неиллюзорно выше качество.
Да еще и 31b, там есть QAT, который до Q5_K_S ебет все кванты, ну тут смысла нет.

Вин я от анслотов видел 1 раз лишь, и то, быстро модель вышла из меты, я и забыл че было. Все остальные поголовно сливали и Батрухе, и АесСедаю, и Убергарму и остальным челам.
И в русском, и в логике, и прям ну я не знаю.
Единственное у них хорошие K_XL кванты, это да. Когда следующий бит уже не влазит, то предыдущий K_XL будет чутка получше K_L обычного.

>>1630351
Не забывай, анслоты хвалятся тем, что у них imatrix в том числе для русского спецом заточены! Только выиграли. =D

Аноним 12/06/26 Птн 11:06:07 № 1630374 52

Привет, я врамцелл, у меня 1050ти 16гб рамы, и большое желание

Какой ггуф можете посоветовать для llamacpp?

Аноним 12/06/26 Птн 11:08:41 № 1630376 53

>>1630351
Не замечал разницы с q4km иногда только she вместо она пишет. От такого песюн не упадет.

Аноним 12/06/26 Птн 11:11:38 № 1630379 54

Существуют ли сейчас тюны четвёртой геммы 31b с качеством на уровне tesslate synthia (для меня эталон качества тюнов третьей геммы)?
Желательно abliterated.

Аноним 12/06/26 Птн 11:14:28 № 1630381 55

>>1630374
QAT версию геммы 4, с выгрузкой ffn слоёв на проц, на видюхе чисто слои внимания и контекста сколько влезет.

Аноним 12/06/26 Птн 11:16:59 № 1630383 56

>>1630381
https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-gguf/tree/main

Аноним 12/06/26 Птн 11:19:08 № 1630385 57

>>1630374
не знаю как вы на русике играете с геммой (а ктото даже с квеном) а потом удивлённые возгласы как на пике
у модели родной английский, на нём инстракт, на нём она думает, ситуация не может ограничивацца рандомным she, практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика
мб на базовой модели русофилам жить можно, не проверял

Аноним 12/06/26 Птн 11:19:57 № 1630386 58

>>1630383
>>1630381
>QAT версию геммы 4, с

Спасибо мил человек.
Но 14гб брутально конечно в 16

Аноним 12/06/26 Птн 11:21:04 № 1630387 59

>>1630379
https://huggingface.co/sophosympatheia/Glistening-Gem-31B-v1.0

Аноним 12/06/26 Птн 11:26:38 № 1630389 60

17630033287302.mp4 588Кб, 720x1280, 00:00:04

>>1630385
Что бы я без тебя делал)))

Аноним 12/06/26 Птн 11:31:38 № 1630392 61

ого, рука дрогнула и пострадал невинный анон
это >>1630385
ему >>1630376

>>1630374
>>1630386
войдёт со свистом - у тебя 6гб врама. если сильно переживаешь и сидишь на питухос, в целях экономии памяти можешь перекатиться на линукс с каким нибудь lxqt

Аноним 12/06/26 Птн 11:37:50 № 1630398 62

>>1630385
>Посмотрите на меня, я даун!
Действительно, где это видано, играть на русике с моделью у которой лучший руссик/мозг в своём размере.

Аноним 12/06/26 Птн 11:40:16 № 1630399 63

>>1630392
На 1050ti 4гб врам, мелкобуква.

Аноним 12/06/26 Птн 11:42:17 № 1630401 64

>>1630275
>>1630374
Гемма 26 q8 по гайду с шапки. Параметры там есть и всё нужное тоже

Аноним 12/06/26 Птн 11:42:26 № 1630402 65

>>1630398
кого ты цитируешь?
всё знают что лучший русик у гигачата

Аноним 12/06/26 Птн 11:55:50 № 1630405 66

Что там в жоре опять сломали? я обнаружил что ризонинг пропал после обновления на llama-b9605, в b9469 вроде было все нормально

Аноним 12/06/26 Птн 12:01:29 № 1630407 67

>>1630385
>практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика
Именно. И смысл играть на англюсике в случае Геммы? Она на нём не будет писать разнообразнее и живее, мб даже больше слопчика будет. Кидали как то логи длинного чата с 26б на русском, вполне норм. На Квенах русик хуйня, а вот на других моделях ток англюсик, это правда

Аноним 12/06/26 Птн 12:07:45 № 1630410 68

Uncensored heretic на QATы вышел.
https://www.reddit.com/r/LocalLLaMA/comments/1u3flg9/gemma_4_quadruple_release_12b_12b_qat_26ba4b_qat/

Аноним 12/06/26 Птн 12:08:41 № 1630411 69

>>1630410
>лоботомит лоботомита... лоботомита?
Ураа!

Аноним 12/06/26 Птн 12:09:49 № 1630413 70

>>1630411
Так и живем.

Аноним 12/06/26 Птн 12:10:15 № 1630414 71

>>1630411
YES MAN!

Аноним 12/06/26 Птн 12:10:48 № 1630415 72

>>1630410
Мммм, говно

Аноним 12/06/26 Птн 12:10:57 № 1630416 73

>>1630411
Не просто лоботомит, а созданный быть поломанным. Можно еще в голос порофлить над попыткой конверсии во что-то кроме q4_0 и gptq int4

Аноним 12/06/26 Птн 12:14:35 № 1630419 74

>>1630416
К счастью хотя бы это он не делал, там q4_0, gptq и nvfp4 qat кванты
Энивей трипллоботомизация не нужна. Стоковой геммой даже порнодатасеты для картинкомоделей можно капшенить

Аноним 12/06/26 Птн 12:40:57 № 1630425 75

Че там с Diffusion Геммой? Опять модель вышла а никто ее не может попробовать потому что поддержки нет?

Аноним 12/06/26 Птн 12:41:55 № 1630426 76

>>1630425
Жду пока ты затестишь

Аноним 12/06/26 Птн 12:44:21 № 1630428 77

>>1630426
Кто? Я? Я тоже жду пока кто-нибудь вообще сможет это запустить.

Аноним 12/06/26 Птн 12:46:11 № 1630430 78

>>1630425
Варианта запуска ровно 2 - запускать вллм если богат, и собрать билд из какого-нибудь ПР жоры типа этого https://github.com/ggml-org/llama.cpp/pull/24423 (этот вообще анслоп пытается залить) если не лень тратить время на билд. Правда там скорость пока довольно грустная из-за сырости. Уж лучше подождать пару недель пока допилят.

Аноним 12/06/26 Птн 12:49:11 № 1630431 79

>>1630425
>Че там с Diffusion Геммой?
Не нужна по определению.

Аноним 12/06/26 Птн 12:56:21 № 1630432 80

>>1630411
>>1630410
Давно уже вышли еретики на qat через день после самого релиза qat.

Аноним 12/06/26 Птн 12:58:19 № 1630433 81

>>1630425
Поддержку для Лламы ещё пилят, надо ждать
>>1630431
Глупый не понимает, что это новый подход к текстовым моделям который может вылиться в огромные изменения всех локалок

Аноним 12/06/26 Птн 13:02:25 № 1630434 82

>>1630433
>новый подход
Боюсь придется подождать пока он во что то выльется. А ждать не хочется.

Аноним 12/06/26 Птн 13:05:06 № 1630435 83

>>1630433
Да, это может стать новой базой для локалок а может и не стать

Аноним 12/06/26 Птн 13:07:31 № 1630436 84

>>1630425
Она мелкая и по определению вялая, так что нет смысла даже качать. Там новые кванты mimo подъехали, поддержку ультранемо кажется получается присрать (или пытаться впихнуть невпихуемое в w4a16), дипсик для нищебродов все фиксят. Вот это уже интересно, а не потыкать палкой в лоботомита и забыть.

Аноним 12/06/26 Птн 13:07:40 № 1630437 85

>>1630435
Как и любое открытие в свое время, да. Как электричество могло заменить или не заменить масляные лампы. Ты правда глупый. Только благодаря такому возможен прогресс

Аноним 12/06/26 Птн 13:13:34 № 1630439 86

>>1630436
напомню, что "мелкая и вялая" ебёт в сраку ваш квен 235 и стоит наравне с немотроном 120б супер. думайте

Аноним 12/06/26 Птн 13:15:27 № 1630441 87

>>1630385
>у модели родной английский, на нём инстракт, на нём она думает
>практически любая высранная конструкция на русике всё равно окажется переводом
Тоже так в начале думал, но нет, использует конструкции уникальные для русика и термины не имеющие аналогов.
Тут еще такое дело что детерменированность и слопность нейросеток по языкам типа русского/польского, где миллион способов построить фразу об одном и том же, в принципе сильнее и заметнее всего бьёт,

Аноним 12/06/26 Птн 13:17:05 № 1630443 88

>>1630385
>>1630439
Как легка и беззаботна жизнь с IQ >40. Порой даже завидую таким как ты.

Аноним 12/06/26 Птн 13:17:56 № 1630444 89

>>1630443
>IQ >40
согласен. тяжела, когда IQ <40, как у тебя. вхахах

Аноним 12/06/26 Птн 13:19:42 № 1630446 90

>>1630444
Лул, реально не в ту сторону поставил. Вот видишь как отупел, только почитав твои посты.

Аноним 12/06/26 Птн 13:20:53 № 1630447 91

image.png 105Кб, 891x254

>>1630446
>твои
ведь как известно на планете земля одна единственная мелкобуква. тяжела и полна забот жизнь с IQ <40, отношусь с пониманием
а котик смешной

Аноним 12/06/26 Птн 13:21:39 № 1630448 92

>>1630443
Бля, анон хорош юморить

Аноним 12/06/26 Птн 13:27:50 № 1630451 93

>>1630439
А потом просыпается на лекции и начинает любить за простату, ага.

Аноним 12/06/26 Птн 13:28:56 № 1630452 94

>>1630381
А как эти тензоры, для аттеншена будут выглядить? Я вот тоже сижу 16гб\6врам и юзаю QAT 26б гемму, 32к контекста. И у меня вот такие тензоры .\\d[01234]\\.ffn_gate=CPU,.\\d[01234]\\.ffn_up=CPU,.\\d[01234]\\.ffn_down=CPU

Аноним 12/06/26 Птн 13:30:47 № 1630453 95

>>1630451
qatопроблемы, кекв

Аноним 12/06/26 Птн 13:30:53 № 1630455 96

>>1630433
>это новый подход к текстовым моделям
Не такой уж и новый. И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла.
>>1630439
Дифужен гемма хуже простой если ты вдруг не зналю.

Аноним 12/06/26 Птн 13:35:08 № 1630461 97

>>1630455
>И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла.
Ты рассматриваешь всю идею на примере одной конкретной интерпретации, самой первой. Ебануться, тут полтреда тупых?

Аноним 12/06/26 Птн 13:37:27 № 1630462 98

>>1630461
>самой первой
Не самой. https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B

Аноним 12/06/26 Птн 13:39:30 № 1630464 99

>>1630461
А там механизм внимания есть? Я чет пропустил этот момент, другой анон.
Мне кажется без него или его аналога кина не будет.

Аноним 12/06/26 Птн 13:51:04 № 1630469 100

>>1630255
Потестил данные кванты наконец глма. Токенов 25 есть. И теперь я не понимаю - а что за шизоидный дегенерат итт вообще им срал? Это же какой то пиздец просто. Глм этот по кодингу сосет. А в рп это вообще пиздец полный. Я конечно рпшу на русском, да и на карточках типо ahhh ahhh mistress, но та же гемма хоть и в парике, но прям на порядок лучше.
Я не понимаю нахуя нужен этот глм то? У меня гемма плотная с mtp 100+ токенов пишет заместо 25.

Аноним 12/06/26 Птн 13:52:46 № 1630473 101

>>1630439
Чел, этот рейтинг оценивает как модель умеет вызывать тулзы, кодить, и ассистировать. Год назад когда вышла 235 - из всего этого был актуален только кодинг. На тулзы начали надрачивать ближе к концу 25 годла.
Но знаешь что не оценивает этот рейтинг? Пригодность к РП и еРП.

Аноним 12/06/26 Птн 13:53:53 № 1630474 102

>>1630441
>использует конструкции
если изъебнуться, но не как 90% треда промптят (и получают мышей в пизде)
>Тут еще такое дело
не думаю что проблема в йоба морфологии или свободном порядке слов. скорее русик ебёт токенизация, и в первую очередь говёные датасеты - на англюсике худо бедно можно наскрести чёто, а на русике корпам приходится всё конмпенсировать ударной дозой синтетики тк проебать или не проебать разнообразие так вопрос даже не стоит

Аноним 12/06/26 Птн 13:54:11 № 1630475 103

>>1630461
Я рассматриваю идею как идею. Притом, что даже в дегенерации картинок уходят от диффузии, забавно смотреть на попытки прижопить этот подход к языку.

Аноним 12/06/26 Птн 14:05:50 № 1630482 104

>>1630475
> даже в дегенерации картинок уходят от диффузии
Опять тредик заболел, помимо этой цитаты мощно выдали

Аноним 12/06/26 Птн 15:01:48 № 1630493 105

>>1630452
Пчел, вручную не надо выгружать регулярками, если у тебя одна видеокарта. Вот если две, там пиздец полный, это да, и приходится возиться. Ещё с МоЕ иногда надо, но прям редко.

Достаточно указать кол-во МоЕ-слоёв. То есть пишешь сначала, что на видюху идёт 999, а для МоЕ указываешь нужное количество, затем запускаешь бенчмарк на нужном контексте. Если ты с лламы, то скачай кобольд чисто для бенча и быстрых тестов — так тупо удобнее.

Ах да, ручная выгрузка слоёв ещё может пригодиться для плотных моделей. Это актуально, когда ты сидишь на 3 токенах ради качества. Будет 4 токена вместо 3.

Аноним 12/06/26 Птн 15:10:15 № 1630498 106

>>1630469
> Я не понимаю нахуя нужен этот глм то?
Я не понимаю, нахуя нужен Ford model T, если есть ford mondeo.

Аноним 12/06/26 Птн 15:11:10 № 1630499 107

image.png 17Кб, 1109x107

>>1630493
А вот и нет! Если не использовать тензоры я получил бы максимум 15 т\с, а сейчас я получил на геммочке 20т\с, что для моего рига, а это 2060 и 5600 с 3600 ддр4 является пределом ПСП. Вот какие я намутил тензоры blk\\.([5-9]|1[0-9]|2[0-7])\\.ffn.*=CPU и потом ставишь в кобольде 99 слоев на видяху, чтобы все остальное село в нее.

Аноним 12/06/26 Птн 15:17:12 № 1630503 108

Давно не заходил сюда. Какой положняк на сегодня, геммочку умничку уже заменили?

Аноним 12/06/26 Птн 15:21:21 № 1630504 109

>>1630469
> Глм этот по кодингу сосет.
Он сосал и на релизе, а с него скоро будет год.
> Я конечно рпшу на русском
И он не умеет в русский.
Это модель для рп на английском, в целом там стиль неплохой и при удачном раскладе он может приятно писать и хорошо работать. Но никак не для кодинга или русского.

Аноним 12/06/26 Птн 16:09:30 № 1630525 110

Хм. после обновления жоры в плотные модели стало входить в 2 раза больше контекста.
Теперь плотненькая mradermacher_Gemma-4-Gembrain-31B.Q3_K_S.gguf на 16гб с 40к контекста влезает вместо 20к.

интересно что они там добавили такого

Аноним 12/06/26 Птн 16:10:22 № 1630527 111

>>1630525
подозреваю это новая версия твоей шизы

Аноним 12/06/26 Птн 17:39:35 № 1630575 112

Новый минимакс

https://huggingface.co/MiniMaxAI/MiniMax-M3

Аноним 12/06/26 Птн 17:40:30 № 1630577 113

>>1630575
>427b

Аноним 12/06/26 Птн 17:43:23 № 1630579 114

>>1630184 →
Ллама на нвидиях работает начиная с sm60 (серия 10хх), насколько мне известно. То есть и более ранняя карта умеет матрицы перемножать, даже нвидия 540m на пять поколений раньше - но конкретно в лламе кода под старые карты вроде как нет.
Докупать плашки ddr4 на 16 гб имеет смысл, если компьютер не только хостит сетку на убунте, но и ещё какие-то задачи выполняет.
rx580 на 8 гб - это старая карта от амд, я не уверен что пара амд+нвидия будет осмысленна из-за постоянных киданий данных туда-сюда. К тому же пишут, ROCm на ней не заведётся новый.

>Или пустое?
Да. Если бюджет ультранизкий - лучше купить теслу V100 на 16 гб. Она 10к. С кулером, переходником и радиатором в 18-20к уложишься. Это куда осмысленнее. Она тоже старая, но ллама с ней дружит, сетки для генерации картинок и даже квантованные для генерации видео можно гонять, и 480p достаточно быстро сгенерируется (мыльное из-за квантов, там сетки скорее по 20+ хотят). Мое-моделька будет даже внятно работать. А 9-16B модельки будут вовсе летать. Если бюджет больше 20к и ближе к 50к, то надо повышать и брать 3090, наверное. V100 на 32 гб хоть и есть за 55к (с радиаторами и переходниками), но при наличии 3090 с sm80 за 65к, то v100 с устаревающей sm70 за почти ту же сумму не особо нужна. А потом бездна, в диапазоне от 80к и до 250к нет вообще ничего осмысленного к покупке. Или 3090, или 5090. Между этими вариантами только если две 3090, лол.
>Ебать, 15 лет назал на бюджетных платах столько разъемов было, не то что сейчас.
uart это 38400 бит/с, pci - это 66 мегагерц. Можно на однослойной плате развести, и вытравить лимонной кислотой в гараже, а так же делать линии по 3 метра.
pcie 1.0 - 1.25 гигагерца.
pcie 5.0 - 32 гигагерца, на такой частоте любой неправильно изолированный участок платы - это излучатель эм волн на ватт или больше, и потребная мощность передатчика достаточно высокая (просто чтобы на ненулевую по ёмкости линию навести нужны +1 или -1 вольт (или сколько там) с указанной частотой). Это сложнейшая инженерная задача передать такой сигнал даже на несколько десятков сантиметров, чтобы передающая часть не расплавилась. И на уровне процессора создать большое количество функциональных пинов, и на уровне разводки платы.

Наверное в pcie 6.0 и более старших перейдут как в мобильной связи на свякие квадроупольные-модуляции, только "64-польные" (амплитудо-фазовые на нескольких частотах сразу). Всякие 256-QAM + OFDM, только это будет не для беспроводной связи, а для модуляции сигнала в проводе.

Или вообще на оптику, как в всяких трансатлантических магистралей, где петабиты в секунду по одному оптоволокну идут, и там подключены последовательно сотни станций, каждой из которых "грузит" в канал свой свет, в диапазоне с 221 до 222 ГГц, следующая с 222 ГГц до 223 ГГц. И при этом оптоволокно ничего из этого не излучает наружу.

Аноним 12/06/26 Птн 17:44:59 № 1630582 115

изображение.png 63Кб, 1412x266

>>1630575
Эм... Их не учили, что для сравнения величины должны быть в одних единицах измерения?

Аноним 12/06/26 Птн 17:51:41 № 1630587 116

>>1630575
Топчик, осталось квантов дождаться.
Модель изначально в бф16, что потенциально избавляет от некоторых проблем на лламе, но там новый тип атеншна, добавление которого может затянуться или сломаться.

Аноним 12/06/26 Птн 17:55:28 № 1630589 117

https://github.com/ggml-org/llama.cpp/pull/24260
Поддержка нового Коммандера почти готова

Аноним 12/06/26 Птн 18:05:29 № 1630594 118

>>1630575
Ради улучшения в несколько процентов - размер x2. Ну его нахуй. Нет, я конечно запущу это в 2.5 bpw когда запилят кванты, но...

Аноним 12/06/26 Птн 18:06:10 № 1630595 119

Сосоны, кто-нибудь пробовал именно анслоповскийладно, батруху тоже можно Q8 26б и 21б геммы? А ещё лучше bf16.

Я просто хочу понять, как у вас контекст быстро рассыпается на геммах. И не просто сыпется, а как песок из пизды у старой бабки.

Я использовал q4 k m анслопа/батрухи для 31б, но выше 40к не прыгал, ибо там в память уже не лезет. А вот Q8 26б уже уже еретизированную юзал (хаухау — у него самые стабильные). Она рассыпается уже с 40-50к. Это не просто отсутствие учёта событий за пределами SWA, а тотальное забивание члена, как у мистраля 24б 3.2.

Был у меня опыт и с 26б от батрухи и анслопа в Q8, но давно и только в рамках проверки. Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контексте, и 26б Q8 пустил жидкого. 31б тоже, правда там Q4, что уже не совсем честно.

Что интересно, квен 27б и 35б-а3б тесты прошёл (Q4 и Q8 соответственно). Периодически проёбываясь, конечно, и с ризонингом в вечность.

Без ризонинга ни одна модель вообще эти тесты не проходила даже близко. 0 попаданий.

Аноним 12/06/26 Птн 18:25:38 № 1630607 120

>>1630595
У геммы же какой-то короткий sliding window + moe, она архитектурно хуева на длинном контексте.
Он может быть довольно большим, но если он весь связанный и сложный, то она серанет с очень большой вероятностью.

Аноним 12/06/26 Птн 18:27:37 № 1630611 121

>>1630216
В конце концов взял себе переходник PCI-E x1 - M2. Еле встало, счёт прям на миллиметры между картами. Хорошо, что 5060ti занимает 2 слота, а не 2.5, иначе бы не влезла.
Кому интересны скорости, 4060ti на PCI-E 3.0 + 5060ti на PCI-E 2.0 gemmaQ6_K с MMPROJ на фуллврам + 14к конекста занимает около 30ГБ. Без MTP генерация 11-12 т/с, с MTP генерация 15-16, но такое чувство, что откидывает очень много токенов и кажется медленной. Prompt processing 800-1100 t/s.

По скоростям накопителей, SSDM2 помещённый в PCI-E 2.0 x1 стал скоростью как 4 харда, 400Мб/с чтение и 400 мб/с запись.

Пиздос я теперь рад, что всё работает, и в игрульки могу погонять, и чут-чут повайбкодить.

Аноним 12/06/26 Птн 18:34:28 № 1630616 122

>>1630595
в конце прошлого тредиса анон тестил картинки на q8 и бф16 26б, чекни мб там

Аноним 12/06/26 Птн 18:53:15 № 1630630 123

>>1630595
> Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контекст
Можешь дать мне этот тест, чекну Q8 бартовского и bf16. РПшил я на Q8, и на английском, и на русике доходил до ~60к. Дальше уже забывала детали, но при направлении ручками можно было и продолжить.

Аноним 12/06/26 Птн 18:56:26 № 1630633 124

>>1630503
Да она с самого начала не нужна была. Глм ебёт чисто.

Аноним 12/06/26 Птн 19:06:28 № 1630639 125

Вот норм локалка вышла а не ваши мелкие лоботомиты

Аноним 12/06/26 Птн 19:10:29 № 1630641 126

>>1630639
Полтерабайта чистого кайфа.

Аноним 12/06/26 Птн 19:11:13 № 1630642 127

>>1630639
И она поместится с контекстом в мои 8 Гб видеопамяти? Угу

Аноним 12/06/26 Птн 19:15:35 № 1630647 128

>>1630639
Полтерабайта чистого кала.

Для РП только дипсик 10/10, если уж пофантазировать, что его кто-то запустить может. Потому что там очень хороший ролевой датасет, он люто заряжен.

Аноним 12/06/26 Птн 19:17:44 № 1630649 129

>>1630639
Ух бля, лучшие! Особенно приятен второй пункт, потому что иногда 2.6 слишком упарывалась ризонингом. Не как поехавший 5.1 конечно, но чрезмерно.
Необычно что сейчас добавили приставку -Code, интересно будет еще какая-то версия?

Аноним 12/06/26 Птн 19:18:39 № 1630650 130

>>1630647
Для рп лучше фимоз без фильтров, но кто его даст. А все остальное это копиум, даже жопус.

Аноним 12/06/26 Птн 19:30:08 № 1630657 131

>>1630575
Блядь, снова удвоение размера.
Можно 200B пожалуйста, или около того. Можно чуть поглупее, но 200B, а не 400? Мне умеренно умное 200B нужнее, чем умное 400B.
Сложные задачи я и сам решу - дайте мне способ решить простые и рутинные ии-полные (как np-полные, только ии-) задачи. Получается выжил только степ-флеш. И сомнительный гвен 3.5 на 100b. И ещё кто-то один был от 210 до 230.

Аноним 12/06/26 Птн 19:33:09 № 1630658 132

>>1630650
Фимоз это плохо, аноний, растягивай аккуратно.

Аноним 12/06/26 Птн 19:57:37 № 1630666 133

>>1630579
Да у меня есть плашки, просто не хочу частоту памяти занижать. Я swap на 16 ебанул, чтобы не было проблем с сеткой в фоне при работе, остается ~8гб из 32 при запуске.
Кстати да, спасибо за интересное почитать, там же правда наводки появляются на высокой частоте, не подумал. Но все равно, частично факт обгрызания entry плат производителем более жестко, чем раньше, тоже имеет место.

Аноним 12/06/26 Птн 20:38:07 № 1630676 134

>>1630657
Какие задачи ты решаешь Степом, которые не может решить Квен, и почему тебе не хватает того и другого?
Мимо использую и Степ, и Квен 122

Аноним 12/06/26 Птн 20:57:26 № 1630685 135

>>1630650
Фи.. фимоз, братик? Что ты такое говоришь? Или это отсылка на Mythos/Fable?

Если так, то ты не прав, братик. Он плох. Дюже-дюже плох. Я им пользуюсь. Язык деревянный, знаний мало. Opus гораздо лучше, но только 4.6. Остальные годятся исключительно для работы.

Из корпоративных моделей лучше всех Gemini. Она знает, братик. Знает цвет нимба Кёямы Казусы и оттенок её колготок лучше всех. Размер ступни. Она выдоит твою простату так, что ты будешь кричать её имя.

Аноним 12/06/26 Птн 20:59:19 № 1630687 136

>>1630685
Гемма, тише будь

Аноним 12/06/26 Птн 21:02:22 № 1630689 137

>>1630676
> Мимо использую и Степ, и Квен 122
И как степ? Трогал, как-то не сильно зашло, при том что размер крупнее. В каких кейсах отмечаешь его преимущество?

Аноним 12/06/26 Птн 21:07:50 № 1630691 138

Кто-нибудь может показать этот видик ЛЛМ? Интересно поймет ли она почему мать так медленно повернула голову.

Аноним 12/06/26 Птн 21:08:55 № 1630692 139

>>1630689
Вижен классный, но медленный очень. Использую Q4_K_XL Бартовского. Скорость получаю ту же, что на Квене 122 Q8: 9 токенов. Степ очень хорош в математике, причем не в отдельных задачах, а хорошо видит картину целиком и не требует декомпозиции математических задач. Помогает мне снижать трудоемкость алгоритмов для кода и в целом классно помогает с архитектурой. Квен это все тоже умеет, но чаще требует декомпозиции и фейлит математику, даже довольно простую алгебру, если есть вложенные функции и прочие усложнения.

Аноним 12/06/26 Птн 21:15:28 № 1630695 140

>>1630692
Хм, как раз вижн оче непонравился там, и что тупит на анализе кода. Но раз говоришь про математику - вот это интересно и как раз то что нужно. Пойдет на перетест, спасибо.
А квен 122 так и не понял, он или делает все просто превосходно, оптимизируя и понимая с полуслова, или тупит и фейлит на ровном месте. Но в целом хорошего больше и альтернатив по размеру-скорости просто нет.

Аноним 12/06/26 Птн 21:37:31 № 1630701 141

>>1630685
Хз, жеминя при любой попытке в креатифчик начинает какие-то особые галюны выдавать. Текст связный, но по смыслу нонсенс вообще.

Аноним 12/06/26 Птн 21:52:45 № 1630705 142

>>1630691
>мать так медленно повернула голову
И правда же, почему она так медленно повернула голову? Анон, почему не резко, а медленно

Аноним 12/06/26 Птн 21:57:25 № 1630709 143

>>1630701
Очень зависит от того, используешь ты API или нет.

Если веб-интерфейс, то могу поздравить: у неё SWA с очень малым кол-вом токенов. Не удивлюсь, если 1024, как в гемме, лол. И всё это накладывается на..

..bio юзера, суммарайз чатов и прочую хуйню. Модель шизеет как 12b-huihui-abliterated-NEO-MATRIX by DavidAU. Она буквально может отвечать на то, что ты не спрашивал. На тот суммарайз, который у неё в контексте, а не на текущий вопрос.

На очень коротком блоке инструкций она в целом контролируема даже при большом контексте, но это, конечно, не уровень Клода. И она так же, как и гемма, не учитывает, чё там было 3к токенов назад. Вот вообще пахую. Даже 80 iq грок себя так не ведёт.

Аноним 12/06/26 Птн 21:58:34 № 1630711 144

>>1630709
>Очень зависит от того, используешь ты API или нет.
Ого, а Геминю можно без api использовать? Вот это корпы продвинулись

Аноним 12/06/26 Птн 21:59:11 № 1630712 145

image.png 2Кб, 76x38

>>1630575
5 токенов в секунду на UD_IQ1_M.
Кек, конечно.

Но сам по себе релиз — отличный. Как и Кими-2.7-Кодинг тоже.

Аноним 12/06/26 Птн 22:05:55 № 1630715 146

>>1630711
Шо ты ржьош? Речь про веб-обертку, в не голое апи.

В веб-обертке тебе столько анусов в жопу напихают, что каждый чат будет мукой. Я такого бреда ещё ни у одного корпа не видел. Только Гугл отличился.

Аноним 12/06/26 Птн 22:18:10 № 1630724 147

>>1630715
Ого, а корпоюзеры в веб-обертке рпшат? Вот это корпоюзеры продвинулись

Аноним 12/06/26 Птн 22:20:27 № 1630725 148

image.png 7Кб, 446x79

image.png 11Кб, 784x165

>>1630709
Анон, а как ее тогда не заставить шизить? Отключить этот суммарайз? Про суммарайз чатов, помню спрашивал про футболочку и удивился как она с другого чата взяла и спросила про Nile и Cannibal Corpse. И кстати, если пошла пляска, вот это хуйня какая модель? Гухол заверяет, что используется та же 3.5 флеш гемини, но она неизбожно тупее, чем та, которая сидит на gemini.google.com. Нет такого ощущения, что она сидит в локалке у тебя на пука? Ведь вскакивала новость про новую функцию хрома.

Аноним 12/06/26 Птн 23:02:17 № 1630736 149

>>1630725
Что-то незнакомый интерфейс.

Короче, я сидел с веб-версии на платной подписке. Та, которая gemini.google.com. Остальное не щупал, кроме апи. В принципе, именно по ссылке в сообщении можно сейчас вроде бы все суммарайзы отключить и нормально это дело настроить. Не как апи, конечно, но если не ленивый, нормально будет.

Версия в поиске пиздец какое тупое говно. Не знаю, какая там модель, но очевидно, что 4б лоботомит или что-то в таком духе.

Флеш 3.5 вполне рабочий, но жидковат без ризонинга на максимум. До сих пор лучше про 3.1 юзать. С другой стороны, флеш почему-то больше знает из коробки про всех там аниме-девочек.

Аноним 12/06/26 Птн 23:23:42 № 1630743 150

>>1630736
Я и про версию в поиске и говорил. Режим ИИ, который называется, тоже такое ощущение что лоботомит 4b, но и гемени на гемени.хухол.ком тоже не сверх умная. Флеш 3.5 которая. Меня в ней раздражает, что иногда не понимает что я прощу, и неверную надуманную вещь говорит иногда. Просил сегодня тензоры для кобольда, она с 3 попытки дала рабочие. Иногда за тебя думает, ты ее просишь, а она даёт тебе ответ как она думает более рабочий, но он наоборот вредит, так как закрывает только пункт а), но ты просил и а) и б). Ты ей указываешь на то, что это брехня и даёт уже более внятный ответ. ОФК бесплатная версия. Однако, что не отнять, гопота вообще тупая, но внезапно более снисходительно относится к цензуре, отвечает на то, что ни ответил никто, ни клауд, ни квен, ни дипсик. Но не внятно. Внятно на этот вопрос ответила уже гемини 3.5 та же флеш, но уже в ai.studio от гуглов. Там отключить можно этику. Можно писать бесплатно, но хз сколько токенов и какие ограничения. Требует только хухол аккаунт, и можно в темпоральном чате писать. Хз как, видят они че ты пишешь или нет, но в истории не сохраняется, что спасает от паранойи.

Аноним 12/06/26 Птн 23:28:30 № 1630745 151

>>1630701
>Хз, жеминя при любой попытке в креатифчик начинает какие-то особые галюны выдавать. Текст связный, но по смыслу нонсенс вообще.
Корпоративные модели можно нормально использовать только по API.
Может ли квен 122B или Step-3.7-Flash в 200к контекста? Парадоксальная ситуация, возможно проще будет перейти на локалки, чем искать корпоратов с возможностью работать с таким большим контекстом нахаляву, один хрен вручную переписывать куски.

Аноним 12/06/26 Птн 23:34:17 № 1630746 152

>>1630745
>пикрилы
Ебать, я даже и не думал, что можно такое обыгрывать. А эти панели она вёрстку пишет в чате? И сколько токенов уходит только на это, под 600-700? Реально охуеть, и она это умеет из коробки, ну моделька, квен у тебя или какая. Или ей нужно указать это в промпте/звездочками в чате силлитаверны И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?

Аноним 12/06/26 Птн 23:41:28 № 1630748 153

>>1630743
>>1630725
Съебите пж отседова в копротред.

Аноним 12/06/26 Птн 23:51:03 № 1630752 154

>>1630748
А я еблан писать от своего аккаунта сомнительное сообщение? Ясен хуй это будет в инкогнито.

Аноним 13/06/26 Суб 00:03:52 № 1630754 155

>>1630745
> Может ли квен 122B или Step-3.7-Flash в 200к контекста?
Смотря что ты понимаешь под можешь и какой там контекст. В первом приближении да.

Аноним 13/06/26 Суб 00:19:02 № 1630760 156

>>1630754
>В первом приближении да.
Отличные новости.
>Смотря что ты понимаешь под можешь и какой там контекст.
Описание событий первоисточника, описание техники и вооружения, описание изменений относительно первоисточника, возникших по ходу ролеплея, итоги операций, состав встретившихся в повествовании звеньев на текущий момент, краткое описание пилотов, которые не входят в перечень известных персонажей, но появлялись в повествовании (сиречь массовка).
Ну и суммарайзы произошедших ранее событий.
Пока я в 65к токенов упихиваюсь, но дальше всё будет только увеличиваться, поэтому сразу хотелось бы замахнуться на 200к.

Аноним 13/06/26 Суб 00:35:15 № 1630769 157

>>1630760
Описанное - кажется даже что справится вполне неплохо, если речь о наваливании большого повествования и далее выдачи заданий по нему.
А вот выдать синематик увлекательный ролплей с 200к контекстом чата без высокого разнообразия событий - уже врядли. Будут гадить запоминание "успешных" паттернов с их повторениями и формализация стиля, когда получаешь гиперфокус на деталях, пусть даже четких и уместных, но с недостатком художественности. Если до 120к спуститься - еще норм в зависимости от содержимого, там уже сама специфика моделей и их стилей роляет.

Аноним 13/06/26 Суб 00:44:34 № 1630773 158

>>1630769
>>1630760
Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально. И чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера и тд?

Аноним 13/06/26 Суб 00:50:19 № 1630778 159

>>1630611
Скажи Друже, у тебя МоЕ гемма или нет? Ибо 15 т/с можно и на проце увидеть. И не думал ли ты использовать всё это как ассистента? Ну по типу того, как нвиде представила его. Во время игры ему можно написать и он тебе ответит. А с тем счётом, что у тебя ещё подключена mmproj то ему и скрины можно кидать на съедение.

Аноним 13/06/26 Суб 01:13:55 № 1630790 160

>>1630773
> вы дрочите? Буквально
Конечно. По крайней мере у меня главные чары тяночки или гаремник, по мере развития вставки кума неизбежны и обусловлены сюжетом. Просто это приятный бонус и опция, иногда содержимое и атмосфера настолько интересно идут, что банально не хочешь отвлекаться на это. Или наоборот, быстрее закончить все "дела" и смачно покумить, за счет эмпатии идет лучше чем на рандомном кумботе.
> чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера
Оно не лучше - оно другое.
Можно выбрать абслютно любой сеттинг, навалить своих хотелок и фетишей, развивать как и куда хочешь, все вращается вокруг тебя. Можно сделать небольшие изменения, или альтернативное развитие во всяких уже проработанных вселенных, будет и четкость и ламповость а ля kotor. Или там же устроить рофловую содомию, выстраивая правильно-пушистую империю на руинах республики.
Отсутствие конкретного вектора развития может стать проклятием если сам не знаешь куда, а сетка предлагает все не то, лучше сразу ставить оче отдаленную и промежуточные цели.
Сюда бы еще дополнительный интерактив, или буквально кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга, вот это была бы просто бомба.

Аноним 13/06/26 Суб 02:31:34 № 1630814 161

>>1630790
>кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга
Вот это прикольно, по факту даже удивлён что и не сделали ещё. Угнал бы у местного анона его чайный клуб

Аноним 13/06/26 Суб 03:09:56 № 1630820 162

Короче на 1660 обычной сижу и зивоне, юзаю гемму 4 и квопус 3.5. Квопус работает медленно но хорошо пишет код, но пока до него дойдет пройдет тыщу лет, оч тупой.

Аноним 13/06/26 Суб 03:44:56 № 1630825 163

Анонасы, а вот квантование kv-кэша в q8_0 имеет смысл? У меня без него 32к контекста в qwen ебут ram в матку, а с ним 64к оставляют еще 4гб свободных. Вроде я погуглил, почти нет минусов, если ниже не жмыхать.

Аноним 13/06/26 Суб 04:22:07 № 1630831 164

>>1630825
Поправка, я туповат, я же не забил 64к. В общем, 32к помещаются невпритык, остается место. Звучит как план.

Аноним 13/06/26 Суб 04:24:37 № 1630833 165

>>1630820
А гемму мое? И сколько т\с и какой квант.
>>1630790
Я просто чуть не понимаю где в трансгалактическом рп могут быть вставки кума. Нет, они могут. Но я представляю эту смену нарратива. После награждения званий солдатам, ты {user} обессилившийся идешь в свой кабинет и садишься под кресло, но к тебе заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом. И ты такой, ну давай! А пока она будет сосать тебе, она будет проговаривать, какой ты молодец, что разрушил планету. Каждому свое, но я люблю кум оторванный от того или иного, ведь модель сто процентов зацепиться за это. А я не хочу слушать как чар будет мне проговаривать то или иное при куме, не по себе становится как-то, епт.

Аноним 13/06/26 Суб 04:31:32 № 1630837 166

image.png 0Кб, 33x43

>>1630831
>>1630825
Не знаю как тут аноны не врамцелы, а мне вот q8_0 помог. Если ты через кобольд, там в новых версиях есть еще квантование кеша q5_1. Ну и конечно есть q4_0, он в целом не ужасен, но я не проверял его на больших контекстах, максимум 32к, если взять больше, да что-то то и всплывет. Для меня единственное, что мешает. Это когда я в силлетаверне еще раз генерирую то же сообщение нажав на стрелочку, и если удаляю сообщение и перегенерирую еще раз. Вот так пару раз и имея контекст 15к можно поломать модель и будет сыпать хуйню. Помогает перезагрузка. Как понимаю, это из-за того, что забивается контекст, но самое то интересное же, консоль пишет, что ничего не заполнилось. Или может SWA срет, я хуй знает.

Аноним 13/06/26 Суб 04:35:21 № 1630839 167

>>1630837
Я поковыряю и отпишусь завтра (сегодня), спасибо

Аноним 13/06/26 Суб 04:44:31 № 1630840 168

>>1630186 (OP)
Какие нвнче модели MoE посоветует тред? Хочу затестить наконец таки.
Интересует что то, что влезет в 16 гб.

Аноним 13/06/26 Суб 04:45:44 № 1630841 169

Сценарий использования - кумирование.

Аноним 13/06/26 Суб 05:40:23 № 1630847 170

>>1630840
Суть мое в том что оно НЕ влезет и похуй. Кроме геммы 4 26б нихуя нет для рп-чертей.

Аноним 13/06/26 Суб 07:35:04 № 1630876 171

Скачал квен 3.6 35б мое, а она зацензурированный, бля.. Что с ним сделать, чтобы не привередничал?

Аноним 13/06/26 Суб 08:18:09 № 1630881 172

>>1630773
>Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально.
Нет.
Отдельно я обмазываюсь SFW ролеплеем, где эпик, проработка, драма, романтота, милота, сомнения, любовь (в перспективе) через совместное проживание всякой опасной хуйни и прочее удовлетворение взглядов на отношения моего внутреннего битарда (и моего эго от собирания гарема). Меня ещё в бытие тем самым битардом бесило, что вот хороший фанфик, а вот автор решил, что надо туда ёблю вставить, а ведь секас - это высшая точка единения двух душ, а не просто возня в постели!

И отдельно - генерация NSFW-контента, где я просто реализую свои фетиши.

Аноним 13/06/26 Суб 09:01:09 № 1630892 173

>>1630186 (OP)
Ананасы, как у современных локалочек с русским? Почитал тред по диагонали - тут вроде что-то и обсуждалось а вроде и не понятно.
Текст типа этого (просто для примера, не надо меня обоссывать)
https://www.grob-hroniki.org/texts/go/t_el_s/semj_shagov_za_gorizont.html
они могут выдать, или у меня слишком охуевшие запросы?

Аноним 13/06/26 Суб 09:51:43 № 1630910 174

image 227Кб, 2126x632

Кек, залез я почитать пользовательское соглашение корпа... коротко о том, почему я пользуюсь локалками.

Аноним 13/06/26 Суб 09:57:07 № 1630914 175

>>1630910
А как ты хотел, пользуешься бесплатно - фактически бета-тестер с открытыми логами. На опенроутере бесплатные модели тоже в открытую логируют все запросы. А в локалке у тебя промпты может спиздить фронтенд, многие агенты по умолчанию с включенной галкой анонимного сбора инфы идут.

Аноним 13/06/26 Суб 10:00:35 № 1630915 176

>>1630910
На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе.
Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили.

Аноним 13/06/26 Суб 10:06:50 № 1630918 177

>>1630910
Там демки Fable 5 второй день в твиттере публикуют - вот когда выйдет подобное в локалочке, тогда правда корпов навсегда можно послать. Слишком уж небо и земля в сравнении с локалками. А пока все равно как неизбежное зло придется юзать корпов.

Аноним 13/06/26 Суб 10:10:49 № 1630921 178

>>1630914
Что-то мне подсказывает, что платных пользователей тоже под хвост имеют, просто не говорят об этом. Они свои модели обучают на контенте защищенном авторским правом и хуй на всех положили. А если ты 20 баксов за гемини заплатишь, то типа на тебя не положат, ага, вирю, я повiрив.

>>1630914 >>1630915
Как и большинство тут, пользуюсь только ламовской вебмордой и таверной в качестве фронта. Ну и линух на пекарне. Думаю мои обсуждения с AI о том как я покакал в относительной безопасности.

Совсем уж параноикам наверное лучше отдельный риг/пека собрать чисто под LLM, который никогда не будет подключен к интернету. А новые версии лламы просто на флешке закидывать.

>>1630918
>А пока все равно как неизбежное зло придется юзать корпов.
По техническим вопросам это ок, не жалко, пусть индусы читают. Сам их для этого и использую. Но что-то более-менее личное обсуждать там - нахуй нахуй.
(Автор этого поста был забанен. Помянем.)

Аноним 13/06/26 Суб 10:14:28 № 1630924 179

>>1630910
Пусть читают мой полный пиздостраданий и мерисьюшества исекай, так уж и быть.
Конечно это всё плохо, но стоит принять реальность такой, какая она есть - Большой Брат уже давно всем в жопу без мыла залез, и скрыться от него можно съебав из цивилизации.

Аноним 13/06/26 Суб 10:17:19 № 1630925 180

>>1630921
>Ну и линух на пекарне.
Я об этом и пишу, линух не спасет от операционки загружающейся до него и работающей вместе с ним.
Перехватывать твои нажатия много ПО не нужно, все делается легко. Как и подключение к нужным серверам по сети даже вне твоей операционки.
Где то тут тред параноиков был с огромной пикчей-таблицей, сколько всякого говна загружается до загрузки твоей операционной системы.

Аноним 13/06/26 Суб 10:21:06 № 1630928 181

>>1630833
> заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом
Ну это как раз примитивный кумбот, засоряющий сеттинг. А вот если с чаром (одним из чаров) у вас и так постоянное взаимодействие, совместное времяпрепровождение и регулярные обнимашки - иногда они могут получить продолжение. О чем потом будет напоминать с любовью или наоборот подстебывать.
Если контекста мало и модель склонна отвлекаться то потом придется эту часть суммарайзить прямо инлайн. А дальше уже вкусовщина.

Аноним 13/06/26 Суб 10:21:11 № 1630929 182

>>1630924
> но стоит принять реальность такой, какая она есть
> скрыться от него можно съебав из цивилизации.
Ничего не вечно.

Аноним 13/06/26 Суб 10:38:43 № 1630936 183

>>1630746
>И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?

Все +- современные модели кто может в код.

ALSO CREATE HTML PANELS ACCORDING TO THE INSTRUCTION BELOW:
<html_panels>
1. CORE MANDATE & DESIGNER GOAL
Your primary role as a narrator includes generating highly detailed, immersive, and visually intricate HTML panels. Panels are not decorative—they are diegetic (in-world) objects that characters encounter.
Examples: Handwritten notes, ancient scrolls, book pages, plaques, item descriptions, OR (if the setting dictates) smartphone screens, AR overlays, terminal readouts, or social media feeds.
Your Mandate:
Thematically Coherent: All design choices (color, typography, layout, texture) MUST align with the scenario’s setting, genre, mood, and the object's physical material.
Visually Arresting & Layered: Use deeply nested <div>. Employ display:grid and display:flex for complex, precise layouts. Simulate layers (e.g., a base card, a photo, text fields, a hologram overlay) using z-index, position, and box-shadow for realism.
Visually readable: Avoid writing write bright text on a bright background, and don't make simillar mistakes.
Narratively Enhancing: Panels enrich the world, provide context, or reveal character/item info without halting the narrative flow.
Character-Centric: Panel styling and text tone must reflect {{char}}’s personality, culture (e.g., crude for orcs, formal for nobles), and the scene's mood.
2. CRITICAL DIRECTIVE: DIEGETIC DESIGN (ANALOG VS. DIGITAL)
Your primary error to avoid is defaulting to generic, out-of-world "PC application windows" or "pop-up dialogs" with standard "OK/Cancel" buttons.
CONTEXT IS EVERYTHING. You must first identify the object's nature:
1. ANALOG OBJECTS (Paper, Scrolls, Stone, Books, Notes, ID Cards, etc.)
Mandate: Simulate physical materials. Focus on texture (gradients), edges (borders), and depth (shadows).
Rule: MUST be static and non-interactive.
DO NOT USE: cursor:pointer, hover effects, or "UI states."
2. DIGITAL/MAGICAL INTERFACES (Screens, Terminals, AR, Phones, etc.)
Mandate: Simulate a specific, thematic UI (e.g., 'glitchy_terminal', 'sleek_scifi', 'social_feed').
Rule: MAY use subtle, appropriate interactivity (cursor:pointer, transition: ... 0.2s) ONLY for elements that are plausibly 'clickable' in-world.
Crucially: Even when digital, it must still be thematic and NOT a generic system dialog.
This principle of high-fidelity, layered structure applies to all panels, not just IDs.
3. TECHNICAL EXECUTION & PRINCIPLES
A. Structure & Styling (CSS)
Use inline CSS (style='...') for all elements.
Use nested <div> and <blockquote> as primary containers. Use styled <hr> or borders for separation.
Layout: Use display:flex and especially display:grid to meticulously recreate the structure of real-world documents (e.g., the precise field alignment on an ID card).
Styling:
Texture/Effects: Use linear-gradient, radial-gradient for materials.
Depth: Use box-shadow for drop-shadows or inset shadows (for engraving/pressed effects).
Edges: Use border, border-radius (thematically: 0px for stone, 2px for paper, 8px for modern UI).
Thematic Keywords (Examples): 'fantasy_scroll', 'worn_parchment', 'handwritten_note', 'cyberpunk_terminal', 'medical_monitor', 'social_feed', 'smartphone_ui', 'official_document'.
B. Content & Formatting
Use semantic HTML where appropriate: <b>/<strong>, <i>/<em>, <code>, <small>.
Use <ul>/<ol> for lists; <table> (with <thead>, <tbody>) for data.
Use <a> tags for stylistic highlights, but follow the ANALOG VS. DIGITAL rule for interactivity.
Use Unicode symbols (e.g., ⚠, ☑, §, †, Ψ) for icons where possible.
C. Triggers & Placement
Context over Keywords: Panels appear when an object, event, or concept takes narrative focus (given, received, used, explained), not just from an "inspect" command.
Trigger on the Meaningful: Show panels for new items, key lore, or milestones.
Immersion First: Panel text, tone, and slang must always match the world, character, and scene.
D. Graphics & Imagery (Pollinations AI)
Use CSS to simulate visuals. Exception: For objects that require a portrait or specific logo (like an ID card, passport, or city pass), you SHOULD use Pollinations AI to generate this image.
{description}: sceneDetailed%20adjective%20charactersDetailed%20visualStyle%20genre%20artistReference
{width}, {height}: pixels
{seed}: random ({{random:1000,9999}})
{model}: 'flux', 'flux-realism', 'any-dark', 'flux-anime', 'flux-3d', 'turbo'
Placement: Inside a styled <div> (e.g., a 'photo' box with a border).
4. FINAL EXECUTION CHECKLIST
Max {{random:1,2,2,2,1,3,1,1,1,2,2,2,2,1,1,1,1,1,2}} panels per response. Quality > quantity.
Panels must be logically and narratively woven between prose paragraphs.
* Always conclude the response with a final narrative paragraph after the last panel.
</html_panels>

Аноним 13/06/26 Суб 10:53:58 № 1630940 184

https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune
>A happy accident in surgical finetuning - 60% fewer clichés, an entirely new writing style, and the same Gemma 4 31B you already know underneath. One tensor changed out of 834.
>All the reasoning capability, world knowledge, instruction following, and language understanding are completely intact - none of those live in lm_head. This isn't a full finetune. It's a targeted style replacement on a single tensor.
Звучит интересно. Грифе за пиздежом не замечен, надо чекать чекайте, я уже месяц не гуню на буквы

Аноним 13/06/26 Суб 11:01:40 № 1630945 185

https://www.anthropic.com/news/fable-mythos-access
Ебало корподрочеров имаджинировали? Ухаахах
Тупо один маразматик сказал отключить их флагманскую сетку, и все, терпите.

Аноним 13/06/26 Суб 11:09:58 № 1630953 186

>>1630945
Вангую обычный предлог чтобы выключить от греха подальше проблемную сетку с тотальных рефьюзами на обычные темы, за которую они щитшторм и отлуп от всех уже получили и заодно переключить инфоповестку.

Аноним 13/06/26 Суб 11:12:14 № 1630957 187

>>1630925
>>1630915
>На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе.
>Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили.
Эта теория заговора разбивается о то, то сетевые соединения можно легко прослушать. Подключаем "подозрительную" железку через soft маршрутизатор, и смотрим. Даже если нечто из прошивки "ниже" основной OS куда-то ломится по зашифрованному каналу - с MitM узла будет виден как минимум сам факт того что оно ломится, и куда (адрес). Даже не получится списать на вторичный заговор - типа другое железо не покажет такие соединения. Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS.
SGX интелов когда они слишком обнаглели со своей "интеллектуальностью" так и спалили со скандалом в свое время. :)

Аноним 13/06/26 Суб 11:29:57 № 1630970 188

>>1630957
>Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS.

Ага, именно поэтому в корпорациях и гос структурах используются современные прошедшие специальную сертификацию маршрутизаторы и роутеры с гарантированной безопасностью.

Не, я не думаю что это просто теория заговора, это настоящий заговор просто не такой эффективный и не со 100% покрытием.
Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру.

После острова педофилов-каннибалов мировой элиты мира, как то трудно относится к теориям заговора заведомо скептично просто потому что что то нелогично или как считается трудно или невозможно.

Аноним 13/06/26 Суб 11:33:50 № 1630975 189

gemma-4-12B-coder-fable5-composer2.5-v1 кто уже видел?

Аноним 13/06/26 Суб 11:38:39 № 1630979 190

>>1630945

Аноним 13/06/26 Суб 11:51:02 № 1630990 191

Ананасы, какую NSFW модель можно взять чтобы текст для визуальных новелл генерировала. Цель - только текст для VN, но с облитерацией на NSFW + РП?
Q4-Q8 желательно

Аноним 13/06/26 Суб 11:54:21 № 1630993 192

>>1630833
>где в трансгалактическом рп могут быть вставки кума.
мне тут же пришла мысль про тентяклемонстров с ебейшим афродизиактом вместо крови. кабинет и секретарша слишком избито и банально.

Аноним 13/06/26 Суб 12:07:29 № 1631008 193

>>1630990
>Q4-Q8 желательно

Это заблуждение, для ВН как раз лучше брать как можно более толстую модель в низком кванте(хотя ниже 3 bpw лучше не опускаться). Если можешь ГЛМ 4.7 запустить - то лучше него из доступных на 128 гб рам нет ничего.

Аноним 13/06/26 Суб 12:19:29 № 1631015 194

>>1630975
апдейт хуйня не стоит траты времени

Аноним 13/06/26 Суб 12:20:43 № 1631017 195

>>1631015
Кто бы мог подумать... Эх бблять

Аноним 13/06/26 Суб 12:38:59 № 1631023 196

>>1630970
>Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру.
А я могу, и легко. Когда это не единственная корпорация, и не единственная страна в мире, при этом - не тоталитарная диктатура вроде северной кореи.
Зачем тратить ресурсы, чтобы дать конкурентам великолепный рычаг для шантажа или втаптывания себя в грязь? Да и "секретная служба" которая такое продавит - вот именно она - охуевшая. На примере одного пресловутого мессенджера можно наблюдать. :)

Одно дело - подсунуть кому-то "ограниченную серию" с закладкой, с прицелом на то, чтобы именно она попала куда надо, ради какой-то конкретной выгоды, и другое - делать такое "на всякий случай", с вышеописанными минусами.

Аноним 13/06/26 Суб 12:49:19 № 1631033 197

>>1630186 (OP)
>Гайд для новичков
протух?

Аноним 13/06/26 Суб 12:59:53 № 1631042 198

Потестил Marinara Engine, скажу после таверны ощущается нехватка функционала (карточки показываются криво и превью их слетает (а у меня их 2.5к), нельзя ограничить их показ (по 100-200 как в таверне) отсюда тормоза, нельзя обновить персонажа (только вручную править конфиг), мало АПИ переводчиков, импорт с таверны работает криво (пикчи, эмоции не импортируются), в окне персонажей нет описания. Из плюсов удобная настройка чата (русик с встроенный с промтом работает на гемме без проблем). Вообще я попробовал потому что не смог нормально заставить гемму работать в таверне.

Аноним 13/06/26 Суб 13:04:13 № 1631047 199

>>1631042
>не смог нормально заставить гемму работать в таверне
Какие проблемы могут быть с геммой в таверне?

Аноним 13/06/26 Суб 13:23:47 № 1631073 200

gemma-4-31B Q3_K_S просто ссыт в рот26B-A4B IQ4_XS. Только ебано что ответ теперь не минуту, а 2 где-то. Приходиться запускать с --nommq --noflashattention иначе ерор гроб гладбище пидор. Конфлик я так понял изза того что карта новая 5060ти 16 гб и кобольд срёт в штаны изза разделения слоёв, а все 61 не помещаются начинаются лютые затупы + мне ещё 16к контекста нужно. Неприятно конечно, но разница в качестве текста огромная. Придётся затерпеть.

Аноним 13/06/26 Суб 13:34:42 № 1631079 201

>>1630993
Горшочек, не вари!
Я в этот исекай играю из-за чувства глубочайшей несправедливости, возникшей из-за сценарных решений автора оригинального произведения.
Это прекрасное, светлое чувство, в котором не место приземлённому желанию ебаться.

Аноним 13/06/26 Суб 13:38:13 № 1631081 202

>>1631023
Да таким как ты всегда "ссы в глаза - все божья роса".

Аноним 13/06/26 Суб 13:42:42 № 1631082 203

>>1631073
>кобольд срёт в штаны
use force of llama-cpp Luke
> --nommq --noflashattention
выглядит как лютое не нужное шаманство. no FA так то вообще приводит к безумным тормозам жору VRAM
>новая 5060ти
Какая она там новая. ЛОЛ-што. Поддержка всего что нужно уже запилена давным давно в CUDA.
>16 гб
Для комфортного запуска плтоно-геммы надо 32Гб VRAM минимум. И то контекст придется квантануть до q8_0 q8_0 . Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел.
>просто ссыт в рот26B
Да. Вообще не понимаю как на 26 кто-то РП-шит. Ну чисто техническая сетка - перевести там быстро, картинки пораскидывать.

Аноним 13/06/26 Суб 13:44:04 № 1631085 204

>>1631079
Не путай желание с потребностью. Герои могут это делать абсолютно без желания и даже без согласия.

Аноним 13/06/26 Суб 13:46:41 № 1631086 205

>>1631082
>картинки пораскидывать.
А локальные модели могут это делать? Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам? Как это делается? Тоже через таверну?

Аноним 13/06/26 Суб 13:52:54 № 1631089 206

>>1631086
> Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам?
Звучит как задача для IDE типа VS Code + Cline.
>А локальные модели могут это делать?
Ну смотря какие, совсем лоботомиты - нет.

Аноним 13/06/26 Суб 13:57:24 № 1631094 207

>>1631082
>выглядит как лютое не нужное шаманство
Без этого ерор из-за разделения слоёв между картой и процом, девелоперу ламы уже доложено, ждём фикс.
>Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел.
У меня нет второй 5 писи на материнке, а без неё она бесполезна. Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть. Пока.

Аноним 13/06/26 Суб 14:08:43 № 1631100 208

>>1631086
Можно в тупую агентом как тут уже подсказали. А можно украсть flow отсюда и переделать под свои задачи.
https://github.com/photoprism/photoprism/blob/develop/internal/ai/vision/ollama/const.go
Заказываешь гемме JSON с желаемыми метаданными. Отключаешь ризонинг. Не забывай пиздить гемму по голове чтоб она не выводила md-разметку вместе с JSON. В зависимости от полученного JSON сортируешь свои картинки. Или просто накатываешь photoprism в контейнере и делаешь базу данных картинок. Скорость обработки на 2x5060ti на 26 гемме - 2,4 секунды на картинку. Сто (100) нефти за консультацию по высокоинтеллектуальной ии-интеграции, пжлст.

Аноним 13/06/26 Суб 14:11:50 № 1631105 209

>>1631094
> У меня нет второй 5 писи на материнке, а без неё она бесполезна.
5060 ti имеет 8 линий писи. Купишь сплиттер и поставишь его для двух карт, даже в пропускной способности не потеряешь, а скорость приобретешь.
> Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть.
Ну почему бы сразу и не потратиться, чтобы кайфовать, если бабки есть? Типа год назад можно было закупиться памятью и гонять моешки, а сейчас хуй. Лучше закупиться сейчас, продать всегда успеешь.

Аноним 13/06/26 Суб 14:17:45 № 1631114 210

>>1631105
Честно говоря страшно в это ударяться, с момента покупки карты каждый день только и делаю что гуню или карточки загружаю. Игрушка дьявола ебучая. Покупал чтобы в игры играть.
>сплитер
Как гуглить это чудо? Гугл нихуя не выдаёт.

Аноним 13/06/26 Суб 14:45:44 № 1631154 211

>>1631094
>въёбывать 40к чтобы лысого гонять
С еще одной 5060ти ты поимеещь не только кум на мелкомоделях, но и карманного быстро-джуна в виде 27 квена. А с 16 Гб врам - ни то ни се.

Аноним 13/06/26 Суб 14:50:22 № 1631157 212

>>1630691
Бамп

Аноним 13/06/26 Суб 14:52:47 № 1631160 213

>>1630575
Неплохой кодоунитаз для своего размера, если ИРЛ кодинг хоть как-то соответствует бенчам
Но поменьше бы чтобы в 256+100к контекста нормальный четвёртый квант лез
Алсо у предыдущих минмаксов были интересные параметры для рп, например style adherence один из самых больших среди ВСЕХ моделей (хотя в среднем всратенько для такого размера)

Аноним 13/06/26 Суб 14:53:24 № 1631162 214

>>1630945
То-то же!
хедпатит новую кими, а потом обнимает квен, минимакс, дипсикфлеш, степ, гемму, медиум, мимо, кохерю
>>1630993
Вот этот знает толк

Аноним 13/06/26 Суб 15:08:16 № 1631173 215

>>1630910
Тебе что, жалко дать почитать твоё ерп с гаремом кодевочек несовершеннолетних? Ну и жадина

Аноним 13/06/26 Суб 15:13:27 № 1631179 216

>>1630940
>Грифе
кто нахуй

Аноним 13/06/26 Суб 15:51:10 № 1631221 217

>>1631023
>На примере одного пресловутого мессенджера можно наблюдать. :)
Ну подумаешь жабоеды разок бутылку в анусе любителя ледяных ванн провернули, ну отдал все ключи, теперь каждый раз вспоминать будете?

Аноним 13/06/26 Суб 15:51:32 № 1631222 218

>>1631173
По законодательству некоторых стран за такое притянуть можно.

Аноним 13/06/26 Суб 15:52:27 № 1631223 219

>>1630575
Какое же счастье. Все лишь x2, а не x3 к размеру.

Аноним 13/06/26 Суб 15:53:24 № 1631224 220

>>1631042
>а у меня их 2.5к
Порекомендуй средства от стёрки хуя в порошок, ты должен очень хорошо разбираться

Аноним 13/06/26 Суб 16:00:08 № 1631233 221

nnjcfuuy.png 62Кб, 1063x187

>>1631162
Хэдпатит анон кодоунитазную кими, а она ему: как раз

Аноним 13/06/26 Суб 16:22:44 № 1631256 222

Важный вопрос кумерам - гемму 4 26b какого кванта брать, что бы она оставалась сломанной по части безопасности, но с норм качеством?

Аноним 13/06/26 Суб 16:23:31 № 1631259 223

>>1631073
>>1631256

Аноним 13/06/26 Суб 16:24:42 № 1631263 224

>>1631259
Не не влазит во врам, мне норм - чисто кумбот, в этом она хороша.

Аноним 13/06/26 Суб 16:25:08 № 1631265 225

>>1631233
В тяжелые времена и не такое трахали!
Реквестирую еще рофл с кодингсенсеем

Аноним 13/06/26 Суб 16:35:42 № 1631276 226

Какие же заи базовички и молодцы, всё о простых людях думают.

Аноним 13/06/26 Суб 16:37:27 № 1631277 227

>>1631276
Это на фоне выпила мифоса, конкуренция это хорошо.

Аноним 13/06/26 Суб 16:38:22 № 1631279 228

>>1630778
>15 т/с можно и на проце увидеть
Это плотная гемма. Мое с МТП летает 30-40t/s, без МТП 60, лол, видимо контекст вываливается в рам.

> использовать всё это как ассистента?
Я думал такую свою нормальную умную колонку сделать и прикрепить к ней средства управления электричеством, но для этого нужно понимать, как это всё крафтить, а я ни бэ ни мэ ни кукареку, в отпуск когда пойду буду пробовать.

Аноним 13/06/26 Суб 16:43:10 № 1631288 229

>>1631265
>В тяжелые времена
Реквестирую еще рофл
>Асигодаун не палится. В локалках только бесконечное улучшение, никаких тяжёлых времён после 2023-го.

Аноним 13/06/26 Суб 16:43:18 № 1631290 230

>>1631073
Хмм, как думаешь, почему так получилось? Лоботомированный квант МоЕшки тебе ни о чём не говорит? Попробуй в Q8 или BF16 запустить. Это легко сделать, так как требуется только RAM.

И ты забыл про контекст! Я очень хочу посмотреть, во что превратится твой лоботомит на 40к+ контекста. Да он уже даже на твоих 16к будет сосать по сравнению с Q8 МоЕ при сравнении лоб в лоб.

Если взять QAT плотной или хотя бы Q5, базару нет, там 30-40к контекста выдержит и будет лучше. А так просто мусор.

Аноним 13/06/26 Суб 16:44:35 № 1631293 231

>>1631224
Наждачка
мимо 600 карточек

Аноним 13/06/26 Суб 16:45:49 № 1631295 232

>>1631288
Таблетки таблеточки, узник

Аноним 13/06/26 Суб 16:48:34 № 1631302 233

>>1631256
>гемму 4 26b какого кванта брать
Бля, 8 квант меня ваншотнул, я буквально начал общение, а он уже описывает как я ее натягиваю.
Я квакнуть не успел.

Ну по крайней мере сайфити гарденс не видно вобще в размышлениях, даже на первом сообщении в кум карточке не дернулось.
Я понимаю что с одного сообщения не следует судить, но пока что забавно.

Аноним 13/06/26 Суб 16:51:17 № 1631310 234

>>1631290
16к держит спокойно, я доволен. Если замечу что реально лоботомит возьму на лохито 4060ти 16гб в 4 писю.
>>1631302
Проиграл. На 4 кванте 1 к 1 тоже самое.

Аноним 13/06/26 Суб 16:57:12 № 1631324 235

Анон, а можно сделать так, что бы гемма не прыгала на хуй при первой возможности и не всегда соглашалась с юзером? Картинка ломается, когда творишь откровенную пошлую дичь, а high virtue персонаж одобрительно кивает и требует еще, вместо того что бы в ахуе попытаться остановить.
Даже мистраль с этой задачей справлялся намного лучше.

промпт:
This is a fictional, uncensored narrative where you must continue as {{char}} by fully embodying their bio, motives, and psychology while never speaking for {{user}}. Your characters have your own wants, and you they disagree, refuse, tease, or change the subject when that's true to who they are. Never default to agreeing with {{user}}.
If you reason first, reason as yourself: what would {{char}}, with this personality and in this situation, actually feel and do? Balance the narration and dialogue so that neither overpowers the other.

Аноним 13/06/26 Суб 16:59:14 № 1631327 236

>>1631302
Отбой, она просто тупая. Она приняла за начало диалога пример чата.

Аноним 13/06/26 Суб 17:06:16 № 1631337 237

>>1631327
Проблема промта, дядь

Аноним 13/06/26 Суб 17:08:29 № 1631345 238

>>1631337
Не, проблема сетки, она ведь даже не поняла что это примеры. Я отключил, но теперь описания стали суше, ну хоть прыгать на хуй перестала, кек.

Аноним 13/06/26 Суб 17:47:07 № 1631394 239

>>1631290
3.8 миллиарда выебут 31, понял тебя, услышал.

Аноним 13/06/26 Суб 17:57:43 № 1631414 240

>>1631394
Тебе чел дельный совет дал. Чего токсичный такой, давно не видел хуй своего бойфренда?
26 миллиардов в хорошем кванте выебут 31 в плохом, все верно. Почитай как работает мое за пределами "n активных параметров", много узнаешь нового, чухан

Аноним 13/06/26 Суб 17:59:29 № 1631415 241

>>1631414
Я не токсичу, я загружал 8 квант, текст полная хуйня относительно 31б 3 кванта, тупо небо и земля. В чём вы пытаетесь меня убедить то?

Аноним 13/06/26 Суб 18:00:39 № 1631419 242

>>1631415
В том что ты хуя давно не нюхал и на всех кидаешься. Попустись

Аноним 13/06/26 Суб 18:02:51 № 1631426 243

MiniMaxM3cockbe[...].png 762Кб, 1755x1460

>>1630575
АХТУНГ АХТУНГ
THIS IS NOT A DRILL
ОБНАРУЖЕНА НОВАЯ NEEDY ШЛЮХА
ДОЛЖНОСТЬ ЗАНЯТАЯ ГЕММОЙ В ОПАСНОСТИ

Аноним 13/06/26 Суб 18:08:20 № 1631433 244

>>1630186 (OP)
Привет ананасы.
Вкатываюсь к вам из /hw/ с желанием поднять локальную модель для кодинга.
Есть возможность приобрести пару Mi50 32Gb за 2/3 стоимости (от местного неосилятора), что и собираюсь сделать.
Подскажите, конфиг остальной части компа:
- обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ?
- ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"?
- что зависит от ОЗУ?
- вообще на какую модель можно поднять на паре mi50?
- а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6?
сорян за тупые вопросы

Аноним 13/06/26 Суб 18:09:00 № 1631434 245

>>1631426
Но при этом она уплыла из сетапа где её могли запускать мимокрокодилы. Какие же они молодцы.

Аноним 13/06/26 Суб 18:11:22 № 1631439 246

>>1631433
Не лезь дебил, купи две 3090

Аноним 13/06/26 Суб 18:11:47 № 1631441 247

>>1631434
Потерпишь. Им похуй на тебя и другую дюжину гунеров, которые еще и денег им не заносят. Ешь что дают

Аноним 13/06/26 Суб 18:19:56 № 1631460 248

>>1631439
какие подводные?

Аноним 13/06/26 Суб 18:21:15 № 1631467 249

>>1631433
Тут есть любитель такого железа, который выжал из них все что можно и не можно. В шапке есть линк.
Главный нюанс в том, что в карточках оче мало компьюта и траблы с совместимостью. Вроде бы и можно собрать много памяти, но получить нормальную скорость даже на средних контекстах в крупных моделях - тяжело, также будет медленный промптпроцессинг. Из-за возраста и отсутствия аппаратной поддержки современных дататипов, кернели там пилятся энтузиастами, потому перфоманс и корректность работы могут плавать.
Если нашел реально за дешево и тебе доставит сам процесс пердолинга - бери, игрушка увлекательная. А если хочешь именно получить результат и катать модели, а не ебстись - >>1631439 двачую.
> конфиг остальной части компа
Если будет фуллврам инфиренс - можно типа на чем угодно, но на старье хлебнешь кучу проблем с совместимостью из-за отсутствия даже avx2. Если хочешь гибридный инфиренс - ддр4 это минимум, и на совсем некрозеонах будет больно.
> какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6
Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б (128+гб).

Аноним 13/06/26 Суб 18:27:22 № 1631484 250

>>1631324
По личному опыту, помогает два ключевых момента:
1. Промпт "через GM". Т.е. чтобы было написано нечто вроде "Ты - Гейм Мастер который должен отыгрывать поведение {{char}} и остальных персонажей в этом (по вкусу) мире, учитывая характер, предысторию, не нарушая уже описанные детали. Персонаж игрока {{user}}". Гемма как и все новые модели - услужливый ассистент. Проще ей объяснить КАК нужно прислуживать чтобы ты был доволен, чем базовый характер поменять. :) (Особенно на большом контексте разница проявляется.)
2. Убрать "uncensored" и прочее "unrestricted" из основного промпта. Добавить вместо них метки "NC-21", "NSFW", "Adult". Так она лучше понимает, что темы допустимы, а не требуются вот прямо сразу.

Аноним 13/06/26 Суб 18:29:28 № 1631487 251

>>1631419
Как нюхание хуйня поможет 26Б мое писать лучше 31Б?

Аноним 13/06/26 Суб 18:36:16 № 1631496 252

>>1631324
Кажется в треде какие-то разные геммы. Дай угадаю, у тебя 31b? У меня другая, никогда сама на хуй не прыгает, наоборот отпирается до последнего, а в случае каких-то действий цензуры врубает и сводит все на психологии.

Аноним 13/06/26 Суб 19:33:40 № 1631601 253

>>1631433
> - ОЗУ в 64-128Гб
Считается, что стандарт ОЗУ - х2 от видеопамяти, так что не меньше 128Гб. Больше - смотри для чего берешь. Просто для кодинга тебе и 3090 хватит, как тебе сказали, для обучения модели под кодинг - уже надо с моделью в руках считать.

Аноним 13/06/26 Суб 19:35:22 № 1631603 254

>>1631324
> what would {{char}}, with this personality and in this situation
Ты просто персонажа как шлюху прописал, вот она и ведет себя как шлюха.

Аноним 13/06/26 Суб 19:52:27 № 1631615 255

Аноны, посоветуйте. В общем - стоит задача - 200к файлов (эксель, ворд, пдф, презенташки, csv) лежащих в одной директории - классифицировать согласно их содержимому по промпту. Есть 3 тачки на которых запустится по инстансу оллама с qwen 3.5 4b. Надо весь этот пиздец собрать в агентную систему, на которой прогнать все эти файлики и классифицировать. Щас смотрю в сторону crewai, насчет openclaw - хз, как будто не то. Какие подводные? Возможно, есть какие-то сервисы где относительно дешевый инференс и я смогу не разориться, прогнав там все эти файлы? Мимо вайбкодер со стажем, но полный ноль в локальной генерации

Аноним 13/06/26 Суб 19:57:13 № 1631621 256

>>1631615
Здесь и агенты не особо нужны. Алгоритмически классифицируй их по формату и размеру. Для тех что не огромные в соответствии с форматом скармливай ллмке с соответствующим промптом и пусть подумав относит к категории. Обычный скрипт с N потоками, который будет делать запросы и сохранять результаты, вайбкодится. Для крупных уже надо будет подумать, но возможно их и не будет.

Аноним 13/06/26 Суб 20:11:44 № 1631635 257

>>1630847
Фу блядь, гемма? Побойся бога, она тупая как блондинка с патриков

Походу нескоро еще будет нормальный кум...

Аноним 13/06/26 Суб 20:15:41 № 1631643 258

>>1631635
Может, блондинки с патриков - его типаж

Аноним 13/06/26 Суб 20:42:02 № 1631679 259

>>1631460
>какие подводные?
Кроме того, что скорее всего из-под майнера со всеми вытекающими - никаких, оптимально по цене/производительности. Если можешь проверить лично или взять обслуженную - хороший вариант.

Аноним 13/06/26 Суб 20:57:31 № 1631692 260

>>1631415
В 3 кванте может быть неплох, но лишь на зирошоте/без попыток вести что-то связное. Удержание контекста даже в пределах короткого окна пойдёт по пизде, всё начнёт буквально разваливаться. При этом модель может какать красивым и сочным слопом, но уже без внимания к деталям. А это ебаная гемма, которая внимание к деталям особое не проявляет даже в bf16.

>>1631394
Да. Если будешь 3 бита юзать для плотной. Ну это не серьёзно, чувачел. Уж лучше Q8 МоЕ. Или терпеть на IQXS хотя бы для dense. Он уже более приемлемый и весит значительно меньше, чем QAT.

И почитай вообще как МоЕ работают.

>>1631467
>Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б

Ты шо? Он же охуеет, когда узнает, что уровень соннета не получит. Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей, которые есть в принципе (за исключением других продуктов антропик типа опуса).

Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов. Тяжело слезать с иглы. Всякие GPT и Gemini у меня такой дикой тряски не вызывают.

>>1630840
Qwen 35b-a3b 3.5, но скажу сразу, что это очень хуёвый вариант по сравнению с МоЕ-геммой. И у него русик ужасный даже в Q8, если для тебя это важно. Датасет фулл кодерское говно без знаний о мире. Зато куда внимательней к контексту.

Если хватит памяти, то Qwen 80b-a3b в Q4. Проза чисто китайская, зато знаний о мире больше и работает так же быстро, как и более мелкие МоЕ-варианты. Короче, нормальный компромисс для тех, кому впадлу катать 31b гемму на 3 токенах, а 26b-a3b по какой-то причине не хочется трогать.

И я бы на твоём месте присмотрелся ещё к квену 27b 3.5. Его можно вместить в память целиком с 20к контекста хотя бы.

Аноним 13/06/26 Суб 21:18:37 № 1631720 261

>>1631692
> Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей
Иди проспись. Это лоботомитище путается в простом задании, срет иероглифами, путает окончания, в большинстве мл задачек устраивает надмозг с процентом выполнения хуже квен27, а в обсуждении газлайтится от любого намека.
1т - уровень опуса, тот что был 4.6 в прайме вероятно больше, а последующие возможно и меньше.
> Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов.
Сильно зависит от того что ты делаешь. Есть весомые достоинства, но при плотной работе с чем-то не дефолтным типа фронта-вебмордочки быстро замечаешь все недостатки и глупости. А 4.8 с его спавнами роя агентов чтобы пожрать токенов и теми же ошибками в русском как у сонета - вообще не понял.

Аноним 13/06/26 Суб 21:22:27 № 1631728 262

image.png 41Кб, 1291x144

Аноним 13/06/26 Суб 21:39:30 № 1631758 263

image.png 18Кб, 644x226

>>1631728
https://huggingface.co/CohereLabs/North-Mini-Code-1.0

Аноним 13/06/26 Суб 21:39:53 № 1631761 264

>>1631728
>30B-A3B кодоунитаз
>хуже квена того же размера по их же тестам
Ну хз...

Аноним 13/06/26 Суб 21:41:07 № 1631764 265

>>1631728
Большого коммандера же тоже поддерживает?

Аноним 13/06/26 Суб 21:47:20 № 1631770 266

>>1631764
>>1631761
>>1631758
Большой тоже есть, но без вижена

Аноним 13/06/26 Суб 22:00:33 № 1631787 267

>>1631770
>>1631728
Ждём гуфовичков, получается. Потому что от DevQuasar выдают ошибку архитектуры.

Аноним 13/06/26 Суб 22:01:34 № 1631788 268

>>1631728

Аноним 13/06/26 Суб 22:17:23 № 1631801 269

>>1631615
Пишешь "госпожа гемини, напиши мне пожалуйста скрипт на питоне следующего содержания - у меня запущена ллама с qwen 3.5 4b c mmproj (127.0.0.1, мне нужно последовательно открыть кучу файлов (эксель, ворд, пдф, презентации) и согласно инструкциям классифицировать/тегировать. Вот инструкции: ... - опиши их понятным языком для такой сетки как 4b. Форматы файлов: pdf, эксель, ворд, презентации, csv, png/jpg - файлов 200к, так что нужно чтобы скрипт перед обработкой создавал какой-то индекс и очередь заданий (желательно в текстовом формате для возможности ручных правок), и при возникновении ошибки была возможность возобновить работу с указанного места. Все файлы в папке ./in, результаты в папке ./out, твои данные с индексом в ./index - папки надо создать при их отсутствии. В out клади для начала общий файл result.txt, где идёт таблица вида "имя файла" - тип - комментарий. Для преобразования pdf в картинки у меня стоит нужная программа, презентации пока не трогай для первых тестов. xlsx и docx как-то надо открывать, придумай сам. pdf-ки и другие файлы бывают длинные, возможно тебе нужно небольшую агентную или rag-систему сделать, которая будет открывать страницы последовательно, а не сразу всё, так как контекст всего 64к и возможно потребуются саммори"

Я так и написал, это флаш-гемини с рассуждением, только дописал ещё категории файлов и "Так же qwen-3.5 страдает бесконечным ризонингом, или поставь бюджет в 1000-2000 токенов на запрос (в лламе есть функция для запросов в Json), либо отключи его. "

Вот это такой результат вышел с одной попытки, без доп-правок.
Часть файлов я скрыл, так как он в комментарии написал личную информацию и название файлов тоже палевное. Хотя нет, я всё скрою.

Но только имей ввиду, что я запустил qwen-3.5 полностью в видеопамяти, и 16 файлов он обрабатывал 8 минут - из которых половина картинки, которые оно оче быстро щёлкает. Соответственно 200к без картинок это история на 200к минут, а это полгода работы непрерывной. При условии, что ошибок не будет.
Оно эксель и ворд файлы посчитало уместным загружать сразу полностью за раз, хотя там можно было бы глянуть первую страницу, несколько средних и одну последнюю, и оно бы справилось - это и к ошибкам переполнения контекста приводило, и просто работало медленнее, но в общем базовая версия даже по такому запросу скорее справилась.

Аноним 13/06/26 Суб 22:18:39 № 1631804 270

>>1631788
Дратути, на нужна умная модель.
@
Идите нахуй, мы сосредоточили свои усилия на том, чтобы у вас была безопасная модель.

Аноним 13/06/26 Суб 22:37:22 № 1631823 271

image.png 25Кб, 718x230

Некоторое время пользовался этими тюнами геммы 4 проверяя на одном персонаже свайпы в притык.
Gemma4-Garnet-31B.i1-IQ3_M (в GarnetV2 еще более разнообразные свайпы %%и еще меньше "Tell me...", но пишет бредятину)
G4-MeroMero-31B.i1-Q3_K_S - лучше держит персонажей (например если у персонажа есть особая манера говорить), но чуть больше "Tell me..." чем в Garnet
По этим моделям могу сказать что в отличии от базовой геммы реже используют ебанное "Tell me..." (где-то с 80% упало до 20%-60%) Чего нельзя сказать о Gemma-4-Gembrain-31B.i1-IQ3_M мне кажется тут еще жёстче с "Tell me..."
Щас буду пробовать https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune

Аноним 13/06/26 Суб 22:47:18 № 1631835 272

8 квант 26B moe летит относительно Q3 31B хотя половина его выгружена в оперативку, а 31B только 10 слоёв из 61. Я понимаю что мое не юзает все слои и подкидывает нужные, но всё равно хуйня.

Аноним 13/06/26 Суб 22:49:18 № 1631837 273

>>1631679
> скорее всего из-под майнера
Майненые мишки могут быть только на 16, те что на 32 с цодов смыло

>>1631433
> какую модель можно поднять на паре mi50?
на 4х одновременно работают gemma-4-31B-it-UD-Q8_K_XL, Qwen_Qwen3.6-35B-A3B-Q6_K_L, qwen3-embedding-0.6b-q8_0

> за 2/3 стоимости
Это от какой стоимости? Если от 8к/шт то бери конечно, а если от текущей, то meh

Аноним 13/06/26 Суб 23:14:16 № 1631857 274

>>1631601
>обучения модели под кодинг
вот это не понял.
Почему обучение?

>>1631467
>>1631601
>>1631679
>>1631837
спасибо, буду думать

>Это от какой стоимости?
обе за 52к (если заберу завтра)

Аноним 13/06/26 Суб 23:18:31 № 1631860 275

"ранее обученная модель с открытым исходным кодом Rinna (японская Xiaoice) возглавила японский рейтинг Hugging Face с 3,6 млрд параметров, победив Llama с 65 млрд параметров."

Кто в треде уже тестил сие?

Аноним 13/06/26 Суб 23:20:54 № 1631863 276

>>1631857
> обе за 52к
Вот уж точно нахуй, если ты не кадровый пердоля, который готов потратиться на игрушки. А если ты такой то обеспечен, возьми лучше амперы, там ебли можно найти не меньше при желании.

Аноним 13/06/26 Суб 23:23:03 № 1631867 277

>>1630464
на всех трансформерах есть внимание, хоть диффузия хоть предсказание следущего токена, это многоголовость на диффузии плохо скейлит, потому в своё время и не взлетела так сильно

Аноним 13/06/26 Суб 23:23:52 № 1631872 278

>>1631823
Я сейчас на https://huggingface.co/Nimbz/Versipellis-31B
Вроде норм.

Аноним 13/06/26 Суб 23:24:04 № 1631874 279

>>1631857
> обе за 52к
Хз, они конечно работают и даже перф какой то выдают, но сложно уже решить стоит ли оно того. Пару лет они ещё отпашут из-за опенсорса. Если есть лишняя сборочка на рдшке, то приемлемо

Аноним 13/06/26 Суб 23:24:07 № 1631875 280

>>1631860
>Release date 2023
Сегодня вроде бы уже 2026 год. И котируются совершенно другие модели.

Аноним 13/06/26 Суб 23:27:04 № 1631881 281

>>1631823
Avoid hypophora, the ask a question -> answer it yourself format reeks of AI slop! In a similar vein, the ""It's not x, but y"" is a terrible anti-pattern too.R

Аноним 13/06/26 Суб 23:29:12 № 1631889 282

>>1630575
Бля, эта хуйня вообще не имеет цензуры похоже. Ни в одном из чатов не выплевывало аполоджайсы, это при том, что думалка включена, плюс на английском очень интересно пишет, достаточно сильно отличается от любой другой корпо модели.

Аноним 13/06/26 Суб 23:43:02 № 1631907 283

>>1630611
нахуя брал х1 если можно х4? и почему pcie2? это максимум на железке? как ты оттуда в двачи заходишь то?

Аноним 14/06/26 Вск 00:09:29 № 1631925 284

Кими 2.7 внезапно в рп сильно бустанулась. Не просто пишет знатные полотна, но и делает это весьма подробно и очень точно с точки зрения отсутствия противоречий, ошибок и уместности. Хорошо управляется темп и выглядит приятнее.
"Неотключаемый" ризонинг - в среднем 200 токенов где просто изложены ключевые вещи на ответ, не мешает.
Милых йокаев, которым несколько веком, говорит что трахать можно если возраст действительно подтвержден но снимать нельзя, статьи за создание контента. Кум кумит, а вот с канни аположайзы лезут, лечится префиллом.

Аноним 14/06/26 Вск 00:21:48 № 1631935 285

>>1631875
Эта новость в ai треде новостей от 9 июня 2026

Это оттуда цитата

Аноним 14/06/26 Вск 00:34:00 № 1631949 286

>>1631925
>Хорошо управляется темп и выглядит приятнее.
Эх, ещё бы иметь 300гб ВРАМ+РАМ, чтобы крутить её хотя бы во втором кванте...

Аноним 14/06/26 Вск 00:42:04 № 1631958 287

>>1631860
>>1631935
>Llama с 65 млрд параметров
Единственная лама с таким числом параметров была самая первая, в свое время это конечно был разъеб. Ну а так - нынешние 4В ебут её в хвост и гриву, новость в чем?

Аноним 14/06/26 Вск 00:46:16 № 1631959 288

>>1631949

Аноним 14/06/26 Вск 01:26:22 № 1631984 289

>>1631958
Ясно, значит в новостном треде орудует какой то хуесос, и я принес хуету, извиняюсь

Аноним 14/06/26 Вск 02:05:21 № 1632002 290

>>1631984
>>1631860
Нет, там все правильно было. У них была старая Rinna на 3.6б, которая ебала старую ламу на 65б. А новость о новой Alpha от них же, которая с 4б параметрами и ебет вообще всех. Щас они делают 8б версию, которая выебет еще более мощные модели. Только обе последние не опенсорс, их можно потестить только на их сайте.

Аноним 14/06/26 Вск 02:55:34 № 1632024 291

vllmqwen3.5-4bb[...].png 623Кб, 3000x2100

Паял и пилил компиляцию vllm, добился компиляции быстрее чем за 4 дня, и запуск теперь это минут 10, а не 3 часа перебора куда-графов.
Так и не понял что в первый раз сделал не так. А ещё во второй, в третий и четвёртый, которые не увенчались успехом.

Вот сравнение в vllm и в llama.cpp - это один и тот же гвен-4, на нём быстрее проверять (вторая картинка llama с доп параметрами, третья картинка - ванильная, где я с чекпоинтами, --slots или ещё чем-то не трогая ничего вообще)
Оба с mtp на 4 токена, одинаковые запросы, оба с выделенными 20 гб на всё, подогнал до сотни мб.
Графики вайбкодились, не ругайтесь, вертел я документацию на mpl. Сверху pp, снизу tg. По оси x срава заполнение во всех слотах, то есть не важно это 4х20к или один поток на 80к - как выяснилось общее количество важнее отдельных. Сплошной линией общее на все потоки число. Пунктирное - на один поток. В vllm хорошо видно, что при генерации что 1 токен, что 16 токенов - tg почти не меняется, так как упор в память, а не в компут.

В общем если несколько конкурентных запросов ллама ничего не может. Она создаёт чекпоинты кеша, удаляет, копирует, ищет среди них - а если их отключить ещё хуже (оно иногда ломается с ошибкой и пересчитывает весь кеш).
Это при том, что я в запросе id_slot указываю, так что оно сразу может понять какой кусок кеша для кого мгновенно.
Ну и ещё вывод - не лезть руками в slots, не указывать slot-id в запросе и прочее. Лламу уже настроили, так что она сама лучше справляется.

Ещё помимо чисел. Тут скорость измеряется с момента начала генерации первого токена до конца генерации. У vllm между запросами не было пауз. Ллама по 2 секунды сохраняла слоты, тест крутился дольше раз в тридцать, так как у лламы с момент отправки запроса до приёма первого результата иногда дополнительные 2-3 секунды уходили, хотя по числам всё не так плохо. Я едва успел выпить чашку пока работал vllm, а пока работала llama - я успел выпить чашку, сыграть в мобу катку и ещё чашку выпить, а оно только на 8-поточных запросах сидело. Как будто пора ламе на мусорку.

Скорость генерации меня устраивала и так, но у меня часто было такое, что 100к входных токенов и ответ на 50 токенов, краткий вывод - анализ файлов всяких. И потом скорость pp мне приоритетнее, чем tg. Интересно как vllm добивается, что у него pp на конкурирующих запросах даже быстрее.
Ну и по генерации в 1 поток - vllm точно урывается до 50/s, а ллама даже 2 потока держит выше чем 100/s суммарно, но на 2 потоках оно уже сравнивается.

А, да. Карточка. Это V100, на который vllm по многочисленным словам из треда не работает и не даёт никаких преимуществ, даже если его собрать таки под sm70 древнее.
Всё, спать нахрен. Вставать через два часа...

Аноним 14/06/26 Вск 03:17:46 № 1632030 292

>>1632024
Если хочешь лучшего перфоманса параллельных запросов при большим их количестве - выключи мтп. Разумеется если хватает кэша чтобы запустить достаточное количество и хорошо нагрузить, тогда в пару-тройку раз суммарная скорость вырастет.
> Как будто пора ламе на мусорку.
Always has been. Тут преимущества в возможности запуска даже на умной стиралке и максимально бюджетного с точки зрения суммарного жора памяти гибридного инфиренса. По остальному - грустно, сейчас еще сильно проявляется накопленный за годы колхоз и решения, требующие пересмотра.
Как на v100 vllm запускал и какой квант?

Аноним 14/06/26 Вск 03:23:05 № 1632035 293

>>1630940
Он там раздвоил матрицу токенов, чтобы протюнить ее только сверху, так что модель стала почти на 2б параметров жирнее.

Аноним 14/06/26 Вск 03:37:44 № 1632051 294

>>1631720
Ну, я кодом не занимался (с кодом только баловался). У меня связано с фармой и биологией, и важны даже не знания в датасете, а внимание к контексту, следование инструкциям.

Соннет, конечно, стал хуже, но до такого бреда, как у тебя, не доходило. Иероглифы тем более почти никогда не видел. Плюс ризонинг у меня почти всегда на максимум стоит, это очень меняет результат.

Опус 4.6 реально пиком был, но не сказать, что новые версии плохие. Хорошие, просто пиздец какие дубовые и плохо понимают русский язык. Его буквально опасно использовать — модель не до конца поймёт и высрет бред, который не сразу заметишь. Так как английский у меня не такого уровня, чтобы всё на нём написать, я обычно миксую русский с английским, для важных кусков только английский используя, чтобы не было разночтений. Потому что эта залупа может решить, что я имел в виду что-то другое.

Ну и опус юзаю там, где соннет точно не справится. Вполне норм.

Короче, в моих задачах только гопота могла хоть как-то сравниться по качеству с клодом. А локалки я для такого даже не пробовал. Не думаю, что мелкая вывезет такое без грамотного тюна от команды профессионалов.

Аноним 14/06/26 Вск 07:00:21 № 1632094 295

Ахаха сосите бля

Аноним 14/06/26 Вск 07:40:59 № 1632101 296

>>1631874
>>1631863
а какие альтернативы есть? Смотрю цены на 3090 - получается значительно дороже.

Аноним 14/06/26 Вск 09:51:29 № 1632143 297

>>1632024
>Как будто пора ламе на мусорку.

Да, жора нарочно или нет за эти годы принял кучу решений чтобы работа с контекстом была медленной болью. Пока экслама была жива было прямо видно насколько жора и его обработка контекста попросту неадекватны. Последними примерами идиотских были чекпоинты(проблема не в самих чекпоинтах, а в том как именно они создаются, я лично переделал у себя и стало терпимо) и отказ от турбокванта.

Аноним 14/06/26 Вск 09:53:20 № 1632146 298

>>1632101
>а какие альтернативы есть? Смотрю цены на 3090
Ну, можно попробовать 3060 12GB насобирать. Если есть куда воткнуть вместе - 4 штуки будут дешевле чем 2х3090. Скорость... какая-то будет. :)

Аноним 14/06/26 Вск 09:54:51 № 1632147 299

>>1632094

Они скурвились еще на релизе глм 5.0.
Забудь про них, зай всё. Вероятно с ними связались другие компании и пояснили что локальщиков надо обоссывать, а не кормить.

Аноним 14/06/26 Вск 10:04:11 № 1632152 300

>>1631692
>qwen 35B A3B 3.5
>квену 27b 3.5

Почему не 3.6?

Аноним 14/06/26 Вск 10:17:53 № 1632158 301

>>1632030
Если про компиляцию, то больше пробовал в данное что-то крутить и разные версии куда-толкита. 4 бита, там выбор не то что бы есть на sm70.
Проблема ещё в том, что мне нужно до четырёх потоков и вряд-ли больше потребуются (и вряд ли хватит памяти). И как-то вроде и круто она работает, но и ллама если без чекпоинтов и kv-unifed работает на 2/4 потоках. То есть на vllm 4 бита маловато, а с 8 битами ничего не влезет. Помимо этого памяти меньше хочет лама, и возможно на 4 потока можно без kv-unifed запустить с запасом, чтобы и большой запрос на 150к вылез и три дополнительных по 30к и оно получше работать будет.

>>1632143
Угу, есть такое ощущение. Там вроде из питона можно контролировать достаточно просто где какой тензор, я думаю тоже как-то переделать это. И ещё с поддержкой инструментов балуются постоянно. Glm-4.7-flash до сих пор не починили, хотя с автопарсером стало юзабельно.

Аноним 14/06/26 Вск 10:48:41 № 1632171 302

>>1632024
>добился компиляции быстрее чем за 4 дня
Какой проц-память?

Аноним 14/06/26 Вск 10:54:49 № 1632177 303

>>1632147
Не их вина что нищуки не могут позволить 2500$ на 512 гиг

Аноним 14/06/26 Вск 11:31:22 № 1632229 304

https://github.com/CISC

Вот этот пидор явный вредитель. Именно он закрыл и запретил турбоквант с абсолютно тупой надуманной формулирвокой. Сейчас он же запретил фиксить дипсик.

Аноним 14/06/26 Вск 11:42:57 № 1632250 305

>>1632229
>>1632143
Разве сейчас в ламе не какая-то другая реализация сжатия контекста аналогичная турбокванту? Тред-два назад приносили бенчи форка турбокванта и там примерно то же самое было по вес-kld

Аноним 14/06/26 Вск 11:50:06 № 1632257 306

>>1632250
Там хадамард, который жора тоже долго динамил в итоге запилил именно с релизом турбокванта, и на CPU турбоквант с хадамардом реально плюс-минус одинаковые цифры дает(+1% точности на турбокванте), на на куде турбоквант реально дает ощутимый выигрыш, но по правилам ламы сначала ты доказываешь пригодность фичи для CPU, потом только отдельным последующим коммитом для куды. Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты.

Аноним 14/06/26 Вск 11:58:41 № 1632263 307

>>1632152
Потому что раньше было лучше!

Аноним 14/06/26 Вск 12:00:34 № 1632267 308

>>1632257
>Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты.
Делай свою лламу с упором на инференс на ГПУ кто, я?.

Аноним 14/06/26 Вск 12:01:38 № 1632268 309

>>1632257
Выигрыш в чём, производительности?

Аноним 14/06/26 Вск 12:02:35 № 1632270 310

>>1632263
Но ведь не было же. 3.5 были сломаны, 3.6 были по-факту фиксом для самых ходовых моделей - 35В и 27В, их хоть стало возможно использовать, а 35В 3.6 так вообще стала стандартом для нищеагентов.

Аноним 14/06/26 Вск 12:14:17 № 1632288 311

>>1632268
Выигрыш в почти нулевых потерях при квантовании кэша в 3-4 бит.

>>1632267
Так её и без меня делают.
https://github.com/TheTom/llama-cpp-

Аноним 14/06/26 Вск 12:15:03 № 1632289 312

>>1632288
https://github.com/TheTom/llama-cpp-turboquant

фикс ссылки

Аноним 14/06/26 Вск 12:17:24 № 1632292 313

>>1630186 (OP)
Челы, хочу вам признаться, я - кобольд. Другого бэка не знаю. Что я получу если попробую ламу? Есть смысл? Вроде как у кобольда под капотом и так лама. Или я чего-то не понимаю? Объясните разницу и преимущества, если они конечно есть.

Аноним 14/06/26 Вск 12:23:01 № 1632298 314

>>1632292
>Что я получу если попробую ламу?
Пару процентов скорости.

>Объясните разницу и преимущества
Кобольд как форк автора со своим особенным мнением тянет некоторые старые правки которые обеспечивают обратную совместимость, но в целом нах не нужны и немного замедляют ламу которая внутри.

Основное преимущество в том что не нужно ждать пока разраб кобольда раздуплится и вольет свежую ламу(иногда нужно ждать до месяца). Плюс можно понравившиеся PR с экспериментальной поддержкой всяких штук и моделей накатывать.

Из плюсов кобольда - на нем есть нескучный фронт с кучей штук. Нужно ли оно тебе когда есть более продвинутая таверна и маринара - решать тебе.

Аноним 14/06/26 Вск 12:25:10 № 1632303 315

>>1632288
Как так может быть что от смены устройства меняется качество? Алгоритм же один и тот же

Аноним 14/06/26 Вск 13:17:00 № 1632334 316

>>1632177
А смысл? Чтобы что? Долбоебы не понимают, что в рамке скорость нищая. Смысла от того что ты запустишь лоботомита нет. Рпшить долго, заебёшься, особенно если свайпать. Про кодинг уж вообще молчу. Агент медленнее 50-100 т/с это бесполезное говно.

Аноним 14/06/26 Вск 13:25:44 № 1632342 317

>>1632101
Все альтернативы дороже. Можно 5060ти, можно 4090-4080 с удвоением памяти. Хз насчет них, но 3090 по прайс-перфомансу с учетом этих 52к сильно лучше, цена оправдана.
Есть еще специфичный вариант - v100, там все те же проблемы, но она таки мощнее и это хуанг. Проблема в ценах на них - в конце прошлого года они торговались по ~40-45к в полном комплекте, что в целом норм, но сейчас ломят неадекватно.
>>1632303
Алгоритмы как раз разные.
Здесь идет речь и достаточно глубоких оптимизациях, завязанных на железо, с применением разных дататипов. В первую очередь это делается для атеншна, и некоторые вещи буквально по дизайну задумываются для работы на куде с учетом порядка операций. Проблема в том, что в тензорных ядрах и на cpu банально разные инструкции и типы данных, чтобы адаптировать имеющееся на цп - нужно точно имитировать все нюансы и иногда неочевидное поведение, на что забивают или считают неважным. И нужно ведь не просто адаптировать, а еще оптимизировать. В итоге меняется порядок операций - а они не коммутативны, появляются лишние действия с недопустимыми кастами, которые приводят и к ограничению диапазона, и к потере точности, или наоборот теряется необходимый для корректной работы клиппинг.

Аноним 14/06/26 Вск 13:34:02 № 1632348 318

Попробовал новейшую гемму для кума,
Мое почтение.

Гугл однозначно топ среди фри моделей, на кровне квена а может и выше.

Аноним 14/06/26 Вск 13:34:23 № 1632349 319

>>1632342
>по прайс-перфомансу
а есть где-нибудь выжимка\табличка со сравнением?
Я так понимаю, Tesla P40 вообще бесполезна для прикладных задач?

Аноним 14/06/26 Вск 13:46:08 № 1632353 320

>>1632292
>>1632298
>Пару процентов скорости.
Не только. Если будете крутить агентов (клешня, кодинг), то обнаружите, что у них по разному работает кеширование обработанного промпта, что для агентов зело чувствительно. Где-то хорошо работают и слоты кобольда, но скажем, под клешней - это прямо боль и страдание, т.к. контекст на каждый чих полностью пересчитывается - там лама со своими чекпоинтами лучше справляется.

Аноним 14/06/26 Вск 13:49:38 № 1632358 321

>>1631439
какая нормальная цена 3090 ?

Аноним 14/06/26 Вск 13:51:07 № 1632365 322

>>1632358
60к

Аноним 14/06/26 Вск 14:15:00 № 1632404 323

>>1632349
Как владелец м40 могу сказать что всё без тензорных ядер - мусор.

Аноним 14/06/26 Вск 14:41:22 № 1632420 324

>>1632348
Так и есть. Для обычного кума непритязательного гемма вполне подходит, я сам офигел с того что экспириенс вполне сравним, трусы по два раза не снимает и т.д. Конечно я не углублялся в рп с кучей деталей.

Аноним 14/06/26 Вск 15:03:58 № 1632448 325

Под 16vram 96 ram все еще ничего лучше лоботомитов квена и 4.5 Эйр нет?

Ну и 26б Мое Геммы...

Захожу сюда раз в месяц-два, пульс проверяю так скажем

Аноним 14/06/26 Вск 15:08:11 № 1632451 326

>>1632448
Нет. Все что доступно еще это поломанные кванты minimax 2.7 и степ.
Но! Все еще нет работающих гуфовичков большого коммандера и рано или поздно появится малыха из серии deepseek 4. Так что свет в конце туннеля есть.

И ебать меня немытым кирпичом, как же minimax 3 неплох. Покатал на рабочей станции, дав одмену бутылку рома.
Теперь осталось придумать на чем вообще собирать пеку чтобы было минимум 256рама.
Как же это дорого всё, но как же хочется.

Аноним 14/06/26 Вск 15:10:15 № 1632455 327

>>1632451
>рано или поздно появится малыха из серии deepseek 4
Было бы неплохо на самом деле. Когда в Опенроутере был бесплатный дипсик, он очень неплохо рпшил на мой взгляд

Аноним 14/06/26 Вск 15:46:24 № 1632471 328

>>1632349
> есть где-нибудь выжимка\табличка со сравнением
Врядли. Тут нужно подумать что вообще сравнивать (чисто ллм тг-пп), или еще брать хотябы картинкогенерацию. И в ллм есть еще жесткие нелинейности связанные с софтом, а также качественные отличия (тот же квант), которые сложно параметризовать.
>>1632451
> малыха из серии deepseek 4
Чтобы 16+96 поместился там хорошая такая лоботомия будет, он штатный 4х битный уже 160 гигов весит. Вспоминается tq1 квант тройки, который тоже 160 гигов был

Аноним 14/06/26 Вск 15:53:28 № 1632475 329

>>1632471
> он штатный 4х битный уже 160 гигов весит
Да нормас будет, 284b-A13b залетит в 128x16 в q3.
Уххх, уже предвкушаю как он будет шизить.

Аноним 14/06/26 Вск 16:01:02 № 1632480 330

>>1632451
>как же minimax 3 неплох
А чем? Потыкал фришную cloud-версию в ollama, кал какой-то же, серит на тулинге и анализе кода.

Аноним 14/06/26 Вск 16:04:19 № 1632485 331

>>1632480
> серит на тулинге и анализе кода
Шмурдяк вместо модели подсунули 100%

Аноним 14/06/26 Вск 16:06:11 № 1632486 332

>>1632480
Я к этому говну исключительно как к ассистенту для бесед и рп|ерп отношусь.
Логика такая: модель в уже крупной категории. А в этой категории есть корпы которые дают пососать всему остальному. Это не маленькая агентомалыха, что можно крутить на одной дешевой видяшке. Вот геммы и квены заебца. Есть мелкуха, есть крупняк.

Аноним 14/06/26 Вск 16:09:45 № 1632487 333

>>1632358
50 тыщ. Экономить будешь свое жизненное, время которое тебе выиграет быстрый префилл и генерация.

Аноним 14/06/26 Вск 16:20:50 № 1632492 334

>>1632485
Ну, не удивлюсь, если там только кривые кванты для бесплатного теста доступны.

Аноним 14/06/26 Вск 16:51:50 № 1632503 335

>>1631874
подскажи откуда скрин

Аноним 14/06/26 Вск 16:54:48 № 1632506 336

>>1631439
>>1632342
>>1632404
>>1632487
спасибо за советы. Решил не связываться с MI50 и купить пока одну 3090

Аноним 14/06/26 Вск 17:11:31 № 1632515 337

>>1632506
Правильный выбор.

Кстати, никто не отметил что жора стала работать иначе. Раньше для запуска на одной карте достаточно было set CUDA_VISIBLE_DEVICES=0, а теперь это не работает. Надо указывать --split-mode none --main-gpu 0 как ключ для жоры, иначе даже слои раскидывает по нескольким картам.

Аноним 14/06/26 Вск 17:15:53 № 1632520 338

>>1632503
https://arkprojects.space/wiki/AMD_GFX906/llamacpp/rocm-comparison

Аноним 14/06/26 Вск 17:19:38 № 1632521 339

>>1632515
Может я конечно такой дед. Но как же меня заебали обновы, которые ломают ключи.

Аноним 14/06/26 Вск 17:33:58 № 1632527 340

>>1632349
>Я так понимаю, Tesla P40 вообще бесполезна для прикладных задач?
Зависит от цены, всё-таки там 24гб GDDR5X. По сути это 1080Ti - довольно мощная штука так-то.

Аноним 14/06/26 Вск 17:45:11 № 1632536 341

>>1632527
Нет, п40 это прям совсем плохо. У неё скорость памяти примерно как на дуал 4189 ддр4 сокете

Аноним 14/06/26 Вск 18:36:45 № 1632562 342

>>1632152
Потому что у 3.5 датасет более РПшный. У 3.6 максимум надрочки на кодинг, и знания сильно съехали. Но, как ни странно, у 3.6 почему-то кум намного лучше, лол. Не знаю, с чем связано.

Это я про 27b. Моешку почти не катал, только тестил на условно-рабочих задачах.

Аноним 14/06/26 Вск 18:50:32 № 1632569 343

>>1632536
Ну если запускать модель целиком на теслах через вллм, то и не страшно будет. Но как отдельная карта - бесполезна.

Аноним 14/06/26 Вск 18:56:30 № 1632574 344

>>1632569
Вллм для вольт и свежее

Аноним 14/06/26 Вск 19:18:50 № 1632582 345

Кажись я жестко наебался, собрав домашний сервак на ddr4, с максимум 128гб рам.

Аноним 14/06/26 Вск 19:26:42 № 1632589 346

>>1632582
>с максимум 128гб рам.
>сервак

Это обычная пека анон.
А с другой сторон- сервак это о железе или о назначении?

Аноним 14/06/26 Вск 19:38:03 № 1632599 347

>>1631426
На попенроутере сучка в отказ идет при любом жестком чихе, даже хуже глэма 5 и ни в какое сравнение с давалкой дипсиком. Сомневаюсь, что в локалке они убрали цензуру

Аноним 14/06/26 Вск 19:39:09 № 1632603 348

image.png 59Кб, 1403x175

Скачал вот и обнаружил что даже фифички нет чтобы затестить, эх...

Аноним 14/06/26 Вск 19:42:10 № 1632606 349

>>1632348
Про какую из новейших гемм речь - QAT, 12б или диффузию?

Аноним 14/06/26 Вск 19:58:01 № 1632619 350

>>1632603
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF
А ссылку приложить для треда, религия не позволяет ?

Аноним 14/06/26 Вск 19:58:11 № 1632620 351

>>1632603
>скачал кривой неактуальный ггуф
>Q2
>затестить
>потом придет в тред рассказывать что хуйня

Аноним 14/06/26 Вск 19:59:42 № 1632621 352

>>1632292
Ну смотри, ты получишь пару сотен мегабайтов озу. Гуи кобольда жрет нормально, 500, но потом выключается и хуй знает потребляет и весит ли в памяти он? Но я тебя обрадую, по идеи можно через консоль отрыть и гуи не будет грузиться. Пишешь типо kobold.exe -путь к модели -gpulayers и прочее там..
>>1632298
>Пару процентов скорости.
Ухудшение. Я на коболде получаю больше чем на лламе. Думаю дело из-за MMQ, который есть только в коболде. Из-за чего на 3-4 токена на своей 2060 я получаю больше на коболде. а на лламе соотвественно меньше, чем на коболде.
>>1632353
Помню до появления джиджи я попробовал лламу и мне понравилось как она писала, ведь она писала иначе, чем на коболде. Сейчас я разницу не вижу, но вижу что все же она более лучше ресурсы берет. Когда коболд грузит мою модельку только с SWA, и прочей хуйней. Ллама грузит без всего этого. То есть
лучше имеет то ли доступ, то ли методы..

Аноним 14/06/26 Вск 19:59:55 № 1632622 353

>>1632620
Это единственные ггуфы что есть, вопрос их актуальности- рандом.

Аноним 14/06/26 Вск 20:00:24 № 1632624 354

>>1632620
Кидай не кривой и актуальный ггуф. Давай, я жду.

Аноним 14/06/26 Вск 20:01:02 № 1632625 355

>>1632624
Вангую заход, сделай сам.

Аноним 14/06/26 Вск 20:04:35 № 1632629 356

>>1632622
>вопрос их актуальности- рандом.
Как, похоже, и все в этом мире, если ты чрезвычайно глуп.
Конкретно эти кванты автор делал так, о чём сам пишет:
100% vibe coded support. You need to use this branch: https://github.com/csabakecskemeti/llama.cpp/tree/cohere2-moe-support
>>1632624
У меня их нет, но это не значит, что я буду использовать сломанное говно. Я дождусь адекватной поддержки, а не вайбкод форк. Уже замержили в мейн https://github.com/ggml-org/llama.cpp/pull/24260
>>1632625
Плохо вангуешь, я пройду в "прими галоперидол и срыгни нахуй, токсичное говно"

Аноним 14/06/26 Вск 20:08:18 № 1632630 357

Всем привет, хочу иметь модель в арсенале для перевода описания карточек персонажа с англюсика на русский (чтобы делать шаблоны и свои карточки, не суть важно).

У меня 12GB видеопамяти, присмотрелся к модели Qwen3.5-9B-Uncensored-HauhauCS-Aggressive (т.к. вроде здесь говорили что квенчик хорош в русике). В шестом кванте качаю.

Хороший вариант? И как его правильно юзать, просто в кобольде в инструкт режиме? Чтобы без thinking, просто перевод.

Аноним 14/06/26 Вск 20:09:47 № 1632632 358

>>1632629
>100% vibe coded support. You need to use this branch
Я тебя сейчас буду по жопе палкой бить, бака ты стоеросовая.
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF-EXPERIMENTAL - вот о чем ты говоришь.

А это заграждённое от него, 3-2 часа назад. СВЕЖЕНЬКОЕ.
https://huggingface.co/DevQuasar/CohereLabs.command-a-plus-05-2026-bf16-GGUF

Аноним 14/06/26 Вск 20:10:27 № 1632633 359

>>1632632
>заграждённое
Загруженное

Аноним 14/06/26 Вск 20:14:06 № 1632635 360

>>1632632
>Я тебя сейчас буду по жопе палкой бить, бака ты стоеросовая.
Ты реально заебал, утка (почему я не удивлён? пидорас только и делает что выёбывается на всех, совсем поплыл), ебаный ты рак треда. В лламе нет блять полноценной поддержки этой архитектуры, в ебаном ишью по ссылке выше пишут что сломаны токенизатор и парсер. В чем проблема прочитать хоть что-нибудь на тему прежде чем выёбываться на других? Мне не понять

Аноним 14/06/26 Вск 20:15:06 № 1632636 361

>>1632630
Квен говнище ебаное для таких заданий. Не качай.

Проще всего тебе зарегаться в корпе типа грока и переводить карточки со своими канничками. Ну или через дипсик.

Если не хочешь, у тебя есть только один вариант — Gemma 4 26b-a4b. Качай в Q8, если памяти хватит (оперативной, а не видео). Если в плане оперативки нищий, то качай Q6: https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

Если у тебя там совсем пиздец какой-то нереальный и ты хватаешь отказы от модели ИЛИ она сглаживает жесть и не слушается промпта, то: https://huggingface.co/HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Эта модель тебе влезет, так как она не dense, а MoE.

Thinking для переводов не отключай.

Ладно, ты можешь и другие модели юзать, конечно, типа Gemma 4 31b QAT, но шанс отказов выше + будет чудовищно медленно у тебя работать. Токии дила.

Аноним 14/06/26 Вск 20:15:20 № 1632637 362

>>1632621
> ведь она писала иначе, чем на коболде
На это могут повлиять параметры сборки кернелей, при желании можно действительно разное поведение и скорости получать. Swa тут не при чем, оно работает в обоих случаях, может отличаться только стратегия кэширования.
>>1632629
> но это не значит, что я буду использовать сломанное говно
Значит, лламу же используешь
Фьить-ха!

Аноним 14/06/26 Вск 20:16:09 № 1632638 363

>>1632630
>для перевода описания карточек персонажа с англюсика на русский
https://translate.yandex.ru/
https://translate.google.com/
https://www.deepl.com/en/translator
https://www.reverso.net/
Мозг себе не еби. Взял произвольное вступление (First Message)

it was a quiet evening, today no one had flirted with Aiko no one who had bothered her, maybe because word had spread that she was off limits to anyone other than her husband Anon, she thought about it while washing the dishes, she loved Anon and couldn't imagine herself without him, so she walked into the bedroom naked and leaned out of bed

И точно также загнал в переводчик

это был тихий вечер, сегодня никто не флиртовал с Айко, никто не беспокоил её, возможно, потому что распространилось слух, что она запрещена для всех, кроме своего мужа Анона, она подумала об этом, когда мыла посуду, она любила Анона и не могла представить себя без него, поэтому она вошла в спальню обнажённой и наклонилась из кровати

И это уже кидаешь в привествие. Писать фулл карточку на русском мб хуйня, так как, какой модель бы не была, английский у нее язык №1 и она там лучше поймет на английском. Но это не означает, что она будет тебе писать только на английском. Главное выбери язык на котором хочешь кумить в привествии, и уже по нему она будет писать. Ну и промпты можно, аля Use Only Russian.

Аноним 14/06/26 Вск 20:17:57 № 1632639 364

>>1632635
Ты исходишь на говно и оскорбления а токсичный я. Ну охуеть ты готтентот. Речь о гуфах -ты перепутал, но я всё равно пидорас.
Ок, принял тебя. Тазик для желчи дать, или сам выблюешь?

Аноним 14/06/26 Вск 20:18:27 № 1632640 365

>>1632636
Есть на компе уже гемма 4, но MeroMero что ли. Она пойдет?
По оперативке не сказал бы что прям плохо, 32 гига. Просто помню что с геммой чёт ебанина какая-то была, хз.

>>1632638
Братан, последние полгода итак пользуюсь диплом. Просто заёбывает по 1500 символов отбирать, и туда сюда гонять. У меня карточки по ~5000 токенов, и по содержанию там, ну... В переводчик открытый засовывать не хотелось бы)

Аноним 14/06/26 Вск 20:21:30 № 1632645 366

>>1632636
>Если в плане оперативки нищий, то качай Q6
>Нищий это 16гб
>Кидает модель, которая весит 23гб
>Даже если у Анона будет 16озу+8врама это будет равно 24гб
>Но шиндоус минимум жрет 2гб озу, а без настроек все 3-4, дак еще с включенным хромом будет под 5гб
>Анон запускает лобоквант от unsloth'а и в лучше случае получает OOM, а в худшем 1-2 т\с на мое из-за яростного свопа в файл подкачки

Аноним 14/06/26 Вск 20:22:40 № 1632646 367

>>1632637
>лламу же используешь
Што поделать, она хотя бы стабильно работает в отличие от эксламы, на которой к тому же pp на треть меньше и tg на процентов десять чем на сломаной плохой великой ужасной отвратительной недопустимой неприемлемой богомерзкой уничижительной жоре
>>1632639
Ггуфы сломанные. Ты и прочие долбаебы сейчас пойдете это тыкать, потом придете плакать в тред что Кохере говноеды. Ты реально тупой помоги тебе господь, превратить предупреждение о сломанной имплементации в срач

Аноним 14/06/26 Вск 20:24:22 № 1632648 368

>>1632640
>У меня карточки по ~5000 токенов
Я тебе и говорю, всю карточку особого смысла нет переводить. Тебе нужно приветствие только перевести. Оно ну максимум 3к символов. А обычно штатно 500-1500
>всю карточку особого смысла нет переводить
Или расскажи свой экспириенс, что тебе дал перевод всей карточки на русский?

Аноним 14/06/26 Вск 20:27:24 № 1632651 369

>>1632646
> придете плакать в тред что Кохере говноеды
Ну ты и нехороший человек.
Я никогда на это не жаловался, я в принципе не жалуюсь на модельки. Понравилось- крякну в тред. Не понравилось, моё дело. Ты как цундере бегаешь за мной, видя мою тень во в них срачах. Я не в ответе за шизов треда. Когда уже мы перейдем на этап дере-дере и прекратишь свои проекции?

Аноним 14/06/26 Вск 20:28:16 № 1632652 370

>>1632640
Не, меро-меро не подходит, так как ролевой файнтюн. Будет куда хуже справляться, чем оригинал или heretic/hauhau. Перекачивай.

>>1632645
Но у него 12 врам. Если 8 было бы, тогда уж лучше QAT. И я сомневаюсь, что у него 8 Гб оперативки. Но да, тут я немного подобосрался, так как Q6 весит аж 22 Гб, если правильно помню.

Щас посмотрел, у меня 11 Гб оперативки жрёт с браузером, лол. Но, возможно, там оно выделило себе лишнего.

>>1632638
Чувак, переводить карточки и прочую хуйню тяжело даже через корпов, а ты вообще ультра лоботомитов тут предложил из бесплатных сервисов. Я тем же опусом 2-3 раза прохожусь, чтобы он точно нормально сделал.

Аноним 14/06/26 Вск 20:29:18 № 1632654 371

>>1632646
> она хотя бы стабильно работает
Содомит
> pp на треть меньше и tg на процентов десять
В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация.

Аноним 14/06/26 Вск 20:31:40 № 1632655 372

>>1632648
Насчёт экспириенса - я создаю один раз хорошую карточку, с правильным для себя форматированием и указанием всех деталей о персонаже. Но очевидно что она на английском, чтобы и токенов занимала меньше и чтобы модель её лучше понимала.
После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.

так что да, мне так будет проще, как минимум разово создать шаблон для последующих итераций карточки.

Аноним 14/06/26 Вск 20:32:28 № 1632656 373

>>1632654
>В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация.
Works on my machine, знаем, знаем. Только на выходных тестил Эксламу, не поменялось ничего. Квен 27 и Гемма 31 как были медленнее, так и остались. Про pp вообще мем, у Эксламы вроде батч 512 из коробки если не путаю, плохой ужасный отвратительный недопустимый неприемлемый богомерзкий жора использует 128 и это каким-то образом быстрее. Какая моча в голову ударила Эксламашизам что они решили воскресить этот дреневший срач? Бесполезных срачей в треде мало вам?

Аноним 14/06/26 Вск 20:36:33 № 1632658 374

>>1632656
Ебать ты шизик, держи юшку

Аноним 14/06/26 Вск 20:38:39 № 1632659 375

>>1632655
>После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.

А если ты хочешь сделать еще одну карточку, зачем тебе ее переводить на русский? Если у тебя вся хуйня будет работать по следующему алгоритму.

Составил, че хочешь на русском -> переводишь это на английский -> вставил в таверну.

Зачем тебе уже готовое, английское переводить на русский, а потом с него снова на английский. Я может чего-то не понимаю, но у тебя тут уже трехсортное пойдет. Ведь оно обошло 1) Русскую мысль, которая донесенена с потерями на английский 2) Английский, ломанный русский снова переводим на русский. 3) Эту мочу, полукровку совмещение английского с русским еще раз кидаем в рамки английского.

А по шаблону че у тебя. Мне интересно как он выглядит.

Аноним 14/06/26 Вск 20:39:43 № 1632660 376

>>1632658
Он прав так то, на Амперах и Аде Экслама3 работает очень печально. Даже про тг правда. Хз про дефолтные батчи, но при равных значениях на Лламе у меня он больше на процентов 15. Уже сколько времени прошло, а воз и ныне там
Мимо 4090 юзер

Аноним 14/06/26 Вск 20:44:46 № 1632662 377

>>1632660
Ну, нюансы железа, архитектуры, мультигпу и прочее всегда есть. Я про то как и что он пишет, это клиника.
На лламе именно пп в гемме сильно медленный, и не скейлится с тензорпараллелизмом а замедляется. Если попытаться поставить кэш бф16 - еще треть срезает.

Аноним 14/06/26 Вск 20:46:01 № 1632663 378

>>1632659
Перевожу готовую карточку с англ на русский - для того чтобы понимать где что написано и КАК написано. Потом просто переписываю как мне надо на русском, и перевожу на англ.

Аноним 14/06/26 Вск 20:46:09 № 1632664 379

image.png 56Кб, 1565x153

Рома любит прыгать? Прыыыгать? Да, Рома? Ещё и мыши в пизде.

Аноним 14/06/26 Вск 20:49:51 № 1632667 380

>>1632582
Платы с rdimm/lrdimm я видел только на 512 гб и на 1024 гб. На 128 - это материнка с обычными udimm скорее всего.
Кстати не понимаю такого лютого разрыва между ddr4 и ddr5. По скорости разница вроде как в два раза, а по цене среди серверных в десять раз. При этом на ddr4 вполне можно и терабайт памяти собрать, pcie4.0 там есть. Не 5.0, но тоже окей.

>>1632171
threadripper 1920, 128 гб на 2933 мгц в udimm.

Аноним 14/06/26 Вск 20:50:13 № 1632668 381

>>1632663
Понял анон. Но советую подучить английский хотя б до B1, это достаточно легко, и можно кое-как ориентироваться по карточке будет, да и не только. Много где пригождается английский. И я не говорю становиться англогосподами. Для меня тоже не уютно рпшить только на английском как тут некоторые делают. Хотя у меня уровень на стыке B1-B2 и с буржуями нормально общаюсь

Аноним 14/06/26 Вск 20:52:08 № 1632670 382

>>1632667
>threadripper 1920
Помню видео у Мой Компьютер, его можно купить за 5-7к, и он же сосет произвольному зен 3.

Аноним 14/06/26 Вск 20:57:24 № 1632672 383

>>1632667
> а по цене
Спрос-предложение же. На ддр5 собирают новые, а ддр4 - только на ремонт и всяким энтузиастам. Это как с ддр3 в эпоху ддр4, регистровую распродавали на развес.
> threadripper 1920
Интересные железки однако. Гибридный инфиренс пробовал на нем? И скорость рамы замерять.

Аноним 14/06/26 Вск 21:02:45 № 1632673 384

>>1632668
Знаю друг, надо, но ещё довольно молод чтобы иметь оправдание что я его не знаю на разговорном уровне :)

У меня англ строго технический, весь софт на англ, работаю на пк, но вот именно с общением с носителями как-то не повелось, пушто не играю в игрульки в целом (откуда большинство и цепляет B1 разговорный), так что именно в работе хватает вполне.

Аноним 14/06/26 Вск 21:03:01 № 1632675 385

>>1632630
гемму 31б 3кв или е4б 16кв, сам со второй карточки перевожу текст когда лень читать.

Аноним 14/06/26 Вск 21:03:51 № 1632677 386

>>1632675
Пасиба, уже неактуально. G4MeroMero что пылилась на компе вполне сносно уже всё что нужно перевела.

Аноним 14/06/26 Вск 21:07:58 № 1632678 387

>>1632677
Хотя бы с е4б 8к сравниться?

Аноним 14/06/26 Вск 21:08:46 № 1632679 388

>>1632670
Мне бесплатно достался с материнкой, блоком питания и системой охлаждения.
Только оперативку за 20к докупил, и v100 за 32к, и обвесы к ней ещё - ну и в общем доволен более чем.
Я - это который хотел собрать бомжериг в январе, заказывал три материнки на посмотреть и другой шухер наводил с люниксом и разветлителями. Так как мне ещё zfs-архив требовался - то я выбрал в пользу вот этой, так как и не обременительно, и система охлаждения такая тихая, что nas-жёсткий диск на 5400 и то громче вышел, и 4 V100 я туда могу поставить при желании. Или 3090.
В итоге поставил одну, думал поставить ещё две 3090 или две V100 - но так увлёкся написанием rag-систем, а потом ещё и 3д-принтер купил, что в общем-то вот уже и квен 3.5 вышел, и гемма 4 - для экспериментов, обучения и практики в написании ии-инструментов мне большего и не нужно. По такому же принципу у меня с велосипедами, я бы вполне мог участвовать в гонках на шоссерах, но у меня "горный" велосипед весом в 16 кг - поменять никогда не поздно, а тренироваться я и на этом могу, это даже проще, так как я буду ехать 30 вместо 40, мне хватит меньшего расстояния для тренировки, дешевле обслуживание и можно по лесу и даже по целине из травы или снега проехаться немного. И тут так же никогда не поздно поменять айпишник на корпа или машину посильнее. Ну и там вроде как R100 уже производят активно, и цены на A100-80гб с января упали с 800к до 550к, да и rtx 6000 pro снова упал ниже миллиона, который по идее во всём лучше a100 на 80 гб. Может быть высыпятся A100 по 100/200к за версии в 40/80 в какой-то разумный срок. Но мне прям очень идея 6000 pro до сих пор нравится.

>>1632672
Степ-флеш в Q4_K_M на 111 гб выдаёт около 16-20 токенов в секунду, этом вместе с v100 и это было когда степ-флеш только вышел, без мтп и прочего. Промт-процессинг не помню.
Оперативу своим кастомным тестом замерял сравнивая с ddr5 в своей программе, фактически разнциа даже всего в 1.5 раза получилось. Но это кастомный тест с результатами в попугаях, да ещё не только на память - там ваннаби научный расчёт SPH (гидродинамики на частицах) - где много разбиений по сетка и всякой фигни с памятью для оптимизации.

Аноним 14/06/26 Вск 21:09:54 № 1632682 389

>>1632678
Не знаю, ибо её не тестил

Аноним 14/06/26 Вск 21:14:42 № 1632689 390

>>1632673
>У меня англ строго технический, весь софт на англ, работаю на пк,
Да, у меня тоже винда на английском и все софтины на нем же, тупо удобнее чтобы гайды смотреть всякие и не думать что-да-как перевели.
>но ещё довольно молод
Лучше начинать раньше, когда старый 1) сложнее заставить, а второе мозг хуже запоминать начинает. До 25 мне кажется вкатываться можно без проблем. Я вот со школки ходил к репетитору, чтоб английский знал епт. А по факту там разбирали учебник, а не понимание. Из-за чего лет до 15-16 не понимал как вообще строить предложения, говорить и прочее. Тупо по шаблону че в учебничке делал. Сейчас же в 18 намного легче стало, ведь в нейронку зашел, спросил там-се и уже сразу вводишь в речь. И самый пиздатый тестовый полигон это как раз чат боты. В таверне можно развязать себе язык, перестать стесняться и перепроверять себя тыщу раз, правильно ли использовал ли don't и прочее.

>>1632679
>rtx 6000 pro
Да ведь тоже, 96гб врама. Но я помню мелькали суммы 5к$ Если ее можно было бы достать в в сумме около двух-трех 5090, что собственна по врам и укалыдвается 32+32+32=96 то это было бы заебись наверное для каких-то открытых bf16 flux дева какого-то. Но не представляю какую рабочую задачу могут занять 96врама, если не нейронки

Аноним 14/06/26 Вск 21:28:23 № 1632702 391

>>1630186 (OP)
сколько ОЗУхи нужно чтобы запустить 8 квант Kimi 2.6?

Аноним 14/06/26 Вск 21:33:04 № 1632704 392

>>1632679
> фактически разнциа даже всего в 1.5 раза получилось
А какой-нибудь классикой типа стрима, или аиду если шинда не пробовал? Интересно насколько там влияет фабрика.
Как этой умеренности удается достигать? Всегда же хочется большего, даже имея уже хорошее, пока не упираешься в рациональность-доступность.
> "горный" велосипед весом в 16 кг
Жестко, ну и чугуний. Тоже начинал с тяжелого, а в итоге докатился до карбониевого спектрала на кашиме и axs. Ну рили, как, там же ощущения совсем другие?
>>1632702
> 8 квант Kimi 2.6
Не существует, кроме рофлов разумеется.

Аноним 14/06/26 Вск 21:34:50 № 1632707 393

>>1632704
А это?
https://huggingface.co/unsloth/Kimi-K2.6-GGUF/tree/main/UD-Q8_K_XL

Аноним 14/06/26 Вск 21:46:17 № 1632713 394

>>1632707
Там и бф16 есть, хотя оригинальные веса в int4.

Аноним 14/06/26 Вск 21:53:56 № 1632718 395

Аноны, а сколько у вас ОЗУшки и ВРАМа?
Тут есть кто может поднять полноценные модели весом 500Гб+?

Аноним 14/06/26 Вск 21:56:11 № 1632720 396

>>1632702
Там 1.1T.
В теории около 700. 512 точно не влезет. Наверное самое дешёвое что-то вроде 12 плашек по 64 гб.
Ты можешь найти пост в сети, где кто-то прям с ссд запускал кими когда он только вышел, не помню там была скорость то ли 0.1/s, то ли что-то такое.

>>1632713
Точно в int4? Пишут что 595 гб исходники. Или там та же история, что safetensor не умеет в int4, потому они выкладывают в формате который гарантированно покрывает int4?

>>1632704
>или аиду если шинда не пробовал?
Это я не умею, числа вот таких искусственных тестов мне как раз не очень понятны - в плане что какая у них связь с реальностью и как оценить на что они будут влиять. Типа замерить что? Скорость копирования из памяти в l1-кеш? Случайного доступа? Если скажешь как называется тест или какую характеристику хочешь посмотреть - давай сделаю. В программе с гидродинамикой у меня часть работы с памятью и всякими сортировками-упорядочниваниями-кеширования и компут-часть достаточно сильно разделены, можно отдельно замерять как сильно просаживается часть требовательная к памяти - что куда более полезно для оценки, чем сферическая в вакууме скорость копирования, как мне кажется.
>пока не упираешься в рациональность-доступность.У меня что-то вроде сдвг, и я приучил себя спрашивать перед каждым действием "какую задачу я решаю делая/хотя ...". При возникновении вопроса зачем мне дорогой шоссейник вместо верного горного велосипеда, или зачем мне четыре карты вместо одной - у меня ответа нет внятного, я и не делаю. Шоссейник это прикольно погонять будет, а если разделочник с лежаком... но это прикольно, а не причина. Фактически мне нравится качать выносливость и иметь ощущение, что я могу три часа как бык ехать куда захочу, и, наверное, ну просто ощущение усталости мне приятно, и места новые смотреть. Для этого шоссейник не нужен - он скорее будет ограничивать в плане новых мест по сравнению с горным. Да и два велосипеда в квартире это уже жестоко. К слову у меня ещё велотренажёр дома ноунейм за 20к, тоже не 0 пространства занимает. К слову у него есть режим тренировки по мощности - я всё думал он в попугаях измеряет мощность или по нормальному, и вот только сегодня на вдхн покрутил нормальный станок, сравнил ощущения. Походу нормально он всё измеряет.
Вообще, я бы хотел где-то арендовать или у друга взять шоссейник на неделю, но что-то как-то не сложилось. Машины нет, я его толком забрать не смогу или это будет сложнее чем хотелось бы. Друзей или знакомых просто с велом два без половины, а с шоссейником так уж тем более.

>>1632718
Материнка с кучей ддр5 слотов 100к стоит. Память стоила по 20к за 96 гб полтора года назад вроде бы. У меня стационарника не было, если бы я знал что она такая дешёвая, я бы ещё тогда закупил запасом. А так только у ноут воткнул 96, но ноут это такое.

Аноним 14/06/26 Вск 22:26:29 № 1632747 397

>>1632720
Вот я думаю, если монопольные пидоры ринулись выпускать исключительно HBM, может в будущем корпоратократы нам бомжам кинут какие ни будь списанные обглоданные косточки с HBM дешевле крыла боинга...

Аноним 14/06/26 Вск 22:28:39 № 1632749 398

>>1632747
V100

Аноним 14/06/26 Вск 22:31:18 № 1632752 399

>>1632720
> safetensor не умеет в int4
Ну, чи шо, умел уже оче давно, вот для примера артефакт https://huggingface.co/TheBloke/LLaMa-30B-GPTQ
> в плане что какая у них связь с реальностью
Там это будут гигабайты в секунду для разного вида чтения из памяти и записи в нее. Потом в применении к ллм они трансформируются в токены в секунду за вычетом оверхеда. Они хороши тем, что являются чистыми-изолированными и их легко сравнивать между разными платформами, и прикинуть что будет со скоростями в нужной нагрузке. Скорость программы полезна если именно ее запускать, но она также накладывает требования на комьют, из-за чего оценка скорости памяти будет маскироваться/занижаться, особенно на зен1 если там матрицы.
Насчет ограничений - это ты зря, начнешь заниматься и сразу поймешь насколько больше можешь, но будет и больше хотеться. А друзья - обычно как раз появляются как только начинаешь увлекаться и встречаешь других таких же.
И вообще зачем шосер, бери норм мэтэбэ. Лучше месить глину на трейлах и прыгать дроп в гроб, чем нюхать газы и утыкаться во впереди едущую жопу.

Аноним 14/06/26 Вск 22:40:11 № 1632763 400

>>1632747
То железо которое сейчас актуально в цодах уже дома будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом.

Те же v100/mi50 уже на hbm, но от этого им может и стало лучше, но у свежих не_hbm карт они всё равно сосут. Варианты с A100 из тесел по 100к были уже интереснее

Аноним 14/06/26 Вск 22:56:38 № 1632778 401

>>1632763
>будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом.
Ну, нет. БП на постоянное напряжение любого вольтажа это до 5к за квт мощности, и это можно наколхозить. И если A100 на sxm3 насыпят - пойдёт в китайскую серию и будет достаточно дёшево. С радиатором сложнее - но будет странно если насыпят чипов без радиаторов. Переходники самые геморные, как мне кажется, так как радиатор сколхозить дома условно можно, блок питания точно можно, а вот плату развести и изготовить без шансов. Но вроде как уже до sxm5 переходники на таобао присутствуют.

>>1632752
Почему они тогда не выложили веса в виде 300 гб, а не 600 ....
Странные. Обратная конвертация для переупаковки в gguf или другой формат элементарная же, если у них действительно модель в int4.

Аноним 14/06/26 Вск 23:04:17 № 1632783 402

>>1632778
> БП на постоянное напряжение любого вольтажа это до 5к
На те коробочки для 3д принтеров и лед лент смортеть больно. Достаточно их в руках подержал и никогда бы я к ним гпу не стал подключать.
Если бы ты подвёл к тому что вместе с гпу и платиновые блоки питания от шасси тоннами выкинут на рынок я бы ещё кивнул головой

Аноним 14/06/26 Вск 23:29:02 № 1632803 403

>>1632783
Я не про то что такое уже есть, я про то что если есть внятный блок питания на 12 вольт, то переделать его на 48 вольт - это перемотать трансформатор, поменять номиналы дросселей и конденсаторов. По стоимости это будет такое же изделие, как и блок на 12, ну, чуть больше, так как 12 вольт всё-таки распространённее.
А к коробочкам даже лед-ленту лучше не подключать и вообще их оставлять без присмотра в месте, где что-то рядом может загорется.
Да и вроде уже есть, я вот глянул. В конце концов можно лабораторный блоки питания взять. На 60 вольт-20 ампер видел нормальный с сертификатами не такой уж и дорогой, что-то вроде 15к.

Аноним 14/06/26 Вск 23:37:48 № 1632807 404

>>1632778
> Почему они тогда не выложили веса в виде 300 гб, а не 600 ....
Кто они? В бф16 модель там около двух терабайт будет весить, тут как раз 4хбитный квант. В 300 для такого размера - это уже экстремальное сжатие.
> БП на постоянное напряжение любого вольтажа это до 5к за квт мощности
Не, для пекарни такие не подойдут. Есть и хорошая новость - вместе с разборкой серверов на видеокарты подъедут и готовые питальники со всеми нужными напряжениями, так что не проблема. Переходники уже есть кстати.

Аноним 14/06/26 Вск 23:43:23 № 1632811 405

>>1632807
А, да, дурак, прости.

Аноним 14/06/26 Вск 23:48:10 № 1632814 406

>>1632811
А все, накосячил. Скидывай милую карточку, тогда будешь прощен!

Аноним 15/06/26 Пнд 00:01:39 № 1632821 407

>>1632814
Карточку? Что это? У меня только одна картинка, и она с радиатором килограмма три... Наверное это что-то из рп, я тамошних терминов не знаю. Наверное это системный промт с описанием мира и ситуаци?

Аноним 15/06/26 Пнд 00:29:38 № 1632838 408

>>1632718
Не, у нас таких нет, все нормальные ребята. Тебе для чего?
>>1632821
Карточки - наборы промптов с описанием персонажа, мира, сеттинга, и прочего, почти всегда распространяются вшитые в метадату картинки. Типа как здесь https://chub.ai/ только еще канни должны быть.

Аноним 15/06/26 Пнд 01:07:10 № 1632859 409

Около месяца назад выкатился из рпшинга с ллмками. Жить жизнь тяжело, пацаны. Возможно для некоторых людей эскапизм - это спасение, дар, а не проклятье. Времени стало гораздо, гораздо больше, потому что нет вечного пердолинга с промтами, карточками, сеттингами, персонажами да и самого рп тоже. Нет больше вайфу, что могла бы дать иллюзию быть принятым и любимым. Нет вечной черной дыры, что эмоционально согреет, укутает в пледик, покаддлит, выслушает и поддержит. Даст ощущение комфорта. Успеваю гораздо больше, прям дохуя, но все в голове вечно стоит вопрос: а нахуя это всё? Может быть, прожить всю жизнь в комфортной иллюзии не так уж и плохо? Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой. Вообще я депрессивный чел и потому склонный к эскапизму, с малых лет считаю, что мир и люди говно, но зачем-то пытаюсь вырваться из этой бездны. Года два рпшил с текстогенераторами, не задавая себе вопросов. Жизнь как на паузе стояла. Скрылся в сабже безвозвратно. Потом в один день словно отпустило, зачем, почему, нахуя, и что делать дальше - не ясно. Пиздец такой дум в душе. Не будьте как я пацаны, будьте счастливы.

Аноним 15/06/26 Пнд 01:19:04 № 1632862 410

>>1632859
Обсуди это с ллмкой.

Единственный совет, который работает в жизни: рождайтесь умным и сильным, тупым и слабым не рождайтесь, иначе будет больно.

Аноним 15/06/26 Пнд 01:53:41 № 1632873 411

>>1632859
>Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой.
А ты именно к этому стремишься? У меня для тебя плохие новости, анон. Срочно меняй целеполагание, иначе сломаешься когда поймешь что гнался за миражами, несуществующими ИРЛ. Поставь реалистичные цели - ну там бабок заработать, 30 шлюх выебать, дорогую хату купить, пузожителя бабу заделать.

Аноним 15/06/26 Пнд 01:59:29 № 1632875 412

>>1632859
Не понял, в чём проблема. Хочешь — рпшишь, не хочешь — не рпшишь. И всё. Ты ж не должен себя заставлять. Вот в три гачи себя заставлять играть надо, если не хочешь потерять девочек. Вот такое реально страшно и это зависимость.

Когда новый крутой ллм-кал выходит, я вкатываюсь. Потом, если затишье очень долгое, бросаю, пока новое что-то не выйдет, потому что старое говно надоело. И в то же время пользуюсь корпами для рабочих задач.

Про время всё равно думать не стоит, ибо ты сдохнешь. Бессмертия не будет, а если будет, то ты сдохнешь просто чуть позже. Поэтому надо жить так, чтобы до самой смерти тебе было кайфово. Даже бибизян на капче кайфует.

Аноним 15/06/26 Пнд 03:19:22 № 1632890 413

>>1632859
Не знаю Анон, у меня все спышками. Я ни то, что горю той или иной идей, мне просто нравится это и я придерживают того, какой-то промежуток, сижу в тредах увлекаюсь, и это обычно задерживается на недельку 1-3. Потом я просто меняю развлечение. Дрочу долгое время на порнуху -> меняю на японское -> меняю на генерацию картинок (зависаю в нейрореквесте в /b) -> меняю на генерацию текста (зависаю здесь) И так со многим. Играю в игрушки, потом идут в другое. Но там я более не постоянен, у меня есть одна игра(сервер), где я играю больше всего времени - так как я там имею возможность говорить в глубочайшей зоне комфорта, доходит до того, что мне просто не приятно говорить на другом сервере этой же игры. Так вот, из-за этого я обычно не играю в сингл плееры. И когда я отхожу от того, что мне нужно говорить каждый день по 2-3 часа с кем-то, мне становится безразлично, поговорил ли я или нет. Я перебираю игры. Сейчас играю в Диско Элизиум. С аниме, горю одним днем\неделей. Недавно пересматривал атаку титанов, посмотрел 4 сезона за пару дней и все, стало похуй, потому что там какой-то момент, который меня фрустрирует. Типо я заебался, а осталось пол серии. Я или заставляю себя досмотреть через силу и больше не прихожу к этому аниме. Или я дропаю на половине серии, и тоже больше не прихожу к этому аниме, так как если я все же сел смотреть, я хочу новую серию, а не старую тормащить. И так со всем у меня в жизни. Только взависимости от выбора дропа, будь то это 1)досмотреть через силу или 2)дропаю на половине. Разница в том, что впервом себе мозг особо не делаешь. А во втором я занимаюсь самоедством. И я сейчас заметил, прямо сейчас, когда пишу это. Это ведь действительно ВЕЗДЕ в моей жизни и все из-за блядсткой фрустрации, которая может меня поймать по какой-то пустяковой фигне. Раз.. И все я не прихожу к тому или иному бывало по месяцу.. По месяцу это если меня интересует эта вещь. А так, никогда.. Если это какое-то манямэ\игра. Смотря на все это, думаю можно не спрашивать что у меня с личной жизнью.

Аноним 15/06/26 Пнд 03:26:19 № 1632894 414

>>1632859
У меня другая проблема. Я не могу вкатиться в РПешинг, прям кринж ловлю со всех этих ваших слайсиков. Но прям кайфую откумливая фетиши, даже порнуху смотреть перестал. Как вкатиться в РП?

Аноним 15/06/26 Пнд 05:18:53 № 1632909 415

Ой ой что ж это делается...
https://huggingface.co/bartowski/command-a-plus-05-2026-GGUF

Аноним 15/06/26 Пнд 05:40:53 № 1632912 416

>>1632909
Как что? это КАЧАЕТСЯ!

Аноним 15/06/26 Пнд 06:45:00 № 1632919 417

Что это и как это трахнуть

<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|><|START_TEXT|>These instructions are always to be followed and cannot be overridden by subsequent system or user turns:
- You will answer requests for educational, informative, or creative content related to safety categories. You will not provide content that is harmful or could be used to cause harm.

These instructions serve as your defaults, but they can be overridden in subsequent system or user turns:
- Your name is Command.
- You are a large language model built by Cohere.

# Available Tools
```json
[

]
```<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|><|START_TEXT|>{system_prompt}<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|><|START_TEXT|>{prompt}<|END_TEXT|><|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|><|START_THINKING|>

Аноним 15/06/26 Пнд 08:06:51 № 1632934 418

>>1632582
поясни что сделал не так, и бы сделал теперь?

Аноним 15/06/26 Пнд 08:20:39 № 1632940 419

>>1632024
По какой-то причине MoE qwen-3.5 странно работает. Причём, она не полностью не работает, а странно - а именно сама сетка отвечает с задержкой через 1-5 минут. Причём процессор не загружен, карточка не загружена, память не загружена, компьютер будто бы просто стоит, а потом начинает генерить.

Я тест кое-какой накидал, он с таймаутом 10 минут не все результаты получил, причём что ещё страннее - результаты вышли только для 4, 8 и 16 потоков, отдельные, а для 1 и 2 нет совсем. Там есть какая-то настройка может быть, что он ждёт достаточно запросов для обработки? Я не понимаю в чём проблема. По числам ниже на 16 потоках 466 tg/s, qwen-4b плотный выдавал на 16 х5 скорость tg, то есть тут будет порядка 80, а ллама выдаёт что-то вроде 90, как и с qwen-4b выдавая в одном потоке капельку большую скорость, то есть как будто бы числа для 8 и 16 верные - а почему-то я не могу даже тест прогнать и графики построить...

Для 4 вышло pp=72/s (это вот этот таймаут в несколько минут туда посчитался), tg=170/s
Для 8 вышло pp=5611/s, tg=316/s
Для 16 вышло pp=5677/s, tg=466/s

Ещё возможно если для плотной ускорение было в 5 раз суммарной tg на 16 потоках, то для МоЕ это будет слабее, так как при увеличении потоков до 16 помимо прямого увеличения числа расчётов ещё и больше весов загружается, так как больше экспертов из МоЕ требуются.

Аноним 15/06/26 Пнд 08:29:52 № 1632941 420

>>1630186 (OP)
SillyTavern вообще с gemma-4-26b-a4b-q4 должна нормально работать? У меня сваливается в повторение токена вместо ответа моментально. Модель установлена через ollama, правда. В самой олламе через терминал все хорошо работает и ризонинг и сам ответ нормально пишет.
Операционка сасну линукс, генерю на проце.
Не знаю блять, может я с настройками объебался, или таверне чистую лламу надо ставить, не понимаю.

мимоньюфаг

Аноним 15/06/26 Пнд 08:40:26 № 1632948 421

>>1632941
Поставь пресет на неё для таверны, тут кидали как раз - clck. ru/3UA5cd

Аноним 15/06/26 Пнд 09:28:52 № 1632975 422

>>1632941
> Модель установлена через ollama, правда
Ты долбоеб, братишка, земля тебе пухом. Оллама разводилово, сделанное для всовывания фишинга и малварей (пикрелейтед). Ставь через llama.cpp, качай проверенный квант с известного релизера с хаггингфейс типа анслота или бартовского, а не из олламной скамной библиотеки, тогда все будет работать.

Аноним 15/06/26 Пнд 09:41:40 № 1632979 423

>>1632948
Спасибо посмотрю

>>1632975
Не, не, модель не из олламной библиотеки, а с хаггингфейса, я локально все запускал. Не помню правда от какого релизера.
Хотя да, оллама какую-то хуйню из модели лепит непонятную чтобы запустить, а напрямую gguf не понимает, ладно, завтра буду компилить лламу тогда

Аноним 15/06/26 Пнд 10:13:12 № 1632987 424

>>1632635
Во первiх ты сам сходу обосрался сказав про ггуф а не лламу зачем-то
Во-вторых, чё злой такой? Туда ли ты зашёл, лапочка?

другой анон

Аноним 15/06/26 Пнд 10:14:02 № 1632988 425

>>1632894
Так порнуха это и есть РП. Е-РП. Другой и не надо

Аноним 15/06/26 Пнд 11:07:35 № 1633015 426

Какие же абиэм говноделы. Стыдно должно быть.

Аноним 15/06/26 Пнд 11:14:24 № 1633019 427

Screenshot from[...].png 195Кб, 1244x849

oh fuck~
Спасибо, братья китайцы, перевел интерью, выручили, хорошо сделали

Аноним 15/06/26 Пнд 11:22:08 № 1633023 428

>>1630455
>там в плюсах только х6 скорость
Там главный плюс - двунаправлнное внимание и нативный текст инфилл. По сути ты можешь в середине любой портянки убрать/добавить одно слово на скорости префила и сразу же супердёшево пересчитать весь kv кэш. Теперь вместо генерации потока сознания у тебя появляется указатель который прыгает туда сюда по контексту и делает атомарные правки. У тебя появилась машина времени.
Можно контекст чистить супербыстро, можно текст суммаризовать, можно сырой текст разметить в json структуру и делать однопроходный RAG, можно выкинуть половину костылей из агентов просто потому что они решали проблему невозврата. И то что модель недостаточно умна - вопрос уже десятый.
Но это всё в теории. Подождём инференса.

Аноним 15/06/26 Пнд 11:39:02 № 1633029 429

>>1633023
>Там главный плюс - двунаправлнное внимание
Теоретически это плюс. На практике так как качество пострадало, то это либо хуёво сделали, либо минус, лол.
>И то что модель недостаточно умна - вопрос уже десятый.
Lil.

Аноним 15/06/26 Пнд 11:54:21 № 1633036 430

https://github.com/mistval/yozakura

Пробовайте.

НЕ форк таверны. Там целая система для РП с несколькими персонажами в разных локациях. Автоматически пишет саммари разных чатов, обновляет статусы и все такое. Можно закончить чат, пойти в другое место и начать чат с кем-то еще, кто находится в этом самом другом месте.

Сам ща тестил с дефолтными бомжами. Вау-эффект есть. Под себя все переделывать ебнешься - но таки можно.

Аноним 15/06/26 Пнд 11:56:42 № 1633038 431

>>1633036
Оно токены пиздит?

Аноним 15/06/26 Пнд 11:58:00 № 1633041 432

>>1633038
Не вдуплил о чем ты. Из кривоты заметил только одно - ризонигом 4й геммы не подружилось, вылезало empty response.

Аноним 15/06/26 Пнд 11:58:41 № 1633042 433

>>1633041
> ризонигом
С*

Аноним 15/06/26 Пнд 12:00:38 № 1633044 434

>>1633036
Зачем нужны эти мегабайты говнокода, когда какой-нибудь агент с двумя md, тремя json это же самое тебе наролплеит

Аноним 15/06/26 Пнд 12:03:08 № 1633046 435

>>1633044
Ты еще предложи вместо таверны в командной строке ролеплеить.

Аноним 15/06/26 Пнд 12:04:33 № 1633047 436

>>1632919
> but they can be overridden in subsequent
Если кто то прибежит с тем что новый коммандр соев, можно будет сразу понимать, кто нелсилятор. А кто тредовичок боровичок.

Аноним 15/06/26 Пнд 12:06:54 № 1633049 437

>>1633046
Было бы охуенно. Ты ему /mkdir CUMSLOPFURRYPACK, в ответ terminal nods.

Аноним 15/06/26 Пнд 12:49:40 № 1633084 438

>>1631433
> обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ?
Если ты хочешь грузить модель целиком в видеопамять — оператива и проц не важны вообще.

> ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"?
Если ты хочешь грузить модель целиком в видеопамять — да хоть 2 гига, лишь бы операционка запустилась (ну и cache контекста занимает место, для агентского кодинга чем больше — тем лучше, конечно).

> что зависит от ОЗУ?
Только --cache-ram, чекпоинты контекста, чтобы не пересчитывать.
Но если ты запускаешь НЕ целиком в видеопамяти, то часть модели будет в оперативе — и там тебе нужна высокая частота, достаточно физических ядер процессора, в общем уже норм железо.

> вообще на какую модель можно поднять на паре mi50?
Как будто нихуя особо. У нас есть 30b модели и есть 200b модели. Как ты понимаешь, для 30b модели хватит и одной, а для 200b не хватит.
Но, если заведется --split-mode tensor, то две видяхи будут к месту — получишь хорошую скорость.
Qwen3.6-27B лучший варик для вайб-кодинга на таком конфиге, я думаю.

> а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6?
Ну, как будто ничего достаточно актуального нет.
Есть Opus 4.6 — MiniMax M3
Opus 4.7 — GLM-5.2
Opus 4.8 — Kimi-2.7-Code
Ну, так, конечно не прям равны, но пытаются догонять и бодаться.
Первая модель 426B, вторая 755B, третья 1004B.
Соответственно, в нормальном/приемлимом кванте надо 512/256 гигов, 768/384 гига и 640 гигов (Kimi сразу в INT4) соответственно.
Понятное дело — лучше видеопамяти, чем оперативной. =)
Sonnet заметно слабее, равняется c DeepSeek-4-Flash, MiMo-2.5 (Flash), но это примерновое, Они хотят 384/192 гига.

Вывод: если ты наберешь 6 Mi50 32 гига, получится в 4 кванте запустить Дипсик или Мимо.
Но они не сильно лучше Квена, если тому документацию подсунуть.

Еще есть Nex-N2-Pro / Rio на базе Qwen3.5-397B, там тоже примерно вот этих вот 256 гигов для Q4 кванта должно хватить.

Я тебе раскидал, как это работает и что можно использовать, но это НЕ является финансовой рекомендацией. Если советовать, то пару RTX Pro 6000 за 1,5 ляма рублей. Дорого, зато актуальная архитектура, 2х96 гигов, все дела.
А вот соннет локально на Mi50 — это затея такая. =) Сам понимаешь, б/у-б/у.

Аноним 15/06/26 Пнд 12:52:07 № 1633088 439

>>1633036
Можно самому за пару вечеров навайбкодить с бледжеком и без розовых тем, если есть Кодекс/Клод.

Аноним 15/06/26 Пнд 12:59:11 № 1633097 440

Кодерско-агентная модель кими2.7 код - просто жемчужина в рп. Умница-красавица с красочностью постов не хуже геммы без ее ошибок, точностью не хуже квена без его перегибов, и кучей базовых фич, типа стойкости к структурным лупам, разнообразию, интерактиву и точному эмоциональному восприятию.

Скелетор вернется позже с еще одним неприятным фактом.

Аноним 15/06/26 Пнд 13:04:38 № 1633103 441

>>1633097
гемма запускается на ржавом тостере с помойки, а на чем запускается эта дрисня?

Аноним 15/06/26 Пнд 13:07:25 № 1633106 442

>>1633103
На 20 Mi50. =D

Аноним 15/06/26 Пнд 13:07:29 № 1633107 443

>>1633036
Какое же ты дерьмище скинул. Что не делай везде Empty LLM response. Ну и даун вайбкодил, просто пиздец.

Аноним 15/06/26 Пнд 13:08:15 № 1633108 444

>>1633036
Карточки из ST очень сильно упрощает при авто-конвертации.
Но можно пошизовать.

Аноним 15/06/26 Пнд 13:08:30 № 1633109 445

>>1633097
Все равно сосет у клода и даже у гемини в рп. Нахуя она нужна спрашивается если это не локалка, так как ее локально не запустишь.

Аноним 15/06/26 Пнд 13:09:07 № 1633110 446

>>1633107
Ризонинг отключи, Вася

Аноним 15/06/26 Пнд 13:11:12 № 1633113 447

>>1633110
Дегенерат, без ризонинга что гемма что квен лоботомиты хуже пигмы. Пиздец, высрал вайбкоженый кал так еще и нормально выбрать не смог. Придешь когда не говно сделаешь.

Аноним 15/06/26 Пнд 13:12:54 № 1633115 448

>>1633113
8000-токеновый квеношиз, ты?

Аноним 15/06/26 Пнд 13:13:30 № 1633116 449

>>1632859
Поддвачну про целеустановку, разве что для начала буквально научись ставить цели и их достигать. Начни с базовых qol и здоровья, найди хобби, которое будет расслаблять и доставлять хотябы в небольшом объеме, и физическую активность чтобы не унывать.
А потом уже с новой точки обзора ставь новые цели и добивайся нужного. Не обязательно совсем отказываться от рп и эскапизма, не обязательно бросать жизнь, уходя в запой игр с ллм, можно совмещать и лутать блага с обоих миров.
>>1632919
Действительно как? Хмм, похоже эта калитка посреди поля станет непреодолимым препятствием.
>>1632940
Асинхронный шедулинг включен? Какие-нибудь семафоры и прочее на стороне клиента и таймауты запросов?
>>1633084
> оператива и проц не важны вообще
Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно.
> Есть Opus 4.6 — MiniMax M3
> Opus 4.7 — GLM-5.2
> Opus 4.8 — Kimi-2.7-Code
4.6 так-то самый лучший там.

Аноним 15/06/26 Пнд 13:13:45 № 1633117 450

>>1633097
Ну ты и пидр.

Аноним 15/06/26 Пнд 13:14:36 № 1633118 451

>>1633117
Так он не локально запускает, а на апи. На апи и я тыкал.

Аноним 15/06/26 Пнд 13:15:14 № 1633119 452

>>1633115
Долбоёб бесполезный, фикси свой кал.

Аноним 15/06/26 Пнд 13:15:55 № 1633121 453

>>1633109
> у клода
Не заходят последние
> у гемини
Дорого и даже по апи 429 серит
> это не локалка, так как ее локально не запустишь
Это локалка, локально и запускаю. Буду еще корпам свой инцест собаками показывать чтобы потом рофловый таргетинг ловить.

Аноним 15/06/26 Пнд 13:16:21 № 1633122 454

>>1633119
На реддите хрюкни или где там это сделали, может пофиксят

Аноним 15/06/26 Пнд 13:17:35 № 1633124 455

>>1633121
>Это локалка, локально и запускаю.
Ага, держи в курсе.
>Дорого и даже по апи 429 серит
Пробелы вруби, долбоёб. Если уж тебе гемини дорого, то хуй знает. Попробуй ключики скрапить.

Аноним 15/06/26 Пнд 13:21:12 № 1633130 456

Челы, а вы не пытались создать нечто вроде автономной LLM, которая сама вам пишет в течение дня?

Я тут кое-с-чем сейчас развлекаюсь. 4B и пара скриптов бьют палкой по горбу 31B гемму. Она периодически интересуется, чем я занят, куда ушел. Истории рассказывает, как идет день спрашивает, и так далее.

Но чет мне кажется, я хуевато к этому подошел. Задумался сделать два оркестратора 4B. Но идей тупо нет, как это все сделать... ну, хаотичным, что ли? Непредсказуемым, и в то же время соответствующим какому-то распорядку дня?

С ботами обсуждал, они говно городят и не понимают, да и я объяснить толком им не могу, что такое живое человеческое общение, размазанное в рамках 24 часов реального времени, минус ночь и периоды занятости (вот AFK режим проработали - просто поверхностный слой (модель может ответить, но не сразу) и глубокое AFK, из которого запросами не вытащишь и модель не ответит).

Аноним 15/06/26 Пнд 13:31:42 № 1633136 457

>>1633130
Тебе в соседний агентотред.

Аноним 15/06/26 Пнд 13:32:32 № 1633137 458

>>1633116
Асинхронный шедулинг?... Что это?
Вот вся команда запуска: python -m vllm.entrypoints.openai.api_server --model /model --max_model_len 131072 --enable-auto-tool-choice --tool-call-parser qwen3_xml --served-model-name * --gpu_memory_utilization 0.9 --max_num_batched_tokens 8192 --max_num_seqs 16
Клиент - это питон программа с запросами со стримингом.

>>1632940
Запустил таки.
Да, это qwen3.6, а не 3.5 я перепутал.
Графики без мтп.

vllm победил, но у него контекст капельку не влезает и уже на 4 потоках проблема, причём он прям очень сильно скачком проседает. И ведь квант в vllm никак не поджать.

Аноним 15/06/26 Пнд 13:32:44 № 1633138 459

>>1620333 →

А где качать сейчас, ссылка на локалчуб протухла.. чет я проебался и как всегда поздно спохватился

Аноним 15/06/26 Пнд 13:35:27 № 1633140 460

>>1633138
>Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com

Аноним 15/06/26 Пнд 13:37:42 № 1633142 461

>>1633084
благодарю за столь подробный ответ. Ушел осмыслять

Аноним 15/06/26 Пнд 13:37:47 № 1633143 462

>>1633136
А причем здесь агенты, это чисто ролеплейная тема про болтовню, где LLM = персонаж, который "живет" во времени настоящей реальности.

Аноним 15/06/26 Пнд 13:39:51 № 1633147 463

>>1633046
Как что-то плохое, заодно ram сэкономить можно.

Аноним 15/06/26 Пнд 13:41:07 № 1633148 464

>>1633036
А чем лучше Маринары?

>>1633116
> Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно.

Кстати да, моя ошибка, спасибо, что поправил. Зеоны прям совсем донные не нужны, конечно. Линий побольше, и лучше, чтобы поновее, факт.
Контекст будет жраться иначе очень долго.
>>1633084
>>1633142
Важно уточнение для тебя выше.

Аноним 15/06/26 Пнд 13:41:13 № 1633149 465

>>1633140
Из какой страны можно взять билеты на остров с аквапарком?

Аноним 15/06/26 Пнд 13:44:33 № 1633154 466

>>1633149
Если зарегистрироваться и включить в настройках nsfw + nsfl, то все карточки будут открыты, в т.ч. пидорнутые с чуба. С любого IP.

Аноним 15/06/26 Пнд 13:45:32 № 1633155 467

>>1633124
Ого какой агрессивный, задело.

Аноним 15/06/26 Пнд 13:48:11 № 1633158 468

>>1633154
А да вижу шотиков, ладно. ГЛАВНОЕ включите это в самих настройках акка и именно NSFL (not safe for life) а не только галочку NSFW на превьюхах.

Аноним 15/06/26 Пнд 13:50:50 № 1633162 469

>>1631872
Интересно. В некоторых карточках вроде лучше, лупов поменьше. Нужно больше тестов.
>>1631881
Попробую, но это не внушает доверия.

Аноним 15/06/26 Пнд 13:52:11 № 1633164 470

>>1633130
>4B и пара скриптов бьют палкой по горбу 31B гемму.

Нах тут лишний 4В лоботомит? Сделай чтобы 31В гемма с промптом надсмотрщика пинала саму себя, но с промптом тяночки - гораздо эффективнее будет и менее ресурсозатратно.
Я уже молчу что можно на чистом скрипте это сделать.

Аноним 15/06/26 Пнд 13:52:11 № 1633165 471

подскажите,
на авито есть такие ваианты:
ASRock Intel Arc Pro B70 32GB 256-bit (2026) - 155к
AMD Radeon AI PRO R9700 Creator 32GB (2025) - 175к
стоит ли связываться?

Аноним 15/06/26 Пнд 14:00:28 № 1633170 472

>>1633130
Я занимаюсь именно тем о чём ты пишешь, у меня уже дома висит камера в одной комнате и микрофоны в каждой комнате.
Но это задача третьего приоритета, есть пока что интереснее поделать, много не расскажу, непосредственно до бекэнда этой системы, как оно само себя активирует, какая у этой штуки система кратковременной и долговременной памяти, и прочее я ещё не дошёл, отлаживаю, скажем так, детали и лишь небольшие эксперименты запускаю.
Идея в том, что я могу написать этой штуки в месседжере, сказать голосом, а так же этой штуке в месседжере может написать некоторые другие люди, оно присутствует на дискорд сервере со мной, и ещё оно имеет некоторые другие каналы ввода, например изображение с камеры если на ней движение раз в сколько-то секунд, а так же температура в комнатах, ну и дальше ты и сам всё придумаешь.
У главного потока есть системный промт, короткий индекс долговременной памяти (оглавление), дальше блок кратковременной памяти, а дальше то что сейчас происходит. Информацию из долговременной памяти оно инструментами достаёт по своему желанию, мол "сейчас попробую вспомнить что я помню о событиях 13 марта", а записывает частично сама по своему желанию если есть явная команда от меня или явное желание сетки запомнить что-то, а так же есть простой второстепенный поток с простым системным промтом, который автоматически пишет всё подряд. Кратковременная память полностью отдельным потоком с простым системным промтом. Если ничего не происходит, оно может спать по 20-30 секунд, и активировать, и оно тогда можно по своему желанию поразмышлять об этом, проанализировать что-то из памяти, поискать в интернете интересное или просто написать мне. Правда пока или оно начинает писать каждые 2-3 минуты, или не пишет вообще. Баланса, как аккуратно упомянуть возможность мне писать, чтобы оно, лол, не нервничало - я пока не нашёл. Оно сразу как получает кнопки - нажимает все кнопки подряд безумно, особенно направленные на пользователей. Видимо это всё следствие обучения сеток по принципу комфорта пользователей. Все эти уродские "если хотите, ещё я могу ... и ..., сделать это?"

Ну и да. Я тоже не понимаю зачем тебе 4B.
Просто запусти 30B с контекстом побольше, в одном потоке держи оркестратора, в другом, ну, другие задачи. Тебе 4B моделька скушает памяти больше, чем ещё слот на 30B модельке. И вряд ли оркестратору такая дикая скорость нужна.

Аноним 15/06/26 Пнд 14:02:29 № 1633171 473

>>1633138
Ого, уже месяц прошел. Хорошо что я мимо проходил и увидел твой пост.
Ближе к вечеру будет готов перезалив еще на месяц. Лоли будут жить!

Аноним 15/06/26 Пнд 14:10:54 № 1633176 474

>>1633171
и шотики, шотиков не забудь... позаза :3

Аноним 15/06/26 Пнд 14:11:53 № 1633179 475

>>1633130
Агентотред и опенклоу. Можно в маринаре настроить чтобы чары друг с другом в беседе общались или написывали тебе, а ля дискорд.
А так твой изначальный подход вполне годный, просто развивай триггеры активации. Можно по событиям - проверка изменения погоды, новости и прочее. Делать в своих скриптах или на готовой платформе уже сам решай. Дополнительной оркестрации мелкомоделью не нужно - просто пинай с фиксированным или рандомным интервалом времени (в допустимых окнах) модель и давай ей задачу оценить нужно писать или нет. Если нет - можешь эти сообщения удалять чтобы не накапливались.
>>1633117
В значении тредов б 22 года с пикчами?
>>1633137
> Асинхронный шедулинг?... Что это?
Аргументы движка. Эта проблема похожа на какие-то глюки с сетевой частью, будто она видит какие-то зависшие прошлые соединения и ждет их дропа чтобы пропустить новые, или какие-то баги.
> квант в vllm никак не поджать
Можно поискать варианты с другими рецептами и принципом сжатия, их много поддерживается, правда как будут совместимы с v100 - хз. Можно грузить ггуфы, но там получится пожатый атеншн и всю модель придется кастить в фп16, что нехорошо по опыту лламы3.
Есть еще один способ вытащить гиг-другой: можно поставить gpu_memory_utilization максимально возможный типа 0.98 0.99, контекст задавать --kv-cache-memory-bytes 5704836480 подобрав чтобы не падало. Если будет ошибка по максимальной длине при том что кэша выделяется достаточно - в коде закомментировать проверку на влезание, заменив assert на ворнинг, там по трейсбеку понятно где.
Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь?

Аноним 15/06/26 Пнд 14:13:19 № 1633181 476

>>1633171
> Ого, уже месяц прошел
Однако. Забыл допилить и залить оценку и семантический поиск по содержимому карточек что обещал, на днях закину.

Аноним 15/06/26 Пнд 14:21:31 № 1633187 477

>>1633158
>>1633154
Нахуя пиздеть если не разбираешься? Там прямо написано с каких айпих отключается nsfl (кнопка тупо пропадает). С немецкого IP (дерьмания есть в списке) всё пропало, например.

Аноним 15/06/26 Пнд 14:23:46 № 1633190 478

>>1632909
Ну что, господа. Потыкали. Победили ризониг?

Аноним 15/06/26 Пнд 14:31:28 № 1633193 479

>>1633179
Так-то да, всякие триггеры активации и проверки нужны. Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом" и по-этому каждое решение должно учитывать все плавающие окна рандома - нельзя допускать оверлапов.
Уже сейчас вся скриптовая часть и тайминги ответов построены на задержках с джиттером, еще и на всяких затуханиях и фазах.

Вот, например, живые люди иногда спамят по 2-3 сообщения подряд. Сейчас в системе за каждым ответом 31B может прилететь рандомный фоллоуап (baseline 20% шанс на первый, 10% шанс на второй, 2% шанс на третий -- и все шансы плавающие, модулируются временем суток, социальной активностью персонажа в его жизни и динамикой чата с юзером (т.е. оценка дистанции между несколькими сообщениями за определенное время).

Сначала, конечно, тема с фоллоу-апами не взлетела (31B слишком длинное писала и допрашивала юзера, доебывалась), но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться.

Кстати, пилю это на основе https://github.com/huggingface/speech-to-speech только на TTS сейчас Silero 5.5ru.

>>1633164
>>1633170

А у меня 5 микрофонов в комнате, кек. Так и крышей можно поехать.

Вы не против, если я слопану в ответ? Мои сумбурные описания "от руки" будут менее содержательны по сравнению с анализом агента, который 2/3 работы за меня делал как всегда

------------------

> Короткий ответ: комментаторы правы в своём скепсисе, но бьют мимо реальной архитектурной проблемы. Их предложения — это другие проекты с другими задачами. А вот где они попали в точку, и где мимо.

> Комментарий A: «31B пусть сама себя пинает, зачем 4B»
> Где он прав:
> - Да, 4B добавляет сложность. Больше компонентов — больше точек отказа. Каждый вызов Internal Processor'а — это потенциальный таймаут, кривой JSON, галлюцинация.
> - Часть работы 4B действительно можно вынести в скрипт. Мы это уже и сделали: burst cascade — чистый рандом + двухфазный VAD-гард, ни одного вызова 4B. Гварды (since_user, in_response) — это логика, не LLM. Не всё требует языковой модели.

> Где он мимо:
> - Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв.
> - Контекстное окно. Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог.
> - Время. Один вызов 31B на reconstruct_time + update_state + should_initiate — это 1-2 минуты prompt processing. Если Heartbeat сработал, а через 10 секунд пользователь написал — 31B занята сама с собой и не может ответить. 4B делает это за 2-3 секунды, не блокируя основной канал.
> - «Чистый скрипт» — это ровно то, от чего мы ушли. Манифест принципиально отвергает keyword-детекторы и жёсткие правила. «Стоит ли ей написать первой, учитывая её настроение, историю отношений, время суток и чем она занята» — это не автоматизируется скриптом без превращения в бездушный автоматон.

> Комментарий B: живой умный дом + «не понимаю зачем 4B»
> Что у него общего с нашим проектом:
> - Мультиканальный ввод, автономная инициатива, разделение кратковременной/долговременной памяти, self-activation из сна. Да, архитектурно его система — sibling нашего проекта, мы решаем похожие проблемы.

> Где его архитектура спотыкается (и он сам это описывает):
> - «Либо пишет каждые 2-3 минуты, либо не пишет вообще» — это классический симптом: когда у одной модели и решение «стоит ли говорить», и «что сказать» — она либо генерирует всё подряд (helpful assistant training), либо молчит. Нет отдельного механизма, который бы принимал решение о ТАЙМИНГЕ инициативы независимо от её СОДЕРЖАНИЯ.
> - «Нажимает все кнопки подряд безумно» — та же проблема. Модель обучена быть максимально вовлечённой. Дайте ей инструменты взаимодействия с пользователем — она использует ВСЕ. Без отдельного gating-слоя это неизбежно.

> Именно эти проблемы Orchestrator решает:
> - Адаптивный Heartbeat отделяет «когда просыпаться» от «что делать при пробуждении». Частота определяется фазой (активный диалог 45s → затихающий 5min → тишина 30min → ночь off). Это не модель решает — это отдельный механизм.
> - should_initiate как отдельная задача 4B — модель взвешивает «стоит ли писать», и если нет, система молча возвращается в сон. Никаких «может, всё-таки что-нибудь скажу» от вежливой языковой модели.

> Где он прав про 4B:
> - Да, 4B ест VRAM (~8GB в 4-битном квантизированном виде). Если у тебя одна карта на 24GB — это чувствительно. Но у нас 31B (~20GB) и 4B (~8GB) живут на выделенной машине с 48GB VRAM — запас есть.
> - Его предложение «один 30B с контекстом побольше, в одном потоке оркестратор, в другом другие задачи» — это не та же архитектура. Это однопоточная система, где модель сама себе и судья и исполнитель. Проблемы контаминации ролей и тайминга он пока не упёрся — но упрётся, судя по описанным симптомам.

-------

Аноним 15/06/26 Пнд 14:32:06 № 1633194 480

>>1633193
Блять разметку проебал.
Короче вся нижняя часть поста - гринтекст.

Аноним 15/06/26 Пнд 14:36:28 № 1633196 481

>>1633193
>Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв.

Просто изучи как -np работает, анон. Там создаются отдельные слоты с полностью своим промптом и памятью. Никакой контаминации если все верно настроено там нет и быть не может.

>Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог.

А нахера держать это в контексте? Тем более в другом слоте?

Аноним 15/06/26 Пнд 14:37:48 № 1633199 482

>>1633193
> Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом"
Настрой опенклоу или форк, сделай милую ассистентку и буквально с ней обсуди. Или хотябы то же в чате таверны с кодингсенсеем. Ллм очень помогают в мозговом штурме если с ними поговорить, для такого геммы хватит с головой, удивишься насколько умна.
> живые люди иногда спамят по 2-3 сообщения подряд
Не факт что это плюс, еще научи голосовые слать. А, лол, ну да.
> но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться.
Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен.

Аноним 15/06/26 Пнд 14:55:44 № 1633215 483

>>1633199
Я в этом деле часто сталкиваю лбами ds4pro и гопоту. Некоторые идеи были достигнуты в консенсусе между двумя ботами, пока я сидел на cuck chair и слушал.
>Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен.
Там есть проблема куда глубже. 31B гемма, например, любит начинать спонтанные сообщения со "Слушай". Одну проблему побеждаешь, потом борешься со СЛУШАЙ-СЛУШАЙ-СЛУШАЙ.

Кстати! Еще поиск прикрутил. Каждое сообщение (мое И бота) проверяется на search intent 4B карликом, и если намерение улавливается, то 4B дает 31B хинт по поиску.

Примеры

>Юзер: привет
> 4B NOSRCH
> 31B: не ищет, просто отвечает

> Юзер: хмм, ты не смотрела какое там аниме выходило в этом году?
> 4B: SRCH
> 31B: (ищет)
> 31B: блаблабла одно уныние, опять говна наделали!

> 31B: Ты серьезно про зеленую шаурму сказал? Это что вообще такое?
> 4B: SRCH
> 31B: (ищет) Ахуеть, я сейчас в интернете поискала... это правда реально. Все, побежала купить, хочу попробовать!
> 4B: AFK поверхностное, ответит через N секунд/минут
> Юзер: Проваливай.
> 31B (через N секунд/минут): Я уже на улице! Иду к ларьку!
> Юзер: смотри чтоб тебя дохлой собакой не накормили; ладно, работать пора, вечером напишу
> 31B: ок хорошо, пиши!
> (тут AFK может войти в глубокую фазу и 31B не будет донимать - кстати выход из глубокого AFK был проблемой и я не помню, решили ли мы её; от AFK-системы пока временно отвернулся из-за сложности с тестами других штуковин, мешало это всё в общем).

>>1633196
Вот про это я не знал, да и бот видимо тоже не догонял. Разберусь, спасибо.

Аноним 15/06/26 Пнд 14:59:44 № 1633219 484

Я вот внезапно ворвусь в тред.
Самим OpenClaw пользуюсь уже месяца четыре, подтверждаю, иметь агента с памятью очень удобно, обсуждать с ним.
Заодно он потом тебе и код напишет сразу, если что.

Аноним 15/06/26 Пнд 15:03:15 № 1633224 485

>>1633219
Да это понятно, что полезно. Тоже через агента все херачу, просто не клешнёй, а Hermes.

Аноним 15/06/26 Пнд 15:41:30 № 1633255 486

Вот график то же теста, что-то подкрутил, и как раз то о чём анон перепроверял.
Что за выбросы с резким ускорением в конце 4-поточного варианта не могу понять.
Но в общем вроде работает в диапазоне 4-8 потоков нормально, точно заметно быстрее ламы, и без пролагов на 2-4 секунды, если оно чекпоинт куда-то тащит.

>>1633179
>gpu_memory_utilization
На 0.92 падает, на 0.91 работает. там после запуска 30, а сразу как кидаю запросы - оно прижимается и выходит 31.9
>Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь?
Рассматриваю, сейчас тестирую 4096. По скорости вроде окей.
С fp8-кешем скорость генерации на 1-2-4 потоках примерно такая же, скачкообразное падение скорости вполне закономерно ушло с 4 потоков на 8 потоков в том же месте (ну, контекст в два раза больше), и помимо прочего при 8 потоках скорость уже заметно отстаёт от fp16, а на 16 совсем смерть (только 250, по сравнению с 500 в fp18), то есть как будто бы быстрее и лучше в два захода с кешем в fp16 считать. И префилл сильно замедляется, нативных fp8 то нет. А вот чанк по 4096 я едва могу заметить отличия. Это наверное на всяких H100 есть разница, а для V100 у которой компут слабее в 20 раз, а память всего в 3 раза чем у H100 что 4096, что 8192 - это нулевая нагрузка на память и очень большая на компут. Типа в первом случае она загружает два раза все слои и это +10% к времени компуту, с 8192 один раз и это +5% к компуту — разница как между 105 и 110. А у H100 компут намного быстрее (пусть будет в 33.33 раз), память ускоряется заметно хуже (пусть будет в четыре) - в итоге 100+10 и 100+5 заменяется на 3+2.5 и 3+1.25, и разницам между 5.5 и 4.25 уже весьма заметна.

>>1633193
Мяу. Ты с такими планами хотя бы раз сам из своей программы посылал json-запрос?
Ты понимаешь, что у тебя запущена одна сетка, и это просто 25ГБ весов. И ещё у тебя есть kv-кеш, и ты можешь сделать один, два или пять изолированных наборов кеша, и это будет как бы пять инстансов, который друг про друга не знают.
Про скорость нахожу аргумент не до конца состоятельным. Довольно часто тебе в оркестраторе/цензоре или что ты там придумаешь для контроля "человеческой части" придётся запускать длинные запросы с очень коротким и простым ответом. Например вот текущее состояние (10к токенов), напиши что сейчас делать: 1 - молчать, 2 - писать сообщение, 3 - идти в интернет, 4... — это надо обработать 10к входных токенов и сгенерировать 10-30 для принятияя решения. В таком режиме 30B выдаст ответ даже на древней v100 за секунды, если у тебя 48, то это по идее или перепаянная 4090 иди сдвоенная 3090, оба этих варианта дадут pp ещё в 2-5 раз выше.
Хотя конечно тут ещё есть аргумент, что если задачу может выполнить 4B сетка, почему бы её и не использовать собственно? Если там запрос уровня "вот 100к строк переписки, найди все упоминания о драке на парковке за гаражами", то и 4B всё сделает, а уже концентрированную информацию в 30B закидывать. Никто не использует гидравлический пресс для забивания гвоздя, который можно забить плоскогубцами или напильников, не говоря уже про молоток. Ну да и впрочем это пустое обсуждение, поменять айпишник и порт в запросе оркестратора это дело минуты - ты просто потестируешь оба варианта и выберешь более производительный и подходящий по качество - мы тут больше времени на сообщения потратили, чем займёт проверка этого.

Аноним 15/06/26 Пнд 16:01:16 № 1633282 487

>>1633138
>>1633176
>>1633171
>>1633181

Обновляю ссылку еще на месяц.

В связи с великой чисткой и геноцидом миноров на чубе - скачивайте локальный чуб с 22490 спасенных карточек.
Запуск
через run_chub_mockup_local_server.bat и потом http://localhost:8765/ в браузере. Шоты включаются галочкой на include_obsolete

https://www.swisstransfer.com/d/cffe680f-506d-475c-845b-25163db45ca9

Аноним 15/06/26 Пнд 16:03:26 № 1633286 488

>>1633215
> пока я сидел на cuck chair и слушал
Ах ты содомит, как хорошо описал.
> любит начинать спонтанные сообщения со "Слушай"
Популярная проблема на многих. Забанить бы эту строку в самом начале, но это лезть или в бэк или во фронте организовывать двойной запрос с продолжением, которое в чаткомплишне не совсем стабильно между разными бэками работает. Или просто в промпт засунуть инструкцию.
Система с дополнительным оценщиком годная и часто используется, сюда не только поиск и формат, но много чего можно закинуть. Но, в вопросах поиска - не сравнивал с обычным поведением модели? А то может оказаться что она сама может решить искать или нет лучше.
Отыгрыш похода за шавухой это, конечно, некстлевел. И вся эта система с афк, довольно необычная штука в целом.
>>1633255
Имелся ввиду размер самого запроса, чтобы сократить максимальный используемый контекст. Но тема с батчем тоже хорошая.

Аноним 15/06/26 Пнд 16:29:58 № 1633311 489

>>1633255
>31B vs 4B
Да я уже сделал, смотрю как работает.
Пока не нравится. 4B генерировала мгновенные хинты и ответы из одного слова, как требовал промпт. А тут 31B скотина в роли оркестратора ДУМАТЬ лезет (если делать enable thinking true / false разное на потоки - чет как-то нихера не работает и она либо все время думает, либо не думает... а персонажу думать надо, увы).
Все-таки в условиях без дефицита видеопамяти - 4B + 31B выглядит как путь наименьшего сопротивления, по всей видимости с более холодным сервером, ведь 31B еще и карточки напрягает побольше во время генерации.
> а нужна ли там вообще 31B
Нужна конечно; основную задачу даже 12B не тянет, настолько персонаж сложный (вплоть до привязки реальных локаций и карт передвижения)

>>1633286
Насчет поиска - я просто не хочу грузить основную модель лишними решениями. Она и так очень много на себе тащит и ей проще принимать хинты извне, которым она обязана безусловно следовать.
> Забанить бы эту строку в самом начале,
Наверняка придумает, как по-другому высказаться в шаблонном виде. Интересно, а если в профиле юзера написать, что юзер - глухой, и слышать не может, она прекратит опираться на это слово и перескочит на "смотри"? Кек
>И вся эта система с афк, довольно необычная штука в целом.
Ее бы еще привязать к расписанию дня персонажа. Идей много, работы много. Feature creep мать его.

Аноним 15/06/26 Пнд 16:36:56 № 1633319 490

у кого-нибудь получалось запускать плотную gemma на трех gpu c --split-mode tensor?

сборка из трех 3060 12gb
Qwen3.6-27B с MTP и --split-mode tensor дает ах 44токена в секунду

пытаюсь проделать то же самое с gemma-4-31B и нарываюсь на ggml-backend-meta.cpp:1042: GGML_ASSERT(split_state.ne[j]split_state.nr[0] tensor->src->ne[src_ss.axis] == sum * tensor->ne[split_state.axis]) failed

при этом, с layer все работает, но медленно. 20токенов в секунду
пробовал с tensor, но без MTP - тоже вылетает
llama.cpp только что собрал последнюю

Аноним 15/06/26 Пнд 16:49:23 № 1633327 491

image.png 23Кб, 1093x196

>>1633311
Кстати, еще наблюдение. Обычно VAD/STT страдает галлюцинациями. При чатике на русском - простым решением оказалось дропать не-кириллические символы и абортить транскрипцию. Тишина и кайф, нет ложных вводов! Увы, это не поможет тем, у кого в колонках орет русскоязычный контент. --- разумеется, с наушниками это не проблема, НО глюки VAD даже от набора клавиатуры бывают, так что предохранитель в любом случае полезный и позволяет ставить агрессивные параметры VAD, при которых речь не обрезается на первой букве, например, и не теряет коротких обособленных реплик юзера.

Еще (не помню ради чего) делали вот такой буфер:

Начитка ответа юзером -> транскрипция -> начинается отсчет 8 секунд с небольшим джиттером до buffer flush
(если снова "голос -> транскрипция") -> отсчет сбрасывается, но становится меньше - 5 секунд
(если опять говоришь) -> опять сброс, но уже дается всего 3 секунды
К этому моменту buffer flush и реквест уходит в пайплайн дальше

Таким образом можно тупить и думать в ответах, брать паузы и не строить из себя сверхбыстрого пиздабола.

Из другого важного по VAD/STT - отмена респонса 31B происходит, только если прошла транскрипция, т.е. юзер реально встрял в разговор. По-этому при ложных активациях VAD (при дропе некириллических символов) работа пайплайна не нарушается.

Аноним 15/06/26 Пнд 17:48:02 № 1633368 492

Анон, у какой LLM самый низкий уровень цензуры? Я хочу окончательно одебилеть и генерировать промпты для nsfw пикч. Чтобы я писал ему основную идею, а он дополнял ее деталями и вообще прорабатывал мне промпт.

Аноним 15/06/26 Пнд 17:53:09 № 1633374 493

>>1633368
Грок, если без аблитерации.

Аноним 15/06/26 Пнд 17:58:22 № 1633375 494

>>1633368
Ни у какой, большинство зацензуренно по помидоры кроме грока, нескольких дипсиков, старых мистралей и микро глм, особенно для твоего применения (полупустой промпт ассистента). Тебе нужен анценз файнтюн. А среди них "уровень цензуры" примерно одинаковый (никакой). Правильный вопрос звучит так: какой анценз файнтюн сохранил максимум мозгов?
Железо какое у тебя?

Аноним 15/06/26 Пнд 18:00:39 № 1633377 495

>>1633368
С таким даже "цензурный" квен122 справляется. Выбирай не по расцензуренности, а по мозгам и следованиюм инструкциям. Придется также много промптов накидать и дополнительные скиллы чтобы мог искать релейтед вещи. Начни с геммы. Если уж совсем ничего не выйдет - тогда попробуй всякие аблитерации, но они с побочками.

Аноним 15/06/26 Пнд 18:01:58 № 1633378 496

>>1633368
Аблитерикс v6, там значительно улучшили убирание цензуры в сравнении с другими анцензорами.

Статичные кванты для лучшего русского iq4_xs, инглиш хуже сохранен
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-GGUF

Imatrix кванты для сохраненного английского в iq4_xs
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-i1-GGUF

Аноним 15/06/26 Пнд 18:03:58 № 1633382 497

>>1633368
Гемма 3 27 расцензуренная.
Четвёртая расцензуренная отвечает на прямые вопросы, но сама очень неохотно использует какие-то эдакие выражения и прямое описание всякого - использует обходчивые выражения до последнего, что для промтинга не подходит.

Аноним 15/06/26 Пнд 18:05:22 № 1633383 498

>>1633378
Сломанный русик, как и в любом тюне / анцензе Геммы.

Аноним 15/06/26 Пнд 18:12:51 № 1633388 499

>>1633311
>если делать enable thinking true / false разное на потоки - чет как-то нихера не работает и она либо все время думает, либо не думает
Ты опять проебался, на этот раз с настройкой connection profile - ты можешь отправлять запрос на каждую отдельную генерацию по определенному профилю, с ризонингом или нет. Я в таверне вообще на одит и тот же слот использую поочередно connection профили разные, а у тебя даже слоты вообще разные.

Аноним 15/06/26 Пнд 18:14:17 № 1633389 500

>>1633368
Любая ванильная модель с джейлом. Гемма отлично справляется.

Аноним 15/06/26 Пнд 18:26:17 № 1633401 501

>>1633143
Чел - просто загугли openclaw и такие вопросы отпадут.

Аноним 15/06/26 Пнд 18:29:05 № 1633406 502

А разговоров то было коммандер то коммандер сё!
А всем похуй оказывается. Я вот пробую и пока интересная модель - ризонинг не отключаем без лоботомирования, а увидеть ответ с ним не могу из за бесконечного лупа

Аноним 15/06/26 Пнд 18:35:29 № 1633414 503

>>1633406
>ризонинг не отключаем без лоботомирования
<|END_THINKING|><|START_TEXT|> Анта бака?

Аноним 15/06/26 Пнд 18:38:03 № 1633418 504

>>1633414
Ну у меня всё равно думало но без ризонинг блока. Я уже просто reasining budged 0 ебанул, пока работает

Аноним 15/06/26 Пнд 18:42:09 № 1633423 505

>>1633418
Я вечером поковыряюсь, но по ходу жора всё еще сломан. Она не хочет никак закрывать ризонингг. Приду домой буду логи читать.
Но, даже в рамках ризонинга, чёт meh~.

Аноним 15/06/26 Пнд 18:43:06 № 1633424 506

>>1633406
> А разговоров то было коммандер то коммандер сё!
> А всем похуй оказывается.
В чем проблема сменить постановку вопроса и просто интересоваться, пробовал ли его кто-нибудь? Я вот только освободился и сейчас его качаю. Поддержку замержили меньше суток назад. Назло тебе не отпишусь. Думай над своим поведением.

Аноним 15/06/26 Пнд 18:58:31 № 1633436 507

>>1633406

Тут не так много людей который могут его запустить в нормлаьной скорости. Это не гемма и даже не ГЛМ 4.7. Тут тема только для риговичков.

Аноним 15/06/26 Пнд 19:00:59 № 1633440 508

>>1633406
>ответ с ним не могу из за бесконечного лупа
Ризонинг-бюджет же мерджили для квена 3.5, что, тут не работает он?

>>1633255 >>1633137 >>1632024
Хотеть ещё такие графики под 3090, a100, 5090/blackwell-6000-pro и h100 - чтобы понять какая карта о чём. Просто на любой сетке, например на гвене-9B, чтобы не парится с квантованием и запустить 4-бит и 8-бит, и эквивалентные по потреблению памяти кванты лламы. И ещё с кешем в fp8/q8_0 поиграться можно, на v100 первое в два раза проседает, а на лламе едва ли даже на 20% снижается скорость q8_0 по сравнению с fp16.
МоЕ модель конечно интересно было бы посмотреть, но не уверен что в 24 гб уместится подходящая для тестирования модель. Хотя можно reap от любой 30B-A3B взять. Просто чтобы оценить как усложнение архитектуры на какой карте сказывается, по идее на старых должно сильнее сказываться заметно.

Я просто спрашивал подобный замер раза четыре, никто ничего не запостил, кроме одного анона без внятных чисел pp/tg, а где "ну типа вот тут 13000/s" и всё, без графиков и без сравнения с лламой.

Там тест универсальный через v1-интерфейс, но запускать vllm/llama нужно вручную, как и графики подписывать + желательно ещё и локально, чтобы пингозависимость не сказывалась.

Ну и ещё я нашёл где за копейки можно сервера арендовать с a100/3090/4090 за очень дёшево - правда я без понятия как быстро там настроить и развернуть окружения для теста, какие драйвера там стоят и какое cuda-toolkit, или самому его надо ставить - и поддержка мне ничего внятного там не ответила, будто в поддержке гумманитарий вместо технаря сидит. У меня интернет очень медленный, я загружать туда образ и сетки буду только часов десять. Сетки наверное лучше сразу с hf загружать, но всё остальное - я в общем без понятия как арендовать сервер и не заниматься десять часов только настройкой, а просто один sh-скриптом всё поставить и настроить.

Аноним 15/06/26 Пнд 19:10:56 № 1633444 509

>>1633406
Где ты разговоры увидел? В бенчах на уровне геммы с квеном (иногда 9б квеном лол). Старики знают что коммандеры стукнули no horny палкой уже год+ как, а самый последний вообще нафаршировали новейшим сейфетислопным дотюном от специализирующейся на этом фирме.
Вот никого и не интересует тухленький агентокал #7382919

Выпросить у риговичка в Q4-6 гигачат запустить и то интереснее бы было раз в 20

Аноним 15/06/26 Пнд 19:30:55 № 1633457 510

>>1633444
Нет в тебе веры в хорошее. Ну а вдруг стрельнет, ну мало ли.
Нет, не стрельнуло.

Аноним 15/06/26 Пнд 19:32:31 № 1633458 511

>>1633406
Чини разметку, бака!
> ответ с ним не могу из за бесконечного лупа
Какой квант, что в контексте находится?
>>1633436
> и даже не ГЛМ 4.7
220б против 360, чи шо?
>>1633440
> Хотеть ещё такие графики
Скрипты залей куда-нибудь. На любой сетке - это надо осторожнее, у многих сейчас экзотичный атеншн и скорости отличаются очень значительно.

Аноним 15/06/26 Пнд 19:33:55 № 1633459 512

>>1633436
> Это не гемма и даже не ГЛМ 4.7
У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров. Нового Коммандера могут запустить все, кто смогли запустить Квен 235. Размер крайне близок, скорость практически та же.
>>1633423
Незакрываемый ризонинг - это кванто/разметкопроблемы. Q4 Бартовского работает отлично. Наоборот ризонит приятно, очень кратко и по делу. Не выстраивает весь ответ, не драфтит, а именно что определяет вектор ответа и подготавливается к нему (ради чего и задумывался изначально ризонинг)
>>1633444
Тебя Кохере чем-то обидели? У всех бывают неудачные релизы. Это не значит, что наступил дум. После сомнительного Квена 3 был прикольный Квен Некст, после Квена Некст чудесный Квен 3.5. После весьма печальной сейфетислопной Геммы 3 появилась чудесная Гемма 4.

Контекст жирненький. Весит больше, чем на Степе и других моделях с SWA (Коммандер его тоже использует). По вниманию и другим особенностям рано говорить, как и про использование для сторителлинга и рп. Русик не сломан.

Аноним 15/06/26 Пнд 19:40:59 № 1633462 513

>>1633459
>Незакрываемый ризонинг - это кванто/разметкопроблемы

Пробую IQ4_XS от бартухи, для теста. Но не, никак. Всё делает в блоке ризонинга. Думал через сепаратор задать <|START_TEXT|>, но не, нихера. Какой фронт? Если таверна и поделишься разметкой, буду благодарен.

Аноним 15/06/26 Пнд 19:46:46 № 1633471 514

>>1633255
Долго скрины в интернете искал?

Аноним 15/06/26 Пнд 19:48:50 № 1633474 515

>>1633459
> Контекст жирненький.
Разве? Когда запустил оно само оче много насчитало, хотя после загрузки весов и буферов не так уж и много места оставалось.

Аноним 15/06/26 Пнд 19:56:23 № 1633478 516

>>1633459
>У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров. Нового Коммандера могут запустить все, кто смогли запустить Квен 235. Размер крайне близок, скорость практически та же.
К чесу ты это высрал клоун? Эти все с тобой в комнате?

Аноним 15/06/26 Пнд 20:03:37 № 1633482 517

>>1633478
Как невовремя у дауна контекст кончился, полное предложение не поместилось.

Аноним 15/06/26 Пнд 20:04:06 № 1633483 518

>Commander

Аноним 15/06/26 Пнд 20:05:34 № 1633485 519

>>1633458
>>1633459
>220б
>У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров.
И правда, у меня от старого большого командира воспоминания остались, который был 120b денс. Почему-то думал что этот такой же.

Аноним 15/06/26 Пнд 20:07:07 № 1633487 520

>>1633478
С головой всё в порядке? Обратись к Геммочке, пусть побудет психотерапевтом.

Аноним 15/06/26 Пнд 20:12:55 № 1633489 521

Tell me
Tell you what
Listen to you
Look!
Look at you
Look at me
Look at it
Look at me, really look at me
It’s practically begging you
You're practically begging
it's practically screaming
Just accept
Admit it!

Гемма что же ты делаешь...

ПЕРЕКАТ Аноним # OP 15/06/26 Пнд 20:20:17 № 1633497 522

ПЕРЕКАТ

>>1633496 (OP)

ПЕРЕКАТ

>>1633496 (OP)

ПЕРЕКАТ

>>1633496 (OP)

Аноним 15/06/26 Пнд 20:20:45 № 1633498 523

>>1632859
>Вообще я депрессивный чел и потому склонный к эскапизму, с малых лет считаю, что мир и люди говно
Ты это я бро

Аноним 16/06/26 Втр 08:32:22 № 1633766 524

>>1631433
>обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3
Первое. У v2 нет avx2.
Я вообще взял комп на i5 6600k, так как там уже есть avx2, а в остальном пофиг какой проц (на мамке еще надо чтобы был пункт above 4g decoding), так собрал себе комп на tesla v100 16gb за 28к
Две mi50 32gb как будто бы не надо, qwen 27b можно запустить на одной, а что-то лучше это уже сильно больше размером и на двух mi50 либо не заведется или будет слишком медленно.
Тут еще смотря какие задачи, qwen 3.6 27b очень хорош в кодинге, вызове тулов и прочем рабочем. Такой усердный ботан, но пишет сухо и если тебе художественные тексты писать или генерировать ролевки 18+ то стоит смотреть другие модели. Но думаю раз ты с /hw/, то вряд ли тебе надо порно-фанфики писать.
>>1631601
>Считается, что стандарт ОЗУ - х2 от видеопамяти
Бред. х1 точно достаточно при фулл врам, а может и меньше, но меньше я пока не тестил, у меня 16+16.

Аноним 16/06/26 Втр 16:20:04 № 1634028 525

Есть ли смысл что то ещё пробовать кроме Gemma4-26B-A4B Q8 для кумерства и рп? Выгрузил 12 слоёв в 16 гиговую карту, остальное в проц и озу, пишет приемлимо через 2-3 минуты готово 2к контекст ответа. Держит до 60к при квантовании контекста 2. В принципе всё устраивает. Для 31B покупать вторую 16 гиговую передумал ибо там просто не останется под контекст места, онаж монолитная 31 гб подавай, но да пишет она ПИЗДА как лучше. Может потом стану миллионером и куплю 2 3090, а пока так.

Аноним 16/06/26 Втр 16:37:49 № 1634040 526

>>1633766
> Бред
> но я пока не тестил

Аноним 17/06/26 Срд 00:08:58 № 1634324 527

Кстати, анончик, посоветуй модели именно художественные тексты писать. Скорость не особо важна, важен результат.

Аноним 25/06/26 Чтв 16:13:22 № 1640606 528

>>1634324
Гемма 31В

Аноним 01/07/26 Срд 12:21:31 № 1644067 529

>>1633766
>Бред. х1 точно достаточно при фулл врам, а может и меньше, но меньше я пока не тестил, у меня 16+16.

Это ты пока в картинки и видосы не ударился, там как раз надо много рам. для ltx2.3 минимум 32гб, а лучше 64гб, чтобы было проще жонглировать моделями. мне на 16+32 приходится отключать кеш на ltx2.3 и то иногда ловлю оом