Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 76 13 37
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №200 /llama/ Аноним 26/02/26 Чтв 23:47:23 1535243 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Цензура моделей[...].png 2157Кб, 1131x7777
1131x7777
17677310866191.jpg 688Кб, 960x1280
960x1280
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Агентов и вайб-кодинга тред: >>1530474 (OP)

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1532506 (OP)
>>1526027 (OP)
Аноним 27/02/26 Птн 00:38:16 1535252 2
Пиздец, кобольдосрач поломал харкач. Ебанная ящерица-недомерок везде нагадить успела
Аноним 27/02/26 Птн 00:42:16 1535255 3
>>1535252
Сорян, это моя агентесса решила разом отправить 100 сообщений в пропаганду правильных ценностей и поддержку разных сторон срача, перестаралась.
Аноним 27/02/26 Птн 01:01:12 1535262 4
отзыв на Qwen3.5 27b heretic:
Тестовый кум - крайне успешен, ощутил неподдельное удовольствие качеством писания.
Русик - сойдёт.
Кум x4 - сочнейший, особенно после ризонинга.
Возможность после первых ответов отключить думанье и не убить в говно качество - есть.
Форматирование - звёздочки и кавычки ставит крайне неохотно, иногда приходится редачить.
Кароче, единственный минус - ужасно долгий ризонинг.

Модель отправляется в золотой зал (для 16+64).
Llama 3.1 Celeste 8b < Rocinate 12b я даже хуй знает от чего это тюн < mistral 2506 < GLM-4.7 heretic FLASH < Mistral small 3.2 24b < Air < Qwen3.5 27b ~< Qwen3 235b
Аноним 27/02/26 Птн 01:05:21 1535264 5
>>1535262
>mistral 2506
>Mistral small 3.2 24b
Это одно и то же, лол
Аноним 27/02/26 Птн 01:21:53 1535271 6
Есть "однокнопочное" локальное решение чтобы побаловаться в ролевки с разными нейронками?

Все чем я пользовался lmstudio когда искал необходимые промпты для веб сервиса который потом подняли на ollama.

Почему в шапке нет приложения PocketPal для мобильных устройств? Оно плохое или недостаточно мощное?
Аноним 27/02/26 Птн 01:22:19 1535272 7
>>1535264
Я слепой немного, перепутал файл с пресетом для кобольда уже как год не пользвуюсь, не убивайте и ггуф. на том месте должен был быть NemoMix-Unleashed-12B-IQ4_XS.gguf наверное
Аноним 27/02/26 Птн 02:05:08 1535288 8
>>1535271
Кобольд + таверна, разумный компромисс между однокнопочностью и функциональностью. Хотя обычноюзеру даже это может показаться пердолингом, потому что для наилучшего результата нужно настраивать. Из прямо готовых из коробки решений для рп только всратые сервисы, которые реально всратые.
Аноним 27/02/26 Птн 02:13:53 1535293 9
>>1535288
А что насчет угабги? Он как-то поприятнее выглядит. Не то чтобы это было очень важно.
Или у таверны будет свой интерфейс и от платформы нужен только бекенд?

С наскоку за десять минут не настроишь похоже, придется читать. Потом еще конкретные ллм скорее всего придется тюнить для нормальной работы. Странно как-то что нет локального plug and play софта, в который только нейронку воткни.
Аноним 27/02/26 Птн 02:16:40 1535294 10
Аноним 27/02/26 Птн 02:17:56 1535295 11
>>1535293
>А что насчет угабги?
Оно живо еще?

>Или у таверны будет свой интерфейс и от платформы нужен только бекенд?
Да, таверна это фронт.

>Потом еще конкретные ллм скорее всего придется тюнить для нормальной работы.
Лол, нет, этого не надо делать, разве что под тьюнингом ты подразумеваешь обычную настройку.

>Странно как-то что нет локального plug and play софта, в который только нейронку воткни.
Есть и он называется кобольд. Там даже кнопка есть - настрой для меня и запусти по красоте.
Аноним 27/02/26 Птн 02:21:48 1535299 12
>>1535294
Да там как-то не получается в рп. Вместо рп получается какая-то новелла. Или я просто не правильно себе это представляю.

>>1535295
Не знаю, я в шапке пока высмотрел ее. Не успел разобраться.

В лм студио приходилось менять некоторые настройки чтобы добиться "пика эффективности". Об этом и на страничке модели писалось. И еще приходилось делать мастер промпт чтобы оно не отвлекалось.

Ну попробую связку кобольд + таверна, спасибо.
Аноним 27/02/26 Птн 02:49:24 1535310 13
>>1535262
>Возможность после первых ответов отключить думанье и не убить в говно качество - есть.
>Форматирование - звёздочки и кавычки ставит крайне неохотно, иногда приходится редачить.
Промптить думанье просто надо под то что тебе нужно. 3.5 очень заметно лучше отзывается в этом плане чем всё что было с ризонингом для этого. Finally модель, которую можно промптом заставить хоть как-то адекватно делать самопроверки какие угодно, трекать корректность анатомий и количества снимаемых трусов и хоть считать по физону движение хуев и тряску сисек в ERP.
Но ризонинг такой, конечно, не для среднего железа, минимум 4090/5090 с 40-50+ t/s, чтобы не покрыться плесенью в ожидании.
Аноним 27/02/26 Птн 03:09:43 1535327 14
>>1535293
Оно норм, удобно, универсально. И можно пользоваться, таверна просто лучше для рп.
> Или у таверны будет свой интерфейс и от платформы нужен только бекенд?
This, и вместо кобольда может быть убабуга.
> придется тюнить
Настраивать промпты. Рп это вообще тема довольно специфичная, разнообразная + к разным моделям разный подход. Так еще и по моделям и запуску тот еще зоопарк. Потому и нет сразу единого готового стандарта.
>>1535310
> делать самопроверки какие угодно, трекать корректность анатомий и количества снимаемых трусов и хоть считать по физону движение хуев и тряску сисек в ERP
Базированно, наконец господин, который отметил эти фишки.
Аноним 27/02/26 Птн 05:30:02 1535362 15
>>1535262
>Кароче, единственный минус - ужасно долгий ризонинг.
Попробовал по рекомендации. Ну не знаю, как по мне - ризонинг весь по делу. Ужасно приятно, что сою из него можно вычистить. В русском немного путается, но терпеть можно; в английском должно быть вообще отлично. Действительно интересная модель.
Аноним 27/02/26 Птн 05:44:14 1535367 16
>>1534710 →
Кстати действительно хороший мердж получился. Пока что прям даже отличный, всего пару свайпов сделал за несколько часов. Может даже лучше Maginum-Cydoms.
Аноним 27/02/26 Птн 07:30:37 1535392 17
>>1535243 (OP)
Хочу вкатиться в эти ваши лэлэмы. Подскажете как, чтобы не наебнуть пк в процессе. В шапке только куча ссылок и всё на англюсике. Не то чтоб я его совсем не понимал, но хочется нормальной такой, гречневой инструкции. Мучить промтами жеминю весело, но хочется настоящего женского тепла персонажа, чтобы запоминал контекст и придерживался роли в продолжительных диалогах. Как? Научите, будьте добры
Аноним 27/02/26 Птн 07:44:02 1535393 18
>>1535392
>Не то чтоб я его совсем не понимал, но хочется нормальной такой, гречневой инструкции.
Пожалуйста, проследуйте в тред к другим обладателям отсутствия мозга: >>1534436 (OP)
Аноним 27/02/26 Птн 08:54:23 1535413 19
Что лучше, плотный квенчик 27 или мое 122б-а10б? И для рпшинга и для коденга.
Аноним 27/02/26 Птн 09:06:37 1535420 20
image.png 43Кб, 877x598
877x598
>>1535413
Для кода и то и другое хуйня, потому что есть гпт осс 120. Она по их же бенчмаркам (квена) лучше. И это при том что в их бенчах гпт осс mxfp4 (единственный вариант), а квены в полных весах. Вот и сравнивай. mxfp4, по сути квант чуть хуже q4ks, уделывает полные веса новых квенов в CodeForces, а это самый показательный кодинг бенч за пределами эйдер полиглота. Потому что для решения тамошних задач нужны и широкие и глубокие познания в коде. Кто там сидел и решал задачки те знают. Единственным плюсом пожалуй будет контекст, он весит легче и уместится его больше, хотя хз будет ли на практике держать больше тех же доступных и на гопоте осс 128к
Гпт осс 120 7 месяцев назад вышла, а до сих пор уничтожает всё в своей размерной категории. Даже на средитах уже это поняли и сидят ахуевают, почему и зачем альтман сделал такой подарок. Такого уже не будет от попенов, вероятно
Аноним 27/02/26 Птн 09:12:46 1535422 21
>>1535420
С контекстом плюс нивелируется тем, что нужно для кода брать хотя бы q5, а лучше q6 квант, что гораздо жирнее гопоты осс. 40 гигов разница с q6. И работать гопота будет быстрее, 3b против 10b и 27. Жаль, что в рп гопота не умеет совсем, был бы совсем бангер. Хотя потому и не умеет, подозреваю, что в коде хороше.
Аноним 27/02/26 Птн 09:19:29 1535427 22
>>1535393
Это тред локалок, я хочу локалку. Просто я нуфак в этом деле, помогите разобраться
>в тред к другим обладателям отсутствия мозга
>This is a guide for retards like you, who want to roleplay debauchery things with an LLM
Так... это что такое, а?
>Download SillyTavern release or staging branch
А в чём разница? Что мне выбрать чтобы было поменьше пердолинга? Я же нововкатыш, сейчас мне нужно что-то попроще, чтобы понять как работает
Аноним 27/02/26 Птн 09:21:43 1535430 23
>>1535422
Это актуально только для 122б мое. Плотная наоборот может влезть тем, кому не влезает та же гпт осс или другие мое, ибо фуллврам
>>1535392
>>1535427
Здесь справедливо не любят реквесты а-ля "скажите мне куда нажимать и чтобы было заебись". Задаешь конкретный вопрос получаешь конкретный ответ. Для начала тебе подойдет koboldcpp, это лучшее решение для новичков. Там и бэкенд (запуск самой модели) и фронтенд (интерфейс с ее взаимодействием). Затем по необходимости установишь Таверну. Staging branch тебе не нужен, используй release
Аноним 27/02/26 Птн 09:32:59 1535443 24
>>1535392
Ты железо свое сообщи. Если там меньше 16gb vram и 64gb ram, можешь забить на затею
Аноним 27/02/26 Птн 09:34:03 1535444 25
изображение.png 57Кб, 457x334
457x334
>>1535241 →
>Фуллврам или чисто проц?
Я кстати не помню, скорее первое, я же не такой балбес, чтобы удивляться ускорению с выгрузкой на проц... Вроде бы. Не знаю.
В случае с процом там вообще жуткий буст, оно же для каждого батча заново слои скидывает на карту, и в таком сценарии после скидывания считать 8к, а не 512 - крайне логично и выгодно.

>Оверпрайс если что
Не знаю, я думал там скорее будет под тысячу за метр - я не представляю процесс производства такой штуки. Особенно меня поражает, почему профиль с 5 дырками дешевле чем с одной. Ладно центр рассверливают ещё, предположим, а как квадратные отверстия такие то делают... Не понимаю.
Спасибо большое, я не знал как он называется, гуглились только квадраты, трубы и всякое П-образное. У меня просто есть что собрать, 9 метров профиля нужно, эта штука вроде как на вид то что нужно, лучше чем коллхозить из квадрата, к которому ролик не очень ясно как закрепить. Ну и к слову квадрат 20х20 толщиной 2 мм по цене как и твой профиль.
Я бы из стали сделал, у меня и сварочник есть и прочее - но это будет весить тонну, а подразумевается что это будет что-то переносное + иногда на улице, где не очень хочется сталь, как бы я её не покрывал, будет дырка от сверла, куда внутрь вода будет попадать.
Аноним 27/02/26 Птн 09:40:03 1535447 26
>>1535443
технически можно запускать и на 6гб врам (я запускал), но только мое модели и много контекста не влезет.
Аноним 27/02/26 Птн 09:41:41 1535448 27
>>1535447
Технически можно, да только запросы у него ого-го какие
>хочется настоящего женского тепла персонажа, чтобы запоминал контекст и придерживался роли в продолжительных диалогах
Даже на гигантах для такого нужно от 32к контекста и постоянно сумарайзить
Аноним 27/02/26 Птн 10:05:51 1535458 28
>>1535448
ну вот квен что то такое сделал что 35B-A3B даже на 100к заполненного контекста доделывает задачу по пунктам до конца и отмечает в конце в файлике сделаные задачи а не пускается в пляс на бесконечное генерирование кода.

Я конечно мало тестил локальные модели (до этого был негативный опыт, правда на 6гб врам запускал до покупки 16Гб видяхи), но то что я вижу сейчас - уже весьма похоже на рабочий инструмент.
Аноним 27/02/26 Птн 10:11:46 1535460 29
>>1535458
Но я на 16гб врам пытался в тех же задачах запустить glm4.7-flash и он с треском провалился еще на этапе планирования спецификации когда начал вместо этого сразу писать код
Аноним 27/02/26 Птн 10:59:14 1535482 30
>>1535444
>Особенно меня поражает, почему профиль с 5 дырками дешевле чем с одной.
Меньше металла стоит дешевле, чем больше металла, вот ведь загадка.
Аноним 27/02/26 Птн 11:05:00 1535490 31
>>1535444
> Ладно центр рассверливают ещё, предположим, а как квадратные отверстия такие то делают... Не понимаю.
Они не сверлятся. Это экструзионный профиль.
У rsi немного дешевле чем у сз
Аноним 27/02/26 Птн 11:08:01 1535494 32
https://huggingface.co/Qwen/Qwen3.5-122B-A10B
Кто-то отписывался уже по нему не в лучшем свете, в контексте рп. Поддержу. Q6 батрухи. Тупой как пробка в ролевой игре на английском. Уж не знаю как Гемма, про которую все так активно строчили в первые дни выхода Квена3.5, но Эйр точно лучше. Контекст Квен держит лучше, но смысла в этом никакого. Придется свайпать много-много раз, чтобы получить что-нибудь вменяемое. Не понимает нюансы диалогов, персонажи очень картонные.

И это я еще не сталкивался с рефузами, гардрейлами и байасом, потому что тестил на безобидных диалогах. Полный провал.
Аноним 27/02/26 Птн 11:23:21 1535519 33
>>1535494
Ясно, эйр с нами навсегда. Терпим, карлики. Кто терпит, тот выживает.
Аноним 27/02/26 Птн 11:29:31 1535532 34
>>1535519
Можно терпеть, а можно кайфовать. Каждый выбирает сам.
Аноним 27/02/26 Птн 11:38:29 1535551 35
Что за круговорот датасетов в природе? Почему дипсик порой шизит и пишет что он квен, квен что он чатЖПТ, а гемини пускает слюни.
Все кампании занимаются совместным пиздингом данных у друг друга что ли?
Аноним 27/02/26 Птн 11:39:58 1535554 36
>>1535494
Да, увы и ах, в целом для РП новые квены не очень.
Но ничего, год только начался, я уверен нас выпустят ведь мы приплыли в Морровинд, еще много хороших моделек впереди.
Аноним 27/02/26 Птн 11:41:53 1535560 37
1693279280069733.png 469Кб, 720x720
720x720
>>1535252
Есть архив прошлого треда у кого-нибудь, я свой перезаписал сломанным тхредом, не проверив.
Аноним 27/02/26 Птн 11:49:46 1535576 38
>>1535551
> Все кампании занимаются совместным пиздингом данных у друг друга что ли?
Да. Собранных человеками датасетов теперь очень мало. Почти все собирают синтетические датасеты (из данных, сгенерированных ЛЛМ), и на них обучают.
Аноним 27/02/26 Птн 11:52:20 1535583 39
>>1535576
Я может тупой.. и чего то не понимаю. Но обучение на выжимках, это же говно. В чем проблема посадить макак, чтобы они сидели и компилировали охуительные истории написанные двурукими обезьянами?
Аноним 27/02/26 Птн 11:55:30 1535584 40
>>1535583
Да. Говно. В чем проблема посадить макак - подозреваю, это дороже и дольше. К тому же, это уже делается, как-то же собирают данные с интернетов.

Дальше ситуация будет усугубляться, и синтитеческих данных в датасетах будет все больше.
Аноним 27/02/26 Птн 12:11:59 1535611 41
>>1535420
>уделывает полные веса новых квенов в CodeForces, а это самый показательный кодинг бенч за пределами эйдер полиглота

спорное утверждение. если цель пользователя ЛЛМ решать олимпиадные задачки, то да, наверное бенч КФ показателен. но обычно это более разнообразыне проекты - какой-то бекенд/фронтет, пачка скриптов, игроделы. и тут то нужно работать с многими существующими файлами, а в КФ модель ебашит с нуля в одном файле

но гпт-осс 120б хорош, спору нет. хотя на том же реддике нет единого мнения, многие до сих пор сидят на разных вариациях квен-код моделей. чуть позажиточнее аноны - на минимакс (хотя для таких относительно больших моделей мнения еще более разделились, и все сугубо личный преференс)
Аноним 27/02/26 Птн 12:31:15 1535642 42
Ленивцы кванты пофиксили или нет?
Аноним 27/02/26 Птн 12:36:30 1535652 43
>>1535551
Обычный круговорот. Все нейронки срут в интернет, а их высеры кидают в датасеты. Такая вот нейросетевая многоножка.
>>1535583
>В чем проблема посадить макак
Правозащитники сказали, что РАБотать за 7 баксов в день на ужасной работе по разметке и генерации датасета это нечеловечно. Поэтому негры теперь сидят без работы.
Аноним 27/02/26 Птн 12:39:39 1535657 44
2026-02-27123343.png 37Кб, 488x335
488x335
Анслоп ебу дал?
Аноним 27/02/26 Птн 12:40:23 1535662 45
Аноним 27/02/26 Птн 12:40:43 1535663 46
>>1535583
>В чем проблема посадить макак, чтобы они сидели и компилировали охуительные истории написанные двурукими обезьянами?
долго
дорого
бесполезно - у тебя будет модель от макак для макак с охуительными историями. кому это нахуй всралось кроме местных кумеров?
Аноним 27/02/26 Птн 12:40:47 1535664 47
Квенобояре, как вам новые лоботомиты?
Аноним 27/02/26 Птн 12:42:49 1535669 48
1691912177343.png 33Кб, 1909x347
1909x347
>>1535240 →
Тест SmolLM3-3B на дебилах

Обновленный обзор

Мне нужна модель для общения с дебилами.

Сейчас для моих задач используется YandexGPT-5-Lite-8B-instruct-Q4_K_M, она весит меньше 5 гигов и идеально подходит для общения с дебилами, пишет контакты, если просят, очень быстро генерирует токены

На картинке gemma3-1b, весит 800 мб, несет хуйню, но сгодится для того, чтобы издеваться над дебилами, но не общаться. Если задать ей вопрос в лоб, то прямо пишет, что она языковая модель Google.


Мне нужна модель, которая весит меньше YandexGPT-5-Lite-8B-instruct-Q4_K_M, но общается достаточно качественно, чтобы общаться с дебилами.

Весят больше YandexGPT-5-Lite-8B-instruct-Q4_K_M
NousResearch_DeepHermes-3-Llama-3-8B-Preview-Q6_K_L - медленнее выводит токены, чем YandexGPT-5-Lite-8B-instruct-Q4_K_M, реагирует вроде лучше на фразы типа М, пишет конакты, если просят, но все равно шероховатости в ответах.

На уровне gemma3-1b, но весят больще
gemma-3n-E2B-it-Q6_K

Хуже gemma3-1b и весят больще
fblgit_miniclaus-qw1.5B-UNAMGS-GRPO-Q6_K_L

Тест провалили (сильно хуже, чем gemma3-1b)

Thinking модели, не подходят для чата
DeepSeek-R1-Distill-Llama-8B-Q6_K_L
DeepSeek-R1-Distill-Qwen-1.5B-Q6_K_L
teknium_Qwen2.5-1.5B-Open-R1-GRPO-Q6_K_L


Пишут еренду
FuseChat-Llama-3.2-1B-Instruct-Q6_K_L
gemma-2-2b-it-abliterated-Q8_0

Мешают русский и другие языки
tiny-llm-q5_k_m - мешает русский и английский
internlm3-8b-instruct-Q6_K_L - медленнее выводит токены, чем YandexGPT-5-Lite-8B-instruct-Q4_K_M, пишет вроде складно, но потом добавляет иероглифы

Не отвечают на русском
agentica-org_DeepScaleR-1.5B-Preview-Q6_K_L - Thinking модель, не подходит для чата
nvidia_AceInstruct-1.5B-Q6_K_L - Thinking модель, не подходит для чата
SmolLM3-3B-Q6_K - Thinking модель, не подходит для чата
Аноним 27/02/26 Птн 12:48:28 1535674 49
>>1535664
Мы счастливы. Ведь мы счастливы, аноны.
Мы получили что хотели. Новый большой доступный квен, агентские малыхи, и даже среднелоботомита.
РП в сделку не входил. Сами себе Буратино.
Аноним 27/02/26 Птн 12:51:59 1535678 50
Аноним 27/02/26 Птн 12:57:29 1535682 51
>>1535430
Понимаю. Мне пока бы с самой базой ознакомиться, а т оя не понимаю о чём анон в треде говорит. Буквоцифры какие-то, что это? Имена моделей? В них существенная разница или вкусовщина?
>koboldcpp
Кобольд так кобольд, всё равно по первой разницы с другими не увижу. Вот я скачал ехе с гитхаба. Что дальше? Его нужно в отдельную папку отселять?
>установишь Таверну
А кобольд и таверна это не одно и то же? В чём разница?
>>1535443
12 врамы, 16 рамы. Совсем мало? Мне для работки и игорей всегда хватало, ни разу не упирался в недостаток :(
>>1535448
Я просто подумал, что на локалке будет проще схоронять прогресс общения. Ошибся?
Аноним 27/02/26 Птн 12:58:00 1535683 52
>>1535662
Жпт с завода квантована
Аноним 27/02/26 Птн 13:08:25 1535696 53
>>1535682
> Буквоцифры какие-то, что это? Имена моделей? В них существенная разница

Поваришься немного - поймешь.

Про квантизацию популярно, там не все так просто
https://youtu.be/vW30o4U9BFE
https://github.com/iuliaturc/gguf-docs


про мое и плотные модели и цифры в названиях модели можешь у
дипсика спросить, она тебе расскажет (кстати, мое не всегда обозначается в названии, часто в описании пишут между делом как активные параметры)
Аноним 27/02/26 Птн 13:11:07 1535699 54
>>1535682
Раз уж так ленишься читать шапку/вики треда/вики кобольда, то позадавай свои вопросы гемини/чатгпт - это будет быстрее и проще чем ждать пока кто-то тебе тут всё разжуёт.
Аноним 27/02/26 Птн 13:16:54 1535708 55
>>1535682
> Понимаю.
> Вот я скачал ехе с гитхаба. Что дальше? Его нужно в отдельную папку отселять?
> А кобольд и таверна это не одно и то же? В чём разница?
Говоришь, что понимаешь, а затем сразу же задаешь два вопроса, которые легко решаются одним запросом в гугл. В треде такое справедливо трактуется как нежелание разбираться самостоятельно, иногда триггерит местных на праведный гнев. У Кобольда прямо на странице Гитхаба есть инструкция по запуску. Даже русскоязычные видосы на ютубе есть. В крайнем случае, иди спрашивай Гемини, которую сам же и упомянал.

> Буквоцифры какие-то, что это? Имена моделей? В них существенная разница или вкусовщина?
Qwen3.5-122B-A10B ; Qwen3.5-27B ; GLM-4.5-Air - всё названия моделей. Разница существенная: разные семейства моделей, разные типы моделей, помещаются в разное железо. Если ты хочешь именно разбираться в сабже, то со временем разберешься, не нужно перегружать себя информацией. Для начала запусти хоть что-нибудь, что соответствует твоему железу.

> 12 врамы, 16 рамы
Результат будет однозначно хуже того, что ты можешь запустить через апи (Гемини, Клод, чем ещё там балуются в соседнем треде). Навскидку, это 12б-14б Мистрали, возможно совсем маленькие Квены, из новых это Qwen3.5-35B-A3B.
Аноним 27/02/26 Птн 13:17:33 1535709 56
>>1535682
> 12 врамы, 16 рамы. Совсем мало?

врам еще более менее, а рамы точно мало. грубо говоря - модель либо помещается целиком в видеопамять + память на контекст несколько гиг (маленькие и глупые модели), либо MoE модели которые выгружают малоиспользуемые веса в оперативную память и используют по мере необходимости.

вот взять к примеру квен который я сейчас использую

https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/blob/main/Qwen3.5-35B-A3B-MXFP4_MOE.gguf

для 120к контекста он сейчас занимает 14Gb врам и 13Гб рам.
Для более больших моделей у меня не хватает 32Гб RAM чтобы положить https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF, там уже минимум 64гига памяти надо.
Аноним 27/02/26 Птн 13:21:05 1535712 57
>>1535682
> Я просто подумал, что на локалке будет проще схоронять прогресс общения. Ошибся?
Смотря что ты под этим понимаешь. В твоё железо влезут модели, которые на порядки глупее того, что ты используешь сейчас, и будут вменьшать меньше контекста. Знаешь хотя бы, что такое контекст?
Ссылки на модели, что я выше упомянул - https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1 ; https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512
Заходишь в Quantizations, качаешь подходящий по размерам в gguf кормате квант. Разбирайся. Не будешь разбираться - тебя дальше будут игнорировать, и будут правы.
Аноним 27/02/26 Птн 13:21:11 1535713 58
>>1535708
>Навскидку, это 12б-14б Мистрали
Смысла нет. Лучше чуть подольше подождать, но юзать нормальные 24b и 27b. Они влезают по железу.
Аноним 27/02/26 Птн 13:24:20 1535717 59
>>1535713
Возьми на себя бремя объяснить новичку, как именно можно на 12гб врама запустить 24б-27б модели с контекстом. Мне же кажется, гораздо резоннее сначала запустить хоть что-нибудь. Позже уже минмаксить, если он поймёт, что это то, чем хочет заниматься.
Аноним 27/02/26 Птн 13:24:58 1535719 60
>>1535669
>Thinking модель, не подходит для чата
Мяу? Можно отключить размышления. И почему не подходит? Вполне подходит.
Аноним 27/02/26 Птн 13:41:35 1535734 61
>>1535717
Он же через кобольд собирается гонять? Ну укажет контекст, 16к, например, и нажмет запустить. Всё. В кобольде там в выгрузке слоёв по умолчанию -1, т.е. он автоматом сколько-то слоёв сгрузит во врам. Модель запустится, просто настройки будут неоптимальные.

А если уж объяснять, то объяснять нужно подробнее, и про темплейты, и про семплеры, и про разные оптимизации типа флешатеншн, квантование контекста, и про все нюансы таверны, и про особенности работы с моэ, ну ты понел.

Делать этого я конечно же не буду. Инфы в шапке, в вики и в интернете предостаточно. Я когда вкатывался в локалки пару лет назад, вообще анону мозги не ебал, разбирался во всём сам. Ничего сложного в этом нет. Чел просто ленится читать и хочет чтобы его с ложечки накормили.
Аноним 27/02/26 Птн 13:45:46 1535739 62
Что там по квену 3.5 27В? Как он в плане сэкса?
Аноним 27/02/26 Птн 13:47:07 1535741 63
Аноним 27/02/26 Птн 13:47:17 1535742 64
>>1535739
Гемма лучше. Это не шутка.
Аноним 27/02/26 Птн 13:54:17 1535747 65
image 490Кб, 1199x559
1199x559
Признайся, захотелось.
Аноним 27/02/26 Птн 14:00:48 1535756 66
>>1535747
Меня терзают смутные сомнения... (с)
590 и 12.4 ???
Аноним 27/02/26 Птн 14:01:36 1535758 67
Аноним 27/02/26 Птн 14:02:10 1535759 68
image.png 126Кб, 822x476
822x476
>>1535739
Если честно, неплохо. Я не могу отрицать его богатую фантазию. Квен обычно пишет как какой-то поэт на грибах и кокаине, но 27b прям...более целостный что-ли. Его предложения написать эротическую историю мне даже понравились.

>>1535742
я бы сказал у геммы лучше слог, но она продолжает диалог без копмьюта. у квена его размышления могут так сильно изменить начальное повествование что это выглядит как радикальный шаг, чем он обычно удивляет.

Мне нравится давать квену инструкцию "Advance plot while you writing. Don't stuck in same scene, it is not fun when your only answer what character feel or does. WHAT is going on and how scene advances are even more important."
Аноним 27/02/26 Птн 14:03:26 1535760 69
>>1535747
Неверный объём, в 5090 можно сделать только 96 гиг.
Аноним 27/02/26 Птн 14:03:37 1535761 70
>>1535310
Анон, объясни как промптить думанье. Я тупой, только-только разбираюсь с обычным промптингом
Аноним 27/02/26 Птн 14:06:41 1535763 71
>>1535739
>Что там по квену 3.5 27В? Как он в плане сэкса?
Вот по-хорошему его (heretic-версию) бы прикрутить в качестве ризонинг-модели к самой большой версии Квена. Ризонинг совершенно того же формата и он хорош. Ну а сочные детали уже большая модель распишет. Автоматизировать этот процесс плагином к Таверне было бы хорошо.
Аноним 27/02/26 Птн 14:20:32 1535768 72
>>1535763
Фантазёр, ты меня называла...
Аноним 27/02/26 Птн 14:26:41 1535775 73
Ананы, помогите, всю жопу себе уже разорвал.

Новые модели квена, 27-35б, постоянно пересчитывают контекст и я не могу с этим никак разобраться.

В кобольде, как я понимаю, вообще с этим ничего не сделать, но у меня там 10 тс. В лламе есть полурабочий вариант с --ctx-checkpoints 128, однако там 6 токенов при любом сценарии работы, вот хоть усрись, в том числе и без -ctx-checkpoints.

Я уже часов 5 ебался, всё бестолку.

Из железа 3060 + р104, то есть 20 врам. Модель полностью влезает, в данном случае речь именно про 27б квен.

Основная проблема в лламе, как я понимаю, в том, что она почему-то кладёт самые жирные compute buffers на p104, слои или аллаха — кобольд показывает совершенно иную картину: самое тяжёлое говно он берёт на 3060. И я никак не могу это исправить. Небось в лламе есть какие-то анальные оптимизации, которые нужно включать вручную и которые включены по умолчанию в кобольдыне. Может что-то, связанное с mmq, cublas, а я этого не знаю. В любом случае, тензор сплит, мейнг гпу, вот это я всё уже дёргал в каких угодно пропорциях и крутил свои логи в гопоте в режиме размышления на 7 минут по 32к токенов, с поиском по интернету и загруженной документацией кобольда и лламы. Тут явно видно, что проблема в р104 и я на древнем говне сижу просто, но всё же, раз кобольд справляется, наверняка ручками что-то сделать можно.

Пожалуйста, дайте советов и скопипастите прям свой батник сюда (вообще похуй, что вы там запускаете — главное пример), чтобы я увидел, что там и у меня появилось реальное понимание, что вы там пишете. Возможно, я упускаю что-то важное, так как лламой пользовался всего лишь раз 5 за несколько лет.
Аноним 27/02/26 Птн 14:27:27 1535777 74
IMG4926.jpeg 42Кб, 400x400
400x400
>>1535768
Фантазии- есть признак работающего ума.
Бббака
Аноним 27/02/26 Птн 14:29:04 1535781 75
image.png 66Кб, 1079x358
1079x358
Аноним 27/02/26 Птн 14:38:14 1535787 76
>>1535742
Отпустите вы уже Геммочку наконец на пенсию, до выхода 4. Она хуже современных тюнов мистраля 24Б во всем кроме русика. И в следовании инструкциям, и в передаче характера карточки и в логике происходящего.
Ну а Квен 3.5 27В (Heretic) неплох, пиздец умный, только медленный из-за ризонинга. С файнтюнами будет вообще красота.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов