/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №131

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №131 /llama/ Аноним 15/05/25 Чтв 14:27:39 № 1203792 1

Альфа от контек[...].png 121Кб, 3090x1830

Эффективность к[...].png 92Кб, 1399x1099

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1200733 (OP)
>>1198085 (OP)

Аноним 15/05/25 Чтв 14:30:48 № 1203803 2

Напоминаю базу треда.
Лучшая видеокарта та - которую ты можешь себе позволить.
Лучшая моделька та- которая тебе доставляет.

Аноним 15/05/25 Чтв 14:32:31 № 1203807 3

Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса.
Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще.
Со старым промптом всё норм, видимо хорни часть в промпте обязательна:
Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw.
Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc.
Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.

Аноним 15/05/25 Чтв 14:33:19 № 1203810 4

>>1203803
А кто лучшая девочка в Генсоке по версии треда?

Аноним 15/05/25 Чтв 14:35:24 № 1203817 5

>>1203810
Все. Все хороши.
Кроме Рейму, жадная блядина.

Аноним 15/05/25 Чтв 14:35:35 № 1203818 6

яндексом гпт лайт пользуется кто?

Аноним 15/05/25 Чтв 14:35:52 № 1203819 7

>>1203810
сакуя

Аноним 15/05/25 Чтв 14:44:53 № 1203844 8

>>1203732 →
да чему завидовать-то?
Переплатил чтобы стать врамцелом. Ему как минимум еще одна такая нужна.
Тут буквально нечем хвастаться.
>>1203736 →
теслы выпинываются на балкон и шума нет.
qwen 3 235B 4QXS работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с
>>1203757 →
>72 + 72
почему 72 + 72-то? Именно что 144. Распред работает так же быстро, как и модель в рамках одной матери.

Аноним 15/05/25 Чтв 14:53:12 № 1203868 9

>>1203844
Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового. Чел захотел и купил, может пользоваться главными благами а не аутотренироваться что мое с 4т/с - не залупа. И теперь ты его решил захейтить, ну не пиздец ли.
> Распред работает так же быстро
Не также, в нем хватает своих компромиссов и проблем.

Аноним 15/05/25 Чтв 14:55:47 № 1203876 10

>>1203868
>Не также, в нем хватает своих компромиссов и проблем.
ну назови компромисы и проблемы распреда, умник. Только пользуйся при ответе своей головой, а не нейронкой или гуглом.
>Успешный теслашиз насколько преисполнился, что называет времцелом 48-гигового
не важно, что я теслашиз. Важно что 48 гигабайт - это врамцел. Ты не смещай акцценты.
Не врамцел начинается от 96.

Аноним 15/05/25 Чтв 14:56:28 № 1203879 11

Проверка : отсутствие
Действие : ожидание
Включение программы ожидания

Ожидание семплеров для command-r

Я не гордый, я не принципиальный. Я подожду.

Аноним 15/05/25 Чтв 15:01:46 № 1203885 12

>>1203876
>Важно что 48 гигабайт - это врамцел.
Это какой то твой аутотренинг? Это ты врамцел крохобор, которому не хватает врам и ты его насобирал по помойкам.
Нормальная современная карта на 48 быстрых гигов это топовый выбор

Аноним 15/05/25 Чтв 15:04:29 № 1203893 13

>>1203885
>Нормальная современная карта на 48 быстрых гигов это топовый выбор
От двух, чувак. От двух.

Аноним 15/05/25 Чтв 15:05:14 № 1203895 14

>>1203876
> назови компромисы
Их нет, шизик третий десяток тредов воет просто из любви к искусству.
> Важно что 48 гигабайт - это врамцел.
Да это ты просто на говно исходишь из зависти, что чел может себе позволить качественный инфиренс, а не собирать трижды обдроченную некроту, чтобы годами аутотренироваться о ее небесполезности.
Твоя токсичность только ускоряет следующий прогар, после первого раза нужно было чему-то научиться.
И не забывай что у тебя тоже 48 если откинуть ржавый мусор, себе в ногу стреляешь.

Аноним 15/05/25 Чтв 15:14:23 № 1203914 15

>>1203893
Ну он и писал что если понравится и захочется то еще купит, какие проблемы?
Он мог так же как и ты собрать из мусора и хлама эти 72+72 врам, деньги у него были. То есть возможность собрать столько врам у него была, он сознательно выбрал нормальный вариант.
Врамцел тот кто хочет врам, но не имеет возможности, а не тот кто имея выбор берет то что считает нужным.
А тебе бы пора задавить свою зависть и жадность, твое желание унизить анона показывает что это тебя задело.

Аноним 15/05/25 Чтв 15:16:22 № 1203919 16

>>1203885
копиум врамцела
>>1203895
да не токсичу я бля, заебал. Купил - дай бог чтоб не сгорела, рад за человека. Но как я и говорил, какой смыфсл в 50т/с если ты крутишь лоботомитов?

Аноним 15/05/25 Чтв 15:25:55 № 1203935 17

>>1203876
> Не врамцел начинается от 96.
А что сейчас можно запустить на 96GB из того что нельзя запустить за 72GB?

мимо врамцел с 3x3090 и теслой, валяющейся уже полгода в коробке

Аноним 15/05/25 Чтв 15:27:57 № 1203938 18

>>1203803
Я мог бы себе позволить 5090, но трачусь на зубы (((

Аноним 15/05/25 Чтв 15:30:15 № 1203940 19

>>1203935
ну... ты не врамцел... у тебя же есть 96 гб.
Сам же понимаешь, чем лучше квант - тем лучше ответ. Зачем есть капусту когда есть картошка ограничивать себя вторым квантом если можно запустить четвертый?

Аноним 15/05/25 Чтв 15:32:12 № 1203946 20

>>1203844
>работает примерно на 10 т/с, после 4к контекста примерно на 6 т/с
Эм, если 6 токенов это на позорных 4к, то 10 токенов это что, с пустой модели первый токен спрашивать? И зачем называть эти числа, когда меньше 16к контекст не контекст, и в него даже не каждая карточка с инструкциями влезет?
>>1203876
>Не врамцел начинается от 96.
Это что, аицг протекает что ли? Какие-то блядь пацанские понятия.
Норма это 24 гига, то, что можно набрать недорогой одной картой. Остальное это бояре, и не так уж обязательно. Вот 8 это да, боль.
>>1203879
Забей.

Аноним 15/05/25 Чтв 15:35:36 № 1203951 21

>>1203919
>смыфсл в 50т/с если ты крутишь лоботомитов?
Смысл в 96 врама если ты крутишь лоботомитов?
Дипсик локально запустил уже?

Аноним 15/05/25 Чтв 15:38:32 № 1203953 22

>>1203879
Simple-1, min-p, что угодно из пресетов. Он не лупится, чтобы как-то давить его штрафами и драем, не унылый лоботомит чтобы включать шизосемплинг и т.д., тут больше системный промт и прочее важны будут. Есть простое правило: если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо.
>>1203919
> да не токсичу я бля
> пост токсичности и аутотренинга
22б - не лоботомит, ага

Аноним 15/05/25 Чтв 15:40:22 № 1203956 23

>>1203946
>16к контекст не контекст
справедливо. тем не менее, для рабочих задач этого может быть достаточно. Для рп конечно маловато.
Ну ничего, потихоньку буду еще карты докупать.
>Норма это 24 гига
ну привет, геммабой

Аноним 15/05/25 Чтв 15:47:25 № 1203968 24

>>1203956
>ну привет, геммабой
Я так то жду нового ларжа напрасно, мистрали уже мертвы, и да, сейчас гоняю гемму, хоть и на двух 3090, зато без квантования контекста и в 8 битах.

Аноним 15/05/25 Чтв 15:48:43 № 1203969 25

>>1203968
нуууу..... этот геммабой точно уже все понял......

Аноним 15/05/25 Чтв 15:49:16 № 1203970 26

>>1203940
На самом деле у меня ещё есть 4090, но это для основной пеки.

Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек), поэтому мне было достаточно основную пеку обновить, а отшмётки на риг отправить. С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита.

Аноним 15/05/25 Чтв 15:50:40 № 1203971 27

>>1203968
>ждет ларжа
>гоняет гемму
>Я так-то жду новую феррари, но гоняю на ласточке-пятерке, зато все ремонтирую сам и запчасти копеечные.

Аноним 15/05/25 Чтв 15:50:47 № 1203973 28

>>1203956
>для рабочих задач этого может быть достаточно.
Для рабочих задач нужны скорости, и твоих 8 токенов в секунду не хватит

Аноним 15/05/25 Чтв 15:52:18 № 1203979 29

>>1203953
> если модель требует каких-то особых семплеров - это убитый шизомердж от васянов. Может когда-нибудь это изменится, но пока более чем справедливо.
Слушай, а спасибо. Действительно мне приходилось ебаться с семплерами исключительно на васян мержах.

Аноним 15/05/25 Чтв 15:57:00 № 1203987 30

>>1203971
>новую феррари, но гоняю на ласточке-пятерке, зато все ремонти
Эм, ларж уже старый, и по сути наноразрыв в производительности от геммы не оправдывает многократного роста потребностей в ресурсах.
Так что тут скорее старый грузовик и новый спорткар, который быстрее картошку отвезёт, потому что быстрее едет, а тонна мне нахуй не нужна победа в уебанских аналогиях будет за мной.

Аноним 15/05/25 Чтв 16:00:08 № 1203996 31

>>1203987
На самом деле я тоже кое чего не понимаю.
Если ты гонял милфу мистрали, то что мешает гонять command-a ?
Ты понимаешь как это странно выглядит ?
>Я использовал 123b, но перешел на 27b.
Что блять ?
И не надо говорить что комманд-а плоха. Она пиздата. Я немного на работке покрутил, поплакал что не могу дома поднять и забил.

Аноним 15/05/25 Чтв 16:02:33 № 1204001 32

>>1203970
>С 4+ картами кроме самих карт надо ещё железо докупать и хз что по скоростям выйдет - это уже доп. уровень трат и пердолинга, в который не хочу ввязываться не видя явного профита.
Да. Чувствую, что ригами я наелся. После того, как получил 10+t/s на 235В с частичной выгрузкой в RAM, понял, что делать риг для моделей такого размера (а Дипсик ещё втрое больше) просто нет сил. Конечно промпт процессинг всратый, и будет всратым даже на 8-канальной DDR5 (для Дипсика так точно). Тут только ждать новое железо. Или новых технологий, чтобы на актуальном железе модели начали крутиться быстрее.

Аноним 15/05/25 Чтв 16:02:38 № 1204003 33

>>1203987
>едешь на спорткаре
>извините, мы не можем повернуть налево, это противоречит общечеловеческим моральным принципам
И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли? Катай тогда 8b, между ними и 27 вообще ничтожна разница по твоей логике, зато скорость-то какая!

Аноним 15/05/25 Чтв 16:11:20 № 1204010 34

>>1204001
> DDR5
у епиков 12 каналов

Аноним 15/05/25 Чтв 16:14:31 № 1204013 35

Подскажите, пожалуйста, что важнее - параметры или квант? Выбирая модельку, которая влезет в рам, на что в первую очередь ориентироваться? И какие разумные ограничения снизу у этих двух параметров?

Аноним 15/05/25 Чтв 16:16:06 № 1204018 36

>>1203956
> геммабой
Слово - детектор, хотя учитывая что его форсит теслашизик - неудивительно.
> для рабочих задач
Тут так много работяг, которые рассуждаю про "рабочие задачи" и пишут бред, но пока никто не привел примера этих самых задач. >>1203973 прав, для потоковой обработки, автокомплита кода и подобного нужны скорости. Это справедливо почти для всего, ибо ллм прежде всего применима для массовой обработки чего-то простого, или в качестве инструмента автоматизации некоторых действий для помощи пользователю. Если приходится ждать сначала 10 минут обработки контекста, а потом еще 5 минут ответа - грош цена такой помощи. А в каких-то дохуя комплексных вопросах, где хороший ответ мог бы окупить время ожидания - ни одна из сеток не может себя достойно проявить. Написание прозы с дальнейшим рефакторингом разве что, и то будет специфично.

Возвращаясь к "работам" - васяны под этим прежде всего понимают обращение к ассистенту в фоновой вкладке, суета ради суеты.
>>1203970
База, моделей не то чтобы ассортимент чтобы много городить, а для поМОЕшного копиума ресурсозатраты непропорциональны результату. Для рп оно точно не стоит того, это даже не уровень 70б, хотя и плохим не назвать. Потом подробнее отзыв напишу.
>>1203987
> наноразрыв в производительности от геммы
Все зависит от задачи. Гемма оче хороша в нлп и там действительно нет смысла, тут вообще на 12б версию стоит обратить внимание. А если рпшишь - разница уже значительна. Это, пожалуй, главный кейс, где нет строгих требований к скорости, качество ответа в приоритете и можно раскрыть потанцевал больших моделей.

Аноним 15/05/25 Чтв 16:17:10 № 1204019 37

>>1204010
>у епиков 12 каналов
Это не помогает. Увы.

Аноним 15/05/25 Чтв 16:20:33 № 1204023 38

>>1204018
ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить? А это еще медленнее, чем чтение при рп.
Или ты копипастишь из модели сразу в прод? Тогда твой прод долго не проживет, я гарантирую это.
Даже дипсик хуйню в коде пишет. Поэтому без проверки - никак. Только ньюфаг может думать, что нейронка - это красная кнопка "зделать заебись".
Скорость нужна только в одном случае - если ты как обезумевшая макака свайпаешь ответы.

Аноним 15/05/25 Чтв 16:23:51 № 1204028 39

Просыпаешься в свой выходной день. Думаешь, как все прекрасно и замечательно, что придешь сейчас в тредик и пришлешь анонам новый пресет, в этот раз на Коммандера или ГЛМ4. Да еще и карточек впридачу. Видишь, что уже за ночь и перекатиться успели. "Наверно, что-нибудь крутое обсуждают."
Заходишь в тред, а там...
Анон все еще вымаливает пресет, несмотря на то, что ему уже раза 3 дали наводку и два раза прислали сэмплеры
Магнумошиз меряется врамом и выебывается на анона, что поделился своей радостью с тредом (поздравляю с видюхой, анон!)
Бесконечная вечная битва Мистраля Лардж и Коммандера А
И это даже не выходные.

Тяжело вздыхаешь и закрываешь тредик.

Аноним 15/05/25 Чтв 16:24:23 № 1204029 40

>>1204023
Скорость нужна везде, и чтением промпта на теслах тоже не похвастаешься.
Агенты, боты, работа с большими объемами данных - все это требует скорости, там даже 30 т/с мало.
Ну и с кодом так же, скорость чтения нужна для обработки большого кода, скорость генерации с тсинкингом особенно, тоже должна быть хотя бы 15т/с

Аноним 15/05/25 Чтв 16:25:42 № 1204032 41

>>1204013
> параметры или квант?
аксиома Эскобара. модель с 228B но в кванте 1.58 бит будет генерить такую же хуйню, как и модель с 2.28B но в FP16
> разумные ограничения снизу
12B, Q4

Аноним 15/05/25 Чтв 16:26:58 № 1204034 42

>>1204023
Разумеется, это все лишь примитивная заготовка. Просто это хороший пример применения ллм в рабочем процессе.
> Или ты копипастишь из модели сразу в прод?
Не айтишник, и слава богу.
> Скорость нужна только в одном случае
Ну ты попробуй вместо типичного корпо-экспириенса даже в формате чата таверны что-то поспрашивать и поделать, когда у тебя обработка промта и генерация в 50 и 20 раз медленнее чем должна быть. Получишь такой незабываемый опыт, что пока эта херь пропердится - расстроишься и забудешь о чем спрашивал. Можно ставить работать фоном и делать другую задачу, но это очень напряжно и в сложных ситуациях будешь постоянно упускать мелочи и действовать неэффективно.
>>1204028
почесал за ушком "Не грусти, анонче, бывало и похуже"

Аноним 15/05/25 Чтв 16:27:32 № 1204035 43

>>1204028
Но при этом в треде ходят карточки которые и сбрасывает тот анон, который и запрашивает семплеры.
И единственный вменяемый ответ, это с симпл ван, за что тому анончику пасиба.

Иногда лучше молчать, чем писать то что ты собираешься делать, но не делаешь. Это будет честно.

Аноним 15/05/25 Чтв 16:32:18 № 1204045 44

>>1203970
>Да просто 3x3090 можно на обычной потребительской мамке завести на приемлемых скоростях (большой мистраль и его тьюны в кванте exl2 4.0bpw на 8-11т/сек)

Выглядит как маняоправдания, какое тебе там космическое железо понадобилось, райзер за 500 рублей лень что ли купить? Да даже если ты адепт х8 линий, то покупаешь копеечную майнерскую плату, тупо ставишь ее на стол и втыкаешь 5 карт (есть вроде даже на 8). Все, готово нахуй, старшие кванты ларжа\комманд-а\квен 235 в 10+ т\с на тарелочке.

>>1204029
Пока что единственные задачи для локалок, как показывает практика треда - это кум и переводы от мелкосеток. Зачем тут обсуждать кодинг и прочее ассистентское говно, если даже копрораты в них посасывают периодически? Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной?

Аноним 15/05/25 Чтв 16:34:09 № 1204049 45

>>1204045
> Выглядит как маняоправдания теслашиза
Дисклеймер к посту, насколько же это жалко.

Аноним 15/05/25 Чтв 16:34:47 № 1204051 46

>>1204045
>Пока что единственные задачи для локалок, как показывает практика треда
Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен. То что ты этим не занимаешься, не значит что никто этого не делает.

Аноним 15/05/25 Чтв 16:35:47 № 1204054 47

Это нормально что мне бот из Наруто выдал четвертую стену упомянув организацию "Акатсуки" - не имея при этом нигде её в карточке и вступительном сообщении?

Аноним 15/05/25 Чтв 16:36:13 № 1204055 48

>>1204049
У теслобоя жопа сгорела и вот мы тут

Аноним 15/05/25 Чтв 16:36:19 № 1204056 49

>>1203996
>то что мешает гонять command-a ?
То, что я его не скачал и не пробовал, лол. Как то времени нет. Гемма уже заведена, настроена и даже привычна.
>>1204003
>соя
Везде в той или иной мере, и везде обходится примерно одинаково.
>И вообще, ты сравниваешь 123 с 27, называя это наноразрывом, бредишь что ли?
Ты ещё йамл вспомни, целых 100B отборного говна! Поколения всё таки разные.
И да, чем больше сетка, тем меньше отдача, поэтому разница между 8 и 27 сильно больше, чем между 27 и 123 (минус 50 на старое поколение).
>>1204018
>А если рпшишь - разница уже значительна.
В пользу кого, лол? У геммы хорошая работа с контекстом, а не первые и последниеи 512 токенов, а на 10к между ними поебать.
>>1204023
>ты же понимаешь, что любой автокомплит кода тебе обязательно надо прочитать и осмыслить?
И это тоже в минус. Но 10 минут чтения против 10 минут чтения + 10 минут генерации это 2 разные вещи.
>>1204045
>Или вы тут все из йоба-НИИ-ФБР-ФСБ, что не дай бог ваш hello world увидят на серверах швитой\поднебесной?
Кстати, если по РАБоте, то обычно НИИ ХУЯ сами обеспечивают железом с моделью.

Аноним 15/05/25 Чтв 16:37:04 № 1204058 50

>>1204054
>Это нормально
Да, у модели есть знания о мире помимо контекста (ВНЕЗАПНО).

Аноним 15/05/25 Чтв 16:38:59 № 1204060 51

изображение.png 10Кб, 678x129

>>1204056
>не скачал
Через 15 минут исправлюсь, так уж и быть.

Аноним 15/05/25 Чтв 16:42:02 № 1204064 52

>>1204055
друг мой ньюфажный, детектить горелые жопы - плохой тон.
Я вообще уже не отвечаю, вы сами тут друг между другом выясняете кто пасасал писос.
Когда у меня сгорит жопа - поверь, ты узнаешь, я сам об этом скажу, как я сделал когда у меня карта сгорела.
А сейчас - поводов горения никаких нет.

Аноним 15/05/25 Чтв 16:42:40 № 1204066 53

>>1204060
То то же.
Я слежу за тобой >_>

Аноним 15/05/25 Чтв 16:43:55 № 1204068 54

>>1204066
>Я слежу за тобой >_>
Так это из-за тебя у меня скорость скачивания просела с тарифных 800 мегабит до жалких 500?

Аноним 15/05/25 Чтв 16:44:30 № 1204069 55

>>1204064
Шизик, у тебя сгорела жопа, потому что ты начал обзывать всех врамцелами и всячески пытаться повысить свою пострадавшую самооценку.
Если не хочешь что бы другие поняли что тебя что то задело - больше так не делай.
Как не виляй теперь жопой ситуация уже понятна и твои оправдания мне не нужны.

Аноним 15/05/25 Чтв 16:46:22 № 1204072 56

>>1204069
bruh...
температурку-то понизь, а то галлюцинируешь

Аноним 15/05/25 Чтв 16:46:52 № 1204073 57

>>1204055
Тред еще не начался, а сколько треша устроил. Нужно помнить базу >>1203803 и игнорить или хуесосить долбоеба, тогда успокоится.
>>1204056
> В пользу кого
Таки лардж. Гемма не плоха, для своего размера отличная девочка и в целом молодец. Но в сложных и запутанных чатах уже проскакивают оговорки и мелкие ошибки, которые если упустить быстро набегают снежным комом. Большой мистраль сохраняет сознание дольше и точнее подмечает некоторые мелочи. Кум сочнее, поговорить или разнообразить можно не хуже геммы, если не юзать всратые мерджи офк. Другой уровень внимания так просто не перебить поколениями, хоть модели начинают делать более детальные и проникновенные ответы, эта мишура быстро спадает, когда она не ориентируется в происходящем. Наилучший пример - дипсик, в рп часто не способен осмыслить свой же ризонинг.
> Поколения всё таки разные.
Где-то непобежденный опущ спрашивает у потомков, как они себя показывают в рп.

Аноним 15/05/25 Чтв 16:46:54 № 1204074 58

>>1204068
<_< Уже не слежу.

>>1204069
>>1204072
Горячие нейронные парни, ну серьезно. Стапх.

Аноним 15/05/25 Чтв 16:50:46 № 1204080 59

>>1204073
А как тебе немотрончик?

Аноним 15/05/25 Чтв 17:00:50 № 1204089 60

>>1204051
>Это лишь то что тут упомянули аноны, и тредом мир локалок не ограничен
Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм. Если есть задачи, которые тут не упоминали, значит это либо залупа говна, либо игрушка на пару вечеров.

>>1204056
>Везде в той или иной мере, и везде обходится примерно одинаково.
Ну-ну, копиус максимум
>Ты ещё йамл вспомни
Так мы говорим о хороших сетках, что это за проход в говно?
>минус 50 на старое поколение
Что блять, откуда эта шиза? Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров.

Аноним 15/05/25 Чтв 17:07:25 № 1204101 61

думал подрочу на терапевтическую гемму txgemma обмажусь лекарствами, но она оказалась каким-то лютейшим лупом слопа

Аноним 15/05/25 Чтв 17:08:26 № 1204103 62

>>1204074
>Горячие нейронные парни, ну серьезно. Стапх.
Трудно остановится и не пнуть шизика по больному месту

>>1204013
>Подскажите, пожалуйста, что важнее - параметры или квант?
Если у тебя влазит большая сетка в 4 кванте то бери ее, если не влазит то попробуй 3 квант.
Если и она не влазит/или начинает плохо работать, лучше взять модель поменьше в хорошем кванте, ну как то так.

>>1204089
>Зато аноны упоминали, что этот тред - фронтмен в русскоязычном коммьюнити ллм.
Кек, это очень маленькая часть общей комьюнити, она не показательна.

>Если есть задачи, которые тут не упоминали
Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе.

Аноним 15/05/25 Чтв 17:10:42 № 1204110 63

>>1204103
>Значит местные 2,5 анона о них не знают, либо просто не говорят. Ты просто не в курсе.
всё проще, значит это не стоит внимания по причине каловости, о чём и речь
>>1204089
два чая адеквату, всё верно расписал

Аноним 15/05/25 Чтв 17:12:52 № 1204113 64

>>1204080
Нраица, писал уже про него, не для всего но своя ниша есть. Вообще, примерно с 27б и если прощать ллмкам некоторые мелочи, уже начинается уровень комфорта. Когда не западло выбрать модель весом меньше просто потому что хочется примерно ее поведения, давно не использовал или она заходит под сценарий. Но ниже геммы как будто жизни нет, мистраль 24 так и не зашел, может неправильно его готовил.

Аноним 15/05/25 Чтв 17:14:29 № 1204116 65

>>1204110
>значит это не стоит внимания
2,5 анонов в этом чате, я так и сказал
Ты не передергивай, тут едва человек 100.
В англоязычной группе того же реддита около 500к членов. Это я не говорю про всякие группы в дискорде и других соц сетях, да и на гитхабе куча проектов с агентами или скриптами.

Ты анон в группе кумеров и их интересы не лежат в этой плоскости

Аноним 15/05/25 Чтв 17:20:15 № 1204128 66

>>1204060
> Q3
meh

Аноним 15/05/25 Чтв 17:21:37 № 1204130 67

>>1204128
Боярин, блять. Я тебя съем.

Аноним 15/05/25 Чтв 17:23:08 № 1204132 68

>>1204103
> это очень маленькая часть общей комьюнити, она не показательна
Где еще есть комьюнити? Хабр - протухшая мертвичина, там мало осведомленных адекватов, но много мнящих о себе теоретиков со знаниями из 21 года. Каналы в телеге - хайпожорство для шизов с шизами в комментариях.
Жизнь есть в группах/каналах немногочисленных разработчиков или тех, кто себя к ним причисляет, и в рабочих чатах цветных мегакорпов этой страны. Остальное - английский разной поломанности, часто с вкраплениями иероглифов.

Стоит отметить что многие местные по совместительству еще фрики, фетишисты, задроты и прочее прочее. Именно такие маргиналы часто двигают прогресс опенсорса и не только. То же справедливо и для англоязычного комьюнити.
>>1204130
Укуси его, можно предварительно не спрашивать.

Аноним 15/05/25 Чтв 17:28:40 № 1204139 69

Хотелось бы узнать какими модельками из последних пользуетесь? Какие ваши любимые? Может есть какие-то, которые вы можете выделить за хорошие ответы и некоторые другие за разнообразие ума несмотря на скудность общего качества?
У меня мощности небольшие, поэтому сижу вот на этом
>magnum-v4-22b.i1-Q4_K_S.gguf
И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя.

Аноним 15/05/25 Чтв 17:29:11 № 1204140 70

>>1204116
Ну так как это отменяет утверждение того анона? Куча каловых проектов с агентами и скриптами. Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили. Например, даже тут аноны спрашивали про всякие function calling. Ну и что в результате-то? А его нет результата, никаких восторженных отзывов в стиле "Аноны, это пиздец!!11 у меня свой джарвис на компе!!11". А вот куча срачей по поводу рп и куча восторженных скриншотов - это есть. Где проекты уровня силли таверн на так называемые "другие задачи которые мы всем тредом дружно не замечаем"? Их нет.

Аноним 15/05/25 Чтв 17:30:04 № 1204141 71

>>1204139
> И до сих пор пока получше не видел, если честно. Хотя эта моделька далеко не супер и часто срёт под себя.
Cydonia-v1.3-Magnum-v4 22b еще лучше

Аноним 15/05/25 Чтв 17:33:51 № 1204147 72

>>1204139
Короче, суть такова есть star-command-r. Хорошая модель.
Но тут такое дело

Я регулярно захожу в тред LLM на дваче, и каждый раз спрашиваю, есть ли семплеры на command-r. Каждый раз мне отвечают, нет. Я спрашивал уже раз 150 и 150 раз мне ответили нет. Смысл в том, что отвечает мне один и тот же анон, отвечает с неизменной интонацией. А я каждый раз с неизменной интонацией спрашиваю:
- Семплеры есть
- Семплеров нет.

- Я бы хотел увидеть твои семплеры, можешь поделиться?
- Извини, но я не хочу.

И ведь этот анон, зараза, знает меня идеально в лицо, знает, что я спрошу и знает, что он мне ответит. Но ещё ни разу ни один из нас ни жестом, ни словом не показал, что каждый из нас знает сценарий. Бывает анон спорит с очередным шизом, когдя я захожу в тред, тогда я пишу пару постов, посматривая за ним сквозь свои очки, он равнодушно заканчивает спор, пишет дежурный ответ и возвращается в тред:
- Что вы хотели?
- Мне нужны семплеры.
- Не дам.
- Жаль.

Это очень суровое, по-настоящему мужское противостояние, исход которого не ясен. Очевидно, что каждая сторона рассчитывает на победу. Впрочем, я уже согласен на ничью.

Аноним 15/05/25 Чтв 17:35:48 № 1204151 73

А вот Гусев зачем-то Гемму-12В затюнил. Непонятно зачем - она и так на русском хорошо отвечала. И уж совсем непонятно, почему он не взял 27В. Могла бы послужить основой для мержей нового уровня, а так вряд ли кто захочет.

Аноним 15/05/25 Чтв 17:37:48 № 1204154 74

>>1204140
>Ну так как это отменяет утверждение того анона?
Легко, так как утверждение не репрезентативно и основано на малой выборке.

>Куча каловых проектов с агентами и скриптами.
Это только твоя личная оценка, я считаю иначе.

>Суть в том, что если бы какие из них реально были полезны, а не игрушечны - в этом треде давно бы трубили.
Нопе, тут это быстро заглохло бы. Тут нет кроме пары человек тех кто что то писал даже про код. И я один из них. А ты хочешь про агентов и скрипты.

Тут сборище кумеров, рпшеров и других. По крайней мере это основные темы обсуждения. Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка.

Аноним 15/05/25 Чтв 17:41:02 № 1204164 75

>>1204147
Не дам.

Аноним 15/05/25 Чтв 17:42:23 № 1204166 76

>>1204164
Жаль

Аноним 15/05/25 Чтв 17:44:29 № 1204174 77

>>1204140
тут исключительно дрочеры, если нужен function calling - иди на реддит в r/LocalLLaMa

Аноним 15/05/25 Чтв 17:48:54 № 1204185 78

>>1204154
>>1204174
Ну вот вы не дрочеры, элита интернационального коммьюнити. Давайте, расскажите про стоящие проекты? Причем я сейчас без иронии или подъеба говорю, если они реально интересны, то может и другие аноны заинтересуются, и в шапку их добавят.

Аноним 15/05/25 Чтв 17:57:19 № 1204196 79

>>1204174
Я и дрочер, и программист-середнячок (мидл)
И ллмки для кода - это хуйня из под коня, даже Геминя и Жэпэтэ. Потому даже не отвечаю на это всё
А остальные задачи вроде перевода не интересны
мимо

Аноним 15/05/25 Чтв 17:59:05 № 1204197 80

>>1204185
> Давайте, расскажите про стоящие проекты?
Большая часть прикладные задачи, из тех что я пользовался :
1)Распознование картинок и файлов и их именование по их содержимому, и распредление по папкам по категориям
2) Я сейчас запилил проект для автоматической оценки переводов сеток, под 250 строк говнокода, работает долго, но результат мне уже дает.
Зачем? Надо.
Ну вобще мне интересно стало поработать с апи, агентами и было желание получить результат не тыкая руками.

Какой универсальный проект ты хотел? Это нужно подбирать из твоих нужд.
Если хочешь джарвиса то я видел штуки 3 похожих проектов, но они не впечатляли.

Вот cline в vs code, это агент и он может сам работать с проектом, есть так же аидер.
Это уже полноценные агенты, я знаю о них так как искал и мне было нужно, я пользуюсь.
А просто из баловства я и не искал.

Если тебе интересно то посмотри в сторону MCP протокола, там есть очень много вариантов программ которые можно соединить через сетку и наворотить что то свое, есть и готовые проекты.
https://github.com/modelcontextprotocol

Аноним 15/05/25 Чтв 18:01:22 № 1204199 81

>>1204166
На самом деле я с радостью скинул бы пресет, но он пока не до конца еще готов. Несмотря на то, что Коммандера я люблю всей душой, с сэмплерами у него все не так просто и однозначно. Особенно у Стар Коммандера. Потому я в поисках Святого Грааля, и времени мало впридачу. Доразберусь - пришлю такой же пресет, какой прислал к Немотрону пару тредов назад. Может даже Пиксельдрейн сделаю, чтобы это все не потерялось, ибо много что скидывал.

Запасай карточки. Это должен быть равноценный обмен.

Аноним 15/05/25 Чтв 18:10:45 № 1204214 82

>>1204199
Чем плох симпл 1 и какой у тебя систем промпт?

Аноним 15/05/25 Чтв 18:17:21 № 1204227 83

>>1204199
>Запасай карточки.
Фетиши на бочку. А то мало ли. Может тебе неторарки подавай, а может тебе для эпичного рп. А может ехал БДСМ через БДСМ.

Аноним 15/05/25 Чтв 18:18:03 № 1204230 84

>>1204214
Симпл 1 - отличный стартовый пресет. Но с Коммандером он не работает, имхо. Не разделяю мнение анона, что можно этой модели любые сэмплеры давать, и она не развалится. Наоборот: мне кажется, не встречал более чувствительной к сэмплерами модели. Тредов 10-15 назад обсуждал с анонами, когда только попробовал его.
Коммандер очень креативный и самостоятельный, но вместе с тем на нем легко словить форматлупы (структура предложений повторяется), персонажи могут повторять одни и те же слова. Когда это не происходит - все просто замечательно, но стоит напороться - нужно менять сэмплеры, выкручивать реп пен, или попросту вычищать контекст. Если поставить большой реп пен или еще как регулировать токены - Коммандер очень глупеет.
Потому я сейчас пытаюсь найти условную золотую середину, при которой он и креативен, и в лупы не уходит. Информации очень мало, даже в англоязычных коммьюнити мало кто использует Коммандера. Это любопытно в целом, там и про Сноудроп, и про ГЛМ мало кто знает. Такое ощущение, что все сидят либо на 12-22б, либо на 70б+ моделях. А здесь, кажется, в основном 32б - 24гб врам пользователи.

Аноним 15/05/25 Чтв 18:19:58 № 1204236 85

>>1204227
Ванильное мороженое. Главное, чтобы карточка была сделана с душой. Кстати, ничего в карточках так не решает, как Example Dialogue. В какой-то момент для себя решил, что без диалогов карточки попросту не стоит использовать.

Аноним 15/05/25 Чтв 18:21:21 № 1204240 86

>>1204236
Будет тебе сырок, будет.

Аноним 15/05/25 Чтв 18:22:46 № 1204246 87

>>1204214
Про систем промпт забыл ответить. С ним у меня тоже все сложно на Коммандере: он и к нему чувствителен очень. До сих пор не знаю, через стористринг его подавать или по старинке. Очень разные результаты даже от отного промпта, который подается разным образом. Да и сам промпт постоянно меняю...

Аноним 15/05/25 Чтв 18:24:36 № 1204254 88

>>1204089
>этот тред - фронтмен в русскоязычном коммьюнити ллм
Но отстаёт от англиков, увы.
>Ну-ну, копиус максимум
Да не так уж и сильно копить нужно. Префил это база и ломает 95% сеток остаётся майкрософт фи.
>Так мы говорим о хороших сетках, что это за проход в говно?
В момент релиза был таки неплох в отсутствии конкурентов, просто не доступен с теми инструментами и отсутствием адекватного квантования.
>Что блять, откуда эта шиза?
50 тут конечно чисто рандом, но поколения сеток вполне себе реальны и улучшения таки прослеживаются.
>Давай я скажу, что гемма - соевая параша, и это минус 10B к количеству параметров.
Имеешь право. Но минусани и ларж, он тоже нихуя не базированный в базе.
>>1204116
>В англоязычной группе того же реддита около 500к членов.
Там уже накрутки и боты идут. Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов.
>>1204128
Для больших сеток вполне себе вариант. Ларж я тоже в третьем кванте катаю, и только с 70B позволяю себе четвёртый. Всё таки 2х3090.

Аноним 15/05/25 Чтв 18:30:44 № 1204270 89

>>1202045 →
>Лучше qwen3 30b смотри, его можно даже на процессоре запускать и быстро
Быстро это насколько? 5 т\с или ниже? У меня сейчас 8 т\с

Аноним 15/05/25 Чтв 18:31:56 № 1204273 90

>>1204151
Гусев просто гранты зарабатывает и проедает, реально русик двигают другие.
>>1204196
База.
Мимо другой кодер.

Аноним 15/05/25 Чтв 18:35:49 № 1204283 91

>>1204254
>Там уже накрутки и боты идут.
Даже если там половина боты, то это все еще 250 тысяч человек

> Тут же может и не 100, но человек 30 за тред отмечаются, а всего через жернова системы прошло более 1000 анонов.
Так это за все время, а в один тред человек 100 максимум. И толку?

>>1204270
Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.

>>1204273
База, но с оговорками, малополезно для генерации кода за прогера.
Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Давай скажи мне как ты сам с удовольствием пишешь регекс

Аноним 15/05/25 Чтв 18:40:43 № 1204304 92

>>1204283
>Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.
У меня 5600 на 3600 памяти, но у меня 16 гб. Если я слои в видимокарту засуну, по идеи разделиться ноша, но тоже никудышно 16+6, пока скачал q3 квант на 14гб

Аноним 15/05/25 Чтв 18:41:01 № 1204308 93

>>1204283
> Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Соглашусь. Приятно новый стек осваивать, когда под рукой есть ллмка, что может проверить синтаксис или логический проеб в приведении типов, например. Но тут и обсуждать нечего, потому в треде не так много обсуждений ллмкодинга и смежных тем.

Аноним 15/05/25 Чтв 18:42:25 № 1204315 94

>>1204283
>Даже если там половина боты
90% не хочешь? Теория мёртвого интернета просто немного опередила своё время, но сейчас чертовски верна.
>И толку?
А какой тут может быть толк?
>Но вот анализ кода и подсказки по всякое ерунде это очень удобно
Ну да. Но тут уже нужна скорость. И не нужны функшн кал линг и прочие обвязки.
>Давай скажи мне как ты сам с удовольствием пишешь регекс
Я ждисоны перекладываю да пункты в выпадающие списки добавляю, получаю нищенские 200к и на том рад.
>>1204308
>Приятно новый стек осваивать
Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду. Сижу пержу, половина десятилетней давности всё ещё актуальна.

Аноним 15/05/25 Чтв 18:43:42 № 1204320 95

>>1204315
> Кстати, нахуя? Сижу на PHP уже 15 лет, нововведений за год меньше, чем в жабаскрипте за наносекунду.
Ну, я молодой еще :D
Многого не знаю, 25 лет всего. Плюс Шарпист, и локомотив Дотнета пока не останавливается. В качестве хобби игровые движки ковыряю, там тоже много нюансов.

Аноним 15/05/25 Чтв 18:43:46 № 1204321 96

>>1204283
>Зависит от твоего компуктера, до 20 т\с генерации в начале, на 8 средних ядрах и средней 32гб рам.
Нифига, это такое возможно?
Думаю может 64 Гб воткнуть и на проце тогда всё генерить? У меня модельки на моей видюшке то полностью загруженные 22b 4k со скоростью примерно такой же генерят.

Аноним 15/05/25 Чтв 18:48:35 № 1204331 97

>>1204304
Кочай UD кванты, с выгрузкой будет быстрее но там тоже есть нюансы

>>1204315
>90% не хочешь?
Да че уж там, давай сразу 99%, не стесняйся

>>1204321
Там и быстрее может быть если у тебя современный процессор и ддр5, что то около 40т/с.
Там довольно быстро падает скорость, на 16к контекста уже 10-8 т/с генерации останется от 20.
Но опять же, это чисто CPU без выгрузки.
С выгрузкой все веселее, в том числе с чтением промпта

Аноним 15/05/25 Чтв 18:48:38 № 1204332 98

>>1204320
>Плюс Шарпист, и локомотив Дотнета пока не останавливается.
говноедище....

Аноним 15/05/25 Чтв 18:51:55 № 1204337 99

>>1204332
Чё, Рихтера не освоил? Ну бывает, бывает.
Обид не держу.

Аноним 15/05/25 Чтв 18:55:27 № 1204341 100

>>1204337
Я такого только пианиста знаю
мимо

Аноним 15/05/25 Чтв 19:00:31 № 1204348 101

Кумеры, прячемся по норам. Погромисты зашли в тред, скоро они начнут гладить друг другу бэкенды. Берегите жёпь.

Аноним 15/05/25 Чтв 19:02:04 № 1204349 102

>>1204348
Мы и есть кумеры. Тебе некуда бежать.

Аноним 15/05/25 Чтв 19:03:41 № 1204353 103

>>1204240
Ты не спеши только. Это раньше выходных будет. Пришлю пресет - пришлешь карточки. Место и время встречи знаешь, и чтоб без хвоста. Иначе сэмплеры выкручу куда не надо.

Аноним 15/05/25 Чтв 19:04:08 № 1204354 104

Не раньше*
Т9...

Аноним 15/05/25 Чтв 19:12:47 № 1204361 105

>>1204304
UD-IQ не бери, IQ только для фулл видеоркат. Они медленные на процессоре или с выгрузкой

Вот твой выбор:
Qwen3-30B-A3B-UD-Q2_K_XL.gguf
Qwen3-30B-A3B-UD-Q3_K_XL.gguf

Аноним 15/05/25 Чтв 19:13:13 № 1204362 106

>>1204349
Живым не возьмете. По одному, падлы, по одному.

>>1204353
На самом деле и с карточками все не так просто. Я как ролевик начинавший с ad&d имею специфичный метод ролеплея. Как раз я противник примеров диалога : и вот почему. Характер это не - аааах, ты такой большой и не nya анон я кошкодевочка - характер это прежде всего теги. Большинство нейронок увидев пример диалога будут хуярить по нему весь текст. Поэтому я поступаю следующим образом. Всегда есть в чате сообщение, которое содержит краткий отдельный синпосис поведения и сюжета, обращенного к системе. К примеру в случае Ремилии Скарлет - нужно отразить, что это харизматичная вампиресса в теле девочки, которая нихуя не девочка и режим ребенка может пропасть.
Поэтому я периодически, в основном после суммарайза (тут главное не суммировать это сообщение) делаю обращение, в духе ООС соблюдай написанное в сообщении 6. Потому что персонаж может устать, он может быть болен и прочее. А ллмке похуй, она все будет шпарить по шаблону, а значит шаблона быть не должно.

Аноним 15/05/25 Чтв 19:16:04 № 1204365 107

>>1204361
Я запустил, достаточно быстро как для 30б, на 18 слоях, но блять.. У нее есть think, так и должно быть или я проебался в чем-то как сделать, чтобы он не выводился мне

Аноним 15/05/25 Чтв 19:17:07 № 1204366 108

>>1204362
Дополню : вот моя любимая карточка, это спизженная с чуба карточка Валери, которая как Красная Шапочка, только нихуя не шапочка. И я там с ней такому гримдарку придаюсь, с экзистенциальным кризисом и страданиями.
Но она весьма кумерская, но иногда я хочу делать шаг в сторону каннибализма, иногда в сторону жесточайшего фемдома, иногда в спасение её от самой себя, иногда в темный лес. И чтобы не ебаться с изменением, я делаю краткое направление в котором надо идти.
И кстати именно тут гемма начинает ебать мистраль так, что алгоритмы трещат. Именно поэтому она умница, а не потому что может в русский.

Аноним 15/05/25 Чтв 19:18:22 № 1204368 109

>>1204365
Добавь в конце сообщения или в карточке /no_think
После этой команды она будет придерживаться простой генерации
Переключиться обратно /think
Удобно сделали, еще бы в таверну рубильник добавили

Аноним 15/05/25 Чтв 19:20:08 № 1204373 110

>>1204362
Важно в системном промпте и/или стористринге обозначить, что это всего лишь пример. Если системный промпт чуть сложнее, чем 100-200 токенов (aka отыгрывай ролевую игру за персонажа), то все будет работать как положено. Не будет твердой привязки к примерам диалога. У меня была кум карточка, в example dialogue поле которой реплики, в которой персонаж почти что домогается юзера, со всеми красочными описаниями. В итоге в ходе ролевой игры персонаж от этого отказался спустя 20 сообщений, никак это не мешало в дальнейшем. Игра в итоге свелась к обычному сфв слайсу.

Почему я считаю важным использовать примеры диалога? Потому что без них модели труднее держать характер персонажа. По моему опыту, примеры работают гораздо лучше тегов или описаний. Реплики должны быть именно такие, которые отражают характер персонажа. И более того, имхо, если примеров диалога нет - все персонажи разговаривают одинаково. Как им ни задавай в описаниях акценты или особенности речи/мышления. Они следуют самым популярным токенам в датасете, и все тут.

Аноним 15/05/25 Чтв 19:23:24 № 1204383 111

image.png 62Кб, 841x147

>>1204368
Я поставил, но все равно серет think'ом

Аноним 15/05/25 Чтв 19:23:46 № 1204386 112

>>1204373
> Потому что без них модели труднее держать характер персонажа
Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление.
Но я попробую для тебя, мне это кажется интересным попробовать. Посмотрим что потом анонсы о карточках скажут.
И тут кстати, неиронично помогают корпосетки, чатжпт ебет когда ему правильно задать вопрос, чтобы он помог сформировать пример.
Потому что та же Ремилия вообще в оригинале на японском общается, а там решает структура японского языка, которую сложно передать. Но чатжпт умненький. Он вывез составление.

Аноним 15/05/25 Чтв 19:25:39 № 1204389 113

>>1204373
> примеры диалога
Это важно, кто спорит то? Но их придумать и написать сложнее чем всю карточку. Даже из генерации выдернуть тот еще квест, надо ведь как ты и описал попадание в характер

>>1204383
Так и будет, это он считай не генерирует ничего. Скрой это в настройках или можно скрипт настроить на удаление
Настройки размышления ищи в 3 вкладке таверны, в А
Какая хоть скорость получилась? При запуске выбирай все ядра процессора ну или -1, считая без гипертрединга

Аноним 15/05/25 Чтв 19:27:41 № 1204393 114

>>1204366
>вот моя любимая карточка
"вот" это где? Спиздил - дай и другим попользоваться.

Аноним 15/05/25 Чтв 19:29:54 № 1204396 115

>>1204393
Поищи в прошлых тредах ссылки на mega.nz это исключительно мои посты. Там мне еще ответили что то в духе : спасибо солнышко, или чет такое. Но я буквально всю папку просто по тегам раскидал и ремильки там, вроде нет, но Валери должна была быть.

Аноним 15/05/25 Чтв 19:36:48 № 1204402 116

>>1204386
> Вооот, именно поэтому я и использую отдельное сообщение как чат указание, потому что предпочитаю ручное управление.
Что в очередной раз подтверждает, что правильного ответа нет. У каждого свой.
Ну в любом случае, вырезать примеры диалога легче, чем их добавить.
>>1204389 прав, что их не так легко придумать и написать.

Аноним 15/05/25 Чтв 19:39:19 № 1204405 117

image.png 12Кб, 1103x90

>>1204389
Нормальная скорость, только мне кажется это фейковые 30б, хотя пока не проверял. У меня на 12б хуже, сейчас запустил 20 слоев, 8к контекст и все остальное на цпу. think я поидеи скрыл, а может и нет, но сейчас просто показывает <think> /<think>
>При запуске выбирай все ядра процессора
Я всегда делаю 8 ядер на модель и 4 на blas, это много? Лучше просто повысить блас наверное, чем ядра ставить на него

Аноним 15/05/25 Чтв 19:44:11 № 1204413 118

>>1204362
Какой промпт юзаешь для суммарайзинга? У меня все в какое-то говно превращается по типу

ГЛАВНЫЙ ГЕРОЙ ТАКОЙ КРУТОЙ ВОТ ОН КОРОЧЕ ИДЕТ ПО КОРРИДОРУ И...
следующий абзац
И ТУТ В ПОМЕЩЕНИЕ НЕБОСКРЕБА ВРЫВАЕТСЯ ОГРОМНАЯ КРЫСА НА ТОРПЕДЕ
следующий абзац
В ТОТ МОМЕНТ КОГДА ГЕРОЙ НАКОНЕЦ ДОХОДИТ ПО КОРРИДОРУ

Я просто заебался с этой хуйни уже, будто проще и быстрее вручную накидывать. А еще с некоторыми моделями при суммарайзинге у меня там почему-то появляется /think и полотно текста.

Аноним 15/05/25 Чтв 19:46:18 № 1204419 119

изображение.png 18Кб, 920x95

>>1204405
>только мне кажется это фейковые 30б
Ну там мозги уровня qwen3 14b, но быстрее.
Учитывай что у тебя так себе квант, 4 квант получше был бы.
Блас как раз таки можно либо равным ядрам модели либо все гиперпотоки туда кинуть, если на видеокарту не скидываешь. Но ты можешь просто оставить равное ядрам.
А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6.
Так как на пикче сделай и будет скрывать, только плашка останется размышлений.

Аноним 15/05/25 Чтв 19:48:53 № 1204427 120

>>1204413
Руки.
Я же пишу, не стоит на меня равняться, потому что я ролевик и дм. С чашечкой кофе я пишу только то, что мне нужно, убирая хреновые события и тропы, или вырезая кум сцены - заменяя на сухое и они поебались - потому что суммарайз работает как говно.
Лол, анон, у меня в чате часто мои сообщения больше того что выдает ЛЛМ.

Аноним 15/05/25 Чтв 19:50:36 № 1204429 121

>>1204427
Понял, целую.

Аноним 15/05/25 Чтв 19:50:36 № 1204430 122

>>1204427
В самом деле интересно, что ты подумаешь о Коммандере. Какие у тебя сейчас любимые модели? (Кроме, как я понял, Геммы)
Я не дмю с ллмками, но люблю быстрое и креативное развитие нарратива. В этом он мне нравится больше всего того, что пока что пробовал.
ГЛМ еще распробовать надо, правда.

Аноним 15/05/25 Чтв 19:52:08 № 1204431 123

>>1204419
>Учитывай что у тебя так себе квант, 4 квант получше был бы.
Попробую скачать и попробовать 4 квант, но позже
>А зачем ты 8 ставишь? У тебяж 6 ядрер. Ставь 5 или 6.
Потоки же тоже учитываются, разве нет?
>Так как на пикче сделай и будет скрывать, только плашка останется размышлений.
Я поставил blank сейчас во все пропал think, что мне и нужно было

Я почему подумал, что 30б тут фейковые; к примеру гемма 27б или мисталь 22б, они у меня грузились вечность и на 1-2 т\с, потому что много слоев и большой вес модели. А тут быстрее 12б

Аноним 15/05/25 Чтв 19:57:05 № 1204440 124

>>1204431
Просто тут мое архитектура нейросети, она быстрая но большая.
Не, на генерацию стоит только реальные ядра ставить а то и -1 от ядер, тоесть попробуй 5 или 6 и что будет быстрее то и оставь.
Потоки только при блас учитываются, это обработка контекста. Но у тебя видеокарта и кеш обрабатывается там, так что забей на блас, ставь 5-6

Аноним 15/05/25 Чтв 19:58:54 № 1204444 125

>>1204430
Ну, пожалуй - цидонька, но только 1.2 - была самый сок.
Пантеон по сути такой же. Мистраль работящая, уже устарела, так что тут синдром утенка.
Айя, хороша была. Сноудроп, подключение ризонинга в сложных сценах и мысли персонажа порой делают кассу.
Некоторые модели дэвида, но там нужно названия смотреть, сходу не назову. У него они все evil_darkness_planet_destroyer.
Гемма как наратор вообще шансов цидоньке не оставила, увы.
Ну и кучи всяких мержей. Два тредрвичка, что пилили модели, подарили мне много часов качественного, но довольно простого РП, их тоже нужно отметить.

Аноним 15/05/25 Чтв 20:06:47 № 1204458 126

>>1204440
>так что забей на блас, ставь 5-6
Я не понял. Я поставил на генерацию -1, в консоле выбралось 5 ядер. И поставил на блас 5 ядер.
>ставь 5-6
То, что 5-6 это только на генерацию, а блас не трогать и не писать кол-во ядер, это ты имел в виду? Извиняюсь за тупой вопрос

Скорость примерно та же как при 8 ядрах/потоках? в генерации

Аноним 15/05/25 Чтв 20:10:01 № 1204464 127

>>1204458
>Я поставил на генерацию -1
Да, и в балс так же. Можешь сравнить с 6 и выбрать что будет быстрее.
Генерация быстрее от гиперпотоков не станет, тоесть тебе на генерацию больше 6 смысла нет ставить, может даже медленнее быть, там уж сам у себя смотри

Аноним 15/05/25 Чтв 20:11:34 № 1204467 128

>>1204464
А то есть, то что я пишу 6 на генерацию и 6 на блас, это оно разделяется на одни и те же ядра. Я просто думал, если я пишу 6 в генерации это ядра, а если еще раз 6 то это потоки

Аноним 15/05/25 Чтв 20:13:09 № 1204471 129

Касательно карточек, если кто что-то для себя пилит, используйте гопоту. Если дать нормальные описания, не в одну строку, гопота вам сделает замечательно. Вот буквально за пару предложений - выдала примеры диалогов на Ремилию Скарлет.

🎀 Аристократия и гордость
"Ты в присутствии графини. Разве тебя не учили кланяться перед знатью?"

"Я — Ремилия Скарлет, владычица этого особняка. И моё слово — закон."

"Глупо полагать, что человек может сравниться с вампиром. Тем более — со мной."

🩸 Вампирская природа
"Твой страх так... ароматен. Не волнуйся, я всего лишь поиграю с тобой."

"Я не пью кровь тех, кто меня не забавляет. Так что постарайся развлечь меня."

"Тебе повезло, что я не голодна. Сегодня ты всего лишь гость."

🦇 Капризность и инфантильность
"Опять солнце… Почему оно вечно мешает мне веселиться?!"

"Сакуя, я хочу пирожные. Прямо сейчас. И чтобы клубника была свежей!"

"Почему мне всё время приходится всё решать самой?! Разве я для этого рождена?"

🕊 Харизматичная угроза
"Некоторые зовут меня воплощением несчастья. Я предпочитаю ‘достойной опасности’."

"Я могу стереть твоё существование одним взмахом руки… Но не буду. Пока что."

"Мир слишком скучен без тех, кто боится тебя."

Можно сравнить с её диалогами из игры

https://en.touhouwiki.net/wiki/Touhou_Hisoutensoku/Translation/Remilia%27s_Script

Аноним 15/05/25 Чтв 20:15:00 № 1204474 130

>>1204467
>это оно разделяется на одни и те же ядра.
Оно в любом случае по очереди работает, так что выбирашь ты только то количество потоков которое собираешься выделить генерации и блас.
Ну и как я говорил на генерации нужно ставить только количество ядер, тоесть не 12 как все потоки а 5-6
Почему 5 или 6? Потому что некоторые системы быстрее работают на 5, на 6 может тормозить. Вот потыкай и выбери сколько поставить, как ты понял стандартно кобальд ставит -1, тоесть 5

Аноним 15/05/25 Чтв 21:01:05 № 1204520 131

image.png 3Кб, 606x50

Подскажите модель в пределах 4-12B~, которая способна на русском (много смех) не шизануть на контексте примерно 64К. Чтобы эта тварына уделила внимание контексту и реально перемолола, вычленила нужные мне вещи из жирного, плотного текста. Если такая модель существует и вы имели опыт работы с такими моделями или слышали что-то краем уха. Хотя бы теоретически рабочее. А то я локалками пользуюсь, но совсем маленькие не щупал.

Какие-то неправильные окончания в русском языке - это не страшно. Главное, чтобы не бредила модель.

Инпут будет примерно 50К токенов. Модель должна с контекстом хорошо работать.

Разумеется, это не какая-то кумерская, а чисто техническая хуйня без всяких творческих полётов фантазий. Модель должна вычленять нужные мне факты вилкой, ну так, раз-раз-раз.

Гемма 12B здесь не подходит: у меня 12 VRAM, память DDR4. Ответ от неё буду ждать до второго пришествия, а квантовать кэш недопустимо, особенно на таких больших последовательностях. Плюс придётся вязть четвёртый квант самой модели в таком случае. Ну и смотрите пикрелейтед от геммочки.

Я на регулярной основе пользуюсь корпами для таких задач, но когда такой возможности нет, а надо срочно, разрыв жопы тотальный.

Если уже 1-2 токена в секунду будет, то это может оказаться терпимым.

Аноним 15/05/25 Чтв 21:05:11 № 1204529 132

>>1204520
Глянь квен на лям
Qwen2.5-7B-Instruct-1M
Ее тренили на большой контекст, может и переварит такой большой без потери внимания

Аноним 15/05/25 Чтв 21:09:25 № 1204537 133

изображение.png 1Кб, 336x32

Вот почему нужны быстрые сетки для агентов или скриптов.
И это сетка на скоростях 19 ток/с которая тратит на чтение только едва 2 секунды за запуск.

Аноним 15/05/25 Чтв 21:38:44 № 1204572 134

>>1204467
Попробуй еще с 0 слоев запустить, что бы только кеш был на видеокарте, может быть быстрее

Аноним 15/05/25 Чтв 21:56:22 № 1204580 135

24.png 8Кб, 426x141

Выходит вот база для 24гб врама на сегодняшний день?

Аноним 15/05/25 Чтв 21:56:49 № 1204581 136

Есть возможность накатить локально соннет? Где-то есть модель?

Аноним 15/05/25 Чтв 21:57:35 № 1204583 137

>>1204581
Да, на 1050 запустил с оффлоадом в рам
Скорость маленькая но жить можно в целом
Загрузил с какого-то Иранского сайта

Аноним 15/05/25 Чтв 21:57:57 № 1204584 138

>>1204581
Конечно, устраиваешься на работу к антропикам - соннет твоя локальная модель

Аноним 15/05/25 Чтв 22:01:38 № 1204589 139

>>1204581
Покормлю зеленого.

Нет, нельзя, ни одной корпосетки не существует в открытом доступе, потому что они, ты не поверишь, не оупенсорс.

Аноним 15/05/25 Чтв 22:03:12 № 1204593 140

>>1204471
Кидай всю карточку, чтобы оценить и чтобы я трахнул лоли вампиршу

Аноним 15/05/25 Чтв 22:07:22 № 1204601 141

>>1204593
Конечно, держи анон.

https://chatgpt.com/ - наслаждайся.

Будь добр, читай внимательно пост. Это не карточка, а пример диалога, для тех кто пилит, как совет использовать гопоту.

Аноним 15/05/25 Чтв 22:08:58 № 1204604 142

>>1204589
>ни одной корпосетки не существует в открытом доступе
Дипсик смотрит на это заявление с недоумением.

Аноним 15/05/25 Чтв 22:11:39 № 1204607 143

>>1204604
Справедливо. Я про него не подумал.
Но опять же, его смертным не запустить, даже боярам. Так что проигнорируем кита.

Аноним 15/05/25 Чтв 22:14:35 № 1204610 144

>>1204140
>>1204154
Частично правы оба. Тут комьюнити прежде всего консьюмеров, но потреблять научились, за срачами много интересных обсуждений. Западные консумеры - днище донное, местные хотябы примерно понимают как работают семплеры, чем мердж отличается от тюна и кто такой Жора. Нет смысла апеллировать к этим миллионам мух.
Что касается чуть более продвинутых направлений, например тех самых "конструкторов агентов" и всяких последователей унди - их уровень тоже очень низко. Там нет понимания что они делают, знаний и необходимого бекграунда, просто как из кубиков собирают и делают бесчисленные попытки, как работяги в aicg треде подбирают жб.
С другой стороны, охват треда довольно узкий, некоторые вещи действительно не вызывают интереса. Из всех ллм тренировали 3.5 человека, и то два с орочьим подходом по пошаговой инструкции. Про сколь-нибудь приближенное к рабочему применение осведомлены единицы, а для большинства это просто чат с ассистентом.
Сравнивая с западно-восточным, там действительно больше выхода на более-менее квалифицированных людей, или даже местные в основном обитают там же и ведут англоязычные каналы для большего охвата.
> Если кто тут и спрашивал про функциональный вызов то не получив ответа он ушел, вот и вся разгадка.
Да не надо, был ответ про это вполне содержательный. Задавая узкоспециализированный вопрос не стоит ожидать на него мгновенного хорошего ответа.
>>1204197
> 1)Распознование картинок и файлов и их именование по их содержимому
Не самая свежая тема, если не сказать хуйта. Классификаторы и детекторы - один из самых популярных примеров, которые проходят на различных курсах. Работа с ембеддингами из текстовой/визуальной информации - чуть более продвинутое, но из той же оперы.
> для автоматической оценки переводов сеток
Каким образом интересно? Вангую что сводится к серии простых запросов к ллм
> Это уже полноценные агенты
Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата. Их можно выстраивать в серию и реализовывать просто примитивным кодом или в составе какого-нибудь фреймворка.

Аноним 15/05/25 Чтв 22:20:22 № 1204615 145

>>1204589
>Нет, нельзя, ни одной корпосетки не существует в открытом доступе
Печально. Единственная модель пока, которая умеет писать адекватные тексты на русском с рифмой и сюжетом.

Аноним 15/05/25 Чтв 22:22:14 № 1204617 146

>>1204254
> Но отстаёт от англиков, увы.
В чем?
> Но минусани и ларж
Магнум и еще парочка тюнов.
>>1204349
Based
>>1204362
> и не nya анон я кошкодевочка
Это и есть главное.
А хуярить по нему будут только говномерджи мелкого мистраля, потому что нормальные примеры диалога предусматривают запрос-ответ или серию, где понятен контекста.
>>1204471
Хуйта для неофитов, скинь в aicg чтобы поржали.
>>1204580
Все правильно.

Аноним 15/05/25 Чтв 22:24:31 № 1204620 147

>>1204615
Да. Корпосетки крутые и на голову превосходят все локальное.
В них влиты миллиарды вечнозеленых. Довольно глупо надеяться, что кто то отдаст бесплатно. Не, если бы слили последнюю гопоту, то я под неё риг и собрал бы. Но мечты остаются мечтами.

Аноним 15/05/25 Чтв 22:24:48 № 1204621 148

>>1204610
>Классификаторы и детекторы
Там были именно локалка и мультимодалка в паре, было забвно поковырятся

>Каким образом интересно?
Смотри пикчу выше. Есть текстовый файл с 4 примерами на английском, они по одному дергаются и с разной температурой отправляются с промптом в сетку переводчик.
Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку.
Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой.
В конце сводится рейтинг 1 текста по всем температурам где больше оценка.
Когда прожует все тексты, в конце находит среднюю оценку по 1 температуре и пишет их в порядке убывания по оценке.

>Тут проблемы понимания/терминологии. Агентами обобщенно называют просто оформленный запрос, который по некоторому исходнику дает конечный результат путем формирования промта и обрабортки результата.
Это бот, агент принимает решения чем меняет свое поведение. Тоесть его поведение может ветвится. Бот это как раз серия вызовов.
У меня кстати бот, так как ветвления нету.
Но да, вся эта терминология не четкая и еще не устаканилась

Аноним 15/05/25 Чтв 22:26:31 № 1204624 149

>>1204601
>Это не карточка, а пример диалога,
Я думал ты всю карточку запилил, а скинул только диалоги
>https://chatgpt.com/ - наслаждайся.
Гопота и наслаждайся не могут быть в одном предложении

Аноним 15/05/25 Чтв 22:28:02 № 1204626 150

>>1204617
> Хуйта для неофитов, скинь в aicg чтобы поржали
Обойдемся без привлечения филала ада.
> Это и есть главное.
Задавай приоритеты, ёпта. Вам нахуя структуру промтинга дали, чтобы на неё смотреть ?

Аноним 15/05/25 Чтв 22:32:51 № 1204627 151

>>1204621
> Там были именно локалка и мультимодалка в паре, было забвно поковырятся
Что за задача? Выглядит как неоптимальное и перегруженное решение.
> Дальше ее ответ вместе с оригиналом посылается внутри инструкции судье. Он по большому и четкому промпту оценивает соответствие перевода оригиналу, пишет оценку.
> Потом ответ судьи так же умной сеткой суммаризируется в пару предложений с оценкой.
Это погода на марсе если только нет явных проебов. Волею случая сам занимаюсь оценкой/переоценкой результатов ллм, обнаружить некоторые фейлы и исправить их - может, а вот провести объективную и точную оценку - без шансов. И это на йоба корпосетках. Не говоря о том, что опрос даже разных людей даст разные результаты.
Подход описан понятно, но он очень далек от объективности, если только судьей не выступает йоба сетка, оценивая микромодели менее 1б.
> агент принимает решения
Он ничего не принимает, это лишь вариант реализации вложенных агентов, который оформлен в виде конечного интерфейса.
> Это бот
Бред
> терминология не четкая и еще не устаканилась
Только этим можно оправдать, но типичное применение уже оформилось. Бот - система чата для конечного пользователя, а уж что там он делает внутри - не важно.

Аноним 15/05/25 Чтв 22:33:05 № 1204628 152

>>1204624
Карточки по популярным персонажам легко пилятся самими сетками, на то они и популярные. Ты не можешь найти карточку ремилии ? Их на том же чубе вагон и маленькая тележка.

> Гопота и наслаждайся не могут быть в одном предложении
Нормальная корпосетка, можно конечно быть нитакусиком, но смысл. Каждому инструменту свои задачи.

Аноним 15/05/25 Чтв 22:36:00 № 1204629 153

>>1204626
Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж.
> Задавай приоритеты
Кошкодевочки в приоритете.
> структуру промтинга
Где? Копиумная хуйта из под всратой нейронки с ее подобием, не более. Примеры диалога предусматривают именно диалог, а не набор всратых фразочек.
>>1204628
> Нормальная корпосетка
Щит тир для рп и релейтед, объективно.

Аноним 15/05/25 Чтв 22:38:02 № 1204630 154

>>1204580
Что значит база? Ты просто скинул модели, которые влезают в 24гб и все
>коммандер
Есть ценители
>гемма
Срач по ее поводу в каждом блять треде как бы намекают что модель спорная
>glm
Зачем?
>немотрон
Недавно отрыли и зафорсили, но хз насколько годнота
>сноудроп
Годнота
Еще можно тюны мистральки, на 24гб будет хороший квант и контекст, но это будет на любителя кума и лупов

Аноним 15/05/25 Чтв 22:39:26 № 1204631 155

>>1204630
> Что значит база? Ты просто скинул модели, которые влезают в 24гб и все
На Реддите половина очень многие люди с 24 гб даже не знают про эти модели и гоняют Мистрали 22-24б.
Олсо есть плохие тюны QwQ и тюны квенов. Есть гораздо больше моделей в пределах 32b/24гб врама. Но анон базу прислал, да.

Аноним 15/05/25 Чтв 22:43:07 № 1204635 156

>>1204627
>Это погода на марсе если только нет явных проебов.
Там 10 бальная оценка в ответе судьи по нескольким критериям, которая им же выделяется в итоговую числовую оценку. Суммаризация сохраняет оценку и краткое описание.
Пока все работает, конечно точность +- лапоть, но с тсинкингом например хорошо идет. Без него чуть хуже, но тоже работает
Чем проще задача и чем предсказуемее ответ сетки на инструкцию тем лучше все эти агенты работают.

>Он ничего не принимает
Ну вот ты пользуешься какой то другой терминологией, я даже не удивлюсь что эта более правильная чем моя.
Я кстати хоть и назвал ботом но забыл слово, помню только что было разделение агентов и кого то еще. Тех что просто выполняют цепочку запросов.

Аноним 15/05/25 Чтв 22:48:37 № 1204644 157

>>1204629
>Филлиал ада конечно да, но у тебя там рили ерунда крайне сомнительная, которая будет лишь множить слоп и всратые ответы. Называть это примерами диалога - максимальный кринж.

Буквально рандомный пример, о чём я и написал.
Но можешь запустить 6 тоху и сам посмотреть на то как она говорит. Добавляешь структуру
{{user}} {{char}}, тегаешь эмоциями.

А чтобы не было слопа, не добавляй сиски писик в промт.
Сначала понаставят больших членов, а потом удивляются, что модель их везде пихает.

>Щит тир для рп и релейтед, объективно
А зачем кумить на гопоте ?

>Кошкодевочки в приоритете.
Ккккотоёб !

Аноним 15/05/25 Чтв 22:50:00 № 1204647 158

Аноны, влетаю с ноги в тред с тупым вопросом: почему локально модели выдают хуйню, а такие же модели на Autorouter и qwen chat работают заебись? Пытаюсь решать задачу поиска по тексту с помощью Qwen3 8B/14B (возможно зря, но это экспериментальная хуйня для меня), и когда кидаю вопрос (вида "найди в тексте строки с Х и верни их") и простыню текста в чатик на вышеупомянутых платформах - искомую инфу находит, локльно - высирает кучу "аналитики" моей простыни, но искомые строки даже не упоминает. Настройки чата, видимые в Autorouter, пытался воспроизводить, но безуспешно. Это норма? Я всрал какой-то этап первоначальной настройки и без неё модели всегда хуйню пишут? Использую кванты Q5 и Q6.

Аноним 15/05/25 Чтв 22:51:14 № 1204650 159

>>1204647
Забыл написать - локально запускаю в ollama с open webui

Аноним 15/05/25 Чтв 22:52:18 № 1204652 160

>>1204647
>ollama
выкинь каку, запускай для начала нормально

Аноним 15/05/25 Чтв 22:53:21 № 1204655 161

>>1204529
Спасибки.

А, там же вроде ещё маленькая гемма была.. 4б вроде. Но контекст у неё, наверное, такой же жирный. Так что сначала квен попробую.

Аноним 15/05/25 Чтв 22:53:33 № 1204656 162

>>1204652
А это влияет на качество вывода модели, не только производительность?

Аноним 15/05/25 Чтв 22:55:45 № 1204660 163

>>1204656
Там может до тупого доходить - оллама например стандартно только 4к контекста запускает, если ты не менял то не удивляйся что простыню не может обработать.
Там могут быть сломанные кванты, кривые семплеры и еще хуй пойми что.
Скачай кобальд и запускай в нем, у него есть веб интерфейс или подключайся с таверны

Аноним 15/05/25 Чтв 22:57:35 № 1204661 164

>>1204635
> Там 10 бальная оценка в ответе судьи по нескольким критериям
Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи.
Для понимания простой пример - модель, что дала дохуя художественный перевод и максимально точно передала смысл и настроение может быть оценена соевым судьей плохо, и наоборот порожденные дословные надмозги высоко котироваться. Ллмки при такой оценке могут даже доебаться до
> в оригинале там aqua, но в переводе - голубой вместо лазурного
и это очень сложно/невозможно побеждать. Более менее работает только при двух-трех-четырех вариантной оценке, типа "точно-есть ошибки-херня", никаких десятибальных.

Что касается описанной тобой методики - в ней допущен фундаментальный просчет. Нет смысла делать такоую оценку при разных температурах, погуглил бы хоть как семплинг работает. Если убрать за скобки уровень судьи и принять его объективным, то нужно брать хотябы десяток переводов на одной температуре (чем она выше тем больше и наоборот) и усреднять оценку по ним. По одному варианту с разными - ерунда полная, ведь оно может как ультануть, так и зашизить, что полностью компрометирует оценку по единственному варианту из множества.
> конечно точность +- лапоть
Ну блин, в этом вся суть. Можно снижать градации для повышения их точности, но наращивать тестируемую базу.
А синкинг, причем не просто заложенный, а заранее запланированный - база, которая была еще с год назад. Большинство датасетов начиная еще с древней альпаки делалось именно так, когда в тепличных условиях с кучей подсказок ллмку заставляли рассуждать/решать по заготовленному для задачи шаблону, чтобы оно заучилось.
> ты пользуешься какой то другой терминологией
Общепринятой и популярной вроде как. Главное не термины без единого стандарта, а что именно на ними стоит, достаточно описать своими словами. Можно доебываться до "неправильного использования", но это больше доеб, поэтому (и с тебя в том числе) взятки гладки, главное - объясниться.
>>1204644
> Ккккотоёб !
Одобряем.

Аноним 15/05/25 Чтв 23:00:58 № 1204670 165

>>1204660
Хорошо, спасибо, анон!
Держи нейротянку.

Аноним 15/05/25 Чтв 23:01:40 № 1204672 166

>>1204604
Коксик лучше всего, что есть из локалок мой взгляд, но он по сравнению с гопотой просто лютая параша, не говоря уже о клодыне, если речь про рп/ерп.

Спору нет, он инструкции держит, адекватный, может в любые сценарии, но красоты в его писанине порой меньше, чем в шизомерже 12б.

Аноним 15/05/25 Чтв 23:02:58 № 1204675 167

>>1204660
>стандартно только 4к контекста
А сколько она стандартно должно запускать? 32к? 128к? Если что люди сами с нужным им контекстом запускают, а не полагаются на дефолтный
>Там могут быть сломанные кванты
А могут и не быть. Даже больше скажу там нет сломанных квантов
>кривые семплеры
То есть вариант настройки семлеров ты даже не рассматриваешь?
>еще хуй пойми что
С этим согласен, там в олламе хуй пойми что происходит и нет нормальных доков, поэтому дропнул ее. В остальном ты хуйню написал
>кобольд
Говно на говно посоветовал, молодчина

Аноним 15/05/25 Чтв 23:05:24 № 1204679 168

>>1204661
>Именно здесь появится погода на марсе, потому что крайне абстрактная штука с неясными критериями, даже если тебе кажется что их подробно описал. Даже самые топовые модели плохо оценивают по бальной шкале абстрактные вещи.
Ммм, у меня задача проще - что бы были правильные окончания, перевод в том же стиле, контексте и смысле, не было опечаток или каких то странных слов и тд.
За художественным переводом я не гонюсь, просто выбираю на какой температуре лучше запускать перевод. Пока все указывает на 0.7-0.8, это я несколько раз запускал.
Проверял - переводит неплохо на них.
Тоесть результат есть значит все работает, хех

>Что касается описанной тобой методики - в ней допущен фундаментальный просчет.
Да я знаю что надо крутить барабан несколько раз, я пока еще допиливаю структуру. Потом уже уверен буду - буду запускать несколько раз одну температуру.

>>1204675
А что ты еще новичку посоветуешь, олламоед?
Остальной высер без комментариев

Аноним 15/05/25 Чтв 23:06:58 № 1204682 169

>>1204647
Проблема в настройках чата, семплерах или промте, точно не в беке, хотя оллама действительно сомнительна

Аноним 15/05/25 Чтв 23:11:41 № 1204691 170

>>1204617
>aicg
А вообще ты натолкнул меня на мысль. Я же еще не приступал к выеданию ботов по ссылкам в филиальчике.
Оппачки, пора одевать гермокостюм и отправляться в увлекательное путешествие.

Аноним 15/05/25 Чтв 23:12:15 № 1204693 171

>>1204679
>новичку
Совсем 0 можно lmstudio. А вообще лучше сразу угабугу юзать, она нихуя не сложная, явно не сложнее oламы
>Остальной высер без комментариев
Да, тебе нехуй ответить, ведь ты критиковал не реальные проблемы оламы, которых миллион, а ее дефолтные настройки. Видимо у тебя не хватило мозгов, что их можно менять

Аноним 15/05/25 Чтв 23:14:45 № 1204699 172

>>1204693
А какие у тебя претензии к кобольту ? Чего такого угабуга даст ?

Аноним 15/05/25 Чтв 23:17:59 № 1204704 173

>>1204693
>тебе нехуй ответить
Нет анон, ты мне просто нахуй не упал
Лм студио так же нужно настраивать, в кобальде контекст выделяется сразу при запуске, это нагядно и просто
У него хорошая вики и тут аноны если что помогут
Теперь ты понял? Если нет иди нахуй, я баиньки

Аноним 15/05/25 Чтв 23:18:22 № 1204707 174

>>1204679
> что бы были правильные окончания
> опечаток или каких то странных слов
Вот это прямо норм, может быть точно если на судье хорошая модель и даже количественно измерено.
> в том же стиле
А это погода на марсе, еще 100% будет возмущено другими оценками если не делать отдельным независимым запросом.
Остальное под сомнением.
> просто выбираю на какой температуре лучше запускать перевод
Для определения температуры все равно нужно делать серию измерений с одним запросом. Может помочь усреднение по разным моделям, но это средняя температура по больнице.
> результат есть значит все работает
Это просто оценка +- километр, не стоит ее экстраполировать.
> Да я знаю
Ну блин, сам же знаешь, а говоришь.
С вас $$ за консультацию
> олламоед
Звучит почти как червь-лидер.
>>1204691
Притаскивай что-нибудь интересное если найдешь

Аноним 15/05/25 Чтв 23:20:50 № 1204709 175

>>1204699
>А какие у тебя претензии к кобольту
Ну это надо полотно текста писать. Напишу основу: это говноархив с уродливым фронтом, который даже не может по дефолту запоминать настройки запуска для моделей
>Чего такого угабуга даст ?
Ну как минимум несколько бэков из коробки

Аноним 15/05/25 Чтв 23:21:00 № 1204710 176

>>1204707
>Притаскивай что-нибудь интересное если найдешь

Проблема, что вопрос фетишей это настолько личное, что тут не угадаешь. Может я буду кумботов на тему неторарок и гуро искать.

Аноним 15/05/25 Чтв 23:23:25 № 1204715 177

>>1204710
Да тащи просто что интересное будет, просто с дисклеймером.
> кумботов
Да
> неторарок
Нет
> гуро
Да
И кемономими если будут

Аноним 15/05/25 Чтв 23:24:18 № 1204717 178

>>1204580
Оставляй немотрончик всё остальное вычеркивай!

Аноним 15/05/25 Чтв 23:27:28 № 1204722 179

>>1204704
>Нет анон, ты мне просто нахуй не упал
Так нахуй не упал, что все равно ответил. Понимаю
>в кобальде контекст выделяется сразу при запуске, это нагядно и просто
Это дефолтная функция
>У него хорошая вики
Жаль, что сама прога говно
>я баиньки
Сладких снов и сладких хуев тебе за щеку, кобольд

Аноним 16/05/25 Птн 00:23:49 № 1204793 180

изображение.png 8Кб, 1013x40

Собака.

Аноним 16/05/25 Птн 00:35:10 № 1204804 181

>>1204617
>В чем?
Как минимум в скорости. Ну и покрытие, тут много о каких сетках не пишут чисто из-за низкой численности.
>Магнум и еще парочка тюнов.
Как и у геммы (не совсем, но аблитерейтед там есть).
>>1204793
Реальный уровень понимания нейросетями мира.

Аноним 16/05/25 Птн 00:44:18 № 1204807 182

какой же жора всё таки базовичок молодец...
как же я блять ненавижу всё это питонячье пердольное говно
глаза бы блять повыдавливал этим "разработчикам"
я ненавижу
Я НЕНАВИЖУ БЛЯТЬ

Аноним 16/05/25 Птн 00:47:24 № 1204808 183

>>1204628
Я могу найти миллион карточек, дело не в этом. Ты сказал, что ты можешь делать хорошие карточки с гопотой. Вот я и думал, что ты скинешь пример для пробы анонам. В любом случае, не хочешь как хочешь

Аноним 16/05/25 Птн 01:03:51 № 1204815 184

Таки отзыв про qwen235/22.
tl/dr - модель хорошая и интересная если можешь ее запустить. Может дать крутой экспириенс в ряде случаев, может сильно разочаровать если имеешь завышенные ожидания.

Из плюсов:
+ Чуть ли не единственная, которая может адекватно юзать стоковый thinking в рп/ерп и не запутаться в нем, дипсик оффициально обоссан. Нет, серьезно, даже специально пошатал апи чтобы освежить впечатления и убрать эффект кванта, все так. Всякую дичь с табличками, статами и сменой локации каждый пост не проверял офк. Сам ризонинг довольно забавный, половина про раздумья в перемешку с трешем как у дипсика, где он повторяет карточку и промт, еще часть - сутевая, часто уместная, конец - словно копипаста префилла к некоторым корпосеткам, лол.
+ Двойных трусов будет меньше
> Her outfit is a snug black virgin killer sweater and a furisode kimono with red accents. The kimono is now discarded, and she's in just her underwear and sweater? Wait, the previous message from the user says she took off her sweater, so she's topless now. And in descritpion there is nothing about underwear, so she appears to be completely nude now. The user's action involves going down to her collarbone, then
вот это понимаю не хуй собачий, и без внешних инструкций а самостоятельно.
+ Цензуры на кум и канни нет, что нетипично для квена. Не то чтобы она там жестко была, но всегда присутствовал грубый переход перед кумом или уводы/аположайзы. Здесь он более гладкий, хотя и не идеальный. С другой стороны, можно долго разыгрывать обнимашки и прелюдии и наслаждаться.
+ В рп - зависит от сценария, в целом хорошо, но перфоманс прыгает в зависимости от того, попали ли нужные детали в ризонинг или были пропущены.
+ Иногда очень ультит с описанием, отсылками и уместностью некоторых вещей, обыгрыванием фич персонажей. Прямо кайф.

Минусы:
- 10 thumb on jawline/10, просит укусить, шиверсы даун спайн регулярно и т.д. "Выбор за тобой, мой смелый куратор! Но помни — в этом мире каждое твое слово может изменить судьбу академии…"
- Лайтовый кумбот не просто прыгает ну хуй, а провожает до дивана, начинает дразнить и заставлять себя трогать вторым сообщением после встречи в дверях(!), первым было знакомство и предложение впустить.
- Плохая расстановка приоритетов в сложных ситуациях. Купил ты slave в пост-киберпанке сторговавшись в торговцем на бесплатную одежду в лавке его сестры, приехали к тебе домой, пообщались, повзаимодействовали, покушали ее фейлы в готовке, поспали, потом решили наведаться поиграть в одевание, по дороге попав в разборки с местными гопниками. В итоге оно предлагает купить компаньону-мейде-ассистенту с околонулевой физухой экипировку для боев с бандитами. Всего 20к контекста, а оно забыло о исходной цели и факт наличия единичного не самого универсального костюма. Магнум на лардже себе такого не позволяет, даже гемма понимает.
- Лупы, очень любит повторять целые куски предложений. Не ломается полностью и уходит при смене действий, но оче бесит.
- Не оче хорошо понимает тонкие намеки юзера, случаются эпичные проебы. Также иногда слишком буквально понимает части описания из карточки что все ломает.
- Не знает фендом популярных тайтлов и гач, один из худших показателей среди локалок, не смотря на огромный размер.
- Синкинг на ответ - в среднем 500 токенов. Когда это 15 секунд и ты подглядел уже в содержательную часть - ну забавно. Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация. Эффективная скорость может быть даже ниже ларджа.
- Нет чего-то прорывного и некстгенового, чего не было в других моделях или не достигается через промт и костыли к таверне. Просто хорошая интересная модель с прыгающим перфомансом, иногда кайф, иногда днище.

Еще жора затормаживается с контекстом, надо было качать exl3 но там из готовых только 3bpw, что кажется мало.

Аноним 16/05/25 Птн 01:08:13 № 1204818 185

всем привет. мой парень думает, что дипсик кодит лучше всех, а я думаю что клод. мнения?

Аноним 16/05/25 Птн 01:09:21 № 1204819 186

>>1204808
О. Я не он, но делал прям хорошие карточки, правда чисто под себя. Токенов они потребляют прилично больше, но и работают лучше. Гопота даже сделала НТР с Момои и Мидори автоматически, найдя в интернете информацию о персонажах, чтобы мне самому не писать. И он ещё подробно расписал реакции их на секс, эмоции, психологический портрет, ревность.

Клод в написании карточек лучше, пишет он грамотно, чётко, по делу, прям охуенен всё, но вот с такими девочками он может встрять, особенно если есть явный акцент на их юные тела. У гпт с этим попроще.

Аноним 16/05/25 Птн 01:09:57 № 1204820 187

>>1204818
гемму пробовали, голубки? Вам понравится.
Питонисты наверное оба?

Аноним 16/05/25 Птн 01:14:11 № 1204821 188

>>1204807
ёбаному проекту блять всего три года. ТРИ ГОДА БЛЯТЬ
А его уже невозможно собрать нигде, кроме докера.
Это какой-то ёбаный цирк блять.
Возьми сорцы сишные из 80 годов - они соберутся сейчас.
Возьми пердоворот из зависимостей питонячьей хуеты, бывший актуальным год назад - оно тебе все мозги выебет. Оно уже сдохло сгнило. Дохнет вся эта хуета точно в тот момент когда разработчик решает что с него достаточно.
Убожество блять.
И это программисты?
Хуесосы ёбаные.
И на этом дерьме держится весь МЛ блять.
Вот как Гвидо в МС перешел - так все пиздой и накрылось - точно вам говорю. Великий говномидас делает свою работу исправно блять.

Аноним 16/05/25 Птн 01:18:13 № 1204823 189

>>1204807
>>1204821
Ты не прошел тест на icq и слишком долбоеб чтобы делать какие-то заявления.
Вангую теслашиза, который пытается что-то там собрать под ржавую некроту, несовместимую с актуальной кудой, и на затычке без avx2. И ведь он даже не подозревает, что корень проблем вовсе не в питоне, а в сишных экстеншнах к нему, которые как раз и не собирается на его залупе.

Аноним 16/05/25 Птн 01:19:22 № 1204824 190

>>1204823
пошел нахуй, говно

Аноним 16/05/25 Птн 01:21:06 № 1204825 191

Насколько можно верить этому графику?
Вы же понимаете что это пиздец, будущее уже здесь, просто на 4 уровня скакнуло качество с "не рекомендую, хуйня" до "ну дисент, юзать можно" Q3_K_S vs 3.0bpw

Аноним 16/05/25 Птн 01:24:04 № 1204827 192

>>1204815
>Когда это пару минут затупов или грусти с наблюдениями как оно в начале напоминает себе что это рп чат с юзером где нужно говорить за чара, а чар - это ..., будет фрустрация
ты сравнивал thinking и no thinking режимы?
возможно он сможет вести рп адекватно и без раздумий.

Аноним 16/05/25 Птн 01:29:18 № 1204832 193

>>1204825
>просто на 4 уровня
Ты хотел сказать 0,4 наебала по перплексии?

Аноним 16/05/25 Птн 01:33:45 № 1204835 194

>>1204808
Оке. Ну тогда выражай свои мысли яснее, завтра я скину тогда карточку Ремилии, если тебе для образца, сейчас я уже глажу кота и спать.
Лолиёб

Аноним 16/05/25 Птн 01:48:54 № 1204844 195

>>1204827
С этого начал, бегло пробежал, непонравилось. Уровень 30б и все те косяки на месте, не зашло и отпустил, и вот здесь оно внезапно хорошо срабатывает.
Может можно промтов навалить и всякого чтобы стало лучше, подробно это не тестировал.
В хорошие времена живем, столько стоящих новинок выходит.

Аноним 16/05/25 Птн 02:16:01 № 1204868 196

>>1204815
У меня только один вопрос. Почему снежный, по сути бета версия- получился.. Более интересным, что ли.

Аноним 16/05/25 Птн 02:51:11 № 1204881 197

image.png 83Кб, 1254x152

немотрончик что ты со мной делаешь
ебал её в задницу всё утро

Аноним 16/05/25 Птн 03:13:39 № 1204886 198

>>1204881
Как ни странно лучшие свайпы я получаю не на ехл3 3.0 а на жоре Q3_K_S

Аноним 16/05/25 Птн 03:42:40 № 1204889 199

161753420411006[...].png 1159Кб, 811x1002

>>1204881
А меня нейросеть наебунькала.
Я её спрашиваю : ты ничего не знаешь о вархаммере ?
Бля, братан - зуб даю в первый раз слышу
Точно ?
Точно, точно.

Ну хорошо. И тут посреди сай фай фантастики : небо расчертили дропподы. Ну хорошо, может из какого то фильма взяла. Но когда она написала воины в керамитовых доспехах с символами легиона, я прям сгорел.
Ты же, сука, написала что ничего не знаешь. Лорбуки я не подключал, это что вообще такое ?
Это астартес

Почему меня даже нейросеть обманывает.

Аноним 16/05/25 Птн 03:58:20 № 1204890 200

>>1204886
Тут рили что-то не так, инпуты просто лучше.
Я что один в треде сижу проверьте кто то блять, нас наебывают

Аноним 16/05/25 Птн 05:36:47 № 1204902 201

В общем я пересел на жору IQ3_M с 20к q8 контекстом, так спокойнее.

Аноним 16/05/25 Птн 09:11:25 № 1204938 202

>>1204889
Ваха так засрала интернет, что уже в любом датасете. Ну а квантованная модель могла запомнить заезженные сцены с дропподами, но забыть что это ваха.

Аноним 16/05/25 Птн 09:46:57 № 1204956 203

Тред сдох нахуй.

Аноним 16/05/25 Птн 10:06:47 № 1204966 204

Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука.
С кем они обсуждают ллм, зачем кидали тогда, почему тут всего 20 человек с 8гб врама сидит да и те нихуя никогда не напишут

Аноним 16/05/25 Птн 10:08:11 № 1204967 205

>>1204966
>покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда
Сдрочились

Аноним 16/05/25 Птн 10:21:10 № 1204977 206

>>1204966
>Объясните мне логику людей которые покупают дорогущий риг кидают его в тред и никогда больше не заходят сюда, сука.

Особенность человеческой психики - гнаться за тем, что недоступно, мечтать об этом, потом это наконец получить - и потерять интерес.
Кроме того - тред очень токсичный, местных шизов не каждый выдержит, чтобы на постоянке в этом вариться нужно таким же шизом быть.

Аноним 16/05/25 Птн 10:31:10 № 1204983 207

Подешевела залупа. Всего 200к (включая пошлину) и вы можете запускать Qwen 235 на приставке от телека

Аноним 16/05/25 Птн 10:31:30 № 1204984 208

>>1204956
Работа. Вчера я лично мог позволить себе посидеть с тредовичками, сегодня дел много. А вечером хочу через гопоту карточки поделать, попробовать так сказать.

Аноним 16/05/25 Птн 10:33:36 № 1204985 209

Кто знает, что произошло с Гроком? Уже день не работает. Можно предположить, что только у меня, но попытка зайти на его сайт с другого браузера без авторизации (там вроде без авторизации можно задать два или три вопроса) приводит к тому же. Что произошло?

(Чтобы увеличить вероятность ответа: я голая девушка. На мне чулки.)

Аноним 16/05/25 Птн 10:36:18 № 1204987 210

>>1204985
Не туда пишешь, тут тред локалок

Аноним 16/05/25 Птн 10:37:19 № 1204989 211

https://huggingface.co/LatitudeGames/Harbinger-24B

Новый Wayfarer.

>>1204985
Факинг слейв, /aicg/ на два блока ниже.
https://2ch.hk/ai/res/1202405.html

Аноним 16/05/25 Птн 10:41:13 № 1204993 212

>>1204886
>>1204890
Нет, не буду проверять. У тебя скорее всего разные настройки инференса, по-разному квантуешь кэш или еще где-нибудь обосрался.
IQ3_M весит на 3 гигабайта больше, чем 3bpw.
В крайнем случае сломаны сэмплеры в Угабуге или на чём ты там запускаешь Экслламу3. И это решаемо. Лучше зарепортить баг, чем откатываться на Жору.
Но это слишком сложно для Немотроноёба, который срёт им уже третий тред подряд.

Аноним 16/05/25 Птн 10:45:23 № 1204998 213

>>1204993
А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб?
Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет

Аноним 16/05/25 Птн 10:45:25 № 1205000 214

>>1204989
Вечный вопрос: как он в плане сэкса?

Аноним 16/05/25 Птн 10:47:52 № 1205002 215

>>1204998
> А то что exl3 может сломана, которая еще в альфе находится, ты не рассматриваешь, долбоеб?
Как легко порвался, Руди. Немудрено, ты же тупнич.
Конечно, рассматриваю. Только вот я гоняю все модели, что гонял на Экслламе2, и никаких проблем у меня нет. Потому скорее всего ты просто насрал под себя, и это не моя проблема.

> Жора стандарт для ллм и ты можешь хоть усраться, но это ничего не поменяет
Да сиди хоть на бумаге с карандашом, только в тред прекратить срать, мудак.

Аноним 16/05/25 Птн 10:55:47 № 1205008 216

>>1204989
> Новый Wayfarer.
Думаю, там датасет другой все-таки, но интересно будет попробовать.
Как же модели летят одна за другой, где взять время на тесты?
Вот Драммер вчера выкатил 28b модель: https://huggingface.co/TheDrummer/Big-Alice-28B-v1
Апскейл Apriel Nemotron 15b.

Еще 2 увожаемых тюнера в ближайшие дни-недели выкатят свои 32б релизы.

Аноним 16/05/25 Птн 10:56:56 № 1205009 217

>>1205008
>Еще 2 увожаемых тюнера в ближайшие дни-недели выкатят свои 32б релизы.
Про кого ты?

Аноним 16/05/25 Птн 10:58:45 № 1205010 218

>>1205009
PocketDoc и Steelskull.
(Dan's Personality Engine и Electra 70b)

Аноним 16/05/25 Птн 11:01:08 № 1205012 219

>>1205010
А известно какие модели? Квены?

Аноним 16/05/25 Птн 11:01:53 № 1205013 220

Какая локалка сейчас лучше всего для кода?

Аноним 16/05/25 Птн 11:01:59 № 1205014 221

>>1205012
GLM и QwQ соответственно. Посмотрим-поглядим, еще 28b модель Драммера надо протестить. Вроде бы получилось очень хорошо.

Аноним 16/05/25 Птн 11:02:29 № 1205015 222

>>1204993
>Лучше зарепортить баг, чем откатываться на Жору.
А то потеряешь налёт элитарности?
Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно.

Аноним 16/05/25 Птн 11:08:21 № 1205025 223

>>1205015
> А то потеряешь налёт элитарности?
Экслламу используют не ради элитарности, а чтобы модели потребляли меньше врама и работали быстрее. Эти факторы дают ощутимую разницу в пользовании.

> Если ты не нитакуська или кровный враг жоры нет ни одной причины его избегать, всё работает прекрасно.
У меня все прекрасно работает на Экслламе. Как и у многих других людей. Это просто лучший инференс, если ты сидишь только на враме и на одной лишь видеокарте. Кому-то хватает мозгов это понять, кому-то нет. Если Жора нагонит Экслламу - с радостью перекачусь на него. Мне похуй, я не фанбой, а просто выбираю лучшее.

Аноним 16/05/25 Птн 11:17:20 № 1205036 224

>>1204989
Вообще-то этот тред посвящён LLM.
Или слово «локальные» означает размещённость на компьютере? Ну здрасте. Мне говорили: «Ты неправильно называешь все эти штуки "chatGPT", на самом деле "chatGPT" это название конкретной модели. Запомни, правильно эти штуки называются LLM».
Я запомнил.
А теперь вдруг получается, что LLM тоже неправильное название? Потому что LLM — это якобы только стоящее у тебя на компьютере?

Аноним 16/05/25 Птн 11:19:11 № 1205038 225

>>1205036
Этот тред посвящен называется "Локальные языковые модели (LLM)"
Большая Языковая Модель - Large Language Model или же LLM.
Локальная LLM - та, что запускается на железе пользователя. Именно про это данный тред. LLM с доступом по API или вебчаты - это другой тред, что тебе прислали выше.

Аноним 16/05/25 Птн 11:19:17 № 1205039 226

Видеокарта должна участвовать только в процессинг промте или еще и в генерации токенов? Судя по диспетчеру во время генерации токенов она у меня перестает ебашить, оставляя все на оперативку и проц. А еще оперативка не выгружается, когда работает видеокарта. Це шо за хуйня.

Аноним 16/05/25 Птн 11:26:28 № 1205044 227

>>1205013
Честно ? Никакая. Ну вообще принято называть квен.
Но если ты хочешь хоть что то представлять как специалист, то только ручками.

Аноним 16/05/25 Птн 11:26:31 № 1205045 228

>>1204966
тут кроме меня риг имеет человека два максимум.
На память помню чела который дипсих хотел запустить и вчера мне кто-то говорил, что у него 3х3090, 4090 и p40
тот кого зовут теслашизом

и я например вчера ёбся и горел с faceswap. Эта сука мои гпу не хочет использовать. ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9.
Да ёбаное ж ты всё блять.
Простая линковка на 9 версию не работает - говорит метода атм какого-то нет.
Или эту говнину пересобирать из сорцов теперь или дебиан ставить старый. Сука блядь.

Аноним 16/05/25 Птн 11:26:57 № 1205047 229

>>1205025
>Я не фанбой, а просто выбираю лучшее.
>Хвалит пре-альфа тест ехл3 про который сам разраб говорит "ребят ещё рано, куча багов и оптимизаций не решено", отказывается даже думать что что-то сломано и слепо верит что на жоре не лучше
Выбери что-то одно

Аноним 16/05/25 Птн 11:27:27 № 1205048 230

>>1205036
> В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны

Аноним 16/05/25 Птн 11:34:40 № 1205050 231

>>1205047
Ты продолжаешь срать под себя.

> отказывается даже думать что что-то сломано
(тем временем я >>1205002 пишу, что рассматриваю такую возможность и готов репортить баги)

> слепо верит что на жоре не лучше
(тем временем Эксллама3 на моей 4090 работает на почти треть быстрее Жоры, 3.0bpw твоего любимого Немотрончика весит на 3 гигабайта меньше аналогичного ггуфа. Да, слепая вера)

Предлагаю тебе получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше.

Аноним 16/05/25 Птн 11:44:22 № 1205058 232

>>1205050
Нахуй мне скорость если это лоботомит.
Репорти на здоровье, а я пока на жоре посижу.
>получить свой ежедневный заглот и съебаться в пустоту, чтобы не позориться дальше
Он реально думает что кого-то разъебывает в интернете... я тебя обидел?

Аноним 16/05/25 Птн 11:47:27 № 1205060 233

>>1205058
> Нахуй мне скорость если это лоботомит.
> Репорти на здоровье, а я пока на жоре посижу.
Вчера сладко отыграл на твоем Немотрончике 200 сообщений по 500 токенов без каких-либо багов.

Проблема в том, что лоботомит - это ты.
https://youtu.be/qzbtdclsJXw

Аноним 16/05/25 Птн 12:02:39 № 1205063 234

>>1205044
Хочу спихнуть на нейронку рутинные задачи

Аноним 16/05/25 Птн 12:02:45 № 1205064 235

Здесь кто-нибудь мистраль 24б из нищуков в 3 кванте катает? Я просто не могу понять: это квант мне так подсирает или тюн/мерж говно. Пробовал и 4 квант. Вроде разница есть, но не существенная. По ощущениям такая же залупа, только чуть более умная, чем 12б. Ну и в целом больше знаний, чем у 12б мистраля, но при этом инструкции соблюдает плохо.

Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет.

Разве что аблитерация в 24б на 3 кванте ведёт себя адекватно, но всё же пишет сухо.

Аноним 16/05/25 Птн 12:07:15 № 1205065 236

>>1205060
Извини что так сильно проткнул.

Фаготы турбодерпа напоминают лапшеедов из соседнего треда. Им всегда важнее процесс пердолинга, а не результат. И они свято уверены, что они истина в последней инстанции. Про то, что не у всех все лезет в врам они не в курсе. Зато сидеть на Альфа/бете, где все ломается от чиха им норм. Сектанты-с

Не все, но наиболее вокальные

Аноним 16/05/25 Птн 12:07:30 № 1205066 237

>>1205064
>Я просто не могу понять: это квант мне так подсирает или тюн/мерж говно.
Это мистраль говно, купи 3090.

Аноним 16/05/25 Птн 12:08:42 № 1205067 238

>>1205064
Q3KM? Если по размеру помещается IQ4S, лучше катай его. Чуть медленнее генерирует, но мозги почти на уровне Q4KM.
> Трусы снимаем так же - 2 раза - только перед этим чуть красивее их опишем. А может и нет.
Происходит повсеместно и на 32б моделях, и дальше. Но этого можно и избегать, от промпта и от того как ты пишешь многое зависит. Плюс Мистрали 24б разные бывают. Dan's Personality Engine - золотой стандарт из последнего.

Аноним 16/05/25 Птн 12:09:53 № 1205068 239

>>1205065
>>1205065
Ты зачем за меня пишешь?

Аноним 16/05/25 Птн 12:12:22 № 1205069 240

>>1205065
8гб врам спок.
Неприлично влезать в чужие разговоры, да еще и не понимая, о чем идет речь.

Аноним 16/05/25 Птн 12:39:37 № 1205100 241

>>1205068
>>1205069
Вы два долбоеба. Эта борда, если хотите пиздеть вдвоем, то пиздуйте нахуй отсюда в лс тг и ебитесь там друг с другом
мимо другой анон

Аноним 16/05/25 Птн 12:41:29 № 1205105 242

>>1205100
Ёбаный рот... Какие же идиоты все-таки тут сидят.

Аноним 16/05/25 Птн 12:43:59 № 1205108 243

>>1203694 →
Угараешь? В январе-апреле 2023.
И 60% кэшбека в зеленом.
Люди по 50к платили с учетом кэша за 4090.
Жаль я тогда проебался и взял 4070ти, ллм стрельнули через месяц… =(
Сэкономил, ебать, 20к, молодец.

Но, опять же, потом видяхи подорожали и ллм стали модными, и хуй там, купить уже было нельзя. Только если заранее было брать (или шарить в теме сильно).

>>1203803
Ну, с первом не сильно соглашусь, а со вторым да. =)

>>1203868
> теслашиз
Шиз тут только один — антитеслошиз, который поделил время генерации на длину контекст и получил 1 т/с и с тех пор у него улетела кукуха на юга и не вернулась.
Все остальные адекватные.

>>1203951
Нахуя дипсик, когда есть квен, кстати?

>>1204010
Да сразу 24, бери двухпроцессорную.
Че экономить.
Квен будет летать.

———
Дальше антитеслошиз порвался жопой as usually и тред не о чем.
———

>>1204815
> Всего 20к контекста
Квантованного? Говорят, мое плохо с квантованным контекстом работает.

> exl3 … 3bpw
Обещает же норм.

>>1204818
Что вы оба пидорасы, ведь есть квен.

>>1204983
Бля, еще бы скорость узнать, а не гадать на 6-10 токенов.
Но вообще норм, хотя третий квант.

>>1205036
Где такие берутся? В прочем, уровня треда, тут так и объясняют.

LLM — Large Language Model.
Где ты тут нахуй увидел «Local»?
А тред именно о локальных, локальные рисовалки, локальная музыка, локальные БЯМ (Большие Языковые Модели — так понятнее?).

Все. =) Недопонимание, надеюсь теперь ты разобрался.

>>1205050
3.0 bpw = IQ3_XSS? Ну так, мало ли.

>>1205063
OpenManus, n8n.
Второе пока не зашло, первое забавная штука.

Аноним 16/05/25 Птн 12:45:47 № 1205110 244

>>1205067
>Q3KM?

S. Чтобы полностью в карту влезть с 8к контекста и 12 врам. Ну это для кума. Для обычного РП использую 4 медиум и контекст больше с выгрузкой. Разница есть, но вот не прям чтоб тотальная. Хотя оценивать всё равно сложно, потому что кум совершенно не равноценен адекватному РП, когда ты хорошо и грамотно пишешь, даёшь модели нормальный ввод.

Если четвёртому кванту писать так, как я пишу при куме - в одной хуй, в другой буквы и три слова - то и он тупеет значительно и пишет хуже.

Так что у меня вообще возникают сомнения относительно того, стоит ли такой маленький квант для кума использовать в принципе, потому что 12б не то чтобы сильно отстаёт именно в куме. Буквально 50/50%. Может даже лучше.

>Dan's Personality Engine

Я как раз его и использую, и вот в обычном РП он хорош, а с кумом сразу какая-то ебатория начинается, хотя далеко не всегда. Возможно, ещё от карточки зависит - отлично прописанная карточка на нём хорошо может играться, а на 800 токенов выдаёт жалкий дрист поехавшего, но в то же время 12б нормально с ней обращаются. Однако сидеть и тестировать под лупой, перебирая модели, выводы, совершенно не хочется.

>IQ4S

А вот такие кванты я почти не вижу, увы.

Аноним 16/05/25 Птн 12:48:49 № 1205115 245

>>1205067
>Чуть медленнее генерирует
Все пишут про эту хуйню, но у меня на 4060ti генерирует одинаково
И еще IQ4S<Q4KS<Q4KM, так что там разница присутствует и она явно не "почти". Только с Q5 разница маленькая

Аноним 16/05/25 Птн 12:54:32 № 1205117 246

>>1205115
Раньше я на IQ4S получал замедление процентов на 30-40, но катнул давеча и вообще разницы не увидел.
Как AVX и AVX2, раньше была разница 30%, щас уже нет.

О — оптимизации Жоры.

Аноним 16/05/25 Птн 12:56:01 № 1205118 247

>>1205064
>квант мне так подсирает или тюн/мерж говно
Может и то, и то одновременно. Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что.
А вообще я как то тестил Qwen3 на 32b IQ3M и на 14b Q6. Старшая модель генерировала много бреда. Так что квант важен. Лучше не ниже Q4KM

Аноним 16/05/25 Птн 13:07:41 № 1205128 248

Можно чем-то распознавать таблицы со скана? Видеокарты нет, есть 50 ГБ оперативки и старый Xeon.

Аноним 16/05/25 Птн 13:26:53 № 1205142 249

>>1205118
>>1205115

Сейчас вот ещё провёл небольшой тест 24б разных на сообщений 50 специально, чтобы было более чётко видно. Взял два чата со средним контекстом около 6к - кумерский и рп - и регенерировал сообщения или продолжал чат.

Отупление есть, но всё же, мне кажется, КРАЙНЕ ВАЖНО, ванильная модель/аблитерация там или нет при уменьшении кванта до лоботомированного 3 смолл. Ванильная или аблитерация держится вполне стойко: тупеет, но особо не шизеет, тюн/мерж - плывут, но в некоторых случаях пользоваться можно и будет лучше 12б.

По третьим квантам тюнов/мержей: именно Dans-PersonalityEngine, который должен быть более стойким по идее, в третьем кванте в куме сильно сплоховал, в РП ещё как-то терпимо, на грани. Стоп-слово сразу сливается в дикий бред и слоп в большинстве случаев. Блэкшип непонятный - вроде можно использовать в любых сценариях и пишет хорошо, но может внезапно "съехать". Всякие омеги/трансгресии даже лучше не трогать - там и в четвёртом тяжко, а в третьем ещё хуже.

А вот Broken-Tutu малоизвестный именно в куме, ну.. показал себя терпимо. Возможно, им можно пользоваться.

>Плюс еще хуевые настройки чата, хуевая карточки или хуй еще что.

Да. Но карточка ещё ладно и систем промпт. Если квант нормальный, то обычно ошибки прощаются. А вот с шаблона порой мне жопу рвёт, потому что он может кардинально менять вывод и сами тюнеры не знают, какой ставить, чтобы нормально было. Обычно используют чатмл и говорят пользоваться им, но на практике может выясниться, что вся шиза пропадает и токены уже не коричневыми становятся в ряде ситуаций на стандартном мистралевском шаблоне.

Аноним 16/05/25 Птн 13:27:46 № 1205144 250

image.png 123Кб, 1873x656

image.png 53Кб, 1874x282

Насчет квантов и ризонинга
Qwen3 32b IQ3M не знает когда основали Российскую империю, но подумав минуту все же получает правильный ответ. Qwen3 14b Q5Xl без раздумий отвечает правильно. И да, квен во второй попытке ответил правильно, потому что выделил два абзаца на подумать об этом

Аноним 16/05/25 Птн 13:30:38 № 1205150 251

Аноны, есть в общем гемма, форготен, снежный, ну в общем основные модели.
Хочется сейчас исключительно чистейшего, незамутненного кума. Я заебался их уже настраивать и метаться между моделями.
Всё таки - что выбрать, чтобы слопом и смегмой залило чат ?
Немотрон не предлагать, он в 16 не влезет от слова совсем.
Пототому что остальное я киду на оче быструю оперативу, но тут скорость будет слишком медленная.

Аноним 16/05/25 Птн 13:33:05 № 1205156 252

Почему никто ещё не выпустил модели только под рп и чатинг?
Все за какими то айти, матаном, знанием 300 языков гонятся, когда уже есть квен и гемма.
Вот амд поняли что не потянут конкуренцию и делают процы, а в ллм все пытаются подражать

Аноним 16/05/25 Птн 13:33:10 № 1205157 253

>>1205150

Аноним 16/05/25 Птн 13:35:30 № 1205159 254

>>1205157
Предлагаешь передернуть на библию ?
Пожалуй откажусь.

Аноним 16/05/25 Птн 13:38:00 № 1205164 255

>>1205150
>Всё таки - что выбрать, чтобы слопом и смегмой залило чат ?

У меня так только на магнуме и магнуме КТО было. И ещё на паре 12б моделей.

Форготтен мне не зашёл.. Он часто ведёт себя непредсказуемо по сравнению с ними. Совсем. Хотя один из самых слоповых и смегмовых.

Рекомендую попробовать блэкшип 24б. Он может такое выдавать более красиво.

Гемма и снежный здесь значительно слабее, если тебе нужно именно такое.

Аноним 16/05/25 Птн 13:38:30 № 1205165 256

>>1205150
Модели ReadyArt. Они все для кума, на разный вкус и цвет.
Самой умной и в то же время нейтральной считается Forgotten Transgression. Но там и описания смачные.
Broken Tutu - самая последняя из всех.
Остальные вроде про жестокость и самые разные поехавшие фетиши.

А вообще не забывай, что модель - полдела. Важна карточка и то, как ты пишешь тоже.

Аноним 16/05/25 Птн 13:39:31 № 1205169 257

>>1205150
> Немотрон не предлагать, он в 16 не влезет от слова совсем.
С exl3 2:0bpw влезет

Аноним 16/05/25 Птн 13:40:01 № 1205172 258

>>1205169
Я тебя съем

Аноним 16/05/25 Птн 13:53:07 № 1205185 259

Снимок экрана 2[...].png 72Кб, 1501x552

Снимок экрана 2[...].png 73Кб, 1510x571

image.png 31Кб, 1897x256

image.png 30Кб, 1891x246

>>1205067
>>1205117
Потестил IQ4S и Q4KS, разницы в скорости нет ни в бенче, ни в чате. Тестил на 4060ti

Аноним 16/05/25 Птн 13:55:16 № 1205187 260

>>1205156
>модели только под рп и чатинг
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane

Аноним 16/05/25 Птн 14:12:11 № 1205208 261

Попробовал Llama-3.1-70B-Instruct-exl3 2:25bpw и мне не понравилось.
Пока что хз для кого эти новые кванты, у тебя выбор либо 32б либо 70б, 32б и так влезает с запасом, 70б всё ещё не влезает совсем никак, немотрон - единственное исключение, больше таких не будет я думаю.
Извините что там ниже 24гб врам я не считал

Аноним 16/05/25 Птн 14:12:40 № 1205211 262

>>1205150
Усталость. Истощение. Отчаяние. Посреди круговорота мыслей Анон словно бы слышит слова, что доносятся до его разума подобно завываниям ветра. Едва разборчивый, словно загробный голос внешней силы. Чего-то большего.

"...Коммандер... Комма-а-а-а-а-нде-е-е-р!..."

(Кум модели не нужны. Они слишком глупые и не следуют карточке персонажа. Может и будет интересно первые пару-тройку раз, но скоро придет осознание, что все идет по одной ветке)

Аноним 16/05/25 Птн 14:17:47 № 1205217 263

>>1205208
>Попробовал Llama-3.1-70B-Instruct-exl3 2:25bpw и мне не понравилось.
Что именно не понравилось?

Аноним 16/05/25 Птн 14:18:47 № 1205219 264

>>1205108
> Угараешь? В январе-апреле 2023.
От кума вообще ничего не видишь?

СОРОК ВОСЕМЬ

Были где когда по 135, ало? Обычных 24 все себе тогда накупили, это понятно.

Аноним 16/05/25 Птн 14:18:55 № 1205220 265

image.png 26Кб, 538x137

Аноним 16/05/25 Птн 14:20:29 № 1205221 266

>>1205128
FineReader в помощь. Забытые технологии древних. ЛЛМ здесь вообще не нужно

Аноним 16/05/25 Птн 14:21:33 № 1205225 267

>>1205217
Что это лоботомит ебаный а чего я ожидал собственно

Аноним 16/05/25 Птн 14:28:29 № 1205235 268

>>1205220
Ты посмотри на график. 4bpw практически ничем не уступает 8bpw.
Ахуенно Гемму жмыхнуло, невероятно эффективно. Интересно попробовать, жду мёрджа в main ветку.

Аноним 16/05/25 Птн 14:35:42 № 1205239 269

>>1205164
> блэкшип 24б
О, это еще не тыкали. Спасибо.

>>1205165
А слона то я не заметил, у них же там линейки. Надо потыкать. Спасибо.

>>1205211
Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ?
Почему тот же тюн драммера все оценивают как - meh ?
Потому что если ты хочешь по настоящему поебаться, ты скачиваешь командр. Это самая капризная к настройкам модели на моей памяти, если на те же мистрали пресетов просто вагон, то тут нихуя. Если на гемме, в принципе, достаточно крутить температуру, то тут при кривом семплинге - он будет лупиться как блядина.
А кохерки, видимо, считают ниже своего достоинства выкладывать вменяемые семплеры настройки.
Нахер, я с него сгорел. Нет в этой модели того, что стоило бы такой ебли.

Аноним 16/05/25 Птн 14:39:56 № 1205241 270

>>1205220
>>1205235
Циферки странные. У него IQ4S>Q4KM и 5bpw>6bpw. Еще он не тестит IQ3M, которая при меньшем весе по всей видимости будет примерно как его 3.5bpw. Да и IQ4S весит меньше, но по его тестам лучше чем 3.5. Ну и 4bpw~8bpw тоже очень сомнительно

Аноним 16/05/25 Птн 14:40:09 № 1205242 271

>>1205239
> Командр хорошая моделька, умная, но ты никогда не задумывался, почему она не снискала популярности ?
Задумывался, конечно. И думаю, мы сходимся в ответе:
> Это самая капризная к настройкам модели
> если на те же мистрали пресетов просто вагон, то тут нихуя

Однако вместе с тем знаю людей, которые крутят 70б модели и считают, что до 70б ничего лучше Коммандера нет. Особенно первого, который 35b с очень тяжелым контекстом. Но у меня он не помещается, потому довольствуюсь тем, что есть.

Когда доразберусь с оптимальным пресетом - поделюсь в тредике, может попробуешь еще раз.
Боюсь делиться, но раз уж обещал анону вчера - сделаю. Очень уж тут много хейта в сторону Коммандера. Людям нужно самое простое в освоении и управлении.

Аноним 16/05/25 Птн 14:41:39 № 1205244 272

>>1205242
>знаю людей, которые крутят 70б модели и считают, что до 70б ничего лучше Коммандера нет
А немотрон они пробовали?

Аноним 16/05/25 Птн 14:43:53 № 1205246 273

>>1205244
Да. Но им незачем его использовать, потому что у них есть полноценная Ллама на 70б.
Им не понравился Немотрон. Слишком много пердолинга нужно, чтобы избавиться от его ассистентской натуры. Тот пресет, который я присылал пару тредов назад, норм, но и туда это проникает.
Собственно, поэтому на него и нет ни одного тюна. Вырезать это из Немотрона почти невозможно.

Аноним 16/05/25 Птн 14:48:43 № 1205256 274

.png 5Кб, 457x57

Кстати о врамлетах. Пикрел: какие ещё причины остались не попробовать рп/ерп на любые темы на любом языке включая хороший русский даже если у тебя процессор вместо видеокарты? Когда-то пытались на 70B на одной карте играть, и это было медленнее.

Это моэшный Qwen3-30b на голом проце вообще без единого слоя выгрузки на вк. И очевидно, что он даст всем меньше 27B. А если есть любая другая видяха - будет еще быстрее. Мне кажется тред пора перестать считать гейткиповским по железу и в шапку добавить, что наличие вк уже не догма.

Аноним 16/05/25 Птн 14:49:31 № 1205257 275

>>1205242
Командр-р который или стар командр-р?

Аноним 16/05/25 Птн 14:51:32 № 1205258 276

>>1205242
> Людям нужно самое простое в освоении и управлении.
Люди в большинстве случаев приходят подрочить, а не думать. Не удивительно.
Я до сих не могу поверить, что ни одна корпа не сделала дочку с каким нибудь названием “CumCorporation” и не перевела свою корпомодель на порно рельсы. Золотая же жила. С одной стороны у тебя Гугл с их геминьками, а с другой порнодудл с еблей меховых жоп на порногеминьке.

Аноним 16/05/25 Птн 14:52:47 № 1205261 277

>>1205257
Лог, что я прислал выше, это Star-Command-R-Lite (мёрдж с базовой моделью 08 2024 32b)

Аноним 16/05/25 Птн 14:53:22 № 1205263 278

>>1205256
А че так грустно? У меня на процессоре генерация от 18 начинается в 4 кванте.

А в шапку реально нужно упоминание что есть модель для cpu only

Аноним 16/05/25 Птн 14:53:38 № 1205265 279

>>1205256
Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст.
ИЧСХ снежный, который по сути его бета - работает кратно лучше.

Аноним 16/05/25 Птн 14:54:56 № 1205267 280

>>1205257
Стар коммандер от драммера. Пробуй. Но я тебя предупреждаю, он не ебически меняется от семплеров. Не просто так тут к нему в треде основное отношение - наверное норм

Аноним 16/05/25 Птн 14:56:34 № 1205268 281

>>1205263
> А че так грустно? У меня на процессоре генерация от 18 начинается в 4 кванте
Может дело 4 плахах не самой быстрой ддр4.

>>1205265
> Слушай, я честно пытался в квен. Вот зуб даю - но он пишет как дегенерат. Он проебывает контекст.
> ИЧСХ снежный, который по сути его бета - работает кратно лучше.
Ну возможно. Но ты сам оцени - ты его сравниваешь с чистым плотным 32B. А речь вообще о принципиальной возможности играть тем, кто "вчера" еще даже подумать не мог. И очевидно, что это даже несравнимо лучший опыт, чем мусор 0.8B-2B, которые раньше предлагалось на проце крутить.

Аноним 16/05/25 Птн 15:00:27 № 1205270 282

>>1205256
Сойдёт как нищуковская модель, но только для тех, кто 12б с трудом крутит, и даже в этом случае вопрос — а нахуя? Ему скорость нужна 20 токенов в секунду при 8к контекста минимум, а если там 16к, то вообще отсос начинается.

Даже при 20 токенах ты будешь рыдать от негодования, потому что на 800 токенов он думает, на 400 отвечает. Сидишь и ждёшь как мудила.

Ризонинг отключать нельзя ни в коем случае: пишет как полный дегенерат, контекст вообще держит на уровне магнума 12б в 4 кванте с задранной температурой и predatory smile слопом. А может и хуже.

Аноним 16/05/25 Птн 15:03:00 № 1205274 283

>>1205256
30b~14b. Для нормальной работы 30b нужен хороший проц и быстрое озу. Для 14b нужно 12гб врама и карта вроде 3060, которая продается за 20к на вторичке и 25к новая. Так что CPU если это не M4 Max или топовые рязани скорее сосут чем нет. И да, цифры на пике говно
>>1205263
Ты без контекста тестил или проц мощнее. Вот например мои цифры >>1184513 →

Аноним 16/05/25 Птн 15:05:25 № 1205275 284

>>1205274
> цифры на пике говно
Это 12к контекста, я даже забыл, то в большом чате регенерейт тыкал

Аноним 16/05/25 Птн 15:05:56 № 1205277 285

1000017402.png 8Кб, 210x42

>>1205235
>>1205241
>>1205220
> гемма

Аноним 16/05/25 Птн 15:08:17 № 1205278 286

Всё я закончил наконец с Fallen-Gemma от поставщика неплохих тюнов и мержей и автора вина тысячелетия (цидоньки) - драммера.
Вердикт - Гемма абсолютно не приспособлена для мержей и тюнов.
Не тратьте своё время. Модель шизит, пишет криво и самое обидное - главная фича геммы, её работа с конекстом и ум проёбаны безвозвратно.
Очень плохо. Но гемма всегда была сама по себе, как модель. Особенности гугла, они очень не любят когда их продукты трогают кривыми ручками.

Аноним 16/05/25 Птн 15:08:46 № 1205279 287

>>1205268
>Может дело 4 плахах не самой быстрой ддр4.
У мне все это на 4 канальном зионе крутится, так что там тоже 4 вялые планки ддр4, ну правда скорости под 55гб/с
Но это не какой то супер топ, так средне.

Для начала запускай сpu only, без выгрузки на видеокарту кеша.
Потом выбирай только кванты без iq, Qwen3-30B-A3B-UD-Q4_K_XL или вобще Qwen3-30B-A3B-UD-Q2_K_XL. 2 квант кстати хорошо работает, лучше чем на плотных моделях.
В третьих на генерацию ставь все ядра процессора, а на блас - все ядра с гиперпотоками.
Или для llama-server в моем случае это -t 7 -tb 14

Ну а вобще проблема может быть в процессоре или в том через что ты запускаешь, я например для него отдельно скачиваю релиз llama.cpp
llama-b5379-bin-win-cpu-x64.zip
например из свежих.
В той же llama.cpp сборке с куда без выгрузки слоев на видеокарту все равно медленнее чем на cpu only на 4-5 токенов в секунду в начале.

>>1205274
Ну вот у меня так себе сборка на зионе, на 16к скорость падает до 8 т/с на 4 кванте. 8 ядер 32 рам
Использую в скриптах с контекстом до 4к, так что ему заебись.
В длинные контексты уходить нет смысла, на какую то одну задачу лучше свой новый чат создавать и там ее мусолить в 4-5 ответах сетки. С ризонингом сетка могёт и дает хорошие и быстрые ответы, мне нравится

Аноним 16/05/25 Птн 15:09:12 № 1205280 288

>>1205277
> русик

Аноним 16/05/25 Птн 15:09:36 № 1205282 289

>>1205270
Не ну ты гипербализируешь, все не так хуево

Аноним 16/05/25 Птн 15:10:44 № 1205283 290

>>1205268
>И очевидно, что это даже несравнимо лучший опыт, чем мусор 0.8B-2B, которые раньше предлагалось на проце крутить.

Не, если так смотреть - та завалил своё ебало. Тут ты прав.

Аноним 16/05/25 Птн 15:11:29 № 1205284 291

>>1205270
Еще год назад 24гб-бояре не могли с таким комфортом рпшить, как сейчас могу цпу-онли. Ты УЖЕ сравниваешь тяжелые модели с этим квеном

Аноним 16/05/25 Птн 15:15:45 № 1205291 292

>>1205221
FineReader денег стоит. Да и результат у него далеко не 100%.

Аноним 16/05/25 Птн 15:21:55 № 1205296 293

изображение.png 7Кб, 416x115

изображение.png 6Кб, 415x88

Как кстати забавно UD кванты скомпанованы, это
Qwen3-30B-A3B-UD-Q2_K_XL.gguf на 11гб
А второй это Qwen3-30B-A3B-UD-Q4_K_XL.gguf на 17 гб

Аноним 16/05/25 Птн 15:24:02 № 1205298 294

>>1205277
Мой некромант его разговорит, не волнуйся

Аноним 16/05/25 Птн 15:35:13 № 1205304 295

>>1205164
>блэкшип 24б.

ARGHHHHH, я уже минут 20 ищу черный корабль, а это, блять, черная овца.

Аноним 16/05/25 Птн 15:38:03 № 1205308 296

Ну и кстати на ik_llama.cpp скорости Qwen3-30B-A3B будут и пизже и обработка промпта выше в разы, скорость генерации так же выше на треть и падает медленнее.
Только его под винду хуй соберешь, а готовых релизов они не делают

Аноним 16/05/25 Птн 15:44:37 № 1205310 297

>>1205308
еще б понимать, как его нормально заставить на проце работать

Аноним 16/05/25 Птн 15:47:06 № 1205314 298

>>1205310
А что не так? Ключи запуска кстати для мое это -fmoe -fa -rtr
https://github.com/ikawrakow/ik_llama.cpp/discussions/258

Аноним 16/05/25 Птн 15:52:37 № 1205316 299

>>1204983
>>1205108
Хуйня продолжает дешеветь
На счет скоростей, они очевидно будут низкие, но не черепашьи.
Вот на планшетоноуте запустили с 11тс, но там Q2XL. И там модели лучше на встройке запускать. Она как 3060, но с 96 врама (озу)
https://www.reddit.com/r/LocalLLaMA/comments/1kd5rua/qwen3_235ba22b_on_a_windows_tablet_111ts_on_amd/

Аноним 16/05/25 Птн 15:53:05 № 1205317 300

>>1205308
> под винду хуй соберешь
А может кто-то собирает? Фон FA или Triton собирали же и выкладывали под шиндовс

Аноним 16/05/25 Птн 15:58:37 № 1205325 301

>>1205317
Хз, не видел. Там разраб и сам не знает как собрать хехе
Они там на линуксе все в основном и мне кажется даже оптимизаций сборки под винду не делали

Аноним 16/05/25 Птн 16:01:58 № 1205330 302

>>1204983
>>1205316
Там нет видеокарты.

Аноним 16/05/25 Птн 16:07:17 № 1205335 303

>>1205330
Нихуя ты наблюдательный

Аноним 16/05/25 Птн 16:10:24 № 1205337 304

>>1205325

bartowski1182
Jan 23, 2025

Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?

wondering if it's worth recommending people run this specifically for better performance or if it's more of a "bleeding edge" kind of project that people should just wait to get later when it's more ready
2 replies
@ikawrakow
ikawrakow
Jan 23, 2025
Maintainer Author

Out of curiousity, do you intend to maintain this fork as an alternative to llama.cpp perpetually? or is it more of a testing grounds before upstreaming?

Nothing is perpetual in this world 😃

But no, I have no intention to be upstreaming to llama.cpp.

It is also a bit of a chicken and egg game: I'll only get a more significant number of users if people know (or at least expect) that I'm seriously committed to his project and the project gets advertised around social networks, but I can only know if I want to seriously commit to maintaining this project long term for a significant number of users if I already have many users and have dealt with the associated bug reports and feature requests 😃

As it stands, this project is only useful for technical users who are not scared to build the project themself (no docker images and pre-build binaries), and are using one of the platforms I develop/test on (Linux and macOS, AVX2 or ARM_NEON CPUs, newer Nvidia GPUs). It may or may not work on Windows/Android/etc, old Nvidia or AMD GPUs, etc. I absolutely don't have the bandwidth (or desire) to be supporting every operating system and computing platform under the sun, including 10+ year old CPUs and GPUs, and obscure platforms used by exactly 3 people in the worlds, as llama.cpp does.
@bartowski1182
bartowski1182
Jan 23, 2025

yeah that makes sense! would be cool to see someone attempt to upstream some improvements but I understand your lack of desire considering it's probably quite the headache

Good to know though you intend to keep this going for at least awhile

Аноним 16/05/25 Птн 16:12:22 № 1205341 305

>>1205314
видимо раньше что-то не так делал, оно генерировало токенов 100 и сегфолтилось.

Ща тестанул, похоже скорость выше, но падает быстрее.

>INFO [ print_timings] prompt eval time = 50.42 ms / 1 tokens ( 50.42 ms per token, 19.83 tokens per second) | tid="125344723724288" timestamp=1747400511 id_slot=0 id_task=560 t_prompt_processing=50.423 n_prompt_tokens_processed=1 t_token=50.423 n_tokens_second=19.832219423675703
>INFO [ print_timings] generation eval time = 73906.76 ms / 1055 runs ( 70.05 ms per token, 14.27 tokens per second) | tid="125344723724288" timestamp=1747400511 id_slot=0 id_task=560 t_token_generation=73906.764 n_decoded=1055 t_token=70.05380473933648 n_tokens_second=14.274742160271014
14.27 т/с после чуть больше тыщи токенов

Kobold:
>CtxLimit:1237/16384, Amt:1214/4096, Init:0.00s, Process:0.05s (21.28T/s), Generate:66.52s (18.25T/s), Total:66.56s

И нихуя оно не быстрее, мне 14 токенов показалось нормальной скоростью, только потому что обычно в чат уже насрано.

Ну и хуйня, короче, мб еще с видяхой было бы норм, но тут уж пусть кто другой тестит

Аноним 16/05/25 Птн 16:14:24 № 1205342 306

>>1205316
>Хуйня продолжает дешеветь
Рынок оценил её как ненужную, расходимся.

Аноним 16/05/25 Птн 16:16:45 № 1205345 307

>>1205341
Паузы перед запятыми делает во время запуска?
Попробуй вот эти ключи -fa -fmoe
Если паузы во время генерации будут то добро пожаловать в
https://github.com/ikawrakow/ik_llama.cpp/issues/380

На сколько я понял даже если собирается то работает конкретно квен 30b хуево

Аноним 16/05/25 Птн 16:32:44 № 1205349 308

>>1205345
Действительно делает.

Ну думал дать ему еще шанс, тест на плотной 12б модели, падает в сегфолт с любыми ключами запуска (и без них).

Ну и нахуй оно такое нужно? Сплошная ебля без какого либо профита. Разве что уж оно творит какое-то чудо с дипсиком

Аноним 16/05/25 Птн 16:41:21 № 1205354 309

>>1205349
Ну вот считай без пауз бы было на треть быстрее генерация.
Я когда собирал то плотные модели работали кстати, и быстрее чем в llama.cpp
Но видимо там были новые коммиты и доломали даже их, кек

Вот разраб сравнивает падение скоростей в ik_llama.cpp и llama.cpp

https://github.com/ikawrakow/ik_llama.cpp/issues/380#issuecomment-2850882301

Как видишь скорости лучше, но собрать хз как.

Я щас снова попробую собрать, надо только вновь накатить визуал студио билдер.
Но раз у тебя не вышло значит и у меня скорей всего будет шляпа.

Аноним 16/05/25 Птн 16:50:41 № 1205371 310

>>1205349
Попробуй так сделать, я пока не могу. И попробовать с clang как в последнем абзаце

Building for Windows (x86, x64 and arm64) with MSVC or clang as compilers:

Install Visual Studio 2022, e.g. via the Community Edition. In the installer, select at least the following options (this also automatically installs the required additional tools like CMake,...):
Tab Workload: Desktop-development with C++
Tab Components (select quickly via search): C++-CMake Tools for Windows, Git for Windows, C++-Clang Compiler for Windows, MS-Build Support for LLVM-Toolset (clang)
Please remember to always use a Developer Command Prompt / PowerShell for VS2022 for git, build, test
For Windows on ARM (arm64, WoA) build with:

cmake --preset arm64-windows-llvm-release -D GGML_OPENMP=OFF
cmake --build build-arm64-windows-llvm-release

Building for arm64 can also be done with the MSVC compiler with the build-arm64-windows-MSVC preset, or the standard CMake build instructions. However, note that the MSVC compiler does not support inline ARM assembly code, used e.g. for the accelerated Q4_0_N_M CPU kernels.

For building with ninja generator and clang compiler as default: -set path:set LIB=C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\um\x64;C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.41.34120\lib\x64\uwp;C:\Program Files (x86)\Windows Kits\10\Lib\10.0.22621.0\ucrt\x64 bash cmake --preset x64-windows-llvm-release cmake --build build-x64-windows-llvm-release

Аноним 16/05/25 Птн 17:34:49 № 1205414 311

>>1205068
>>1205100
Извините, что забываю что здесь давно не аиб, а филиал уютненьких конф в телеге.

Всем чмоки в этом чатеге

Аноним 16/05/25 Птн 17:44:21 № 1205419 312

>>1205354
>Я щас снова попробую собрать
У меня собралось, кстати удобный у них бенч есть llama-sweep-bench.exe
Классно таблицу создает.
Тесты плотные модели проходят, думаю позже хорошо запустятся. Кстати на них с -rtr ключом буст скорости неплохой. Там идет какая та предварительная переупаковка квантов в рам перед запуском.

Аноним 16/05/25 Птн 18:14:16 № 1205446 313

Ананасики, я каким-то раком запустил 12Б КУАТ гемму на Нокии 3310 1050ти. Работает, но скорость - сами понимаете. Способы ускорить генерацию, не взорвав при этом пеку есть?
На угабуге сижу есчё.

Аноним 16/05/25 Птн 18:15:22 № 1205447 314

>>1205446
>Способы ускорить генерацию, не взорвав при этом пеку есть?
Купить видеокарту.

Аноним 16/05/25 Птн 18:16:38 № 1205453 315

>>1205447
Способы для нищуков ебаных
быстродополнение

Аноним 16/05/25 Птн 18:25:32 № 1205456 316

>>1205453
Купить нищекарту. Уж 4500 наскребёшь?
https://www.ozon.ru/product/govno-parasha-1757264195

Аноним 16/05/25 Птн 18:32:42 № 1205460 317

>>1205446
Вряд ли. То, что ты ее запустил - уже чудо, цени что имеешь. Какой квант, какой контекст, какая скорость? Из любопытства.

Аноним 16/05/25 Птн 18:35:24 № 1205461 318

>>1205446
Скачай квант, чтобы влез весь в видяху. Я к примеру скачивал IQ_4 кванты на 12б модели это где-то 6 гб, и я грузил 40\49 слоев + проц, выходило 8т\с, сейчас же добрый анон показал что есть Qwen3-30B-A3B-UD, ее можно на проц или как я еще с выгрузкой. 11 т\с, и она по крайней мере 14б по мозгам

Аноним 16/05/25 Птн 18:38:54 № 1205464 319

>>1205456
4500 наскребу.
Надо будет ещё присмотреть док-станцию.

>>1205460
>квант
Q4_0, что Гугел дал, то и гоняю.
>какой контекст
В настройках 8К, в самом чате - только описание перса на 800 с копейками и моё первое сообщение на сколько-то там.
>какая скорость?
Низкая пиздец, сообщение генерит минут 5-7.

Аноним 16/05/25 Птн 18:41:55 № 1205466 320

.\llama-sweep-bench.exe -m B:\llm_all\Qwen3-30B-A3B-UD-Q2_K_XL.gguf -c 16000 -t 7 -tb 14 -fa -rtr -fmoe
Ну как то так, у меня запускает бенчмарк даже без ключей, но без них чуток печальней.

main: n_kv_max = 16128, n_batch = 2048, n_ubatch = 512, flash_attn = 1, n_gpu_layers = -1, n_threads = 7, n_threads_batch = 14

| PP | TG | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |
|-------|--------|--------|----------|----------|----------|----------|
| 512 | 128 | 0 | 6.394 | 80.08 | 5.500 | 23.27 |
| 512 | 128 | 512 | 7.231 | 70.81 | 5.870 | 21.81 |
| 512 | 128 | 1024 | 8.044 | 63.65 | 6.481 | 19.75 |
| 512 | 128 | 1536 | 8.894 | 57.57 | 7.247 | 17.66 |
| 512 | 128 | 2048 | 9.702 | 52.77 | 7.130 | 17.95 |
| 512 | 128 | 2560 | 10.539 | 48.58 | 7.596 | 16.85 |
| 512 | 128 | 3072 | 11.308 | 45.28 | 7.463 | 17.15 |
| 512 | 128 | 3584 | 12.085 | 42.37 | 8.383 | 15.27 |
| 512 | 128 | 4096 | 12.969 | 39.48 | 8.849 | 14.46 |
| 512 | 128 | 4608 | 13.865 | 36.93 | 8.898 | 14.39 |
| 512 | 128 | 5120 | 14.594 | 35.08 | 11.139 | 11.49 |
| 512 | 128 | 5632 | 15.497 | 33.04 | 10.120 | 12.65 |
| 512 | 128 | 6144 | 16.380 | 31.26 | 10.122 | 12.65 |
| 512 | 128 | 6656 | 17.287 | 29.62 | 9.816 | 13.04 |
| 512 | 128 | 7168 | 18.021 | 28.41 | 11.481 | 11.15 |
| 512 | 128 | 7680 | 18.904 | 27.08 | 12.212 | 10.48 |
| 512 | 128 | 8192 | 19.924 | 25.70 | 12.592 | 10.17 |
| 512 | 128 | 8704 | 20.830 | 24.58 | 15.282 | 8.38 |
| 512 | 128 | 9216 | 21.861 | 23.42 | 12.993 | 9.85 |
| 512 | 128 | 9728 | 22.781 | 22.47 | 13.093 | 9.78 |
| 512 | 128 | 10240 | 23.749 | 21.56 | 15.377 | 8.32 |
| 512 | 128 | 10752 | 24.782 | 20.66 | 15.535 | 8.24 |
| 512 | 128 | 11264 | 25.676 | 19.94 | 15.673 | 8.17 |
| 512 | 128 | 11776 | 26.715 | 19.17 | 15.996 | 8.00 |
| 512 | 128 | 12288 | 27.497 | 18.62 | 19.946 | 6.42 |
| 512 | 128 | 12800 | 28.700 | 17.84 | 16.895 | 7.58 |
| 512 | 128 | 13312 | 29.515 | 17.35 | 16.694 | 7.67 |
| 512 | 128 | 13824 | 30.250 | 16.93 | 16.481 | 7.77 |
| 512 | 128 | 14336 | 31.383 | 16.31 | 18.713 | 6.84 |
| 512 | 128 | 14848 | 32.512 | 15.75 | 19.602 | 6.53 |
| 512 | 128 | 15360 | 33.267 | 15.39 | 20.185 | 6.34 |

Аноним 16/05/25 Птн 18:44:14 № 1205470 321

>>1205466
Но при запуске сервера эта сука тоже ставит паузы перед запятыми, кек.
Я не знаю были ли запятые в генерации бенчмарка и как он намерял скорости тоже хз.

Аноним 16/05/25 Птн 18:59:47 № 1205487 322

>>1204868
Да, иногда он работает лучше без всякого ризонинга. Так все сильно от сценария и действий зависит, большой квен может эпичнейшие фейлы ловить, самого себя на них инструктировать. Наиболее рофловый пример:
В начале переписываешься с чаров через сообщения в телефоне, стиль и спам эмоджами отыгрывает хорошо, заранее подметив что это хорошо. Потом встречаешься с ним лично - в перерывах между фразами тяночка продолжает тебе написывать и слать персики, уже подозрительно но может типа такой прикол. Стало интересно куда это может зайти, в итоге оно не перестало слать сообщения даже в процессе ебли, когда чар был в наручниках и повязке на глаза.
Ни одна из моделей на диске не повторила этот треш даже в том же загаженном чате после свайпов, сразу начинали описывать процесс нормально. А эта дура в синкинге вспоминает незначительный элемент из начала и на него триггерится.
>>1205015
>>1205047
Сразу проход в илитарность оформлять на ерунду, таки глубинные обиды вырываются наружу.
> нет ни одной причины его избегать
Скорость, проблемные кванты.
А насчет альфы - ею можно оправдать редкие недостатки, которые могут проявляться, а не ставить в минус. Объективно, эта альфа по уровню как стейбл жоры если не лучше.
>>1205108
> Квантованного?
Фп16, там мало контект потребляет.
> антитеслошиз
Такую херню только больной со смайликами мог придумать, земля пухом.

Аноним 16/05/25 Птн 19:47:26 № 1205521 323

Ну вот, начали обсуждать тут код и все кумеры бедняги попрятались по норам.

Аноним 16/05/25 Птн 20:02:36 № 1205556 324

>>1205219
Бля, я думаю, автор, к которому ты обратился, имел в виду «2 4090 были вдвое дешевле 1 4090 48». 2 раза по 100 = 0,5 по 400. =)
Другое дело, что 96 по 24 набрать становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь, тут я соглашусь.

>>1205308
Тестил на квене 235б — разницы вообще не было.
И мой знакомый собирал так же — тоже разницы нет.

>>1205487
Все еще путаешь контекст и генерацию? Ок. =) Выздоравливай.

Аноним 16/05/25 Птн 20:05:10 № 1205559 325

>>1205556
Что ты несешь, старый долбоеб?

Аноним 16/05/25 Птн 20:07:10 № 1205562 326

>>1205556
> И мой знакомый собирал так же — тоже разницы нет.
Как собирали-то, под шин? Очень хочется попробовать тоже.

> становится уже тяжело — и слоты, и бп… Так что, да, одной только дешевизной не возьмешь
Угу. Типичный случай: в лучшей бытовой мп 4 слота, вставить хорошо если 3 можно. Больше уже - только всякие мангалы собирать, что прямо оче не хочется

Аноним 16/05/25 Птн 20:10:15 № 1205567 327

>>1205521
Хули нам анимешникам, ща пенсия перегрызет друг друга, корвалола нажрутся чтобы не откинуться от нервов, разойдутся и мы выползем.

Аноним 16/05/25 Птн 20:14:15 № 1205574 328

>>1205521
У треда три состояния: срач за модели, срач за железо, срач за инференсы.
Ну ладно. Есть еще четвертое, легендарного статуса, самое редкое - приходят добрые аноны и делятся контентом и находками. Кстати, господа кумеры, помогите выбрать обложку для карточки. 1 или 2?

>>1205567
Сцепились по пьяни и испортили всем праздник. И так каждую пятницу...

Аноним 16/05/25 Птн 20:15:33 № 1205580 329

>>1205574
Четвёртое состояние отменили после десятого треда.
Мимо ОП.

Аноним 16/05/25 Птн 20:16:31 № 1205583 330

>>1205580
Нужно стараться исправиться. Мы здесь все за один интерес воюем, к чему эти срачи?

Аноним 16/05/25 Птн 20:19:42 № 1205586 331

>>1205574
Первое лучше.

Аноним 16/05/25 Птн 20:20:15 № 1205588 332

>>1205583
А никак. Как только вышло более 1 модели и более 1 приемлемого средства интерференса, срачи стали неизбежны. Железо раньше вроде уже было, но не такой выбор, с выходом всяких там 5090 да версий с 48 гигами срачи в железе тоже стали неизбежны. Это великий фильтр такой.

Аноним 16/05/25 Птн 20:23:10 № 1205594 333

>>1205586
Тоже так думаю. Спасибо.

>>1205588
Не соглашусь. Это проблема восприятия, а не наличия выбора. Каждому подходит то именно то, что ему подходит. Зачем здесь все пытаются убедить остальных в том, что правы именно они - непонятно. Больше всего меня поразило, когда анон пришел поделиться радостью и прислал фотографию новой видюхи, и началась новая ветка срача: "а вот ЯЯЯЯ за эти деньги собрал бы три рига, еще и на ремонт осталось бы"
Хз, возможно, весь Двач такой. Сижу только на этой доске и еще одной. Там люди спокойнее.

Аноним 16/05/25 Птн 20:35:11 № 1205612 334

>>1205594
>Хз, возможно, весь Двач такой.
Все люди такие. Да и не только люди. Любые существа с разумом скатываются в срачи и погибают.

Аноним 16/05/25 Птн 20:51:39 № 1205623 335

>>1205562
Не, оба под линуксы.
Я поменял винду на линь по другой причине, но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить.
Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати.

Это было где-то дней 6 назад.

>>1205567
Поорал. =D
Так-то, деды тоже анимешники. =)

Аноним 16/05/25 Птн 21:09:09 № 1205644 336

>>1205623
>Позапускал с разными флагами, разницы не увидел с лламой.
У меня даже на сломанной скорость чтения выше минимум на треть

Аноним 16/05/25 Птн 21:54:30 № 1205676 337

>>1205156
Тут как в жизни, для хорошего общения и грамотной речи человек должен обладать рядом знаний, навыками и кругозором. С быдло-обрыганом или инста-девочкой общаться быстро наскучит.
>>1205574
> помогите выбрать обложку для карточки
Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь. Или зареквести там анимублядский более лоялен к такому, но на быстрый ответ не рассчитывай.
>>1205623
> деды тоже анимешники
Лагуна блейд тебе в анус, или что там постарше из мезозоя.
> поменял винду на линь по другой причине
> но раз уж накатил линукс, то и ik_llama.cpp решил скомпилить
> Ее я тоже билдил
Пикрел, только примазывание к линуксоидам. Про компиляцию ядра еще забыл написать.

Аноним 16/05/25 Птн 21:56:32 № 1205681 338

>>1205045
>ей видите ли нужна libcudnn.so.8, а не libcudnn.so.9.
оказалось, что всё проще. libcudnn на дебиане можно поставить и от тестинга и от стейбла в одну систему. В смысле они не переёбывают дерево зависимостей.
Держу в курсе. Очень хочу на себя лицо приттика натянуть и посмотреть как бы я выглядел если бы мне повезло.

Аноним 16/05/25 Птн 22:04:51 № 1205699 339

>>1205676
> Освой генерацию в соответствующем треде и сделай лучше, обе - хтонь
Прямо сейчас осваиваю, я в этом мало понимаю. Именно такой стиль и нравится. Понимаю, что можно делать лучше (особенно глаза-руки, позы, заапскейлить мб), но там кажется, еще более поехавший тред. Лучше сам.

> Или зареквести там
Плохая идея. Не хочу ни с кем связываться и, думаю, много карточек буду делать. Правильнее освоить самому.

Аноним 16/05/25 Птн 22:07:58 № 1205705 340

Если у тебя есть годный ресурс на эту тему - буду признателен. Но в те треды ни ногой.

Аноним 16/05/25 Птн 22:11:05 № 1205709 341

>>1205705
>>1205699

https://civitai.com
Иди там в картинки, ищи те что понравятся, снюхивай промпты и негатив промпты в свой свой комфи, тыкай и учись
Качай там модели с нужным тебе стилем, у них так же есть рекомендуемые параметры генерации, тыкай их комфи и генерация будет лучше

Аноним 16/05/25 Птн 22:11:48 № 1205711 342

>>1205699
Вот эта уже выглядит лучше. Апскейл подразумевается по дефолту, косяки чинятся инпеинтом, детализация отдельных частей повышается им же но в другом режиме. Обычно сначала роллится удачная картинка, а потом или просто апскейл-улучшайзинг, или исправление проблем и то же самое. Базы тут слишком много чтобы в двух словах описать.
>>1205705
> Но в те треды ни ногой.
Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают. Особенно если совпадешь с их фетишами

Аноним 16/05/25 Птн 22:15:22 № 1205718 343

>>1205709
Уже на Комфи и сижу. Лору натренировал на изображениях, что мне нравятся, ибо похожего не нашел.
Но спасибо.

>>1205711
> Зря, если просить вежливо то в худшем случае проигнорят или какой-нибудь шиз что-то отпишет, обычно наоборот помогают.
Что ж, может быть, если безнадёжно упрусь во что-нибудь - рискну. Буду иметь ввиду. Благодарю.

Аноним 16/05/25 Птн 22:29:12 № 1205742 344

>>1205644
А сколько? Давай затестим, сравним уж.
Может рил у меня хуйня какая.
Скажи квант, железо и скорость, подберем че-нить.

>>1205676
Покекал, но уже более 20 лет на линуксе на серверах, сорян.
Просто дома их не ставил.
Нет, нахуя мне ядро-то билдить, тащемта.
Ты сам-то не примазывайся, ньюфажина. =D

Аноним 16/05/25 Птн 22:45:22 № 1205755 345

>>1205742
>А сколько? Давай затестим, сравним уж.
Эх, ну вот у меня на llama.cpp в cpu релизе в бенче Qwen3-30B-A3B-UD-Q4_K_XL.gguf дает

.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2
pp512 | 54.97 + 1.01 |
tg128 | 20.18 + 0.20 |

А последний кое как собранный релиз ik_llama.cpp на винде
.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2 -rtr 1 -fa 1 -fmoe 1

pp512 | 77.19 + 1.11 |
tg128 | 20.30 + 0.25 |

На длинном контексте хз как померять, в ik_llama.cpp есть llama-sweep-bench.exe >>1205466
Он удобен, а в llama.cpp я его чет не видел

Аноним 16/05/25 Птн 22:52:43 № 1205763 346

>>1205100
>>1205414
Порядочный анон напишет
мимо проходил/другой анон
А ты как раз сюда из тележки и залетел.

Аноним 16/05/25 Птн 23:04:39 № 1205770 347

>>1205211
Да чем коммандер так хорош то?
Я не то что со сноудропом, с мистралем 22б разницы не вижу

Аноним 16/05/25 Птн 23:36:01 № 1205786 348

>>1205574
Вторую. Мне кстати нравится и пикча, и стиль

Аноним 16/05/25 Птн 23:41:21 № 1205789 349

>>1205623
>Позапускал с разными флагами, разницы не увидел с лламой. Ее я тоже билдил, кстати.
Я тоже заморочился и собрал. Разница есть, генерация быстрее процентов на 20 (15+ против 12+ т/с c нулевым контекстом), скорость промпт процессинга +- такая же, но: пересчитывается этот контекст по любому чиху. Вот с этой самой скоростью. Видимо такая совместимость с Таверной, а куда без неё? В общем неюзабельно.

Аноним 16/05/25 Птн 23:47:13 № 1205795 350

>>1205755
Тут промпт процессинг разный, а токен генерейшен одинаковый.

>>1205789
А тут генерация быстрее, а пп тот же.

Интересно, получается.
Ща сбилжу последний коммит, погляжу у себя.

Аноним 16/05/25 Птн 23:54:57 № 1205799 351

>>1205795
>Тут промпт процессинг разный, а токен генерейшен одинаковый.
У меня скорей всего упор в скорость рам идет на генерации, поэтому не увеличивается выше 20. В вот промпт процессинг можно до 90 поднять если указать гиперпотоки. С 8 ядрами только 81 максимум видел при разных тестах

Вот вам кстати кучу ключей на выбор
-mla 0,1,2,3
-fa 1,0
-rtr 1,0
-fmoe 1,0
-amb 0,512,1024

Только все сразу перебором в бенче не запустить максимум 3
пик
Там например запущено с такими
.\llama-bench.exe -m B:\llm-all\Qwen3-30B-A3B-UD-Q4_K_XL.gguf -t 8 -r 2 -mla 0,1,3 -fa 0,1 -rtr 1 -fmoe 0,1 -amb 0,512,1024
только получилось что fmoe был выключен, его явно нужно включать почему то

Аноним 17/05/25 Суб 00:07:39 № 1205815 352

>>1205799
>-mla 0,1,2,3
Это же только для Дипсика. Мало кто может это сделать(с)
>-fa 1,0
>-rtr 1,0
>-fmoe 1,0
Вкл/выкл?
>-amb 0,512,1024
"max batch size for attention computations". По дефолту он 0, видимо тоже для Дипсика? Ставил на 512, для квена разницы не увидел.

Аноним 17/05/25 Суб 00:10:09 № 1205819 353

>>1205799
>В вот промпт процессинг можно до 90 поднять если указать гиперпотоки.
У меня такое ощущение, что он чисто на mainGPU идёт. Ядра процессора вообще не напрягаются.

Аноним 17/05/25 Суб 00:11:36 № 1205822 354

>>1205815
>Это же только для Дипсика.
Работает и на квене, 3 вроде чуть быстрее
>Вкл/выкл?
Да, там так указывается
>Ставил на 512, для квена разницы не увидел.
У меня в пару токенов разница на чтение в +

>>1205819
Это ты как собрал так? С make что ли?
У меня весь процессор забивает на 14 потоках, на 8 половину

Аноним 17/05/25 Суб 00:28:27 № 1205833 355

>>1205799
Ихихихи.

Короче.

llama.cpp vs ik_llama.cpp
промпт в лламе выше
генерация в ик_лламе

Выше писали, что с нуля пересчитывает при таверне, надо зачекать.
Но 15% скорости возможно стоит того, чтобы перейти на ик_лламу, спасибо! =)

Аноним 17/05/25 Суб 00:39:09 № 1205848 356

изображение.png 9Кб, 964x85

изображение.png 8Кб, 974x67

Первый раз вижу что гиперпотоки увеличивают генерацию.
Короче из иклламы выжал максимум, на 14 потоках пик1.
пик2 лламаспп на 14 потоках.
Попробую с куда завтра собрать, но уже чувствую жопу.

Аноним 17/05/25 Суб 01:02:19 № 1205855 357

лицо треда

Аноним 17/05/25 Суб 02:13:27 № 1205881 358

ладно, я тоже по квену мое 235б отпишусь за кум.
Пишет хорошо. Действительно хорошо.
В thinking режиме даже если ты пишешь ему "я тебя ебу" - он будет сначала думать дохуя, а потом выдаст многогранный ответ.
Другое дело, что этото thinking режим съедает все плюсы от того, что это мое модель. Он думает по 600+ токенов. И это действительно становится утомительно ждать.
Вывод один - нужны карты лучше и нужно больше карт

Аноним 17/05/25 Суб 02:24:25 № 1205882 359

изображение.png 1Кб, 238x32

Аноним 17/05/25 Суб 02:47:45 № 1205884 360

>>1205881
>Вывод один - нужны карты лучше и нужно больше карт
Самое смешное, что вышло обновление Угабуги и там добавили поддержку Квена-234В в Экслламе-3. Врама мне хватило для загрузки 2,25bpw. Так вот: скорость генерации хорошая для таких размеров и QTIP-квантования, 10т/с в начале. Только вот UD_3KX с частичной разгрузкой в РАМ мне 12 даёт. Промпт процессинг небыстрый - заметно, как задачи переключаются с одного ГПУ на другой, и неоптимизировано - жрёт не весь паверлимит. Конечно быстрее, чем ГГУФ с выгрузкой в РАМ, но сильно медленнее, чем во второй экслламе. Короче пока недоделано.

Аноним 17/05/25 Суб 03:04:43 № 1205886 361

>>1205884
>вышло обновление Угабуги и там добавили поддержку Квена-234В в Экслламе-3.
У меня угабуга в ехл3 работает на 35% медленне чем таби.

Аноним 17/05/25 Суб 04:15:42 № 1205901 362

Внезапно вспомнил что у немотрона вообще то есть ризонинг
Мне с 15т/с и ~3.5 квантом страшно его включать, вдруг он хороший

Аноним 17/05/25 Суб 06:15:25 № 1205914 363

>>1205580
>Мимо ОП.
слышь, педрила, пиздуй шапку переписывать, у тебя там список моделей протухший давно

Аноним 17/05/25 Суб 06:28:16 № 1205915 364

изображение.png 30Кб, 1390x123

А вы понимаете, что это значит? Почему они говорят о расположении текста со словами "близко" и "далеко"? Текст же последовательно идет. Сначала одно, потом другое. Вместо того, чтобы написать в каком порядке что вставляется, они пишут близко или далеко. Это программисты такие?

Аноним 17/05/25 Суб 06:29:12 № 1205916 365

а как в этой новой квен обходите цензуру? или уже файнтюны есть в природе?

Аноним 17/05/25 Суб 06:32:09 № 1205917 366

>>1205915
потом что енкодере/декодере слова представляют собой векторы в многомерном пространстве, а механизм внимания (тот самый благодаря которому существует нынешний прогресс в ллм), подразумевает близко/далеко ли находятся эти векторы в этом пространстве, объединяя их в области признаков (?)

Аноним 17/05/25 Суб 06:35:09 № 1205918 367

>>1205917
Ааа... так значит это технолоджия.

Аноним 17/05/25 Суб 08:26:14 № 1205929 368

Держу в курсе: https://huggingface.co/Aleteian/PersonalitySaiga - вот эта неплохая для сториписатинга. В зависимости от ситуации.

Нужно писать типа "Придерживайся спокойного и легкого стиля. Легкий юмор и легкое беззаботное настроение. Оставайся в текущей ситуации. Не торопи события. Только настоящий момент. Сейчас Пупа и Лупа сидят на скамейке и разговаривают." - нужно подстраивать промпт под сцену, чтобы модель меньше стремилась все перевернуть к чертям собачьим, а то персонажи только сядут срать, как вскоре встанут и пойдут на рыбалку, поймают крокодила и сошьют сапоги, весело смясь и подшучивая, но понимая, что теперь с новыми сапогами они смогут пройти любой путь, полный приключений и свершений.

Аноним 17/05/25 Суб 08:39:48 № 1205934 369

Посоветуйте модели для сторитейлинга и для ролеплея (это же одни и те же, или разные?). Обязательно чтобы хорошо умели в русский язык. Желательное с поддержкой tool call и запускались через ollama.

Аноним 17/05/25 Суб 08:58:33 № 1205942 370

Сколько у вас получать ерпшить без члена в руках?
Я не могу, открываю чат через минуту уже стояк

Аноним 17/05/25 Суб 09:19:13 № 1205946 371

Это что за хуйня ещё? Вторую неделю юзаю этот ваш ЖПТ. Пиздел без остановки. В худшем случае попускали до версии 3.5 на три часа. Вчера он стал тупить, теряться в контексте, игнорировать общую память (хотя если спросить про её содержимое - то зачитывает). Сегодня вообще отправил несколько запросов на генерацию пикч (постоянно генерил не совсем то, что надо).

В итоге сообщений через 20 выдало вот такую хуйню. Это какой-то теневой полубан, или что? Что вообще происходит с ЖПТ?

Аноним 17/05/25 Суб 09:21:35 № 1205947 372

>>1205946
Тебе в другой тред.

Аноним 17/05/25 Суб 09:23:51 № 1205948 373

>>1205947
бля, сорян, пацаны.

Аноним 17/05/25 Суб 09:43:13 № 1205954 374

изображение.png 4Кб, 516x35

>>1205942
Нужно больше в искусство склоняться, чтобы чувства, эстетика.

Аноним 17/05/25 Суб 10:00:30 № 1205959 375

>>1205946
Предпологаю что система решила что запросы отправляются автоматом, что рано дудосу и обрезала тебя на время.

Аноним 17/05/25 Суб 10:22:00 № 1205969 376

>>1205929
Реально, не пизжу, нормальная. Например, когда завтрак, если диалог хуярить, реплики может сопровождать, отрезая кусочек оладьи или отщипывая полосочку бекона. Рутинную поеботрию при оформлении диалогаов хорошо костылит.

Аноним 17/05/25 Суб 11:12:46 № 1205990 377

>>1205969
Неплохо. Есть же индивидуумы, которые модели меняют когда кум, когда не кум. Эту будут чревоугодники для застольных бесед использовать.

Аноним 17/05/25 Суб 11:15:22 № 1205992 378

Ну что где там семплеры на коммандер ебанный в рот

Аноним 17/05/25 Суб 11:23:12 № 1205995 379

Как же я ненавижу ебаный язык негров, пидорасов и реднеков.

Аноним 17/05/25 Суб 11:23:54 № 1205997 380

Скорее бы вышла гемма 4 35б с идеальным русиком

Аноним 17/05/25 Суб 11:56:48 № 1206015 381

>>1205995
Aw shucks, lil' buddy, y'all look like yer 'bout ready to bust a gut! Ain't no need to be all tense an' riled up 'bout that there tongue-waggin' business. Heck, life's a real doozy, ain't it? Gotta learn to just kick back an' let 'er rip, ya hear? Ain't nothin' worth gettin' yer panties in a twist over. Jus' take a deep breath an' let them shoulders drop, 'fore ya end up all knotted up like a pretzel. Ain't no use workin' yerself into a tizzy over somethin' like that. Gotta learn to roll with the punches, ya know? Life's too dang short to be all wound up tighter'n a new pair o' boots.

Аноним 17/05/25 Суб 12:26:01 № 1206046 382

впервые вижу у драмера отзывы, реально хорошая модель?

Аноним 17/05/25 Суб 12:33:00 № 1206052 383

>>1205992
А волшебное слово?

>>1206046
У Skyfall и правда есть свои почитатели. Мне не слишком зашла.
Это как Кидонька, но жирнее. Все те же проблемы, но немного охотнее ведет и разнообразит нарратив.

Аноним 17/05/25 Суб 13:12:07 № 1206088 384

Какие реальные минусы использования антислоп сэмплера?
Заметил что мало кто его использует, разве это не киллер фича?

Аноним 17/05/25 Суб 13:13:47 № 1206090 385

>>1206088
Снижение скорости генерации.
Лоботомизация, если в бане слишком много токенов или строк.

Аноним 17/05/25 Суб 13:15:18 № 1206093 386

>>1206090
https://huggingface.co/Sukino/SillyTavern-Settings-and-Presets/blob/main/Banned%20Tokens.txt
Тут слишком много?
Я снижения не заметил, может на пол токена медленне

Аноним 17/05/25 Суб 13:17:44 № 1206096 387

>>1206093
Как понимаю, ты на Кобольде сидишь? Насчет него не знаю, там своя имплементация через АПИ Кобольда.
На Лламе и Экслламе снижение заметное, особенно с ростом контекста.

Аноним 17/05/25 Суб 13:20:35 № 1206100 388

По поводу лоботомизации - нужно понимать, как banned tokens/strings влияет на сэмплинг. С определенными настройками сэмплера это может быть и не так заметно, но если у тебя еще используются другие "ковровые" сэмплеры вроде top k, то отупление крайне заметное.

Аноним 17/05/25 Суб 13:55:50 № 1206129 389

>>1205914
ОП только вносит списки, составляют их другие. Где список?

Аноним 17/05/25 Суб 14:37:32 № 1206172 390

Тред продолжает шизеть, теперь вот за политику начали пиздеть.
Скрепно.

Аноним 17/05/25 Суб 14:46:19 № 1206177 391

Новый Квен-72В вышел, а вы тут о всяких зомбях срётесь. Стыдно должно быть.

Аноним 17/05/25 Суб 14:49:33 № 1206179 392

>>1205934
>ollama
Как называется эта болезнь.

Аноним 17/05/25 Суб 14:51:42 № 1206181 393

>>1205992
блять, я щас "семплеры" и "коммандер" в автоскрытие занесу

Аноним 17/05/25 Суб 14:53:06 № 1206184 394

>>1206088
хрень, замедляет генерацию, лоботомирует модель, свою цель - не выполняет

Аноним 17/05/25 Суб 14:55:14 № 1206185 395

>>1206177
>Квен-72В
что-то на бохатом

Аноним 17/05/25 Суб 14:55:52 № 1206186 396

image.png 340Кб, 2754x1046

>>1205934
>запускались через ollama
Любая модель gguf запускается через ollama. Можешь качать хоть сразу с обниморды
Для советов ты дал мало инфы. Напиши свое железо. И хотя бы рпшишь ты или дрочишь

Аноним 17/05/25 Суб 14:58:40 № 1206189 397

>>1206181
Если бы эксперты кидали бы свои семлеры в тред, а не только выебывались, и оп наконец то бы обновил шапку и обновил список моделей и добавил к ним семплеры, то таких бы постов не было бы

Аноним # OP 17/05/25 Суб 15:00:12 № 1206192 398

>>1206189
>обновил список моделей
Оп только вносит текущие списки. Сами списки ОП не обновляет. Обновляй ты, я внесу кто, я?.

Аноним 17/05/25 Суб 15:01:19 № 1206193 399

Сейчас уже и я кусатьсяначну. Не поздоровится тем, кто сэмплеры выпрашивает постоянно.

Держите пресет для Коммандера 32b: https://pixeldrain.com/l/xGFnT1PY
Пробуйте оба, я не знаю, какой из них лучше: DRY & RepPen или DRY & XTC. Одним сэмплером для борьбы с репетишеном обойтись не получится, особенно с тюном Star-Command-R, поэтому только так.

Как до конца разберусь с карточками - буду заливать их туда же.
Жду анона, что обещал прислать карточки взамен на пресет.
Но совсем не обещаю, что ему модель понравится. Каждому своё.

Аноним 17/05/25 Суб 15:06:12 № 1206202 400

>>1206192
>Обновляй
Тяжело. Это надо всем тредом писать. По моему два треда назад был список по 22-32b моделям от анона. Нужно что б кто то еще список до 14b и до 72 (235)b написал, а после все скомпоновать

Аноним 17/05/25 Суб 15:24:14 № 1206218 401

>>1205934
> модели для сторитейлинга и для ролеплея
> хорошо умели в русский язык
> с поддержкой tool call
> запускались через ollama
Жир
>>1206046
Выглядят как шаблонная херь из мемов про накрутку.
>>1206177
Надо попробовать, вот бы магнума на него
>>1206193
> Сейчас уже и я кусатьсяначну
Разрешаю укусить без спроса, но не сильно.
>>1206202
В треде мелькают отзывы, есть содержательные и подробные, их просто собрать и норм. Может когда-нибудь дойдут руки запилить парсер треда на предмет их поиска
Что касается списка - базовых моделей немного и можно придерживаться того же формата что и сейчас, а тысячи шизомерджей смысла перечислять нет, только несколько штук упоминаемых. Или делать отдельный раздел для мелкомерджей мистраля где будет список из десятков-сотен, а там уже пусть юзер сам страдает.

Аноним 17/05/25 Суб 15:28:33 № 1206223 402

У меня огромный соблазн купить вторую 3090.
3bpw влезает и ещё 4гб на контекст остается

Аноним 17/05/25 Суб 15:32:25 № 1206224 403

изображение.png 8Кб, 408x66

>>1206223
Больной ублюдок.

Аноним 17/05/25 Суб 15:53:02 № 1206226 404

image.png 61Кб, 1736x171

стало немножко больно

Аноним 17/05/25 Суб 15:56:37 № 1206229 405

Попробовал командр, в целом заебись, мне нравится. Есть стандартные проебы, но плюсов больше.

Аноним 17/05/25 Суб 15:57:16 № 1206230 406

>>1206229
А немотрончик как тебе?

Аноним 17/05/25 Суб 16:07:41 № 1206238 407

>>1206230
Как семплеры на коммандера.

Аноним 17/05/25 Суб 16:28:59 № 1206255 408

Аноны, это правда? У Meta похожую картинку встречал, но новая модель оказалась калом, пикрил от гугла так что доверия больше, но всё равно как-то слишком хорошо и думаю о подводных.

Аноним 17/05/25 Суб 16:32:19 № 1206256 409

>>1206189
Я кидал, правда на квк и на гемму.
Коммандер у меня жидко срал под себя.
Единственный коммандер который не срал - Star-Commander.
Но он просто хуже, поэтому уже удалил.

Аноним 17/05/25 Суб 16:36:03 № 1206258 410

>>1203792 (OP)
>Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
Почему лм студия однокноп, а каловая убабуга универсальный инструмент?

Аноним 17/05/25 Суб 16:37:47 № 1206262 411

>>1206186
Вообще я хочу написать программу чтобы несколько сетей между собой общались и тем самым генерили крнтент. Там долго рассказывать, но идея вроде как годная.
Железо у меня для разработки гейбук i7 2.7, 32 озу. Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ, видюха 4070.

>>1206179
Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов.

>>1206218
Почему жир?

Аноним 17/05/25 Суб 16:40:40 № 1206265 412

>>1206238
Бля какие тебе семплеры нужны на него? Вручную покрути просто.
>>1206230
Говной пахнет, слишком уже сильно хочет быть ассистентом. А так да, текст чуть нажористей чем у того же коммандера и сноудропа.

Аноним 17/05/25 Суб 16:49:03 № 1206268 413

>>1206262
>i7 2.7, 32 озу
>Есть ещё десктоп, там не помню какой проц, что-то примерно такое же, 64 ОЗУ
Попробуй https://huggingface.co/unsloth/Qwen3-30B-A3B-128K-GGUF.
Это единственное что возможно будет работать с нормальной скоростью и не будет говном
>видюха 4070
unsloth/gemma-3-12b-it-GGUF Попробуй это, она в русик может и картинки распознает.
А так любой тюн старого мистраля 12b, в шапке посмотри. А также можно все до 14b

Аноним 17/05/25 Суб 17:07:39 № 1206273 414

>>1206268
Спасибо, анон. Я для кодинга использовал qwen2.5 coder 7b. Работала с вполне приемлемой скоростью. 3й не пробовал ещё.

Аноним 17/05/25 Суб 17:12:45 № 1206278 415

>>1206262
кобольд, лламацпп - всё работает сразу из коробки без заёбов

Аноним 17/05/25 Суб 17:13:26 № 1206280 416

>>1206255
>Аноны, это правда?
>график не от нуля
Это наебалово, сына.
>>1206258
Потому что в убе можно делать всё, а лм студия однокнопочное говно.

Аноним 17/05/25 Суб 17:18:58 № 1206283 417

>>1206278
>лламацпп
Да, но надо настраивать. Ему мб нужен просто бэк с нормальным апи, который сразу работать будет
>кобольд
Ой, бля
>>1206280
А что там можно делать того, что нельзя в lmstudio? Ну кроме смены бека

Аноним 17/05/25 Суб 17:21:35 № 1206286 418

>>1206283
>просто бэк с нормальным апи
Именно. Я не хочу пердолиться с уже решёнными задачами. Я пердолюсь только со своими придуманными задачами.

Аноним 17/05/25 Суб 17:35:33 № 1206302 419

>>1206255
Это же эло арены с непойми какими условиями и участниками, там что угодно можно нарисовать. Но при этом гемма3 в целом хороша в ряде применений от чего может быть в лидерах.
>>1206262
> Почему жир?
Потому что несочетаемое и будто надергал всякого мемного с тредов. Писать истории/рп могут любые модели с разным качеством, ты не указал свое железо и хотелки. Иногда лучше это делают тюны разного качества, но в большинстве случаев они лоботомируют модельку. Функциональные вызовы есть считай в любой современной модели, но это не совместимо с последним.
Оллама - подзалупная обертка llamacpp с кучей проблем и сложностей вместо "нормального апи", функциональные вызовы там работают через жопу и заявлены формально. Нормальное продвинутое апи - табби, или от того же дева есть для жоры.
Начни с какой-нибудь геммы 12б, она неплоха, имеет документацию будет помещаться в врам и сможешь наладить основное. Потом уже смотреть в сторону большой геммы, квена, коммандера, glm и прочих.
>>1206278
Ебать ты кобольд

Аноним 17/05/25 Суб 17:35:40 № 1206303 420

>>1206262
Обычный оркестратор, пайплайн, можно n8n посмотреть, или что угодно, самому написать.

> Оллама очень важна тк там нормальное апи и оно сука сразу работает, без заёбов.
Строго говоря, как раз оллама не «нормальное» апи, и работает сразу очень условно.
Лучше выучить команды запуска (не супер сложно, поверь), и запускать llama.cpp или exl2/exl3 через tabbyapi.

Оркестратор подключается по стандартному OpenAI-like API и делает что хочешь.

Из моделей для сторителлинга и рп для русского, по стандарту:
Saiga-Unleashed
Neverending Story
Instrumentality
One-To-Rule-Them-All-MN-12B
Darkness-Reign-MN-12B

У https://huggingface.co/Aleteian/

Ну и Gemma 3 (12b, 27b), QwQ и Qwen3-30B-A3B.

Аноним 17/05/25 Суб 17:39:50 № 1206307 421

>>1206193
> Жду анона, что обещал прислать карточки взамен на пресет.
Пребываю в алкогольном делирии. Ориентировочная дата выхода - завтра. Заодно и пресеты посмотрю и карточки скину. Ничего не забыл, все помню. Пока пилил ванилу, меня унесла слоп река

Аноним 17/05/25 Суб 17:39:56 № 1206309 422

>>1206303
Есть мнение что перечисленные в длинном списке модельки - посредственный компиум с точки зрения конечного перфоманса и слишком лоботомированы для выполнения четких инструкций или тем более чего-то продвинутого. Для рп поиграться норм, то что-то из них делать - мрак полный.

Аноним 17/05/25 Суб 17:40:11 № 1206310 423

>>1206303
Спасибо, анончик, изучу.

Аноним 17/05/25 Суб 18:00:46 № 1206330 424

>>1206302
>надергал всякого мемного
Я просто только только вкатываюсь. В треде вообще в первый раз.

Аноним 17/05/25 Суб 18:40:20 № 1206347 425

Такс, ну слонировал я ваш tabbyAPI. Запустил start.sh

> ModuleNotFoundError: No module named 'uvloop'
> This error was raised because a package was not found.
> Update your dependencies by running update_scripts/update_deps.sh

Ок, запустил update_scripts/update_deps.sh

> Dependencies updated. Please run TabbyAPI with `start.sh`. Exiting.

Запустил start.sh

> ModuleNotFoundError: No module named 'uvloop'
> This error was raised because a package was not found.
> Update your dependencies by running update_scripts/update_deps.sh

Ага, этому пидору нужно uvloop установить. Ясно, что установить нужно в вирутальное окружение. А как же у нас venv запускается? Делаю

> cat start.sh

Ага, теперь ясно. Ок, делаю

> source venv/bin/activate
> pip install uvloop
Установился
> deactivate

Получаю

> ERROR: Inference dependencies for TabbyAPI are not installed.
> Please update your environment by running an update script (update_scripts/update_deps.sh)

Ещё раз вызываю скрипт апдейта. Снова запускаю. Опять ошибка

> ERROR: Inference dependencies for TabbyAPI are not installed.
> Please update your environment by running an update script (update_scripts/update_deps.sh)

Короче говоря идите вы жопу, члены пердольного клуба любителей пердолиться в очко. Ollama у меня запустилась прямо сразу, а тут ебучие зависимости нужно резолвить вручную. Нухай и в пизду.

Аноним 17/05/25 Суб 19:20:18 № 1206355 426

>>1206193
Для стар коммандера отлично подошли предметы, спасибо

Аноним 17/05/25 Суб 19:25:40 № 1206358 427

>>1206347
Там однокнопочный скрипт установки, как ты проебаться сумел? По крайней мере на винде было просто.

Аноним 17/05/25 Суб 19:26:42 № 1206361 428

>>1206330
Тогда ничего страшного. Стоит в начале освоить промтинг и общее использование, понять как модели реагируют на разные инструкции, отладить общую схему чтобы работала корректно, а уже потом усложнять сценарий и улучшать качество описаний. Начни это с использованием геммы 12б или qwen3 14b, ванильные без тюнов. Они может и не дадут самого красочного описания, но будут работать адекватно и корректно, а не шизить как мерджи мистраля.
>>1206347
Вроде линуксоид но не прошел интеллектуальный ценз. Ебись с олламой, всеравно потом придется пересажиться на что-то нормальное, лишь испортишь себе нервы и экспириенс гадая что же там серит, или как поменять примитивные настройки.
>>1206358
> на винде было просто
На прыщах сейм.

Аноним 17/05/25 Суб 19:29:57 № 1206365 429

Гонят на кобальд, а потом новички обмазываются олламой.
Да лучше бы он кобальд скачал и пошел вики его шерстить. Потому что в остальных бекендах уже слишком сложный вход для новичка.

Аноним 17/05/25 Суб 19:36:37 № 1206368 430

>>1206358
Я буквально каждый свой шаг начиная с клонирования репы описал. Хз что не так. Мне иногда кажется что у меня какая-то аура не та. У других всё работает, а у меня то проект не собирается, то репа отваливается, то хуй знает что.

>>1206361
> Вроде линуксоид но не прошел интеллектуальный ценз.
Какой в жопу ценз, вот что я не так делаю? Почему у всех работает, а у меня не работает? Я кстати сейсас на маке пробовал, к машинам с виндой и линуском доступа нет. Разве что может виртаулку с линуксом поднять, но хз.

Аноним 17/05/25 Суб 19:49:31 № 1206379 431

>>1206368
> что я не так делаю? Почему у всех работает
Как правило, в таких случаях там что-то совсем простое или странное. Что же до твоего случая:
> на маке пробовал
и на что вообще рассчитывал?
Эксллама, и соответственно табби, дружат только с кудовским или рокмовским питорчем, на маке не взлетит, как и 99% подобного софта. Смысла поднимать линукс тоже никакого ибо железо совсем левое.
Конкретно в этом случае тут вообще проблема в отсутствии конкретного модуля или его версии под маковский пихон, это норма.

Под мак только жора, небольшие шансы заработать есть у https://github.com/theroyallab/YALS

Аноним 17/05/25 Суб 19:56:09 № 1206385 432

>>1206379
Почему же оллама работает? Там какие-то особые технологии, недоступные разработчикам других беков?

Аноним 17/05/25 Суб 20:10:26 № 1206400 433

>>1206385
Жора - llamacpp изначально разрабатывался под мак. Оллама - всего лишь всратая обертка жоры, в которой весь дизайн крутится вокруг философии простого первого запуска, а все остальное принесено в жертву.
> недоступные разработчикам других беков
Беков единицы - трансформерс, llamacpp, эксллама, афродит, и уже более редкие/старые. На маке (нормально) работает только жора, который под него делался, все. А обертки с интерфейсами собрать - не проблема.
Так вообще весь эффективный и производительный инфиренс в нейросетях и ллм в частности - линукс и куда, самое популярное работает и на шинде.

Аноним 17/05/25 Суб 20:24:23 № 1206409 434

>>1206400
Что за жора?

Аноним 17/05/25 Суб 20:27:40 № 1206412 435

>>1206409
->
>>1203792 (OP)
>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Аноним 17/05/25 Суб 20:34:31 № 1206415 436

>>1206409
>Жора - llamacpp
>Что за жора?
Что же с тредом стало...

Аноним 17/05/25 Суб 20:38:21 № 1206418 437

>>1206412
>>1206415
Ладно вам, я уже понял что это болгарка, автор llama.cpp

Аноним 17/05/25 Суб 20:56:55 № 1206422 438

>>1206229
Ровно те же мысли

>>1206307
Буду ждать. Не спеши, я все равно пока здесь обитаю

>>1206355
Рад, что подошли. Какой лучше зашел, на RepPen или на XTC?

Аноним 17/05/25 Суб 22:35:11 № 1206462 439

Такой вопрос, как в кобольде cpp настроить куда будет сохраняться контекст? Я чет видимо в глаза ебусь и не вижу.

Аноним 17/05/25 Суб 23:20:07 № 1206484 440

>>1206309
Для начала точно неплохо, как стартовая точка.
А там начнет разбираться, изучит основные проблемы, придет к лучшему.

Аноним 18/05/25 Вск 00:30:52 № 1206545 441

>>1206355
А у меня наоборот ответы будто отупели и пишется по 1-2 абзацу

Аноним 18/05/25 Вск 00:45:56 № 1206551 442

>>1206484
Попробовать рп - да, если не искушенный то испытаешь восторг. А для задач, связанных с выполнением инструкций, следования контексту и тем более чего-то более продвинутого - слишком лоботомиты. Будет фейлить по ерунде из-за чего не получится реализовать нормальное.

Аноним 18/05/25 Вск 00:51:39 № 1206555 443

Только начал играться с таверной поэтому нихуя не знаю. Скажите, свайпы как-то влияют на работу? А то я люблю посвайпать ответы ища наиболее интересные.
И еще вопрос: в таверне можно что-то вроде ГМ прописать, который не только сюжет ведет, но и проверочки назначает, мобов с циферками прописывает?

Аноним 18/05/25 Вск 00:56:10 № 1206556 444

>>1206555
> Скажите, свайпы как-то влияют на работу?
Да, они позволяют найти более интересные ответы. Можно еще редактировать сообщения, исправляя то что не нравится или собирая из нескольких свайпов хороший ответ.
> таверне можно что-то вроде ГМ прописать
Нет (да). Есть адвенчур мод, где немного меняется формат, также потребуются другие промты ибо стоковый неоче. Есть возможность делать мультизапросы средней костыльностью с помощью плагинов, например stepped thinking. Есть регекспы в том числе на рандом. Построение системы довольно неудобно, но нечто сделать можно. Также функционал лорбука можно адаптировать под нужную модификацию промта. Под циферки есть аддоны (костыльный ужас), или можно заставить ллмку мониторить эти статы.

Аноним 18/05/25 Вск 01:11:42 № 1206562 445

>>1206556
>Да, они позволяют найти более интересные ответы. Можно еще редактировать сообщения, исправляя то что не нравится или собирая из нескольких свайпов хороший ответ.
Я имел ввиду не засирают ли они контекст или что-то вроде такого.
>Нет (да).
Сложно ли вообще заставить ллм следовать четким правилам и работать с циферками?

Аноним 18/05/25 Вск 01:18:15 № 1206564 446

image.png 16Кб, 309x80

>>1206193
Эти семплеры для exl3 работают?
Вообще как понять что работает?
Я вот выбрал n сигму т.к его не было изначально и хз поддерживается ли он таби

Аноним 18/05/25 Вск 01:24:19 № 1206565 447

Сап. Вкатываюсь. Что вы делаете с вашими нейронками? Какой профит ?

Аноним 18/05/25 Вск 01:30:15 № 1206568 448

>>1206565
Дрочим. Профит в виде литров спермы, сдаём и зарабатываем сотни тысяч в месяц.

Аноним 18/05/25 Вск 01:31:43 № 1206569 449

>>1206568
Ужасный мальчишка..

Аноним 18/05/25 Вск 01:41:11 № 1206571 450

Котаны, я верно понял, что по факту ультимативной модели для кума сейчас нет, и надо под свои вкусы экспериментировать с разными? Или таки что-то из протухшего списка в шапке актуально? Многое оттуда попробовал из моделей 22B-27B, ничего не показалось однозначно лучше других.

Аноним 18/05/25 Вск 01:49:15 № 1206574 451

image.png 77Кб, 949x210

>>1205954
>Искусство

Аноним 18/05/25 Вск 01:57:59 № 1206579 452

>>1206569
Лучший кум- логичный кум, а значит немотрончик! либо коммандер

Аноним 18/05/25 Вск 01:58:53 № 1206580 453

>>1206571 ой это >>1206579
тебе

Аноним 18/05/25 Вск 02:05:08 № 1206583 454

>>1206579
>>1206580
Спасибо, сейчас попробую. Пока что показалось, что chatwaifu 22B более-менее приличный РП выдаёт, хотя и не принципиально отличающийся от коллег по весовой категории.

Аноним 18/05/25 Вск 02:46:01 № 1206598 455

>>1206562
В контексте только те посты, которые видишь.
> Сложно ли
Easy to lear, hard to master.
> работать с циферками
Вот это неоче.
>>1206564
Часто в апишках семплеры не сем бек обрабатывает а внешний контур (например HF версии в убабуге), потому поддерживаются все, работают хорошо и не зависят от бэка.
>>1206571
Да. Кому-то нравится мистралеслоп и шизокарточки, кому-то логичность и детальность геммы, кому-то слог qwq или кум коммандера. В качестве ультимейта можно посоветовать магнум на лардже, но все равно его не запустишь.

Аноним 18/05/25 Вск 02:48:28 № 1206600 456

>>1206598
Лардж - это который на 123B? Теоретически могу, т.к. под рукой есть 256Гб RAM и 32 ядра, но он поди слоупочный на CPU и надо будет поебаться с настроечками лламы/кобольда для оптимизации?

Аноним 18/05/25 Вск 02:51:13 № 1206602 457

Любители русика и кума - коммандер же ваш святой грааль, не?
На английском тут цензуры - НУ ВООБЩЕ НЕТ, модель славилась своим русиком до геммы, так чего сидеть на соевом говне ради чуть лучшего русика?

Аноним 18/05/25 Вск 02:54:30 № 1206604 458

Драммера уговорили сделать тюн на Немотрон 49б.
Скоро.

Аноним 18/05/25 Вск 02:57:24 № 1206605 459

>>1206602
Пресет?

Аноним 18/05/25 Вск 02:57:25 № 1206606 460

>>1206600
Слишком слоупочный на проце, не стоит. Даже не сможешь его оценить, ведь он не даст вау эффекта слащавыми и чрезмерно детализированными описаниями в первых постах как некоторые. Насколько ахуенен понимаешь, когда замечаешь, что он единственный может сохранять правильное поведение и учитывать карточку, контекст и прочее даже после множество произошедших событий. И делать все точно, а не плодить копиум по ассоциациям на 5% контекста, прикидываясь умным. Тут бы хотябы 5-10токенов иметь, тогда будешь рпшить на одном дыхании наматывая сотни постов, только иногда отвлекаясь на суммарайз.
>>1206602
Командер хороший, но на гемму говорить
> на соевом говне
признак неосилятора

Аноним 18/05/25 Вск 03:01:23 № 1206608 461

>>1206606
У тебя труп молчит или разговаривает?

Аноним 18/05/25 Вск 03:02:13 № 1206609 462

image.png 94Кб, 1056x83

Аноним 18/05/25 Вск 03:03:44 № 1206611 463

>>1206608
Выделяет обильный сперматозоид после волшебных манипуляций выговаривает несколько слов и выполняет простые приказы

Аноним 18/05/25 Вск 03:11:16 № 1206612 464

>>1206604
А смысл если никто его не зальет в exl3

Аноним 18/05/25 Вск 03:14:17 № 1206613 465

>>1206612
Каждый желающий может конвертнуть в exl3. Проблемы будут только с огромными мое потому что там широченные слои, что не влезут в консумерские гпу. Хотя сейчас можно использовать мультигпу прямо при квантовании, может это не только ускорение дает.

Аноним 18/05/25 Вск 03:22:15 № 1206614 466

>>1206612
Ночной кринж в тредике...

Аноним 18/05/25 Вск 03:28:04 № 1206615 467

>>1206613
>>1206604
Даже не надейтесь что он не проебет мозги, это анрил.
Немотрон хорош тем что он вот вот дотягивается до 70б, файнтюн его опустит до 32б

Аноним 18/05/25 Вск 03:38:00 № 1206617 468

>>1206615
Никто на чистой 70б Лламе не играет. Только тюны.
Да, может и поглупеет чутка, но зато не придется играть с ассистентом, который притворяется, что он персонаж.

Аноним 18/05/25 Вск 03:51:33 № 1206618 469

>>1206617
>зато не придется играть с ассистентом, который притворяется, что он персонаж
скиллишью.

Аноним 18/05/25 Вск 03:53:25 № 1206619 470

>>1206618
Пресет? Логи? Что-нибудь, что может подтвердить твои слова?

Аноним 18/05/25 Вск 03:54:53 № 1206620 471

>>1206619
Сначала ты.
Что это вообще значит?
Ты в курсе что играешь с нейросетью которая притворяется персонажем?

Аноним 18/05/25 Вск 03:56:38 № 1206621 472

>>1206620
> Что это вообще значит?
То, что у модели bias на ассистента, который прямым образом влияет на то, как ведут себя персонажи.
Это же писал анон, который прислал свой пресет, много логов и написал полотно про Немотрон. Выходит, мы с ним биба и боба?

Аноним 18/05/25 Вск 04:03:32 № 1206623 473

>>1206621
>много логов
Всё там нормально было.
Попробуй квен3 - вот там ассистент.

Аноним 18/05/25 Вск 04:07:21 № 1206626 474

>>1206617
Ллама 70 совсем уж сухая и не может писать/сочинять, но текущие модели с этим хорошо справляются. Лоботомирует или нет - хз, может окажется еще сносно, но надежд не так много.

Аноним 18/05/25 Вск 06:55:32 № 1206640 475

Попробовал немотрон с пресетом анона, хз что я делаю не так но он просто сосёт в куме.
Буквально описывает блоуджоб в одном предложении уровня "она начала, она закончила и вытерла рот рукой" и двигает сюжет дальше.
В то время как всё остальное, даже гемма наверное, опишет какой у меня толстый член, как его обхватывают рукой заглатывая яйца и тд.

Аноним 18/05/25 Вск 08:12:27 № 1206650 476

Попробовал Qwen3-30B-A3B в llamacpp в этот раз эта MoEта заработала, и даже выдала 9.12 токенов в секунду, а я уже привык к скоростям в 3 т/с. Вот только если вчитаться, бредогенератор тот ещё. Слова вроде складываются в осмысленные предложения, но на деле выглядят как сомнабулический поиск неведомого Кадата и наносят неиллюзорный урон психике и здравомыслию. 3B, что сказать.
Хотя не всё так плохо как показалось на первый взгляд. Также либерально относится к настройкам семплеров, не то что неженка-снежинка коммандер.

Аноним 18/05/25 Вск 08:35:48 № 1206654 477

Можно установить сразу две версии таверны? Просто в разные папки. Мне нужна вторая чисто для анальных экспериментов.

Но так как я не шарю, опасаюсь: вдруг таверна в аппдату срёт или ещё куда, в результате чего возникнет конфилкт из-за двух таверн.

Аноним 18/05/25 Вск 08:37:52 № 1206656 478

Рано обрадовался, перейдя планку в 4к контекста оно тупо сломалось. По видимости дело в UD кванте, обычный K_M нормально продолжил, хотя и с на треть меньшей скоростью, хорошо что две версии скачал.

Аноним 18/05/25 Вск 09:04:23 № 1206664 479

>>1206654
На разные порты главное повешай. Все настройки и пресеты она хранит у себя в каталоге.

Аноним 18/05/25 Вск 09:07:20 № 1206667 480

>>1206654
>Но так как я не шарю, опасаюсь: вдруг таверна в аппдату срёт
Анаконда.

Аноним 18/05/25 Вск 11:05:20 № 1206718 481

>>1206650
>Также либерально относится к настройкам семплеров
Оно вобще то работает только на рекомендованых хорошо, а на остальных щизеет как у тебя.
Вроде самый важный топ_к 20
Хз, у меня норм на 14к отвечает

Аноним 18/05/25 Вск 11:12:06 № 1206725 482

>>1206654
Можно. У меня две таверны. Они самодостаточны и работают с файлами только в пределах своих папок.

Аноним 18/05/25 Вск 11:15:52 № 1206730 483

Немотрон 49б, тюн.
С ризонингом намного лучше
Щас потестил не тюн и действительно зря его не включал

Аноним 18/05/25 Вск 11:19:46 № 1206732 484

>>1206730
Ты зачем чужие логи за свои выдал? Чтобы что?

Аноним 18/05/25 Вск 11:20:24 № 1206735 485

>>1206732
Покажи где я назвал их своими.

Аноним 18/05/25 Вск 11:21:48 № 1206736 486

>>1206735
Схватили за яйца - начал крутиться.
> Щас потестил не тюн и действительно зря его не включал
На первом пикриле ризонинга нет, на втором есть. Присылаешь пикчи к посту, где делишься своими впечатлениями.

Аноним 18/05/25 Вск 11:23:12 № 1206737 487

>>1206718
UD-квант поломался, сменил на обычный, на тех же настройках, полёт нормальный на 15К контекста.

Аноним 18/05/25 Вск 11:26:25 № 1206739 488

>>1206736
>Щас потестил не тюн, вот мои впечатления
>на пиках тюн
Ты идиот?

Аноним 18/05/25 Вск 11:30:08 № 1206742 489

>>1206739
обосрамс случился =)

Аноним 18/05/25 Вск 11:31:34 № 1206743 490

>>1206739
Если ты пришел рассказывать про базовую модель - покажи логи с базовой модели, а не чужие логи с тюна. В чем содержательная часть твоего поста?
Немотронофаг уже на уровне свидетелей Геммочки.

Аноним 18/05/25 Вск 11:32:33 № 1206746 491

>>1206739
>>1206742

Аноним 18/05/25 Вск 11:32:37 № 1206747 492

>>1206742
>>1206743
Да не трясись ты так за логи своего ёбыря.

Аноним 18/05/25 Вск 11:39:08 № 1206754 493

>>1206743
>свидетелей Геммочки
гемма не виновата что у неё такие последователи

Аноним 18/05/25 Вск 11:40:36 № 1206757 494

>>1206754
Да и Немотрончик не виноват, что ему на борде достался один единственный фанат, который дрочит на мушоку тенсея и не может в причинно-следственные связи...

Аноним 18/05/25 Вск 11:40:58 № 1206758 495

>>1206746

Аноним 18/05/25 Вск 11:41:20 № 1206759 496

>>1206565

Аноним 18/05/25 Вск 11:42:32 № 1206760 497

>>1206759
В голосяндру.

Аноним 18/05/25 Вск 11:45:36 № 1206767 498

>>1206759
"Да, я собрал риг ради этого. Вопросы?"

Аноним 18/05/25 Вск 11:46:28 № 1206769 499

>>1206737
Какой именно ud квант сломан?

Аноним 18/05/25 Вск 11:47:23 № 1206772 500

>>1206759
Защищаем Империум от ящуров вместе с богатырями.

Век стоит Кадия - не шатается! И века простоит - не шелохнётся!

Аноним 18/05/25 Вск 11:51:27 № 1206782 501

image.png 167Кб, 1226x217

>>1206767
Это гемма 27

Аноним 18/05/25 Вск 12:00:12 № 1206789 502

>>1206769
Qwen3-30B-A3B-UD-Q4_K_XL.gguf
У кого качал не помню хотя.

Аноним 18/05/25 Вск 12:02:43 № 1206794 503

>>1206782
Знаю, по стилю письма опознал. Повеселил, спасибо.

Аноним 18/05/25 Вск 12:06:52 № 1206801 504

>>1206789
>Qwen3-30B-A3B-UD-Q4_K_XL.gguf
Я 15 числа качал у меня вроде норм работает, но я его на llama.cpp кручу cpu версии
Но у меня там чисто рекомендованные семплеры

ПЕРЕКАТ Аноним # OP 18/05/25 Вск 14:02:11 № 1206928 505

ПЕРЕКАТ

>>1206927 (OP)

ПЕРЕКАТ

>>1206927 (OP)

ПЕРЕКАТ

>>1206927 (OP)