Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 169 22 56
Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №240 /llama/ Аноним 09/06/26 Втр 01:54:27 1628031 1
Llama 1.png 818Кб, 630x900
630x900
Карта деградаци[...].png 153Кб, 1473x830
1473x830
Реальная длина [...].png 533Кб, 2340x1714
2340x1714
17642884406272.jpg 6727Кб, 4000x3000
4000x3000
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1624998 (OP)
>>1622922 (OP)
Аноним 09/06/26 Втр 01:59:49 1628036 2
1642303285146.png 22Кб, 997x481
997x481
>>1628029 →
> Не хватает так же имиджгена как в таверне для полного счастья.
В соединениях добавь провайдера для пикч, можно подключить комфи скормив нужный воркфлоу под любую модель. Или корпов по апи. Далее агент иллюстратор для картинок по сюжету, агент трекер бэкграунда для задников. У второго можно промпт переписать чтобы более активно новые генерировал.
> не нашёл как задавать агента из отдельного подключения чтобы крутить сразу две модели, для инструментов и рп
Также в соединениях для модели, которую хочешь использовать агентной, выстави галочку пикрел и число паралелльных соединений. В первый раз после переключения будет уведомление что для агентов используется другая модель.
Или, у каждого из агентов есть настройка Connection Override где можно указать конкретную модель.
Аноним 09/06/26 Втр 02:03:57 1628037 3
>>1628036
В таверне я могу в пайплайн подать аватары обоих персонажей. А тут как?
>выстави галочку пикрел
Спасибо! Вот уж не думал что настройки агентов запихнут в уже существующие подключения не агентов. Матрёшка блин.
Аноним 09/06/26 Втр 02:11:42 1628041 4
1666606907031.png 19Кб, 1075x154
1075x154
>>1628037
Можно Но лучше рпшить со всякими вайфу, которых стабильно делает по тегам или у тебя есть готовые лоры
Для каждого агента можно настроить индивидуально. По умолчанию есть основная модель, основная модель для агентов (равная основной если не стоит оверрайда), и далее уже индивидуальный выбор. По началу очень странно, но когда освоишься довольно удобно.
Аноним 09/06/26 Втр 02:19:33 1628043 5
>>1628041
Вдогонку - в рп сейчас там суммарайз поломали. В версии 1.6 работает, далее что-то нашаманили и распидарасило что в промпт не инжектится как должно.
Аноним 09/06/26 Втр 02:49:58 1628046 6
>>1627922 →
>для плотной тоже придется грузить все веса.
Бля, конкретно это я писал к тому что моегемма это прям лоботомит на уровне архитектуры а не типа аналог плотной у которой "просто" отключены "ненужные веса" в один момент. Ну грубо говоря как взять 4б лоботомитов пачку и переключать их роутером, а не нарезать большую плотную на блоки экспертов.
>А код тут причем? Проблема в производительности проца и памяти там, где нужна йоба числодробика матриц.
Чет мне кажется что 3-4 токена на mlp слоях не должны сильно проц нагружать. Может я ошибаюсь. Наверное да, ибо сколько не кричат ЕБАТЬ АТЕНШЕН ЖЕ КВАДРАТИЧНЫЙ, а потом оптимизируют - а там всего +20%, так как mlp таки жирные и тоже дохуя жрут.
>Именно так и делают
Где? Не видел, или ты другое имеешь ввиду. Ну или я плохо искал.
Там же еще промтпроцессинг идет блоками, не? А значит придется грузить несколько раз что сводит на нет всю идею. Там вероятно еще и надо по аналогии с FA вычислять чтобы было без блоков, а значит конечно нихуя не будет сделано ради какой-то там никому не нужной выгрузки.
>Расскажи подробнее что имел ввиду, как "стаки обычных мамок" могут тут помочь?
В мире где нет задержек и говнокода, стакаешь кучу дешевого говна и у тебя на генерации скорость ограничена суммарной скоростью всей памяти этого стака. И промтпроцессинг ты оффлоадишь на видюхи, тоже по суммарной пропускной способности шин. Максимальная эксплуатация самого выгодного железа в ооочень условной теории. Маки же стакают по несколько штук. На двух обычных компах я видел якобы х2 скорость вообще по wifi коннекту.
step-flash-3.7 Аноним 09/06/26 Втр 08:23:12 1628106 7
3.5 выдавал в кванте на 100 гб (vram только 30) генерацию под 20 токенов в секунду.
3.7 в кванте на 50 гб (самый низкий IQ1) выдаёт генерацию в 2 токена в секунду, это очень медленно. Там так сильно перебрали архитектуру? Ещё оптимизации под ламу не выкатили и она неверно раскидывает веса? Хотя да нет же, я вообще без карты запустил, и 3.5 выдаёт, ну, не 20, но 10. Точно не 2. В чём дело в общем? Вряд ли в кванте, он может быть тяжёлым и в два раза более медленным, но не в 10 же.

А так же где mtp под степ-флеш? А то гемму добавили, квен добавили. Жду глм, степ-флеш, и прочее.
Аноним 09/06/26 Втр 08:38:55 1628109 8
>>1628041
>По началу очень странно, но когда освоишься довольно удобно.
А всё одно не взлетит. Считаю, что сама идеология порочна: упор на кучу агентов (а современная локальная архитектура к ним не приспособлена) вместо кучи инструментов на скриптах. Даже если у тебя есть возможность выделить отдельную видеокарту чисто под агентов будет сложно - а такая возможность есть далеко не у всякого. Следовательно разработка Маринары практически исключительно под корпы и не для ЕРП. И даже там будет медленно!
Аноним 09/06/26 Втр 09:21:38 1628120 9
>>1628109
>Много агентов - корпы
На ноль поделил. Корпы, так-то, денег стоят и не малых, при работе с ними наоборот всячески стараются как можно больше в зирошот уложить. Это на дваче корпы ассоциируются с бесплатными ворованными проксями из-за чего воспринимаются как что-то бесплатное, а для большинства это платный инструмент. Даже кодеры, которые на этом деньги зарабатывают, и те используют оркестрацию в основном как способ сэкономить на меньшем контексте/более дешовой модели, а о таких вещах, как постоянная перепроверка кода и команд, проверка ответа на релевантность, поиск в интернете бест практикс и т.д. они даже не мечтают, ибо дорохо.
Аноним 09/06/26 Втр 09:39:54 1628123 10
>>1628120
>Корпы, так-то, денег стоят и не малых, при работе с ними наоборот всячески стараются как можно больше в зирошот уложить.
Ага, особенно вайбкодеры и любители воткнуть десяток агентов для составления ежедневных расписаний занятий спортом :) Люди не хотят заморачиваться, а хотят рабочий результат из коробки. По отзывам видно, что результат есть - нужен только компьют. Лично мне правда результат тоже не очень понравился, а уж реализация...
Аноним 09/06/26 Втр 09:54:48 1628132 11
>>1628106
>Жду глм, степ-флеш, и прочее.
А авторы моделей сделали MTP, лол? А то ждёт он.
Аноним 09/06/26 Втр 09:57:03 1628136 12
>>1628024 →
> Не хватает так же имиджгена как в таверне для полного счастья.
В смысле, имиджгена не хватает? Он же там есть, я первым делом чекнул.
Но заленился настраивать. Чисто потестил, работает, но там каждому персонажу нужно реф сделать и все такое, пока забил.

> И не нашёл как задавать агента из отдельного подключения чтобы крутить сразу две модели, для инструментов и рп.
Ты можешь либо в настройках агента указать модель, которую он использует (для каждого из 40+ агентов), либо сделать «дефолт агент» модель, а для ролеплея указать другую.
Но! Я не разбирался, как это работает. Тоже подумываю на агента посадить квен на другом компе, а тексты пусть гемма пишет.

>>1628030 →
ГМ.

> А что там с редактом?
Да просто, заходить в логи, искать мелко-кнопки, переписывать, вот это вот все. Я же правильно делаю хотя бы, надеюсь.
Это сильно неочевидно, и не так удобно, как хотелось бы, сделать реролл только последнего действия… Я как будто с гитом работаю. А хочется по аналогии с веб-мордой — выбрал в удобной менюшке шаг, рерольнул его или переписал.
Ну, ИМХО, не дотянули они просто пока этот момент по UI.

>>1628041
А мне, кстати, показалось не странно, а даже понятно это. Не прям нативно-интуитивно заебись, но вполне обосновано и логично, когда роешься по этим менюхам.

>>1628043
Не забываем писать в ишью на гит и даже самим чинить!
Я так себе не поленился ттс завезти под сервер (который сам же не поленился завести в другой репе=), автор Маринары крутой тип в общении, доброжелательный.

>>1628106
У меня Q4_K_M от AesSedai (q8 /q4 /q4 /q5) выдает 16 токенов, а с мтп до 19.
При этом, q4_k_s чистый выдавал 19 чистых.
Такое ощущение, что ты что-то не так сварил, на линухе скорость пушка.
Ах да, врам всего-то одна 5060 ti на том компе и 128 ddr5. Не самый быстрый конфиг, 18 тпс для него — пушка для 196b модели.

> А так же где mtp под степ-флеш?
Ты бля угараешь. https://github.com/ggml-org/llama.cpp/pull/23274 вот же оно.
Работает, да, проверял дня три назад.

>>1628109
Бля, хуйню высрал, братан.

Маринара — про качество игры, а не про попердывание в чате.
В чате ты можешь ролеплеить где угодно — хоть в нативном llama-ui, хоть в таверне, чтобы инжектить контекст из лорбуков.
Смысл агентов в том, чтобы обдумать, сформировать логичное продолжение под твои вкусы и историю, а не просто «продолжить текст» единым высером.
Да, это кратно дольше.
Да, у меня дома 5 компов стоит.
Но я же, блядь, играть хочу.

Я ни в коем случае не обсираю подход со скриптами (алгоритмический), это просто более упрощенная модель, которая дает те самые пресловутые -5 баллов в бенче за счет -75% времени расчетов. Быстро? Быстро. Нужно много компьюта? Не нужно. Результат? Ну, кого-то устроит.
Я готов потерпеть ради немного лучшего результата.
Это просто выбор каждого человека — быстро, но похуже, или медленнее, но получше.
Как бы, бля. О вкусах не спорят, и Таверна, и Маринара — отличные штуки (давайте не будем про реализацию таверны, она там в пиздень хуевая, туда я тоже коммитил=), и работают, это главное.

Круто когда есть выбор, разве нет? :) ИМХО — круто.

Лишь бы нам моделей опенсорсных все сильнее подсыпали.
Аноним 09/06/26 Втр 09:59:46 1628138 13
>>1628106
Ой-ой, учти!

На данный момент, если ты загружаешь модель с MTP-головами, но не используешь их — они все равно висят в памяти мертвым грузом.
Так что, если ты вдруг будешь недоволен ускорением от мтп, то контекст ты так и так потеряешь, его влезет меньше!

Поэтому старую модель без мтп не удаляй.
А то я снес, а у АесСедая целый тред таких обосравшихся как я. =D И он пожимает плечами, мол «да я и сам модель без мтп снес, и обниморду пурджнул… нема бэкапов».
Аноним 09/06/26 Втр 10:12:44 1628146 14
>>1628132
Да. И в glm, и в step нативно есть mtp - и у обоих сеток указано как через vllm его запускать.

>>1628136
>Ты бля угараешь.
Ну вообще - это под 3.5, а я в релизах искал пролистав все после выхода 3.7, и через поиск по "3.7 step" и не нашёл ничего.
Ну и ещё на hf искал странички квантов где указано, что mtp есть. Не нашёл. Учитывая что они там нативно были - подумал, что есть в квантах, но подписывать не стали, в ночь поставил загружаться квант - запускаю, при запуске с mtp-параметрами оно пишет, что нет mtp-слоёв в кванте. Обновляли вот несколько дней назад. Никакой отдельной папки MTP как у геммы я не вижу.

>>1628138
Я ещё полгода назад просил скрипт на питон, который возьмёт один gguf-квант, и некоторые слои в нём поменяет на слои из другого кванта (условно подменить Q4_K_M на Q6_K из кванта побольше, но только отдельные слои - и сохранить).
Это работало очень быстро, и скрипт написала с одной попытки бесплатная гемини или жпт. Думаю, выпилить mtp-слои из кванта можно так же просто скриптом на 30 строчек.
Аноним 09/06/26 Втр 10:20:17 1628155 15
image 1319Кб, 1338x1084
1338x1084
image 1292Кб, 1390x1044
1390x1044
image 1321Кб, 1391x1036
1391x1036
image 1091Кб, 1359x898
1359x898
Сочный кумслоп оригинальной gemma-4-31B_q4_0-it.gguf

Что вы там с ней делаете что она рефьюзит...
И русский вроде норм, не поломан.

Быстрые тесты на одном сообщении, чисто проверить модель, рп-шить щас желания/времени нет, но вроде всё норм, как время будет надо будет потыкать. Особенно как завезут норм поддержку драфт-модели, ибо на 12 ГБ VRAM всё же как-то медленновато.
Аноним 09/06/26 Втр 10:23:32 1628157 16
Аноним 09/06/26 Втр 10:24:43 1628158 17
>>1628136
>Смысл агентов в том, чтобы обдумать, сформировать логичное продолжение под твои вкусы и историю, а не просто «продолжить текст» единым высером.
ИМХО, по по моим практикам - без направляющего пинка агенты так и норовят обсасывать какую-нибудь ненужную фигню. Да, это может быть лучше, чем просто свайпы в Таверне, но может быть и хуже - а ещё и долго.

>Я готов потерпеть ради немного лучшего результата.
А я на немного лучший не согласен. Тем более на уровне "вайбкодинга" - чистой алхимии, где куча агентов чего-то там делает, как правило ересь всякую и ты это даже не контролируешь. Ну бывает интересно, живенько. Так в том и прикол агентского подхода. Но проблемы там системные и развернуться не дадут.
Аноним 09/06/26 Втр 11:03:10 1628176 18
>>1628155
До как вы заебали. Анон.
Гемма может, гемма умеет.
В пару сообщений, лол. Ну ассистент это, не умеет она в ЕРП. Она лупится, она идет теми же тропами. Ты в промте чуть ли не весь сюжет должен задавать, чтобы было что то интересное.
Гемма пиздата как некопомощник. Она сделает с тобой карточку, она пропарсит твои сообщения, она промт для картинкогенерации сделает. Но для РП и ЕРП она абсолютно не юзабельна и проигрывает в этом даже плотно квенчику, не говоря о его старших моэ милфах.

Я не понимаю, чё вы на ней помешались? Ебанный порноквен 235 в Q_3_xxxl_omega_dark_gguf можно запустить на 16 врам с 30к контекста на 9-10 т/с. (Дыа, 128ддр5 тут не помешают) И будут вам plap plap и подозрительная жидкость по усам от мохнатых пёзд.
Аноним 09/06/26 Втр 11:12:18 1628180 19
>>1628176
>не умеет она в ЕРП. Она лупится, она идет теми же тропами
Не в первый раз вижу от тебя этот тейк ИТТ. Причем только от тебя, больше никто не жалуется.
У меня лично ничего не лупится. И да, я знаю что такое лупы, я потому дристрали изначально засирал еще до того как это стало мейнстримом - потому что вот они как раз реально лупились. Скорее всего у тебя косяк где-то в шаблоне. Насчет тропов - да, приходится время от времени по рукам гемму пиздить линейкой.

> Но для РП и ЕРП она абсолютно не юзабельна и проигрывает в этом даже плотно квенчику
У тебя точно проблема с шаблонами. Квены меньше 235 абсолютно не подходят для РП.
Аноним 09/06/26 Втр 11:17:25 1628184 20
>>1628176
Если бы неумела в рп не высрали бы десятки тюнов за пару месяцев.
Аноним 09/06/26 Втр 11:26:23 1628187 21
>>1628109
> А всё одно не взлетит. Считаю, что сама идеология порочна: упор на кучу агентов (а современная локальная архитектура к ним не приспособлена) вместо кучи инструментов на скриптах. Даже если у тебя есть возможность выделить отдельную видеокарту чисто под агентов будет сложно - а такая возможность есть далеко не у всякого. Следовательно разработка Маринары практически исключительно под корпы и не для ЕРП. И даже там будет медленно!
То, что реализует маринара, не является агентами в классическом понимании. Она предоставляет детерменированные мультизапросы, т.е. порядок вызова тул-колов определяется алгоритмически, а не самой ллм. В этом плане к этому ближе обычный CoT, тот же stepped thinking из шапки, как пример реализации.

На той же плотной гемме с 20-30t/sec при отключёнии ризонинга в режиме ролеплея там более чем комфортно даже с несколькими агентами, поскольку большая их часть вызывается уже после основного ответа ллм. Да, как мне кажется, ризонинг попросту не нужен в рп на новых моделях, особенно при активации Writer Agents вроде Narrative Director в маринаре.
Аноним 09/06/26 Втр 11:28:12 1628188 22
>>1628187
>порядок вызова тул-колов определяется алгоритмически, а не самой ллм.
Это и есть агенты, это не автономные агенты.
Аноним 09/06/26 Втр 11:42:34 1628194 23
>>1628176
>128ддр5
Дайте мне кирпич, я ему въебу, кря.
Аноним 09/06/26 Втр 11:44:36 1628197 24
>>1628194
Борда успешных людей, сырок
Аноним 09/06/26 Втр 11:45:30 1628198 25
>>1628180
> Не в первый раз вижу от тебя этот тейк ИТТ
Йор детектор из броукен.
Я пишу пару раз в тред и всегда мимо гемосрачей прохожу. Потыкал, помыкал остался доволен умницей.

> Квены меньше 235 абсолютно не подходят для РП.
Честно, я про 27b исключительно с чужих слов могу говорить, так как у меня с 235ым ван лав. Я ему мохнатых тянок, он мне описание хвостиков. Честная сделка.

Ну пиздец просто, из треда в тред:
Гемма, гемма, гемма, гемма, гемма, гемма, гемма.
Аноним 09/06/26 Втр 11:46:27 1628199 26
>>1628194
Это все еще дешевле чем врам.

Ебать меня немытым кирпичом, она уже под 170к.
Аноним 09/06/26 Втр 11:47:21 1628200 27
>>1628197
Успешные люди заводят эскортниц и играют в рп ирл или ездят культурно отдыхать на острова где нет закона не дроча на буковки.
Аноним 09/06/26 Втр 11:51:26 1628204 28
124б гемму хочеца...
Аноним 09/06/26 Втр 11:51:43 1628205 29
image 234Кб, 742x609
742x609
>>1628199
>она уже под 170к
А что начнётся когда запасы на складах подойдут к концу... Ставлю на ещё х2 к текущей цене к концу года. Ну как грится кто успел тот успел я не успел, застрял на 64 ддр4. Сюка :(
Аноним 09/06/26 Втр 11:57:53 1628209 30
>>1628046
> не должны сильно проц нагружать
Не должны, но нагружают. И там уже зависит от конкретного кейса, если общее время обсчета + оверхед на задержки и семплирование больше чем число принятий минус 1 умноженное на время генерации - будет замедление, и наоборот.
> Где?
Во всех интерфейсах где заявлен гибридный инфиренс - llamacpp и форки, ktransformers, fastllm.
> Там же еще промтпроцессинг идет блоками
Если промпт ниже порога - свою часть считает проц, видишь нагрузку на него и некоторую задержку перед первыми токенами. Если выше - идет стриминг весов и обрабатывается батчами, о чем пишет в консоли. На крупных моделях только время на стриминг составляет секунды-десятки секунд, особенно в лламе где непонятки с тп.
> В мире где нет задержек и говнокода
В чем задержки говнокода? Выглядит что ты называешь говнокодом неприятную математику, которая не позволяет достичь идеальной параллелизации без кучи обменов, вести обсчет по 10 раз на одних и тех же весах не подгружая новые вместо разных, обсчитать сразу фулл промпт избегая множественного стриминга не имея буферов.
> И промтпроцессинг ты оффлоадишь на видюхи, тоже по суммарной пропускной способности шин
Это уже так и работает, по крайней мере в рамках одной системы, даже между разными нума нодами. При наличии очень быстрого линка в десятки-сотню гигабит с минимальными задержками, можно и между нодами разделить, это уже доступно. Но чтобы было не мучительно больно, там важен не только сам протокол линка, но и конфигурация линий и анкора профессора, чтобы иметь прямой доступ между гпу и контроллером.
Но с 3080ти мало что выйдет, они достаточно слабые сами по себе и имеют слишком мало памяти чтобы даже атеншн с кэшем вместить если речь про крупные модели. Всю эту богодельню можно сильно упростить, взяв некросервеную платформу на ддр4, натыкав в нее этих карт и запуская. То же самое, но единое адресное пространство и сразу относительно быстрая связь между картами без сетевых приколов, даже слотов памяти будет как в N десктопных.
> На двух обычных компах я видел якобы х2 скорость вообще по wifi коннекту.
По тандерболту 5 со 120гбит в секунду, контроллер которого интегрирован в проц. Никаких вайфаев для подобного.
Аноним 09/06/26 Втр 12:26:59 1628231 31
>>1628198
>Честно, я про 27b исключительно с чужих слов могу говорить, так как у меня с 235ым ван лав.
Не надо так - с чужих слов. Да, 235 очень хорош для РП и для кума, сам именно для того чтобы запускать его в четвертом кванте вместо второго поменял год назад оперативку на 128 гб(А в итоге пересел на 3.0 bpw большой ГЛМ, потому что он пишет даже сочнее и не имеет багов 235 с разметкой).
Так вот, 235 и 27B/122B это совершенно разные модели, из всей линейки 3.5-3.6 в хороший РП может только 397, но и его надо палкой пиздить для корректной перспективы.
Аноним 09/06/26 Втр 12:32:24 1628232 32
>>1628109
Для староверов там можно отключить вообще все, или инжектить в основной промпт. Агенты там не то, что сейчас подразумевается под автономными агентами, а именно дополнительные скриптованные вызовы.
> разработка Маринары практически исключительно под корпы
Как раз наоборот - большинство страдальцев на проксичках анально огорожены рейтлимитами и контекстом. Поэтому там есть возможность запустить гемму е4б на встроенной llamacpp, чтобы отдать ее под простых агентов.
> не для ЕРП
Контроллеры секс игрушек, нсфв промпты и статы возбуждения туда случайно попали.
>>1628194
А что если там 128ддр5 одной планкой?
>>1628198
> с 235ым ван лав
Да, он реально приятен когда не неприятен. Может держать персонажа, сюжет, быть внимательным и проницательным. Кстати, на контексте 122 на него становится весьма похожим, иногда вытаскивая даже больше подходящих деталей. Но страдает нерешительностью.
>>1628200
Это изимод, вот ты попробуй на буковки подрочить с острова
Аноним 09/06/26 Втр 12:36:28 1628236 33
Здарова фраера, чё там годные файнтюны уже появились на 12б иличё? И в целом как моделька?

мимозалётный
Аноним 09/06/26 Втр 12:44:07 1628241 34
Аноним 09/06/26 Втр 12:58:43 1628247 35
Опять 235-шиза из больницы выпустили. Даже 27 3.5 гораздо лучше чем этот мусор
Аноним 09/06/26 Втр 13:01:48 1628250 36
>>1628247
>27b лучше чем 235b
>в РП
Тут ещё вопрос кто из вас больший шиз
Аноним 09/06/26 Втр 13:03:59 1628254 37
>>1628250
А, ну да
Цыфорки же решают. И похуй что пережаренный лоботомит с репетишеном и тупой
Аноним 09/06/26 Втр 13:07:56 1628260 38
>>1628254
Я пересел с глм 358 на гемму 4 31, и рад.
Аноним 09/06/26 Втр 13:20:48 1628267 39
>>1628260
Неееет как ты мог..! Ведь там модель больше чем в 10 раз БОЛЬШЕ, она даже в IQ2XXXS кванте круче геммы в полных весах!!!
И похуй что они по HLE сопоставимы, а Гемма первая локальная модель которая следует инструкциям
Аноним 09/06/26 Втр 13:24:16 1628270 40
image 58Кб, 480x480
480x480
Ебать вы лохи, пересел с Кими 1T на Гемму e2b - кум рекой полился, брат воскрес! Умница! Красавица! А вы и дальше дрочите на свои ЦиФеРкИ!
Аноним 09/06/26 Втр 13:26:11 1628272 41
>>1628270
Классический пример обобщения от непонимания. Ты на пике кстати слева?
Аноним 09/06/26 Втр 13:28:54 1628273 42
>>1628267
> Гемма первая локальная модель которая следует инструкциям
Таблетки
Аноним 09/06/26 Втр 13:30:21 1628274 43
>>1628272
Интересный факт: Qwen 4b гораздо лучше себя показывает в РП чем Клод и Гемини (глупые и пережаренные). Жаль конечно что не все способны это понять...
Аноним 09/06/26 Втр 13:30:27 1628276 44
>>1628146
Дай угадать — unsloth качаешь?
Скажу честно — минимально касаюсь этих говноделов. Они на бумаге крутые ребята, а на практике, что не релиз интересной модели — то ошибка.
Но если кого-то другого — ну кто знает.

Лично я могу посоветовать https://huggingface.co/AesSedai/Step-3.7-Flash-GGUF , там и кванты получше (как минимум по ppl — мусорный бенч, но низкий ппл — гарантия хуевого ответа, анслоты точно хуже), и мтп на месте.

> Думаю, выпилить mtp-слои из кванта можно так же просто скриптом на 30 строчек.
Хм, справедливо.

>>1628158
Гемма у меня ошиблась раза 2 за сессию. Не критично, учитывая, насколько охуенна (для 60 тпс локальной модели!) была остальная часть.

> А я на немного лучший не согласен.
Твой выбор, конечно. =) Думаю, таверна гораздо быстрее выплевывает ответы. Давно уж на ней не роллил, если честно, все не было времени.

>>1628176
> Ты в промте чуть ли не весь сюжет должен задавать, чтобы было что то интересное.
Кстати, плюс агентов и Маринары в том, что мир я генерил автоматом, и попросил рассказать мне как дефолтному челику из этого мира, поэтому сюжета не знаю.
И, да, гемма вполне справилась, хуй знает.
РП гемма — топ, для локалок 9 из 10.
ЕРП я не пробовал, не дошел еще. У мя там фэнтези, а не дроч ради дроча.

> Ебанный порноквен 235 в Q_3_xxxl_omega_dark_gguf можно запустить на 16 врам с 30к контекста на 9-10 т/с.
Эээ… А можно 60к и раз в 10 быстрее?
Так-то степ-флэш можно на 18 тпс запустить, не знаю как он в ерп, но…

Давай по чесноку — в рп я вижу так называемый нейрослоп местами, но камон, то что нынче называют нейрослопом — это обычная художественная литература. Если сейчас почитать любые книги Б-класса и половина А — это будет нейрослоп в чистом виде от оригинальных авторов — на которых нейронки и учились.
Напрягаться от того, что книга написана как книга, а не как цирк с конями-эквилибристами — это шиза и синдром вахтера.
Лупы? >>1628180 я помню, как писали старые мистрали, да, они спустя 2-3 сообщения могли неприятно лупиться, это отталкивало, пропадала магия.
У Геммы я словил такое… Ммм… один раз с натяжкой с перерывом в 3 часа? Как будто это и не луп был.

Я не говорю, мол, гемма наше все.
Наше все это бесплатные корпоративные модели локально на смартфоне.

Но сравнивая гемму 31б с другими моделями — мне нравится ее возможности. Это действительно крепенькая, красиво пишущая, хорошо отыгрывающая характеры персонажей (напоминаю, только у меня в пати 4 активных постоянно + окружающие неписи) модель. Со своими минусами, конечно.
Сейчас еще 26б потыкаю.

>>1628187
> То, что реализует маринара, не является агентами в классическом понимании. Она предоставляет детерменированные мультизапросы, т.е. порядок вызова тул-колов определяется алгоритмически, а не самой ллм. В этом плане к этому ближе обычный CoT, тот же stepped thinking из шапки, как пример реализации.
Вот это интересно, кстати. Я не вглядывался. На мой взгляд, автор неплохо постарался на самом деле.
Но как я понимаю, тул колы модель может как вызывать, так и не вызывать (рисовать картинки по своему желанию, устраивать битвы и т.д.) — так что, на мой взгляд, таки вполне агенты.

Но не буду спорить!

> Да, как мне кажется, ризонинг попросту не нужен в рп на новых моделях
Я вчера ультовал, но надо будет попробовать отключить, возможно ты прав.

>>1628194
Да, 46к рублей в августе, очень дорого это было… пу-пу-пу… Нам пришлось раскошелиться…

>>1628199
Которую я брал в днсе — уже за 200. хд

>>1628200
База, мы так, бомжи, которые чуть вовремя расстарались, и то случайно, зачастую.

>>1628205
Че думаешь, слить на авито за 300к потом? :)

Ладно, попиздовал я без ризонинга на 26b страдать. Зато 170 тпс, даже Маринара перестанет быть долгой.
Аноним 09/06/26 Втр 13:31:06 1628277 45
>>1628273
Нужны тебе, если ты не видишь как твой квен в ризонинге пишет "не буду писать за юзера" а потом имперсонейтит и срет под себя
неудивительно впрочем, тыж как ребенок в песочнице модельки по цифрам измеряешь
Аноним 09/06/26 Втр 13:31:43 1628278 46
>>1628274
Ваще-та QClaw!

А MiniCPM5-1B ну ваще жара, но это тайна.
Аноним 09/06/26 Втр 13:33:51 1628281 47
>>1628254
>Цыфорки же решают
с оговорками, но да

бенчедрочер мимошёл
Аноним 09/06/26 Втр 13:37:02 1628285 48
>>1628281
Они не про бенчи, а про размер модели.
Типа, llama-3-70b до сих пор ебет step-3.7-flash, потому то 3*70 это 210, а 196 это 11 (активных). 11 меньше 210. Понял?
Аноним 09/06/26 Втр 13:38:28 1628286 49
>>1628281
Напомню, что по бенчам Квена 3.5 27 обходит 235. Ебало 235-шиза представили?
Аноним 09/06/26 Втр 13:42:24 1628295 50
image 74Кб, 1092x1037
1092x1037
>>1628276
>Да, 46к рублей в августе
Я тем летом взял 64гб ддр4 за ~8к рублей со всеми скидками и бонусами озона. Думал пересижу еще годик на старой пекарне с эйром в Q4, а потом соберу новую со 128 ддр5, 5080 super 24gb.. Бля, каким же идиотом я был.
Аноним 09/06/26 Втр 13:47:45 1628303 51
>>1628277
Проиграл с поехавшего, вот это "моя борьба"!
Аноним 09/06/26 Втр 13:52:46 1628307 52
>>1628303
В чём он не прав? Квены действительно так делают. Инструкциям в рп хорошо следуют только жирноглмы и Гемма.
мимо
Аноним 09/06/26 Втр 13:53:34 1628309 53
>>1628303
Человек просто физически не может запустить что-то крупнее 27-30b и происходит мощнейший коупинг, что оно НА САМОМ-ТО ДЕЛЕ ХУЖЕ и вообще НИНУЖНО. Защитная реакция психики, чтоб её.
Аноним 09/06/26 Втр 13:54:43 1628311 54
>>1628286
Шиз, я даже сейчас не буду спорить о графоманстве моделей.
Но ты имеешь возможность запускать 235 в Q8? Потому что иначе, ты лишь посмотрел на циферки и теперь бегаешь с этим как с писанной торбой.
Охуеть какое дело, агентская малыха хороша как агент. А знаешь что еще ебет по бенчам? Минимакс ебанный, но ты и тут нищета чтобы его запускать в нормальных весах.
Так что иди нахуй со своими бенчами, если ты настолько тупой, что умудряешься сравнивать несравниваемое.
Никто на 235 не кодит, сраный ты дегенерат.

Минутка ненависти окончена.
Аноним 09/06/26 Втр 13:56:26 1628312 55
>>1628311
Действительно, именно из больницы в тред и явился. Здоровья тебе, поехавший.
Аноним 09/06/26 Втр 13:57:16 1628313 56
>>1628312
И тебе не болеть.
Почесал за ушком.
Аноним 09/06/26 Втр 13:59:15 1628318 57
>>1628311
> А знаешь что еще ебет по бенчам? Минимакс ебанный

У меня во фришках есть minimax/minimax-m3
На практике я бы сказал, что он хуже deepseeek4-flash
Но я исключительно фри эндпоинтами пользуюсь, может у меня он резанный q4 от провайдера - я хз.
Аноним 09/06/26 Втр 14:04:46 1628321 58
>>1628295
>а потом соберу новую со 128 ддр5, 5080 super 24gb.. Бля, каким же идиотом я был.
Да кто же знал, что все ебанутся? Вон нахрена они сейчас строят датацентры эти - чтобы что? И нынешних вычислительных мощностей хватает платным клиентам и не особо они окупаются. Ещё и экономику наебнут, когда пузырь лопнет.
Аноним 09/06/26 Втр 14:06:11 1628322 59
Qat на 16гб. Гемма 4 26б абсолютная победа. Она весит 13.9 туда залетает mtp, скорость ту зе мун и это всё позволяет включать ризонинг не ограничивая его длинну.
На 31б плохо, 17,7 гигов сомнительный профит по скорости особенно на 128 шине, если обычные на 17,3 и 18,6 не имеют проблем. Ниже четвертого кванта qat у меня вообще поломанная была, спамила тегами мышления. Возможно в будущем измениться а пока только mradermacher их делает но он их не запускает для теста так бы увидел что половина не работает вообще.
Аноним 09/06/26 Втр 14:06:52 1628323 60
>>1628311
>Никто на 235 не кодит, сраный ты дегенерат.
На русском он классно порнуху пишет и ума не теряет. Заметно, что датасеты не чистили. Для другого и правда почти не годен.
Аноним 09/06/26 Втр 14:09:44 1628325 61
>>1628323
Увы. Это последняя порномодель которую выпускали для работяг. Сейчас большие монетки пишут лучше по уровню языка, но совершенно скупо. Plap plap потеряны, братья, оварида десука, ёпта.
Аноним 09/06/26 Втр 14:12:05 1628326 62
>>1628325
>монетки
Модельки* фиксим, фиксим.
Аноним 09/06/26 Втр 14:12:48 1628327 63
>>1628325
Гемма 31 литералли лучше для кума, чем 235
Аноним 09/06/26 Втр 14:20:07 1628329 64
>>1628311
>Но ты имеешь возможность запускать 235 в Q8? Потому что иначе, ты лишь посмотрел на циферки и теперь бегаешь с этим как с писанной торбой.
Нет, не имею такой возможности. Имею возможность запускать Q5 235 и Q5 27 и вижу своими глазами, что 27 лучше. По цифрам вижу, что 27 лучше. На что еще мне посмотреть? Ты раз в месяц регулярно врываешься со своим альтернативно-одаренным мнением и разводишь срачи, хотя ни разу не принес НИ ОДНОГО лога. Вопрос: ты долбаеб и тебе заняться нечем?
Аноним 09/06/26 Втр 14:27:34 1628335 65
>>1628329
> Имею возможность запускать Q5 235 и Q5 27
Конечно, конечно. Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте. Охуительные истории. Ты не стесняйся, сразу пиши что в Q2 его разъебывает.
Я просто тебе неполживому напомню, что там активных всего 22b.

> Ты раз в месяц регулярно врываешься со своим альтернативно-одаренным мнением
Пока я не написал что пишу пару раз в месяц, я у тебя чуть ли не каждую неделю срач разводил.

> НИ ОДНОГО лога
Как и ты, анон, как и ты.

Вот аноны пользуются 235, подрубают когда хотят покумить, но только ты познал дзен 27. Ваааалшебник, не иначе. Носок с камнем сам сделаешь.
Аноним 09/06/26 Втр 14:29:13 1628336 66
Что-то я не так с embedded моделями делаю.
Скачал qwen 8b embedded, запустил через llama-cpp с ctx 2048 и почему то он в 4 кванте не помещается в 8vram, начинает в shared memory лезть. Вроде и контекст небольшой? Кто-то сталкивался с таким?
Аноним 09/06/26 Втр 14:36:30 1628344 67
>>1628335
>Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте.
В чем противоречие? У меня 32 + 128. Q5 235 влезает с 64к контекста, Q5 27 с 120к контекста, я его так и использую и держит он его очень хорошо.
>Ты не стесняйся, сразу пиши что в Q2 его разъебывает?
Q2 здесь причём?
>Я просто тебе неполживому напомню, что там активных всего 22b.
Ага. Ииииии? Что это должно значить?
>я у тебя чуть ли не каждую неделю срач разводил.
Поиск протыков пошёл?
>Как и ты, анон, как и ты.
Да много раз приносил на самые разные модели. И другие приносили и на 235, и на 27.
>Вот аноны пользуются 235, подрубают когда хотят покумить, но только ты познал дзен 27
Эти аноны с тобой в одном треде? Или все таки в голове?
Как минимум эту точку зрения разделяет автор гайда с шапки лол сорян что приплетаю, анон, но как ещё изгонять ебанутых демонов шитпостеров?

Вводные такие;
Ты один единственный шиз кто семенит про 235 и не приносит логи. Итог: надо либо завалить ебальник и принять реальность либо свой громкий пиздёж чем то подтверждать. Где логи пресеты? Или ты типа думаешь что сила твоего слова настолько велика что перестроит реальность?
Аноним 09/06/26 Втр 14:39:41 1628349 68
>>1628335
>Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте
Имею возможность запускать 235 в Q2 и собсна запускаю для кума. Новые квены совсем залупа какая-то. Ассистенский биас, ебанутая цензура, ебанутый ризонинг. При наличии Геммы в том же размере - просто не нужны.

другой анон
Аноним 09/06/26 Втр 14:39:43 1628350 69
>>1628311
Каждый раз когда ты залетаешь со своим "ммм какой Квен 235 ахуенный" все заканчивается одинаково. Тебя справедливо просят подкрепить свой мягко говоря сомнительный тейк хоть чем-нибудь, в итоге ты несешь какую-то хуйню и под конец выливаешь в тред бидон желчи. Иди нахуй, говно.
Аноним 09/06/26 Втр 14:58:50 1628367 70
Аноним 09/06/26 Втр 15:28:47 1628384 71
>>1628350
>сомнительный тейк
Запускаешь модель @ пишешь. С ним нет никакого гигапердолинга. Все пресеты что я притаскивал лежат у хомячка на пикселе, но ты слишком тупое говно чтобы открыть свои глазки. И нет, я не собираюсь скидывать логи сраной порнухи, потому что это тупо и это проверяется банальным запуском самой модели.

>>1628344
>Как минимум эту точку зрения разделяет автор гайда с шапки лол
Ку уже нужно делать? Или какой положняк нынче?
>Где логи пресеты?
Все было скинуто и не раз. От пресетов, промтов до паков карточек. Сорян, но я не собираюсь как кукушка повторять одно и тоже действие.
Аноним 09/06/26 Втр 15:30:38 1628386 72
>>1628384
>я не собираюсь скидывать логи
>Все было скинуто и не раз
Слив засчитан. Вопрос нахуя ты устраиваешь срачи своими вбросами остается открыт, да и похуй. Записан в шизы и говно наравне с эйроидиотом. Вы на одном уровне
Аноним 09/06/26 Втр 15:33:06 1628389 73
>>1628386
> Слив засчитан
Хорошо. Объясни, почему твой тейк что 27b лучше я должен воспринимать за истину? Или доказывать исключительно только тебе надо, а все твои слова неполживая истина?
Аноним 09/06/26 Втр 15:36:24 1628392 74
>>1628389
Это не мой тейк, ты общаешься с как минимум двумя анона, мб больше даже. Мой тейк в том что ты регулярно высираешься в тред и получаешь одну и ту же обратную связь (справедливую), но это тебе не останавливает от того, чтобы плодить еще больше срачей. Не знаю кто тупее, ты или тредовички которые каждый раз ведутся. Одного эйрошиза нам мало, ага
Аноним 09/06/26 Втр 15:37:30 1628394 75
>>1628389
>твой тейк что 27b лучше
Ты пропустил мой тейк, что 31B лучше.
Мимо с глм->гемма
Аноним 09/06/26 Втр 15:40:50 1628396 76
>>1628392
Лол, ну ты же вступил в беседу, так что не ссылайся на других. Чилавек лигивон.
Если 27b лучше ты же сам легко это запруфаешь, не так ли ? Или уйдешь в семенство и в верчение жопой?
Каждый раз одно и тоже
>235 отлично пишет порево
>27 лучше
>где?
>ололо квеношиз


Ну покажи мне где он ебет, разъеби меня хоть раз фактами чтобы я заткнулся. Это же легко.
Аноним 09/06/26 Втр 15:44:03 1628399 77
>>1628396
Не, я не вступал в беседу, я нассал тебе на ебало за то что ты устраиваешь срачи и регулярно высираешься в тред. Жопой виляешь здесь ты и намеренно агришь на себя тред или у тебя настоящие траблы с головой. Будь я мочой давно потер бы тебя
Аноним 09/06/26 Втр 15:44:44 1628401 78
То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует. А вот то что 27b задроченный на ассистенство лучше в РП чем 235b с кум-датасетами - это напоминает траленк и вброс. Тот кто писал про это пусть и доказывает вместе с логами (доказательство - бремя утверждающего, не так ли?)
Аноним 09/06/26 Втр 15:45:43 1628402 79
>>1628394
Может потому что 31b это умница ассистент и в этих задачах она лучше? Может ты пряники мятные считаешь, зачем тебе глм.

>>1628399
Ну в общем кроме унылого оскорбления, ты не способен подкреплять свою позицию. И все что можешь это бессильно пукать?
Вот это я понимаю конструктив.

> нассал тебе на ебало
Пока что ты нассал себе в штаны.
Аноним 09/06/26 Втр 15:47:13 1628404 80
Здравствуйте, многоуважаемые посетители имиджборда 2ch.
Корпосетки окончательно зацензурились в связи с чем хочу вкатится в локальные модели, железом хорошим не обладаю поэтому хочу арендовать железо.
Подскажите, оправдано ли это?
И что нынче считается топом для кума?
Аноним 09/06/26 Втр 15:47:44 1628406 81
image.png 429Кб, 746x395
746x395
>>1628401
>То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует
>А вот то что 27b задроченный на ассистенство лучше в РП чем 235b с кум-датасетами - это напоминает траленк и вброс
>Тот кто писал про это пусть и доказывает вместе с логами (доказательство - бремя утверждающего, не так ли?)
Как удобно, что между 235b и 27b лучше именно 235b - это не утверждение и потому доказательств не требует
Аноним 09/06/26 Втр 15:54:58 1628414 82
>>1628406
>между 235b и 27b лучше именно 235b
Потому что это модели от одного разработчика и между выходом прошло всего полгода. При таком незначительном временном разрыве фраза "235 лучше в РП" звучит вполне себе оправдано и солидно.

Больше параметров = больше знаний, больше "мозгов". Это буквально база. Чего такого изобрели квен за полгода, какие космические технологии, что модель почти в 10 раз меньше стала лучше их же милфы?
Аноним 09/06/26 Втр 16:01:37 1628422 83
>>1628401
По известной формуле, МоЕ 235б а22 ~ 45б плотной, это очевидно и доказательств не требует.

27б новее, но конечно до 45б не дойдет. Вот если бы в плотняше хотя бы 40б параметров было, то это уже было бы конкуренцией реальной
Аноним 09/06/26 Втр 16:02:34 1628423 84
>>1628344
>Ты один единственный шиз кто семенит про 235 и не приносит логи.
Он не один, как минимум я тоже одобряю 235. Хотя и не запускал её давно. И вот еще один, который запускает в Q2 >>1628349
Так что мне кажется что шиз тут ты
>Где логи пресеты?
Байт на пресеты пошел, лол.
Аноним 09/06/26 Втр 16:04:35 1628424 85
>>1628307
Неправ в исходном утверждении, неправ в том, что выплескивает в тред свои проекции. Инструкциям могла следовать еще альпака на первой лламе.
>>1628309
С агрессивности этого коупинга и манямирка за ним можно только ахуевать.
>>1628311
> в Q8
Зачем такое? Если фуллврам то это в корне бессмысленно, если с выгрузкой - там между q6 и q8 разницы не будет, зато скорость приятнее.
А 235 вполне себе норм модель для рп, не для всего, но в некоторых сценариях отлично пишет. Даже по современным меркам неплохо, можно смело закидывать в рандом пулл или ставить основной если знаешь что подходит под сюжет.
Аноним 09/06/26 Втр 16:07:18 1628426 86
>>1628404
А что выбрать какую-нибудь слабо зацензуренную (или ломаемую джейлом) средненькую модель у провайдера с опенроутера не варик?
Если у тебя не 256гиг (а то и больше) риг то модели которые ты сможешь запустить могут показаться очень каловыми
Аноним 09/06/26 Втр 16:07:40 1628427 87
>>1628404
Локалки тоже зацензурены в салат, и из них вычистили все срамные тексты из датасета, плюс надрочили отказывать.
Да, это жозенько, но корпам не нужно, чтобы во время презентации биг боссам или проверяющим чиновникам модель высрала крамолу. Там могут и премии лишить, и посадить за изготовление и распространение прона.
Так что терпи и дропай рп и ерп, качай opencode и замещай кодеров.
Аноним 09/06/26 Втр 16:09:32 1628428 88
>>1628404
>железом хорошим не обладаю
Для геммы 26В достаточно любой видеокарты и 16 гб рам.
Аноним 09/06/26 Втр 16:11:45 1628431 89
>>1628313
> Почесал за ушком.
А меня, а меня?!
>>1628344
> единственный шиз
Этим называли и меня, и еще как минимум трех разных человек. Кажется что настоящий шизик тот, кто разводит все эти срачи с радикальным максимализмом, тогда как разные аноны отмечают плюсы и минусы. Сценарий и тейки одни и те же, варьируется только наброс с которого начинается проход в квен или что-то еще.
>>1628401
> лучше именно 235b
Ну, кодить лучше 27б, точнее и нет лишнего. На ассистенте даже хз, 27вроде свежее и более аккуратно жонглирует доступным, но 235 иногда выдает ультрадушевную милоту с которой очень приятно, при этом выполняя задачу. Но слишком уж много жрет памяти, тут 27 или 122 рациональнее.
Аноним 09/06/26 Втр 16:12:51 1628433 90
>>1628427
>и из них вычистили все срамные тексты из датасета
Пиздеж, гемма явно на порнухе училась. Да и из больших моделей никто ничего не убирал.
Аноним 09/06/26 Втр 16:15:37 1628434 91
>>1628414
> Потому что это модели от одного разработчика и между выходом прошло всего полгода
Странная аргументация. 235 пережарен, это знают все, кто его запускали. Иногда это на пользу, но часто - нет. Про полгода и вовсе бессмыслица, потому что есть большая разница между Квеном 3, архитектурой Next и последующей 3.5. Все Квены 3 были пережарены, в общем-то, не только 235. 3.5 не пережарены и их архитектура значительно продвинулась по сравнению с 3, как утверждают сами разработчики Квена.
> Больше параметров = больше знаний, больше "мозгов". Это буквально база.
Существуют бенчмарки и тесты, которые позволяют эти "знания" измерить, и как выше отметили 3.5 27б по этим тестам превосходит 235. Даже по Human's Last Exam, который как раз пытается тестировать знания в самых разных сферах, и даже на момент выхода 235 обладал неприлично малым количеством знаний для своего размера, настолько он неудачен в этом смысле.

Тут проблема в другой плоскости совершенно. У 235 есть свои юзкейсы, но то, как ты приходишь сюда и вбрасываешь свое мнение только ради того, чтобы посраться - неадекватно. Принимай то, что не все разделяют твои вкусы, либо будь вменяемой стороной диалога и подтверждай свои тезисы хоть чем-то.

мимо тоже считаю, что 27 лучше, чем 235, даже приносил логи-сравнения
Аноним 09/06/26 Втр 16:23:39 1628438 92
>>1628031 (OP)
Сап, анонсы. Я полный ноль в ллмках. Что мне надо: мне надо, чтобы нейросетка могла распознать текст на скане/фотке документа, по моему промту изменить его и выдать мне в формате ворда/экселя.
Компьютер: штеуд12700, 4070ти (12гб памяти), 32гб оперативы ддр4.

Есть варианты как-то это нормально сделать, желательно с вменяемым графическим интерфейсом, чтоб мне не надо было какой-нибудь питон устанавливать, тыщи команд во всякие терминалы вводить и т.д.
Аноним 09/06/26 Втр 16:24:34 1628439 93
>>1628434
>3.5 не пережарены
Так не пережарены что лупятся в ризонинге "wait let's check again" по 10к токенов.
>даже приносил логи-сравнения
Ну так запости еще раз.

Мимо
Аноним 09/06/26 Втр 16:25:54 1628441 94
>>1628422
>По известной формуле
>это очевидно и доказательств не требует
Шиз, таблы. Формула кусок говна без доказательств.
>>1628423
>Хотя и не запускал её давно.
Да, охуенная сетка, но нахуй никому не нужна, всё так.
>>1628427
>плюс надрочили отказывать
Особенно гемму 4, ага.
>>1628438
>выдать мне в формате ворда/экселя
Сетки не могут генерировать файлы, только текста.
>тыщи команд во всякие терминалы вводить
Тогда мимо, ибо твой запрос решается только программированием кучи обвязок.
Аноним 09/06/26 Втр 16:27:59 1628443 95
>>1628438
Kobold.cpp + OpenWebUi
Первое в пару кликов ноубрейн запускает модель, второе дает фронт с мощным функционалом с интерфейсом для идиотов.
Из моделей подойдет гемма 26-31B, но удостоверься что запускаешь с mmproj, доп моделькой распознавателем картинок.
Аноним 09/06/26 Втр 16:29:14 1628444 96
>>1628439
> Так не пережарены что лупятся в ризонинге "wait let's check again" по 10к токенов.
У меня ни разу такого не было за все мои чаты на суммарно более, чем два млн токенов. Или у тебя сломанный инференс, или промпты с кучей сущностей, что запутывают сетку, либо на худой конец скилл ишью - можно использовать reasoning-budget, если все совсем плохо.
> Ну так запости еще раз.
У меня нет цели подливать масло в ваши пердаки, прошу меня извинить.
Аноним 09/06/26 Втр 16:30:50 1628445 97
Крч локалко-положняк на сегодня. Кодоунитазинг, агентоблядство, последний квен 27b. Писики, сисики, поболтулечки, Гемма 26\31b. thread/
Аноним 09/06/26 Втр 16:31:25 1628446 98
>>1628441
>Да, охуенная сетка, но нахуй никому не нужна, всё так.
235 хуже большого GLM/квена 397, в которых нет её проблем с форматированием. Но для тех кто не могут запускать GLM/397 - там 235 актуальна.
Аноним 09/06/26 Втр 16:33:15 1628448 99
>>1628434
>то, как ты приходишь сюда и вбрасываешь свое мнение только ради того, чтобы посраться
Так это другой анон срётся. Я вообще тот хуй с Q2, лол, и использую милфоквен под кум вместе с эйром и геммой 4. Новые квены, что 27b, что 122b мне не понравились совершенно. Цензура сложнопробиваемая (на пустом контексте), ризонинг вообще использовать невозможно - там ОГРОМНЫЕ бессмысленные простыни. Ну и субъективно по "мозгам" 27b проигрывает 31b гемме. А что касается 235b - там просто "сел и поехал", кум сочный, душевный, слоп слог нравится. Ладно в плане ассистента, но чем 27b может быть лучше милфы в рп/куме, в упор не понимаю. Скоростью разве что.
Аноним 09/06/26 Втр 16:37:38 1628449 100
>>1628404
>Корпосетки окончательно зацензурились
DeepSeek v4 отлично пишет порно на мой непритязательный взгляд.
Хотя хз, что там у тебя за фетиши.
Аноним 09/06/26 Втр 16:38:33 1628450 101
>>1628441
>Сетки не могут генерировать файлы, только текста
Ну хуй с ним, а оно сможет выдать мне текст, который я просто копировать в пустой документ смогу? Ну только с разметкой прям вордовской, с табличками, жирный, курсив етц.
Аноним 09/06/26 Втр 16:43:07 1628452 102
>>1628427
Блин грустно, неужели нет какого-то тюна, или тип того?
Раньше Гемини была хороша а щяс даже на несчастную пощёчину ругается, ставил и джейлы и хуейлы, везде костыли, я помню раньше ставил тюн на какую-то лайт версию и вроде ок было.
3060 у меня и 32 гб ОЗУ, вот и думаю арендовать яет
Аноним 09/06/26 Втр 16:43:56 1628453 103
>>1628441
>Шиз, таблы. Формула кусок говна без доказательств.
И чем мой стейтмент отличается от
>То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует.

Я с ним не спорю, но оба утверждения основаны только на ощущениях. Вот я лично ощущаю, что конкретно в РП производительность МоЕ и дэнсов можно сравнивать по такой формуле (active MoE param amount + (full MoE param amount)/10; in this case 22b + 235b/10 = 45.5b equivalent dense)

Но это вообще из моей жопы вытащено, ровно как и утверждение про то, что жирноквен МоЕ лучше скинниквена дэнс для РП конкретно, потому что а как ты блять это сравниваешь? Чисто так, что тебе чаты с жирноквеном больше нравятся. У тебя может быть байас к этой модели, потому что тебе нравится ее стиль письма, например, а это вообще исключительно вопрос предпочтений.
Аноним 09/06/26 Втр 16:44:54 1628454 104
>>1628449
А мне чет совсем не понравилась Гемини была в разы артистичнее, но ее зацензурили нещадно
Аноним 09/06/26 Втр 16:45:43 1628456 105
>>1628450
>Ну только с разметкой прям вордовской
Макдаун там будет. Впринципий, таверна его отрендерит как html, а он при копировании бровзером и вставкой в ворд может быть распознан нормально. А может и нет, и придётся вайбкодить конвертёр.
Аноним 09/06/26 Втр 16:46:58 1628457 106
>>1628453
>И чем мой стейтмент отличается от
Ничем, оба пиздабольство, лол.
>Чисто так, что тебе чаты с жирноквеном больше нравятся.
Я геммафаг если что, нравится отсутствие цензуры из коробки.
Аноним 09/06/26 Втр 16:50:59 1628459 107
>>1628426
А я хочу топ, хочу качественный кум и бабки готов заплатить, ток не понятно куда
Аноним 09/06/26 Втр 16:58:30 1628462 108
>>1628459
Мифос выйдет завтра, и сможешь покумить всласть. А тут лишь пускающие слюни лоботомиты.
Аноним 09/06/26 Втр 17:05:30 1628465 109
Аноним 09/06/26 Втр 17:06:02 1628467 110
>>1628462
А он точно умненький будет?
Мне просто надо что бы не только циферки считал и взламывал Пентагон, а еще и мог написать красиво как няшимся под одеялком
Аноним 09/06/26 Втр 17:06:52 1628468 111
>>1628456
Билят, ну +- такой же функционал есть и на диписике/чатжпт в онлайне. Мож тогда и не стоит заморачиваться локалками?
Аноним 09/06/26 Втр 17:07:59 1628470 112
Так а че с геммой, ее прям активно в треде обсуждают может на неё есть клевые тюны со всякими извращениями?
Аноним 09/06/26 Втр 17:11:11 1628472 113
В этом их тикитоке с месяц назад пиариили полностью анцензуренную модель, не помню название, что за неё анон скажет? Например сможем с ней в ГтаРП ролеплеить расчёты кумулятивных конусов или утилизацию 90 килограммовых куриц? Или такая инфа по умолчанию в датасете отсутствует?
Аноним 09/06/26 Втр 17:13:45 1628476 114
>>1628295
Просто на развес отдавали. Даже без бонус, все равно копейки за 64 гига ддр4.
А щас даже 32 на комп не наскрести вменяемо.

>>1628311
ОЛАДЬИ УГАШЕННЫЙ ТЫ ОБ ДЕРЕВО

>>1628318
Дипсик вообще говно, на самом деле. Хз, может тебе не фартануло? Мне М3 в общем норм.
Но вот М2.7 он разочаровывающий. В рассуждениях хорош, но дальше решения логических задач — какой-то ступор. Будто М2.5 и то лучше был в агентике и коде. Фиг знает, может мне тоже десять раз не повезло его использовать.
Короче, дипсик в принципе говно, а минимакс слишком дрочат на бенчи, модель хорошая, но не настолько, к сожалению.

>>1628336
Нет, у меня все лезло, как по расчетам.

>>1628422
> По известной формуле, МоЕ 235б а22 ~ 45б плотной, это очевидно и доказательств не требует.
Ржу до соплей просто.
Чувак, известная формула, это сумма мое делить на два. А скока там активных в формуле не участвует. Т.е., квен 235б мое был НА ТО ВРЕМЯ равен 117б плотной. Все, блядь, нахуй.
С тех пор тыщу раз пересрались, одних квенов три поколения сменилось, навыходили дипсики, мистрали, геммы, мимо, степы и прочие эрни.

Я не участвую в вашем споре, мне кардинально параллельно насколько хорош квен 235б на 10 тпс в ерп, правда.
Просто формула всю жизнь была total parameters / 2, или около того, а количество активных минорно влияло в ту или иную сторону.
И до сих пор многие знакомые так же считают, и это совпадает.

Даже блядская гемма на 12б чуть слабее, чем гемма на 26б (которая должна быть равна 13б), что охуенно подтверждает формулу.

Какие еще в пизду active * 2, ты с дуба рухнул. =)

>>1628438
Куча вариков, но никто не делает «просто приложением», потому что это никому нафиг не впилось, кроме тебя и таких как ты, а вы не делаете потому что не можете. Ну вот так и не повезло.
Я не помню, что хорошо поддерживает таблицы.
Любая VLM в общем подойдет.
Но формат Markdown будет.

>>1628441
> Формула кусок говна без доказательств.
Не, формула норм, просто она другая, а во-вторых, применима в рамках одной линейки и одного поколения. С геммой 4, например, отлично сработала, и с квеном 3 (когда еще был 14б) тоже отлично работала. А мерять за пределами линейки и поколения — ну просто невозможно, конечно.

———

Короче, я попробовал в Marinara Engine Gemma-4-26B-A4B-QAT с ризонингом и без.
Без ризонинга в GM режиме совсем хуйня (зато 4 секунды на ответ), с ризонингом ну явно проседает, хотя в целом играбельно (кстати, 10-12 секунд на ответ).
Но я останусь на 31б плотняше, скорее всего.
А вот 26б попробую для диалогов или ролеплея.

>>1628322
Вот на мой вкус, 26б прям сильно хуже 31б модели.
Но, тем не менее, есть куда применить. Скажи, а какие настройки MTP для геммы оптимальные? Че там по топ_п и че там по токенам?

Может даже команду подкинешь для правильного запуска?
Аноним 09/06/26 Втр 17:20:00 1628480 115
>>1628476
>Твоя формула хуйня
>Вводит другую бессмысленную формулу
Хех. А я уже и забыл как я не скучал по этой плесени =)
Накатим!
Аноним 09/06/26 Втр 17:26:04 1628482 116
>>1628476
> Ржу до соплей просто.
АФФТАР РЖОТ!
Аноним 09/06/26 Втр 17:26:27 1628483 117
Бля или как там у них было, ЖЖОТ
Аноним 09/06/26 Втр 17:29:56 1628485 118
>>1628438
> чтобы нейросетка могла распознать текст на скане/фотке документа
Да
> по моему промту изменить его и выдать мне в формате ворда/экселя
Несколько сложнее, но да. Не для нубов.
Для начала запусти по гайду для новичков ллм, туда же можно будет скинуть пикчу и поиграться. А чтобы дать возможность сетке что-то самой писать и редактировать, тем более в определенные форматы, придется это все оборачивать в скрипты, или делать агентов.
После того как с запуском разберешься - поставь openwebui. Будет довольно тяжело, но самые первые вещи там освоишь. А так юзай пи, квенкод, опенкод или подобные вещи, они тебе и код напишут, который конвеер автоматизирует, и его запустят.
Готовые решения наверно есть, но будут всратым вайбкодом, лучше самому разобраться.
>>1628453
> по такой формуле
Ебанулись наотличненько, уже формулы придумали.
Аноним 09/06/26 Втр 17:31:59 1628486 119
image.png 66Кб, 1014x769
1014x769
MTP сломан на ламацпп последней версии? Как ни крутил похоже он не запускается

[34m0.00.255.568[0m [32mI [0msrv load_model: loading model 'D:\ai\llmModels\gemma-4-31B_q4_0-it-QAT.gguf'
[34m0.01.379.438[0m [31mE llama_init_from_model: failed to initialize the context: Gemma4Assistant requires ctx_other to be set (this is normal during memory fitting)
[0m[34m0.01.441.737[0m [35mW srv load_model: [spec] failed to measure draft model memory: failed to create llama_context from model
[0m[34m0.01.441.761[0m [32mI [0mcommon_init_result: fitting params to device memory ...
[34m0.01.441.761[0m [32mI [0mcommon_init_result: (for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on)
[34m0.03.215.516[0m [35mW load: override 'tokenizer.ggml.add_bos_token' to 'true' for Gemma4
[0m[34m0.03.244.284[0m [35mW load: control-looking token: 50 '<|tool_response>' was not control-type; this is probably a bug in the model. its type will be overridden
Аноним 09/06/26 Втр 17:32:55 1628487 120
У кого то опять обострение, срач развели с нихуя.

Я вот скажу так - вчера гемму мое кат щупал в ерп, так она выебывалась. Переключился на просто гемму мое 4 кл, она сразу подхватила и не выебывалась.
Делаю вывод - сломанность обычной версии ломает и триггер цензуры, дообученная кат версия получила более полную версию цензуры.
Кто то еще сравнивал?
Аноним 09/06/26 Втр 17:36:02 1628490 121
>>1628480
Я просто напомнил, как считали раньше. =) Я не вводил другой формулы, я напомнил единственную.
А вот чел реально на ходу придумал хуйню, о которой кроме него никто не слышал, лишь бы оправдать квен. =D

>>1628322
Ебац, 100 тпс на гемме 31б.
Спасибо, что напомнил, мое почтение!
Аноним 09/06/26 Втр 17:38:49 1628491 122
>>1628476
> Дипсик вообще говно, на самом деле.
У меня 4 флеш крайне хорошо работает через pi как движок кодинг агента.

Возможно дело в харнесс.

Я прям пиздатых моделей толком не трогал бтв, я использую доступное в интернете БЕСПЛАТНО, ну и локальную когда совсем судьба прижмёт)
И я бы сказал что дипсик лучше локального Qwen3.6-35B-A3B-MXFP4_MOE_BF16, который я кручу на 4060 + 90к контекста в 30ток\с, считай... всегда.

Тут в треде в основном в целях генерации текста применяют, поэтому может мы говорим о разных применениях.

Сейчас глобально доступно 45 моделей по бесплатной схеме из которых можно активно пользоваться (они не забиты трафиком) 20. Под вечер число запросов растёт и они перестают отвечать
Аноним 09/06/26 Втр 17:39:46 1628493 123
>>1628487
Есть такое, чуть фикситься это системным промтом, но все равно не хочет описывать как сосет в подробностях, что делает какой-то алибирейтед лоботомит, но он сук тупой
Аноним 09/06/26 Втр 17:40:21 1628494 124
>>1628487
Двачую, развели тут филиал Кащенко, шизы ебучие.

У меня кат версия не рефьюзила, но за заменяла интересное на "same", лол.
Аноним 09/06/26 Втр 17:46:30 1628497 125
Аноним 09/06/26 Втр 17:50:49 1628498 126
Аноним 09/06/26 Втр 17:58:29 1628502 127
image.png 1618Кб, 1396x1341
1396x1341
image.png 279Кб, 753x1080
753x1080
image.png 262Кб, 1020x886
1020x886
>>1628041
>>1628187
>>1628109

Я тоже не фанат маринары и её агентского подхода, забивать драгоценную видеопамять доп.агентами, которые еще и ломаться будут, потому что ЛЛМ под математику не заточены, особенно те лоботомиты что вы для агентов используете. Я все скриптами в таверне делаю.
Вот как это работает. В World Info в самом конце есть страница статусов персонажа. Гемме данна инструкция смотреть на этот статус и на его основе работать. При этом гемме запрещено самой заниматься арифметикой и высчитывать статусы - надо тупо брать то что записано и работать по этому. Если во время действия меняется параметр - гемма должна написать в конце сообщения дельту (например Стамина: -5, или Отношения с Тян_нейм: +10). Скрипт после сообщения нейронки парсит её сообщение и меняет статусы в World Info, Гемма в следующем сообщении видит уже измененные статусы и работает по ним. И всё. Работает как часы, не нагружает гемму, никаких дополнительных моделей/памяти/вызовов/времени не требует. Есть кнопки, сбрасывающие статусы, пересчитывающие их, есть скрипты, которые отслеживают в юзер сообщении команды и подсовывают в промпт нужные инструкции, например "Чат" в юзер сообщении переходит в режим чата с активными персонажами в зоне, пока юзер или один из персонажей не напишет "конец чата" - все это на чистых скриптах и реюзается для любого сценария, ручками разве что имена персонажей в окне статуса надо забивать, остальное все генерируется по нажатию кнопки. Вот для примера на SFW ролеплее по мотивам детского мультика.
Аноним 09/06/26 Втр 18:19:42 1628516 128
Суп текстогенерач, прочитал шапку, и что-то не пойму, была же где-то сноска про мультигпу в лламе?
Ситуация следующая, увлёкся локальным вайбкодингом искренне получаю от этого удовольствие после 4-х лет нейрокума, даже в 30Т/c. И хобби стало ещё больше нравится, и лишние деньжата появились. Думаю прикупить к моей 4060ti 5060ti как вторую видяху. Как понимаю, просто нужно воткнуть её в мать?

Пиздец, посмотрел, что у меня по слотам расширения, одна псина 3.0 х16, вторая псина 2.0 х4. Думаю теперь взять видяху, пока цены не сильно кусаются, а потом мать добрать мать на уже устаревшем AM4 с нормальными псинами, в чём не прав? Будет же быстрее фуллврам с тензорсплитом, но одна видимокарта на 2.0 х4, или это будет даже медленнее?
Аноним 09/06/26 Втр 18:32:23 1628525 129
>>1628516
> вторая псина 2.0 х4
Увидел такую же ситуацию у анона из прошлого треда. Этот вопрос снимается. Есть ли ещё какие подводные? и как бля расчитать сколько места будет занимать видюха по вот этим "2.5 Pci-e"? Ладно по миллиметрам ещё можно понять что как куда, но это...
Аноним 09/06/26 Втр 18:44:02 1628530 130
Кто там пиздел вчера, что МТП сделает только хуже если не вся модель в врам? У меня 8 гб врам, запустил квенчик 27б q4ks без МТП - получил 3.7 т/с, с МТП 4.8 т/с
Аноним 09/06/26 Втр 18:45:05 1628532 131
image.png 28Кб, 1403x507
1403x507
>>1628498
> А почему не OpenCode?
Мне посоветовали pi
Я его попробовал
Мне он понравился

+ я планировал когда фри заканчиваются использовать локальную модель, но имею зверски негативный опыт использования локальной модели вместе с cline расширением вскода 30к контекста на НИХУЯ тратится.

А этот 0% контекста юзд при первом обращении

Слышал про opencode, но по факту от них я эндпоинт использую и использую их бесплатные модели через pi.
Может он и хорош

Пока не упирался ни во что кроме разве что отсутствия поиска в интернете и лично я пока медленно ищу как бы к нему картинки присрать и вообще какие варианты бывают
Аноним 09/06/26 Втр 18:46:40 1628533 132
image.png 102Кб, 1211x672
1211x672
>>1628530
У меня run_Qwen3.6-35B-A3B-MXFP4_MOE_BF16 на 4060 + 32гб рам покзывает 20-30 ток\с

Почему у тебя так плохо?
Аноним 09/06/26 Втр 18:47:10 1628534 133
image.png 8Кб, 285x164
285x164
image.png 9Кб, 286x205
286x205
>>1628530

Иногда даже больше.
Аноним 09/06/26 Втр 18:48:04 1628536 134
>>1628533
Потому что это другая модель?
Аноним 09/06/26 Втр 18:51:13 1628539 135
>>1628536
Не, понятно, но 27б же должна весить меньше = перформить лучше когда вирамы немного?
Аноним 09/06/26 Втр 18:52:30 1628540 136
>>1628532
>вместе с cline
Недавно начал вкатываться тоже, перепробывал наверное все расширения, Клин говнище полное, промпт огромный, кастомизация никакая, только если заново расширение пересобирать. Если ещё раз захочешь что-то такое, попробуй Kilo code, очень уж зашёл он мне.
Аноним 09/06/26 Втр 19:10:07 1628543 137
Короче, скажите твёрдо и чётко, переходить на QAT квант геммы с Q4_K_M стоит? QAT весит даже меньше.
Аноним 09/06/26 Втр 19:11:15 1628544 138
>>1628539
У тебя МоЕ модель, в ней всего 3б активных параметров. 27б плотная, все параметры активны всегда.
Аноним 09/06/26 Втр 19:13:07 1628545 139
>>1628540
От них тоже эндпоинт использую)))

Я там где набрать компота писал в вайбкод треде.

Я не хочу тащить Odysseus пьюдипая чтобы понять, что он не умеет в картинки для разработки.

У меня и задачи то клоунские 16х16 текстуры перерисовать
Аноним 09/06/26 Втр 19:13:50 1628546 140
>>1628454
А я прямо противоположное слышал, что в гемини слоп самый надоедливый из всех
Видимо каждому своё
Аноним 09/06/26 Втр 19:21:59 1628550 141
>>1628543
Бро, 18 гигабайт всего. Скачай да проверь.
Аноним 09/06/26 Втр 19:23:23 1628552 142
>>1628325
>Сейчас большие монетки пишут лучше по уровню языка, но совершенно скупо.
Не совсем, большой Квен-3.5 чуть менее сочный, но умнее. Достойная замена.
Аноним 09/06/26 Втр 19:23:43 1628553 143
Все интересные карточки с Чуба пропали. Есть какие-то альтернативы?
Аноним 09/06/26 Втр 19:26:56 1628555 144
>>1628553
К нам сегодня приходил: некропедозоофил.
Мертвых маленьких зверушек, он с собою приносил.
>>1620333 →
Аноним 09/06/26 Втр 19:39:59 1628561 145
>>1628553
>Есть какие-то альтернативы?
Ну даже не знаю.. шапку посмотреть, например?

>Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
Аноним 09/06/26 Втр 19:57:35 1628577 146
>>1628544
А какой поинт использовать не MOE?
Визуально 35B > 27B даже при учете того, что активных меньше
Аноним 09/06/26 Втр 19:57:38 1628578 147
>>1628406
Литерально так вижу всех 235 шизиков. Хотя мне трудно поверить что их больше одного максимум двух. Неолуддизм в чистом виде, особенно забавно когда они аутотренят что это обладатели отстутсвия рвутся, которые типа не могут его запустить. Вы себя видели? Столько вони ради вашей любимой няши и вся аргументация - ну зато она большая. Каждый раз как в первый
Аноним 09/06/26 Втр 20:01:14 1628581 148
>>1628578
Да, да. Ведь шизики все кто не разделяет твоё мнение.
Аноним 09/06/26 Втр 20:02:13 1628583 149
>>1628581
Не поверишь, я среди прочих 235 няшу и катаю. Только у меня больше одной мозговой клетки и я не убеждаю весь тред, что к этому говну не надо прикасаться, как это делаешь ты (вы)
Аноним 09/06/26 Втр 20:03:37 1628588 150
>>1628577
Потому что плотная модель всегда лучше
Аноним 09/06/26 Втр 20:05:15 1628591 151
Аноним 09/06/26 Втр 20:05:31 1628592 152
>>1628583
Я, только писал, что он пишет ебовое порно. Всё блять.
Нигде не было написано что это 10 из 10. Сам порноиисус спустился с неба.
Но ты продолжаешь аппелировать, что я убеждаю в чем то тред. Или будет опять заход что 27ой пишет ебовее кум?
Аноним 09/06/26 Втр 20:06:58 1628595 153
>>1628577
Просто попробуй и сравни. Если бы все было так просто, то все бы делали только МоЕ модели.
Аноним 09/06/26 Втр 20:08:01 1628599 154
>>1628583
Кстати факт, ни одна модель кроме может геммы 3 такого антипиара не получала. Могу но не запускаю этот 235B тупо из-за шизика который им болеет, кекв. Не может он быть хорош если у него такие больные фаны
Аноним 09/06/26 Втр 20:12:46 1628606 155
>>1628592
>ты продолжаешь
>опять заход
Чел, это мой первый пост за день. Или охладись или вернись в палату пж
Аноним 09/06/26 Втр 20:13:49 1628609 156
>>1628487
Катал бф16, не рефьюзила, но кое где красочности не хватало. В рп она очень неоднозначна, с одной стороны может очень круто развивать действия, с другой - тупить и стоять на рельсах что хрен сдвинешь. Можно сказать что некая противоположность мистралю, который очень любит быть лупстралем, но если хорошо стукнуть - понесется как надо и очень разнообразно. Их можно и вместе катать, неплохо дополняют друг друга.
>>1628502
> забивать драгоценную видеопамять доп.агентами
Тут скорее забивать время генерации. Не то чтобы это особо отличается от написанного тобой по сути, и есть возможность также инжектить инструкции в основной промпт вместо отельных вызовов, а потом парсить ответ. А видеопамять - это если хочешь имажген.
Пикчи довольно впечатляющие, костыльно но мощно.
Аноним 09/06/26 Втр 20:20:53 1628622 157
>>1628578
>вся аргументация - ну зато она большая.
Тебе же выдвигали аргументы, честно признавали и недостатки. Но тебе же только посраться. И кто тут шизик?
Аноним 09/06/26 Втр 20:25:40 1628635 158
>>1628606
Ну конечно, конечно. Просто случайно ворвался. Случайно пост написал, случайно проигнорировал суть сообщения. Бывает, хуле.
Аноним 09/06/26 Втр 20:26:25 1628637 159
Ниче ниче, это у 235 лахты в желтом доме послабления, скоро врачи все обнаружат и они затихнут. А пока игнорим шизов
Аноним 09/06/26 Втр 20:31:34 1628648 160
>>1628599
>Не может он быть хорош если у него такие больные фаны
По этой логике к эйру не стоит даже приближаться
Аноним 09/06/26 Втр 20:31:47 1628649 161
>>1628635
>Просто случайно ворвался. Случайно пост написал
Типа да, случайно зашел в тред после работы (как и каждый день) и ответил что думаю по теме. Вы наплодили дохуллиард постов и все их можно свести к ну типа нам нравится а еще оно большое, доказано
>>1628637
Прав, ебанутый думает у него чай вдвоем а не тред
Аноним 09/06/26 Втр 20:36:00 1628658 162
>>1628649
> Вы наплодили дохуллиард постов
> ну типа нам нравится а еще оно большое
Ну если нам нравится и оно большое?
Аноним 09/06/26 Втр 20:42:45 1628667 163
Народ, помогите с настройками для Sillytavern для модели gemma 4 E2B/E4B Скиньте пожалуйста! Спасибо!
Аноним 09/06/26 Втр 20:45:58 1628672 164
>>1628502
>Скрипт после сообщения нейронки парсит её сообщение и меняет статусы в World Info
Можешь объяснить подробнее как это сделать?
Я так понял, что через Regex ты задаешь определенный скрипт, а потом кнопкой задействуешь его, правильно? Или там есть еще какие-то дополнительные расширения? Можешь поделиться скриптами, если не сложно.
Аноним 09/06/26 Втр 20:48:40 1628677 165
Аноним 09/06/26 Втр 20:58:41 1628685 166
>>1628667
Этож ассистенты-переводчики, например, для них юзай рекомендованные гуглом параметры. Для мое-геммы 26 вот неплохой пресетик для Sillytavern. В принципе его и на мелочи можно попробовать.

https://pixeldrain.com/l/47CdPFqQ#item=168

В
Аноним 09/06/26 Втр 20:59:01 1628686 167
>>1628649
Что плохого в том, чтобы что-то котировать? А вот выстраивать манямир коупинга и атаковать все, что может поставить его под сомнение - уже стыдно.
Аноним 09/06/26 Втр 21:10:39 1628704 168
>>1628476
>Вот на мой вкус, 26б прям сильно хуже 31б модели.

Для майндгеймсов на сложной карте да, она похуже.

>Но, тем не менее, есть куда применить. Скажи, а какие настройки MTP для геммы оптимальные? Че там по топ_п и че там по токенам?

Мтп настраивай, вообще высокие работают от 5 хорошо.
Аноним 09/06/26 Втр 21:12:04 1628708 169
>>1628329
>По цифрам вижу, что 27 лучше.
Можно эти цифры посмотреть? Потому что в ерп бенче все большие квены топ, в UGI бенче по всем релевантным для этого обсуждения параметрам (UGI-entertainment, NatInt, Writing) то же самое.
Или ты про кодо-агентосрань, которую ещё на страничках моделек обычно постят?
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов