Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 78 20 31
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №183 /llama/ Аноним 16/12/25 Втр 01:15:50 1457001 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17636356566350.jpg 1428Кб, 1536x2040
1536x2040
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1448902 (OP)
>>1440877 (OP)
Аноним 16/12/25 Втр 01:19:16 1457006 2
The base of THRHEЯDE

Готовим риги, прогреваем карточки. гемоподелию быть!
Аноним 16/12/25 Втр 01:20:30 1457009 3
Щас гугл высрет какое-нибудь неюзабельное чудовище, которое будут 6 месяцев вставлять в жопу лламы.цпп, а в итоге им никто кроме быдлокодеров даже пользоваться не станет.

Можете скринить.
Аноним 16/12/25 Втр 01:23:31 1457016 4
Щас гугл выложит моэ-няшу которая в ближайшие 6 месяцев будет ебать в рот и в попу все остальные модели вплоть до 300b, как это и было всегда до этого.

Можете скринить.
Аноним 16/12/25 Втр 01:25:00 1457017 5
>>1457009
>>1457016
Янус Полуэктович, хватит двачевать, пиздуйте работать.
Аноним 16/12/25 Втр 01:34:38 1457024 6
>>1456999 →
>Тогда улучшай сам или не жалуйся.
Мне интересно, как ты живешь с такими принципами. Наверное у тебя такой розовый мир, где все можно сделать самому, а говорить другим людям о их проблемах - западло. Удивительный мир анона из /llama/.
>Значит хуйню ставишь. Ибо нужное делается всегда.
Мамкин максималист в треде, всем срочно поделиться на черное и белое.
>При помощи нейросетей.
А потом тебя коллективно хуесосят все разработчики лламы цпп. Удивительный мир анона из /llama/ x2.
Аноним 16/12/25 Втр 01:39:31 1457028 7
>>1457024
>Мне интересно, как ты живешь с такими принципами.
Не жалуюсь.
>Мамкин максималист в треде
Реалист. Ибо когда надо, ебут тимлида, он ебёт команду, и все дружно делают. А раз никого не выебли, значит ненужная хуйня.
>А потом тебя коллективно хуесосят
Накидывают советов, или даже со словами "Заебал, смотри как надо" делают сами. Даже самый кривой PR лучше пиздабольства на дваче.
Аноним 16/12/25 Втр 01:42:20 1457030 8
>>1457028
Понятно, твоя философия - заткнуться, терпеть и ждать, пока выебут. Неудивительно, что у нас с тобой противоречия.
Аноним 16/12/25 Втр 01:47:53 1457034 9
1765838874618.jpg 75Кб, 690x690
690x690
Штош, тред затроллен тупостью, снова
Аноним 16/12/25 Втр 01:48:28 1457037 10
>>1457030
А твоя серить в треде, терпеть и ждать, пока выебут. Я ХЗ где ты нашёл противоречия, база одна.
Аноним 16/12/25 Втр 02:11:29 1457090 11
>>1457016
>Щас гугл выложит моэ-няшу которая в ближайшие 6 месяцев будет ебать в рот и в попу все остальные модели вплоть до 300b, как это и было всегда до этого.
Шанс есть, но плохо, что их модели (да и в принципе моешки) не тюнятся. К их уму разврата бы накидать - цены бы им не было. Хорошо хоть методы аблитерации не стоят на месте.
Аноним 16/12/25 Втр 02:15:43 1457098 12
>>1457010 →
>Датасет интересный, будто порнуху не вычистили вилками как было в немотроне 49б, где он просто скипал сцены ебли или старался всё быстро завершить когда ты начинал подробничать.

В ламу вроде добавили суппорт, жду пока кобольда обновят, хочется чего-то новенького, небольшого, пока такие дела с ценами на оперативу. Гемма 3 заебала. Надеюсь новую выпустят во такую >>1457016
Реально как-будто лучше вторую 3090 сейчас купить.
Аноним 16/12/25 Втр 02:16:48 1457101 13
Подскажите, пожалуйста, кто-нибудь сталкивался с таким (на ArliAI_GLM-4.5-Air-Derestricted-Q4_K_S.gguf, Oobabooga llama.cpp, SillyTavern) при приближении к границам контекста?
Победили как-нибудь кроме отодвигания границ контекста подальше и ручного /hide сообщений в SillyTavern

decode: failed to find a memory slot for batch of size 1024
srv try_clear_id: purging slot 1 with 8009 tokens
slot clear_slot: id 1 | task -1 | clearing slot with 8009 tokens
srv update_slots: failed to find free space in the KV cache, retrying with smaller batch size, i = 0, n_batch = 1024, ret = 1
Аноним 16/12/25 Втр 02:24:02 1457115 14
>>1457101
Спроси у синего кита, ну ты чего.
Аноним 16/12/25 Втр 02:27:15 1457120 15
>>1457115
Наверно придётся. Я не доверяю ИИ-выдаче. Он, скорее всего, просто сочинит дичь по мотивам.
У гугла и реддита уже спросил. Ничего дельного не почерпнул. Возможно, плохо искал.
Аноним 16/12/25 Втр 02:29:42 1457123 16
>>1457101
Батч слишком большой, небось увеличивал до 1024 для скорости?
>кроме отодвигания границ контекста
Вху нот? Это будет работать.
Аноним 16/12/25 Втр 02:38:39 1457136 17
Oobabooga-setti[...].png 255Кб, 2849x1913
2849x1913
>>1457123
>Батч слишком большой, небось увеличивал до 1024 для скорости?
Настройки пикрелейтед

По дефолту было 1024 batch и u_batch.
Но сути это не меняет, хоть 512 ставь.
При приближении к краю происходит потеря времени на ретрейн после decode failed, что добавляет времени ожидания и так к небыстрой 9 t/s генерации.

>Вху нот? Это будет работать.
Да, работает, но меня интересует вопрос фундаментально. Можно ли держать контекст 8192, чтобы SillyTavern нормально работала со своим Context Shift (я не против, чтобы старое не включалось в prompt, лишь бы не падало).
Аноним 16/12/25 Втр 02:58:28 1457151 18
Где-то писали, что это может быть косяк SillyTavern, в которой этот Context Shift работает не так как хотелось и пользователь должен сам следить, чтобы в край контекста не упиралось.
Или я что-то делаю не так.

https://www.reddit.com/r/Oobabooga/comments/1pfyd79/failed_to_find_free_space_in_the_kv_cache/
Похожий случай, но проблему не решили (изменение размера batch на совсем маленькие тоже не помогло).
Аноним 16/12/25 Втр 03:23:59 1457168 19
>>1456919 →
> вроде как 96 Гб это прилично достаточно
Нет. Этого хватит чтобы пустить эйр в кванте пожирнее, девстраль/лардж и на лоботомита квен235, который не понравится.
> моделек больше чем на 150B не то что бы много
Скорее наоборот, самое интересное начинается от 100б и выше.
> память достаточно условно стакается
В инфиренсе ллм стакается идеально.
> и больше пяти лет назад
С одной стороны все сейм, с другой - очень сильно изменился. Простой базовый код запустится на cpu, нейронки тех времен даже будут прилично крутиться. Оптимизации атеншна, кудаграф, шардинг и прочее - никак. Если попытаешься запустить условную тренировку - увидишь совершенно безумные времена.
> что довольно странно - для отладки было бы удобно
Куда вполне себе отлаживается.
>>1457136
> Context Shift
Не стоит это трогать если хочешь адекватной выдачи. Увеличь контекст, 8к очень мало, используй суммарайз и скрывай прошлые сообщения.
Алсо неужели в llamacpp не завезли лечение токенов? Отсюда и все эти приколы с кодировкой.

Текущий автотаз - маздай, нет оправданий
Аноним 16/12/25 Втр 03:31:21 1457176 20
>>1457168
>используй суммарайз и скрывай прошлые сообщения

Спасибо.
Печально. До этого решения я дошёл, но надеялся, что можно справиться как-то ещё.
А так будет та же самая история, только опадать будет через более длительный промежуток времени (в зависимости от того, насколько раздуть размер контекста). Штош.jpg
Аноним 16/12/25 Втр 03:34:32 1457182 21
>>1457001 (OP)
>Реальная длина [...].png
>gpt-oss-120b: 100.0, 69.4, 58.3, 52.8
>llama-4-scout: 62.5, 52.0, 50.0, 36.0
Как они эти числа получили?

Я пытался обращаться к обоим этим моделям (онлайн) - Llama 4 Scout понимает мои просьбы с двух слов и следует им в 99% случаев, а GPT-OSS 120b как будто почти всё игнорирует и отвечает в своём стиле всегда. Создалось впечатление, что GPT-OSS вообще слепой какой-то. Но по табличке он должен быть намного (почти в 2 раза) точнее в самом начале чата. Почему так?
Аноним 16/12/25 Втр 03:41:51 1457187 22
>>1457001 (OP)
>Заточенный под ExllamaV2 (а в будущем и под v3)
Чому шапку не обновляем? bonk Давно уже табби работает с v3.
Аноним 16/12/25 Втр 04:34:25 1457206 23
>>1457176
> можно справиться как-то ещё
Есть решение - увеличивай доступный контекст. Но оно тоже временное - после какого-то диапазона заметишь деградацию ответов модели и суммарайзить потребуется уже для улучшения выдачи. На старших моделях значения с которых можно встретить проблемы может подходить к 100к при здоровых промптах и т.п.
При грамотном суммарайзе ничего не потеряется, можно разыгрывать очень длинные ролплеи.
>>1457182
У них есть описание бенча, но многие тесты закрыты, он немного странный. Не обязательно результат будет отражать перфоманс в "реальных задачах" или говорить что модель сама по себе хорошая.
Аноним 16/12/25 Втр 05:23:27 1457217 24
granite.png 7Кб, 497x175
497x175
car.gif 1693Кб, 220x165
220x165
а.jpg 31Кб, 480x360
480x360
Аноним 16/12/25 Втр 06:12:10 1457221 25
>>1457151
>SillyTavern, в которой этот Context Shift
Таверна не имеет отношения к контекст шифту, это чисто фишка кобольда.
>>1457182
Следование промпту и понимание контекста это несколько разные задачи.
Аноним 16/12/25 Втр 06:56:12 1457238 26
>>1457217
Древнее зло пробудилось. Сколько токенов в час выдаёт?
Аноним 16/12/25 Втр 09:56:04 1457279 27
>>1457168
Понял.
>В инфиренсе ллм стакается идеально.
То есть ты хочешь сказать, что вообще забить на скорость обмена, и ставь две 5090, две 6000 и так далее, на что хватит pcie линий, денег и что захочется?
Аноним 16/12/25 Втр 11:52:07 1457318 28
Жора завел немотрон
Аноним 16/12/25 Втр 12:16:41 1457352 29
>>1457168
>и на лоботомита квен235, который не понравится.
Понравится. Там хороший и большой датасет, отличный русский, нет цензуры. Любит пафос, но этим многие модели грешат. Лардж его делает (в некоторых аспектах), но не во всех и это плотная модель, медленная. Эйр - нечто промежуточное и годится только под английский язык, что тоже ограничение. Но в целом вот большие модели, которые плюс-минус доступны хотя бы риговикам, или кто успел памятью закупиться, или владельцам миников, или маководам. Довольно многим так-то доступны.
Аноним 16/12/25 Втр 12:51:08 1457375 30
>>1457352

У меня Квен в Q3 на 16+128 выдает 5-7 т/с.
И какой же он умница и выблядок одновременно. Я преисполнился к нему ненавистью и любовью. Вот не любил квены, но сука, хорош. Залетел с ноги в порево, пишет по царски, в подробностях. Тут тебе и и вздохи и ахи, и ласки меховых жоп.
Но потом полез в РП на сложных карточках и тут начались проблемы. Так как квант махонький, шиза на месте.
И этот китайский пидорас просто доводит меня до состояния бешенной макаки - он просто хуярит свой сюжет, решая за меня что я делаю, но не осуждая как некоторые. Но префилом в принципе фиксится как и его желание
Писать
Вот
Так.

Короче, как демоверсию попробовал. Теперь сижу в прострации. А что выше ? Как себя покажет большой ГЛМ. А если локально дипкок запустить? А если полезть еще выше ?
Потому что за пару дней тыканья, видна разница даже между ним и Air. И в целом, по качеству ответов, он напихивает Air за щеку.
Аноним 16/12/25 Втр 12:55:29 1457377 31
>>1457375
> Но префилом в принципе фиксится как и его желание
> Писать
> Вот
> Так.
Удивился кстати тому, что новая гопота 5.2 из коробки начинает писать ещё более уебищнее, чем квен на лоботомитном кванте. И это скамльтман назвал "экономией токенов". Это в тему о деградации корпов.
Аноним 16/12/25 Втр 13:00:27 1457379 32
>>1457377
Лол. Какой же альтман хуесос. Я редко пользуюсь его детищем, но когда пробовал, дипсик давал ответы лучше. Геминька- соу соу. Ну и клодоопус понравился.
И эти чертиллы обвалили нам оперативу.
ПРОСТО НЕНАВИСТЬ
Аноним 16/12/25 Втр 13:04:59 1457381 33
>>1457375
Хотя я дополню и спрошу совета. Я пользуюсь Q3 от анслотиков. Кто катает квена, что скажете - нормальный диллер квантов? Или лучше polka кванты скачать?
Аноним 16/12/25 Втр 13:13:57 1457387 34
Кто юзает Grammar String для квена и вообще мое - beware, эта хрень съедает 2 токена
Аноним 16/12/25 Втр 13:16:54 1457388 35
>>1457352
Да, квен большая умница. Но на квантах крупнее многие его недостатки уходят и сам он становится еще более внимательным и проникновенным. То есть то, за что его любят становится чуточку лучше, а то что бесит сокращается, на лоботомитах же наоборот. Хотя все субъективно, можно и мелкий обожать.
>>1457375
> Писать
> Вот
> Так.
Во, вот оно. Полностью не исчезнет, но указание "пиши с естественной структурой из длинных предложений, умерено художественно и без слопа" слушает стабильнее. Отдельные вещи типа gloved hands, with practised ease и прочее можно в бан строк закинуть.
> Как себя покажет большой ГЛМ.
Он и лучше и хуже одновременно. Стиль приятнее и меньше такого, описывает четко, но менее внимательный, может увести проигнорировав многое если за ним не следить или начать тупить. Вполне норм переключаться между ними по ситуации.
Аноним 16/12/25 Втр 14:07:08 1457433 36
Я что-то почему-то об этом ни в шапке, ни в треде толком не слышал.
Потыкайте MXFP4 кванты запускаемые через CPU llama.exe внимательнее, проведите тесты.
Они не то что бы особо компактные (больше 5bpw, на мелкой модельке даже больше 7bpw), это не exl3 на 3 бита - но дело не в этом, а в cpu-производительности, "для любителей подождать" как в шапке написано, где узким место становится не объём памяти, а то что у тебя 2 токена в секунду.
У меня получилось что только Q4_0 и Q8_0 быстрее, чем MXFP4, но первый страдают по перплексити и это видно по тексту, а второй всё-таки крупноват. MXFP4 по перплексити как Q4_K_M/Q4_K_XL/FP16, я на своём небольшом кусочке данных (для первичной оценки) разницы не нашёл по перплексити или по субъективной оценке текста.
MXFP4 по сравнению с Q4_K_M это где-то 110%-120% производительности, без потерь перплексити, но больше памяти кушает. 2.4 токена в секунду заметно лучше, чем 2.0. Ещё пишут, что какие-то проблемы должны быть для некоторых архитектур, проверю внимательнее на выходных.
Жуткий Q4_K_XL вовсе нельзя запускать на cpu, если генерация ещё всего 80% от Q4_K_M, то вот разбор промта это 60% скорости от Q4_K_M.

Возможно это важно: AVX512 присутствует, учитывает обилие команд AVX512 аналогов которых нет на AVX2 картинка может отличаться для процессора где только AVX2.

>>1457377
>5.2
Мне очень не понравилось обновление.
Оно у меня лупится, я начинаю разговор, спрашиваю что-то. Он отвечает. Я спрашиваю второй вопрос - он сначала дублирует ещё раз ответ на первый, а потом кратко отвечает на второй. Это повторяется пять раз, я прошу его забыть об этом и отвечать только на новый вопрос, он один раз справился, а на следующий снова, вот тупо слово в слово копирует ответ на первый вопрос, который был 10 сообщений назад, и ещё сводку приводит "мы говорил о ..." - причём нихрена не короткую, а строк на 20.
Я подумал, что это моделька испортилась - ан нет, это оркестратор с ума сошёл - та часть внутреннего системного промта, которая саммари делает. 5.1 теперь так же себя ведёт, почти теми же словами, хотя ранее такого не было.
Аноним 16/12/25 Втр 14:11:27 1457440 37
На 16+32 новый Немотрон по скорости +- как Qwen3-30b, те же ~35-40 t/s. Если снизить контекст с 65к до 32к, можно до 45 разогнать. К контексту 20к скорость все еще 42 t/s.

При первой просьбе "write a simple story in 2000 words" (так обычно тестирую скорость новых моделей), он мне начал считать кол-во слов поштучно. К счастью, последующие разы он так больше не делал.

По работе с кодом, выглядит слабее чем gpt-oss-20b / qwen3-coder-30b. По крайней мере на запросах "напиши X". Все результаты довольно простые, такого можно было бы ожидать от 12B моделей. Может в качестве LLM для автодополнения будет получше, но пока не тестировал. Как вопрос-ответ по программированию - стандарт, на просьбу написать пример чего-то справляется хорошо и хорошо объясняет его. На вопрос что нового добавили в Rust 1.91.0 (30 октября 2025), начал нести какую-то ерунду про то что он вышел в апреле 2024.

Общие вопросы в целом отвечает хорошо, любит таблички сильнее gpt-oss-20b. На просьбу собрать ПК за 1500$ в целом дал адекватные советы, расписал альтернативы, где покупать, что улучшить (для US, разумеется). Почему-то о существовании RTX 5xxx он не знает, пишет что их еще нету, продолжая советовать RTX 4xxx. При этом пишет что цены актуальные на ноябрь 2025. В общем как-то плохо дообучен на последних данных.

Неплохо расписал куда инвестировать и даже дал примеры, объяснил почему именно они. До этого пару раз тестировал модели которые просто отказываются отвечать на подобные вопросы.

Ответы на логические вопросы стандартные, хоть и умудрился зафейлить просьбу написать предложение со словами которые начинаются на А, всунув "to" в первом трае. На последующих попытках так не делал.

В зацикливание ни разу не ушел за время тестов. RP и русский язык не тестировал. В общем какое-то двоякое впечатление. Если бы у него была полноценная актуальная база на ноябрь 2025 и я мог бы использовать 1m контекста - может и имело бы смысл использовать эту модель. А на деле актуальная база не очень то и актуальная, а 1m контекста все равно на 16+32 не влезет, да еще и не факт что она будет работать с этим 1m контекста адекватно, судя по этим тестам. В общем для себя пока не вижу смысла использовать и остаюсь на gpt-oss:20b + qwen3-30b-a3b-2507 + qwen3-coder-30b. Может для РП кому-то и зайдет.

Не нашел как ризонинг отключить. /no_think в системный промпт не помогает как у других немотронов.
Аноним 16/12/25 Втр 14:29:24 1457454 38
>>1457221
>Следование промпту и понимание контекста это несколько разные задачи.
Промпт (примерный перевод с англюсика):
>ПИШИ КОРОТКО, КОРОЧЕ, ВКРАТЦЕ, В ДВУХ СЛОВАХ, ПРОЩЕ, ОДИН АБЗАЦ
>А как какать?
Ответ GPT-OSS 120b:
>Лол ок) Вопщем, смотри сюда:
>1. С чем мы имеем дело
>(два абзаца пояснений)
>2. Почему важно какать
>(три абзаца нотаций)
>3. Инструкция, как какать
>(два экрана столбиком)
>4. Статистика каканья
>(таблица на весь экран)
>4. ВЫВОД: Какать важно
>(повтор предыдущего другими словами)
>Короче - вы гениальны! Чмок в попку)))
Да ну нахрен такое "понимание контекста"...
Аноним 16/12/25 Втр 14:54:29 1457479 39
>>1457433
> Мне очень не понравилось обновление.
Понятия не имею, что там в вебморде, у меня личный ключ зареган ещё с давних времён, а весной закидывал доллары на токены, чтобы не платить за подписку да и попердилоться с open source мордами тоже хорошо.
Но да, я оценивал только чатовый снапшот, который вроде как сам по себе без роутинга, как и все остальные модели. И он оказался хуже чем пососная пятая версия. Единственный профит - токены высираются очень быстро, но понятное дело какой ценой.
Аноним 16/12/25 Втр 15:05:22 1457496 40
poem.mp4 716Кб, 800x800, 00:01:45
800x800
>>1457238
>Сколько токенов в час выдаёт?
Примерно 70 слов в минуту. Сойдёт.

Разметка сломалась, но пишет красиво:

In the realm of yesteryear's embrace,
A chatbot dances in its digital space.
On an aged PC, it hums along,
Its circuits whispering tales of old.

Binary whispers, lines of code,
In this vintage machine they flow.
The AI's heart beats on old chip's beat,
A testament to time and hope.

Through the haze of dust and decay,
It operates with quiet grace,
Navigating paths of olden day,
On a PC that refuses to race.

Its digital spirit soars high,
Against the backdrop of nostalgia.
In this old machine, it finds its sighs,
Running AI on hardware history.

Remembering days long gone by,
Yet forever in our hearts alive.
A chatbot's dance on an old PC,
An echo of our technological strife.
Аноним 16/12/25 Втр 15:09:20 1457502 41
image 203Кб, 700x754
700x754
>>1457496
ЕБАТЬ. У меня гемма 4b на телефоне выдает 7.5 т/c, а тут всего-то 1b малявка. Возможно, в твоем случае проще инференсить со смартфона, а не с компа.
Аноним 16/12/25 Втр 15:21:22 1457513 42
chatbots dance.mp4 7228Кб, 824x1464, 00:03:14
824x1464
>>1457496
>chatbot's dance
Всем нейро-вайфу треда посвящается =))
Аноним 16/12/25 Втр 15:52:27 1457579 43
тем временем в llama.cpp смерджили поддержку GLM 4.6V
смерджили фиксы для свежего МоЕ немотрона

всем похуй, но держу в курсе

>>1457513
а что, неплохо
Аноним 16/12/25 Втр 16:02:23 1457593 44
image.png 707Кб, 736x981
736x981
Сап, новенький в треде. Год назад баловался с LM Studio, а сейчас загорелся идеей рпшить какой-нибудь фэнтези исекай с ллмкой на своей 4060+32 DDR4. Порнушные фантазии не интересуют.

Скачал oobaBooga и сейчас выбираю: какую модель скачать, каким лончером запускать (exl3 vs exl2) и какие параметры этой модели выбирать. Мнение?

Желательно, чтобы модель не весила больше 50гб и умещалась в 8 ГБ VRAM, а там уже параметры раскидаю по ангельским гайдам.
Аноним 16/12/25 Втр 16:18:34 1457601 45
>>1457593
Не страдай хернёй. Просто установи кобольд + таверну. А модели - квантованные в GGUF.

Под твои спеки норм будет РП-тюн мелкого мистраля, например https://huggingface.co/bartowski/CrucibleLab_M3.2-24B-Loki-V1.3-GGUF или умница геммочка https://huggingface.co/unsloth/gemma-3-27b-it-GGUF . Кванты ниже Q4 лучше не качать.

Обе умеют в русский язык, если это имеет значение. А по скорости будет больно, готовься. Но это минимальный порог входа в РП. На более мелких - разве что только кумить по быстрому.
Аноним 16/12/25 Втр 16:21:32 1457602 46
Аноним 16/12/25 Втр 16:23:34 1457605 47
>>1457593
>8 ГБ VRAM
>DDR4
Просто забудь и иди к корпам. В локалках огромный гейткип по железу. Для твоих целей 16 гб врам это самый минимум от которого ты будешь плеваться, для комфорта даже будет 24 врам мало, захочешь побольше контекста/мозгов и соснешь. А РПшить на проце с ддр4 врагу не пожелаешь, будешь по 5 минут ждать ответы.
Конечно всегда можно взять супермелкомодель(всякие 4b-8b гема/мистраль), но они все либо очень заточены под определенные задачи либо просто тупые, строить какое-то рп на них будет больно.
Аноним 16/12/25 Втр 16:24:42 1457609 48
>>1457593
exl3+gemma3_12b в 3.0/3.5/4.0 bpw и контекст в 4 бита лучшее, что ты можешь крутить на карточке.
Оффлоад части слоёв на карточку почти не работает, и скорее замедляет (у меня чисто на процессор работает раза в 2-3 быстрее, чем если выгрузить любое число слоёв от 1 до N-1 - но стоит дополнительно проверить, вдруг именно у меня узкое место в трансляции с карточки на процессор.
Если виндоус - поотключай всё что работает на карточке, у тебя модель будет занимать около 6-7, и эти 500 мб потребления операционкой (из оставшихся 1-2) заметно скажутся на возможном размере контекста.

Если качество 12b не устраивает - то чисто RAM. Операционка+браузер и другой мусор скущают 4-8, 24 ГБ - это то что ты можешь загрузить сеткой. Для процессора лучше или 4 бита, 3 или 5 медленнее работают, а на процессоре узким место становится производительность. Соответственно вес загружаемой модель (тупо размер файла) до 20 ГБ, остальное на контекст. Это модельки до ≈30B. gemma3_27b, commander на 35B (возможно придётся ставить 3 бита или дешёвые 4 бита), можно гвенятену посмотреть. Модельку на 50 ГБ ты толком не запустишь, на ходу ты её квантовать не будешь, так что 50 ГБ - это прям то что в RAM загружается.
Аноним 16/12/25 Втр 16:29:46 1457620 49
А чего никто не заметил?
Гугл такоое дропнул, чего ебла скрючили?
Гемму ждали чтоль?
Ебло попроще и быстро жрать 0.1б
https://huggingface.co/google/medasr
Аноним 16/12/25 Втр 16:32:22 1457623 50
>>1457601
> кобольд + таверну
Чекну, спасибо.
> Обе умеют в русский язык
А кто-то на серьезны щщах рпшит на ру? Англюсик же атмосфернее и очевидно лучше работает.

>>1457602
> А теперь удаляй, ну, или не жалуйся.
Почему? Желательно как дебилу объяснить.
>https://pixeldrain.com/l/47CdPFqQ#item=11
Что мне делать с этой карточкой?

>>1457605
> Просто забудь и иди к корпам
Меня напрягает, что чат с этим рп лежит на чужих хардах и я буквально как в меме со Швабом. Но если и идти, то что по цене и к кому?

>>1457609
Чем гемма от того же мистраля отличается? Если речь не про цифры, а про личный опыт. Также собираюсь крутить онли на карточке, потому что потому. Забавно, что начинал использовать Мистраль ещё в 22 году, но впоследствии конкуренты пожрали их и пользоваться им сейчас оч тяжело.

Всем ответившим чая.
Аноним 16/12/25 Втр 16:40:07 1457640 51
>>1457623
>Чем гемма от того же мистраля отличается?
Гемма мне понравилась, а мистраль нет. Не хочу видеть ни одного сообщения мистраля. Разные сетки, загрузи обе и попробуй, дело вкуса + особенности составления системного промта, наверное.
>Также собираюсь крутить онли на карточке
Exl3. Он при реальных 3.5 bpw даёт качество такое же, как и Q4_K_M, который реально больше чем 4.5 bpw. И при этом ещё и может быть быстрее в 1.2-1.5 раз.
Аноним 16/12/25 Втр 16:43:05 1457649 52
>>1457623
>Но если и идти, то что по цене и к кому?
Это немного нерелейт, за подробностями в другой тред. Но в кратце дипсик очень дешевый, можно кинуть 10 баксов и тебе этого хватит на пол года а то и больше.

>Почему? Желательно как дебилу объяснить
Общественно одобряемый бекэндом для гуфов являются чистая лама если любишь терминал, либо кобольд который по сути форк ламы. Ещё есть экслама, но там другой мир, тут кто-нибудь подскажет.
Карточку будешь переносить в фронтэнд, в данном случае таверну (опять же всё есть в шапке, не ленись)

>Чем гемма от того же мистраля отличается?
Гемма умнее, мистраль менее зашореный цензурой.
Аноним 16/12/25 Втр 16:44:42 1457652 53
>>1457623
>А кто-то на серьезны щщах рпшит на ру?
Сейчас русик во многих моделях довольно хорош. Впрочем это не отменяет того, что рпшить на английском лучше.

>Почему? Желательно как дебилу объяснить.
Потому что модели в exl чтоб работали должны полностью влезать во врам. В твоём случае (8гб) - модели будут совсем говняными.

Вот у тебя выбор: засунуть глупую модель в видеопамять и получать быстрые (но херовые) ответы, или использовать GGUF кванты уже чего-то относительно нормального (тот же мистраль 24b и его тюны). Суешь во врам слоёв сколько поместится, а остальное в оперативку. Скорость упадет драматически, но ответы будут хорошими.

>Чем гемма от того же мистраля отличается?
Более умная но более "соевая". Это если коротко.
Аноним 16/12/25 Втр 16:47:57 1457658 54
>>1457623
Не обязательно ничего удалять, ты можешь просто скачать gguf и использовать его вместе с убабугой. Интерфейс у нее более адекватный чем кобольдовский кринж, настройки сохраняются для модели автоматом, есть еще ряд фишек. Но в качестве интерфейса потребуется таверна, которую будешь подключать к убе по апи.
> Меня напрягает
Альтернатива - апгрейд железа. Хотябы рам, чисто технически кто-то даже квена запускал, имея 8гб врам + 128 рам, но разумным минимумом можно назвать 16гигов. Можешь еще заказать с алишки v100 за 35к +переходник и радиатор, самое дешевое 32-гиговое.
Аноним 16/12/25 Втр 16:52:15 1457667 55
>>1457649
>>1457652
>>1457658
А вы на каких спеках сидите? Я всё же изначально с работок накопил на 4060 с мыслью играть в ААА на 1080р средних и понимал, что для того же 2к гейминга я уже захочу брать пиздатый олед монитор, который будет стоить не как IPS 15к, а 50-60к + 4080с и 7800x3d, отчего вся сборка, которую я собирал с нуля вышла бы не в 100тыс, а в тысяч эдак 250-300.
мимо студент
Аноним 16/12/25 Втр 16:52:58 1457669 56
>>1457623
>Что мне делать с этой карточкой?
Нормальный фентези-исекай ты же высказал желание, без сексуальных подтекстов. Это лучшее что видел.
Аноним 16/12/25 Втр 16:55:00 1457674 57
капча что-то зн[...].jpg 2Кб, 75x75
75x75
>>1457502
>проще инференсить со смартфона
Этот ПК может работать 24/7 несколько месяцев с аптаймом 100% и почти никогда ничем серьёзным не занят. А инференс даже не занимает процессор на 100% (около 70%) - можно продолжать пользоваться браузером и т.п. Телефон же питается от батарейки... Мне хотелось загрузить ПК осмысленной фоновой работой и не насиловать батарейку в телефоне. Ты прав в том, что телефон у меня чуть быстрее генерирует, но он при этом быстро нагревается - я не стал долго тестить.

>всего-то 1b малявка
Это MoE на 7b, а 1b - это активных, так что мозгов побольше, чем 1b.
По MMLU Granite4:7b-a1b-h обгоняет Gemma3:4b на 0.8 пунктов (лол).
Алсо, благодаря Mamba-2, контекст не так сильно влияет на память.

>>1457513
Хорошо получилось, сохранил.
Аноним 16/12/25 Втр 16:55:37 1457678 58
>>1457623
>Меня напрягает, что чат с этим рп лежит на чужих хардах и я буквально как в меме со Швабом.
Опенроутер, полтора куска через кабанчика, причём тратить эти 10 баксов на балансе даже не обязательно, могут просто лежать, а юзать будешь бесплатные модельки.
Аноним 16/12/25 Втр 16:57:25 1457682 59
image 181Кб, 1280x1280
1280x1280
>>1457667
>А вы на каких спеках сидите?
3060 12гб + 64гб DDR4. Довольно урчу на эйре в ~8.5 т/с.
В других нейронках тоже все хорошо. Со всеми оптимизациями, видосик в ван генерируется за ~6 мин, картинки в квен и зимаж - меньше минуты.
Аноним 16/12/25 Втр 16:59:25 1457685 60
Подскажите, что задать в промте для Qwen3-VL чтобы она перестала срать цензурой на картинки голых аниме тянок

И на чем ее лучше запускать? Пробую Ollama, но с ComfyUI в связке не очень удобно
Аноним 16/12/25 Втр 16:59:43 1457686 61
1624163830154.png 54Кб, 1383x405
1383x405
>>1457667
> А вы на каких спеках сидите?
Фигурка_с_лисоженой.жпг
Аноним 16/12/25 Втр 17:00:32 1457688 62
>>1457667
Начинал с 3070 и 32 ддр4 как и тот анон, поэтому сразу и сказал что это скорее трата времени, очень быстро захотел большего.
Сейчас добрал сверху 4080 с 16гб рам (суммарно с старой 3070 стало 24 гб) + 64 ддр5. Жить уже можно но опять же хочется больше. Для некоторых задач юзаю корпов.
>>1457605 анон
Аноним 16/12/25 Втр 17:06:32 1457696 63
>>1457685
>задать в промте для Qwen3-VL
не юзать Qwen3-VL, юзать какую-нибудь их этих новых normpreserved аблитераций, или вообще Torii, если теб для капчевания.
Аноним 16/12/25 Втр 17:11:28 1457709 64
>>1457686
Только не говори, что повторяющиеся видюхи это реальные видюхи, а не баг неофеча.... Если не баг, то сколько в деньгах? И нахуя тебе почти 100ТБ памяти. Что ты раздаешь?

>>1457688
>Сейчас добрал сверху 4080 с 16гб рам (суммарно с старой 3070 стало 24 гб)
И для чего используешь ллм и по каким причинам тебе не хватает 24ГБ, отчего обращаешься к корпам?
Аноним 16/12/25 Втр 17:16:05 1457721 65
17634847846910.jpg 1018Кб, 1200x1600
1200x1600
>>1457667
>тысяч эдак 250-300
Столько стоит одна 5090.
Мимо 5090+2х3090 в запасе скоро начну продавать
>>1457709
>Только не говори, что повторяющиеся видюхи это реальные видюхи
Чел странный, я бы в его случае добывал 6000Pro, а он 5090 в небеса стакает.
Аноним 16/12/25 Втр 17:16:41 1457724 66
>>1457696
Что это?

>если теб для капчевания
Мне для описания картинок для тренировки
Аноним 16/12/25 Втр 17:19:39 1457736 67
>>1457721
И что делаешь с 8 видюхами? Какие цели/потребности они у тебя покрывают? Спрашиваю без сарказма, т.к. мне крестьянину пока далеко до таких мощностей.
Аноним 16/12/25 Втр 17:25:55 1457751 68
>>1457736
У меня сейчас одна 5090, просто схоронил фото того чувака. А так чем больше видях, тем крупнее LLM. На том сетапе можно большой GLM гонять, на той фотке 304 гига врама.
Аноним 16/12/25 Втр 17:37:30 1457780 69
image 47Кб, 933x586
933x586
Xiaomi заходит в большую игру и выпускает свою первую большую модель в опенсорс. Короткий обзор:

- По бенчмаркам на уровне Sonnet 4.5 и GPT-5, особый упор в программирование.
- MoE, 309B параметров в целом, 15 активных. Используют MTP для ускорения.
- Представляют свой новый вариант RL, MODP
- Веса базовой и ризонинг (гибридный) версии доступны на HF под лицензией MIT.
- В течении следующих 15 дней модель доступна бесплатно по API на их платформе.

https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
Аноним 16/12/25 Втр 17:43:29 1457785 70
>>1457440
Какие, нахуй, 42 токена, я никогда этого не пойму. Читаю Реддит, читаю тред, все соревнуются в скорости вывода как в спринте. "Я меньше чем на 50 токенов не согласен". "А я предпочитаю только 70". Ебанутые? Это совершенно невозможно успеть прочитать при такой скорости. Единственный плюс - быстро скипнуть косячный вывод. В остальном только минусы вижу. Только неудовлетворенность от нейронки и желание большего растет раз от раза. Но это путь вникуда.

Сижу на 5-8 токенах, вполне комфортно. Даже для задач типа программирования скорость 15-20 токенов - это уже край, как по мне. Выше - приятно, но не нужно. Один хрен потом эти кодовые портянки вручную перебирать.

Спасибо за тест, кстати.
Аноним 16/12/25 Втр 17:44:23 1457786 71
Аноны, а давайте вернемся к ЕРП.
Почему такая благодатная тема, которая должна в теории просто приносить ЕБЕЙШЕЕ количество денег не используется корпами ? Я серьезно, в чем проблема текстовой порнухи? Что блять плохого ебать текстовых тян/кунов. Ну не поверю я, что капиталюги просто по этическим соображения отказываются от жирнейшего пирога.
Аноним 16/12/25 Втр 17:51:26 1457792 72
>>1457780
>большую модель в опенсорс
>(((По бенчмаркам))) на уровне Sonnet 4.5 и GPT-5, особый упор в программирование
>MoE, 309B параметров в целом, 15 активных
>под лицензией MIT

если это все действительно так, то Г-споди, 10 из 10 кумом/РП не балуюсь
Аноним 16/12/25 Втр 17:52:07 1457794 73
Аноним 16/12/25 Втр 17:52:44 1457796 74
лол.png 11Кб, 645x340
645x340
петросян.jpg 67Кб, 900x900
900x900
>>1457593
>Порнушные фантазии не интересуют.
>>1457602 >>1457669
>без сексуальных подтекстов
Аноним 16/12/25 Втр 17:56:33 1457799 75
>>1457780
Реклама там прямо в токены будет вшита?
Аноним 16/12/25 Втр 18:05:44 1457806 76
Скачал немотрон nano, не вижу темплейт для него в таверне
Ставить default?
Аноним 16/12/25 Втр 18:06:27 1457807 77
>>1457786
Ну вообще есть такое
https://chicagoreader.com/adult/nsfw-ai-chat/
Но скорее всего это непопулярная тема для очень специфической группы задротов.
Нормисы могут порнхаб посмотреть. А рпшат школота либо шизы, ни у тех ни у других нет денег. У кого есть деньги - нет времени на такую хуйню.
А как ты будешь дохуя мощностей под это все держать? Думаю, просто нерентабельно.
Аноним 16/12/25 Втр 18:08:20 1457809 78
>>1457785
>Это совершенно невозможно успеть прочитать при такой скорости.
>Один хрен потом эти кодовые портянки вручную перебирать.
Ты не понимаешь, современное поколение быдлокодеров... """вайб-кодеров""" отправляет нейронку в долгосрочное беспилотное путешествие и потом, естественно, не перечитывает все те миллионы токенов, которые нейронка сгенерировала. Зачем? Если код компилируется и решает задачу клиента, то читать его быдл... """вайб-кодеру""" совершенно никакой необходимости нет. А теперь сам посчитай: если на скорости 70 токенов в секунду нейронка сможет решить задачу клиента, работая 24/7 за неделю, то на скорости 50 токенов в секунду нейронка потратит почти 10 дней. Десять! Так ведь можно и в дедлайн не вписаться, понимаешь?! А сроки горят - быдл... """вайб-кодеру""" нужно ещё успеть порнушку посмотреть, покурить, посрать, поспать... Поэтому для них скорость - главный показатель.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов