Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 101 21 43
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №189 /llama/ Аноним 14/01/26 Срд 15:01:01 1489412 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17643391916460.jpg 2078Кб, 2560x1920
2560x1920
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Вниманиеблядство будет караться репортами.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1485378 (OP)
>>1480267 (OP)
Аноним 14/01/26 Срд 15:04:09 1489415 2
>>1489410 →
Хуитер лессон, ты бредишь? Выдал невероятный кринж, уровня колхозника, который негодует почему к электро-локомотиву не цепляют тендер с углем и не жгут его.
> сравнения
Значение знаешь?
> с рандомным шумом
Рандомным шумом это выглядит для кожанного, пытающегося рассматривать странные проекции и ожидающего что-то увидеть. Ты еще поудивляйся почему визуализация звука от речи не является картинками того о чем говорят.
Аноним 14/01/26 Срд 15:11:30 1489422 3
>>1489388 →
> Aлиса это реликт созданный до массовой популяризации ллм

А как она вообще работает?
Аноним 14/01/26 Срд 15:15:16 1489428 4
>>1489422
Так она и не работает нихуя. Голос распознает плохо, выдает какие-то заранее запрограммированные ответы, а то что не знает то гуглит. Я вообще не понимаю как в 2026 можно пользоваться алисой или западной алексой, это все равно что смотреть телевизор с элт экраном.
Аноним 14/01/26 Срд 15:25:14 1489439 5
>>1489428
Алиса это не собеседник а голосовой пульт, ты же не рейджишь на клавиатуру когда она с тобой диалог не поддерживает?
Аноним 14/01/26 Срд 15:45:22 1489455 6
>>1489415
>Хуитер лессон, ты бредишь?
Нет.
>Значение знаешь?
Да.
>Ты еще поудивляйся почему визуализация звука от речи не является картинками того о чем говорят.
А можно было бы сделать и так.
Аноним 14/01/26 Срд 15:54:18 1489466 7
>>1489455
> А можно было бы сделать и так.
Можно нетренить сетку, которая из непонятных тебе орнаментов и шумов будет делать узнаваемые образы.
Аноним 14/01/26 Срд 18:16:48 1489654 8
>>1489383 →
Второй или третий слой печатай. Или пятый. На первом всегда шум или полосы.
Аноним 14/01/26 Срд 18:33:22 1489667 9
>>1489654
Наоборот, первый самый понятный, остальные это многосотмерные хуитки.
И да, там не свёртка по сути, так что второго слоя нет.
Аноним 14/01/26 Срд 19:25:21 1489739 10
Сап LLMщики!
Подскажите, пожалуйста, как можно реализовать что-то вроде РП, где 2 персонажа будут сами двигаться по сценарию?
Может пресет для Таверны какой есть?
У меня просто из-за скудной фантазии GIGO какой-то получается...
Аноним 14/01/26 Срд 19:29:13 1489743 11
>>1489739
>где 2 персонажа
Делаешь групповой чат, пишешь "они делают [что то конкретное]" или просто запускаешь генерацию следующего сообщения.
Аноним 14/01/26 Срд 19:47:55 1489775 12
>>1489739
Слушай, а ведь хорошая идея.

Ставишь две нейронки (одну и ту же с разными системными промтами) играть саму с собой сюжет.

После ста сообщений берёшь и кормишь это нейронке-оценщику с третьим системным промтом, которая выдаёт баллы за креативность, следование сеттингу, отсутствие роялей и прочее.
И потом незначительно в соответствии с комментарием (можно тоже нейронкой с четвёртым системным промтом) меняешь системные промты персонажей.

Всё, что-то около генетического алгоритма по подбору более совершенного промта создано. Уже хочу это запустить.
Аноним 14/01/26 Срд 19:47:56 1489776 13
4234252352561324.mp4 15192Кб, 1280x704, 00:00:10
1280x704
THE BASE OF THREAD
Аноним 14/01/26 Срд 20:08:51 1489804 14
изображение.png 100Кб, 1171x478
1171x478
изображение.png 75Кб, 1140x434
1140x434
изображение.png 106Кб, 1124x852
1124x852
Читаю треды минувших лет дней. Позади Третья Квеновая Война... Или пятая? Хуй его знает. War never changes. Короче время давануть базу

Скормите примеры диалогов и тогда все тип топ, и этот Квен наш! Он по прежнему будет уходить в переносы строк когда ему вздумается, даже если в карточке тысяча-две токенов написанных от руки описаний и диалогов, даже когда у вас позади минимум 20к контекста где этих переносов нет. Но будет делать это уместнее и часто очень в тему. Если нет, то от свайпа вам не убудет, один хуй на любой модели свайпаете. Пук 3 например, там и карточка норм написана и с примерами, и контекста очень много позади. Но Квен взял и сделал. А я и не против. Это оч забавно, иногда он ахуенно смешные перлы выдает

Квен как и Писик - модель с характером, нравится вам или нет, до конца от него избавится не получится. Можно назвать это байасом. Для чего-то донельзя серьезного имхо не годится, но как же он может в любые формы делирия. Комедию отыгрывать - заебись, хоррор - хорошо, кум - ну пойдет, пишет сочно но всегда с этими hold me like you mean it (референс рокнрольщиков) и make me yours. Мудрейшие правильно говорили в ранних обсуждениях, короткий промтик, стиль направляем карточкой. Хорошая моделька для своих рп юзкейсов. Осуждаю всех тех кто насмехается над неосиляющими модельку. Хули вы удивляетесь, что Квен поливают говном, если сами ничего не сделали чтобы это исправить? Даже наоборот. Любите Квен - ну так помогите блять ему найти своих почитателей, а не закрывайтесь в касте ахуенно умных снобов, по которым судят и модель тоже. Вы не Дон Корлеон, блять, вы на двачах ноунеймы ебаные. Особенно этот который оче хорошо заебал, гнус среди всех гнусов, в каждой Квеновой Войне поучаствовал и ни разу ничего сущностного не выдавил

>>1488581 →
> Если этот подход кому-то интересен, могу (уже наверное завтра) подготовить
Куда пропал? Где?
>>1487137 →
> Я могу скинуть свои логи.
Куда пропал? Где? Прекращай срамить Квен своим недостойным поведением
Аноним 14/01/26 Срд 20:12:55 1489808 15
>>1489739
Так блять, пока писал свое говнополотно появился твой вопрос. Не слушай этих шизиков, которые любят все усложнять. Какие две модельки? Вон у меня на пикрилах ровно то что ты описал. Берешь https://github.com/Samueras/GuidedGenerations-Extension и юзаешь impersonation от 1 или 3 лица как удобно, пишешь "i walk into the room" или от 3 лица и за тебя ллмка во всех подробностях это пишет. По желанию можешь отредачить как надо и все такое
Аноним 14/01/26 Срд 20:14:15 1489810 16
Ну или берешь и жмакаешь enter если ты в текст комплишене. Модель просто продолжит сама писать историю. Не важен порядок модель -> юзер, можно иметь в чате много сообщений от модели подряд, похуй вообще
Аноним 14/01/26 Срд 20:15:10 1489811 17
>>1489804
>Короче время давануть базу
>дефолтнейшая инфа про карточку
>переносы на месте
>проза на месте
Давани себе на лоб квеношизик
Аноним 14/01/26 Срд 20:18:33 1489814 18
hn005z.png 134Кб, 443x349
443x349
>>1489811
Все секреты мира чрезвычайно просты, нытик. Чтобы стать успешным нужно трудиться. Чтобы быть счастливым нужно делать выбор в пользу счастья. Чтобы получать хорошие аутпуты нужны хорошие инпуты и промты. Нет никакого чит шортката, который сделает тебя богатым. Нет никакого события или человека, который сделает тебя счастливым пока ты сам это не выберешь. Нет никакого пресета, который за тебя будет промтить и управлять моделькой лох
Аноним 14/01/26 Срд 20:20:09 1489817 19
>>1489814
> Все секреты мира чрезвычайно просты
Да, если модель хуйня то она хуйня и надо ждать апгрейд
Аноним 14/01/26 Срд 20:24:05 1489822 20
>>1489817
Ну сиди терпи перди, жди у моря погоды. Когда-нибудь несомненно сделают модель которая залезет к тебе в голову и сделает хорошо, плохо не сделает. Вон там за гаражами агишизики пентаграммы рисуют, попробуй к ним заглянянуть
Аноним 14/01/26 Срд 20:27:17 1489824 21
>>1489822
Уже дождался, эир же.
Эир это выдать заказик на пвз
Квен это разгрузить вагон
Аноним 14/01/26 Срд 20:52:08 1489840 22
765.jpg 74Кб, 715x589
715x589
Аноним 14/01/26 Срд 20:57:44 1489843 23
Аноним 14/01/26 Срд 20:59:47 1489845 24
Аноним 14/01/26 Срд 21:01:51 1489846 25
>>1489822
> залезет к тебе в голову и сделает хорошо
Только хорошо не ему, лол.
>>1489843
>>1489845
Хз, кажется про эту модель обширного мнения что плохая или сильно хорошая не было. Средитторам нравится.
Аноним 14/01/26 Срд 21:12:23 1489850 26
>>1489843
Тут вообще ничего больше не используют и не обсуждают как ты мог заметить, только набрасывают в надежде что скинут пресет.
Аноним 14/01/26 Срд 21:22:02 1489857 27
изображение.png 16Кб, 673x228
673x228
>>1489843
О, загрузку с хайгитлерфейса починили.
Аноним 14/01/26 Срд 21:23:08 1489859 28
А как можно запускать Таверну с уже указанными параметрами (семплерами/промтами) под запускаемую модель? Может кто-то поделится готовым скриптом, пожалуйста.
Аноним 14/01/26 Срд 21:33:00 1489866 29
Новичок в треде, имею возможно глупенький вопрос.

А правда что локальные модели в основном отлично и РПшат и кумят исключительно на английском? Если для русского нужно искать либо тюн мистраля с не убитым русским, либо ещё бОльшие модели юзать, то на англюсике и мистраль просто секс, и даже 8B малыши дают конкретную ёбку?
Аноним 14/01/26 Срд 21:36:16 1489869 30
>>1489866
>русского
Любая модель лучше перформит на инглише.
Аноним 14/01/26 Срд 21:39:22 1489870 31
image 44Кб, 500x514
500x514
>>1489866
>Новичок в треде
Ох уж эти попытки устроить русикосрач
Аноним 14/01/26 Срд 21:41:28 1489873 32
>>1489859
создаёшь пресет, выбираешь его в таверне, чтобы сразу запустить с - это к кобольду

>>1489866
Русский - Это Гемма 12 и 27, Янка-8, Сайга-12 и то что на её основе + некоторые мистрали 24.
Толстые модели могут в русский лучше чисто по причине количества параметров.

Ёбку не дают, просто англе
- Больше было текстов (в том числе кривых и говённых)
- Ты не носитель, так что не выкупаешь когда модель кри во пишет на англе
Аноним 14/01/26 Срд 21:45:24 1489876 33
>>1489873
Какая сайга? На гемме или чём-то ещё? Илья Гусев вроде не выпускал моделек. Сайги ещё актуальны?

А что анон думает про Vikhr? А про RefalMachine? В тгк вихрей читал что RuAdaptQwen3 даже на 4B пиздат на русском. Кто-то пробовал эту серию?

>Ты не носитель, так что не выкупаешь когда модель кри во пишет на англе
Кстати не думал с этой точки зрения, а замечание вполне справделивое. Возможно похуй на этот англюсик.
Аноним 14/01/26 Срд 21:47:37 1489879 34
>>1489876
>Илья Гусев вроде не выпускал моделек
В последние несколько месяцев бля. Фикс.
Аноним 14/01/26 Срд 21:48:54 1489881 35
>>1489804
стараюсь изо всех сил не просить пресет. потряхивает
Аноним 14/01/26 Срд 21:52:23 1489884 36
>>1489811
Как человек может давануть себе на лоб? Ты совсем квантованный?
>>1489866
На русском тоже можно. Для простого парня Ивана город Пермь Мистраль 24б последний или Гемма 27б. Дальше жирномоешки для ригобояр. На английском любая модель будет работать лучше, это факт.
Аноним 14/01/26 Срд 21:57:03 1489886 37
>>1489876
>RuAdaptQwen3 даже на 4B пиздат на русском
Все мелкие геммы хороши на русском из коробки, без всяких файнтьюнов, 1b, 4b, старая 2b тоже. Только это не для кума. Использую их на телефоне и на древнем лэптопе, брат жив.

Если нужен именно кум на русском, то:
https://huggingface.co/mradermacher/M3.2-24B-Loki-V1.3-GGUF
https://huggingface.co/mradermacher/MS3.2-PaintedFantasy-v2-24B-GGUF
https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF

Если картошка вместо компа, то:
https://huggingface.co/mradermacher/SAINEMO-reMIX-GGUF
https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF
Аноним 14/01/26 Срд 22:00:42 1489891 38
>>1489884
>Как человек может давануть себе на лоб?
Перевернувшись.
Аноним 14/01/26 Срд 22:02:34 1489893 39
>>1489886
>Все мелкие геммы хороши на русском из коробки, без всяких файнтьюнов, 1b, 4b, старая 2b тоже. Только это не для кума. Использую их на телефоне и на древнем лэптопе, брат жив.
Вот неиронично не могу представить задачи для моделек меньше 8-12b, особенно на телефоне. Поделись юзкейсом?
Аноним 14/01/26 Срд 22:10:06 1489901 40
>>1489884
Ваня сквозь стеклянную крышку своего пк может наблюдать как перемножаются квантованные тензоры на гпу и озу в реальном времени, вместо чатика, ведь в 12GB видеокарту они не влазят. Есть какой-то ультимативный метод ускорения dense моделек если не хватает врам?
Или хитрый Иван нашёл какие-то мега крутые карточки с 16GB+ не за его месячную зарплату? А то просто куртка ахуел и всё ещё выпускает 8GB и я ума не приложу как вы бля все тут умудряетесь загружать ебучие модели по 100B+. Либо это мистическое место на дваче, где собрались все 300кк/наносек господа, либо блять это тайна.
>>1489886
>SAINEMO-reMIX
О, ещё актуальна? Целый год прошёл. Неужели не появилось тюнов/мёрджей новее и лучше?
Аноним 14/01/26 Срд 22:12:46 1489905 41
>>1489886
> геммы 1b, 4b
Бля, чисто в теории. GigaChat3-10B-A1.8B может ли быть лучше чем они в русском языке? Или хотя бы на уровне?
Аноним 14/01/26 Срд 22:20:07 1489909 42
>>1489886
Еще неожиданно неплох на русском вот этот тюн геммы: https://huggingface.co/bartowski/Darkhn_G3-27B-Animus-V12.0-Redux-GGUF?not-for-all-audiences=true
По крайней мере в режиме Chat Completion, на котором я его запустил вместо "другой модели"(tm), и не сразу это заметил. :)
Такой себе, случайный слепой тест получился.
На английском - это нечто среднее между кум-тюном и тюном под адвентюры. На русском, похоже, тоже могёт. Только вруша. Если чего-то не знает - фантазирует на тему, говорить "не знаю" не умеет вообще. Как серьезный ассистент, потому, непригоден.
Аноним 14/01/26 Срд 22:20:20 1489910 43
>>1489893
Люблю генерировать картинки и видосики в китайских локалках, а они для нормального результата требуют полотна текста с китайской прозой в духе квена, лол. И часто такое бывает, что я не знаю как перевести какое-то слово или оборот для промпта с русского на английский. Ресурсов на компе для запуска большой ЛЛМ не остается вообще, там едва-едва на браузер с парой открытых вкладок хватает. Вот тут-то умничка 4b на телефоне и выручает. Описываю ей чего хочу добиться - она мне выдает варианты как это кучеряво написать на инглише, дает несколько вариантов, объясняет нюансы каждого. Очень удобно, и 4b малявки для такой задачи за глаза. Да, можно было бы конечно использовать для этого гопоту/дипсик - но это неспортивно. Локалочки наше всё.

>>1489901
>О, ещё актуальна?
По ходу да, сейчас мелкомодели не тюнят. Сам искал недавно тюны нового мистраля на 8b и 14b в запасы на случай чебурнета. Спрашивал в прошлом треде - никто не знает.

>>1489905
Но зачем, когда есть Гемма 3n-e4b?
Аноним 14/01/26 Срд 22:22:36 1489911 44
>>1489910
>Но зачем, когда есть Гемма 3n-e4b?
Есть ли однокнопочный родственник Кобольда или ЛмСтудии на Андроид чтобы легко запускать? Какой у тебя квант, сколько кушает рамы, какая скорость?
Аноним 14/01/26 Срд 22:23:40 1489913 45
>>1489901
> ускорения dense моделек
Ты можешь снизить объем вычислений выгрузив весь атеншн и прочее на гпу, там малые объемы но много компьюта. Тогда на проце останутся только перемножения больших линейных слоев, где упор исключительно в скорость рам.
> хитрый Иван нашёл какие-то мега крутые карточки с 16GB+ не за его месячную зарплату
v100, 16-гиговая в круг выйдет около 15, 32 под 40.
Аноним 14/01/26 Срд 22:29:11 1489917 46
>>1489910
>По ходу да, сейчас мелкомодели не тюнят.
Очень печально, интересно почему раньше делали и в последний год резко перестали.
>Гемма 3n-e4b
Ну, это не совсем полноценная MoE, но да, она сасная. Даже e2b крута, мне её зрение часто помогает.

>>1489911
Для андроида есть google ai edge gallery, как раз для gemma 3n

>>1489913
>выгрузив весь атеншн и прочее на гпу
О, спасибо, ща трайнем.
>v100
Оно точно того стоит? Архитектура старая, ни flash attention 2, ни bfloat16, ни в целом любых других типов данных кроме float16. Какая-нибудь 3060 12gb за счёт оптимизаций и архитектур может столько же хуйни вместить, не?
Аноним 14/01/26 Срд 22:35:56 1489919 47
https://huggingface.co/spaces/kristaller486/RuQualBench
На сколько этот бенч отражает действительность? Конечно тут сравнение исключительно качества русского, общая думалка модели не учитывается, но правда что у YandexGPT-5-Lite русик лучше, чем например у GLM-4.6?
Аноним 14/01/26 Срд 22:37:09 1489920 48
image 650Кб, 1220x2712
1220x2712
Аноним 14/01/26 Срд 22:39:58 1489922 49
>>1489917
>>1489920
Пасиба пасиба. Тоже что ли на свой простенький телефон Гемму умничку накатить. Ну а вдруг пригодится? Заблужусь в лесу с полным зарядом батареи и смогу спастись.
Аноним 14/01/26 Срд 22:42:06 1489925 50
>>1489917
>интересно почему раньше делали и в последний год резко перестали
Потому что не нужно. Только портить.
Да и модели стали так плотно набивать, что не тюнятся.
>>1489919
>общая думалка модели не учитывается
Ты сам ответил на свой вопрос.
Аноним 14/01/26 Срд 22:53:56 1489935 51
>>1489917
> не
Не. Ближайший конкурент - 3090, немного выше перфоманс, но за счет более новой архитектуры поддерживает экслламу для ллм, поддерживает сажу для крупных генеративных что позволяет работать быстрее с ними. Но ничего из этого не компенсирует нехватку врама, чисто для ллм одна V100 будет лучше чем одна 3090. Если собирать риги и/или катать другие генеративные то уже индивидуально, плотно увлечешься и будешь готовым переплатить за меньшие тормоза.
>>1489925
> стали так плотно набивать, что не тюнятся
Дело не в этом, можно притянуть только то, что сейчас выпускают не просто сырую базу а хорошо шлифованный готовый продукт. Чтобы тренить такое - требуется нормальный датасет и организация всего процесса, чего нет у васянов.
Аноним 14/01/26 Срд 22:59:58 1489944 52
>>1489935
Ну вот на Мистраль 24b - тюнов столько, что ими вся обниморда завалена. А на 8b и 14b, которые новее - ни одного. Это странно.
Аноним 14/01/26 Срд 23:10:26 1489948 53
Наконец-то подебил ультра немотрона на жоре, успех. Но скорость, конечно, мда - тг 5 т/с на пустом контексте в 4 кванте, и это без использования паскудныхальных тесел в конфиге... Сасуга моэ, как говорится. Ну ладно, ради интереса можно и потерпеть, потому как я пытался запускать милфолламу однажды в третьем кванте и получил по ебалу одним токеном в секунду.
Аноним 14/01/26 Срд 23:14:36 1489955 54
>>1489910
>Но зачем, когда есть Гемма 3n-e4b?
В llama.cpp не работает вижен модель от e4b. А от 4b работает.
Аноним 14/01/26 Срд 23:16:33 1489959 55
>>1489920
Это с виженом? Он там есть же?
Аноним 14/01/26 Срд 23:18:06 1489962 56
Аноним 14/01/26 Срд 23:18:49 1489963 57
>>1489955
И да, e4b это очень крутая модель, я не думаю что есть что-то лучше при том же размере. Ещё и эмбеддинг на 2 гб можно в рам скинуть.

>>1489917
Ты когда на видеокарточке запускаешь - это сразу х30 скорости по сравнению с процессором.
То есть даже если она старая и даёт всего х10 - это всё ещё более чем достаточно. Грубо говоря у тебя акцент на память:производительность 9:1 и если бы была ещё более медленна карточка, условная GV140, но с 48 ГБ, то выбирали бы её вместо V100 с большой вероятностью.
Аноним 14/01/26 Срд 23:21:43 1489966 58
>>1489959
Опция отправить в чат картинку в аппе есть, так что наверное да. Но я не проверял, т.к. под мои задачи не нужно.
>>1489962
LTX-2
Аноним 15/01/26 Чтв 01:12:11 1490028 59
Кто-нибудь смог нормально настроить гпт осс 20б для рп? Всё хочу попробовать, но эта залупа просто невменяемая. А 120б вряд ли кто-то юзает в режиме размышлений, именно он мне нужен.

Быть может, если бы я решил ебаться с ним три часа, то настроил, но сил моих нет. Резонинг идёт по каким-то ебанутым каналам по хуй пойми каким условиям.

В других бэках/юи типа лм студио все норм, но мне в таверне нужно.

Я просто хочу уже без мозгоебства погонять модель, файнтюны, аблитерации и сравнить её со старым немо без цензуры.

Ни одна модель мне так мозг не трахала.

И да, я читал документацию клоседов. Складывается впечатление, что без какого-то особого колдунства и костылей этот кал просто не сможет в таверне работать с ризонингом нормально.
Аноним 15/01/26 Чтв 01:25:03 1490032 60
>>1490028
>гпт осс для рп
Мсье знает толк в извращениях
Аноним 15/01/26 Чтв 02:33:13 1490049 61
>>1490028
Вот когда-то давно тредовичок тестил 120б версию >>1349309 в конце поста видно какой ризонинг префил, чтобы обойти цензуру и оно не развалилось на текст комплишене. Хотя мб там и шаблон какой-нибудь изъебистый, читай всю ветку короче.
Судя по всему полное говно и нет предпосылок почему 20б не будет говном, которое еще хуже в 6 раз
Аноним 15/01/26 Чтв 02:33:49 1490051 62
Аноним 15/01/26 Чтв 03:04:35 1490063 63
>>1490028
Можно попробовать через режим Chat Completion, это избавит от необходимости трахаться с ее разметкой - будет задействован вшитый шаблон. Но тогда она своей цензурой заебёт, т.к. ее будет не обойти (это через шаблон делается). Потому, если такое пробовать - то только с расцензуреным тюном. А как у него с мозгами будет - это хрен его знает.
Аноним 15/01/26 Чтв 03:12:54 1490065 64
>>1490063
Укажи свой темлейт. У вллм можно как дефолтный задать так и с каждым запросом нужный слать, жора только указание джинджи при старте умеет (когда последний раз проверял)
Аноним 15/01/26 Чтв 03:15:17 1490067 65
И в целом умение в джинджу мастхев для тех кто крутит локалки т.к. позволяет иметь все плюшки чат и текст комплишена не имея жопоболи с ручной сборкой этого самого шаблона
Аноним 15/01/26 Чтв 03:32:41 1490072 66
>>1489948
Подебажил жору, чтобы понять, откуда жор. В общем, по итогу это привело, внезапно, к документации, причем к самому видному месту, а именно к опции GGML_CUDA_FORCE_MMQ, где черным по белому пишется про v100. Для батчей контекста v100 не подпадает под критерии mmq, для нее дергается cublas имплементация матмула, в результате тензор размером 3 Гб при конвертации в фп16 превращается в 13 гигабайтного монстра. От такого даже v100 в ахуе.

Поэтому имейте в виду, что на дефолтных настройках v100 будет жрать больше. С GGML_CUDA_FORCE_MMQ, как пишут, будет чуть медленнее пп, но жор должен значительно снизиться. На обычных моделях я этого не особо замечал (тензоры обычно не такие большие + 32 гб развращают), но немотрон конкретно ударил в псину.
Аноним 15/01/26 Чтв 03:33:15 1490073 67
1768437196796.png 1599Кб, 1344x2293
1344x2293
Есть ебанутые и отчаянные? Примерно 5к уже с доставкой
Аноним 15/01/26 Чтв 03:41:24 1490074 68
1768437685214.png 1689Кб, 1344x2226
1344x2226
Аноним 15/01/26 Чтв 03:45:56 1490075 69
Расскажите про Loop Transformer
Аноним 15/01/26 Чтв 03:55:47 1490076 70
image 329Кб, 480x790
480x790
>>1490073
Да что ты знаешь о ебанутости и отчаянии, сын мой?

Взял на время, пересидеть пока что-то адекватное нвидия не выкатит, на замену 3060 12гб. Как заберу - сравню результаты в нейронках (видео/картинки/ллм) со старой видяшкой и выложу в тред, может кому-то интересно будет.
Аноним 15/01/26 Чтв 04:04:55 1490079 71
>>1490076
> Да что ты знаешь о ебанутости и отчаянии, сын мой?
Достаточно. Начал собирать риг на ми50 ещё до того как это стало мейнстримом
Аноним 15/01/26 Чтв 05:10:02 1490091 72
image.png 246Кб, 1920x1080
1920x1080
ребят, какую версию лучше всего установить?

у меня ryzen 5 5500u со встройкой, 16 гигов оперативы.

на основном ноуте с r5 5600h + rtx 3060 я юзаю обычный koboldcpp.exe, благо позволяет железо.
Аноним 15/01/26 Чтв 05:15:55 1490092 73
image.png 319Кб, 1920x1080
1920x1080
а, я пиздоглазый, сорян.

думал сверху чейнджлог написан, оказывается там и пояснение по версиям есть.
Аноним 15/01/26 Чтв 05:17:02 1490093 74
image 68Кб, 962x759
962x759
>>1490091
Очевидно же. Выбирай из этих двух в зависимости от ОС.
Аноним 15/01/26 Чтв 05:57:05 1490099 75
sudo chmod +x 'koboldcpp-linux-x64-nocuda' и все.

кстати, почему на процессоре с 16 гигами оперативки работает с такой же скоростью, как на 3060?

я прихуел даже
Аноним 15/01/26 Чтв 06:55:58 1490106 76
Так.
Почему тут совсем не обсуждают ттски?
За год их столько навалили, одна х3 меньше и лучше другой, ща они в районе 80м и влезут куда угодно
Но тут молчат
Аноним 15/01/26 Чтв 07:06:43 1490108 77
>>1490106
text to speech?

бампую развитие темы данной. хочется слышать причмокивания в данном так называемом ролеплее.
Аноним 15/01/26 Чтв 07:11:07 1490109 78
>>1489866
>локальные модели в основном отлично и РПшат и кумят исключительно на английском
Нейронки в принципе лучше всего работают на английском, во всех задачах. Кроме, наверное, китайских, но китайского я не розумию.

>для русского нужно искать либо тюн мистраля с не убитым русским
Нету таких. Не только мистралей нету, моделей с хорошим русским в принципе нету. Просто планка настолько низкая, что начинают облизывать любую локалку, которая правильно склонения со спряжениями проставляет.

>>1490106
>>1490108
>Почему тут совсем не обсуждают ттски?
Под них есть отдельный тред, зачем этот вопрос сюда тащить? Вы еще спросите, почему мы тут генерацию картинок не обсуждаем. Тоже ведь локально.
Аноним 15/01/26 Чтв 07:14:43 1490110 79
>>1490099
>почему на процессоре с 16 гигами оперативки работает с такой же скоростью, как на 3060?
Может потому что у тебя до этого видеокарта вообще не работала? Даже на частичной выгрузке должна быть разница, если только там не 5 из 50 слоев в видеопамяти висят.
Аноним 15/01/26 Чтв 07:14:50 1490111 80
>>1490109
Интересно каков кум на китайском
> отдельный тред
Который до бамп лимита год дойти не может
Аноним 15/01/26 Чтв 07:18:37 1490113 81
>>1490111
>Который до бамп лимита год дойти не может
Ну значит никому нейроспич не интересен. Тут тоже про него раз в 30 тредов дай бог вспоминают.
Аноним 15/01/26 Чтв 07:20:27 1490114 82
Пол месяца прошло, абсолютное молчание. Ничего не происходит, никогда.
Бюджеты урезали, теперь все модели будут выходить раз в год, и будут они маленькими, ненужными.
Аноним 15/01/26 Чтв 07:48:44 1490119 83
image.png 16Кб, 225x225
225x225
Господа, посоветуйте хорошую 12b модель для рп/кума из последнего. Год назад сидел на немомикс анлишеде, он был уёбищем, но лучше тупо ничего не было, изменилось ли вообще что - то в 12b сегменте, или та же самая хуйня только с другими названиями? Я конечно могу гонять 24b, но на 7 т/с крыша ехать начинает.
Аноним 15/01/26 Чтв 07:51:43 1490121 84
>>1489944
Че тут странного? Подожди полгода, посыпятся один за другим.
Аноним 15/01/26 Чтв 07:57:25 1490122 85
>>1490114
У меня игры выходят раз в три года в которые можно играть дольше 3 часов — а ты ноешь что модельки выходят реже чем 2 в неделю.

Что кстати неправда, просто распределение пуассона балуется + праздники были.
Аноним 15/01/26 Чтв 08:02:45 1490123 86
>>1490119
На реддите таверны в еженедельных ветках поищи, там постоянно тюны на 12B вываливаются. Что-то лучше немомикса точно найдешь, он был говном даже на момент выхода.
Аноним 15/01/26 Чтв 08:06:56 1490124 87
Аноним 15/01/26 Чтв 08:49:48 1490151 88
>>1490109
>Не только мистралей нету, моделей с хорошим русским в принципе нету.
Шиз, спок. Съеби на форчан-помойку.
Аноним 15/01/26 Чтв 08:56:43 1490155 89
>>1490151
Отрицание реальности саму реальность не отменяет. Моделей с нормальным русиком нет. Мне бы хотелось чтобы они были, но их нет. Однажды ты тоже это поймешь, когда закончишь девятый класс.
Аноним 15/01/26 Чтв 08:57:36 1490156 90
Аноним 15/01/26 Чтв 09:12:44 1490160 91
>>1490155
Хуевый русик лучше отличного англюсика, если на втором ты не можешь прочесть полотно из 500 токенов хотя бы за 2 минуты и понять 90%. на что не способно 99% треда как бы кто не усирался
Аноним 15/01/26 Чтв 09:27:27 1490165 92
>>1490160
>Хуевый русик лучше отличного англюсика
Лучше давиться англюсиком, переводить непонятное вручную и читать 200 слов за десять минут, чем дрочить на однотипные обороты с упоминанием говна по типу "лона, лепестков, горошинок клитора" и прочей графомании, от которой тошнит еще сильнее чем от шиверсов.

>на что не способно 99% треда как бы кто не усирался
Не проецируй свои проблемы на других. Большая часть треда как раз сидит на английском и вполне себе понимает. Воняет как раз меньшинство, которое не может даже базово совладать с языком, на котором выпускается большая часть контента, от развлекательного до технического.
Аноним 15/01/26 Чтв 09:31:19 1490166 93
>>1490165
Слушать контент и читать не одно и тоже, мань.
Что то смотреть я могу часами и не устать, чтение же заебывает довольно быстро
Аноним 15/01/26 Чтв 09:33:55 1490168 94
>>1490155
>>1490165
Печально быть тобой.

Квеносрач был, теперь языкосрач на очереди?

Кстати, последняя гемма, там где норм-пресервед, прям хороша, да. Особенно в кобольде на сторителлинге. Буквально лучший локально-потребительский великий и могучий.
Аноним 15/01/26 Чтв 09:43:26 1490172 95
>>1490166
>чтение же заебывает довольно быстро
Это твои проблемы и ты их опять проецируешь.

>>1490168
>Квеносрач был, теперь языкосрач на очереди?
Русикосрач тут велся еще до того как китайцы проснулись и начали клепать модели, с подключением. Только мне всегда были непонятны причины такой жесткой тряски, если русский на локалках реально слабый из-за того что это второстепенный язык в лучшем случае со всеми вытекающими проблемами.
Аноним 15/01/26 Чтв 09:59:17 1490186 96
Спосебо вам за ответы!

>>1489775
Была похожая задумка, но слишком заморочено.

>>1489743
>>1489808
Пушка!
Аноним 15/01/26 Чтв 10:21:44 1490199 97
235.mp4 2132Кб, 832x448, 00:00:10
832x448
Аноним 15/01/26 Чтв 10:31:46 1490206 98
>>1489804
Куда пропал?
Няшил любопытных под пледиком и массировал им ушки.

>>1490160
>Хуевый русик
Он не хуёвый. Он никакой.
Смотри. Датасет папочка, датасет решает. Русский язык вам нужен не для чатинга, тут он не плох, а для сисик и писик, но как только мы заходим в сферу РП и ЕРП, то всё - баста. Сушите вёсла и ебите лимоны.
Потому что на баренском написаны тысячи порнофанфиков, на нём написаны тысячи книг, приключений и всего остального. И английский язык отличается от русского в структуре построения предложений, в диалоге. И как модельки поступают в таком случае? Они просто ебашут прямой перевод. И это больно читать. Я люблю хороший русский текст, меня бросает в дикую тряску от этих бусинок. А на английском все эти шиверсы, мейби, и прочие -измы вообще не раздражают.
Вот и вся причина. Нас тупо мало, мы производим мало контента, мы его не продвигаем. Та-же гемма прекрасно пишет на русском, если тебе нужен литературный стиль, квен прекрасно пишет на русском. Но всё это сухо и безлико.
Поэтому русикосрач бессмысленный в своей сути.
Аноним 15/01/26 Чтв 10:38:55 1490210 99
>>1490206
>на баренском написаны тысячи порнофанфиков, на нём написаны тысячи книг, приключений и всего остального
>весь кум один хуй сводится к make me yours/ruin me for anyone else etc.
Что на 8б что на 120б модели
Аноним 15/01/26 Чтв 10:47:54 1490213 100
>>1490210
Вот кстати, чтобы такой хуйни не было уже непосредственно в процессе изготовления крема можно попробовать примеры диалогов использовать. Пока соу соу, но уже лучше. По крайней мере, на тестах, нейротянка запрыгнула на user и когда, мой персонаж попробовал что то сказать, получил пощечину и был зацелован. Мелочь, а приятно. Но всё равно не то. Я сейчас думаю через лорбуки с процентом активации подвязать поведение по тегам. Ну условно - стесняшка будет делать так с 20%, а хангри кокслив по другому. Но тут другая проблема. Я ИХ ДЕЛАЮ, Я ЗНАЮ ЧТО ТАМ БУДЕТ. Это будет скучно, без интриги.
Хмм..хмм... хммм.. Хоть драммеромелочеть как агента используй.
Аноним 15/01/26 Чтв 10:49:35 1490214 101
>>1488592 →
>>1489804
https://rentry.co/LLMCrutches_NoAssistant
Как обычно заняло больше времени чем рассчитывал. Если кто-нибудь проверит и отпишется, что инстукция в целом рабочая, то хорошо было бы. А то мало-ли, что ещё упустил.

>>1488611 →
> Не совсем, именно для этого в таверне есть настройка оверрайда параметра добавления имен в групповых чатах чтобы оставались. Только это часто негативно влияет на аутпуты в целом, потому отключают в одиночных.
А, ну значит я просто забыл, как это настраивается - давно уже не пробовал групповые чаты в таверне запускать.

> В одиночных чатах тоже юзабельно. Разбавления нарратором может улучшать структуры и суть ответа, улучшается проработка речи-действий в сценах где появляются другие персонажи, нейронка потом меньше путается.
Интересно, я не рассматривал это с такого угла.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов