Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 135 20 49
Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №235 /llama/ Аноним 18/05/26 Пнд 22:53:40 1615052 1
Llama 1.png 818Кб, 630x900
630x900
Карта деградаци[...].png 153Кб, 1473x830
1473x830
Реальная длина [...].png 518Кб, 2372x1712
2372x1712
177582899215505[...].jpg 3741Кб, 3407x2960
3407x2960
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1612868 (OP)
>>1610759 (OP)
Аноним 18/05/26 Пнд 23:00:11 1615056 2
Просто напомню всем кому не заходят Гемма или Квен потрогать Эйр, вы ахуеете
Аноним 18/05/26 Пнд 23:05:15 1615058 3
>>1615056
гемму и квен я видел че за эйр как его трогать сидите здесь в засохшей сперме хуй поймешь о чем пиздите
Аноним 18/05/26 Пнд 23:10:10 1615062 4
Проверял кто-нибудь на Гемме бф16 контекст? Есть разница с ф16? На лламе
Аноним 18/05/26 Пнд 23:11:41 1615063 5
>>1615062
Проверял f32. Разницы кроме скорости не заметил
Аноним 18/05/26 Пнд 23:12:19 1615065 6
Аноним 18/05/26 Пнд 23:16:41 1615066 7
>>1615065
Ну понятно нюфажка, стал бы спрашивать, если бы был изможденным липким мастурбатором как аксакалы треда
Спасибо, сейчас заценю.
Аноним 18/05/26 Пнд 23:23:19 1615070 8
>>1615062
Теоретически, bf16 должен быть лучше, но работает только на Аде и новее. Разницы на своей 4090 по скорости я не заметил, по эффективности тоже. Как будто и не изменилось ничего.
Аноним 18/05/26 Пнд 23:25:27 1615072 9
Что по mtp на гемме 3/4 и glm-4.7-flash?
Я уже могу загрузить новую ламу и сам отквантовать?
Гемма 3 тоже интересует. Не могу осмыслить комментарии в гитхабе что там пишут об этом.
Аноним 18/05/26 Пнд 23:27:00 1615075 10
>>1615072
Пока ничего нет. Для Геммы 3 вряд ли кто-то будет заморачиваться, архитектуры разные, значит и решение нужно другое. Жди.
Аноним 18/05/26 Пнд 23:30:29 1615078 11
Аноним 18/05/26 Пнд 23:33:34 1615080 12
>>1615078
Похуй. Работает лучше новых агентопомоев
Аноним 18/05/26 Пнд 23:33:38 1615081 13
>>1615066
Блядь, типа глм это ваш айр и есть? В очко я думал и правда откровение какое-то глм-то я тоже видел вообще нихуя не понял, это ж чисто китайский кал. Хуй знает вы там кумите на англюсике может но в русике глм же просто пиздец какой-то, просто мерзость нефритовый стержень Xi словно ее на переводах с алика обучали
Аноним 18/05/26 Пнд 23:44:03 1615086 14
>>1615081
На локалках русик это ток ассисентогемма и ничего больше
Аноним 18/05/26 Пнд 23:49:17 1615088 15
>>1615086
>ассисентогемма
31 или 26?
Аноним 18/05/26 Пнд 23:52:36 1615090 16
Аноним 18/05/26 Пнд 23:57:15 1615094 17
Аноним 18/05/26 Пнд 23:59:53 1615095 18
>>1615094
Тупее в языке или генерации текста в целом? Вообще насколько пострадали мозги мое в отношении к плотняше?
Аноним 19/05/26 Втр 00:01:47 1615097 19
>>1615095
Тупее во всех отношениях. Это не тотальная тупость, но разница с плотной видна почти сразу.
А там уже каждый решает сам что для него важнее мозги или скорость
Аноним 19/05/26 Втр 02:12:05 1615127 20
1779145926355.png 230Кб, 1187x718
1187x718
Простите, я проиграл
Аноним 19/05/26 Втр 02:14:53 1615128 21
Аноним 19/05/26 Втр 02:28:12 1615130 22
1779146893608.png 258Кб, 1173x831
1173x831
>>1615128
С ии ассистентом не гейство. А вообще он первый начал.
Надеюсь это потрут
Аноним 19/05/26 Втр 03:00:05 1615131 23
>>1615081
>типа глм это ваш айр и есть
Нет, когда в треде говорят глм - имеют ввиду большой glm 4.7 или glm 5, а аир всегда называют аиром. А вообще срыгни в аицг, тут тебе не рады.
Аноним 19/05/26 Втр 03:04:23 1615132 24
>>1615086
Большие глм умеют в русик. Квены 235 и 397 умеют в русик.Из моделей поменьше - Glm 4.6V.
Аноним 19/05/26 Втр 03:41:56 1615140 25
>>1614966 →
>Суммарайзы каждого сообщения через https://github.com/rivey404/ST-MessageSummarize

Честно - как-то не очень по описанию, я так понял что суммарайз сообщения в короткой памяти и так прикреплен к самому сообщению, тоесть в короткой памяти - бесполезен, а в длинную память надо вручную каждый суммарайз сообщения вносить. С таким же успехом я и ручками автосуммарайз таверны править могу.

>затем суммарайзы суммарайзов по дням, чтобы не проебать историю.
В ST MessageSummarize есть такая автоматическая функция? Или ты вручную пердолишься?
Аноним 19/05/26 Втр 04:54:59 1615150 26
Аноним 19/05/26 Втр 05:26:03 1615154 27
>>1615150
Да мне то что, сиди, просто если ты хочешь чтобы тебе дальше помогали и не давали вредных советов - то вот так >>1615058 больше не пиши.
Аноним 19/05/26 Втр 06:02:11 1615156 28
>>1615154
Сорян, зря так залетел в тред, соглашусь, это было лишнее. Не та атмосфера. Тут серьезные люди высокой культуры с мускулистыми волосатыми ладонями (это не рофл, а восхищение в комплекте с отвращением), буду стараться быть достойным коллектива.
Аноним 19/05/26 Втр 06:38:43 1615167 29
>>1615140
>суммарайз сообщения в короткой памяти и так прикреплен к самому сообщению, тоесть в короткой памяти - бесполезен
Нет, там указывается глубина, дальше которой сообщения скрываются, и вместо них подставляются их суммарайзы из короткой (или длинной) памяти.
У меня полностью нормально последние три ответа нейронки, дальше суммарайзы - но у меня по 5-15к токенов ответы нейронки.
>в длинную память надо вручную каждый суммарайз сообщения вносить
Можно просто нажать кнопку у сообщения, и суммарайз пометится для длинной памяти
>В ST MessageSummarize есть такая автоматическая функция? Или ты вручную пердолишься?
Вручную, т.к. расширение не знает, когда день заканчивается.
Я просто группу суммарайзов переношу к одному из сообщений, оборачиваю в [ Events of xx.xx.xxxx: Суммарайзы] и помечаю как суммарайз для длинной памяти, ненужные уже короткие скрываю.
Можно почистить вручную получившийся текст, а можно напрямую попросить нейронку последним сообщение. "Стоп ролеплей! У тебя в контексте (текст только что собранного суммарайза в длинную память), выкинь лишнее, чтобы ничего не потерять" и получившийся результат вставить вместо вышеуказанного длинного суммарайза вручную. Результаты обычно норм.
Аноним 19/05/26 Втр 07:13:18 1615171 30
>>1615132
Коупинг это всё. У них деревянный, скучный русик с кучей англицизмов и кринжа. Даже у Геммы он такой, но не настолько позорный
Аноним 19/05/26 Втр 07:25:55 1615175 31
>>1615023 →
А нахуй ты вообще терпел на плотных если у тебя есть рам?
Таких шизов был полон тред когда эир вышел, где они все сейчас - большой вопрос, ведь ничего лучше так и не вышло в его (и не только) ренже, эир был королём локалок в рп за доступность (рам стоила пачку чипсов) и давал реально новый уровень после плотных 30б.
Моя теория - просто сдрочились, буквально вымерли от передоза кумом, высушили простату в ноль. Ну либо 10 месяцев в ллм это уже новички не знают олды не помнят.
Аноним 19/05/26 Втр 07:34:18 1615177 32
Такое впечатление, что дрочерки живут в отдельном манямире.

Они хвалят какой-то говноЭйр когда даже глм 4.7 (пусть и на третьем кванте) ощущается хуевенько.

Я купил память и жалею, лучше бы вложился в +2 ртх3090, пока они по 50к стоили. А теперь пизда полная, у меня 256+48 и лучше бы это было 64+96.
Аноним 19/05/26 Втр 07:34:52 1615178 33
>>1615177
>(пусть и на третьем кванте)
Тьфу, тобишь iq4xs
Аноним 19/05/26 Втр 07:36:33 1615179 34
>>1615177
Мда, ну ты и лох, конечно.
Аноним 19/05/26 Втр 07:37:13 1615180 35
Аноним 19/05/26 Втр 07:46:55 1615182 36
>>1615132
Все из этих моделей проебывают падежи и окончания. Думаю, подойдут в пользование только отчаянным лоботомитам. Гемма хотя бы грамматику почти идеально держит.
Аноним 19/05/26 Втр 08:10:37 1615185 37
В старом треде никто не ответил.

Че будет если 3090 совместить с 5060 ти? Как на скорость повлияет? Тестил кто-нибудь на практике подобное?
Аноним 19/05/26 Втр 09:07:20 1615194 38
>>1615185
Совмести и расскажи.
Никто не знает что ты там задумал и что там у тебя вообще за кудахтер. "Совместить" их можно минимум двумя способами, а если при этом модель все равно не поместится в картонках и будет вытекать в RAM, то это еще третье.
Спроси у гугла рассказать тебе про pipeline parallelism и tensor parallelism, он тебе там все расскажет.
Короче памяти у тебя в любом случае станет больше, а остальное как попрет.
Аноним 19/05/26 Втр 09:11:41 1615198 39
>>1615185
Совместил 4090 и 3060, довольно урчу на 32 гб врам
Аноним 19/05/26 Втр 09:16:05 1615200 40
>>1615198
>>1615198
Меня интересуют обычные ггуфы в обычном бомжекобольде.

Везде пишут, 5060 ти намного медленнее. Я не понимаю как это переведется в скорость процессинга и генерации по сравнению с тем, когда модель сидит в одной 3090.


> RAM
Это вообще исключено из обсуждения, речь про заселение бота в VRAM полностью
Аноним 19/05/26 Втр 09:22:56 1615203 41
>>1615185
скорость будет как на ядрах от 3090 при их количестве как у 5060ти
Аноним 19/05/26 Втр 09:25:24 1615204 42
>>1615203
Слишком сложно. Понять бы, просто насколько медленнее станет. Вдвое, в полтора раза, или что вообще.
Аноним 19/05/26 Втр 09:27:29 1615205 43
>>1615204
как 4 3060 будет. Говорю по своему опыту миксования 4090 и тесел.
Аноним 19/05/26 Втр 09:31:30 1615209 44
atomic llama.png 1426Кб, 1536x1024
1536x1024
>>1615072
>>1615075

Вы угораете что ли? Берёшь васянофорк, получаешь MTP, получаешь турбокванты. Живёшь в будущем уже сейчас, а mainline ллама там только через год будет в лучшем случае.
Аноним 19/05/26 Втр 09:33:54 1615210 45
>>1615209
Так это умным надо быть, пограмистом. Я не потяну.
Аноним 19/05/26 Втр 09:36:42 1615212 46
>>1615205
Мне это ни о чем не говорит, я не знаю что такое "как 4 3060" по скорости.

Епт, неужели ни у кого нет 3090 и 5060 Ти сразу. Хочется услышать реальных циферок с той же 4й геммой (dense)
Аноним 19/05/26 Втр 09:40:42 1615216 47
>>1615139 →
Это очень полезная штука. Позволяет сжимать историю чата раз в 40. Я так использую. Последние пять сообщений в оригинале, всё что старше затирается этим саммери. У меня ограничение на ответ 3к токенов, выдает около 1к чистыми без мышления. Саммери заменяет 1к на одно два предложения, 40-60 токенов. Можно держать меньше контекста (у меня 12к) всего. А значит лучше квант, больше слоев на видеокарту больше скорость. Не говоря о том что это лучше чем обычное саммери которое по сути есть собачья вода.
И у тебя форк. Лучше оригинал истопльзовать https://github.com/qvink/SillyTavern-MessageSummarize
Аноним 19/05/26 Втр 09:58:15 1615221 48
Подождите, а квен 3.5 уже новая типа делала?
Я уже забыл что старую пидорнули и квену крах предвещали
Аноним 19/05/26 Втр 10:32:13 1615232 49
>>1615216
Я уже и не помню, почему именню эту версию взял.
Помню, что перебирал расширения для суммарайза, и все через жопу работали - кто-то нормально не суммарайзил, у кого-то коннекшен-профиль не определялся, у кого-то ещё что.
Менять расширение я конечно же не буду.
Аноним 19/05/26 Втр 10:39:29 1615237 50
image.png 497Кб, 764x1166
764x1166
>>1615209
Ты угораешь что-ли, сам берешь кодекс, пишешь там - "совмести форк турбокванта с последними комитами жоры и с PR с мтп, и заодно с правкой разрешающей префилл в чат комплишене, потом сбилди" - и получаешь сверхжору. Раз в пару дней говоришь повторить процедуру.
Я в ахуе что люди еще не поняли в каком мире оказались. Сегодня мне кодекс за час создал экстеншен к таверне делающий суммарайз по блокам текста, соответвующим окну контекста истории, потом сшивая их в один. За час!
Аноним 19/05/26 Втр 10:52:44 1615244 51
>>1615237
А твой слопчанский умеет вычислять аттеншен напрямую в WHT-координатах, без предварительного обратного поворота? Не отвечай, я и так знаю, что ты не знаешь.
Аноним 19/05/26 Втр 12:22:23 1615300 52
>>1615130
славянский зажим анусом
попался, ящерик жидомасонский
Аноним 19/05/26 Втр 12:32:11 1615306 53
>>1615130
>ты решаешь пойти ва-банк, когда вторая рука
Ну-ка, ну-ка... Что за диско элизиум с тебя там происходит?
Аноним 19/05/26 Втр 12:39:14 1615308 54
14922919509030.png 589Кб, 966x655
966x655
15487652471660.jpg 45Кб, 700x567
700x567
Бывают ли какие-то хитрые рэковые корпуса на 2 БП? Не считая U6 майнерского кала с райзерами конечно. Гугл с яндексом нихуя не ищут. Только премейды всяких супермикр со своими материнками специально под корпус.
Или только завод доп питания снаружи колхозить?
Аноним 19/05/26 Втр 12:45:25 1615313 55
>>1615209
> atomic llama
Я тупой или это только для macos? Не шарю в этих ваших гитхабах, в релизах какой-то кал для яблопидоров
Аноним 19/05/26 Втр 12:53:52 1615320 56
>>1615313
У меня работает на CUDA. Я релизы не смотрел (потому что поддержку квенчика завезли буквально на днях), сказал нейронке, чтобы она докерфайл написала, в котором при сборке всё тянется из репы и компилируется для CUDA, всё нормально собралось.
Аноним 19/05/26 Втр 13:06:08 1615328 57
1779185167924.jpeg 58Кб, 599x364
599x364
1779185167988.jpeg 108Кб, 605x782
605x782
1779185168052.jpeg 70Кб, 589x444
589x444
>>1615306
Да просто что то обсуждали, а пришло к миру воображения и всякого непотребного с девочками волшебницами и футами.
Что там было между и дальше сами думайте 🫣
Аноним 19/05/26 Втр 13:15:03 1615336 58
пидр.webm 423Кб, 854x480, 00:00:05
854x480
Аноним 19/05/26 Втр 13:21:00 1615347 59
>>1615320
На гемме 4 оно работает? В смысле в рп а то я слышал мнение что ускорения дает на говнокодинг и на рп не дает.
Аноним 19/05/26 Втр 13:24:20 1615350 60
Сука! Токены спиздили!
Гемма была 34т стала 28, пидорасы!
Навайбкодили мне хуйни в жору которой я даже не пользуюсь, зато кодоунитаз получит +3 токена
Аноним 19/05/26 Втр 13:25:55 1615352 61
>>1615336
Если было смешно, то это не пидорство
Аноним 19/05/26 Втр 13:26:28 1615353 62
>>1615347
Не пробовал, меня только говнокодинг на квене интересует.
Аноним 19/05/26 Втр 13:29:52 1615357 63
>>1615171
У квена еще с 3й версии действительно неплохой и подвержен стилизации.
>>1615177
> Они хвалят какой-то говноЭйр
Это один шизик и боты
> лучше бы вложился в +2 ртх3090
И что бы было? Все равно ничего прорывного туда не поместится, квен 122 разве что. А так можешь катать дипсикфлеша, минимакса, жлм4.х, моэквенов, причем как белый человек.
>>1615185
Можно оценить время генерации одного токена по скорости врам и размеру модели, которая сидит на гпу. Потом сложив все времена - обратная величина будет скоростью.
Что ты хочешь услышать? На фуллврам будет быстро, если поделишь ту модель, которая помещается в одну 3090 на две - будет медленнее. Если будешь пускать модель, которая до этого не помещалась и выгружалась в рам - будет значительно быстрее. Разные карты объединяются последовательно без проблем.
Аноним 19/05/26 Втр 13:37:25 1615368 64
>>1615357
> У квена еще с 3й версии действительно неплохой и подвержен стилизации
235 даже окончания и падежи не вывозит в Q5.
Аноним 19/05/26 Втр 13:41:30 1615375 65
image.png 2379Кб, 4096x2304
4096x2304
>>1615350
Здесь же шесть токенов должно быть скорости. Опять спиздили. Хуйня какая то. Так, точно, точно! Здесь, здесь, здесь была скорость на гемме! А где она? Один, два, три, четыре, пять-шесть-семь-восемь-девять-десять-одиннадцать-двадцать восемь… А было тридцать четыре, было тридцать четыре! Спиздили! Это говно на жоре спиздило шесть токенов, шесть токенов спиздили на гемме! Суки, им нельзя ничего доверять, нельзя накатывать свежие коммиты, говно!
Аноним 19/05/26 Втр 14:00:25 1615394 66
>>1615130
В голос с этой ловушки
>>1615368
Что ты с ним сделал что он таким стал? inb4 q в кванте
Аноним 19/05/26 Втр 14:01:21 1615395 67
>>1615394
> Что ты с ним сделал что он таким стал?
Ничего, просто использовал на рекомендованных сэмплерах. Он даже в чатике с ассистентом без промптов упускает окончания и падежи. Плохо справляется с русским.
Аноним 19/05/26 Втр 14:03:41 1615398 68
>>1615395
Странно, не припомню чтобы 3.5 моешка много ошибалась
Аноним 19/05/26 Втр 14:04:37 1615400 69
>>1615395
https://www.youtube.com/watch?v=SEuo9oTcoCw
Буквально одна из первых моделей с умом и не в размере дипсика, где русский не то что без грубых ошибок, а может быть художественным и стилизованным, с некоторыми оговорками.
Аноним 19/05/26 Втр 14:20:14 1615406 70
>>1615398
В 3.5 русик может быть уже лучше, не чекал.
>>1615400
> Буквально одна из первых моделей с умом и не в размере дипсика
Да.
> где русский не то что без грубых ошибок
Нет.
Аноним 19/05/26 Втр 14:39:51 1615423 71
>>1615368
Пожалуй, он и в BF16 может не вывезти. И дело не только в датасете.

Я три часа ебался в попытках сделать норм русик в рамках специальной долбоебической олимпиады имени меня. Пришлось анус пса — семплеры — нещадно дёргать.

На рекомендованных разработчиком искать русик супер хуёвая затея. Там и токенизатор кал, и датасет тоже охуительный. Одной модели надо температуру выкручивать, другой понижать, но чаще понижать, конечно. С штрафами за повторы тоже проблема: без них может лупиться, с ними ломается язык.

Короче, покайфовал я так и забил.

Разумеется, тыкал в BF16 qwen 3.5/3.6 27b и 35b-a3b, а не в толстого.

В итоге гемма 4 всё равно лучше, если именно язык нужен. Ну и гигачат 10б, ололо.
Аноним 19/05/26 Втр 14:45:27 1615429 72
>>1615131
Имеет ли смысл безжопить на локалке? Или это лучше делать через text completions? Сквашить и отправлять без думалки можно таким образом. Или это на локалках нахуй не надо?
Аноним 19/05/26 Втр 14:48:52 1615432 73
>>1615429
>Имеет ли смысл безжопить на локалке?
Большинство итт даже не знают о чем речь
>Или это лучше делать через text completions? Сквашить и отправлять без думалки можно таким образом. Или это на локалках нахуй не надо?
Тут есть один анон энтузиаст который видимо только так и играет, хз. Остальные вроде на стандартной сжоп разметке и бед не знают. Тут другой уровень рп в сравнение с копротредом
Аноним 19/05/26 Втр 14:53:21 1615438 74
1779191499565.jpg 701Кб, 1082x1387
1082x1387
Почему я ненавижу промптить
Аноним 19/05/26 Втр 14:56:13 1615442 75
>>1615438
В чём не прав бот на картинке? Как заинпучено, так и зааутпучено.
Аноним 19/05/26 Втр 14:57:21 1615443 76
Аноним 19/05/26 Втр 14:58:40 1615445 77
>>1615429
> безжопить на локалке
Да, если локалка от 600б в хорошем кванте.
На корпах безжопят ибо там невозможно заметить отупление на модели с квинтилионом параметров.
На локалках это сразу заметно, но вместе с отуплением могут и другие проблемы модельки уйти
Аноним 19/05/26 Втр 15:00:55 1615447 78
>>1615445
Поясни за это тупление. Схуяли оно есть? Звучит как пиздёж
Аноним 19/05/26 Втр 15:11:56 1615455 79
>>1615447
Сжоп это часть обучения, нельзя просто выдрать сжоп и сказать что у тебя та же моделька
Аноним 19/05/26 Втр 15:12:20 1615456 80
>>1615445
Пробовал ли на дипсике в3.2 безжопить? Вроде как он не совсем лоботомит. в4 про поднять локально вообще нереально без терабайта памяти
Аноним 19/05/26 Втр 15:13:13 1615457 81
>>1615455
Челидзе, на текст комплишен безжопе разметка не ломается. Ответ на одно длинное сообщение юзера это тоже часть обучения
Аноним 19/05/26 Втр 15:18:36 1615462 82
>>1615445
>Да, если локалка от 600б в хорошем кванте.
И ведь насерьёзе заливает эту хуйню.
Аноним 19/05/26 Втр 15:34:12 1615473 83
>>1615375
Порвался. Хорошая. Озвучвить бы нейронкой.
Аноним 19/05/26 Втр 16:05:05 1615491 84
>>1615423
> Там и токенизатор кал
Как ты его оценивал?
> и датасет тоже охуительный
Где достал его?
>>1615438
Лол, так-то база
>>1615445
Ахуеть что несет
Аноним 19/05/26 Втр 16:22:54 1615501 85
че за безжопы вообще, о чем вы нахуй
Аноним 19/05/26 Втр 16:37:57 1615508 86
>>1615501
Это когда пихаешь всю историю чата в одно сообщение от лица юзера/ассистента, а не разбиваешь историю стандартной чат-разметкой с ролями user+assistant (no assistant = no ass = безжоп). Это убирает определённые байасы в пользу юзера, позволяет более адекватно реализовывать рп с несколькими чарами. По сути это эквивалент как если ты ассистенту кусок книги скинул и просишь продолжить.

В чат-комплишне в таверне это реализуется внешними расширениями. В текст-комплишне без проблем реализуется встроенными в таверну инструментами. Хотя в случае локалок можно и шаблоны попробовать просто редачить, но так, по моему, никто не делал.
Аноним 19/05/26 Втр 16:38:24 1615510 87
>>1615501
Аицг-дыхота прорвалась в тренд и стала обсуждать свои костыли для копросеток
Аноним 19/05/26 Втр 16:39:45 1615511 88
>>1615501
Это для пердолей кому мало пердолинга с промптом и карточками.
Плюсы сомнительные, минусы жирнее
Аноним 19/05/26 Втр 16:42:30 1615515 89
Аноним 19/05/26 Втр 16:56:45 1615523 90
>>1615501
No-assistant -> no-ass - без жоп
Попытка в оригинальный инстракт через чаткомплишн. Убирает структурный байас и позволяет сместить акценты внимания сетки, за счет чего меняет ответы. Может быть как в плюс так и в минус в зависимости от сетки, чата, промптов. Но если в конце насрешь дурной инструкцией с полотном что черное это черное, а белое это белое - получишь лоботомию.
На локалках с тексткомплишном и не таким изгаляются, можно еще частично поломать разметку или иначе объединить чат в блоки.
Аноним 19/05/26 Втр 17:00:01 1615527 91
>>1615501
Копроманьки через костыль ломающий разметку пытаются устранить дообучение для выполнения инструкций, говоря языком локальщиков - вернуть instruct модель к состоянию base модели. Если бы хоть один из аицгшников хоть раз запускал бы base модель в своей жизни и сравнивал бы её с инстрактом этой же модели - то они бы конечно такой хуйней не занимались.
Аноним 19/05/26 Втр 17:01:56 1615529 92
>>1615508
>>1615527
>>1615523
А, так это я знаю. Как-то в голову не пришло, что это прозвали безжопом. Лол

Ваще никогда не чуял от этой хуйни ни плюсов, ни минусов. Включал и будто без толку.
Аноним 19/05/26 Втр 17:20:51 1615553 93
>>1615237
>сам берешь кодекс
Нету кодекса.
>>1615508
>Это убирает определённые байасы в пользу юзера
Кстати гемма 4 у меня всё равно выкупала, что Анон это юзер, и нужно ему лизать. Чисто по тому, что сообщение от Анон было последним, лол.
Аноним 19/05/26 Втр 17:30:09 1615558 94
>>1615523
>>1615508
Как модель может не знать где пишет юзер если {{user}} привязан к персоне, а в персоне указано "джон" и ты от его лица пишешь. Нихуя вы анонимусы
Аноним 19/05/26 Втр 17:36:02 1615564 95
>>1615558
Почитай как работают ллм и что такое разметка
Аноним 19/05/26 Втр 17:40:53 1615568 96
>>1615558
Не все занимаются маня-селф-инсертами, у меня персона называется Author с пустыми дефами, а пишется всё от от третьего лица.
Аноним 19/05/26 Втр 17:54:26 1615578 97
.png 49Кб, 723x459
723x459
>>1615558
Можешь просто блок с персоной не указывать напрямую в разметке систем-промпта. Вместо этого добавь себя в какой-то общий список со всеми чарами, это хоть через те же лорбуки организовать можно.
Аноним 19/05/26 Втр 18:08:03 1615590 98
>>1615568
>>1615578
Ну т.е выбираешь в персоне Жора, position none (выключаешь) и пишешь в гритинге Вася и даёшь описание, вместо {{user}}, а потом префилишь за Васю не писать?
Это ж пиздец работы каждый раз всё это менять в карточке
Аноним 19/05/26 Втр 18:20:23 1615599 99
>>1615590
Сразу видно что чел никогда не заглядывал в консоль чтобы посмотреть как таверна форматирует запросы. Двачую анона выше, изучай работу разметки.
Аноним 19/05/26 Втр 18:20:27 1615600 100
>>1615590
>а потом префилишь за Васю не писать?
Никогда не юзал этот шизобред, GM-а в ролёвке тоже будешь просить "про тебя не говорить" (даже для оглашения результата твоего броска) ? Насрут в промт, а потом удивляются что модели тупят...

>>1615590
>Это ж пиздец работы каждый раз
GIGO
Аноним 19/05/26 Втр 18:31:24 1615610 101
>>1615599
Да да уже открыл всё изучаю изучаю простите подождите пожалуйста освежу знания Да он нам и нахуй он не нужон, безжоп ваш.
Аноним 19/05/26 Втр 18:43:35 1615616 102
>>1615610
На деле локалкам действительно безжоп не нужен, ну разве что кто поpierdoлиться захочет как бобр. На корпах юзают для пробива цензуры.
Аноним 19/05/26 Втр 18:54:22 1615622 103
>>1615590
>префилишь за Васю не писать
Не, одна из задач безжопа как раз писать за всех персов, чтобы Вася никак не выделялся. Нужно, чтобы были включены имена и стопстринги по именам. Тогда как только модель захочет за юзера написать, то её остановит и как бы передаст ход юзеру. Из-за этого потенциально могут получаться более короткие ответы сетки без всякой дополнительной воды в конце сообщения и вопросов к юзеру как отыгрывающему {{user}}, что для некоторых тоже плюс безжопа.
Аноним 19/05/26 Втр 18:59:59 1615626 104
17020403744000.jpg 813Кб, 999x1280
999x1280
>assистенто-шиз оказался "ряяя селф инсерты" шизом
Аааааааааааааа, так вот оно чё, Михалыч. А я то думаю что за постоянные знакомые звоночки проскакивают, уж думал - кажется. Не, не казалось. Либо та же копроскотина что на другой доске меня заебала, либо все шизы с этой темкой в башке шизуют абсолютно одинаково на любую тему.
Аноним 19/05/26 Втр 19:00:53 1615628 105
image.png 13Кб, 649x125
649x125
Кто нибудь сталкивался с тем что квен 3.6 периодически спотыкается на тул калинге?
Использую этот квант
AesSedai_Qwen3.6-35B-A3B-Q6_K-00001-of-00002.gguf
Аноним 19/05/26 Втр 19:17:56 1615644 106
Нахуй нужен этот ваш МТП ценой более чем двукратного понимжения контекста?
Аноним 19/05/26 Втр 19:29:42 1615654 107
Как МТП вообще работает? Я скачал для теста qwen 2b.
Стоковый - 108.06 t/s
МТП - 90.67 t/s (--spec-type draft-mtp ^ --spec-draft-n-max 1 ^)
Аноним 19/05/26 Втр 20:01:41 1615668 108
1701585715526.jpg 11Кб, 560x90
560x90
Вот щас обидно было :(
Аноним 19/05/26 Втр 20:15:35 1615682 109
>>1615644
>двукратного понимжения контекста
Как, зачем и почему?
>>1615654
>spec-draft-n-max 1
Зачем...
Аноним 19/05/26 Втр 20:18:13 1615683 110
>>1615682
Я тестировал все параметры --spec-draft-n-max 0-6, 1 даёт самую высокую скорость на моём пк, но она всё равно ниже дефолтной лул.
Аноним 19/05/26 Втр 20:19:53 1615685 111
>>1615628
Обычно проблема не в модели, а в кривом парсере или темплейте. Обнови лламу если старая, попробуй подключить другой темплейт, довольно вероятно что
> AesSedai
что-то нахуевертил. Ну и используй базовую модель вместо васянизаций.
Если ничего из этого не помогло - пиши ишью чтобы наконец в лламе обратили внимание на трешанину вместо парсеров.
>>1615654
Что за железо и какая скорость пп?
Аноним 19/05/26 Втр 20:21:54 1615688 112
Аноним 19/05/26 Втр 20:24:04 1615691 113
>>1615685
3060 12gb. Не знаю что такое пп.
>>1615688
12gb и какая разница если модель полностью влезает, она 1.2 гб весит.
Аноним 19/05/26 Втр 20:26:07 1615693 114
>>1615209
Потрогал этот mtp, для геммы, плотной.
На 16vram он бесполезен. Третий квант без mtp 15тс c ним 21тс.
Но вот с четвертым квантом он дает 7 а кобольд под десятку. Оно работает если всё в vram лежит. Третий плотный кван слюнявый даун, моешка и умней и быстрее, теряется смысл в этом предсказании на 16vram.
Аноним 19/05/26 Втр 20:28:59 1615694 115
>>1615691
> Не знаю что такое пп.
Пропмт Процессинг, скорость обработки. Довольно странно, на 3060 должно давать ускорение. Возможно или у тебя где-то что-то не так, или из-за кривой реализации в лламе лишний оверхед и задержки съедает все ускорение на таких скоростях, при том что на каких-нибудь 20-40 оно было бы заметно.
> она 1.2 гб весит
Когда у тебя влезает впритык - лучше эту штуку не использовать
>>1615693
> Третий квант без mtp 15тс c ним 21тс.
Это что за железо, а чего такие скорости грустные при фуллврам? Или не понял что ты запускаешь.
Аноним 19/05/26 Втр 20:38:11 1615700 116
>>1615694
prompt eval time = 181.02 ms / 22 tokens ( 8.23 ms per token, 121.54 tokens per second)
eval time = 7921.42 ms / 725 tokens ( 10.93 ms per token, 91.52 tokens per second)

--flash-attn on ^
-c 32000 ^
--n-gpu-layers 999 ^
--spec-type draft-mtp ^
--spec-draft-n-max 1 ^
-rea off

У меня есть qwen mtp 35b и оно выдаёт всего 20 токенов что очень грустно после геммы 26b которая выдаёт 30 токенов без всяких мтп. А обычный мне лень качать, это 40 минут ждать и кажется мне что стоковый опять выдаст не 20, а 25 токенов каких-нибудь.

Хз что не так, я уже скачал ласт лламу и скачал ту на которой пишут что у людей скорость выше, разницы 0.
Аноним 19/05/26 Втр 20:56:24 1615711 117
Аноним 19/05/26 Втр 21:00:33 1615712 118
>>1615711
>сознания
Глубокий и тёмный лор треда.
Аноним 19/05/26 Втр 21:15:15 1615720 119
>>1615682
>Как, зачем и почему?

Потому что у мтп модели свой draft контекст, плюс она сама по себе весит. Абсолютно каждый человек в треде забивает всю врам моделью и контекстом. Модель остается та же, а вот в том врам что раньше шел на контекст теперь надо вместить два контекста + мтп модель.
Аноним 19/05/26 Втр 21:21:46 1615723 120
>>1615616
Не совсем. Скажем, у Мистраля 3.2 24B на стандартной разметке таверны часто образуются специфические лупы - он начинает повторять сообщения целиком, если в чате возникает похожая ситуация. Увидел "Наступило следующее утро" - пишет копию первого сообщения которое было написано для прошлого утра. И т.д. А безжоп эту его проблему решает радикально, с ним так не лупится. Потому, что проблема привязана не к самому чату а повторяющимся тегам в history блоке - чем их там больше накапливается, тем больше у него желания повторять дословно.

Так что иногда - полезен и локалкам.
Аноним 19/05/26 Втр 21:22:40 1615724 121
>>1615700
Если упростить, мтп работает следующим образом: вместо обычной головы, которая дает распределения вероятностей токенов, стоит более сложная модель, которая дает N наборов этих распределений для следующих токенов. Они семплируются по стандартному пайплайну, и далее для выбранных токенов идет обработка контекста. Обрабатывая контекст получают распределения вероятностей для всех прошлых токенов, включая набор "новых" предсказанных. Далее вступает простой математический аппарат, который на основе уже реальных распределений обеспечивает математическую эквивалентность семплирования. Утрируя если совпало - предсказанный токен принимается и оценивается следующий, если расхождение - все останавливается на текущем моменте. После того как произошла остановка или все предсказанные токены были приняты и закончились - начинается новый цикл форварда.
По времязатратам самое большое здесь - сделать обработку предсказанных токенов. Хз есть ли специальные оптимизации для этой операции или графы для мтп в лламе, но если нет, то
> prompt eval time = 181.02 ms / 22 tokens ( 8.23 ms per token, 121.54 tokens per second)
говорит что на малых количествах токенов накладные расходы и задержки все убивают.
>>1615720
> у мтп модели свой draft контекст
На это пренебрежимо мало и никаких
> надо вместить два контекста
там нет. Скорее для 12 гигов сам вес дополнительной модельки и буферов будет заметен.
Аноним 19/05/26 Втр 21:32:41 1615731 122
>>1615723
А то что он лоботомируется при этом ты решил не упоминать, ладно.
Аноним 19/05/26 Втр 21:37:07 1615737 123
>>1615731
В связи с чем он лоботомируется? Можешь объяснить свою эзотерику или ты повторяешь как попугайчик?
Аноним 19/05/26 Втр 21:41:35 1615742 124
>>1615731
Мистраль лоботомируется как раз на родной мультитёрн разметке, потому что INST перед каждой репликой персоны юзера - это полнейший бред. Этот формат инстракта очевидно рассчитан на чат с ассистентом, где каждый запрос юзера - это своего рода инструкция, а в рп эта шняга выглядит дичью. Понятно, что "Вася: я тебя ебу" не должно превращаться в сраный запрос ассистенту и иметь префиксом служебный тег во всём чате.
Аноним 19/05/26 Втр 21:42:31 1615744 125
>>1615724
Так что делать то в итоге? Квен 35b 4_k_xl так и должен 20-25 токенов работать с мтп на 3060? Я сейчас качаю обычную версию, буду сравнивать. Но звучит очень грустно. Я надеялся хотя бы на 35-40 токенов чтобы код генерировать, а не по 10 минут ждать на 20.
(То что ты написал слабо понял, как и статью от гугла и к счастью машин лёрнинг специалистом становиться не собираюсь)
Аноним 19/05/26 Втр 21:45:16 1615746 126
Конская залупа этот mtp если всё в vram не влазит, если в общем.
Аноним 19/05/26 Втр 21:47:20 1615748 127
Ребят, не обижайтесь, но мне так приятно что мы с вами застряли в одной лодке.
Вот был я один, а теперь со мной и все остальные, я прям вижу как вам хочется сбежать с глм 4.7, а некуда, как и мне с эира. Тестите там всякие мимо, квены, минимаксы, вот на дипсик надеетесь, а всё не то да не то, глм лучше, и я так же чувствую с моделями поменьше. Мы уже даже до одной геммы докатились. Не думаю что заи вернутся к 300б, но ~180б эир мы можем увидеть и вновь будем сидеть на одной модели.
Аноним 19/05/26 Втр 21:49:20 1615751 128
>>1615693
>mtp, для геммы
А его хоть реализовали?
>>1615700
>--spec-draft-n-max 1
До 4 повышай.
>>1615720
Так считали, выходило примерно плюс гиг врама. Это никак не уполовинивание размера контекста.
Аноним 19/05/26 Втр 21:51:28 1615754 129
>>1615748
Как ты заебал,шиз. Все давно сидят на гемме или квене. Изыди из треда нахуй.
Аноним 19/05/26 Втр 21:51:54 1615755 130
>>1615751
На 4 в 2 раза медленнее. Только 1 и 2.
Аноним 19/05/26 Втр 21:52:39 1615756 131
>>1615754
Терминальная стадия синдрома утенка, это даже мило
Аноним 19/05/26 Втр 21:55:24 1615760 132
Аноним 19/05/26 Втр 21:58:39 1615761 133
>>1615751
>А его хоть реализовали?
Да, файл на 350 мегабайт нужно докачать и запускать вместе.
Аноним 19/05/26 Втр 22:01:45 1615770 134
>>1615744
Терпеть, катать модели что помещаются, осознать что мтп для фуллврам за редкими исключениями. С 3060 и альтернативных вариантов бэков для таких моделей нет.
> качаю обычную версию
Что за обычная версия? Если не указывать аргумент на мтп то доп слои не должны загружаться в память вообще.
Аноним 19/05/26 Втр 22:09:03 1615781 135
>>1615748
Ты не один, чел. Вахтеры типо сенкошиза могут срать на тебя и твои взгляды сколько угодно, но я тоже сижу на старых моделях. И мы не одни. Мне этот агентослоп нахуй не сдался. До сих пор катаю иногда 02 Еву Квена 72б, пару тюнов Лламы 70б, реже но всё же старого Коммандера и конечно Эйр. Катал бы 4.7 да не лезет он в моё тухлое железо. Я как то несколько тредов отписался и предложил сравнить аутпуты старых моделей и нового дерьма, в итоге был послан нахуй за то что шиз и вообще модели там старые а значит хуйня. Естественно никто не стал проверять, зачем.
Сижу, жду новые народные модели от Зай или ещё лучше Кохерек. От остальных уже ничего не жду, мб какой нить хидден гем выстрелит разве что.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов