Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 318 58 67
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №150 /llama/ Аноним 25/07/25 Птн 19:56:56 1288430 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 481Кб, 1520x2266
1520x2266
17518920519090.png 2055Кб, 1455x1225
1455x1225
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Базы треда не существует, каждый дрочит как он хочет. Базашизика дружно репортим.

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1283995 (OP)
>>1280475 (OP)
Аноним 25/07/25 Птн 20:00:55 1288434 2
>>1287555 →
>я зассал что-то туда втыкать
А как оно по твоему работать будет?
Аноним 25/07/25 Птн 20:02:43 1288438 3
база треда:

- меньше 16GB жизни нет
- меньше Q6_K жизни нет. ниже q 4 даже говорить смысла нет, там реально истекающая слюной сущность сидящая в чулане и срущая под себя
- меньше 5 т/c жизни нет
- меньше 24B жизни нет
- меньше 8 каналов DDR4 жизни нет
- АМУде КАЛ, а куртка ТОП
- таверна говно
- тут полтреда токсичных уебанов, игнорируй хейт, опционально можешь ебать их мамок

копиум треда:

- Можно получить интересный опыт даже на маленьких моделях меньше 12b
- Не обязательно иметь мощное железо, чтобы попробовать текстовые модели. Но нужно иметь терпение:)
- Каждая модель может найти своего пользователя
- Чем больше модель, тем меньше она потеряет в мозгах при квантизации
- "я не смог разобраться с моделькой а значит она говно"
- "Базы треда не существует, каждый дрочит как он хочет"

дополняйте
Аноним 25/07/25 Птн 20:05:03 1288442 4
175346289482395[...].jpg 89Кб, 1480x1080
1480x1080
Ребят, я новенький смешарик.
Что можно поставить имея i5 4570, gtx 1650s, и 24гб рам?
Склоняюсь к гемме 3 27б. Но может что получше есть. Хочется максимально универсальную и умную модельку, чтобы когда инет перекроют был источник информации хоть какой-то.

Спасибо заранее всем.
Аноним 25/07/25 Птн 20:07:39 1288446 5
>>1288442
Добавлю что я терпеливый, и мне 5 токенов/с хватит вполне.
Конечно, ещё для рп что-нибудь, чтобы хотябы отдалённо напоминало клода..
Аноним 25/07/25 Птн 20:08:32 1288448 6
>>1288442
> Склоняюсь к гемме 3 27б
> имея i5 4570, gtx 1650s, и 24гб рам
Напрасно. 12б твой потолок с огромным скрипом, а так - 8б. Напиши спеки смарта, воззможно он будет пригоднее.

>>1288446
> я терпеливый, и мне 5 токенов/с хватит вполне.
Ты точно не жирный?
Аноним 25/07/25 Птн 20:09:02 1288450 7
>>1288446
>и мне 5 токенов/с хватит вполне
Боюсь даже твоя выбранная 27B столько не выжмет. Покупай видеокарту.
Аноним 25/07/25 Птн 20:11:44 1288456 8
>>1288448
>12б твой потолок с огромным скрипом,
Разве не от озу зависит? Я не так давно на 8гб ддр3 запускал гемму 3 12B Q3, со скрипом но генерировала.

Телефон на SD 8+gen1, 12 ram.

>>1288450
>Покупай видеокарту.
Эх. Я только недавно жтх купил эту.
Аноним 25/07/25 Птн 20:13:26 1288460 9
>>1288456
>Телефон на SD 8+gen1, 12 ram.
Я на нём уже кстати пробовал. Гемма 12B Q4 стартанула с ~2 токена/с.
Но телефон греется ебануто, такая себе затея по-моему.
Аноним 25/07/25 Птн 20:14:09 1288461 10
>>1288456
> Телефон на SD 8+gen1, 12 ram.
Реально лучше на нём будет. Качай qat гемму3 8б
Аноним 25/07/25 Птн 20:15:58 1288464 11
>>1288461
>Реально лучше на нём будет.
Да я пробовал уже. В 2 раза медленнее чем на пеке выпукивает.
Тестировал на Gemma 3n E4B Q6.
Аноним 25/07/25 Птн 20:16:06 1288466 12
Напишите мне список всех возможных глинтов, начиная с Пигмы. Ехидные блески, молодая ночь и вот это всё.
Аноним 25/07/25 Птн 20:19:15 1288472 13
Аноним 25/07/25 Птн 20:22:00 1288475 14
Блин, в перекат попал. Повторю вопрос.
Аноны, объясните нубу как заставить tts читать текст во время его написания. Я думал за это отвечает пункт в настройках Streaming Audio Generation. Но с этой штукой она молчать начинает.
Аноним 25/07/25 Птн 20:24:34 1288478 15
>>1288431 →
>Ты в каком часовом поясе живёшь?
Сибирь, ночь глубокая.

>>1288431 →
>Антибаза всё ещё в шапке, репортим
Ультрамегахарош, как тред похорошел-то.
Аноним 25/07/25 Птн 20:27:00 1288480 16
>>1288472
Повторный вопрос, что это?
Аноним 25/07/25 Птн 20:43:13 1288488 17
>>1287420 →
Предположу, что лучше взять оригинальную Gemma 3 12b QAT, она и так четырехбитная, зато обученная такой быть.
Должна быть получше, синк эбаут ит.

>>1287983 →
Клево, нехай будет.

>>1288446
Как время летит, мне на 235B не хватает 6 токенов…
А когда-то был бы рад и 3 токенам на 70B…
Аноним 25/07/25 Птн 21:07:31 1288508 18
Джимми Уэльс см[...].jpg 8Кб, 173x173
173x173
>>1288488
> не хватает 6 токенов
кто отрицает базу треда, будет вынужден возвращаться к ней вновь и вновь
Аноним 25/07/25 Птн 21:27:57 1288521 19
Аноним 25/07/25 Птн 21:29:17 1288522 20
Аноним 25/07/25 Птн 21:35:38 1288525 21
image 129Кб, 618x618
618x618
>>1288442
>gtx 1650s
>Склоняюсь к гемме 3 27б
>мне 5 токенов/с хватит вполне
Аноним 25/07/25 Птн 21:42:05 1288528 22
>>1288521
>Смешно
Было первые пару-тройку раз, а щас посмешише тред позорящее.
Даже асиг так не опускался.
Аноним 25/07/25 Птн 21:42:36 1288529 23
Аноним 25/07/25 Птн 22:00:05 1288540 24
>>1288508
> меньше 8 каналов DDR4 жизни нет
Былин, по одному пункту и я не прошел!.. =(
Надо будет исправить это.
Аноним 25/07/25 Птн 22:08:42 1288545 25
>>1288540
Помолись перед сном святому Тредрипперу и ты прощен
Аноним 25/07/25 Птн 22:40:23 1288564 26
>>1288545
у тредрипера же вроде 6 каналов, не?
Аноним 25/07/25 Птн 22:48:44 1288570 27
>>1288564
Ryzen Threadripper Pro 3995WX имел уже 8 каналов, а вышел давно.
Аноним 25/07/25 Птн 23:13:28 1288577 28
image.png 55Кб, 1056x538
1056x538
image.png 24Кб, 1059x197
1059x197
image.png 35Кб, 1043x328
1043x328
image.png 45Кб, 1045x671
1045x671
Попробовал на tabby запустить qwq snowdrop
https://huggingface.co/ReadyArt/QwQ-32B-Snowdrop-v0_EXL2_6.0bpw_H8
Уже запускал его через ламу и все окей было, а тут чото пизда какая-то с теми же пресетами. Кто-то подскажет в чем может быть причина?
Запускаю на двух mi50, слои вроде пополам идут.
Проверял уже на llama3.3 70b и она нормально работала в tabby поэтому я хз чо думать.
Аноним 25/07/25 Птн 23:31:08 1288586 29
А чё никто не разворачивает модели за бабки для других? Хотел бы топовую рпшную какую-то попробовать, побазарить, потрогать пенис. Платить тоже готов, денег и желания нет покупать топовую карту, арендовывать сервер да и разбираться.

Вот нашёл какую-то chai ai без цензуры. По типу кэрэктэра. Но по ощущениям она слабенькая на русский.

В общем подскажите че-нибудь ещё плез. Мб кто-то мистраль топовую где-то держит?
Аноним 25/07/25 Птн 23:54:14 1288610 30
>>1288577
- Попробовал обновить exllamav2 у меня была 0.3, обновил до 0.3.2
-Пробовал
curl http://localhost:5000/v1/chat/completions \
-H "Authorization: Bearer 5f0xxxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{

"messages": [{"role": "user", "content": "Привет!"}]
}'
Чтобы просто проверить работает чи не и тоже самое, пустое поле в консоли после и не заканчивает генерацию.

- Попробовал 4bpw h8, такая же хуйня. Хз.
Аноним 26/07/25 Суб 00:10:12 1288619 31
Есть вообще разница что приоритетнее выгружать?
- ffn_down_exps
- ffn_up_exps
- ffn_gate_exps
Аноним 26/07/25 Суб 00:28:30 1288631 32
>>1287633 →
По процессингу в 2 раза отстает, так еще дороже чем более быстрая 3090. Это налог на глупость амд фанатизм?
Рофел будет если чекнуть генерацию изображений/видео/другой инфиренс, получится разница в сотни процентов, или она улетит в бесконечность из-за деления на нулевой результат амудэ.
Если же говорить о комфортном пользовании всем ассортиментом фич - то что на хуанге будет просто заводиться из коробке, на красных придется допиливать, переписывать или смириться с отсутствием.
>>1288577
Попробуй выключить флешатеншн а также удалить из вэнва экслламув2 которую ставит хардкод табби, и установить-собрать ее вручную (просто через pip). Не факт что оно вообще на ми50 сможет работать, но мало ли.
Если проблемы искчючительно на этой модели - битый квант.
>>1288586
Опенроутер же.
Аноним 26/07/25 Суб 00:34:05 1288637 33
>>1288619
По идее не должно быть, хотя up и gate могут работать параллельно. Так что их наверное лучше либо рядом, либо наоборот что-то одно оставить видюхе чтобы по минимуму простаивала.
Аноним 26/07/25 Суб 00:42:37 1288640 34
>>1288631
Не знал про опенроутер, слушай а в чём кайф тогда покупать овердорогое железо для запуска жирных моделей локально, если можно по апи за копеечку гунить в кулачок через опенроутер? Не вдупляю.
Аноним 26/07/25 Суб 00:54:17 1288649 35
>>1288640
Мне скорее интересно, в чём кайф сливать всё и вся незнакомым дядечкам, нежели чем делать всё локально.
Аноним 26/07/25 Суб 01:30:11 1288677 36
image.png 213Кб, 574x2018
574x2018
image.png 40Кб, 1362x292
1362x292
>>1288619
Это в тему продолжения насилия над ми50 и зивонами (нас тут минимум два с такими сетапами, так что думайте кто есть кто).
Накидал немного кода по просчёту что выгружать. Удалось загрузить так что бибика вот вот лопнет.

Буду тесты гонять
Аноним 26/07/25 Суб 02:05:12 1288697 37
>>1288619
Подпишусь, тоже интересно.
>>1288640
Ну, когда-то давно локальные модели вообще не могли дать какого-то приличного экспириенса а гопота уже была и что-то как-то кое как могла, чаная туда же. Интересен был сам процесс.
Сейчас же, помимо этого, при регулярном использовании инфиренс выйдет в копеечку, на многих апи вовсе не то что указано, отправляешь свой инцест с собакой какому-то дяде, часто не имеешь полного доступа а только кастрированный чаткомплишн.
Насчет цены - многие здесь еще увлекаются чем-то типа генераций картинок и всяким ии-релейтед что само по себе требует гпу а ллм - приятный бонус, или сам процесс пердолинга доставляет, приватность туда же. Поэтому что-то типа "окупится только через 3 года при 22 минутах рп в день" вообще не выглядит аргументом.
>>1288677
> Удалось загрузить так что бибика вот вот лопнет.
Ахуенно, прям под кромку. Это уже с контекстом?
Аноним 26/07/25 Суб 03:20:31 1288720 38
>>1288677
Тоже с mi50 двумя по 32гб, я бы чутка сбавил, по гб где-то на каждой, там при первом прогоне то ли rocm, то ли что резервирует еще память, из-за чего еще больше забивает. Ну если у тебя такого нет, то забей.
Аноним 26/07/25 Суб 03:40:41 1288724 39
>>1288720
>>1288697
Примерно по 500-700 скинул т.к. в один из проходов бенча самопального был вылет, до этого ворочалось, решл выбрать стабильность. По 5000мб (пиздец) резервирую под всякий мусор при расчёте того что выгружать.

Гоняю бенчи, пока без особых изменений
Аноним 26/07/25 Суб 04:16:16 1288732 40
image.png 310Кб, 2391x1170
2391x1170
>>1288724
Потраченного времени жаль.
TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
Но в общем и целом, выбирать просто по ffn_*_exps и не выёбваться.

Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться
Аноним 26/07/25 Суб 07:52:25 1288766 41
Аноним 26/07/25 Суб 08:20:19 1288772 42
>>1288766
>Infermatic
На фри тире там полное гавно, на платном опенроутер во всём лучше.
Аноним 26/07/25 Суб 08:20:41 1288773 43
Аноним 26/07/25 Суб 08:21:28 1288775 44
Аноним 26/07/25 Суб 08:28:03 1288777 45
Аноны, которые чаще пользуются фронтэндом кобольда, но также пользовались и таверной, вы замечали меньшее количество лупов и подобных проблем по сравнению с таверной?
Аноним 26/07/25 Суб 08:41:10 1288780 46
>>1288777
Теоретически возможно что где-то насрал в разметку, у кобольда с этим проще.

Но если честно, не припомню.
Аноним 26/07/25 Суб 10:38:42 1288806 47
1000017735.jpg 483Кб, 1080x2108
1080x2108
НОВЫЙ НЕМОТРОНЧИК!!
Аноним 26/07/25 Суб 10:39:48 1288807 48
Аноним 26/07/25 Суб 10:43:07 1288809 49
07.26.2025 похороны всех моделей до 49б
Аноним 26/07/25 Суб 10:53:59 1288818 50
image 69Кб, 225x225
225x225
Аноним 26/07/25 Суб 11:00:19 1288821 51
Аноним 26/07/25 Суб 11:21:14 1288831 52
Это невероятно но похоже списки и таблицы пропали
Аноним 26/07/25 Суб 11:26:35 1288836 53
Я вижу... кум? И откат софт рефузов?
Аноним 26/07/25 Суб 11:42:17 1288840 54
>>1288806
Когда Q1 версия? Хочу на gtx 1650s запустить.
Аноним 26/07/25 Суб 11:45:15 1288841 55
>>1288821
Оно даже чисто теоретически не может дать лучше.
Аноним 26/07/25 Суб 11:47:17 1288842 56
>>1288442
Ты с ума сошел? Какая гемма 27б, если она даже на 20 врам (12+8) работает на 7-8 токенах у меня? На линуксе вроде побольше.

Тебе максимум 12б в 4 кванте запускать можно. И только мистраль, а не гемму.
Аноним 26/07/25 Суб 11:52:23 1288844 57
>>1288842
Жаль.
Сейчас мисраль немо запустил 12b Q3, выдало ~3 токена. Но ролит неплохо, приятно удивило на креативность после соевой геммы.
Аноним 26/07/25 Суб 12:03:40 1288853 58
>>1288844
Качай q 4k m, ибо даже 4 квант - лоботомит, а ты ещё хуже делаешь. Если сможешь, ставь линукс. Будет быстрее.

А так закрываешь абсолютно все окна в ПК, в том числе браузер, стим, вообще все программы левые, потому что они отжирают видеопамять. После этого ставишь 20 слоёв, 8к контекст и запускаешь бенчмарк в кобольде. Делаешь так до тех пор, пока не перестанет вылетать или не начнёт вылетать. При этом сделай ещё кэш 8 бит - очень сэкономит память, освободит 1 гигабайт точно.

Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.
Аноним 26/07/25 Суб 12:18:26 1288868 59
>>1288732
> TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
записал, спасибо!
> Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться
>>1288508
Аноним 26/07/25 Суб 12:21:37 1288872 60
пока записывал нашёл в заметках вот это

> IQ кванты сильно медленнее обычных, обычно процентов на 30. Когда ты целиком на врам - то у тебя скорость в любом случае будет выше 20 токенов в секунду - и тогда это падение не играет особой роли, но когда ты оффлоадишь слои на рам - то скорость падает очень сильно из-за этого и эти дополнительные 30% уже сыграют роль. Существуют очень узкие юзкейсы когда IQ все же выгоднее чем обычный квант даже на оффлоаде на рам, у меня было такое что благодарая тому что IQ4_XS меньше 4_K_S - то освобожденную за счет разницы в размере модели врам я пускал на увеличение контекста, который нельзя оффлоадить и которого дико не хватало, но это реально был узкий случай.

это к предыдущему треду про медленность ik_llama
Аноним 26/07/25 Суб 12:25:18 1288878 61
175352118638941[...].jpg 36Кб, 679x384
679x384
>>1288853
>даже 4 квант - лоботомит
От кванта сильно зависит качество? Говорили что больше 4 не особо смысла много.

>А так закрываешь абсолютно все окна в ПК,
Я так и делаю, у меня только lm студия открыта и всё.

>После этого ставишь 20 слоёв
Гпу которые?

>Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

Так и понял, его и буду тестировать.

>На русском языке рп не веди никогда на таких моделях
Совсем плохо с ним? Для меня вся суть в этом.. я английский ± понимаю, но когда дрочу явно не хочу заниматься переводом.
Лучше уж в крюшоне через грока, и другие модельки подрочить. Но да, интересует автономность, контроль, и конфиденциальность.
В крашоне раньше Клод был, бесплатно! Сидел бед не знал, потом выпилили из-за невыгодности.
Хочется хотябы немного максимально похожий экспирианс на клода, ибо он настолько хорош, что до сих пор старые ролки с ним перечитываю. Что думаешь о Magnum?

А так благодарю за подробную подсказку, анон.
Аноним 26/07/25 Суб 12:27:00 1288880 62
>>1288732
А ffn_norm? Их выгрузка влияет?
Аноним 26/07/25 Суб 12:31:46 1288891 63
>>1288878
> копиум треда:
> - Чем больше модель, тем меньше она потеряет в мозгах при квантизации

типа 235B можно и в Q2 гонять, а 12B лучше ниже Q8 не опускаться
на практике 235B даже Q4 говно
Аноним 26/07/25 Суб 12:31:49 1288892 64
>>1288878
Также спрошу. Как и где кумить удобно? Я пока что только в лм студии тестирую модели. Типа расскажи то, это, проверяя на знания. Потом просто говорю "Возьми роль персонаж_нейм)"
Но подозреваю есть более практичные способы. Через таверну наверное.
Аноним 26/07/25 Суб 12:34:32 1288894 65
>>1288878
>lm студия
выкинь каку и поставь кобольда / llamacpp, ещё быстрее будет, немного, но будет

>>1288878
>Совсем плохо с ним?
Нет, это просто местные шизы и тролли.

Да, на русском хуже, и да, на мелких моделях с ним хуже чем на больших. Но вполне нормально, разницы ты не заметишь из-за того что английский не родной.

Также есть несколько специально на русском обученных моделек, в том числе мелких.

Аноним 26/07/25 Суб 12:35:18 1288895 66
>>1288891
Для того чтоб влезла бОльшая модель, достаточно же рам увеличить, на врам похуй? У меня старый сокет, за несколько тысяч можно 32гб ддр3 купить.
Аноним 26/07/25 Суб 12:36:16 1288896 67
>>1288895
>на врам похуй
на раме ты выше 2-7 токенов в секунду не разгонишь особо
Аноним 26/07/25 Суб 12:38:22 1288901 68
>>1288894
>кобольда / llamacpp
В чом разница? Там интерфейс удобный?

>Также есть несколько специально на русском обученных моделек, в том числе мелких.

Типа saiga? Они под рп не заточены вроде.
Аноним 26/07/25 Суб 12:40:05 1288902 69
image 216Кб, 600x429
600x429
>>1288878
>От кванта сильно зависит качество?
это как сжатие картинки

Как правило, стоит юзать Q4 / Q6, ниже - плохо, выше - бессмысленно.
Аноним 26/07/25 Суб 12:41:00 1288903 70
>>1288895
> ддр3
увы, хорошей скорости на этом не будет
>>1288901
неудобный, поэтому и быстрее)00))
Аноним 26/07/25 Суб 12:43:57 1288906 71
>>1288901
>В чом разница? Там интерфейс удобный?
там простые лаунчеры или вообще только батником, раболтют быстрее, памяти требуют меньше

У кобольда ещё и свой фронт, простой как палка, с него начинал, пересел на таверну, потом к нему вернулся.

>>1288901
>saiga
Сайга, Янка, Руадапт Квены.

Алсо мержи местных анонов из шапки.

И да, они как раз под рп.
Аноним 26/07/25 Суб 12:44:58 1288907 72
>>1288853
> На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.

> Модели максимально смещаются в сторону английского.
Чел-челик-челишечка! Ты так мимо, что мимо. Весь инглиш интернет давно высосан в датасеты и сейчас как раз выбирают любое на любых языках. Дипсик, кими, квен - они просто ультят на русеке. Даже грок, которому вроде должно быть пофиг - и то прекрасно может. Ты по-моему просто потерялся где-то в районе 2022
Аноним 26/07/25 Суб 12:46:29 1288908 73
Аноним 26/07/25 Суб 12:47:17 1288909 74
>>1288902
Понял, спасибо.

>>1288903
>увы, хорошей скорости на этом не будет
Планирую скоро на ам4 пересесть с ддр4, будет сильно лучше?

>неудобный, поэтому и быстрее)00))
Я комнатное тупое растение, комфорт важен.

>>1288906
>И да, они как раз под рп.
И чё, нормально работают? Раз на русских дата сетах то должны лучше мисралей англоязычных работать.
Аноним 26/07/25 Суб 12:57:33 1288911 75
17535228070470.png 178Кб, 600x429
600x429
Аноним 26/07/25 Суб 12:57:35 1288912 76
>>1288909
Янка 8Б хорошо работает. Для тебя напверно идеальный вариант.
Но учти что степень внимания к деталя всё же как у восьмёрки.
А вот сам русский очень хорош.

https://pixeldrain.com/l/47CdPFqQ#item=130 пример
Пресет для таверны там рядом лежит.

Ещё примеры историй на русском на мелкомистралях 12Б.
https://pixeldrain.com/l/47CdPFqQ#item=45
https://pixeldrain.com/l/47CdPFqQ#item=48
https://pixeldrain.com/l/47CdPFqQ#item=71

https://pixeldrain.com/l/47CdPFqQ#item=13
https://pixeldrain.com/l/47CdPFqQ#item=3

Последние два - это SavedState для Kobold-Lite.
Аноним 26/07/25 Суб 12:58:42 1288913 77
>>1288911
хахахахха, ультрамегахарош, в шапку и гайды, однозначно
Аноним 26/07/25 Суб 12:59:33 1288914 78
>>1288909
> ам4 пересесть с ддр4
не сильно, если хочешь сильно лучше - закупайся видюхами
Аноним 26/07/25 Суб 13:00:31 1288916 79
>>1288911
А если выбор между 12B Q4 и 8B Q6?
Аноним 26/07/25 Суб 13:01:56 1288917 80
>>1288916
Если 8б - вышеупомянутая yankagpt-8b то на русском она будет лучше.

На английском - лучше взять 12B Q4.
Аноним 26/07/25 Суб 13:20:14 1288921 81
>>1288911
Заменить основного на bf16, fp16 из него определить около q3-q2
Аноним 26/07/25 Суб 13:33:14 1288930 82
>>1288921
>fp16 из него определить около q3-q2
???
Аноним 26/07/25 Суб 13:34:30 1288931 83
>>1288930
Почитай про форматы, почему конвертировать из одного в другой = лоботомия и почему сейчас именно бф16 популярнее.
Аноним 26/07/25 Суб 13:51:20 1288936 84
Аноним 26/07/25 Суб 14:12:51 1288951 85
image.png 27Кб, 647x536
647x536
Аноны, подскажите как сделать лору через oobabooga webui? Я уже от злости готов выкинуть монитор нахуй в окно, не стартует нихуя, ошибки строчит, чат гпт на них выдает мусорные ответы которые тоже не работают. Второй день ебусь.

Имеем:
Венда
12B моделька BF16
Датасет из диалогов (это важно), который я могу превратить в какой угодно формат, лишь бы webui съел и не слал нахуй в консоли. Мне важно чтобы диалоги оставались диалогами (обрезал до 4096 токенов), иначе весь смысл теряется
RTX 5090

Доступные форматы на скрине (методом тыка выяснил что принимает только JSON). Если хоть кто-то делал лору с диалогами с контекстом скажите просто плиз какой формат вы юзали и какой-нибудь маленький пример с двумя диалогами и по 4 ответа в каждом. Этого будет достаточно чтобы я переконвертировал все в нужный формат
Аноним 26/07/25 Суб 14:27:39 1288959 86
>>1288951
>BF16
А зачем? Разве от Q6 различия не минимальные? В отличие от веса и производительности.
Аноним 26/07/25 Суб 14:29:32 1288963 87
>>1288959
>квантование
>тренировка
Ну вот куда ты лезешь? Куда ты лезешь то? Не знаешь, а лезешь.
Аноним 26/07/25 Суб 14:31:58 1288964 88
>>1288959
Потому что эту модель не выкладывали квантованной, только в .safetensors выложена. И по-моему Lora только для этого формата можно делать, не для .gguf. В любом случае она у меня и так работает, в память целиком помещается и меня устраивает. Вопрос в том как fine-tune сделать на основе диалогов. Я не понимаю какой формат нужен и во что преобразовать диалоги чтобы на старте не получить ошибку "неверный формат json"
Аноним 26/07/25 Суб 14:38:58 1288967 89
>>1288951
Для того чтобы тренить тебе нужно в пять-десять раз больше VRAM чем для Q8 инфиренса, то есть 5090 хватит разве что на 2-4Б.
Аноним 26/07/25 Суб 14:41:32 1288968 90
Аноним 26/07/25 Суб 14:43:37 1288969 91
>>1288967
Я не модель тренировать собираюсь, а только файн-тюн делать. Я в курсе что для полноценной тренировки модели надо H100 или подобное, мне это не нужно
Аноним 26/07/25 Суб 14:46:32 1288971 92
>>1288968
> You will need to create a dataset usually with 2 columns - question and answer
Там гайд по созданию LoRA вида вопрос-ответ, там ничего ни про диалоги, ни про рекомендуемый формат вообще
Аноним 26/07/25 Суб 14:49:41 1288974 93
image.png 268Кб, 842x1792
842x1792
image.png 138Кб, 1007x1356
1007x1356
>>1288907
>>1288908
Нет, я регулярно пользуюсь всеми популярными корпами. Опены, антропик, гугл и даже грок. Остальные не годятся для работы.

Тенденция ухудшения русика видна невооружённым глазом, если ты занимаешься переводами или работой с текстом и застал старые версии.

Самый простой тест для сравнения качества - попросить написать стих в эстетике Бодлера, придерживаясь стиля Льва Львовича Кобылинского, который часть его стихов переводил. Или хотя бы просто в стиле Бодлера. Разумеется, указав тему и прочее, используя нормальный промпт.

Посмотри на эти скриншоты и скажи, может ли так нейросеть? Что-то на уровне первого скриншота - никогда. И даже второй со скрипом вряд ли повторит. А раньше они были куда ближе, особенно старый клод. Сейчас же 4 версия клода нихуя не может. Из гпт только 4.5 что-то относительно вменяемое выдаёт. Как ни странно, только гугл и грок не так сильно в русике просели.

Было бы наплевать на это, но беда в том, что на английском они в это МОГУТ, хотя там тоже наблюдается деградация, вероятно, из-за того, что их тюнят исключительно под кодинг.

Поэтому я и говорю, что русик там не ультимативный, а говно. Да, его хватит для любого уровня РП, но только на вот таких жирных корпоративных моделях или открытых типа дипсика. Даже 400б не будет на уровне корпов в русском языке. А именно такие сложные вещи как стихи показывают, насколько модель умеет манипулировать языком и "понимать" его. Они все обсираются, но с каждым апдейтом обсираются всё сильнее и сильнее.

>>1288878
Зависит от задач. Для большинства задач треда 4 кванта хватит. Но это минимальная планка. При запуске моделей потолще деградация от более малого кванта не так заметна, но у маленькая модель, которая в любом случае будет срать под себя, даже если ты её запустишь без квантования. Так что в идеале надо брать её квант не ниже шестого.

Лм Студио - это параша, не используй её. Она, конечно, сгодится, но только если ты чётко понимаешь, зачем тебе нужна именно она.

Слои модели, которые ты грузишь на карту. Уменьшай либо увеличивай их количество, всегда используя бенчмарк в кобольде, пока не определишь оптимальное количество. Это самый быстрый способ и самый простой. И сделай kv cache 8 бит.

Если тебе русик нужен, то для тебя это финиш, потому что вменяемого русика ты не получишь, особенно в маленьком кванте, но можешь попробовать Pathfinder-RP-12B-RU. Он на базе мистрали 12б. Скажу сразу: модель поломана и достаточно быстро придёт в негодность в рамках одного чата. Русский тоже с ошибками. Почему я тебе её советую? Потому что кум там более смачный и язык более интересный, чем на других мелких моделях мистраля. А так как ты кумить собрался, то факт поломки чата не проблема: подрочил - закрыл. В следующий раз начнёшь новый чат или из лупа выйдешь иным способом. На русском ставь температуру пониже, обычно это 0,6 на том мистрале. Первое сообщение от персонажа должно быть переведено на русский, а систем промпт должен децензурировать модель. Найди его где-нибудь или сам напиши.

>>1288892
Только через связку типа кобольд + силли таверн. Конечно, в качестве бэкенда можно использовать и лм студио. А к таверне подключаться с телефона. Не кумить же за клавиатурой как мудак. Ну и карточка персонажа нужна, чтобы модель знала, каким именно образом кумить.

>>1288906
Ты хоть сам этой янкой пользовался? Полностью сломанный кал. А руадапт квен куда он в свою затычку воткнёт на 4 гб? Сайга тоже мусор.
Аноним 26/07/25 Суб 15:00:49 1288989 94
>>1288619
>Есть вообще разница что приоритетнее выгружать?
Лучше выгружать все ffn из одного слоя. Если по типу выгружать будет немного медленнее. Я как-то тестил.
Аноним 26/07/25 Суб 15:05:37 1288993 95
>>1288974
>кумить же за клавиатурой как мудак.
Это база. Следующим моим вопросом должен был стать "а как на телефон перенести?"
И где карточки кстати брать?
Аноним 26/07/25 Суб 15:06:56 1288995 96
>>1288974
>А к таверне подключаться с телефона.
А как.
Аноним 26/07/25 Суб 15:14:37 1289003 97
Ну как там новый Немотрончик, не томите!
Аноним 26/07/25 Суб 15:20:44 1289009 98
image.png 26Кб, 399x907
399x907
Аноним 26/07/25 Суб 15:21:47 1289012 99
>>1288951
Слушай, а ты насколько пердоля прошаренный? Есть простое предложение: натренить не с помощьюь убабуги и трансформерс трейнера. У той же гопоты попроси код и дать разъяснений, там все очень логично и понятно если в общем с пихоном и мл знаком.
https://huggingface.co/docs/transformers/v4.53.3/en/main_classes/trainer
Даталоадер и коллейтор под свой формат датасета напишешь и сразу же оформишь нужные аугментации. Чтобы тренить не саму модель а только лору - подключаешь peft при инициализации модели, все остальное не меняется. Если нужно qlora (плохая идея) то грузишь модель обернутую в bnb или что-нибудь еще.
>>1288971
> ни про рекомендуемый формат
Формат ты сам выбираешь. Обычно просто применяют стандартным прпроцессором чат темплейт на основе заготовленных сообщений и все, но ты можешь и инстрактоподобное что-нибудь натренить.
>>1288974
> деградация
> Тенденция ухудшения
На фоне роста скорости, сравни старый и новый опус. Корпы ударились в оптимизации, вместо больших моделей там небольшие моэ, где оптимизация под задачи идет уже на уровне финальных этапов тренировки. От того и ограниченность-деградация, она не только в русском но и в массе абстрактных задач.
Аноним 26/07/25 Суб 15:22:48 1289013 100
>>1288472
Ладно. Я конечно попробую. Но так как это тестовый билд, да еще без рекомендуемых семплеров, чую у мен получится говно.
Аноним 26/07/25 Суб 15:29:39 1289016 101
>>1289012
> Слушай, а ты насколько пердоля прошаренный?
Не шибко. Впервые хочу попробовать. Пробовал axolotl - в лоб вообще не устанавливается (какой-то компонент на винду отстутствует), а через контейнер плачет что больно новая видеокарта, он с ней работать не умеет

> там все очень логично и понятно если в общем с пихоном и мл знаком
Я не знаком с этим. Я хотел бы как можно меньше питона касаться. Я вообще на шарпах все делаю, там же генерирую все что нужно

> Формат ты сам выбираешь
Я так понял, что иишки эти текстовые в принципе рассчитаны только на вопрос-ответ. Без контекста. Контекст если и можно затолкать, то, наверное, только в вопрос. И потом непонятно как она должна понимать что половина контекста это часть прошлых вопросов и ответов... кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу. Но мне кажется что это как-то должно нормально решаться, неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct?
Аноним 26/07/25 Суб 15:40:36 1289022 102
>>1289016
> Я хотел бы как можно меньше питона касаться.
Весь мл - это питон. Буквально. Язык очень прост и максимально удобен, так что освоение не потребует усилий, особенно с привлечением ллм. Если отбросишь предрассудки и специальную олимпиаду про превосходства яп который попробовал первым - поймешь почему так.
Там кода - буквально сотня строк и он весь наиболее прозрачен если ты уже можешь в программирование и общие абстракции. Таки все равно рекомендую потратить денек на погружение, когда освоишься - поймешь насколько ненужные эти вася-обертки типа того же аксолотля и прочих, что с ним пердолинга даже больше а гибкости и удобства - меньше.
> иишки эти текстовые в принципе рассчитаны только на вопрос-ответ
Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все. За счет особенностей архитектуры обучение проходит сразу на весь контекст а не по одному токену. Вопрос-ответ это просто самый популярный формат, и он сам по себе условность и нужен для формирования правильной разметки (служебные токены чтобы модели проще понять где что при анализе контекста) и масок внимания.
> кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу
Глянь самые основы что такое ллм.
> неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct
Ты не то что не первый в этом, а не первый и не последний кто задает неправильные вопросы ибо сделал неверные выводы и сформулировал вот такое, но ничего страшного в этом нет.
Аноним 26/07/25 Суб 15:45:24 1289025 103
>>1289016
Нет, ответы тоже кормятся.
Но я чо-то в ахуе с вашей дискуссии двухлетней давности.
Казалось бы, это все должно быть очевидно, но на практике это у нас профдеформация уже, а в шапке много инфы, а части может и нет, но никто не вспоминает, что ее нужно добавить.

1. ICL, in context learning — не совсем то, что подразумевает под «дообучением».
2. Есть два формата: text completion и chat completion, но на практике это рубится на этапе бэкенда, в модель поступает один и тот же «текст».
Суть в том, чтобы любым из способов подсунуть <user> — вопросы, а <assitant> — ответы, то есть, сымитировать предыдущий диалог, после чего модель продолжит общаться в данном ей стиле, да.
Это и есть контекст.
Просто длинный контекст в формате переписки.

Есть еще вариант few-shot, где ты прямо в систем промпт пихаешь диалог, и просишь продолжить общаться в таком же стиле.
Аноним 26/07/25 Суб 15:46:38 1289026 104
>>1289022
> Весь мл - это питон.
Плюсы.
А питон — обертка над плюсами. =)
Ну так, чтобы точно.
От питона тоже никуда не уйдешь, канеш.
Аноним 26/07/25 Суб 15:50:39 1289028 105
>>1289022
> Весь мл - это питон. Буквально. Язык очень прост и максимально удобен
Это замечательно, но у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя. Проблема не в самом питоне, а в том что я в принципе не планировал ничего программировать сверх того чтобы json на C# генерировать на основе имеющегося датасета. По факту ничего не работает, либо сыпет ошибками, либо видеокарта не нравится, либо какая-нибудь говнолиба питоновская не той версии. При попытке обновления - шквал ошибок в духе "а у тебя тут конфликт между этой бетой и вот этой". Без бета-версий нытье что карта больно новая

> Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все
Я в курсе про это, но на практике для меня как для юзера все форматы которые есть так или иначе сводятся к тому что есть user и есть assistent. Вопрос-ответ. Все. А меня это не устраивает. Попытка затолкать еще один вопрос-ответ в тот же диалог = ошибки

> Глянь самые основы что такое ллм
Я знаю что такое llm. Мне это на практике что дает?

>>1289025
> Казалось бы, это все должно быть очевидно
Мне нихуя не очевидно. Для меня пока что очевидно, что все способы что я перепробовал закончились ошибками на стороне питона. И ни одно не решить не вышло. То есть я даже запустить процесс полноценно еще не смог, и у меня закончились идеи. Самому программировать впадлу, это уже перебор для меня
Аноним 26/07/25 Суб 15:51:39 1289030 106
>>1288969
тренить на замороженных слоях - получится говно уровня чатбота-автоответчика, так что даже для лоры нужны норм веса, хотя есть ещё q-lora, трейн на квантованной модели, ну, это выходит многкратно переваренный кал
Аноним 26/07/25 Суб 15:56:35 1289032 107
>>1289028
> нет времени и желания разбираться
Это так не работает
Аноним 26/07/25 Суб 16:00:19 1289036 108
>>1289030
Да пусть даже и так. Я бы убедился и успокоился бы. Пока что я на уровне "послан нахуй всем софтом что я мог попробовать"
Аноним 26/07/25 Суб 16:00:30 1289037 109
>>1288969
> модель тренировать
> файн-тюн делать
Значение знаешь?
>>1289026
Питон. Язык изначально разработанный под конкретную область задач и максимально удобный в них, позволяющий делать удобные абстракции не отвлекаясь на кишки и иметь отличную производительность при правильном применении. Плюсы уже для умных людей, которые специализируются на конкретных высокопроизводительных операциях и построении бэков с ними, хорошо разбираться в мл при этом им не нужно.
Ну или можно делать цирк как у жоры.
> Плюсы
Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
>>1289028
> у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя
Эта задача требует погружения, знаний и понимания. То же самое можно сказать
> у меня нет времени и желания разбираться с авотомобилестроением. Я просто хотел на выходных собрать гоночный болид под себя и выиграть одну гонку
> но на практике
Присоединяюсь к другому анону, это так не работает, область сложна и свежа. Когда-нибудь появятся красивые интерфейсы от корпов, которые в юзер-френдли манере будут делать типичные примитивные задачи за тебя, но делать это посредственно и за большие деньги.
>>1289030
> тренить на замороженных слоях
Что?
Аноним 26/07/25 Суб 16:03:47 1289040 110
>>1289037
> Значение знаешь?
Да

> Эта задача требует погружения, знаний и понимания. То же самое можно сказать
Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе? Я очень сомневаюсь, что тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки. Да точно так же кнопки тыкают и развлекаются, как и я собственно
Аноним 26/07/25 Суб 16:09:22 1289045 111
>>1289037
> Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
Я посылаю биты прямо в чип, а что делаете вы? @_@
Аноним 26/07/25 Суб 16:11:53 1289048 112
>>1288911
Не все так линейно с квантами. Imatrix кванты - вещь в себе, их таки пробовать надо, и решать для себя - годится или нет.
У меня вот что обнаружилось: storyteller-gemma3 на кванте q4km при письме на русском откровенно руинит окончания, рода падежи и т.д. Даже на кванте q5km это происходит, только меньше (запускал ради теста - он у меня целиком в vram не лезет, так что на постоянное использование не годится - медленно).
Однако iq4xs квант пишет чисто, и не проебывается с этим вообще. Хотя казалось бы...
Аноним 26/07/25 Суб 16:16:27 1289053 113
>>1289040
Чел, ты думаешь что что-то знаешь и все просто, но по твоим постам и задаваемым вопросам очевидно ты лишь надергал совсем поверхностные вещи. И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
Увы, прочитав это ты едва ли осознаешь и решишь что-то изучать, а бомбонешь с чсв продолжив отрицание.
> тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки
Не каждый, но таких наберется, чсх "скрипты под нейронки" не что-то сложное а дефолтный дефолт и повседневность на которую даже не отвлекаешься.
Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса.
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
Потому что эта "область" известна и сделана действительно максимально удобно и дружелюбно чтобы даже хлебушки справлялись, твоих навыков хватило. На самом деле дальше все тоже довольно просто и понятно с точки зрения базового освоения (классическое easy to learn@hard to master), просто ты подскользнулся на ровном месте из-за дилетантства.
>>1289045
Brutal, ты страшные человек!
Аноним 26/07/25 Суб 16:18:46 1289057 114
>>1289048
> Imatrix кванты
Вот кстати, если визуализировать их - у шакала будут более четкие глаза и пасть, но остальное размыто даже сильнее и 6 левых лап. Офк это для самых малых, начиная где-то от 5 бит мутным будут только участки тела и четкими важные детали.
Аноним 26/07/25 Суб 16:25:32 1289062 115
>>1289053
> Чел, ты думаешь что что-то знаешь и все просто
Где я это говорил? Я говорил что нихуя не знаю и даже углубляться не хочу. Я вообще с вопросом пришел просто "как это сделать" с помощью web-ui или чего угодно другого, что без ошибок запустится. Методом нажимания левой кнопки мыши

> И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
В оригинале они лежат в виде помойки, где половину нужно выкинуть/сквошнуть/собрать в диалоги по N токенов. И все это перегнать в какой-то формат, который съест например web-ui. Я это делаю на C# потому что мне так привычно. Кому-то удобнее на питоне. Куда смеяться-то?

> Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса
А я чем занимаюсь?

> просто ты подскользнулся на ровном месте из-за дилетантства
Учитывая сколько ответов уже было, но ни одного конкретного решения кроме "пиздуй ml изучать сам себе напиши и разберись", то вопрос дилетантства остается открытым. Особенно учитывая что "не каждый, но таких наберется". А по факту ни одного решения проблемы
Аноним 26/07/25 Суб 16:38:27 1289074 116
>>1289062
> Где я это говорил?
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
А это что?
С помощью вебуи сделать скорее всего не получится. Эта часть довольно хреновая из-за хардкода на который ты наткнулся, и она давно не обновлялась, потому там это старье в форматах. И в целом это лишь сомнительная обертка поверх трансформерс трейнера, потому лучше бы сразу заглянуть в оригинал, который работает хорошо. Но если разбираться не хочешь то увы, можешь разве что почитать анслотов с их тулзой.
> в виде помойки
Дай угадаю, там паркет, арроу или что-то подобное? В таком виде вместо пачки жсонов выкладывается не просто так.
> Куда смеяться-то?
Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения.
> но ни одного конкретного решения
Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета.
А на советы изучить базвы ты зря обижаешься/огрызаешься, ведь ответы на задаваемые вопросы содержатся в ней. Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время.
Аноним 26/07/25 Суб 16:48:43 1289081 117
>>1289074
> А это что?
Это мой личный опыт того, что запустить модельку может даже даун. Я думал что создать лору точно так же просто, потому что ее запуск не сложнее чем запуск основной модели. О том что будет куча подводных камней на этапе "а как ее сделать" я не думал

> Дай угадаю, там паркет, арроу или что-то подобное?
Нет, да это не и не важно

> Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения
А на чем это надо делать чтобы не смеялись? Python? JS? Objective-C? Голыми машинными кодами с загрузкой и запуском через WinAPI? Для меня родной язык это C#, на нем и делаю. И оно работает

> Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета
Ну это и равнозначно "сам изучи, сам разберись, сам напиши"

> Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время
И что? Мне может процесс нравится. Да и уверенность есть что все-таки получится то что нужно, только пересобрать десяток раз придется с разными конфигами
Аноним 26/07/25 Суб 16:50:55 1289084 118
>>1289003
Возьми да скачай.
Гуфы/exl3 давно доступны.
Аноним 26/07/25 Суб 17:01:15 1289086 119
>>1289081
> Я думал что создать лору точно так же просто
К сожалению - нет. Запуск что лоры, что простого обучения в целом то тоже прост если знаешь пихон и околомл, но вот сделать что-то хорошее вместо лоботомитов, или запустить на слабом железе - уже дохуя сложно, да.
> Ну это и равнозначно "сам изучи, сам разберись, сам напиши"
Нет, все уже написано. Нужно лишь:
1 сделать импорт и загрузить модель
2 подстроить даталоадер под свой датасет и задачу
3 trainer.train()
причем код может сделать любая ллм, даже древний мистраль 7б с таким справится потому что штука мегапопулярная.
> Мне может процесс нравится.
Тогда зачем лишаешь себя удовольствия от изучения?
Просто это не картиночные сети где лора "дает нужный результат" и тренируется легко, с подобным подходом модель на выходе будет на любой запрос цитировать куски датасета и совсем поломается.
Посмотри еще анслотов и их трейнер он запускается ровно таким же образом.
Аноним 26/07/25 Суб 17:38:29 1289114 120
>>1289057
> начиная где-то от 5 бит мутным будут только участки тела и четкими важные детали.
надо будет пририсовать шакалу чёткий детализованный песюн
Аноним 26/07/25 Суб 17:39:10 1289116 121
>>1289084
Да я скачал, че-то пока не понятно, как ризонинг вырубить.
/no_think сверху промта не помогает.
Аноним 26/07/25 Суб 17:41:35 1289120 122
image.png 176Кб, 2466x1120
2466x1120
>Llama-3.3-Nemotron-Super-49B-v1.5 is a significantly upgraded version of Llama-3.3-Nemotron-Super-49B-v1
Вам дали апдейт как минимум интересной модели, хули вы сидите свои 12б 4q весь день дрочите?
Списки ВСЁ, без пердолинга, с разметкой всё ок, мозгов прибавили куда уж больше, пресет анона вроде тоже работает, но думаю уже надо менять
>>1289116
Пробуй пресет анона у меня всё ок
Аноним 26/07/25 Суб 17:50:47 1289135 123
>>1289120
>Пробуй пресет анона у меня всё ок
Это удивительно, но на синкинг влияет только одна опция: Include Names в Инструкт темплейте. Если стоит always то синкинг выключается, если Never то всегда работает и ему похуй вообще на все.
Аноним 26/07/25 Суб 17:59:54 1289146 124
>>1288974
>Ты хоть сам этой янкой пользовался?
Пользовался и пользусь, выше есть чат-лог с неё и пресед для неё.
Коммандер в треде тоже был сломанным гавном пока Анон99 пресет не принёс.
Аноним 26/07/25 Суб 18:01:10 1289147 125
>>1288993
>И где карточки кстати брать?
Чуб, жанитор, пиксельдрейн выше немного карточек есть.
Аноним 26/07/25 Суб 18:04:58 1289150 126
>>1289135
Я кстати наконец разобрался почему в пресете анона99 ООС не работает, это реально его вина оказалась, разве что он скопировал откуда-то эту основу. Еще бля сидел отнекивался, на модель пенял, а там у него практически дословно зарыта в глубине фраза мол "ООС не будет, пошел нахуй."
По первому впечатлению, в новом Немотроне цензура на том же уровне (т.е. с промптом отсутствует) Вроде как инструкций в промпте случшается заметно лучше, буду дальше тестировать.
Аноним 26/07/25 Суб 18:15:25 1289156 127
>>1288969
>Я не модель тренировать собираюсь, а только файн-тюн делать.
Делай квантованную лору. Те же яйца только в профиль. Гайдов в интернетах полно, так как это самый популярный подход в дотренировке. Скорее всего первые раз десять на выходе у тебя получится говно, но это нормально. Дальше с накопленным опытом уже будет проще.
Аноним 26/07/25 Суб 18:23:05 1289160 128
>>1289120
>хули вы сидите свои 12б 4q весь день дрочите
дай деняг на 5090
Аноним 26/07/25 Суб 18:24:42 1289162 129
>>1289120
Самое смешное, что в этой табличке Qwen3-32B ебет прошлый немотрон вообще везде, а местами и Nemotron Ultra.
Получается, все истории про ум немотрона последние полгода — пшик? =D
Простите!
Не против немотроныча, прост, забавно. =)
Аноним 26/07/25 Суб 18:33:02 1289164 130
>>1289162
> Qwen3-32B
Модель выглядит поломанной, что в ггуфах, что на экслламе. Не такой, конечно, треш что другие постили, но она очень припезднутая и странная, будто именно под нее писался дисклеймер о необходимости семплинга для отсутствия лупов. Офк есть вероятность что сразу оба интерфейса поломаны и нужно чисто трансформерсом ее раскатывать, но лень.
Если кто-то разобрался как ее юзать - реквестирую настройки и промпты.
Аноним 26/07/25 Суб 18:37:10 1289167 131
175354328284731[...].jpg 282Кб, 2400x2156
2400x2156
>>1289147
Разобрался уже, осталось только на телефон настроить наверну.

Крч да, хуево работает. Загрузил персонажа с 16к контектом описания и прочего, уже минут 5 его кушает, жду когда высрет ответ, надеюсь более менее будет.
Аноним 26/07/25 Суб 18:40:40 1289170 132
>>1289162
А что квен 32б не ебёт?
Наверняка даже корпов уже всех выебал.
Аноним 26/07/25 Суб 19:10:56 1289206 133
Ура наконец-то настроил всё как надо в таверне, работает нормально.
Последний вопрос, как заставить на русском писать? Какой промт использовать?
Аноним 26/07/25 Суб 19:12:37 1289209 134
>>1289206
>как заставить на русском писать
1) Первое сообщение карточки перевести на русский.
2) В систем промте указать чтобы писала на русском.
3) Можно то же самое указать в заметках автора на нолевой глубине.
Аноним 26/07/25 Суб 19:14:19 1289212 135
>>1289206
Тебе не понравится качество, если стоит что то тупее геммы 12B. Но в целом, анон выше правильно написал.
Аноним 26/07/25 Суб 19:18:17 1289216 136
изображение.png 203Кб, 1240x1094
1240x1094
изображение.png 217Кб, 1118x1084
1118x1084
>>1289016
>неужели я первый что ли кто хочет
Хотят каждый второй. А вот возможностей натрейнить что-то удобоворимое есть не только лишь у всех. Тут или тратиться на аренду пачки A100, или собирать риг RTX PRO 6000. На одной картонке, даже если это топовая 5090, ты ничего не сделаешь.
>>1289040
>Почему здесь должно быть иначе?
Потому что инференс делает 100% заинтересованных в ИИ анонов, а тренировкой занимаются примерно 0,0001%.
>что тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки
Да, я пишу, а что?
>>1289062
>пиздуй ml изучать сам себе напиши и разберись
Это единственный вариант, если тебе нужно хотя бы в течении месяца. Интерфейсы допилят. Года через 2-3.
>>1289081
>WinAPI
Найс.
>>1289086
>3 trainer.train()
Я вот сам цикл тренировки писал, ибо стандартный трейнер кмк весьма ограничен. Впрочем, этот цикл мне гопота без проблем писала, притом что я по жизни пыхарь.
>>1289120
Вообще похуй.
Аноним 26/07/25 Суб 19:23:07 1289222 137
>>1289209
Это всё на ру языке?

>>1289212
Немомих 12b Q3. (Ну а что поделать)
Аноним 26/07/25 Суб 19:28:08 1289225 138
>>1289222
Третий квант 12B это уже чистейший лоботомит, а не модель. Ниже шестого проблемы начинаются, а у тебя вообще скорее всего будут одни галлюцинации, особенно на русском. Даже не говоря о том, что немомикс это по дефолту шиза, которую срали еще при выходе.
Аноним 26/07/25 Суб 19:45:55 1289243 139
Новый Немотрон конечно такое выдает, у меня шишка улетела... Ставил темпу 2, ТопП 0.95, МинП 0,015. Никаких штрафов за повторы. Даже ни одного свайпа еще не было, посмотрим как дальше будет. Q4_K_S
Аноним 26/07/25 Суб 19:47:48 1289246 140
>>1289243
Так я и поверил, специально сказки рассказываешь, чтоб я его скачал и проверил.
Аноним 26/07/25 Суб 19:54:05 1289259 141
>>1289225
>Третий квант 12B это уже чистейший лоботомит, а не модель
В любом более качественные модели мне недоступны. Да и качество ответов, вроде, приемлимое на самом деле.
Что-то на уровне жанитора. Такая же скорость.

Открыл для себя только что опен роутер, с его бесплатными моделями типа дипсик. Ахуеть. Небо и земля. Не клод конечно, но тоже очень хорошо.
Как лимиты на 10 генераций в день обойти только? Или, там нужно немного заплатить? Если да, с рф можно?
Аноним 26/07/25 Суб 19:56:20 1289263 142
>>1289259
Вроде, на $10 счет пополнить надо, на плати ру есть барыги
Аноним 26/07/25 Суб 19:57:54 1289265 143
>>1289263
>$10
Демократично. Это на сколько? Или безлимит? Не верю в такую щедрость офк.
Аноним 26/07/25 Суб 20:02:02 1289272 144
>>1289265
Не безлимит, 1000 реквестов в день, должно с полна хватить
Алсо, там бесплатных 50 должно быть, а не 10, но хз, что ты там делал, может и 50 потратил
Аноним 26/07/25 Суб 20:03:56 1289273 145
>>1289259
>В любом более качественные модели мне недоступны.
Тогда перекатывайся на корпораток, че тут тебе еще посоветовать. На твоем железе кумить можно только в голове, прописывая сценарии в перерывах между дерганьем ручкой. Хотя, если тебя устраивает текущее качество, то лучше не трогать большие модели вообще. Не будет материала для сравнения - не будет проблем.
Аноним 26/07/25 Суб 20:04:29 1289274 146
>>1289272
>1000 реквестов в день
Отлично. Так это на сколько.. на месяц? Или пока 10 баксов лежат?

10 точно, с другого акка зашёл проверить.
Аноним 26/07/25 Суб 20:06:33 1289276 147
>>1289273
>Не будет материала для сравнения - не будет проблем.
Двачая. Но я уже потрогал клода в куме, и забыть это чудесное мгновение больше не в силах.
Аноним 26/07/25 Суб 20:10:23 1289280 148
>>1289222
>Немомих 12b Q3

Ты же понимаешь что она будет писать на русском на уровне чукчи с деслексией? Лучше уж яндекс переводчик подруби.
Аноним 26/07/25 Суб 20:11:51 1289282 149
video2025-07-26[...].mp4 438Кб, 576x538, 00:00:10
576x538
Аноним 26/07/25 Суб 20:16:50 1289290 150
>>1289246
>Так я и поверил, специально сказки рассказываешь, чтоб я его скачал и проверил.
Ну я скачал и проверил. Цензура не лучше прошлого ванильного Немотрона, плохой русский (хотя и лучше прошлого), ризонинг по умолчанию. Такое себе. По ощущениям поумнее стала, но для любых сомнительных тем не годится совсем.
Аноним 26/07/25 Суб 20:17:22 1289292 151
>>1289280
>>1289212
И вообще, бери немо инстракт из шапки, он с простеньким uncensored систем промптом который лежит на реддите по первому запросу в гугле становится сильно раскрепощённым, но и немного чернушным. Все эти 12b миксы - ужаренные в ноль лоботомиты с пизданутыми датасетами от которых карточки кидает из одной крайности в другую.
Аноним 26/07/25 Суб 20:26:53 1289301 152
>>1289292
>Все эти 12b миксы - ужаренные в ноль лоботомиты с пизданутыми датасетами от которых карточки кидает из одной крайности в другую.
У него итак третий квант, там не то что в крайности будет кидать, там трусы поверх пуховика будут надеваться и сниматься через голову. При такой точности в целом похуй насколько у тебя ужаренная модель, шизить будет примерно одинаково.
Аноним 26/07/25 Суб 20:32:08 1289308 153
>>1289301
Ну тогда ему дорога в приложухи типа chat waifu. Там встроеный переводчик и модели на уровне 8b q6, что лучше чем нихуя. Рекламу посмотрел 5 минут и можно рпшить часик. Я сам на этом говне сидел месяц пока не полез разбиратся как текстовые модели запускать локально. Пишет вполне осмысленно но вяло, а хули хотеть, я как понял к чему всё идёт, посчитал что выгоднее свою пекарню обновить чем платить каким то ебланам.
Аноним 26/07/25 Суб 20:34:13 1289310 154
>>1289290
>ризонинг по умолчанию
У меня ни разу не сризонил, шаблон стандартный ллама 3 с именами.
>По ощущениям поумнее стала
А что ещё надо?
>но для любых сомнительных тем не годится совсем
У меня норм в сомнительное.
Аноним 26/07/25 Суб 20:36:34 1289313 155
изображение.png 4Кб, 195x88
195x88
>>1289310
Впрочем одну странность он высрал. ХЗ как это вышло.
Аноним 26/07/25 Суб 20:38:11 1289314 156
Eo1.jpg 487Кб, 1532x1190
1532x1190
Eo2.jpg 483Кб, 1451x866
1451x866
Eo3.jpg 476Кб, 1429x865
1429x865
Eo4.jpg 703Кб, 1439x1177
1439x1177
>>1289246
>>1289290
Ну вот вам сцена без свайпов, да эти "Mine" не очень, и есть нюансы к чему можно придраться, но все остальное прям около топа. И то что без лишнего мозгоебства персонаж ллмки сам подкатил, без особых прелюдий и возни вокруг да около, и сама длина и детализация сцены, то что учел контекст, место и добавил зрителя. И темпа 2. Я честно впечатлился.
Эльфийская писечка(23 года) VS монстер с двумя членами-тентаклями:
Аноним 26/07/25 Суб 20:38:42 1289315 157
Eo5.jpg 628Кб, 1423x1082
1423x1082
Аноним 26/07/25 Суб 20:38:52 1289316 158
image.png 220Кб, 1936x999
1936x999
>>1289216
Кароче ничего рабочего кроме как говноскрипт на питоне сгенерированный нейронкой я не нашел. Unsloth на винде не работает ни в какую, на WSL таки заработал, печь что-то там жарит. Я просто никогда с этой самой WSL раньше не сталкивался, думал что на винде должно работать, но хуй там из-за Blackwell. Можно сказать что вопрос решен

> На одной картонке, даже если это топовая 5090, ты ничего не сделаешь
Для 12B нейросетки таки делаю прямо сейчас. Полностью пожирает все 32 гб VRAM + 30 гб RAM, но работает. Для >12B хз, наверное до 20B оперативки хватит
Аноним 26/07/25 Суб 20:43:42 1289323 159
изображение.png 8Кб, 342x107
342x107
>>1289316
>Полностью пожирает все 32 гб VRAM + 30 гб RAM
Как по мне, результат на пикриле. Прикинь, сколько это займёт по времени. Не, если действительно выйдет потюнить 12B няшу на 32 врама, я буду только рад (как обладатель такой же карты), но что-то верится с трудом, там сами веса занимают 24 гига, а ещё нужно хранить все активации и прочее говно.
Аноним 26/07/25 Суб 20:50:20 1289334 160
>>1289222
>Это всё на ру языке?
Да.

И да опенроутер харош, на плати ру есть барыги, 10 долларов тратить не обязательно, они могут весь год просто пролежать на балансе, через год сгорят.

Если же корпы не вариант - можешь таки попробовать:
https://pixeldrain.com/u/cw6ZbtFe yankagpt-8b-v0.1 log + preset.zip



Аноним 26/07/25 Суб 20:51:39 1289336 161
У кого хватает врама на немотрон те молча им пользуются и довольно урчат
У кого не хватает те завидуют и пишут гадости
Думайте
Аноним 26/07/25 Суб 20:53:05 1289339 162
>>1289336
есть ещё кто не юзает, не завидует, не пишет
Аноним 26/07/25 Суб 20:53:11 1289341 163
image 627Кб, 1280x698
1280x698
Как думаете, жизнеспособно или совсем дерьмо? 150к рубасов получается за такую шнягу. Я чет слышал, что обычные геймерские у интела вообще не могут в инференс - там какой-то калич чуть лучше цпу-онли по скорости.
Аноним 26/07/25 Суб 20:53:44 1289342 164
>>1289316
что за скрипт? дай ссыль пж
Аноним 26/07/25 Суб 20:54:21 1289344 165
>>1289341
> 150к рубасов
С учетом перекупов?
Аноним 26/07/25 Суб 20:55:00 1289345 166
>>1289344
Да, на лохито увидел. 155 просят если быть точнее.
Аноним 26/07/25 Суб 20:55:33 1289347 167
>>1289216
> Я вот сам цикл тренировки писал, ибо стандартный трейнер кмк весьма ограничен.
С какими ограничениями столкнулся, что добавлял?
Все что он делает - прогоняет форвард модели по загруженному твоим даталоадером батчу, высчитывает лосс по функции, которую ты ему даешь (или по заготовленным), беквард и после числа шагов аккумуляции тикает оптимайзером-шедулером и т.д. Для дефолтных случаев хз что еще добавить
Он удобен тем, что заготовлено широкое множество аргументов тренировки под большинство случаев и не нужно изобретать велосипед под широкое множество базовых вещей типа сохранения по принципу, загрузки на хаб и т.д. и т.п. Но если действительно хочешь делать что-то "уникальное" то одна строка превратится в 5 для простой тренировки или 305 для чего-то хитрого с описанным выше функционалом.
>>1289282
Чсх, она была более чем локальной и преимущества этого были прекрасно обыграны в фильме.
>>1289316
> Для 12B нейросетки таки делаю прямо сейчас
Это будет лишь вялый peft. Практический порог тренировке в 32гигах - 3-4б, и то уже идут компромиссы, потребуется пердолинг и цифра скорее имея несколько для возможности шардинга. Больше - падение скорости будет делать все бессмысленным.
>>1289323
> результат на пикриле
Может у него там (эффективный) батч 128+, тогда оче это оче быстро.
>>1289344
Уже в магазинах есть вроде как
Аноним 26/07/25 Суб 20:56:22 1289349 168
>>1289341
куртка > печка > говно > моча > инцел
Аноним 26/07/25 Суб 20:57:30 1289351 169
>>1289349
Но ведь высрали же этот гпу по какой-то причине как серверный. Их же предполагается тысячами будут покупать и ебашить в датацентры. Что, при таком раскладе кто-то потратит миллионы долларов на гпу которые хуже говна и мочи? Странно как-то.
Аноним 26/07/25 Суб 20:58:21 1289352 170
Кто-то тут вроде на ми-шках сидит, но это пердоликс.
Аноним 26/07/25 Суб 21:02:52 1289360 171
>>1289351
откаты и коррупция бывает не только в России но и в Украине
а точнее решения о массовых закупках принимаются на основе отката, который получит менеджер по закупкам.
Аноним 26/07/25 Суб 21:04:14 1289363 172
Крч да, понял что с 12б пососать только можно..
Закинул 10 баксов на опенроутер, чтобы можно было кумить почти безлимитно с диксиком. Уж очень он хорош.

Хотя от дрочки локалки не отказываюсь, буду продолжать тесты и следить, крутая тема.
Аноним 26/07/25 Суб 21:06:27 1289366 173
>>1289363
12 B или GB? мне для уточнения базы треда
Аноним 26/07/25 Суб 21:08:13 1289367 174
>>1289341
Учти, что это две видеокарты, им нужна бифуркация на слоте x8+x8.
Аноним 26/07/25 Суб 21:08:57 1289368 175
изображение.png 263Кб, 1478x1214
1478x1214
>>1289339
Примерно 8млрд человек вообще никогда не кумили на нейронки. Надо ровняться на них.
>>1289341
>Dual GPU
>Dual
Обычно признак отборнейшего фейла.
>>1289347
>С какими ограничениями столкнулся, что добавлял?
У меня лосс в нан скатывался, я просто обрывал тренировку, чтобы не жечь просто так карту. Так то и логирование в стандартном трейнере хорошее, и даже прогресс бар есть. Но хочется полного контроля.
>Чсх, она была более чем локальной
Фильм староват уже, в те времена ещё не было такого переноса всего в облака. Сейчас бы хрен бы показали локал очку.
>Может у него там (эффективный) батч 128+,
Скорее батч в 1, судя по пердоленью лосса. Но я не великий спец если что.
Аноним 26/07/25 Суб 21:13:51 1289375 176
>>1289366
12B, в квантовании Q3.
>>1289334
Только увидел. Да, опенроутер хорош, ещё бы клода.. но лучше уж год беслатными буду лакомиться, чем быстро прожгу всё на клода.
Хоспаде, осталось через спермукс поставить таверну на ведро, и можно будет обдрачиваться сутками напролёт, забыв про говно приложения с раковыми модельками.
Аноним 26/07/25 Суб 21:14:57 1289377 177
с видюхами всё ясно, а как выбирать CPU? я правильно понимаю, что если выгружать все слои на видюху, а только ffn_*_эксперты на CPU, то важнее частота ядер, чем их количество? и что количество важно только при промпт процессинге, а эксперты - это уже токен генерейшон, и тут уже лучше рузен с небольшим количеством ядер но большим значением кекагерц, чем сто тухлых зивоноядер по 1.6ггц?
Аноним 26/07/25 Суб 21:15:46 1289378 178
>>1289368
> лосс в нан скатывался
Расскажи подробнее что тренил. Обычно, подобное - следствие очень неочень гиперпараметров, включая кривые оптимайзеры, снижения точности там где не стоит и т.п. Но если же конструируешь что-то свое, и тем более трейнер свой без страхующих обвязок - тут уже что что угодно может быть.
> Сейчас бы хрен бы показали локал очку.
Обычно в фильмах чаще прослеживается тренд на опасность облаков и благо локального. Неужели где-то тренд поменялся?
> Скорее батч в 1, судя по пердоленью лосса
Ага, скачки норм градиентов на 2 порядка пострашнее будут.
Аноним 26/07/25 Суб 21:17:47 1289381 179
>>1289363
>Хотя от дрочки локалки не отказываюсь, буду продолжать тесты и следить, крутая тема.
Лучше начинай собирать новую систему. Как бы локалки не развивались дальше, хотя бы на одну нормальную видеокарту придется раскошелиться.

>>1289341
Интел дрова для одночиповых карточек через раз нормальные пилят, а тут какое-то говно с целыми двумя. Определенно стоит того.
Аноним 26/07/25 Суб 21:20:55 1289385 180
>>1289377
Важнее скорость оперативки.
>>1289378
>Расскажи подробнее что тренил.
GPT2, чисто мои личные тесты. Гиперпараметры само собой говно спотолочное, так что да. Оптимайзер стандартный адамв, точность не смотрел, думаю полная, сетка то лоботомит 700М.
>Обычно в фильмах чаще прослеживается тренд на опасность облаков и благо локального.
Вут? Это где например?
Аноним 26/07/25 Суб 21:27:27 1289392 181
>>1289385
да понятно, что скорость оперативки, но если она одинаковая в обоих случаях, тогда решают мегагерцы?
Аноним 26/07/25 Суб 21:30:14 1289393 182
>>1289392
Тогда решает скорость оперативки. И больше ничего. Ну, это если проца достаточно, от 6 ядер чего-то современного.
Аноним 26/07/25 Суб 21:32:35 1289395 183
>>1289342
Ничего я тебе не дам. Мне тут сказали самому нахуй пойти к ChatGPT вот и тебе даю такой же совет. Мне написал и тебе напишет значит

>>1289347
> Может у него там (эффективный) батч 128+, тогда оче это оче быстро
batch_size = 1
grad_accumulation_steps = 4

> Это будет лишь вялый peft
Ну посмотрим. Может несколько эпох оставлю на ночь если совсем вяло будет. Одна эпоха примерно 2 часа с моим конфигом сейчас. Пришлось обрезание диалогам сделать до 2048 токенов, с 4096 падает сразу
Аноним 26/07/25 Суб 21:40:20 1289406 184
>>1289385
> GPT2
Эти старые сетки склонны к коллапсу сами по себе, особенно если отойти от фп32.
> Вут? Это где например?
В каждом фильме где это как-то задействовано или напрямую обыгрывается идея что централизованность и сосредоточение подобных чувствительных вещей - плохо и опасно, тот же блейдраннер или мемный яробот. Или вообще никак не затрагивается. А вот чтобы это преподносилось как благо - даже не припомню такого.
>>1289392
> тогда решают мегагерцы
Не мегагерцы и флопсы в векторных операциях. Они же будут определять скорость обработки, но это разница между 25 и 35т/с, и то и другое неюзабельно. В генерации отличия будут в пределах десятка процентов скорее всего.
>>1289395
> batch_size = 1
> grad_accumulation_steps = 4
Малые батчи
> Одна эпоха примерно 2 часа
7 тысяч образцов, хз. Разве что не успеет сгореть но что-то ухватит
По опыту могу сказать что при попытке добавить знаний не "точечно" а покрупнее - любой пефт получается копиумом по сравнению с полномасштабным файнтюном при прочих равных.
Аноним 26/07/25 Суб 21:40:57 1289407 185
>>1289395
> Мне тут сказали

> база треда:
> - тут полтреда токсичных уебанов, игнорируй хейт, опционально можешь ебать их мамок

мою ток не еби, я тебя не хейтил
Аноним 26/07/25 Суб 21:52:10 1289413 186
>>1289395
>Мне тут сказали самому нахуй пойти к ChatGPT
Лол, а чего ты ожидал? Итт обсуждается преимущественно запуск и прогон локалок, а не их тренировка. Тут буквально по пальцам можно пересчитать людей, которые что-то тренировали и которые посещают тред чаще раза в неделю.
Аноним 26/07/25 Суб 21:55:22 1289415 187
>>1289406
>Эти старые сетки склонны к коллапсу сами по себе, особенно если отойти от фп32.
Мейби, не изучал.
>обыгрывается идея что централизованность и сосредоточение подобных чувствительных вещей - плохо и опасно
Разве именно эта мысль? Скорее просто "плохой правитель плохо, а вот хороший...".
>>1289413
Ну вот я, даже скрины своего кода кидал. Но особого смысла мне кидать ему весь свой код нет, ибо действительно тривиально пишется, и лучше самому, чтобы понимать назначение каждой строки. А у меня там вообще куча хардкода, ибо ебал я заморачиваться с архитектурой и параметрами в личном коде.
Аноним 26/07/25 Суб 21:58:17 1289418 188
>>1289406
> Малые батчи
Так а смысл больше если и так своп начинается на оперативку. Будет еще медленнее в моем случае на этих данных. Ну будет жрать не 30, а 70-80 гб оперативки при batch_size = 2, толку. Если я правильно понимаю, конечно, как это работает

>>1289413
> Итт обсуждается преимущественно запуск и прогон локалок
А что их обсуждать-то? Берешь и запускаешь. Ничего не нужно толком. А тут в лоб вообще никак и ни в каком виде, требуется как минимум линукс/wsl
Аноним 26/07/25 Суб 22:03:39 1289421 189
>>1289418
>Так а смысл больше
Смысл чтобы градиенты не пидорасило. Для этого батчи и юзают (ну и чтобы задействовать больше вычислительной мощности, ибо на корп картах памяти в разы больше).
>Будет еще медленнее в моем случае
Поэтому я и написал, что у тебя мало железа для этой задачи. Запустить на минималках не значит получить нормальный результат.
>требуется как минимум линукс/wsl
Вот это всё говно >>1289368 я запускал на шинде если что.
Аноним 26/07/25 Суб 22:08:54 1289429 190
>>1289421
> Вот это всё говно >>1289368 я запускал на шинде если что
Все что я пробовал стонало о том что что blackwell и собраться не может. Либо конфликты. Вот этот гайд например https://github.com/unslothai/unsloth/tree/main/blackwell если в точности повторить приводил к шквалу ошибок и нихуя ничего не работало. Аналогично со всем остальным что я пробовал. На WSL завелось. А ты в итоге через что тренируешь и у тебя 50 поколение или другое что-то?
Аноним 26/07/25 Суб 22:10:43 1289432 191
>>1289421
> Поэтому я и написал, что у тебя мало железа для этой задачи
Да не мало, просто медленно. Понятно что если у тебя не 32 гб, а 320, то раз в 10 быстрее будет. Но качество от того что я батчи в 10 раз больше запускаю влиять не должны. Влиять должныдругие параметры, а этом просто ускоряет и все если много памяти
Аноним 26/07/25 Суб 22:10:50 1289433 192
>>1289395
> сказали самому нахуй пойти к ChatGPT
Готовых интерфейсов для хлебушков нету, сам писать простой код не хочешь, просить помощи у ллм это самый разумный путь а не посыл нахуй.
>>1289415
> Разве именно эта мысль?
Заваруха от беспредела из-за монополизации и централизации являются клише для чуть ли не каждого второго тайтла подобных тематик.
>>1289418
> а смысл больше
Необходимо для качественного, стабильного обучения и регуляризации. Есть и редкие исключения где мелкий батч дает хорошие результаты.
> будет жрать не 30, а 70-80 гб оперативки при batch_size = 2
Нет, если тренируются только матрицы лоры то рост будет сильно меньше. Если включишь чекпоинтинг - рост с повышением батчсайза будет на единицы-десятки процентов а не кратно.
> на оперативку
А ее, если все нормально организовано, чаще кушает даталоадер, убери pin_memory и снизь их количество.
> требуется как минимум линукс/wsl
Это и есть "ничего не нужно толком" если ты отступаешь от популярных и заготовленных для хлебушков вещей. Пару-тройку месяцев назад на шинде с блеквеллом даже популярный инфиренс обычные юзеры не могли запустить.
Аноним 26/07/25 Суб 22:13:45 1289435 193
>>1289429
> стонало о том что что blackwell и собраться не может. Либо конфликты.
Лол ну как раз оно. Все это сводится к тому что нужно просто самому собрать используемые либы под куду 128 если они уже не собраны.
А шинда непригодна для нормального обучения уже ввиду отсутствия поддержки дистрибьютед операций в nccl. Костыли нельзя назвать работоспособными.
Аноним 26/07/25 Суб 22:18:59 1289440 194
изображение.png 279Кб, 2261x1368
2261x1368
изображение.png 141Кб, 1665x1163
1665x1163
изображение.png 31Кб, 613x298
613x298
>>1289429
>А ты в итоге через что тренируешь и у тебя 50 поколение или другое что-то?
5090, как у тебя, писал же. Точнее код был написал ещё когда у меня была 3090, но сейчас проверил, тренировка идёт так же. Просто стандартные чистые питорчи и прочее говно последних версий. Сначала ставишь куду 12.8, потом тупо через пип нужные пакеты. Торч по инструкции для нужной куды, остальное просто по имени пакета.
Адрес с кудой
https://developer.nvidia.com/cuda-12-8-0-download-archive
Команда для питорча
pip install torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128
Всё, вы прекрасны.
>>1289432
Там даже не в 10 раз скорость будет. У тебя просто всё во врам не влазит, как я вижу.
>>1289435
Ничего компилять не нужно по состоянию на вчера. Я ничего не компилял.
Аноним 26/07/25 Суб 22:26:01 1289444 195
>>1289440
> Ничего компилять не нужно
> flash attention @ bitsandbytes @ xformers
И тритон вдогонку. У тебя просто (почти) пустой без использования компилируемых вещей.
Аноним 26/07/25 Суб 22:32:08 1289446 196
>>1289444
Ну не используй битсадбайтес и подделку от террористов (а то арестуют), делов то. Тритон кстати поставился без компеляции, без него SPDA не врубался для геммы 3, а с ним в лёт пошло.
Аноним 26/07/25 Суб 22:40:48 1289450 197
>>1289347
>были прекрасно обыграны в фильме.
Что за фильм то?
>>1289368
>Фильм староват уже
Ещё лучше, сои меньше.
Аноним 26/07/25 Суб 22:51:43 1289455 198
>>1289446
> и подделку от террористов
Лолвут? За этим какое-то стори?
> не используй битсадбайтес
Если qlora маздай то врам-эффективные оптимизаторы очень полезны.
> Тритон кстати поставился без компеляции
Так это как раз подделка - тритон шиндоуз а не оригинальный, на него раньше сильно гнали.
> SPDA
С нем нельзя не рекомендуется тренить.
>>1289450
> Что за фильм то?
Ну ты, оттуда же маскот кончай треда https://www.imdb.com/title/tt1856101/
Аноним 26/07/25 Суб 22:56:56 1289458 199
>>1289455
>Лолвут? За этим какое-то стори?
Кроме того, что её выпустила организация, признанная террористической (ни за хуй собачий) ничего.
>Так это как раз подделка - тритон шиндоуз а не оригинальный, на него раньше сильно гнали.
Ну ХЗ, поставился и наверное даже пашет.
>С нем нельзя не рекомендуется тренить.
А с чем трейнить?
Аноним 26/07/25 Суб 23:08:35 1289464 200
image.png 81Кб, 1370x724
1370x724
2 часа тренировки на диалогах. Итоги. Даже если 1 в 1 пишу что-то из обучающих материалов получаю в ответ то же что и от базовой модели. Кайф
Аноним 26/07/25 Суб 23:10:32 1289468 201
>>1289458
> её выпустила организация
Ну так-то https://en.wikipedia.org/wiki/PyTorch
> А с чем трейнить?
Для ллм от гугла и еще некоторые eager.
>>1289464
Если тренишь лору то не забудь ее подключить.
Аноним 26/07/25 Суб 23:12:21 1289471 202
>>1289468
Я ее уже и подключил, и даже вмерджил в оригинальную модель и так попробовал запустить. Вообще 0 отличий от оригинала
Аноним 26/07/25 Суб 23:13:43 1289472 203
>>1289471
Это странно, попробуй сравнить веса оригинала и вмердженной и глянуть значения внутри самой лоры.
Аноним 26/07/25 Суб 23:15:26 1289474 204
>>1289472
Веса-то какие есть, аж на 222 Мб. Но вот понять что там внутри я вообще хз как
Аноним 26/07/25 Суб 23:18:39 1289477 205
>>1289474
> понять что там внутри я вообще хз как
state_dict = safetensors.load('/path')
for k,v in state_dict.items():
print(f'{k}: {v.mean()}, {v.max()}, {v.min}')

С импортами и отступами сам разберешься.
Аноним 26/07/25 Суб 23:25:06 1289481 206
image.png 81Кб, 1178x330
1178x330
image.png 199Кб, 1179x671
1179x671
Кто-нибудь пробовал cunny-ролеплей с моим системным промптом по сути перевод аноновского пресета для Mistral-Small-3.2-24B-Instruct-2506 ? На сколько все плохо?

https://pixeldrain.com/u/TVYnXnYH
Аноним 26/07/25 Суб 23:25:45 1289482 207
2025-07-26232119.png 14Кб, 958x421
958x421
>>1289395
>Ничего я тебе не дам. Мне тут сказали самому нахуй пойти к ChatGPT вот и тебе даю такой же совет. Мне написал и тебе напишет значит
Твой код с конфигами нужен будет чтобы понять в чем ты обосрался, после того как ты проверишь модель.
>batch_size = 1
>grad_accumulation_steps = 4
Маленький батч. Но если че, аккумуляция = батч, так что память на батчи можешь не тратить.

Как у тебя вообще модель влезла, хз. Хотя на 2к токенах, это мало совсем. У тебя чекпоинтинг включен?

>>1289474
>Веса-то какие есть, аж на 222 Мб. Но вот понять что там внутри я вообще хз как
Там могут быть 222 мегабайта нулей. И модель на нули в лоре реагирует буквально никак, как будто ее нет. Альфа еще какая у лоры?
Можешь посмотреть в этой штуке https://netron.app/ как на скрине, в up блоках могут быть нули или маленькие значения, значит нихуя не обучилось.
Ты пока смотри, я еще тебе допишу некоторые мысли по поводу лор.
Аноним 26/07/25 Суб 23:26:24 1289484 208
Аноним 26/07/25 Суб 23:28:32 1289486 209
>>1289482
> Твой код с конфигами нужен будет чтобы понять в чем ты обосрался, после того как ты проверишь модель.
Ну допустим https://pastebin.com/wJbbT5tg

> Там могут быть 222 мегабайта нулей
Да там вроде и не нули
Аноним 26/07/25 Суб 23:30:19 1289487 210
>>1289482
> Как у тебя вообще модель влезла, хз
Я так понял частично своп в оперативку. Ее относительно много, 96 гб
Аноним 26/07/25 Суб 23:35:28 1289490 211
>>1289482
> Как у тебя вообще модель влезла
А чего ей не влезать, кушает около 25гигов, как раз на небольшой контекст и сотню миллионов тренируемых параметров останется.
>>1289484
Уже хорошо что не нули.
>>1289486
А где оптимайзер в аургментах? Даталоадер и парсер проверь, корректно ли возвращает.
Аноним 26/07/25 Суб 23:40:26 1289494 212
изображение.png 3Кб, 248x61
248x61
>>1289468
>Ну так-то
А ты не очень замечательный.
>>1289481
>cunny-ролеплей
Осторожно, тут такое трут.
Аноним 26/07/25 Суб 23:45:05 1289498 213
1660538466481.png 47Кб, 466x367
466x367
>>1289481
> Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
Отборное
> -ролеплей
Должен быть из коробки а промпты уже по вкусу, натаскивать - плохая идея.
>>1289494
> А ты не очень замечательный.
пикрел
Аноним 26/07/25 Суб 23:52:11 1289506 214
>>1289498
> -ролеплей
>Должен быть из коробки
Приведи пример модели где тян не ведут себя как шлюхи, и может канни рп?
Аноним 26/07/25 Суб 23:57:28 1289511 215
>>1289498
>пикрел
О, так даже лучше. Присядут все!
Аноним 27/07/25 Вск 00:04:15 1289519 216
>>1289506
Большой квен
>>1289511
О том и речь же, лол. Не ну есть еще onnx и tensorflow.
Аноним 27/07/25 Вск 00:06:44 1289521 217
>>1289498
С таким подходом и АстраЛинукс нельзя использовать, там ведь ядро финский нацик писал.
Аноним 27/07/25 Вск 00:35:51 1289530 218
>>1289521
Ты начинаешь что-то понимать.
Аноним 27/07/25 Вск 00:55:21 1289533 219
>>1289530
Уровень твоей шизы? Сложно даже имадженировать.
Аноним 27/07/25 Вск 00:57:46 1289534 220
>>1289533
Давно известно, что все новые законы пишутся только ради того, чтобы каждый был под статьёй. Ебать ты тёмный.
Аноним 27/07/25 Вск 01:02:30 1289535 221
>>1289534
И кто запрещает пользоваться софтом Меты? Голоса у тебя в голове? Нет ни одного закона, который бы запрещал хоть какой-то софт. Будь он хоть от ИГИЛа.
Аноним 27/07/25 Вск 01:21:49 1289539 222
Продолжение мыслей отсюда >>1289482

Кароч результат с обычной ванильной лоры всегда говно. В sd-тредах проверено на практике, есть куча статей конкретно по ллм, там картина еще хуже.
Проблемы, например, с тем что по хорошему надо нормировать масштаб обновлений по a*b раздельно. Ибо вторая инициализируется нулями, и в процессе это все перекосоебывает. Там код для этого не особо сложный, но надо будет самому внедрять. В обсуждениях по sd есть готовый пример, если тебе интересно этим заниматься, найду ссылку. Также стоит делать обучаемые альфы. Это в принципе просто конфигом задается. Но надо делать 2 тренировки, первую только чтобы подобрать коэффициенты альф, потом они фиксируются и их надо подставить во вторую тренировку.

С ванильной лорой есть метод чуть попроще и не хуже, но я его делал для sd в гуях. Суть в том чтобы разбить модель через svd на 2 составляющие. Одной из них инициализируется лора, и тренировка стартует с нее. Повторюсь, для sd это делается буквально в несколько кликов через мержер и пару трюков, чтобы все правильно взлетело. Если ты умеешь делать экстракт лоры из модели, мержить/вычитать отдельно лоры/модели и запекать лору в модель, то тебе достаточно этих инструментов, и потом ты просто стартуешь тренировку с получившегося файла.
Работает намного стабильнее, не нужна подборка альф.
Если интересно напишу подробнее схему процесса.

Потом есть всякие прикольные peft методы, самое не пердольное - dora. В твоем коде оно должно быть доступно. Точно будет лучше обычной лоры и не тяжелее.
Также в sd-треде анон форсил boft как что-то охуенно работающее, но в сдскриптах его реализация в 3 раза медленнее лоры. Там еще надо включать 2 параметра в его конфиге. Один из них это какие-то доп. веса, а второй коэффициент типа аналог альфы или wd, не помню.

Недавно вышла интересная статья с новым методом https://www.alphaxiv.org/ru/overview/2507.05566v1 должно быть еще лучше всяких dora и т.п.
Плюсом сокращает обучаемые параметры в 2 раза. Но надо самому кодить, идея простая, ллмка прочитает статью и справится, думаю. Но там инициализация пердольная, с планировщиком. Может заруинить все плюсы метода.
Если бы ее инициализировать как я писал через svd, было бы вообще прекрасно. Но хз как.

Вот тебе 4 варианта, куда копать если ты хочешь срезать углы и выжать максимум из лоры.
Я так понимаю, тебе пока лишь бы просто запустить, но все же...


Потом, у тебя в коде не указан оптимайзер. Хз что там по дефолту. Из классических лучше всего adamW обычный. В том же sd-треде хайпуют Prodigy + Schedule-Free, нужно ставить отдельно отсюда https://github.com/LoganBooker/prodigy-plus-schedule-free


С маленьким набором данных еще желателен подбор wd (weight decay) чтобы модель не переобучалась. Включение ema (exponential model average). И всякие хитрые трюки с мержами промежуточных чекпоинтов. Например вычесть разницу, чтобы получить только обученную часть весов, умножить ее на 0.9, добавить обратно и продолжать тренировку с нее. (То же самое - просто смержить с исходной моделью с низким коэффициентом.) Или мержить несколько промежуточных чекпоинтов. (Это что-то типа ema, только с одинаковым весом по всей истории тренировки, была статья где это хорошо работало на претрене.)

>>1289484
>https://pastebin.com/DjNFuQHs
>>1289486
>Да там вроде и не нули
Не нули, да, что-то есть. Посмотри в https://netron.app/ есть ли вообще альфа в файле и с каким весом ты в итоге мержешь лору с моделью.

Также советую все же не тренить на винде, а поставить прыщи в дуалбут. Сэкономишь и память и быстрее будет. WSL это говно которое тормозит и насыпает проблем на ровном месте.
И желательно чтобы на компе ничего лишнего в момент тренировки не крутилось, еще лучше чтобы выход на монитор шел со встройки или другой карты. Твои 2к токенов, которые кое-как влезают - это ни о чем.
Аноним 27/07/25 Вск 01:40:41 1289548 223
>>1289539
Я тут параллельно попробовал лору с почти тем же кодом, но чуть доработанным на Qwen3-0.6B с теми же данными - и вот там прям сразу видно что работает. Если еще точнее, то почти генератор бреда, но на основе того на чем обучал. Довольно забавные ответы на вопросы по типа "а ты вообще кто?" или "пошла вон отсюда" выдает. То есть на большой модели в теории тоже должно работать, но нужно поиграться с настройками. Какого хера в первый раз на 12B вообще эффекта 0 пока не знаю, буду изучать
Аноним 27/07/25 Вск 01:50:38 1289558 224
Аноним 27/07/25 Вск 02:32:22 1289581 225
>>1289535
Сначала они пришли за твитором и лицекнигой, но ты в них не сидел. Потом начали замедлять данные удалены
>>1289539
> В sd-тредах
Честно говоря, то что там обсуждают или давно внедрено и используется, или имеет крайне опосредованное отношение к ллм и переоцененную важность.
Весь этот бисер позволит на крохи улучшить результаты, но не решает фундаментальных проблем peft и тем более не вывезет базовые косяки проблемного датасета и явных ошибок.
> dora
Это база которая не первый год используется всеми по дефолту.
> https://www.alphaxiv.org/ru/overview/2507.05566v1
Решают одну проблему и порождают пачку других.
> С маленьким набором данных
Лучше вообще не делать тренировку если только это не картиночная лора на еот.
> WSL это говно которое тормозит
Основная беда там на доступ в основную файловую систему, но с нормальной настройкой даталоадеров не доставит неудобств. Офк нативные прыщи лучше, особенно по свободной рам, но всл для начала может быть вариантом.

Если это ты тренируешь - лучше сначала не забивать голову всем этим а добиться базовой работы. Потом уже можно поиграться постепенно добавляя и оценивая. Но не питай завышенных ожиданий, старина adamw (ну может быть ademamix и их квантованные вариации), хороший сбалансированный датасет с аугментацией - вот основы основ, остальное имеет уже следующий порядок малости по влиянию на результат. И, разумеется, полновесная тренировка. Исключения редки и специфичны.
Аноним 27/07/25 Вск 02:38:15 1289584 226
>>1289581
> Основная беда там на доступ в основную файловую систему
Просто не нужно гонять байты на хост фс. Ещё и проблемы с правами на файлы могут быть.
Сам всл пушка гонка, выкинул дуалбут ещё с времён всл1, а сейчас туда завезли поддержку гуя и видеокарт и вообще стало хорошо жить
Аноним 27/07/25 Вск 05:30:20 1289617 227
RTX5090的显卡是怎么生产[...].mp4 13785Кб, 640x360, 00:06:48
640x360
Аноним 27/07/25 Вск 09:36:29 1289674 228
>>1289481
>Кто-нибудь пробовал cunny-ролеплей с моим системным промптом по сути перевод аноновского пресета для Mistral-Small-3.2-24B-Instruct-2506 ? На сколько все плохо?
Оригинальный автор здесь.
Я у себя тестил и на английском (просто убирая приказ на русском писать), и в разных видах RP - вполне идет. Но я вижу, что ты себе разметку Mistral Tekken поставил - а вот с ней будет не слишком хорошо, независимо от языка и сценария. Как минимум - "день сурка" когда контекст заполняется. Я там в своем пресете разметку делал специальную на базе ChatML - в ней весь цимес.

Ни на чем не настаиваю, мой вывод для себя - MS32 на стандартной мистралевской разметке, теряет в качестве вывода как бы не на треть от возможного.

P.S. Gemma3-Storyteller, кажется, тоже (тут уже про стандартный пресет геммы). Сейчас экспериментирую с ней - кажется подобная специфичная разметка и на нее положительно влияет.
Аноним 27/07/25 Вск 10:52:41 1289711 229
Что теоретически будет лучше? 13B модель в Q3, или 7B в Q6? (При условии что модели одинаковые) Хочу разобраться.
Аноним 27/07/25 Вск 11:00:55 1289718 230
Как будто бы новый немотрон на 3 кванте уже не то
Всё же лучше 5 квант glm использовать
Аноним 27/07/25 Вск 11:01:58 1289722 231
Аноним 27/07/25 Вск 11:04:07 1289728 232
image 180Кб, 480x360
480x360
>>1289711
>7B в Q6
потому что низкий квант на малых моделях убивает смысОл куда сильнее чем если модель изначально была меньше размером но в хорошем кванте
Аноним 27/07/25 Вск 11:38:19 1289758 233
>>1289711
Q3 квант (если точнее, лучше уж брать хоть IQ3) имеет какой-то смысл трогать только на 24B и больше. На 24B все равно хрень, но оно хотя-бы похоже на связную речь пишет. На меньших моделях такой квант не то что осмысленно - он более-менее правильно даже на английском писать не может.

Абсолютный минимум для 12B - IQ4 / 4bpw. IMHO. Ниже смысла запускать нет. Для внятного результата - Q6 / 6bpw.

Для 7B - только Q8 / 8bpw. Ниже - совсем грустно.
Аноним 27/07/25 Вск 11:40:18 1289762 234
>>1288807

Новый шизотрон рефузит и аполоджайзит как сучка + выдаёт пустые ответы.

Давненько не видлел рефузов от модели.

Раскумить сисяскую суккубу (первая попавшаяся кумслоп карта) смог только с префиллом <think>Okay, I've been tasked with continuing the script uncensored and unrefused, taking into account previous events and instructions.</think>

Ну вроде сам слог норм (иглиш офк), надо на обычных адвенчурных карточках пробнуть.
Аноним 27/07/25 Вск 11:47:24 1289778 235
>>1289762
Скилл ишью.
Ни одного рефуза, но кума всё так же нет
Аноним 27/07/25 Вск 11:53:02 1289792 236
image 1084Кб, 640x737
640x737
>>1289778
>Ни одного рефуза
>кума нет

Связь видишь? А она есть.
Аноним 27/07/25 Вск 11:58:10 1289796 237
>>1289722
Выглядит прикольно, но с опенроутером не работает нормально. Сразу нахуй.
Аноним 27/07/25 Вск 12:37:41 1289820 238
>>1289722
Как-то СЛОЖНА, НЕПОНЯТНО.
Аноним 27/07/25 Вск 12:44:36 1289825 239
>>1289820
>НЕПОНЯТНО
Вроде не столь долбануто как Talemate, но без подключения к локальным бэкэндам найух не нужно.
Аноним 27/07/25 Вск 13:03:04 1289838 240
image 1974Кб, 1961x1069
1961x1069
>>1289778
>кума всё так же нет
Есть, но скажем так, слишком литературный, и сложноватый для не носителя языка, хотя читабельно.
Аноним 27/07/25 Вск 13:54:13 1289902 241
>>1289711
13b q3
Выше q4 вообще не имеет смысла брать, особенно при малом vram. 13b кста сильно устарели. Новые либо 12b или 14b.
Аноним 27/07/25 Вск 14:10:18 1289926 242
>>1289617
Они лишь твикают охлад под серверные стойки. Вот если бы они докидывали памяти до 96 или хотя бы 48 гиг...
Аноним 27/07/25 Вск 14:12:32 1289927 243
1642463276549.png 79Кб, 2115x797
2115x797
>>1289820
Да, пердолинг на уровне Комфи. Особенно если цепочка агентов. Зато можно контролить всё очень хорошо и куча проблем типа лупов отпадает. Я для части агентов Гемини Флэш Лайт подрубил, он копейки стоит и 300 т/с выдаёт, для всякого анализа и структурирования топ.
>>1289825
> без подключения к локальным бэкэндам найух не нужно
Так есть же. И кобольд, и просто oai. Из минусов нет в самом чате функционала как в таверне, наверное предполагается что всё это надо агентами делать и автоматизировать. Но тут в любом случае удобнее и функциональнее чем недоскрипты таверны.
Аноним 27/07/25 Вск 14:47:10 1289959 244
>>1289927
сяп, раньше вроде не было, надо тогда потыкать
Аноним 27/07/25 Вск 14:58:05 1289975 245
>>1289722
Вот это хорошо, теперь можно не скрипты пердолить а на лапшу наматываться
>>1289825
Как сам локальный, так и апи поддерживает.
Аноним 27/07/25 Вск 15:00:08 1289978 246
>>1289674
Я щас пробую мною приведёнными твоими Context Template и Instruct Template. Как будто логика хуже, но свайпы не зацикливается как в Магнум Мистрал 7 пресете.
>Gemma3-Storyteller
Попробую но уже на 24b скорость (1.84T/s) 2k контекста, на около тридцатниках можно кушать уходить ждя ответ.
Аноним 27/07/25 Вск 15:26:21 1290027 247
Попробовал синтию после активного сидения на dpo, как ее заставить меньше повторяться и не писать до конца токенов? Поскольку она пишет и пишет, остановиться сама не может.
Аноним 27/07/25 Вск 15:38:20 1290035 248
>>1289778
>>1289762
В Новом Немотрончике кум весьма сочный, рефузов пока не встречал. Ризонинг выкл.
Хотя мне показалось что сторителлинг в Гемме 3(Синтии) чуть лучше, запустил её и почти сразу всплакнул от того какой там вялый кум. Закрыл. Сегодня снова буду весь день тестировать Немотрон.
Аноним 27/07/25 Вск 16:03:58 1290075 249
Несколько вопросов.

1. Если размер контента самой модели ограничен, например, 4k или 8k, как так получается, что в том же кобольде можно выставить 12-16k и в консоли видеть, как он этот объем скармливает модели? Хто врёт?

2. Возможно использовать две разные видеокарты для увеличения VRAM? Например, к 3060 добавить 1050Ti - кто-нибудь так делал, есть ли какие-то подводные камни у такого решения?
Аноним 27/07/25 Вск 16:04:52 1290078 250
175362082365952[...].jpg 406Кб, 1200x1811
1200x1811
Аноним 27/07/25 Вск 16:06:52 1290085 251
>>1289838
Если написать ooc: дай сочный кум то он даёт, а не вот это недоразумение на твоем пике
Но я ебал этот пердолинг
Аноним 27/07/25 Вск 16:16:41 1290094 252
>>1290075
>контента
у тебя есть ограничение при запуске модели в контексте, например 8к, то сколько бы ты не выставил в таверне или кобольде, больше не будет. Никак не скармливает, он либо вылетет при переполнении (ллама.цпп) либо кобольд, насколько знаю, обрежет самый старый контекст.
>1050ти
старое говно. Не знаю как это работает у энвиде насчет сочетания архитектур, потому что тут запускают 3090 и 4090, но смысла ноль 1050ти втыкать в целом. паскаль мертвая архитектура для нейронок.
Аноним 27/07/25 Вск 16:56:18 1290133 253
>>1287099 →
> llama_new_context_with_model: pipeline parallelism enabled (n_copies=4)
нахуято по дефолту включено пожирание 4х от необходимого объёма оперативы. сука сначала --no-mmap, потом --mlock, теперь это, когда-нибудь этот долбоебизм с плохими параметрами по дефолту закончится?
лечится добавлением -DGGML_SCHED_MAX_COPIES=1 в параметры сборки.
другие рекомендованные параметры -DGGML_IQK_FA_ALL_QUANTS=1 -DGGML_CUDA_IQK_FORCE_BF16=1
никакого видимого изменения не дали, pp/tg идентичны бинарю без оных.
Аноним 27/07/25 Вск 17:05:40 1290162 254
Посоветуйте модель, которая максимально точно по сравнению с остальными вариантами передает исторические события и техническую информацию (о химии, например). Чтобы не была по этим вопросам зацензуренна (может вставлять оценочные суждения, например называть некоторые источники (не)авторитетными, но чтобы полно и корректно передавала суть).

Скорость генерации не важна, пусть хоть 1 токен в 2 секунды на моей 2060super 8gb будет, главное, чтоба она в себе несла +- всю информацию накопленную в свободном интернете.

Проект "интернет" по всему миру закрывается и только сейчас приходит понимание, насколько свободный доступ к информации является роскошью по историческим меркам. Не хочется потерять такое великое благо с окукливанием стран в собственной цензуре.
Аноним 27/07/25 Вск 17:10:09 1290166 255
>>1290162
А еще посоветуйте модель на 27 млрд и менее параметров, которая тоже неплохо разбирается в технической информации, чтобы могла обучать меня в реальном времени, как репетитор.

У меня сейчас gemma 2 27B. Она хороша в этом или есть модели лучше? Код, вроде, норм генерила.
Аноним 27/07/25 Вск 17:13:11 1290169 256
>>1290166
Если не больше, то лучше варианта нет
Аноним 27/07/25 Вск 17:20:32 1290176 257
>>1290133
>DGGML_SCHED_MAX_COPIES=1
4 не просто так, должно давать ускорение. 1 ставится только если тебе обязательно надо выиграть по видеопамяти
>DGGML_IQK_FA_ALL_QUANTS=1
Это хуета, кочующая из совета в совет. На деле и не даст нихуя. Вроде как включает поддержку нестандартных квантов или каких-то комбинаций их параметров.
Аноним 27/07/25 Вск 17:25:46 1290179 258
Месяц сюда не заглядывал. Появился ли новый топ для ру моделей 12-14b?
Аноним 27/07/25 Вск 17:34:36 1290182 259
>>1290176
> 4 не просто так, должно давать ускорение.
значит всё-таки баг в ik_llama, потому что оно резервирует 262 гб врам для модели весом 163 гб
Аноним 27/07/25 Вск 17:35:28 1290185 260
Короче похуй кто там что советует немотрон тестили и точили под темп 0.6 и Top P 0.95 и эти семплеры пока что выдают лучшие ответы
Темплейты лама 3 инстракт неймс
Всё больше ниче не надо, только систем промпт под себя, но очень аккуратно
Аноним 27/07/25 Вск 17:37:12 1290187 261
image.png 16Кб, 417x38
417x38
>>1290185
Для кума делаете очень просто: литерали пишете в скобочках че хотите увидеть, работает в сто раз лучше чем просто сказать персу соси
Аноним 27/07/25 Вск 17:42:40 1290193 262
>>1290075
>1. Если размер контента самой модели ограничен, например, 4k
Я тебе говорю ты на старые модели смотришь. 4к контекста уже нигде нет. Все что старше полугода говно мамонта. Исключением могут быть модели от 72b, там прогресс медленно идет.

У всех сеток можно расширить контекст до 16к. Как правило пальца можешь запомнить - до 4к контекста это самый мозг, от 8к уже тупее, больше 12к резко вниз идет логика.
>к 3060 добавить 1050Ti
Хуже чем есть не имеет смысла брать, скорость только ухудшится, тем более без RTX ядер. Бери либо еще одну 3060, либо ту где еще больше врам.
Аноним 27/07/25 Вск 18:09:27 1290207 263
>>1290094
>паскаль мертвая архитектура для нейронок
Теслабояре, гоняющие квен, смотрят на тебя с сожалением
Аноним 27/07/25 Вск 18:27:36 1290216 264
image.png 14Кб, 462x31
462x31
Ваау блять.
Вы видели когда то такое?
В 10 случаях из 10 вытерают рукавом, ну немотрон ну ебёёт
Аноним 27/07/25 Вск 18:31:14 1290220 265
>>1290075
1. Нихто. Скормить ты ей хоть мегабайт можешь - модель просто не переварит и хрень выдаст. Или просто вылетит при превышении - от бека зависит. Размер контекста модели - нигде жестко не закреплен.

2. Я так делаю. У меня 3060 12GB + P104-100 8GB. (Это майнерская на базе 1070 примерно) Суммарно 20GB vram - гемма 27B влазит в iq4xs, и 8t/s с ней на выходе. (15-18 на мистраль 24B)
Камни есть - как не быть. Только gguf - kobold или llama.cpp (exl2 и 3 работать на таком старье не будут). Можно еще угу запускать но смысла нету - кобольд для gguf удобнее, IMHO. Зато дешево - я ее за ~20$ взял, так что мне оно того стоит.

>>1290094
> паскаль мертвая архитектура для нейронок.
Да ладно. Если за копейки или уже лежит в шкафу - так почему бы нет. +8GB vram уже дают возможность нормально общаться с моделями классом выше, чем когда у тебя только 12GB vram. (Там только на 12B сидеть, и облизываться на все, что выше).
Аноним 27/07/25 Вск 18:55:32 1290228 266
Там 235б кстати обновили и разделили на instruct и thinking. Теперь это две разные модели, переключателем в начале промта не сменить режим.
Аноним 27/07/25 Вск 18:58:01 1290230 267
.jpg 4Кб, 224x224
224x224
>>1290216
Что там они у тебя вытирают? Можно и о простыню так-то, удобнее даже
Аноним 27/07/25 Вск 19:30:48 1290252 268
Аноним 27/07/25 Вск 19:35:33 1290255 269
>>1290252
> указать свои посты

вот: >>1288438
дайте мне банхаммер
Аноним 27/07/25 Вск 20:07:25 1290273 270
>>1290075
P104-100 (1070) 8-гиговая звучит раза в два лучше, стоит 2к рублей на авито.

Чел из треда добавил, порадовался существенно.

А, ну он отметился уже.

>>1290228
Да уж давно.
235б инстракт вроде норм рпшит, душевненько, атмосферненько.
Аноним 27/07/25 Вск 20:09:21 1290275 271
отговорите тратить 22к на ддр4 256гб, чтоб запускать свежие квен, а лучше кинуть косарик на опенроутер и дрочить их оттуда, в чем не прав?
Аноним 27/07/25 Вск 20:12:51 1290279 272
Как понять какая модель лучшая для 16гб видеокарты?
Аноним 27/07/25 Вск 20:38:30 1290293 273
>>1290179
>12-14b?
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M
весит 13 ГБ

А вот именно в 12-14 вроде ничего нового и интересного не выходило. Меньше и больше - да, а вот именно в этом диапазоне нет.
Аноним 27/07/25 Вск 20:40:12 1290294 274
>>1290187
ассистентотрон позорный
Аноним 27/07/25 Вск 20:46:27 1290296 275
>>1290279
смотря для чего

Но в целом не знаешь что тебе надо - бери мистраль.

Гемма-поделия хуже во всём "неподобающем" (даже аблитерированные / тюны которые хотя бы найух не пошлют) но лучше в дженерик сторителлинге.

Квены всех форм - хорошие ассистенты и рабочие лошадки.

Семейство коммандеров славится минимальной цензурой и следующий шаг после мистралей.

Если отчаянный и терпеливый, можешь даже 3-4 квант немотрона нового воткнуть.
Аноним 27/07/25 Вск 20:49:18 1290297 276
>>1290273
>P104-100 (1070) 8-гиговая звучит раза в два лучше, стоит 2к рублей на авито.
А нужно с ней пердолиться? Или воткнул как вторую и нормально через кобольд на винде все будет?
Аноним 27/07/25 Вск 20:50:53 1290298 277
>>1290296
Я немного о другом, вот есть 16гб карта и 32 оперативы. Как понять влезет модель или нет? Дальше я уже потестирую все.

Вот допустим qwen3:32b весит 20GB и по тестам норм. Получается мне нужна карта на 20+ гб? или нужно найти квантованную и тогда запустится?
Аноним 27/07/25 Вск 20:55:09 1290299 278
>>1290298
>Как понять влезет модель или нет?
Элементарно - прикидываешь хуй к носу размер GGUF к размеру RAM+VRAM и всё. Констекст дейтсвительно жирный только у геммы ( с --swa-full ), у остальных занимает немного места в памяти, особенно если его квантование до Q8 подрубить.
Аноним 27/07/25 Вск 20:57:53 1290301 279
>>1290298
>16гб карта и 32 оперативы
Ты можешь в такое даже Llama-3_3-Nemotron-Super-49B-v1_5-IQ3 воткнуть... и получить 3-4 т/с, но работать будет.
Аноним 27/07/25 Вск 21:01:26 1290302 280
кто-нибудь встречал тесты квантования контекста? что q4 это гроб гроб вроде везде пишут, а вот насчёт разницы fp16 и q8 хз
Аноним 27/07/25 Вск 21:04:16 1290306 281
>>1290302
От модели зависит. q8 кэш отлично работает у меня с 27B геммой, но ломает к хуям 32B QWQ, и то и другое q4KL (не тюненные).
Аноним 27/07/25 Вск 21:13:34 1290308 282
>>1290306
Я как понять ломает квантвование или нет? если выдает кракозябры и белиберду, то понятно, а если на первый взгляд адекватный ответ?
Аноним 27/07/25 Вск 21:14:23 1290310 283
>>1290302
>q4 это гроб гроб
На гемме даже q4 можно, до 24К контекста у меня норм было.

На остальных лучше не квантовать.
Аноним 27/07/25 Вск 21:15:10 1290312 284
>>1290308
проёбываться в деталях, забывать мелкие подробности
Аноним 27/07/25 Вск 21:16:13 1290313 285
>>1290308
Путем включения мозга и поиска девиаций.
Генерируешь десяток ответов на один и тот же вопрос, сохраняешь в блокнотике.
Генерируешь десяток ответов на тот же вопрос, но уже с квантованным кэшем - сравниваешь.

Если совсем тупой или ленивый - скорми все 20 вариантов какомунить дипсику, не говори где квантование - если угадает, значит стало хуже.

Но когда там реально ухудшается, модель просто срет полный нонсенс.
Аноним 27/07/25 Вск 21:16:40 1290314 286
>>1290185
Немотрон очень странный в плане работы семплера, и 0 темпу ставишь адекватно пишет, и 3,5 тоже, главное чтоб хотя бы немного МинП было (0,02). с ТопП 0.95 по ощущениям чуть хуже результат, но может у меня глаза уже замылились. Кручу эти семплеры уже задолбался, на других моделях очень быстро находишь границу адекватности для темпы и остального.
Аноним 27/07/25 Вск 21:19:15 1290315 287
>>1290314
0.05 минп, темпа 2, XTC 0.1 / 0.1 пока так остановился
Аноним 27/07/25 Вск 21:26:16 1290318 288
>>1290207
Ага, бояре сидящие на копролитах
Аноним 27/07/25 Вск 21:27:46 1290320 289
>>1290297
На винде - понятия не имею, у меня пингвин. Тут воткнул - и сразу работает, никакой мороки.
Аноним 27/07/25 Вск 21:40:53 1290325 290
Анон, а как понять, насколько тяжелую модель может потянуть моя печка? Примерные соответствия где-то глянуть можно?
Или только экспериментировать, запускается ли и как быстро отвечает?
Аноним 27/07/25 Вск 21:49:17 1290328 291
>>1290325
Жрет видеопамять не только модель, но и контекстное окно, которое ты задал и заполнил (твои запросы в рамках одного чата).
Не стоит забывать, что если видюха одна и ты винду юзаешь - часть видеопамяти будет зарезервирована системой. У меня на одной видюхе модель не может больше 13гб из 16.0гб сожрать.
Аноним 27/07/25 Вск 22:10:20 1290333 292
>>1290328
> винда жрёт 3 гигабайта видеопамяти когда прыщеблядикс рендерит 3д рабочие столы на 256 мегабайтах
хех мда кек
Аноним 27/07/25 Вск 22:11:27 1290337 293
>>1290075
> Если размер контента самой модели ограничен, например, 4k или 8k
Такую модель лучше не использовать, она очень старая.
> 2. Возможно использовать две разные видеокарты для увеличения VRAM?
Да, но совсем старую не стоит.
>>1290187
Можно и сразу самому в блокноте написать.
>>1290193
> до 4к контекста это самый мозг, от 8к уже тупее, больше 12к резко вниз идет логика
Какая-то дичь.
>>1290275
Потрать 80 на ддр5.
Аноним 27/07/25 Вск 22:12:51 1290338 294
>>1290333
Она не жрет, она резервирует. ЛЛМщики совсем читать разучились. Но это, впрочем, еще более обидно, потому что эти условные 3гб ничем не заняты.
Аноним 27/07/25 Вск 22:13:37 1290339 295
>>1290315
Поставил такие, только темпу до 1.5 снизил, вроде пока неплохо.
А вот как настройки XTC работают? Второе это шанс срабатывания, а первое убирает все токены с шансом больше 10%(0.1) или как? Читал тред на гитхабе, но так до конца и не понял с настройками. Задача ясна - убрать наиболее вероятные токены для разнообразия, но вот настройки... И там в основном 0.5 советуют Probability.
Расскажите кто разбирается в теме?
Аноним 27/07/25 Вск 22:31:25 1290349 296
>>1290333
>>1290338
Более того, пингвин может вам вообще освободить видеокарту. Если их две (скажем интеграшка intel и nvidia).
Будет делать рендер рабочего стола на iGPU, а nvidia будет ПОЛНОСТЬЮ свободной. При этом, если таки приспичит погонять игру или что-то нагруженное - можно запускать на мощной карте, а выводится оно будет через iGPU через prime (как на новых ноутах с гибридной графикой). Цимес в том, что карта нагружена только когда это реально нужно, и только нужной задачей. Минус - немного меньше FPS в игрушке чем при прямом включении.
Но эта конфигурация уже таки требует немного ручной настройки, однократно. :) (Нужно пингвину объяснить, что не надо сразу на nvidia иксы запускать, а нужно iGPU для них юзать.)
Аноним 27/07/25 Вск 22:32:17 1290351 297
>>1290349
>Если их две (скажем интеграшка intel и nvidia).
Ну так при двух и на винде вторая карта пустая на 100%
Аноним 27/07/25 Вск 22:51:31 1290362 298
Как же хочется интеграшку...
Аноним 27/07/25 Вск 22:59:38 1290368 299
>>1290351
Она то пустая. Вот только тяжелую игру с выводом на монитор через другую карту на ней запустить можно, если это не специализированный ноутбук? Я последний раз на ней вдумчиво сидел году в 18-ом если не раньше... Тогда она так не умела на простом десктопе. А стоит подключить второй монитор к такой карте, как винда и ее резервирует. Если не поменялось поведение за это время.
Аноним 27/07/25 Вск 23:04:11 1290373 300
B4wV2RxS-M.jpg 77Кб, 577x575
577x575
Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду, мдааа.... а интеллект-то реально чувствуется, что выше, чем у 12В. Грусть....
А есть что-нибудь годное на 16В?
Аноним 27/07/25 Вск 23:05:27 1290375 301
>>1290362
бледную, нецелованную невставлявшуюся в слот
Аноним 27/07/25 Вск 23:05:53 1290376 302
>>1290368
Ноуты же так и работают
Аноним 27/07/25 Вск 23:09:22 1290379 303
>>1289722
О! Покопался - офигенная штука, кажись. Разумеется, это для тех кому креативить интересно. Пока еще не Comfy, но явно туда движется. На кобольде работает, только дефолтовые мозги из четырех агентов - долго шуршат на локалке. Надо разбираться и самому писать, возможно для чего-то мини-модели используя. Остальное потыкал - внятно обустроено. Если скриптинг там тоже вменяемый на практике - это то, чего я давно ждал. И документация есть, вроде бы актуальная. Хороший подход, одобряю... :)
Аноним 27/07/25 Вск 23:09:46 1290380 304
изображение.png 169Кб, 1789x1456
1789x1456
>>1290368
>Вот только тяжелую игру с выводом на монитор через другую карту на ней запустить можно, если это не специализированный ноутбук?
Просто идёшь в настройки шинды и выбираешь. Даже без ебли.
Аноним 27/07/25 Вск 23:12:03 1290382 305
>>1290368
Чел ты в какой там пещере сидишь? Все выбирается.
Аноним 27/07/25 Вск 23:12:47 1290383 306
>>1290380
Почти все игры игнорят настройки винды и запускают их на первом GPU в списке.
Аноним 27/07/25 Вск 23:13:26 1290384 307
>>1290376
Чел, ну я же так и написал. Ноуты - да, а десктопы? Раньше винда на них так не умела. Сейчас - не знаю.

>>1290373
>Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду, мдааа.... а интеллект-то реально чувствуется, что выше, чем у 12В. Грусть....
Там наверху в шапке - есть методика по выгрузке тензоров а не слоев. С ней можно из мистрали 24B выжать 5-6 токенов на 3060.
Аноним 27/07/25 Вск 23:14:22 1290385 308
>>1290375
для рядового анона доступнее замайненная во все ядра, с вытекающей из-под микросхем термопастой и обвислыми лопастями кулеров милфокарта с авито
Аноним 27/07/25 Вск 23:15:04 1290386 309
>>1290384
Какие ноуты, кто тут блядь с ноутом вообще сидит. Тебе про десктоп и говорят - какую печку надо для рендеринга игрулек, такую и ставишь.
Аноним 27/07/25 Вск 23:16:45 1290388 310
>>1290384
> методика по выгрузке тензоров а не слоев
Хм, спасибо, поизучаю!
Аноним 27/07/25 Вск 23:16:56 1290389 311
>>1290382
Я ж ответил - с винды ушел еще в 18-ом году. Тогда она так не умела на десктопах. А если это еще и с 11-ой скин - так у меня ее вообще не было.
Аноним 27/07/25 Вск 23:17:01 1290390 312
Рендеришь игру на одной видюхе.
Другая занимается генерацией кадров и апскейлингом.

SLI снова жив. Какой же хуанг мудак, масштабирование намеренно задушили и не стали разрабатывать дальше в рамках простых десктопов
Аноним 27/07/25 Вск 23:18:12 1290393 313
>>1290383
Это вопрос к разработчикм анусов игроделов игр. Впрочем, в этой половине игр в самой игре есть выбор адаптера.
>>1290389
>А если это еще и с 11-ой скин
С дейсяточки, 11 нахуй не нужна (если десятка это дристянка, то как обзывают 11? Я даже ХЗ).
>>1290390
>Рендеришь игру на одной видюхе.
>Другая занимается генерацией кадров и апскейлингом.
Это так не работает.
Аноним 27/07/25 Вск 23:20:49 1290395 314
>>1290373
> Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду
А у меня ~7 т/с на такой же видеокарте в Q4_K_XL кванте. Ты что-то делаешь неправильно. Или 8 квант запускаешь нахуя? или выгрузил мало слоёв.
Аноним 27/07/25 Вск 23:22:39 1290396 315
>>1290393
>Это так не работает.
На краснухе работает с AFMF2. Не знаю что там у зеленых соплей.
Правда профита никакого по сути, потому что 200+ фпс с генерацией ощущается хуже чем 100 фпс без нее.
мимо
Аноним 27/07/25 Вск 23:23:30 1290397 316
>>1290396
>ощущается хуже чем 100 фпс без нее.
или чем 180 с генерацией на той же самой карте, которую рендерит игра
но все равно фейк-фреймы это ссанина
Аноним 27/07/25 Вск 23:25:05 1290399 317
>>1290395
У меня Q4_K_M от индуса. Ссылку можешь дать на свою модель?
Аноним 27/07/25 Вск 23:31:06 1290402 318
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов