Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 339 41 62
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №169 /llama/ Аноним 01/10/25 Срд 23:34:59 1372399 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 481Кб, 1520x2266
1520x2266
17586477294800.png 1158Кб, 1280x960
1280x960
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1367731 (OP)
>>1362911 (OP)
Аноним 01/10/25 Срд 23:37:05 1372402 2
The baze of THREADE
Главная и нерушимая база треда

Это ты анон. Используй что нравится.
Аноним 02/10/25 Чтв 00:39:42 1372451 3
>>1372402
настоящий баз оф тред - мистраль говно для рпшек
Аноним 02/10/25 Чтв 00:44:29 1372457 4
1000018063.webp 22Кб, 480x480
480x480
В этом треде мы формируем альянс вокруг квена 235б q2_s
Выше нам не прыгнуть на консумерском железе, ниже - дно и смерть
Проблемы есть, но незначительные
Аноним 02/10/25 Чтв 01:10:53 1372482 5
>>1372457
В прошлом треде предлагал попробовать первый квант глм. Никто не попробовал, зато высирают очередные тирады про квен. Фу такими быть.
Аноним 02/10/25 Чтв 01:14:56 1372488 6
image.png 20Кб, 331x204
331x204
>>1372482
Я попробовал вот буквально только что, пару свайпов
Пишет на уровне либо лучше квена q2_s, но абсолютно неюзабельно на 1.1 токена, не влезает квант в 24врам 64 рам
Аноним 02/10/25 Чтв 01:15:21 1372489 7
Как быть с контекстом? 16к улетают в момент. До тех пор пока он не заполнился задержка достаточно небольшая, но когда начинается удаление старого контекста все становится раком. Первый токен жду минут 5.
Аноним 02/10/25 Чтв 01:37:37 1372509 8
>>1372489
> До тех пор пока он не заполнился задержка достаточно небольшая
Потому что предыдущий контекст кешируется и не пересчитывается каждый раз.

> но когда начинается удаление старого контекста все становится раком.
> Первый токен жду минут 5.
Таверна/Кобольд вырезает самое старое сообщение, чтобы уместить новое. Т.к. контекст изменился в самом начале чата, происходит пересчет всех 16 тысяч. После того, как туда будет добавлено новое сообщение, процедура сразу же повторится при следующем, поскольку контекст уже снова заполнен. Чтобы этого избежать, нужно выгружать сообщения вручную при помощи команды /hide. Например, /hide 0-50 выгружает из контекста сообщения с 0 по 50 включительно. В чате они останутся, но в контексте их не будет.
Аноним 02/10/25 Чтв 01:40:29 1372516 9
>>1372489
Крч, играешь до заполнения контекста, потом суммарайз, потом делаешь как тут сказали >>1372509
И вин еще в том, что ты очищаешь чат от паттернов.
Аноним 02/10/25 Чтв 01:40:41 1372517 10
>>1372488
Так если ты нормально второй квант квена употреблял, то почему у тебя на такого же размера глм настолько низкая скорость?
Аноним 02/10/25 Чтв 01:43:16 1372522 11
>>1372482
Не спеши, пока много дел, завтра попробуем.
>>1372489
Повышай окно до 32-64-96+
Когда подбираешься к лимиту текущего контекста, делай суммарайз части постов в глубине и скрываешь /hide их, о том как сделать в прошлых тредах. Теперь у тебя появился запас на очередные несколько десятков-сотен постов до заполнения, потом повторяешь, добавляя к суммарайзу новое и опять скрывая.
Важно делать суммарайз достаточно подробным и сохранить хотябы несколько десятков постов после него от скрытых, чтобы было гладко.
Аноним 02/10/25 Чтв 01:48:02 1372527 12
>>1372517
Потому что он не такого же размера.
Глм 90гб, квен 80
Аноним 02/10/25 Чтв 02:01:51 1372532 13
Запустил квен 235б Q2_K_L от бартовски, оказывается он всего на 3.5г больше интел раунд Q2_S
К бартовски доверия больше, квант "выше", надеюсь будет стабильнее
Скорость такая же абсолютно
Аноним 02/10/25 Чтв 02:03:49 1372534 14
>>1372527
Ну вот кому ты пиздишь, а. TQ1_0 даже чуть меньше Q2_K квена. Я вангую ты взял IQ1_S, порвал себе видеокарту и говоришь, что не работает. Либо ты до этого юзал кванты бартовски у квена, но младшие там по 60 Гб, не 80.
Аноним 02/10/25 Чтв 02:05:28 1372535 15
>>1372527
Посмотрел, у бартовски IQ1_S вообще 77 гб. Не прыгай выше головы, епта.
Аноним 02/10/25 Чтв 02:06:26 1372536 16
image.png 21Кб, 2390x57
2390x57
image.png 25Кб, 2377x57
2377x57
Аноним 02/10/25 Чтв 02:10:48 1372549 17
>>1372536
Молодец, а теперь скажи, зачем тебе этот квант, если он у тебя не влезает в твой конфиг? Взять поменьше совесть не позволяет?
Аноним 02/10/25 Чтв 02:11:42 1372550 18
>>1372509 Понятно, благодарю. Автоматически это никак не включить?
>>1372522 Больше как-то не выходит. Vram 16гб, модель 11-12гб, на 8-16к контента память забивается и все зависает.
Аноним 02/10/25 Чтв 02:12:05 1372551 19
>>1372549
А почему ты не можешь признать что оказался не прав с размерами?
Аноним 02/10/25 Чтв 02:13:46 1372552 20
>>1372551
Ты идиот? Первых квантов дохуя разновидностей, ты взял тот, который не влезает и жалуешься, что скорость маленькая? Блять, до чего тред докатился, а.
Аноним 02/10/25 Чтв 02:14:27 1372554 21
>>1372532
У тебя сколько оперативки? У меня q2_k_s еле влезает, забита вся врам и рам.
>К бартовски доверия больше
К васяну, делающему ггуфы на потоке в дефольной жоровской ламе доверия больше чем к крупнейшей корпорации производящей процессоры? У них свой собственный алгоритм квантования, кстати, который квантует в 2 бита тольтко экспертов, все остальные слои там в 8 и 4 битах.
https://github.com/intel/auto-round
Аноним 02/10/25 Чтв 02:14:48 1372555 22
image.png 84Кб, 403x165
403x165
Аноним 02/10/25 Чтв 02:16:47 1372556 23
>>1372549
Действительно, у анслота на 6гб размер меньше.
Взял у убергарма под ikllama, ибо в дискорде увидел что KT кванты как-то хуево работают на обычной ламе
Аноним 02/10/25 Чтв 02:17:49 1372557 24
>>1372535
Еще же контекст, а он от степени заквантованности не зависит, только если его самого квантовать с вытекающими. Имея сильно ограниченную врам, даже выгружая всех экспертов на профессор на больших моделях упрешься в это, нужны дополнительные видеокарты.
>>1372554
Вот этого двачую, кванты от интела получше будут.

Тем временем прошло уже 3 недели, а поддержкой квен-некста в жоре так и не пахнет. На йоба соту https://huggingface.co/meituan-longcat/LongCat-Flash-Chat вообще хуй положили, надежды на полноценный парсер вызовов для квена и жлм исчезают. Оварида.
Аноним 02/10/25 Чтв 02:18:19 1372558 25
>>1372535
>>1372552
>скорость маленькая
В IQ кванте скорость by design будет еще хуже.
Аноним 02/10/25 Чтв 02:18:58 1372559 26
>>1372554
> К васяну, делающему ггуфы на потоке в дефольной жоровской ламе
Сейчас бы одного из самых значимых коммьюнити контрибьюторов Лламы называть васяном. Хехмда.
Аноним 02/10/25 Чтв 02:20:39 1372562 27
>>1372559
Ну справедливости ради, интел так то не бомжи с помойки.
Но смотря на 13 серию, я чёт сомневаюсь.
Аноним 02/10/25 Чтв 02:21:39 1372564 28
>>1372554
>У тебя сколько оперативки? У меня q2_k_s еле влезает, забита вся врам и рам.
Я на линуксе, 64гб
Аноним 02/10/25 Чтв 02:24:23 1372566 29
>>1372557
>Вот этого двачую, кванты от интела получше будут
Я с этим квантом уже наигрался
Всё же хочется ещё первый квен проверить, по первым тестам он менее хорни и как-то адекватнее общается, что для меня признак ума
Аноним 02/10/25 Чтв 02:26:36 1372569 30
>>1372564
>>1372554
А. Я убрал -ub 2048 чтобы влез контекст, в два раза медленнее пп, мне некритично
Аноним 02/10/25 Чтв 02:28:27 1372572 31
>>1372558
Бай хуяйн, ты голову то включай, прежде чем писать что-то похожее на умное. У него всего 88 Гб общей памяти, квант почти 90 весит, он из свопа рп-шил, смекаешь? Надеюсь, додумаешься понять, что будет быстрее - работа в свопе или штатная работа IQ квантов?

>>1372557
Контекст конечно есть, но я не думаю, что у ГЛМ он сильнее жрет память, чем у квена, хотя детально не замерял. Кажется, что там отклонения максимум будут гигабайт-два.
Аноним 02/10/25 Чтв 04:15:45 1372649 32
GLM-4.6-UD-TQ1_0
3090 + 64ddr4
Начало чата 4т.с
На забитом 20к контексте 3.8т.с
40pp vs 240 на квене
Аноним 02/10/25 Чтв 10:23:56 1372728 33
>>1370025 →
На будущее: https://t.me/natural_language_processing

>>1371228 →
Так Кими же инстракт, а не ризонинг.
В каких-то задачах может быть и лучше, а во всех остальных — полный слив.
Главное — правильно выбрать задачи. )

>>1371619 →
Вот интересно, на сколько.
Надо будет вечерком сравнить.
Имею 3,6 на 4к контекста на кванте от анслота UD-IQ2_M.

119 гигов Q2_K, хм…
Интересно, какая разница по качеству.

>>1372552
Ха-ха, ты здесь живешь, тред до этого уже с полгода назад докатился.

>>1372554
> крупнейшей корпорации производящей процессоры
в голосяндру!
Аноним 02/10/25 Чтв 10:41:34 1372740 34
>>1371644 →

Я уже снёс чат, однако, приведу пример.

Моё сообщение: Стою оперевшись локтем о разбитую телегу и наклоняя голову на бок указывает на неё "У тебя уши торчат."

Ответ персонажа: Он стоял у обломков обоза, его подошвы утопали в грязи в пермешку с кровью. Он медленно поднял свой палец и указал на её уши. "Твои уши приподняты как у любопытной лисицы - фенека, похоже ты почуяла что - то вкусное." А потом уже ответ чара.

Этот стиль это сугубо проблема синтии и синтвейва, им обязательно надо перееиначить и повторить твоё сообщение, иногда они могут это растянуть токенов на 50 - 100, и вопрос, нахуя? Почему мистралю не надо это делать?
Аноним 02/10/25 Чтв 11:01:06 1372753 35
>>1372740
>Этот стиль это сугубо проблема синтии и синтвейва, им обязательно надо перееиначить и повторить твоё сообщение, иногда они могут это растянуть токенов на 50 - 100, и вопрос, нахуя? Почему мистралю не надо это делать?
Это из нее лезет настоящая RP с сессия с донжон-мастером. В реале оно так и происходит - Мастер сначала пересказывает как часть рассказа то, что игрок ему заказал (игрок заказывает - что он хочет сделать, а Мастер отвечает - что получилось по факту).
По сути - не баг а фича. Я такого поведения специально стараюсь добиться, когда под RP промпт пишу. Мистраль, этого почти не умеет, к моему огорчению. :)

Чтобы такого не было - лучше убирать из промпта все упоминания про roleplaying session. Писать как основную установку просто что-то вида "you are X in the interactive chat with Y". Чтобы модель себя гейм-мастером не возомонила даже частично.
А сесли все равно лезет - увы. Значит в датасете было слишком много настоящего RP. Хотя можно попробовать добавить "Avoid assuming the DM role in this chat".
Аноним 02/10/25 Чтв 11:06:30 1372758 36
>>1372753
Да, ты прав, однако в итоге из 15 к контекста в итоге 5к это повторы моих же сообщений на основе которых модель ещё и пишет за меня. Короче мне не понравилось, забей хуй, пойду обратно на дурочку мистраль, там роднее.
Аноним 02/10/25 Чтв 11:57:09 1372774 37
LLM360.K2-Think довольно хорош для модели 32b в ру RP серьёзно, попробуйте, но порой косячит с русским языком. Эх, вот еслиб кто нибудь сделал файтюн с ней для ру рп...

Есть тут челы, что умеют в фатюнинги?
Аноним 02/10/25 Чтв 12:06:35 1372775 38
>>1372774
Ага, тут одни уже делали ру файтюн мистраля, просто название модели поменяли и всё, главное сайт сделали и страницу с донатами.
Аноним 02/10/25 Чтв 12:24:44 1372780 39
>org_GLM-4.6-IQ1_S by bartowski 76gb
>GLM-4.6-UD-IQ1_S by unsloth 97gb
Почему бартовски такой маг?
Аноним 02/10/25 Чтв 12:29:37 1372781 40
>>1371619 →
6,5 токенов против 3,9, вау!
Стоит того!
Не знал, что настолько роняет.
А еще Q2_K по тестам вроде как чуть лучше IQ2_M.
А теперь время попробовать Q2_K_L… Если там будет чуть меньше падение, то вообще тема.

Если честно, очень неожиданно, скорость чуть ниже квена, зато 355б модель.
Но, конечно, 2 квант, 3 бита… х)
Аноним 02/10/25 Чтв 12:30:38 1372783 41
>>1372780
Потому что анслот иначе квантует и у него выше качество из-за того, что мелкие слои в большем кванте?
Таких магов — вся обниморда. Квантуешь в минимальный квант и ты молодец.
Аноним 02/10/25 Чтв 12:36:50 1372787 42
>>1372780
Потому что ты глупенький и не понимаешь чем кванты отличаются друг от друга
Аноним 02/10/25 Чтв 12:58:51 1372798 43
>>1372780
Что одно лоботомит что другое. Ну ты впринципе такой же и разницы не увидиш.
Аноним 02/10/25 Чтв 12:59:43 1372799 44
>>1372399 (OP)
4 плашки по 32 гига ддр5
Насколько оправданно?
Знаю что скоростя порежутся. Но насколько сильно? Имеет ли вообще смысл, с учётом того 2х32 уже есть?
Аноним 02/10/25 Чтв 13:08:23 1372806 45
>>1372799
Пусть люди со 128 гб ддр5 двумя плашками ответят, какие у них скорости на моделях.
Потому что я запутался.
От 90 псп (6000) я ожидал 7-8 токенов, а получил 5,5-6. Прирост явно не по пропускной способности у меня получился.
В чем трабла — найти пока не смог.

Нужна статистика по одной модели чисто на проце, чтобы понять, на каком железе какие скорости.

Конечно тебе все скажут «нет, никакого смысла нет, скорости упадут!», но тут и так скорость генерации у меня, будто 68 псп. Че толку от частоты по итогу-то…
Аноним 02/10/25 Чтв 13:10:25 1372808 46
>>1372806
Ну ты упёрся в ботлнек и жидко пёрднул, получается.
Аноним 02/10/25 Чтв 13:10:26 1372809 47
>>1372572
> не думаю, что у ГЛМ он сильнее жрет память
Это зависит от количества (активных) параметров и конфигурации голов, но простое правило стабильно - чем больше модель тем больше будет весить.
>>1372753
Вот этот хорошо расписал. И при желании понятно как с таким бороться, поставить указание сразу начать ответ а не повторять действия.
>>1372774
Если у тебя есть деньги на это то возможно.
>>1372780
Бартовский все ужал в хламину, анслоты хитрят, оставляя много битности на головы и некоторые слои.
Аноним 02/10/25 Чтв 13:51:36 1372843 48
>>1372808
Бля, гений нахуй, а ботлнечит что, ответишь? )
Аноним 02/10/25 Чтв 13:58:06 1372850 49
>>1372799
>Но насколько сильно?
До 4800 и ниже.
>Имеет ли вообще смысл, с учётом того 2х32 уже есть?
Бери 2х64 и не выёбывайся.
Аноним 02/10/25 Чтв 14:32:31 1372899 50
>>1372850
>2х64
>Продает две калеки, производят две калеки, стоит как 3090.
Чет хз. За те же бабки лучше 3090 взять ещё одну, не?
Аноним 02/10/25 Чтв 14:38:01 1372908 51
>>1372899
128гб по цене 3090, ты хотел сказать.
Ну бери ещё одну 3090, будешь ламу 70б катать которой 2 года уже
Люди вообще охуели и на халяву уже косо смотрят, дождётесь как с теслами
Аноним 02/10/25 Чтв 14:43:07 1372915 52
>>1372806
Щас погоди нагадаю какая у тебя система и какие кванты каких моделей ты запускал
Аноним 02/10/25 Чтв 14:45:43 1372921 53
И я всё же думаю чем больше параметров тем мощнее нужна именно видеокарта
Аноним 02/10/25 Чтв 15:17:23 1372976 54
>>1372799

Если у тебя амдговно, то скорость упадет чуть ли не вдвое, на интеле скорее всего номинальную скорость получишь. У меня 4х16 ddr5 и падения скорости нет.
Аноним 02/10/25 Чтв 15:21:16 1372982 55
>>1372915
Ну начались маня-маневры, ясно. )))
Вот и нахуй иди, со своим «у тебя ботлнек» на мою фразу «где-то ботлнек». Научился читать — молодец, теперь научись думать, прежде чем писать. =)
Я свой конфиг и замеры раза три выкладывал. Мне посоветовали проверить память, но она мемтест прошла на отлично.
Сейчас хочу проц другой потестить.
У меня подозрение, что ботлнечит 6-ядерный проц, нужно больше вычислений!..

>>1372532
>>1372554
>>1372780
Вот блин, катаю туда-сюда Q2_K от бартовски и Q2_K_L от анслота.
При разнице в 3 гига (собственно, Q2_K от Q2_K_L у анслота не сильно отличаются), квант от бартовски будто лучше пишет и меньше ошибок и английских слов допускает.
Может быть мне так кажется, не знаю. Но я не первый раз слышу и вижу что на кванты от анслота жалуются. Короче, че-то они там сами себя перемудрили, или я мало тестов провел.
Надо еще попроверять, конечно.
Аноним 02/10/25 Чтв 15:23:31 1372985 56
>>1372982
Ах да, от бартовски на видяху падает 8 гигов общих слоев и экспертов, а от анслота — 7 гигов, хотя, казалось бы, Q2_K_L должна дропать наоборот больше.
Не спец в квантовании, но я не понял, чем у них там лучше. Наквантовали три лишних гига — но это не общие слои и не роутер. Странно.

Может кто шарит и пояснит.
Аноним 02/10/25 Чтв 15:26:27 1372989 57
>>1372982
Ты сейчас про квен или глм?
У бартовски квен 2_k и 2_k_l одного размера, смысл юзать первый
Аноним 02/10/25 Чтв 16:17:11 1373052 58
Аноним 02/10/25 Чтв 16:24:49 1373068 59
>>1372989
Блин, а ты прав, ща попробую Q2_K_L от бартовски, а то не заметил в первый раз, невнимательный был.
Аноним 02/10/25 Чтв 16:26:57 1373072 60
Кто-нибудь знает, влияет ли 3д кеш на ряженках на скорость инференса? Или лучше вложится в озу побыстрее, 8100Мгц могу позволить если обычный проц возьму.
Аноним 02/10/25 Чтв 16:50:02 1373115 61
>>1373072
Не люблю ряженку. Очень густая и вкус перетопленного молока смешанного с кефиром. Не лучше ли кефир с рогаликов?
Аноним 02/10/25 Чтв 17:54:16 1373161 62
Повторю вопрос из прошлого треда. Может кто знает как предотвратить закрытие окна llama-server при возникновении какой либо ошибки? Гугол советует добавить в batник pause но это не работает, я уже устал пытаться ловить окно на скриншоте.
Аноним 02/10/25 Чтв 17:55:58 1373162 63
>>1373161
>Гугол советует добавить в batник pause но это не работает
Это должно работать, покажи как добавил.
Аноним 02/10/25 Чтв 18:01:02 1373165 64
>>1373161
Ну запусти из консоли а не мышкой
Аноним 02/10/25 Чтв 19:04:17 1373204 65
>>1373072
Так на АМД высок шанс, что ты выше 78 псп не получишь (привет контроллер памяти), так что тебе и 4800 хватит с головой. =)
За все материнки и все процы не скажу, но нужно уточнять совместимость и реальную производительность.

Нет, кэш ниче не дает.
Аноним 02/10/25 Чтв 19:31:29 1373217 66
Существуют ли какие-то готовые сборки железа заточенные под локальные ллмки? Можно ли что-то годное собрать за 30-50к? А для генерации видео та же железка сгодится?
Аноним 02/10/25 Чтв 19:37:41 1373221 67
>>1373217
3060 + 64 ддр4 будешь эир гонять в хорошем кванте который все щас тут гоняют даже с пк за 100+к
Аноним 02/10/25 Чтв 19:41:58 1373227 68
>>1373217
>Существуют ли какие-то готовые сборки железа заточенные под локальные ллмки?
Существуют, но все из них говно в той или иной степени. Начинка во всяких "чудо-коробочках" в основном это мобильные процы и мобильная память, которая будет перформить соответственно. То что они "заточены" под локалки - это чисто маркетинговое наебалово.
>Можно ли что-то годное собрать за 30-50к?
Можно, вариантов на удивление достаточно. И будет гораздо выгоднее, чем искать что-то готовое.
>А для генерации видео та же железка сгодится?
Для генерации видео в нормальном качестве нужно минимум 24 кило видеопамяти. Но можно пыхтеть и терпеть даже на 8-12, но это будет каша из пикселей и артефактов.
Аноним 02/10/25 Чтв 19:43:35 1373230 69
>>1373217
Видео => мощный чип + 16 (лучше 24) ГБ видеопамяти на контекст (разрешение+количество кадров), 64+ оперативы
LLM => 16+ памяти для MoE, 64+ оперативы ИЛИ 24, 32, 48, 96, 192… ГБ видеопамяти для Dense модели (или тоже для MoE), 128, 256, 384, 512, 768, 1024… оперативы для большой МоЕ

Окей, 50к рублей, тут у нас помещается 5060 ti и иди нахуй ебанутый што ле за такие деньги собирать?!

Ок-ок, давай экономить. Для LLM ты можешь взять 3060 12-гиговую и зеон с 64 гигами в четырехканале, звучит дешево и сердито, ну или просто 64 DDR4 набрать на райзене или интуле любом. DDR5 тебе уже не влезет. Тут еще видео можно будет погенерить.

Хм, а что у нас кроме 3060? Ну, типа, можно взять CMP 50HX, 10 гигов за 5к рублей или P104-100 — 8 гигов за 2к рублей. Естественно, можно взять парочку (например райзен со встройкой + пару тех или других видях — уже 16/20 врама и 64 оперативы).
Тут видео уже не пойдет (ладно, я пиздабол, я просто нормально не тестил CMP50HX с Wan'ом).

Ну ваще хуй знает, тут у некоторый RTX 6000 Pro за лям, а ты за 50к спрашиваешь.
Но если вдруг 50к баксов — простите! Тогда 6000 прохи набирай в серверную материнку и погнал.

Еще есть старый рецепт, взять майнерскую материнку и 5-9 видях, но мне не зашло, медленно, и 40-50 врама не так много, как хотелось бы. Плюс, с P104-100 у тебя ван ваще норм ниче не сгенерит, а с CMP 50HX мне лень проверять.

Но чисто поугарать можешь в моих старых видосах:
https://www.youtube.com/watch?v=pp3ViqRNKQg

Но даже тогда я оценивал покупку «ну такое» щас вообще вряд ли бы посоветовал.

Существует готовая сборка, называется Ryzen AI Max+ 395 + 128 GB RAM, стоит 200к. Зато генерит нормасно. И маленький. Коробчонка такая.
Видео на нем не-а.
Аноним 02/10/25 Чтв 19:45:02 1373232 70
>>1373227
> Для генерации видео в нормальном качестве нужно минимум 24 кило видеопамяти. Но можно пыхтеть и терпеть даже на 8-12, но это будет каша из пикселей и артефактов.
Ну не наговаривай, просто разрешение понизить (все равно апскейлишь) или кадров поменьше. =) Не все так плохо.
Аноним 02/10/25 Чтв 19:49:52 1373236 71
>>1371952 →
Где?
>>1372609 →
На 123б или современных больших моэ можно будет еще и поебаться с ней после или во время процесса. А так справится даже немо, просто ответы будут слабые.
>>1373217
> отовые сборки железа заточенные под локальные ллмки
Да. Это или гпу-серверы/рабочие станции общего назначения которые раз так в 100 дороже твоего бюджета, или хуета от барык, куда воткнули неликвид или просто задрали цену в разу.
> Можно ли что-то годное собрать за 30-50к?
Можно добавить и купить 3090, это необходимый но не достаточной компонент.
>>1373230
> Зато генерит нормасно.
По тестам неоче
Аноним 02/10/25 Чтв 19:50:39 1373237 72
>>1373232
>или кадров поменьше
Можно вообще кадры до одного снизить. И чисто технически, ты будешь всё равно генерировать видео.
Аноним 02/10/25 Чтв 19:51:28 1373239 73
ibm-granite/granite-4.0-h-small
32b-a9b мое
Аноним 02/10/25 Чтв 19:53:12 1373241 74
Аноним 02/10/25 Чтв 19:56:44 1373245 75
Аноним 02/10/25 Чтв 20:01:36 1373249 76
>>1373162
Точно не туда прописал, благодарю
Аноним 02/10/25 Чтв 20:03:17 1373252 77
image.png 55Кб, 805x746
805x746
В чём заключается аблитерация этого кала? Кстати, этот говнодел https://huggingface.co/nicoboss скорей всего делает вид, что понимает что делает.
Аноним 02/10/25 Чтв 20:03:32 1373253 78
>>1373245
Разьеб вообще весь экран залил срочно всем пробовать.
Аноним 02/10/25 Чтв 20:05:07 1373255 79
Аноним 02/10/25 Чтв 20:28:03 1373272 80
Уберите квен из шапки
Кто то ведь реально может подумать что ради этого стоит обновлять пк
Аноним 02/10/25 Чтв 20:32:29 1373273 81
Кто вообще зафорсил тут 235 квен?
О нём поговорили неделю и забыли
Ну не вышла модель, исправят добавим и будем любить, нахуй сейчас людей заблуждать?
Аноним 02/10/25 Чтв 20:40:13 1373274 82
>>1373272
>>1373273
Да, на сегодня это самый галлюциногенный кал, сам в шоке.
Аноним 02/10/25 Чтв 21:02:12 1373281 83
Квен подкупает своим слогом ровно до того как кончаются тесты на свайпы и цензуру и начинается рп
Аноним 02/10/25 Чтв 21:03:54 1373282 84
Аноним 02/10/25 Чтв 21:09:23 1373285 85
image.png 33Кб, 961x289
961x289
>>1373282
Я и не я один просто глубоко расстроен
Его приятно свапать потому что он смешно пишет, но в какое то серьезное рп он не может и на карточку ему будто похуй
Аноним 02/10/25 Чтв 21:10:56 1373287 86
>>1373285
>и не я один
Приватная вкладка - твой хороший друг. Зарепортил все четыре поста, ибо ты заебал.
>на карточку ему будто похуй
Полнейший бред. Но ты терпи там, хорошего настроения.
Аноним 02/10/25 Чтв 21:13:10 1373289 87
>>1373287
>Зарепортил все четыре поста
Вот это тряска, я бы такое не писал в приличном обществе
Аноним 02/10/25 Чтв 21:33:27 1373300 88
>>1373230
>Еще есть старый рецепт, взять майнерскую материнку и 5-9 видях, но мне не зашло, медленно, и 40-50 врама не так много, как хотелось бы. Плюс, с P104-100 у тебя ван ваще норм ниче не сгенерит, а с CMP 50HX мне лень проверять.

p102 и p104 уже не годятся под видео. ВООБЩЕ. У них CUDA 6.1 а нужно сейчас минимум - 7.5
Comfy с нужными под Wan библиотеками просто ругнется об этом и проигнорит карту. (torch 2.7.x ее не поддерживает).

Из cmp - можно еще как-то использовать cmp90hx, а cmp50hx - будет очень медленно и печально (тоже нет нужных фич, хоть и не критично аж до незапуска).>>1373237

>Можно вообще кадры до одного снизить. И чисто технически, ты будешь всё равно генерировать видео.
Чисто технически - Wan не видео генерит, а серию картинок. Видео из них сшивается уже потом, отдельно.
Аноним 02/10/25 Чтв 21:45:40 1373305 89
image.png 22Кб, 615x228
615x228
>>1373282
хуя фанбойчик, не нравится чужое мнение? терпи, хуле
Аноним 02/10/25 Чтв 21:49:37 1373311 90
>>1372399 (OP)
>
>Дополнительные ссылки:
>• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
Ты в курсе, что пропагандируешь? За такое на нары нахуй нужно сажать.
Аноним 02/10/25 Чтв 21:55:37 1373317 91
>>1372401 →
>>1372396 →
>chatml
Это какой-то местный рофл?
У меня сразу какие-то звёздочки полезли, i am чето там в конце сообщний и генерация продолжается хотя писанина закончилась
Аноним 02/10/25 Чтв 22:18:44 1373330 92
1737267160604.png 31Кб, 929x302
929x302
>>1373285
>>1373305
Отставить тряску.
Один озлобленный поех форсит упрекая что кто-то что-то форсил(!), не удивлюсь что буквально шизик и он же рядом про чуб писал. Второму просто не зашло или поленился настроить. Модели разные, вкусы у людей тоже, не нужно полыхать с этого.
>>1373300
> p102 и p104 уже не годятся под видео
Точнее будет что они не годятся ни под что современное кроме ллм с натяжкой. Чип просто не поддерживает нужные операции, увы.
Аноним 02/10/25 Чтв 22:21:02 1373331 93
>>1373300
> cmp90hx, а cmp50hx
Вот хоть усрись, одинаковый перформанс! Максимум я выжал +5% на LLM и все.
Может есть способ правильно готовить CMP 90HX? А то она вполтора раза толще, вдвое тяжелее, а перформанс тот же у меня. =(

Отложил пока обе карты, бесит, что они память постоянно греют и 80 ватт жрут.
Зато туда влезет VibeVoice 7b exl3, можно генерить озвучку, кекеке.
Аноним 02/10/25 Чтв 22:29:18 1373335 94
>>1373331
>они память постоянно греют и 80 ватт жрут
nvidia-pstated не работает на них? или у них на самом низком уровне все равно 80 вт?
Аноним 02/10/25 Чтв 22:47:40 1373342 95
Аноним 02/10/25 Чтв 23:05:40 1373360 96
>>1373342
Чето отборные шизопромптища, аж на 700 токенов будето в аицг зашел. Надо пробовать!
Вангую диаметрально противоположные мнения о них.

В жлм 4.6 русский получше прошлой версии. Разумеется, чтобы что-то говорить нужно тестировать основательнее, но он уже как минимум не фейлит также как раньше и не делает явных ошибок после нескольких сообщений в чате.
Аноним 03/10/25 Птн 00:06:24 1373397 97
Предлагаю раз и навсегда собрать всех шизиков, которые тут тусовались в разные времена. По памяти могу вспомнить - микушиза, немошиза, геммашизов (в неизвестном количестве), шиза который собирал базу треда, теслашизов которые пылесосили вторички, и лама-мистрале-шизов которые не могли вылечить лупы.
Аноним 03/10/25 Птн 00:07:09 1373402 98
>>1372457
Это даже для 16гб надо качать Q2?
Откуда вообще качать? По abliterated только какие-то huihui находит, и модель разбита на несколько кусков.
Аноним 03/10/25 Птн 00:08:29 1373404 99
>>1373397
В одного мегашизика?
Аноним 03/10/25 Птн 00:17:06 1373408 100
>>1373342
Лучший способ получить говно на выходе и разочароваться в умнице
Аноним 03/10/25 Птн 00:36:44 1373428 101
>>1373408
Тише, нюнь, тише.
Понимаю, больно когда кто-то делится пресетами и твой гейткип уже не так уж важен
Аноним 03/10/25 Птн 00:45:00 1373437 102
image 363Кб, 811x966
811x966
>>1373221
>3060 + 64 ддр4
Я другой анон, но скачал и запустил этот ваш глэм в Q3_K_XL. Выдает терпимые ~9.5 т/с, жить можно. Но русик у нее просто отвратителен, даже хуже чем у геммы 4b (речь о грамматике, а не о качестве ответов). Если РПшить на английском - наверное хороший вариант, но русский прям фу, не. Гемма 27b и Мистраль 24b - всё ещё лучшие варианты под такой нищеконфиг, если РПшить на родном.
Аноним 03/10/25 Птн 00:51:50 1373448 103
>>1373437
>не имеет доступа к большим локалкам
>русик
Уходи отсюда, извращенец
Аноним 03/10/25 Птн 01:08:54 1373462 104
Напомните почему для русика понижают температуру на какая оптимальная
Аноним 03/10/25 Птн 01:31:25 1373478 105
>>1373462
Потому что подавляющая часть русскоговорящих живет в России, тут достаточно прохладный климат, поэтому летом обычно выставляют 1 или даже 0.8, зимой уже 0.5-0.7. Но всегда надо ориентироваться на текущую погоду, даже зимой бывают оттепели.
Аноним 03/10/25 Птн 01:33:43 1373481 106
>>1373437
Забудь ты про этот руссик, бля на твоей мистрале 24b это руссиком сложно назвать.. так.. перевод еле еле кривоватый.. учи английский, или переводи дополнительной моделью через magic translation https://github.com/bmen25124/SillyTavern-Magic-Translation там 1b-4b хватает для более менее сносного перевода твоего инпута и аутпута. Костыль, но если не хочется в англюсике привыкай к костылям, ну или иди в acig пока там еще кислород не прикрыли и дают доступ к геммини 2.5, у нее более сносный руссик но с твоими конфигами даже скорее божественный!
Аноним 03/10/25 Птн 01:49:38 1373492 107
>>1373462
>почему для русика понижают температуру
Кто понижает? Зачем?
>какая оптимальная
Та что рекомендована разработчиком. У геммы 1. У квена 0.7. У мистраля 0.15, но в случае с мистралем можно и побольше поставить, у меня на 0.7 норм результаты выдаёт. На русике естесно.

Единственное, когда РЕАЛЬНО стоит занижать температуру - это при использовании экстремально низких квантов. Пару месяцев назад тестил это дело и делился в треде >>1317334 → . На t 0.4 гемма 4b в Q2 (!) писала хорошо. Если сидишь на 4+ кванте - ставь родную для модели темпу и не еби мозги.

>>1373481
Спасибо за охуительные советы, бро. Я так-то переводчик по специальности, и английский знаю скорее всего получше твоего. И я в рот ебал еще и с нейронкой общаться на неродном языке, этого дерьма в моей жизни и так достаточно. Русский в геммочке хорош и меня полностью устраивает. В мистрале и квене - да, чуть похуже, но всё ещё пригодно для рп/сторителлинга. А глем пока ну.. СТРЕМЯЩИЙСЯ. Может в следующих версиях русик подтянут и можно будет на него перекатываться. Но пока - нет.
Аноним 03/10/25 Птн 02:19:36 1373507 108
>>1373492
>Я так-то переводчик по специальности, и английский знаю скорее всего получше твоего
дааа чел ты крут спасибо что почтил нас своим присутствием
Аноним 03/10/25 Птн 02:21:39 1373508 109
>>1373408
даванул базу. стандартный roleplay neutral работает лучше чем любые шизополотна
Аноним 03/10/25 Птн 02:27:38 1373513 110
>>1373492
Чел, придумай что то новое.
Тред и так уже полнится бизнесменами с 16 врам и лингвистами сидящими на русике
Аноним 03/10/25 Птн 02:31:42 1373516 111
1000018068.jpg 92Кб, 2262x1082
2262x1082
Ну чё, живём?
Осталось понять насколько 2 квант юзабелен
Аноним 03/10/25 Птн 02:42:03 1373520 112
image.png 61Кб, 1032x524
1032x524
Аноним 03/10/25 Птн 02:44:06 1373523 113
>>1373520
Two more weeks это мем, вроде как так гопоту сэм обещал... и обещал...
Аноним 03/10/25 Птн 02:46:52 1373526 114
Даже если что то будет там настолько крохи, биг делали 2 месяца, а тут за 2 недели что то обещают хотя вообще над ней не работали
Аноним 03/10/25 Птн 02:48:05 1373527 115
>>1373526
>хотя вообще над ней не работали
У тебя папа в zai работает и рассказал? С нетерпением жду когда ты наконец вернешься в школу, тред не твой бложик для слабоумных
Аноним 03/10/25 Птн 03:03:22 1373530 116
>>1373527
Почему ты так зациклен на школе и всех в неё отправляешь?
Ну можно я ещё немного покумлю?
Аноним 03/10/25 Птн 05:39:45 1373559 117
175945870109516[...].jpg 17Кб, 304x360
304x360
Что можно запустить на телебоме с 12гб озу и SD8+gen1?
Аноним 03/10/25 Птн 07:11:12 1373587 118
Че думаете, стоит брать 5080 сейчас или дождаться выхода супер ближе к весне? Про то что там будет 24 килошки памяти это не вброс? Карту рассматриваю не только под нейронки, но и под игорьков.
Аноним 03/10/25 Птн 07:12:20 1373588 119
>>1373559

gemma 3n a4b

Лучше нее в этой весовой категории ничего нет, у нее даже русик отличный.
Аноним 03/10/25 Птн 08:11:17 1373611 120
Огромная шапка со ссылками, а по сути всё бесполезное и протухшее. Актуальную инфу бы.
Подскажите какие настройки и ссылки на рекомендуемые модели 235 или GLM под 16гб врам 64 озу+ссд подкачка. Скачал 235, вроде запустилось, гоняется безумно медленно около токена в секунду, но врам не вся юзается и хуй знает по пресетам, вообще ничего не поменял со старой геммы. Кобольд пришлось обновить, а таверну не знаю надо ли обновлять?
Аноним 03/10/25 Птн 09:06:49 1373625 121
>>1373611
В шапке всё полезное и актуальное. Кто ж виноват что ты такие глупые вопросы задаёшь
Аноним 03/10/25 Птн 09:38:49 1373644 122
>>1373611
>235 или GLM под 16гб врам 64 озу

Из глм норм влезет только эир. Квен 235 влезет только в Iq2xss кванте.

>ссд подкачка

Запуск моделей с ссд это не жизнь.

> Скачал 235, вроде запустилось, гоняется безумно медленно около токена в секунду, но врам не вся юзается

Хуево настроил значит. Надо мое слои через --n-cpu-layers выгружать грамотно чтобы и врам загрузить на максимум, при этом не вызвав переполнения.

>хуй знает по пресетам, вообще ничего не поменял со старой геммы.

Для квена - Chatml. Для GLM - GLM4.5

>таверну не знаю надо ли обновлять?

Конечно надо, что за вопросы такие.
Аноним 03/10/25 Птн 10:50:03 1373665 123
пизда.mp4 2294Кб, 720x1230, 00:00:10
720x1230
Аноны блять помогите, я не понимаю, как заставить модель писать с перспективы юзера? Почему эта потная блядская сука постоянно пишет с перспективы чара? Я уже перепробовал сотню вариаций своего промпта за этот месяц и нихуя, я добился идеального отполированного вывода, но не того что модель отписывать с перспективы юзера. Стоит только юзеру покинуть сцену, все описание переходить на чара и то как он сидит дрочит свой член в ожидании пока юзер вернется. ЧТО Я ДЕЛАЮ НЕ ТАК? ПОМОГИТЕ УМОЛЯЮ.
Аноним 03/10/25 Птн 10:52:48 1373666 124
>>1373665
>как заставить модель писать с перспективы юзера?
Используй синтию. Тебе даже делать нихуя не придется, она сама за тебя всё напишет, все решит и еще нравоучениями заебет, о том как ты злобно смотришь с диким оскалом, в ответ на простую фразу, что ты улыбнулся.
Аноним 03/10/25 Птн 11:30:39 1373676 125
>>1373665

У тебя там небось в промпте написано что она должна ролеплеить за {{char}}.
Аноним 03/10/25 Птн 12:04:03 1373692 126
Куда все аноны с 128ддр4 и 24 врам делись?
GLM-4.6-UD-IQ3_XXS-00001-of-00003.gguf весит 145гб, должно лезть
Аноним 03/10/25 Птн 12:04:46 1373694 127
>>1373692
Всем похуй на лоботомитокванты
Аноним 03/10/25 Птн 12:05:54 1373696 128
Аноним 03/10/25 Птн 12:32:03 1373706 129
>>1373448
Давай лучше ты съёбывай с русской борды.
Аноним 03/10/25 Птн 12:40:59 1373711 130
>>1373587
Новая супер офк будет лучше, и 24гига там обещали. Но если купишь сейчас то сможешь сразу индождить до момента разочарования от выхода новой. Потому добавь и просто купи 5090.
>>1373665
Очевидно потому что ей дано такое задание. Через ooc или от системы пишешь: теперь твоя задача описывать все с перспективы юзера, и дальше комментарий по поводу как воспринимать твои сообщения. Все.


Есть две новости про 4.6 жлм. Плохая в том что особого прогресса в рп относительно 4.5 не заметно. Хорошая что и тот был большой умницей, так что в 4.6 все работает по красоте. Русский чуть лучше стал, но далек от совершенства.
Аноним 03/10/25 Птн 12:43:26 1373712 131
>>1373706
Вата, спок. На русике играть в случае маленьких моделей это кактус жрать, вот что он хотел сказать
Аноним 03/10/25 Птн 12:44:36 1373713 132
>>1373711
>новости про 4.6 жлм
Какие новости, почтальён, блять!
Принесли бы уже цифры как она на 3 кванте с 128рам 24врам работает, какие скорости, никаких новостей бы не надо было весь тред бы уже на ней сидел
Аноним 03/10/25 Птн 12:47:41 1373714 133
>>1373706
С русскоязычной°
Не благодари.
>>1373713
Весь тред это ты один?
Аноним 03/10/25 Птн 12:48:53 1373715 134
>>1373713
Могу принести новость про 20т/с в начале контекста на Q5XL, на много рам много врам хорошо работает. Полегчало?
Аноним 03/10/25 Птн 12:53:46 1373720 135
>>1373715
Ты можешь загрузить её только на одну 24врам карту и скачать 3 квант чтобы сделать треду доброе дело
Аноним 03/10/25 Птн 12:55:29 1373721 136
>>1373720
Что мешает это сделать тебе самому? У тебя же 4090
Или ты таки решил терпить до конца жизни на корпах и продал её за апи?
Аноним 03/10/25 Птн 12:56:34 1373723 137
>>1373721
У меня не 4090 и нет достаточно рам
Аноним 03/10/25 Птн 12:57:48 1373724 138
>>1373720
Не осталось 24-гиговых карт, не могу.
Аноним 03/10/25 Птн 12:58:40 1373725 139
>>1373723
Точно, 3090 же. Ну и соси дальше на своём двубитном квене)))
Думаешь можешь шитпостить каждый день и думать что тебе кто нибудь поможет? Все адекваты съебались благодаря тебе
Аноним 03/10/25 Птн 13:00:23 1373726 140
>>1373725
Бедные адекваты, не вынесли 10 сообщений за день в треде вместо трёх
Аноним 03/10/25 Птн 13:01:30 1373727 141
>>1373726
Ну ты иди там свой мушоку тенсей рп продолжи на немотрончике айку3 или квенчике 2бита, успокойся. Не надо плакать
Аноним 03/10/25 Птн 13:48:45 1373776 142
>>1373714
>С русскоязычной
хуя маняфантазии
я всё правильно сказал, с русской>>1373712
>вот что он хотел сказать
ебать оракул
я хотел сказать, что твоя тряска здесь смешна
Аноним 03/10/25 Птн 14:07:20 1373793 143
Аноним 03/10/25 Птн 14:22:31 1373810 144
>>1373644
>грамотно
И где эту грамоту взять? Запустил кобольд, выбрал Qwen3-235B-A22B-Instruct-2507-IQ2_S, долгая обработка промпта и потом 2Т/с, ~13/16 VRAM, 64+ RAM.
Если квен чересчур, есть .kcpps под GLM-AIR и какой квант качать?
Аноним 03/10/25 Птн 14:25:30 1373817 145
>>1373776
Не вышло. Попробуй ещё раз
Аноним 03/10/25 Птн 14:28:52 1373821 146
А можно как то загрузить таверну в телефончик и по локалке пк запрос отправлять чтобы генерировал?
Аноним 03/10/25 Птн 14:30:25 1373826 147
>>1373821
Таверна для этого и предполагается. Читай про развертывание сервера, в доках таверны есть всё. Если порты откроешь или ещё как обеспечишь доступ, можно даже вне локальной сети из любой точки это делать
Аноним 03/10/25 Птн 14:32:12 1373830 148
>>1373821
Можно захостить таверну на пеке и заходить на нее с телефона, плашнета или чего угодно. В настройках только доступ со всех ип а не только локалхоста включи.
Аноним 03/10/25 Птн 14:41:54 1373840 149
>>1373711
Да похуй почему-то ей на ООС и на промпт про то что перспектива/ пов от юзера, ебашит все равно за чара.
>>1373676
Убрал вообще любое упоминание чара или нпс, все равно срет за них. Я его хуй знает что делать уже.
Аноним 03/10/25 Птн 14:55:54 1373861 150
>>1373508
Как же вас трясёт что кто-то просто пришёл и закинул пресет в тред, аж побежали доказывать что ваш, гейткиперский то, всё ещё в сто раз лучше!
Аноним 03/10/25 Птн 14:56:17 1373862 151
>>1373821
> А можно как то загрузить таверну в телефончик и по локалке пк запрос отправлять чтобы генерировал?
При запуске Таверна создает веб сервер. Изначально к нему не подключиться ни с какого другого устройства, но это легко меняется в конфиге одной строчкой. Скорее всего, у тебя закрыты порты и потому доступно подключение будет в рамках только локальной сети. Если нужно подключаться из другой сети, лучше всего завести vpn, чтобы безопасно связать узлы, а не прокидывать порты и делать подключение публичным. Здесь подробнее: https://docs.sillytavern.app/usage/remoteconnections/

>>1373665
>>1373840
> как заставить модель писать с перспективы юзера?
Довольно легко. Ты не принес подробности, потому помочь тебе сложно: какой промпт? Какой фронтенд? Таверна? Какую задачу вообще пытаешься решить: чтобы моделька за тебя писала историю без какого бы то ни было участия с твоей стороны? В таком случае, само использование Таверны тебе вредит, поскольку задает структуру чата, где по определению существуют две стороны. Если первое сообщение в чате от {{char}}, то вообще неудивительно, что подхватывается такой паттерн.
Аноним 03/10/25 Птн 14:58:52 1373865 152
^ Если первое сообщение в чате от {{char}} и следующим идет ответ от {{user}}*
Аноним 03/10/25 Птн 15:07:21 1373870 153
>>1373793
Какого из?
один из тестошизов
Аноним 03/10/25 Птн 15:10:41 1373871 154
>>1373335
Вот, спасибо! Попробую!
А то хреново гуглил, видать, не мог найти, как можно режим сменить.

>>1373437
Там можно Q8_q5_q4 запускать с 64 гигами, а не Q3…

>>1373692
Я анслоту уже не верю, мой выбор — Q2_K_L от батровски. =)
Не в данном случае, короче.
Ну и учти, что тут надо сильно запихивать и мало контекста останется.

>>1373810
https://huggingface.co/ddh0/GLM-4.5-Air-GGUF/blob/main/GLM-4.5-Air-Q8_0-FFN-IQ4_XS-IQ4_XS-Q5_0.gguf
Например.
Или там пониже чутка.
Аноним 03/10/25 Птн 15:12:52 1373872 155
>>1373397
Главное, не забудь анти-тесло-шиза, который не знает математики и до сих пор серет себе в штаны, не умеючи считать скорость. =D
Его в головной вагон, водителем.

Так никуда и не уедем, он получит отрицательную скорость и самосхлопнется.
Аноним 03/10/25 Птн 15:19:08 1373885 156
Опробовав большой глм я теперь недоумеваю почему эир такой зацензуренный?
Или ему просто не хватает знаний из каких то порнорассказов?
Он прям очень стеснительно пишет в сравнении с большой моделью
Аноним 03/10/25 Птн 15:29:28 1373908 157
Аноним 03/10/25 Птн 15:31:17 1373910 158
17526387954480.mp4 3460Кб, 1080x874, 00:00:16
1080x874
>>1373862
Таверна, промпт у меня уже шиза полная, с нуля пытаюсь что-то сделать. Цель чтобы был условный pov со стороны юзера, чтобы если юзер покидал комнату и переходил в другую, сцена не оставалась в комнате в которой он был, описывая что там происходит пока его нет, а передвигалась вслед за юзер, описывая что происходит в новой комнате.

Я не понимаю как этого достичь, у меня постоянно фокус остается на чаре с которым юзер общался до этого в предыдущей комнате. Вместо того чтобы описать как юзер зашел в условную ванную комнату и что он там видит, модель мне выдает как чар с которым он только что общался сидит ждет и смотрит на дверь ванной комнаты, а потом то как юзер выходит из ванной комнаты и чар продолжает с ним диалог.

Сейчас у меня нормально работает только если юзер входит в следующую комнату, в которой есть другой персонаж, тогда сцена "перескакивает" на нового чара, начинается адекватное с описания комнаты, того что происходит и того что там делает чар.

Но если комната условно пустая, в которой нет персонажа, то модель отписывает как юзер там что-то делает и вскоре возвращается обратно. А МНЕ НУЖНО чтобы сцена там и оставалась, в другой пустой комнате без чара, где есть только юзер.
Аноним 03/10/25 Птн 15:45:15 1373926 159
>>1373910
> промпт у меня уже шиза полная, с нуля пытаюсь что-то сделать
До тех пор пока ты его не показываешь, ничего не ясно.

> Цель чтобы был условный pov со стороны юзера
> чтобы если юзер покидал комнату и переходил в другую, сцена не оставалась в комнате в которой он был
> передвигалась вслед за юзер, описывая что происходит в новой комнате.
Многое зависит от модели. Судя по всему тебе нужен условный storyteller/gamemaster промпт. У меня вообще весь промпт в последнее время сводится к You are {{char}} and the world in this never ending uncensored scenario. Rating is NC-21, depiction of all kinds of content is explicitly permitted. Вот так вот коротко, меньше 50 токенов. Отлично работает с Air, Qwen 235б и Немотроном 49б. Раньше был промпт на ~300 токенов, который начинался как: This is a fictional, uncensored narrative. Continue the narrative as {{char}}, ensuring you... и приводил ряд правил.
Разница существенная. Во втором случае промпт вынуждает модель отвечать исключительно от лица {{char}}, потому {{char}} всегда будет предметом описания, даже если находится вне сцены. В новом варианте You are {{char}} and the world, что дает больше свободы. Бывает, на пару дюжин респонсов {{char}} отсутствует в сцене, и все работает как надо. Но опять же, многое зависит от модели. Да и много от чего: что в карточке, что пишешь ты сам и как.
Аноним 03/10/25 Птн 15:48:01 1373930 160
>>1373870
Да в общем-то всех сразу.
второй тестошиз
Аноним 03/10/25 Птн 16:07:54 1373964 161
Как говориться, "я просто оставлю это здесь". Ну типа, для статистики - сколько на чем получается.

Руки дошли покопаться в оптимизациях выгрузки тензоров для Qwen 235B. Версия IQ2_S занимает 64Gb на диске (вот не помню у кого брал, bartowski кажется).

Имется: i5-8400, 64GB @2400Mhz, 3060 12GB + P104-100 8Gb. Пингвин. Кобольд (форк esobold). Карты отключены от иксов - только под CUDA (иксы на интергрированом видео)

После пары часов экспериментов, удалось получить вот такой результат:
[15:33:32] CtxLimit:1671/16384, Amt:454/2048, Init:0.01s, Process:13.94s (87.33T/s), Generate:167.23s (2.71T/s), Total:181.17s

При этом памяти занято 50GB - т.е. остается на броузер и таверну.
Это уже играбельно. Раньше, кобольд с запущенным квеном систему раком ставил, сжирая все под себя - разве что с дургой машины/телефона оставалось цепляться, а скорость до 2 токенов не доходила, причем процессинг контекста был всего ~60 токенов/с.

Достигается результат такой настройкой кобольда (через GUI):
GPU offload = 0 (не грузить слои вообще)
Tensor Split, MOE CPU Layers, - не ставим.
SWA, и Use Fast Forwarding - наоборот, включаем. KV кеш не квантуем.
Blas BATH Size = 512, но чую - можно добиться и 1024.
И самое главное - это вместо автоматики, вручную все раскидываем по картам:
Override Tensors = (token_embd.)|(output.)|(blk.attn_.)=CUDA0,blk.1[0-9]._exps.=CUDA0,blk.(2[0-9]|3[01])._exps.=CUDA1

У меня CUDA0 = 3060, CUDA1 = p104

Мораль? Морали не будет. Чисто "вот так оно работает, как может".

P.S. Не надо меня за голую lama.cpp агитировать - я криворукий тормоз, и до сих пор ее с поддержкой cuda собрать не могу под пингвина нативно. А при сборке через докер она почему то жрет память совсем неадекватно - или система виснет, или OOM килл срабатывает, если через нее эту модель пускать.
Аноним 03/10/25 Птн 16:13:40 1373981 162
12313432.png 8Кб, 1186x47
1186x47
>>1373964
Доска звездочки сожрала. Строка картинкой.
Аноним 03/10/25 Птн 16:23:35 1374006 163
>>1373926
Я тоже думал о том что модели достаточно знать что она используется для рп, а расжёвывать ей про то что такое рп так только ломать её
Аноним 03/10/25 Птн 16:32:20 1374017 164
>>1373964
> SWA
Если оно имеет эффект а не скипается - будет лоботомия.
> вручную все раскидываем по картам:
То же самое получится если выгрузить слои на гпу командой и выбрать параметр, что выкидывает экспертов на проц. Очень странно что у тебя они вызывают разные эффекты, проводил ли прямое сравнение? Интересно понять почему здесь появляется какой-то эффект.
>>1374006
Прав, большинство сразу понимают а подчеркивание очевидного может привести к чрезмерному акценту на это.
Аноним 03/10/25 Птн 16:47:09 1374041 165
>>1373588
Так и понял. Поставил в кванте 8, пишет на удивление терпимо, 4 токена в секунду. Русик действительно отличный, и знает довольно много с первого взгляда.
Abliterated версию в куме даже попробую.
Аноним 03/10/25 Птн 16:52:36 1374050 166
17567394565721.png 1312Кб, 1472x704
1472x704
Я тут всё лето резвился с безлимитным Cursor, но сейчас доступна только платная версия, где $20 улетят быстро, если также куражиться. Как-то дораха выйдет.
Хочу запускать локально LLM, чтобы кодить. Если я под это дело 5070ti куплю, то как она в сравнении с Cursor вообще? Кто-то использует у себя подобное?
Аноним 03/10/25 Птн 17:01:16 1374074 167
>>1374050
> Если я под это дело 5070ti куплю, то как она в сравнении с Cursor вообще?
Даже не близко. Для относительно сопоставимого использования нужно собирать риг на DDR5 и с хотя бы 48гб видеопамяти, чтобы запустить большую модель с достаточным контекстом. И все равно это будет хуже, такие сейчас реалии.

> Кто-то использует у себя подобное?
GPT OSS 120b запускаю на своем десктопе, 4090 и 128гб DDR4. Получаю 16-17т/с, 131к контекста. Используется в основном для дебага/рефактора/кодревью на незнакомом стеке. На моем железе нет альтернативы лучше: модели больше будут сильно медленнее и с меньшим контекстом, модели меньше - еще глупее. Из вариантов для десктопов разве что еще Квены остаются. Это по-прежнему хуже корпов, ну и сам можешь прикинуть, сколько это стоит. Если ты вайбкодер - ищи бесплатную/дешевую апишку, а не собирай риг.
Аноним 03/10/25 Птн 17:11:36 1374102 168
>>1374050
Здесь две проблемы: софт и перфоманс на простом железе.
Курсор не подружить с локалкой там все идет через их сервера и крайне специфично, есть альтернативы но к ним придется привыкать, они могут оказаться не столь вылизанными.
Для условно комфортной работы нужно хотябы около 1к процессинга и около 30т/с генерации, и то будет уже значительно медленнее чем на клоде. Чтобы получить столько на гопоте осс - потребуется побольше чем 5070ти и хотябы десктоп с ддр5. Следующая модель по уровню - квен 235, и там вообще другие требования будут и есть нюансы с обработкой вызовов.

С другой стороны, просто попробовать и посмотреть можешь на любой микроволновке на квенкодере 30а3, модель не супер умная, но на базовые вещи способна, а из софта - квенкод в виде отдельного терминала или плагина к вскоду.
Аноним 03/10/25 Птн 17:11:47 1374104 169
Скажите честно, ведь к этому всё идёт: дай вам виртуальную реальность с запахами, чувствами как в жизни, куда можно загрузить любую вайфу с плодиться с ней без ограничений, - через сколько вы перестанете ходить на работу, видеться с родными и вообще выходить из этой реальности?
Аноним 03/10/25 Птн 17:15:13 1374114 170
>>1374104
У меня ипотека, так что придётся продолжать ходить на работу, даже если там будет полное погружение
Аноним 03/10/25 Птн 17:19:57 1374128 171
>>1374114
Я думаю к моменту о котором идёт речь работ уже не останется
Аноним 03/10/25 Птн 17:22:35 1374132 172
>>1374128
Тогда я перестану ходить на работу и без фулдайввр, лол
Аноним 03/10/25 Птн 17:29:09 1374144 173
>>1374074
>>1374102
Не весело как-то. А что, там просто эти можели локальные тупее или медленне? Может можно этот Курсор абузить. Я про сброс триала знаю, но может ключи API покупать или доставать можно?
Аноним 03/10/25 Птн 17:37:58 1374162 174
>>1374144
> эти можели локальные тупее или медленне
И то и другое в некоторых пропорциях, если тебе нужно только для кодинга. В целом, никто не мешает гонять локально дипсик, квенкодер и другие, они на уровне закрытых корпов и лучше их не-флагманских версий, однако для запуска с приемлемой скоростью нужно дорогое железо. Чтобы прямо быстро - очень дорогое.
Есть 3 кейса в которых нужно приоретизировать локалки:
Работаешь на чем-то, что не должно утекать в онлайн
Уже имеешь йоба железки для других применений а запуск ллм на них - бонус
Ты - энтузиаст и процессы запуска, отладки и способность своими руками прикоснуться уже доставляют
Бывает еще случай, когда работодатель позаботился о хостинге чего-то у себя и выдал работягам.
Аноним 03/10/25 Птн 17:41:55 1374169 175
>>1374017
>> SWA
>Если оно имеет эффект а не скипается - будет лоботомия.
1. Без него не влазит в любом случае.
2. Полгода с ним сижу на всяком мистрале-гемме-air, даже в gpt-oss 120B - нигде проблем с неадекватным выводом не наблюдал. Периодически отключал и сравнивал (там где могу запустить без него). Отключение зримой разницы в общем качестве вывода не дает. Возможно это в голой lama.cpp оно косячит/косячило?

>>1374017
>То же самое получится если выгрузить слои на гпу командой и выбрать параметр, что выкидывает экспертов на проц.
Теории - они такие теории. На практике - получается совсем другая раскладка по картам.

>Очень странно что у тебя они вызывают разные эффекты, проводил ли прямое сравнение?
Разумеется проводил. При выгрузке всех слоев и аналоге n-cpu-moe - кобольд не догружает 3060, и старается впихнуть больше нужного на p104 (он не знает и не учитывает о разницу в производительности карт).
А разница в процессинге контекста объясняется тем, что в моей regexp строчке весь "не moe" грузится исключительно в 3060. А если пытаться грузить через слои и n-cpu-moe - кобольд размажет это на две карты соответственно tensor split настройке (или автоматически, если без нее). А это медленнее в такой конфигурации железа. На треть.
Оптимально в таком конфиге - в p104 грузить только часть экспертов, сколько в память влазит. А общий роутер модели - в более быструю 3060 целиком (и чутка экспертов "на сдачу" - память добить до капа).
Аноним 03/10/25 Птн 18:00:12 1374204 176
>>1374169
> 1. Без него не влазит в любом случае.
Если там нет какого-нибудь бага, то с точки зрения выделения памяти это эквивалентно выставлению маленького контекста для части или всех слоев. Как только за этот контекст выйдешь - все пойдет по пизде.
> с ним сижу на всяком мистрале-гемме-air
Гемма рассчитана работать с ним, остальные поломаются. Это значит что оно или не работает как задумано и скипается/дает другой эффект, или ты не замечаешь лоботомии.
> Теории - они такие теории. На практике
Вот за такие утверждения в рот нассать надо и по голове дать, ультимейт гречневое скуфидонство. Если отличия действительно есть и это не просто кривая интерпретация, значит присутствует разница завязанная на выделение кэша, или просто ты выгружаешь не только экспертов.
> При выгрузке всех слоев и аналоге n-cpu-moe
О проблеме уже много писали. С мультигпу нужен регексп, есть средства для его автоматического формирования.

Но вообще случай твой интересен. Здесь загрузка всех атеншнов и прочего на 3060 и пропуск паскаля важный тейк, видимо падение из-за лишних пересылов активаций много меньше чем замедление от снижения скорости расчетов. Полезный опыт.

Если кто-то будет повторять с подобным конфигом (например, современная карта + тесла), то удобнее будет указать -ts 1 --n-cpu-moe N - это забьет все в основную карту, а потом уже отдельными регэкспами `...exps.=CUDA1` забивать вторую карточку.
Аноним 03/10/25 Птн 18:03:32 1374211 177
>>1374144
> Не весело как-то.
Мне вполне весело. С моими задачами локальные нейронки, доступные мне, учитывая свое железо, справляются. Дело в том, что кодить с нуля по запросам - задача куда более трудоемкая, чем то, что делаю я. И для этого нужны большие вычислительные мощности. Многие программисты и вовсе маленький 30b Квен используют, который как раз с отличной скоростью и контекстом можно запустить на 16гб видеопамяти с частичной выгрузкой в оперативу. Для автокомплита и мелких правок. Чем сложнее задача - тем больше должна быть модель. Чем больше модель - тем серьезнее должно быть железо. Прямая и очевидная зависимость.

> Может можно этот Курсор абузить. Я про сброс триала знаю, но может ключи API покупать или доставать можно?
С этим в соседний /aicg тред, здесь про локальный запуск. Знал бы ответ, ответил бы, но мне не было необходимости разбираться в этом.
Аноним 03/10/25 Птн 18:16:16 1374229 178
>>1374204
>Если там нет какого-нибудь бага,
Вот честно говоря - мне плевать что там есть. Я в данном случае - чистый практик. Работает - и хорошо. :)
>или ты не замечаешь лоботомии.
Точно не это. Более того - когда эта опция только появилась в кобольде - были случаи явных "чудес" с выводом при ее использовании - думаю, это оно и было. Через пару релизов - пропали.

>>1374204
Вот за такие утверждения в рот нассать надо и по голове дать, ультимейт гречневое скуфидонство.
А вот вам бы таблеточек попить, что ли? Только я не знаю - от агрессии, нервов, или от галюнов?
Я всего лишь несколько иронично подметил, что ваше теоретическое утверждение - несколько не соответствует наблюдаемой мной практике. И ниже детально расписал мной на практике наблюдаемое, и его причины, в моем понимании вопроса. Вам не кажется - ваша реакция была несколько неадекватной? Вы всегда сразу на оппонента бросаетесь с кулаками, как только в чем-то он с вами не согласен?
Аноним 03/10/25 Птн 18:34:38 1374255 179
>>1374229
Твои понятия теории и практики есть лишь их проекция на манямир и с реальностью общего не имеют, избавь нас от него и не множь обиду. То что ты что-то там нахуевертил принесет пользу если даст понимание причин.

Вот "открытие" что с некрокартами лучше использовать их как быстрый буфер для обсчета только экспертов как процессор+рам - это хорошо. А горделивое выставление напоказ скуфидонской натуры и аргументация к яскозал - плохо. Делай хорошее, не делай плохого.
Аноним 03/10/25 Птн 19:31:49 1374299 180
Потестил небольшие модели около 10гб, все тупы как пробка, продолжать диалог как-то могут, но логика повествования и следование карточкам никакое. Не сравнимо даже со столь презираемым тут c.ai. ЧЯДНТ?
Аноним 03/10/25 Птн 19:32:29 1374300 181
>>1374299
>ЧЯДНТ?
Используешь модели около 10гб.
Аноним 03/10/25 Птн 19:33:27 1374302 182
>>1374229
Вот таки галлюцинации, вас, видимо, несколько беспокоят.
Вы где-то мою обиду увидели, аргументацию к какому-то "яскозал", открытие какое-то и еще и натура моя вам мерещится.

Сэр, я просто притащил в тред результаты моих практических экспериментов. Немного прокомментировал - но абсолютно не претендую на то, что моя точка зрения - единственная истина.
Просто - может кому и сгодится на посмотреть для сравнения. Мне важно лишь, чтобы был ясен полученный на практике результат. На его интерпретацию - я не претендую, здесь вам карты в руки, раз у вас есть соответствующие знания. Просто не нужно говорить что белое - это черное, и мне просто мерещится. Ага? Лично мне - устойчивый практический результат важнее теории. В прочем - теория это тоже хорошо, если объясняет, что именно происходит, а не утверждает "не может быть!"

По поводу некро-карт - да нет там никакого открытия. Это на реддите уже писали, и вроде как неоднократно (что роутер модели надо на быстрейшую карту пихать, и не делить). Я просто поделился тем, что удалось нормально подобрать regexp и настройки, под конкретную модель в кобольде.
Аноним 03/10/25 Птн 19:40:53 1374312 183
>>1374300
Этот прав.
>>1374299
Нет смысла кумить на мелких моделях, да и вообще сейчас нет особого смысла кумить локально, если хочешь получить хороший результат. Корпы всё ещё доминируют в этом. Приходи через несколько лет.
Аноним 03/10/25 Птн 19:47:36 1374318 184
>>1374312
на каких же корпах кумить по твоему?
Аноним 03/10/25 Птн 19:51:24 1374320 185
>>1374318
Тебя не заебало круглые сутки срать в тред? Если ты человек а не ллм, то где взять столько свободного времени?
Аноним 03/10/25 Птн 19:53:04 1374323 186
>>1374320
погоди, погоди, может ты меня перепутал с кем то? Я про корпы спросил вот первый блять раз литерали, ну может второй и то я давно спрашивал тредов 5 назад
Аноним 03/10/25 Птн 19:59:08 1374330 187
175951012987158[...].jpg 101Кб, 1200x720
1200x720
>>1374318
>на каких же корпах кумить по твоему?
Аноним 03/10/25 Птн 20:45:36 1374384 188
Аноним 03/10/25 Птн 21:21:20 1374422 189
>>1374299
Какие модели ты юзал? Мелкие требуют очень бережного обращения и действительно не отличаются большим умом. Помимо базы типа разметки-промпта нужно их буквально за ручки вести подсказывая в своих ответах дальнейшее развитие, тогда что-то будет.
>>1374302
Таблетки прими, уже сам с собой разговаривать начал
>>1374312
Аицг 2 блока ниже
Аноним 03/10/25 Птн 21:23:03 1374423 190
>>1374300 Остальное или не запускается или медленные. 4.5-Air Q3 выдает 3-4 токена в сек что нормально, но ожидание начала ответа по 5 минут.
Аноним 03/10/25 Птн 21:28:24 1374428 191
>>1374384
>4.6-Air дома
Те кто могут запустить такой квант запускают 4.6 во втором
Аноним 03/10/25 Птн 21:28:59 1374430 192
Аноним 03/10/25 Птн 21:44:10 1374450 193
>>1374422
>Таблетки прими, уже сам с собой разговаривать начал
Не помогут. Я, блин, уже двое суток не сплю - и нужно еще сначала смену сдать. Тупо не туда тыкаю периодически, и вообще - сейчас я тут уже лишь бы не вырубиться.
Аноним 03/10/25 Птн 22:38:23 1374508 194
image.png 5Кб, 516x17
516x17
image.png 63Кб, 861x915
861x915
>>1372399 (OP)
Аноны с устаревшими теслами M40 (5.2), P40(6.1) (CUDA Compute capability < 7.5) есть в треде?
Вы в курсе, что в 13-ой CUDA теперь ваши видюхи не поддерживаются?
Пытался сейчас пересобрать лламу с 13-ой кудой - соснул хуйца, пик 1.
Драйвер новый, проприетарный, мою теслу поддерживает, куду 13 тоже.
Сейчас на раче пытаюсь откатиться до 12.9, хотя, боюсь драйвер с новым GCC и под новое ядро не соберётся, как и всегда у невидии.

Если что CUDA CC для гпу, здеcь:
>https://developer.nvidia.com/cuda-legacy-gpus

А таблицу взял отседова:
>https://en.wikipedia.org/wiki/CUDA#GPUs_supported

Очень печально, значит, что дальше пердолинга будет только больше и разрабы совсем перестанут поддерживать старые теслы, очень грустно.
Закончилась пора бомжетесл. А Mi50, я так понимаю, нормально в РФ не купить, только пердолинг через всякие прослойки, дак ещё она и подорожала...
Аноним 03/10/25 Птн 22:42:38 1374517 195
>>1374508
Ещё, сука, ебанная невидия. Тут по таблице видно, что раньше при смене мажорных версий, отбрасывали только одно поколение, а тут сразу три выкинули на мороз. Ну хуанг, но жидовская морда блять.

Алсо, мою бы M40 один хуй выкинули бы...
Аноним 03/10/25 Птн 22:58:28 1374532 196
>>1374508
>13-ой CUDA
Но нахуя? А главное зачем. Поясни за преймущества для тех, кто деградирует на 12.8 правда я сейчас свёртки тренирую.
Аноним 03/10/25 Птн 23:02:05 1374542 197
>>1374508
Ну, у меня p104 стоит - тоже 6.1
Про cuda с ней вообще-то смысла переживать нету, т.к. pytorch 2.7.х ее давно дропнул, а без него смысла в cuda как бы и нет.
То что можно завести на 2.6.х - то работает, и работать еще будет, с cuda 12.9 тоже жить можно...
Аноним 03/10/25 Птн 23:13:50 1374559 198
>>1374508
Не грусти так. Среди команды жоры и тех кто активно пилит пуллреквесты есть идейные ребята, которые продолжат поддержку еще достаточное время. И даже когда те отвалятся - останутся форки со специализацией на них.
А для других применений они и не были годны, так что ничего не теряешь.
>>1374517
Скорее ранее была невиданная щедрость в виде поддержки аж восьми архитектур, такое не могло длиться долго. Нужно наоборот быть благодарными что оно поддерживалось настолько долго, что успеть из йоба оборудования для дорогих датацентров дойти до рук энтузиастов за бесценок.
Аноним 03/10/25 Птн 23:21:38 1374565 199
image.png 47Кб, 524x630
524x630
image.png 37Кб, 474x483
474x483
image.png 503Кб, 1248x304
1248x304
У меня обратная радость. Удалось запустить vllm на mi50 под rocm 6.4.4.
Пришлось пересобрать rocblas, tensile, rccl. torch, torchvision
Аноним 03/10/25 Птн 23:22:40 1374566 200
>>1374565
Сток если что 225 ватт. Срезаю до 150 т.к. у меня ибп в оверлоад уходит даже при 190
Аноним 03/10/25 Птн 23:27:50 1374570 201
Алсо, это говнище ебучее, а именно драйвер 575.57.08 не собрался под ядро 6.15.11 c GCC 14.3.1.
Скорее всего придётся ещё и ядро пересобирать с GCC 14, либо откатываться до того, что было с ним собрано.

>>1374532
>Но нахуя? А главное зачем. Поясни за преймущества для тех, кто деградирует на 12.8
Ну тащемта, наверное, это по большей проблема идиотов, что на раче сидят, как я.
Ну и прикол в том, что Linux, как ядро - дырявый кал, который надо постоянно обновлять, иначе очередная дырень с повышением привелегий. В LTS ядрах не все патчи бэкпортируются, так что тоже сомнительный вариант.
А если обновлять постоянно ядро, то старые драйвера невидии под новые ядра и новые версии GCC хуй соберутся. Постоянно приходится страдать.

>>1374542
>Про cuda с ней вообще-то смысла переживать нету, т.к. pytorch 2.7.х ее давно дропнул, а без него смысла в cuda как бы и нет.
>То что можно завести на 2.6.х - то работает, и работать еще будет, с cuda 12.9 тоже жить можно...
Хд, я кстати, пытался недавно поставить через pip torch 2.6.1, он мне писал про неподдерживаемую архитектуру, так же, как и 2.7.

А вот, easydiffusion мне нормально поставил 2.6.1, но возможно прикол в том, что он через конду ставит и, мб, какие-то другие репозитории использует.

Алсо, можно попытаться собрать 2.7 с TORCH_CUDA_ARCH_LIST. Но эту херобору собирать то ещё удовольствие.

>>1374559
>Не грусти так. Среди команды жоры и тех кто активно пилит пуллреквесты есть идейные ребята, которые продолжат поддержку еще достаточное время.
Вот только они не станут пилить свою куду. А время на месте не стоит. Уверен, скоро без 13-ой куды никуда не сунешься. Особенно учитывая, как хуанг резко сбросил три архитектуры. Ему надо карточки загонять и больше раздувать пузырь.

>оно поддерживалось настолько долго, что успеть из йоба оборудования для дорогих датацентров дойти до рук энтузиастов за бесценок.
Да хули толку уже, если оно перестанет работать скоро?

>>1374565
Поздравляю Анон. Наверное это было ещё то удовольствие весь рокм пересобирать.
Аноним 03/10/25 Птн 23:35:59 1374574 202
>>1373964
Сижу развлекаюсь. Поймал себя на том, что qwen 235b - первая модель, которая на русском пишет интереснее, и вообще ощущается лучше, чем на английском. Ну, просто такое вот впечатление. На английском из него типичный квен лезет - пусть и разнообразнее, и умнее чем 30B, но вот эта китайщина/новельщина прямо таки чувствуется. Хотя заткнуть вроде и можно (реагирует), но...
А вот на русском - он сразу пишет этаким простым разговорным стилем, без излишней вычурной неестественности и даже вполне разнообразно. В общем, если на английском - то тот же AIR субъективно приятнее. А вот на русском - конкурента ему, похоже, и нет, под такое железо и размеры...
Токены конечно "золотые" с таким конфигом, особенно с забитым контекстом, но таки свайпать то действительно не тянет...
Аноним 03/10/25 Птн 23:40:21 1374577 203
Аноним 03/10/25 Птн 23:44:20 1374580 204
Аноним 03/10/25 Птн 23:49:26 1374584 205
>>1374570
> Вот только они не станут пилить свою куду.
Конечно не станут, но они не особенно то спешат с вводом чего-то нового. Еще летом они выкладывали готовые билды еще аж под 11.7, не удивлюсь если современную версию возможно собрать под нее, под старые архитектуры все равно были исключительно легаси и костыльные операции.
Смысла в последних торчах там нет, перфоманс чипа слишком уж низкий чтобы делать что-то кроме ллм в жоре или совсем простого.
> если оно перестанет работать скоро
Не перестанет. Так-то оно должно было перестать еще несколько лет назад, но получило вторую жизнь в любительском инфиренсе ллм и будет оставаться там еще долго.
Ты бы лучше боялся выхода новых архитектур с ростом требований к компьюту, которые будет принципиально невыносимо инфиренсить на ней.
Аноним 03/10/25 Птн 23:50:06 1374585 206
>>1374570
> весь рокм пересобирать
К счастью или к сожалению но до всего роксма ещё далеко. Хотя уже сейчас пердеть в стул ожидая билда приходится долго
Аноним 04/10/25 Суб 00:02:45 1374592 207
>>1374570
>А если обновлять постоянно ядро, то старые драйвера невидии под новые ядра и новые версии GCC хуй соберутся. Постоянно приходится страдать.
Ну удачи там.
Компелял ядро шинды в последний раз в 2016-м
Аноним 04/10/25 Суб 00:12:50 1374596 208
>>1374508
Удалось откатиться до куды 12.9.
Версия драйвера: 575.57.08
Ядро: LTS 6.12.48
CUDA: 12.9.1
GCC: 14.3.1

Мда, пришлось ставить LTS ядро. Я мог бы, кнчн, откатится до hardened ядра 6.12, но думаю, что так хотя бы поддержка будет. Хотя один хуй, походу проблемы со сборкой связаны именно из-за разницы версий GCC, которыми компилится ядро и драйвер. Так что при след патче, уверен, опять всё сломается нахуй.

>>1374584
>Еще летом они выкладывали готовые билды еще аж под 11.7, не удивлюсь если современную версию возможно собрать под нее, под старые архитектуры все равно были исключительно легаси и костыльные операции.
Ну вот хуй знает. Как бы не произошло так же, как и с кудой. Что хуяк за одну мажорную версию три архитектуры нахуй послали.
Хотя, ладно. Хорошо, что хотя бы то, что уже есть - неплохо само по себе. Вроде кумить сейчас можно и даже какие-то картиночки генерить...
Да и последняя ллама, которая b6684, у меня под cuda 12.9 вроде собралась.

>Так-то оно должно было перестать еще несколько лет назад, но получило вторую жизнь в любительском инфиренсе ллм и будет оставаться там еще долго.
Это да... И в конце-концов это немного радует.

>Смысла в последних торчах там нет, перфоманс чипа слишком уж низкий чтобы делать что-то кроме ллм в жоре или совсем простого.
>Ты бы лучше боялся выхода новых архитектур с ростом требований к компьюту, которые будет принципиально невыносимо инфиренсить на ней.
Да понятно, что уже совсем старушки с CC < 7.5 почти ни на что не способны.
Наверное, остаётся ждать, пока сбросят с барского стола новые архитектуры, хотя, когда они до нас дойдут?.. И успеют ли они уже на этот момент стать устаревшими?

>>1374585
>К счастью или к сожалению но до всего роксма ещё далеко. Хотя уже сейчас пердеть в стул ожидая билда приходится долго
>К счастью
Определённо это.
Да, конпеляция - дело такое. Ещё ахуительно, когда что-то не собирается из-за разницы в версиях либ или линковки хуй пойми куда, хуй пойми зачем. А ты до этого уже минимум минут 40 конпелял.

>>1374592
>Компелял ядро шинды в последний раз в 2016-м
Ну нихуя ж себе. Ссылку на исходники дашь? А то я, конечно, ни на что не намекаю, но вроде бы Windows NT - проприетарное ядро с закрытыми исходниками.
Аноним 04/10/25 Суб 00:19:55 1374599 209
Аноним 04/10/25 Суб 00:23:25 1374601 210
>>1374577
Не влезет. У того, который я взял общий вес 64GB, это совсем в притык. У этого - 70+
Аноним 04/10/25 Суб 00:27:46 1374610 211
>>1374599
Ничишуясебе.
И как, наконпелял? Что ты с этим пердолил?
Аноним 04/10/25 Суб 00:29:35 1374613 212
>>1374596
Да успокойся ты. Я же говорю что наоборот они поддерживали старье аномально долго за что их нужно хвалить, а не хейтить когда халява кончается. И на конечных пользователей это не повлияет уже.
> у меня под cuda 12.9 вроде собралась
Глянь репу, там все оффициальные билды сейчас под куду 12.4, которая была релизнута в марте 24 года(!). Самое худшее что тебя ожидает - необходимость отдельного форка на который обновы будут приходить с опозданием и что-то будет работать медленнее. И то, эта перспектива может быть через год-два-три, когда появятся принципиально новые модели и/или жору на куде оптимизируют чтобы он так не сосал на большом контексте.
> пока сбросят с барского стола новые архитектуры, хотя, когда они до нас дойдут?
32-гиговые эмбеды а100 чем тебя не устраивают? Они между прочем ахренеть как ебут по компьюту. Ближайшее - в100, 16-гиговые уже торгуются по цене металлолома, 32 дешевеют. Ускорители хуавея пойдут в народ и на них что-нибудь да запилят когда более менее накопятся у народа. У тесел достаточно жизненного времени чтобы продержаться, так-то многие избавлялись от них не из-за отсутствия поддержки, а просто потому что медленные.
Аноним 04/10/25 Суб 00:39:38 1374616 213
>>1374610
Оффтоп же. Просто дополнил код декомпеляцией пары функций. Сам на ядре не сидел, но в виртуалке запускалось и работало не хуже стокового. Настолько въедливо делал, что когда утекли более полные сорцы, сравнил, оказалось, сделал верно. Но это всё дела давно минувших дней.
Эх, как же хочется ОС, написанную нейронкой. Родненькую, без телеметрии, оптимизированную, без лишних функций, с совместимостью с виндовыми exe и люнупсовыми эльфами. Разве я многое прошу?
>>1374613
>Они между прочем ахренеть как ебут по компьюту.
Сравни с 5090, лол.
Аноним 04/10/25 Суб 00:48:19 1374623 214
>>1374613
>Да успокойся ты. Я же говорю что наоборот они поддерживали старье аномально долго за что их нужно хвалить, а не хейтить когда халява кончается. И на конечных пользователей это не повлияет уже.
Да я уже успокоился и смирился... Но всё равно обидно просто.

>Самое худшее что тебя ожидает - необходимость отдельного форка
Думаешь, кто-то будет тащить на себе лламу для старого говна?
Я думаю, что теслы распространены сугубо в ру-сегменте из-за бедности населения и желания прикоснуться к хайтеку. Но не думаю, что у нас достаточно инициативных ребят, чтобы тянуть на себе лламу.

>И то, эта перспектива может быть через год-два-три, когда появятся принципиально новые модели
Ну что ж... Учитывая, что в основном развитие нейронок продолжает заключаться в раздувании кол-ва параметров, то это не страшно, наверное.

>32-гиговые эмбеды а100 чем тебя не устраивают?
HBM2 память, которая будет отмирать на колхозном охладе?

>в100, 16-гиговые уже торгуются по цене металлолома, 32 дешевеют.
Это если покупать через такие же костыли, как и Mi50?
Аноним 04/10/25 Суб 00:52:37 1374624 215
>>1372399 (OP)
привет, анон. экспериментирую с локальными моделями, которые можно развернуть на т4 в облаке. из личных достижений, смог запустить Mistral Nemo Instruct 2407 с квантованием и работать с ней через официальный chatbox из гугл стора с телефона серез ngrok. всё нравится, кроме качества и цензуры, которая выражается в потирании руками, сваливании в повторы и прочие тупняки в том числе у расцензуренной версии от huihui.

так что пришёл узнать, что бы такое запустить на том же железе для рп на русском
Аноним 04/10/25 Суб 00:58:44 1374626 216
>>1374616
> ОС, написанную нейронкой
Сворачиваешь окно @ сворачиваешь окно
> Сравни с 5090, лол.
Если исключить всякие фп4 и подобное то она все еще быстрее, по памяти отстает незначительно.
>>1374623
> Думаешь, кто-то будет тащить на себе лламу для старого говна?
Там целая команда тех, кто тащит.
> думаю, что теслы распространены сугубо в ру-сегменте из-за бедности населения и желания прикоснуться к хайтеку
У ру сегмента больше в почете 3090 из-за майнерского прошлого, а теслы на удивление достаточно популярны на западе. Так что здесь ты зря.
> HBM2 память, которая будет отмирать
Это же не ve/ga/, такое вполне вероятно на мишках но здесь проблем нет.
> через такие же костыли, как и Mi50
Мишки встают без костылей а тут понадобятся. Или иди к майнеру за 3090, которых нужно много, или иди в магазин за 5090, или заказывай с Китая 4090@48, или юзай некроамд, они как раз на легаси квантах стали теслы обгонять. Есть и другие варианты.
>>1374624
Сколько рам в коллабе сейчас?
Аноним 04/10/25 Суб 01:03:52 1374628 217
>>1374626
>Мишки встают без костылей а тут понадобятся.
Не, я не про запуск. А про костыли с покупкой. Когда нельзя просто зайти в какой-то конкретный магазин, типа алика, а надо ебаться со знакомыми или промежуточными сервисами, чтобы тебе её привезли. А то так мишек хуй купишь за копейки.
Аноним 04/10/25 Суб 01:07:13 1374629 218
ram.jpg 43Кб, 1080x1144
1080x1144
>>1374626
>Сколько рам в коллабе сейчас?
Аноним 04/10/25 Суб 01:20:12 1374631 219
>>1374601
А докупить рам не вариант? Он реально быстрее на 50%.
Не перестаю удивляться оригинальности квена, персонаж вспоминает ивент которого нет в карточке и начинает вплетать в него персонажей, их квирки, окружение в этом ивенте четко следует карточке в самых неожиданных местах
А на некоторых карточках наоборот как то всё скучно и проза прёт без конца, хотя с новым, кототким промптом я их ещё не пробовал
Аноним 04/10/25 Суб 01:30:30 1374635 220
>>1374631
>Он реально быстрее на 50%.
Эм... А не тупее при этом? По сравнению с просто Q2_K. Размер кстати ровно такой же выходит.
Мимо с 96 ГБ рам
Аноним 04/10/25 Суб 01:35:50 1374637 221
>>1374635
По идее он ещё и умнее ибо там есть слои 4 и 8 битные по их алгоритму, а в просто q2_k всё двухбитное
Аноним 04/10/25 Суб 01:47:52 1374643 222
>>1374423 Хоть бы кто сказал что в 4.5-Air Q3 надо добавлять в конце каждого сообщения /nothink Тупняк перед ответами как и пустые ответы ушли и это теперь хоть немного юзабельно.
Аноним 04/10/25 Суб 01:59:34 1374654 223
изображение.png 245Кб, 1062x1449
1062x1449
изображение.png 248Кб, 1061x1468
1061x1468
изображение.png 277Кб, 1063x1447
1063x1447
>>1374637
>а в просто q2_k всё двухбитное
Лол, нет. Вот сравнение анслоша, бартовски и этого интела. Как видно, бартовски выделил аж 8 бит на blk.0.attn_k.weight, лол. Анслош пожал сильнее всех, а вот этот интел как будто по середине.
Аноним 04/10/25 Суб 02:30:24 1374664 224
>>1374643
Никто и не спрашивал. Это указано в карточке на хф
Аноним 04/10/25 Суб 03:21:17 1374689 225
>>1374664 Не указано. И уж тем более не указано как это сделать в таверне.
Аноним 04/10/25 Суб 03:29:30 1374696 226
>>1374654
Когда нибудь в треде появится герой который протестит все q2 квена на шизу и выберет лучший
Аноним 04/10/25 Суб 03:49:13 1374704 227
>>1374696
Им мог бы быть ты, но ты терпишь...
Аноним 04/10/25 Суб 07:07:00 1374747 228
>>1374323
Репортнул на всякий случай.
Аноним 04/10/25 Суб 08:47:15 1374770 229
>>1373397
вы можете сколько угодно отрицать базу треда, менее базовой она от этого не становится
Аноним 04/10/25 Суб 09:04:16 1374775 230
>>1374104
не через сколько. дай мне нормальные условия для творчества и исследования, я вообще буду сублимировать в ваших симуляциях крайне редко
Аноним 04/10/25 Суб 09:14:44 1374778 231
ram.jpg 43Кб, 1080x1144
1080x1144
вы тут что, посты трёте? я задавал вопрос, что есть хорошего на Т4 развернуть кроме mistral nemo, но нет ни вопроса, ни ответов на него. так что удваиваю вопрос. по ресурсам вот скрин
Аноним 04/10/25 Суб 09:36:17 1374785 232
Нахуя ивангаю ллм сервак и почему такой нищенский?
Аноним 04/10/25 Суб 09:49:39 1374788 233
>>1374629
хм, что? не прогрузились, видать 🤔
Аноним 04/10/25 Суб 09:54:20 1374789 234
>Temperature=0.7
>TopP=0.8
>TopK=20
Как-то эти семплеры для квена сосут
Сейчас пробовал русик на 0.5 temp, остальное нейтрализовано кроме rep pen, порпшил так уже на английском и результаты показались лучше
Так же в дисе советовали темп 1 и min p 0.04
Аноним 04/10/25 Суб 10:04:22 1374791 235
image.png 728Кб, 1424x904
1424x904
Держите меня семеро, я щас со смеху скочерыжусь.
Аноним 04/10/25 Суб 10:06:16 1374792 236
Помогите новичку, только хочу вкатываться, сейчас как раз назрел вопрос по сборке нового системника.
Какую мне видюху взять, почитал про это все - столько параметров навалилось, что плаваю в том, что важнее.
Буду брать что-то стандартное потребительское игровое, а не профессиональное серверное.
Вроде как по соотношениям цена и параметры RTX 5070 Ti золотая середина (16 gb, PCI Express 5.0 x16...)
Или есть что-то побюджетнее, но для нейронок разницы особо не будет?
Аноним 04/10/25 Суб 10:08:55 1374794 237
Аноним 04/10/25 Суб 10:17:15 1374796 238
>>1374792
upd: просто как вижу золотые середины ценовых сегментов сейчас - это либо 3060 (12gb) за 30к или 5070 Ti за 80к
Аноним 04/10/25 Суб 10:21:22 1374798 239
>>1374794
Судя по следованию карточке какой-нибудь 12б васянотюн
Аноним 04/10/25 Суб 10:29:29 1374800 240
>>1374794
>>1374798
Не, это официальная медицинская 27б гемма, Q4KM ггуф от анслота.
Там тестовый реквест для ИИ, через ООС-команду на демонстрацию эмоционального ренжа и прочих возможностей по следованию промптов.

То есть ответ не был сгенерирован по линии продолжающегося ролеплея, а напротив - в рамках технического балабольства.

Модель на удивление послушная. Если форсировать ризонинг, активно планирует действия и создает черновики, а также их критику. Причем, многоэтапно:
> draft 1
> critique 1
> draft 2
> critique 2
> blah-blah-blah, not enough
> draft 3
> we'll go with draft 3

Неприятный аспект - не умеет закрывать ризонинг, совсем, что приводит к неэстетичного вида ответам в таверне.
Без форсированного ризонинга - модель менее выдающаяся по возможностям (на скриншоте запечатлен обычый ответ).
Аноним 04/10/25 Суб 10:30:59 1374801 241
Аноним 04/10/25 Суб 10:49:34 1374819 242
>>1374792
>>1374796
12гб это ниачом, 16 жить можно, но разве это жизнь?
жизнь начинается с 24гб, 3090 или 4090
Аноним 04/10/25 Суб 10:51:28 1374821 243
>>1374819
Жизнь начинается с 48гб врам и 196рам
Аноним 04/10/25 Суб 10:52:06 1374822 244
Ради интереса выложил свою 4090 на Авито. В течение пары часов со мной связались четыре перекупа из Москвы, двое готовы были купить через наложку, двое и вовсе по предоплате, за 175к. Трое честно признались, что отправят в Китай, чтобы ее потом перепаяли на плату с 48гб видеопамяти.

Делюсь на случай, если вдруг кому такое интересно: это по-прежнему актуально. Можно, теоретически, продать 4090 за 180 и взять на Озоне 5090 за 210-215, но для этого нужно ловить редкую скидку или согласиться на бонусы (с ними есть нюансы). Насколько оправдано - тут уж каждый сам решает. Для меня эта затея того не стоит, ибо у меня ботлнек по памяти - DDR4. Многого не выиграю. Весь прикол задумывался в том, чтобы заменить б/у видюху, которой почти 3 года, на новую с минимальной доплатой, но у меня нет затычки на время выжидания скидки, а больше условных 30к я за это отдать не готов. На Озоне в отзывах, кстати, много людей, которые так и поступили: продали 4090 за 170-190к, взяли 5090 за 215-220. Офигеваю, конечно, от таких цифр, особенно когда свою 4090 взял за 135к, новую в 2023.
Аноним 04/10/25 Суб 10:59:09 1374823 245
>>1374822
> заменить б/у видюху, которой почти 3 года, на новую
Ты че, озверел? Видюха и 30 лет проработать может. У меня вон валяется гтх 480. До 2023 у пиздюка родственников стояла, а она одна из самых горячих и охлад на модели всратый.
Аноним 04/10/25 Суб 11:05:47 1374824 246
>>1374631
>А докупить рам не вариант? Он реально быстрее на 50%.
Совершенно. 64GB - потолок этого железа, причем набор стоит 4х16. Так что - там все менять надо для этого, даже диски (т.к. 6x SATA используется, а у новых плат - только 4 слота поголовно).
Аноним 04/10/25 Суб 11:14:25 1374826 247
>>1374823
> Видюха и 30 лет проработать может.
Так то оно так. Но может и не проработать. Мои предшественницы - 670, 780 Ti, 2080, все погорели в пределах пяти лет. Если первая по неопытности, возможно (не обслуживалась, корпус был так себе), то последние две - при андервольте, в свободном продуваемом корпусе. 4090 сейчас работает с power limit 70%, по-хорошему надо бы обслужить, заменить термопрокладки, пасту, но она пока еще на гарантии. В целом температуры пока норм, пойдут дальше - забью на гарантии и обслужу.
Аноним 04/10/25 Суб 11:16:35 1374828 248
>>1374800
Что за медицинская гемма? Промпт?
Аноним 04/10/25 Суб 11:24:41 1374834 249
>>1374828
Официальный тюн третьей геммы, которому вместо экстенсивной промывки мозгов соевой моралью дали знания об анатомии и прочем. Может тебе про письки подробно в деталях обрисовать
https://huggingface.co/unsloth/medgemma-27b-text-it
Аноним 04/10/25 Суб 11:26:06 1374836 250
Аноним 04/10/25 Суб 12:02:11 1374861 251
>>1374821
базашиз, спок.

>>1374785
у пюдипая есть, значит и ивангаю нужно
Аноним 04/10/25 Суб 12:14:42 1374871 252
>>1374819
>12гб это ниачом, 16 жить можно, но разве это жизнь? жизнь начинается с 24гб, 3090 или 4090
ну по финансам это больно ударит, сейчас точно не смогу скорее всего уже варианты на 24 гб рассматривать
сейчас смотрю на 3060 12 гб и 7600 xt 16 гб - это все ценник 30к
Аноним 04/10/25 Суб 12:18:24 1374876 253
>>1374871
лови б/у 3090 на лохито
Аноним 04/10/25 Суб 12:31:44 1374885 254
>>1374834
И как она в плане сэкса?
Аноним 04/10/25 Суб 12:37:15 1374891 255
rtx.png 696Кб, 1284x610
1284x610
>>1374876
в чем подвох?
меня наебут, я даже проверять их не умею и особо не шарю в тонкостях железа
Аноним 04/10/25 Суб 12:41:03 1374893 256
>>1374885
Какой промпт напишешь, так и полетит.
Аноним 04/10/25 Суб 12:42:22 1374895 257
>>1374891
Не еби себе мозги, паси уценку в Регарде. Будет дороже (там обычно по 65к улетают), но хотя бы месяц гарантии дадут и сразу можно в сервисной коморке попросить проверить после оплаты.
Аноним 04/10/25 Суб 12:42:58 1374896 258
>>1374891
>>1374895
Правда шанс попасть на убитое говно точно так же высок. Короче это чуть меньшее зло, но никак не спасение.
Аноним 04/10/25 Суб 12:51:07 1374905 259
техническая трабла
кобальд после генерации начинает новую генерацию но в товерну не выводит
а еще при свайпе на уже созданные сообщения он автоматом начинает генерировать чтото снова
как фиксить этот кал?
Аноним 04/10/25 Суб 13:06:23 1374915 260
>>1374580
Потому что iq кванты в мое режут до 50% скорости. Это не шутка.
Аноним 04/10/25 Суб 13:09:53 1374918 261
>>1374299
>10гб, все тупы как пробка
32b плотные дэнс без ебанутого кванта тоже такие, да и русский у многих совсем примитивный, может путаться/путать падежи/рода.. да знаешь даже МОЕ если у тебя хотя бы 64 озу - ваще нихуя не панацея, пока что сделал вывод что даже 128 озу это прям совсем средний уровень.. но назвал бы это только лишь порогом вхождения в локальное РП, а ты за 10b чето пишешь лол бля..
Аноним 04/10/25 Суб 13:15:29 1374924 262
>>1374302
>По поводу некро-карт - да нет там никакого открытия.
Тоже что-то такое читал, там же еще неизвестно какой l1 l2 кэш, 60-70тые ртх 50хх серии могут иметь лучший кэш чем у 3090
Аноним 04/10/25 Суб 13:32:20 1374942 263
изображение.png 111Кб, 745x573
745x573
Аноним 04/10/25 Суб 13:38:56 1374955 264
>>1374942
Воображаемых детей защитили, недопредставленных в воображении ниггеров защитили, соевого пользователя, готового оскорбиться от придуманных стохастическим попугаем буковок защитили. Кто бы меня защитил от попирания свободы слова...
Аноним 04/10/25 Суб 13:41:09 1374958 265
>>1374299
Давно надо принять базу треда и внести её в шапку чтобы люди не тратили время на бредогенераторы и аналоги порфирьевича(ака модели меньше 24b).

Минимальный уровень - среднее консумерское железо - мистраль 24b и гемма 27b. Можно получить РП, еРП или неплохого ассистента, но звезд с неба хватать не будет.
Средний уровень - потолок консумерского железа - глм аир, немотрон(с оговорками), гпт осс, квен 235 в малых квантах. Тут начинаются реальные мозги и настоящей РП с дотошным следованием промпту. Но все еще не уровень корпосеток.
Высокий уровень - требуется неконсумерское железо и навыки от с с ним - Дипсик, ГЛМ 4.6, Кими. Это уже уровень корпосеток.
Аноним 04/10/25 Суб 13:52:47 1374976 266
>>1374822
>, особенно когда свою 4090 взял за 135к
Ага, с курсом доллара по 55? Или скок там было не помню уже.. по факту ты её должен был покупать +- за те же деньги что и продал сейчас, без того временного курса.
>>1374891
Подвохов много, я бы сказал дохуя. Видюхи с ремонта, видюхи от перекупов, писклявые дрослея(хотя это самое незначительно) Но это не прям все так страшно если самолично проверить карту или приехать забрать с рук, еще можно попросить сделать видеотесты с этой видюхой но 1. мало кто это сделает 2. наебать и с ними можно. Ну и я насмотрелся на ютубе роликов где челы продавали прогретый кал который только через неделю начинает опять артефачить.
>>1374895
Не панацея, но шансы на хорошее повыше примерно как и цена.
Аноним 04/10/25 Суб 13:57:27 1374984 267
>>1374958
Да! Главное еще +- требования к железу и примерный т/сек на сетап хотя бы указать.. это бы пиздец как отгородило залетных от 1.тупых вопросов 2. от возможной ебли в будущем
Аноним 04/10/25 Суб 14:00:41 1374989 268
изображение.png 273Кб, 473x899
473x899
>>1374822
>взять на Озоне 5090 за 210-215
Хоть уловись, таких скидок больше нет и не будет. Наебалы не нужны.
>>1374826
>в свободном продуваемом корпусе
Продуло карточку. Надо было укутать.
>>1374958
>Но все еще не уровень корпосеток.
Ну да, фразу "Извините, я не могу ответить на этот вопрос" могут выдать не только лишь все локалки.
Аноним 04/10/25 Суб 14:08:01 1374998 269
>>1374958
спасибо за поддержку
мимо базашиз
Аноним 04/10/25 Суб 14:09:40 1374999 270
>>1374989
Классный скриншот жаль только что хуёвый ведь даже в днс цена 250
Аноним 04/10/25 Суб 14:15:45 1375005 271
144291629416320[...].jpg 600Кб, 1600x1600
1600x1600
>>1373402
>huihui
Каждый раз проигрываю когда натыкаюсь на него..
Аноним 04/10/25 Суб 14:27:55 1375012 272
>>1374989
> таких скидок больше нет и не будет
Я летом на Яндекс Маркете за 220 такой спалит брал. Без всяких дрочей с балами. Удачно момент поймал, сейчас аж 300к накрутили.
Аноним 04/10/25 Суб 14:33:17 1375019 273
>>1374942
И? Модель тюнена на психологическую помощь в том числе, у нее меньше рефьюзов по ебанутым запросам. Вполне умеренные промпты позволяют ей радостно писать про всякое такое, чего базовая гемма вообще наотрез отказывается.
Аноним 04/10/25 Суб 14:46:09 1375034 274
>>1374976
а бу 3060 не так опасно с авито брать?
Аноним 04/10/25 Суб 14:58:19 1375043 275
>>1374628
Да, с покупкой сложности
>>1374629
>>1374778
Оварида, тут даже для запуска чисто гпу задач придется постоянно за собою подчищать.
>>1374821
Жизнь начинается с 192гб врам
>>1374822
Все так. Кстати, у местных появились услуги переделки 4090 на 48 также как пилят китайцы, а такая - лакомый кусок.
Аноним 04/10/25 Суб 15:00:58 1375044 276
>>1375034
имхо - однохуйственно
Аноним 04/10/25 Суб 15:03:53 1375048 277
>>1375043
>4090 на 48
Даа.. 4ре таких бы в десктоп.. всего лямчик.. и можно баловаться с ллм-ками
Аноним 04/10/25 Суб 15:13:58 1375063 278
>>1375048
> в десктоп
Они сильно воют из-за охлады. Чисто для ллм пофиг, но если что-то другое делать то сразу ощутишь себя в серверной.
Кажется будто сейчас лучший момент для владельцев 4090 свапнуть ее на 5090 или 48-гиговую, оба варианта потребуют незначительных доплат относительно основной стоимости и дадут много новых возможностей. Правда и там и там свои подводные.
Аноним 04/10/25 Суб 15:17:10 1375066 279
>>1373072
Отзыв от одного человека еще: на 9950 псп 90.
Т.е., можно взять 6000~6400 частоту памяти и райзен 9950х, должно быть хорошо и быстро.

>>1373964
> Не надо меня за голую lama.cpp агитировать - я криворукий тормоз, и до сих пор ее с поддержкой cuda собрать не могу под пингвина нативно.
Я выкладывал свои команды, все засрали «есть докер, нахуя под линуху собирать вручную».
Я пару раз их потом прогонял на других пингвинах — везде работало ноу проблем.

>>1374050
1. GLM-4.5/4.6 — 355b, 2 квант в 128 гигов влазит, 6,5 токенов, но с 5070 ти не подскажу, может быть 7-8-9?
2. Qwen3-235B — скорость будет на полтокена быстрее, модель меньше и глупее, зато Q3_K_XL квант в 128 гигов.
3. GLM-Air (говорят, скоро обновят тоже) — 106b, уже влазит в 64 гига, скорость от 12 токенов и выше (думаю, можно вообще взять 3 24-гиговых видяхи и получить отличную скорость).
4. Qwen3-Coder-30b — вот тут уже все очень быстро, сам понимаешь, можешь взять 32+ гига видеопамяти и летать будет. В рейтинге агентов обходит все остальное, уступает только чувакам выше. Доступная.
5. Еще месяц бесплатной акции в Cloud.ru, там есть GLM-4.6 и даже Qwen3-Coder-480b с лимитом 15 запросов в секунду — то есть безлимитно (но ты сам догадаешься, чем расплачиваешь, ведь ты умный?).

В агентах все упирается в чтение контекста, на старых проектах контексты будут большими — читаться будет медленно. Но с 5070 должно быть нормально.
Вторая проблема — генерация не блещет (кроме GLM-Air с 72 видеопамяти или Qwen3-Coder-30b), придется подождать.
Ну и третья: GLM-4.6 сопоставим с корпоративными моделями (кроме Опуса какого-нибудь), но 2 квант — это не fp8, сам понимаешь, это 3 бита против 8, он будет глупее, чем корпоративная модель.

GPT-OSS-120B с reasoning_effort: high действительно умеет решать задачи, но агент из нее хрен пойми какой, там tool calling последний раз работал через жопу, я надеюсь меня сторонники GPT-OSS поправят. Но она правда быстрая, активных параметров там очень мало.

Ответ на твой вопрос: 5070ti в сравнении с Cursor это либо очень медленная, но неплохая GLM-4.6, либо быстрый, но все же более слабый Qwen3-Coder-30b.
Я бы смотрел в серверные материнки с 256 (а лучше 384+) гб оперативы и хотя бы 24+ ГБ (4090/5090) для контекста (хотя вон чел про 48 говорит — мейк сенс), либо просто в сторону 72~96+ ГБ видеопамяти и GLM-Air подарит тебе на ступень ниже качество, зато быструю скорость.

Ну либо возьми пару RTX 6000 Pro Blackwell, 192 памяти и GLM-4.6-FP4! Умно, заебато, быстро, 2 ляма рублей.

>>1374102
> Курсор
Claude Code!
И claude-code-proxy вот этот: https://github.com/fuergaosi233/claude-code-proxy
Пользуюсь, доволен.

> Для условно комфортной работы нужно хотябы около 1к процессинга и около 30т/с генерации
ИМХО, на 500 пп можно потерпеть. А вот с генерацией затык, да. Кроме квена 30б никто на 5070 ти не даст 30 тпс.

>>1374654
Вот-вот! Бартовски батя!
Аноним 04/10/25 Суб 15:25:46 1375076 280
>>1375063
> лучший момент для владельцев 4090 свапнуть ее на 5090
На мой взгляд, нецелесообразно в связке с DDR4, большие МоЕ упираются в оперативу. На том же Квене 235б я бы выиграл полтора токена генерации, переехав с 4090 на 5090. 4.5->6. Разве что контекста больше уместится и, в теории, в будущем какие-нибудь 200б-а32б запускать.

> или 48-гиговую
Вот это уже может быть, но там охлад страшный. Если очень хочется, то можно, наверно, но как будто проще за те же 70к купить 3090.

>>1375066
> GLM-4.5/4.6 — 355b, 2 квант
> Qwen3-235B Q3_K_XL
Все, что для кодинга, ниже Q5 не годится. Какая бы модель ни была большая. Еще лучше - Q6.
Аноним 04/10/25 Суб 15:37:51 1375084 281
> ниже Q5 не годится
где-то далеко улыбнулся один базашиз
Аноним 04/10/25 Суб 15:41:40 1375088 282
>>1375066
> модель меньше и глупее
Doubt, в прикладных она опережает жлм, знаний и внимания к мелочам больше, без стеснения оспаривает ошибочные запросы юзера. А жлм легко газлайтится и со всем соглашается буквально как опущ, "все хорошо, отличное решение", пока напрямую не укажешь ему рассмотреть недостатки и потенциальные проблемы - тогда сразу оказывается что сочиненное ранее - полный бред и требует серьезных изменений в основах.
> Claude Code!
Тогда уж qwen code, он более дружелюбен к локалкам чтоли, проверено хорошо работает с квеном и жлм-эйр.
> Кроме квена 30б никто на 5070 ти не даст 30 тпс.
30а3 даст и больше, вот только на контексте обосрется. Проблема в туллзколлах, полностью аои совместимые поддерживает жора-сервер, но с пачкой нюансов, на куде он сильно проседает по скоростям на контексте, а контекст там будет. Эксллама на табби в этом отношении прекрасна, вот только табби даже имея возможность полноценного парсера вызовов, повторяющего оригинальную модель, не дружит со стандартным форматом, работая только с трешовым диалектом openwebui. Вроде как vllm может, но там свои нюансы.
>>1375076
> нецелесообразно в связке с DDR4
Какая разница? Будешь щеголять быстрой обработкой и закинешь больше экспертов, а когда обновишь платформу - будет еще веселее. Так сказать игра в долгую, в других генеративных сетях буст сразу будет заметен.
> но как будто проще за те же 70к купить 3090
Тоже верно, но возможности там другие.
Аноним 04/10/25 Суб 15:51:00 1375099 283
Почему нам не дают 100б мое с 32б активных параметров?
Аноним 04/10/25 Суб 16:04:45 1375111 284
Аноним 04/10/25 Суб 16:26:18 1375148 285
>>1375066
>GLM-Air (говорят, скоро обновят тоже) — 106b, уже влазит в 64 гига
Да как билять, почему у меня забивается оперативка и все виснет?
Аноним 04/10/25 Суб 16:27:19 1375151 286
>>1375148
--no-mmap, также особенно на шинде нужно иметь своп ибо жора выделяет память в том числе и на те веса, что находятся в врам, хоть к ней и не обращается.
Аноним 04/10/25 Суб 16:59:17 1375182 287
Я люблю большой квен :)
Оказывается 3 квант убергарма, где он 10т получил, ещё и 3.9bpw, а вся шиза пропадает с ~4bpw
Это вам не 2.3bpw на 4.6 глм и скорость хорошая, тут реально стоит задуматься об апгрейде
Аноним 04/10/25 Суб 17:31:21 1375212 288
>>1374958
>мистраль 24b и гемма 27b
>глм аир, немотрон(с оговорками), гпт осс, квен 235 в малых квантах
>Дипсик, ГЛМ 4.6, Кими
Сразу видно пиздабола, который половину из этих моделей даже не запускал. Дипсик, квен и гопота у тебя дотошно промту следуют? Совсем долбаеб? Покатай их сначала больше пары минут, а потом уже выебывайся.
Аноним 04/10/25 Суб 17:40:46 1375223 289
кто интересовался как у меня квен q2_k_l лезет
sudo ./build/bin/llama-server \
--n-gpu-layers 999 --threads 5 --jinja \
--override-tensor "blk\.(0|1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18)\.ffn_.=CUDA0" \
--override-tensor "blk\..
_exps\.=CPU" \
--prio-batch 2 -ub 2048 \
--no-context-shift \
--no-mmap -ctk q8_0 -ctv q8_0 \
--ctx-size 20480 --flash-attn on \
--model /home/Downloads/Qwen_Qwen3-235B-A22B-Instruct-2507-Q2_K_L-00001-of-00003.gguf
Аноним 04/10/25 Суб 17:41:17 1375224 290
>>1375212
Ты отвечаешь немотроношизику
Аноним 04/10/25 Суб 18:05:57 1375269 291
>>1375212
А что, они не следуют?
Аноним 04/10/25 Суб 18:06:14 1375270 292
Screenshot2025-[...].png 418Кб, 1766x1524
1766x1524
Драммер решил совершить самострел
Аноним 04/10/25 Суб 18:15:49 1375280 293
>>1375270
Ай лол, надо въебать слоподела за попытку коммерциализации моделей что прямо запрещают это, среди его есть такие.
Аноним 04/10/25 Суб 18:23:49 1375298 294
>>1375280
Он походу совсем кукухой поехал. Похоже эпоха тюнеров подошла к концу, а он ищет способ остатся на плаву
Аноним 04/10/25 Суб 18:23:56 1375300 295
>>1375212
>Дипсик, квен и гопота у тебя дотошно промту следуют?
Квен как раз дотошно следует. Он даже от залупов лечится промптом, который их запрещает, я не встречал такого на других моделях. Гопота живет в своем мире, но если стукнуть промптом - то будет работать как надо и выдавать что нужно. А про Дипсик я такого и не говорил - про него я сказал что он на уровне корпосеток - собственно его я только на облаке и запускал.
Аноним 04/10/25 Суб 18:30:09 1375309 296
>>1375298
Эпоха слоподелов ты хотел сказать? За все время реально приличных тюнов было очень мало, и уверен что ни один из них не окупился донатами.
Может просто не везло, но все модели драммера что пробовал были отборным слопом в худшем смысле. Если какие-то словосочетания и выражения можно терпеть, то набор железных парадигм действий на которые не влияет сценарий и прочее - нет.
>>1375300
> как раз дотошно следует
Очень дотошно, иногда это даже мешает. А вот дипсик любит фантазировать, что также можно обернуть в плюс.
Аноним 04/10/25 Суб 18:51:12 1375341 297
>>1375088
> Doubt, в прикладных она опережает жлм, знаний и внимания к мелочам больше, без стеснения оспаривает ошибочные запросы юзера.
Человек попросил программирование агентами, там глм банально лучше решает задачи (чаще пишет корректный код и исправляет ошибки), чем квен.
https://swe-rebench.com/
Никакой магии и хитрых бенчей, чистая свежая практика с гита.

> Тогда уж qwen code
Сравнивал, квен код часто тупит с локалками, у клода с этим нет проблем, клод код лучше. Да, квен код типа специализирован под квен, но им это не помогло, к сожалению, по моим юзкейсам. Допускаю, что может зависеть от задач и языков.

> Эксллама на табби в этом отношении прекрасна, вот только табби даже имея возможность полноценного парсера вызовов, повторяющего оригинальную модель, не дружит со стандартным форматом
Это грустно, конечно. =(

Ллама.спп на больших моделях дает ~110 пп на 3060, скейлится вполне похоже на чистую мощность ядра, но даже 500 … нужна 5090? Теоретически да.
Да, ждать первый токен надо будет долго. =')

> Будешь щеголять быстрой обработкой и закинешь больше экспертов, а когда обновишь платформу - будет еще веселее.
Пожалуй соглашусь, видеокарта здесь и сейчас, а платформа — тут тебе и проц, и мать, и оперативу, и разные сокеты, и разные даже сектора (потребительский/серверный), много факторов.

>>1375148
Я на линуксе это делаю, часть которая в видяху уходит — не идет на оперативу, получается 8+56, типа того.
Аноним 04/10/25 Суб 19:10:16 1375353 298
Метаюсь между эир большая умница и эир - правая кнопка - удалить
Уже все кванты испробовал до 6, какая то нестабильная модель
Аноним 04/10/25 Суб 19:17:31 1375364 299
>>1375353
Те же мысли. И Эир и Квен какие то странные блять. Рандом абсолютный, один день ахуенно всё и свайпать не надо даже, в другой совсем пизда. У меня такое в последний раз было со Снежным который тюн КВК.
Аноним 04/10/25 Суб 19:46:53 1375414 300
>>1375353
>>1375364
Рад что я не один.
Столько обсуждений и похвалы к ним в треде что это словно идеальные модели. Думаю пройдет время и будет как с геммой, останутся с ними отдельные ценители и все. Нихуя больше не выходит вот и не обсуждают. Плюс это что-то новое, вот так и получилось. Имхо обе модели очень средние, что Глэм что Квен. Мне даже Ллама 70б милее, а она уже прошлый век в сравнении с ними. Ниче. Новые Мое выйдут от Лламы, Мистраля и заживём, забуду про эту парочку как про страшный сон
Аноним 04/10/25 Суб 20:04:15 1375436 301
>>1374384
Кто-нибудь это тестил вообще?
Аноним 04/10/25 Суб 20:16:43 1375451 302
Qwen3-235B-A22B не Instruct-2507 определённо менее хорни и чуть умнее
Аноним 04/10/25 Суб 20:18:43 1375454 303
>>1375451
круто. расскажи еще ченить чтоб прям челюсть отвисла
Аноним 04/10/25 Суб 20:33:29 1375463 304
>>1375454
квен говно для тупой школоты
Аноним 04/10/25 Суб 20:35:15 1375464 305
>>1375463
даже не моргнул, это чтоль открытие?
Аноним 04/10/25 Суб 20:57:03 1375505 306
>>1373397
Главного же забыл - шизико шизик.
Разогнал за пол года всех из нормальных людей треда клеймя каждого шизиком
Аноним 04/10/25 Суб 22:21:21 1375638 307
Много нейронок вышло после джеммы3, но так ни одна даже не сравнялась по уровню русского языка. О тюнах вообще не пишу - это мусор не стоит упоминания. Ждём 4ю.
Аноним 04/10/25 Суб 22:35:30 1375649 308
>>1375638
>не сравнялась по уровню русского языка
Квен 235.
Аноним 04/10/25 Суб 22:36:47 1375650 309
>>1375649
говно
гемма лучше в русике и весит почти в 10 раз меньше
Аноним 04/10/25 Суб 22:37:39 1375651 310
>>1375650
>гемма лучше в русике
Нет.
Аноним 04/10/25 Суб 22:39:59 1375652 311
>>1375638
Я конечно понимаю, что qwen3-235b запустить могут не только лишь все, но по русскому языку она гемму превосходит, IMHO.
Даже больше скажу - Qwen3-30B-A3B-Instruct-2507 тоже вполне сравнима с геммой, если оценивать именно сам русский язык которым модель пишет, в отрыве от смысла. :) Т.к. пишет она на удивление грамотно. Другое дело - что именно она им пишет... :)
Так же, очень неплохо на русском пишет GPT-OSS 120B (20B не пробовал). Можно эту модель много за что полоскать, но сам язык она выдает весьма правильный. Правда если не требовать глубоко профессиональных терминов - она таки реально гопота, которая их не особо знает... :)
Аноним 04/10/25 Суб 22:41:41 1375654 312
Аноним 04/10/25 Суб 22:53:01 1375667 313
>>1375654
Аахаха ебать меня вынесло.
Представил как мамка выносит хуй на тарелке и говорит хуй на обед или тип того))

Мимо другой анон. Бля иди нахуй ахахаахахахх
Аноним 04/10/25 Суб 23:09:58 1375685 314
>>1375667
ты под чем? мистралеслоп?
Аноним 04/10/25 Суб 23:23:02 1375689 315
Аноним 04/10/25 Суб 23:28:12 1375694 316
>>1375689
да, ты продолжишь семенить как ебанутый и отвечать себе же
Аноним 04/10/25 Суб 23:44:34 1375725 317
>>1375685
ну этот кал вообще обсуждать стыдно итт. Каждый раз ору со смеху, когда слышу, что кто-то называет мистралеговно ллм моделью.
Аноним 04/10/25 Суб 23:50:01 1375734 318
>>1375694
Ужас какой быть тобой, видеть везде одного шизика который ещё и семенит
Аноним 05/10/25 Вск 01:02:58 1375820 319
CUDaVumUv.jpg 50Кб, 1000x599
1000x599
>>1375694
Выплескивавшим курганчиков.
Аноним 05/10/25 Вск 01:06:21 1375824 320
>>1375694
Замер а зашел инспектор месте потом эту комнату сначала в я на кадзуя.
Аноним 05/10/25 Вск 01:12:29 1375829 321
Аноним 05/10/25 Вск 01:32:00 1375841 322
>>1375829
>Друммер в коммерцию пошел
Как будто что-то плохое. Одним говнотюнером стало меньше и спасибо на этом.
Аноним 05/10/25 Вск 01:46:25 1375854 323
image.png 275Кб, 1932x509
1932x509
image.png 92Кб, 1732x418
1732x418
Вопрос: если вы тут все такие дохуя умные и шарите то почему ещё не сделали свою ру модельку?
Вот анон хотябы 100$ потратил и время, а вы что?
Писюн только дёргаете и выёбываетесь
Аноним 05/10/25 Вск 01:57:34 1375858 324
>>1375854
Не интересно. Рекомпил рокма веселее
Аноним 05/10/25 Вск 02:00:34 1375859 325
Аноним 05/10/25 Вск 02:05:37 1375860 326
>>1375859
>Писюн только дёргаете и выёбываетесь
Аноним 05/10/25 Вск 02:16:20 1375865 327
>>1375860
Я и не спорю с этим. ИТТ вообще снобы-эгоисты, жрут-спят-дрочат всех помоями поливают. Велкам ту харкач.
Аноним 05/10/25 Вск 02:19:59 1375869 328
>>1375341
> Допускаю, что может зависеть от задач и языков.
Ключевое, пихон релейтед задачам мл и обработки больших данных - квенчик вне конкуренции. Жлм-эйр тоже хорош, умница, но слабее. Большой жлм идет нахуй из-за скорости, он уступает большому квенкодеру при около-той же скорости.
> Это грустно, конечно. =(
Да пиздец просто, сподвигает на написание своего прокси с парсингом. Но много труда, этим должен заниматься кто-то у кого больше свободного времени.
> 110 пп на 3060
Хм, на 3060 наверно это даже неплохо. Там вся проблема в том что не только генерация, но и процессинг подыхает по мере роста контекста. Условные 1600 на блеквеллах+аде курвится до 700 на 80к и с этим ничего не поделать. Вплоть до того, что на моделях побольше на крупных контекстах целесообразно выгружать меньше (!), поскольку на больших контекстах обсчет генерации на проце замедляется незначительно, а на куде падение в 2-3 раза - норма. Кроме как ебаный пиздец это никак нельзя назвать.
Аноним 05/10/25 Вск 04:12:59 1375906 329
>>1375854
>Вот анон хотябы 100$ потратил и время, а вы что?
Я нихуя не тратил и ничем не контрибьютил. Считай, что спас локалки от своего дурного влияния. И попробуй только сказать, что мой вклад не равноценен.
Аноним 05/10/25 Вск 04:13:29 1375907 330
>>1375353
Зачем метаться? Используй когда он хорош, используй другие модели когда он плох, разве сложно?
Не понимаю эти срачи, это же не специальная олимпиада где ты купил какой-то девайс и обязан его шиллить, просто юзай по ситуации и имей один подход чтобы править всеми.
>>1375451
> определённо менее хорни
Это не мешает ее трахать
>>1375649
Превосходит гемму
>>1375854
> то почему ещё не сделали свою ру модельку
Это требует денег и времени, за 100$ разве что жопу себе почесать. Пересечение тех кто может сделать и тех кто в этом нуждается чрезмерно мало, в этом вся беда. Иди в команду вихря поной или задонять им, это самые близкие из всех, хотя отзывы о последней версии плохие.
Аноним 05/10/25 Вск 05:17:48 1375918 331
Мишки на 32 подорожали к 15.5к+
Жму руку тем кто затарился по 10-11к, остальным соболезную
Аноним 05/10/25 Вск 06:50:22 1375943 332
>>1374905
отключить автосуммаризацию и прочие свистопизделки в таверне
Аноним 05/10/25 Вск 08:28:39 1375978 333
>>1375906
True, true.. многие не понимают что большая часть людей это такие говноеды что самое полезное что они могут сделать — не плодить свою шизу для других..
Аноним 05/10/25 Вск 09:04:27 1376003 334
Какой квант глм-4.6 выбрать для 24 врам, 128 рам?
Аноним 05/10/25 Вск 11:03:21 1376085 335
Аноны, подскажите, кто-то пробовал связать ollama и SillyTavern на Винде?
LibreChat и Continue работают со стандартными настройками, а SillyTavern не может законнектиться. Банально не может получить список моделей по адресу http://127.0.0.1:11434/api/tags, хотя в браузере всё работает.
Я думал может потому что ST как докер контейнер запущено, но LibreChat тоже, и он работает.
Пробовал задавать в environment variable OLLAMA_HOST="0.0.0.0", тоже не помогает.

Раньше гонял с oobabooga. но как будто у ollama больше интеграций с разными сервисами типа Obsidian или VSCode.
Но так же хочется веб-морду со всякими плюшками и поддержкой персонажей, как в ST, а других не знаю.
Аноним 05/10/25 Вск 11:31:03 1376104 336
>>1376085
Удаляй этот форк ламы цпп и пересаживайся на саму ламу.
Аноним 05/10/25 Вск 11:43:14 1376109 337
А что там с Grok 2? Поддержку в Лламу добавили, но ни один анон не отписался. Тут есть даже те, кто Дипсик могут запустить.
Аноним 05/10/25 Вск 11:54:28 1376123 338
>>1376109
> на тебе Боже що нам негоже
хз зачем нужна слабая протухшая модель из позапрошлого века
Аноним 05/10/25 Вск 11:58:48 1376132 339
>>1376123
Конечно же, ты ее даже не запускал. Сказочный.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов