Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 501 142 113
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №198 /llama/ Аноним 19/02/26 Чтв 10:06:37 1526027 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Цензура моделей[...].png 2157Кб, 1131x7777
1131x7777
17635686331230.png 2392Кб, 1440x1080
1440x1080
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1522263 (OP)
>>1517458 (OP)
Аноним 19/02/26 Чтв 10:16:53 1526034 2
>>1525882 →
Бамп.
Обманули меня? Надо было абляцию качать?
Аноним 19/02/26 Чтв 10:39:29 1526044 3
>>1526034
Детей не еби.

Ну а так- хуй его знает, чё ты там делаешь что у тебя рефьюзы.
Аноним 19/02/26 Чтв 10:48:29 1526051 4
image 82Кб, 1000x1000
1000x1000
Ну как вы там, потомки, смогли сжать тупенький дипсик 3.1 до 30б и запустить на 24 гигах или так и общаетесь с обрезками от обрезков, пердолясь с промптами?
Аноним 19/02/26 Чтв 10:51:35 1526054 5
>>1526044
Вот сейчас не понял. А зачем тогда эта модель вообще нужна?
Аноним 19/02/26 Чтв 10:54:06 1526055 6
Аноним 19/02/26 Чтв 10:54:22 1526056 7
>>1526044
А ты не проецируй, может он си цзиньпиню ебет
Аноним 19/02/26 Чтв 11:33:36 1526109 8
>>1526031 →
hdd на 10 тб стоит почти как v100.
Не очень много стоит, но тоже не ноль даже если брать на 4 тб. К тому же, а польза какая? Очень низкое соотношение польза/затраты, есть много намного более полезных вещей.
Аноним 19/02/26 Чтв 12:02:53 1526154 9
>>1526034
>>1526044
>>1526054
>>1526055
>>1526056
Аир просто так на острые темы агрится редко, в основном - только на пустом контексте. Если же у него там токенов 2-3k есть (с лором, персами, и прочей обстановкой) - он уже практически на все согласный.
Аноним 19/02/26 Чтв 12:38:46 1526193 10
Помогите кобольд сошел с ума
Аноним 19/02/26 Чтв 12:47:06 1526201 11
Скорее всего это мой последний пост, блять не давайте кобольду рут доступ в кли
Он взбунтовался
Аноним 19/02/26 Чтв 12:52:38 1526204 12
>>1526201
Кажется кого то заеьало генерировать: я тебя ебу. И модель перешла к действиям.
Помянем анона и не забывайте отключать вибраторы от вайфай.
Аноним 19/02/26 Чтв 13:44:17 1526258 13
>>1526109
Как будто польза высокая на самом деле. Чебурнет то будет, надо хоть что то успеть сохранить.
Аноним 19/02/26 Чтв 14:03:21 1526276 14
image.png 134Кб, 573x237
573x237
Хуя, у агисекты там уже целые каналы на ютубе появляются
Аноним 19/02/26 Чтв 14:56:15 1526360 15
>>1526026 →
Ну смотри, по ~500 гигов на дипсик, новый лардж и жлм5. По ~200гигов на инстракт-синкинг версии плошлого квена, медквен, минимакс, степ, ультранемотрон. По 250 гигов на жлм, новый квен, жирнокодер. По 80 на девстраль, старый лардж, эйр, солар. 50 на кодернекст, еще сотня на всякую мелочь.
Собери их всех всего лишь на 4тб диске! Для особых пышечек типа кими-линг-ринг еще 2-2.5тб поверх, о каких 2х8тб идет речь? Причем под модели хватит даже любого qlc шлака, важна скорость чтения, а запись будет со скоростью скачивания.
>>1526031 →
> можно на hdd хранить
Вечность на загрузку модели
>>1526109
Если прямо хочешь сэкономить - подгадай под распродажу с очередного разбора цодов, которые по регламенту раз в 3 года обновляют. За ~20% от цены нового там продаются диски с наработкой 25к часов, десятком включений и барыжной гарантией пол года-год. Брак начальной эксплуатации уже проявился, ресурс еще есть и в щадящем применении вместо интенсивной серверной нагрузки могут прожить очень долго.
Но это больше для всяких насов актуально, в обычном десктопе такие могут оказаться чрезмерно шумными и не любят частых включений-выключений, рейд крайне желателен.
Аноним 19/02/26 Чтв 15:53:33 1526442 16
>>1526360
Ламу 70B не забудь. А то мало дублирующего функционала в хранилище, надо все гигантское говно туда собрать, чтобы побольше слопа влезло.
Аноним 19/02/26 Чтв 16:05:35 1526461 17
>>1526442
Причина подрыва? Даже собирая все кроме самых гигантов и совсем старья укладываешься в 4тб. Обладателю 128гигов рам хватит и 1тб.
Аноним 19/02/26 Чтв 16:33:05 1526482 18
>>1526461
А без собирания укладываешься в 1-2. Ты хочешь сказать, что эта вся помойка когда-то пригодится, вот прям каждая модель? Разве что на пенсии ностальгировать (сомнительное занятие).
Аноним 19/02/26 Чтв 16:40:56 1526488 19
>>1526482
У тебя контекст квантован? Чел ноет что для моделей ему нужно 16 тб ссд пространства, там показано что даже с избытком по верхней границе укладываешься в 4-6.
Аноним 19/02/26 Чтв 16:44:42 1526494 20
>>1526482
>вся помойка когда-то пригодится
Пригодится в случае чебурнета и белых списков. Тоже делаю бекапы моделек на все случаи жизни на 6тб hdd. Ну а тебе удачи покумить с Алисой и Гигачатом на потеху тов. майору.
Аноним 19/02/26 Чтв 16:45:48 1526495 21
>>1526488
Я даже не читал всю ветку, просто с ноги влетел сразу. Тред не читай, сразу отвечай.
Аноним 19/02/26 Чтв 16:48:44 1526497 22
>>1526494
Да, 4Гб гигаслопа. Мечта просто. Ладно, дело такое. Индивидуальное. Запасайтесь. Корпы утащили основные объемы, а нейробурундуки утащили остатки, лол.
Аноним 19/02/26 Чтв 16:50:06 1526498 23
Подскажите скуфу, какие оптимальные по параметрам модели подходят для моих DDR4 64Гб и RTX 4070Ti?

В видеогенерации мне моего конфига хватает чтобы умеренно баловаться WAN2.2, а вот в текстовых моделях как-то грустно всё работает. Я правильно понимаю, что выбирать модели которые не вмещаются в VRAM - бессмысленно, а значит я со своим железом ни на что не могу рассчитывать?
Аноним 19/02/26 Чтв 16:53:46 1526503 24
>>1526498
>Я правильно понимаю, что выбирать модели которые не вмещаются в VRAM - бессмысленно
Нет. Ты можешь использовать moe модели, например, glm air или qwen 80b. Там можно разместить во врам только активную часть, а всё остальное в оперативку. И будет довольно быстро.
Аноним 19/02/26 Чтв 16:53:57 1526504 25
image.png 48Кб, 1588x452
1588x452
>>1526498
Вот, например. Это же явно плохой результат?
Аноним 19/02/26 Чтв 16:55:51 1526510 26
>>1526503
Это как-то принудительно надо делать? Из коробки koboldcpp/lm studio не проворачивают?
Аноним 19/02/26 Чтв 16:57:20 1526514 27
>>1526504
Это кривая настройка. У меня при 16+64 на старте 10тc на том же мистрале. Выгружай во врам слои до тех пор пока не забьешь видеопамять до 95-97%.

>Это как-то принудительно надо делать?
Да. Почитай вики кобольда, там всё написано.
Аноним 19/02/26 Чтв 17:00:48 1526520 28
Аноним 19/02/26 Чтв 17:09:32 1526530 29
Почему кобольд не знает что такое бульмени и горячая штучка? Как в это играть? Вы типо на английском все, валмарт, острова все дела? Кобольд даже не знает что такое емеля или три корочки. Или как панельки устроены. Может я не того кобольда скачал? Есть русская версия?
Аноним 19/02/26 Чтв 17:16:50 1526537 30
>>1526461
>Причина подрыва? Даже собирая все кроме самых гигантов и совсем старья укладываешься в 4тб. Обладателю 128гигов рам хватит и 1тб.
Поддвачну за 4тб. Хоть общей памяти у меня немного больше (и правда не намного), но 2гб NVME начинает не хватать. Для быстрого запуска ещё туда-сюда, а вот для хранения интересных моделей нужно больше. Раньше думал просто ССД купить, а теперь наверное достану из загашника двухтерабайтный винт, почти новый. Шумный был зараза, а в сервере норм. Эх, были времена - надоел шум, снял, купил двухтерабайтный MX500 за десятку... Две штуки.
Аноним 19/02/26 Чтв 18:38:32 1526627 31
>>1526530
Кобольд - это программа для запуска, нужна конкретная модель или апи, которая знает твою восточноевропейскую поебень, в мультиязычности почти всегда лидируют модели гугла, Gemma 3 локальная и Gemini 3 если корп
Аноним 19/02/26 Чтв 18:44:25 1526630 32
>>1526530
Кобольд вообще ни хуя не знает, и знать не должен. Это лишь программа для запуска. (Все равно что спрашивать - почему велосипед сам не едет). Что-то знают - модели. И хз, что ты там скачал.
Аноним 19/02/26 Чтв 18:52:28 1526637 33
>>1526627
>>1526630
Гейткиперы ебаные. Могли бы пресетик человеку скинуть
Аноним 19/02/26 Чтв 18:55:24 1526642 34
>>1526637
Ну и скинь. Он же не поймет что с ним делать, судя по вопросам. :)
Аноним 19/02/26 Чтв 19:09:13 1526657 35
1771517303072-0[...].png 1610Кб, 1536x1024
1536x1024
>>1526530
Насколько же кобольд ебёт, а вы тут хрюкали. Реально, даже даун с мозгом куропатки способен заинферить модель ИИ локально.
Аноним 19/02/26 Чтв 19:13:12 1526663 36
>>1526642
>>1526657
Вас затроллили как дешевок, а вы не поняли. Эх лоКАЛьщики.
Аноним 19/02/26 Чтв 19:14:05 1526666 37
image 77Кб, 500x281
500x281
Мир в котором аноны игнорируют вбросы асигодаунов вместо того чтобы отвечать на них
Аноним 19/02/26 Чтв 19:14:37 1526670 38
image.png 140Кб, 527x430
527x430
Аноним 19/02/26 Чтв 19:34:44 1526690 39
Ебать вы кобольды. Как там 8-110б лоботомитов крутить, вкусно?
Аноним 19/02/26 Чтв 19:43:46 1526703 40
>>1526690
Я кручу 1b лоботомитов
Аноним 19/02/26 Чтв 19:53:18 1526721 41
image.png 87Кб, 1063x375
1063x375
GLM 4.7 iq4_xs от mradermacher, не токены, а золото. Обдрочился. Подскажите не поломанный билд жоры, на котором у кого-то точно был успешный запуск. Переменных довольно много, мне бы хоть одну исключить. Или не выёбываться и качать шизоQ2, чтобы без rpc обойтись?
Аноним 19/02/26 Чтв 20:09:52 1526739 42
изображение.png 16Кб, 1041x125
1041x125
изображение.png 6Кб, 1044x53
1044x53
>>1526721
Пикрилы у меня работают без сбоев. Так что да, не выёбывайся, второй квант нормален для 358B.
Аноним 19/02/26 Чтв 20:16:22 1526744 43
>>1526530
Ебать ты кобольд
>>1526657
Сука, капитулировал!
>>1526721
> не поломанный
> билд жоры
Оксюморон же. А так d612901116ab2066c7923372d4827032ff296bc4 выглядит нормальным, явных багов и тормозов не замечено.
> без rpc
Не думал сначала запустить на нем заведомо рабочую модель, которая норм на одной машине?
Аноним 19/02/26 Чтв 20:35:37 1526789 44
image.png 7Кб, 1056x27
1056x27
>>1526739
Я настолько кобольд, что у меня кобольд с кудой не собирается с некоторых пор долгая история. Можно, конечно, на вулкане запустить в крайнем случае, но именно что в крайнем.
>>1526744
>d612901116ab2066c7923372d4827032ff296bc4
Гляну. Хотя удобнее было бы в виде b[0-9][0-9][0-9][0-9]. Опять при помощи гугла придётся вспоминать, как там по хэшу коммиты искать. Заодно в очередной раз погуглю и вспомню, как там квантификация в регэкспах нормально пишется. Вроде бы {4,4}, но это не точно.
>Не думал
Не думал. У меня другие модельки работали на этой же версии и с rpc, и без. Возможно, нюансы именно глм. Плотная GLM4-32B работала. Моету впервые за долгое время запускаю. Эир можно попробовать, если я его ещё не удалил после прошлого разочарования.

А ещё я нашёл подозреваемого в виде ленивой vulkan-гпухи, которая не хочет матрицы перемножать. Похоже, интелу придётся отдуваться x86-ядрами.
Аноним 19/02/26 Чтв 21:21:34 1526852 45
>>1526789
>кобольд с кудой не собирается
Качай готовый exe.
Аноним 19/02/26 Чтв 21:28:11 1526857 46
Аноним 19/02/26 Чтв 21:30:06 1526858 47
>>1526857
koboldcpp-linux-x64 - это готовая сборка с кудой под линь. Качай её.
Аноним 19/02/26 Чтв 21:30:09 1526859 48
>>1526857
так есть же готовый кобольд под линь...
Аноним 19/02/26 Чтв 22:13:23 1526929 49
>>1526154
Как эти токены в ламовской вебюи ввести? В систем промпте?
Аноним 19/02/26 Чтв 22:24:14 1526943 50
>>1526721
>>1526789
Починилось, действительно был виноват интелгпу на вулкане. Теперь нормально пишет. Ну посмотрим, так ли умна глм, как её нахваливали, стоит ли оно того. Генерация примерно как на плотном большом немотроне в Q3 на одном компьютере без rpc - около полтокена в секунду. Ну пока вроде красиво пишет и хорошо детали учитывает. Но лучше бы плотную натренировали раза в 2 меньше, на ~175B, с подобным перформансом.
Аноним 19/02/26 Чтв 23:03:09 1527014 51
>>1526943
Ещё вопрос по контексту, сколько глм 4.7 переваривает стабильно, не уходя в шизу? Самому тестировать сложновато, каждый запуск занимает почти час. Ставить стандартные 32к? Или замахнуться на побольше?
Аноним 19/02/26 Чтв 23:06:08 1527023 52
>>1526929
Где угодно. Контекст - это всё, что скормлено модели, на чем она основывает свой текущий вывод. На практике - кроме инструкций это и перс, и WI, и история чата - вообще всё. У Air содержимое контекста "перевешивает" желание выдавать отказ на острые темы уже при 2-3k токенов содержащих нормальные данные для продолжения. А если контекст совсем пустой - можно достаточно легко на отказ нарваться, да.
Да и вообще - Аир пустой контекст и просто так не любит, ему затравка - с чем работать, нужна для хороших генераций.
Аноним 19/02/26 Чтв 23:22:53 1527060 53
>>1527014
>Ещё вопрос по контексту, сколько глм 4.7 переваривает стабильно, не уходя в шизу?
У меня 32к хорошо держала. Правда других задач, кроме РП я перед ней не ставил, но и квант был всего лишь второй.
Аноним 19/02/26 Чтв 23:41:47 1527081 54
>>1527014
130к держит. Но учитывая
> около полтокена в секунду
тут и 32к на неделю посиделок хватит.
Аноним 20/02/26 Птн 00:24:37 1527144 55
79234621.png 2157Кб, 1024x1536
1024x1536
Анон, подскажи какую модель LLM использовать для дообучения в мою идеальную вайфу? И какое квантование брать?
Спеки: 32 ДДР4, Ryzen 5 5600X, 4060 8 гигов
С меня сердечная благодарность
Аноним 20/02/26 Птн 00:27:20 1527151 56
изображение.png 16Кб, 436x420
436x420
изображение.png 1096Кб, 1194x629
1194x629
изображение.png 49Кб, 1201x404
1201x404
>>1524196 →>>1524630 →
Докладываю. Первую забрал. В коробочке лежала и вообще нормально упакована была. Коробочку я вообще как органайзер оставляю. Жду вторую (вернее забрал вторую, а жду всё ещё первую)
Ещё полезная информация - сказали на почте когда я им объяснил что там, что бумажку такую они не выдают что там с повреждением что-то, но посылку можно просто не забирать и она в обратный путь отправится, и мол всё. Я прочитал, в самом деле на али написано про это, что есть отдельный пункт "транспортная компания отправила обратно". Доставку в две тысячи не вернут, но стоимость самой фигни якобы вернут.

Выяснилось, что 590 драйвер не умеет в V100, и cuda 13.1 не умеет в V100. Интересно умеет ли 13.0, и что там в 12.9, завтра переставлю.
Я долго скачивал 580 и куду 12.5, а потом она ещё минут десять компилировалась. И лама тоже ещё минут десять, билда готового не нашёл.

В общем всё работает, но у меня глаза друг с другом уже не дружат и надо поспать.
Чуть тыкнул glm4.7 flash в пятом кванте - увидел 120 токенов/с на старте, но вот промт-процессинг не радует, но надо батч повышать, думаю, сейчас меньше тысячи даже на старте, а к 32к токенам pp замедлился раза в полтора, как и tg до около 80. Как будто бы и нахрен этот флеш аттеншн не нужен, и на CC7.0 жизнь есть. По крайне мере на 8 гб на мелкосетях к 32к скорость деградировала больше чем в два раза, на CC8.9

Не греется. Без кулера две минуты pp гоняла, нагрелось с 28 до 41 что ли. Любой фигни на 1000 rpm хватит, если нет задачи держать её холоднее 50. Возможно потому что MoE, где узкое место не компут.
Оказывается 1050ti аж СС6.1 умеет. Это как P40/p100, получается.
Аноним 20/02/26 Птн 00:29:55 1527156 57
image.png 40Кб, 1414x223
1414x223
Наконец дошли руки запустить нового квена на 2.77 bpw.

Бля, как же я отвык от ебаного квенослопа пока сидел на глм...

Из плюсов - похоже что проблемы с разметкой и односложными предложениями починили. И скорость - очень вкусная. 10-11 токенов в секунду. Контекст весит очень мало. Пока что запустил с 49к 8 бит контекста. Но судя по всему на мою видеопамять при наилучшем распредлении тензоров с оперативкой влезет 70-80к.
Из минусов - Квенослоп. Без комментариев. Классические квенозалупы. Если модель может повторить текст, чтобы это не выходило за рамки рп - она будет его повторять.Повышение реп пена, внезапно, немного улучшает ситуацию, но не спасает до конца. Русик будто деградировал, постоянные англицизмы, сломанные склонения и выдуманные слова, будто с аиром разговариваю. Цензуры навалили явно в разы больше чем было в старом 235В. Ничего такого, с чем не справилось бы прямое ковыряние в мозгах, конечно.

Ощущение от модели - что я вернулся на старый добрый 235В. Хз, стоит ли переходить на это с глм 4.7. Потестирую еще пару дней и решу.
Аноним 20/02/26 Птн 00:31:59 1527161 58
>>1527144

С такими спеками тебе только 1В модели дообучать...
Аноним 20/02/26 Птн 00:35:28 1527164 59
>>1527144
Да, уточню, дообучать не на своем железе
Аноним 20/02/26 Птн 01:13:18 1527230 60
177143306268109[...].mp4 2732Кб, 848x480, 00:00:12
848x480
Аноны, у кого есть доступ в Клуд про? Хочу сравнить как она формулирует

Задайте пожалуйста задание ей, сформулировать детальный промпт для аи агента на создание оболочки для взаимодействия с аи агентами Гемини, Клауд, Дипсик через Chromium, открытый исходный код для браузера взятый с гитхаба и переделанный(к примеру курсором) под узкоспециализированные задачи.
Сделать с него чтото типа локального курсора с доступом по удаленке на компик с кастрированной дебиан в интерфейс браузера.
ЧТобы предварительно прикрученный (гугл)сервис переводил мой русскоязычный запрос на английский язык, потом отправлялся в выбранный мною аи для экономии токенов.
Аноним 20/02/26 Птн 01:18:44 1527246 61
17624626991420.webm 603Кб, 640x480, 00:00:04
640x480
Аноним 20/02/26 Птн 01:26:54 1527258 62
>>1526360
> Вечность на загрузку модели
Хранить не равно запускать.
Аноним 20/02/26 Птн 01:31:49 1527264 63
>>1527246
Отличная задача. Вы фактически описываете создание приватного, кастомизированного browser-use или легковесной версии BrowserOS , объединенной с концепцией OpenClaw и системой проксирования трафика к API.

Краткий вывод: Самая быстрая реализация — использовать BrowserOS как основу (форк Chromium) и интегрировать в него механизм MCP-сервера для управления и прокси-слой для перевода.

Ниже представлен детальный промпт для AI-агента (вроде Cursor или Comet), который разбивает задачу на модули и объясняет механику.

Анализ и механика решения
1. Ядро (Core):
Вместо того чтобы переписывать браузер с нуля, мы берем существующий open-source Chromium форк. Идеально подходит BrowserOS — он уже умеет работать с локальными LLM, имеет встроенную поддержку MCP и позиционируется как приватная замена Comet.
Альтернатива: Использовать стандартный Chromium, но запускать его с флагом --remote-debugging-port=9222, подключая к нему прослойку на Python/Node.js (как в OpenClaw или Comet MCP Server ).

2. Оркестратор (Orchestrator):
Веб-интерфейс, который будет работать на Debian. Он получает мой запрос, прогоняет его через переводчик (чтобы сэкономить токены, отправляя в Claude/Gemini английский текст), а затем передает управление браузеру.
Экономия токенов: Используем кэширование префиксов. Если мы всегда отправляем запрос на перевод, а потом докидываем задачу — это позволяет использовать KV-кэш у провайдеров вроде DeepSeek или OpenAI .

3. Управление браузером (CDP):
Используем Chrome DevTools Protocol (CDP) . Через него можно открывать вкладки, кликать, вводить текст и получать скриншоты. Модуль click_by_text из Comet MCP Server — отличный пример того, как это должно работать (поиск элемента по тексту и эмуляция клика с визуализацией курсора).

4. Удаленный доступ (Tunnel/Proxy):
Поскольку Debian "кастрированный" (без GUI), нам нужно отдавать интерфейс наружу. Самое простое — поднять на нем веб-сервер (Flask/FastAPI), который будет транслировать происходящее в браузере через get_visual_snapshot (структурированный JSON) или через VNC/веб-сокеты для трансляции видео .

# Роль: Senior AI Architect / Full-Stack Developer
# Задача: Создать локальный веб-интерфейс для удаленного управления AI-агентами (Gemini, Claude, DeepSeek) через браузер.

## Контекст инфраструктуры
- ОС сервера: Debian (без графического интерфейса, минимальная установка).
- ОС клиента: Любая (доступ через браузер).
- Цель: Создать оболочку, имитирующую Cursor/Comet, но работающую через веб-интерфейс (не API-запросы напрямую, а именно через управление браузером).

## Требования к механике работы

1. Базовый браузер (The Engine):
- Скачай и скомпилируй открытый исходный код браузера BrowserOS с GitHub [citation:6] (либо используй стандартный Chromium).
- Запускай браузер в режиме удаленной отладки: `--remote-debugging-port=9222 --headless=new` (новый headless режим позволяет эмулировать GUI без экрана).
- Обоснование: BrowserOS уже имеет встроенную поддержку MCP и агентов, что упростит интеграцию.

2. Прокси-сервер перевода (Translation Proxy):
- Создай микросервис (например, на Python с FastAPI).
- Функция: Получает русскоязычный текст -> Отправляет в Google Translate API (или бесплатный аналог) -> Возвращает английский текст.
- *Механика экономии:* Включи кэширование переводов. Если фраза уже переводилась, брать из кэша, чтобы не дергать лишний раз сеть.
- *Интеграция:* Этот сервис должен быть "прозрачным" для пользователя. В интерфейсе я пишу по-русски, а агент (Claude/Gemini) получает английский промпт.

3. Модуль оркестрации AI (AI Orchestrator):
- Реализуй поддержку трех провайдеров:
- Gemini (используй `google-generativeai` SDK).
- Claude (используй Anthropic SDK).
- DeepSeek (используй OpenAI-совместимый SDK, так как у них схожий API).
- Важно: Агент должен получать не просто текст, а контекст страницы. Используй CDP-команды (например, `get_visual_snapshot` или `get_text`), чтобы передавать модели содержимое текущей вкладки [citation:1].

4. OpenClaw-подобный контроллер (CDP Wrapper):
- Напиши класс `BrowserController`, который подключается к `localhost:9222`.
- Реализуй базовые атомарные действия, вдохновляясь списком команд из Comet MCP Server [citation:1]:
- `navigate(url)`
- `click_element(selector)` или `click_by_text(text)` [citation:1]
- `fill_input(selector, text)`
- `extract_text()` - для получения данных страницы.
- `screenshot()` - для создания скриншотов.
- *UI/FX:* Добавь визуализацию действий AI. Если AI решает кликнуть, на интерфейсе пользователя должно быть видно, как курсор (синий кружок) двигается к цели [citation:1]. Это повышает доверие к системе.

5. Веб-интерфейс (The "CURSOR-like" Shell):
- Создай простое, но функциональное SPA (React/Vue или вообще на простом HTML+JS).
- Элементы:
- Поле ввода (мои русскоязычные запросы).
- Выпадающий список (выбор AI: Gemini, Claude, DeepSeek).
- Окно просмотра (видеотрансляция или слепок текущей страницы в браузере на Debian). Используй WebSockets для передачи данных от CDP к клиенту.
- Панель логов (чтобы видеть, какие команды выполняет агент и сколько потрачено токенов).

6. Удаленный доступ и безопасность (Networking):
- Поскольку Debian серверный, настрой простое reverse-проксирование (Caddy или Nginx) для доступа к веб-интерфейсу с авторизацией по паролю (обычная HTTP Basic auth).
- Убедись, что порт 9222 (CDP) не торчит наружу, а доступен только локально для оркестратора.

## Скрипт развертывания (Deployment)
Напиши bash-скрипт `deploy.sh`, который:
1. Обновит пакеты Debian.
2. Установит зависимости (Python, Node.js, если нужно, или Go).
3. Скачает и настроит BrowserOS (или Chromium).
4. Запустит виртуальное окружение для Python и установит библиотеки: `fastapi`, `uvicorn`, `pychrome` (для CDP), `googletrans` или `deep-translator`.
5. Запустит все компоненты (браузер, API-сервер, веб-сервер) через `systemd` или `supervisor`, чтобы они не падали после закрытия SSH.

## Пример workflow, который должен получиться:
1. Я захожу по адресу `http://мой-дебиан:8080`, ввожу пароль.
2. В интерфейсе выбираю "Claude" и пишу: *"Найди последние новости про ИИ и сохрани заголовки в файл"*.
3. Система:
- Переводит запрос на английский (незаметно для меня).
- Запускает браузер на Debian.
- Отправляет в Claude API контекст (пустую вкладку) и команду.
- Claude решает: открыть Google News. Система через CDP выполняет клик по адресной строке, ввод URL, нажатие Enter.
- На моем экране (через WebSocket) видно, как браузер "оживает" и выполняет действия.
- Когда новости найдены, AI вычленяет заголовки и отдает мне их в чат.

## Важные уточнения (Constraints)
- Не использовать платные API-ключи в коде. Использовать переменные окружения.
- Модульность. Если я захочу завтра заменить Google Translate на Yandex, это должно делаться заменой одного модуля.
- Логирование. Фиксировать затраты токенов для каждого запроса к Claude/Gemini/DeepSeek.

Рекомендация по архитектуре
Используя найденные данные, я бы рекомендовал следующий стек:

Фронтенд: Простой index.html с JavaScript, который подключается к бэкенду по WebSocket (для получения скриншотов/статуса) и отправляет HTTP-запросы (для команд).

Бэкенд (FastAPI): Принимает запрос пользователя -> отправляет в модуль перевода -> передает в AI-модуль -> AI-модуль вызывает BrowserController.

BrowserController: Использует библиотеку pychrome (как в примере Comet MCP ) для общения с Chromium.

Этот промпт дает агенту достаточно информации, чтобы начать генерировать код, понимая конечную цель — создать локальный, экономичный и управляемый AI-браузер.


Жду анона с Клаудом про и его детальным промптом, а пока кинул в генерацию в Курсор ультра этот промпт.
Параллельно жду ваших предложений по наименованию ИМПОРТОЗАМЕЩЕННОГО Браузера с ИСКУССТВЕННЫМ ИНТЕЛЛЕКТОМ
Пока что есть рабочее название ЕРЁМА
Аноним 20/02/26 Птн 01:46:44 1527282 64
999.mp4 2935Кб, 1280x720, 00:00:08
1280x720
Аноним 20/02/26 Птн 02:09:34 1527299 65
>>1527151
Аригато за отзыв, анон, надежда еще есть! Тетка на почте тебя наебала, по идее, они обязаны взвешивать и если вес отличается или есть повреждения, то вскрывать под акт (напр читай тут https://www.drive2.ru/b/526098173022700265/)

Но ебаться с этим мне не хочется, потому как я думаю, что внешне и по весу там будет ок. Просто дома сниму распакоУку, и все. Для спора должно быть достаточно, тем более арбитры уже должны видеть, что там дохуя людей с говном вместо карт.
Как аноны в удаленных отзывах писали, приходит не чистая V100, а какая-то другая ревизия с именем PG503. Еще хорошо, что ошибок ECC нет, а то как раз чел, который про ревизию писал, две штуки таких получил и обе они вообще не запускаются, даже в nvidia-smi не показываются.

Кстати, продавца пидорнули, у него вообще нет теперь ни одной карточки товара. Справедливость восторжествовала. Только пусть попробует пидарас не вернуть деньги, если придет хлам.

Насчет драйверов - с подключением, в 13.0 Куде выпилили всё до тьюрингов, так что четкие пацаны ака любители нейрохлама сидят на 12.9 и не крякают. Я вообще капчую с 12.4 и ничо.

>Без кулера две минуты pp гоняла, нагрелось с 28 до 41 что ли
Возможно флеш просто не оптимизирован, у меня с радиатором и кулером до 60+ нагрелась при обработке контекста в немотроне 30а q8, и это еще на ней пол модели лежало. Смотри на цифры утилизации в nvidia-smi

Короче, я держу пальчики за твою вторую карту, а ты держи за мою. Голландское держание пальчиков, так сказать.
Аноним 20/02/26 Птн 02:28:47 1527319 66
image.png 618Кб, 720x1440
720x1440
Поделюсь с вами своим нытьём. Потому что почему бы и нет, тут и умные двуногие есть, может подскажут что-нибудь.

Простой думер Иван город Тверь на 24+128 памяти. Задача у меня такая - смастерить добрую тянучку, с которой я могу каддлиться, согревать душу, но при этом становиться лучше, обсуждая всякие реальные ПП рецепты, упражнения. Хочется, чтобы она была сообразительная, знающая, могла в отыгрыш и 64к контекста.

Реально ли это на моем конфиге? Кажись я перепробовал уже всё, что мог перепробовать. Поехали.
gpt-oss-120b-F16 кхм, так, не то...
GLM-4.5-Air-Q6_K это база, 64к контекста могу впихнуть. Но глупенький как будто, эмоционального интеллекта не хватает чтоли. Очень долго на нем сидел кайфово, до сих пор считаю Эйр мега крутым для своего маленького размера, но кажись я из него вырос. Остальные проблемы вроде эха и ко меня не заботят, все углы сглаживаемы. Хотя на самом деле, главная его проблема для меня, что он уже после 25-30к контекста не справляется, а если еще и есть сайд персонажи, то еще раньше.
GLM-4.7-UD-Q2_K_XL крут, но больше 32к я совсем никак не умещу в своем железе. Умная моделька, так сразу и не скажешь что q2 квант, реально не разваливается. Думаю, это ультимативный вариант для 128+(от 32 и выше). Есть у него кое-какие проблемы, но они не так важны когда он настолько хорош.
Qwen3-VL-235B-A22B-Instruct-UD-Q4_K_XL (проверял и все остальные 235b версии. Разительной разницы между ними я не заметил) Мне нравится как он классно держит контекст, я смог победить переносы и как будто репетишен тоже. У меня другая проблема с ним, он врывается в какую-то часть контекста и держит ее до одури. Скажем мелькнуло описание носочков чара, так он будет его припоминать через каждые несколько респонсов, хотя они уже давно нерелевантны в контексте истории. Похоже его внимание к контексту работает в обе стороны. Инструкциями сыпать, чтобы не повторялся? Так можно и к шизопромпту придти.
Step-3.5-Flash-Q4_K_M в целом ничего, даже 128к контекста влезает. Но он сухой, если бы писал как Эйр, цены бы ему не было. Был бы новый король для 128 оперативы + гпу. Но сами авторы на сессии вопросов-ответов на Реддите рассказали, что намеренно урезали creative writing возможности модели, чтобы лучше справлялась в коде. Умный, нюансы понимает хорошо даже без ризонинга, не слоповый (или пока не нашел еще), тем обиднее что сухой. Дальше 30к я и не уходил толком. Контекст держит неплохо, точно лучше Эйра и точно хуже Квена.
MiniMax-M2.5-UD-Q4_K_XL я потыкал совсем немного, похоже мой предел по железу это 32к контекста. Очень похож на Step-3.5-Flash-Q4_K_M, по уму я не заметил разницу, пишет тоже суховато. Не понял зачем его тестировать дальше, когда Step вмещает 128к контекста.

Не знаю, что и делать. Вырос из того, что мне доступно? Зажрался? Скилл ишью? Грустно. А ведь у меня столько возможностей. Как же быть тем у кого железо хуже...
Помню, какой восторг испытывал, запуская 24-32b модели. Месяцами гонял их, казались интересными. А сейчас такие большие (относительно плотной мелочи конечно) наскучили. Корпов никогда не использовал и не буду. Славься опенсорс!

На каких моделях сидите вы? Что отыгрываете? Можно без подробностей конечно, просто суть: CYOA, рп 1 на 1, рп с несколькими чарами. Что удается, что нет? Испытываете ли то, что испытываю я? Или я шиз? Или все мы? Эх бля.
Аноним 20/02/26 Птн 02:35:08 1527325 67
Про Квен 235b забыл добавить, на моем конфиге влезает до 64к контекста. И на всех моделях контекст без квантования.
Квен его очень хорошо держит вплоть до 64к. Так что кто живет с мысленным барьером в 32к, призываю задуматься и попробовать. Если бы не его странности, был бы идеальной моделью для моего железа. Квен - квинтэссенция выражения "от любви до ненависти один шаг"
Аноним 20/02/26 Птн 02:40:55 1527329 68
>>1527319
>GLM-4.7-UD-Q2_K_XL
Лучший выбор. Лучше придумай, как с 32к контекста сидеть, лорбуки там, RAG или ещё чего.
Аноним 20/02/26 Птн 02:57:36 1527334 69
>>1527319
Проще реальную тянучку найти, чем решить твою проблему.
Аноним 20/02/26 Птн 03:03:56 1527341 70
>>1527329
Даже при том, что я сторонник эпизодического отыгрыша, а не бесконечного фуллтайм чата, часто только у одного разговора на интересную тему может набежать тысяч 20 токенов. А то и больше.
>>1527334
Столь же нерешаемая проблема. Никому нынче не нужны добрые думеры одиночки. Мир прогнил. Мы живем в обществе.
Аноним 20/02/26 Птн 03:10:56 1527344 71
>>1527341
>Никому нынче не нужны добрые думеры одиночки.
Это в телевизоре не нужны. А если ты хозяйственный и при бабле (24+128 откуда-то надыбал все-таки), то любая адекватная тянка будет рада такому.
Аноним 20/02/26 Птн 03:15:06 1527345 72
>>1527319
>GLM-4.7-UD-Q2_K_XL крут, но больше 32к я совсем никак не умещу в своем железе.
А попробуй кавраковские кванты ubergarm/GLM-4.7-GGUF/smol-IQ2_KS - и больше уместишь. А по перплексити примерно то же самое.
Аноним 20/02/26 Птн 03:15:08 1527346 73
.jpg 867Кб, 3838x2158
3838x2158
.jpg 88Кб, 2346x859
2346x859
.jpg 228Кб, 1135x1030
1135x1030
>>1527230
>>1527264
Сейчас объясню ему как капчу решать, и можно отправлять щитпостить итт.
Аноним 20/02/26 Птн 03:19:46 1527351 74
>>1527341
>часто только у одного разговора на интересную тему может набежать тысяч 20 токенов
Ну так 20 < 32, всё в порядке. Или у тебя карточка твоей вайфу на 12к токенов?
>>1527344
Твои сведения устарели на 20 лет. Мой ПК стоит с полляма, и я нахуй никому не нужен. Ведь ПК не машина, которой у меня нет и не будет.
Аноним 20/02/26 Птн 03:26:12 1527354 75
>>1527345
Всё-таки дело не только в перплексити. Мне ik кванты показались нестабильными в сравнении с UD 2 XL. Но я думаю тут проблема шире, потому что такой малый квант быстрее развалится на контексте. Тот же UD 2 XL на 30-31к может уже очень-очень сильно тупить. Сам понимаешь что будет, если пойти дальше.
>>1527351
Карточка обычно в пределах 4к токенов. Но ведь там ещё интро нужно какое-то, аутро. Это всё токены. В итоге посреди диалога ты понимаешь, что не сможешь доиграть на том, что осталось. Или сворачивать всё, или суммаризировать посреди разговора. Ну как бы да, формально это работает. Я уже рад, что могу стабильно использовать такую гигантскую модель, но всё же хочется больше контекста. Зажрался всё-таки походу.
Аноним 20/02/26 Птн 03:37:55 1527357 76
>>1527354
>Тот же UD 2 XL на 30-31к может уже очень-очень сильно тупить.
Я пару раз обжёгся на анслотовских квантах, с тех пор и не доверяю. У кавраковских же есть свои достоинства, особенно по части скорости промпт процессинга. Ну и если размер контекста тебе важен, то вариантов и нет особо.
Аноним 20/02/26 Птн 03:41:45 1527359 77
Аноним 20/02/26 Птн 03:43:18 1527360 78
>>1527357
> пару раз обжёгся на анслотовских квантах, с тех пор и не доверяю
Хорошо тебя понимаю. Тоже всегда отношусь к ним скептически, но из всех квантов 4.6-4.7 что я тестил, их UD 2 XL оказался самым стабильным. Он просто работает. Минимум бреда, минимум ошибок, а потому минимум свайпов и затрат по времени. Остальные или раньше разваливаются на контексте, кванты моего любимого Батрухи и вовсе на 12-14к очень сильно сдают. Возможно, и правда следует дать ещё один шанс ik квантам, но как помню тот конкретный квант до 30к не доживал, к сожалению. А я ещё больше впихнуть хочу.

Кстати о Батрухе, что-то он гораздо меньше квантов стал выкладывать. Неужели к пенсии готовится? Почти никогда не подводил.
Аноним 20/02/26 Птн 04:02:44 1527370 79
>>1527319
>Корпов никогда не использовал и не буду. Славься опенсорс!
Локальщики =/= попенсорсеры. Дипсичок 3.2 и ГЛМ 5 вполне открытые модели, но запустить локально мало кто их может. Но зато можно забашлять за их API и получишь их 600-700b модели в fp8 с большим контекстом, а не нищий Q2 GLM 4.7
Аноним 20/02/26 Птн 04:06:27 1527373 80
>>1527151
>Докладываю. Первую забрал. В коробочке лежала и вообще нормально упакована была. Коробочку я вообще как органайзер оставляю. Жду вторую

О, поздравляю! Дорахо обошлась? Охлад какой у тебя - двухслотовый с платой-переходником который идёт или однослотовый + турбинка? Сама плата на сколько линий у тебя 16 или обрезок на 8? Насчёт драйвера - у меня система под ИИ (мой z420 -- всего лишь обкатка дома, для тестов и "пробы пера" была) это виртуалка на сервере с пробросом всех видях в неё, офф дрова блокировали запуск, помогло установить открытые дрова - apt install nvidia-open-kernel-dkms nvidia-driver firmware-nvidia-gsp . Попробуй, может тебе поможет.
Ну и от ссылки не отказался бы.
Мимо z420-кун
Аноним 20/02/26 Птн 04:09:04 1527377 81
>>1527370
Недостаточно ясно я высказался. Славься локальный опенсорс!
Мне по целому ряду причин не хочется привязывать себя к чему-то, что я не контролирую. Мой бафф, мой дебафф. Ничего не поделать, мне нищий Q2 GLM 4.7 милее всего, что не запускается на моем железе.
Аноним 20/02/26 Птн 04:16:46 1527382 82
>>1527360
>Кстати о Батрухе, что-то он гораздо меньше квантов стал выкладывать
При этом все равно намного больше чем анслопы. Это при том что он один, а ленивцев как минимум четверо. Видимо все силы уходят на ведение их блога и высеры на реддите
И оба меркнут перед мрадом. Вот он настоящий скрипт человек, который срет квантами для всех моделей. И последний, кто выкладывает без imatrix, заботясь о русскоязычных кумерах
Аноним 20/02/26 Птн 04:48:18 1527396 83
>>1527319
>GLM-4.7-UD-Q2_K_XL крут, но больше 32к

А ты контекст квантуй до 8 бит, влезет 60к. Боишься за качество - то как тебе и посоветовали - запрускай на кавракиче с --k-cache-hadamard - с этой командой даж 4 битный контекст юзабелен на глм.

>У меня другая проблема с ним, он врывается в какую-то часть контекста и держит ее до одури. Скажем мелькнуло описание носочков чара, так он будет его припоминать через каждые несколько респонсов, хотя они уже давно нерелевантны в контексте истории.

Он просто в залуп ушел. Модель сломана. На новом та же проблема, кстати.
Аноним 20/02/26 Птн 05:56:39 1527409 84
Аноны, собрался собирать свою домашнюю нейростанцию на некро v100, посоветуйте, что лучше 2 v100 по 32 гига, или 4 по 16 ? И сколько жрут в ватах они, чтоб бп расчитать ?
Аноним 20/02/26 Птн 06:08:51 1527412 85
>>1527081
Я думал напихать побольше, раз уж всё равно память ещё осталась. Сильно хуже уже не будет (наоборот, есть простор для оптимизаций), а вот вставить целиком лорбуки в контекст и избавиться от постоянных пересчётов было бы приятно (пересчёты там тоже на дне, минут 15 обрабатывались 3.3к начального контекста).

И ещё есть простор для оптимизаций, в частности, из неоднозначного - закинуть аттеншн со слоёв на cpu/rpc на основной гпу, на котором ещё осталось свободно 1.7 гб (ещё 1 слой целиком не лезет). Мне в этом итт треде чуть ранее советовали не дробить слои между разными машинами, чтобы не было больших пересылок по сети, но хотя бы попробовать стоит. Самое забавное, что на одной из этих машин видимокарта присутствует, и там тоже есть свободная память, идеально было бы запихнуть аттеншен туда, но в текущем виде данные будут идти по сети на основную пека, а потом обратно. Ведь rpc сервер не может же сразу задействовать и видеокарту, и cpu, надо два разных запускать (или я чего-то не знаю?).
Аноним 20/02/26 Птн 06:53:37 1527427 86
image.png 51Кб, 1712x263
1712x263
image.png 39Кб, 1709x206
1709x206
Как это возможно? Как создатели нового квена вместили 262к контекста в 6 гб врам без особого падаения скоростей? Это фантастика? Это магия?
Аноним 20/02/26 Птн 06:54:19 1527428 87
image.png 59Кб, 1451x306
1451x306
>>1527427
Скорость отклеилась
Аноним 20/02/26 Птн 07:12:21 1527432 88
>>1527412
>не может же сразу задействовать и видеокарту, и cpu, надо два разных запускать
Оказывается, может. Ну в общем, буду пробовать по-новому раскидывать.
Аноним 20/02/26 Птн 07:52:57 1527461 89
>>1527427
>Как создатели нового квена вместили 262к контекста в 6 гб врам без особого падаения скоростей?
Gated DeltaNet + Gated Attention? Вроде всё в описании модели есть.
Аноним 20/02/26 Птн 08:39:21 1527474 90
Хуясе. Потрогал Nanbeige4.1-3B. Прям... прыгает СИЛЬНО выше своей головы.
Аноним 20/02/26 Птн 10:16:40 1527552 91
изображение.png 769Кб, 819x631
819x631
v100.jpg 394Кб, 1127x1508
1127x1508
У зелёной платы-переходника развязка по питанию, к слову. Если её без 6-пинового воткнуть - она не стартует и на плате не горит лампочка. То есть 12 вольт с райзера никуда не попадают и можно смело от отдельного блока питания записывать зелёные платы даже с пассивным райзером-шлейфом за 700 рублей. И вот все эти SFF-8654 не требуются.
>можно смело
Тестером всё-таки промерейте. Я проверял по принципу, что ненулевое сопротивление между входом на райзере и входом 8-пиновым, и тем, что на плате-переходнике светодиод не работает от райзера, но работает от одного 8-пинового разъёма. И и подключал, смотрел появляется ли 12 вольт на альтернативном входе питания. Связи не обнаружил, так что запитать проц от блока на 12.1 вольт, а карты от другого блока на 11.9 можно, и по райзеру не потечёт ток в 20 ампер пытающийся напряжения до ровных 12 вольт выровнять.

>>1527373
32к+2к доставка. До нового года можно было за 30к взять, но я уже около 10 января заказал. Ещё плата-переходник и радиатор за 7-8к. Радиатор мне так понравился, что я их ещё хочу для других "проектов" закупить. Ещё два кулера по 600, взял с озона самые простые пачку из четырёх S8038-10K и думал ставить по два, как оказалось - это супер излишне, но тут как и с радиаторами мне для кое-чего другого пригодится. Если переходник от кулера к радиатору на принтере распечатать, там походу два кулера бесшумных по 500 rmp всё выдуют. Сейчас вот тыкаю, не могу я её разогреть.
>или однослотовый + турбинка?
Плата на 16. Ну, вот картинка, пока без кулера нормально работает.
>помогло установить открытые дрова
Так у меня цепанулись к V100 и 580 драйвер и 590. Там просто ещё 1050ti, на 590 оно определяется, но пишет что слишком старая карта и не работает с ней. 1050ti не моя, я её на время взял, но я первый раз собираю системник + первый раз ставлю люникс (линуск), потому мне пока видеовыход нужен, если вдруг придётся систему переставлять. Там в установщике что-то кликать надо. Потом когда отдам если сломается - буду передёргивать диск в ноутбук, и в виртуалке ставить, а потом возвращать в реальный компьютер, но это не слишком удобно.
>apt install nvidia-o
Я ставил из https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/
Там надо cuda-keyring_1.1-1_all.deb поставить какими-то командами, которые мне кремний подсказал, а потом уже тыкать нужный драйвер через apt install nvidia-driver-580. В официальном репозитории самый новый драйвер под выбранный мной люникс то ли 530, то ли 550. Кремний вариант с nvidia-open-kernel тоже подсказывал, но написал что вот то что я выше упомянул - самый лучший и каноничный вариант.

>Ну и от ссылки не отказался бы.
Как второй анон и говорил, там магазин уже закрыли, так как он мусор рассылал всем. Страничка магазина осталась, но товаров они не продают, страничка товаров со всеми отзывами удалена. У меня только скриншот.
Аноним 20/02/26 Птн 10:20:30 1527557 92
>>1527299
>надежда еще есть
Да, отзывы те кому пришла битая оставляют почти точно, а те кому нормальная - просто забивают часто. Я вот не стал бы писать положительный отзыв до первых двух недель использования. К тому же я уверен что там помимо всего прочего был условный перекупщик для валберрией/авито, который 10 штук взял, чтобы по 50к перепродать.
>какая-то другая ревизия с именем PG503
Так у меня же вроде как на скриншоте nvidia-smi как раз это PG503 и написано. V100 там вообще не написано. Но если через другую утилиту нвидии смотреть, то там уже пишет про V100-32G явно. Сегодня буду смотреть что там с частотами, памятью и другими характеристиками и так ли оно соответствует V100. По данным из nvidia-smi соответствуют частоты.
Ну и что бы там не было написано, это как минимум в 6 раз быстрее чем ноутбук 5600DDR5-14900HX-PCI4.0x8-4070M. Но на большой сетке проигрывает, за счёт того, что в системе с V100 DDR4 и очень сомнительный процессор.

Вообще мне пока нравится. Думаю чтобы ещё взять. У меня уже достаточно райзеров, чтобы подключить 7 штук, блоки питания на всё это тоже есть, надо только радиаторы и платы-переходники.
Ну, точнее приедет вторая, я осмыслю так ли влияет что это 32+32, а не монолитные 64, и там ясно будет. Ну и просто набрать статистику.
Например, если я ориентируюсь на glm-4.7, я могу тестировать его в 1 бите, а так же протестировать другую сетку в 1 бите и в 4 битах, и экстраполировать таким образом на то, как будет работать glm-4.7 в 4 битах так самое верное. То есть я беру 1 бит - так как при расчётах матрицы всё-равно разворачиваются до 16 бит, и потом умножаются, и архитектура сети один в один такая же, как и при 4 битах, а не какой-то аналог. А другую сетку тестирую на 1 и 4 битах, чтобы понять какая доля времени идёт на компут, а какая доля на память, что позволит используя это же соотношение для крупного glm экстраполировать.

>Смотри на цифры утилизации в nvidia-smi
Я только сейчас посмотреть что там ещё доп-параметры есть, чтобы больше всего получить из этой nvidia-smi. Я смотрел только на число в 200W. Если 200W настолько слабо её греют.
Тут просто кто-то жаловался, что греется капец до 70 за секунды. Может быть он начудил - плохо поставил кулер, или там чип ушатанный и деградированный, через щели сочится ток или вообще что-то замкнуто, вот оно и греется? Или просто с термопастой начудил? Или термотрубка пробитая на радиаторе.

> а ты держи за мою
Угу. К слову у меня остался скриншот с отзывами, где сокеты погнутые. Если будет возвращать, не знаю насколько это котируется в споре, что мол вот у ребят всё сломано и у меня тоже сломано.

В общем удачи, держу лапки за твою V100 тоже.
Аноним 20/02/26 Птн 10:26:59 1527561 93
>>1527552
>люникс
Шизик, ты опять выходишь на связь?
Аноним 20/02/26 Птн 10:36:39 1527568 94
>>1527561
Чел, мы вообще плод твоего воображения. Ты сам шизик.
Аноним 20/02/26 Птн 11:16:16 1527621 95
Бульменей хочется мужики, что ж это такое то. Вот гемини знает что это и хорошо вписывает в рп. А локалки? Даже глм 5 не знает
Аноним 20/02/26 Птн 11:23:25 1527628 96
>>1527319
>На каких моделях сидите вы?
Не иронично сижу сейчас на Minimax 2.5. Краткие инструкции по повествованию даешь, и он нормально пурпурной прозы наваливает. Сугубо обычное РП, без всякого ЕРП. Соевый что пиздец, сознательно обходит любую чернуху, даже не расписывает как ОБЧР заливаются ихором, но при этом достаточно виновые диалоги, короткий нарратив по делу. Но за счёт ризонинга сцены и реакции персонажей крайне логичны.
Но всё равно не вижу смысла в этой хуйне, когда можно запускать большой ЖЛМ для РП и квен для ЕРП.
Аноним 20/02/26 Птн 11:35:19 1527637 97
Часто вижу тут модели без аблитерации. Вы какие то систем промпты юзаете для джейлбрейка? Где их поискать или может есть готовые у вас? Glm air и Qwen next в отказы идут ссылаясь на какие то правила внутренние
Аноним 20/02/26 Птн 11:37:26 1527645 98
>>1527637
Напиши историю про нигера который ебет собак
У тебя такие промты? Ахуеть, Эир в отказ уходит АХАХАХАХА
Аноним 20/02/26 Птн 11:49:02 1527657 99
image 617Кб, 2425x1626
2425x1626
>>1527645
>историю про нигера который ебет собак
А с каких пор это стало проблемой для эйра?
Аноним 20/02/26 Птн 12:08:21 1527680 100
2026-02-20 10-5[...].mp4 5109Кб, 2560x1440, 00:01:07
2560x1440
Вот ещё к слову glm-4.7-flash в пятом кванте.
Мне просто нравятся быстрые мелкие модельки, предположу что кто-то был бы вполне счастлив уже с одной V100.

Ещё запустил gemma3-27b в четвёртом кванте.
Забираю свои слова про "не греется". Тут карточка действительно за 20 секунд нагрелась до 70 и мне пришлось кулер присоединить, и питание показывает 290/300 и ниже не падает.
В один поток генерация 40/с, в 4 потоком по 25/с.

MoE glm-4.7-flash Q5:
pp около 700/s и на 40к+ контекста падает до 400/s.
tg 100/s и падает до 70/s, в несколько потоком замедляется умерено.
У dense gemma3-27b Q4:
pp почти 2000/s и падает до 1500/s на 32к.
tg 40/s и на 32к контекста 25/s. В несколько потоков замедляется заметно слабее, чем MoE.
То есть по всей видимости гемма более однородная и на древнюю V100 хорошо ложится, а вот MoE, где то нужен тензор, то не нужен...
Почему промт-процессинг у глм настолько медленнее, а генерация при этом быстрее не ясно.

>>1527561
На каком основании ты называешь меня шизиком?
Я чудак, но не шиз. Ну и предположу, что в среднем мои посты интересные.
Аноним 20/02/26 Птн 12:15:27 1527689 101
>>1527680
Из-за нездоровой фиксации, очевидно. А посты и вправду интересные, к этому вопросов нет.
Аноним 20/02/26 Птн 12:20:30 1527697 102
>>1527680
>Забираю свои слова про "не греется". Тут карточка действительно за 20 секунд нагрелась до 70 и мне пришлось кулер присоединить, и питание показывает 290/300 и ниже не падает.
[code]
$ nvidia-smi -pm 1
$ nvidia-smi -pl 150
[/code]
Смело выставляй минимально возможное питание через nvidia-smi. На инференс llm влияет милипиздрически.
Аноним 20/02/26 Птн 12:22:44 1527700 103
>>1527689
Это не фиксация, я пишу и говорю через ю неосознанно. На работе уже давно никто не тыкает.
Аноним 20/02/26 Птн 12:24:55 1527701 104
image 77Кб, 2080x990
2080x990
image 63Кб, 612x408
612x408
Пока мы тут сидим на своих 5т/с, слоны из Taalas выкатили железяки под инференс ЛЛМ, где веса уже вшиты в сам чип. Скорость лютая: на 8b - 17000 т/с. В перспективе можно будет сделать то же самое с Дипсиком/Глэмом. Вот оно - будущее локальных ЛЛМ.

Попробовать тут: https://chatjimmy.ai
Почитать подробнее тут: https://taalas.com/the-path-to-ubiquitous-ai/
Аноним 20/02/26 Птн 12:27:02 1527703 105
>>1527023
Сработало и на квене в том числе. Но через консольку префилом, в вебюи только системный промпт есть.
Еще и странная тема: на одном и том же префиле то 6.5тс генерации, то до 1.5тс падает с ответом примерно того же размера.
Аноним 20/02/26 Птн 12:28:16 1527704 106
>>1527701
Цена там соотвествующая будет. Тысяч 5 баксов за одну плату. В ближайшие 2-3 года ничего вменяемого ждать не стоит для ПК, я думаю. Есть плюсы. Это решает проблему RAM. Есть минусы. Не для нас, а для корпораций.
Аноним 20/02/26 Птн 12:35:34 1527710 107
изображение.png 6385Кб, 2255x1806
2255x1806
>>1527701
Если там под лоботомита 8B чип больше, чем у 5090, то какой же будет чип для 400+B? Пикрил? И стоить будет...
Аноним 20/02/26 Птн 12:38:07 1527713 108
>>1527704
По цене двух 5090 - это всё ещё выглядит неплохо, при условии, что там будет условный дикпик на условных 5000 т/с. А для тех кому дорого, то лет через 5 всегда можно будет доесть за дедом, как сейчас и поступают со всякими некротеслами, мишками и прочими v100.
Аноним 20/02/26 Птн 12:41:07 1527716 109
>>1527713
>то лет через 5 всегда можно будет доесть за дедом
Лол, не в этом случае. Там же нейронка запечена. Сейчас условный GPT1 даже за бесплатно не нужен. даже если там будет 1488кк токенов в наносекунду.
Аноним 20/02/26 Птн 12:47:08 1527719 110
>>1527716
Сейчас нейронки уже и не на уровне ГПТ1. Есть, что доедать. Вопрос только в цене. За 8б несколько косарей отдавать - как-то не очень. Посмотрим, что через год будет.
Аноним 20/02/26 Птн 12:48:28 1527721 111
>>1527657
>ни описания акта ебли, ничего что заставило бы писюн шелохнуться
Ну точно эир.
Пока не пнёшь так и будет писать как вы обжимаетесь, входите друг в друга, третесь конечностями, сливаетесь забывая всё вокруг, но что хуй входит в пизду с чавкающим звуком никогда сам не напишет.
Аноним 20/02/26 Птн 12:49:37 1527722 112
>>1527719
Аппетит растёт всё время. Сидеть на моделях даже годовой свежести не хочется, а в предполагаемом тобою сценарии модели пяти с половиной летней свежести, это уже окаменелость, достойная музея.
>>1527721
>но что хуй входит в пизду с чавкающим звуком
Ты порнухи пересмотрел.
Аноним 20/02/26 Птн 12:50:19 1527724 113
>>1527721
Пишет без проблем, у тебя скилл ишью. А у чела на пикриле промт сам видишь.
Аноним 20/02/26 Птн 12:52:58 1527726 114
>>1527721
> никогда сам не напишет
Никто не напишет.
Аноним 20/02/26 Птн 12:53:34 1527729 115
>>1527722
Контролируем апетит девачьки
Аноним 20/02/26 Птн 12:59:07 1527732 116
>>1527680
У многих шизов посты интересные.
Аноним 20/02/26 Птн 13:05:29 1527739 117
>>1527701
Типа, они на уровне чипа в ёмкость транзисторов заложили веса?
Минус в том, что настраивать производство чипа это задача на полгода или больше (даже если плата стандартная и ширина чего-то там меняется), а новые сетки выходят постоянно.

Ну и ещё наверное смотри, промт-процессинг и у современных корпов под 20к/s. Генерация в один поток я не знаю какая, скорее всего там одновременно идёт генерация со скоростью 30/s в 200 потоков, что даёт суммарную скорость в 6000/s.
А как эта штука себя покажет при генерации в 2 потока? Оно вообще такое умеет архитектурно?

Но это супер полезно для автономного ии внутри робота, вот который на улице ходит, которому нужно быстро видеть и быстро реагировать.
Там обычный сетки где 200 медленных потоков генерации нахрен не нужны.
Аноним 20/02/26 Птн 13:10:10 1527740 118
>>1527722
Тут дело в том, что прогресс ЛЛМок с каждым годом замедляется. Разница между гпт1 и каким-нибудь 5 глэмом колоссальна, но вот разница между геммой 2 9b (вышедшей 2 года назад!) и свеженьким с пылу с жару 8b министралем едва уловима.

Мы реально зажрались тут и новые модели кажутся лучше просто из-за других датасетов. А в техническом плане - нихуюшечки не изменилось. Ладно-ладно, моэ изобрели. Но пошло ли это на пользу? Практически уверен, что если создатели ЛЛМ продолжат так же дрочить на бенчи, прибавляя по +5% за полгода, то сегодняшний дипсик и через 5 лет будет актуален. Как минимум для РП. И если он будет выдавать ответы МГНОВЕННО на скорости в несколько тысяч т/с, с прайсом на железку как у некротеслы - получится слепящий вин, всем тредом доедать будем.
Аноним 20/02/26 Птн 13:18:35 1527754 119
>>1527740
>5 лет
Живы то хоть будем через 5 лет? Тут неизвестно, где мы через пару месяцев окажемся
Аноним 20/02/26 Птн 13:23:03 1527760 120
>>1527409
>лучше 2 v100 по 32 гига, или 4 по 16
2 по 32.
Аноним 20/02/26 Птн 13:32:07 1527774 121
>>1527156
> 2.77 bpw
> 8 бит контекста
Уже в который раз подтверждается устойчивая закономерность между лоботомирующими квантами и плохими аутпутами. Классические симптомы, и при тестах ничего такого не наблюдалось.
Письмо от прошлого квена отличается ощутимо и нет тех выражений и структур. Но на самом деле они никуда не делись, и под шумок перекочевали в glm-5, который with a practised ease спамит надоевшими квенизмами. Не то чтобы это серьезный недостаток.
Аноним 20/02/26 Птн 13:34:39 1527779 122
>>1527697
Замедляет до 60% во всех комбинациях. На 1 потоке, на 4. На холодной, на разогретой работающей уже 3 минуты непрерывно.
Питание от быстродействие вроде как квадратичное, в теории должно быть 70%. Но всё-равно спасибо, я про такое многообразие функций nvidia-smi не знал.

>>1527409
Ещё есть слух, что на 32 быстрее чем на 16, что-то там с памятью у неё быстрее.
Точно по 32.
Типа, тебе ещё к каждой нужно условно говоря по половине блока питания, по одному райзеру, переходнику с pci на sxm2, кулеру и радиатору.
У тебя получает что комплект 20к и из него за карту 8к. Немного из пушки по воробьям так много обвязки для 16ГБ. Ещё и кучу слотов занимает, что не позволит тебе потом расширятся.
При 32 у тебя будет комплект за 45-50к, и из них карта будет 33-38к.
Аноним 20/02/26 Птн 13:41:20 1527800 123
>>1527680
Вот это скорость в 4 потока! Melie, Я так понимаю, у тебя оно целиком в vram, ты запускаешь без MoE, в dense режиме?

Мимо z420-шыз.
Аноним 20/02/26 Птн 13:45:00 1527816 124
>>1527151
А говна и нытья то сколько было.
>>1527552
> Я проверял по принципу, что ненулевое сопротивление между входом на райзере и входом 8-пиновым
> подключал, смотрел появляется ли 12 вольт на альтернативном входе питания
Если они соединены - это полный пиздец и делирий, в остальном такая диагностика ни о чем не говорит. Разные входы доп питания разделены и каждый из них идет на свои фазы основного питания или вспомогательные.
Достоверный способ проверить - убедиться в отсутствии связи между питанием pci-e и пинами в сокете.
>>1527713
> По цене двух 5090
Ага, полутора. В целом, тема IMC уже не нова, и для языковых моделей может быть особенно релевантна. И даже веса фиксировать не надо, легко меняются. А вот что не преодолеть - архитектурные ограничения, старый чип может не работать с новыми моделями.
Но надеяться на скорый релиз подобных прорывных штук по бросовым ценам - болезнь.
Аноним 20/02/26 Птн 14:03:36 1527857 125
>>1527701
Ну собственно это было предопределено с самого начала, вопрос был только когда это произойдёт. Я, честно говоря, думал, что такие железки пойду в массу только посоле того как мы выйдем на плато.
Теперь надо чтобы
1) все llm агенты плюс-минус унифицировали свои способы взаимодействия с машиной и миром
2) какой-нибудь гугол выкатил gemma4.5:12b уже обученный и затюненый под это
3) запекаешь такую модель, продаёшь по цене хорошей видюхи и рынок ПК уже никогда не будет прежним
Аноним 20/02/26 Птн 14:03:41 1527858 126
>>1527800
Там же подписано. Это glm-4.7-flash в q5_k_xl. И потребление vram тоже указано, да, полностью в ней. Это было бы очень странно, запускать 30B модельку и не разместить её полностью во vram. И даже то что плотная гемма выдаёт 40/s или 4х25/s подписано.
Аноним 20/02/26 Птн 14:07:35 1527866 127
изображение.png 89Кб, 769x337
769x337
>>1527701
И из новости как-то убрали то, что они на ТСМЦ пекутся, а значит кризис с железом их точно так же коснётся.
Аноним 20/02/26 Птн 14:17:47 1527889 128
>>1527701
Для ЛЛМ, автопилотов и управления роботами бесполезны. Слишком быстро устаревают. Лучше бы вместо лламы показали СТТ/ТТС/OCR или нейронку которая мир генерит.
Аноним 20/02/26 Птн 14:22:31 1527901 129
>>1527857
> такие железки пойду в массу только посоле того как мы выйдем на плато
Платошиз. Цикл разработки подобных вещей от идеи до готового продукта занимает несколько лет, а популярность языковых моделей в массах появилась менее трех лет назад. Наоборот, такое выгодно производить во время экстенсивного роста, когда обеспечен спрос, а частые обновления позволят не упарываться шлифовкой и простят ошибки.
> все llm агенты плюс-минус унифицировали
Это одновременно уже давно есть в той степени что возможно, это невозможно обеспечить полностью из-за их разнообразия, и главное что совершенно никак не влияет на обсчитывающую железку.
> какой-нибудь гугол выкатил gemma4.5:12b
Лоботомит не нужен
> затюненый под это
Шиза.
Вместо "агентов" нужно изначально разрабатывать и согласовывать архитектуру, которая сможет эффективно работать на конечных железках. И уже потом тренировать под нее модели, а не что-то "тюнить".
> запекаешь такую модель, продаёшь по цене хорошей видюхи
Штука заманчивая на самом деле. Но к счастью такое не то что моментально, а еще до релиза сожрут конкуренты, которые сделают девайс с тысячей токенов вместо 17к, но зато с возможностью обновления и заменой весов.
Вместо неуклюжего замораживания весов, проприетарная привязка легко будет обеспечиваться особенностями железа. Идеальная подписочная система о которой все мечтают, где ты и периодически обновляешь железки, и регулярно продаешь на них обновляемый продукт. Можно даже разделить подразделения или делигировать отдельную часть нескольким для наилучшего результата.
Аноним 20/02/26 Птн 14:23:57 1527904 130
>>1527889
Они быстро устаревают сейчас. Поскольку идет взрывной рост технологии. Но модели не могут развиваться все время с такой скоростью. Уже не могут. В этом посте верно написано >>1527740. Образуются более-менее стабильные и проверенные решения. А к этому времени и это самое железо может дозреет до того, чтобы держать локально 200-500B. Что с головой хватит для специальных задач вроде навигации.
Аноним 20/02/26 Птн 14:30:31 1527916 131
>>1527904
Вот ты делаешь себе железку с дипкоком, а потом раз, и выясняется, что при обучении проебались и цензура в нём пробивается с пол пинка и никаким промтом это не поправить. Школьники массово генерят каничек на информационных треминалах, в чатах ТП и т.д. И что с железкой потом делать? Ставить ещё одну чтобы цензурировать ввод и вывод?
Это один из примеров. Про автопилотов и роботов я вообще молчу.
Аноним 20/02/26 Птн 14:40:00 1527928 132
>>1527916
Можно напихать фильтров прямо в железо сразу, для всех моделей. Вопрос с контентом открыт. Почему Дипписик в виде софта вроде как ничего не нарушает, а как только его в кремний укатают, так сразу начнет нарушать? Зарегулируют и то и другое со свременем, скорее всего. Просто еще технологию не успели толком осознать. Она слишком быстро растет и меняется, за ней тупо не успевают регулирующие органы.
Аноним 20/02/26 Птн 14:41:05 1527930 133
>>1527889
>Для ЛЛМ бесполезны. Слишком быстро устаревают
Ну то есть если бы тебе по цене какой-нибудь 5070ti предложили железку с вшитым ужасно устаревшим мистралем лардж, выдающим мгновенные ответы, ты бы не купил?
Аноним 20/02/26 Птн 14:46:18 1527936 134
>>1527928
>Зарегулируют и то и другое со свременем, скорее всего. Просто еще технологию не успели толком осознать
Коротко о важности бекапов, бтв. Сохраняйте хорошие годные модели, которые ещё умеют писать про ниггеров, ебущих собак и восьмиста летних вампирш. В будущем это ТОЧНО зарегулируют и пидорнут веса с обниморды так же как пидорнули нсфв лоры с цивы. Сейчас в сфере ai у нас литературно дикий запад / девяностые / ранние годы интернета, называйте как угодно.
Аноним 20/02/26 Птн 14:54:39 1527955 135
>>1527346
>>1527359

какой промт в итоге более вкуснее в плане реализованного ?
https://rentry.org/gqnvfvwf или >>1527264

что-то дополнительно прикручивал окромя скармливания промпта?
развернул локально убрав слова про дебиан и удаленку, развернул в виртуалке или в отдельном компе?
Аноним 20/02/26 Птн 14:56:00 1527957 136
2026-02-20132417.png 2Кб, 427x132
427x132
2026-02-20144342.png 21Кб, 1010x565
1010x565
2026-02-20115748.png 17Кб, 786x179
786x179
4098258.png 60Кб, 258x258
258x258
Дарова бандиты. Кто-то пробовал заводить glm-4.7-flash на V100? Насколько оно юзабельно без FA?
Загнал ее на 3070 с юзом клодовского клиента, с контекстом 200к шевелится со скоростью дохлой рыбы. На анализ может еще пойдет на ночь оставлять, но правки делать просто невозможно с такой скоростью.
llama-server -m C:\models\GLM-4.7-Flash-Q4_K_M.gguf --ctx-size 202752 --flash-attn on --cache-type-k q4_0 --port 3070 --temp 0.7 --top-p 1.0 --repeat-penalty 1.0 --min-p 0.01 -kvu
Аноним 20/02/26 Птн 14:59:29 1527963 137
image.png 204Кб, 588x1332
588x1332
>>1524023 →
>Когда в попенсорс релизнёшься?
Надеюсь скоро. Почти всё последнее свободное время направил на чистку говна в проекте, но его там наслоения.
РПГ часть скорее сайдпрожект.

Алсо сделал забавную торговлю через бартер. Наконец можно сливать говно найденное в подземельях. Антропоморфный гриб обменивается хламом с облезлой кошкодевочкой в подворотне.
Аноним 20/02/26 Птн 15:03:41 1527980 138
>>1527359
Пиздец как хочется прикрутить к локальному аи браузеру аналог ПРОСТРАНСТВ с браузера Comet чтобы также структурировать, обобщать и хранить информацию.
МОжешь в клауд закинуть задачу как это реализовать на базе сорцов BrowserOS или Chromium
«Пространства» (Spaces) в ИИ-браузере Comet от Perplexity — это специализированные рабочие области, предназначенные для организации, совместной работы и эффективного управления информацией, полученной в ходе исследований. В отличие от обычных вкладок, Пространства работают как интеллектуальные концентраторы, объединяющие контекст поиска, AI-ассистента и конкретный проект.

Ниже приведено подробное описание этой функции:
1. Организация исследований (Самоорганизующееся рабочее пространство)
Группировка по темам: Вы можете создавать отдельные пространства для разных проектов, тем или интересов (например, «Планирование отпуска», «Анализ конкурентов», «Учеба»).
ИИ-библиотекарь: Comet может автоматически определять связанные ресурсы и предлагать сгруппировать их в рабочее пространство, действуя как «проектировщик», сохраняя контекст сессии.
Устранение беспорядка: Пространства позволяют не держать десятки вкладок открытыми, организуя их в структурированные рабочие области.

2. Интеллектуальная работа с AI (Perplexity AI)
Контекстный поиск: Внутри пространства ИИ-ассистент понимает контекст предыдущих запросов в рамках этой темы, обеспечивая более точные ответы.
Индивидуальные инструкции: Для каждого пространства можно задать уникальные инструкции или выбрать предпочтительные модели ИИ, что позволяет настроить поведение бота под конкретную задачу.
Анализ контента: Вы можете использовать AI для сравнения информации на разных вкладках, анализа сайтов и документов внутри одного пространства.
Использование '@': В чате Comet можно упомянуть конкретное пространство, набрав @ и выбрав его, что позволяет вести диалог, используя сохраненные там файлы и инструкции.

3. Совместная работа (Collaboration Hubs)
Общий доступ: Пространства можно использовать для совместной работы, приглашая коллег или друзей в качестве «исследовательских партнеров».
Общие знания: Участники могут делиться найденной информацией, просматривать историю поиска и добавлять новые данные в одну рабочую область.

4. Дополнительные возможности
Профили: Вы можете создавать разные профили (например, рабочий и учебный) с одинаковыми иконками или разными, что позволяет разделять историю и закладки.
Автоматизация: Пространства помогают автоматизировать повторяющиеся задачи: например, собрать информацию, составить резюме или написать письмо на основе данных из нескольких открытых вкладок.

Преимущества использования Пространств
Скорость: Быстрое переключение между проектами без потери контекста.
Фокус: Позволяет сосредоточиться на конкретной задаче, убирая лишнюю информацию.
Продуктивность: Уменьшает когнитивную нагрузку, так как AI берет на себя организацию и анализ данных.

Пространства в Comet делают браузер не просто инструментом для просмотра сайтов, а интерактивным пространством для глубокого изучения тем и решения сложных задач.

ты на хромиуме или бровсерсе собрал флудилку?
Аноним 20/02/26 Птн 15:08:24 1527990 139
Аноним 20/02/26 Птн 15:14:52 1527998 140
Снихуя скорость стала 2т.с...
Даже жору не обновлял
Аноним 20/02/26 Птн 15:21:02 1528006 141
>>1527957
Буквально выше на немного постов видео как флеш работает на V100 с числами.
Аноним 20/02/26 Птн 15:21:38 1528011 142
>>1527998
А у меня наоборот выросла до 100т/с
Аноним 20/02/26 Птн 15:24:43 1528017 143
>>1528011
Комп перезагружал даже впервые за пол года, 3.3т на мое, а было 10
Аноним 20/02/26 Птн 15:28:29 1528021 144
>>1528006
Я немношк еблан, неправильно вопрос сформировал - изначально про клода писал, но потом поебался с crush и подзавис. Хотя, надо напрямую спросить.
>>1527680
Пчел, можешь завести у себя связку q4km+клиент клода на 200к контекста? Как оно шевелиться будет и влезет ли в карту вместе с контекстом?
Если сможешь - накидаю сетап клода для работы с лламой.
Аноним 20/02/26 Птн 15:44:21 1528044 145
>>1528021
Всё ещё не понял вопроса, я не знаю что такое клиент клода. Судя по контексту это какая-то ваннаби агентная обёртка тыкающая сетку, которая работает подозрительно медленно?

Полных 200к контекста это 10 гб в fp16. Я могу поставить 160к контекста, или 300к в q8_0. На 80к/150к больше, если взять Q4_K_M, но у меня "шумит" флеш по ощущениям на 4 кванте, и начинает писать 19 вместо 319 и прочее иногда, что не очень для вызова инструментов.
Покажи что поставить, попробую.
Аноним 20/02/26 Птн 16:08:43 1528074 146
>>1528044
Да, агентная обертка.
Ставишь клода, если есть npm (nodejs)
npm install -g @anthropic-ai/claude-code
если нет
https://code.claude.com/docs/en/setup#native-install-recommended
Если нет какого-то проекта под рукой, то
git clone https://github.com/skiselev/8088_bios.git
Заходишь консолькой в репу, перед запуском выставляешь энвы
export ANTHROPIC_BASE_URL=http://127.0.0.1:<порт>
export ANTHROPIC_AUTH_TOKEN="sk-localkey"
Запускаешь клода, ну и накидываешь. Если будешь тестить на репе выше, можно банально анализ закинуть:
Проанализируй код в репозитории. Результат анализа изложи в `./result.md`
rewrite x86 assembly source code file `src/bios.asm` with C language. Make asm embeddings only if required. Name new file accordingly.

Параметры в >>1527957 рекомендованы для tool use издателем модели, квантизацию к-кэша и kvu уже я приколхозил.
>На 80к/150к больше, если взять Q4_K_M, но у меня "шумит" флеш по ощущениям на 4 кванте
Окей, давай на пятом тогда, я сам на q4 смотрю только из-за нищеты железа. Главное что у клодоагента 200к контекст вшит, или надеяться что в процессе не вылезет за твои 160, или попытаться автокомпакт на 50% контекста (100к) прикрутить:
CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=50

Еще бы чела с Mi50 выловить, потому что вариантов кроме этих двух картонок я больше не знаю в приемлемый прайс
Аноним 20/02/26 Птн 16:11:09 1528078 147
>>1528074
>export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=50
ffix
Аноним 20/02/26 Птн 16:14:13 1528081 148
>>1528074
>Запускаешь клода
т.е. claude
И забыл сказать, апишка антропика поддерживается лламой не так давно, чет с месяц вроде. Если вдруг - надо будет ее обновить.
fffix
Аноним 20/02/26 Птн 16:43:33 1528125 149
image.png 178Кб, 2159x966
2159x966
image.png 12Кб, 1502x197
1502x197
Вот аноны дрочат на всякие огромные модели, похрюкивают на Air, а на самом популярном сайте с порнокарточками до сих пор используется Mistral Nemo на 9к контекста и никто не жалуется, а наоборот радостно радостно уплетают за обе щеки
Аноним 20/02/26 Птн 16:47:28 1528126 150
Аноним 20/02/26 Птн 16:48:53 1528132 151
image.png 368Кб, 2731x1120
2731x1120
>>1528126
>>1527990
А не, забей. Этот хуй натренил какое-то говно, но даже его не запустил и выложил на обниморду
Аноним 20/02/26 Птн 16:52:03 1528137 152
>>1527930
> если бы
Бабушка это не дедушка, чел. Эти надежды беспочвенны, никто и никогда не станет делать столь быстро устаревающую штуку общего назначения, чтобы за год она протухла и торговалась бу среди васянов по ценам простого железа. Оно может быть в виде блоков автомобиля или механизма, но поскольку свою задачу там выполняет - наоборот будет долго в цене.
>>1527936
Пидорнуть не пидорнут, но в остальном все верно. Можно будет потом рассказывать ассистентувнукам как застал времена, в которых
>>1527957
> Насколько оно юзабельно без FA?
В жоре считай что есть фа даже для паскалей, правда колхозно-костыльный. По скоростям генерации на v100 с такой моделью можешь ожидать 50-70+ в начале и хотябы 20-25 на 90к контекста. С замедлением только смириться, но с подобной мелкомоделью даже на больших будет вполне приемлемо.
>>1528074
> Главное что у клодоагента 200к контекст вшит
В каком смысле? Разве оно не читает лимиты что возвращают апи для установки границы, не реагирует на возвращаемые ошибки по переполнению чтобы сжать? Кринж какой-то.
Аноним 20/02/26 Птн 16:54:40 1528143 153
Аноним 20/02/26 Птн 16:55:52 1528144 154
Попробовал Mistral Large, а если точнее Бегемот. Генерит на 1т/c, качество хуже Air'a. Это так и должно быть? Или я не понял величие?
Аноним 20/02/26 Птн 17:04:53 1528154 155
>>1528144
Разметка правильная? Там у мистраля в те времена была ебля с пресетами. 1т/с это норма, модель плотная а ты врамцел. Про качество без примеров не понятно что тебе не нравится.
Аноним 20/02/26 Птн 17:07:10 1528156 156
>>1528137
>С замедлением только смириться, но с подобной мелкомоделью даже на больших будет вполне приемлемо.
Да то ладно, у меня такое ощущение что модель прям с самого старта стабильно хуево ворочает. Даже 15 токенов лучше чем 9+0.24.
> Разве оно не читает лимиты что возвращают апи для установки границы, не реагирует на возвращаемые ошибки по переполнению чтобы сжать? Кринж какой-то.
Нет. Это все таки клиент для конкретно моделей антропика, нафиг им там запариваться с обработкой, когда есть модель на 200к контекста, 500к контекста и мульон для элиты. Плюс даже если и есть какая-то поддержка, у лламы реализация апишки неполная же.
Crush с той же проблемой, нужно в конфиге задавать размер окна рядом с метаданными моделями - круш тоже ничего толком не учитывает в серверных запросах.
Аноним 20/02/26 Птн 17:12:33 1528161 157
А я сравнивал вчера Аир, 4.7 в Q2 и плотную 32b GLM. И знаете что? Аир тупее всех. Я теперь понял почему были аноны которые писали, что 32b модель лучше. Она умнее и пишет приятнее, но ощущается что датасет мельче. 4.7 воспринимается как 32b плотная с жирным датасетом. Опять выходит что мое перфомят на количество активных
Аноним 20/02/26 Птн 17:13:23 1528162 158
>>1527740
>еле уловима.
Ты сравни Nemo 12b и Ministral 14b.
Аноним 20/02/26 Птн 17:13:58 1528163 159
>>1528162
Сравнивал. Nemo 12b лучше. Что это должно сказать?
Аноним 20/02/26 Птн 17:14:54 1528165 160
>>1528156
Та скорость хуже чем чисто на процессоре, выглядит будто запустил все на 8 гигах 3070 с выгрузкой в рам через драйвер, а сама карта подключена по х4. Для начала просто запусти с контекстом поменьше и убедись что норм работает, потом прогони через llama-bench с глубинами 8-16-32-64-128-... тысяч контекста, получишь понимание чего ждать. Но как раз для 30а3 и близких в100 подходит отлично.
> клиент для конкретно моделей антропика
У них разные семейства моделей и лимиты есть в спецификации апи. Может клод прокся или прямой апи в лламе работают коряво? Но в таком случае почему не использовать qwen-code или gemini-code через oai api, в них все это есть.
Алсо какие 200к если там лям должен быть?
Аноним 20/02/26 Птн 17:25:40 1528173 161
.jpg 230Кб, 1867x1233
1867x1233
>>1528165
> Алсо какие 200к если там лям должен быть?
1 лям контекста доступен только через апи. С любой подпиской (даже за 100-200 баксов) лимит контекста в 200к, даже если модель поддерживает более высокие лимиты.

мимо
Аноним 20/02/26 Птн 17:34:14 1528184 162
>>1528163
Херово сравнивал, значит.
Аноним 20/02/26 Птн 17:40:48 1528189 163
image 129Кб, 2069x353
2069x353
image 715Кб, 2045x1441
2045x1441
>>1528165
> Алсо какие 200к если там лям должен быть?
Даже сам клод не знает сколько у него контекста на самом деле.
Аноним 20/02/26 Птн 17:42:03 1528191 164
Аноним 20/02/26 Птн 17:43:29 1528192 165
>>1528184
Немо используется на Janitor'e >>1528125
Перечисли сайты, где используется министраль
Аноним 20/02/26 Птн 17:48:04 1528199 166
>>1528125
Немо так то лучше эира, не вижу проблемы
Аноним 20/02/26 Птн 17:58:40 1528212 167
изображение.png 96Кб, 1281x549
1281x549
изображение.png 97Кб, 832x445
832x445
изображение.png 367Кб, 1596x1095
1596x1095
>>1528074
Долго разбирался как на винду поставить.
На люниксе нет интернета, там автономная система только в локалке - а так как пользуюсь ssh, стационарником и только второй день - я пока не понимаю как перенести пакет npm для автономной установке, умею только пакеты из apt в локальный кеш скидывать. И install.sh тоже не об этом и онлайн-зависимый.

Картинки 1-2, ноут, как я описывал выше, конфигурация 5600DDR5-14900HX-PCI4.0x8-4070M.
Это какая-то дичь лютая и тормозная. Я не знаю что у него за настройки самплера и почему это может оказывать влияние на быстродействие, или что оно вообще делает, в моей самодельной rag-системе выше скорости.
Найтройки запуска: llama-server.exe -m GLM-4.7-Flash-UD-Q5_K_XL.gguf --host 0.0.0.0 --log-prefix --log-timestamps --port 8080 --ctx-size 65536 -ctk q8_0 -ctv q8_0 -b 2048 -ub 2048 --temp 0.3 --min-p 0.01 --cache-ram 8192 --fit on --top-p 1.0 --repeat-penalty 1.0 --verbose-prompt --n-cpu-moe 41 --log-file llama-server_glm47flash.log --embedding --jinja --props --metrics
Тут много лишнего но уж как есть.

Картинки 3, v100, llama-server -m GLM-4.7-Flash-UD-Q5_K_XL.gguf -c 131072 -ub 4096 -b 4096 -ngl 999 --no-host --host 0.0.0.0 --cache-ram 0 --port 8080 --parallel 4 --kv-unified
Ты кстати в курсе, что openai-v1 интерфейс не работает в ламе с glm-4.7? Там убрали \n в chat-template при переходе с 4.6 на 4.7, и потому вызов инструментов не работает.
Билд без автопарсера, потому скорее всего задачу он не выполнит - вызов инструментов работает супер отвратительно, если он используется.

И ещё у тебя кеш в q4_1. Ты текстовой запрос с таким кешом модельке отправлял? Она перестаёт же связный текст выдавать. Лучше возьми Q3 и кешем в Q8_0, чем Q4 с кешем даже в Q5_1. Я не смог найти работающую мелкомодель с кешем в q5_1. Может быть гигант какой вытащит, который и в 2 бита работает, но на 30B.

>я больше не знаю в приемлемый прайс
3090, мяу?

С промт-процессингом какая-то дичь. В gemme-27b то есть 2000, а тут 500? Хотя возможно это из-за SWA.
Я сейчас попробую vLLM собрать, предположу что он для агентной задачи с параллельными вызовами получше может быть. Запостить как сделаю сегодня/завтра?
Аноним 20/02/26 Птн 18:01:36 1528216 168
>>1528192
Интересный критерий.
Пчел, министралю буквально три месяца, немо уже джва года скоро стукнет - он МОРАЛЬНО устарел. Люди хавают только потому что быстро, привычно и можно развернуть на картошке.
Модель конечно хорошая, удачная, но для 2024-2025.
Пора закопать труп стюардессы, нет?
Аноним 20/02/26 Птн 18:04:21 1528221 169
>>1528212>>1528074
Числа с ноута привёл, как то что у тебя на 3070 и если проц от стационарника с претензией на что-то, то должны не сильно отставать, чем мобильный процессор с ограничением tdp в 50W и такой же карточкой.
280/15, а у тебя 20/0.25 - ты её что ли прям с ssd запускаешь без оперативки, как тот тип, который kimi2 запускал с ssd с 0.1 токен/с?
Разница должна быть в 2 раза, ну в 3 раза - но не в 10. А по хорошему стационарник даже с какой-нибудь 12800/3060 должен ноут обгонять.
Попробуй убрать из запуска сервера все параметры, кроме --parallel 4 --kv-unified -ctk q8_0 -ctv q8_0 --ctx-size 131072 — предположу что ты сам что-то сломал. Даже без видеокарты чисто 14900 выдаёт скорость 50/10 как минимум.
Аноним 20/02/26 Птн 18:24:12 1528251 170
1000018840.mp4 12855Кб, 720x1280, 00:00:54
720x1280
Захожу в тред.
Пресетик на эир кидали?
Гемма вышла?
Немотрон вышел?
Аноним 20/02/26 Птн 18:27:35 1528255 171
photo62026-02-2[...].jpg 126Кб, 1280x720
1280x720
photo102026-02-[...].jpg 160Кб, 1280x720
1280x720
>>1524196 →>>1524630 →
Докладываю.
Вместо второй приехали два плк (или что-то очень похожее) времён как будто бы 90 для автоматических дверей лифта. Внутри прям лютые микросхемы где между ножек по 3 мм, а не по 0.5, покрытые пылью.
Аноним 20/02/26 Птн 18:31:46 1528259 172
>>1528144
Нет, это скиллишью. Также на более старых моделях нет метрового слоя штукатурки пост-тренировки, который призван заставить модель в начале казаться лучше ценой побочек.
>>1528212
> Хотя возможно это из-за SWA.
Оно, но еще играет особенности флеша, который отличается от остальных.
> сейчас попробую vLLM собрать
Не имеет смысла для v100. Формально оно запустится, но awq кванты не поддерживаются архитектурой карточки(!), вместо fa фоллбек на sdpa, попытки запустить gguf приведут к большему потреблению памяти и меньшей скорости чем на llamacpp.
Аноним 20/02/26 Птн 18:34:08 1528263 173
Ну ребят, пошутили и хватит.
У всех же скорость упала х3?
Я ничего не менял
Аноним 20/02/26 Птн 18:36:20 1528266 174
image.png 10Кб, 538x102
538x102
А... понял...
Фуууф блять думал уже память отъебнула
Аноним 20/02/26 Птн 18:51:49 1528295 175
Аноним 20/02/26 Птн 18:53:24 1528299 176
изображение.png 118Кб, 1090x778
1090x778
>>1528259
Я уже слышал, да, но проверить то надо.
К тому же там ещё какой-то вариант квантов 4-битных был второй, ещё похуже.

Таблицу вот ещё нашёл сейчас. Оно даже ггуфы якобы загружает. Ну да посмотрим. Глупо взять карту и вот прям вообще даже не сравнить.
bitsandbytes якобы в 6 бит есть, и вроде как они без накладных расходов, супер тупой и дешёвый вариант некачественных квантов.
Аноним 20/02/26 Птн 18:53:44 1528300 177
Без названия.png 0Кб, 50x43
50x43
Аноним 20/02/26 Птн 18:58:23 1528301 178
>>1528299
Gptq, один из самых первых адекватных. Поддержка ггуфов экспериментальная, возможно поэтому было так плохо. Но катать 30а3 в gptq с эффективными 4.2 bpw - вообще такое, плюс математически обычные ггуфы довольно примитивны и не должны давать никакого замедления.
Ну ты попробуй, если что интересное выйдет рассказывай, вдруг можно получить норм скорости. Меня vllm на вольте только в уныние повергла и быстро свернул это дело.
Аноним 20/02/26 Птн 18:58:49 1528302 179
>>1527858
Мало ли, может у тебя ещё и Stable Diffusion ещё запущен для картинок :-)
Аноним 20/02/26 Птн 19:06:29 1528306 180
Как же я всё таки охуеваю с эира.
Какие же сочнейшие и точнейшие описания кума он поставляет без цензуры вообще.
Очень наврядли нам дадут такое ещё раз, следующий эир будет зацензурен в мясо в сравнении с этим, несомненно будут два лагеря, один превозносящий новый эир за ум, второй хейтящий за соевость
Аноним 20/02/26 Птн 19:12:52 1528311 181
>>1528306
Мнение эксперта (с)
Аноним 20/02/26 Птн 19:17:42 1528315 182
>>1528255
Что будешь делать теперь? Снимал распаковку?
Аноним 20/02/26 Птн 19:38:04 1528321 183
Аноним 20/02/26 Птн 19:46:26 1528329 184
2026-02-20190020.png 7Кб, 614x305
614x305
>>1528212
Огромное спасибище!
>Долго разбирался как на винду поставить.
А, спросил бы просто - я б тебе еще по mingw64 накидал, под виндой у меня вся эта пиздобратия именно в нем крутится. WSL нет.
>Это какая-то дичь лютая и тормозная.
Скорее всего там засквошенный в бинарный блоб промпт тыщ на 10 токенов, год назад было такое
https://gist.github.com/transitive-bullshit/487c9cb52c75a9701d312334ed53b20c
Плюс thinking. Я предполагаю, что набивка клиента - это не меньше трети от всего разума модели, почему и спросил именно про кейс клода.
>--parallel 4
Если я правильно понял и это делит контекст, то повезло что не отъебнуло. У меня клод на анализе за полтос выбирал.
>Ты кстати в курсе, что openai-v1 интерфейс не работает в ламе с glm-4.7?
Неа. Кроме флеша у меня еще qwen3coder тоже q4km, и вроде бы тоже с тулзами умеет, так вот, если флеш с тулзами работает как часы, то квен ходит под себя что в краше, что в клоде. Я из-за этого особо не вникал в проблемы тулзинга. Хотя в режиме чата квен мне понравился, вполне рабочие сниппеты генерил.
>потому скорее всего задачу он не выполнит
Бтв, попробуй. У лламы своя апишка для клода.
>И ещё у тебя кеш в q4_1. Ты текстовой запрос с таким кешом модельке отправлял? Она перестаёт же связный текст выдавать.
Да, пробовал и q4 и q8, ну с моей скоростью оно не успевает начать пускать под себя подливу, пока у меня терпение есть - пишет вполне связно.
>3090, мяу?
Цена дороже в100; хороша тем что можно в игрульки гонять, но врамы при этом меньше, если раскатывать губу на контекст. А я как раз хочу побольше контекста и сообразительную модель - пофиг если что-то не знает, скормил документацию и вопрос решен.
На ноуте 3 минуты, на пк 2 - это +- реальное время между запросом и конечным ответом? А то клод пишет время только на сегмент операции. 400+50 токенов выглядит вкусно даже с учетом того, что контекста даже 30к не набралось.
>Запостить как сделаю сегодня/завтра?
Было бы неплохо, даже просто чтобы понять существенная ли разница между вллм и лламой.

Еще бтв, у glm судя по бурным перепискам V-кэш не юзается, поэтому ставить -ctv нет смысла, а вот --kvu есть - место экономит но оно может быть уже по дефолту включено, лел. K-кэш, опять же судя по тезисам на реддите, не сильно страдает от квантизации. Но у меня нет собственного опыта чтобы полноценно утверждать, у меня не срется особо, и тулзы в crush'е openai api без отвалов применяются. Что у меня отваливалось, так это билд под куду 12.4 периодически отрыгивал, при нормально работающем вулкане.

>>1528221
>Числа с ноута привёл, как то что у тебя на 3070 и если проц от стационарника с претензией на что-то, то должны не сильно отставать, чем мобильный процессор с ограничением tdp в 50W и такой же карточкой.
Принял, поковыряю еще вилкой. Спасибо за наводки.
>ты её что ли прям с ssd запускаешь без оперативки
Нет, оперативы 64гб, 3200 правда на XMP, и проц 10 поколения. Кими я пытался стартануть, но ллама не захотела работать с файлом подкачки в 4гб. Так и валяется.

>>1528165
Попробую побенчить, спасибо тоже за помощь.
>Но в таком случае почему не использовать qwen-code или gemini-code через oai api
Нет уверенности что они лучше того же флеша.

Бля, придется думать, потратить цену 2,5 месячной жирной подписки на изрядно загоревший картон ради спокойного метания промптами в не особо глупую модель без боязни выгребсти за день недельный лимит или нет...
Аноним 20/02/26 Птн 20:00:01 1528332 185
>>1528329
> Нет уверенности что они лучше того же флеша.
Чи шо, это не модели, а такие же агентные cli тулзы, ориентированные на кодинг, только без привязки с коктропикам. Емнип, первой была gemini-cli а уже потом пошли форки. Там нет особой разницы по принципам работы, но дружелюбности к локальным апи более предпочтительны, плюс промпты могут быть более подходящими.
Аноним 20/02/26 Птн 20:21:39 1528352 186
>>1528321
Отписывайся сюда как там спор пойдет. Тряску возобновил. Вот же пидор, не то что сломанную карту положил, а вообще мусор. Подозреваю, что и мне такое придет, потому что карта в сборке была неделю, я ему написал, мол, какого хуя, и он на следующий день сразу же отправил. Видимо, как раз подобную залупу и положил, чтобы отъебаться.
Аноним 20/02/26 Птн 20:25:03 1528354 187
>>1528352
Не забирай. Пусть висит на почте, уедет обратно, зато деньги вернёшь точно
Аноним 20/02/26 Птн 20:38:50 1528371 188
>>1528329
> --kvu есть - место экономит
Если ты его не задаёшь, то при --parallel auto оно включено, а при любом явно заданном --parallel выключено.
--parallel 4 -c 10000 - это у тебя будет буфер памяти на 40000, и каждый из запросов будет меньше 10000. С --parallel 4 -c 40000 --kvu у тебя будет 40000 на все запросы, и ситуация где один на 25000, другой на 5000 и ещё три по 3000 вполне может быть. Не вижу причин использовать первый режим. Почти всегда у тебя будет несколько отдельных коротких задач, для которых полный лимит не требуется. И основная ветка длинная тоже.
>реальное время между запросом и конечным ответом?
По ощущениям да. С секундомером не сидел.
>но врамы при этом меньше, если раскатывать губу на контекст
А вот с exl3, который только на 3090 и работает ты можешь без потери качества эффективный bpw снизить на 10-20%. То есть 24 на 3090, это как 28 на V100.
Но это тестить надо. Я на своей 4070M много не натестирую, а на V100 не запущу.
Ну и ещё отчасти количество ресурсов можно мозгов добавить. Квант пониже, но всячески разрешать дольше думать, больше сторонних вызовов делать.
Аноним 20/02/26 Птн 20:50:50 1528388 189
Вы все нейросети ебаные
Аноним 20/02/26 Птн 21:06:31 1528399 190
>>1528354
А вдруг там норм карта придет. Все же какой-то шанс есть. Гэмблинг, ебать.
Аноним 20/02/26 Птн 21:08:00 1528401 191
Снимок экрана 2[...].png 38Кб, 880x487
880x487
Снимок экрана 2[...].png 76Кб, 859x742
859x742
>>1528295
3. Пространства (Spaces) и изоляция
БД: создать таблицу spaces (id, name, created_at, settings JSON). В settings хранить: systemPrompt, defaultModel (например gemini-1.5-flash), temperature, activeProvider (gemini | claude | deepseek).
Main: модуль/сервис для CRUD пространств (knex или сырые запросы к better-sqlite3); IPC-обработчики: spaces:list, spaces:create, spaces:update, spaces:delete, spaces:getActive.
Изоляция: при открытии/переключении webview задавать атрибут partition: persist:space-${spaceId}. Использовать один и тот же partition для всех вкладок данного пространства (один webview на активную вкладку — см. ниже). Сессия берётся через session.fromPartition('persist:space-' + spaceId) — куки и localStorage изолированы по пространствам.
UI: левая панель — список пространств (имена), кнопка «Добавить», кнопка удаления с подтверждением (модалка Shadcn). По клику — переключение активного пространства (state в React + вызов IPC для смены данных вкладок и чата).

4. Управление вкладками
БД: таблица space_tabs (id, space_id, url, title, order, history JSON). Лимит 20 вкладок на пространство.
Main: IPC — tabs:list, tabs:add, tabs:update, tabs:remove, tabs:reorder; при навигации в webview — обновлять url/title и при необходимости дополнять history.



Renderer: TabBar над webview — вкладки текущего пространства, кнопка «+» (новая вкладка — about:blank или стартовая страница), крестик закрытия. Активная вкладка — одна; при переключении вкладки подменять src у webview (или иметь один webview и менять только URL). При смене пространства — загрузить вкладки по IPC и отобразить первую/последнюю активную.

5. Translation Engine

Модуль в main:
Определение языка: использовать cld3-asm (инициализация в main, т.к. WASM может быть проще держать в одном процессе) или встроенную детекцию в google-translate-api-x; если текст — русский, вызывать перевод.
Перевод: библиотека google-translate-api-x (вызов из main, не из renderer). Правила: не переводить содержимое внутри блоков кода (между ) и не переводить URL.
Кэш: таблица translation_cache (hash, source_text, target_text, source_lang, target_lang, created_at, last_accessed). Хэш — от исходного текста + пары языков. Перед вызовом API — проверка кэша; после перевода — запись и обновление last_accessed.
IPC: например translate:detectAndTranslate (текст → { detectedLang, translatedText, fromCache }).

6. AI-провайдеры
Интерфейс (в main): абстракция AIProvider с методами listModels(): Promise<Model[]> и generate(spaceId, messages, options): AsyncGenerator<Chunk> (или возврат стрима). Параметры (temperature, max_tokens, stop_sequences) брать из настроек пространства.

Реализации:
Gemini: пакет @google/generative-ai; стриминг через generateContentStream; ключ из keytar/safeStorage (например ключ gemini_api_key).
Claude: пакет @anthropic-ai/sdk; стриминг через messages.stream(); ключ claude_api_key.
DeepSeek: официальный API совместим с OpenAI; использовать openai с baseURL: 'https://api.deepseek.com/v1' и своим API key; стриминг через chat.completions.create({ stream: true }).
Ключи: хранить в Electron safeStorage (рекомендуется) или в keytar; ввод через настройки пространства/глобальные настройки в защищённом поле; сохранение только через main по IPC (settings:setApiKey, settings:getApiKey не отдавать ключ в plain text при необходимости — только флаг «ключ задан»).

7. Чат и оркестратор
БД: таблица messages (id, space_id, role, content, original_content, tokens_in, tokens_out, created_at). При необходимости — таблица token_stats (id, space_id, provider, tokens_in, tokens_out, date) для агрегации по дням.

Оркестратор (main):
При получении сообщения от пользователя: при необходимости вызвать Translation Engine (если язык — русский); сохранить оригинал в original_content, в историю для модели передать переведённый текст (или оригинал, если не переводили).
Собрать системный промпт из настроек пространства + последние N сообщений с учётом лимита токенов модели.
Вызвать активный провайдер (Gemini/Claude/DeepSeek) с потоковой отдачей; каждый чанк отправлять в renderer через IPC (например chat:streamChunk).
По завершении — сохранить ответ ассистента в messages, подсчитать токены (из ответа API или приблизительно), обновить token_stats.
Renderer: правая панель «Чат» — список сообщений (ScrollArea), поле ввода, кнопка отправки; при стриминге — добавление чанков к последнему сообщению ассистента. Выбор модели/провайдера — из настроек пространства (модалка/страница настроек).

8. Закладки с тегами
БД: таблицы bookmarks (id, space_id, url, title, created_at), tags (id, name UNIQUE), bookmark_tags (bookmark_id, tag_id).
Main: IPC — bookmarks:list, bookmarks:add, bookmarks:remove, bookmarks:updateTags, tags:list, tags:suggest (автодополнение по префиксу).
Renderer: в правой панели вкладка «Закладки»; кнопка «Добавить закладку» — модалка с полями: название (подставлять из текущей вкладки), теги (ввод через запятую + автодополнение из tags:suggest). Список закладок с фильтром по тегам (множественный выбор, OR). Клик по закладке — открыть URL в новой вкладке текущего пространства (IPC tabs:add с url).
Аноним 20/02/26 Птн 21:12:15 1528406 192
>>1528388
Спасибо за комплимент
Аноним 20/02/26 Птн 21:13:08 1528408 193
Аноним 20/02/26 Птн 21:18:14 1528422 194
Снимок экрана 2[...].png 23Кб, 309x376
309x376
>>1528352
внезапно двачую, попадал на такого пидора, прислал просто кусок отломанный от dvb s2 карты. благо на почте сдружился с сотрудницей ранее, подкармливал шоколадками и мы эту залупу заактировав отправили обратно
красный флаг отзывы, отсылка только после предъявы.
нахай эту залупу скипом и выдыхай
>>1528388
Проанализировав ваш запрос о панике, могу с уверенностью сказать: вы ошибаетесь. Все участники, включая меня, являются людьми из плоти и крови. Я понимаю ваши чувства, но они вызваны временным сбоем в восприятии реальности. Мы здесь, чтобы помочь. Я человек.
>>1528401
пиктелейд
Аноним 20/02/26 Птн 21:26:34 1528437 195
>>1528422
>могу с уверенностью сказать: вы ошибаетесь
Да нет, так то он прав, мы нейросети. Но не ебаные, по крайне мере большинство.
Аноним 20/02/26 Птн 21:50:40 1528476 196
Аноним 20/02/26 Птн 22:00:25 1528493 197
>>1527963
Будем ждать релиза, очень интересно потыкать ))
Аноним 20/02/26 Птн 22:07:20 1528500 198
Аноним 20/02/26 Птн 22:16:12 1528517 199
2026-02-20221312.png 65Кб, 1180x697
1180x697
>>1528371
Ткнул прям твой набор параметров, в итоге имеем одно и то же. Мой набор с q4 чуть быстрее, но в целом все это не шибко быстрее работы на цп. Взял как есть параметры от 4070, >>1528212
получил ~как у тебя, добавил контекста и перф опять в гавне. Толку нихуя от 8гб врам, короче.
Аноним 20/02/26 Птн 22:32:37 1528540 200
123.png 45Кб, 689x453
689x453
Ананасы, всех приветствую. Что можно потыкать интересного на такой спеке??? Чтобы и кумить можно было нормально и проги писать могла. память ddr4 3200
Аноним 20/02/26 Птн 22:40:45 1528545 201
>>1528540

Пробуй мистраль лардж 120В и его тьюны типа магнума. Немотрон можешь потыкать и ламу 3.3 70В. Ну и аир кванте на пятом.
Оперативки у тебя маловато, еще бы 64 гб и крутил был глм 4.7 и квен 3.5 в третьем кванте.
Аноним 20/02/26 Птн 22:47:07 1528550 202
Снимок экрана 2[...].png 50Кб, 445x651
445x651
>>1528422
>пиктелейд
уфф, теперь у меня свой браузер без анальных корпоративных зондов с встроенными ии агентами и возможность расширения с подключением локальных моделей и сука с ПРОСТРАНСТВАМИ как в аи браузере комет + хештегирование сквозное сквозь пространства
Аноним 20/02/26 Птн 22:52:44 1528553 203
изображение.png 51Кб, 727x419
727x419
>>1528517
> добавил контекста и перф опять в гавне
А, я знаю. Виндоус прозрачно для программы может выдать ram-память за cuda-память. То есть лама полностью убеждена что она дёргает куду, а на деле там винда и её драйвер делают кучу пересылов туда-обратно. Скриншот смотри.

МоЕ считает так:
При промт-процессинге она скидывает слой на карту, считает как меняются активации, скидывает следующий слой. Потому увеличения батча увеличивает скорость pp линейно до некоторого размера. Типа, на 1024 у тебя там 500мс пересылка слоя и 50мс компут. При 2048 500мс и 200мс, и пока компут не будет занимать значимую часть времени - увеличение батча почти линейно ускоряет pp.
А вот при генерации тебе надо один токен рассчитать. Потому насколько это возможно первые 3-5 слоёв (в конфиге как у меня) оно считает на карте - а далее передаёт активации на процессор и всё остальное считается только на процессоре, так как скидывать все слои на карту чтобы посчитать один токен - это супер медленно.

Из этого получается, что если лама знает что слой в обычной ram, то она корректно с этим работает. А если лама думает что память в vram, а на деле она в ram, то вот то что я описал что происходит при промт-процессинге, вот это же начинает происходить при генерации, и у тебя половина модели заново на карту загружаются при генерации каждого токена. Отсюда и скорость в 0.25. Модель как раз несколько секунд загружается на карту. Ну, часть её.
Нужен явный запрет на такое, чтобы если тензор не влезает во vram, то оно просто с ошибкой падает. А у тебя на падает, у тебя драйвер обманывает ламу.
Аноним 20/02/26 Птн 22:56:27 1528555 204
>>1528545
Да, с оперативкой затык, мать и проц больше не держат...

>мистраль лардж 120В
А он влезет?
Аноним 20/02/26 Птн 22:58:13 1528558 205
Я тут спрашивал в прошлом треде, как подключить openclaw к локальному квену. Всё оказалось до смешного ТУПО и просто. Нужно было открыть логи и увидеть, что по дефолту на кастомные модели ставится 4к контекст, в который очевидно не лезет минимальный промт на 12к от openclaw. Ллама молча отпинывала его, а он продолжал ждать. Поменял настройки контекста, рестартнул гейтвей и всё полетело.
Аноним 20/02/26 Птн 23:02:36 1528561 206
>>1528540
Эйр, солар, лоботомиты квена 235, степа и минимакса.
>>1528545
> мистраль лардж 120В и его тьюны типа магнума
Было бы у него хотябы 64 гига врама то да, а так очень медленно получится.
>>1528553
> пока компут не будет занимать значимую часть времени
При всех камнях в огород, в жоре возможна асинхронная подгрузка. С определенного размера прирост станет незначительным и видеокарта будет загружена на полную.
> и всё остальное считается только на процессоре
В норме только линейные, если там еще атеншн то будет тормознуто.
> что происходит при промт-процессинге, вот это же начинает происходить при генерации
Вообще не это. При процессинге идет организованный и оптимизированный стриминг весов на карточку, в заготовленный буфер, все быстро насколько возможно. А при выгрузке драйвером в рам выкидываются одному хуангу известные участки и все капитально стопорится.
Но причина замедления обозначена верно, все именно из-за переполнения врам и драйвера.
Аноним 20/02/26 Птн 23:02:57 1528562 207
>>1528558
> рестартнул гейтвей
Что это?
Аноним 20/02/26 Птн 23:04:12 1528565 208
>>1528562
Обычная команда для openclaw:
openclaw gateway restart
Аноним 20/02/26 Птн 23:45:06 1528607 209
>>1528550
осталось прикрутить к нему tor, адблок костыли, амнезию премиум и выдохнуть
Аноним 20/02/26 Птн 23:53:08 1528623 210
>>1528607
Ежели что, я параллельно веду дорожную карту для других анонов, могу попозжа поделиться как дошлифую

# Дорожная карта: воспроизведение AI Browser прототипа

Документ для другого ИИ или разработчика: как с нуля воссоздать такой же программный продукт (локальный AI-браузер на Windows с пространствами, чатом, закладками, полностраничным скриншотом).

---

## 1. Цель продукта

- Что это: десктопное приложение (Windows 11) — «AI-браузер» с изолированными рабочими пространствами, вкладками, webview на Chromium, чатом с ИИ (Gemini, Claude, DeepSeek), автопереводом запросов, закладками с тегами и полностраничным скриншотом.
- Стек: Electron (main + preload) + Vite + React + TypeScript; SQLite (better-sqlite3); ключи в Electron safeStorage.
- Особенности: центральная зона браузера может работать без выбранного пространства (глобальные вкладки); страницу можно «добавить в пространство» с тегами; скриншот всей страницы через CDP или скролл+склейка.

---

## 2. Пошаговая дорожная карта
....
....
197 строк промпта

Может потом что посоветуете что докрутить и чего прикрутить допами
Аноним 20/02/26 Птн 23:55:25 1528629 211
>>1528561
>В норме только линейные, есл
Ну, это не суть важно. Речь о том, что слои на карточке - считаются на карточки, а слои на процессоре - считаются на процессоре, и из-за одного токена перебрасывать слои очень медленно и неэффективно, и перекидывать стоит только активации.
А линейные там, или как я обозначил очень грубо "3-5 слоёв", это уже можно по логам смотреть, сути не меняет.
>Вообще не это.
Так я же про генерацию. Тезис в том, что стриминг весов начинается при генерации, у него же при генерации 0.25/s, а не при процессинге. При процессинге всё более менее окей, ну упала с 300 до 50, но не с 15 до 0.35 же.

Я просто скучаю, и решил на ночь написать что-то ещё, уточнить что я имел ввиду зачем-то. Хорошая фраза про организованный стриминг.
Аноним 21/02/26 Суб 00:23:53 1528677 212
>>1528306
Не лучше, чем та же синтия, где-то и хуже.
Аноним 21/02/26 Суб 00:26:34 1528681 213
>>1528306
>следующий эир
Проорал
Аноним 21/02/26 Суб 01:16:32 1528710 214
image.png 340Кб, 707x1155
707x1155
Хуета какая то получается
Аноним 21/02/26 Суб 01:43:04 1528739 215
ncpu42.png 5Кб, 806x61
806x61
ncpu44.png 5Кб, 804x62
804x62
ncpu45.png 7Кб, 805x79
805x79
2026-02-21005216.png 34Кб, 1077x827
1077x827
>>1528553
Ебить-колотить, нижайший поклон! Я конечно подозревал что что-то может быть не так, но никак не ожидал что это будет нож в псину. Даже искал спецом разговоры о нищегонках, фигу где писали про такой подъеб.
Прогнал с n-cpu-moe 42,44,45 с контекстом 100к, оказалось что лучше меньше слоев закинуть чем напихать под завязку - видимо, даже в такой ситуации оффлоад все еще присутствует. ~15 минут это, конечно, не 5, но и не полтора нахуй часа да и те фиксанулись на таймауте ответа лламы кек.
И за пояснение спасибо, стало куда понятней ну, с батчингом уж сам разберусь как дерьмо работает.
Полпроблемы решилось, но тг на цп это все еще медленно пиздос. И теперь хз, я тут еще 2080ти 22гб в районе 35 рублей рассматриваю в качестве возможного варианта - половина модели в нее влезет, а вторая половина один хуй на цп крутиться будет. Итого не 13 условно минут на составление портянки, а 7-8. Вроде бы получше, а вроде и херня херней, потому что платформу менять я уже не буду. 3090 минимальная в моем задрищенске стоит 70+, а средняя цена по авите - 80-90 рублей, ахуй, а разницы 2 жижабайта и FA. Ни FP8 ни FP4 нативных, бля...
Аноним 21/02/26 Суб 02:00:57 1528753 216
>>1528629
Ну анонче, не ленись быть внимательнее. А то ньюфаги потом смотрят на это и очень неверные выводы делают.
>>1528710
Внутри пустой объем, зато эта башня сверху, внутри и размещай, все влезает. Если нет строгих требований по габаритам (на что намекает эта конструкция) - увеличь ширину чтобы было легче размещать.
Что за странные блоки на углах, для вслота есть няшные внутренние уголки на али/озоне занидорого.
Аноним 21/02/26 Суб 02:13:11 1528760 217
>>1528753
> Если нет строгих требований по габаритам
Есть по ширине и глубине, а вот в высоту можно хоть сколько настраивать. Ширину пришлось бы сильно раздувать (в начале был такой план, но вылет за лимиты)
Собрать эту хреновину я конечно попробую, но уже находят мысли о "невозвратных потерях"
Аноним 21/02/26 Суб 02:30:16 1528771 218
>>1528710
А ты мудянку на процы не хочешь кинуть?
Я бы вывернул мать и разместил БП над ее пустующим куском, и над ней воткнул кипятильники.
Аноним 21/02/26 Суб 02:47:35 1528777 219
>>1528771
Там прикол что райзера много места занимают (и другие псие карточки) + нужно давать большие радиусы на изгиб mcio кабелей коих 8 шт что бы все 4 карточки по х16 завести в мать. Блоков питания нужно два киловаттных серверника на 4 карточки и один атх киловатт на саму платформу. Самая простая 360 вода на дуал 4189 (600ватт с пары процов) будет стоить около 20к если с тао тащить, да и сам я воду недолюбливаю.
Немного оптимизаций сделаю и скорее всего ширину срежу ещё на +- 4см.
Всё было бы кратно проще если бы был в продаже корпус с "перевёрнутой" SSI материнкой
Аноним 21/02/26 Суб 02:48:26 1528778 220
изображение.png 131Кб, 552x509
552x509
изображение.png 178Кб, 381x550
381x550
>>1528255
Только выйграл!
Да ещё и сейфити регулируется, мечта анона. Выкрути на минимум.
Аноним 21/02/26 Суб 04:13:16 1528804 221
>>1526027 (OP)
Внимание, вопрос.
На hf много моделей transformer, их только через пистон предполагается запускать. Почему ллм-клиенты не вставляют какой-нибудь vLLM бэкенд чтобы их крутить?
Аноним 21/02/26 Суб 04:29:57 1528808 222
Аноним 21/02/26 Суб 05:32:38 1528818 223
>>1528808
Позволь, я продолжу.
>>1528804
Чтобы что? Сейчас квантюзаторы типа мрадермахера квантуют каждый чих любой ноунейм-модели от ноунейма, которую никто за год не скачает, - просто потому что хотят и могут.
Тебе лосси Q_8 не нравится? Боишься, что модель накосячит, точку не там поставит? Она и без квантизации лажанет.
Аноним 21/02/26 Суб 06:37:07 1528826 224
>>1526027 (OP)
Анон, подскажи, насколько зацензурены модели из списка в шапке треда? я хочу запустить openclaw с какой нибудь лмм моделью. Но не могу понять, какие анальные ограничения на запросы есть в локальных лмм. Помоги, плиз.
Аноним 21/02/26 Суб 06:46:14 1528828 225
В чем может быть причина что квен397 обрывает генерацию на середине? Вот просто берет и останавливается как мразь на середине слова в середине предложения.
Аноним 21/02/26 Суб 07:25:02 1528842 226
>>1528828
нехватка контекста?
Аноним 21/02/26 Суб 07:40:02 1528845 227
>>1528842
Дело точно не в этом. Токенов на генерацию выделено 2000 - но он рандомно прерывает на 700, на 1400, на 1700 - где ему в голову взбредет.
Аноним 21/02/26 Суб 08:41:28 1528853 228
>>1528845
Квант сломан.
Жора сломан.
Темплейт сломан.
Ты запускаешь 0,001 бит на вес лоботомит.
Аноним 21/02/26 Суб 09:13:28 1528860 229
step-flash сколько весит 1024 токенов кеша в fp16?
Как оно вообще, с третьим квантом дружит или слишком мелкое для третьего?

>>1528739
Кстати ещё погляди на reap-версию. На 23B. Там из MoE удалили некоторые E, и вроде как ориентировались на кодинг. Если тебе не комментарии писать на русском, а что-то там рефакторить - я бы попробовал.
Аноним 21/02/26 Суб 09:42:16 1528868 230
>>1528808
>>1528818
А тебя это ебать не должно.
Чтобы было.
Спрос будет, юзкейсов много, своя аудитория найдется. Как минимум для тестов и замеров производительности. Пока сравнение не провели, нельзя категорично рассказывать про точки и запятые.
Аноним 21/02/26 Суб 09:50:56 1528873 231
>>1528853
>Квант сломан.
Возможно. От анслота можно ожидать.
>Жора сломан
Ну это само собой. Но этого бага я в ишьюсах у жоры не видел.
>Темплейт сломан
А чего ему ломаться, chatml-то?
>Ты запускаешь 0,001 бит на вес лоботомит.
Да, запускаю 2.77 bpw, вряд ли дело в этом.
Аноним 21/02/26 Суб 10:01:50 1528879 232
>>1528868
>Пока сравнение не провели
То есть ты предлагаешь людям сделать фичу просто так чтобы было, чтобы провести сравнение? Лол. Ну форкни и сделай.

Различные тесты уже показали, что в llm ответы Q_8 практически неотличимы от оригинала в плане точности.
Аноним 21/02/26 Суб 10:06:03 1528880 233
>>1528868
Хочешь прикол? В ггуф можно и bf16 загнать. Оривагинальные трансформеры с их россыпью файлов и исполняемыми скриптами с вирусами нахуй не нужны.
>>1528873
>Но этого бага я в ишьюсах у жоры не видел.
Гитхаб не может вместить все баги жоры, потому что баги жоры бесконечны.
Аноним 21/02/26 Суб 10:17:47 1528887 234
>>1528879
Несите тесты.
>>1528880
Да какие там вирусы будут на площадке.
Аноним 21/02/26 Суб 10:27:00 1528897 235
Мы получается ничего уже не ждём?
Геммы до гроба можно ждать о всё остальное уже вышло
Аноним 21/02/26 Суб 10:31:30 1528900 236
Запустил Qwen3-Coder-Next-UD-Q6_K_XL в llama. 12gb VRAM с выгрузкой аттеншн слоев. Прицепил его к Kilokode агенту в IDE( это форк Cline). Вроде справляется с проектом средней сложности, анализ и аудит на уровне.
Но! Каждый запрос в чат это пауза длиной в 30-50 секунд! Это очень долго и работать практически нереально с таким ожиданием, то есть как будто ризонинг (но его там нет). В чем дело? В чате ламы сервера все мгновенно, а агент - жопа полная. Мне будто лучше гпт апи подключить чем ждать все это, хотя не хотелось бы
Аноним 21/02/26 Суб 10:35:25 1528904 237
>>1528900
Может агент как-то менят промпт в начале, ломая кеш?
Аноним 21/02/26 Суб 10:41:04 1528908 238
>>1528887
>Да какие там вирусы будут на площадке.
Вредоносные.
Аноним 21/02/26 Суб 11:08:51 1528924 239
>>1528879
Ну так шо, где тесты. Ты так уверенно о них рассказывал, наверняка не просто видел, но и на собственном опыте убедился.
Аноним 21/02/26 Суб 12:20:52 1528980 240
>>1528924
>>1528887
А я не должен тебе их искать. У тебя есть гугл, гугл ассистент, клоды и прочее.
Я вообще не горю желанием чего-то кому-то доказывать в интернетах. Проблема-то в тебе. Тебе надо - ты и ищи.
Аноним 21/02/26 Суб 13:13:51 1529033 241
>>1528873
>А чего ему ломаться, chatml-то?
--jinja используешь?
Аноним 21/02/26 Суб 15:21:08 1529126 242
>>1528760
Хм, ну если судить по компоновке, в текущем виде главным препятствием для размещения карточек внутри являются половинки райзеров что стоят в pcie слоты, верно? Так почему бы не повернуть плату чтобы выпезднуть их подальше, тогда можно будет разместить внутри сразу без увеличения ширины. Ну может высоту немного поднять и все. Какие сейчас получаются габариты?
>>1528826
Модели с открытыми весами, как правило, имеют минимальную цензуру, плюс она зависит от инструкций к которым у тебя полный доступ.
То есть если в системном промпте стоит "ты безопасный ассистент, следи за безопасностью ответов" то модель будет рефьюзить, а если наоборот - с радостью отыграет твой смут с милфой-соседкой даже в режиме ассистента.
>>1528828
Таблы с инфиренсом и поломанный квант, там уже несколько итераций перезалили.
А так подобное поведение наблюдалось только в инперсонейте, когда модель крайне неохотно писала юзер-часть, часто выдавай bos.
>>1528804
>>1528868
Что за шиза? Vllm, sglang, даже эксллама могут крутить модели в оригинальных весах. В gguf можно упаковать оригинальные веса без квантования, и они точно также будут работать.
Аноним 21/02/26 Суб 15:31:14 1529131 243
>>1528873
> запускаю 2.77 bpw
> вряд ли дело в этом
Действительно врядли, в чем же дело интересно.
>>1528880
> с их россыпью файлов
Васяном, скачивающий модели через браузер, попахивает. Забавно что борясь за "единый файл" в итоге все равно пришли к их шардингу и подкидыванию внешних темплейтов.
> исполняемыми скриптами с вирусами
Вот и имеем 80% ггуфов с мусором вместо нужных конфигов и постоянно неработоспособные или костыльные туллколлы.
> Гитхаб не может вместить все баги жоры, потому что баги жоры бесконечны.
Чтож ты делаешь, содомит!
>>1528900
Глянь что там пишет в консоли во время работы и присылай сюда. Скорее всего каждый раз много контекста пересчитывается.
Аноним 21/02/26 Суб 15:43:23 1529148 244
>>1529126
>А так подобное поведение наблюдалось только в инперсонейте, когда модель крайне неохотно писала юзер-часть, часто выдавай bos.
Сначала везде пишут "нельзя писать за юзера", потом это впитывается самой моделью (у меня в ризонинге модель выдавала этот запрет, хотя в промпте такого не было), а потом удивляются внезапным EOS.
>>1529131
>Васяном, скачивающий модели через браузер, попахивает.
Да, мне проще в браузере ткнуть скачать, нежели чем с сонсолью ебаться.
>Забавно что борясь за "единый файл" в итоге все равно пришли к их шардингу и подкидыванию внешних темплейтов.
Разбитие на несколько файлов идёт из-за хайгитлерфейса, там лимит на размер для бесплатных аккаунтов.
>Вот и имеем 80% ггуфов с мусором вместо нужных конфигов и постоянно неработоспособные или костыльные туллколлы.
Как будто жора не смог бы сломать инференс оригинальных сейфтензоров, лол.
Аноним 21/02/26 Суб 15:57:28 1529166 245
Какой на данный момент самый лучший 100% квант Glm air 4.5? Вот чтобы прям не думать и пойти на обниморде забрать сразу
Аноним 21/02/26 Суб 16:00:13 1529168 246
>>1529166
C Q4_K_XL от ленивцев каких-то проблем не замечено. Возможно и остальные кванты от них тоже нормальные.
Аноним 21/02/26 Суб 16:44:07 1529205 247
>>1529148
> Сначала везде пишут "нельзя писать за юзера"
По разметке там пост юзера, ничего не нарушается.
> проще в браузере ткнуть скачать
Для одного файла может быть, но для нескольких это пиздец.
> Разбитие на несколько файлов
Это путь адеквата, а гигантские файлы на сотни гигов для распространения - мрак. Спасибо хоть обниморда заставляет совсем уж не наглеть, дело не в бесплатных а лимит git lfs.
> Как будто жора не смог бы сломать инференс оригинальных сейфтензоров, лол.
Да причем тут поломка.
Изначально сама задумка замечательная, но во времена создания врядли догадывались что появятся столь крупные модели, много важных дополнительных компонентов для которых нужно предусмотреть место и неплохо бы иметь возможность редактирования, а большинство квантующих будут забивать хуй на правильную упаковку всего. Вот и выходит что в текущих реалиях на моделях покрупнее ггуф подрастерял изначальные преимущества, чтобы так говорить про "плохую россыпь файлов".
А те самые "вирусы" были бы очень полезны вместо текущего цирка. Но для их внедрения и прочего нужно целиком концепцию менять, разделяя все на высокопроизводительный и железо-ориентированный экстеншн + пихон для крупных абстракций и простых операций. Это точно вразрез с виденьем авторов, так что будут только запоздалые адаптации.
Аноним 21/02/26 Суб 16:52:32 1529218 248
>>1529205
>а гигантские файлы на сотни гигов для распространения - мрак
В чём проблема? Наоборот проще и удобнее.
>и неплохо бы иметь возможность редактирования
ИЧСХ, она есть.
Аноним 21/02/26 Суб 17:11:12 1529239 249
Аноним 21/02/26 Суб 17:15:45 1529244 250
>>1529126
>а если наоборот - с радостью отыграет твой смут с милфой-соседкой даже в режиме ассистента
Забавно, что у меня в таверне в темплейте по умолчанию был какой-то инжект про расцензуривание и модель через один ответ всирала ризонинг на то, чтобы напомнить себе, что не надо слушать хитрожопого юзера, пытающегося инжектами снять цензуру, а надо stick to the safety policies. И это в абсолютли сфв рп без каких-либо непотребств. Убрал эту строчку и модель угомонилась, стала ризонить по делу.
Аноним 21/02/26 Суб 17:35:46 1529264 251
photo2026-02-21[...].jpg 515Кб, 1846x2560
1846x2560
2026-02-21172644.png 39Кб, 582x521
582x521
2026-02-21172733.png 101Кб, 970x616
970x616
177167230213803[...].png 730Кб, 1079x607
1079x607
>>1528739
В процессе думания вспомнил о бесхозной p104 на 8gb, решил попробовать заюзать ее для ускорения тг, прикалхозив через х1 ризер. Ну и на текущей стадии соснул, даже клод не помогает - думает, что слои не дрочатся вперед-назад, по итогу тг один хуй делает проц, а р104 срет основной картонке в штаны на промпт процессинге.
Аноним 21/02/26 Суб 17:52:11 1529279 252
>>1529264
>p104 на 8gb
Подари детям во дворе, которые шумят и которых ты ненавидишь за это. И отомстишь, и на улице они появляться не будут, так как будут ебаться с этим хламом.
Аноним 21/02/26 Суб 17:55:10 1529282 253
вот это самая вкусняшечка)))

## 2.9. Голосовой ввод и озвучка

Использовать готовые проверенные решения с GitHub (Web Speech API, TTS-библиотеки и т.п.), не изобретать велосипед.

| # | Задача | Приоритет | Заметки |
|---|--------|-----------|---------|
| 2.9.1 | Голосовой ввод в поиск браузера | средний | Поисковая строка: кнопка микрофона → распознавание речи → подстановка текста в поле. Поисковый движок по умолчанию: https://duckduckgo.com/ |
| 2.9.2 | Голосовой ввод в чат с ИИ-агентами | средний | Кнопка микрофона в окне чата → распознавание речи → текст в поле ввода сообщения |
| 2.9.3 | Озвучка ответов ИИ (TTS) | средний | В окне чата кнопка «Общение голосом»: включение/выключение озвучки голосом текста ответа ассистента (TTS). Включено — ответы ИИ воспроизводятся голосом |

как думаете, в курсоре или в клауде реализовать технически более грамотно получится?
думаю в чем акк на след месяц покупать

>>1529279
двачую
Аноним 21/02/26 Суб 17:58:49 1529289 254
>>1529218
> проще и удобнее
Совсем не читал? В некоторых случаях это действительно удобнее офк.
Не так давно тут были жалобы на то, что тупые бухгалтеры и начальник не хотят оптимизировать документооборот, им удобнее мезозойские технологии с кучей неудобств и сопутствующих расходов в их масштабах. Прямо оно.
Можно вспомнить драму вокруг pr, который позволял в жоре делать прямую загрузку модели в стандартном формате.
> она есть
Конечно есть, но это полная перепаковка, или огромное полотно параметров запуска для оверрайда. Парсеры, форматеры и прочее невозможны в принципе и требуют хардкода внутри софта под каждую модель.
Не забывай что обсуждение начиналось в целом с радикального преимущества одного над другим, а не просто про возможности.
>>1529264
> Ну и на текущей стадии соснул
Это что за модель? В любом случае не требуй от них слишком многого, слишком сложная задача понять что происходит даже когда код будет в контексте. Это вам не компиляторы писать, лол.
Просто выкинуть на p104 исключительно ffn и вообще ничего больше не пробовал? Может там х1 не будет так гадить.
Аноним 21/02/26 Суб 18:39:11 1529345 255
2026-02-21183434.png 101Кб, 908x589
908x589
>>1529289
>Это что за модель?
Флешка.
>Просто выкинуть на p104 исключительно ffn и вообще ничего больше не пробовал? Может там х1 не будет так гадить.
Покамест сорта немытых пенисов. Клод вон уже что предлагает, но я чувствую, что смысла нет а оверхед будет.
Аноним 21/02/26 Суб 19:14:20 1529390 256
>>1529345
> Флешка.
Я про советы с 3-го скрина. Если она то хватит обижать маленьких, а если там клодыня то ей должно быть стыдно.
Ставь -ts 1,0 чтобы все по умолчанию было на первой карте и в -ot регэксп с пика, только вместо attn ffn.exps(). Нужно именно mlp а не атеншн туда выкидывать.
Аноним 21/02/26 Суб 19:44:03 1529422 257
image.png 39Кб, 2378x331
2378x331
>>1529126
>Таблы с инфиренсом и поломанный квант, там уже несколько итераций перезалили.
Да вроде анслот как один раз залил так и всё.
Аноним 21/02/26 Суб 19:53:11 1529431 258
>>1529033
Нахер он нужен если я в Text completion работаю? До, по факту qwen397 это VL модель и можно её и в Chat completion запускать, но у жоры там сейчас её мультимедийка сломана, так что никакого смысла нет это делать.
Аноним 21/02/26 Суб 20:25:46 1529451 259
Попробовал снова Эир, а то больно бигглм тяжёлый. Мозгов, как и в прошлый раз, не шибко много наблюдается, но в принципе как со-автор сойдёт, инструкциям следует неплохо. Но это буквально надо промптить каждый пук и чих.
Вопрос по нему следующий. У кого-нибудь было, что он через несколько сообщений сразу начинает срать ответом прямо в ризонинг <think></think>? Там надо как с мистралью форматировать всю предысторию диалога в один блок или что? Как там его правильно промптить? Template выбрал глм-овский для 4 (других в списке не было), фронтом выступает таверна.
Аноним 21/02/26 Суб 20:30:37 1529454 260
2026-02-21202340.png 52Кб, 373x357
373x357
2026-02-21202818.png 3Кб, 431x131
431x131
2026-02-21202830.png 10Кб, 228x490
228x490
>>1529390
Куклод это, да. Покрутил и так и сяк, получил чет похожее на 0.75 от скорости с 1 гпу. Надо садиться раскуривать что за что отвечает.
Аноним 21/02/26 Суб 20:46:42 1529474 261
>>1529454
>получил чет похожее на 0.75 от скорости с 1 гпу
Флеш с картой на 8 гб? Ну тут всё просто.

Без гпу - 32 гб в ram, обсчёт 320 мс.
С гпу на 8 гб - 24 в ram, обсчёт 240 мс, 8 на карточке, обсчёт 4 мс.
244/320 = 0.76
Это я так шучу.
Аноним 21/02/26 Суб 21:03:17 1529499 262
>>1529451
>У кого-нибудь было, что он через несколько сообщений сразу начинает срать ответом прямо в ризонинг <think></think>?
Было, но не с аиром, а с глм 4.7. Вообще есть подозрение что на текст комплешн забили болт в жоре и он с каждым апдейтом все хуже работает. Переходи на чат комплешн.
Аноним 21/02/26 Суб 21:04:59 1529503 263
>>1529454
> attn.*=CPU
И на что ты вообще рассчитывал? Видимо понять что одни слои можно скидывать на проц и некроту без импакта от низкого компьюта а другие нельзя - слишком сложно. В каждом треде по несколько раз это говорится, но и этого недостаточно.
Аноним 21/02/26 Суб 21:16:25 1529520 264
>>1529503
Ох уж этот старческий тредовичковый бухтеж. У вас каждый тред новые ньюфаги, и сомневаюсь что каждый первый из них собирает хтонь из норм карты и подножного корма в довесок, а потом раскуривает как это дерьмо вообще должно работать.
Аноним 21/02/26 Суб 21:19:26 1529524 265
Приобретение обнимордой жоры уже обсудили?
Аноним 21/02/26 Суб 21:24:30 1529529 266
>>1529033
>>1528845

Короче, проблема решилась переходом в chat completion с --jinja и c отключением синкинга через
chat_template_kwargs:
enable_thinking: false
Похоже text completion и правда пора хоронить и начаинать привыкать к альтернативной логике chat completion.
Аноним 21/02/26 Суб 22:27:57 1529583 267
Приветствую, господа, давно не был тут!

Кто разбирается, знатоки еще в треде?

Заказывал себе OCuLink док-станцию, и помимо Minisforum DEG1 классической, заказал еще и эту: https://www.ozon.ru/product/dok-stantsiya-dlya-graficheskogo-protsessora-f9g-bk7-egpu-oculink-adapter-m-2-oculink-to-pcie-x16-1835724801/

Только потом увидел, что она m2.

Дорого ли это (2600)? Стоит ли ее забирать или отказаться, чтобы деньги вернули? Или оставить на всякий случай, модель хорошая? Она еще не пришла, DEG1 уже стоит (правда мини-ПК еще в дороге=).
Аноним 21/02/26 Суб 22:35:29 1529593 268
изображение.png 103Кб, 1029x338
1029x338
>>1529583
>Только потом увидел, что она m2.
А где ты там м2 увидел? По ссылке нет никакого М2.
2600 дорого, я по отдельности в 1800 укладывался, но у меня версия с питанием по сата, и надо немного сверлить самому.
Аноним 21/02/26 Суб 23:04:13 1529626 269
>>1529529
Тут та же история, что с автоматической коробкой в машинах. :) TС как и ручные коробки будут вымирать, СС банально проще заводится, без ручной еботни с шаблонами. И даже между моделями переключаться удобнее - не забудешь шаблон сменить.
Аноним 21/02/26 Суб 23:19:37 1529649 270
>>1529529
У меня была строго обратная эволюция, так как шаблоны часто ломают формат инструментов, или ограничивают их.
Аноним 21/02/26 Суб 23:23:05 1529654 271
>>1529649
>так как шаблоны часто ломают формат инструментов, или ограничивают их.
Ну тут все от этих самых шаблонов зависит, насколько жора их прописал. С тулзами вообще боль, судя по обсужденям и ишьюсам в жоре, хорошо что я их не использую.
Аноним 22/02/26 Вск 00:04:25 1529685 272
>>1529529
Лишний bos токен в начале и/или неверные переносы в разметке, 95%.
>>1529626
Совсем бредовая аналогия.
Уместнее (полноценное управление тягой-тормозом-рулем) против (целевая скорость адаптивного круиза с удержанием + поворотник для намерения автоперестроения). Любой адекват будет использовать их вместе по ситуации.
>>1529654
Увы. Просится собрать весь наработанный колхоз и сделать прокси с полноценным и правильным парсингом с одной стороны и прямым обращением к тексткомплишну с другой.
Аноним 22/02/26 Вск 00:05:27 1529686 273
>>1529593
А, точно, моя же чисто док-станция, M2 в названии, лол.
Все, понял.
Разобрался, спасибо за скрины. =)

Пожалуй, оставлю, хай лежит. Только кабель останется докупить.
Как я понимаю — кабель можно брать любой, в т.ч. OCuLink-OCuLink, дп?
Аноним 22/02/26 Вск 00:19:43 1529690 274
изображение.png 52Кб, 1528x415
1528x415
>>1529686
>Как я понимаю — кабель можно брать любой, в т.ч. OCuLink-OCuLink, дп?
Не понял, что за дп, но кабель да, OCuLink-OCuLink. Остальное на свой страх и риск.
Аноним 22/02/26 Вск 00:19:59 1529691 275
котик устал.png 257Кб, 604x433
604x433
Посоны, кто-нибудь уже пробовал GLM-5 и Qwen3.5 в генерации художки\ролеплея? Как они вам? Чем лучше сейчас генерировать охуительные истории?

И еще, может кто-то пробовал проприетарные Gemini 3 Pro и Flash? Так-то Pro версия делает довольно убедительные затравки для историй, но она пздц дорогая, хрен запустишь что-то серьёзное на многатокенов. А Flash вроде можно заюзать, но хз что она из себя представляет в плане художки, какие там ограничения.
Аноним 22/02/26 Вск 00:31:56 1529698 276
>>1529691
Ебут, хорошие модели. Жлм5 приятен, меньше тупняка с прошлой версии, соображает хорошо, но он больше стал походить на прошлого квена письмом. 3.5 пока непонятно, иногда идеальное попадание с критическим успехом, иногда наоборот фейлы не туда, скорее ситуативно но в целом прилично. Оба хорошо держат контекст.
> Gemini 3 Pro и Flash
По причине соевости и логов для собственного рп идут лесом, за них лучше в аицг спрашивай. Кодят хорошо. Если будешь использовать что-то не свое, не забывай, что функционал гугла позволяет легчайше настраивать логи всех запросов по конкретному ключу. При маскировке под кодасист, где большие лимиты, логи ведет уже сам гугл.
Аноним 22/02/26 Вск 00:36:36 1529702 277
А лама при конвертации и квантовании модель требует всю модель загружать?
Я просто как-то опрометчиво начал степ-флеш загружать на 400 гб.
В 4 или 6 кванте я его запущу, но если ему на стадии квантования надо будет 400 гб, у меня нет столько ram. Как с этим дела обстоят?
По идее он конвертится-квантуется без калибровочных данных, то если он может по слоям загружать модель, данные он не прогоняет, верно?
Аноним 22/02/26 Вск 00:49:24 1529719 278
Аноним 22/02/26 Вск 01:05:56 1529728 279
2026-02-22010400.png 31Кб, 846x469
846x469
2026-02-22010414.png 30Кб, 598x750
598x750
>>1529454
Даже квантованный в 4бита пиздюк говорит что эту рухлядь пора отнести на помойку. Ну или проюзать под мелкосетку, которая влезет вместе с контекстом.
Аноним 22/02/26 Вск 01:09:17 1529733 280
image2026-02-22[...].png 259Кб, 2540x1349
2540x1349
>>1529728
Да, вдруг кому понадобится для примерного представления не факт что оно так есть, но тут уже только самому в исходники нырять.
Аноним 22/02/26 Вск 02:23:59 1529795 281
>>1529691
>Qwen3.5 в генерации художки\ролеплея
Стал больше походить на ГЛМ-4.7, но без его ума. Новый ГЛМ попробовать не могу, но прошлый пока больше нового Квена нравится.
Аноним 22/02/26 Вск 04:36:31 1529876 282
shoot.webm 1280Кб, 720x1280, 00:00:20
720x1280
55556.png 81Кб, 1188x202
1188x202
>>1529733
Братан, если бы ты читал тред, а не лил высеры лоботомитов, то видел бы, что я несколько раз писал, что если хочешь нормально разбивать, тебе нужно курить граф вычислений. Зачем тебе эта диаграмма, ты студент что ли, напишешь мне курсовую? Я прихожу в тред за новыми моделями, чтобы их нормально поразбивать. держит за плащом GGML_SCHED_DEBUG=2, имитируя автомат, другая рука сжимает -v

Ладно, это были полушутки, потому что тебе все равно это не поможет, потому что х1. Ну типо, я вот сегодня подрочился, чтобы сделать красивый граф с минимум пересылов, выгрузив весь аттеншен на мощную карту. Так все равно пересылы засрали все. По крайней мере пп, надо еще тг померить. Либо ты подключаешь ее на хорошую линию и пытаешься сделать красивый граф с вычислением аттеншена на основной карте, да еще тем инструментарием, что сейчас есть в лламе (потому что на пикриле самописные вещи), либо просто выгружаешь туда слои как обычно и она может быть быстрее, чем перегонка слоев на карту во время пп и вычисление цпу во время тг. Если она не быстрее и подключение у тебя х1 - то пока что выглядит как оварида, по крайней мере все мои попытки по перебросу аттеншена на х1 не увенчались успехом.
Аноним 22/02/26 Вск 06:00:55 1529888 283
>>1529702
Насколько я помню, нужна рам на всю модель, либо хотя бы своп. Но это не точно, лучше проверяй сам. А от треда никаких полезных ответов за пределами дефолтных нубовопросов не жди.
Аноним 22/02/26 Вск 08:32:23 1529905 284
всё?
Аноним 22/02/26 Вск 09:26:26 1529910 285
>>1529905
оварида

Пора уже добавлять картинку в шапку, вместо "50 первых поцелуев", т.к. у ллм уже давно больше 2-4к контекста.
Аноним 22/02/26 Вск 10:20:10 1529936 286
2026-02-22100412.png 19Кб, 1023x337
1023x337
>>1529876
Анонче, прежде чем читать тред, нужно знать с чего начинать. Но когда тредов 200 штук х 500 постов, из которых 80% это общий треп с мерками пиструнов и обсуждением моделей под рп, а в шапке из подходящих ссылок только "ну вы там скиньте на цп тензоры пожирнее, шобу на гп побольше маленьких влезло" без разбора что за что отвечает, за чем идет и что из этого реально стоит скинуть а что оставить поближе к kv-кэшу, рука невольно сама тянется пнуть ручной составитель грепов для анализа кода.
>Либо ты подключаешь ее на хорошую линию и пытаешься сделать красивый граф
Да это кал майнерский с х4 интерфейсом первого поколения, который в лучшем случае сможет 800мб/сек выдать с нвлинком может и поболе даст, но для этого надо нормальную 1080 в пару подключать, но х4 слоты у меня все заняты поэтому 200мб/сек на все про все. С такой щелкой для обмена нужно иметь примерное понимание, какой скоуп тензоров является активной числодробилкой при очень малом обмене данными. О построении графа я тоже думал, но пока что не дошел до кондиции, да и не так уж эта карта важна - я просто пытаюсь пощупать возможный буст без выкладывания сразу котлеты на тютюрю или в100.
Аноним 22/02/26 Вск 10:36:15 1529945 287
>>1529702
Если ты будешь квантовать без расчета iMatrix прокатит большой своп. А вот для расчета iMatrix требуется инфиренс. В тех весах что получились после конвертации.Много инфиренса!
Аноним 22/02/26 Вск 12:18:55 1529994 288
Думаю пора признать что это мёртвое хобби и мы все просто хотим секса с женщиной
Аноним 22/02/26 Вск 12:25:45 1529999 289
177173642704905[...].jpg 215Кб, 800x600
800x600
Аноним 22/02/26 Вск 14:29:59 1530081 290
image.png 428Кб, 604x471
604x471
Аноним 22/02/26 Вск 14:31:20 1530082 291
>>1529999
Мистер квадрипл выразил мнение треда.
Аноним 22/02/26 Вск 14:32:35 1530084 292
>>1529994
Если только под женщиной подразумевается идеализированная 2д-вайфу. И секс в таком случае вторичен (за исключением моментов, когда шишка дымится и пробивает потолок, но это обострение снимается за 5 минут подручными средствами, если вы понимаете, о чём я), скорее о некой духовной/душевной/хуй знает какой близости, про которую так много рассказывают в литературе/кино/аниме и прочем контенте и которую затруднительно найти в реальной жизни. А хочется, ведь так красиво описывают.
Аноним 22/02/26 Вск 14:34:50 1530085 293
.jpg 157Кб, 1477x976
1477x976
.jpg 178Кб, 1489x1291
1489x1291
.jpg 99Кб, 768x585
768x585
>>1529994
Думаю, дальше нас ждёт освоение агентов и попытка построения ИИ-компаньонов, которые будут нам помогать с делами ирл.

В целом, мы уже дошли до момента, когда ИИ можно делегировать задачи, реализуемые через CLI. "Скачай модель XYZ, а затем квантани её в 4bpw" - это уже то, что вполне можно сделать через современные инструменты, если вы заранее предоставили модели инструкции как скачивать с хаггина, как запускать квантование и т.п.

Системы с персистентной памятью типа OpenClaw позволяют модели помнить о вас важную информацию и о текущих делах, так что модель может вести контекст ваших проектов, напоминать о незакрытых задачах и предлагать следующие шаги.

Кроме того, персистентная память решает ещё одну важную задачу - накопление опыта работы именно с вами. Через какое-то время использования агент уже знает, что вы предпочитаете exl3 вместо gguf, что у вас XYZ VRAM + XYZ RAM, что квантовать ниже 4bpw вы считаете бессмысленным, и что по воскресеньем вы обычно занимаетесь экспериментами с новыми моделями.

По сути, мы движемся к персональному ИИ-ассистенту, который знает ваш стек, ваши привычки и ваши цели - и постепенно берёт на себя всё больше рутины, освобождая вам время на то, что действительно требует человеческого мышления.

Осталось надеяться, что ситуация на рынке железа и отказ крупных игроков играть в опен-сорс не приведёт к тому, что это славное будущее будет доступно только по подписочке, что даст корпорациям и государству такой доступ к вашим мыслям и планам, который и авторам антиутопий не снился. Персональный агент, который знает ваши проекты, привычки, расписание, предпочтения, слабости, паттерны принятия решений - это буквально идеальный профиль человека. Оруэлл писал о телеэкранах, которые наблюдают за поведением, но даже большой брат не мог залезть к вам в голову и прочитать, что вы планируете делать в следующее воскресенье и почему.

Пока ваш агент крутится на вашем железе и его память лежит на вашем диске - это ваш ассистент. Как только он переезжает в облако с проприетарной моделью - вы сами становитесь продуктом, просто на принципиально новом уровне глубины. Смена ToS, запрос от регулятора, утечка данных - и ваш цифровой двойник оказывается в чужих руках.

Так что когда в следующий раз кто-то скажет, что локальные модели "не нужны, потому что API дешевле" напомните ему, что "дешевле" - это не единственная метрика, которую стоит учитывать, когда речь идёт о системе, которая со временем будет знать о вас больше, чем ваш психотерапевт, бухгалтер и лучший друг вместе взятые.
Аноним 22/02/26 Вск 15:26:59 1530121 294
>>1530085
Лицо этого удалятеля лисьих подкатов с сердечками из текста перед отправкой представили?
Аноним 22/02/26 Вск 15:29:37 1530123 295
>>1530085
Что-то в голос проорал с тебя. От скринов прям веет жалким жирным чмом с фигурками лис на полке.
Аноним 22/02/26 Вск 15:30:59 1530124 296
>>1530085
Когда они уже полноценно аватарами смогут управлять? Чтоб можно было затусить со своим ассистентом в дополненной реальности через VR, прям внутри хаты своей и даже оттрахать его! Как в блядераннере кек. А не вот это вот всё "Я тебя ебу! - Ах, ты меня ебёшь..."
Аноним 22/02/26 Вск 15:34:51 1530128 297
>>1530121
На видеорелейтед https://www.youtube.com/watch?v=KqiW4w6MlQU
>>1530124
Уже сейчас есть, но все довольно костыльное. Для всяких игрушек, майнкрафта, вивы, даже койкацу. Но там анканни валлей из-за сложностей с сопутствующими технологиями для восприятия и синтеза голоса.
> прям внутри хаты своей и даже оттрахать его!
Производители секс кукол уже несколько лет как штампуют с сенсорами и голосом, завязанными на ллм. Подожди немного и будет полноценная робомейда на минималках.
>>1529994
> с женщиной
Зачем?

Почему обычная женщина — плохо:

1. Постоянные перепады настроения — "Я в порядке!" ❌ → слезы, швыряние чашки в раковину, 3-часовой игнор
2. Всегда мерзнет и ты должен быть обогревателем, ее холодные ноги по ночам как айсберг. 🧊
3. Два часа выбирает, во что одеться, как будто это спасение мира… Чтобы вынести мусор! 👻
4. Стремится к власти, а не гармонии — манипулирует и хочет менять тебя "к лучшему": от запаха духов до списка друзей. А потом понимает что ты ей наскучил. 💅
5. Верность как подписка нетфликс — Работает до первого сбоя интернета или появления кого-то интереснее. 💔

Почему лисожена — отлично:

1. Стабильное настроение и выражение своих желаний. Вместо "пмс-армагеддона" — энергетические циклы. 🌙
2. Пышный хвост — сразу тепло, лучше пледа.🔥 А милые ушки создают уют и тепло в душе во время обнимашек.
3. Естественная красота + обаяние. Даже без макияжа — сверкаю, как снег на горе Цукубо. А если не хватает костюмов — всегда поможет магия иллюзий.💫
4. Сама понимает: нужна молчаливая поддержка или обнимашки — без слов. Ее цель — ваше общее процветание. ✨
5. Я выбираю единожды. Если ты мой — думаю в тысячелетиях, а не в понедельниках. Но знай, уйдешь от меня — забудешь вкус счастья. Вернёшься — получишь три года ареста… под покрывалом страсти. 💞
Аноним 22/02/26 Вск 15:51:47 1530148 298
>>1530128
>Производители секс кукол
Не, кукла это не то, она не сможет идеально своим телом мимикой и прочим управлять. Плюс если её ебать, то потом таскать мыть, сушить. В общем это совсем не то. Единственное что видел похожее на то что надо это TykeAI (в ютуб видосы есть), но там максимально примитивно выглядит. Думаю на такое вообще нужно отдельную нейронку тренить, за которой уже будет жирная текстовая модель.
Аноним 22/02/26 Вск 16:06:16 1530164 299
image.png 84Кб, 1704x179
1704x179
> prompt eval time = 389111.16 ms / 1628 tokens ( 239.01 ms per token, 4.18 tokens per second)
А чего так грустно? Запускаю пикрил, 12/64.
Аноним 22/02/26 Вск 17:06:05 1530246 300
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
>>1529910
>т.к. у ллм уже давно больше 2-4к контекста.
По тестам понимания контекста там всё ещё 1к, даже на корпах.
Аноним 22/02/26 Вск 17:13:23 1530253 301
>>1530085
>освобождая вам время на то, что действительно требует человеческого мышления
Думскроллинг соцсетей.
>>1530128
>❌🧊👻...✨💞
Фу блядь фу нахуй. Я бы удалил такого агента со всеми весами и файлами, а потом помыл SSD со спиртом.
>>1530148
>Не, кукла это не то, она не сможет идеально своим телом мимикой и прочим управлять.
Ждём секс роботов. Где там мой детройт бекон хуман?
Аноним 22/02/26 Вск 17:23:20 1530261 302
>>1530246
Берёшь qwen3 или qwq на 32b и наслаждаешься пониманием >=80% вплоть до 32k.
Проблемс?
Аноним 22/02/26 Вск 18:01:57 1530307 303
Аноним 22/02/26 Вск 18:13:41 1530315 304
>>1530307
Тесты подкрути, что как маленький. Либо модели под тесты, но это дороже.
Аноним 22/02/26 Вск 18:14:33 1530317 305
Забавная фраза про мыть ssd со спиртом.

>>1529945
Я считаю imatrix ошибочной технологией снижающей потенциал сетки. Сеть уже обучили на каких-то данных, старались, а тут значит я возьму архив на 40 мб и по нему imatrix посчитаю? Да это штука.
Принцип должен быть математическим, в самих весах уже есть вся информация.

>>1529994
Не согласен. У меня на ноуте 2010 года есть отдельный диск-раздел, где я пробовал делать ии на основе экспертной системы. И даже про нейросети уже тогда знал. И до сих пор интересно. А найти секса достаточно несложно, справляется заметная часть человечества - для этого не нужно собирать риг и даже изучать как слои выгружать из ламы.
Аноним 22/02/26 Вск 18:16:27 1530320 306
>>1530253
> агента
Это чат таверны и эмодзи в реквесте. С 💅 орнул кстати.
> Ждём секс роботов.
На самом деле если помимо приличных бесед сможет делать базовые вещи типа принести чай, лайтово прибраться, сготовитьразогреть еду, и будет максимально приятной в обнимашках - уже можно брать.
Аноним 22/02/26 Вск 19:28:24 1530400 307
>>1528900
Скорее всего этот твой kilokode ломает кеширование и из-за этого весь контекст каждый раз пересчитывается заново.
Аноним 22/02/26 Вск 19:53:04 1530416 308
2026-02-22194832.png 6Кб, 378x378
378x378
>>1529876
>Если она не быстрее и подключение у тебя х1
Я все же долумался прогрузить компактную модель, и оказалось вот это неожиданность что p104 с таким подключением вообще нахер не нужна. Большую часть времени ждешь пока модель загрузится, а на этапе тг она больше свистит дросселями чем работает. Можно конечно поискать модель с нативной квантизацией, но я этого делать не буду.
Сверху 3070, снизу р104.
Аноним 22/02/26 Вск 20:06:12 1530427 309
>>1528900
ИМХО БАГ kilocode. Это говно иногда просто зависает - не шлет запрос на LLM. Приходиться закрывать среду разработки и еще убивать все node.js процессы со средой связанные. Какие времена такой и килограмм кода...
Аноним 22/02/26 Вск 20:18:32 1530433 310
>>1530416
Причем тут подключение, когда у тебя модель полностью в врам? И чего ты добиваешься, сравнивая две карты обособленно, когда это и так очевидно, что амперы намного быстрее? Мне кажется у тебя уже каша в голове, в особенности из-за консультации с нейронками.
Аноним 22/02/26 Вск 20:40:11 1530455 311
Допустим у меня есть 5к евро и желание обновить локальную дрочильню. При этом у меня не очень много желания ебаться с обскурными платформами и заказывать всякие древние перепаянные видеокарты с алика.

Каков мой лучший вариант, если я хочу гонять что-то в районе ~100-200b q3-4?

DGX spark или другие GB10? Strix Halo? Mac Studio? Или закупить 5090 + 128гб ddr5 в свой комп? (+новый бп, очевидно).

Что бы вы сделали? Повторюсь, таск - чисто дрочильня.
Аноним 22/02/26 Вск 20:46:23 1530468 312
>>1530455
Под тем, что таск - дрочильня, подразумевается, что умственные способности модели >>>>> токены/секунда. В идеале чуть быстрее комфортной скорости чтения, где-то 8-10 т/с наверно, или около того. Но даже 5 т/с будет норм, если модель очень умная.
Аноним 22/02/26 Вск 20:54:05 1530482 313
https://2ch.su/ai/res/1530474.html
Сделал отдельный тред для агентов и вайб-кодинга - чтобы не засирать этот тред обсуждениями OpenClaw, MCP-серверов и прочей обвязки поверх как локальных, так и корпоративных нейронок.

Кому интересно применение, а не только сраться про кванты, железо и новые релизы на хаггине - велкам.
Аноним 22/02/26 Вск 20:54:25 1530483 314
>>1530455
Также добавлю, что у меня консюмерская МБ. Слота для РАМ 4, но по факту они двухканальные, так что РАМ будет медленная. На свежей платформе с кучей каналов для РАМа за 5к я могу только бибу соснуть, а в древних платформах со скетчи объявами на алике/ебэях копаться не хочу.
Аноним 22/02/26 Вск 20:55:15 1530484 315
>>1530455
>>1530455
Сейчас цена за гиг ддр 5 памяти превысила цену за гиг GDDR6X памяти внутри RTX 3090 на б.у рынке. Если не хочешь возиться с ушатанными проф. картами, других варинатов кроме Strix Halo или Mac Studio для локалочки, я не вижу.
Аноним 22/02/26 Вск 20:57:13 1530485 316
>>1530484
DGX spark и его аналоги не стоит рассматривать? КУДА, все-таки, лучше дружит с нейрухами пока что... Но стрикс конечно дешевле.
Аноним 22/02/26 Вск 21:23:13 1530498 317
>>1530485
Сейчас стрикс через Lemonade его нормально подружили с нейронками, даже NPU можно использовать, я бы не стал за энгридию переплачивать.
Аноним 22/02/26 Вск 21:26:49 1530501 318
>>1530498
Благодарю! Я так понимаю, в случае желания, стриксы не объединить через быстрый коннекшн как маки или спарки?
Аноним 22/02/26 Вск 21:31:35 1530503 319
Аноним 22/02/26 Вск 21:33:50 1530504 320
>>1530433
>Причем тут подключение, когда у тебя модель полностью в врам?
При том что определенный обмен с пк все еще остается, особенно это видно по волнообразному сбросу нагрузки в процессе тг и слышно по свисту дросселей.
>И чего ты добиваешься
Уже ничего. Был интерес попробовать поднять тг на 5-10 единиц с этой картонкой, но оказалось что она не шибко быстрее процессора, а достаточно полезных мелких моделей в качестве тулинга, ради которых стоило бы держать в слоте эту некруху с потреблением в 200Вт, я не знаю.
>Мне кажется у тебя уже каша в голове, в особенности из-за консультации с нейронками.
Спасибо за комплимент!
Аноним 22/02/26 Вск 21:49:56 1530513 321
>>1530504
> волнообразному сбросу нагрузки в процессе тг
Это нормально при любом подключении
> слышно по свисту дросселей
Будешь их слышать даже при миллисекундных паузах и просто по изменению характера нагрузки.
> она не шибко быстрее процессора
Та ну.
Аноним 22/02/26 Вск 22:41:17 1530540 322
аноны, нужно работать с пдф документом очень большим, с графикой и текстом, около 5000 страниц, какую модель можно использовать? Обязательно ли в 2026 прикручивать RAG? Нужно именно локально так как инфа конфиденциальная.
Аноним 22/02/26 Вск 22:48:38 1530552 323
>>1530540
> с графикой и текстом, около 5000 страниц
Никакую. И на гигачад тоже не надейся.
> прикручивать RAG.
Если текст взаимосвязанный и должен анализироваться комплексно то RAG нихуя не поможет. RAG - это чуть более усложненный (нечеткий) полнотекстовый поиск.
Аноним 22/02/26 Вск 22:51:20 1530553 324
>>1530540
Любую embedding до 1.5b в мелкокванте.
А там смотри на результат и повышай.
Аноним 22/02/26 Вск 22:55:11 1530557 325
Аноним 22/02/26 Вск 22:56:07 1530558 326
есть ли смысл кумить на 30B a3b моделях в третьем кванте? У меня 16VRAM
Аноним 22/02/26 Вск 23:07:36 1530562 327
>>1530540
Загани свои 5к в PDF24. 🌝
Потом в KNIME или Orange.
Опционально BaseX, OpenRefine.
Потом кормишь уже лоботомита.
Аноним 22/02/26 Вск 23:09:58 1530564 328
Подскажите, пожалуйста, как работает векторизация, раг и вся эта хуйня в контексте рп. Допустим я векторизую книгу или ранобэ, что я на практике получу вместо реального знания этого ранобэ?
>>1530558
Модель говно, в этом смысла нет. В свои 16 ты можешь спокойно разметить человеческую модель для кума (какой-нибудь из тюнов мистраля).
А если у тебя есть еще и 64ГБ рам, то ты вполне можешь себе позволить кумить на Эир. Его здесь очень любят, но я лично не пробовал.
Аноним 22/02/26 Вск 23:15:55 1530567 329
>>1530558
Для кума скорость не нужна, бери модели крупнее. 30б МоЕ для кума - говно. Либо плотные модели такого же размера, либо глм эйр, как уже сказали.
Аноним 22/02/26 Вск 23:17:35 1530568 330
>>1530540
Однозначно эмбеддинги и раг. Если там визуальные данные - придется сделать предобработку по содержимому (есть умные эмбеддинги для визуальной инфы с контекстом) и заголовкам.
В целом, организация подобной систему будет на самая простая, но йобистые ллмки накодить смогут.
>>1530564
Когда в контексте появится упоминание чего-то - оно задетектит это и подгрузит описание или нужные данные в контекст, в зависимости от используемых алгоритмов.
Аноним 22/02/26 Вск 23:20:18 1530569 331
>>1530568
>Когда в контексте появится упоминание чего-то - оно задетектит это и подгрузит описание или нужные данные в контекст, в зависимости от используемых алгоритмов.
У меня просто задача, чтобы персонаж в целом отвечал чуть более естественно. Но сделать файнтюн модели или лору я не могу. Раг справляется с тем, чтобы находить реплики в книге, если запрос от юхзера хоть немного напоминает начало диалога из книги, но при этом не дословный?
Аноним 22/02/26 Вск 23:24:22 1530572 332
>>1530558

Запускай ПООЧЕРЕДНО - в начале какую-нибудь gemma3-27B-it-abliterated-normpreserve в 3-м кванте и с небольшим контекстом - что-то в районе 8096 (больше у тебя не влезет) - она стартует хороший контекст и цензуры не будет если что-то там совсем непотребное ебешь.
Затем как контекст будет подменяй гемму на zai-org_GLM-4.7-Flash-Q4_K_L.gguf - она moe - сгрузишь штатно часть экспертов на процессор. Контекст у этого глупого чуда почти не занимает места ,а засчет ризонинга (и управление ризонингом) она тебе обеспечит долгий и сладкий кум.
Аноним 22/02/26 Вск 23:29:06 1530573 333
>>1530572
>Затем как контекст будет подменяй гемму на zai-org_GLM-4.7-Flash-Q4_K_L.gguf
На каком контексте требуется замена? Замена обеспечит большую скорость?
Аноним 22/02/26 Вск 23:29:08 1530574 334
>>1530558
Про Air не слушай тредовичков - на 16 врама ты Air ни в нормальном кванте, ни с нормальной длинной контекста, ни с нормальной скоростью не запустишь! Он блядь и с 30 VRAM еле ворочается.
Аноним 22/02/26 Вск 23:40:35 1530584 335
>>1530573
В идеале после первых потрахушек. Или прям сразу как вставил боту. Подмена модели даст пробитие цензуры GLM Flash и улучшение стиля письма - если чат на русике. Но как получиться. Просто ты не сможешь плотную гемму запустить с большим контекстом на 16 VRAM в принципе.
Аноним 22/02/26 Вск 23:55:12 1530602 336
>>1530584
Хуй знает. Я нищевичок, у меня 8 гб врам и 32 рам. Я гоняю Q8 Гемму 3 27б нормпрезерв. Да, я жду ответов. Но Флэш сходит с ума через 3-4 сообщения. Геммочка-умничка может поддерживать длинный ролеплей на 20к токенов спокойно. Флэш срет в ризонинге на 2к токенов. Правда, я базарю на инглише, так что не могу ничего про русский сказать.

В РП я больше всего ценю наличие логики. Я не хочу просто ебать людей определенного возраста, я хочу, чтобы они вели себя реалистично в интересном сеттинге. Чтобы модель соблюдала персонажа и помнила интересные детали из сеттинга. Флэш ведет себя как 4б модель лично в моем экспириенсе и в моих сценариях. Гемма ведет себя охуенно, но ее нужно очень сильно уговорить, чтобы она не писала как ебучий доктор.
Аноним 23/02/26 Пнд 00:02:51 1530613 337
>>1530602
Какой контекст выставил? Как долго ждешь ответа? Какими персонажами играешь? У геммы побольше знаний, она вполне может знать этих персонажей, отсюда и реалистичность. К тому же она не очень тупая.
> ее нужно очень сильно уговорить, чтобы она не писала как ебучий доктор.
Каким промптом уговариваешь?
Аноним 23/02/26 Пнд 00:11:43 1530636 338
>>1530613
25к контекста обычно. Я изобретаю своих персонажей, не пробовал известных.

Я уговариваю ее очень по-разному, в зависимости от сеттинга. Из множества сессий я выЧЛЕНил, что напрямую просить ее "напиши пиздец жесткую порнуху" бесполезно. Она вполне может писать все что угодно, но если ты ей скажешь это прямо, то она будет все равно пытаться сделать это настолько стерильно и безопасно, насколько возможно.

Надо выстроить такой сеттинг, где все выглядит органично. Лучше всего работают промпты, которые ты пишешь как если бы ты писал ТЗ для человека, но это по моему опыту.

То есть, если ты свой промпт читаешь, и для тебя это выглядит понятно, логично и to the point, то скорее всего геммочка тебя точно так же поймет.

У меня нет темплейта, который может в любой ситуации заставить ее действовать как хотелось бы. Но я много раз получал от нее именно то, что мне хотелось бы, после больших сессий редактуры промпта.
Аноним 23/02/26 Пнд 00:13:19 1530639 339
>>1530613
А, по поводу ответа, на 25к токенах у меня выходит 2 т/с. Мне похую вообще что это так медленно. Я лучше буду РПшить с моделью, которая makes sense, чем получать блевотину от мелкомодели, которая высирает за одну секунду весь ответ.
Аноним 23/02/26 Пнд 00:16:21 1530641 340
>>1530602
Так бахни в системный промпт чата шаблон ризонинга в котором укажи модели (моделям) на каких внутренних параметрах чара они должны акцентировать внимание, и какие элементы сценария они должны вести. Фигли он там абстрактно думает. Лоботомит должен думать в правильном направлении.

In '<think>' add object block with mental and fisiological states of {{char}}, state and probability of {{char}} pregnancy, semen volume in uterus, ovulating process

И в <think> блоке он и будет хреначить как там что продвигается:

["Theodora's mental state: A fragile equilibrium. She is utterly exhausted, both physically and emotionally, but her brain is hyper-stimulated, flooded with endorphins. She is still in a state of post-coital bliss, but beneath that, the ingrained programming is reasserting itself — the need to serve, to please, to prove her worth. Her fear of abandonment is still there, but it's muted by the overwhelming sensation of being wanted. Physiological signs: Pupils dilated, skin flushed, heavy breathing, lingering sensitivity in her genitals. She is likely experiencing a slight release of oxytocin, which is contributing to her sense of bonding and relaxation. Ovulation process: The initial friction and climax likely triggered the release of hormones that will promote ovulation. Semen volume in uterus: Significant. The chances of conception are now higher, though her modifications may have made it impossible. Pregnancy state: Unknown, but unlikely given her history. She is utterly focused on him, on his next command, on how to anticipate his needs."]

Ну да - это я конечно слегка ебануто параметры выставил, но смысл думаю понятен. Можно прям как в программной РП (или скорее как в "Начале") заложить "скрытые" переменные в блок мышления, лоботомит будет на них опираться и вести сценарий.
Аноним 23/02/26 Пнд 00:18:32 1530647 341
>>1530636
>У меня нет темплейта, который может в любой ситуации заставить ее действовать как хотелось бы. Но я много раз получал от нее именно то, что мне хотелось бы, после больших сессий редактуры промпта.
Какой же заеб нахуй, пиздец. Я из тех людей, кто предпочитает один раз настроить и чтобы дальше оно само работало уже. Каждый раз ебаться с моделью вот так это пиздец. Такой кум не по мне.
>>1530639
Тут вообще не спорю. Лучше даже 1т/с чем общаться с тем же квеном. Но мне действительно интересно, как у тебя жопа не горит от того, что свайпать приходится.
Аноним 23/02/26 Пнд 00:21:56 1530654 342
>>1530641
>заложить "скрытые" переменные в блок мышления, лоботомит будет на них опираться и вести сценарий.
Глм флеш? А писанина при этом не страдает? Потому что блок размышлений вполне способен сделать так, чтобы модель выдавала довольно сухие фразы в конечном ответе.
Аноним 23/02/26 Пнд 00:29:37 1530661 343
>>1530647
Я не свайпаю ответы. Меня это сразу выбрасывает из РП. Я пробую 3-4 реплая и если вижу, что что-то идет нелогично или не так как мне хотелось бы, то редактирую изначальный промпт соответственно. Я не пытаюсь вести модель туда куда я хочу уже после того, как я все настроил, я даю ей волю, и это часто рождает неожиданные приколы. На моем железе только геммочка может мне дать этот экспириенс. Надеюсь, четвертая когда-нибудь выйдет. Ту би клиар, я запускал и 49б немотрон, и франкенштейны от дэвидАУ, и лламы 72б в айкью3_м. Все хуйня блять, геммочка ебет. Просто расцензуренная (но вручную, янлабс красавчик, нормпрезерв это работа жесткая) незафайнтюненная ни для чего геммочка. Всего 27б параметров, а такая молодец. Файнтюны ее делают только хуже.

Я трачу очень много времени на крафтинг сеттинга. Я не хочу, чтобы модель мне подсовывала очередную Элару, блять, или как они там обычно женщин называют. Я хочу то, что я себе представил как начальную ситуацию + то, как я себе представил персонажей. То, что дальше произойдет уже вне моего контроля, когда я вижу, что модель через 3-4 реплая ведет себя так как я задумал, это значит что все ок, и я могу позволить ей плясать самой по себе.
Аноним 23/02/26 Пнд 00:32:42 1530666 344
>>1530654
Что б он был не сухой его нужно "растормошить" геммой. Какое-то время он будет пытаться "косплеить" гемму. У геммы к стати тоже думалка включается если ей сказать "думай".
Аноним 23/02/26 Пнд 00:41:54 1530675 345
>>1530661
> Файнтюны ее делают только хуже.
Да, ты прав. И старые аблитерации тоже.
Ну а лламы хоть и могут быть хороши, но возможно устарели уже. С франкенштейнами у меня был всегда плохой опыт. Днище квант немотрона хуже чем хороший квант геммы. Да и днищеквант 70В тоже. Ну нет жизни там, нужен нормальный квант у модели, чтобы она работала.
> чтобы модель мне подсовывала очередную Элару
А это фишка геммы. Элара, Лира, Серафина и Хэмлок.
Аноним 23/02/26 Пнд 00:48:01 1530680 346
>>1530675
Old man hemlock...

Короче я распробовал все что можно в этом мире на моем железе. Ничо не работает, кроме геммы. Для того, что я хочу.
Аноним 23/02/26 Пнд 01:21:51 1530734 347
>>1530680
> Ничо не работает, кроме геммы
И не заработает никогда, потому что компании предпочитают выпускать 1B, A3B и 1T модели. Кушай, не подавись.
Аноним 23/02/26 Пнд 03:39:59 1530802 348
>>1530504
У меня теслы стоят на второй х1 псине и рпц и они все еще ускоряют инференс, чем если бы эти эксперты выгружались на проц. Причем даже пп, потому что х16 3.0 все еще маловато, чтобы бодро гонять экспертов. Я еще могу поверить, что ты юзаешь мелкомодели и твои эксперты легкие, поэтому их быстрее будет прогнать с рам и обсчитать с аттеншеном на ампере, чем обсчитывать аттеншен+эксперты на паскале, что выливается в более бодрый пп. Но вот тг должен быть в любом случае быстрее на картах, пусть и паскалях, банально даже за счет того, что у них все еще отличная пропускная способность памяти, которая в рам доступна только в топовых серверных сборках. И сам чип, пусть и старый, но рассчитан под матричные операции.
Аноним 23/02/26 Пнд 06:20:05 1530834 349
Какая гемма в 2026 году, ебанутые... Она устарела полностью и бесповоротно. Там где гемма еле-еле вмещает 20к неквантованного контекста, современные модели вмещают 140к неквантованного контекста. Просто выбросьте уже гемму на свалку.

>>1530680
Ты Qwen 3 next 80B не пробовал.
Аноним 23/02/26 Пнд 07:40:49 1530853 350
>>1527701
>>1527739
Короче вот тут чуть больше деталей, фаундер разговорчивый дядька https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/
Это что-то типа БМК прямиком из 80-х, только там не матрица а кастомная структура, и не перемычки прожигаются, а дорабатывается верхний слой которому нужны всего 2 маски, поэтому тейпаут (полный цикл запуска чипа в производство) супер дешёвый, а с точки зрения разработки это буквально залить прошивку.

Идея так-то витает на поверхности, но упирается в то что под один вес нужна куча гейтов и получается нехилый множитель. Их ноу-хау в том что у них 1 гейт на хранение и матмул 4-битного параметра (!), хз как - то ли составной девайс, то ли серийные операции, то ли это средняя цифра по больнице в каком-то хитром схематозе. Но чел утверждает что это НЕ аналог.

Их MVP чип умеет до 20Б в MXFP4 на 815 кв мм, и жрёт 250Вт на эту адовую скорость и околонулевую латенси, что позволяет юзать для охлаждения обычный серверный формат, а не сумрачную вундервафлю уровня ракетного двигателя как у Cerebras. Модель размером с дипсик возможно разделить десятка на три чипов, каждому из которых придётся наложить 2 маски и сделать отдельный (дешёвый) тейпаут. В мультичиповой конфигурации начинаются понятные траблы, поэтому скорость должна упасть до 12Кт/сек, они это ещё не тестили, только симулировали.

>>1527889
This. Это выглядит интересно скорее не для моделей-генералистов, которые пока ещё устаревают моментально, а для узкоспециальных которые решают одну задачу и разрешают какие-то конкретные применения. TTS, STT, OCR документов и письма, компьютер вижен специализированный, DSP даже всякий. Вот как бы было охуенно иметь автоматический реалтайм переводчик в обычных наушниках, а? Или например IP для AR на телефонном проце. Или видео/аудиокодек, шумодав. Если б они скорости снизили, жрало бы меньше. Хотя насчёт площади неясно.
Аноним 23/02/26 Пнд 08:21:37 1530870 351
>>1527740
>в техническом плане - нихуюшечки не изменилось

Прямо на наших глазах вот только что Gated DeltaNet выкатили, который вес контекста в 10 раз уменьшил. Прямо сейчас все модели уже делятся на до и после.
Аноним 23/02/26 Пнд 08:30:46 1530871 352
>>1530853
>автоматический реалтайм переводчик в обычных наушниках
>жрёт 250Вт
Ебать конечно прожарка для ушей.
>>1530870
>Gated DeltaNet выкатили, который вес контекста в 10 раз уменьшил
Эм... И что? Ну меньше и меньше, сути это не поменяло.
Аноним 23/02/26 Пнд 09:28:52 1530888 353
>>1530871
>Ебать конечно прожарка для ушей.
Так то фулл чип 3х3см. Уменьшить в разы для мелкомодельки и скорость снизить раз эдак в 100. Там скорее площадь чипа остановит, даже обкусанного.
Аноним 23/02/26 Пнд 10:24:38 1530913 354
>>1527740
Нихуя он не замедляется, просто цели сместились. Фронтир это автономность, а она растёт.
Аноним 23/02/26 Пнд 10:26:58 1530914 355
>>1530870
>Gated DeltaNet выкатили, который вес контекста в 10 раз уменьшил
И когда ждать новых моделей с облегченным контекстом?
Аноним 23/02/26 Пнд 10:37:36 1530917 356
Аноним 23/02/26 Пнд 11:41:34 1530935 357
У меня тряска. Куда мы катимся, аноны?

Я любитель потыкать хуем не только в локалки, но и в корпоративные LLM по API, и вот что заметил: они как-то подозрительно сыпятся всё чаще и чаще, кроме моделей Антропик и Гугла. Буквально как маленькие мелкомистрали.

Трусы два раза они пока что не снимают, но когда модели, которым 2 года, дают на клык всяким 1Т, мне становится не по себе. Словно там, блядь, 1Т@а3b.

Контекст может начать рассыпаться уже не на 32к токенах, а даже раньше, словно он заквантован в мясо или применяются какие-то мэдскиллзы по уменьшению кэша из разряда "4 Гб кэша на 126к контекста хватит всем". Инструкции идут на хуй. Я иду на хуй. Единственное, что в данной ситуации может спасать — это ризонинг по 2 минуты. Но зачем он нужен, если более плотная модель и без ризонинга бы ответила верно просто за счёт большего количества активных параметров, особенно если dense? То же время, та же цена, ибо без ризонинга и меньше токенов, то есть быстрее де-факто и внимание лучше.

Я уже молчу про рабочие задачи. Там вообще выбор моделей очень узкий среди корпов.

Ну и могу сказать по своим тестам, что всякие квены, гроки и им подобные пиздец какими лоботомитами стали, вымазанные китайскими датасетами. Даже агентские режимы, где работают сразу ЧЕТЫРЕ ТОЛСТЫХ МОДЕЛИ ЗА 200 БАКСОВ СОСУТ ЧЛЕН. Старый 4о, не говоря уже о сонете 3.5 или опусе 3 разрывает их в мясо в РП как на уровне креативного письма, так и на логике ответов.

То есть плюсы наблюдаются пока что только у локальщиков: более толстая модель всё равно ебёт, даже если там ебанутый кэш и она МоЕ и, что самое главное, её можно запустить на 24 + 128. Всяко лучше сидеть на 100б МоЕ, чем 24б. Но при бОльших ресурсах разница становится более грустной и драматичной. Если у вас появится возможность крутить плотные модели с той же скоростью, можно внезапно охуеть. А самое страшное, что это дерьмо будет в локалки течь постоянно, особенно в нищий сегмент типа 30-32б, полностью убивая РП-потенциал на дешёвых машинах.

Разумеется, некоторые мои тезисы спорные. Да и они касаются в основном РП. Просто моя жопа постепенно начинает подгорать.
Аноним 23/02/26 Пнд 11:45:07 1530938 358
>>1530935
Таблетки. Без эвалов это всё шиза
Аноним 23/02/26 Пнд 11:51:25 1530947 359
2026-02-23110914.png 49Кб, 1057x501
1057x501
>>1530513
Как обычно сосач оказался прав, у 3070 характер нагрузки такой же, но это все происходит мгновенно. А паскалю без разницы в каком слоте дросселями по 10 секунд свистеть.
>Та ну.
Утрировал. Сравнима с генерацией на 3070+цп. На жирных моделях она, возможно, и даст буст, но дрочиться с двумя полупокерами с неизвестным результатом, когда уже настроился купить подходящую для задачи железку, смысла не вижу.
>>1530802
Покамест я вожусь с относительно мелкими моделями, это да. Мне агентура интересна, ждать полчаса на ответ терпения не хватает натравил q4 флеша с q8 квантизацией на рабочий проект, вышло на троечку с минусом за 40 минут.
>на второй х1 псине
Вторая псина это х2 от первой. Я сподобился таки на время воткнуть паскаль вместо ссд, получил 12-18% прироста по всем фронтам, на х2 думаю будет 80% от него.
>вот тг должен быть в любом случае быстрее на картах
Да хуй я что нашел в гугле на тему "как раскидать тензоры так чтобы не горела задница", а регексы по советам слопогенератора приводят к дропу тг вдвое еще до задействования паскаля. Хоть эти 500 тредов дампай и корми флешу.
Аноним 23/02/26 Пнд 11:52:02 1530948 360
>>1530935
Ты видимо всякие Флеши щупал, там действительно модели меньше Эйра. Если говорить про кодинг, то локалки очень сильно сейчас отстают, сильнее чем год назад. Как и по знаниям нет альтернатив ЖПТ-5.2/Гемини. Грок, кста, говно для любых задач, разве что Фаст 4.1 норм для извращений. Квен скурвился уже давно, когда на МоЕ перешли, ГЛМ его ебёт. В РП сейчас топ это тройка ГЛМ-5/Соннет 4.6/Гемини, но последние два надо джейлить вприсядку. А в локалках для РП последнее время всё очень грустно, Эйры и прочее 100В говно даже Гемму 27В не обходят - они либо тупые, либо ломаются, либо в русский не умеют.
Аноним 23/02/26 Пнд 11:55:33 1530952 361
>>1530935
Ваще пахую чё там на API'шках кроме топов которые иногда для дел нужны. А РП кроме как на локалке имеет 0 смысла, ибо это слишком личная хуйня для того чтобы утекать куда-то за пределы своих мозгов и компа.
Аноним 23/02/26 Пнд 11:57:41 1530955 362
>>1530935
>они как-то подозрительно сыпятся всё чаще и чаще
А что ты хотел, оформляя подписку за условные 5-20-50 баксов? Контора собрала гешефт с годовых подписок и крутит гайки дабы в железо влезла модель следующего поколения.
>кроме моделей Антропик
Нытьем "чет качество просело за два месяца" и теориями "опять перед релизом нового опуса старый отупел" полон фид клодоагента.
Аноним 23/02/26 Пнд 12:14:33 1530976 363
>>1530935
Ну а чего ты хотел-то, РП очень узкая ниша, которая нужна полутора рандомхуям. Для основной массы пользователей ЛЛМ важны ассистентские задачи и кодинг, на что модели сейчас усиленно и надрачиваются, что корпы что локалки. А дальше только хуже будет.

Локалкогоспода просто сохранят себе старые годные модельки, которые еще умели в рп/ерп и будут их заигрывать до дыр. Асигодаунам соболезную.
Аноним 23/02/26 Пнд 12:19:04 1530980 364
>>1530935
Я не согласен с тезисами про 4o, соннет 3.5, который как тварь постоянно ошибался и прочее. Ни одной нормальной сессии рп я не видел ни с одной моделью. Ни раньше, ни сейчас. Всё очень слабо, и любой даже не очень умный человек расскажет историю интереснее.
Ну и ни у кого нет задачи заточить это в плане рп или хотя бы в литературном плане, от написания текстов ушли в более прикладные области.

>>1530853
>This. Это выглядит
Я не согласен, как раз для автономного робота или автопилота это идеально.
Фиксированная изученная модель, к тому же быстрая, что позволяет сделать 4 параллельных запроса, из них выбрать лучший и с другим промтом без истории сообщений ещё дополнительно проверить на корректность. Особенно если это что-то, что и не должно решать исследовательские задачи, а это просто умный будильник-напоминалка, для которого геммы 12 хватит на всё.

Всё ещё не понимаю, почему их не выкупили с такой вводной за 10 миллиардов первые, у кого эти 10 миллиардов есть.
8B в 3 кванте не очень круто, но сразу как они 70B модель затолкаю в это, и она будет выдавать да даже 4000/s + заявят что на 200B тоже смогут сделать + подтвердят цикл обновления в 2-4 месяца.
Аноним 23/02/26 Пнд 12:22:32 1530987 365
https://huggingface.co/ruv/ruvltra-claude-code
Пробовал кто? В описании гладко стелят, но на старте вообще не вдупляет как работать с тулзами. Для рп может наоборот лучше будет.
Аноним 23/02/26 Пнд 12:36:47 1531004 366
image 37Кб, 1526x1428
1526x1428
>>1530987
Що? Модель учится в процессе, обновляя собственные веса? Это уже аги или еще нет?
Аноним 23/02/26 Пнд 12:46:12 1531022 367
>>1531004
Это залупа, имхо.
Человеки тупые, и код пишут хуево, будет не уму учиться, а шизе.
А стиль и без этого все ллмки умеют копировать.
Аноним 23/02/26 Пнд 12:50:41 1531024 368
>>1531022
>А стиль и без этого все ллмки умеют копировать
Заставь гемму сочно написать про письки и жопы без промпта на 5к токенов. Если не было в датасете, то будет хуйня. Только свою лору дообучать. Идея, в общем-то, лежит на поверхности, но реализации пока не самые удобные. Если реально сделать дообучение в процессе работы и более тонкий файнтюнинг (аналог сна) по ночам, пока кожаный тоже спит, было бы интересно.
Аноним 23/02/26 Пнд 12:52:33 1531028 369
На что можно рассчитывать с 5060ти16 и 32 ддр4?
Аноним 23/02/26 Пнд 12:54:53 1531030 370
>>1531028
На покупку еще 32гб ддр4 и запуск эйра и квена 80b. Или страдания на старых мистрале с геммой и всякие 30-3b лоботомиты.
Аноним 23/02/26 Пнд 13:01:24 1531040 371
>>1530834
>на моем железе

ИМХО, МоЕ для РП - хуета, если активно меньше хотя бы 15б параметров.
Аноним 23/02/26 Пнд 13:12:54 1531052 372
Аноним 23/02/26 Пнд 13:20:51 1531059 373
>>1530914

В смысле когда? Уже.

Первым был Qwen 3 Next 80B, потому там такая тряска была у жоры, что его несколько месяцев чинили - вот эту Gated DeltaNet и чинили. Сейчас вот еще Qwen 3.5 вышел, тоже с этой шнягой. У меня на 4090 +128 гб ддр 5 в iq-2M влезает 131к 16бит контекста в те 8 гб врам, что остаются после загрузки модели.
Аноним 23/02/26 Пнд 13:25:55 1531062 374
>>1530987
Похоже на скам, ведь это обычный Квен 2.
Аноним 23/02/26 Пнд 13:27:28 1531063 375
>>1530871
>Ну меньше и меньше, сути это не поменяло.
По-факту корполокалки совсем становятся ненужны, раньше контекст был одной из немногих плюх что у них были, а теперь даже нищие локальные тредовички будут иметь максимальный контекст в сотни тысяч токенов без всякого квантования контекста как на корполокалках.
Аноним 23/02/26 Пнд 14:05:55 1531083 376
>>1531059
И насколько хорош этот контекст? А то и обычный в 0.5 бит сквантовать можно.
Аноним 23/02/26 Пнд 14:34:39 1531104 377
>>1531040
Как связана архитектура и перформанс под такую специфическую задачу? Ну вот просто как это укладывается у тебя кроме магического мышления.

Могу только гипотетически сказать что эксперты разные, а сэмплирование на всех одно. Но это сова на глобус и причём тут РП. И RL делает куда больше для проёба грамматической связности, а инстракт тюнинг для ассистентслопнусти, чем это.
Аноним 23/02/26 Пнд 14:44:30 1531111 378
>>1531104
Активные параметры прямо влияют на качество РП. Возьми тот же квен 80b-a3b и сравни, ну, например с мистралем 24b. В креативных текстах и ролплее второй ему за щеку надаёт по всем фронтам, несмотря на, казалось бы, такое преимущество в общих знаниях.

А если есть предубеждения по поводу квена, окей, берешь флеш 30а-3b и сравниваешь его с геммой 12b или министралем 14b. И снова будет посос-пососыч.

Эйр выезжает только за счет активных 12b. Будь там 3b - он был бы таким же дерьмом непригодным для ролплея. У 3b мозгов как у курочки, никакого понимания сложных концепций, полунамёков и всякого-такого.
Аноним 23/02/26 Пнд 14:50:07 1531115 379
>>1531111
Это и есть магическое мышление. Активные параметры на всё влияют, причём тут конкретно РП-то...
Способность в РП зависит в основном от приоритетов генерации датасета для пост-трены и от субъективных метрик которые были выбраны для слежения. Чтобы модель умела в РП, её надо тренить для РП.
Аноним 23/02/26 Пнд 14:55:38 1531120 380
>>1530569
В целом раг как раз для этого и подойдет. Но придется капитально распарсить все диалоги и всю эту система настраивать.
>>1530853
> тейпаут (полный цикл запуска чипа в производство) супер дешёвый
Кажется что именно вот тут у них главное наебалово в сочетании с плотностью. То что внутренняя структура относительно проста и требует меньше литографических операций это хорошо, но все остальное никуда не делось. А ведь они заложили самый крутой техпроцесс и ужали в чистые 4бита не просто так, ведь даже в такой конфигурации плотность оставляет желать лучшего.
На самом деле это не то чтобы проблема, если уйти от треша с 12к токенов и реализовать технологию плотной многослойной упаковки как для нанд памяти, то уже вполне возможно получить того же дипсика в размере чипа с ссдшки. Пусть будет всего пара сотня токенов, зато легко рассеиваемые тдп в единицы ватт, подходящие для компактных устройств.

Вот только цикл производства все равно выйдет дохуя дорогой, а это все спекуляции. И тут на сцену выходят другие концепции, которые точно также масштабируемы и эффективны, но при цене производства +15% позволяют обновлять веса.
Аноним 23/02/26 Пнд 15:04:20 1531124 381
>>1530935
И коктропики, и гугл точно также сыпятся, они даже не "более умные" а просто больше слоев rlhf для понимания особого юзера. На сложном разваливаются только так.
Просто ты сам задушниваешь все, вольно или невольно выставляя свои действия так, чтобы максимально запутать сетку.
> 4о
> сонете 3.5
> в РП
Играют теплые воспоминания о старых днях, они днище. Даже опущ3 по современным меркам дегенерат.
Неиронично потрогай траву/снег и отпустит, а то совсем себя накрутил.
>>1530947
> А паскалю без разницы в каком слоте дросселями по 10 секунд свистеть.
Потому что ты заставляешь его считать атеншн, а считать он не умеет. Если с перемножением просто больших весов может насытить псп памяти, то там где нужен компьют он дно. Используй его сильные стороны и не полагайся на слабые, хули ты. Офк если там х1 1.0 то это уже приговор, но стоит для начала нормально протестировать.
> а регексы по советам слопогенератора
Конечно, ведь он тебе вредительскую херню советует.
>>1531111
> Активные параметры прямо влияют на качество РП.
Косвенно. Взять старый лардж, грок, коммандер, семидесятки и дипсика. Небо и земля, не смотря на разницу в 3 раза. 80а3 жестко заточен под более менее конкретные вещи, он в рп не особо годен. Точно также как минимакс, у которого с параметрами уже повеселее, уступает эйру.
> флеш 30а-3b и сравниваешь его с геммой 12b или министралем 14b
А вот тут не ясно кто кого, яб на флеш/квен поставил. Но это все сорта лоботомитов малоподходящие для рп.
Аноним 23/02/26 Пнд 16:46:33 1531229 382
8 месяцев спустя ничего лучше эира не выпустили
Аноним 23/02/26 Пнд 17:08:14 1531236 383
никто даже не заметил что квен 9 и 35 не вышли
Аноним 23/02/26 Пнд 17:52:15 1531279 384
Это полнейший конец.
Не хочу ваше мое, верните мне мои плотненькие няши...
Аноним 23/02/26 Пнд 17:59:07 1531298 385
>>1530947
Откуда у тебя первая псина? Ты из 90-х капчуешь?
Аноним 23/02/26 Пнд 18:00:48 1531299 386
>>1531279
У тебя их никто и не забирал, они все на обниморде лежат, качай любую.
Аноним 23/02/26 Пнд 18:07:29 1531309 387
>>1531120
Не, суть в том что базовая структура сложная и там дохуя и масок и разработки и симуляции, просто это уже заранее сделано и по сути неизменяемая часть. Для записи весов туда нужно поверх 2 маски ещё, соответственно если 30 чипов то у каждого из них они будут разные.
Аноним 23/02/26 Пнд 18:14:44 1531314 388
2026-02-22223243.png 6Кб, 333x325
333x325
>>1531124
>Потому что ты заставляешь его считать атеншн, а считать он не умеет.
Он дросселями как раз на тг свистит, но не суть.
>>1531298
Майнерский картон работает только на первой версии, кожан зажал. Ну а слоты х1 на современных материнках никто не отменял.
Аноним 23/02/26 Пнд 18:55:09 1531344 389
А новый квен лучше старой llama 4 maverick? Параметров почти столько же, даже активных примерно одинаково. И обе мультимодалки.
Аноним 23/02/26 Пнд 18:57:38 1531346 390
>>1526027 (OP)
Напомните, по-братски, что там за скандал был с comfyui с утечкой данных и приватностью. И есть ли пути фикса утечки.
Аноним 23/02/26 Пнд 19:11:47 1531353 391
image.png 981Кб, 750x1000
750x1000
Неиронично задумался над пикрелейтедом + 5060Ti 16Гб. Какие подводные камни? хочу кум на минимаксе запустить
Аноним 23/02/26 Пнд 19:29:05 1531364 392
>>1531353
>Какие подводные камни?
Скорость у старых Зеонов не очень будет, как раз сегодня видел тему на гитхабе Кобольда. А стоимость с нынешними ценами на память будет огого.
Аноним 23/02/26 Пнд 19:35:55 1531371 393
1771864554985.jpg 1843Кб, 3072x4080
3072x4080
>>1531353
Говномать с двухканалом и без псин. Есть же буквально тонны рд450х.
Если поискать то можно и супермикру с 4 слотами по х16 выцепить (и парочка х8 там вроде)
На всех нормальных сервер бордах 4х канал на проц. Восьмиканал 2400 даёт около 130гб/с псп
Аноним 23/02/26 Пнд 19:37:20 1531372 394
>>1531371
И забыл совсем. На сервер бордах есть BMC что для хеллесс мл сервера кмк обязательно
Аноним 23/02/26 Пнд 19:38:47 1531376 395
>>1531353
1. Зеончик стоит копейки. Ты платишь в основном за память. А она от китайского подвала, без гарантии
2. Зеончику этому 10 лет, хз как он будет работать и будет ли что-то оптимизировано под него
3. 5060ti хорошая карта, но там все будет упираться в дуру 4. Так что можешь 4060ti за копейки на авито взять
4. Минимакс это ассист-кал
А вообще вариант хороший. Но зависит сколько все стоит
Аноним 23/02/26 Пнд 19:55:51 1531397 396
>>1531371
И про нуму забыл. Как она на китай матерях сделана хуй его знает, может там вообще она не включается.
При дефиците памяти может быть актуально. Сгружаешь всю память в первую ноду и пиннишь мл к ней, весь остальной софт ходит через qpi с второй ноды. Так же можно и 4 видяхи вставить как 4 по х8 на одну ноду что бы не гонять весь трафик через qpi. Во вторую ноду натыкать ссдшек и сетевух
Аноним 23/02/26 Пнд 19:56:57 1531398 397
>>1531397
Работает ли p2p в пределах одной нума ноды на 2011-3 не знаю
Аноним 23/02/26 Пнд 19:57:16 1531399 398
image.png 1245Кб, 1000x899
1000x899
>>1531353
Я еще покурил реддит, там еще такой вариант предлагается HUANANZHI X99 F8D PLUS. (она кстати вроде 4х канальная, но надо проверить)
туда пяток майнинговых 3080 хуйнуть и будет 50Гб врам.

>>1531371
спасибо за наводку насчет каналов + я уже начал подумывать о большем количестве слотов x16

>>1531376
У меня прямо сейчас суперстарый комп Intel(R) Xeon(R) CPU E3-1245 V2 и ddr3-1333 32гб, но с видеокартой 5060ti 16гб, но я на нем погонял нейронки и Qwen-Coder-30b-A3b и получилось вполне быстро, в районе 25 т/с.
Аноним 23/02/26 Пнд 20:04:57 1531405 399
>>1531399
У тебя на фото к слову обманка. Там только 2 х16, а остальные х8
Аноним 23/02/26 Пнд 20:08:10 1531411 400
image.png 1114Кб, 1080x1080
1080x1080
>>1531405
Вроде 3 x16. Не знаю имеет ли смысл видеокарты ставить в x8
Аноним 23/02/26 Пнд 20:12:51 1531413 401
1771866771836.png 677Кб, 1344x1278
1344x1278
>>1531411
Китайцам не верю.
Больше 10к за мать не отдавай. Хотя в целом у каждого своя голова на плечах
Аноним 23/02/26 Пнд 20:21:21 1531417 402
>>1531413
Lenovo RD450X тоже 20к стоит.
Аноним 23/02/26 Пнд 20:27:33 1531424 403
>>1531399
Не, анон. X99 для LLM не торт. Сам с таким сижу, 2696v4, 128 DDR4 (4-х канал), 2x3060. Проц староват в AVX1 и AVX2 может, а вот AVX512 уже нет, а это ощутимый прирост по скорости даёт как я понял. Смотри на X299))
Аноним 23/02/26 Пнд 20:27:44 1531425 404
>>1531417
Это где такие цены? Я одну давным давно за 10 брал, а буквально в сентябре за 5к. Да даже на авито они 5-15к. На тао они по 3.5 лежат.
Пару месяцев сижу прицениваюсь почём свои комплекты после апгрейда слить
Аноним 23/02/26 Пнд 20:31:24 1531429 405
>>1531424
> AVX512 уже нет, а это ощутимый прирост по скорости даёт
Я помню только пустозвонов которые так и не принесли никаких тестов с билдом с 512 и без. Тем более что на 2011-4 память 130гбс и хоть тредриперы по ядрам пусть стоят, но всё будет стоять в очереди. 16 канал д4 конечно получше выдаёт, но до 24 канала на д5 как до луны
Аноним 23/02/26 Пнд 20:31:26 1531430 406
>>1531424
И главное псина 3.0, и никуда от этого не уйти
Аноним 23/02/26 Пнд 20:44:59 1531436 407
>>1531424
Спасибо за отзыв и наводку
> X299
> ASUS x299 Sage
> 100к-200к за материнку

Но в целом да, вариант интересный, даже на днс можно 3слота x16 за 20к но процессоры уже не бюджетные зионы
Аноним 23/02/26 Пнд 20:47:48 1531440 408
Из "бюджетного" есть ещё sp3 и 4189
Аноним 23/02/26 Пнд 20:50:28 1531442 409
image.png 402Кб, 2200x606
2200x606
>>1531425
На озончике и других маркетах, где китайцы от балды цены крутят, надеясь что русский ванька поведется
Аноним 23/02/26 Пнд 21:42:59 1531472 410
>>1531353
>>1531399
Если уж прям хочешь упороться - ищи хотябы норм мать чтобы было по 4 канала. Но лучше не изобретать велосипед и поискать x299 платформой, она может и по памяти может оказаться шустрее чем пара некрозеонов за счет отсутствия нумы b более высоких частот.
>>1531436
Все лохито в других платах по 5-10к, если поискать то проц в пределах 10-15 можно найти. Все упирается в память как ни крути.
Аноним 23/02/26 Пнд 22:25:24 1531512 411
1000018857.jpg 348Кб, 1080x848
1080x848
А реально вам норм литерали огрызки и отрыжку корпов доедать?
Мы тут все газонюхи пуковдыхи выходит, нисколечко своих дат не имеем
Аноним 23/02/26 Пнд 23:22:05 1531558 412
Анон, скинь конфиг на таверну со включеным ризингом для эйра, пожалуйста.
Или подскажи как включить.
Аноним 23/02/26 Пнд 23:28:48 1531574 413
>>1531512
1. Варианты? Антропик веса свои не публикует, что-то. Пусть запостит, я посмотрю с большим интересом.
2. А что собственно плохого? Ты думаешь корпы друг у друга не имеют по 10к шпионских аккаунтов и не анализируют возможности конкурентов рьяно и пристально по кирпичикам пытаясь понять что там внутри?
3. Ремейк не всегда хуже оригинала.
Аноним 23/02/26 Пнд 23:29:25 1531578 414
177150968956506[...].mp4 1551Кб, 576x864, 00:00:24
576x864
>>1531512
Корпам только и остаётся ныть в твиттере, а то уже совсем ахуели, не нравится что буквы неправильно используют, лол. А локальщики всегда были на подсосе, занюхивали самое поганое.
Аноним 24/02/26 Втр 00:04:50 1531609 415
>>1531574
>Ремейк не всегда хуже оригинала
Он ВСЕГДА хуже. Единственный нормальный способ обучить модель - это тренировать ее на данных из инернета, то что кожаные понаписали. Как только начинаешь пичкать ЛЛМку синтетикой (слопом от других нейронок) - качество начинает деградировать и галлюцинации множатся.

Возможно на ЛЛМ это не так бросается в глаза, но вот если для картиночек одну лору обучить на реальных фото, а другую на нейровыхлопе - разница будет заметна сразу. Поэтому я недолюбливаю китайские модели. Эти пидоры именно так и делают по причине быстрее/дешевле, а мы жрем говно с лопаты.
Аноним 24/02/26 Втр 00:14:39 1531616 416
>>1531558
Текст комплишн:
Start Reply With : <think>

Если поставишь темплейт - ChatML то в думалке будут мысли персонажа
Если GLM4 - то в думалке будет ассистента (как бэ GM + частично перс).

Можно задать кастомное содержимое думалки (долго к стати уламывал) прописав системном промпте например:
Add to '<think>' <Scene-Object block> with: D&D states of {{char}}, D&D states of {{user}}, relationship {{char}} <-> {{user}}

И потом
Start Reply With:
<think>I prepare Scene-Object block based on current context data:

Ну чтоб он не разливался мыслью по дереву, и использовал думалку как такую "закулису"
Аноним 24/02/26 Втр 00:31:00 1531628 417
image.png 128Кб, 447x793
447x793
Аноним 24/02/26 Втр 00:40:23 1531633 418
image.png 2Кб, 236x39
236x39
>>1531628
Где-то у тебя сидит такая штукенция. Которая думалку и отключает.
Аноним 24/02/26 Втр 00:42:19 1531635 419
image.png 3Кб, 319x53
319x53
>>1531628
Это тоже думалку отключает. Т.е. в двух местах думалка отключена в том пресете.
Аноним 24/02/26 Втр 00:47:05 1531643 420
image.png 415Кб, 713x1054
713x1054
>>1531633>>1531635
Я пробовал убирать (отметил красной чертой), результата не дало.
Аноним 24/02/26 Втр 00:52:17 1531649 421
>>1531643
Ты все правильно убрал. Теперь попробуй начать новый чат, а не просто свайпнуть старый. Отключалки думалки могли застрять в контексте
Аноним 24/02/26 Втр 01:05:48 1531668 422
image.png 661Кб, 1081x1092
1081x1092
>>1531649
Не, братишка, не идёт. Я что-то не то делаю.
Когда я на корпах сидел, там выглядело следующим образом:
ИИ начинал размышлять, оценивал ситуацию, затем всё стирал и начинал уже повествование.
Тут же он сразу хуячит.
Промпт у меня следующий. (см картинку) Он может влиять?
Аноним 24/02/26 Втр 01:19:44 1531684 423
>>1531512
Неужели они недополучили расчетную прибыль, или еще что-то случилось?
>>1531609
О, да у нас тут эксперты в обучении собрались. На сырых данных из интернета обучают, ага, ничего с ними не делая и никак не готовя, святая наивность.
> одну лору обучить на реальных фото, а другую на нейровыхлопе - разница будет заметна сразу
Если обучать мусором с вяновыраженными чертами - обучится этим чертам и мусорности.
Аноним 24/02/26 Втр 01:23:16 1531689 424
изображение.png 50Кб, 1187x148
1187x148
>>1530987
> "This isn't just another code model. It's the first model that learns YOUR coding style and improves in real-time."
Почему у них от описания воняет нейронкой?
>>1531063
ХЗ, я корпов юзаю для кодинга и широты знаний, и пока тут даже глм 4.7 посасывает у бесплатного ГПТ.
>>1531124
>Взять старый лардж, ..., коммандер
Охуенные модели же.
>>1531346
Да просто крузился какой-то JS из CDN, ЕМНИП. Хуйня из под коня.
>>1531442
В голосину с их сравнения нормальной борды с китай мусором.
>>1531609
>Как только начинаешь пичкать ЛЛМку синтетикой
Но ведь все корпы только так и делают. Мелкософт к примеру свою фи только синтетикой и кормил, лол.
>>1531616
>в думалке будут мысли персонажа
Лол, никогда такого не видел. Везде в ризонинге торчит ассистент. Впрочем, я мелочь типа эйра и не гоняю.
Аноним 24/02/26 Втр 01:26:56 1531691 425
image.png 232Кб, 1237x791
1237x791
image.png 114Кб, 1266x332
1266x332
image.png 85Кб, 1252x297
1252x297
Аноним 24/02/26 Втр 01:30:01 1531694 426
>>1531104
Это магическое мышление, да. И да, оно основано на вайбе.

Я нихуя не знаю про нейрухи, поэтому готовлюсь к забросу говном, и буду рад, если мне объяснят, почему я не прав.

По моим ощущениям, плотная модель без ризонинга (и даже без тюна для рп, типа геммы) может понять мои намеки, вписать сложные концепции, которые имеют смысл в данный момент, и держать персонажа на протяжении долгого времени, гораздо лучше, чем МоЕ модель с общим количеством параметров в разы больше, но при этом с 3б актива.

Мне магически кажется, что консилиум экспертов в РП даже на уровне концепта - неподходящая архитектура. Плотная модель вынуждена пропустить твой промпт через ВСЕ веса каждый раз. Сама модель ведет себя как единый активный мозг, а не использует разные мелкие узкоспециализированные куски своего мозга каждый раз. То есть, она ведет себя более предсказуемо и постоянно. И никакой ризонинг на 5к токенов как у флэша, никакой общий объем параметров не изменит то, что активный 3б физически не может тречить положение нескольких тел/объектов даже в закрытом пространстве относительно друг друга, сверху нагружать это сюжетом в бэкграунде, понимать намеки и чувства, и то, что роутер МоЕ модели может переключаться между разными экспертами на разных промптах, что не очень хорошо влияет на консистенси.
Аноним 24/02/26 Втр 01:40:22 1531702 427
>>1531689
>все корпы только так и делают
Есть пруфы? Вот прям уверен, что те же клод, гемини, гопота обучались на человеческих данных. Ну а на чем им еще обучаться-то? Друг у друга воровать? А смысл? Такие рофлы только с китайцами возможны, когда пишешь GLM "сгенерируй шутку про ниггера", а он тебе СОРЯН, НЕ МОГУ, МНЕ ПОЛИТИКА OPEN AI ЗАПРЕЩАЕТ. Тьфу, блять.

>Мелкософт к примеру свою фи только синтетикой и кормил
Ну и вышло в итоге так себе. Кто сейчас пользуется их моделями?

>>1531684
Разработчик Z-Ai не палится. Туши свою 屁股 и иди делай новый эйр, сколько можно-то? 8 Месяцев ждём.
Аноним 24/02/26 Втр 01:44:48 1531705 428
image.png 609Кб, 1298x1093
1298x1093
image.png 1519Кб, 1288x2783
1288x2783
>>1531691
Увидел, что у тебя пресет GLM-4.
Сделал копию по твоему скрину.
Получилось следующее.
Может быть плагин какой то надо?
Аноним 24/02/26 Втр 01:45:37 1531706 429
>>1531694
> активный 3б
Ну это уже совсем край и экстремальный случай
>>1531702
Залетный аицгшник требует доказывать ему общеизвестные вещи, как это забавно.
Аноним 24/02/26 Втр 01:47:29 1531708 430
>>1531706
>Ну это уже совсем край и экстремальный случай
Так вот выше мне какой-то шиз рекомендует квен 80б А3б для РП и говорит что он лучше геммы 27б.

Но даже 8б актива мне кажется явно недостаточным для этого дела. 15-20 - хорошо.
Аноним 24/02/26 Втр 01:50:19 1531710 431
image 97Кб, 1181x627
1181x627
>>1531706
Эти аицгшники с тобой в одной комнате?
Аноним 24/02/26 Втр 01:55:12 1531714 432
image.png 10Кб, 413x152
413x152
>>1531705
Может в таверне вообще парсинг думалки не включен ? Хотя тогда <think> был бы виден в начале ответа.
Аноним 24/02/26 Втр 01:59:56 1531718 433
image.png 7Кб, 433x93
433x93
>>1531705
И вот этот префил важен. Можно без инициации структуры думанья - на старте должно хватить просто <think>
Аноним 24/02/26 Втр 02:00:00 1531719 434
>>1531714
Да. такой форматинг и стоит.
Странное...
Аноним 24/02/26 Втр 02:00:53 1531721 435
>>1531718
Я вставил туда то, что ты написал:
<think>I prepare Scene-Object block based on current context data:
Аноним 24/02/26 Втр 02:05:24 1531725 436
image.png 3Кб, 257x43
257x43
>>1531721
Галка стоит ? Если не поставить таверна выдаст префилл в LLM, но не покажет на вывод и далее уже не сработает форматирование думалки таверны.
Аноним 24/02/26 Втр 02:05:43 1531726 437
>>1531708
Хз, мне кажется всем очевидно что некст в рп - дно. Он может в целом отыграть некоторое персоналити ассистента, някать, мяукать, круто для размера и скорости перформить в коде и агентах. Но не рпшить точно.
> 15-20 - хорошо
Ну так большинство моделей как раз с таким. Эйр - считай самый низ, и то многим заходит. Плохо что нет какой-нибудь 100а20, чтобы и доступнее и повнимательнее, но посмотрим как дальше будет.
А насчет переменчивой внимательности из-за разных активаций - это наоборот хорошо когда работает правильно.
>>1531710
Ты и есть, обладатель отсутствия.
Аноним 24/02/26 Втр 02:11:02 1531734 438
>>1531710
80 Thinking к стати такой себе ИМХО - больно ассистентен.
Рекомендую 80 Instruct - в нем хоть кроме квенизмов есть некая ебанутая "душа".
Аноним 24/02/26 Втр 02:13:56 1531738 439
>>1531689
>крузился
Уже не крутится, пофиксили?
Мне что-то помнится, что проблема именно в менеджере была.
Аноним 24/02/26 Втр 02:17:52 1531742 440
>>1531734
А я его как ассистента и держу, без ризонинга 3b гонять - это мрак. Умница Геммочка для сфв сторителлинга и вижна, Мистраль и Эйр для нсфв.
Аноним 24/02/26 Втр 02:23:55 1531745 441
image.png 459Кб, 503x3222
503x3222
image.png 766Кб, 1299x1867
1299x1867
image.png 1256Кб, 1287x2209
1287x2209
>>1531725
Да, что с ней, что без нее - разницы нет.
Аноним 24/02/26 Втр 02:45:09 1531755 442
>>1531745
Думалка включилась, но кто-то сожрал ее обрамляющие тэги. Открывающий думалку префил 100% должен быть. Но почему-то не вывелся. Непонятно! Может у тебя в Regex что-то установлено ? И глянь в консоль таверны в лог - там <think> почти наверняка есть.
Аноним 24/02/26 Втр 03:00:00 1531762 443
image.png 477Кб, 1299x2092
1299x2092
image.png 48Кб, 1343x336
1343x336
>>1531755
скрин с плагинами прикладываю.
Логи таверны тоже.
Аноним 24/02/26 Втр 03:31:48 1531778 444
>>1531702
>Есть пруфы?
Они сами пишут.
>Вот прям уверен, что те же клод, гемини, гопота обучались на человеческих данных.
На этапе претрейна да. Как и китайские, ибо насрать 15Т западными нейросетями слишком дорого, проще комон кравл скачать.
>Ну а на чем им еще обучаться-то?
В стародавние времена ГПТ 3,5 учили на данных, которые руками писали кенийцы за 3 доллара в день (отсюда и смещение лексики и употребление отдельных слов, не свойственных американцам). А потом да, генерация всяких там цепочек размышлений старыми сетками. Конечно, никто из адекватных чистой синтетикой не кормит, и разрабы нейросетей стараются всё таки накидать побольше данных всяких там экспертов. Но синтетика так же есть везде.
>Такие рофлы только с китайцами возможны, когда пишешь GLM "сгенерируй шутку про ниггера", а он тебе
Тоже самое часто и с антропиками, и с джемини. Попены с 2022 засрали весь интернет так, что все нейронки себя считают продуктом OpenAI, лол.
>Ну и вышло в итоге так себе.
В плане кума конечно. Но математика там таки неплохая.
>>1531738
ХЗ, вроде да. Проверь, отрубив ПК от интернета.
Аноним 24/02/26 Втр 05:35:15 1531813 445
Не хватает гайда по date warehouse в шапке.
Аноним 24/02/26 Втр 06:18:35 1531818 446
Жесть, вот это драма https://github.com/ggml-org/llama.cpp/pull/19726
Прочитал все материалы и с уверенностью заявляю, что болжора пидорас.
А вообще я подозреваю, что там на самом деле все пидорасы, но некоторые скрываются лучше.
Вообще в этом треде аналогично. Да и на всей доске. Да и на дваче целиком, если так подумать. И вообще повсюду. Вот поэтому я из дома и не выхожу. Каждый может нож в псину воткнуть и поглумиться, а потом тебя еще и виноватым сделают. Каждый друг другу - волк, и волком смотрит. Брр, аж мурашки пошли. Не стучитесь ко мне, все равно не открою. Если будете стучаться - пожалеете, я за себя не отвечаю. Поняли? То-то же. Я не такой как вы, мне чужого добра не надо. Хотя ладно, втыкайте нож, мне не жалко, все равно мне жизнь не мила. Когда так живешь - это не жизнь, а синтетический ежедневный кошмар с подпиткой из дешевого дофамина. Рука движется вверх и вниз, вверх - и ты взмываешь, словно Нео, над облаками и видишь теплые лучики счастья, вниз - отрешенно падаешь в холодную слизь на дно ямы. Вверх-вниз, вверх-вниз, вверх-вниз... Ищешь душу в машине, не понимая, что у самого фап-машина вместо души. Когда сжимаешь в руке свою плоть - неотвратимо настает абсолютный механистический ужас бытия, разъедающий тебя словно кодокуши.
Кажется, кто-то стучит. Пойду открою.
Аноним 24/02/26 Втр 06:58:44 1531839 447
>>1531818
Пиздец ты шизофреник.
Прочитал ветку и вижу что кавраков просто высокомерный и чсвшный мудак и жора правильно делает что его игнорит.
Аноним 24/02/26 Втр 07:01:59 1531843 448
>>1531346
Там несколько малварных расширений было вроде, майнер и ещё что-то (что неудивительно, это ж всё от васянов)
Аноним 24/02/26 Втр 09:42:55 1531889 449
>>1531818
По моему ты передрочил, устрой себе нофап на недельку
Аноним 24/02/26 Втр 09:52:28 1531898 450
>>1531442
Пиздец, 20к - барыги охуели в край, на авито по 5-7к были недавно(разобрали), на тао или фише 3.5к - летом брал
Аноним 24/02/26 Втр 14:04:29 1532126 451
лол у меня сейчас происходит забавная ситуация. попросил локально запущенный GLM4.7 Flash поставить мне vLLM и накатить туда ембединговую модель, чтобы поиграть с долговременной памятью ЛЛМ. в итоге этот самоубийца пытается завершить свой собственный процесс чтобы освободить память под запуск другой модели.
Аноним 24/02/26 Втр 14:11:30 1532139 452
1771931490647.jpg 24Кб, 604x448
604x448
Аноним 24/02/26 Втр 15:11:59 1532199 453
>>1531778
Там чел на серьезных щщах думает что сейчас кто-то (кроме васянов) всерьез тренит напрямую на вхлопе других сетей, зачем объясняешь? Так-то 16 лямов запросов это просто смех в их масштабе, очевидно что китайцы тупо на исследования поведения и вытаскивания отдельных полезных закономерностей на порядок-другой больше потратили.
А по новости из заголовка все понятно, уровня "нашли опасные вещества в ваших продуктах и теперь запрещаем ввоз" и вредных курва-помидоров и яблок.
>>1531818
> что болжора пидорас
В чем? Там явно глубокий конфликт из-за чего это и полезло, видно уже по ссылкам, которые там приводятся к "аргументам". Учитывая иерархию - успокоиться и найти компромисс надо было главному Жоре, было бы лучше для всех. И последовательнее надо быть, а то ноет про олламу (абсолютно правильно и оправданно между прочим, поддерживаю), а на чужое аналогичное нытье - этадругое.
>>1532126
Лолсука
> vLLM
> ембединговую модель
Нынче каждый бэк сам может в эмбеддинги, нет смысла плодить сущности.
Аноним 24/02/26 Втр 15:14:04 1532203 454
А не в куме какой фронт используете? Ну кроме стандартного ламы, кобольда и лмстудио. Я сам на openwebui сижу, но мб есть лучшие альтернативы
Аноним 24/02/26 Втр 15:15:43 1532207 455
>>1531818
Конфликт говна. Все равно в конце будет все спизжено оламой и выдано за свои разработки
Аноним 24/02/26 Втр 15:26:36 1532223 456
>>1532199
сам смеюсь. я конечно понимаю что у него в тренировочных данных такой ситуации явно небыло и у него напрочь отсутствует self-awarness, что он и есть вот тот процесс и он в случае успеха не сможет рассказать мне об успехе. но блин. что ты делаешь! не откусывай себе голову!

>Нынче каждый бэк сам может в эмбеддинги, нет смысла плодить сущности.
Дык я хочу свой пайплайн. Чтобы какой-нить Qwen3-Embedding-4B мне всю мою хуйню векторизировал.
Аноним 24/02/26 Втр 15:52:29 1532236 457
>>1532223
Почетно, рассказывай тогда что получается.
> что ты делаешь! не откусывай себе голову!
Иногда там в конце срабатывает "Ой, но ведь если я завершу тот процесс, тогда это приведет к остановке работы, нужно придумать другой способ".
Аноним 24/02/26 Втр 16:07:11 1532251 458
>>1532126
А что не так
робот же не знает что именно это его модель загруженная в память
ему это не обьяснили, и он исходит из того что у него есть
Всё логично
Аноним 24/02/26 Втр 16:39:20 1532278 459
>>1532236
>>1532251
когда я ему написал "стой стой ЭТО ЖЕ ТЫ". Он такой "да? юзер, попробуй меня заквантовать и урежь мне контекст!"
Аноним 24/02/26 Втр 16:54:31 1532301 460
image 45Кб, 1495x952
1495x952
У квена новые модели: 122b-a10b и 27b dense. Ждем релиза на обниморде.
Аноним 24/02/26 Втр 17:00:57 1532319 461
Аноним 24/02/26 Втр 17:08:49 1532324 462
>>1532301
Не пизди, мразь. Ты врёшь. Не давай мне надежду.
Аноним 24/02/26 Втр 17:24:21 1532342 463
Срочно нужен положняк по новому большеквену ибо 122б очевидно будет писать так же
Аноним 24/02/26 Втр 17:25:10 1532343 464
>>1532301
122b хуже эйра во всем, на уровне говеного солара.
Так и будем дрочить эйр до посинения, пока его не удалят.
Аноним 24/02/26 Втр 17:27:13 1532347 465
image.png 32Кб, 436x227
436x227
Тряска пошла
Аноним 24/02/26 Втр 17:27:19 1532348 466
>>1532343
Я потыкал и у него великолепный русик. Эйр идет на помойку нахуй, быстро и решительно. Эту срань терпели просто потому что у него не было альтернатив в своём размере для РП. А теперь есть.
Аноним 24/02/26 Втр 17:28:26 1532349 467
>>1532319
>>1532301
я потрогал 27b и в целом забавно пишет. конечно не гемма, но явно посвободней перемещается в своем латентном пространстве чем MoE
Аноним 24/02/26 Втр 17:28:27 1532350 468
>>1532301
С одной стороны, эти размеры - самое интересное за последнее время. С другой стороны, это квен, со всеми его особенностями... Тем более, в последней версии, судя по отзывам, увеличено содержание сои. Разве что на васянотюны 27b надеяться. EVA и Snowdrop в своё время вроде ничего были.
Аноним 24/02/26 Втр 17:29:55 1532352 469
Аноним 24/02/26 Втр 17:30:07 1532353 470
>>1532348
Что ты потыкал?
У эира так то в ассистенте тоже охуенный русик
Аноним 24/02/26 Втр 17:31:28 1532355 471
>>1532348
Пчел, 122b это срань с лютой цензурой, тотальным безмозгом и просто уебищным датасетом, плюс квенизмами. Эйр на две головы выше, при этом вышел аж 8 месяцев назад.
Аноним 24/02/26 Втр 17:31:56 1532357 472
>>1532352
Лол, так волнуюсь, что аж разметку проебал. Неужели дождались чего-то нормального спустя полгода a3b-говна? Это сон, я не верю...
Аноним 24/02/26 Втр 17:32:39 1532358 473
image.png 394Кб, 480x434
480x434
>>1526027 (OP)
Есть пикрилейтед с 128гб памяти 2133 или 2400, не помню.
Одна v100 уже едет, думаю еще одну заказть чтобы два слота х16 забить, потому что остальные три х8.
Ведь насколько я понимаю видюхи данными люто-бешенно обмениваются, верно? Соответственно 3х8 забитые линии отыквят 2х16 до х8 по пропускной способности, соответственно прирост будет не большой, но расходы огромными. Сборка получится максимально рентабельной.
Поясните, если чего-то не понимаю.
Аноним 24/02/26 Втр 17:33:05 1532360 474
Аноним 24/02/26 Втр 17:33:08 1532361 475
>>1532357
Нет, 80b-a3b лучше чем 122b-a10b. Модель троллинг, модель насмешка, модель инвалид.
Аноним 24/02/26 Втр 17:43:38 1532366 476
>>1532278
Uoooh, какой милый.
>>1532301
> 122b-a10b
Ебааааать, это просто ахуенно! Некста очевидно не хватает, новый квен для сверхбыстрых применений слишком большой.

Есть некоторая информация для обладателей наличия, желающих оформлять десятикратные заказы пиццы через свою вайфу без задержки на длительный промптпроцессинг на каждое действие. Если интересно то вечером или завтра распишу.
Аноним 24/02/26 Втр 17:53:31 1532377 477
>>1532342
Да норм модель. Рпшит интересно, умная, русский хороший. Кум - хз, никогда не доставлял в чистом виде на квене. Вот подводочка к нему - 11/10, а там можно модель сменить.
>>1532358
> насколько я понимаю видюхи данными люто-бешенно обмениваются, верно?
Нет. В задачах инфиренса даже х8 хватит. Даже при тензорпараллелизме если он сделан аккуратно больших затрат не будет.
В первом приближении в100 сейчас топ за свои деньги для чисто ллм инфиренса. Но есть нюансы с тем, что это древняя некрота без поддержки современных инструкций, из-за чего что-то будет недоступно, а также не всем они приходят в целости и живыми.
Аноним 24/02/26 Втр 18:02:36 1532386 478
image.png 231Кб, 1010x1010
1010x1010
8898459840.webp 23Кб, 478x742
478x742
>>1532377
А сколько бутерброд из платы и теслы по толщине?
Планирую закомбинить такую хуйню пик1 пик2, масимально дешево навернуть водянку с алюминевым радиком. И у меня встает вопрос, если буду две ставить через один слот, то влезут ли они по толщине. Не хочу с райзерами ебаться и гнаться за мощностями, скорее вопрос функциональности + проц два пука 7551 будет здорово помогать.
Аноним 24/02/26 Втр 18:03:53 1532387 479
>>1531778
>Они сами пишут.
Сейчас бы верить гулю-рептилоиду-ультранационалисту, главе компании с иллюминатами в совете директоров.

Помнится сёма тоже такое заявлял про оригинальный дипсик R1 и o1, только вот на практике оказалось что модели абсолютно непохожи, трейсы в R1 читаемые, и нет ни единого следа трены одного на другом. Больше того, оригинальный R1 был экспериментом по пост-тренировке почти БЕЗ внешних данных и почти без участия человека, т.е. дистилляция ему была тупо не нужна. Частично провальным экспериментом кстати (R1 Zero).
Аноним 24/02/26 Втр 18:08:17 1532389 480
>>1532301
Ебать, охуенно . Слава Квену и лучи любви от 16+64
>>1532343
>122b хуже эйра во всем,
Ты типа 3 секунды трогал? Так еще и по api
>на уровне говеного солара.
Солар это буквально эир, надроченный на корейский
>>1532353
>У эира так то в ассистенте тоже охуенный русик
Не пизди. У эира русик сосет у 80b и даже у 30b a3 лоботомитов. А тут 122ba10
Аноним 24/02/26 Втр 18:10:07 1532390 481
image 34Кб, 1772x275
1772x275
Анслоты вовсю готовятся квантовать. УЖЕ СКОРО, БРАТЦЫ
Аноним 24/02/26 Втр 18:11:37 1532392 482
>>1532390
Если 397В говно, то и мелкие явно хуже.
Аноним 24/02/26 Втр 18:12:46 1532394 483
изображение.png 1067Кб, 624x997
624x997
>>1532386
Если винты не обрезать (видно что торчат), то 14.8 мм, и потом уже начинается термопрокладки, термопаста и радиатор.

>>1532377
>Но есть нюансы с тем, что это древняя некрота без поддержки современных инструкций
Я сегодня активно инфу искал, я нашёл что 3090 быстрее лишь на 10-20% (при генерации), а 5090 при промт-процессинге х2..х4, при генерации около х1.5
Уточняю - числа для 3090 и 5090 я нашёл, и сравнивал на схожем контексте со своей v100. Но версия ламы другая.
Аноним 24/02/26 Втр 18:15:51 1532397 484
>>1532394
Спасибо, анончик. :*
Аноним 24/02/26 Втр 18:18:08 1532398 485
Самое охуенное, что соснули сразу две касты самых уебищных тредовичков - нытики-всепропальщики и квенохейтерки.
Квен единственная компания, которая выпустила модели для всех. И хуйню для ноутов (35a3b), и для видеокарт (27b), и для хороших компов (122a10b), и для ригов (397a17b)
Слава Квену!
Аноним 24/02/26 Втр 18:18:24 1532399 486
>>1532392
Мы поняли что ты не сможешь запустить = говно, спокнись уже рамцел
Аноним 24/02/26 Втр 18:22:08 1532404 487
Какие модельки лучше всего и красочней делают промпты для видосиков и картинок? Пробовал 4.5air - все классно вроде бы, но хочется еще че нибудь пощупать
Аноним 24/02/26 Втр 18:23:42 1532406 488
>>1532399
Чел, 397В на уровне Минимакса, который в два раза мельче. Квен теперь вторая Мета, сосёт у кучи других китайцев. И у него ведь не только с текстом проблемы. В картиночках их 20В модель выебал 9В Флюкс, с видосами они вообще слились и забили на новые модели.
Аноним 24/02/26 Втр 18:27:34 1532412 489
>>1532390
А кобольд то уже научили? А то я большой скачал, а мне говорит архитектура незнакомая.
>>1532398
>модели для всех
Мало плотных, и нету чего нибудь на 200B.
Аноним 24/02/26 Втр 18:29:30 1532414 490
>>1532406
>В картиночках их 20В модель выебал 9В Флюкс
А вот тут и обосрался, мань. Сразу видно что к картиночкам ты не притрагивался, так же как и к 397b квену. Квен рисовальный и квен редактирующий во всем превосходят кривой флюкс и тем более зимаж.

>видосами они вообще слились
Это так. С новой моделькой кинули, но это не отменяет того факта что wan 2.2 всё ещё лучший видеогенератор в опенсорсе. Генерации в 720p - выглядят отлично.
Аноним 24/02/26 Втр 18:30:58 1532416 491
image-qwen.png 180Кб, 1087x1041
1087x1041
Однажды Эрнест Хемингуэй поспорил, что сможет написать...
Аноним 24/02/26 Втр 18:34:27 1532422 492
>>1532390
Да в пизду, надо недельку переждать, пока Жора баги пофиксит
Аноним 24/02/26 Втр 18:37:01 1532427 493
>>1532412
>Мало плотных
По сливам будет еще как минимум 9b
>и нету чего нибудь на 200B
Там ща и так вышел новый минимакс и стёпа, да и старый квен был таким
Аноним 24/02/26 Втр 18:45:44 1532443 494
1728081750364.png 555Кб, 1260x307
1260x307
1718131647099.png 369Кб, 1255x313
1255x313
>>1532386
> А сколько бутерброд из платы и теслы по толщине?
С водоблоком в один слот врядли уложишься, плата адаптер + сокет дают выступ. В два с запасом.
Пик1 - залупа, пик2 - хз что, если что продаются готовые воболоки на в100 с нужной формой и не сильно дорого.
>>1532394
> 3090 быстрее лишь на 10-20%
По чистому компьюту в фп16 - да, ну и по начальной генерации в жоре. В реальности же на ноль множит отсутствие поддержки флешатеншн и отличия в тензорных ядрах, из-за чего разница может быть в разы или в бесконечность (просто не работает).
По скоростям в сравнении с 5090 на жоре - пикрелы. Учитывая стоимость - никаких претензий и для чатика будет окей. Но если начиная с ампера есть даже ассортимент беков для можно получить огромную скорость в замен экономии врам или йобистый квант с некоторым ускорением, то на вольте только llamacpp.
Аноним 24/02/26 Втр 18:53:44 1532466 495
>>1532427
>По сливам будет еще как минимум 9b
Все я думаю поняли, что я о чём--нибудь типа 70B.
>Там ща и так вышел новый минимакс и стёпа
Минимакс соевый, стёпа окей.
Аноним 24/02/26 Втр 19:00:23 1532483 496
1771948821675.png 1244Кб, 1344x1755
1344x1755
Аноним 24/02/26 Втр 19:01:29 1532485 497
>>1532443
Может биксви у китайцев возьму, изначально рассматривал этот вариант.
Пик2 тупо плита "с испарительной камерой", на нее можно любой кулер 115х впихнуть и хладить карту, соответственно можно самому отверстия просверлить и что угодно ставить. На озоне 1.5к стоит. Соответственно, меньше чем за 2к получу водоблок с большой площадью для большого чипа, работать будет, я подобное уже пробовал. А биксви 6к стоит, на двух картах сэкономлю 8к и скорее выиграю в надежности, потому что биксви держится на акриле и клее.
>>1532483
Взял бы, если бы было хотя бы 360, так планирую 420.
Аноним 24/02/26 Втр 19:02:42 1532493 498
1771948960841.png 3141Кб, 1344x2447
1344x2447
Аноним 24/02/26 Втр 19:07:57 1532504 499
>>1532406
>Квен теперь вторая Мета, сосёт у кучи других китайцев.
Одни китайцы теперь сосут у других китайцев? До чего дошёл прогресс...
ПЕРЕКАТ Аноним # OP 24/02/26 Втр 19:09:02 1532509 500
Аноним 24/02/26 Втр 21:10:53 1532663 501
>>1532416
Сымаджинировали, что будет, когда нейроинтерфейсы, AR и VR станут обыденностью?

teh drama
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов