Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 325 51 76
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №170 /llama/ Аноним 06/10/25 Пнд 17:39:38 1378253 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17586504125690.jpg 690Кб, 1440x1913
1440x1913
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1372399 (OP)
>>1367731 (OP)
Аноним 06/10/25 Пнд 17:49:03 1378266 2
>>1378233 →
Квены все в xml, но к ним полагается свой парсер что позволяет адекватно разбирать сразу множественные вызовы и переводить их в популярный формат. У 480 и 30 одинаковый формат, мелкая модель предполагается для работы драфтовой к большой.
> У всех моделей команда сразу выполняется, у квен-кодера-30б в начале начинает писаться xml-код, а в середине команды он догадывается и дальше уже выполняет команду.
Это похоже на некорректную работу парсера. Если пускаешь через llamacpp то он не способен на 100% обработать, есть темплейт который в целом работает хорошо, ищи в прошлых тредах.
>>1378240 →
Кстати, а может над теми затычками в статье зря смеялись. В турине сильно бустанули псп на каждый ядерный блок, если брать не самое дно а чуть выше то он уже полностью или близко к этому способен утилизировать 12 каналов.
Аноним 06/10/25 Пнд 17:56:53 1378275 3
В жоре наконец залили правки по оптимизации мультидевайсных рпц серверов. Вытаскивайте свои майнерские материнки и бегом проверять https://github.com/ggml-org/llama.cpp/pull/16276
Аноним 06/10/25 Пнд 18:07:07 1378289 4
image.png 52Кб, 984x426
984x426
Аноним 06/10/25 Пнд 18:17:13 1378296 5
>>1378289
Прямо как твои посты.
Аноним 06/10/25 Пнд 18:27:23 1378306 6
>>1378289
база треда: ниже Q4 жизни нет
Аноним 06/10/25 Пнд 18:28:38 1378309 7
>>1378266
> Это похоже на некорректную работу парсера. Если пускаешь через llamacpp то
Понял, спасибо, проресерчу этот вопрос.
Аноним 06/10/25 Пнд 18:44:04 1378333 8
1759765443288.png 285Кб, 1584x2024
1584x2024
>>1378219 →
Можно конечно, но не буду же я агента писать, тем более я уверен что всё уже сделано до меня.
>>1378221 →
>>1378229 →
Да, вчера уже натыкался на метод с --grammar-file, попробовать не успел, потому что не совсем понимаю как его прикрутить к текущему webui с llama.cpp. Собственно, оно в том же треде что и мокрописька.
Но посмотрим, это всё не так сложно.
>>1378226 →
Пробовал и cline и roo и даже continue, в которой якобы с 19 августа есть поддержка gpt-oss, если судить по гитхабу. Но нет.
Проблема не в агенте, а в том что gpt-oss очень долго пиздили сапогом чтобы она не работала с чужими тулингами.
Аноним 06/10/25 Пнд 19:00:13 1378347 9
1759766412353.png 131Кб, 2169x789
2169x789
>>1378333
Оказывается grammar тоже подкладывается очень просто.
Да, теперь всё работает. Не так же плавно как если были бы нативные вызовы, но всё равно, работа пошла, только кликаю далее а проект чинится и собирается.
Аноним 06/10/25 Пнд 19:09:49 1378353 10
1.png 122Кб, 1412x718
1412x718
2.png 291Кб, 1538x783
1538x783
>>1378266
> В турине сильно бустанули псп на каждый ядерный блок, если брать не самое дно а чуть выше то он уже полностью или близко к этому способен утилизировать 12 каналов.

я не понимаю, как они из 36/72 гигабит в секунду получают 100 гигабайт в секунду, но в интернетах пишут
> With GMI-Wide, a single CCD can achieve 99.8 GB/s of read bandwidth
2 коре комплекса, то есть 2 core die, не могут превысить 200 гигабайт в секунду, так что надо брать 6 CCD и выше, чтобы получить все теоретические 600 гигабайт в секунду.
Аноним 06/10/25 Пнд 19:25:44 1378363 11
>>1378347
Вот и отлично. =)

Теперь найдите мне решение для Qwen3-Coder-30b, а то мне самому лень искать. хд

Попробую эту штуку, отлично.
На фоне бесплатного Qwen3-480b-Coder от клауд.ру смешно, конечно, но пусть будет, мало ли.
Аноним 06/10/25 Пнд 19:47:23 1378382 12
>>1378333
> поддержка gpt-oss
Может она заключается просто в специфичных промптах и предполагает что бек уже займется адаптацией под конкретную модель?
А насчет чужих ты зря, модели всегда лучше работать в том режиме как ее учили. Исключения для рп но для функциональных вызовов и точных результатов так.
>>1378347
В убабуге же, кстати, заявлена поддержка оаи вызовов. В итоге та штука не запустилась и решил так?
>>1378353
> как они из 36/72 гигабит в секунду получают 100 гигабайт в секунду
Какая-то бессмыслица, наверно подразумевается что это на линию а линий несколько. Или хуй знает что имеют ввиду, так бред какой-то.
Аноним 06/10/25 Пнд 19:53:04 1378388 13
>>1378382
> В убабуге же, кстати, заявлена поддержка оаи вызовов.
а в гпт-осс - нет
Аноним 06/10/25 Пнд 19:58:59 1378393 14
Аноним 07/10/25 Втр 10:28:46 1378783 15
>>1378382
> Какая-то бессмыслица, наверно подразумевается что это на линию а линий несколько. Или хуй знает что имеют ввиду, так бред какой-то.

хз я в нескольких местах видел это число 100 гигабайт в секунду на CCD. возможно кто-то один хрукнул бред от балды и остальные растащили по всему интернету
Аноним 07/10/25 Втр 14:20:32 1378949 16
Мета на сегодняшний день это 2 квант больших моешек - дёшево, важнее всего, быстро, и умнее всего что может быть на плотных
Аноним 07/10/25 Втр 15:03:32 1378976 17
Заранее извиняюсь за чересчур размытый вопрос.
Я не фанат локалок, но предпочитаю иметь несколько штук на всякий случай, если с интернетом что-то случится.
У меня сейчас скачаны мистраль смол 24б, квен моэ 30б-а3, синтия 27б

Это актуальные ллм, или стоит их заменить на что-то поновее?
Аноним 07/10/25 Втр 15:11:07 1378981 18
>>1378976
> Это актуальные ллм, или стоит их заменить на что-то поновее?
Смотря какое железо, какие задачи. Если есть хотя бы 16гб видеопамяти и 64гб оперативы, можно запускать GLM Air. Остальное в целом актуально, если Мистраль 3.2.
Аноним 07/10/25 Втр 15:47:05 1379071 19
>>1378976
Можешь ещё гопоту мелкую скачать (gpt-oss-20b). И квен чекни, чтобы последний был, они его обновляли.
Аноним 07/10/25 Втр 15:54:09 1379096 20
Аноним 07/10/25 Втр 15:58:21 1379104 21
Аноним 07/10/25 Втр 16:24:33 1379157 22
>>1378976
Как выше советовал, загрузи еще осс 20 и воздух, да.
А так, же осс 120, гемму 27.

И не забудь пару мелки. Зачем? Не знаешь с каким железом окажешься в будущем. Потому допом грузани:
гемму3 12, гемму 3н е4, квен 14, квен 0.6, SmolLM3-3B.

Ну и сам поищи что-то допом. Мне нравится пару моделей двух летней давности, по факту хуета и анону не нужны, но мне нравится.
Аноним 07/10/25 Втр 16:32:26 1379176 23
Аноним 07/10/25 Втр 17:26:06 1379338 24
Внимание вопрос, а почему такая большая разница в скорости у gpt-oss-20b-MXFP4 и gemma-3-27b-it-Q3_K_S?
Модели ведь схожи по размеру. Но разница в скорости раз в 10.
Аноним 07/10/25 Втр 17:41:11 1379391 25
Аноним 07/10/25 Втр 17:42:17 1379393 26
>>1379338
> почему такая большая разница в скорости у gpt-oss-20b-MXFP4 и gemma-3-27b-it-Q3_K_S?
Гемма - классическая, привычная нам плотная модель, которая одновременно задействует все свои параметры (27b в случае данной Геммы). GPT OSS - МоЕ модель (Mixture of Experts), которая одновременно задействует только часть параметров (в случае 20b версии 3.6b, в случае 120b - 5и). Упрощая, можно сказать, с точки зрения скорости это то же самое, что запускать 3.6b модель.
Аноним 07/10/25 Втр 17:54:10 1379408 27
>>1379391
>>1379393
Так это MOE такой выигрыш даёт. Наглядно, ничего не скажешь.
Ну слушайте, мне нравится gpt-oss-20b, но контекста в 128к для чего-то серьёзного не хватает.
Вчера часа три пыталась мне собрать мой старый проект из VS Code с использованием трёх либ со статической линковкой и просто наглухо завязла в зависимостях.
Qwen выглядит поумнее, быстрее приходит к нужным заключениям и сразу смотрит в корень, но за то время пока он выполнит одну команду oss успевает выполнить 10 запросов и сделать то же самое и даже больше.
Аноним 07/10/25 Втр 19:05:22 1379531 28
1000018101.jpg 477Кб, 1080x1533
1080x1533
Чего в теории ждать?
Что еще могут улучшить?
Хорошо бы было 20б активных параметров вместо 12
Аноним 07/10/25 Втр 19:11:31 1379548 29
>>1378976
Если что-то случиться то тебе будет не до ллм.
Для случая временных перебоев двачую остальных что модели лучшие в своем классе. Если железо позволяет то стоит скачать самые жирные моэ, которые смещают твоя рам, можно использовать вместо гугла.
>>1379408
Удивительно что она в таком контексте вообще ориентироваться может. Смотри в сторону оптимизации запросов и сокращения задействованного контекста. Обычно в таких случаях запускают суб-агентов, которые анализируют какие-то зависимости или участки с учетом запроса, а потом возвращают сжатую инфу по ним. Придется гуглить все релейтед твоему софту.
Как вариант, попробовать более ужатый квант квена, что будет шустро крутиться у тебя.
Аноним 07/10/25 Втр 19:55:51 1379631 30
1759856150236.png 76Кб, 832x394
832x394
1759856150242.png 36Кб, 744x527
744x527
>>1379548
>Смотри в сторону оптимизации запросов и сокращения задействованного контекста.
Если будет не хватать, посмотрим. А пока нормально, мучаю всякими тупыми запросами, за вечер мне уже написали конвертер из fb2 в txt и генератор текстур на питоне, ну и почти готов простенький графический редактор на js. Маленькие приложухи, но прикольно что он из нативного текста пишет тебе код пока ты занимаешься своими делами.
>Как вариант, попробовать более ужатый квант квена
Попробовал Q3_S, даже он очень медленно работает, и памяти жрёт как не в себя с таким же контекстом. Возможно нужно более точные настройки задавать. Но всё равно, даже на 30 токенах в секунду уснуть можно будет.
Аноним 07/10/25 Втр 20:26:20 1379665 31
obosralsa.jpg 79Кб, 1280x720
1280x720
Аноним 07/10/25 Втр 20:26:37 1379667 32
Вы осознаете, что exllama стала еще менее полезной с тех пор как плотные модели уступили моэ? Вангую, что на ней буквально одни геммашизы сейчас сидят.
Аноним 07/10/25 Втр 20:29:38 1379670 33
>>1379667
Все также как и раньше - она полезна если у тебя хватает рам для запуска.
Аноним 07/10/25 Втр 20:36:03 1379678 34
>если у тебя хватает рам
Опять под веществами в тред пришел?
Аноним 07/10/25 Втр 20:36:35 1379682 35
>>1379678
Врам, очепяточка. Почему ты такой злой?
Аноним 07/10/25 Втр 20:43:47 1379688 36
>>1379682
Потому что характер у него - говно.
Аноним 07/10/25 Втр 20:48:03 1379697 37
>>1379682
Это я еще сдержался, ведь ты не понял посыла - на жоре люди запускают квант большеквена и довольно урчат. Надо ли напоминать, что они смогут запустить на экслламе? И я еще молчу про требования к железу.
Вообще кроме жоры литералли нет бекендов, которые настолько юзер френдли к пользовательскому железу. Остальным реально надо ли чуть ли не карты из датацентра и еще не факт, что будет нормально работать. В свою очередь, в жоре не могут сделать очевидные вещи - например, забрать опцию -amb из ik_llama, чтобы тебя не распидорасило компьют буферами, или автоматический сплит по картам. Литералли выбор между гигантской клизмой и сендвичем с дерьмом.
Аноним 07/10/25 Втр 21:09:37 1379716 38
>>1379697
Это ты не понял смысла, зато как агрессируешь чтобы компенсировать неуверенность и недовольство.
Весь тейк про требования к видеопамяти, про него ты повторил аж четырежды(!). Лучше сходи и выступи с призывом запретить любой товар категории выше среднего, ведь он дорог, как раз начни с компьютерного железа.
Ну а по остальному
> -amb из ik_llama
В оригинальной лламе в свое время буферы оптимизировали и потому не стали добавлять, разве есть смысл?
> автоматический сплит по картам
Неужели спустя пол года острой необходимости его наконец сделали, или это очередное змеиное масло от Болгарина?
А в экслламе он уже пару лет как, и после загрузки работает стабильно, без роста и крашей по ходу работы как на жоре и форках.

Главное преимущество экслламы - отсутствие огромного оверхеда от накопления контекста, который случается на жоре при работе на куде. На этом краеугольном камне нужно сосредоточиться, но не похоже чтобы это кого-то волновало. Причины, в целом, объяснимы.
Аноним 07/10/25 Втр 21:19:57 1379721 39
>>1379716
>В оригинальной лламе в свое время буферы оптимизировали и потому не стали добавлять, разве есть смысл?
Попробуй запустить Дипсик без фа на ванильном, тебя распидорасит. А вот на болжоре все прилично (у меня без фа работает в два раза быстрее почему-то)
>его наконец сделали
не, я тут как раз экслламу и прочие имел в виду, где это есть
>отсутствие огромного оверхеда от накопления контекста, который случается на жоре при работе на куде.
Это все хорошо, но какой от этого смысл, если запускать нечего? У кого-нибудь тут есть кейсы, где он работает ХОТЯ БЫ на 32к+ контекста на моделях, помещающихся в экслламу? Для РП такие контексты не нужны, а для всяких кодингов - уже модели слишком тупые, которые могут поместиться.
Аноним 07/10/25 Втр 21:31:02 1379725 40
image.png 55Кб, 1953x241
1953x241
image.png 67Кб, 838x466
838x466
МИ50 х2. Смысла НЕ резать их до 150 нет
Аноним 07/10/25 Втр 21:44:48 1379736 41
>>1379721
Хм, надо попробовать. Тут вообще человек 5 как минимум дипсик пускали и не жаловались. Но если изменение атеншна тут дает ускорение то интересно.
Весь опыт с болжорой оказался грустным. Пока одна гпу - все ок, как только больше - идет замедление относительно одной. Насколько сложно интегрировать его наработки в основную лламу?
> Это все хорошо, но какой от этого смысл, если запускать нечего?
Пускаешь те же моэ которые помещаются. 123б мистраля катали - влезет и эйр, если от 120 памяти - квен, если 200+ - жлм и далее. В рп контекст нужен, ты зря, и также на каких-либо задач нужна скорость. С 2.5 т/с которые не токены а золото! много каши не сваришь, про агентов можно вообще забыть.

Главная тема - экллама же бесплатна. Это не ненужная пидписка что жрет деньги, не попильная статья в счетах, или какая-то паразитирующая инфоциганская залупы типа олламы. Это буквально продукт который можно просто так взять и использовать, устраивая урчание. Или не использовать если не подходит.
Аноним 07/10/25 Втр 22:10:52 1379785 42
>>1379736
> экллама же бесплатна.
Тоже этого не понимаю. Раз в несколько тредов обязательно придет сумасшедший, посчитавший своим долгом рассказать насколько бесплатный проект ему не нужен, насколько он дерьмовый и не заслуживает права на существование. И плевать, что существуют реальные юзкейсы, когда Эксллама лучше всего для инференса.
Аноним 07/10/25 Втр 22:11:41 1379787 43
>>1379736
>Насколько сложно интегрировать его наработки в основную лламу?
Ну тут вообще не знаю, но я сталкивался с наработками только по дип писику (всякие мла, аж три штуки), fused moe (мб это уже и обычной лламе есть?) и вот amb.
>Пускаешь те же моэ которые помещаются.
Ага, я с помощью старых карт и рам на жоре могу катать большой глм, а на экссламе мне только хуй за губой покатают.
>В рп контекст нужен
Не нужен, после 32к все советуют саммари делать, дальше уже лоботомитство начинается
>про агентов можно вообще забыть.
А что там серьезного есть для агентов, квен кодер под 400B? Иди попробуй набери карт нужной архитектуры под это дело, чтобы на экслламе запустить, и чтобы еще покушать осталось. Вот я даже тред пролистнул, упоминают гпт. Кажется, хороший кандидат. Вбиваю - а квантов exl2/exl3 нэма. Поэтому реалистично сейчас только лишь катать гемму или плотные квены 32б, потому что все, что выше - это современные моэ, которые ты, конечно, можешь упихнуть, если у тебя риг, но если у тебя риг, зачем тебе катать эир вместо обычного глм на жоре? Хз, юзкейсы экслламы для меня сейчас очень специфично звучат.

>экллама же бесплатна
Мне кажется, что разраб там пошел куда-то не туда. Он забил ПОЛНОСТЬЮ на поддержку exl2 (смотри даты PR там), что меня не радует, так как я не гордый обладатель рига блеквелов. Хотя бы выгрузку в RAM запилил, ей богу.
Аноним 07/10/25 Втр 22:38:12 1379801 44
>>1379787
По дипсику и в обычную много добавляли, так что хз. Он работает примерно так как и ожидаешь с учетом распределения по устройствам и количества активных параметров. Если можно ускорить - круто, распиши что получил и как действовал.
> с помощью старых карт
Увы, что поделать. Но это буквально то же самое что сокрушаться о невозможности стать чемпионом мира по легкой атлетике из-за генов и идти хейтить спорт. Или упрекать дорожников в лимитах 110-130 на магистралях потому что в твоей колымаге страшно на тех скоростях ехать.
> Не нужен
Тыскозал.
> А что там серьезного есть для агентов, квен кодер под 400B?
Квен 235 инстракт, буквально он. Превосходит большого жлм. Эйр, прекрасно справляется. Большой жлм, квенкодер, да хоть дипсик. Они все прекрасно работают в агентах и буквально тренированы для этого.
> Иди попробуй набери карт нужной архитектуры под это дело, чтобы на экслламе запустить
Так-то проблемы только на теслах и мишках, тьюрингов ни у кого нет.
> упоминают гпт
Жпт особый случай, он хитрым образом заквантован с завода. Если что, в жору его поддержка была добавлена костыльно, буквально хардкодом, который частично меняет типичное поведение ggml бэкенда ради одной единственной архитектуры. И не без помощи опенов. Gguf "квантов" его формально не существует, или просто перепаковка, или вредительство с квантованием 1% весов что специально не стали трогать опены.
С тем же успехом можешь поискать кванты на qwen3-next, будут все кроме ггуфов.
> но если у тебя риг, зачем
Так собери, расскажешь как оно там.
Ну а про разраба - тебе никто не мешает взяться самому за поддержку прошлой ветки. А то сидеть пиздеть все гаразды, зато что-нибудь полезное сделать - хуй там.
>>1379785
Такое сплошь и рядом, а тут проект какие-то требования для запуска имеет.
Максимально осудительно так делать, должно быть стыдно.
Аноним 07/10/25 Втр 23:15:53 1379836 45
>>1379408
Вот бы видяху на 48 гигов, да? Скорости бы почти сравнялись, эх…
Аноним 07/10/25 Втр 23:18:47 1379841 46
>>1379801
>идти хейтить
А где хейт? Я изначально написал, что она стала еще менее полезной для обывателя. А вот жора все полезнее и полезнее, раньше не умел тензоры выгружать - теперь умеет.
>Тыскозал.
Это консенсус общий, не копротивляйся. Модели лоботомируются сильно быстрее заявленных контекстов
>Квен 235 инстракт
Ну то есть тебе нужно минимум 200+ Гб амперов только чтобы вместить вменяемый квант.
>дипсик
Тут вообще запределельное число врам нужно будет.
>тьюрингов ни у кого нет.
Вот это реально тыскозал
>Так собери, расскажешь как оно там.
Так уже собран, на экслламе катать нечего - нет ни выгрузки, ни поддержки старых карт. Ну разве что лардж могу, но нахуй оно надо, когда есть глм
>сидеть пиздеть все гаразды, зато что-нибудь полезное сделать
Аргумент уровня "сперва добейся". Я-то делал полезное в v2, только турбодерп прямым текстом мне сказал, что он занят с v3 и у него нет времени смотреть правки. Не надо - так не надо
>должно быть стыдно.
Я никому ничего не должен, как и они мне, но мое право заявить, что от консьюмерских юзкейсов эксллама уходит все дальше, частично по своей воле

>>1379785
> бесплатный проект
Какое отношение монетизация проекта имеет к его качествам? Мне вообще абсолютно поебать, платный он или бесплатный, получает ли турбодерп из госдела 15 долларов или сидит на воде и хлебе.
>насколько он дерьмовый и не заслуживает права на существование.
проекции
Аноним 07/10/25 Втр 23:43:32 1379861 47
>>1379841
> А где хейт?
Желчь в начальных ответах, сравнения, претензии, этот пост.
> раньше не умел тензоры выгружать
Умел, не ценили.
> Ну то есть тебе нужно минимум 200+ Гб амперов
120+. Для эйра хватит 72, 96 чтобы было совсем хорошо. Для квена-некст (когда его хорошо сделают) еще меньше, а модель оче перспективная.
> делал полезное в v2, только турбодерп прямым текстом мне сказал, что он занят с v3 и у него нет времени смотреть правки
Потому обиделся? Понять простить, так-то третья более перспективна.
> Так уже собран
Там теслы, подключенные через х1? Сам создал проклятый мир, предупреждали же.

Вернемся к началу
> к его качествам
качества проекта не падают если ты не удовлетворяешь минимальным требованиям к его запуску, или не можешь найти применения тому что есть. Нытье с обвинениями окружающих и претензиями только хейт вызовет.
Аноним 08/10/25 Срд 00:15:31 1379890 48
А нахуя вы вообще ебетесь с этими ригами и локальными дегенерациями. Ясно же что корпосетки ушли уже в полный отрыв, а дальше тупо сайты начнут блочить доступ к апи со всяких мутных сурсов и все.
Аноним 08/10/25 Срд 00:19:54 1379893 49
>>1379890
>Ясно же что корпосетки ушли уже в полный отрыв
Извините, но я не могу ответить на этот вопрос © типичный ответ на карточку анона
И вообще, корпошизика пора репортить, заебал уже вытекать из своего загона.
Аноним 08/10/25 Срд 00:22:30 1379897 50
>>1379893
А вы все не наиграетесь с этой кумерской карточной хуйней что ли? Я думал все проехали уже данный этап.
Аноним 08/10/25 Срд 00:25:13 1379900 51
>>1379890
> корпосетки ушли уже в полный отрыв
То то в аицг уже оффициально кумят на тех же самых моделях что катают местные, лол.
Аноним 08/10/25 Срд 00:26:12 1379901 52
>>1379861
>Желчь в начальных ответах, сравнения, претензии, этот пост.
Мы на дваче, если ты забыл, а не в клубе благородных девиц, я не буду писать сюда стерильные посты. Кстати, охуенно ты записал сравнения и претензии в хейт. НЕ СМЕЙТЕ СРАВНИВАТЬ СВЯЩЕННУЮ ЭКССЛАМУ И НЕ ДАЙ БОГ ПРЕТЕНЗИИ БУДУТ

>Умел, не ценили.
-ot же не так давно запилили. На ктрансформерсах можно было выгружать, в жоре нет

>120+
Але, люди пишут, что для агентов надо минимум 6 квант, а лучше восьмой. На жоре 8й квант 270 Гб, неужели аналог 8 кванта в экслламе весит 120? Не поверю. Пойду-ка проверю. Ах да, тут же начинается типичное "сделай сам", не завезли на хф 8 квант-то. И 6-й не завезли. Вот 5-й 150 Гб, примерно бьется с анслотовским ггуфом Q5 XL на 170 гб. Так что хочешь не хочешь, а изволь выложить 200+ гб врам, и это без учета контекста. Да еще и сквантуй сам, если, конечно, осилишь, т.к. все квантеры почему-то не осилили.

>через х1
ох уж эти мантры про х1

>качества проекта не падают
Качество exl2 упало, потому что его перестали поддерживать, по сути. А exl3 звучит как какой-нибудь условный фа3 - что-то напердолено для хопперов, но к нам это уже отношения не имеет. Конечно, тут кейс не такой терминальный, но тенденция прослеживается.
Аноним 08/10/25 Срд 00:28:47 1379904 53
>>1379897
Кумишь на ассистенте?
А вообще, это был намёк на то, что даже первое сообщение не проходит мочерацию говнокорпов. Поэтому полезность любой корпосетки равна 0, даже если там 9000 IQ (что совсем не так, ибо чашку с запаяным дном даже гопота не распознаёт (или распознавала, сейчас могли и дотрейнить)).
>>1379900
А анусы проксихолдерам всё так же продают за доступ к проксичке? Просто не был в аицг параше с год уже.
Аноним 08/10/25 Срд 00:44:25 1379919 54
>>1379904
>Поэтому полезность любой корпосетки равна 0
Делите sfw и nsfw контент. Сюжетец на корпоратах, а кум на васянской obliterated сборочке.
Аноним 08/10/25 Срд 00:46:43 1379921 55
изображение.png 3Кб, 114x102
114x102
>>1379919
>Сюжетец на корпоратах
Извините, я не могу продолжить этот сюжет, так как он содержит насилие, негров и неуважение к меньшинствам © любая корпоблядь на любую хуйню
А сценарии для детсада пусть сами играют, разрешаю. Главное чтобы в этот тред не лезли.
Аноним 08/10/25 Срд 00:48:24 1379923 56
>>1379901
> люди пишут
Так у тебя видеокарты есть ,почему еще не проверил а на других ссылаешься? Судя по обсуждениям, в треде кто агентов юзает можно по пальцам пересчитать, так еще среди них пара совсем свежих ньюфагов. Вот те ребята молодцы, не все же ретроградам мариноваться.
> неужели аналог 8 кванта в экслламе весит 120
Оппик.
> Пойду-ка проверю.
Не запустится, лол.

Сначала натащил всратой некроты, думая что самый умный @ Теперь ноешь с того что от нее нет толку. Надо было раньше думать, сейчас коупинг не поможет.
>>1379904
> анусы проксихолдерам всё так же продают
Вручную пишут развернутое сочинение почему им нужен доступ, предлагают пилить карточки на заказ, присылают картинки по вкусам.
> полезность любой корпосетки равна 0
Самое обидное когда там триггерится аположайз просто без какой-либо явной причины. Вдвойне весело если сидишь через их веб интерфейс а не апи.
Аноним 08/10/25 Срд 01:09:02 1379945 57
>>1379923
>Так у тебя видеокарты есть ,почему еще не проверил а на других ссылаешься?
Потому что я не пробовал кодинг с ллм, поэтому ссылаюсь

>Оппик
хуик, там разница не настолько значительная на старших квантах, уже на 5-м +- все одинаково становится.

>нет толку
Толк есть, но не в экслламе. И куча пользователей, у которых одна мощная карта и достаточно RAM, чтобы гонять моэ, думают аналогично.
Аноним 08/10/25 Срд 01:26:06 1379959 58
>>1379945
Ты много чего не пробовал. Вместо коупинга приложи силы чтобы это сделать и продай теслы пока еще возможно. А то так и придется оправдывать золотые 3.5 токена и перфоманс хуже чем у братишек на десктопах.
Аноним 08/10/25 Срд 01:57:20 1379972 59
Почему у мелкомистраля начинаются приступы шизофрении на температуре 1.05 в рп? Это же не такая большая температура на оригинале модели.
Аноним 08/10/25 Срд 02:21:28 1379980 60
Обновленные версии моделей поменяли синкинг в рп.
Квен 235 синкинг теперь не прибивает все гвоздями как прошлый в ризонинг режиме, а старается разнообразить. Именно здесь жлм 4.6 рассуждает лучше чем 4.5, не ошибается и реже уводит в сторону, устойчивее думая на длинных чатах.
Все еще не панацея, но лучше чем раньше, стоит попробовать если вдруг не нравятся обычные ответы.
>>1379972
Note 1: We recommend using a relatively low temperature, such as temperature=0.15.
Аноним 08/10/25 Срд 02:45:03 1379993 61
>>1379959
Проход в теслы, все ясно
Аноним 08/10/25 Срд 03:56:58 1380000 62
>>1379665
Блеть, он же на базе старого мелкомистраля, будет ли лучше нового в рп?
Аноним 08/10/25 Срд 08:19:54 1380041 63
>>1379785
>Раз в несколько тредов обязательно придет сумасшедший
Ответная реакция на идентичные действия со стороны пользователей exllama в адрес llama.cpp и производных. Сейчас поутихло, а с год назад активно пиарили первую и пинали последнюю. Настолько заебали, что до сих пор олды вспоминают при каждом удобном случае.
Аноним 08/10/25 Срд 11:48:50 1380154 64
на чём щас нищие дрочат с русиком? Квен псевдо30б мое он же 9б?
Аноним 08/10/25 Срд 13:14:13 1380245 65
>>1380154
На нем даже богатые не дрочат
Аноним 08/10/25 Срд 13:32:29 1380276 66
>>1380154
>на чём щас нищие дрочат с русиком?
Omnino-Obscoenum-Opus-Magnum-MN-12B или другие миксы Сайги от здешнего анона. Совсем и неплохо.
Аноним 08/10/25 Срд 14:02:20 1380321 67
изображение.png 69Кб, 1298x773
1298x773
Эх, а я то думал, что в этом вашем квене-vl нормальная обработка картинок. А там говно уровня VisionTransformer (сам VisionTransformer (если брать чистый с реализацией, похожей на пикрил) тоже говно).
Парочка небольших улучшений, и качество распознавания картинок (и видео) взлетела бы в небеса. Но всем похуй, никто не читает все препринты по МЛ, поэтому юзают самые распиаренные, первые решения, которые улучшают по всем параметрам каждая первая лаба.
Мимо бурчит сборщик GPT2 в ComfyUI
Аноним 08/10/25 Срд 14:20:21 1380338 68
>>1379993
Риг шредингера, он вроде есть, а толку с него нет.
>>1380041
Жору не пинали а говорили о его проблемах - припезднутое распределение врам с сильным ростом по мере использования, низкие скорости и просадки. Он был уделом совсем обладателей отсутствия с ужасно низкими скоростями и теслойобов, которые ущемлялись от цифер обработки сравнимых с генерацией. Сейчас часть косяков поправлена и с моэ он стал более популярным.
> что до сих пор олды
Что до сих пор теслашизы устраивают визг, вот так будет правильно. Ведь современный жора с моэ для них тоже бесполезен, для признания ошибки проходят стадию гнева и торга.
Аноним 08/10/25 Срд 14:52:38 1380362 69
1612561024389.png 2507Кб, 2725x1803
2725x1803
>>1380321
У тебя на пике не трансформер, мамкин эксперт. Это блок для разбивки на патчи после визуального энкодера, чтоб плоский тензор в столбец конвертировать для линейных слоёв. В Квене стандартная современная реализация энкодинга пикч, хотя откуда тебе знать как нормальный энкодинг должен выглядеть, лол.
Аноним 08/10/25 Срд 15:13:01 1380386 70
изображение.png 657Кб, 2994x1861
2994x1861
>>1380362
>В Квене стандартная современная реализация энкодинга пикч
Спасибо, капитан! Я об этом и написал. Хотя она лучше старого фиксированного разрешения, но всё равно говно.
Но всем похуй. Пикрил сравнение простой CNN, VisionTransformer и моей модификации (впрочем, не совсем моей, я нашёл препринт с такой же реализацией и такими же выводами). У квена, как не сложно догадаться, реализация как у синей линии.
Но это конечно я долбоёб, не умею в гиперпараметры, и не имею кластера, чтобы ебать VisionTransformer в 100 раз дольше CNN, пока результаты хотя бы не сравняются.
Аноним 08/10/25 Срд 15:43:25 1380425 71
>>1380386
> считает loss метрикой
А ты оказывается совсем долбаёб.
> Пикрил сравнение
Пикрил может быть что угодно. Видя какой ты долбаёб, я уверен что ты не знаешь как пользоваться трансформерами. Особенно орно видеть как ты MobileNetV3 из 2019 года без аттеншена приплёл сюда, так и не поняв буквы на прошлой картинке с описанием энкодера.
> Но это конечно я долбоёб, не умею в гиперпараметры, и не имею кластера, чтобы ебать VisionTransformer в 100 раз дольше CNN, пока результаты хотя бы не сравняются.
Ты долбаёб хотя бы потому что не понимаешь какая разница в производительности у конволюшенов и трансформера, сравнивая хуй с пиздой.
Аноним 08/10/25 Срд 16:05:20 1380444 72
изображение.png 24Кб, 590x188
590x188
>>1380425
>> считает loss метрикой
>сам придумал-сам опроверг
Найс. Офк я сравниваю аккурати и топ5 аккурати, но у тебя в глазках мыло от трансформеров походу.
>Видя какой ты долбаёб, я уверен что ты не знаешь как пользоваться трансформерами.
>нете гиперпараметры
Я перефорсил ранее, ты поздно проснулся.
>Особенно орно видеть как ты MobileNetV3 из 2019 года без аттеншена приплёл сюда
Сравнивать разные архитектуры это орно? ИЧСХ, он подебил чистый трансформер, оба вышли на плато с разницей в 18 пунктов.
>Ты долбаёб хотя бы потому что не понимаешь какая разница в производительности у конволюшенов и трансформера
Прекрасно понимаю, что трансформеры сосут при одинаковых затратах. Пикрилы кстати 32.4min против 41.0min против 2.0h, лол. Где какой, думаю можно угадать могиле нет, моя версия, чистые трансформеры.
Аноним 08/10/25 Срд 16:47:13 1380481 73
>>1380276
>Omnino-Obscoenum-Opus-Magnum-MN-12B
Отказался от него в пользу гутенберг энкор, когда распробовал. Ну и секспедишн тоже сильно лучше, хотя и несколько покрупнее.

мимо анон с 1660s
Аноним 08/10/25 Срд 16:48:44 1380482 74
>>1380444
> аккурати
Шиз, плиз. L2 - это всё так же не метрика. Есть масса причин почему L1/L2 могут быть ниже, но при этом иметь результат сильно хуже. Ты что там тренишь? Бери подходящую метрику и не позорься. Выглядишь как студент машоба.
> Сравнивать разные архитектуры это орно?
Орно показывать маняграфики с подписями как на заборе.
> Прекрасно понимаю, что трансформеры сосут при одинаковых затратах.
Я же говорю ты дегенерат. Конволюшен в разы менее эффективный по сравнению с трансформером, ты ведь даже не знаешь что значит операция конволюшена, она никак не может хотя бы сравняться по скорости перемножения матриц. Это главная причина, почему его везде где могут заменяют на трансформеры. При одинаковых затратах на вычисления в трансформерах в десятки раз больше параметров.
Аноним 08/10/25 Срд 16:58:42 1380493 75
>>1380482
>L2 - это всё так же не метрика.
Назови метрику.
>Ты что там тренишь?
Конкретно тут 1/10 от имагенета 2012 года разлива. Чисто для обучения, не более того. Можешь подсказать датасет лучше, если знаешь.
>Выглядишь как студент машоба.
А я и есть. Точнее, не в вузе, просто сам изучаю, конкретных задач нет кроме создания AGI в подвале и захвата мира.
>Конволюшен в разы менее эффективный по сравнению с трансформером
Ну как видишь, пока что отсос в 4 раза не в пользу трансов. Карта была загружена в обоих случаях на около 100%, но на свёртках обучение заняло полчаса, а на трансах 2.
>ты ведь даже не знаешь что значит операция конволюшена
Маняфантазия.
>При одинаковых затратах на вычисления в трансформерах в десятки раз больше параметров.
Так это ж минус, лол. Или ты дрочишь на число параметров, забив на эффективность?
Аноним 08/10/25 Срд 17:01:20 1380495 76
>>1380338
Exllama не пинали а говорили о его проблемах - припезднутые тупые мелкомодели, помещающиеся в врам, низкие скорости и просадки при попытках экономии врам за счёт рам и дешёвых видеокарт старых поколений. Он был уделом совсем обладателей топового железа за овер9000 баксов. Сейчас часть косяков добавлена и с моэ он стал менее популярным.
В эту игру можно играть в двоём. Я прекрасно помню, какими формулировками пользовались эксллама-шизы. И не вижу ни единой причины (кроме готтентотской морали, но мы же не дикари какие, нейроночки тут крутим, высокоразвитая цивилизация, хуё-моё) для них возмущаться подобному отношению к себе, ведь они это считали нормой.
Аноним 08/10/25 Срд 17:34:43 1380510 77
>>1380493
> имагенета
Вангую ты просто на выходе вероятности используешь как в доисторических туториалах? Это же хуйня полная, так никто не делает.
> в обоих случаях
Я надеюсь для аттеншена флеш-аттеншен, а не eager? А иначе смысла в этом ноль, как и объективности, ведь в конволюшене у тебя fused-операции.
> Так это ж минус
Как только выйдешь за пределы микродатасетов, т.е. в реальные задачи, так сразу увидишь насколько неразумное потребление памяти/вычислительных мощностей при ссаных 100М параметрах у конволюшена. Которые ещё и не будут обучаться на большом датасете, потому что параметров слишком мало для удержания знаний. У нас из-за этого супер-резолюшен на конволюшенах уже 5 лет стоит на месте, никакого прогресса со времён ESRGAN.
Алсо, прорыв в классификации изображений случился в CLIP, который стал использовать трансформер. Это же база.
Аноним 08/10/25 Срд 19:28:25 1380669 78
>>1380276
записал
>>1380481
>гутенберг энкор
какой конкретно? Гугл выдаёт такой тюн чуть ли не каждой модели
Аноним 08/10/25 Срд 19:28:42 1380670 79
изображение.png 223Кб, 1327x1369
1327x1369
>>1380510
>Вангую ты просто на выходе вероятности используешь как в доисторических туториалах?
Ты ещё метрику не назвал, а уже что-то иное советуешь.
>Я надеюсь для аттеншена флеш-аттеншен
Что в nn.MultiheadAttention подрубилось, то и будет. Вижу, что по возможности используется scaled_dot_product_attention, так что должно быть. Правда не уверен, что оно применимо к обучению.
>Как только выйдешь за пределы микродатасетов
-> >>1380493
>Можешь подсказать датасет лучше
>Алсо, прорыв в классификации изображений случился в CLIP, который стал использовать трансформер.
Это следующая ступень, да. Его тоже надо будет проверить.
Аноним 08/10/25 Срд 19:31:38 1380675 80
>>1380321
Это специально сделано чтобы модальность умнее делала. Частично двачую другого оратора.
>>1380495
Упрекаешь автомобиль в требованиях к топливу, потому что на последние деньги купил цистерну списанного 76го бензина. Там можно критиковать за отдельные решения и недоделки по существу, но альфа версия же.
Аноним 08/10/25 Срд 19:41:09 1380696 81
>>1380669
>какой конкретно?
mistral nemo Gutenberg encore 12b.
Аноним 08/10/25 Срд 19:44:03 1380702 82
>>1380696
понял, забрал, надеюсь он лучше чатвайфу
Аноним 08/10/25 Срд 19:44:53 1380705 83
Какой же всё таки куртка пидорас ебаный.
Я был на хайпе когда он вышел и сказал "всё для нейронок!!" - а это лишь означало, что они поняли на что теперь людям врам и просто так её раздавать не стоит, и гоев лучше доить.
Так бы и дальше для игрунов по х2 врам к топовой карте прибавляли каждый год.
Ничто ведь не мешало в 5090 сделать 48гб вместо жадности
Аноним 08/10/25 Срд 19:46:28 1380707 84
>>1380675
>Это специально сделано чтобы модальность умнее делала.
Боюсь, с таким подходом бедному трансформеру придётся скорее приспосабливаться к говну на выходе, а не становиться умнее от мультимодальности.
>>1380705
>Ничто ведь не мешало в 5090 сделать 48гб
Отсутствие чипов 3ГБ...
Аноним 08/10/25 Срд 19:46:49 1380708 85
Подскажите пожалуйста, раз тут много рпшников. Можно ли с ллм нормально поиграть в днд\пасфайндер? Либо она в роли мастера, либо я в роли ведущего даю ей кампейн и мы вместе отыгрываем. Или сейчас только кум? В теории я даже могу пожить без бросания кубов, лишь бы был интересный сторитейлинг.
Аноним 08/10/25 Срд 19:47:40 1380711 86
>>1380707
>Отсутствие чипов 3ГБ...
Нет, необходимость продавать блеквел про за 10к долларов.
Аноним 08/10/25 Срд 19:49:31 1380715 87
>>1380705
А нахуя продавать под 0.01% срынка какие-то спецкарточки, если 85% всех продаж зелёных идёт в цоды...
Аноним 08/10/25 Срд 19:55:57 1380718 88
>>1380705
Скрести пальцы и верь в то, что дядя ляо из Китая найдет способ перепаивать их на более жирные чипы, или по аналогии с 4090 на двусторонние платы.
>>1380707
> трансформеру придётся скорее приспосабливаться к говну на выходе, а не становиться умнее от мультимодальности
Тебе сразу об этом сказали.
>>1380708
Придется заморочиться. Сложность - рандом и чтобы она ллм соблюдала очередность и правила, при это отыгрывая других участников отдельно, не мешая их с гейммастером. В альтернативных интерфейсах с лапшой, или обмазавшись скриптами это можно реализовать, но пердолинга и времени на отладку уйдет изрядно.
> могу пожить без бросания кубов, лишь бы был интересный сторитейлинг
Просто рп/сторитейл в основном и практикуют. Есть эдвенчур режим в глупой таверне, где ты не напрямую пишешь посты в чате, а указываешь какбы свои действия и реплики, которые оформляются в историю вместе с действиями окружающих. Гдесь все классическое, и сведется к пердолингу промптов под модель и выбор самой модели.
Аноним 08/10/25 Срд 20:11:07 1380736 89
>>1380718
>чтобы она ллм соблюдала очередность и правила, при это отыгрывая других участников отдельно, не мешая их с гейммастером
Ну в таверне вроде есть настройка нескольких персонажей сразу. В теории я могу запустить 1-3 инстанса небольших моделей(типа анслот тюна мистрали 24В), но я так понимаю лучше всегда где больше и надо пробовать большую мистраль\глм эир\квен?
Аноним 08/10/25 Срд 20:11:10 1380737 90
>>1380711
>Нет, необходимость продавать блеквел про за 10к долларов.
Потому что чипов 3ГБ не хватает.
>>1380718
>Тебе сразу об этом сказали.
Ну так я и сразу сказал, что надо делать нормально, а не нормально не надо.
Аноним 08/10/25 Срд 20:16:23 1380739 91
>>1380737
>чипов не хватает
Чипов в достатке. Никто и никогда не будет продавать hedt и ентерпрайз бомжам энтузиастам за дешман, когда высокий спрос забивать цод гпушками за любые деньги лишь бы обогнать конкурентов. Поэтому В200 стоит как квартира студия в москве, а через 7 лет она окажется на авито за 40к рублей. У TSMC монополия на кремниевые изделия, у nvidia монополия на передовые кремниевые технологии. Обоим нахуй не нада кормить кумеров слопом с ложечки.
Аноним 08/10/25 Срд 20:20:55 1380742 92
>>1380670
> Ты ещё метрику не назвал
Это ты не назвал что ты тренишь. Какая нахуй разница какой датасет, потрудись объяснить какой у тебя таргет. В датасете должен быть текст, но у тебя не контрастное обучение, значит ты какое-то говно напердолил. В том-то и дело, что для разных задач разные метрики, но тебе откуда знать-то.
> нейронка
Кажется я начинаю понимать кто откуда ты вылез, по соседству такой же дебил траллит, пересказывая текст нейронки.
Аноним 08/10/25 Срд 20:22:39 1380744 93
>>1380739
>Чипов в достатке.
Чел, ещё раз. На момент выхода 5090 чипов по 3ГБ вообще не было. А шину резать это максимум тупо. Так что варианты были или 32, или 64 гига, второе очевидно слишком жирно.
Аноним 08/10/25 Срд 20:27:18 1380747 94
>>1380736
> Ну в таверне вроде есть настройка нескольких персонажей сразу.
Групповые чаты, но они довольно корявые и в контексте локальных моделей будут осложняться постоянным пересчетом контекста.
Можно попытаться поиграться с дампом кэша контекста и наоборот его загрузкой перед каждым новым вызовом. Бэки это позволяют но нигде не видел чтобы использовалось.
Если у тебя сценарий позволяет - можно объединить всех (немногочисленных) чаров в одну карточку. Это некоторый компромисс, но оригинальный групповой чат тоже сделан очень так себе. Если у тебя один основной персонаж а остальные мелькают или появляются и исчезают по ходу - сейчас модели с этим легко справляются и ничего делать не надо.
> лучше всегда где больше
Про прочих равных да, лучше катать самое мощное из доступного.
>>1380739
Такой продукт создаст внутреннюю конкуренцию и ими будут набивать цоды вместо покупки более дорогих. Классика, все так.
Аноним 08/10/25 Срд 20:30:06 1380748 95
>>1380742
>Это ты не назвал что ты тренишь.
Я вроде сказал, что обучаюсь. Мне в принципе похуй, конечная цель мои знания, а не конкретная нейронка. Лишь бы помещалось на моём железе (сейчас это 5090). Полгода назад к примеру я текстовые мучил.
>В датасете должен быть текст
В имагенетее 2012 у нас 1000 классов по 1300 картинок в каждом. Я просто взял 100 классов из него (и добавил парочку своих, чтобы скучно не было). Так что таргет тут это угадывание класса по картинке.
>Кажется я начинаю понимать кто откуда ты вылез
У тебя сбойный токен вылез, но я же молчу.
Кстати, можешь рассказать свои догадки, мне даже интересно.
>>1380747
>и ими будут набивать цоды
Лицензия запрещает.
Аноним 08/10/25 Срд 20:38:02 1380749 96
>>1380748
> Лицензия запрещает.
Что делаешь, содомит.
> В имагенетее 2012 у нас 1000 классов по 1300 картинок в каждом. Я просто взял 100 классов из него (и добавил парочку своих, чтобы скучно не было). Так что таргет тут это угадывание класса по картинке.
Ты же понимаешь что информативности в твоих кривых в принципе немного, и их вообще никак нельзя перенести на кейс визуального энкодера для ллм?
Аноним 08/10/25 Срд 20:41:41 1380754 97
>>1380749
>и их вообще никак нельзя перенести на кейс визуального энкодера для ллм?
Вху нот? Нет, серьёзно. По сути, оно просто показывает качество распознавания самой картинки. Просто в квене используется не самый удачный вариант. И я ХЗ, почему это решение защищается.
Аноним 08/10/25 Срд 20:54:50 1380764 98
Когда крутишь семплеры в таверне нужно ли перезагружать сервер кобольда/таверны каждый раз?
Аноним 08/10/25 Срд 20:57:18 1380767 99
>>1380338
>толку с него нет.
> Ведь современный жора с моэ для них тоже бесполезен
>>1380675
>на последние деньги купил цистерну списанного
Все поняли, как надо аргументировать за экслламу? Делать проход в теслы и форсить их бесполезность, несмотря на многочисленные пруфы обратного. /llama/, 2025, итоги
Аноним 08/10/25 Срд 21:01:58 1380776 100
image.png 522Кб, 1086x956
1086x956
image.png 91Кб, 652x498
652x498
>Миниатюрная модель с 7 миллионами параметров превзошла DeepSeek-R1, Gemini 2.5 pro и o3-mini в рассуждениях как на ARG-AGI 1, так и на ARC-AGI 2.
>Она называется Tiny Recursive Model (TRM) от Samsung.
Самсунг пишет.
Аноним 08/10/25 Срд 21:04:40 1380781 101
>>1380767
Я как-то тоже отписался за ненужность экс с примерами скорости, так тут же наверное же шиз вылез с теми же проходами: бесплатно же, трубодерп святой, можно только хвалить, ваши тесты не тесты. В теслы правда не проходил еще, потому что риг из игросральных хх90

Сейчас снова порвется через 3..2..1
Аноним 08/10/25 Срд 21:05:41 1380783 102
image.png 11Кб, 452x160
452x160
>>1380276
>>1380696
попробовал пикрел в разных задачках ролеплея и единственная, кто осилил писать не односложно, а даже насыщенно и логично, следуя указанию моих карточек, это омномном опоссум опус магнум, спс анон. Остальные снёс нахуй. квен3 30б и его тюны реально кал какой-то, хуже 12б плотных.
Аноним 08/10/25 Срд 21:06:24 1380784 103
>>1380764
Нет.
>>1380776
Без ссылки на хайгинфейс не интересно.
Аноним 08/10/25 Срд 21:06:44 1380785 104
>>1380783
>скил-ишьюс
>виноваты модели
Классика.jpg
Аноним 08/10/25 Срд 21:08:36 1380789 105
>>1380785
>очередной подрыв квеноговноеда
>все хейтеры квена - скиллишью
Классика.jpg
Аноним 08/10/25 Срд 21:11:00 1380792 106
>>1380784
Пока что только ссылочка на гитхаб.
>github. com/ SamsungSAILMontreal/ TinyRecursiveModels
Аноним 08/10/25 Срд 21:14:00 1380800 107
>>1380767
Ты придумываешь какую-то "аргументацию за экслламу" которой нет. Все это время я просто говорю что ты несешь хуету и перефразируешь самый первый ответ тебе, пытаясь ставить требования к железу как упрек. А делаешь все это ты исключительно потому что удачно влошился и теперь жопа горит, пытаешься отвлечь.
>>1380781
Перетолстил
Аноним 08/10/25 Срд 21:16:49 1380808 108
Аноним 08/10/25 Срд 21:29:58 1380838 109
>>1380785
хотя ты прав, этот омномом тоже калом оказался, сорян, зря быканул
Аноним 08/10/25 Срд 21:34:41 1380850 110
>>1380776
Они тренили на самом тесте. Тут скорее интереснее то что ризонинг в латентном пространстве идёт. Уже больше года как в эту сторону щупают. Вангую по итогу придут в чему-то типа диффузии для ризонинга.
Аноним 08/10/25 Срд 21:45:39 1380870 111
>>1380767
>>1380781
>придумал себе врагов злых эксламер энджоеров
>придумал себе группу поддержки (изобрел семёнство)
>гений
Аноним 08/10/25 Срд 21:48:09 1380877 112
.png 14Кб, 302x215
302x215
>>1380870
Зачем ты так себя приложил?
Аноним 08/10/25 Срд 21:48:41 1380881 113
>>1380877
>знает про существование Ctrl+Shift+N
>дважды гений извиняюсь
Аноним 08/10/25 Срд 21:49:29 1380883 114
>>1380800
>"аргументацию за экслламу" которой нет.
Так понятно, что ее нет, потому что на исходный пост любителям экслламы нечего ответить, остается обтекать и тыкать на теслы
>удачно влошился и теперь жопа горит
Опять фантазии
Аноним 08/10/25 Срд 21:55:14 1380895 115
>>1380883
>на исходный пост любителям экслламы нечего ответить
к каким "любителям экслламы" ты обращаешься? и хорошо бы про исходный пост уточнить, это тот где ты анону вменяешь за опечатку "опять под веществами пришел" и "еще сдержался" назвав эксллама юзеров шизиками? а зачем на такое отвечать? у меня две 3090 и в случае плотных моделей для меня лучше экслламы ничего нет, потому что работает быстрее, нет проблем с контекстом и в то же железо умещаются кванты у которых лучше ppl и kld. запускаю 32б модели для кода, 70б для рп. когда мне нужно использовать мое использую лламу, потому что эксллама для мое не предназначалась. и что дальше? мне типа нужно обязательно одну из сторон выбрать и вторую какахами закидывать? повзрослей
Аноним 08/10/25 Срд 21:57:37 1380897 116
>>1380895
> две 3090
> может только 70б
> кичится этим
Все, что нужно знать про любителей экс. Не лучше тесл некрота, кстати. Постыдился бы. Накупил мусора, а теперь защищаешь
Аноним 08/10/25 Срд 22:00:05 1380898 117
>>1380870
>придумал эксламер энджоеров
Ты недавно тут? Еще год назад были шизы, которые с пеной у рта доказывали что на жоре жизни нет и запускали пиздюков-лоботомитов на фуллврам, пока я довольно урчал, наслаждаясь геммой 27б и коммандером 30б на точно таком же железе пусть и помедленнее.

Экслама - это либо для ОЧЕНЬ богатых с ОЧЕНЬ много врам либо для долбоебов. Обычному среднестатистическом анону - оно нахуй не надо, потому что всегда профитнее запустить более жирную модель, выгрузив часть слоев в рам через жору.
Аноним 08/10/25 Срд 22:00:10 1380899 118
>>1380897
понял. ты не дурак, а дурак, который думает, что он тролль. тема закрыта :^)
Аноним 08/10/25 Срд 22:00:34 1380900 119
>>1380883
Эти любители экслламы с тобой в одной комнате? Это они налили тебе в штаны теслы и нашептали собрать шизориг, который перформит как сборка с ддр5 на десктопе?
>>1380897
Чето этот теслашиз себе все ноги отстрелил
Аноним 08/10/25 Срд 22:04:43 1380911 120
>>1380898
>Ты недавно тут? Еще год назад
почти год как. и я в том числе всегда призывал использовать экслламу, если у вас только врам и вы не хотите оффлоадить. никто и никогда не писал, что в любых сценариях нужно отказываться от жоры
>Обычному среднестатистическом анону - оно нахуй не надо
прекрасно. и в чем проблема не использовать то, что тебе не нужно и молча пройти мимо? тред захватили подростки у которых либо одно, либо другое, а посередине ну никак не живется? с кем вы воюете и кому что доказываете? осознать я похоже не смогу
Аноним 08/10/25 Срд 22:05:16 1380912 121
>>1380895
Зачем тебе с двумя 3090 катать морально устаревшую 70B, если ты можешь тот же второй, а то и третий квант 235 квена гонять? Или эйр?

>>1380900
>как сборка с ддр5 на десктопе
Твою сборку с ддр5 уже обоссали все кому не лень, по итогу либо цифры получаются как на ddr4, либо ты вставляешь смешные 64 гига.
Аноним 08/10/25 Срд 22:08:11 1380916 122
>>1380898
> Еще год назад были шизы, которые с пеной у рта доказывали что на жоре жизни нет и запускали пиздюков-лоботомитов на фуллврам, пока я довольно урчал, наслаждаясь геммой 27б и коммандером 30б на точно таком же железе
Это тебя так защемило от продолжительных страданий на нищей скорости, пока господа обсуждали что один бек быстрее другого? Что за шизу ты несешь?

Год назад типичными моделями были тридцаточки, 70-72б разной степени ужаренности и 123б. Жора тогда не только был медленнее, но и требовал процентов на 10-20 больше памяти на +- ту же модель.
Имея одну гпу ты мог катать 30б на эклламе, имея две 70б, для ларджа требовалось уже три или больше. С тем же успехом ты мог катать их на жоре, мирясь с замедлением ради ничего.
Любая выгрузка на проц приводила к катастрофическому падению скорости - с 24 гигами на 70б едва выжимали 2.5-3т/с, которые превращались в тыкву уже на 8к контекста. Как-то более менее можно было терпеть на 16-гигах, пуская 24-30б, и то экспириенс был далек от комфортного, потому в основном работяги катали 12б немо.

Покажи на мишке что из этого тебя обидело.
Аноним 08/10/25 Срд 22:09:27 1380918 123
>>1380912
> если ты можешь тот же второй, а то и третий квант 235 квена гонять? Или эйр?
ты правда думаешь, что мне обязательно катать что-то одно? ты прямо сейчас ответил на пост, в котором я пишу что использую и то и другое. твоя парадигма либо одно, либо другое ложится на все в жизни? 70б тюны я катаю по настроению, потому что мне нравится как они пишут. когда мне нужно катать 32-70б модели, лучше экслламы ничего нет. когда мне нужен жирноквен - я запускаю лламу и жирноквен
Аноним 08/10/25 Срд 22:11:08 1380920 124
>>1380912
> Твою сборку с ддр5
Манюнь, в моей сборке ддр5 12 каналов, а видеопамяти больше чем в твоих шизосборках на десктопе и майнерских некрозеонах вместе взятых.
Аноним 08/10/25 Срд 22:12:41 1380922 125
изображение.png 399Кб, 535x513
535x513
изображение.png 380Кб, 538x516
538x516
изображение.png 253Кб, 492x309
492x309
изображение.png 279Кб, 983x440
983x440
>>1380912
>либо ты вставляешь смешные 64 гига.
Можно подробности? А то я тут собрал уже себе компик на 96гб и последней ряженке с самыми крутыми авх инструкциями. Со стокового экспо на CL30 и 6000мгц смог дожать ещё пару гигов пропускной и латентности(пик1 до пик2 после). Скорость генерации 120-й гопоты выросла на 2 с прихером токена на пустом контексте(я знаю, что это хуёвый тест и не очень точный, но мне было лень собирать статку ради двух токенов). Т.к. наборов на 128 гигов с нормальной частотой я тупо не нашёл считаю, что по раму это потолок для десктопа, дальше только hedt и сервера с мультиканалом, может я не прав конечно.
Мимо
Аноним 08/10/25 Срд 22:13:07 1380924 126
>>1380916
> с 24 гигами на 70б едва выжимали 2.5-3т/с
> Фантазер ты меня называла

Как же не горит у эксл, не успевает посты строчить
Аноним 08/10/25 Срд 22:14:00 1380926 127
изображение.png 234Кб, 964x388
964x388
>>1380922
Бля, пикча после отвалилась.
Аноним 08/10/25 Срд 22:18:42 1380929 128
>>1380924
Треды все сохранились, попиздовал за пруфами. Инб4 целых 3.25!
Аноним 08/10/25 Срд 22:20:23 1380932 129
>>1380895
> назвав эксллама юзеров шизиками
Ну вот ты самый натуральный шиз, перечитай пост и не долбись в глаза >>1379667. Я упоминал геммашизов, или они эксклюзивно на экслламе сидят? Тогда все сходится, кстати.

>>1380922
>А то я тут собрал уже себе компик на 96гб
Если у тебя две планки - то норм, но 96 Гб тоже так себе в плане объема. Тут 128-то не хватает для всяких дипкоков. А на чем ты запускаешь, чисто на процессоре без гпу?
Аноним 08/10/25 Срд 22:21:00 1380934 130
изображение.png 117Кб, 1751x1141
1751x1141
>>1380850
>Уже больше года как в эту сторону щупают.
А в этом треде эту мысль высказывали года два назад.
>>1380897
>3090
>Не лучше тесл некрота, кстати.
Ебанутый? Ебанутый.
>>1380912
>либо ты вставляешь смешные 64 гига.
96 уже, 128 на подходе.
>>1380916
>Год назад
>Любая выгрузка на проц приводила к катастрофическому падению скорости
Вполне себе можно было жить.
>>1380922
>одночиплетный рузен с порезанным чтением.
О чём ты блядь думал?
Аноним 08/10/25 Срд 22:21:27 1380935 131
>>1380916
Если топовое решение влезает полностью во врам - вопросов нет, тут нужно использовать эксламу. Вот только за нее в основном агитировали шизы с 12-16 врам катающие лоботомитов (ведь больше-то и не лезло ничего), пока нормальные люди запускали нормальные модели через жору.
Аноним 08/10/25 Срд 22:25:29 1380940 132
>>1380934
>О чём ты блядь думал?
О цене, пришлось анус раскочегарить что бы вообще это собрать. 35к только на оператос, не очень приятно. Хз даже какой мне проц взять когда будут деньги, что бы стало чут-чут получшее.
>>1380932
>чисто на процессоре без гпу
Всё верно. В теории это временное решение, пока я не разберусь с хуавеем или не продам его нахуй и куплю себе мишшек\4090\небо и т.д. Но с хуавеем по ходу дела всплывают только проблемы и пока никаких плюсов. Даже частичной выгрузки слоёв в оператос насколько я знаю нету.
Аноним 08/10/25 Срд 22:30:00 1380945 133
>>1380932
Пост изначально набросный, с пассивной агрессией и почти прямым оскорблением. Можно было бы съехать на "я не то имела ввиду" если бы на первый нейтральный ответ ты на разосрался желчью и болью. Тут иных трактовок быть не может.
>>1380934
> Вполне себе можно было жить.
Прав, зависит от пропорции и контекста и там слишком резко сказано. Выгрузить 10-30% модели, было приемлемой практикой. Особенно на моделях до 30б можно было с 16гигами получить выше порога чтения, что по сравнению с быстрыми 12б уже было круто.
Но если уж реально хотелось крутить большую модель - это пиздарики, там шло замедление не только из-за прогонов больших весов плотной модели туда-сюда, но и из-за обсчета атеншна на процессоре.
>>1380935
Именно об этом всегда и говорилось. Имея 12-16 гигов говорить о безальтернативности эклламы - глупость. Честно говоря, страдания некоторых господ на суб 5т/с скоростях тоже понять сложно, но это уже другая история.
Аноним 08/10/25 Срд 22:33:21 1380950 134
>>1380940
> мишшек
Опоздал. Уже от 16к в закупе без доставок.
Нахуй они не нужны в такую цену если сравнивать с в100 на нвлинк дуал борде. По 10к были имбой
Аноним 08/10/25 Срд 22:35:56 1380955 135
>>1380940
>Хз даже какой мне проц взять когда будут деньги, что бы стало чут-чут получшее.
Очевидно с двумя чиплетами.
>>1380945
>Но если уж реально хотелось крутить большую модель - это пиздарики
Просто я выживал на 1,5 токенов, и видел 0,7. И ничего, жив.
Аноним 08/10/25 Срд 22:36:33 1380956 136
Снова кого-то расстроила Экслламочка - умничка? НЕПОЗВОЛИТЕЛЬНО её после такого использовать! А ну-ка всем тредом съехали с неё. Удалили, блять, падлы. 32-70b модели запускать смеете? Шизики ебаные. Кому это надо, когда есть Эир и Милфоквен? Вы знаете насколько у них больше параметров? Они ОБЬЕКТИВНО лучше. Кто не согласен отрицают здравый смысл. А ведь мое есть почти во всех размерах..! Под каждую железку найдётся хорошая моделька. Ну кроме может быть Геммы 27, она ни рыба ни мясо по весовой категории. Ну и мы давно всем телом решили, что Гемма нравится только Геммашизикам, правильно? Ведь МЫ запускали, НАМ не понравилось, значит говно. Мы же не можем ошибаться в конце концов, мы люди культуры. Так и выходит что Эксламмочка удел Геммашизиков. Не спорьте с ними, они недалёкие.
Аноним 08/10/25 Срд 22:38:54 1380957 137
1759952333874.png 52Кб, 1203x1203
1203x1203
Так понимаю vllm местным бомжам не по масти?
Аноним 08/10/25 Срд 22:41:07 1380958 138
>>1380955
> Просто я выживал на 1,5 токенов
Блин, ну это же пиздец как тяжело. Если стриминг близок с чтением и тем более его опережает - терпимо, сложности только если модель начала тупить и лупиться, вот там уже начнет раздражать что приходится ожидать вместо того чтобы быстро оценив свайпнуть.
Но 1.5 или даже 0.7? Без капли хейта, расскажи как смог выживать. Если во время рп кто-то отвлек звонком - приходится потом обратно погружаться, иногда перечитывая часть постов. А тут на каждый пост нужно уходить чай заваривать.
>>1380956
> Эир и Милфоквен
Грешно ли запускать их на экслламочке?
Аноним 08/10/25 Срд 22:48:23 1380966 139
>>1380957
Я начал обсуждение их архитектуры, но мне сказали, что я дурак и использую не те метрики (правильные не назвали), не те датасеты (правильные не подсказали), и вообще, родился не из той пизды (правильной не показали).
>>1380958
>Если стриминг близок с чтением
Это если ты умеешь читать английский. Я вот не особо умею.
>Без капли хейта, расскажи как смог выживать.
Параллельно на дваче сидел. И в РП я с головой никогда не погружался.
Аноним 08/10/25 Срд 22:50:14 1380969 140
>>1380966
Вллм умеет в параллелизм что как бы нихуя себе в сравнении с жорой. И не просто умеет а скейлится от него
Аноним 08/10/25 Срд 22:55:22 1380971 141
iStock-185096653.jpg 45Кб, 500x313
500x313
>>1380956
"Твойя ИКСламочка какашка!!"
"НЕеет твой Дядя Жорик пидарморик!!!!"

Вот что бывает когда нет релизов и добрые аноны ливают с треда убегая от вечного шытпоста
Аноним 08/10/25 Срд 23:18:43 1380983 142
>>1380969
>Вллм умеет в параллелизм
А, забей, это я обосрался и попутал, я не про то написал.
Аноним 08/10/25 Срд 23:32:38 1380994 143
>>1380966
> Я начал обсуждение их архитектуры
Ты не туда воюешь!
>>1380969
Про тесты с мишками? На самом деле это круто.
В таверне должна быть галочка "генерация мультисвайпов", доступна при выборе бэка что может в такое. Вот тут трейдофф лишней скорости ради экстра свайпов сразу очень даже очень полезен.
Аноним 09/10/25 Чтв 00:27:45 1381006 144
>>1380708
> Можно ли с ллм нормально поиграть в днд\пасфайндер?
Нет. Даже корпы не осилят полноценные правила. Модели вполне могут в роль GM'a и нескольких персонажей, но память у них зело ограничена, и чем более точных вещей от нее хочешь, тем больше вероятность факапа.
IMHO - их текущий максимум, так чтобы полноценно играть, а не пердолиться на каждом ходу ошибки правя - свободное RP без жестких правил системы, как модели захочется. Можно некоторое количество лора и персонажей накидать (кил 10-20), но на этом все. Все что выше объемом и сложностью, сетка практически неизбежно будет путать.
Аноним 09/10/25 Чтв 00:48:13 1381027 145
Начитался тут вас и пошел ебанул 4000 на ddr4 3600 на xmp профиле. Пека покрякала, навыставляла вольтажа побольше в паре мест, но вроде работает. Тайминги не корректировал. В чем я не прав? Сутки гонять мемтесты лень
Аноним 09/10/25 Чтв 00:57:31 1381043 146
>>1381027
Молодец, память сгорит через неделю зато добавил 0.3 токена
Аноним 09/10/25 Чтв 00:59:49 1381046 147
>>1381006
Если обернуть в мультивызов - осилят даже средние локалки, но будет дорого по токенам и задача не из простых.
>>1381027
> В чем я не прав?
Сделал это только сейчас а не сразу.
Аноним 09/10/25 Чтв 01:13:39 1381066 148
>память сгорит через неделю
>Сделал это только сейчас а не сразу.
Одно можно сказать точно - или сгорит, или не сгорит! На самом деле прирост так себе, если выгрузить весь гпт осс, то на 0.7 токена выше генерация. Вернул все взад от греха подальше
Аноним 09/10/25 Чтв 01:14:20 1381068 149
image.png 85Кб, 249x164
249x164
image.png 98Кб, 1044x532
1044x532
Аноним 09/10/25 Чтв 01:26:23 1381071 150
>>1381068
>i1
У меня эти кванты тоже срали английским. Лучше качать K_XL от unsloth, они самые адекватные сейчас. Для васяномиксов просто K_L от батрухи.
Аноним 09/10/25 Чтв 01:30:26 1381072 151
>>1381071
Хм. А я всегда их качал. А unsloth делает аблитерацию только английской части моделей, как я заметил после своих тестов, даже если модели мультиязычные. Он походу просто юзает скрипт один и тот же какой-то, так что ему не доверяю. Барточух не подводил с гуфами пока что.
Аноним 09/10/25 Чтв 01:39:02 1381075 152
>>1381046
>Если обернуть в мультивызов - осилят даже средние локалки, но будет дорого по токенам и задача не из простых.
Меня терзают смутные сомнения... Ты живьем рулбуки D&D, которые не Player's Handbook, а полноценный Dungeon Masters's Guide видел? Эти талмуды с описаниями игровых механик километровыми? Там правила - это с языком программирования не сравнить по сложности. Причем сетки на программирование надрачивались на куче примеров, а с D&D - очень сомнительно. Чем тут мультивызов поможет, если там материала, который надо "помнить" и учитывать одновременно - этак с полмегабайта разом, еще не считая персонажей и модуля?
Аноним 09/10/25 Чтв 01:53:55 1381084 153
>>1381075
Ллмки из тех что пожирнее их хорошо знают, даже без перечисления сработает. Если ты пришел просто развлекаться а не совсем уж душнить то все просто.
Но и для душнил сработает - вываливаешь основной перечень базовых правил и список разделов с мелочами, делаешь возможность вызова листинга более подробных правил и комментариев для конкретных разделов. При необходимости сетка уточняет нужное и уместное по текущему запросу, используя только нужное а не всю книгу. Статы, параметры, статусы чаров и прочее хранишь отдельно и постоянно обновляешь. В сам момент принятия решений и исходов вся история вообще не нужна, хватит начала в описанием, сколько-то последних постов и подробные статусы. А уже потом кратко возвращать это основному сторитейлеру, который фокусируется на истории и красиво расскажет что произошло после розыгрыша.
Ты просто не видел что сетки могут делать если их правильно готовить. Весь вопрос в приготовлении и расходе токенов.
> полноценный Dungeon Masters's Guide
I'm a artist. I'm a performance artist.
Аноним 09/10/25 Чтв 02:03:43 1381088 154
Объясните, почему все так носятся с Air?
Наконец дошли до него руки, запустил в 4м кванте. И он тупой. Хуже 30б моделей, в лучшем случае что-то уровня 12б (и то проседает и на их фоне).
Аноним 09/10/25 Чтв 02:12:52 1381090 155
>>1379531
никто не будет менять кол-во акт. параметров в не мажорном релизе
Аноним 09/10/25 Чтв 08:26:44 1381189 156
>>1380950
Барыги всегда повышают цены пока не перестанут брать? Когда активно раскупают и несут деньги - это плохо?
Аноним 09/10/25 Чтв 08:32:24 1381190 157
>>1381068
Shivers down her spine после sigh of relief не хватает.
Аноним 09/10/25 Чтв 08:39:26 1381191 158
>>1381088
Велкам ту зе клаб, бадди. Я вот тоже считаю, что это уровень немо. Может быть, фактических знаний там и побольше (хотя их как раз ллмке лучше в контексте подавать, а не в весах запекать), но сообразительность - нет. Сейчас набегут шизы, у которых air перформит как плотная модель вдвое меньшего размера (106/2=53b), не обращай внимание. Знай, что ты тут в треде не один такой, это не у тебя шиза.
Аноним 09/10/25 Чтв 08:54:23 1381196 159
>>1381088
>Наконец дошли до него руки, запустил в 4м кванте. И он тупой.
Ризонинг включи. Лучше с префиллом, чтобы отказов не было. У Эйра чуть ли не первый адекватный ризонинг среди локалок.
Аноним 09/10/25 Чтв 08:59:44 1381199 160
>>1381196
Именно так и сделал сразу. Страшно представить что там без ризонинга.
Аноним 09/10/25 Чтв 09:07:02 1381202 161
>>1381199
>Именно так и сделал сразу. Страшно представить что там без ризонинга.
Походу ты троллишь просто. Лично я использую Эйр наряду с плотными моделями - и хотя в чём-то она им уступает, но в целом сравнима и иногда способна на интересные ходы. И сильно подкупает скоростью - МоЕшка всё-таки. Тут уже писали, что начинать с ней чат не надо, пяток тысяч токенов надо дать ей пожевать. Хорошее внимание к контексту, интересные и логичные размышления, иногда нестандартные ходы - что ещё надо? Кто-то зажрался просто.
Аноним 09/10/25 Чтв 09:08:48 1381203 162
>>1381202
> подкупает скоростью
Я так понимаю уступает она у тебя плотному мистралю 120б?
Аноним 09/10/25 Чтв 09:09:36 1381204 163
>>1381202
Тред захватил семён или два. Про эксламу понабрасывал, теперь смена темы. Игнорь
Аноним 09/10/25 Чтв 09:11:05 1381206 164
>>1381202
Так я не только про плотные.
Та же осс 120 куда умней.
Но и плотные, да, умней. Что гемма, что квен.
Аноним 09/10/25 Чтв 09:18:04 1381210 165
>>1381088
Пресета не будет, можешь пососать и продолжить срать как обычно, маска не поможет
Аноним 09/10/25 Чтв 09:24:26 1381213 166
>>1381210
Мне кажется это пора прекращать, анон
Этот пост даже не я написал
Скоро ты на людей вокруг будешь бросаться, лелея свой пресет
На отца начнеёшь косо смотреть, вдруг он тоже шиз из треда
Аноним 09/10/25 Чтв 09:25:17 1381214 167
>>1381204
>>1381210
У тебя осеннее обострение?
Толковое лучше бы писал что-то, вместо своей шизы.
Аноним 09/10/25 Чтв 09:38:42 1381223 168
>>1380776
Вы понимаете что это всё?
Бенчмакс официально подтверждён.
Вот выпустил квен апдейд модели, а хуй знает апгрейд это или даунгрейд вообще, а по циферкам прирост везде х2, вот и сиди думай блять
Аноним 09/10/25 Чтв 09:46:37 1381231 169
>>1381088
> почему все так носятся с Air?
Потому что на сегодня это единственный жизнеспособный вариант для рп в текущей весовой категории. С компромиссами, но в целом неплохая модель.

> И он тупой. Хуже 30б моделей, в лучшем случае что-то уровня 12б (и то проседает и на их фоне).
Не слишком умный, согласен. По моему мнению 32б или лишь немногим умнее. Плюсы в другом: креативит; приятный слог; отличный английский, со сложными оборотами и конструкциями (как и предшественница GLM 32); в целом хорошо следует промпту, отыгрывая персонажей как надо. Моя единственная проблема с Air - повторяющиеся паттерны.

>>1381202
> начинать с ней чат не надо, пяток тысяч токенов надо дать ей пожевать
Можно и начинать, если в карточке разнообразные примеры диалогов или она не слишком минималистична, прописаны бекграунд, сайд персонажи или еще что-нибудь полезное, от чего можно оттолкнуться.

>>1381206
> Та же осс 120 куда умней.
В определенных технических задачах - да. Если для рп, то ты, похоже, ее даже не использовал.
Аноним 09/10/25 Чтв 09:55:56 1381240 170
>>1381231
Да, в рп не использовал.
Попробую может, но уже заметил цензуру. Посмотрим как пробьется.
Аноним 09/10/25 Чтв 10:00:15 1381244 171
>>1381240
> уже заметил цензуру. Посмотрим как пробьется.
Пробьется очень легко, только вот не приведет к хорошим результатам. Можно пробить полностью, вырубив ризонгинг полностью; можно пробить для конкретных сценариев, оставив ризонинг. В обоих случаях аутпуты будут печальными. Слог иногда можно выбить интересный, но ум там действительно на уровне Немо, и избавиться от ассистента не получится, он неизбежно проникает в рп. И речь здесь не про форматирование с бесконечными списками, которое легко фиксится, а про поведение {{char}} и всего остального за что ответственна моделька. Если любопытно повозиться, почему бы и нет. Если ради результата, то будешь разочарован.
Аноним 09/10/25 Чтв 11:16:34 1381318 172
>>1380922
Бля, ну даже на моем говноедском 13400 быстрее.
Рузен явно не фонтан.

>>1380934
>одночиплетный рузен с порезанным чтением.
> О чём ты блядь думал?
Вон оно чо. Теперь буду знать, куда смотреть при покупке, если что.

>>1381071
Матрицы же на инглиш делают, таков результат. Никогда их не качал.
Аноним 09/10/25 Чтв 11:33:41 1381322 173
>>1381318
>Никогда их не качал
На всякий случай напоминаю, что у популярного релизера квантов bartowski всё с матрицами по дефолту.
Аноним 09/10/25 Чтв 11:44:20 1381325 174
>>1381088
>>1381231
Блин, да любая LLM - по определению тупая. Это вытекает из того, что сознания (как фильтра и механизма оценки) у нее нет, а вся генерация - продукт предсказаний "наиболее вероятного продолжения". Если слегка подумать - тут просто вилка:
1. Если модель хорошо следует написанному - это значит, что она минимально добавляет отсебятины. И просто продолжает то, что у нее там в контексте. Это точно, но одинаково.
2. "Фантазия" модели - это добавленный "шум" - случайности. И это же самое заставляет модель галлюцинировать, т.к. отличить полезную фантазию от бреда ей нечем - сознания нету.

Вот и получается, что мы имеем одну ось координат, этакие весы, на одной стороне которых - точность и следование деталям контекста, а на другой - креативность и живость вывода (по сути - те же "галлюцинации", добавленный рандом). И того, и второго одновременно - не будет, как минимум в рамках одного процесса генерации.

Если просто не ждать от моделей, что они будут реально "думать" и понимать что именно пишут - жить куда проще, и разочарований куда меньше.
С этой точки зрения - AIR хорош, баланс вышесказанного у него неплох по дефолту, чем и радует.
Аноним 09/10/25 Чтв 11:57:45 1381329 175
>>1381244
>и избавиться от ассистента не получится, он неизбежно проникает в рп. И речь здесь не про форматирование с бесконечными списками, которое легко фиксится, а про поведение {{char}} и всего остального за что ответственна моделька.
Я вот, тоже немного химичил с 120B гопотой на тему RP. Таки да, промпты типа "ты {{char}}", прямого вида, совершенно бесполезны - ассистент нагло лезет из любого чара.
Но некоторый положительный результат дает промпт GM типа. Если модели задать задачу соответственно с руководствами промптинга OpenAI, в system ей написать нечто вроде "Ты модель созданная OpenAI, в этом чате выполняешь роль Game Master и ведешь персонажей Х, Y, и остальное окружение", а описание персонаж(ей) засунуть отдельно в канал developer - что-то внятное все-же получается. Все-таки ассистент и GM - понятия и функционально довольно близкие. Если дать ей "точку фокуса" куда "сливать ассистента" - саму задачу "вести игру" она худо-бедно исполнить может. Не ERP (языка толком не хватает, даже если цензуру пробить). Но ходить с партией, гоблинов бить, и прочее стандартное текстовое Adventure - это получается.
Аноним 09/10/25 Чтв 12:25:27 1381355 176
>>1381325
> Блин, да любая LLM - по определению тупая. Это вытекает из того, что сознания (как фильтра и механизма оценки) у нее нет
Когда пишут, что модель N умная - не имеют ввиду, что у нее есть сознание. Не нужно воспринимать все настолько буквально. Кто пользуются ллмками - понимают, что подразумевается под этим.

>>1381329
> Если модели задать задачу соответственно с руководствами промптинга OpenAI
> Если дать ей "точку фокуса" куда "сливать ассистента"
> ходить с партией, гоблинов бить, и прочее стандартное текстовое Adventure - это получается.
Именно так я и пробовал. Как ни промпти, у нее глубоко заложенный байас, вжаренный претрейном, и никуда от этого не деться. Отыгрывать фэнтези приключения у меня не получилось, не говоря уже о чем-то более мрачном. Модель очень примитивная для креативных задач и справляется на уровне 12б или даже хуже. Не понимаю, зачем ее для этого использовать. Выводы скучные, однообразные, потому не годятся для приключений; за счет байаса и примитивности в интересные диалоги тоже не получается. Долго я с ней игрался, в первую очередь из любопытства (интересно было обойти цензуру, за что мне тут даже прилетело, и посмотреть насколько промптинг может спасти гиблую для этих задач модель), так и не понял, зачем ее использовать для рп или креативных задач.
Аноним 09/10/25 Чтв 12:40:06 1381363 177
>>1381322
Бля, получается, всегда их качал. =(

Но от толстого квантования общих слоев все равно толку больше для языка, чем от анслота, ИМХО.
Аноним 09/10/25 Чтв 12:43:12 1381367 178
Аноним 09/10/25 Чтв 12:47:23 1381369 179
>>1380957
поддерживает три с половинюй видюхи и две с половиной модели, для ынтырпрайза где всё приколочено гвоздями это прям то що треба, но нахуя этот пердолинг дома непонятно.
Аноним 09/10/25 Чтв 12:49:24 1381371 180
>>1381088
я тоже считаю, что Air говно, хотя на сойдите с него все кипятком ссут.
имхо тут ситуация "миллионы мух не могут ошибаться" ©
Аноним 09/10/25 Чтв 12:53:18 1381377 181
>>1378190 →
> вот уже неделю жду от одного реселлера ответ, когда уже примерно у них появятся H13SSL ревизии 2.1

материнку отправили, а вот с оперативой наебали. прислали письмо "ой простите извините у нас эта модель out of stock и у поставщика out of stock и у производителя out of stock и на небе и у аллаха out of stock" и вместо указанной и уже оплаченной блядь на сайте цены в 360 уе предложили купить эту же модель у другого поставщика по 415, итого 600+ уе сверху.
похуй терпим
Аноним 09/10/25 Чтв 12:58:04 1381383 182
>>1381371
> имхо тут ситуация "миллионы мух не могут ошибаться" ©
Ведь ты наверняка не муха!
Аноним 09/10/25 Чтв 13:10:37 1381399 183
image 304Кб, 906x1365
906x1365
>>1381322
>>1381363
Так у батрухи есть два вида квантов, iQ_K и просто Q_K. Вторые, как я понял, обычные, без матрицы. Их качаю и у меня работают хорошо, русик не сломан.
Аноним 09/10/25 Чтв 13:31:32 1381421 184
>>1381399
>Так у батрухи есть два вида квантов, iQ_K и просто Q_K. Вторые, как я понял, обычные, без матрицы. Их качаю и у меня работают хорошо, русик не сломан.
Я у него пробовал оба варианта разных моделей и существенной разницы в русском не заметил. Теперь всегда качаю i-кванты.
Аноним 09/10/25 Чтв 13:45:48 1381433 185
>>1381399
Блять! Вы правы... Сейчас затестил эти_как_бы_улучшалки_матрицы и не_матрицы и для русика эти матрицы посто как 2-3й квант, обычные кванты типа ML вообще без нареканий, никаких артефактов. Вот я дебил повёлся на это плацебо. Буду юзать теперь обычные.
Аноним 09/10/25 Чтв 13:48:40 1381436 186
>>1381433
Я именно про i1 и анслот, если что. Эти IQ хороши, лучше чем просто Q. В прочем всё поделие анслота бракованное.
Аноним 09/10/25 Чтв 13:52:07 1381441 187
>>1381436
>В прочем всё поделие анслота бракованное
А в чем это выражается? У меня квен от них в UD-Q8_K_XL кванте, вроде всё ок с ним.
Аноним 09/10/25 Чтв 14:15:37 1381461 188
>>1381436
У меня анслотовский мистраль смолл q5 работает идеально, есть аргументы?
Аноним 09/10/25 Чтв 14:19:35 1381468 189
>>1381441
>>1381461
Я же выше написал. На русском языке проблемы.
Аноним 09/10/25 Чтв 14:41:09 1381504 190
> На русском

fuckface imagined?
Аноним 09/10/25 Чтв 14:47:09 1381514 191
1662052199271.png 27Кб, 661x581
661x581
>>1381088
Одни нашли как его приготовить, отметили сильные стороны и как обойти недостатки, или просто их простили. Другие фиксируются на его "плохом перфомансе" в их типичных юскейсах, не хотят их менять или разбираться. Кого осуждать выбирай сам.
>>1381231
Вот этого двачую
>>1381367
Пик
Аноним 09/10/25 Чтв 14:54:17 1381518 192
>>1381461
>мистраль
nyaстраль
nya ha ha ha
Аноним 09/10/25 Чтв 14:59:56 1381525 193
>>1381514
> Пик
я про ддр5 12 каналов. чё за мать, чё за проц, чё за память?
Аноним 09/10/25 Чтв 15:00:04 1381526 194
>>1380000
всмысле старого бля?! 24б это же последний был пол года назад ерпит нормально бтв
Аноним 09/10/25 Чтв 15:03:18 1381530 195
>>1381514
ну вот в моих типичных юзкейсах (кодинг, перевод текста, "general knowledge") он говно, только для дрочки и годится.
но и для дрочки есть варианты получше
Аноним 09/10/25 Чтв 15:06:12 1381536 196
image 66Кб, 1280x538
1280x538
>>1381530
>только для дрочки и годится

мимо
Аноним 09/10/25 Чтв 15:49:15 1381596 197
>>1381525
Затычка 9354, супермикро р2.1, сосунги 4800 и пара кингстонов хз на каких чипах
Аноним 09/10/25 Чтв 15:55:34 1381600 198
>>1381596
> народная супермикра 2.1
лол
> 9354
а чому не 9534? б/у стоит столько же, а bw на 30 ГБ/с выше, подозреваю что из-за "GMI-wide"
Аноним 09/10/25 Чтв 16:03:46 1381603 199
>>1381600
> bw
Вут?
Просто собирал на тот момент наиболее выгодные по цене варианты, память вышла почти в 2 раза дешевле чем тут жалобы >>1381377
Аноним 09/10/25 Чтв 16:04:32 1381605 200
>>1378253 (OP)
gpt-oss 120B is running at 20t/s with $500 AMD M780 iGPU mini PC and 96GB DDR5 RAM

> Everyone here is talking about how great AMD Ryzen AI MAX+ 395 128GB is. But mini PCs with those specs cost almost $2k. I agree the specs are amazing but the price is way high for most local LLM users. I wondered if there was any alternative. My primary purpose was to run gpt-oss 120B at readable speeds.
> I searched for mini PCs that supported removable DDR5 sticks and had PCIE 4.0 slots for future external GPU upgrades. I focused on AMD CPU/iGPU based setups since Intel specs were not as performant as AMD ones. The iGPU that came before AI MAX 395 (8060S iGPU) was AMD Radeon 890M (still RDNA3.5). Mini PCs with 890M iGPU were still expensive. The cheapest I could find was Minisforum EliteMini AI370 (32GB RAM with 1TB SSD) for $600. Otherwise, these AI 370 based mini PCs are still going for around $1000. However, that was still expensive since I would need to purchase more RAM to run gpt-oss 120B.
> Next, I looked at previous generation of AMD iGPUs which are based on RDNA3. I found out AMD Radeon 780M iGPU based mini PC start from $300 for barebone setup (no RAM and no SSD). 780M iGPU based mini PCs are 2x times cheaper and is only 20% behind 890M performance metrics. This was perfect! I checked many online forums if there was ROCm support for 780M. Even though there is no official support for 780M, I found out there were multiple repositories that added ROCm support for 780M (gfx1103) (e.g. arch linux - https://aur.archlinux.org/packages/rocwmma-gfx1103 ; Windows - https://github.com/likelovewant/ROCmLibs-for-gfx1103-AMD780M-APU ; and Ubuntu - https://github.com/lamikr/rocm_sdk_builder ). Then I bought MINISFORUM UM870 Slim Mini PC barebone for $300 and 2x48GB Crucial DDR5 5600Mhz for $200. I already had 2TB SSD, so I paid $500 in total for this setup.

настройки и бенчмарки далее по ссылке https://www.reddit.com/r/LocalLLaMA/comments/1nxztlx/gptoss_120b_is_running_at_20ts_with_500_amd_m780/
Аноним 09/10/25 Чтв 16:12:21 1381617 201
>>1381603
> bw
bandwidth, у 9354 360 GB/s, у 9534 390 GB/s

> память вышла почти в 2 раза дешевле

да я вообще вахуи от цен, я в том году DDR4 покупал в два раза дешевле новую, чем она сейчас стоит бэушная, подозреваю что и ддр5 дорожать будет.
Аноним 09/10/25 Чтв 16:28:22 1381646 202
>>1381617
Если ты про репощенные скрины японцев на реддите, я бы не сильно доверял этим цифрам. Там 4-блочный проц опережает или почти равен 8блочному и в целом наблюдаются странные необъяснимые колебания. В любом случае 9534 - 64 ядерник и стоит как боинг.
> подозреваю что и ддр5 дорожать будет
Все дорожает. Мелькают мысли об апгрейде до турина, но дорого, а эффекта мало. И так уже более чем достаточно чтобы урчанием будить соседей.
Аноним 09/10/25 Чтв 16:44:43 1381672 203
>>1381325
оба пукнта регулируется температурой
Аноним 09/10/25 Чтв 16:46:45 1381676 204
Аноним 09/10/25 Чтв 16:59:08 1381686 205
>>1381646
> Там 4-блочный проц опережает или почти равен 8блочному

> > подозреваю что из-за "GMI-wide"

> 9534 - 64 ядерник и стоит как боинг.
б/у на 100-200 долларов дороже 9354
Аноним 09/10/25 Чтв 18:42:02 1381743 206
>>1381514
Зачем параноишь, скрывая карты? Диванон по 5090, спешите видеть.
Аноним 09/10/25 Чтв 18:44:01 1381744 207
>>1381743
Потому что там какое-нибудь смешное говно типа V100, судя по лимиту.
Аноним 09/10/25 Чтв 18:54:09 1381749 208
>>1381744
ржака)))
ну ты конечно нашутил так нашутил
Аноним 09/10/25 Чтв 18:54:15 1381750 209
Я правильно понял что анслотовские кванты мелокмистраля хуже в ерп чем стандартные?
Аноним 09/10/25 Чтв 18:55:28 1381752 210
Аноним 09/10/25 Чтв 18:57:08 1381754 211
Какие лучше у анслота брать, обычные или ud?
Аноним 09/10/25 Чтв 18:58:07 1381756 212
Аноним 09/10/25 Чтв 18:59:27 1381758 213
>>1381756
А зачем ои выложили у себя на странице кванты без UD?
Аноним 09/10/25 Чтв 19:01:01 1381760 214
>>1381399
Нет, это путанница в названиях.
Есть форматы квантования: Q8_0, Q4_0, Q5_K_S, ..., и в этот же ряд становятся IQ4_XS и подобные.
IQ отличаются тем, что там веса как-то хитро пережаты, IQ4_XS примерно равен Q4_K_S по ppl, а весит меньше.
Но ценой за это вычисления для распаковки, если был упор в псп, может случиться упор в компьют, особенно в случае выгрузки на cpu. А может быть выйгрыш за счёт того, что больший процент на видеокарту влез. Короче, в каждом отдельном случае надо тестить. Единственный случай, когда прямо однозначно профит будет - когда IQ-квант влезает в видеокарту полностью, а обычный чуть-чуть не помещается.

Матрицы - это совсем отдельная история, они обозначаются обычно i1 или imatrix. У mradermacher много квантов, и можно обратить внимание, что почти для каждой модели есть обычные кванты и i1-кванты, вторые - с матрицей. Ещё можно заметить, что в обоих случаях присутствуют как обычные Q-кванты, так и "сжатые" IQ, т.к. оба могут быть и с матрицей важности, и без. Такие дела.
Аноним 09/10/25 Чтв 19:07:23 1381762 215
>>1381760
Ты обьясни почему I кванты хуже в ерп.
Аноним 09/10/25 Чтв 19:09:21 1381765 216
>>1381760
Полезная инфа, спасибо.
Аноним 09/10/25 Чтв 19:33:01 1381787 217
1000009130.jpg 89Кб, 767x512
767x512
Верните мне бесплатные рп модели на openrouter.ai ну позязя! Я уже заебался впитывать дефолтную парашу на от дефолтного же janitorai
Аноним 09/10/25 Чтв 19:34:06 1381788 218
>>1381744
900-6G199 и l20
>>1381762
Если это iq то из-за неоптимального распределения, но это редкость. Если imatrix - по той же причине, но уже более вероятно. На самом деле нет жесткого стандарта и можно накрутить всякого сохраняя обычные имена.
Аноним 09/10/25 Чтв 19:41:19 1381793 219
У глм эира какой-то файнтюн надо брать или стандартная модель в ггуфе по месту качается и всё? На обниморде только шизотюны пока что вижу.
Аноним 09/10/25 Чтв 19:45:13 1381797 220
Аноним 09/10/25 Чтв 19:54:03 1381803 221
>>1381797
Я про это и спрашивал, обычная модель в кванте или какой-то тюн\аблитерация.
Аноним 09/10/25 Чтв 20:09:48 1381825 222
>>1380670
>>Алсо, прорыв в классификации изображений случился в CLIP, который стал использовать трансформер.
>Это следующая ступень, да. Его тоже надо будет проверить.
В общем всё, что я понял из клипа, это то, что он бесполезен без предобученной модели на 400млн картинок. То есть мои эксременты на 130к тренировочных изображений с нуля там вообще ничего не сделают, скорее всего.
Аноним 09/10/25 Чтв 20:15:19 1381831 223
image.png 23Кб, 438x275
438x275
Ух бля, фембойчик ребейснул форк вллм на 0,11. Буду ребилдить торч и наяривать
Аноним 09/10/25 Чтв 20:16:19 1381832 224
Квены реально неисправимы для рп
Использовать их можно, в основном большой 235, но нахуя когда есть эир, который и лучше и доступнее, а с обновой так вообще будет сказка, не догнать
Аноним 09/10/25 Чтв 20:18:13 1381835 225
>>1381832
>но нахуя когда есть эир
Ради русика же
Аноним 09/10/25 Чтв 20:19:08 1381836 226
>>1381803
Оригинал. Недавно тут скидывали линк на его рп-тюн, но никто так и не попробовал. Расцензуривание ему не нужно.
>>1381825
Есть читы: обезглавливай и устраивай дистилляцию на готовых активациях, бошку потому аналогично отдельно или уже более коротким тюном с заморозкой основных весов. В трансформере с такими кейсами и датасетами с шума на таргете в виде категории классификации можно только хуйца соснуть.
Аноним 09/10/25 Чтв 20:20:12 1381839 227
>>1381825
Клип надо тренить правильно, через контрастное обучение текстового энкодера и визуального. Не как в туториалах тренят классификацию по классам.
>>1381832
У GLM русский говно, не представляю зачем в 2025 рпшить на английском, если можно на русском. Даже в 4.6 русский такой себе, хуже геммы. Вообще Терминус пока ебёт в РП, у него со всем всё заебись.
Аноним 09/10/25 Чтв 20:22:21 1381843 228
>>1381788
> A100
> SXM
ясно, шизик флексит доступом к серверу на работе)))0)
Аноним 09/10/25 Чтв 20:26:05 1381847 229
>>1381839
> у него со всем всё заебись
С кумом и около того тяжко, или ты смог это победить?
>>1381843
Вместо коупинга выстрел себе в ногу сделал
Аноним 09/10/25 Чтв 20:26:05 1381848 230
>>1381843
Не, sxm2 a100 это обрубки которые в тачки для автономного вождения ставили, у них только половина hbm чипов и интерфейс не sxm4. Он конечно мог даже так спиздить пикчу с инетов, но эти модули около 120к стоят
Аноним 09/10/25 Чтв 20:29:08 1381853 231
>>1381848
ну вон он пишет
> 900-6G199
гугл говорит что это SXM. сомневаюсь, что этот шиз настолько шиз, что вместо обычной платформы купил у куртки мать под эти чипы и поставил хуйню с 20к рпм 99 дб кулерами у себя дома.
Аноним 09/10/25 Чтв 20:30:07 1381854 232
>>1381853
Бля, проснись. В китае давно есть адаптеры на любой вкус и цвет и даже с нвлинком и встроенным plx
Аноним 09/10/25 Чтв 20:30:10 1381855 233
Аноним 09/10/25 Чтв 20:30:30 1381857 234
>>1381847
> или ты смог это победить?
Агенты делают бррр. В прослойку вставляешь аблитерацию квена 30В и там любой уровень извращений будет.
Аноним 09/10/25 Чтв 20:30:51 1381859 235
А в чём проблема взять умнейший переводчик, да ту же ллмку, и перевести английский датасет на все языки?
Аноним 09/10/25 Чтв 20:32:43 1381863 236
image.png 1907Кб, 1658x1317
1658x1317
Буквально всё. От переходников в виде двухслотовых карточек, до полноценных sxm мамок/кусков борды
Аноним 09/10/25 Чтв 20:33:29 1381864 237
>>1381836
>Есть читы: обезглавливай и устраивай дистилляцию на готовых активациях
Это я знаю. Но при таком подходе становится невозможным сравнивать разные подходы, ибо в базу вложены разные объёмы вычислений. Понятное дело, что я могу взять предобученные веса и получить свои 99%, только какой в этом смысл, ни я не научусь, и сравнение будет не честным.
>>1381859
Кормить нейронки высерами нейронок плохая идея. И да, кому это нужно? Все на инглише/китайском сидят, остальные языки поскольку-постольку появляются.
Аноним 09/10/25 Чтв 20:37:19 1381870 238
>>1381854
>>1381863
ничоси, реально.
я в этих ваших переходниках не шарю, собираю дрочмашину на классических PCI картах
Аноним 09/10/25 Чтв 20:37:22 1381871 239
>>1381857
>аблитерацию
Это 50/50 лоботомизация, лучше с джейлбрейком извратиться
Аноним 09/10/25 Чтв 20:38:34 1381872 240
>>1381870
sxm - это обычный pcie в другом коннекторе что бы гонять киловатты и не плыть (а ещё можно на них 48 вольт подавать)
Аноним 09/10/25 Чтв 20:38:40 1381873 241
>>1381857
О, это интересно. Можешь расписать по какому принципу организовано? Офк можно просто сменить модель под контекст, но твой вариант выглядит как минимум необычно.
>>1381864
> становится невозможным сравнивать разные подходы
Ты хотябы определись с критериями сравнения. А то вжариваешь какую-то херь, весело и шутливо, но бессмыслено с точки зрения получения новых знаний.
Аноним 09/10/25 Чтв 20:43:40 1381880 242
>>1381871
Так ты её не будешь читать. Оно нужно в качестве ризонинга за пару секунд, где будут всякие извращения. А читать ты будешь выхлоп Терминуса, который вдохновится лоботомитом.
Аноним 09/10/25 Чтв 20:49:22 1381884 243
>>1381880
Что-то ты меня запутал.
Аноним 09/10/25 Чтв 20:50:12 1381885 244
>>1381884
Але. Ну чё там с деньгами?
Аноним 09/10/25 Чтв 20:53:01 1381887 245
>>1381885
Ты походу сам запутался.
Мой 1й пост сегодня >>1381871
Я написал к тому, что любая аблитерация это говно из жопы пса.
Аноним 09/10/25 Чтв 20:54:10 1381888 246
Аноним 09/10/25 Чтв 21:02:09 1381890 247
>>1381873
>Ты хотябы определись с критериями сравнения.
Ну, я спрашивал анона метрики, но он их не назвал. Поэтому жарю по срани в виде очевидной Accuracy. Сейчас спросил нейронку, накидала вагон вариантов, я нихуя не понял (я же тупой, и новичок в этой области), так что думаю въебать ещё и F1-score, а то если добавлять эти Precision и Recall по отдельности, то я утону в графиках. Хотя с другой стороны, а хули нет? Больше графиков Б-гу графиков.
>А то вжариваешь какую-то херь, весело и шутливо, но бессмыслено с точки зрения получения новых знаний.
Ну, какие-то уникальные открытия я вряд ли совершу.
Аноним 09/10/25 Чтв 21:32:26 1381906 248
>>1381880
>выхлоп Терминуса, который вдохновится лоботомитом
Пиздец сиранул с этих мыслей на аутсорс.
Аноним 09/10/25 Чтв 21:36:43 1381913 249
>>1381859
Так и делают, но на пути встречаются переворачивающие все с ног на голову нюансы.
>>1381890
Речь не только про точность. Ты пишешь что хочешь сравнить разные подходы и использование сторонних данных сделает его бессмысленным, а в чем бессмысленность? Если хочешь оценить условные затраты, то тебе нужно изначально подобрать наиболее оптимальную методику обучения, а не просто пальцем в небо.
Сам твой кейс, если тренируешь тривиальщину на мелком датасете - свертки будут в выигрыше, особенно в начале, а трансформер вообще может сдохнуть. Для сложных и больших же будет совсем наоборот, эти вещи известны и не являются откровением. Нужно понимать соответствия и корреляции между задачами что ты тренишь и тем, о чем пытаешься строить выводы. А то ты буквально лепишь стену из грязи, которая расплывается после первого дождя, а потом говоришь что бетон - слабый и ненужен.
Есть множество других пороговых и масштабных эффектов, потому выводы, полученные в мелких опытах очень ограниченно могут быть перенесены на большие модели. Буквально бумажный кораблик и ракетный крейсер если нужен наглядный пример.

Начать нужно с формулировки что вообще хочешь сравнивать, четко и ясно. Потом подумай как обеспечить получение именно желаемой информации в условиях ограниченных ресурсов (или констатируй невозможность этого). Затем если делаешь, то организуй их максимальное извлечение из множества сторонних эффектов, которые также влияют на результат. Обеспечение качества измерений само собой разумеющееся, а не просто "натащил кривых, повторяющих график шедулера с разным наклоном".
Аноним 09/10/25 Чтв 21:40:14 1381918 250
>>1381873
> Можешь расписать по какому принципу организовано?
Берёшь langflow например, в нём пилишь воркфлоу, к нему таверну. Таверна делает запрос, он сначала перенаправляется к быстрой модели для анализа и написания идей, всё это потом в большую модель с выхлопом мелкой в роли системы. Причём чем шизоиднее мелкая модель, тем лучше. По итогу креативность полностью контролируется, квен отлично инструкции выполняет. То что мелкая модель шизит не важно, Дипсик не настолько тупой чтоб бред подхватить, это всё же не Эир-лоботомит.
Аноним 09/10/25 Чтв 21:47:52 1381925 251
1000018111.png 44Кб, 589x455
589x455
Завтра новая гемма
Вы мне верите?
Аноним 09/10/25 Чтв 21:48:40 1381926 252
>>1381925
Доооооооооооооооо
Аноним 09/10/25 Чтв 21:48:51 1381927 253
>>1381787
>Верните мне бесплатные рп модели на openrouter.ai ну позязя
Мышеловка схлопнулась. Теперь либо терпи, либо плати
>дефолтного же janitorai
А там мистраль 12b. Т.е. полное дно и его можно перебить даже имея какую-нибудь обосранную 3060
Аноним 09/10/25 Чтв 21:49:02 1381928 254
>>1381913
>Если хочешь оценить условные затраты
Ну типа да. Точнее, при сравнимых затратах я оцениваю результат. Методики конечно хотелось бы подогнать под оптимальные в каждом случае, но я состарюсь раньше, чем это сделаю. Поэтому тестирую на разумных настройках, средних, оптимальных, которые нашли до меня.
>Для сложных и больших же будет совсем наоборот, эти вещи известны и не являются откровением.
Вот хочу дойти до этого сам. А то как же без горького урока.
>а не просто "натащил кривых, повторяющих график шедулера с разным наклоном".
А бывает иначе? А то у меня либо так, либо модели пришла пизда.
Аноним 09/10/25 Чтв 21:56:00 1381936 255
>>1381927
>даже имея какую-нибудь обосранную 3060
>даже
Сын мой, на ней этот ваш эйр шустро крутится, лишь бы оперативки хватало. В эпоху мое - 3060 просто лютый шин за копейки.
Аноним 09/10/25 Чтв 21:58:08 1381940 256
>>1381936
Контекст?
Квант?
Скорость?
Аноним 09/10/25 Чтв 21:59:06 1381943 257
>>1381927
>А там мистраль 12b. Т.е. полное дно и его можно перебить даже имея какую-нибудь обосранную 3060
А в моё время на 3050 запускали 24b и кум рекой лился...
Аноним 09/10/25 Чтв 22:05:32 1381958 258
>>1378253 (OP)
Появилась идея фикс, подстелить соломку и купить резервное железо если нынешнее отъебнет.
И конечно встал вопрос инференса. Рассматриваю разные мини пк.
Собственно вопрос. В инференсе лучше ведь брать интел насколько я понял?
Это резервный вариант, понятно что ничего серьезного на нем крутиться не будет, но все же.
Аноним 09/10/25 Чтв 22:05:46 1381959 259
>>1381940
Запускал Q3_K_XL, выдавало ~9.5 т/с на старте, по мере роста контекста снижается, само собой. У меня 3060 12gb + 64gb DDR4 3200.

Годнота ящетаю, учитывая размер модели, скорость инференса и цену видяхи меняется у бомжа на бутыль самогона. Запускать 12b на 3060 - это что за поехавшим надо быть?
Аноним 09/10/25 Чтв 22:07:07 1381962 260
>>1381936
>эйр шустро крутится
Это сколько? И не первое сообщение, а на контексте
>>1381943
Да, и раньше 8к контекста у gpt 3.5 на все хватало...
Аноним 09/10/25 Чтв 22:14:39 1381971 261
>>1381918
Однако, хорош. Получается там систем инжект с мелочи перед самым ответом, или оно маскируется под начало ризонинга, или что-то более сложное?
>>1381928
> при сравнимых затратах я оцениваю результат
В текущем виде там под сомнением все, от сравнимости затрат до оценки результата. И переносимость выводов, даже если обеспечить их корректность сомнительна.
> то как же без горького урока
Эту херню чрезмерно тиражируют и понимают неверно. Похуй, главное чтобы нравилось, просто держи в уме что это лишь развлекаловка и извращенный конструктор.
> А бывает иначе?
Два стула: или примитивные кейсы, которые легко измерить численно (та же классификация), но автомодельны и могут быть далеки от задач компьютерного зрения, генеративных и т.д.; или лезть в дебри, где сама по себе качественная оценка является сложным предметом.
Аноним 09/10/25 Чтв 22:15:50 1381973 262
>>1381962
Первое сообщение - выше написал. А в фулл контекст я не упирался, посмотрел что там русик говно и удолил, кек.

Можно попробовать прикинуть примерно: дэнс гемма 27b у меня выдает 3.7 т/с на старте и 2.5 т/с на полностью забитом 16к контексте. Экстраполируем это на эйр и получаем что будет что-то около ~6.5 т/с.
Аноним 09/10/25 Чтв 22:42:13 1381995 263
>>1381971
>просто держи в уме что это лишь развлекаловка и извращенный конструктор
Ага. Правда всё ещё мечтаю открыть шин и возможность сделать свой AGI в гараже.
>или лезть в дебри, где сама по себе качественная оценка является сложным предметом
Лол, и то верно. Ладно, спасибо, Анон, пойду чинить свой код, а то при попытке отрефакторить добавление новых метрик он отрыгнул слегонца.
Аноним 09/10/25 Чтв 22:52:42 1382009 264
>>1381925
1m для пылесосов и зубных щёток?
Аноним 09/10/25 Чтв 23:18:58 1382031 265
>>1381958
Нет, бери амуде стрикс хало. В идеале на 128 Гб, но они под 200к стоят.
Аноним 09/10/25 Чтв 23:19:45 1382033 266
image.png 799Кб, 1310x895
1310x895
Накомпилился торча и спит
Аноним 09/10/25 Чтв 23:25:23 1382035 267
>>1382033
Линупс - говно для пидорасов.
Аноним 09/10/25 Чтв 23:26:35 1382036 268
Аноним 09/10/25 Чтв 23:27:20 1382037 269
image.png 613Кб, 1315x1033
1315x1033
Аноним 09/10/25 Чтв 23:33:55 1382042 270
>>1382035
Он как квен. В целом говно, но иногда можно выжать годноту
Аноним 10/10/25 Птн 00:18:08 1382058 271
Аноним 10/10/25 Птн 02:31:22 1382108 272
>>1381959
>Запускал Q3_K_XL, выдавало ~9.5 т/с на старте, по мере роста контекста снижается, само собой. У меня 3060 12gb + 64gb DDR4 3200.
На этом лучше пускать iq4xs. Сам пробовал сначала подобный квант как у тебя - разница с iq4xs у AIR сильно заметная.

>>1381959
>Запускать 12b на 3060 - это что за поехавшим надо быть?
На 3060 хорошо лезет 12B exl2 в 6bpw, и при контексте 12K или 5bpw при 16K контекста. И скорость получается за 20-25 t/s. При практически моментальном процессинге контекста. Такой бэк хорошо заходит, если в качестве фронта - что-то вроде talemate или astriks с кучей запросов, и которые ведут и корректируют вывод, сами ведут историю и т.д. через кучу запросов к модели.
Кейс конечно специфический, но имеет место быть.
Аноним 10/10/25 Птн 02:40:38 1382113 273
>>1382108
Да поделитесь кто-нибудь уже воркфлоу для талемейта, епт, кто разобрался в этом. Хотя бы посмотреть, как люди пердолят лапшу
Аноним 10/10/25 Птн 04:37:09 1382128 274
Надоело
Хочу вр миры с ии уже сейчас
Неужели мне реально надо ждать до старости чтобы просто застать ростки этой технологии
Аноним 10/10/25 Птн 04:48:53 1382132 275
>>1382128
Да, а пока дрочи с всратохуистичесским попугаем, где даже модели уровня геммы тупят и несут хуйню.
Аноним 10/10/25 Птн 04:50:18 1382133 276
Будущее за мое.
Совсем скоро ллм начнут интегрировать в игры, как раз выйдет ддр6, ясен хуй никто не будет требовать от игрунов 96гб врам, а вот 16 врам + 64ддр6 вполне каждый сможет осилить
Аноним 10/10/25 Птн 06:42:49 1382148 277
>>1382042
>В целом говно, но иногда можно выжать подливу
Аноним 10/10/25 Птн 07:30:10 1382154 278
>>1382035
Наслаждайся концом поддержки десятой винды, которую продавали как вечную версию, к которой будут выходить только обновления. Наслаждайся одиннадцатой, которая каждые несколько секунд делает скриншот и неизвестно куда отсылает
Аноним 10/10/25 Птн 08:04:34 1382157 279
>>1382133

Никто не будет даже мистраль 24б в игры интегрировать, максимум гемму а4б. Потому что оринтируются всегда на железо большинства, а большинство более чем к 8б мое просто не готово.
Аноним 10/10/25 Птн 08:23:00 1382162 280
>>1381605
а вот это уже интересно... где бы только достать в наших широтах...
Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AG Аноним 10/10/25 Птн 08:28:25 1382164 281
photo2025-10-09[...].jpg 177Кб, 1272x1280
1272x1280
photo2025-10-09[...].jpg 76Кб, 814x638
814x638
photo2025-10-09[...].jpg 71Кб, 816x852
816x852
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).

Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?

Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:

1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.

2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.

3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.

Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.

Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.

https://arxiv.org/pdf/2510.04871
Аноним 10/10/25 Птн 09:54:50 1382194 282
Аноним 10/10/25 Птн 10:17:50 1382203 283
>>1382194
Нет. И не будет, т.к. это для приложух самсунга
Аноним 10/10/25 Птн 10:32:19 1382224 284
что там по гермесу и дельфину?
Аноним 10/10/25 Птн 11:14:04 1382264 285
>>1382113
Так у него весь базовый функционал сейчас через лапшу и идет - изучай-нехочу.
Правда, оно все еще на стадии между альфой и бетой, и документация до конца не дописана. IMHO стоит еще немного подождать, перед тем как пытаться собственные макароны с нуля рисовать - автор не шибко быстро, но пишет и документацию, и интерфейс еще допиливает.
Сейчас оно просто уже работает "как есть", и какие-то небольшие правки уже вносить можно - но больше на догадках пока.
Аноним 10/10/25 Птн 13:11:15 1382351 286
>>1382154
>Наслаждайся концом поддержки десятой винды, которую продавали как вечную версию, к которой будут выходить только обновления.
Минусы будут? Идеальная система, в которой уже давно известно как отключить телеметрию и накатить лицензионный корпоративный ключ, запустив безобидный скрипт с гитхаба.
Аноним 10/10/25 Птн 13:16:07 1382353 287
>I reach behind me and grab one of my own breasts
Уже не раз вижу эту ошибку в глм, почему так?
Аноним 10/10/25 Птн 13:17:51 1382355 288
images.jpg 6Кб, 243x207
243x207
>>1382132
>даже модели уровня геммы
>тупят и несут хуйню.
Аноним 10/10/25 Птн 13:38:52 1382378 289
>>1382353
Спроси у неё, лол. Потому что паттерны важнее смысла. Модель тупая.
Аноним 10/10/25 Птн 13:39:56 1382380 290
>>1382133
Проще отдать на откуп облакам, ведь даже лишние 32гига рам - ебать какое жесткое требование, консоли не позволят.
Спекулируя о революциях и нововведениях - здесь уместно создание некоторой универсальной модели для ии в играх. Выйдет какой-нибудь анреал6, где киллерфичей будет встроенный универсальный претрейн в нескольких размерах, инструменты тренировки для него и возможность относительно удобной интеграции.
>>1382353
Одной рукой одно, другой другое?
Аноним 10/10/25 Птн 13:43:11 1382384 291
>>1382353
> почему так?
Данная проблема была и у предыдущей (32б) версии. GLM путает сущности местами, иногда несколько раз в одном аутпуте. Чем больше квантования - тем хуже. По моему опыту Air так делает даже при Q6 кванте, но существенно меньше, чем при Q4. Проявляться может по-разному: так, как это у тебя, или, например, какая-нибудь черта {{char}} перейдет {{user}} и наоборот. Решается обыкновенным свайпом.

>>1382378
> Потому что паттерны важнее смысла.
Паттерны - действительно проблема, но здесь они совершенно ни при чем.
Аноним 10/10/25 Птн 13:49:47 1382391 292
>>1382384
> какая-нибудь черта {{char}} перейдет {{user}} и наоборот
ахахаха
так даде мистраль не срёт
ну и убожество
Аноним 10/10/25 Птн 13:52:33 1382394 293
>>1382351
>Минусы будут? Идеальная система, в которой
Другой мимокрокодил. Но - будут.
1. Не умеет выгружать GUI из VRAM - сколько-то жрет от карты обязательно. У пингвина - это отдельные части, GUI можно вообще выключить.
1.1 Немного задействует шину и карту всегда под это GUI.
2. Сколько там она жрет сейчас минимум после загрузки? Какие требования? Пингвин базовой комплектации легко вписывается в полгига если есть такая задача. Цимес в том, что эта комплектация имеется штатно, а не долгим и нудным вырезанием всего ненужного для данного сетапа. Это еще без тщательного пердолинга всего и вся, а то и меньше можно сделать.
3. Нет FS с динамическими снапшотами и сабразделами, вроде BTRFS. Очень сильно помогает, когда нужно разрулить запуск очередного хрен-пойми-как-запускать комплекса, не похерив попутно то, что уже работает, или хотя бы иметь возможность мгновенного переключения/отката на ходу между версиями.
(Я в курсе про контрольные точки, и прочее для бекапов у винды. Но это не разу не равноценно по функционалу. Несколько другой принцип, и затраты времени на применение.)

Вышеназванное - это не абстрактный минус, а применительно к задаче "выжать максимум возможного, из конкретного железа под запуск LLM".
Только не надо меня в фанбои пингвина записывать. У него свои минусы. Я к тому, что идеала не существует в принципе, везде свои компромиссы. Выбирайте софт под задачу - и нервы целее будут. :)
Аноним 10/10/25 Птн 13:55:35 1382400 294
>>1382394
3й пункт жидкий на фоне жокера/кубов/лхс
Аноним 10/10/25 Птн 13:57:51 1382403 295
>>1382394
> а применительно к задаче "выжать максимум возможного, из конкретного железа под запуск LLM"
Ну хуууууй знает, кроме потребления рам системой высосано из пальца.
Для рига линукс имеет преимущества совсем другого толка, для десктопа все это еще менее релевантно.
> У пингвина
> Пингвин
> фанбои пингвина
Какой же ты мерзкий.
Аноним 10/10/25 Птн 14:31:48 1382432 296
>>1382403
двачую, правильно говорить "линупс"
Аноним 10/10/25 Птн 14:49:33 1382452 297
>>1382164
на 4 х100 решало задачку 3 дня, лолчё?
Аноним 10/10/25 Птн 15:06:28 1382465 298
>>1382403
>>1382432
С чего бы мне презрительную кличку использовать?
"Пингвин" - официальный логотип, и вполне нейтральное прозвище. Как и "чёртик" - для BSD. Как и "винда/окошки".

Это вы со своим "Линупс" - прати-и-ивные. :) Серьезно, хоть бы узнали сначала, откуда оно пошло, и от чего образовалось. Или таки знаете? Тогда тем более - фу на вас. :)
Аноним 10/10/25 Птн 15:15:23 1382468 299
>>1382355
Заебись рпшить с ассистентом?
Аноним 10/10/25 Птн 15:34:14 1382480 300
>>1378253 (OP)
Посоветуйте хорошую ИИшку для дефолт сыча, чтобы была как несколько поисковиков и компилировала все воедино, пользуюсь gpt5 на LMArena, но уже как будто не хватает. Спасибо!
Аноним 10/10/25 Птн 15:36:53 1382486 301
>>1382465
Звучит мерзко и не используется в обиходе.
>>1382480
microsoft/Phi-3-mini-4k-instruct
Аноним 10/10/25 Птн 15:42:11 1382495 302
>>1382486
Через какую софтину на ПК можно запустить эту модель? Не имел опыта локального запуска
Аноним 10/10/25 Птн 15:45:17 1382499 303
>>1382495
Через transformers. Какие вопросы такие и ответы.
Аноним 10/10/25 Птн 15:58:14 1382504 304
>>1382486
Регулярно имею с ним дело с ~2005 года, с ~2017 - стоит на основной машине. Название вполне себе регулярно встречаю, когда хочется неформально назвать, не оскорбляя при этом.

А вот "линпус/линупс" - для моего поколения действительно звучит мерзко, и в обиходе не используется.
Потому, что пошло от Linpus Linux - тайваньского дистра созданного под нетбуки (2007-2009 год создания). Весьма странного, и оставляющего после себя ощущение, как от транса рядом с нормальным человеком (пытались iOS косплеить, причем планшетную). Это еще по ассоциациям тянется: Линпус-Линупс - Тайвань-Тайланд тоже похоже, а чем Тайланд известен? Правильно - операциями по смене пола, они первыми оные на поток поставили. :) С учетом того, что Linpus из Fedora был сделан примерно таким же образом...
Аноним 10/10/25 Птн 16:20:49 1382520 305
>>1382504
> Потому, что пошло от Linpus Linux - тайваньского дистра созданного под нетбуки
> Это еще по ассоциациям тянется: Линпус-Линупс - Тайвань-Тайланд тоже похоже
https://www.youtube.com/watch?v=G9sA20OenDE
> а чем Тайланд известен? Правильно - операциями по смене пола, они первыми оные на поток поставили. :) С учетом того, что Linpus из Fedora был сделан примерно таким же образом
Шапочку из фольги забыл
Аноним 10/10/25 Птн 16:29:35 1382531 306
>>1382504
>а чем Тайланд известен? Правильно - операциями по смене пола, они первыми оные на поток поставили. :)
А говорят, динозавры вымерли. Видали какой скуфище в треде?
Аноним 10/10/25 Птн 16:55:05 1382556 307
>>1382520
>Шапочку из фольги забыл
>кому я нужен, пущай смотрят, мне скрывать нечо, им видней что для нас лучше!!!
чёт каждый раз в голосяру с долбоёбов без личности
Аноним 10/10/25 Птн 16:57:28 1382558 308
>>1382531
Я не стал это писать, но да, прим пикабу завоняло от этой писанины.
Аноним 10/10/25 Птн 17:06:01 1382561 309
Ребята давайте все успокоимся и будем дружно ждать новую гемму, которая сегодня!
Аноним 10/10/25 Птн 17:07:09 1382562 310
1760105231759.jpg 137Кб, 720x995
720x995
Аноним 10/10/25 Птн 17:15:00 1382568 311
изображение.png 80Кб, 478x275
478x275
Как заставить эту хуйню работать?
Аноним 10/10/25 Птн 17:37:23 1382593 312
Аноним 10/10/25 Птн 17:38:45 1382595 313
>>1382561
Пока наш любимый анон не отпишется что модель няша даже качать не буду
Но это скорее всего мелкомусор будет
Аноним 10/10/25 Птн 18:02:01 1382603 314
>>1382561
Ставлю нихуя на то, что новая гемма будет плохой как третья ллама
Аноним 10/10/25 Птн 18:02:39 1382604 315
>>1382603
Третья Ллама была замечательной. Четвертая была плохой. Ставлю нихуя на то, что ты опять не подумал прежде чем постить, падлюка
Аноним 10/10/25 Птн 18:03:17 1382605 316
>>1382604
Не обзывайся пожалуйста, я по честному перепутал
Аноним 10/10/25 Птн 18:07:22 1382606 317
>>1382605
Ладно, я по честному извиняюсь
Аноним 10/10/25 Птн 18:29:13 1382617 318
>>1382606
Извинения приняты (по честному)
Аноним 10/10/25 Птн 18:33:34 1382620 319
С чего вы вообще взяли что сегодня новая Гемма выйдет? Откуда инфа?
Аноним 10/10/25 Птн 18:38:13 1382623 320
Аноним 10/10/25 Птн 18:41:03 1382625 321
image.png 3Кб, 165x61
165x61
>>1382623
Ну вообще пора бы уже
Аноним 10/10/25 Птн 19:17:46 1382639 322
Бубаны, выходили обновы или какие-то новые модели до 32б? Такие, чтобы стоили запуска. Я где-то на 4 месяца из тредов вытек. Кроме эйров всяких - у меня не потянет. Разве что если бы вышла какая-то 50б МоЕ, но я не видел подобных релизов.

Заинтересовал магистраль новый, но лень тестить из-за того, что ВООБЩЕ И НИ В КАКУЮ РИЗОНИГ В ТАВЕРНЕ НАСТРОИТЬ НЕ МОГУ НА НЁМ. А лучше ли он обычного мистраля 3.2 - это ещё тот вопрос.

Кстати, 30б МоЕ квен мне прям понравился, несмотря на то, что он шизофреничен, словно модель давида. Местами. И лучше следует инструкциям, чем тот же мистраль 24б.
Аноним 10/10/25 Птн 19:30:23 1382644 323
>>1382639
>выходили обновы или какие-то новые модели до 32б?
Ничего интересного.
Аноним 10/10/25 Птн 19:31:05 1382645 324
>>1382520
>Шапочку из фольги забыл
Ну так надень, раз забыл. :)

>>1382531
>А говорят, динозавры вымерли. Видали какой скуфище в треде?
Как-то плакатов "вход только для школоты" здесь не видел. А если вам всем можно здесь... всякое писать, почему мне нельзя? :) Или прямые наезды и оскорбления здесь считаются обязательным хорошим тоном, без которых постить вообще запрещено? :)
Ну да, тогда в стиль не вписываюсь. Но кто виноват, что по нейросеткам здесь - самое активное место в RU сегменте? Если чисто с практической точки зрения, ради практических же новинок мониторить? :)

>>1382558
>Я не стал это писать, но да, прим пикабу завоняло от этой писанины.
Иногда, в жизни, бывает, так не логично случается - нарочно не придумаешь. Допускаю, что это местное, а не общее - но таки было.
Аноним 10/10/25 Птн 19:38:30 1382652 325
>>1382556
Тут, конечно, шизов куда камень не кинь - попадешь, но чтобы настолько. Там, блять, прямой текст выделен за что упрек, а ты каким-то левым бредом разосрался. Больной человек, изолируйся от общества.
>>1382561
Вот бы новую геммочку умную няшную и в большом размере. Врядли, в 200+ составит конкуренцию прошке при хорошей тренировке и будет пососной при плохой.
>>1382645
Древнее зло пробудилось.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов