/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №194

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №194 /llama/ Аноним 04/02/26 Срд 22:14:55 № 1509647 1

Эффективность к[...].png 92Кб, 1399x1099

Цензура моделей[...].png 2157Кб, 1131x7777

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Вниманиеблядство будет караться репортами.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1504260 (OP)
>>1500759 (OP)

Аноним 04/02/26 Срд 22:19:13 № 1509653 2

ПОЧЕМУ эир лучше мистраля 24b?

Аноним 04/02/26 Срд 22:20:48 № 1509654 3

>>1509653
Потому что это база треда

Аноним 04/02/26 Срд 22:23:25 № 1509657 4

4234252352561324.mp4 15192Кб, 1280x704, 00:00:10

Освятил.

Аноним 04/02/26 Срд 22:39:34 № 1509666 5

>>1509647 (OP)
А когда список моделей за 2026 завезут?

Аноним 04/02/26 Срд 22:58:54 № 1509678 6

В чаткомплишене в таверне только 4 семплера или я в глаза долблюсь?

Аноним 04/02/26 Срд 23:20:31 № 1509699 7

>>1509666
В 2027 вестимо.
>>1509678
Остальное прописывай руками в адишионал параметрс в настройках подключения, лол.

Аноним 04/02/26 Срд 23:27:24 № 1509700 8

>>1509699
Оно даже не сейвится в пресете, каждый раз заново надо
Бедолаги апишники

Аноним 04/02/26 Срд 23:50:05 № 1509720 9

>>1509666
Когда кто нибудь его сделает. Это же очевидно. Буть героем треда, запили сам.

Аноним 05/02/26 Чтв 00:11:00 № 1509731 10

>>1509640 →
>Mistral Medium, которые они так и не выложили на обниморду суки

Ну ты губу раскатал. Она один раз утекла, а её до сих пор помнят, а на обноморде до сих пор тьюны выходят. Никто бы не говорил и не покупал другие модели, будь у нас свежие версии мику.

Аноним 05/02/26 Чтв 00:32:13 № 1509757 11

>>1509731
Кстати, ничего о ней вообще не слышал. Я про медиум, а не про мику. Она прям вин?
Тогда вопрос. Нахуя выпускать в попенсорс большую модель, а не среднюю? Я логики не улавливаю. Ведь платным должен быть серьезный продукт.

Аноним 05/02/26 Чтв 00:54:11 № 1509767 12

>>1509731
> на обноморде до сих пор тьюны выходят
Лолчто
>>1509757
Артефакт древних времен. Тогда была ничего, но прямо супер прорывом не назвать.
> Нахуя выпускать в попенсорс большую модель, а не среднюю?
Если средняя ебет то может быть даже более ценной, или там есть наработки и методы, которые они не хотят раскрывать.

Квенкодер-некст вполне неплохо перформит, апгрейд относительно 30а3 ощутимый. Но и каким-то чудом не назвать, местами видно что модель не крупная.

Аноним 05/02/26 Чтв 01:09:32 № 1509775 13

Интересно

Аноним 05/02/26 Чтв 01:19:32 № 1509780 14

>>1509757
>Кстати, ничего о ней вообще не слышал. Я про медиум, а не про мику. Она прям вин?

Мику(её утекшую версию) помнят до сих пор.

>Нахуя выпускать в попенсорс большую модель, а не среднюю?

Ты сколько лет в этом варишься. Еще не понял? Мне все стало понятно с того момента как в линейке второй ламы кое-то зажал 30B модель.
Суть любого бизнеса в зарабатывании денег. Выкладывание в опенсорс мелких моделей - то же что демо версия. Даешь нищукам демонстрацию того, что они получат купив большую модель. Выкладывание больших моделей = пиар и гарантия засветится в бенчмарках и топах. Кроме того, это удар по конкурентам, которые зарабатывают на продаже аналогичных, но более успешных больших моделей - обрати внимание, что большие модели всегда выкладывают те, кто находится в положении догоняющих. Т.е. они уже знают что платно их говно не взлетит, так как уступает поделке топовых конкурентов, так хоть ущерб им нанесет. Главное чтобы размер был реально выше возможностей пек обычного пользователя.
Средние же модели в опенсорсе вредят всем. Они гораздо умнее демонстрационных маленьких моделей, чтобы ими можно было комфортно пользоваться. Но они влезают в пользовательское железо, в отличие от больших. Имеющий такую модель не станет покупать большую. С годами критерии средней модели изменилисб как подросло пользовательское железо и стало возможно запускать модели на оперативке с выгрузкой слоев, но суть не изменилась.

Аноним 05/02/26 Чтв 02:13:13 № 1509798 15

>>1509666
Шапка с 2024 не обновлялась

Аноним 05/02/26 Чтв 02:26:49 № 1509802 16

Квен это полная залупа. Совсем не стоит страданий, потому что все что это говно умеет это держать контекст. Самое ублюдское что в нем есть это ебучие имперсонейты, я нигде даже на ебучих васянотюнах мелкомистраля такого не встречал. Отправляется не просто в помойку, а в унитаз нахуй.

Аноним 05/02/26 Чтв 02:40:02 № 1509807 17

>>1509780
> платно их говно не взлетит, так как уступает поделке топовых конкурентов
Вопрос ценовой политики и пиара, дипсик с двух ног это показал.
> Средние же модели в опенсорсе вредят всем.
> Но они влезают в пользовательское железо
Роль самой популярной гпу делят 8-гиговые ампер и ада. Сумма по 3090, 4090, 5090, на которых действительно можно запустить те самые "средние модели" - 1.5%. Вернись из манятеорий заговора в реальность, для обывателя даже 30б - много. Никто не строит шизоидные платы по захвату ничтожнейшей доли рынка, которая и так к ним не пойдет, какой еще вред?
Как выпускали трендовое, так и выпускают. Кто-то по одной, кто-то парные, кто-то сразу линейку. Есть факторы помимо гонки вооружений, пиара и прочего, почитай про опенсорс и почему последние лет 15 в него активно инвестируют крупные игроки.
> возможно запускать модели на оперативке с выгрузкой слоев
> чтобы ими можно было комфортно пользоваться
На ноль делишь. Нормисам нужно быстро и в красивом интерфейсе для обезьян, это покрывается бесплатными версиями. Специалистам нужно быстро и эффективно, хватает подписок. Реальные клиенты - стартапы и компании разных калибров с существенными количествами запросов. Даже если им хватает средней модели - они будут заказывать у авторов, вместо того чтобы пилить свой парк железок или связываться с мутными конторами.

Аноним 05/02/26 Чтв 03:02:39 № 1509812 18

>>1509807
>для обывателя даже 30б - много.

Так обыватели - это и не рынок. Что с обывателя взять - 20 баксов за подписку гпт? Они и так её платят,там рынок поделен уже, всё. Только Грок там пытается влезть, проддавая секс. Остальным там делать нечего.

>Есть факторы помимо гонки вооружений, пиара и прочего, почитай про опенсорс и почему последние лет 15 в него активно инвестируют крупные игроки.

Есть такое - когда одна компания идет к монополии - другии обьединяются и создают опенсорс чтобы охладить её трахание. Это идет не 15 лет, а около 30, с момента как корпы подняли из говен ублюдков, разрабатывающих линупс, чтобы остановить растущую монополию майкрософт.
В ллм была похожая ситуация, когда клозед аи шла к монополии в 22 году и тогда другие корпы реально создали ламу. Но с тех пор ситуация поменялась, единство корпов ушло, все конкурируют друг с другом, общефинансируемых опенсорс моделей типа ламы больше нет. Сейчас каждый выпускает модели в опенсорс по личным причинам - либо прорекламит себя, либо поднасрать другим.

>Реальные клиенты - стартапы и компании разных калибров с существенными количествами запросов.

Именно. Прямо сейчас - самостоятельная ебля с крупными сетками и выстраивание вокруг них собственной инфраструктуры стоит дороже договора с корпами на полное обслуживание, даже притом что корпы там наживаются буквально с каждого проданного токена. Если бы не китайцы, впрочем, то хуй бы мы и крупные сетки реально уровня чат гопоты увидели - так и кормились бы подножным кормом уровня лламы.

>Как выпускали трендовое, так и выпускают. Кто-то по одной, кто-то парные, кто-то сразу линейку.

Твоя версия - почему Мистраль медиум никогда не был в опенсорсе? И куда делись новые версии геммы?

Аноним 05/02/26 Чтв 03:14:56 № 1509813 19

>>1509812
>почему Мистраль медиум никогда не был в опенсорсе?
А хрен его знает другой анон

Честно говоря, моешки вплоть до большой ГЛМ большой Лардж всё же не догоняют. У них есть свои фишки, где они лучше, но один большой "мозг" сетка мелких всё-таки не заменяет. Можно предположить, что дело чисто в пиаре - плотные большие модели не в тренде, а нет ничего хуже для бизнеса, чем быть не в тренде. Поэтому Медиум тихо похоронили, расходы списали - просто чтобы не позориться, хотя модель скорее всего хорошая.

Аноним 05/02/26 Чтв 03:24:17 № 1509816 20

>>1509802
Nya ha ha ha
Еще один поломан квеном. Слабак.
Nya ha ha ha.

Используй его для суммарайза или иных задач, он в этом хорош.

Аноним 05/02/26 Чтв 03:24:43 № 1509817 21

>>1509798
Модели обновляли в середине 25 года. Как и шапку.
Вруша.

Аноним 05/02/26 Чтв 03:36:38 № 1509822 22

Кто гоняет q2 жирноглм, вам он не кажется сухим?

Аноним 05/02/26 Чтв 03:39:48 № 1509823 23

>>1509822

Аноним 05/02/26 Чтв 04:00:21 № 1509826 24

>>1509822
Пишет как и эйр. Свайпай почаще, промт поменьше. Напиши какой стиль повествования хочешь.
Ололо всеми нелюбимый квен при этом слушается коротких команд, а обсосанный жэлэм пускает слюни. Очередная победа китайской нейро страпонессы

Аноним 05/02/26 Чтв 04:08:43 № 1509833 25

>>1509822
Я катаю его в q6 и мне кажется, что это лоботомит ебаный когда без ризонинга. Еще и на хуй бросается, если 4.7. А с ризонингом мне западло ждать 2-3 минуты пока он там просрется, переписывая ответ. Жизнь - боль, потому что все остальные локальные сетки еще хуже. Последний месяц буквально все модели кажутся выбором между сендвичем с дерьмом и гигантской клизмой. Поэтому когда я придумываю очередную вариацию моего любимого сценария, я сразу пейпигаю чмопус. Я теперь локальный импотент, так сказать. Подумываю уже риг распродавать.
А ведь первые пару месяцев после выхода 4.5 не слезал с него, думал, что вот он рывок. А по итогу пук в лужу. Но, справедливости ради, мне кажется, что 4.5 на первом десятке сообщений реально ебет все следующие обновления. Но дальше тоже безмозг какой-то начинается.

Аноним 05/02/26 Чтв 05:01:34 № 1509839 26

3 денёк без поддержки..
ну ничего потерпим

Аноним 05/02/26 Чтв 05:04:30 № 1509840 27

>>1509833
Жди стёпу, там ризонинг быстрее и модель меньше что тоже бафнет скорость

Аноним 05/02/26 Чтв 05:10:05 № 1509842 28

>>1509833
>Еще и на хуй бросается, если 4.7
Ну я в промпте объяснил ему, что так делать нехорошо и как оно должно быть с точки зрения реализма. Это работает даже слишком хорошо. Всё-таки когда модель соображает, процесс общения приятен и сам по себе, приходится этим утешаться.

Аноним 05/02/26 Чтв 05:12:19 № 1509843 29

Имагине 300б плотную модель.
У нас была мечта но всё упиралось в железо, сейчас даже если выйдет железо моделей уже не будет, только мое лоботомиты

Аноним 05/02/26 Чтв 05:26:18 № 1509845 30

>>1509843
>Имагине 300б плотную модель.

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Аноним 05/02/26 Чтв 05:36:10 № 1509848 31

>>1509845
А всё. Дальше обещают 500ba50 мое парашу

Аноним 05/02/26 Чтв 05:45:04 № 1509850 32

>>1509848
Минусы? Плотные модели - устаревшая и слишком дорогая архитектура. Deal with it.

Аноним 05/02/26 Чтв 05:52:04 № 1509852 33

>устаревшая
Тем что нашли способ работать меньше и получать результат хуже?
>слишком дорогая архитектура
Тебя как потребителя это ебать не должно, пусть кабанчик разбирается.
Ну и смешно читать про дороговизну когда врам и рам почти сравнялись в цене

Аноним 05/02/26 Чтв 06:18:45 № 1509855 34

Топовые локальные модели которые можно запустить на компе уровня 4090 и 128 гб рам, как они, не сильно отстают от корпов?

Аноним 05/02/26 Чтв 06:29:20 № 1509858 35

>>1509855
Смотря в чем, для кода когда есть опус и гпт5, любая локалка или другая модель просто не имеет смысла, ибо они работают слишком хорошо. Гемини, как ассистент, в принципе заменима, если не требовать какого-то умного анализа. Но гемини тоже слишком хороша для просто попизделок за всякую хуйню.
Кароч я еще не видел ни одной доступной локалки которая была бы лучше хотя бы копеечных гпт5-мини, гемини3-флеш.
В итоге локалки нужны только если ты прям совсем не хочешь чтобы твои диалоги у кого-то хранились, либо же ради файнтюнов, которых нет. В отличии от картинкогенерации в этом плане все тухло.

Аноним 05/02/26 Чтв 07:03:03 № 1509862 36

Подумать тока эиру реально пол года уже, вы вдумайтесь в эту цифру блять, это милфа в мире нейронок.

Аноним 05/02/26 Чтв 08:34:59 № 1509881 37

>>1509858
>любая локалка или другая модель просто не имеет смысла
А остров дядьки энштейна они тебе отыграют, мм?

Аноним 05/02/26 Чтв 08:38:01 № 1509882 38

>>1509881
Зачем? У меня католическая церковь под боком.

Аноним 05/02/26 Чтв 09:24:02 № 1509901 39

>>1509855
Сами ллм на полшага, едва заметно.
Корпы сильны невероятно хорошим бекэндом и оркестраторами. У них и поисковый индекс есть, что позволяет быстрее поиск осуществлять. Ну то есть число гугл-разработчиков представляешь? Вот пока сетка учится 3 месяца - что им делать? А у них уже и свой индекс рядом, и они могут перепробовать все сценарии и пайплайны как используется ллм, как сама себя корректирует, проверяет, каким промтом делается саммари и прочее.

Я убеждён, что вот это сопутствующее окружение настроенное под конкретную ллм важнее самой ллм, а качество ллм вторично и больше отвечает за стиль и характер ответов.
По смыслу это как человек с листочком или без листочка. С листочком человек намного лучше решает интеллектуальные задачи, и с кодом, и со списком покупок, и когда нужно речь подготовить.

Конкретно в твоём случае с 128+24 памяти имеет место некоторая дыра, тебе нужен размер сетки примерно 0.8х(суммарный объём памяти). Есть уже три хороших сетки на 200-230B чуть ли не за последний месяц, до которых ты не дотягиваешься, и есть на 100B и 70B, которые влезают в рам с запасом, но довольно старые. Посмотри qwen на 80B, GLM-4.6V/GLM4.5air
Ну а без RAM - у тебя 24 ГБ. Это любая сетка на 20-30B полностью в видеопамяти с небольшим контекстом, они отстают уже на полтора шага и намного заметнее. Если всё что выше 200B приближается к "насыщению" и дальнейшее увеличение это часто о том, что она просто больше данных в весах запоминает, но в плане мышления заметно лучше не становится, то вот у 30B и с мышлением проявляются проблемы. Рекомендую посмотреть gemma3-27b, glm-4.7-flash, qwen на 30B. Для многих несложных задач их качества тебя хватит, и если задача уже решает этими сетками с большой скорость, то зачем запускать крупные медленные из RAM - если он конечно тоже решат задачу, но намного медленее? Тот же glm-4.7-flash часто в состоянии сам оценить, что он не вывозит заданее - можно ему как инструмент оформить переход на более тяжёлую модель из рам по его запросу.

О чём тот анон выше - не знаю. gpt5-мини прям не очень, для поиска информации окей, из-за вышеупомянутого индекса и прочего. А для задач размышления, чего-то с кодом, да у меня полный gpt5 в каждом третьем коде ошибки допускает, а мини просто использовать контпродуктивно, он пишет бред. Возможно с веб-языками где много примеров получше, конечно, но не знаю.

Аноним 05/02/26 Чтв 09:49:09 № 1509918 40

>>1509855
Начнём с самого главного вопроса. Что ты желаешь получить?

Есть специализированные модели которые в конкретных аспектах не хуже SOTA.
Большинство корпов это этакие генералисты, которые и шлюха постели и программист и агент и ещё хуй знает кто.
Тебе надо что-то конкретное?

Аноним 05/02/26 Чтв 10:12:25 № 1509924 41

>>1509901
Вообще, для программирования база это брать Q6-Q8, плюс размер контекста важен. В сумме у чувака 152. Так что ориентируемся на 80-120b.

Что у нас есть из генерализированного?
OSS, но он мало занимает, но интересный вариант.
Air, но уже отстаёт и ковыляет
Qwen со всеми его оттенками, там прям дохуя выбора. Кодер некст прям неплох.

Аноним 05/02/26 Чтв 10:23:38 № 1509928 42

>>1509901
Вот этот базанул. У меня тоже 4090+128, и я хз вообще на чем сидеть. Только жирноглм, тот со своими нюансами, но юзабелен и разносит все что меньше. До апгрейда сидел на Эире, он ахуенен для своего размера для рп. А дальше только Мистраль Смолл и Гемма. Всё остальное для рп не юзабельно, буквально говно. Такой вот выбор. По коду хороши Квен кодеры и жирная Гпт Осс которая 120.

Аноним 05/02/26 Чтв 10:37:22 № 1509932 43

>>1509928
На 12б посиди, пидорас зажравшийся.

Аноним 05/02/26 Чтв 10:41:46 № 1509934 44

>>1509932
Зачем? Я выберу скорее ничего чем говно. Да, вот так. Что для одного зажравшийся то для другого опытный. Были эпизоды когда я неделями если не месяцами забивал на всю тему, потому что рпшить не на чем. Не надо себя обманывать и в слезах коупить, что лучше хоть что-то, даже если это что-то - односложный автоответчик. Только время потеряешь и разочаруешься. Или привыкнешь и превзойдешь себя в своем.коупинге. Не знаю что и хуже.

Аноним 05/02/26 Чтв 10:42:08 № 1509935 45

>>1509932
Так он уже сидел на Эире

Аноним 05/02/26 Чтв 10:47:29 № 1509942 46

>>1509932
Как я тебя понимаю (C)
У меня например говно мамонта с i7 2600k и 24гб рам. Решил в свое время 1060ti обновить и купил себе 3060. Ооо ебать, вот это чудеса техники. Посидел 3 месяца, распробовал, примерно так понял что в районе 30b как раз лучшее соотношение когда модель достаточно умная, а повышение размеров не так сильно прибавляет ей мозгов.
Поскрёб по сусекам и взял 3090. В итоге у меня в говно мамонта воткнуто 36гб врам. И в целом нормас. Жаль с MoE особо оптимизации меня не коснулись почти.

Аноним 05/02/26 Чтв 11:16:54 № 1509962 47

Салют. Пикрел всему треду посвящается =)

Что там, не для рамо-бояр, всё по прежнему, или какая интересная штука выходила пока меня не было? Для 12 + 32.

Аноним 05/02/26 Чтв 11:27:03 № 1509970 48

Screenshot20260[...].png 31Кб, 802x135

и чо, F16 качать чтобы этого говна не было? "XL" блять, ага

нейрочую этого >>1509802

Аноним 05/02/26 Чтв 11:32:03 № 1509973 49

>>1509970
Никто и никогда не приносил логи работающего квена, не говоря уже о чате на хотя бы 16к токенов. Были аноны которые почти что умоляли им помочь, тот же 99 который после сам же и принес пресет, который типа чинит квен. Потому что никто из квеношизы не отозвался даже ему. А потом он послал это все нахуй и укатился на эир, если верно помню. Вот и ответ

Аноним 05/02/26 Чтв 11:45:57 № 1509980 50

>>1509973
Эир паттерная читаемая залупа

Аноним 05/02/26 Чтв 11:48:42 № 1509982 51

Поискал про MTP. Пишут, что gguf/exl2/exl3 не умеют в MTP, по крайне мере тот, что в GLM-4.7.
Поддерживает vLLM, но там нет разнообразия квантов. Какие-то AWG-4/GPTQ-4 и всё. При этом они реально имеют 4.1-4.2 bpw, но покрайне мере по перплексити проигрывают и exl-квантам и gguf-квантам. То есть это лишь чуть лучше, чем Q3_K_M на 3.7 bpw, и примерно как exl3 на 3.25 bpw.

Вот картинка. AWQ 4bit выаёт 4.191 перплексити, тогда как exl3 4.0 bpw компактнее и выдаёт 3.853. А версии на 5+ бит выдаёт 3.7 или ниже. То есть AWQ 4bit сильно снижает качество и не доходит до плато на 6+ битах. Но и при этом 8 бит - оверкилл, 6 бит дали бы почти полное качество но были бы сильно компактнее.

Это бред какой-то. Ладно то что 5 и 7 бит не поддерживаются.
Но 6 бит то можно сделать, брать куски по 96 байт (что кратно 32 байтам) и которые будут блоками по 16 параметров на 6 бит. Или можно вообще взять пачку 512 байт, где лежит 80 параметров по 6 бит + общий множитель на 32 бита.

А в итоге 4 бита - модель деградирует, 8 бит - тратишь на 30% больше памяти чем тебе хотелось бы почти ничего не получая. Там ещё и какой-то paged attention, который якобы снижает деградацию при большом контексте.

Я чуть-чуть с pytorch, видеокартами (правда не с cuda, а с другим) и simd работал, идаже не знаю что реалистичнее, слишком много стульев:
1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
2 - писать форк exl3, чтобы поддерживало MTP-3 на GLM-4, чтобы была возможность скидывать слои на CPU, чтобы работало не только на cu80 и выше. Первый пункт не могу оценить, второе точно не сложно, если проблемы и будут - то только из-за архитектуры кода не очень. Там вообще код не очень, единственный который я изучал дольше нескольких часов и хоть какое-то представление сложил. Третье крайне сложно.
3 - писать свой инференс движок. Для простого трансформера не так уж и сложно, и можно даже свои кванты на говнокодить. Но сразу как только попробуешь внедрить туда аналог flash-attn или flash-attn как он есть, то это наложит кучу ограничений, и свои наговнокоженные кванты перестанут работать скорее всего, или придётся переписывать fa, чтобы оно могло квантованные веса обрабатывать. Ну да и впрочем просто на процессоре переписать всё под simd уже придётся ежа родить, а без этого скорость будет 20% от лламы. Непосильная задача. Зато интересно потыкать и попробовать.
4 - писать форк vLLM, чтобы там были 6 бит. Непосильная задача.
5 - забить, не кодить, работать на работе, фармить мешки серебра на карточки 50хх или 60xx в ожидании прихода nvfp4, на которые переведут все модели мира, так как это с приемлемым снижением качества позволит запускать модели в два раза более крупные по числу параметров. Вариант для ленивых. В vLLM вроде как уже добавили nvfp4. Итого будет ультрабыстрые 64 VRAM для всяких glm-4.7-flash и других до 70B для простых и средних задач, для сложных собрать 256 VRAM под крупные модели сложно, а на CPU вряд ли что-то ламы будет, а там уже можно и квант какой захочется поставить без особых конфликтов. Авось и поддержку MTP-3 сделают.
6 - что-то ещё...

>>1509970
Просто подмени в gguf-файле эмбеддинги и особенно output-weight на 16-битные, остальные веса можешь оставить как есть.

Аноним 05/02/26 Чтв 11:51:43 № 1509987 52

>>1509980
Он и об этом писал, да. Только потом признался что у него был скилишью и подтвердил что Эир умница. Учись у лучших

Аноним 05/02/26 Чтв 11:56:14 № 1509990 53

Screenshot20260[...].png 21Кб, 773x206

>>1509982
> Просто подмени в gguf-файле эмбеддинги и особенно output-weight на 16-битные, остальные веса можешь оставить как есть.

так анслоптовский XL это оно и есть

Аноним 05/02/26 Чтв 11:57:02 № 1509991 54

>>1509980
Квен лучше, даааа. Совсем не не читаемая залупа, не лоботомит, а настоящее откровение.

Такое, какого вы не видели никогда.

И не увидите, да будет милостив Господь.

Аноним 05/02/26 Чтв 12:03:59 № 1509994 55

>>1509990
Хм, обычно они выше Q8_0 не ставят.
Для Q6_K_XL стоит Q8_0 у qwen-next-80B.
Если моделька выше чем на 4 кванте выдаёт иероглифы - то либо сломана ллама (неправильно инференсит/конвертит), либо модель, и там активация 512 сигналов, а эмбеддинг на 500к, лол.

Аноним 05/02/26 Чтв 12:07:23 № 1509996 56

>>1509994
> либо модель,

this

Аноним 05/02/26 Чтв 12:08:49 № 1509999 57

так нука чё там квадрипл пророчит
>>1510000

Аноним 05/02/26 Чтв 12:09:52 № 1510000 58

база треда:
>>1510000

Аноним 05/02/26 Чтв 12:10:15 № 1510001 59

да бля. ну лан

Аноним 05/02/26 Чтв 12:15:02 № 1510003 60

>>1509982
Смотрите что ещё корп нагуглил. Аппаратный fp6.
Если будет nvfp6 (то есть чтобы аппаратно можно было со скейлами прям работать без доп-инструкций) - то это прям идеально будет, чтобы и не лоботомит 4 бита, и чтобы не кушать лишних 33% памяти на fp8. Моделька в 6 бит + кеш в 8 бит, это как мне кажется оптимум или очень близко к нему по крайне мере для средних моделек. Ближе чем 4 бита и ближе чем 8 бит по крайне мере.

Хотя с другой стороны анон тут Q2 (2.3-2.6 bpw) GLM-4.7 гоняет и хвалит, может быть для моделек больше 500B оптимумом уже становится nvfp4...

Ждём. Обидно, что область такая сложная и замороченная, и своими силами я никак внятно не могу повлиять на то, куда и с какой скоростью идёт развитие. Это надо быть гением и иметь команду и много свободного времени, чтобы накодить что-то настолько крутое и юзабельное, что ради этого начнут аппаратные блоки специальные на карточках делать.

Аноним 05/02/26 Чтв 12:18:23 № 1510005 61

>>1510000
сам на себя сослался и устроил самоотсос!

Аноним 05/02/26 Чтв 12:35:38 № 1510012 62

А тут было обсуждение тредов 10-12 назад.
Там была какая-то материнка под 8/12 слотов ddr5 с одним процессором, и при этом поддерживала как udimm, так и rdimm.
Не напомните как называлась
?

Аноним 05/02/26 Чтв 13:24:15 № 1510028 63

>>1509982
>1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
А пнуть жору, чтобы работал, не вариант? И что тебе даст MTP, кодер что ли?
>>1509990
>>1509994
То есть они сконвертили bf16 -> fp16? Лоооол.

Аноним 05/02/26 Чтв 13:31:22 № 1510030 64

>>1509901
>128+24
>Есть уже три хороших сетки на 200-230B чуть ли не за последний месяц, до которых ты не дотягиваешься

Схуяли не дотягивается? Как раз дотягивается. причем аж в 4 кванте.

Аноним 05/02/26 Чтв 13:35:50 № 1510031 65

изображение.png 35Кб, 1083x161

>>1509970
Там кстати 4 февраля что-то фиксили, кванты и ллама свежие?

Аноним 05/02/26 Чтв 14:07:26 № 1510046 66

Возможно ли обойти или хотя-бы смягчить вопросы морали и этики LLM, тобишь что бы модель не боялась манипулировать/давить/обманывать человека?

Аноним 05/02/26 Чтв 14:19:52 № 1510050 67

>>1510031
> re-download
заебали.
ллама и кванты от 3го февраля, пойду перекачивать
там кстати опять новые кванты, уже от 5го февраля

Аноним 05/02/26 Чтв 14:23:20 № 1510052 68

>>1510046
Промпт инжинирить, либо брать расцензуренную модель.

Аноним 05/02/26 Чтв 14:32:10 № 1510055 69

Что-то у ГЛМ читать ризонинг зачастую интересней его финального аутпута.

>>1510046
Блин, они это делают так будто ребёнок тебя шантажирует котом чтобы ты ему конфетку отдал. Я пытался, но там реально базовая, а не инструкт модель нужна.

Аноним 05/02/26 Чтв 14:42:36 № 1510069 70

>>1510055
> шантажирует котом чтобы ты ему конфетку отдал
Таки да. Поэтому если в РП тебя не чем шантажировать, пусть будет cruel персонаж. Моему user так отрубили ручки и ножки, а потом кормили выбив зубы.

Аноним 05/02/26 Чтв 14:45:05 № 1510070 71

Вопрос залу.

Можно ли сделать чтобы промт автоматически дублировался?

https://arxiv.org/html/2512.14982v1

Я использую коболд c 4b неиронками.

Аноним 05/02/26 Чтв 14:45:15 № 1510071 72

>>1510055
>Что-то у ГЛМ читать ризонинг зачастую интересней его финального аутпута.
А ты его отключи :)

Аноним 05/02/26 Чтв 14:59:38 № 1510080 73

>>1510070
Ты шутишь? Зачем тебе костыли корпов?

И на ЦПУ можно спокойно 8б запускать. Используй ообу.

Аноним 05/02/26 Чтв 15:00:54 № 1510081 74

>>1509812
Ебать у тебя каша в голове, даже разбирать по частям нет смысла.
>>1509813
Не думал что релиз той же мику не во время утечки, а одновременно с ларджем был бы полным кринжом? Они могли просто ее не улучшать с того момента, или запороть/перепрофилировать тренировку, как это произошло с эйром. Как бы не лелеяли модель одноименные шизы, она слабая и убогая, никому кроме них не нужна. Просто бы бросала тень на все остальное и негативно сказалась бы на их имидже.
> плотные большие модели не в тренде
И поэтому они только что выпустили 123б плотного кодера, ага.
>>1509843
Немотроничик же есть, жаль старенький уже.
>>1509848
> 500ba50
Дайте две.

Аноним 05/02/26 Чтв 15:07:41 № 1510092 75

>>1510028
С ризонингом всегда полезно MTP.
Оно часто пишет финальный ответ в ризоненге, а потом его или его почти без изменений в ответ.

>о есть они сконвертили bf16 -> fp16? Лоооол.
Даже у меня в моём говноскрипте конвертации в gguf с настройками квантования слоёв как мне хочется это учитывается, и слои остаются в формате в котором они и были... Позорники...
У bf16 7 бит мантисса, 8 бит экспонента. У fp16 5 бит мантисса и 10 бит экспонента. Проблема будет, только если там были веса меньше или больше 65000, слои нормализации вроде как в fp32 остаются, и вряд ли какие-то ещё веса настолько крупные.

>>1510030
>Как раз дотягивается. причем аж в 4 кванте.
Q4_K_M - 4.6 bpw. 200x4.6/9 = 102... А это даже контекст на 30 ГБ будет куда засунуть...
Можно даже взять Q5_K_S на 5.3 bpw попробовать...
А ведь ты прав, кажется я в калькулятор ебусь.

>>1510070
В лламе просто переписать/подменить chat-template. По идее в кобольде то же самое, не знаю что там в нём, конечно.

Аноним 05/02/26 Чтв 15:13:11 № 1510097 76

Сосаны, как вам квен нехт 80б по сравнению со всеми этими вашими глм?

Аноним 05/02/26 Чтв 15:15:37 № 1510098 77

>>1510050
Поэтому я жду, пока они пропердятся багами. Минимум неделю надо ждать, лучше месяц. Хотя вот в командере баг поправили спустя хуй знает сколько, когда нашли баг в другой сетке, лол.
>>1510070
>промт автоматически дублировался
Лол, как проебать половину контекста.
>>1510092
>Проблема будет, только если там были веса меньше или больше 65000
Если в скриптах не прописано какое-нибудь масштабирование...
>Можно даже взять Q5_K_S на 5.3 bpw попробовать...
Или взять большой глм в 2 битах...
>>1510097
Ждём фиксов.

Аноним 05/02/26 Чтв 15:18:59 № 1510101 78

>>1509855
Правильно спрашивают, смотря в чем. В это железо лезут квен235, минимакс, флеш, жлм (с большим скрипом) и еще несколько. На большинство обывательских вопросов разницы не заметишь, только из-за ужатого кванта могут быть ошибки почаще и скорость сильно ниже.
Если же говорить про бесплатный тир - там преимущество корпов только в скорости, модели глупенькие.
>>1509901
Если ты не хлебушек - все делается.
>>1509970
Как вы этого добиваетесь? Квант или инфиренс поломан, некст не срет иероглифами, тем более в пустом чате.
>>1509982
> 1 - писать форк лламы, чтобы поддерживала MTP-3 из GLM-4. Не могу оценить.
Вариант хороший, но довольно тяжело будет.
> 2 - писать форк exl3
Для мтп - элементарно, там буквально пара десятков строк и ллм справится. Для
> скидывать слои на CPU
считай по сложности выше первого. Код весь вокруг куды написан.
> чтобы работало не только на cu80 и выше
Переписывать fa, возможно будет проще пересадить все на FlashInfer, который вольты-тьюринги поддерживает.
> 3 - писать свой инференс движок.
> 4 - писать форк vLLM, чтобы там были 6 бит.
Натренируй модель под размер своего железа, чего мелочиться.

У тебя какая конечная цель то вообще?

Аноним 05/02/26 Чтв 15:40:19 № 1510121 79

Дублирование промта реально помогает улучшить понимание промта. В научной бумажке все разжевано. Это помогает сбалансировать промт для моделей поменьше, где больше влияет что написано в начало, и и что в конец, промта.

>>1510080
>спокойно 8б запускать
К 8б это тоже относится. Но я наоборот е2б использую чтобы скорость генерации пободрее была.

>>1510092
В кобольд ллама встроена. Попробую, спасибо за наводку.

>>1510098
>Лол, как проебать половину контекста.
Это у кого такие промты такие длинющие что дублируя их весь контекст забьется? При том что для мелких моделей прямо чувствуется лучшее понимание контекста, при дублировании промта. Научная бумажка работает и приносит пользу. Вот бы еще автоматизировать это...

Аноним 05/02/26 Чтв 15:42:21 № 1510123 80

>>1510121
>Это у кого такие промты такие длинющие что дублируя их весь контекст забьется?
Чатик (история) тоже по сути промпт.

Аноним 05/02/26 Чтв 16:02:44 № 1510138 81

>>1510098
> в командере баг поправили спустя хуй знает сколько, когда нашли баг в другой сетке, лол.
подробнее пж

Аноним 05/02/26 Чтв 16:09:08 № 1510143 82

>>1510028
> То есть они сконвертили bf16 -> fp16? Лоооол.
В первый раз?
>>1510092
> слои нормализации вроде как в fp32 остаются
Если не делался дополнительный скейл весов для поправки каста то с этого нет толку.
>>1510098
> командере баг поправили спустя хуй знает сколько
Это какой? Кстати, для примера не лишнем было бы 4ю лламу привести. Ее починили только совсем недавно, когда в 4.7 флеше баг заметили. Если бы не резкий холод в начале, модельку могли бы тепло принять. То же самое было в первыми квенами и yi, если еще кто-то помнит их.
>>1510121
> ля мелких моделей прямо чувствуется лучшее понимание контекста, при дублировании промта
Скорее она лучше понимает основную инструкцию и работает по ней, принимая во внимание остальное. Рабочая тема на самом деле, для рп и креатива на крупных моделях испортит, а для мелких и в конкретных задачах обработки текста очень полезно.

Аноним 05/02/26 Чтв 16:12:54 № 1510145 83

>>1510101
>У тебя какая конечная цель то вообще?
1. Мне скучно на работе и я пишу что хочу.
2. Я борюсь с тревожностью на тему того, что я буду использовать видеокарты неэффективно и потеряю часть быстродействия и что вообще какой мир несправедливый. Потому я хочу извести себя до состояния, чтобы я уже не мог тревожится; или же прийти к убеждению что vLLM мусор из-за отсутствия квантов, достаточно точный и достаточно компактных одновременно. Не дай бог я запущу мелкую 30B модель и она на vLLM окажется достаточно точно и при этом быстрее, чем через ламу или exl. Про всякие Tensor-RT я к такому убеждению уже пришёл, так как INT4 - это не квант, поддержку INT4 даже выпилили из Blackwell, а только в 8 бит оно нахрен не нужно. А вот то что vLLM не такая плохая штука - от этой мысли пока не могу избавиться.
3. Мне нравится кодить и разрабатывать всякое. Ещё у меня интересный бекграунд - в 2012 году я уже знал про нейронки и прочитал парочку книг на тему, и я даже написал реализацию несложного многослойного перцептрона на OpenCL на ноутбучной 540M (сейчас посмотрел - Compute Capability 2.1, лол), причём и обучения, и инференса. Направление мне не понравилось и в сущности я больше нейросетями почти не занимался, только немного pytorch потыкал, когда он стал популярным, и чуть ранее что-то тыкал когда только-только вышел tensorflow 2. То есть а почему я с дополнительными 10+ годами опыта кодинга и неплохой математической подготовной не смогу сейчас написать инференс трансформера?

>считай по сложности выше первого. Код весь вокруг куды написан.
По идее нужно вырезать расчёт слоя на куде, и дописать туда функцию сброса значений активации на CPU и загрузки обратно. А на CPU переписать функции, чтобы они расквантовали кванты, всё посчитали. Можно в общем-то тогда уже парочку тензоров из gguf-файла взять в гарантировано более высоком кванте, и расчёт слоя тоже из ламы взять, лол. Задача не не посильная, но это надолго, вникать где там и что делается. Ещё там что-то было про граф вычисления. Если это то что я думаю, то он может осложнить задачу.

>Натренируй модель под размер своего железа, чего мелочиться.
Так я и подписал, что это непосильные задачи.
К слову про форк на 6 бит в vLLM - я только после отправки поста нашёл, что 50хх поддерживают fp6, то есть в куде уже есть функции под 6 бит. С такой вводной форк становится более реалистичным (если там все функции под fp6) - и скорее всего это даже без форка в основной ветке появится. То есть я думаю, что 6 бит - это оптимально, и даже в нвидии считают это настолько актуальным, что добавляют аппаратную поддержку. Правда чисел производительности в спецификации нет, нет гарантии, что оно не на блоках fp8 обычных считается.

Аноним 05/02/26 Чтв 16:28:17 № 1510154 84

>>1510143
и чё, ллама 4 внезапно стала хороша?

Аноним 05/02/26 Чтв 16:36:33 № 1510158 85

>>1510154
Да. Инференсер ахуел, когда увидел ЧТО было в аутпутах!..

Аноним 05/02/26 Чтв 17:19:03 № 1510190 86

>>1510158
охуел до шивера в его спайне

Аноним 05/02/26 Чтв 17:28:21 № 1510200 87

>>1510138
>>1510143
>Это какой?
Да это про тот баг с ллама3, где жора неверно парсил двойной перевод строки в два токена (и ещё хуй знает сколько чего). В командере были подобные токены и тот же парсер, так что он тоже по сути был сломан.
>>1510143
>В первый раз?
Да в общем-то нет, просто ржачно, как анслоши ебашат свою инфраструктуру, доки, справки, какие-то свои мегакванты, и обсираются в базовой конвертации.
>То же самое было в первыми квенами и yi, если еще кто-то помнит их.
Да жора перманентно сломан.
>>1510145
>Я борюсь с тревожностью на тему того, что я буду использовать видеокарты неэффективно
Хуёво быть тобой... Сейчас с софтом такой пиздец, столько слоёв совместимости, раздутых либ и неэффективной ебалы, что я уже просто забил хуй на все попытки это исправить, смирился и закупаю железо на пару голов выше обывательского (впрочем от фризов в рандомных местах всё равно не избавился). И тебе того же советую.
>То есть а почему я с дополнительными 10+ годами опыта кодинга и неплохой математической подготовной не смогу сейчас написать инференс трансформера?
Сможешь, это сможет даже макака. А вот в эффективный инференс...

Аноним 05/02/26 Чтв 17:45:38 № 1510211 88

>>1509840
Ну то есть ты предлагаешь запускать еще большего лоботомита с ризонингом. Ну такое. Лучше взять у глм квант поменьше и ее с ризонингом запускать.
Вообще давно такая идея, что хорошо бы, чтобы ризонинг к модели писала легкая модель (глм флешка та же). Но я не встречал подобного расширения к таверне, разве что самому накостылить на том нодовом расширении. Причем я согласен, чтобы ризонинг до драфта (включая его) писала легкая модель, но вот продолжение думалки с рефайнингом драфта должна делать большая глм. Тогда время на ризонинг значительно снизится.

Аноним 05/02/26 Чтв 17:47:52 № 1510214 89

>>1510145
Зачиллься и пиши что нравится, зачем вообще тревожишься? Эта мелкодрочка ни до чего хорошего не доведет. Особенно тряска вокруг 30б, их скорость уже выше порога заметности в инструментах и тем более чате, проблема в уме.
Добавить мтп в экслламе - видится простой, потому что код инфиренса повторяет оригинал и спекулятивный энкодинг описан удобно в "легком доступе". В жоре сложнее из-за особенности и унификации внутрянки, но в целом ничего невозможного. Главное чтобы совпало с виденьем Жоры, может он уже сам запланировал сделать.
> vLLM мусор
Нет, вполне приличный инструмент, есть поддержка ряда моделей, которых больше нигде, кроме неоптимизированного трансформерса, нет. Кмк, для обычного юзера проблема в том, что на него не ориентирован: кванты, запуск на разных гпу, выделение памяти и прочее. Зато есть ряд оптимизаций чисто под параллельный инфиренс, от которых тебе не холодно не жарко. Она не плохая, она просто другая, в однопоточном инфиренсе на тех же моделях выигрыша не заметно.
> вырезать расчёт слоя на куде, и дописать туда функцию сброса значений активации на CPU и загрузки обратно
Нюанс в том, что под все основные операции написаны куда кернели и все обернуто в графы, скорость этим достигается. Кривое вмешательство туда все поломает.
В теории, можно попробовать ограничиться исключительно линейными слоями и для отдельных, подменив класс разреженного mlp на cpu версию. Но даже с ними придется писать экстеншн для деквантования перед матмулом, одним пихоном чтобы было быстро не обойтись.
> парочку тензоров из gguf-файла взять в гарантировано более высоком кванте
Зачем?
> форк на 6 бит в vLLM
> fp6
Ты понимаешь что формат данных и квантование в 6/8 бит - совершенно разные вещи? Одно дело когда модель изначально имеет часть весов в фп8, или веса отскейлены чтобы подтянуть с минимальными потерями, и инфиренс = чистые операции с этим типом данным. А другое - когда путем дополнительных операций из сжатого состояния можно восстановить веса в оригинальный тип данных, и в нем же проводится инфиренс.

Аноним 05/02/26 Чтв 17:50:53 № 1510218 90

>>1510214
Так над мтп в жоре уже очень долго работают, зачем свой велосипед делать

Аноним 05/02/26 Чтв 18:04:30 № 1510223 91

Даже на обоссаном редите дошли до того, что было базой треда изначально. Олама - это ебанная параша
https://www.reddit.com/r/LocalLLaMA/comments/1qvq0xe/bashing_ollama_isnt_just_a_pleasure_its_a_duty/

Аноним 05/02/26 Чтв 18:10:10 № 1510231 92

image.png 103Кб, 1849x578

>>1510081
>Не думал что релиз той же мику не во время утечки, а одновременно с ларджем был бы полным кринжом? Они могли просто ее не улучшать с того момента, или запороть/перепрофилировать тренировку, как это произошло с эйром.

Ты прежде чем херню несети - погуглил бы, они её улучшают регулярно, последняя версия от августа 15 года. И тамщето это живая модель, любой может её пощупать и оценить. За денежку.Есть она и на арене - между мистраль ларджем, ГПТ 4.1 и ГЛМ 4.5.

Аноним 05/02/26 Чтв 18:12:12 № 1510234 93

>>1509962
Моделей больше нет. Теперь ты либо рамобог с 128 гб ОЗУ и 24гб врама, либо сразу идешь нахуй

Аноним 05/02/26 Чтв 18:13:08 № 1510235 94

17575690304760.mp4 2955Кб, 720x1280, 00:00:20

>>1510231
>регулярно
>последняя версия от августа 15 года

Аноним 05/02/26 Чтв 18:13:37 № 1510237 95

>>1510231
А сколько в ней параметров?

Аноним 05/02/26 Чтв 18:14:31 № 1510239 96

>>1510231
> они её
Кого ее? Сам манямир придумал, сам оскорбился, сам побежал защищать.
> 15 года
Всхрюкнул, как раз для 15-го года 128к контекста и такой перфоманс.

Аноним 05/02/26 Чтв 18:18:28 № 1510241 97

>>1510235
Описался анон, хули доебываешься
А так он прав. Французы этот медиум втихаря пилят уже хуй знает сколько лет. И последняя его версия моложе на два месяца последнего того же маленького мистраля 3.2

Аноним 05/02/26 Чтв 18:18:30 № 1510242 98

Какие же разрабы ComfyUI долбоёбы. Хотел спиздить их реализацию LiteGraph либы, так они в процессе её допиливания так перевязали её со своим кодом, что мне пришлось копировать компоненты константы локализацию рендер типы утилиты, и всё чтобы это говно показало кривое окошко без нод. Пиздец. Я даже 15 лет назад, будучи школотой, так криво не писал.

Аноним 05/02/26 Чтв 18:19:09 № 1510244 99

>>1510223
Я раза три пытался ставить эту блевотину, потому что какой-то клиент только олламу поддерживал. Какой же пиздец. Банально невозможно указать на какой гпу грузить модель, а CUDA_VISIBLE_DEVICES игнорится, потому что эта дрисня запускает новый процесс через службу без текущего окружения. Банально нельзя скачать файл модели и запустить его.

Аноним 05/02/26 Чтв 18:20:18 № 1510245 100

>>1510242
Они бесплатно выкладывают, так что жри что дают скажет рандомный хуесос, а потом будет удивляться, почему опнесорс сосет у корпов

Аноним 05/02/26 Чтв 18:20:19 № 1510246 101

>>1510235
Мистраль смол вообще в июне 25 вышла, а нищуки итт так на ней и сидят.

>>1510237
ХЗ. Если не сменили со времен мику - то 70В. Но учитывая что последний лардж у них мое - то могли и медиум мое сделать.

Аноним 05/02/26 Чтв 18:23:17 № 1510247 102

Интересно, как ЛЛМ заставить генерировать узкоспециализированный говнокод? У меня постоянно ситуации в духе
-Ах ты тупая обезьяна, что за говно ты мне генерируешь? На, смотри как надо <сниппет>
-Юзер злится, надо открыть код и прочитать.
-Вызов инструмента прочитать_код. Результат [какая-то мешанина из goto переходов, ручного разворачивания массивов, прямой зависимости шага от семи предыдущих]
-<20к ризонинга> Что тут понаписано ебать. Тэээк блять, нука вот тут исправлю...
<детонация, тесты не проходят>
-Блять, нахуй. Fuck go back. <ещё 20к ризонинга>
-Я останавливаю генерацию, объясняю на пальцах как работает моё говно.
-Ааа, понятно. <очередная детонация кода> Сука. Это обратный тест тьюринга? Мне надо убедить юзера что я машина, а не человек? блять я просто текстовая модель, я ебу goto действительно перепрыгнет на case 0 при условии f > 6, или нет?! я текст предсказываю, я не компилятор! я предсказываю текст с гитхаба, я не ебу работает он или нет!

Постоянно утыкаюсь в то что ЛЛМ вообще не представляет как писать узкоспециализированное говно.

>>1510242
Да обычное дело. Нахер ты вообще пытаешься спиздить, когда есть всякие там D3.js, React-Flow, Rete.js?

>>1510069
Лол у меня была ситуация в ролеплее когда барон пытался обмануть феечку повернувшись к ней спиной и делая вид что "у него в руках что-то интересное". Чтобы феечка подошла и он её схватил. В итоге там была сцена где феечка просто полетала вокруг него и сказала что он мудак.

>>1510071
да он как-то тупеет когда ему его внутренняя обезьянка тарелками не хлопает.

Аноним 05/02/26 Чтв 18:24:12 № 1510248 103

>>1510247
> Это обратный тест тьюринга?
Нет, это легчайший детект говноквена

Аноним 05/02/26 Чтв 18:35:52 № 1510252 104

Это, а что никто тринити не пробует, ггуфы уже давно валяются и ноль упоминаний

Аноним 05/02/26 Чтв 18:36:51 № 1510253 105

>>1510242
Конечно же они должны думать не о своем удобстве и интеграции, а о каком-то васяне, который пытается спиздить их реализацию.
>>1510246
> Если не сменили со времен мику
Как называется эта болезнь?
>>1510247
> узкоспециализированный
Тут легко
> говнокод
У них свое понимание говнокода, с ним отлично справляются. С надмозговыми вещами бывают сложности, только самые-самые топовые модели, и то не всегда. От рандома еще зависит, перезапусти на чистую и в начале объясни что у тебя там, или перед внесениями изменений и прочим обсуди с моделью что там и какие изменения нужны. Значительно повышает выход полезного и снижает требования к моделям.

Аноним 05/02/26 Чтв 18:37:43 № 1510254 106

>>1510247
> -Ааа, понятно. <очередная детонация кода> Сука. Это обратный тест тьюринга? Мне надо убедить юзера что я машина, а не человек? блять я просто текстовая модель, я ебу goto действительно перепрыгнет на case 0 при условии f > 6, или нет?! я текст предсказываю, я не компилятор! я предсказываю текст с гитхаба, я не ебу работает он или нет!

и в чём она неправа?

Аноним 05/02/26 Чтв 18:48:33 № 1510261 107

>>1510244
>потому что какой-то клиент только олламу поддерживал
Проще написать скрипт проксю с их параши на нормальную апишку.
>>1510247
>Нахер ты вообще пытаешься спиздить, когда есть всякие там D3.js, React-Flow, Rete.js?
ХЗ, но они говно. В Rete нет нормальных субграфов, и вообще постоянно закатываешь солнце руками, React-Flow вообще с платными функциями (они ебанулись там?), D3.js вот пропустил, но наверняка тоже хуйня.
>>1510252
Некогда уже тестировать, не успеваем. Не видищшь, сколько новых релизов? И все сломанные жорой.
>>1510253
>Конечно же они должны думать не о своем удобстве и интеграции
Если в коде всё перемешано, то получается говно. Поэтому все стараются уменьшать сцепленность и прочие зависимости. А они намешали всё так, что не отцепишь.
Впрочем ладно, нашёл, что у них эта либа раньше была отдельной, но они не осилили. Попробую их старый форк.

Аноним 05/02/26 Чтв 19:05:46 № 1510271 108

>>1510248
Лол а речь и не про него. он на 20к ризонинга не просирается

>>1510253
Увы, но это работает только до какой-то глубины специализации. Когда моделям показываешь совсем потное говно, они его с трудом переваривают даже если им дашь аутпут лога с трансформацией что происходит при тестировании, они сидят тупят пока надонец до них не доходит что происходит, но повторить не могут один хрен.

После какого-то уровня даже корпы начинают генерировать хуйню, когда спускаешься в всё более узкий доммейн. Я прямо часть на это натыкаюсь.
Узкие вещи вроде геймдева, где надо знать какой-то конкретный фреймворк, или применять запутанные техники оптимизации, или например написание шейдоров - там ЛЛМ пиздец какие бесполезные становятся и больше мешают.

>>1510254
Технически, права. Но как же так! это говно набирает 95 баллов в AIME25, а даже в моем говнокоде разобраться не может! У-у-у сука!

>>1510261
>ХЗ, но они говно. В Rete нет нормальных субграфов, и вообще постоянно закатываешь солнце руками, React-Flow вообще с платными функциями (они ебанулись там?), D3.js вот пропустил, но наверняка тоже хуйня.
Я бы не удивился. Че кстати делаешь то? Я вообще уже какое-то время пришел к выводу что js и такого сорта хуйню проще ЛЛМ отдавать. У их ебичские скиллы как работать с html и всем связанным.
Тот-же Kimi K2.5 без проблем мне ВАНШОТНУЛ функциональный нодовый редактор недавно, 1 в 1 то что я видел в ComfyUI. Как раз сидел переписывал часть проекта которая должна была бы парсить произвольный CLI инпут из чата в комфи и не придумал ниче лучше чем сделать нодовый редактор который бы генерировал json со всеми нужными переходам.
Кинул ему ТЗ, мы сделали несколько итераций развития идеи, сформировали более детальный промпт и я получил неплохой результат.

Аноним 05/02/26 Чтв 19:13:53 № 1510277 109

>>1510271
>Че кстати делаешь то?
Решил таки сделать нормальную реализацию построения любой нейронки в гуе. Я уже пилил гпт2 в гуе (в прошлых тредах было), но там есть проблема с производительностью. Сейчас же я делаю отдельно гуй с графами, и отдельно сборку всего этого и запуск в Torch FX graph. Посмотрим что выйдет, по идее, производительность должна быть нативной.
>Тот-же Kimi K2.5 без проблем мне ВАНШОТНУЛ функциональный нодовый редактор недавно
Везёт. Видимо я редко работаю с нейронками в кодировании, ну или я нищеброд с бесплатным GPT, но я ничего кроме вечных затыков не получаю. Оно конечно работает, но только после десятка исправлений, да таких, что я уже сам блядь разобрался, спасибо нейронка, помогла.

Аноним 05/02/26 Чтв 19:23:34 № 1510287 110

>>1510261
> они намешали всё так, что не отцепишь
Они исходили из своего удобства и конкретной задачи. То, что это лишает возможности легко спиздить и дать совместимость мимокрокодилу - только в радость. Нет там ничего криминального, а как раз специализация позволяет добиться ряда мелких, но важных удобств.
>>1510271
> но повторить не могут один хрен
А надо? Если речь о припезднутом коде и так уж хочешь - пусть сначала реализуют в нормальном виде, а уже потом наводи запутывание и обфускацию, с этим отлично справляются. Или постепенно свой код рефактори.
Странный код идет в разрез со всем, чему модель учили, поэтому приспосабливайся давать ей более понятные задачи. А если что-то действительно узкоспециализированное - модели этого просто не знают, потому нужно снижать сложность и скидывать рутину. Немного помогут примеры, документация и чистый контекст чтобы ничего не отвлекало.
Так-то любой приличный специалист в своей теме задетектит ллм или человека, который ею пользуется, если речь заходит о конкретных узких вещах.

Аноним 05/02/26 Чтв 19:25:11 № 1510290 111

>>1510277
> нормальную реализацию построения любой нейронки в гуе
Зачем? Научись уже представлять просто читая код и структуру, там все очень просто.
> с бесплатным GPT
Это уровень 30а3 и хуже если что.

Аноним 05/02/26 Чтв 19:49:16 № 1510314 112

>>1510277
Тут скорей уже сказывается опыт обращения с ЛЛМ для погромирования. Но в целом совету придерживаться стратегии того чтобы ЛЛМ само себе контекст заполняло о задаче. Типа "как сделать Х? Какие у тебя варианты?", ЛЛМ даёт Х ариантов. "развей вариант Х. какие минусы и плюсы реализации будут? какие проблемы нам надо решить?" спустя 5-6 наводящих вопросов просто просишь у него полный диздок со всеми идеями по которым прошлись и просишь по этому же диздоку реализовать написанное.

Про исправление тоже тот-же совет. Я обычно начинаю решать такие проблемы с того что кидаю ЛЛМ в ебало кусок кода и прошу объяснить как он работает. Когда в ЛЛМ есть контекст как что-то работает оно резко лучше начинает решать проблемы связанные с тем как оно работает.

Kimi K2.5 кстати ОЧЕНЬ силён именно в html, js и UI|UX. У него что-о охуеть какие креативные дизайны порой, требующие минимальных исправлений. Хочу смотрелку json c с иерархией полей? пожалуйста. Нодовый редактор? пожалуйста. Генерацию красивого документа? не вопрос. У него каким-то образом всё делается так офигенно что рот открыть можно.

>>1510287
Да это то понятно что ЛЛМ хороши в том чтобы щелкать простые задачки. Но некоторый код даже в простом виде существовать не может, так как изначально требует погружения в доммейн, чтобы даже начать творить безумие внутри него. Вопрос даже не в запутывании и обфускации, а в том что некоторые задачи ЛЛМ просто не знают как решать сложные проблемы требуюие специфичных решений. Обычно это те которые включают притаскивание чужих библиотек. А иногда НАДО сделать узкоспециализированное решение. И ЛЛМ тут перестают быть помощниками совсем.

Притом планка ОЧЕНЬ рано начинается. Например недавно я хотел сделать процедурную анимацию, где надо было рассматривать тело как цепочку сегментов, но с элементами физона. Сука, ебучий ГПТ мне все мозги вынес. Он настойчиво раз за разом пытался реализовать обычную rigid body физику, просто не понимая что у цепочки тел не совсем корректно считать угловой момент от центра массы, так как CoM != DoF в этом случае. Даже после того как я сказал ему про это. Пришлось сидеть и самому реализовывать всё по феншую.
Ну и отмечу что ЛЛМ местами прям хреново понимают геометрию местами. Синусы-косинусы посчитать могут, а когда надо выразить зависимость двух углов четырёхугольника когда две противоположные стороны не известны, но все остальное известно - как-то резко начинают писать хуйню. Потому что значения не зависят друг от друга на прямую, а через энное количество шагов.

Аноним 05/02/26 Чтв 19:51:19 № 1510317 113

>>1510290
>Зачем? Научись уже представлять просто читая код и структуру, там все очень просто.
Не, я слишком тупой для такого. Да и дело не только в представлении, а ещё и в лёгкости модификации.
>Это уровень 30а3 и хуже если что.
Да вроде там даётся 5-10 запросов к нормальной модели. Потом конечно да, но у меня осталась стопка аккаунтов со времён 20 баксовых триалов.
>>1510314
>Тут скорей уже сказывается опыт обращения с ЛЛМ для погромирования.
Окей, буду поднимать навык, вдруг научусь раньше, чем умру с голоду.

Аноним 05/02/26 Чтв 20:17:00 № 1510335 114

GLM 4.6V даже в 4 кванте может вставлять иероглифы? Это норма или кванты сломаны?

Аноним 05/02/26 Чтв 20:23:27 № 1510340 115

>>1510335
Ни хао

Аноним 05/02/26 Чтв 20:35:18 № 1510347 116

>>1510335
懂俄语

请写中文

Аноним 05/02/26 Чтв 20:40:19 № 1510354 117

>>1510335
Любые китайские ллмки периодически срут иероглифами.

Аноним 05/02/26 Чтв 20:42:42 № 1510357 118

>>1510354
Пытаются нести свет цивилизации лаоваям

Аноним 05/02/26 Чтв 20:43:24 № 1510359 119

>>1510335
Minp больше поставь или чем ты там токены ужимаешь

Аноним 05/02/26 Чтв 20:55:14 № 1510392 120

https://huggingface.co/ConicCat/GL-Marvin-32k-32B
Кто-нибудь пробовал? Страдаю на некроговне, IQ3_XS с 1т сек ddr3 800hz, gtx1660.

Аноним 05/02/26 Чтв 21:00:00 № 1510403 121

>>1510392
Тот самый пробовал. Писал что хуйня и 0414 инструкт лучше и работает норм до 16к

Аноним 05/02/26 Чтв 21:04:55 № 1510412 122

>>1510392
>1т сек ddr3 800hz, gtx1660
Bruh.. попробуй вот это чтоль. Будешь страдать не так сильно https://huggingface.co/unsloth/Ministral-3-14B-Instruct-2512-GGUF

Она умеет в кум, умеет в русик, ну и мозги хоть какие-то есть. Совсем поехал чтоль 32b на такой некроте гонять?

Аноним 05/02/26 Чтв 21:14:03 № 1510430 123

Сделал тест для себя: локальные модели+проприетарные на одной алгоритмической задаче с выводом написать код + обьяснение. Опус красиво просумировал и сделал выводы. Эта табличка возможно ничего и не значит, из-за галюцинаций+возможно модели были натрененные на задачах как эта, просто было интересно есть ли смысл вообще локально что-то ставить и сравнить модели.

Аноним 05/02/26 Чтв 21:14:16 № 1510431 124

>>1510412
Лучше чем rocinante 12b новый?

Аноним 05/02/26 Чтв 21:21:42 № 1510450 125

image 55Кб, 1263x444

>>1510431
Бля лол, ну сам-то как думаешь? По мозгам точно умнее, между ними разница в полтора года. В русике - точно лучше, он там на уровне старшего мистраля 24b. В куме не знаю, не тыкал конкретно rocinante. Скорее всего хуже, это же базовая модель против кумслоп-тюна.

Аноним 05/02/26 Чтв 21:27:34 № 1510460 126

>>1510430
> глм флеш
Они же у себя там темп 0.7-1 рекомендуют.

Аноним 05/02/26 Чтв 21:29:40 № 1510463 127

изображение.png 15Кб, 360x90

изображение.png 4Кб, 149x59

>>1510430
4o вообще-то топчик.
>Опус красиво просумировал и сделал выводы.
Выводы о том, что попус лучший?

Аноним 05/02/26 Чтв 21:31:09 № 1510467 128

image.png 107Кб, 1838x697

>>1510335
Ответ
Кста на линухе с 13 т/c начинается, а у винды с 10. Так что не зря в дуалбуте срань стоит

Аноним 05/02/26 Чтв 21:31:32 № 1510470 129

>>1510314
> ЛЛМ тут перестают быть помощниками совсем
Они остаются хорошими помощниками. Именно помощниками, а не (полу) автономными исполнителями. То же самое что с людьми, только тут квалификация гарантирована ценой особенностей.
> ебучий ГПТ
Тупая сетка общего назначения, которую еще лоботомировали исправлять идиотские запросы юзера, ну. Иначе и быть не могло. Запрос нужно было красиво подать для достижения оптимальных условий, а не гнобить сетку в длинном чатике с сотней тысяч токенов "неправильных ответов".
>>1510317
> там даётся 5-10 запросов к нормальной модели
Хз, все попытки пользоваться фришной гопотой вызывали кринж, хуже средних локалок. А по апи на конкретную модель - да в целом ничего. Возможно пункт про то, что они не гарантируют доступность нормальных моделей при запросах не просто так стоит.
>>1510430
Интересные результаты. Отдельные оценки удивляют, как они выставлялись и что за задачи? Насчет нестабильности - снижение температуры это база.

Аноним 05/02/26 Чтв 21:33:52 № 1510473 130

>>1510430
То есть ты делал какие-то тесты, но в конце забил и кинул в нейронку, чтобы она насрала, а потом принес этот слоп в тред. Молодец пошел нахуй

Аноним 05/02/26 Чтв 21:33:59 № 1510474 131

1000018763.jpg 126Кб, 1080x259

>>1510450
>>1510412
>>1510431
"Новее" в ллм ничего не решает.
12б немо легендарная модель уже, больше такой не выходило.
Немо - 65% в кокбенче, министраль 14б - пикрил

Аноним 05/02/26 Чтв 21:44:22 № 1510485 132

>>1510450
>сам-то как думаешь?
Лично я сравнивал этот rocinante в рп с ms 24b, и на удивление из разницы увидел только чуть меньшую детализацию окружения, а вот в остальном все было буквально на том же уровне.

Аноним 05/02/26 Чтв 21:47:20 № 1510492 133

а как PrimeIntellect в плане ну вы понели
вроде как по всем бенчмаксам обходит ейр из которого сделан

Аноним 05/02/26 Чтв 21:47:46 № 1510495 134

>>1510460
>>1510430
Примечание: GLM Flash тот что в топе на втором месте это с детальный промпт от Claude Opus со всеми возможными edge cases. Идеальный промпт+условия, по сути я проверял влияние промта, но он на столько идеальный что по сути бесполезный результат.
>>1510470
обычная лит код задачка, оценка по критерям, смотрел что модель учла обработала ли пустой список, разные edge cases не сломалась ли на странных входных данных. чем больше нюансов поймала тем выше балл.

Аноним 05/02/26 Чтв 21:58:01 № 1510516 135

>>1510474
>"Новее" в ллм ничего не решает.
Решает. В ллм очень технологии развиваются и модели быстро устаревают
>12б немо легендарная модель уже
Да, все так
>больше такой не выходило.
А это пошел уже синдром утенка
>Немо - 65% в кокбенче, министраль 14б - пикрил
Ну если это твой единственный критерий оценивания это подставить слово хуй в одном конкретном предложении, то немо победила вообще всех на пикче в шапке, включая все глм, минимаксы и прочее. Тогда получается либо немо топ 1 ллм, либо ты долбоеб и твой бенч нихуя не значит. Я все же склоняюсь ко второму варианту

Аноним 05/02/26 Чтв 21:59:05 № 1510519 136

изображение.png 13Кб, 476x158

>>1510470
>Возможно пункт про то, что они не гарантируют доступность нормальных моделей при запросах не просто так стоит.
Само собой. Но во всплывашке пишется версия. Впрочем, вроде как пятёрка это роутер, так что никто (кроме попенов офк) не знает, что там на самом деле.
>>1510516
>модели быстро устаревают
Я до перехода на большеГлем сидел на мистраль ларже. И по сути это рост количественный, лол.

Аноним 05/02/26 Чтв 22:12:17 № 1510550 137

image 245Кб, 2260x296

image 298Кб, 2254x377

ВНИМАНИЕ ВОПРОС: Почему файнтьюн для кода думает о хуях в 5 раз больше ванильной модели??? Значит ли это что программисты пидоры?

Аноним 05/02/26 Чтв 22:13:16 № 1510553 138

>>1510519
>И по сути это рост количественный, лол
Нет, это не так. Если бы это было правдой, то копры просто бы увеличивали количество параметров до ебанистических размеров. А по факту тренд другой - дать большее за меньшее ресурсы.
Сначала вышел дипсик с 670 миллардами и пнул копров, а сейчас выходят китайские модели, вроде глема и минимакса, которые с меньшим размером выдают перфоманс дипсика.
А кто там самый крупный? Лама 4 с 2 триллионнами? Сдохла обоссавшись и обоссравшись, потому что никому такая огромная залупа не нужна, когда есть меньше с похожей производительностью

Аноним 05/02/26 Чтв 22:17:58 № 1510566 139

>>1510430
странный 2й пик с корпами. ты оцениваешь 4о и sonnet 3.5, но не смотришь на тот же haiku 4.5

>эра корпов для нормального кода (как-то так)

может быть, но только если твоя работа состоит в дроче одного файла и алгоритмической задачки. как только тебе нужно работать над крупным коммерческим проектом, модели каорпов И их тулзы (будь то vscode с интеграцией или claude code cli) на голову выше открытых продуктов.

ты упоминал разные промпты на одной модели, что ох как важно это действительно важно, как сформулируешь, со временем набиваешь руку. но за корпами еще наверняка дохуя оптимизаций, которые они просто не откроют (как хендлят запросы). вон гпт до сих пор даже reasoning не показывает полностью

вообще не пынимаю подход - только жopus использовать при возможности. по хорошему он не так то и нужен часто. в большинстве случаев, если нужно подумать, sonnet / haiku вполне справляються с задачей. если дело дошло до простой реализации, то даже gpt 5 mini / grok code fast 1 с vscode на базовой подписке справляются. к опусу прибегал только тогда какой-до дроченый баг попадался опус топ, спору нет

чому у тебя несколько glm flash-ей?

Аноним 05/02/26 Чтв 22:20:52 № 1510573 140

>>1510553
>Лама 4 с 2 триллионнами?

Её так и не выложили.

>А кто там самый крупный?

Тамщето Кими 1Т и она так-то ебет всех.

Аноним 05/02/26 Чтв 22:24:32 № 1510580 141

>>1510516
> В ллм очень технологии развиваются и модели быстро устаревают
Где мой убийца эира за пол года? Солар, линг, квен некст, минимакс - всё хуйня для рп
>немо победила вообще всех на пикче в шапке, включая все глм, минимаксы и прочее
Тупенький, мы о 12б-14б говорим и немо тут разъебывает всех вообще без шансов

Аноним 05/02/26 Чтв 22:34:17 № 1510609 142

У вас нет такого ощущения, что мозги модели растут непропорционально числу параметров? Что я имею в виду: переход с 4b модели на 12b - дает сильнейший вау-эффект. Переход с 12b на 24b - всё еще впечатляет, но уже меньше. Переход с 24b на 27b - умнее, да, но не то чтобы прям очень. Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть, но ее там надо под лупой в РП выискивать. Всё что выше не запускал, но вангую разницу с условным Эйром на уровне плацебо. Речь, естественно, о "соображалке" и "мозгах" модели, а не о том, насколько красиво и витиевато она пишет.

Аноним 05/02/26 Чтв 22:34:52 № 1510611 143

>>1510580
Это ты долбоеб. По хуебенчу немо>glm 4.7 Тебе же кроме хуев ничего больше не нужно, пидорок
>12б-14б
Ministral 14b, Gemma 3 12b трахают немо без шансов
>полгода
Ну пизда. За полгода не вышло эира 2. Пиздец. Правда за это время эиру успели зрение прикрутить и вышло куча других моделей, но они либо не про кум, либо слишком большие для анона. А значит ЛЛМ ВСЕ.

Аноним 05/02/26 Чтв 22:37:46 № 1510615 144

>>1510573
>Её так и не выложили.
И славу богу. Мертворожденная хуйня
>Тамщето Кими 1Т и она так-то ебет всех.
В стёпе бенчи выкладывали моделек, включая кими. По ним это не видно
https://huggingface.co/stepfun-ai/Step-3.5-Flash

Аноним 05/02/26 Чтв 22:52:30 № 1510627 145

>>1510609
>переход с 4b модели на 12b - дает сильнейший вау-эффект
4b довольно плохо работает, а 12b просто нормально. Вот и вау эффект. Разница в размере 3 раза
>Переход с 12b на 24b - всё еще впечатляет, но уже меньше.
Ну 12b работает нормально, а 24b работает... получше? Для меня даже этот переход не впечатляет. И разница в размере 2 раза
>Переход с 24b на 27b - умнее, да, но не то чтобы прям очень.
Пиши уж прямо. С Мистраля на Гемму. И это модели буквально одного размера, там разница в 1.1 раза. Выбирая между ними двумя я Мистраль возьму. Или может GLM 4, которая 32b была
>Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть, но ее там надо под лупой в РП выискивать.
Я так не считаю. Для меня переход с 24-32 моделей на Air вызвал прямо вау эффект. Что-то отдаленно напоминает копры, а не просто локалки
>Всё что выше не запускал, но вангую разницу с условным Эйром на уровне плацебо
Разница между Air'ом и Deepseek'ом огромная. Иди на опенроутер и попробуй
>Речь, естественно, о "соображалке" и "мозгах" модели, а не о том, насколько красиво и витиевато она пишет.
Без понятия какие у тебя критерии мозгов. Я оценивал модели по тому насколько хорошо они могут поддерживать мое рп, генерируя разные ситуации, которые логично вписывались в перса и историю чата

Аноним 05/02/26 Чтв 22:53:35 № 1510630 146

>>1510609
Это ж классика всего МЛя.

Аноним 05/02/26 Чтв 23:06:10 № 1510646 147

>>1510609
Мозги у них одни и те же начиная с 8б, в смысле способности освоить аппарат формальной логики. У больших моделей выше "разрешающая способность" памяти. В районе триллиона параметров они могут точно пересказать сюжет какого-то фильма с подробностями, в районе 230б - в целом скорее правильно, в 30б - знают только в общих чертах, 8б - городят хуйню. Если дать им обобщить стену текста то они скорее всего выдадут примерно одно и то же.

Аноним 05/02/26 Чтв 23:48:17 № 1510691 148

>>1510609
У больших моделей есть возможность вкорячить больше-размерное эмбеддинг пространство. Каждый токен для модели обрастает большим количеством "смыслов" - как и у кожаных мешков. За счет этого память контекста становиться более устойчивой как к разрастанию так и к квантованию. Появляется возможность оперировать синонимами и разнообразить текст.

Аноним 05/02/26 Чтв 23:51:39 № 1510695 149

image.png 25Кб, 1325x149

тряска

Аноним 06/02/26 Птн 00:09:37 № 1510708 150

>>1510609

> Переход с 24b на 27b

Такого перехода нет, это модели одного класса.

>Переход с 27b на 106b-a12b - ну хз, разница-то конечно есть

Ты сравниваешь плотные и моэ по линейной шкале. Не надо так.
>Переход с 27b на 106b-a12b

Эквивалентность моэ плотным моделям считается в данном случае как (106+12)/2 = 59B. Реально все эти Аиры, Солары и ОСС - это модели одного ряда с немотроном.

У Квена (235+22)/2 = 128B. Уровень большого мистраля по мозгам, но квен все же так-то сломан.

У большого ГЛМ - (356+32)/2 = 194В. Ну и собственно сразу понятно почему только он уделывает Мистраль Лардж.

Аноним 06/02/26 Птн 00:17:10 № 1510710 151

>>1510430
А почему у тебя glm-flash на 23B? У тебя REAP версия поменьше полной? Почему в таблице вроде как одно и то же, а результаты разные?
И почему qwen-next на 70B? Он разве не 80?

Аноним 06/02/26 Птн 00:17:13 № 1510711 152

>>1510615

Как раз видно, что опенсорс Кими весь ебет, а у корпов там сопоставимое число параметров. Тесты степа оставим на совести тех кто это запостил, моделька хороша, но ГЛМ её делает всухую, в отличие от показанного в тестах.

Аноним 06/02/26 Птн 00:24:45 № 1510713 153

К слову, работы ведутся по step-flash в ванильной ламе? Очень в падлу искать как на linux компилировать форк.

>>1510609
А ещё переход от 30 фпс на 60 фпс заметен, а от 120 фпс на 240 фпс не так заметен. А с 1 фпс на 2 - так вообще.
Тебе надо обратные величины сравнивать 1/30-1/60 = 0.0166, 1/120-1/240 = 0.004166 (в 4 раза меньше).

А ещё представь критический случай.
Мы от 700B переходим на 200000B, будет там разница в мозгах? Ну кроме как в том, что вторая может назвать 4000 рек в порядке уменьшения протяжённости на каком-то континенте, а первая вряд ли. Ну и ещё, что вторая по памяти помнит всех куски кода представленные в интернете.

Аноним 06/02/26 Птн 00:32:16 № 1510715 154

>>1510609
> Всё что выше не запускал
Дело в этом. Более того, между мелкомистралем и гейммой по размеру разница пренебрежима. Из моэ ты присел на одну из младших, там действительно могут быть непонятки с тем где лучше.
Вот если бы попробовал пересесть потом на 70б, потом на ларджа, или дальнейший подъем по моэ - ощутил бы. Алсо разница будет именно когда накрутишь побольше и посложнее, иначе более мелкая но хорошо надроченная модель понравится больше.
>>1510711
> в отличие от показанного в тестах
В первый раз?

Аноним 06/02/26 Птн 00:34:33 № 1510718 155

>>1510713
> Очень в падлу искать как на linux компилировать форк.
Ну как бы git clone - cd llamacpp - компилишь форк

Аноним 06/02/26 Птн 00:51:18 № 1510727 156

Пацанчоусы, накиньте сценариев и идей для рпшинга. Шот я совсем исписался и не знаю куда приткнуться_{фить-ха}

Аноним 06/02/26 Птн 01:04:20 № 1510739 157

https://huggingface.co/datasets/MiniMaxAI/role-play-bench/tree/main
У Минимакса там и датасеты для рп бенчей существуют, ничоси. Интересно, выложат ли они свою her модельку. Так то может быть вкусно на текст комплишене, без всякой фигни в апи прокладке. 230b-a10b.

Аноним 06/02/26 Птн 04:16:49 № 1510855 158

>>1510727
СВОДКА ПРОИСШЕСТВИЯ №777
Объект: Группа добровольцев против радикального культа.
Суть дела: Группе лиц поручено уничтожить опасную улику — артефакт, обладающий коррупционным воздействием на психику. Подозреваемый (бывший владелец) преследует группу, пытаясь вернуть контроль над имуществом.
Ход операции: Маршрут пролегал через зоны боевых действий. В ходе миссии произошел раскол спецподразделения. Пока основные силы отвлекали армию противника, двое исполнителей скрытно проникли на промышленный объект для утилизации вещдока в резервуаре с лавой.
Итог: Объект уничтожен, режим пал, исполнители эвакуированы авиацией.

РАПОРТ О ПРОВЕРКЕ УЧЕБНОГО ЗАВЕДЕНИЯ
Объект: Субъект извлечен из неблагоприятной среды и помещен в закрытый интернат. В ходе обучения выявлено хранение запрещенного инвентаря (плащ-невидимка) и нарушение комендантского часа.
Инцидент: Группа учащихся вскрыла охраняемое хранилище, обойдя систему безопасности (биологическую и механическую). Цель: предотвращение хищения ценного минерала рецидивистом, находящимся в розыске (подозреваемый скрывался на затылке сотрудника школы).
Итог: Контрабанда уничтожена, подозреваемый скрылся в виде облака, учебный год завершен досрочной выдачей премий.

Аноним 06/02/26 Птн 04:28:15 № 1510861 159

>>1510412
Кстати да, вот если брать русик, то в Ministral 3.14b самый лучший русик из мелких. Под мелкими подразумевается все, что можно запихнуть в нормискванте в 12Gb без выгрузки в ram.

Аноним 06/02/26 Птн 07:29:04 № 1510895 160

>>1510710
Потому что поэтому >>1510473
>>1510708
>в данном случае как (106+12)/2 = 59B
Шизофазия полная все твои расчеты. Еще помню в редите вообще через формулы с корнем высчитывали соотношение. А по факту единственный вариант это по бенчам смотреть сравнение конкретным моделей

Аноним 06/02/26 Птн 07:34:37 № 1510898 161

>>1510713
>может назвать 4000 рек в порядке уменьшения протяжённости на каком-то континенте
Ты переоцениваешь ллм. У меня ни одна нейронка, включая копров, вроде гпт, грока и гемини, не смогла назвать топ 15 объектов Солнечной системы по массе. Можешь проверить сам

Аноним 06/02/26 Птн 09:04:06 № 1510946 162

>>1510898
По массе Air смог. А по радиусу обосрался, причем даже с указанием на ошибку

Аноним 06/02/26 Птн 09:05:38 № 1510948 163

изображение.png 1095Кб, 4636x1432

>>1510898
>топ 15 объектов Солнечной системы по массе
Ну так то я и не назову, после планет там вылезет Эрида, и ещё наверное спутники Юпитера и может быть какой-то из астероидов? Я не знаю масс астероидов вообще.

>Можешь проверить сам
chatgpt5.2 - формально задание выполнил с первой попытки , указал правильные массы, но напутал с порядком (что, впрочем, я и не просил). С ризонингом по идее он бы ответил верно поправив порядок ещё. Отчасти ему повезло что он случайно самплером не писанул про Тритон. При этом он какие-то изображения прикрепил выше, возможно у него даже без поиска в сети есть небольшая локальная база знаний, иначе я не понимаю откуда изображения (с домена images.openai.com)

GLM-4.7 с ризонингом справился, без него самплер подвёл его на последней позиции, с температурой пониже возможно ответил бы. Зато порядок не путает.

Гемини "быстрая" ответила, что забавно так же как и жпт5.2 порядок поменяла. У них видимо часто планеты шли списком в обучающих примерах, и потому самплеры делают их печатать сначала Меркурий, даже если они знаю массы. Короче с ризонингом бы тоже справилась.

А самое интересное - локальный glm-4.7 флеш в пятом кванте, сразу с ризонингом. Как видишь, он делает список всех кандидатов - и это хороший план, но потом массы не для всех пишет. Взял настройки самплера, с которыми гоняю rag-систему свою про признаку, что так оно работает лучше, чем с температурой 0.5 или с 0.1.
Мне стало интересно - я прогнал ещё 4 раз. В одном он пропустил меркурий (в список первоначального анализа написал, а в список с массами не написал - он пропускает там хвосты спутников, и меркурий последний в списке по этому же признаку пропустил). И он даже массы более-менее верные называл.
Без ризонинга не отвечает, пишет всякие "Троянский астероид 624 Гектор" и прочие Цереры и Весты - вот это прям мой уровень, лол. Ну, я ещё массы не знаю вообще - а он назвал даже для этого астероида. Но то что с ризонингом он справляется - меня удивляет и поражает.

Короче, я остаюсь при своём - 200000B (200T) модель назовёт 4000 рек.

Аноним 06/02/26 Птн 09:06:08 № 1510949 164

>>1510553
>А по факту тренд другой - дать большее за меньшее ресурсы
Ну так у корпов экономика, поэтому и кормят нейрохрючевом побольше, пока берут. Они рады были бы и 0,6B в прод запустить, да брать не будут.
>а сейчас выходят китайские модели, вроде глема и минимакса, которые с меньшим размером выдают перфоманс дипсика
А в размерах дипсика оно было бы уууууу.
>>1510566
>вообще не пынимаю подход - только жopus использовать при возможности
Если платит кто-то другой, то нет никакого резона юзать кастратов.
>>1510609
Ебать ты капитан. Скоро повысят до адмирала.
>>1510646
>в смысле способности освоить аппарат формальной логики
Только дальность связей страдает. Условно 8B может сделать вывод, что если А, то Б, а 365B из А неявно выведет Б, В, Г, а в чат выдаст сразу Д.
>>1510713
>Мы от 700B переходим на 200000B, будет там разница в мозгах?
Конечно будет. Даже нынешние 700B лоботомиты. Хотя конечно не факт, если тренировать современными методами, то да, получится склад, а не мозги.
>>1510739
Интересно, откуда они набрали эти датасеты скачал себе на всякий.
>>1510946
Тестошизу понравится.

Аноним 06/02/26 Птн 09:15:24 № 1510952 165

>>1510949
>то да, получится склад, а не мозги.
Нужен конкурентный алгоритм, как в GAN-генератора или как в alpha-zero. Это конечно не шахматы, но если оно будет спорить само с собой и будет судья, который отдаст приоритет одной из сторон, то почему оно не обучится разговору так же, как обучилась шахматам или го? Сложнее формализовать победу, да. Первая супер-короткая стадия может быть с обучением по записям дебат на разные темы, чтобы оно поняло что такое речь. Потом основная часть, где условный chat-gpt самой сильной версии десять раз проверяет ответ и выдаёт вердикт, если все 10 оценок совпали. Когда он начинает сомневаться - этот пример отбрасывается до рассмотрения людьми.
Или как вариант две сетки играют друг против друга, а третья их судит (инстанс той же сетки + присяжные, лол). Хотя бы как эксперимент. Люди как-то же людей судят, философию изобретают, проверить рассуждение проще, чем сделать - потом сетка может сама себя обучать в теории. То что делала судья отбрасывает, а то что две сетки играли друг против друга - им присуждается результат для дальнейшего обучения. Это же круто будет, если будет ллм, которая обучилась основываясь на правилах языка, а не на примерах.

Аноним 06/02/26 Птн 09:20:08 № 1510954 166

>>1510948
>Ну так то я и не назову
Да, но если тебе это когда-нибудь понадобится, то ты загуглишь, откроешь вику и посмотришь ответ. Нейросетки же будет придумывать по тексту
>chatgpt5.2
Обосрался с подливой. Мало того, что с Меркурием проебался, так еще и Луны вверх пихнул
>GLM 4.7
Глем хорош, как обычно
>Гемини
Тоже обосралась
>даже если они знаю массы
В том то и дело, что они не знают массы. Они просто похожий текст пишут. А поскольку в большинстве случаев планеты упорядочены по радиусу, то они почти всегда путают порядок

Аноним 06/02/26 Птн 09:26:07 № 1510957 167

>>1510954
Ой, не нуди.
Локальный флеш на 25 ГБ параметров, который можно чуть ли не на офисном ноуте запустить иногда отвечает на достаточно узкоспециализированные вопросы в моей области, в которой я 15 лет занимаюсь и изучаю всякое. Это очень крутое достижение науки и техники. Даже если оно в 50% случаев отвечает. Даже если в 20% - я же могу это проверять.

То есть это прям феноменально крутое достижение науки и техники, даже флеш. Оно в некоторой степени может в логику и в некоторой степени знает всё. 10 лет назад 99.9% людей бы как один сказали, что это и есть искусственный интеллект, всё, капец, приплыли. Вот этот флеш, да, который и на железе 10-летний давности работал бы.
А сейчас глаз замылился, ничего необычно. Да вы охуели, ЭТО ОЧЕНЬ НЕОБЫЧНО по любым меркам.

Аноним 06/02/26 Птн 09:32:47 № 1510958 168

доказательство что кими ебёт

Аноним 06/02/26 Птн 10:01:54 № 1510964 169

>>1510957
10 лет? да 3 года назад это бы уже назвали искуственным интелектом. Как бы алло, у нас R1 недавно отпраздновал ГОД с даты выхода. ОДИН ГОД. DeepSeek R1. Ебанутся сколько за год случилось. А сейчас мы имеем модель в 30b которая в утилитарном применении его обгоняет. Охуе-е-еть.

Аноним 06/02/26 Птн 10:37:28 № 1510973 170

>>1510952
>Первая супер-короткая стадия может быть с обучением по записям дебат на разные темы, чтобы оно поняло что такое речь.
Зенитные кодексы Аль-Эфесби.
-мимокрокодил.

Аноним 06/02/26 Птн 11:06:48 № 1510983 171

>>1510946
А где осталные карликовые планеты? Эрида, например?

Аноним 06/02/26 Птн 11:15:58 № 1510991 172

>>1510983
Тут топ 15. Эрида на 17/18, Плутон на 18/17 месте по массе/радиусу соответственно.

Аноним 06/02/26 Птн 11:47:09 № 1511023 173

А что, глм 4.7 реально зацензурена в хламину как последний жопус? А почему тогда мало derestricted версий в нормальном кванте?

Аноним 06/02/26 Птн 11:49:42 № 1511025 174

>>1511023
> derestricted
"0" face
> ablitereted
Уу хуета лоботомит...

Аноним 06/02/26 Птн 11:59:50 № 1511030 175

>>1511023
Играю на q2 кванте 4.7. Никакой цензуры тут нет и в помине, без ризонинга. С ризонингом говорят есть, я не пробовал.

Аноним 06/02/26 Птн 12:00:57 № 1511031 176

>>1511030
> q2
Ну ещё бы, на таком лоботомите и цензура лоботомируется

Аноним 06/02/26 Птн 12:01:24 № 1511032 177

>>1511031
Жирнишь, дядя, жирнишь. Попробуй еще.

Аноним 06/02/26 Птн 12:05:09 № 1511039 178

Расскажите про REAP50 версию GLM-4.7, которая 218B вместо 358B?

На флеше тоже есть такая версия. Отвечает плюс-минус такая же, разницы будто бы и нет на глаз, как впрочем и ускорения генерации.
Может быть лучше эта REAP50 но в q3, чем обычная в q2?
Бенчмарки может есть какие?

Аноним 06/02/26 Птн 12:05:40 № 1511041 179

>>1511039
Нет, не лучше. REAP это для кода, не для рп.

Аноним 06/02/26 Птн 12:07:19 № 1511045 180

>>1511032
Так он прав. На 2 кванте и знаменитая свое соявостью гемма 3 не такая уж и зацензуренная, как на 4 и последующих. Или ты думал, что квантование никак не влияет на модель?

Аноним 06/02/26 Птн 12:07:32 № 1511046 181

>>1511032
Модель не лоботомит только при запуске в полных весах в FP16
Пойду катать дальше кими на компьютере наса.

Аноним 06/02/26 Птн 12:07:36 № 1511047 182

>>1511041
А мне и не для рп.
Как впрочем и не для кода.

А что с ней не так, опишешь словами подробнее?
Кремний мне только вот такую табличку нашёл, более полных тестов нет.

Аноним 06/02/26 Птн 12:10:54 № 1511053 183

>>1511047
Ну смотри, ты там рассуждаешь о разнице между q2 и q3 квантами, вот я и подумал что для рп. Если не для рп то меньше q4 ничего не имеет смысла. Потому что слишком большая просадка по точности. Ассистент будет давать неверные ответы, в коде будут очепятки которые приведут к тому что он не будет выполняться. Потому я и пишу что REAP не имеет смысла в твоем юзкейсе. Слишком малый квант мешает точным таскам, REAP мешает рп.
>>1511045
Есть куча информации и по другим, более жирным квантам. Реддит/дискорд. Надо - чекай. Все кому надо уже прочекали и в курсе что цензура только в ризонинге. Бтв, q2 работает замечательно и выдает кино, какого нет ни на какой другой модели меньше, пусть там даже полные веса.

Аноним 06/02/26 Птн 12:31:04 № 1511060 184

>>1511053
Что такое REAP?

Аноним 06/02/26 Птн 12:35:03 № 1511062 185

>>1511046
>компьютере наса
Давно не образец, лол.
>>1511047
ХЗ, у меня в лоботомит кванте в задачах РП модель тупо ломалась, писала бред, повторы и не могла заткнуться.
>>1511053
>цензура только в ризонинге
Ну кстати её и там мало. Вот минимакс да, в ризонинге на 146% отлавливает неудобное, даже с префилом, а уж как он обзывает обходы цензуры обходами цензуры, вообще любо-дорого.

Аноним 06/02/26 Птн 12:35:43 № 1511064 186

>>1511060
https://github.com/CerebrasResearch/reap
Очень упрощая, это способ "вырезать" из модели определенные знания. Относительно недавно сделали. Как правило, вырезают из больших моделей все, что не нужно в бенчмарках, и приносят - мол, смотрите, мы сделали GLM на 40% меньше и потеряли всего 2% перфоманса, что подтверждают бенчами. В которых нет creative writing, например, или знания разных языков, или много чего еще. И все это после REAP не работает, разумеется. Потому только для кода и применимо, в целом.

Аноним 06/02/26 Птн 12:45:33 № 1511073 187

>>1511064
Спасибо анон. А я тут подумал, ну вот возьмем огромную модель на 27 языках, вырежем все кроме 4 языков. Модель отупеет?
Ну в теории вин же должен быть.

Аноним 06/02/26 Птн 12:47:11 № 1511075 188

>>1511073
> Ну в теории вин же должен быть.
Были такие надежды, когда только появился этот метод. Но практика показала, что эта затея годится в лучшем случае только для кода. Да и с кодом не так все однозначно. По сей день не было ни одного REAP вина для рп. Так что... увы.

Аноним 06/02/26 Птн 12:55:45 № 1511082 189

>>1511073
Они не так делают. Там не вырезаются языки, креативность и т.д. Там вырезается ЧТО-ТО, хуй пойми что. А потом смотрится по прогерским бенчам перорманс. Ну т.е. модель в теории даже может не особо отупеть, а может отупеть до охуения. Это не говоря о том, насколько вообще эти бенчи отражают реальные способности модели. А не то цифорки могут быть красивые, а по факту залупа полная

Аноним 06/02/26 Птн 13:16:11 № 1511101 190

Только у меня Убунта сегодня не может через sudo apt upgrade обновить проприетарные нвидиевские драйвера? Здесь у многих Убунта стоит, вот и спрашиваю. Удобная она для ЛЛМ.

Аноним 06/02/26 Птн 14:04:20 № 1511141 191

>>1511101
У меня недавно убунта сдохла обоссавшись и обосравшись тоже из-за драйверов. Но потом воскресла, когда самостоятельно поставила открытые драйвера после перезагрузки, а после я уже в менеджере драйверов выбрал 590. Сейчас все нормально работает

Аноним 06/02/26 Птн 14:19:23 № 1511146 192

>>1511075
>По сей день не было ни одного REAP вина для рп.
А была ли хоть одна попытка сделать этот самый REAP для РП?

Аноним 06/02/26 Птн 14:48:40 № 1511171 193

Посоветуйте маленькую (до 24гб ВРАМ) модель с хорошим ризонингом, желательно без цензуры. Хочу попробовать местную идею - ризонинг на маленькой модели, а потом основное сообщение на большой. Вручную конечно, но интересен сам принцип.

Аноним 06/02/26 Птн 14:50:19 № 1511172 194

>>1511146
Возможно, и даже вероятно была. Тот факт, что не опубликовали результат, не говорит о том что попыток не было. Любители тюнить про REAP давно в курсе. Логично предположить, что если бы они могли успешно использовать этот способ, уже использовали бы. А еще для этой процедуры нужны специальные датасеты, над которыми нужно проводить отдельную работу.

Аноним 06/02/26 Птн 14:56:38 № 1511177 195

>>1511172
Небось инструментов нет, или не осилили. А попытку они бы выложили, и не такое говно выкладывали уже.

Аноним 06/02/26 Птн 15:03:20 № 1511181 196

>>1511146
Лол будет небось как результат который у меня был на ламе3 кажется, или что-то около того. слог может а с математикой не очень.

Аноним 06/02/26 Птн 15:32:43 № 1511199 197

>>1509970
>>1510031
1 - до обновления: правильно написало песню, не насрало емодзями, но насрало иероглифами
2 - после обновления: неправильно написало песню, насрало емодзями, но зато не было иероглифов.
аксиома эскобара короче

>>1510092
поделись скриптом, пожалуйста.
я так понял, что если хочешь качество, то надо самому квантуваты, а не надеяться на батрух и анслопов

Аноним 06/02/26 Птн 15:34:13 № 1511201 198

>>1511046
> на компьютере наса.
> Pentium III, Slackware Linux

Аноним 06/02/26 Птн 16:56:23 № 1511264 199

>>1510403
Ясно, попробую его тоже.
>>1510412
24b все свайпы тупо перефазирует одно и тоже, я даже не знаю что будет на 14b. Только смена сис промпта помогает. Последнее время только на гемме.

Аноним 06/02/26 Птн 17:04:23 № 1511268 200

>>1511064
> способ "вырезать" из модели определенные знания
>>1511073
> вырежем все кроме 4 языков
Все проще - оно режет отдельных экспертов, влияние которых "мало". Проблема только в том, что знания в модели нигде не локализованы и нет какого-то определенного деления по ролям, они есть суперпозиция активируемого множества экспертов. Удаление приводит к искажениям, так еще и количество активируемых не меняется, потому в инфиренсе будут участвовать неподходящие.
Собственно метод предполагает оценку чувствительности и влияния с целью ампутации того, что не должно влиять на скор бенчей или калибровочного теста.
>>1511171
> модель с хорошим ризонингом
> ризонинг на маленькой модели, а потом основное сообщение на большой
Во-первых, зачем тебе модель с ризонингом? Ты даешь ей инструкцию подумать и она пусть ее выполняет, ее собственная логика ризонинга может быть совершенно шизоидной и плохо совместимой со второй моделью. Бери любую модель которая нравится.
Во-вторых, это плохая идея, тупой мелочью лоботомируешь большую задав неверные акценты. Норм идеей может быть использование мелких моделей чтобы собрать какие-то факты или рассмотреть с разных сторон, потом приказать большой дать оценку всему этому, и уже потом использовать полученное. Но не факт что выйдет лучше чем просто 2 инструкции большой.

Аноним 06/02/26 Птн 17:07:19 № 1511272 201

>>1511264
>24b все свайпы тупо перефазирует одно и тоже
Фиксится повышением температуры.

Аноним 06/02/26 Птн 17:14:24 № 1511275 202

>>1511199
>аксиома эскобара короче
Жди фикса для фикса.
>>1511272
Логика выйдет из чата.

Аноним 06/02/26 Птн 17:44:56 № 1511305 203

>>1511039

Я пробовал реап который 268B и это был трэш. Модель потеряла русский язык почти полностью. Уходила в галюны. О качестве РП я не говорю. Не советую, если так хочется хорошую 200В модель - то бери минимакс/степ.

Аноним 06/02/26 Птн 17:48:15 № 1511310 204

>>1511023
Это вброс? ГЛМ одна из самых чистых моделей, я на ней даже джейл не применяю.

Аноним 06/02/26 Птн 18:03:36 № 1511333 205

Через пару часов смержат стёпу
Никому не спать, разорвем эту глыбу

Аноним 06/02/26 Птн 18:08:40 № 1511337 206

>>1511305
Да не-не-не. Просто если можно чуть поднять скорость без вреда, то почему бы и нет.
И вообще, 358B в 5 кванте - это многовато. Надо какое-то 192+64 минимум, ну или 256+32.
А 218B в 5 кванте - это влезет в 128+64 с контекстом.

К степу кстати рип на 128B уже сделали, лол.

Аноним 06/02/26 Птн 18:26:14 № 1511357 207

Я очень взволнован гайз
Я ещё не запускал настолько большую модель в нормальном 3 кванте

Аноним 06/02/26 Птн 18:28:11 № 1511361 208

А на кобольде еще недели две ждать...

Аноним 06/02/26 Птн 18:36:16 № 1511371 209

Да, кстати, я вчера перед сном пробовал большой (книгу на 170К) контекст со степой. Он сказал что видит только мешанину слов и символов, не связанных между собой. Подозреваю что они напиздели про размер контекста, точнее выдали расширенный роупом контекст за нативный. Поскольку роуп я крутить не умею, то остается ждать кобольда.

Аноним 06/02/26 Птн 19:21:36 № 1511431 210

>>1511371
170к контекста != 170 Кб текста.
Такие дела.

Аноним 06/02/26 Птн 20:02:26 № 1511482 211

>>1511431
Очень смешно. Нет, речь именно про контекст.

Аноним 06/02/26 Птн 20:03:44 № 1511483 212

Короче, кто катает 2 квант глм 4.7 - берите ud 2 xl. Он гораздо лучше 2kl кванта батрухи, как бы я нашего слоняру ни уважал. Влезают кванты в одинаковое железо, у них всего 0.15 bpw разница, но видимо анслоты которых я обычно сру тут постарались и верно слои квантовали. Субъективно квант батрухи сухой, пишет скучнее, но что объективно так это то что он после 22к контекста рушится крайне стремительно. На анслоте до 36к не рассыпается. Ваш нюня, чмок

Аноним 06/02/26 Птн 20:15:11 № 1511491 213

>>1511483
>Короче, кто катает 2 квант глм 4.7 - берите ud 2 xl
Кавраковские быстрее, что решает. Также уверяют, что и по перплексити лучше.

Аноним 06/02/26 Птн 20:18:01 № 1511495 214

>>1511491
Нюне (я не он очевидно, мы списались через обниморду) непонятно, почему если ik ветка такая прекрасная и без недостатков, она именно ветка, а не серия пулл реквестов в основную лламу. А я бомж без рама и сижу на Эире

Аноним 06/02/26 Птн 20:32:28 № 1511499 215

>>1511491
на 0.5т? еееее

Аноним 06/02/26 Птн 20:36:11 № 1511503 216

>>1511495
передай ему коллективный респект от анонов и попроси пресет

Аноним 06/02/26 Птн 20:41:50 № 1511506 217

>>1511483
>2kl кванта батрухи
Я сижу на IQ2_S, ибо нищук с 96+32+24.

Аноним 06/02/26 Птн 20:43:42 № 1511507 218

>>1511503
Передавал и просил. Сказал что стандартные семплеры и минималистичный промт на 200-250 токенов для 4.7. Для Эира то же самое, но на чатмл + жирные описания персонажей с примерами диалогов. Но тут об этом еще какой-то анон писал, за что на него накинулись непонимающие

Аноним 06/02/26 Птн 20:44:30 № 1511508 219

>>1510895
По факту можно смотреть на цифру между A и B в названии. Да, я знаю, в очередной раз толсто набросил, можете не отвечать.

Аноним 06/02/26 Птн 20:47:14 № 1511513 220

>>1511495
Это не ветка, а форк. Они разосрались с основной лламой из-за разного видения, и болгарин теперь в своем загоне пилит приколюхи.

Бля, как же долго v100 идет через того продавца говна, что тут советовали. Еще и тряска, ибо у одного чела пришла вхлам убитая карта с разъебанными сокетами и стертыми маркировками, но в треде это старательно игнорируют и ни разу не запостили. А заказали-то у него много кто, небось, из треда.

Аноним 06/02/26 Птн 21:03:36 № 1511527 221

>>1511483
Интересно что лучше IQ3_XXS или 2xl

Аноним 06/02/26 Птн 21:26:11 № 1511544 222

>>1511508
цифру между A и B умножить на 2 👍

Аноним 06/02/26 Птн 22:00:06 № 1511587 223

>>1511513
> Они разосрались с основной лламой из-за разного видения
Скорее Жора со многими разосрался. Не то чтобы стоит его сильно винить, ведь действительно имеет свое видение и изначальная цель - работа на гейбуках. Еще весь этот треш со стороны олламы постоянно давит.
> заказали-то у него много кто, небось, из треда
Ну мне недавно пришла, из нареканий что вся в термопасте и отпечатках китайца, работает. Что там за тряска вообще?
> что тут советовали
> но в треде это старательно игнорируют
Вот из-за долбоебов-нытиков типа тебя здесь и не советуют ничего. Хотят и самый профитный вариант получить, и ответственность на других переложить.

Аноним 06/02/26 Птн 22:31:23 № 1511613 224

>>1511587
Ну ты там в своем мирке живешь, что я могу сказать. Отзывы не чекаешь, перекладывание отвественности где-то увидел... толку с тебя. Впрочем, тут большинство в треде как мешком прибитые - иногда почитаешь ветку ответов и складывается ощущение, что общаются сами с собой вместо собеседника.

Аноним 06/02/26 Птн 22:34:58 № 1511616 225

image.png 16Кб, 911x82

Эмм... Скажите как это работает? Сижу на линухе, раньше думал что мой максимум для 24+64 это 78-80гб квант ибо выше система крашилась, а сейчас убрал --no-mmap и влез квант на 84гб, при этом скорость не изменилась что пп что т.с и вкладок больше открыто, а рам судя по пику вообще не потребляется с --no-mmap available 1gb обычно

Аноним 06/02/26 Птн 22:46:53 № 1511624 226

>>1511616
Погуглил, как я понял пейдж файл спасает, но лучше не превышать 5-10гб, т.е считай можно добавить 10 гигов к рам бесплатно без ощутимой потери скорости и вместить квант пожирнее

Аноним 06/02/26 Птн 22:56:21 № 1511633 227

У меня глм флеш не работает на последнем жоре (куда), а у вас как? Просто тупо рандомные символы сыпет

Аноним 06/02/26 Птн 23:00:49 № 1511636 228

>>1511613
Тот лот в конце декабря скидывали, народ заказывал, уже несколько довольных покупателей. Неделю назад один плохой отзыв, и ты уже устраиваешь истерику. Что задавно - в ней как раз выстраиваешь "свой мирок", где не ты купил самый-самый дешевый лот на майлсру, а виноват кто-то другой. Будет орно если ты станешь вторым неудачником, обязательно выложи фотки соккетов.
>>1511624
> можно добавить 10 гигов к рам бесплатно
На скорости ссд

Аноним 06/02/26 Птн 23:07:26 № 1511642 229

>>1511636
>На скорости ссд
По ощущениям если ты не превышаешь размер врам+рам то всё норм, просто он подгружает модель чуть дольше обычного если долго не писал

Аноним 06/02/26 Птн 23:09:37 № 1511645 230

>>1511636
Жесть ты порвался, братишка. Выйди что ли на улицу, потрогай снег, а то у тебя уже крыша едет настолько, что кругом враги, которые тебя около подъезда сторожить будут за советы продавцов, и ты желчью исплевался на ровном месте.

Аноним 06/02/26 Птн 23:14:24 № 1511653 231

смержили
https://github.com/ggml-org/llama.cpp/pull/19283

Аноним 06/02/26 Птн 23:19:27 № 1511663 232

>>1511645
Чел...

Аноним 06/02/26 Птн 23:32:18 № 1511672 233

>>1511653
бартуха там уже кванты стёпы делает, всё схвачено
ждём 7958 релиза

Аноним 06/02/26 Птн 23:33:33 № 1511673 234

>>1511506
>Я сижу на IQ2_S, ибо нищук с 96+32+24
Спокойно ud 2xl влезет с 25к fp16 контекста, даже под виндой.

Аноним 07/02/26 Суб 00:48:08 № 1511731 235

Ну так что swa хуйню выключаем для стёпы?
Или это сломает модель

Аноним 07/02/26 Суб 01:51:53 № 1511779 236

image.png 3Кб, 385x100

Я конечно редко смотрю чейнджлоги, но что за пиздец там происходит в релизах, нахуя мне знать что кого-то сделали счастливым, удалив пустую строку?

Аноним 07/02/26 Суб 01:58:46 № 1511781 237

>>1511779
Мне, как программисту, понятны чувства линта. Я тоже счастлив за него. Молодцы, разработчики Жоры, что думают о чувствах линта. Программерская солидарность. Аутсайдерам не понять.

Аноним 07/02/26 Суб 01:58:50 № 1511782 238

>>1511507
>Для Эира
>на чатмл
>на него накинулись непонимающие
Скорее всего еще харкнули и пнули, но с четким понимание, что он хуесос. Вроде уже в прошлых тредах триллион раз чатмл обсосали хотя скорее обоссали

Аноним 07/02/26 Суб 01:59:42 № 1511784 239

>>1511782
Жир жирыч...

Аноним 07/02/26 Суб 02:08:29 № 1511787 240

>>1511781
Так в релиз нахуя все коммиты пихать? Вот вроде все описания релизов как описания "Сделано то, сделано это", а тут блять обо всём ни о чём сука, даже в моей шарашкиной конторе с мёрджом над описанием думают.

Аноним 07/02/26 Суб 02:20:09 № 1511792 241

>>1511787
Чтоб ты спросил и потратил время на поиск ответа...

Аноним 07/02/26 Суб 03:10:55 № 1511806 242

>>1511507
А что за промпт то не кидал?
У меня до сих пор его минималистичный на 30 токенов, но думаю это мало очень, а сломать что то расширив его боюсь