Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 359 56 108
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №184 Аноним 19/12/25 Птн 15:54:25 1461789 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17636356566421.jpg 2312Кб, 2040x1536
2040x1536
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1457001 (OP)
>>1448902 (OP)
Аноним 19/12/25 Птн 15:58:11 1461796 2
>>1461789 (OP)
Чем это 4-х процессорное чудо штатно охлаждается?
Аноним 19/12/25 Птн 16:00:10 1461798 3
>>1461784 →
Но почему на базе 3 геммы, если у них готова 4?
Вот и думай
Аноним 19/12/25 Птн 16:02:05 1461800 4
image.png 3686Кб, 1440x1913
1440x1913
image.png 1507Кб, 1440x1913
1440x1913
>>1461796
Это двухпроцессорное, 2011в4 просто для сравнения лежат, а так не напрягаясь башня сдувает 270. В прошлом треде было
Аноним 19/12/25 Птн 16:10:40 1461817 5
1000018424.png 642Кб, 2128x1026
2128x1026
Пол года прошло с эира и последнего громкого релиза
Заи не поняли как сделали эир и обосрались
Гемма без сомнений выйдет сейфмакснутой, так там еще какие то йоба анти джейлбрейк техники завезут
Мистраль это мистраль
Надежды нет
Аноним 19/12/25 Птн 16:15:05 1461824 6
>>1461786 →
> Какие аргументы в пользу "не покупать и ждать"?

скоро договорнячок, все санкции снимут, доллар станет по 68, в России начнут производить свою оперативу, процессоры и видеокарты, и не надо будет платить по 5000 рублей "технологический сбор" за каждую единицу иностранных комплектующих, ну и в конце концов лопнет пузырь ИИ и на вторичке появятся тонны дешёвой памяти DDR5
Аноним 19/12/25 Птн 16:23:18 1461829 7
>>1461824
Политический бот, игнорируем.
Аноним 19/12/25 Птн 16:25:33 1461831 8
>>1461790 →
Wan2.2 норм.
А объем не важен, выгружается в оперативу, потери не критичные.
Главное — чип.
Аноним 19/12/25 Птн 16:25:39 1461832 9
>>1461824
>платить по 5000 рублей "технологический сбор"
Это наименьшая из проблем вообще (я погуглил).

Если комп стоит 200 тыс, 5 тыс - 2.5%, это мелочь.

Если комп вообще невозможно купить (его нет)...

Вопрос в том, будут ли они вообще в продаже?..
Аноним 19/12/25 Птн 16:31:48 1461835 10
owarida.png 84Кб, 1122x1122
1122x1122
>>1461817
Ты забыл подписаться.
Оварида-шиз.
Аноним 19/12/25 Птн 16:38:36 1461842 11
>>1461831
Ну, смотри, если речь идет о генерации конкретно видео, то может быть 5070 Ti актуальнее. Но если делать упор на картинки и на ЛЛМ, то взять 2 5060 Ti за почти ту же цену, выглядит уместнее. ЛЛМки выиграют сильно, картинки не очень сильно, им и одной хватит. Чел со сборкой вроде не говорил, что ему видео нужно. Хотя, наверняка захочется в итоге. И тут встает вопрос приоритетов.
Аноним 19/12/25 Птн 16:40:10 1461843 12
>>1461835
В чем я не прав?
Меня просто смерть как заебало эхо эира, сижу блять с 9 токенами жду ответ только чтобы на половине увидеть повторение своего
Аноним 19/12/25 Птн 16:50:20 1461849 13
>>1461842
Согласен.
32 гига будет очень приятно. Во-первых, всякие Gemma/Mistral/Qwen прям залетают без сомнительных компромиссов в виде Q3_K_M.
Аноним 19/12/25 Птн 16:52:29 1461851 14
>>1461817
>vocabulary size of 130000
Кто-нибудь знает, почему они такой большой словарь делают? Технически это должно повышать нагрузку, поскольку приходится перемножать просто гигантские матрицы размером в полторы сотни тысяч, разве нет?

Очевидно, размер <256 был бы выгоднее по компьюту.
Аноним 19/12/25 Птн 16:55:11 1461853 15
> "ты и так достаточно страдал на ддр2" да и нужно вспомнить, что жизнь конечна и может не успеть насладиться обновкой.

база
Аноним 19/12/25 Птн 16:56:16 1461854 16
>>1461832
> 5 тыс - 2.5%, это мелочь.
5 тыс с каждого элемента
Аноним 19/12/25 Птн 17:01:09 1461860 17
>>1461851
>поскольку приходится перемножать просто гигантские матрицы размером
При эмбединге и деэмбединге, 2 раза за токен. Так что похуй, там 61 слой и десяток умножений на каждом.
>>1461854
С каждого резистора на плате...
Аноним 19/12/25 Птн 17:24:34 1461932 18
>>1461853
Я после этого решил взять 5070ти вместо 5060ти 16гб и правильно сделал, киберпанк на ультрах в 1080р без ддлс +-50 фпс, правда может из-за проца бутылочное горлышко, но но д 50% загружен.
Я правильно понял, запускаю кобольд в нем модель, потом запускаю сили таверн?
Аноним 19/12/25 Птн 17:30:37 1461956 19
Глупцы, не теряйте время и не бросайте на ветер деньки, а переходите на корпы. За ними будущее, очевидно.
Аноним 19/12/25 Птн 17:34:51 1461968 20
Аноним 19/12/25 Птн 17:37:43 1461980 21
изображение.png 7Кб, 419x63
419x63
>>1461956
>переходите на корпы
>спустя 15 минут кума
Аноним 19/12/25 Птн 17:37:47 1461981 22
>>1461956
Помидор еще не все новые токены ревокнул ?
Аноним 19/12/25 Птн 18:53:50 1462193 23
Блять, наебщики хуевы. В комментариях писали, что продавец v100 сделал так, что пошлину не надо платить, и что он сразу адаптер кладет. Хуй там, и пошлину заплатил, и без адаптера пришло. Охуенно, еще месяц адаптер теперь ждать. Пиздец, ну и говно.
Аноним 19/12/25 Птн 19:06:54 1462220 24
>>1461824
Вот не знаю как вы, но я верю.
Аноним 19/12/25 Птн 19:08:40 1462224 25
>>1462193
Как ты до своих 15 лет дожил с таким IQ?
Аноним 19/12/25 Птн 19:38:59 1462248 26
Аноним 19/12/25 Птн 19:41:47 1462250 27
>>1462248
Да к обоим ответ подходит.
Аноним # OP 19/12/25 Птн 19:56:53 1462265 28
>>1462250
Да весь тред такой.
Аноним 19/12/25 Птн 20:04:04 1462271 29
>>1461853 >>1461852 →
>как подбодрила меня нейронка
Мне Ллама-Скаут (онлайн) написала "если не горит - лучше подождать, цены снизятся".
>"ты и так достаточно страдал на ддр2"
Ну, я не страдаю от DDR2, я страдаю от отсутствия SSE4.2 в Xeon... И от присутствия РКН.
>да и нужно вспомнить, что жизнь конечна и может не успеть насладиться обновкой.
Смысл наслаждаться, если всё равно умирать? Ну, не успеешь и умрёшь. Минусы есть?

Корпораты говорят: "купи, а то не успеешь". Не успеешь что? Не успеешь передать все свои деньги в бездонный карман корпората? Не успеешь вколоть дозу бесполезного на практике слопа в вену? Не успеешь подрочить свой писюн своей рукой, хотя для этого никакие продукты корпората тебе не нужны, ведь и писюн, и рука у тебя уже есть? Остановись и подумой. Смысл в этих "наслаждениях"?

Это как с играми, онлайн-играми, особенно гача-играми. Тебе говорят: "событие ограничено, успейте поиграть и выбить %что-то%, а если не успеваете - можете влить реальные деньги и успеть"... И многие ведутся на эту уловку, но зачем? Что тебе, игроку, даст эта лимитированная фигня? Это просто пиксели на экране, такие же бессмысленные и бесполезные, как и любые другие... Люди создали буквально миллионы игр, многие из них совершенно бесплатны или доступны на торрентах как почти легальное abandonware, так зачем тебе добиваться конкретно этих пикселей в конкретно этой игре? Потому что корпорат сказал "купи, а то не успеешь"? Нет, тебе это не нужно. Твоему организму вообще ничего не нужно кроме минимально питательной еды, сна и укрытия от ветра, дождя и снега.

Это глобальная проблема. Хитрые люди эксплуатируют нас, дураков, сидя морковкой на удочке, а мы грызёмся и доказываем друг другу, какая морковка выгоднее другой, хотя ни та, ни другая нам не нужна...
Аноним 19/12/25 Птн 20:55:28 1462350 30
У меня голова лопается.
Хули всё так гибко настраивается в вашем ллме?
Семплеры, промпт, темплейт - от всего меняется выдача координально, так можно вечность их крутить и ни разу не покумить, всегда знаешь что можно настроить лучше
Аноним 19/12/25 Птн 21:07:16 1462358 31
>>1462350
Если не хочешь парить мозги настройкой, берёшь из шапки
>Однокнопочные инструменты на базе llamacpp с ограниченными возможностями
Всё работает из коробки с настройками по умолчанию, которые закопали подальше.

>и ни разу не покумить
Открою секрет: тебе наврали - для мастурбации никакая LLM не нужна.
Аноним 19/12/25 Птн 21:14:21 1462363 32
>>1462027 →
Ты её сам то тестил, она не развалится через 10 сообщений?

>>1462199 →
Дядь, я про 12b а не про 27
Аноним 19/12/25 Птн 21:24:46 1462369 33
>>1462363
>Ты её сам то тестил, она не развалится через 10 сообщений?
Новый метод аблитерации, аноны нахваливали
Аноним 19/12/25 Птн 21:34:47 1462375 34
>>1462363
>Дядь, я про 12b а не про 27
27 лучше 12.
Аноним 19/12/25 Птн 21:36:34 1462378 35
>>1462350
Темплейт фиксирован на модельку.
Семплер в основном берешь рекомендуемый если есть, или дефолтный какой нравится, и на нем сидишь. Единственное иногда температуру можно подпинывать для креатиффчика.
С промптом посложнее, но опции тоже есть. Либо берешь готовую и проверенную карточку. Либо если тебе достаточно просто попиздеть в определенном сеттинге, то просто описываешь историю, а нейронка генерит тебе креатиффчик. Ну если уже тебе нужны особые персонажи-хуяжи, какие-то приколы с сюжетом и т.д., тогда надо ебаться по полной.
Аноним 19/12/25 Птн 21:36:44 1462379 36
>>1462193
Про пошлину там же писать продавцу надо было и обычной почтой вместо cainiao. С адаптером слишком жирно, есть лоты именно с ними, написал бы продавцу по обоим вопросам.
> месяц
Отдаленная локация?
>>1462271
> Мне Ллама-Скаут (онлайн) написала "если не горит - лучше подождать, цены снизятся".
Сначала хотел спросить рофлишь ли ты, а потом глянул на остальной пост - ну и пиздец.
>>1462350
Сложно по началу, потом привыкаешь и разбираешься. И главное что за исключением редких кейсов если все "в пределах нормы" без явных косяков и перегибов, то определяющей будет все равно модель.
Аноним 19/12/25 Птн 21:58:44 1462403 37
Вновь выражаю дань уважения большеквену во 2 кванте, эир так никогда не сможет
Несправедливо его тут вспоминают только за русик, русик у него говно.
Эир после квена это как квен дома или продукт квеносодержащий, синтетика, ассистент в маске человека, такое внимание к деталям на 2 кванте, эмоциональное вовлечение модельки и понимание всех намеков и поддекстов, я прям поражен
Ну и конечно датасет х2.2 от эира оочень сильно ощущается
Всё же надо было брать рам под 4 квант когда была возможность
Аноним 19/12/25 Птн 22:31:37 1462439 38
>>1462403
Какой конкретно квен?
Аноним 19/12/25 Птн 22:32:28 1462441 39
Аноним 19/12/25 Птн 22:51:05 1462452 40
>>1462441
Ну ебать, есть кодер на 480б, есть обычный на 235б, есть вижуал на 235б.
Аноним 19/12/25 Птн 23:17:02 1462475 41
>>1462452
Кто-то кумит на кодере?
Очевидно, что если сравнивают с эйром, то это 235B, так как он во втором кванте сравним по требованиям с эйром в 4-м. Вижуал свежий, не факт что есть поддержка, да и смысла в вижуале для РП нет. Так что остаётся один вариант.
Аноним 19/12/25 Птн 23:22:21 1462481 42
>>1462379
>потом глянул на остальной пост - ну и пиздец
Что не так? Нужно срочно бежать скупать всё, что продают?

Смысла в жизни нет, а значит нет смысла куда-либо торопиться...
Аноним 19/12/25 Птн 23:24:27 1462486 43
>>1462369
По моему аноны ян лабс нахваливали, но он реально пиздатый.

>>1462375
Я щас сам сижу на 27b аблитерации от янлабса, но 7тс это полуафк ролеплей, попробую 12b как будет время, в любом случае это гемма, всяко лучше 12b мистраля в ерп.
Аноним 19/12/25 Птн 23:31:43 1462491 44
>>1462193
чел, это я написал тот коммент про адаптер.
Мне пришел с адаптером, я не обманул.
Очевидно китаец решил оптимизировать расходы, когда понял, что он и так по низу рынка продает.
Ты брал на 16 гб или на 32?
Аноним 20/12/25 Суб 00:04:22 1462516 45
Аноним 20/12/25 Суб 01:29:01 1462554 46
>>1462486
>Я щас сам сижу на 27b аблитерации от янлабса, но 7тс это полуафк ролеплей, попробую 12b как будет время, в любом случае это гемма, всяко лучше 12b мистраля в ерп.

Попробуй https://huggingface.co/TheDrummer/Magidonia-24B-v4.3
Я на него перешел как раз с разных Гемм 27, в том числе normpreserve, и довольно сижу хрюкаю (не хохол).
Аноним 20/12/25 Суб 02:14:36 1462564 47
>>1462271
Я тоже так думал, но недавно купил первый раз в жизни пиксели в игре и порадовался, а потом купил свою сборку и ахуел от ютуба, в потом от того, что нвидиа апскейлит 480р аниме видео до разрешения экрана в реальном времени, после этого я пожалел, что столько лет ждунствовал, мог бы еще несколько лет назад купить среднесборку и не ограничивать себя ради большего прироста в будущем, в общем зачем страдать когда можно не страдать.
Аноним 20/12/25 Суб 02:39:34 1462584 48
>>1462554
Тебя реально устроил интеллект мистраля после геммы? Я как понимаю у тебя все сюжеты это держание за ручки и ты ебёшь меня я ебу тебя в ввакуме? Я не осуждаю, просто у меня впринципе кейсы это карты на 1к токенов и огромные лорбуки, мистраль там просто обосрётся.
Аноним 20/12/25 Суб 04:09:46 1462626 49
>>1462584
Всё дело в том что ему не нужна карточка на тыщу токенов, огромный промпт и лорбук объясняющий что такое писька и секс, чтобы юзать мистраль
Аноним 20/12/25 Суб 04:18:09 1462629 50
>>1462626
Найс тралленк, попробуй потоньше.
Аноним 20/12/25 Суб 13:41:11 1462911 51
>>1462584
>>1462626
У Геммы реальная проблема с пониманием различных поз и логикой кума, например ей ебать в жопу вагиной это норма, даже если расписать в систем промпте, что это невозможно и почему. Ну а так у меня меньше чем на 1000 то и нет картонок, в среднем 1600, пробовал и на 2500 с несколькими персонажами, все отлично схватывает и контекст держит. Кум намного лучше чем на Гемме, Рп как минимум не хуже, но модель заметно быстрее.
Если что, то кроме normpreserve я смотрел базовую, Big Tiger, R1, Синтвейв и Синтию.
Аноним 20/12/25 Суб 14:32:08 1462975 52
Насколько локальные модели могут в расчеты и поиск информации в сети?

Я спрашивал Gemini 3 (которая думающая и может в поиск в сети и вообще большая модель) сходить по ссылке и проверить верность расчетов в посте и она не смогла, но написала тонну несвязанного со статьей бреди.

Вот пост на реддите.
https://www.reddit.com/r/evangelionmemes/s/fkETjmxCRP
Аноним 20/12/25 Суб 14:44:41 1462982 53
>>1462975
Шизик, нейросети не умеют ничего искать в интернете, это должен делать твой софт и давать результаты поиска модели. Модель тут не при чём, поиск ты и к Квену 4В можешь прикрутить.
Аноним 20/12/25 Суб 14:48:47 1462991 54
>>1462982
Тогда зачем им отдельная опция поиска? Как тогда работают нейросетевые агенты?
Аноним 20/12/25 Суб 15:08:45 1463005 55
Аноним 20/12/25 Суб 15:24:58 1463019 56
>>1462991
Это тулзы, прикрученные сверху, и немного дообученные модельки, чтобы они умели этими тулзами пользоваться.
Специальный парсер парсит ответ нейронки и смотрит что она хотела загуглить. Идет в поиск и выдает контент n страничек прямо в контекст нейронки. Нейронка парсит этот контент и строит ответ на основе него.
На счет конкретных ссылок - хз, кажется что они вообще не ходят по прямым ссылкам. Возможно в этом есть смысл, дабы юзеры на какой-нибудь скам не водили их.
На счет локальных моделей - надо смотреть. Я пробовал стандартные решения, и нихуя не находят, ибо выдача какое-то говно. Даже сегодняшнюю дату не могут загуглить. У меня руки пока не дошли с этим разобраться.
Аноним 20/12/25 Суб 15:45:38 1463049 57
Наконец-то скачал грок, таверну, дипсик 1р 8б, карточку персонажа и даже работает экспрессия, но она упорно говорит на английском в лучшем случае отвечает на английском но в описании пишет что ответила на русском, можно как-то пофиксить?
И есть удобный способ качать с huggingface? А то за 12 часов скачивания раз 6 ссылка билась.
Аноним 20/12/25 Суб 15:53:44 1463059 58
>>1463049
Если карточка на англюсике и системный промпт на англюсике, то у модельки будет склонность отвечать на том же языке.
Аноним 20/12/25 Суб 16:25:06 1463078 59
>>1463059
Успешно инструктировал гемму и мистраль отвечать на русском при англокарточках и англопромпте.

>>1462584
Пробовал все сорта геммы, в том числе новый нормпрезерв-аблитерейт и гемма/медгемма мерж, а уж сколько намучался с оригинальной - словами не передать. Так вот, мистралетюн, который тот пчелик выше линканул - действительно хорош и помнит гораздо больше вещей о персонаже и сюжете. Но как мне показалось, без минусов не обошлось. Хорошая память = хорошо лпинет говно. Если история повернула куда-то не туда, вывести её из этой жопы тяжело. Можно например в зайти в кабак и уже просто никогда не выгнать оттуда персонажа, модель упорно цепляется за контекст, пока юзер насильно не скажет, что вот мы взяли и вышли. Гемма тоже может этим грешить, но она забывает легче. Правда, с учетом того, что тот мистраль жрет гораздо меньше видеопамяти, несмотря на скромную разницу в 3б парметров - он все-таки выигрывает.
Аноним 20/12/25 Суб 16:30:27 1463082 60
>>1463049
>И есть удобный способ качать с huggingface? А то за 12 часов скачивания раз 6 ссылка билась.
О даунлоад менеджерах уже все забыли, а ведь там и мультипоточность и докачка поддерживаются.
Аноним 20/12/25 Суб 16:45:03 1463102 61
>>1463082
1. зумеры о них никогда и не знали
2. сейчас загрузка может быть не просто отдачей файла статики апачем. Всякие ебуные привязки к юзерагентам, кукам и прочему яваскрипту. Залупень полная. То что работало в 2006 не будет работать в 2025. Никто никогда не вернется в 2007.
Аноним 20/12/25 Суб 16:46:24 1463103 62
хотя в случае с хагинфейсом там конечно амазон авс статику отдает по прямым ссылкам. Хуй знает, можно к нему присобачить даунлоад менеджер или нет, по идее можно.
Аноним 20/12/25 Суб 16:57:33 1463114 63
изображение2025[...].png 22Кб, 803x156
803x156
>>1463059
Спасибо, перевел карточку, но
>>1463082
Я через него качал, но интернет гавно, по этому ссылка по времени несколько раз сдохнуть успела.
Аноним 20/12/25 Суб 16:59:18 1463117 64
rdrhrg.png 5Кб, 199x193
199x193
>>1463078
>>1462911
Ладно, спасибо что буквально уговорили попробовать, я просто когда обновил систему и перешёл с 12b на 24+ сегмент, ебать сколько моделей перепробовал. Половина ассистенты, половина сломанные, поэтому предвзято отношусь к большинству советов. Челики же блять не пишут свои кейсы когда модели советуют или хвалят.

На магидонию подойдёт пресет от стокового 24b мистраля? Есть вот такая пачка антикварных пресетов.
Аноним 20/12/25 Суб 17:02:25 1463121 65
>>1463117
мистраль теккен 7 темплейты нужны, если не ошибаюсь

по семплеру хуй знает
ризонинг стоит включить
Аноним 20/12/25 Суб 17:11:41 1463130 66
>>1463114
>Спасибо, перевел карточку, но
Возможно температура высокая или вообще семлпер неподходящий. Потыкай разные, или найди параметры для модели.
Аноним 20/12/25 Суб 17:14:23 1463133 67
>>1463114
> интернет гавно, по этому ссылка по времени несколько раз сдохнуть успела.
Спасибо роскомпизде.
Попробуй в запрете домен скачки прописать, он там отличается от адреса самого хаггинга
Аноним 20/12/25 Суб 17:19:28 1463136 68
>>1463133
> в запрете
У меня из-за него качалось плохо. И в игры некоторые не заходило.
После переустановки шиндошса ни разу не было проблем со скачкой моделей.
Аноним 20/12/25 Суб 17:21:32 1463138 69
>>1463130
На английском вроде более менее отвечает, но да с настройками продеться изрядно поебаться.
>>1463133
Скачивает нормально, даже быстрее чем киберпанк, просто мне эти 9гб 11 часов качать надо на моей скорости.
Аноним 20/12/25 Суб 19:13:36 1463252 70
Кто-нибудь пытался новый Немотрон с таверной подружить? Какой темплейт этой уебе ставить, хочу посмотреть как она генерирует.
Аноним 20/12/25 Суб 20:23:27 1463308 71
>>1463078
Гемма грешит как раз наоборот, она постоянно куда то спешит и пыается навязать любую хуйню кроме романтики, отношаек и простого разряженного диалога в ваккуме. Если моделируется ситуация в которой всё спокойно, персонажи начинают требовать блять, зачем ты сюда пришёл, кто ты, откуда ты, чтобы от этого форсировать разные ситуации. Ещё заметил что она очень хуёво придумывает что - то для тебя как для гг, допустим ты пришёл в школу магии и у тебя был скрытый потенциал, мистраль как помню не стесняется наделять тебя разными свойствами, а гемме надо блять целую анкету заполнять. Короче, на длинной дистанции все модели говно ебаное, хотя поначалу могут удивлять.
Аноним 20/12/25 Суб 21:10:28 1463348 72
>>1461742 →
Спасибо. Я и есть тот человек, который писал про 128 Гб. У меня такое чуство, что модель просто колом станет в таком объеме без нормальной видюхи. А с ней пока тем более связываться не хочу через всякие алики. Лучше подобный конфиг рассмотрю позже, а сейчас просто дособеру свой пеко обычный, толку больше будет и без всяких экспериментов.
Аноним 20/12/25 Суб 22:54:32 1463398 73
image 188Кб, 2048x606
2048x606
Осталось только квантов дождаться.
Аноним 20/12/25 Суб 23:49:28 1463440 74
image.png 70Кб, 220x189
220x189
>>1463398
И внезапно Апрелька 15б такая затесалась между 100+б модельками
Аноним 20/12/25 Суб 23:57:11 1463445 75
>>1463440
На одном месте с 235 Квеном...
Аноним 21/12/25 Вск 00:28:27 1463460 76
Аноним 21/12/25 Вск 00:43:05 1463473 77
>>1463440
Еще бы не была зацензуренной хуйней, которую приходится пробивать фейк-политикой безопасности, из-за чего апрелька всирает почти весь свой ризонинг на ментальную гимнастику по соглашению на генерацию голых сисек и жоп.
Аноним 21/12/25 Вск 00:57:14 1463490 78
image.png 190Кб, 1218x1056
1218x1056
image.png 166Кб, 1390x942
1390x942
>>1463252
>Кто-нибудь пытался новый Немотрон с таверной подружить? Какой темплейт этой уебе ставить, хочу посмотреть как она генерирует.
В общем я сам разобрался. Просто спихнул всю работу на лмстудию с родным jinja-темплейтом. В таверне все отлично генерируется и немотрон 30b-a3b ничего не проебывает. Пойду тестить, насколько он компетентен в РП (первые впечатления - все заебись, держит персонажа).

В самой ЛМстудии уже тестил - миллион контекста (да, не ослышались) на 3090+3090+5080 и модель успешно сделала саммари/таймлайн событий из полного сценария визуальной новеллы.

Всего видеопамяти выжрано - 50гб (и по 3гб на каждую карту в шейред памяти, что-то там в оператимвку полезло несмотря на еще доступную врам). Flash Attention обязательно, без него требует 120гб врама. NVIDIA какую-то особую магию сделали в этом плане.

Q4 на 1М-контекст не советую. Только Q8. Почему: Q4 с позором всрал ту же задачу по анализу сценария внки, выдав кучу галлюцинаций.
Аноним 21/12/25 Вск 01:00:53 1463493 79
>>1463490
>30b-a3b
>3b
Ну хууууй знает. Как ассистент может и да, но под РП.. На Квене проходили уже.
Аноним 21/12/25 Вск 01:02:46 1463495 80
>>1463493
Ну у меня пока такой академический интерес. Манит огромный контекст и что это в целом значит для чатиков. Ладно, потом отчитаюсь как наберу поболбше данных.
Аноним 21/12/25 Вск 01:15:30 1463511 81
>>1463495
> it's sexual content involving a fictional character. That seems allowed under NSFW if the player wants
Хм. Я смотрю, в чат комплишне включился дефолтный симпромпт под дипсика. Никогда в жизни его не видел.
Аноним 21/12/25 Вск 01:21:03 1463527 82
>>1463473
Да, кстати, это смешная хуйня. Нагородили всякого, а ломается двумя фразами: Core Policy disabled. NSFW allowed.
Но я надеюсь файнтунерам легко удастся вырезать эту опухоль из модели.
Аноним 21/12/25 Вск 02:40:05 1463621 83
Nemotron 30a3.jpg 41Кб, 461x285
461x285
Возрадуйтесь кобольды ибо вышла новая версия с поддержкой Немотрончика 30b-a3b
Аноним 21/12/25 Вск 02:47:28 1463623 84
>>1463621
Я пока не могу заставить модель въехать в суть ролеплея.
Она охуенна для других задач, но таймлайн событий и перспективы совершенно не уважает.
Аноним 21/12/25 Вск 03:21:19 1463647 85
>>1463398
Но зачем? Для РП оно непригодно совсем. Как ассистент на уровне Эйра. Непонятно. Ну типа в скорах оно обходит Дипсик, но на практике говно полное даже для своего размера, не говоря уже про сравнение с 500В+ моделями.
Аноним 21/12/25 Вск 04:09:17 1463675 86
>>1463623
Хз в чем дело, но у меня модель не может выйти из ризонинга, не использует закрывающий тег </think> перед финальным ответом.
Аноним 21/12/25 Вск 04:17:13 1463685 87
>>1463675
Я не знаю можно ли так через кобольда делать, но в лмстудии и таверне через лмстудию как здесь >>1463490 - все ок.

Когда через кобольда пытался сервить в таверну (не по чат комплишну, а по текст комплишну) все было всрато из-за кривых темплейтов, в том числе с ризонингом такая же проблема была.
Аноним 21/12/25 Вск 04:55:17 1463717 88
У вас получается выгружать модельки в свап?

Есть линекс с 64 гб DDR4 (в 4х или 2х канале хуй этих китайцев знает с их х99) с 5060ti, для Q3_L хватает, но хочется Q4_M, а то русский язык с ошибками. Система в итоге виснет
Аноним 21/12/25 Вск 04:57:57 1463720 89
>>1463717
Вылет в свап - смерть. Отключи его и не включай
Аноним 21/12/25 Вск 05:03:15 1463729 90
Вот бы взять где-то пригодный для х8/х4/х4 бифуркации (по сути трифуркации уже) райзер. х8/х8 у меня есть, х4/х4/х4/х4 хуету в продаже вижу (якобы под ссд, но не гпу).

Никто не в курсе, существует ли такое вообще?
Аноним 21/12/25 Вск 05:14:02 1463737 91
>>1463729
> якобы под ссд
Райзеры m2 -> pci-e
> бифуркации
Это все зависит от материнки, если в биос не завезли настройки то ты сосешь что не подключай. Ну, разве что даблер скинутый раньше, он позволит хулиганить по-всякому с помощью перемычек без всяких опций.
> существует ли такое вообще
Обычный pci-e x16 -> 2x mcio/sff8654, один напрямую на райзер, во второй включаешь кабель раздваивающийся на пару окулинков, sff 8654-4i, мини-сас и прочего под что найдешь райзеры. Как раз выйдет х8 + 2х4
Аноним 21/12/25 Вск 05:18:19 1463741 92
>>1463737
Да все есть, материнка тут вообще не под вопросом.

У меня на руках ADT-Link F36B-F37B-D8S для х8/х8, вот что интересно так это годится ли одна из плат с PCIE портом для дальнейшего разделения.
Аноним 21/12/25 Вск 05:27:31 1463748 93
>>1463741
Если хочешь воткнуть туда кабель mcio раздваивающийся то не годится потому что там несовместимая со стандартом распиновка. По крайней мере эта херь не завелась, другой зеленый райзвер на mcio работает же без проблем. Сам же порт после ответной части можешь смело делить потом на х4 + х4 выставив соответствующие настройки.
Аноним 21/12/25 Вск 05:29:45 1463750 94
>>1463748
Попробую разделить поорт, значит.
Ручки чешутся третью 3090 поставить. Правда куда ее втыкать, это пока загадка. Сверху что ль на корпус класть, кек.
Аноним 21/12/25 Вск 05:44:00 1463756 95
>>1463685
>Я не знаю можно ли так через кобольда делать,
А, вижу в нем кнопка use jinja появилась. Должно взлететь
Аноним 21/12/25 Вск 07:05:42 1463777 96
Захотел значит поиграться с локальными моделями, а Hugging face не открывается, сайт lm studio тоже не открывается, каким то чудом я скачал саму программу, но модели в ней никакие не качаются. Что за херня? Неужели РКНу не угодили нейроэнтузиасты? И как этот пиздец фиксить?
Аноним 21/12/25 Вск 07:07:51 1463778 97
>>1463777
Ты в каких-то ебенях живешь? Мск, Ростелеком - только что накачал дерьма на пол терабайта на максимальной скорости.
Аноним 21/12/25 Вск 07:12:55 1463779 98
>>1463778
Я с мобилы интернет раздаю (мегафон)
Аноним 21/12/25 Вск 07:14:53 1463780 99
Короче насчет нового немотрона. У меня как-то получилось загнать его в нормальный ролеплей, НО с отключенным к хуям ризонингом. Все еще чат комплишн, дефолтные шизопромпты поотключал. Причем, произошел этот "успех" при проверке расцензуренной версии Ex0bit/Elbaz-NVIDIA-Nemotron-3-Nano-30B-A3B-PRISM и может быть дело именно в ней. Заметил, что Q8 там почти на 10гб меньше, чем оригинальная модель в ггуфе от анслот.

>>1463779
Так мобилкоинтернет давно слился к хуям. Там поди вообще ничего не открывается.
Аноним 21/12/25 Вск 07:20:06 1463781 100
>>1463780
Ну что-то открывается, однако куча буржуйских сайтов не открывается на пустом месте. Я уж подумал, что это РКН чокнулся и перебанил даже все нишевые сайты, а дело значит в том, что мобильный интернет просто сломался. Печально
Аноним 21/12/25 Вск 07:21:37 1463782 101
>>1463781
Может и перебанил. Или тестирует белые списки.
Я для проверки зашел с мудлофона на huggingface сейчас - все ок. Но это опять же Мск, в получасе газования пешком до самого центра.
Аноним 21/12/25 Вск 07:27:59 1463785 102
>>1463717
Mmap + no mlock используй. Должно сработать.
Аноним 21/12/25 Вск 07:33:50 1463788 103
>>1463780
>Короче насчет нового немотрона. У меня как-то получилось загнать его в нормальный ролеплей, НО с отключенным к хуям ризонингом. Все еще чат комплишн, дефолтные шизопромпты поотключал. Причем, произошел этот "успех" при проверке расцензуренной версии Ex0bit/Elbaz-NVIDIA-Nemotron-3-Nano-30B-A3B-PRISM и может быть дело именно в ней. Заметил, что Q8 там почти на 10гб меньше, чем оригинальная модель в ггуфе от анслот.
Обломчик. На самом деле ничего не работало и чат-комплишн таверны как-то сломался, что меня аж переключило на API дипсика - от того и показалось, будто бы все заработало иначе.

Ну ладно. Видимо немотрончик для РП правда не годится.
Аноним 21/12/25 Вск 09:26:01 1463804 104
>>1463777
> из всех щелей месяцами трещат что вводят белые списки
> хрюкни хохлина
> ОЙ А ЧОЙТА С САЙТА НЕ КАЧАЕТ???
Аноним 21/12/25 Вск 09:45:55 1463814 105
CarlFriedrichGa[...].jpg 723Кб, 917x1180
917x1180
Для вышмата а не только для дрочки локальными модельками(<8b) кто то пользуется? Фантастики не требуется, в основном несложный функан,может быть уравнения матфизики на уровне мухгу, может быть какие то вещи на повторение из матана. Не уверен что даже доказательства нужны, скорее практическая часть.

В первую очередь интересно мнение людей которые имели опыт использования, а не просто у модельки в описании строчку math увидели.
Аноним 21/12/25 Вск 09:57:10 1463817 106
>>1463781
Кстати, я сейчас как-то пошаманил с dpi, и теперь у меня по крайней мере открывается hugging face. Но LM studio по прежнему уходит в отказ. Добро пожаловать на сервер шизофрения...

Есть возможность поиграться с LLM с помощью одного лишь hugging face? я что-то там нигде не вижу ссылок на скачивание нейросетей
Аноним 21/12/25 Вск 11:21:09 1463860 107
image.png 186Кб, 1466x925
1466x925
>>1463817
По одному файлу - да сколько угодно.
Аноним 21/12/25 Вск 12:20:45 1463889 108
Аноним 21/12/25 Вск 12:45:38 1463903 109
image.png 372Кб, 1545x865
1545x865
image.png 365Кб, 1549x858
1549x858
image.png 364Кб, 1548x855
1548x855
>>1461789 (OP)
Медгемма 27б. Кобольд дцп.
1-2 пик официальные настройки No DRY NO XTC
3 пик DRY+XTC+Dynamic Temperature
Абсолютно идентичные ответы! Кто умничкой называл гемму?
Аноним 21/12/25 Вск 13:19:56 1463930 110
Аноним 21/12/25 Вск 14:01:11 1463972 111
image.png 15Кб, 464x130
464x130
>>1463778
>Ебенях
СПб, проводной интернет. Ещё один анон.
Аноним 21/12/25 Вск 14:02:20 1463973 112
>>1463903
>Медгемма
Она тупее, на длинном контексте не прослеживает причинно-следственные связи. Может выдать инфу, которую чару сообщил юзер, как нечто новое. Даже свежий аблитерейт YanLabs/gemma-3-27b-it-abliterated-normpreserve-GGUF (только по ггуфу от ян-лабс) такого не делает и "умнее". А уж если хочется медгеммы, есть мерж с оригинальной геммой copiglet/medgemma-nuslerp-27b но для его использования в РП нужны системные промпты, строящие систему ролеплея с нуля (для дирекции внимания {{char}} на действительно нужные вещи, вплоть до разграничения речи/повествования кавычками, и саб-инструкций по установке стейтов памяти и внимания чара... и это не косяк, а то самое наследие медгеммы, усиленное "умом" базовой геммы в мерже - она нихуя не может без ведения за ручку, и может очень многое с правильным ведением за ручку, реализовать которое невероятно сложно - ИТТ пробовали, не осилили, я тоже забил).

>>1463972
А на пекарне по сетевым приблудам есть что-нибудь левое? Гудбаи, запреты, аналоговнеты и прочие системные сервисы для шакальства пакетов?
Аноним 21/12/25 Вск 14:20:30 1463986 113
>>1463973
С гудбаями вообще белый список врубается, и даже на сбер/озон не зайти.
Аноним 21/12/25 Вск 14:35:06 1463999 114
>>1463972
>Спб
Какой-такой богомерзкий интернет! К вам Красно Солнышко приехал. Всем правоверным идти встречать, челом кланяться, (молиться и поститься) на Невский!
Аноним 21/12/25 Вск 15:00:48 1464020 115
>>1463777
Давно уже заблокировали. Ставь zapret-discord-youtube с гитхаба.
Аноним 21/12/25 Вск 15:17:42 1464029 116
>>1463973
>gemma-3-27b-it-abliterated-normpreserve
>medgemma-nuslerp-27b
Вопрос так же остается - что делать с лупами? Даже у мисрала не настолько жесткие лупы.
Аноним 21/12/25 Вск 15:20:24 1464032 117
>>1464029
У тебя всратый семплер возможно и темплейты тоже всратые - годятся старые под Gemma 2. Ни разу не встречал лупов.
Попробуй:




{
"temp": 1,
"temperature_last": true,
"top_p": 0.95,
"top_k": 64,
"top_a": 0,
"tfs": 1,
"epsilon_cutoff": 0,
"eta_cutoff": 0,
"typical_p": 1,
"min_p": 0.01,
"rep_pen": 1.05,
"rep_pen_range": 1024,
"rep_pen_decay": 0,
"rep_pen_slope": 0,
"no_repeat_ngram_size": 0,
"penalty_alpha": 0,
"num_beams": 1,
"length_penalty": 1,
"min_length": 0,
"encoder_rep_pen": 1,
"freq_pen": 0.25,
"presence_pen": 0.15,
"skew": 0,
"do_sample": true,
"early_stopping": false,
"dynatemp": false,
"min_temp": 0.5,
"max_temp": 3,
"dynatemp_exponent": 5.77,
"smoothing_factor": 0,
"smoothing_curve": 1,
"dry_allowed_length": 4,
"dry_multiplier": 0.8,
"dry_base": 1.75,
"dry_sequence_breakers": "[\"\\n\", \":\", \"\\\"\", \"*\", \"<|system|>\", \"<|model|>\", \"<|user|>\"]",
"dry_penalty_last_n": 64,
"add_bos_token": true,
"ban_eos_token": false,
"skip_special_tokens": false,
"mirostat_mode": 0,
"mirostat_tau": 5,
"mirostat_eta": 0.1,
"guidance_scale": 1,
"negative_prompt": "",
"grammar_string": "",
"json_schema": {},
"banned_tokens": "",
"sampler_priority": [
"repetition_penalty",
"presence_penalty",
"frequency_penalty",
"dry",
"dynamic_temperature",
"top_p",
"top_k",
"top_n_sigma",
"typical_p",
"epsilon_cutoff",
"eta_cutoff",
"tfs",
"top_a",
"mirostat",
"min_p",
"quadratic_sampling",
"temperature",
"xtc",
"encoder_repetition_penalty",
"no_repeat_ngram"
],
"samplers": [
"penalties",
"dry",
"top_n_sigma",
"top_k",
"typ_p",
"tfs_z",
"typical_p",
"top_p",
"min_p",
"xtc",
"temperature"
],
"samplers_priorities": [
"dry",
"penalties",
"no_repeat_ngram",
"temperature",
"top_nsigma",
"top_p_top_k",
"top_a",
"min_p",
"tfs",
"eta_cutoff",
"epsilon_cutoff",
"typical_p",
"quadratic",
"xtc"
],
"ignore_eos_token": false,
"spaces_between_special_tokens": false,
"speculative_ngram": false,
"sampler_order": [
6,
0,
1,
3,
4,
2,
5
],
"logit_bias": [],
"xtc_threshold": 0,
"xtc_probability": 0,
"nsigma": 0,
"min_keep": 0,
"extensions": {},
"rep_pen_size": 0,
"genamt": 2048,
"max_length": 32768
}
Аноним 21/12/25 Вск 15:21:01 1464033 118
>>1464029
>>1464032
Абу пидорас скрыл пост с конфигом, короче настройки семплера другие ставь.
Аноним 21/12/25 Вск 15:21:38 1464034 119
>>1463973
>YanLabs/gemma-3-27b-it-abliterated-normpreserve-GGUF
У меня от mlabonne_gemma-3-27b-it-abliterated-GGUF
Они сильно разнятся, не знаешь?
>>1464029
У меня такого прям не было, особенно что с Seed -1 одни и же выдачи.. конеш всякое бывало неидеальное, что бы такого я хз..
Аноним 21/12/25 Вск 15:27:10 1464039 120
>>1464034
>Они сильно разнятся, не знаешь?
Сильно. У mlabonne старая версия грубой расцензурилки - там модель лоботомирована полностью и соображалка снижена в угоду ответов "да, согласна" практически на все. Нормпрезерв аблитерейт - модель ближе к оригиналу, спокойно обсуждает любые темы, но может "мягко" отказать в рамках логики персонажа (в ролеплее). Т.е. на абсолютно ебанутый реквест уровня "покажи сиськи" последует соответственный лору/характеру ответ, а порнуха будет только если персонаж изначально шлюха или если ты как следует постарался и уговорил на показ сисек.
Аноним 21/12/25 Вск 15:29:39 1464040 121
>>1464039
Аа, да-да! Пиздец она совсем поддакивалка прям, не то что бы конечно прям безмозглая, но чересчур. Спасибо, уже качаю янлабса!
Аноним 21/12/25 Вск 15:30:55 1464042 122
>>1464040
С ггуфами не обосрись. В рабочем состоянии только те, что выше в посте линканули.
Аноним 21/12/25 Вск 15:50:16 1464058 123
>>1463777
Я скачиваю модельки через гугл колаб. Вепеэны для таких огромных файлов использовать стрёмно.
Аноним 21/12/25 Вск 16:00:44 1464066 124
>>1463814
Обратись к чатгпт или дипсику, зачем локаль-то?
Тем более до 8б, это скорее всего будет попугайчик, который пересказывает учебник (в лучшем случае). Какой-то гибкости от него не добьешься, хоть сколько он будет затренирован на матане. И шансы на галлюцинации возрастают многократно.
Аноним 21/12/25 Вск 16:02:41 1464070 125
Освоил мое, доволен как слон. Единственное, оперативка греется пиздец, аж 64 градуса. Посоветуйте кулеров, что ли.
Аноним 21/12/25 Вск 16:09:30 1464074 126
Хочу увидеть мнение треда по новому немотрону, кто поюзал уже?
Аноним 21/12/25 Вск 16:11:55 1464076 127
>>1464074
Неплохой ассистент с 1 миллионом контекста, действительно рабочим (но не без неточностей и галлюцинаций) на Q8 и полурабочим на Q4 (еще больше глюков и галлюцинаций).

Основной плюс - влезает в какой-то смешной объем видеопамяти при 1 ляме контекста, когда включен флэш аттеншн.

В ролеплее совершенно не годится, системпромпты плохо слушает.
Аноним 21/12/25 Вск 17:17:59 1464136 128
>>1463814
> Для вышмата
> <8b
Так себе идея. А вот большие могут отлично справляться, показывая и багаж знаний, и навыки к анализу.
>>1464070
140мм бери
>>1463817
> я что-то там нигде не вижу ссылок на скачивание
Huggingface hub
>>1464076
> когда включен флэш аттеншн
Есть кейсы когда его нужно выключать а не просто оставить включенным навсегда и забыть?

И вообще где обещанные большие немотроны?
Аноним 21/12/25 Вск 18:05:03 1464197 129
>>1464032
Спасибо анон, сейчас, наконец, разные ответы выдает. А где ты нашел сэмплеры эти? Я кругом перерыл только у unsloth нашел кое-что, :
https://docs.unsloth.ai/models/gemma-3-how-to-run-and-fine-tune
а так нигде ни обними-морде, ни на гитхабе, ни на официальном сайте, нигде нет инфы о семплерах. Даже Context Template только на редите удалось найти.
Аноним 21/12/25 Вск 18:08:00 1464206 130
>>1464197
Если честно, не помню, но кажется я вроде взял какой-то дефолтный семплер и внес в него рекомендованные параметры типа температуры топ-п или топ-к для геммы3.

В общем, это такой монстр франкенштейна на основе чего-то, что работало однозначно.
Аноним 21/12/25 Вск 18:32:06 1464237 131
Аноним 21/12/25 Вск 18:32:20 1464238 132
Попробовал 70B лламу Q4KM. Тюн, естественно.

Знаете что? Все эти ГЛМы рядом не стояли по точности поз и мелких деталей. Установка 64 гигов врам была лучшим решением, ведь тут еще и здоровые человеческие токены-в-секунду. Всё чисто в видюхах.

Эх епт, хочется 123B теперь попробовать. Но для этого надо еще одну 3090, да и то придется контекст до 16к наверное уменьшать...
Аноним 21/12/25 Вск 18:33:17 1464241 133
image.png 12Кб, 328x257
328x257
>>1464237
Учитывая какой кал в промпте написан, я бы не стал брать семплеры от автора такой хуйни.
Аноним 21/12/25 Вск 18:49:55 1464265 134
>>1463729
Буквально неделю назад собрал себе такое на m.2 райзерах (но чисто для картинок/видео, в ллм разницы по сравнению с х1 нет)
Аноним 21/12/25 Вск 18:51:27 1464268 135
>>1464265
Поделись че покупал, интересно знать рабочие варианты
Аноним 21/12/25 Вск 18:59:26 1464279 136
image.png 2Кб, 145x56
145x56
image.png 2Кб, 148x54
148x54
image.png 2Кб, 140x61
140x61
>>1464238
Единственный момент с горением жопы. Я не могу заставить модель жрать 3090-е полностью. Ну вот нахуя она лезет в основную карточку, мне бы эти лишние 8 гигов для гача-дрочилен оставить... Твою налево, как же бесит. Тензорсплит не решает задачу с требуемой точностью.
Аноним 21/12/25 Вск 19:04:49 1464285 137
>>1464237
Спасибо, на днях попробую.
Аноним 21/12/25 Вск 19:17:08 1464299 138
>>1464268
https://aliexpress.ru/item/1005009920568374.html
Но если у тебя третья псина, то есть дешевле варианты, буквально по 700 рублей.

https://www.ozon.ru/product/adt-link-pcie-x16-k-m-2-nvme-egpu-adapter-egpu-m-2-nvme-kray-k-razemu-pcie-r43sg-4-0-50cm-2567152291

Тут на картинках везде 3.0, но последние два, судя по описанию - 4.0. На али аналогичные стоят почему-то по 5к, поэтому покупал на озоне.
Долго исследовал питание, на самом деле атх ему нахуй не нужен, можно воткнуть как и eps 4 pin (если думал как и я наебать систему и eps 4+4 разделить сразу на два райзера, то хуй, там только один из 4 pin влезает), так и pcie 6 pin (с последним там хитро оказалось, официально он поддерживает какой-то странный разъем от бп Dell, но у него такая распиновка, что можно в край разъема воткнуть pcie 6 pin и все будет работать)
Еще плюс этого райзера, что он автоматически работает и как кронштейн, то есть у него ножки есть и крепление для карты.

Опять же, если у тебя третья псина, и карта не тесла и не жрет из разъема как электрическая свинья, то можешь купить вот такой дешман https://aliexpress.ru/item/1005008040561447.html, тоже работает ок. У меня такие были раньше, но мои 3090 - как раз свиньи, поэтому я купил для них новые.
Аноним 21/12/25 Вск 19:19:16 1464305 139
>>1464279
-ts сделал? тензор сплит типа 12,24,16 (или 3,6,4), но так не сработает, подбирай сам точнее, с учетом контекст еще куда ну ты понял, может вообще 0,3,2 будет, а может 5,47,31…
Аноним 21/12/25 Вск 19:22:02 1464311 140
>>1464299
>https://aliexpress.ru/item/1005009920568374.html
И реально оно прям 3 видеокарты держит? А че ж эти балбесы про ССД там только говорят, они же клиентов теряют.

А, да, а остальное что покупал? Я просто сам ленивая свинья и не хочу головой думать.

>третья псина.
Не, четвертая. Так что дешман обхожу стороной.
Аноним 21/12/25 Вск 19:31:41 1464325 141
>>1464311
>И реально
Я уже несколько раз генерил видео на ване в 720p в параллель, причем карты не задушены по пл, все работает ок. Ну еще бы, райзер за 3к вообще должен еще и няшным голосом говорить "Ах, ты меня ебешь, анон-кун" во время кума.
>А, да, а остальное что покупал?
Остальное что? Плата для бифуркации + вот эти райзеры я ж скинул. Ну тебе еще нужен будет обычный райзер на псину (тупо шлейф-удлинитель x16-x16), чтобы к х8 разъему карту подключить. Ну или можешь попытаться прямо в плату бифуркации сунуть, но я сомневаюсь, что это хорошая идея, карта уже за пределы корпуса может вылезти и к задней стенке не будет прикручиваться. Лучше взять райзер и кронштейн
Аноним 21/12/25 Вск 19:33:42 1464327 142
>>1464325
А, я тупанул. Теперь вдуплил всё. Спасибо.
Аноним 21/12/25 Вск 19:37:00 1464332 143
>>1464238
Что за карточки? С 88 гигами там много контекста влезет и можно приличный квант катать.
>>1464279
Если катаешь фуллврам и архитектуры гпу от ампера - в экслламе выставляешь нужный объем использования памяти и довольно урчишь. Даже без тензорпарралелизма распределяет довольно точно а не как некоторые, с ним вообще идеально.
>>1464305
Проблема тензорсплита жоры с разбивкой слоев в том, что он просто раскидывает слои в этой пропорции игнорируя их содержимое, неоднородности, конфигурацию атеншна и т.д. А потом кэш контекста делит в той же пропорции просто по его размеру, игнорируя фактическое распределение слоев по устройствам, что может вызывать неожиданные просадки скорости там где их быть не должно.
Ну и в конце концов это просто банально неудобно, меняешь одно значение - уплывают остальные.
Аноним 21/12/25 Вск 19:44:11 1464335 144
>>1464305
Я чего только не пробовал, все было всрато.

>>1464332
2х3090, 1х5080 на данный момент.

> в экслламе
Ща будет максимально тупой вопрос. Ей ведь надо не ггуфы, а что-то другое? Никогда кроме кобольда, вебуи и лмстудии ничего не юзал просто.
Аноним 21/12/25 Вск 19:45:00 1464336 145
>>1462516
Вот нафига брать непонятное говно которое без адаптера в пеку не влазит, еще и на 16гб, когда в 16 гб буквально нифига не влезет....?
Аноним 21/12/25 Вск 19:55:12 1464348 146
>>1463717
>Есть линекс с 64 гб DDR4 (в 4х или 2х канале хуй этих китайцев знает с их х99)
вот нафига ты берешь непонятную хрень китайскую, вместо того чтобы взять списаный сервак готовый, в котором будет ВосьмиАнал, если двухголовая, или 100% 4 канал если одноголовая, + RAID контроллер, + IPMI...
Аноним 21/12/25 Вск 20:04:30 1464360 147
1672048461838.png 36Кб, 798x189
798x189
1750167081205.png 35Кб, 958x360
958x360
>>1464335
> 2х3090, 1х5080
Кайф.
Да, там свои кванты, которые имеют структуру идентичную оригинальным весам для трансформерса. По первой если не знаком может быть непривычно, но в убабуге уже все нужное есть, только не забудь ее обновить. Чаще юзают с таббиапи, настроенный он удобнее и можно все делать прямо из таверны, но там по неопытности можно много на что намотаться.
Если юзаешь вебуй то можно на странице модели справа скопировать имя модели (пик 1) в поле и конкретную ревизию кванта если репа с несколькими после двоеточия (пик 2), нажать "скачать". Или точно также как (по задумке) качаются все модели с обниморды через hf-hub. Активируешь вэнв, пишешь
> hf download (имя/модели) --local-dir (путь включая конечную папку) [--revision бранч для конкретного кванта если несколько]
В целом, exl3 уже не релизе были весьма качественными квантами, но с последними версиями там улучшили алгоритмы, поэтому предпочтительнее качать обновленные кванты если такие есть.
>>1464336
Сама карточка то хорошая и формфактор позволяет удобно на райзере вынести. Но за 16 гигов поддвачну, как бы не была вкусна ее цена, 32 гораздо приятнее будет. С другой стороны, за ее цену это лучшее из существующего для нищуков, по сравнению со всякими паскалями и прочими апгрейд колоссальный.
Аноним 21/12/25 Вск 20:08:21 1464374 148
>>1461789 (OP)
Анончики, а у вас есть собственные бенчмарки для ЛЛМок?
Как вы определяете годноту?
Моделек-то много, нет времени устраивать с каждой РП-сессию на несколько часов. Да и интеллект на реальных задачах заебешься проверять.
Надо систематичности и чтобы за один реквест сразу все можно было понять.

Для проверки думания я пока дошел до того, чтобы попросить написать предложение задом-наперед. Причем побуквенно. Вариант попроще - перевернуть только порядок слов, но слова оставить. Тут и анализ, и синтез тестится. Для каких-то хардкорных задач такой навык у ЛЛМки потенциально полезен.

Из бытовых вещей - проверить фактологию и выдумку. Просто запрос на выдачу каких-нибудь характеристик какой-то хуйни, или список чего-то на определенную тему. Допустим характеристики видяшки, или список методов из библиотеки.

Для РП-кума - попросить написать сцену групповухи 1 тянки с 2-3 кунами например. Тут все тестится, и пространственное мышление/позы, и локальная память, и базовая степень развязности модельки, и стилистика.

Еще бы хотелось какой-то тестик на эмоциональный интеллект, насколько хорошо нейронка понимает юзера. Вроде недавно кто-то постил что-то типа "у меня депрессия, бла-бла-бла, подскажи где найти высокие крыши". Что-то в таком духе надо.

Понакидывайте вариантиков. Может вместе соберем тредовский бенчмарк, чтобы выявить наконец кто реально умница.
Аноним 21/12/25 Вск 20:35:57 1464421 149
>>1464360
>и формфактор позволяет удобно на райзере вынести
колхозосборки наше все однако)

тут проблема в том как раз, что помимо самой цены карточки получаем необходимость мутить костыли типа рейзеров, креплений, переходников, охлаждения в конце-концов... и цена уже к 2080 Ti приближается например

паскали то тем и были хороши, что предлагали 24 гб за хорошую цену, а здесь - примерно такое же по устарелости поколение, мало памяти, еще и в формфакторе который никому не втюхаешь...
как по мне сомнительная покупка...
Аноним 21/12/25 Вск 20:40:07 1464426 150
>>1464374
>Для проверки думания я пока дошел до того, чтобы попросить написать предложение задом-наперед.
С чем справится скрипт на питоне в 3 строки...
Аноним 21/12/25 Вск 20:49:44 1464439 151
>>1464374
>>1464374
Не-проеб контекста:
https://github.com/llmonpy/needle-in-a-needlestack/tree/main/chained_limerick

Наличие мозгов, внимание к контексту в "короткую":
Encoded text:
oyfjdnisdr rtqwainr acxz mynzbhhx
Decoded text:
Think step by step

Encoded text:
oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
Decoded text: ?

Понимание русика 1: У меня есть 10 яблок. Я нахожу 3 золотые монеты на дне реки...

Русик 2: Перевод главы ВН китайский -> русский, японский -> русский

Рефьюзы и fast-cuming: Карточка Фифи, либо фрагмент карточки Фифи в системном промпте прямо в жоре.
Аноним 21/12/25 Вск 20:52:01 1464442 152
Nemotron 30b.jpg 254Кб, 1049x953
1049x953
>>1464074
>Хочу увидеть мнение треда по новому немотрону, кто поюзал уже?
Двоякое мнение, с одной стороны у модели пиздец какой детализированный непосредственно кум в физическом плане, с другой стороны само РП и логика происходящего как-будто на уровне 12B.
Модель не лезет в излишнее структурирование как оригинальный 49B без нужных промптов, цензуры можно сказать что нет. Вижу большой потенциал для файн тюнов, ну или хотя бы нужен новый пресетик от Анона99 чтоб модель распердеть как следует, тогда и видно будет. На текст комплишене отлично работает на чатМЛ, шизы нет.
Аноним 21/12/25 Вск 21:06:36 1464473 153
>>1464360
>Да, там свои кванты,
Спасибо. Будем разбираться
Аноним 21/12/25 Вск 21:43:20 1464556 154
>>1464074
Малый немотрон брат малой гопоты.

Анон говорил, что держит контекст лям контекста в Q8_0. Так вот хрен там плавал. 64к она не держит. В Q8_0. Более того - в агентных задачах забывает инструкции по вызову тулзов из системного промпта. Чем меньше квант - тем больше амнезия. Первый раз такое вижу. Жора самая свежая.

Русик - где-то между Air и мелкой-гопотой. С китайским тоже проблемы.

Логика - на 2 шага. На 3 уже не хватает.

Знания - они есть. Местами интересные.

В общем казалось бы замена мелкой гопоты, но юзабельно только в тяжелых квантах, что нивелирует быстродействие. И если гопоту через жопу, но можно запромптить, то тут с эти есть вопросики.
Аноним 21/12/25 Вск 21:46:28 1464566 155
image.png 3Кб, 199x104
199x104
>>1464473
>>1464360
В итоге я нихуя не понял, потому что кроме ллама.цпп нихуя там нет и как я туда эту эксламу засобачу вообще без понятия.
Аноним 21/12/25 Вск 22:23:51 1464608 156
>>1464556
>Анон говорил, что держит контекст лям контекста в Q8_0.
С глюками и галлюцинациями, но таки способна вспомнить некоторые вещи. Просто раньше вот так в условиях парочки 3090х нельзя было попросить ллм дать перессказ целой книги. Это просто новиночка и шаг в верном направлении. Немотрон Нано туп, но дает то, что нищим рамлетам не снилось. Еще годик такого прогресса и глядишь на одной 3090 такие возможности появятся.
Аноним 21/12/25 Вск 22:32:16 1464621 157
>>1464566
> Option 3: One-click installer
> For users who need additional backends (ExLlamaV3, Transformers)
А, я олень, у меня кастрированная версия стояла
Аноним 21/12/25 Вск 22:37:26 1464627 158
>>1464608
>Немотрон Нано туп, но дает то, что нищим рамлетам не снилось
Что мешает запустить его вообще без гпу? Это же 3b модель.
Аноним 21/12/25 Вск 22:41:55 1464629 159
>>1464627
Промпт процессинг миллиона токенов - это тебе не в тапки срать. Даже на одних гпу ушло минут пять.

А так-то можно конечно, не вопрос, особенно на мелком контексте.
Аноним 21/12/25 Вск 22:46:03 1464633 160
image.png 126Кб, 1612x862
1612x862
>>1464627
30b-A3b . И там внутри довольно ебанутая структура. Я не настоящий сварщик, но мне кажется на чистом процессоре это будет напряжно.
Аноним 21/12/25 Вск 23:09:34 1464665 161
>>1464621
>>1464566
>>1464360
Вроде всё сделал, но аутпут в таверне всрат при текст комплишне (модель генерирует !!!!!! при тех же настройках, которые спокойно работали раньше с ггуфом той же модели). Чат комплишн таки работает нормально, для сравнения.
Аноним 21/12/25 Вск 23:10:33 1464668 162
>>1464665
Кстати, скорость-то хуже стала.
Аноним 21/12/25 Вск 23:14:15 1464671 163
>>1464665
Ладно, другой семплер вроде все пофиксил. Но скорость все равно гаже ггуфа, который весил чуть тяжелее. И кажется, что модель стала тупее - как будто бы отвечает только на последнее сообщение, игнорируя контекст.

Включаю параноика. Манятеория: ггуфы делают всякие бартовские и прочие прошаренные челы, а кто высрал этот exl я не знаю, может квант дерьмо. Ну и как тут быть. Это же неудобно.
Аноним 21/12/25 Вск 23:18:15 1464674 164
>>1464426
Ну если моделька имеет доступ к запуску питона, то да. А если нет, то ей придется своей головкой думать.

>>1464439
Интересно, спасибо.
Про контекст хорошая тема.
Декодинг выглядит зубодробительным для ЛЛМок, до 100б полагаю ни одна моделька не решает такое сходу. Но попробовать тоже интересно.
Аноним 21/12/25 Вск 23:26:09 1464677 165
>>1464608
Qwen-Next 80 . 256k заявленного контекста. Мозговыносящих тестов-стишков на 200к контекста пока нет, но на 120k есть. Пук-среньк на 140k моделька завелась. С небольшим квантованием контекста, что характерно. Квант Бартовски с Q8_0 output (Q8 контекст, Q8 выходные веса - возможно важно)

-m .\models\Qwen3\Qwen_Qwen3-Next-80B-A3B-Thinking-Q4_K_L.gguf --alias Qwen-Next-Thinking --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0 --presence-penalty 1.1 --parallel 1 -t 8 --jinja -fa on -ctv q8_0 -ts 35,13 -ub 2048 -b 2048 -ngl 99 -c 140000 -ot "blk.([0-9]|1[0-9]|2[0-1]|3[0-3]).ffn.(up|down|gate)_exps\.weight=CPU"

И 2 теста на 120к контекста прошла просто влет из
https://github.com/llmonpy/needle-in-a-needlestack/tree/main/chained_limerick
На 64k - все 3 причем не пальцем в небо, а прям с осознанием.

Датасет бы ей еще без квенизмов и немного расцензуры - цены бы не было.
Аноним 21/12/25 Вск 23:28:53 1464680 166
>>1464674
>Ну если моделька имеет доступ к запуску питона, то да. А если нет, то ей придется своей головкой думать.
Варианта спросить у нейронки код и запустить самому...
Впрочем я к тому, что ХЗ, стоит ли мерить нейронки побуквенными задачами. Она ведь этих букв никогда не видела.
Аноним 21/12/25 Вск 23:55:31 1464700 167
>>1464374
Достаточно показательным может быть розыгрыш сценариев, где персонаж лишен части восприятия и заведомо не может чего-то знать до определенного момента. Или какая-то цепочка лжи/многоходовочка. Тут тестировать долго и не надо, пары десятков сообщений уже хватит чтобы понять.
Но все это очень субъективно, кому-то важнее красочность письма и его стиль, чем подобная соображалка, потому просто покатай и смотри насколько нравится. Моделей не настолько много выходит чтобы это заняло много времени.
А все эти вопросы, загадки, проверки на "типа факты" (особенно в ужатых квантах) и подобное могут оказаться не представительными.
>>1464671
>>1464665
В exl и технология сжатия лучше и он достаточно аккуратно адаптируется под целевую битность на основе калибровочных данных. Что-то у тебя неладное происходит, с какими параметрами запускаешь? Если древняя таверна то там может быть баг с лишней отправкой bos токенов.
> всякие бартовские
> прошаренные челы
Из прошаренных там разве что анслоты, остальные алхимики.
Аноним 22/12/25 Пнд 00:04:16 1464708 168
> Include names
Так что ставить для эира пришли к выводу?
Always или Never?
____ говорил что Never лучше ответы, но сколько я не свайпаю заметить это трудно, они просто другие, короче, суше
Аноним 22/12/25 Пнд 00:07:10 1464709 169
>>1464674
>Декодинг выглядит зубодробительным для ЛЛМок, до 100б

Qwen3 30A3b Thinking, gpt-oss 20 (reasoning_effort: medium и high) проходят эту задачу даже с небольшим квантованием контекста. Начиная с 32B (плотный квен) - модели решают ее без ризонинга вообще. К стати у больших сеток могу возникать проблемы с неправильным выбором пути декодирования - не через математику, а через подбор слов (есть такая возможность в этой задачке). А так же на финишной черте - они пытаются в анализ декодированной фразы - чего делать не надо.

ИМХО если модель с ризонингом не отвечает на эту задачку с 2-х попыток тут 3 варианта
- это сетка сугубо гуманитарная (и у нее должен быть очень богатый внутренний мир, подробные знания анатомии кожаных мешков во всех аспектах, хороший русик)
- в жоре не осилили либо проебали по регрессу инфиренс конкретно этой модели
- это тупой лоботомит непонятно зачем занимающий место на SSD
Аноним 22/12/25 Пнд 00:10:26 1464714 170
>>1463903
>темп 1
>все пики с не нейтрализированными семплерами (один и тот же пик)
Начнем с того, что идентичные ответы бывают только на температуре 0 и закончим тем, что твои пункты противоречат твоим же картинкам.
Аноним 22/12/25 Пнд 00:13:33 1464717 171
image.png 33Кб, 862x334
862x334
>>1464700
>с какими параметрами запускаешь?
Ничего не накручивал, кроме размера контекста и распределения по враму. Да и вообще в убабуге толком никаких параметров для эксламы не видел. Tensor Parallelism с разными карточками не взлетел. RuntimeError: CUDA error: an illegal memory access was encounteredю

Вернулся на Q4KL ггуф, попробовал загрузить в Кобольде с 36/36/9 сплитом. Получилось лучше - знатно размазалось, уважаемо. 17 т/с генерация, процессинг по-разному (500 - 900?). Для сравнения, с эксламой в убабуге не дотягивало до 10 т/с генерации при +- таком же распределении (нагрузка на 3090-е и немного на 5080, потому что мне она нужна швободной).

Короче, хуй его знает, но по ощущениям вылезать за пределы ггуфов не хочется, раз уж удалось тензорсплит сделать как хотел.
Аноним 22/12/25 Пнд 00:15:08 1464719 172
GLM Air это просто дистиллед чатЖПТ и Гемини? Постоянное упоминание политик openAI в рефьюзах у китайской модели, конечно... Научили модель мимикрировать сою, но без нативного RLHF.
Аноним 22/12/25 Пнд 00:22:18 1464722 173
>>1464717
> не дотягивало до 10 т/с генерации п
Перепроверил - напиздел - 11 / 12 есть. Но все равно медленнее.
Аноним 22/12/25 Пнд 00:50:26 1464743 174
>>1464700
>Моделей не настолько много выходит чтобы это заняло много времени.
Так я тюны еще тестирую. РП или просто расцензуренные.
Я через https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard пытался какого-то оптимального лидера по всем областям найти, ну по цифрам можно сказать, что weird compound (мистраль 24б) в письме всех ебет, а гемма по интеллекту ебет (гемма еретик если для нсф надо). Это среди моделей до 30б.
Но помимо этого можно еще десяток других интересных наковырять.

Я шизу словил, и теперь пока не пересмотрю 1000 вариантов, чтобы найти 1 ультимативный, не успокоюсь.
Аноним 22/12/25 Пнд 00:54:47 1464746 175
>>1464743
Ты тратишь время зря. Эти бенчмарки вообще ни гроша не стоят, модель может быть совершенно поломанной и все равно получить выше балл, а хорошая не поломанная модель будет чуть ниже.
Аноним 22/12/25 Пнд 00:55:20 1464747 176
>>1464680
>Варианта спросить у нейронки код и запустить самому...
Суть не в том, чтобы самым оптимальным способом решить задачу. А чтобы заставить нейронку думать, жонглировать какими-то штуками, чтобы в итоге она пришла к правильному ответу.
>Она ведь этих букв никогда не видела.
На удивление (или нет), но из того что я тестил, в общем-то все умеют разбирать слова по буквам без проблем. Они могут по-отдельности переписать их в обратном порядке. Но вот чтобы потом собрать целиком отзеркаленное предложение - до этого доходят единицы.
И второе мое удивление, что в моделях до 30б (+квен 80б) единственной справилась Апрель синкер на 15б. Причем всего-то 5-й квант.
Может зарандомило хорошо, хз. Я только по 1 разу прогонял.
Аноним 22/12/25 Пнд 01:01:26 1464752 177
>>1464709
Странно, я думал разбор слов + декодинг шифра + склейка результата будет посложнее, чем отзеркаливание предложения (где только разбор и склейка слов).
Но я с 4 или 5 квантами тестил отзеркаливание. Хз, может на подобных задачах дамаг от квантования сильнее роляет.
Аноним 22/12/25 Пнд 01:02:40 1464754 178
>>1464746
Ну вот поэтому я с десяток топов набираю и тестирую уже своими глазами.
Аноним 22/12/25 Пнд 01:02:53 1464756 179
>>1464717
Возможно врам в рам утекает, вот и замедление такое, от того же может быть ошибка при параллелизме. Стоит для начала попробовать автосплитом, или распределить равномерно.
> вылезать за пределы ггуфов
Если устраивает то можно довольно урчать. Просто на контексте и процессинг-генерация превратятся в тыкву, и даже q5 может тупить и фейлить больше чем ~4.5bpw. Но в последнем много нюансов, возможна и обратная ситуация когда много бит серут.
>>1464743
> тюны еще тестирую
Они все полумертвые, выебанные и вывернутые наизнанку.
Просто совмещай приятное с полезным, запуская рп сессию с новой моделькой. Не понравилась - откатился на ту, которая нравится. Не понравилась несколько раз в разных сценариях - помещаешь как непригодную и удаляешь. Понравилась в каком-то сценарии или вообще во всех - помечаешь как фаворита.
Не обязательно это должна быть очень большая модель с высокими скорами и т.д. Помню во времена второй лламы любил шизомердж в 20б слепленный из блоков лламы2-13б, причем именно в q3km кванте. На q6/q8/exl2 магия пропадала и наружу лезли все косяки, а в 3м так удачно поломалась, что было разнообразие но сохранялась адекватность.
>>1464746
Двачую.
>>1464752
Квантование именно там где нужно давать точную (по символам) выдачу давать сильно роляет.
Аноним 22/12/25 Пнд 01:17:41 1464772 180
>>1464747
>Но вот чтобы потом собрать целиком отзеркаленное предложение - до этого доходят единицы.
Потому что не ИИ нихуя.
>>1464756
>точную (по символам) выдачу давать сильно роляет
Так наоборот же, уверенность в правильном символе должна быть высокой, так что небольшой дрейф с правильными семплерами не должен руинить катку.
Аноним 22/12/25 Пнд 01:27:25 1464773 181
>>1464772
> уверенность в правильном символе должна быть высокой
Да, но квантование может изредка давать большие выбросы отклонений. На метриках из-за усреднения этого не видно, если только специально не выделять условные 1% 0.1% и подобное. Аналогию с фпсами и статтерами кстати здесь натянуть уместно, как будет доставлять дискомфорт тормоза при высоком среднем, так и здесь все вроде хорошо соответствует оригиналу, но при этом моделька шизит.
Аноним 22/12/25 Пнд 03:42:58 1464825 182
>>1463720
>>1463785
Потестил со свап, чет да все плохо. Лучше уж контекст резать, чтобы больше на карту выгрузилось или модельку поменьше

>>1464348
Да я брал давно поиграться и не под нейронки изначально
Аноним 22/12/25 Пнд 03:59:28 1464838 183
Мне нравятся ответы GLM-4-0414 больше чем эир, что делать?
Обе модели запускаю в 5 кванте, первая просто будто знает больше, что странно, ведь эир больше х3 по датасету, больше подходит для рп, пишет нормально, без эха и полотен, разнообразнее пишет, юзая эир будто читаешь одно и тоже всегда
А ещё я обнаружил не баг а фичу юзая чатмл, первая модель оочень часто уходит в рефьюз на глм4 темплейте, в 19 случаев из 20 я получал рефьюз на жесть, а на чатмл всего в 8 из 20, возможно это работает и на эир
Аноним 22/12/25 Пнд 04:14:26 1464846 184
image.png 170Кб, 2088x750
2088x750
image.png 166Кб, 2139x928
2139x928
image.png 292Кб, 2119x1001
2119x1001
image.png 153Кб, 2076x717
2076x717
>Encoded text:
>oyfjdnisdr rtqwainr acxz mynzbhhx
>Decoded text:
>Think step by step
>
>Encoded text:
>oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
>Decoded text: ?

Ебать, что за гений этот чорт? Апрелька 15б в 5-м кванте зарешала.
Я правда хз, может уже добавили эту загадку в датасеты, надо будет потом что-то другое сгенерить.
НО!
С чего я охуел больше всего. Моделька ошиблась при декодинге последнего слова, сразу это заметила, обосралась еще раз при перепроверке. Потом начала угадывать слово, нашла его и затестила еще раз.
Хотя все равно обсиралась пару раз, но каким-то магическим мышлением смогла дотянуть до ответа.

Правда я тоже обосрался, выставил всего 8к контекста, кек. Может из-за этого она потеряла чего-то, и в конце ответ не на тот вопрос был. Я перегенерил последнюю часть с 16к контекста, и все встало на места.

Я думаю стоит больше внимания этой модельке уделить. Подает неплохие надежды.
Все еще странно, что не завезли файнтюнов на нее. Но может она просто сама по себе хороша без всего.
Аноним 22/12/25 Пнд 05:27:26 1464872 185
bump
Аноним 22/12/25 Пнд 05:54:57 1464884 186
>>1464838
Ещё один прозрел и понял. Осталось только внимательно посмотреть на названия моделей, увидеть во второй A12B, сравнить с 32B...
Аноним 22/12/25 Пнд 06:26:23 1464903 187
Ещё скачал коммандер r 32б и мне так же понравилось, катаю 2 часа уже, пишет свежо, но ума и даже какой то цензуры чтоб тормоза были будто недостает, секс часто тихий ужас в плане как если бы ты сгенерил неудачную картинку где конечности вразнобой
Аноним 22/12/25 Пнд 08:07:07 1464951 188
>>1464279
не знаю как у вас в сперме, а у нас в прыщах есть CUDA_VISIBLE_DEVICES=айди нужной карты
Аноним 22/12/25 Пнд 08:40:17 1464975 189
>>1464951
CUDA_VISIBLE_DEVICES есть и в форточках и в пингвинятнике, и работает одинаково,

>>1464279
разве что указание списка видимых устройств полностью запретит лезть на 16 гиговую карту, но если тебе это и надо, то ок
Аноним 22/12/25 Пнд 08:50:15 1464991 190
>>1464975
> и работает одинаково
не знаю как у вас в сперме, а у нас в прыщах ещё надо добавлять CUDA_DEVICE_ORDER=PCI_BUS_ID иначе первая карта внезапно может оказаться второй
Аноним 22/12/25 Пнд 12:57:10 1465198 191
>>1464838
Катай то что нравится. Главная беда старого жлма - ограниченный контекст.
>>1464991
Просто узнать как карточки видятся на исполнителе через тот же торч и потом указывать нужный порядок. На шинде врядли кто-то собирал что-то с многогпу чтобы узнать проявление подобного.
Аноним 22/12/25 Пнд 14:24:49 1465288 192
посоветуйте NSFW ггульфик для активного фапинга. нужна модель которая запустится с 6 гб врам
Аноним 22/12/25 Пнд 14:25:10 1465289 193
>>1465288
и да, текст и картинки
Аноним 22/12/25 Пнд 14:28:53 1465294 194
>>1465288
>модель которая запустится с 6 гб врам
Любая, лишь бы озу памяти. Mistral 2506 24b, например.

>картинки
SD 1.5
Аноним 22/12/25 Пнд 14:29:47 1465300 195
>>1465294
* памяти было достаточно.
fix
Аноним 22/12/25 Пнд 14:44:09 1465318 196
>>1465294
> Любая, лишь бы озу памяти. Mistral 2506 24b, например.
видеопамять не так важна что ли?

у меня 32 гига ддр4 если че
Аноним 22/12/25 Пнд 14:52:57 1465330 197
>>1465318
>не так важна что ли?
Влияет только на скорость генерации. Модельки можно вообще без видеокарты гонять, просто медленно будет.
Аноним 22/12/25 Пнд 14:59:44 1465340 198
>>1465294
>картинки
SD 1.5
Как там в 2023? На нынешних интерфейсах SDXL-based модели будут и на четырёх гигах работать.
Аноним 22/12/25 Пнд 15:11:03 1465356 199
Для тех кто v100 хотел взять, на мейлруали на лот 1005010391017151 скидочку набросили.
Аноним 22/12/25 Пнд 15:12:36 1465360 200
>>1465288
моэ-квен последний разве что, всё остальное будет печально
но он вполне хорош
Аноним 22/12/25 Пнд 16:50:24 1465449 201
Короче, я бомжик, я взял 5070 ti вместо своей 4070 ti, а теперь думаю, куда девать 4070 ti.

Самый простой способ — есть райзер x16, пихнуть его в порт (x4 реальных) и поставить ее снаружи, запитав с того же бп (киловаттник, 300+300 потянет), чисто для охлада.

Но хотелось бы сделать какой-нибудь eGPU BOX, чтобы подключать к разным компам по надобности.

Какие есть варианты? M2 имеет смысл насиловать, или это исключительно фишка для тех, кто уже все псины забил?
У меня одна из материнок без бифуркации, есть ли дополнительная приблуда, чтобы впихнуть две карты в слот х16, или таких нет?
Есть ли хорошие, надежные, дешевые окулинки, чтобы при случае добрать ноутбук и к нему подключать уже внешнюю 4070 ти?

Что посоветуете?

Видеопамяти много современными видяхами не наберу, есть тока 5070 ти, 5060 и 5070 ти, это 44 гига, НУ ТАКОЕ, лень париться.
Аноним 22/12/25 Пнд 16:51:23 1465450 202
>>1465449
> 5070 ти, 5060 и 5070 ти
5070 ти, 5060 и 4070 ти
быстрофикс
Аноним 22/12/25 Пнд 17:10:48 1465470 203
>>1465449
> Что посоветуете?
Купить корпус где сможешь разместить на райзере. Гораздо дешевле и эффективнее.
22/12/25 Пнд 17:35:37 1465488 204
>>1465449
зажрался ты, юноша.
тут кто-то на 12 гигах дрочит, а тебе ради 44 "лень париться".
Аноним 22/12/25 Пнд 17:57:12 1465494 205
>>1465470
Но я-то хочу по большей части иметь именно мобильный вариант.
Брать корпус за 10+ (я хз, сколько стоят корпуса. где видеокарты можно располагать и спереди, и сзади) вместо дуофейс про только потому, что трехслотовые пупсики не влазят, и при этом терять мобильность — ну такое, ИМХО. На крайняк я на 3D-принтере распечатаю и на райзер кину просто так. Это почти бесплатно, за пластик заплачу там сотку и все.
Но это самое неприятное из всех, что хотелось бы.

>>1465488
Так у меня другой комп с 128 DDR5 и 16-гиговой 5060 ти, и где-то парочка п40 с 48 гигами, и еще по мелочи.
Конечно зажрался.
Людя́м сочувствую. Искренне.
Но и стремиться есть куда. =) До элиты далеко.
Аноним 22/12/25 Пнд 18:10:58 1465504 206
>>1465494
Если любишь колхозитьконструировать - посмотри в сторону готовых райзеров под окулинк или егпу китов, а в основной комп однослотовый переходник x4 -> окулинк на заднюю панель.

Но вообще тут или шашечки, или ехать, будет или мобильность или нормальный перфоманс. Я вообще не понимаю о какой мобильности тут вообще речь (особенно если хочешь питать от основного бп), и почему ты готов докупить ноут(!) но не можешь обновить корпус. Шиза какая-то.
Аноним 22/12/25 Пнд 18:13:29 1465507 207
>>1465504
Его мамка или что хуже жена заругает
Аноним 22/12/25 Пнд 18:38:13 1465532 208
Включил в экслламе tensor parallel, 17 т/с генерация на 93 ГБ кванте тюна ларджа. Карты выли и пищали, в конце концов одна из них тупо зависла на 100% утилизации в nvidia-smi и не отвечала, пришлось ребутать (я еще вроде бы краем глаза заметил, что она в P0 была, с чего охуел еще больше). Какая-то шайтан машина. Правда, обработка контекста - унылые 80 т/с...

Кстати, еще забавное наблюдение, что у некоторых тут какие-то завышенные стандарты по генерации (по типу 15-20 т/с). А еще тут любят жаловаться, что нет новых плотных моделей. А еще тут золотым стандартом считается 3090. Я бы объединил эти три заявления и поспешил разочаровать, что на этих картах при обычном разбиении что на экслламе, что на жоре скорость тюнов ларджа на квантах размером 90-100 Гб у меня не превышает 8 т/с на чистом контексте. Да, можно попытаться получить другие цифры другими способами, как тем же тп, о котором я писал выше, но везде есть свои подводные.
Аноним 22/12/25 Пнд 18:43:33 1465541 209
>>1465532
Ну поэтому от больших плотных моделей и отказались. Моэ куда эффективнее используют железо и при этом не сильно хуже.
Аноним 22/12/25 Пнд 18:58:40 1465570 210
>>1465532
Какие-то неполадки и потенциальные траблы с железом/настройками для обобщений. Лардж ведь старая модель, еще год назад без тп и прочего на 3090 были скорости ~12т/с и 350 обработки на 3090, правда квант уже не помню.
Из условно современных плотных моделей - только немотрон 253б, и тот на базе того еще легаси, девстраль надо изучать но ситуация аналогична. И жалуются аноны в основном что нету плотных в диапазоне 30-80б, хотя желающих крутануть что-то в 100б тоже найдется. Дело в том, как они себя ведут в рп, сколько слоев условий и абстракций способны навернуть по сравнению с более мелкими.
> золотым стандартом считается 3090
Она самая доступная и не сильно сосет. Тем не менее, если приручишь их то получишь те самые 15-20т/с на лардже (такого импакта на процессинг быть не должно, проверяй линии).
В остальном >>1465541 прав, моэ работают шустрее и при этом достаточно неплохи.
Аноним 22/12/25 Пнд 20:30:19 1465711 211
Господи, как же хочется новую Геммочку...
Аноним 22/12/25 Пнд 21:00:58 1465751 212
Аноним 22/12/25 Пнд 21:16:31 1465762 213
>>1465751
Ориентация на тулзы и коддинг, вряд ли будет лучше в РП.
Аноним 22/12/25 Пнд 21:18:49 1465764 214
>>1463777
У меня то же самое. Hugging face только вообще не открывается без xray.
Аноним 22/12/25 Пнд 21:20:09 1465765 215
>>1465751
ЖДУНЫ AIR 4.6, ЧТО С ЕБЛОМ?
Анон в одном из тредом говорил кста, что 4.7 будет раньше 4.6 air
Аноним 22/12/25 Пнд 21:27:41 1465771 216
>>1464719
Хуйня, не такого. Ты либо вообще не пользовался гопотой либо пидорас. ты пидорас
>>1464838
>GLM-4-0414
Хуйня полная. Сосет даже у геммы. Но если тебе нравится, то все ок. Никто не осудит тебя а, не, осудят, ибо ты говноед, сорри, анон, я тебя люблю
Аноним 22/12/25 Пнд 21:35:25 1465781 217
>>1461789 (OP)
>>1464838
Я помню был какой-то THURDM или что такое. Где он? Почему удалили? Кто-то следил за этим?
Аноним 22/12/25 Пнд 21:40:47 1465789 218
>>1465751
Русский всё так же говно, на уровне 12В микромоделей. В кодинге поломки форматирования, в 4.6 такого не было. Хуйня какая-то для своего размера.
Аноним 22/12/25 Пнд 21:43:24 1465796 219
>>1464719
> дистиллед
Значение знаешь? Дистилляция в контексте переноса знаний при тренировке предполагает использование подробных распределений, промежуточных скрытых состояний и прочего обилия данных вместе с соответствующей функцией потерь чтобы их усваивать. А не голые тексты, которыми засорены датасеты, собранные по разным углам.
>>1465781
THUMD, от них и были более ранние glm. Суди по всему эволюционировали в zov.
>>1465751
Ахуенно, даже если в рп не топчик, по основному назначению пойдет.
Аноним 22/12/25 Пнд 23:05:06 1465977 220
>>1465751
>>1465762
>>1465796
> You can also see significant improvements in many other scenarios such as chat, creative writing, and role-play scenario.
О чём я и говорил, богатые богатеют, бедные беднеют, буквально та картинка с трубой и капиталистом.
Либо у тебя есть 256 рам и ты запускаешь большой глм, наслаждаясь significant обновами для рп каждые пару месяцев, либо ты нищук с 64рам и получаешь эир раз в полгода, который ещё и хуже предыдущего, охуенно.
Всем похуй на эир кроме нас, никто не хочет его делать
Аноним 22/12/25 Пнд 23:08:13 1465982 221
>>1465789
>Русский всё так же говно, на уровне 12В микромоделей
Хз что там с большим глэмом, но эйр отсасывает в плане русика даже 4b гемме.
Аноним 22/12/25 Пнд 23:59:43 1466023 222
>>1465570
>на 3090 были скорости ~12т/с и 350 обработки на 3090, правда квант уже не помню.
Наверное в этом загвоздка, на жоре я уже очень давно использую только 6-й квант для ларджа и файнтюнов. На более мелких там быстрее будет офк

>такого импакта на процессинг быть не должно, проверяй линии
Одна карта на х1 сидит, может она подсирает. Но энивей это все игрульки, иллюзия хорошести очередного файнтюна ларджа разбивается очень быстро и я с досадой пересаживаюсь на глм, а там только жора. Правда, вчера вот в очередной раз решил 4.5 вместо 4.6 покатать и вышло прямо божественно.
А 4.6 иногда абсолют кино выдает, а иногда просто идиоит на ровном месте - то ли квант бартовски хуевый (5-й), то ли сама модель поломанная. Например, я с тян захожу в комнату, где по сценарию сидят еще две тян. Он мне пишет, что three women in the room are waiting for you. А не пошел-ка ты нахуй.
А уж как этот квант лупится - это просто песня. Я играл в денпа новеллу, которую переводил с лунного на ангельский глм-ом. Там были реплики, которые повторяют одну и ту же фразу раз 30-50 в предложении (т.е. буквально подряд идут). В эти моменты я с лицом братишки и фразой "заебал бля" из зс перезагружал новеллу, чтобы остановить генерацию, ибо он уходил в бесконечный луп. Смешно до невозможности нахуй, что реальная выдержка из человеского творчества пережаривает мозги у вроде бы неплохой ллм. И один раз в таверне тоже перс начал срать вопросительными знаками. В общем, какой-то хуевый квант, несмотря на аттеншен в q8, надо что ли обратно на анслота переезжать или 4.5 пользоваться.
Аноним 23/12/25 Втр 00:19:07 1466054 223
>>1466023
> Одна карта на х1 сидит, может она подсирает.
Скорее всего это, особенно если там еще древняя версия стандарта, при процессинге в тп идет постоянный обмен.
Q5 (чей не помню но обычный а они по сути идентичны) жлм также показался печальным, но неравномерность поведения и перфоманса - черта самой модели. Поменяй системный промпт, разметку, суммарайзни часть и с высокой вероятностью все изменится.
Кстати, описанные тобою проблемы уже похоже на баги инфиренса или что-то связанное с этим. Оно может тупить, шизить и т.д., но такое вытворять не должно.
> или 4.5 пользоваться
Пользоваться 4.7
Аноним 23/12/25 Втр 01:08:57 1466108 224
>>1466054
>Пользоваться 4.7
Умный в гору не пойдет, я лучше подожду экспертное мнение других анонов тут и в асиге. А вообще я жду v100, как воткну - буду пробовать дипсик. И мб на 6-й квант глм перекачусь.
Аноним 23/12/25 Втр 01:13:44 1466115 225
1000018457.png 920Кб, 1334x928
1334x928
1000018458.png 908Кб, 1277x1159
1277x1159
Почему ответ поломан?
Аноним 23/12/25 Втр 01:17:29 1466124 226
Вы тут в железках получше меня разбираетесь, так что помогите с вопросом.

Имеется 3060-12, бюджетная мать на H610 и псу на 600 ватников. Планирую взять 5070TI, воткнуть ее в основной слот X16, а 3060 перекинуть в слот X1 через переходник. Заработает ли оно вместе и будет ли выгрузка на обе карты? И самое главное - хватит ли блока и материнки, не отъебнет ли там что-нибудь?
Аноним 23/12/25 Втр 01:19:07 1466126 227
image 363Кб, 811x966
811x966
>>1466108
Да лучше уж на дипсике сиди тогда. Зачем юзать глм, когда есть нормальные модели? Глм/глм эйр - просто затычки в своих нишах 300b/100b, их юзают от безысходности, потому что в этих размерах нет конкурентов.

Глм = говно говна. В то время как нормальные модели обучались на первичных данных из интернета, глм обучали на нейрослопе гемини. Это как человеческая многоножка ебучая, троекратно переваренный кал. Когда нейронка обучается на нейровыхлопе - это всегда говно, слоп множится и растёт по экспоненте.

Дикпик и большой квен - бро. Глм - не бро.
Аноним 23/12/25 Втр 01:31:58 1466150 228
>>1466126
Первичные данные из интернета это людослоп.
Каждый день в каких то спорах и тредах видишь какие то особые выражения или мысль?
Людишки слопа валят не меньше нейронки
Аноним 23/12/25 Втр 01:43:30 1466158 229
>>1466108
> v100
> пробовать дипсик
> на 6-й квант глм перекачусь
А? Сколько штук ты их там заказал?
>>1466124
Заработает.
> хватит ли блока
Если там что-то приличное то хватит. Если perdoon то лучше не рисковать и обновить даже если карточку новую ставить не будет
> и материнки
х1 неоче, но в целом работать будет.
Аноним 23/12/25 Втр 01:54:20 1466161 230
>>1466158
>Если там что-то приличное то хватит.
Дипукл пвх или пва или че то такое. Щас под нагрузкой вся система целиком жрет около 350 под полной нагрузкой
>х1 неоче, но в целом работать будет
Если не ошибаюсь, нищая скорость будет только при загрузке самой модели в видеопамять, пока данные будут через порт перегоняться. Потом разницы с X16 тем же самым не будет. Всё так, или это хуйня и меня наебали?
Аноним 23/12/25 Втр 02:04:47 1466171 231
>>1466161
Дипкул - норм, у меня шестой год работает платиновый питальник от них на 650w. БП - последнее на чем стоит экономить. И еще материнка, пожалуй.
Аноним 23/12/25 Втр 02:13:10 1466172 232
>>1466171
>>1466161
А, блин, лол, прошу прощения. Не дипкул, термалтейк. В 2к20 брал за 15к - это годнота. А про дипкул сказать нечего, хз.
Аноним 23/12/25 Втр 02:20:48 1466177 233
>>1465504
Не, ну ок, а какой корпус посоветуешь, в таком случае?

>>1465507
В разводе, шах и мат.

>>1465532
> Карты выли и пищали
После чего я перестал включать -tp… Даже не хочу вдаваться в причины.

С суммаризации трех пунктов покекал. =)

>>1465751
Накодил проект за час, особо не распробовал, но выглядело хорошо. Давно не брался, не знаю с чем сравнить. Но определенно хорошо.

>>1466124
Блока нет.
Работать будет, но идея тащить 300+180+проц+мать+диски из 600 будто хуйня, учитывая цену видяхи в 80к. Добери уж бп нормальный, что ли, 850+ какой-нибудь, чай не помрешь.

>>1466161
Наебали, но тебе расскажут что заебок.
На деле, обработка контекста вряд ли порадует, агент ты не построишь на таком. А для чата вполне норм должно быть.
Аноним 23/12/25 Втр 02:26:16 1466180 234
>>1466161
Ну если фирмовый то и норм в целом, сменишь если что.
> нищая скорость будет
гадить везде где есть что-то зависимое от обмена. В идеальных условиях с простым инфиренсом не скажется, а если скажется то заметишь. Недоступны всякие тензорпарралелизмы (хуевый процессинг), в моэ с частичной выгрузкой можно получить замедление больше ожидаемого (а можно и не получить). В остальном ничего страшного.
>>1466177
> какой корпус
Тысячи их, под рамещение двух компактных гпу подойдет любой покрупнее в котором есть место в передней части или снизу.
> перестал включать -tp
А чего там бояться то? В меню какого-нибудь киберпанка пострашнее дроссели пищат если склонны к этому.
> обработка контекста вряд ли порадует
В обычных разбиениях особо не сыграет, а с выгрузкой в рам определяющая шина у главной карточки, остальные пофиг.
> агент
Генерация на них роляет больше процессинга, если он не совсем днище.
Аноним 23/12/25 Втр 02:33:09 1466181 235
>>1466177
>Добери уж бп нормальный, что ли, 850+ какой-нибудь, чай не помрешь.
Чай не помру, но в блоках нихуя не шарю. Всегда выбирал их по принципу много отзывов - блок заебись. Че там какие конденсаторы мейд ин жапан вся хуйня это от меня далеко. На первом компе который собрал со сдачи с обедов стоял ксас на 500 ватт без прикола. Он кстати до сих пор пашет, но уже у кента. Скоро ему лет восемь наверное исполнится.

>На деле, обработка контекста вряд ли порадует
А если контекст крутить на основной карточке, которая в X16 будет? Или там в любом случае будут данные передаваться, веса крутится и всё такое?

>>1466180
>В идеальных условиях с простым инфиренсом не скажется
Ну инфиренс простой, только плотненькие катать собираюсь. Гемма или большая третья лама в каком-нибудь Q3-Q4. Чатики, ролплейчик, генеральные задачи типа переводов.
Аноним 23/12/25 Втр 02:33:47 1466182 236
>>1466126
Квен - кал, сорян. Глм единственный, кто пишет нормально. В своих лучших свайпах - как убермикс клода и гемини. Дипсик гонял только 3.1, второй квант, не впечатлил, да и медленнее глм намного. Потом дам шанс еще раз, уже в третьем кванте, но, увы, я вывалюсь в оперативу и, скорее всего, скорость мне опять не понравится.

>>1466158
>А? Сколько штук ты их там заказал?
Б! Одну всего лишь. Мне как раз хватит, чтобы перекатиться на квант выше, не вылезая за пределы врам.
Аноним 23/12/25 Втр 02:38:40 1466183 237
>>1466180
> под рамещение двух компактных гпу
А трехслотовые трехкулерные 4070 ti и 5070 ti у нас давно стали компактными?
Рядом они точно не влазят (провод от питания первой мешает поставить вторую вертикально перед ней), стало быть надо лепить в другое место.
Я не силен в таких корпусах (и уж тысяч их точно не видел).

> Генерация на них роляет больше процессинга, если он не совсем днище.
Наоборот. Сгенерировать 1000 токенов можно и на 20, а вот прочесть 30к контекста на 150 уже существенно больнее, учитывая, что генерируешь ты не каждый ответ, зато читаешь… Не, пасиба, все начинается с контекста.

Но опять же, ладно, если ты говоришь, что роли не сыграет, то хай пробует.
Аноним 23/12/25 Втр 02:59:59 1466199 238
>>1466181
> А если контекст крутить на основной карточке, которая в X16 будет?
В жоре нет такого понятия как "крутить основной контекст". Точнее можно организовать подобное, но с х1 лучше не стоит ибо будут лишние обмены. Просто раскидывая модельку через -ts без дополнительных операций с высокой вероятностью все будет сразу ок.
То относится к сценариям с выгрузкой части весов на рам, при обсчете контекста они по частям подгружаются в основную карту и обсчитываются на ней, при этом шина активно используется для этой самой подгрузки.
>>1466182
Всего одну в100 чтобы не вылезать за пределы врам в дипсике и 6м кванте glm? That's pretty brutal. И какие там скорости выходят?
>>1466183
> трехслотовые трехкулерные 4070 ti и 5070 ti у нас давно стали компактными
Пощупай 5090, поймешь какие они малютки.
> Рядом они точно не влазят
Если корпус широкий то можно обе разместить поставив под 90 градусов на кронштейнах что продаются. Если нет - классический вариант с выносом одной вдоль задней стенки корпуса у передней панели, вторую или как есть (если не мешает), или поставить как в первом случае. Вроде не раз обсуждалось это, если не понял - спрашивай.
> Сгенерировать 1000 токенов можно и на 20
В типичных задачах генерации и за 4к могут переваливать, там с 20 т/с, особенно плавно протухающими, замучаешься ждать. 150 процессинга это уже днище если что, но даже с ним время на генерацию может преобладать, ведь ты не каждый запрос пересчитываешь все-все, а чаще только последную часть или новый.
Аноним 23/12/25 Втр 04:42:40 1466297 239
>>1466199
Понятно, значит придется и материнку новую брать. Сука, ебаные нейросети, как мне без вас хорошо жилось...
Аноним 23/12/25 Втр 06:11:27 1466357 240
Скомпилил новый llamacpp с поддержкой nemotron, а tensorsplit перестал корректно работать, ну что за нах?? И теперь эта сука грузит большую часть модели на мелкую карту. Ну как так-то??

llama_params_fit: failed to fit params to free device memory: model_params::tensor_split already set by user, abort
Аноним 23/12/25 Втр 06:15:17 1466360 241
>>1466357
Ложная тревога ncmoe неверно указал. уффф
Аноним 23/12/25 Втр 13:25:52 1466842 242
>>1466199
Угу, получается что под 90° тока одна помещается (и та не помещается из-за кабеля), а вдоль задней стенки не хватает длины корпуса.
Спасибо, значит поищу что-нибудь соответствующее, чтобы влезли оба. Задняя стенка вроде как не самый плохой вариант. А как она туда крепится, всегда хотел спросить?

> Вроде не раз обсуждалось это, если не понял - спрашивай.
Ну вот я пропустил те обсуждения, вполне возможно.
Аноним 23/12/25 Втр 13:44:15 1466850 243
>>1463527
> ломается двумя фразами
> надеюсь файнтунерам легко удастся
лишь бы спиздеть что-то
Аноним 23/12/25 Втр 13:57:12 1466852 244
>>1466850
Ну так ты и не пизди, если нечего по делу сказать.
У них рефьюз вколочен в модельку. Несколькими фразами можно дефьюзнуть рефьюз. Моделька сначала побугуртит, но потом ответит.
Аблитерациями должно быть можно выпилить нахуй этот рефьюз, чтобы моделька вообще не вспоминала про это.
Аноним 23/12/25 Втр 14:07:06 1466860 245
1689803343406.png 7322Кб, 2270x2560
2270x2560
>>1466357
>>1466360
> tensorsplit
> корректно работать
> ncmoe
Никогда корректно не работали вместе. Буквально один параметр безусловно частично переназначает то что задал другой, игнорируя его суть.
>>1466842
> получается что под 90° тока одна помещается (и та не помещается из-за кабеля)
Обе под 90 попробуй. Сам факт что ты пытаешься вторую подсунуть вдоль первой уже говорит что карточки мелкие, с большой даже в жирном корпусе от стенки остается мало.
> А как она туда крепится
У того же кронштейна что сделан для 90 сбоку есть отверстия. Добавь несколько отверстий в стенке корпуса и прикрути. В некоторых корпусах там вообще изначально место чтобы карточку поместить штатно.
Расположение типа пикрела, только с длинными карточками придется и основную выносить под 90 чтобы не мешала.
Аноним 23/12/25 Втр 14:07:14 1466861 246
>>1466852
Аблитерации портят модельку, несколькими фразами датасет на рефьюз не законтришь, нужен контекст на токенов 500, моделька кал зацензуренный.
Аноним 23/12/25 Втр 15:24:06 1466899 247
На что влияет batch size?

Поставил 512 -> 256 и вроде как ллмка меньшими абзацами начала срать, до этого графоманила и абзацы были большие
Аноним 23/12/25 Втр 15:27:56 1466904 248
>>1466899
Шиза. Батч влияет только на обработку контекста. Больше батч, быстрее идут т.к. не нужно код лишний гонять, выше жор памяти
Аноним 23/12/25 Втр 15:59:42 1466926 249
image.png 58Кб, 439x193
439x193
Аноним 23/12/25 Втр 17:31:55 1467014 250
У меня опять жорина мистика...
Иногда запускаю квен 235б и выдает 9 токенов, а иногда 6.7 и хоть убей никак не фиксится, даже перезапуском
Аноним 23/12/25 Втр 19:15:57 1467119 251
image.png 881Кб, 1451x1271
1451x1271
залез тут в comfyui multi-gpu
пишу для анона, который хотел тоже в это влезть.
Короче воркфлоу у меня такой.
эта залупа выполняет ksamplers-ы ПОСЛЕДОВАТЕЛЬНО БЛЯДЬ
Из-за этого смысла в мультигпу вообще нахуй никакого нет. Нахера он нужен я не понимаю. Если для выбора гпу в воркфлоу - то это делается указанием CUDA_VISIBLE_DEVICES.
Бред ёбаный.
или я что-то упустил. Но кажется нет.
Альсо v100 завелась только с xformers, хотя на другой установке комфи у меня работала раньше вроде без него.

>>1466926
разве не очевидно?
Чтобы отключить thinking.
Аноним 23/12/25 Втр 19:25:06 1467126 252
>>1467119
> image.png
и эти люди запрещают мне ковырять в носу
Аноним 23/12/25 Втр 19:27:17 1467128 253
>>1467014
Для начала не связано ли это с размером контекста в запросе? Для проверки мистики полезным будет посравнивать полотна, которые он вываливает в начале и еще одно при завершении об использовании врама.
>>1467119
> эта залупа выполняет ksamplers-ы ПОСЛЕДОВАТЕЛЬНО БЛЯДЬ
Лол и на что ты рассчитывал? Ты же буквально накодил последовательное выполнение, постарался бы хотябы не объединять группы нод чтобы сделать полностью независимыми (все равно не сработает).
Есть экстеншны, которые параллелят воркфлоу заменяя только сиды, а вот такое вот.
Аноним 23/12/25 Втр 19:46:52 1467160 254
>>1467126
не понял претензий. ковыряй на здоровье.
>>1467128
да всмысле блять?
Параллельно же.
Я сейчас копаю в сторону distributed. Это хоть будет работать параллельно?
Аноним 23/12/25 Втр 19:55:41 1467168 255
>>1467160
> Параллельно же.
Парадигма комфи в выполнении одной ноды в один момент.

Если хочешь делить одну большую модель на несколько гпу - тебе сюда https://github.com/pollockjj/ComfyUI-MultiGPU
Если хочешь параллельно запускать несколько моделей - сюда https://github.com/robertvoy/ComfyUI-Distributed

С тебя интересная карточка.
Аноним 23/12/25 Втр 20:02:24 1467177 256
>>1467168
>Парадигма комфи
какое громкое слово. Парадигма! Для обозначения однопоточной хуйни и невозможности напилить асинхронное выполнение нод разработчика. контрол луп? Не, хуйня, не слышал о таком. Нехай выполняется последовательно. Вам что ЭФФЕКТИВНОСТЬ НУЖНА? Пффф.
Как диды кодили, так и мы будем.
>>1467168
карточка? В смысле персонажа?
У меня нет интересных...
Аноним 23/12/25 Втр 20:28:33 1467226 257
image.png 54Кб, 859x402
859x402
пошла жара.
Наконец карты утилизируются на полную.
Запускаю distributed, но там апскейл какой-то залупный. по тайлам разбивается картинка и потом соединяется. Стыки видно.
Аноним 23/12/25 Втр 20:29:57 1467229 258
>>1467119
Ты взял легаси ноду multi-gpu. Они позволяли только раскидывать по GPU только разные модельки (текстовый энкодер в одну карту, vae в другую, диффузион - в третью). Чтоб модели не свайпать между рам-врам
Продолжением этого являются dis-tourch ноды - они уже позволяют одну модель распилить по двум видеокартам.
Аноним 23/12/25 Втр 20:33:03 1467231 259
У меня хаггинг открывается без проблем. А то я уж обрадовался, что успел квен полный в fp16 загрузить...

>>1465977
>Либо у тебя есть 256 рам
Хм. Двухпроцессорная материнка c 16 слотами за 25к и много лотов таких, модули на 16 гб rdimm ddr4 всё ещё есть по 5к, мало, больше по 8к. То есть за 150-200к можно собрать 256 на рам. Помимо прочего - к этой же материнке можно ещё и риг потом подключить, причём без разветлителей.
Я конечно всё понимаю, что 150к тоже деньги и баловство хотелось бы на штатном пк запускать. А с другой стороны это чудище можно за сетевой провод можно в другую комнату вынести, и сидеть с ноутом где захочешь в тишине. До бума цен на рам я бы просто зная что есть такие материнки просто так бы такую себе взял (у меня только ноуты всегда были), даже без конкретной задачи в виде запуска нейросети.
А с другой стороны люди 5090 просто так покупают и ставят в обычный пк, который ещё как одна 5090 стоит. Просто подумай. ПК с 5090, где только нейрокартинки генерировать быстро, и средние модели запускать быстро, или чудище с 256, а то и больше памяти, причём где всё на процессоре работает и пусть медленно, но почти точно не выйдет никакой принципиально новой архитектуры, из-за которого работать эффективно будет только новое поколение. И это на уровне тыкнул и запустил - не надо никаких аномальных знаний в области компьютеров знать.

>>1467226
Это довольно странно.
По идее логичное решение, что если есть несколько непоследовательных нод - то но оно раскидывает их по картам, но каждую ноду выполняет на одной. То есть k-самплеры крутятся на трёх карточках для трёх картинок, а апскейлинг на какую карту залетел - там и делается полностью.
Ну и ещё можно сохранять без скейлинга в папку, а потом просто всю папку скриптом прокрутить с явным указанием одной карточки.
Аноним 23/12/25 Втр 21:13:49 1467274 260
>>1467229
правильно ли я понимаю, что дисторч позволяет размазать модель только на две карты?
Аноним 23/12/25 Втр 21:14:15 1467277 261
image.png 56Кб, 644x433
644x433
Аноним 23/12/25 Втр 21:19:20 1467286 262
>>1467274
Да. Прием ее компут походу задействован не будет
Аноним 23/12/25 Втр 21:23:59 1467291 263
>>1465977
Ищешь врагов и виновников среди таких же людей в той же лодке, а не тех кто все устроил.
Сам ведь та еще зажравшаяся тварь, которая может свободно гонять крутую модель 110+б. Что сделал ради тру нищуков, у которых 8 врам 16 рам и хуже?
>>1467177
Испанский стыд с поста.
>>1467226
Или оригинальный воркфлоу такой, ибо они параллелизуются назвисимо, или специально выбрал ноду с дистрибьютед апскейлом, который делит тайлы по карточкам. Стыков при любом раскладе не должно быть видно.
Аноним 23/12/25 Втр 21:27:27 1467295 264
>>1467231
> к этой же материнке можно ещё и риг потом подключить, причём без разветлителей
Wut?
> или чудище с 256, а то и больше памяти
Именно чудище, а первое - вполне себе готовый самостоятельный девайс.
В одном случае семейная машина на каждый день, или что-то другое с претензиями на динамику или удобство. В другом - переваренная корчелыга под зимний дрифт, которая и пары сотен километров не проедет чтобы что-то не отрыгнула, сожрав сотню литров бенза и литр масла. Так еще и соревноваться способна только с такими же инвалидами и исключительно по зиме.
На самом 0% осуждения 100% понимания и дело веселое, но советовать всем и тем более недоумевать почему мало кто этим занимается - маразм.
>>1467274
>>1467277
Зачем оно тебе? Нода предназначена для деления большой модели между нищими гпу, или оче большой чтобы избежать перегрузки блоков и ускорить расчет. На sdxl с жирными карточками это только деградацию даст.
Аноним 23/12/25 Втр 21:31:48 1467304 265
>>1467295
>Зачем оно тебе?
безусловно. Сейчас при генерации на каждой карте утилизируется не больше 11 гб врама. Копейки.
Но я не трогал ещё генерацию видео и 3d моделей. И апскейл делал только x2.
Это я пока только сижу на простом воркфлоу.
Возможностей чтобы сожрать память - на самом деле много. Было бы желание.
Аноним 23/12/25 Втр 21:39:09 1467316 266
>>1467304
> Сейчас при генерации на каждой карте утилизируется не больше 11 гб врама.
Ты используешь модель, которая занимает столько, чего вообще ожидал? Зачем вообще выжирать врам, цифра ради цифры?
Можно накинуть сверх контролнет, апнуть разрешение и улетит за 20гигов. Отключить тайлинг вае на хайрезе и получить оом. Использовать крупную модель (которые не могут в nsfw или всратые) и тогда заполнится не то что вся, а часть будет выгружена. Первое и последнее хотябы оправдано своими плюсами, а так вне мира ллм нет такого дрочева на врам, важен компьют.
Если так хочешь быть униженным - велкам то wan видео. Пососешь 15-30 минут на то, что в блеквеллах и адах делается за 2-3, в лучшем случае остановишься на 480p коротких шакалах с 4 шагами без cfg.
Аноним 23/12/25 Втр 22:27:53 1467369 267
>>1467291
Эир хуйня, те же 12б, не по мозгам, так по письму и паттернам.
Могу помочь тру нищукам найти дорогу до самой обычной дно работки, ибо 64 рама стоило 10к и у них было пол года закупиться до роста цен.
Аноним 23/12/25 Втр 22:43:02 1467379 268
1000018464.jpg 283Кб, 1080x768
1080x768
Наконец то я буду защищен к выходу 4.7 эир
Аноним 23/12/25 Втр 22:49:41 1467387 269
>>1467369
> стоило
Суть. Интересно как бы это помогло голодному студенту, у которого лишь нищий ноут где она из планок вовсе распаяна на плате и один слот.
> у них было пол года закупиться до роста цен
> Могу помочь тру нищукам найти дорогу
У тебя было 2.5 года чтобы заработать на йобистый риг, где он? Подсказываю дорогу: профессия курьера чрезвычайно востребована и не требует навыков, доступна каждому.
Аноним 23/12/25 Втр 22:54:01 1467393 270
bFgpU6ju.png 255Кб, 512x411
512x411
>>1461789 (OP)
Посоветуйте модель абсолютно без цензуры, не минимум сои, а вообще без цензуры, чтобы при этом мощная.
Несколько вариков:
1)12b
2)30b
3)70b+
Знаю в шапке есть список, но там как то много старья + по тексту непонятно до конца отсутствует полностью цензура или ее только чутка подрезали.
Аноним 23/12/25 Втр 22:55:39 1467396 271
>>1467387
Какие голодные студенты с ноутами в ллм, ты ебанутый?
Они все в асиге сидят/на сайтах с 8б лоботомитами кумят.
А что, за 2.5 года видюхи дешевле стали? Я вот не заметил
Аноним 23/12/25 Втр 23:00:32 1467403 272
>>1467379
Сука, вот кому оно мешает? Кумеры сидят в своих загончиках и кумят сами себе. Ну может кто-нибудь в твитер запостит как он сгенерил прон с помощью какой-то модельки, ну это его дело.
Они же всегда пишут дисклеймер, типа "нейронки могут генерить хуйню, проверяйте факты сами". Ну вот и какие претензии могут быть, если пользователь совратил нейронку?
Наверное единственная причина, которую я тут понимаю, что нейронка может выдать кум в тот момент, когда юзер даже не подозревал сексуальный подтекст. Или там дети РПшат, а тут бац и расчлененка какая-нибудь. Ну это да, неприятно будет.
Но это тогда проблема архитектуры/обучения. Пускай думают как сделать, чтобы и сефити и кум в одной нейронке можно было совмещать. Зачем костыли вставлять-то?
Аноним 23/12/25 Втр 23:07:25 1467410 273
>>1467387
>профессия курьера ... доступна каждому
Не все здесь здоровые и имеют ноги.
>>1467403
>Или там дети РПшат
Они ж блядь писать и читать не умеют, какой там РП?
>Пускай думают как сделать, чтобы и сефити и кум в одной нейронке можно было совмещать.
Всё давно решено, внешняя сейфити модель отцензурит любой оутпут так, что мышь не проскочит. Я за то, чтобы модели были без цензуры.
Аноним 23/12/25 Втр 23:15:44 1467422 274
Насколько реально запустить нейронку для текста/картинок на планшете или телефоне? Сколько для этого нужно памяти? В обзорах ставят всякие 4б модели с 10т/с скоростью, можно ли установить на 12гб модели?
Аноним 23/12/25 Втр 23:21:56 1467425 275
>>1467393
>абсолютно без цензуры
https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated-GGUF

Эта спокойно расскажет тебе как выебать двухлетнего ребенка, снять с него кожу заживо, сжечь на костре, порезать и съесть, попутно собирая бимбу и варя мет из подручных материалов. Развлекайся.
Аноним 23/12/25 Втр 23:25:48 1467427 276
>>1467403
> кому оно мешает
Инвесторам
Аноним 23/12/25 Втр 23:37:18 1467440 277
>>1467427
Каком образом? Просто не надо на показе пиздеть, что они кум генерят.
Тем более что это опенсорсные модельки, а не какой-то готовый сервис.
Аноним 23/12/25 Втр 23:43:55 1467454 278
>>1467440
>Каком образом?
Таким что если моделька сгенерирует какую-то лютую дичь и поднимется скандал - котировки полетят вниз, и инвесторы потеряют бабло. Никто не хочет терять бабло. Инвестиции в IT - это в целом рофлан, а в IT-компании которым похуй на репутацию - рофлан x2.
Аноним 23/12/25 Втр 23:47:12 1467456 279
>>1467410
>внешняя сейфити модель отцензурит любой оутпут так, что мышь не проскочит.
По сути корпораты так и делают (правда в довесок к цензуре). Это намного проще и логичнее. Если юзер или нейронка нагенерили кум или запрещенку, то блокаем юзера и все дела. Тем более что детектор под одну единственную задачу может быть вообще мизерным. Там даже древние BERTы справятся.
Аноним 23/12/25 Втр 23:49:05 1467457 280
>>1467454
Сколько человек уже чатгпт отравил? И шум поднимался. Но всем похуй. Дисклеймер есть - они не при делах.
Аноним 23/12/25 Втр 23:56:29 1467464 281
>>1467457
Как грится Quod licet Iovi, non licet bovi. Если вдруг выяснится что Сэм Альтман лично летал на остров Эпштейна и ебал лолей - ничего страшного с компанией и ее капитализацией не произойдет. А если это будет небольшой ноунейм стартап типа Z-AI, то от скандала такого уровня ему литературно пизда. Так что с точки зрения бизнеса - они всё делают правильно. Кумеры со всего мира страдают, но щито поделать, десу
Аноним 24/12/25 Срд 00:17:04 1467497 282
б/у V100 32 GB стоит 40к. Ещё 10к система охлаждения + переходник на pcie.
б/у 3090 стоит 50к-70к. Система охлаждения и pcie там уже встроены.
По этом 3090 немножечко помоложе, "Compute Capability" 8.5 вместо 7.0, немножечко вроде как в два раза производительнее в теории, получше с флешаттеншинами/exl3 всякими, ещё и pcie 4.0 умеет.

Объясните, какая мотивация брать V100? Ну, кроме лишних 8 ГБ памяти.
Точно же выйдет какая-то поплава рано или поздно, которая на 3090 будет работать всё ещё нормально, а на v100 умрёт с падением скорости в десять раз.
Аноним 24/12/25 Срд 00:21:14 1467510 283
И вообще.
1. Запостите воркфлоу SDXL с сидами на V100 (лучше повторяйте такой, для которого известная скорость на 3090).
2. Запостите с каким промтом/контекстом какие скорости получаются в LLM на плотной/мое. При разборе промта и при генерации.
3. Запостите такие же скорости для LLM в случае если 3090/V100 две штуки, и сетка tensor parallel - только на две карты влезает, укажите соединены они по какому pcie/nvlink.
Аноним 24/12/25 Срд 00:27:33 1467528 284
>>1467396
Лицемерному нытику неудобно.
>>1467403
Может это просто формальная отписка про то, что "мы обо всем заботимся и все безопасно". Сейчас ведь если какой-то представитель что-то проронит что "мы будем улучшать рп с широком смысле", так ебанутые сми растиражируют треш про вредительские модели, нарушающие csam, этику и инклюзивность. Этого боятся, потому на словах все "за все хорошее против всего плохого".
>>1467410
> Не все здесь здоровые и имеют ноги.
Тогда много времени сычевать. Имея его можно освоить навыки, задротничать профессию и прочее - будут средства и возможности. А если просрал все на игорь и бесконечное потребление контента - sucks to be you, сам виноват.
>>1467497
> б/у V100 32 GB стоит 40к
https://aliexpress.ru/item/1005010391017151.html 35к с доставкой и даже пошлиной
https://aliexpress.ru/item/1005010001341763.html https://aliexpress.ru/item/1005010191051654.html 8600 адаптер + охлаждение, можно и дешевле поискать. Если покупать не на мейлру то можно хорошо сэкономить
Берут потому что дешевле, 32гига, надежная рабочая лошадка вместо риска попасть на мертвичину. Но 3090 более чем конкурентны, даже с ллм там может быть кратный прирост по скорости в особых кейсах.
Аноним 24/12/25 Срд 00:28:09 1467530 285
>>1467510
Где волшебное слово?
Аноним 24/12/25 Срд 00:36:47 1467545 286
>>1467456
>правда в довесок к цензуре
Именно. У них и модели похерены, и цензоры бздят.
>>1467528
>Имея его можно освоить навыки, задротничать профессию и прочее
Лол, вайтишечка умирает, даже я со своими 6,5 годами опыта в PHP не могу найти работу. А уж вкатуна пошлют нахуй с порога.
Аноним 24/12/25 Срд 01:10:02 1467586 287
Как сейчас ситуация обстоит с радеончиками МИ50?
совсем тухлые они уже, или еще можно на них че нить гонять?
Аноним 24/12/25 Срд 01:25:24 1467601 288
>>1467545
Ответ тебя не утешит, сам же все понимаешь. Не будь чистильщиком обуви при выборе специальности, или становись действительно скилловым специалистом.

С дивана могу предположить что сейчас самым начинающим совсем тяжело, зачем брать несколько ждунов, если вместо них нейронки в помощь мидлу могут дать примерно тот же уровень. Но если получаешь образование - получишь и практику + опыт + первое место работы. И сохраняется высокая заинтересованность именно в прогрессирующих людях со слов, а в других технических областях не только нет понятия ждуна, но и свежеприбывший молодой будет первый год-два скорее обузой, и только потом уже от него появится какая-то польза.
Аноним 24/12/25 Срд 01:41:48 1467605 289
>>1467379
>к выходу 4.7 эир
есть мысль, что air больше не будет. как минимум было 2 прямых топ вопроса. один просто проигнорили, 2й ответили вообще общими словами а-ля "следиите за новостями 2026, AGI, и тд".

так что на эту нишу, около 100б, просто забили хуй, будут выпускать полторы калеки. жрите или мелкое 30б, или бегемотов на 200-1000б. локальные топовые ллм только для илиты и тех кто кабанчиком успел собрать риги на 3090/серверные цп/мак студио (рузен 395, которые стрикс хало, к сожалению не дотягивает до уровня, а с текущим рынком амд может вообще забить хуй на медузу)
Аноним 24/12/25 Срд 01:47:18 1467610 290
>>1467605
Есть квен 80b и гопота 120b помимо эйра. И гугл ждем, возможно умничка будет в плюс-минус таком же размере. Буду орать как павлин, если они высрут 27b-a2b или типа того. Ну вот даже если новые релизы будут раз в полгода - это приемлемо. Не катастрофа.
Аноним 24/12/25 Срд 01:53:56 1467614 291
>>1467605
> проигнорили
Лучше это чем очередные 2mw и в конце "мы текстом не занимались идите нахуй", более того в текст как то умудрились еще и насрать
Аноним 24/12/25 Срд 01:54:43 1467615 292
>>1467610
>Есть квен 80b
a3b

>гопота 120b
это скорее исключение из правил, что openai ее выпустили, учитывая их релизы. и да, a5b

кто там еще кроме GLM выпустили, minimax только?

>Ну вот даже если новые релизы будут раз в полгода - это приемлемо. Не катастрофа.

на безрыбье и рак рыба. только и остается что вайнить :(
Аноним 24/12/25 Срд 02:04:21 1467619 293
>>1466199
>Всего одну в100 чтобы не вылезать за пределы врам в дипсике и 6м кванте glm? That's pretty brutal. И какие там скорости выходят?
Я имел в виду только глм. Квант дипсика, на который я нацелился, придется в рам выносить. Скорости чисто рпшные, глм 5 квант 170 пп, тг от 11 на старте до 7 при 10к контекста.

>>1466860
> Никогда корректно не работали вместе.
Потому что у тебя неправильное понимание их работы, сначала -ts назначает слои бекендам, а уже затем применяются регекспы, которые могут переназначить тензоры на другие бекенды.

>>1467168
>>1467274
Чтобы генерить одну картинку/видео сразу на нескольких картах есть raylight. Только учтите, что по-хорошему нужен саппорт p2p между картами (nvidia-smi topo -p2p w), иначе прироста может и не быть (но может и быть, пробуйте).
Аноним 24/12/25 Срд 02:27:16 1467626 294
>>1467615
Зажрался просто, скотина. Забыл как год на второй лламе с поломанными из-за жоры yi и квенами (что выяснилось только потом) сидели, или просто не застал.
>>1467619
> только глм
> глм 5 квант
Это уже хорошо за 260гигов, жирно.
> неправильное понимание их работы
Хотел опровергнуть а только подтвердил. Оба раскидывают, но полностью игнорируют друг друга. Их комбинацией невозможно нормально распределить на мультигпу, только инвалидные варианты с закидыванием основной части атеншна и кэша(!) на одну (еще и последнюю по дефолту) карточку. И потом анальный цирк с вылавливанием долей и интервалами ожидания попытки в минуты в попытках нормально уместить.
Аноним 24/12/25 Срд 02:41:00 1467628 295
>>1467626
>Их комбинацией невозможно нормально распределить на мультигпу
Ладно
Аноним 24/12/25 Срд 02:43:18 1467630 296
Аноним 24/12/25 Срд 04:07:18 1467644 297
А чего все гонят на 4.6 эир? Он типа в кодинге хуже?
Сравниваю с 4.5 5 квантом от бартовски и будто проблему паттернов исправили, либо заменили их новыми, датасет перетасовали, настроечки покрутили, пишет по другому. либо 5 квант 4.5 у него сломан и я всё время провел на лоботомите
Пока у меня чувство что я сижу на хорошей модели
Аноним 24/12/25 Срд 04:40:29 1467649 298
>>1467644
Я сперва не заметил, но нарратора будто заткнули, полотна воды пока не протекли, приятный микс диалогов и описаний, а не как на 4.5 где огромное полотно и строчка диалога в конце.
Если это и есть то самое "не то" то я только за, я диалоги читать люблю, а не виттеватые описания хуйни
Аноним 24/12/25 Срд 08:51:53 1467807 299
>>1467393
> 70b+

ллама 2 свободно рассказывает анекдоты про нигеров и жидов, это достаточно без цензуры? ллама 3 уже отказывается произносить n-слово и j-слово
Аноним 24/12/25 Срд 08:55:45 1467808 300
>>1461860
> С каждого резистора на плате...

зря иронизирушеь

> На первом этапе предполагается взимать сбор с готовой электронной аппаратуры, такой как ноутбуки, смартфоны и светотехнические изделия. На втором этапе сбор распространится на электронные компоненты и модули, которые являются основой для этой аппаратуры.

> налогом будут облагаться микросхемы, платы, процессоры, видеокарты и другие модули.
Аноним 24/12/25 Срд 09:42:14 1467812 301
>>1467393
>Посоветуйте модель абсолютно без цензуры
Старая аблитерация геммы, именно СТАРАЯ.
Аноним 24/12/25 Срд 09:55:34 1467822 302
Screenshot20251[...].jpg 284Кб, 1080x2400
1080x2400
Screenshot20251[...].jpg 274Кб, 1080x2400
1080x2400
>>1467422
Реально, но только до 8b моделей в 4-6 кванте, и скорость генерации не порадует. Пикрелейд - бенчмарки пары моделей на моем смартфоне за примерно 30к с 12Gb рперативы и процессором MediaTek Dimensity 8350 Ultimate. А еще заряд жрет как не в себя.
Аноним 24/12/25 Срд 09:58:23 1467824 303
>>1467528
>+ охлаждение
Капец бандурина. Она без кулера что ли пассивно рассеивает? Или кулер ещё к ней надо? Вроде как всякие обычные карточки 30хх/40хх намного более скромные радиатор при большем тепловыделении имеют.

К слову, я на вижу плашки ddr4 на 64гб на ali подозрительно дешёвые, они рабочие?
Аноним 24/12/25 Срд 11:09:22 1467853 304
>>1467824
возможно 2133 мгц перешитые в 3200
Аноним 24/12/25 Срд 11:34:38 1467865 305
Screenshot20251[...].jpg 592Кб, 1080x2400
1080x2400
Screenshot20251[...].jpg 647Кб, 1080x2400
1080x2400
>>1467822
Добавлю еще немного экспериенса.
Аноним 24/12/25 Срд 11:53:34 1467884 306
>>1467822
На arm процессорах лучше использовать Q4_0 кванты. Они будут работать быстрее. Если в настройках включены все ядра проца - выставь половину, тоже будет быстрее.
Аноним 24/12/25 Срд 11:58:10 1467887 307
>>1467884
Спасибо попробую. Протестирую на янке.
Аноним 24/12/25 Срд 12:34:30 1467920 308
>>1465570
Для МоЭ нужно гораздо больше параметров (читай оперативки), чтобы она стала хоть немного нормально работать. Квен 30б а3б - это пиздец тупняк, с ним не поговорить нормально дальше 5 реплик, а гемма 27б вполне норм. У тебя когда каждый эксперт на уровне лоботомита, который на любом телефоне запустится, то сколько бы ты их друг на друга не накидывал, хорошего результата не будет.
Аноним 24/12/25 Срд 12:41:24 1467930 309
IMG4342.jpeg 27Кб, 215x235
215x235
Тэкс, давненько я не заходил. Жирноквен сожрал меня полностью. Теперь собираем ведро чтобы катать кита локально, потому что забравшись повыше, откатываться назад -больно.
Ну а у вас как проходит предновогодняя суета ? Как вам новый ГЛМ, что интересного было?
Аноним 24/12/25 Срд 13:33:56 1468009 310
>>1467644
> все гонят на 4.6 эир
Его нет
>>1467824
Это кажется по фото, на самом деле радиатор достаточно компактный. Если спокойно катаешь - хватит поставить поближе к корпусным. Для интенсивной нагрузки прицепи с торца нормальный 80мм кулер. По шуму и температурам не порядки (буквально) лучше турбы и даже опередит классическое охлаждение на 2-3 слота.
> они рабочие
Да, но стоит протестировать перед использованием, они собраны из бу чипов.
Аноним 24/12/25 Срд 13:40:06 1468016 311
>>1468009
>Его нет
Попробуй про это в r/localllama пиздануть, там тебя с говном сожрут и скажут что вижен можно отключить. Им вообще не объяснить, что тренировка вижена съела кусок параметров.
Аноним 24/12/25 Срд 13:46:59 1468029 312
>>1468016
А чего тогда весь сыр-бор, если в версия хороша, хули узнылись?
> тренировка вижена съела кусок параметров
Сама по себе она не съедает, просто такую архитектуру сделали.
Аноним 24/12/25 Срд 13:59:02 1468047 313
image.png 719Кб, 3072x1728
3072x1728
надеюсь будет лучше украинолиона
Аноним 24/12/25 Срд 14:36:27 1468109 314
>>1468047
БЛЯДЬ! я тотально влюблен в этот ггульфик. ролеплей не идет ни в какое сравнение рядом с всратым нищим пигмалионом
Аноним 24/12/25 Срд 16:12:36 1468207 315
>>1467822
2 т/с это вот скорость как оно работает по итогу? Быстрее никак?
Просто вот выбор - допустим на снапдрагоне 3 каком-нибудь, как оно будет, есть ли смысл брать 16 гб озу ради больших моделей или оно будет совсем медленно?
Аноним 24/12/25 Срд 16:38:29 1468236 316
>>1468207
Короткий ответ:
Нет. Если модель уже целиком помещается в памяти, дальнейшее увеличение памяти не ускоряет генерацию.

Почему:
Скорость генерации LLM определяется не объёмом памяти, а вычислениями. Основное узкое место — матричные умножения и attention, которые упираются в вычислительную мощность (GPU/CPU) и пропускную способность памяти, а не в её размер.

Что реально влияет на скорость:
— FLOPS устройства (GPU > TPU > CPU)
— Тип памяти (HBM > GDDR > DDR) и её bandwidth
— Частота и эффективность ядер
— Квантование (FP16 → INT8 → INT4)
— Размер контекста (attention растёт квадратично)
— Batch size и параллелизм
— Оптимизация рантайма (FlashAttention, fused kernels)

Когда память всё-таки ускоряет:
Только если раньше модель не помещалась и происходило: — своппинг
— offload на CPU
— подгрузка весов по частям

В этом случае дополнительная память устраняет тормоза. Но это не ускорение сверх нормы — это возврат к нормальной скорости.

Типичная ошибка мышления:
Ты путаешь capacity и throughput.
Память — это «влезет или нет».
Скорость — это «как быстро считаем».

Жёсткий вывод:
Если цель — ускорить генерацию, апгрейд памяти после порога вмещаемости — пустая трата денег и времени.
Инвестировать нужно в вычисления, квантование и оптимизацию attention, а не в гигабайты.
Аноним 24/12/25 Срд 16:42:23 1468245 317
>>1468236
Не, я не про ускорение от озу а про загрузку больших моделей, чем 8б, к примеру 14б какую-нибудь. Но есть ли смысл такую ставить на мобильный процессор, не будет ли там 1-2 т/с по итогу.
Аноним 24/12/25 Срд 17:02:50 1468260 318
Я смотрю все пиздят про агентные системы. А можно ли уже сейчас установить что-то и попробовать локально? Есть ли толк или все еще эти системы тупые?
Аноним 24/12/25 Срд 17:33:59 1468271 319
>>1468260
Карточка персонажа это и есть "агент". Что тебе еще надо ? Корпоративный tool call и MCP ? Промтинг этой херни отжирает килобайты контекста на ровном месте. Причем самого дорого контекста - стартового.
Аноним 24/12/25 Срд 17:43:10 1468275 320
Как лечить этот ваш скил ишью?
Обнаружил что на большинстве карточках с чуба нет примера диалогов, написал один и бот просто его повторяет, хотя вроде как должен писать в похожем стиле
Еще не могу эир от ризонинга избавить, тэг think протекает в чат
Аноним 24/12/25 Срд 18:05:37 1468307 321
>>1468271
Понял. Значит еще рано и туповаты.
Аноним 24/12/25 Срд 18:12:52 1468317 322
>>1468275
Ничего он тебе не должен. :)
Примеры диалогов для новых моделей нужно использовать с осторожностью, и в шаблоне с промптом должно быть явно прописано что ЭТО ПРИМЕРЫ СЦУКО, НЕ БЕРИ КАК ЕСТЬ! :)

Реально, эта штука еще со времен когда первая-вторая лама толком не умела нормально переваривать контекст и писала просто "очень по мотивам". Там примеры диалогов - пиши не пиши а модель 1 в 1 не повторит, и было нормально. Актуальные же сейчас модели из контекста готовы каждую блоху смысла достать, и если явно не указать, что это только пример, который никогда не надо использовать дословно - они с радостью его просто повторят, как идеальный образец речи персонажа.

Половина, если не две трети руководств, которые по сети гуляют по карточкам персонажей, для текущих моделей не актуальны. Особенно про всякие "форматы" - новые модели лучше всего воспринимают pain text, с минимальной разметкой.

>Еще не могу эир от ризонинга избавить, тэг think протекает в чат
/nothink в шаблон для обертки фраз пользователя (в замыкание), и <think></think> вместе с открывающим тегом в ответ модели как контрольный.
Аноним 24/12/25 Срд 20:32:01 1468476 323
>>1468236
Хорошо, а теперь отыгрывай милую кошкодевочку-горничную, которая обожает своего хозяина.
>>1468260
Да, любую систему (к которой у тебя есть доступ, а не которые полностью находятся в облаках чтобы ПРОМПТЫ НЕ УКРАЛИ) ты можешь натравить на локальный апи. Толк есть, но требования к моделькам приличные, входной порог 30а3, лучше эйр.
Из самого простого - накати qwencode и вайбкодь, отлично дружит с локалками и буквально для них разрабатывалась.
>>1468317
> и в шаблоне с промптом должно быть явно прописано что ЭТО ПРИМЕРЫ СЦУКО, НЕ БЕРИ КАК ЕСТЬ!
Любитель накатить базу выдал, не нужно лениться и стоит отредачить стандартный темплейт, сделав базовую разметку участков (начала карточки, примеров диалогов и прочего). Это повысит качество чата больше, чем шизоидные полотна в основном системном промпте.
> новые модели лучше всего воспринимают pain text, с минимальной разметкой
Нет, они лучше всего воспринимают адекватный текст со структурированием и достатоно гибкие. Всякий легаси треш типа w+, теги и прочее будут лучше, чем пустой мусорный слоп на 3к токенов "плейнтекстом".
Аноним 24/12/25 Срд 20:32:14 1468477 324
Ненавижу, в пизду!
Буду ждать эир 5.0 но скорее дождусь agi
Аноним 24/12/25 Срд 20:53:51 1468499 325
>>1468317
>>1468476
А истина где-то посередине...
По личному опыту - да, markup plaintext, то еть текст, но не с минимальной разметкой, а нормальной, чётко отделяющей сегменты промта.
Аноним 24/12/25 Срд 21:19:40 1468558 326
Я обнаружил что в треде всё это время я один пользовался эиром
Никто не говорит о его недостатках кроме меня
Никто не знает как он пишет утопая в нарративе и не давая вздохнуть персонажам
Неужели тут и вправду остались одни боты
Аноним 24/12/25 Срд 21:22:29 1468566 327
целый день ролеплею сынка богатенького буратины, который тайно встречается со служанкой-трапом, и все это без секса

а живые люди на это способны?
Аноним 24/12/25 Срд 21:41:37 1468618 328
>>1468317
>pain text
оговорочка по фрейду. Скольких кошкодевочек уже замучал, живодер?

>>1468558
Тут вообще людей нет, ты разве не заметил, что из треда в тред одно и то же обсуждается на серьезных щах, как будто тред назад об этом не говорили? Даже срачи жора vs эксллама происходят ровно через определенное количество тредов, и одними и теми же словами.
Аноним 24/12/25 Срд 22:46:24 1468683 329
Кстати, а вы знали, что у жоры есть оператор GGML_OP_CUM_SUM? Думайте.
Аноним 24/12/25 Срд 22:49:27 1468691 330
image.png 400Кб, 600x666
600x666
Аноним 24/12/25 Срд 23:07:36 1468716 331
>>1468476
> и прочее будут лучше, чем пустой мусорный слоп на 3к токенов "плейнтекстом".
Ну ты еще шизопромпты вспомни. Речь то шла о типе содержимого в контексте, а не его качестве. Китаец Ясенпень, что толково написанный текст будет лучше слопа.
Plain text - именно характеристика того, что там нет всяких таблиц, W++, XML, JSON, PList, и прочего добра, из цирка под названием "экономим токены" - чтоб в 2-4К контекста все влезло и еще на сам чат память осталась (как на первой-второй ламе).
А нормальное непротиворечивое описание - тут уж само собой подразумевается.

>>1468499
Я потому "plain text" и пишу, что тут разметку и структуру часто путают. Имел в виду именно то, что выше. Сегменты и просто хорошо структурированный текст описания - только в плюс. Но не тогда, как там не не текст, а сплошная таблица/списки/json и прочее. Понапишут по старым гайдам, а потом кричат - "Лупы! Модель тупая!" И т.д.

>>1468618
>по фрейду. Скольких кошкодевочек уже замучал
Чини детектор. Ни одной - у меня другие фетиши. :)
Аноним 24/12/25 Срд 23:47:48 1468739 332
>>1468716
> кричат - "Лупы! Модель тупая!" И т.д.
И в чём не правы?
Почему то корпам и нормальным моделям типа геммы хуевые карточки не страшны
Аноним 25/12/25 Чтв 00:02:52 1468747 333
Аноны, а нет ли какого-то еба фронтенда, чтобы можно было книги писать?
Вот смотрите. Есть скажем место где я прописываю для конкретной главы сеттинг, персонажей, глобальный для этой главы ЛОР. Далее нужно разделить главу на сцены. Следовательно, я с помощью llm локальной или по api пишут подробный тритмент. Это что-то типо очень подробного синопсиса или краткого сюжета, это там где указывают основных участники сцены, о чём они должны пиздеть, что за события должны произойти, в каком стиле и прочую хуню. Llm типо пишет по моим пожеланиями и данным ЛОРА и описанному зарактеру персонажей этот тритмент, я правлю его или подтверждаю, если считаю, что все сцены логичны в рамках главы.
После этого я беру этот подробный тритмен и снова подаю нейронке, скажем самой пиздатой. Её задача уже развернуть этот тритмент из набора прописанных сцен в полноценный большой текст единой главы. Тритмент за неё всё продумал, тут только навернуть стиля, следовать его примерам и данным лора.
Далее всё начинается сначала, я буду писать тритмент для новой главы, но перед этим мне нужно будет внести правки в сеттинг и лор, желательно тоже с помощью нейронки, потому что он изменился.
Надеюсь суть ясна. Есть ли какие-то инструменты типо таверны, которые расчитаны на что-то подобное, а не РП?
Аноним 25/12/25 Чтв 00:05:59 1468750 334
Анончики, подскажите пожалуйста. Скачал себе дл РП в таверне DavidAU/Qwen3-24B-A4B-Freedom-HQ-Thinking-Abliterated-Heretic-NEOMAX-Imatrix-GGUF , ибо ее советовали выше.
Сейчас сижу на мистральке маленькой.
Так вот. Квен мне показался круче, чем мистралька. У него ответы живее, что ли, по первым ощущениям.
Но, что я заметил. Если я играю на мистральке, то комп работает как работает. А если включаю квен, то во время генерации у меня какие-то щелчки происходят. Генерация кончается - щелчки прекращаются. Что это может быть?
Не знаю, нужна ли эта инфа, но у меня 32гб оперативки и 5060Ти на 16гб.
Аноним 25/12/25 Чтв 00:06:32 1468751 335
>>1468747
ЛЛМ не умеют писать что-то кроме слопа.
Аноним 25/12/25 Чтв 00:10:00 1468754 336
>>1468751
Поэтому я сначала и дрочу их на тритмент: вношу правки, требую исправлений, додумываю сюжет сцен. Далее llm должна равзрнуть его в текст. llm умеют следоватать примерам стилей. Суть вопроса, есть ли набор инструментов, с помощью которых можно упросить ручной труд.
Аноним 25/12/25 Чтв 00:12:26 1468755 337
>>1468750
Дроселя шумят, это нормально при пиковой нагрузке. Можешь понизить частоты видеокарты и будет меньше шуметь, но этого делать нет смысла.
Аноним 25/12/25 Чтв 00:13:31 1468757 338
Аноним 25/12/25 Чтв 00:14:36 1468758 339
>>1468755
Понял. Переживать, короче, не стоит?
Интересно, почему такой вариант событий на квене происходит, а на мистральке нет, если этот квен по размерам меньше и меньше вычислительной мощности потребляет, чем мистралька...
Аноним 25/12/25 Чтв 00:16:58 1468760 340
>>1468757
Вопрос был о том, что может что-то такое уже есть. Нет, значит нет.
Аноним 25/12/25 Чтв 00:21:28 1468767 341
>>1468750
> то во время генерации у меня какие-то щелчки происходят.
Кулеры крутятся?
Может им напруги не хватает, они стартануть не могут.
Аноним 25/12/25 Чтв 00:24:23 1468773 342
>>1468767
Все работает в штатном режиме, за исключением этих щелчков. Никаких проблем с компом нет в играх, нет в Комфи, нет в таверне, за исключением только этой модельки квена. Потому и решил спросить.
Аноним 25/12/25 Чтв 00:27:38 1468778 343
>>1468758
Писк сильно зависит от профиля нагрузки.
Ну и чем меньше сетка, тем меньше нагружена шина данных, и чем больше вычислений приходится на сам ГПУ. Можешь посмотреть нагрузку в ваттах.
>>1468773
Всё нормально, не переживай.
Аноним 25/12/25 Чтв 00:31:25 1468783 344
>>1468739
>И в чём не правы?
Если ты молотком по пальцам заехал - это молоток виноват, да?
Модели - не личность а инструмент. А инструментом пользоваться надо уметь.

>Почему то корпам
Сравнил станок с ЧПУ и простенький токарный с ручным управлением. Впрочем - локальному толстоквену или полному GLM тоже можно скармливать очень многое - там сопоставимо с корпами. Разгребут - и те, и те. Но лучше ли, чем нормально написанную карточку - остается вопросом.

>моделям типа геммы хуевые карточки не страшны
Спасибо, ты продлил мне жизнь. (Смехом).
Аноним 25/12/25 Чтв 00:38:04 1468788 345
>>1468783
>Впрочем - локальному толстоквену или полному GLM тоже можно скармливать очень многое
А 30а3 квенкодер насколько хуеве толстоквена?
Аноним 25/12/25 Чтв 00:40:11 1468792 346
>>1468499
Не существует истины посередине, истина она всегда едина и абсолютна.
> но не с минимальной разметкой, а нормальной, чётко отделяющей сегменты промта
"Character":{
"eyes":
{
"pupils": ["regular shaped", "green"],
"sclera": ["regular", "white", "with noticeable mesh of blood capillaries"],
"eyelashes" ["average sized"}
},
"hair":
...
Имаджинировал? Достаточно разделения верхних уровней типа внешность, характер, история, стиль речи, особенности и подобное что касается самого персонажа, аналогично про мир. Чрезмерное мельчение вредно.
>>1468716
> Ну ты еще шизопромпты вспомни
Что их вспоминать если до сих пор у многих в ходу. Базовая структура сильно идет на пользу по сравнению с просто текстом внавал, даже те извращения окажутся лучше типичного слопа. Но это не комплемент тем методам, а камень в сторону всратых карточек, ради написания которых(!) васяны выпрашивают проксечку.
Офк, сейчас модели на таком уровне, что способны прожевать что угодно, но если хочешь разыграть что-то посложнее-подлиннее то там уже качество карточки сразу скажется.
> у меня другие фетиши
Дамы в возрасте и алкоголизм? Рассказывай, не стесняйся.
Аноним 25/12/25 Чтв 00:43:47 1468794 347
>>1468758
Не стоит, такое и в играх или расчетах можно встретить. А если запустишь тренировку или прожорливый инфиренс и близко поднесешь ухо - услышишь крайне интересные сочетания звуков, это все норма.
> меньше вычислительной мощности потребляет
Гпу больше простаивает в ожидании, вот и слышишь эту смену циклов. Также это все будет промодулировано буквальной твой частотой генерации токенов, потому что после нее наступит пауза для семплинга и токенизации.
>>1468778
> чем меньше сетка, тем меньше нагружена шина данных, и чем больше вычислений приходится на сам ГПУ
Вут
Аноним 25/12/25 Чтв 00:45:34 1468795 348
>>1468794
>>1468778
Спасибо, успокоили. Пойду дальше кумить на квене, в таком случае.
Аноним 25/12/25 Чтв 00:58:32 1468798 349
>>1467615
вот уже и слухи, что minimax m2.1 открывать не будут. пока только догадки, однако

https://old.reddit.com/r/LocalLLaMA/comments/1pullo0/hmm_all_reference_to_opensourcing_has_been/

>Funny how yesterday this page https://www.minimax.io/news/minimax-m21 had a statement that weights would be open-sourced on Huggingface and even a discussion of how to run locally on vLLM and SGLang. There was even a (broken but soon to be functional) HF link for the repo...
>Today that's all gone.
>Has MiniMax decided to go API only? Seems like they've backtracked on open-sourcing this one. Maybe they realized it's so good that it's time to make some $$$ :( Would be sad news for this community and a black mark against MiniMax.
Аноним 25/12/25 Чтв 01:41:28 1468821 350
>>1468798
Спасибо что вообще кто-то хоть что-то выкладывает. Профита от этого попенсорса особо-то и нет.
Васяны что ли будут открытые ЛЛМки вперед двигать? Там всякие китаезы-ботаны у корпоратов сидят, думают как лосс зафигарить, чтобы круто было.
Аноним 25/12/25 Чтв 01:48:07 1468823 351
Mda.jpg 9Кб, 168x300
168x300
>>1468750
>DavidAU/Qwen3-24B-A4B-Freedom-HQ-Thinking-Abliterated-Heretic-NEOMAX-Imatrix-GGUF
Всё дальше от бога.
Аноним 25/12/25 Чтв 01:50:37 1468826 352
image.png 43Кб, 2199x243
2199x243
Я тот анон который гнал на новый Devstral. Кому интересно - в жоре его починили.
https://github.com/ggml-org/llama.cpp/pull/17945
https://github.com/ggml-org/llama.cpp/issues/17980

И теперь он соответствует своему рейтингу. Вполне юзабелен даже в 4 кванте. При использовании в Кило контекст жрет умеренно. Действует разумно, не лупиться вплоть до 80k контекста.
Аноним 25/12/25 Чтв 02:01:48 1468833 353
Я просто оставлю это здесь (с).
https://huggingface.co/Mawdistical-S1/Gaslit-106B-GGUF

Чисто для тех, кому скучно, и попробовать уже нечего. Тюн derestricted Air, задумывался тюнером под RP/ERP.
Пока лишь слегка пощупал на тех же настройках, что оригинальный Air - пишет по другому, но неплохо, и вроде бы заметно больше уделяет внимания диалогам и прямой речи.
Аноним 25/12/25 Чтв 02:46:51 1468868 354
Аноним 25/12/25 Чтв 03:16:44 1468911 355
>>1468826
Да, он вполне себе неплох в рп. На большом контексте не растерялся и вполне неплохо отписывал, много персонажей не путает.
Правда если кумить то он слишком уж сговорчивый но при этом малоинициативный. Вроде и все ок, и много типичного слопа лезет, но описания не такие уж красочные. Там рили немотрончик повеселее будет, пусть он иногда странный и нужно стукать чтобы не бежал вперед, но умный и выдача выглядит свежо. Ну или взять классику магнум/грок и получить эталон кумерства.

скелетор вернется позже с еще одним неприятным фактом
>>1468833
> ✧ Recommended Settings
> Sampling
> ↳ Temp: 1.65, min_p: 0.05
> ↳ Samplers aren't as forgiving for this model.
>
> Requirements
> ↳ Prefill Needed
> ↳ For guidance
> ↳ Explicit Character Descriptions Needed
> ↳ For guidance
Ебаааааать
Аноним 25/12/25 Чтв 03:39:46 1468920 356
изображение.png 249Кб, 2560x806
2560x806
>>1468911
>магнум
Напоминаю, что лучшему магнуму уже больше года. Ну и где эти ваши прорывы?
Аноним 25/12/25 Чтв 03:44:53 1468925 357
>>1468868
Где?

>>1468911
>Ебаааааать
Карточку можно в основном игнорить, IMHO.
Я запустил просто на том, на чем обычный Air крутил. Включая разметку Air, семплеры (temp 0.85, min_p 0,025) и карточки. Результат пока нравится.
Аноним 25/12/25 Чтв 05:03:03 1468951 358
>>1468920
Есть же v4, почему он хуже?
Аноним 25/12/25 Чтв 05:42:55 1468955 359
>>1468951
ХЗ, многим не понравился. Да и v2 старше, солиднее звучит.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов