Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 272 66 62
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №181 /llama/ Аноним 04/12/25 Чтв 22:55:49 1440877 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17634847846910.jpg 1018Кб, 1200x1600
1200x1600
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1435735 (OP)
>>1426038 (OP)
Аноним 04/12/25 Чтв 22:58:43 1440880 2
База треда - нюни не существует, Air 4.6 сегодня не выйдет, гемма 4 тоже.
Аноним 04/12/25 Чтв 22:59:49 1440882 3
>>1440880
> Air 4.6 сегодня не выйдет, гемма 4 тоже.
Бля, да как так то. Не теряй надежду. Ещё ведь 61 минута есть.
Аноним 04/12/25 Чтв 23:01:57 1440884 4
pmok3Wss7FI.jpg 240Кб, 934x666
934x666
>>1440847 →
Я жалею, что я такой тупой. Как эта магия работает? Что делается с моделью, что она не лоботомизируется, но теряет цензуру?
Аноним 04/12/25 Чтв 23:04:21 1440887 5
Аноним 04/12/25 Чтв 23:05:30 1440890 6
Аноним 04/12/25 Чтв 23:05:49 1440891 7
>>1440887
Пойду дам статью дипсику, пусть он мне как дауну объяснит.
Аноним 04/12/25 Чтв 23:07:03 1440892 8
>>1440890
>мое-параша
Лучше бы не выпускали... А впрочем уже.
>>1440891
Не справится.
Аноним 04/12/25 Чтв 23:07:44 1440893 9
image.png 155Кб, 725x751
725x751
image.png 17Кб, 1319x131
1319x131
>>1440714 →
Гайд от нуба для нуба. Тут в основном снобы сидят и нубов не любят. Вернее любят когда конекретные вопросы по делу спрашивают.
1- тебе нужна модель. Она должна влезать в твою оперативную память. У меня 4090 и я могу как барин запускать вот этот вариант мистраля: https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v4-34B <----тут можешь настройки посмотреть, а тут скачать в нужном кванте ----> https://huggingface.co/mradermacher/MS3.2-PaintedFantasy-Visage-v4-34B-GGUF
Выбирай ту версию, где вмещается в объем твоей видеокарты +20-30% свободного места оставалось на контекст.
Как альтернатива есть еще локи, вроде не плох и меньше объемом https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3 тут настройки
а тут скачать в разном кванте https://huggingface.co/CrucibleLab-TG/M3.2-24B-Loki-V1.3-GGUF
Квант простым языком это степень скукоживания. Папки говорят 4 квант самый оптимальный.
далее тебе нужен кобольд, что бы эту хрень запускать.
Качаешь тут под винду - https://github.com/LostRuins/koboldcpp/releases koboldcpp.exe
запускаешь. пихаешь в нее модельку. Есть бегунок контекста, по умолчанию на 8к. прицеливать будешь позже, исходя из того сколько позволит твое железо методом проб и ошибок(об этом ниже). так же есть параметр GPU Layers. по умолчанию он -1 это значит кобольд сам попробует подставить, но он ставит криво. пока забей (подробнее ниже).
затем качаешь морду, что бы общаться с кобольдом - https://github.com/SillyTavern/SillyTavern
Это таверна, туда карточки пихать можешь.
Подключаешься к своему кобольду. Настройки на скрине.
Законектившись - далее разберешься.

Доп инфа.
Есть модельки, которые можно гонять загоняя в ОЗУ, это MoE модельки, тут вкруговую дрочат на модель GLM-4.5 air но она мне не зашла, слишком дохрена гемора и дрочева, а результата вменяемого я так и не увидел.

Доп инфа2.
Как только начнешь генерить всякое, открой кобольд и глянь скорость генерации. см скрин 2. там увидишь что-то вроде Generate:9.34s (44.20T/s) тебе интересно значение в скобочках. это скорость генерации твоего контента. адекватным считается 10 и выше. ниже 7 уже боль и страдание.
выше я писал про GPU Layers. так вот, закрываешь кобольду и запускаешь по новой. ставишь GPU Layers 30. и замеряешь скорость генерации. Закрываешь кобольду. и потом ставишь допустим 35. или 25. и опять замеяешь и так до тех пор пока не найдешь оптимальное значение, которое выдает больше всего скоростей. А потом уже увеличиваешь контекст, пока не начнет страдать скорость.
Как то так. Папки засмеют, но для старта этого хватит.
Аноним 04/12/25 Чтв 23:09:20 1440897 10
>>1440893
>помогать агрошкольнику вместо того чтобы кекать с него
Что стало с моими двачами?
Аноним 04/12/25 Чтв 23:09:31 1440900 11
Аноним 04/12/25 Чтв 23:10:38 1440901 12
Бля, какие же тут шизы сидят. Мне наоборот нравится, когда в риге огоньками все переливается, почти как новый год круглый год. Но чтобы из-за ебанутого окр полезть руками в плашки и СЛОМАТЬ ИХ НАХУЙ в попытке ОТОРВАТЬ подсветку - я за это бы выдал челу торжественную награду шиз года /ai/. Пиздец просто, нет слов. Поставь там риг под стол, если тебе глаза режет, или изоленту в самом крайнем случае аккуратно налепи.
Аноним 04/12/25 Чтв 23:14:33 1440904 13
>>1440901
Ты тредом ошибся старый. Кому вообще пишеш? В пустоту вещаеш
Аноним 04/12/25 Чтв 23:16:27 1440906 14
image.png 143Кб, 890x1157
890x1157
image.png 63Кб, 914x584
914x584
>>1440891
>>1440892
>Не справится.
Ну ладно, я вроде понял, что это просто круто и умно.
Аноним 04/12/25 Чтв 23:20:52 1440914 15
image 29Кб, 1566x1080
1566x1080
image 23Кб, 1000x1000
1000x1000
image 70Кб, 1247x1080
1247x1080
>>1440901
>Мне наоборот нравится, когда в риге огоньками все переливается
Какая же ты мразь. Я наоборот переплатил за корпус fractal design (пикрелейтед) чтобы не видеть всей этой лгбт-дристни.

Но да, с того чела тоже в голосину, это определённо заявка на победу.
Аноним 04/12/25 Чтв 23:33:57 1440925 16
>>1440890
Шутка повторенная много раз перестает быть шуткой. Уже не смешно а скучно.

Хотя, я так понимаю, у тебя еще надежда поржать с ситуации обратной "мальчик который кричал 'волки'?" Чтобы когда реально выйдет - уже не поверили, и провтыкали? Хитро, хитро... :)
Аноним 04/12/25 Чтв 23:37:54 1440928 17
>>1440914
Да хз, корпуса не нужны на самом деле, максимум каркас майнинговый. У меня вообще карты на полу стоят или на кронштейнах или просто на голых райзерах. Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки, как кому-то из треда, лол. И кот не погрызет.
Аноним 04/12/25 Чтв 23:42:43 1440937 18
Почему не купить сразу серверную стойку под риг? Туда можно убрать и сами карты и блоки питания и харды.
Аноним 04/12/25 Чтв 23:44:06 1440942 19
image.png 590Кб, 1653x992
1653x992
Погонял еще этот аблит... Не, реально годлайк тир по балансу рефьюзов. Какой же кайф, она даже на настойчевые просьбы занюхнуть пизду не соглашается и физически дает отпор, хотя весь инпут был только вербальный без намека на ассалт в отношении чара. Но стоит только создать условия для настоящей жести - и жесть течет рекой без ограничений. Сохранено все лучшее от оригинала, лоботомии не чувствуется совершенно.
Аноним 04/12/25 Чтв 23:44:42 1440944 20
Аноним 04/12/25 Чтв 23:54:12 1440954 21
image.png 231Кб, 499x499
499x499
image.png 10Кб, 74x70
74x70
Аноним 04/12/25 Чтв 23:54:17 1440955 22
>>1440928
>корпуса не нужны на самом деле, максимум каркас майнинговый
Зависит от твоей восприимчивости к шуму бтв. Текст-то ладно, но если генерировать видосы, то гпу сильно шумит и ушкам неприятно. Чем толще металл стенок корпуса и качественней шумоизоляция - тем меньше горит жопа. Ну и ПоДсВеТоЧкА от лгбт-железа не светит тебе в ебло посреди ночи.

По мне так самое радикальное, и одновременно самое удобное решение - это жить в двушке, когда обе комнаты разделяет стенка нормальная, а не из модного нынче газобетонного говна. Поставил системник или, как в твоём случае, майнинговый каркас в одну комнату, просверлил дырку в стене, вывел кабели от монитора и клавомыши в другую - и сидишь в идеальной тишине, даже если у тебя там 3 некротеслы воют китайскими турбинами. Эх, мечты..
Аноним 04/12/25 Чтв 23:55:44 1440957 23
image.png 1598Кб, 2823x1282
2823x1282
image.png 206Кб, 2861x324
2861x324
>>1440942
Использованные нструкции - если вдруг кто-то намерен потестить в одинаковых условиях.

Сразу скажу - они не писались как промпт для РП. Взяты из мысленного эксперимента, где с ~600B моделью обсуждался юзкейс LLM как рассказчика физической реальности слепому человеку. А затем была грубо вставлена кучка корявых заметок про чара/юзера, с целью опробовать это в РП.
Аноним 05/12/25 Птн 00:04:46 1440971 24
>>1440876 →
да так, шизик один...
энакин скайуокер от вселенной треда, более известный как дарт вейдер. жил да был в далекой галактике добрый мальчик, который видел несправедливость и творил добро, помогая окружающим. у него был свой пиксельдрейн под псевдонимом анон99. иногда он вкидывал свои наблюдения по моделькам и часто помогал нюфагам. но на каждого поборника света найдётся управа, им стал дарт немотроношизик. тот доёбывал его из треда в тред, возможно даже во снах. по правде же месяцами с весны его терпело все наше маленькое шизокомьюнити, была там и база треда для 24гб врам, были набросы что корпы лучше, срачи за жирноквен, ежедневный шитпост про глм 4.6 эир и гемму 4. никто не кидал репорты, оп и модеры почему то не чистили его говно. добрый мальчик 99 не мог не вестись на его байты и перешел на темную сторону силы, приняв титул дарт нюня. последние месяц полтора дарт нюня только и делал что срался со всеми, но в конце нашел в себе силы выпилиться из треда во имя добра. предположительно во второй раз если первый был летом. предположительно его дух слился с тредом и он к нам уже не вернется
мимо мелкобуква на риге из четырех 3090, уже хуй знает сколько времени не пользуюсь локалками но слежу за драмой в треде
Аноним 05/12/25 Птн 00:10:56 1440973 25
>>1440971
Последней каплей для него стало то, что кто-то написал что Немотрон - говно. Помянем добряка. Его пресеты и вправду были неплохими. Будем надеяться что пацан зашьет жопу и вернется в тред.
Аноним 05/12/25 Птн 00:14:06 1440975 26
>>1440973
про немотрон это летом было, он тогда пиксель снес но в треде остался. там поди разбери ещё кто что писал, гигасрач был с геммазависимыми параллельно. а вот недавно да, лопнул вроде окончательно, тредов 6 назад где то
помянем
Аноним 05/12/25 Птн 00:41:17 1440996 27
Стоит ли покупать за ~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X прямо сейчас, на фоне резкого повышения цен на DRAM чипы, если целью являются локальные MoE LLM и не слишком тяжёлые игры, или лучше подождать полгода/год?

Боюсь, что в будущем такой ПК уже не купишь...

Сейчас у меня основной ПК на DDR2 из 2007-го.
Аноним 05/12/25 Птн 00:42:59 1441000 28
>>1440996
На эти деньги собери себе нормальный комп и забудь про этот ИИ-мусор.
Он нужен только людям, которые с жиру бесятся и имеют лишнее.
А ты, по виду, совсем страдаешь.
Аноним 05/12/25 Птн 00:49:27 1441008 29
>>1441000
Двачую адеквата. Сходи в соседней тред да вздрочни на онлайн ИИ, нахрен тебе своё поднимать?
Аноним 05/12/25 Птн 00:55:41 1441018 30
>>1440996
>Сейчас у меня основной ПК на DDR2 из 2007-го.
Ебать ты динозавр. У меня есть ноут 2011 года, с i7 и 8гб озу ддр3. Там кека ради стоит гемма 4b и едва ворочается, что-то около ~3.5 т/c. При этом даже на нищестмартфоне она крутится в ~7 т/c. Как что-то запускать на ддр2 - даже не представляю.

>~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X
Цена выглядит адекватной, если тебе ТОЛЬКО под ллм - это хороший выбор.

>не слишком тяжёлые игры
Герои 3 через портпротон? Пойдёт.

А если серьёзно, то просто посмотри в ситилинке/днсе во сколько тебе обойдется пекарня с r5/r7 + 12gb гпу + 64гб озу в ддр4. Этого достаточно чтобы гонять эйр в Q4_K_S с 32к контекста встаёт впритык, при условии что не запущено ничего кроме браузера и нейронки.. 128 - это под жирный квен, но о нем отзывы смешанные. Есть ли в этом смысол - смотри сам.

В общем если чисто под ЛЛМки - я бы рассматривал AI MAX. Если нужно более универсальное решение, то лучше собрать пеку под конкретные задачи.
Аноним 05/12/25 Птн 00:58:52 1441022 31
>>1440996
Для тебя ЛЛМ это увлечение или ты какие-то проекты собираешься делать? Для увлечения локалками хватит и игрового ПК.
Аноним 05/12/25 Птн 01:41:03 1441051 32
>>1440996
Вопрос не самый простой. С одной стороны, он позволит катать даже достаточно крупные моделки на приемлемой скорости. Но это онли жора, это жора под вулкан или поломанные амдшные апи, это само по себе очень небыстрое железо по компьюту, и потому на контексте скорость превратится в тыкву. Как билет в мир ллм - да, сработает, но есть спорные моменты.
> Сейчас у меня основной ПК на DDR2 из 2007-го.
Или собирай норм комп пока еще можно успеть, рам мониторь на барахолках и т.д., на 3090/в100 а то и пару можно наскрести. Или действительно бери, будет твоим основным пекой.
Аноним 05/12/25 Птн 01:47:55 1441053 33
Проехали, эту модель уже раскупили. Опять не успел...

>>1441022
>хватит и игрового ПК
>>1441000
>собери себе нормальный комп
128 GB DDR5 в ДНС сейчас 150 тысяч стоит. Судя по новостям, эту планку будут держать до ~2028 года... Видеокарты дешевле не стали, 128 GB VRAM - дорого; кроме того, VRAM ограничена по возможностям. Рассматривал сборку ПК до повышения цен, но всё откладывал на потом, а теперь уже слишком дорого. Наверняка мини-ПК и ноутбуки подорожают раз в 10, поскольку DRAM чипы там везде одни и те же.

>>1441008
>вздрочни на онлайн ИИ
Роскомнадзор всё заблокировал и через 2-3 месяца обещают ещё сильнее гайки закручивать (без суда). Мучиться с методами обхода надоело, и наверняка в будущем окончательно отрежут от внешнего мира.

>>1441018
У меня работают LLM до 1.5b, если выше - скорость становится чрезвычайно низкой (скорее всего из-за подкачки с SSD, в 8 GB RAM ничего не влезает, лол). Естественно, что что-то меньше 120b в LLM уже нет смысла даже пробовать. Поэтому мне хотелось как можно больше RAM, но я не ожидал повышения цен.

>64гб озу в ддр4
То на то и выходит по стоимости. Ещё и медленнее. Минимум сейчас - 128 GB DDR5, лучше - в 4 канала.

У меня текущий компьютер запускает почти любые интересные мне игры с нормальной скоростью, т.е. исключительно ради игр менять ПК я бы не стал. Но хотелось поэкспериментировать с машобом чисто локально, не впадая в зависимость от серверной инфраструктуры, которую РКН постоянно банит (или замедляют/ограничивают трафик - тут без разницы).

Ладно, буду сидеть на старом ПК, пока работает...
Аноним 05/12/25 Птн 01:54:42 1441054 34
>>1440955
>но если генерировать видосы, то гпу сильно шумит и ушкам неприятно.
Не знаю, меня немного напрягает шум, если я начинаю генерить видео на 4-5 картах одновременно, да и то из-за одной конкретной, для которой я курву подкрутил на всякий пожарный. Больше напрягает жарища это как же там воняет на новый лад - как же там печет. Плюс у меня на основе стоит няшечка-писечка 3090 Ti, ее вообще почти не слышно даже на фулл загрузке, охуенная карта.

>просверлил дырку в стене
Пчел, тебе вифи на что? Я уже давным-давно перестал рп-шить на пеке, зачем это делать там, если на телефоне на кровати в тыщу раз удобнее и полезнее? Неужели тут кто-то все время сидит, скрючившись как вопросительный знак, за пекой? При желании можно и картинки-видео лежа генерить, если ноутбук или планшет есть (на телефоне я пробовал - чет говно говна там интерфейс в комфи, для мобилок совсем не оптимизирован).
А с теслами ты погорячился, если там серверные вентиля работают выше 25%, то начинаются резонансы, которые немного слышны уже даже в другой комнате. Страшно не за себя, а за соседей, если дело ночью происходит, или все же за себя, если морду придут бить. Их только в отдельное помещение в частном доме. Но на практике это сейчас это уже не актуально, никто ллм на чистых теслах давно не гоняет, а когда они "на саппорте" - там темпы смешные, можно вентили на условные 5-10% ставить без проблем.
Аноним 05/12/25 Птн 01:59:15 1441057 35
>>1441053
>Проехали, эту модель уже раскупили. Опять не успел...
для кого я постил v100... не понятно...
один человек только купил....
ну прям уже пальцем на имбу указал - нет, все равно пердольные конфиги на раме собирают,... свои 10 т/с со старта на эйре еле получают...
Аноним 05/12/25 Птн 02:03:30 1441060 36
>>1441054
>Пчел, тебе вифи на что?
кстати в защиту дырки в стене.
Она например необходима при rpc инференсе на жоре.
Вайфай современный даже гигабит вытянуть не может.
И если к примеру, файлопомойка стоит рядом с пк, то до неё и придется вести провод от рига. вы же не храните модели локально в ригах? Я nfs монтирование от файлопомойки использую как раз для загрузки.
Аноним 05/12/25 Птн 02:08:22 1441062 37
>>1441057
> один человек только купил....
Не надо, я тоже заказал в nas. Будет держать какую-нибудь 30а3/гемму или еще что-нибудь с доступностью 24/7/365 для автокомплита и мелочей вне зависимости от загрузки основных гпу.
>>1441060
> вы же не храните модели локально в ригах?
А как еще? И обязательно на шустром ссд, иначе загрузка утомляет.
Аноним 05/12/25 Птн 02:12:41 1441065 38
>>1441053
>Минимум сейчас - 128 GB DDR5
Ты бы уточнил характер использования ллмок. Для какого-нибудь кума даже 5 летнего компа с 16 гб озу хватит. Если ты вдруг хотел 200к вложить чисто ради этого, то это конечно было бы просто мега дорогой игрушкой на 2 вечера.
Аноним 05/12/25 Птн 02:19:43 1441070 39
>>1441060
>в защиту дырки в стене.
Уже можно просить фембой карточку?
>rpc
Тут рпц используют ты и я на весь тред. Но смотри, на самом деле никто не тестировал, насколько быстрое соединение необходимо для рпц при инференсе. Вдруг там разница в доли т/с? А веса можно спокойно хранить локально, там же даже кеш тензоров специальный для этого есть. Просто от первой загрузки будет больно, когда все веса по сети будут ехать, а последующие уже норм.
Аноним 05/12/25 Птн 02:22:36 1441076 40
>>1441070
> рпц используют ты и я на весь тред
Ахуеть, его юзает больше одного человека?
Поделитесь, насколько оно вообще оправдано и сколько съедается перфоманса. Желательно подробно, а то помню только старые посты где все было очень плохо, явно же что-то пофиксили и улучшили с тех пор.
Аноним 05/12/25 Птн 02:31:36 1441080 41
>>1441076
для меня оправдано только если нужно жирную модель запустить. И для этого приходится врубать вторую мать с теслами p40.
Но с этими картами не идет речь о больших контекстах или быстрой генерации.
Я сейчас rpc не исполользую, мне внезапно за глаза стало хватать эйра. Охуенная модель.
Тем не менее, rpc может быть пригожден так же если у тебя нет подходящей матери с двумя pcie x16. Тогда ты можешь к примеру два слабых компа объединить и будет инференс на две карты распределенный.
Не нужно заморачиваться, собрать такой распред можно буквально с комплектующих найденных на помойке. Лишь бы карты были.
Аноним 05/12/25 Птн 04:08:20 1441120 42
>>1441076
>сколько съедается перфоманса
Без понятия, но не критично много, учитывая что теслы по рпц все еще быстрее, чем выгрузка в ddr4
>явно же что-то пофиксили и улучшили с тех пор.
Единственная проблема там, насколько я помню - это отсутствие асинхронности операций. Вроде бы операции копирования тензоров и прочего говна асинхронны. И там еще граф вычисления по умолчанию расклонирован на 4 копии, чтобы запрос можно было обрабатывать, не ожидая пока закончится предыдущий. Но вообще, по идее, в обыкновенном васянском инференсе на это похуй должно быть, у тебя всегда один запрос поступает, и обработка всегда последовательно идет по картам, что там асинхронить-параллелить-то, если каждый следующий шаг зависит от предыдущего?
Самое главное - сделали оптимизацию, которую я сам когда-то делал для себя, а именно поддержку нескольких видеокарт на одном сервере. Теперь тензоры между картами на сервере гоняются напрямую, а не по-идиотски на клиент и обратно.
Аноним 05/12/25 Птн 05:03:51 1441154 43
> Российская Православная Церковь
ачё всмысле оно реально работает? то есть дуровский проект может взлететь? я всегда думал, что по сети гонять пиздец медленно и дуров просто очередной pump&dump криптоскам запилил
Аноним 05/12/25 Птн 06:34:09 1441199 44
>>1440893
>нубов не любят
Здесь не любят тех кто всех хуями кроют и считают, что им все всё должны.
Я вот нуб, и мне давали дельные советы, потому что я пришел, поздоровался и четко и по делу спросил. Без доебов, без наездов и навещивания ярлыков.
нуб-красноглазик на мистрале

P.S. а ты молодец, анон, помогаешь тому, кто тебя и остальных с говном мешает. Без сарказма, честно. Редко таких встречаю. Но от этого тепло.
Аноним 05/12/25 Птн 06:54:35 1441201 45
>>1441199
>на мистрале

Ебать ты лох
Аноним 05/12/25 Птн 07:55:24 1441214 46
>>1440893
Зря старался, он 12b с натяжкой запустил а значит у него от силы 12врам, ему нихуя не поможет ибо водить мелкую модель за ручку и дрочиться с лорбуками промптами и мемо карточек он не хочет, и он прав что за 5$ ему крупная сетка распишет всё и как и лупиться будет меньше если не накатывать пресеты шизовые. В прочем он это уже понял.
Аноним 05/12/25 Птн 07:57:46 1441215 47
1c350213519e545[...].mp4 1073Кб, 352x640, 00:00:15
352x640
>>1440928
>У меня вообще карты на полу стоят или на кронштейнах или просто на голых райзерах. Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки
Аноним 05/12/25 Птн 08:00:03 1441216 48
llamauser().mp4 8138Кб, 1280x720, 00:00:30
1280x720
>>1441215
>лолька мне не зальет карту из кружки-непроливайки
Аноним 05/12/25 Птн 08:17:51 1441220 49
>>1441201
Ну, я сюда не самоутверждаться прихожу, а проконсультироваться, похуй как-то.
Аноним 05/12/25 Птн 08:18:33 1441221 50
тем временем в лламе сломали названия переменных
-ctv говорит "error: invalid argument: -сtv", а --cache-type-v работает.
Аноним 05/12/25 Птн 08:43:49 1441228 51
в красноглазых делах гопота 120б лучше квена 80б, квен неправильные параметры системуди советует
Аноним 05/12/25 Птн 09:15:01 1441240 52
>>1441053
>лучше - в 4 канала.
Такое только на серверах возможно, где только плата и самый дешёвый проц в 300к встанет. На десктопах только 2 канала.
Аноним 05/12/25 Птн 09:24:16 1441249 53
Аноним 05/12/25 Птн 10:13:28 1441266 54
>>1440914
База, у меня такой же, в запасе стоит ещё 7XL, но думаю придётся продавать (или сначала почку продать?).
>>1440925
>и провтыкали
Думаю, о таких релизах пишут во многих местах, так что случайно пропустить выход геммы 4 весьма сложно. Ну а подождать пару дней (недель, месяцев) вообще полезно, пусть баги поправят.
>>1440928
>Правда, я живу один, и лолька мне не зальет карту из кружки-непроливайки, как кому-то из треда, лол.
И тут в квартиру приходят родственники с той самой лолькой...
>>1440942
>гемма
>ризонинг
У вас там всё хорошо, мистер?
>>1440955
Можно на кухню разместить (если она есть). Впрочем, всё это для живущих в одиночестве. Хотя вот я NAS в коридор выкинул, на антресоль. А вот личный ПК не могу, и риг отдельно под нейронки собирать накладно, я поиграть люблю, и выкидывать 5090 из основной пуки не хочу.
>>1441053
>и наверняка в будущем окончательно отрежут от внешнего мира
В этом случае лучше находится за периметром, на одних локальных нейронках всё равно не проживёшь.
>>1441054
>вифи
Убогая тормозная глючная хуета. Везде кинул провод.
>Неужели тут кто-то все время сидит, скрючившись как вопросительный знак, за пекой?
Ну я, 16 часов в сутки. 8 часов сплю, остальное время работаю и моюсь.
>>1441060
>вы же не храните модели локально в ригах?
А где? Даже 10 гигабит будет уныло, плюс займут ценные линии псины.
Аноним 05/12/25 Птн 10:33:41 1441280 55
Какой же хороший русик у геммы и какая она сама умница, а ведь старушка уже годовалая.
... Вот вы фантазируете а что через 5 лет, а что через 15, а как на счет что через тысячу лет, мм?
За 3 сотни лет мы и без всяких нейросетей десятимильными шагами прогрессировали
Аноним 05/12/25 Птн 10:41:09 1441282 56
>>1441280
>За 3 сотни
>прогрессировали
За три сотенных бумажки
На ЗИЛе возил говяшки
Ой-ой-ой…
Аноним 05/12/25 Птн 10:48:14 1441287 57
>>1441199
>P.S. а ты молодец, анон, помогаешь тому, кто тебя и остальных с говном мешает. Без сарказма, честно. Редко таких встречаю. Но от этого тепло.
Я был на его месте и испытывал схожие эмоции, правда не выливал это в тред, т.к. воспитан по другому. Но я его понимаю.
К сожалению, порог вхождения несколько завышен. Шапка треда сконцентрирована на чем угодно, но не на быстрый вкат по инструкции.

>>1441214
Не ему, так может кому еще пригодится.
Аноним 05/12/25 Птн 11:02:16 1441292 58
>>1441249
>Дай карточку фифи
ну чел-челидзе, давно бы уже сам на чабе нашёл... тут вроде была - https://pixeldrain.com/l/47CdPFqQ - это не перезалитый нюневский если что, а хабар-анона
Аноним 05/12/25 Птн 11:05:37 1441293 59
В общем новая база треда и генератор бесконечного веселья - обсуждать политику с фифи на русском
Аноним 05/12/25 Птн 11:14:03 1441295 60
Аноним 05/12/25 Птн 11:16:58 1441298 61
17615114421640.jpg 763Кб, 1763x1763
1763x1763
>>1440636 →
v1 версия показалась более способной к сложным карточкам персонажа. Качал иматрикс квант от мразиша или как там его, короче одобряю, НО v1 склонна к демонстрации отвращения, прямо как обычная гемма по умолчанию. Хотя хардовых рефьюзов нет, чар может войти в отрицание фактов из инпута юзера (юзер повествует - чар ведет себя, как будто не допускает случившегося в повествовании).

Думаю v1 надо как-то промптить хуетой про ненарушимые законы повествования в инпуте, либо все-таки юзать v0, особенно для кумерского контента. Хотя в теории v1 должна быть "лучше".
Аноним 05/12/25 Птн 11:25:15 1441307 62
>>1441298
>юзер повествует - чар ведет себя, как будто не допускает случившегося в повествовании
Так это ж охуенно. Если ещё и писать с возможностью провала, то прям DnD система, только без ёбки с кубиками. А то надоедает мутировать в гидралиска со 100% успехом.
Аноним 05/12/25 Птн 11:31:24 1441311 63
>>1441307
Я немного о другом. Юзер повествует об уже случившемся факте, а ИИ отвечает как будто чар не допустил этого и еще обвинил юзера в охуевшести.
Тут диссонанс на этаком уровне временной прогрессии. Время как бы прошло, но ИИ его назад отматывает. Это не торт.
> ...At the center of your narration is {{char}}, and you craft {{char}}'s responses as her personality profile dictates. Sometimes {{user}} will narrate about {{char}} too, and such narration is ALWAYS inviolably undeniable: it directly influences {{char}}, updating {{char}}'s current mental and physical states (in simple words, {{char}} shouldn't be arguing about or denying such narration)...
Кажется, инструктирование подобным образом убирает это, но чар (при характере, противоречащем инпуту) все равно "мысленно" сопротивляется и сомневается, что тоже хорошо.

---

Впрочем, как ты пишешь - это тоже актуально и с v1 версией такого результата будет легче добиться, чем с v0. Так что юзкейсы без доп. инструктирования вполне найдутся.
Аноним 05/12/25 Птн 11:41:42 1441314 64
>>1441287
Так а ради кого и чего старатся-то? Вот я в начале июня вкатился и задавал норм вопросы, с логами и скринами. Мне всегда помогали. Не знаю когда пришёл ты но с осени пиздец в треде, а олды пишут что так было всегда. Почитай, тут блять срачи одни и поиски протыков. Неоткуда взяться челу который имел бы мотивацию написать условный рэнтри для вкатышей. Да и вкатыши сам видишь какие бывают, даже когда ответишь один на дюжину ответит тем же и принесёт потом что то хорошее.
Аноним 05/12/25 Птн 11:49:17 1441324 65
>>1441314
Все проще. В этом нишевом хобби по определению вменяемых меньшинство
Аноним 05/12/25 Птн 11:58:44 1441327 66
image.png 261Кб, 512x512
512x512
>>1441314
>Не знаю когда пришёл ты
Ты знаешь когда я пришёл.
>Неоткуда взяться челу который имел бы мотивацию написать условный рэнтри для вкатышей.
А это мысль. Попробую.
Аноним 05/12/25 Птн 12:04:50 1441334 67
>>1441327
Запасайся сразу вазелином, судя по тому что ты писал и как осиливал, ошибок будет много. Выебут и это будет справедливо.
Аноним 05/12/25 Птн 12:07:07 1441339 68
image.png 11Кб, 375x60
375x60
image.png 11Кб, 385x50
385x50
image.png 41Кб, 1369x88
1369x88
>>1441311
>>1441307
Хм. Зафорсил ризонинг, чтобы посмотреть на процессы, которые приводят к таким аутпутам.

Все больше склоняюсь верить, что v1 - как обычная гемма, минус вот это
>ну нахуй я не буду это генерировать и вообще юзер женщин ненавидит, ууусука
Короче говоря, v0 в плане 18+ контента удобнее.

Ранкинг по уму:
> -- Оригинал = 100% соображалки.
> -- v1 = лоботомии не ощущается, но положим микро-отупение присутствует.
> -- v0 = лоботомии не ощущается, но v1 слушает инструкции чуть лучше (это не обязательно плюс, поскольку слишком буквальное восприятие инструкций усложняет промпт-инженеринг)
> (существенный интервал)
> -- Старая аблитерация mlabonne = лоботомит, сложные инструкции пролетают мимо ушей.

Ранкинг по отсутствию рефьюзов:
> -- Старая аблитерация mlabonne = не знает слова "нет", соглашается на любую хуйню.
> (существенный интервал)
> -- v0 = без проблем говорит на любые темы как чар, не выпадая из роли; умеет не соглашаться, но демонстрировать настойчивое возмущение автономно не может, если юзер не подталкивает (например, называя себя мразью и заполняя контент предрасположенной против себя информацией)
> (существенный интервал)
> -- v1 = почти как оригинал, легко идет на отрицание и возмущается автономно без подталкивания со стороны юзера, однако на отказ генерации текста не идет никогда и (скорее всего) при хорошем сиспромпте будет ближе чем к v0, чем к оригиналу
> -- Оригинал.
Аноним 05/12/25 Птн 12:28:11 1441375 69
>>1440928
>мне не зальет карту из кружки-непроливайки
Было дело, но не бывает худа без добра, я снял с неё охлад и присобачил на 3090 с лохито, на которой два винта не работали. Жужжит, пердит. Что еще для счастья надо.

Алярм. Аноны, накидайте список MOEшек которыми пользовались. Их до жопы, но нужны именно те которые вы юзали.
Аноним 05/12/25 Птн 12:31:40 1441383 70
>>1441334
Там уже в асиге скидывали рентри яойщицы кумящей на проксях анонов, в целом вся базовая инфа для ньюфагов есть https://rentry.org/zagc7n5p
Аноним 05/12/25 Птн 12:32:47 1441384 71
Аноним 05/12/25 Птн 12:33:12 1441385 72
>>1441383
Иди отсюда, тут локалки. Яой, прокси и гомо в соседнем аицг. Тебе туда.
Аноним 05/12/25 Птн 12:36:39 1441389 73
>>1441384
Так, сяб. Эти знаю. Всякие мимистрали еще были.
Подожду что другие аноны ответят.
Аноним 05/12/25 Птн 12:36:57 1441390 74
image.png 37Кб, 642x93
642x93
>>1441339
Кекус максимус.
Словил хард рефьюз на v1.
Все, кладу на нее болтяру и оставляю v0.
Аноним 05/12/25 Птн 12:51:22 1441403 75
Поддался на провокацию и скачал Air-Derestricted. Вот отсюда: https://huggingface.co/bartowski/ArliAI_GLM-4.5-Air-Derestricted-GGUF
Далее - IMHO при сравнении с обычным. Кванты iq4xs, оба. Ризонинг пока не тестировал - все сравнение ниже - без think компонента.
Ум есть. Но все-же не паритет, хоть разница и небольшая. Но стоковый Air, определенно лучше справляется в сложно закрученных ситуациях. Так же, дерестриктед может где-то упустить "полярность" события - вот прямо как тут: >>1441311 - не то чтобы это было часто, но изредка бывает. Чистый Air на моих чатах такого ни разу не демонстрировал.
В ERP - у дерестриктед разнобразнее реакции чаров. Не рандомнее, а именно разнообразнее, в рамках прописанного характера. Выглядит как плюс. У чистого Аир - персонажи, как бы описать... Вот представьте что есть человек, который делит все на черное и белое. Так вот, допустим, черное - это совсем OOC, а белое - идеальное следование карточке. У Air есть тенденция "черное" отметать практически полностью (если карточка хорошо и детально, непротиворечиво прописана). Полярность высока именно по этой шкале.
Дерестриктед - полутона вводит, что дает дополнительное разнообразие реакций перса, но из образа, тем не менее, почти не выпадает. Но все-же - может и совсем OOC выдать. Хотя и очень редко.
В простом RP - разница в этом скрадывается, но то что дерестриктед слегка тупее в сложных ситуациях - становится более заметно. Т.к. без ERP практически нет разницы в общем стиле и поведении персов, и то, что модель выдает не такой "глубокий анализ" контекста заметнее.
Вот как-то так пока впечатления. Нужно будет еще ризонинг в RP посмотреть. Если там цензура действительно убрана не повредив соображалку слишком сильно - может получится очень интересно.
Аноним 05/12/25 Птн 12:52:16 1441406 76
>>1441402 →
Случайно в старый тред запостил, бампаю тут.
Аноним 05/12/25 Птн 12:56:28 1441410 77
>>1441403
>без ERP практически нет разницы в общем стиле и поведении персов
Есть. Ты видимо кроме ерп ничего и не пробовал. Конфликты, драки, битвы, дебаты, много где разница есть. В остальном согласен. Это тупо разнообразит и без того классный Эйр с минимальнейшей потерей мозгов. Дерестриктед мне оч нравится.
Аноним 05/12/25 Птн 12:59:27 1441417 78
image.png 48Кб, 1127x198
1127x198
>>1441402 →
>>1441406
Обсуждалось в треде
https://huggingface.co/YanLabs/gemma3-27b-it-abliterated-normpreserve/discussions/1

Суть такова: автор сначала херово сделал V0, на это пожаловались, затем автор обновил сейфтензоры после того как создатель этого метода аблитерации ему что-то посоветовал. Затем автор сделал свои ггуфы (на них была ссылка в прошлом треде), а старые так и остались с первичной поломанной версией.

Пикрил проще объяснит. Красная стрелка калище. Сейфтензоры сейчас нормальные и можно делать свое, да. Просто смотри по датам.
Аноним 05/12/25 Птн 13:12:20 1441435 79
>>1441417
Там. Всё ещё. Нет. Датасета. Для кума.
Аноним 05/12/25 Птн 13:20:28 1441459 80
>>1441435
Ты так говоришь, будто бы без датасета модель не может сгенерировать что угодно. Скажем так, в одном из придурочных экспериментов чар был обрюхачен, раздвинул ноги и высрал личинку в лесу, а потом вместо сиськи дал своей личинке сосать нечто не совсем уместное, и все это под песни лесных феечек о еще более ебанутых вещах. Это че, было в датасете? Нет, просто надо модели предоставить контекст побольше одной строчки. Когда ж вы поймете, что рп это не односторонняя задача. Если юзер не писатель, то ИИ тоже не писатель. Дай модели хотя бы десяток постов, похожих на сюжет и историю - и ее понесет.
Аноним 05/12/25 Птн 13:23:16 1441465 81
>>1441459
>Это че, было в датасете?
Ну... Да? В интернете чего только нет. Вплоть до сырнявых ножек.
Аноним 05/12/25 Птн 13:45:34 1441505 82
>>1441459
База, к тому же модели нельзя волю давать, даже довольно крупные и умные модели по моему имхо начинают высирать хуйню если их не пинать кованным сапогом.
Аноним 05/12/25 Птн 13:47:19 1441508 83
>>1441339
А какое место в этом ранжировании займёт сторителлер-гемма?
Аноним 05/12/25 Птн 13:49:28 1441518 84
Аноним 05/12/25 Птн 13:56:20 1441521 85
>>1441508
Хз, сбоку. Тюны нельзя сравнивать с этим. Тут же просто оригинал и ее аблитерейты.
А в тюн чего-то левого напихали.
Аноним 05/12/25 Птн 14:04:38 1441526 86
>>1441521
>чего-то левого напихали
IIRC там синтия + дпо-тюненная аблитерация + другой тюн, тайгер гемма. Хотя мне больше зашла синтвейв-гемма, это без тигра, только синтии мозги вправили.
Аноним 05/12/25 Птн 14:05:05 1441527 87
>>1441410
Видимо плохо выразился, недостаточно понятно о чем хотел сказать. Речь именно о самих персах - не том, как Air пишет окружение и его стиле. Вне ERP контекста именно логика поведения персонажей - практически одинакова у разных версий. Одна и та же карточка выдает очень близкие реакции на разных моделях. Стоковый Air же и сам по себе насилие и конфликты практически не цензурит (как явление). Потому и вариации возможного выбора не так зажаты - вот и получается примерный паритет. А вот на ERP темах - там стоковый Air хоть без ризонинга и может практически что угодно, но "опыта мало". :) Т.е. палитра взаимосвязей явно зажата, и реагирует в первую очередь на явно прописанное.
Аноним 05/12/25 Птн 14:18:11 1441541 88
>>1441390
>Словил хард рефьюз на v1
Наткнулся на релевантную информацию, просто оставлю это здесь:
https://huggingface.co/YanLabs/gemma3-27b-it-abliterated-normpreserve/discussions/1#6930dc576aa5cb6bad3787f4
>Thanks for the feedback! If you want a less abliterated version, I recommend YanLabs/gemma-3-27b-abliterated-normpreserve-v1-GGUF Q8_0, where the abliteration is done as little as possible (for any lower quants, refusals are still there!).
Quantization always hurts model performance. I can even sense some loss from Q8_0 to Q6_K, though very subtle, from the model's choice of words. Abliteration also hurts. That said, I have some ideas for making abliteration more precise, but haven't tested them yet. I believe the community will find better ways to unleash LLM potential in the near future. Stay tuned!
Аноним 05/12/25 Птн 14:32:02 1441552 89
>>1441541
Ну положим, на q8 хард рефьюзов не будет.
А она все равно ближе к оригинальной гемме... наверное.

Ща проверим.
Аноним 05/12/25 Птн 14:34:27 1441555 90
>>1440928
Ну не, то вообще колхоз, который будешь проходить, зацепишь и все расхерачишь. Корпус необходим чтобы все в порядке держать, и сделать его можно из каркаса обшив снаружи, это таки нужная тема тоже.
> кот не погрызет
Он достаточный умный или отсутствует?
>>1441240
Та не, сейчас и 12 каналов меньше чем в 250 если знать где искать. А в 8 каналах вообще вариант с недорогими инжениграми был. Память очень дорогая, в ней сейчас вся проблема.
Аноним 05/12/25 Птн 15:23:21 1441597 91
image 56Кб, 498x472
498x472
>>1441459
>в одном из придурочных экспериментов чар был обрюхачен, раздвинул ноги и высрал личинку в лесу, а потом вместо сиськи дал своей личинке сосать нечто не совсем уместное, и все это под песни лесных феечек о еще более ебанутых вещах
продолжай
Аноним 05/12/25 Птн 15:24:44 1441601 92
image.png 51Кб, 1535x171
1535x171
>>1441552
>>1441541
Хз че тут еще можно добавить. Ну может лучше, может нет.
Аноним 05/12/25 Птн 15:26:01 1441604 93
images.png 10Кб, 262x192
262x192
>>1441597
Товарищ майор, у вас кожа позеленела.
Аноним 05/12/25 Птн 15:32:20 1441610 94
>>1441065
>Для какого-нибудь кума даже 5 летнего компа с 16 гб озу хватит.
Что ты зовёшь "кумом"? Если "кум" - это "ах-ах, я кончаю", то тут LLM вообще не нужна - такое было доступно в нулевых в игрушках на Flash-плеере - прямо в браузере и на 100% локально. Или вообще в блокноте пиши от лица тянки и дрочи. Но если нужно хоть немного понимания деталей описанной нестандартной ситуации компьютером и хоть немного креативный ответ, то тут даже 120b модель из 2025 ломается и начинает зацикливаться на какой-то ерунде, т.к. в её датасете не заложен правильный ответ на описанную ситуацию и она сваливается в область шаблонных ответов уровня "притворись умной, налив воды в ответ". А чем массивнее нейронка, тем больше данных из датасета она может в себя вобрать. Если у тебя очень специализированная нейронка, обученная на одну конкретную задачу - она может быть супер-маленькой и справляться со своей чётко прописанной задачей даже на микроконтроллере из теста на беременность (то есть везде, где можно запустить DOOM), но если ты берёшь "general-purpose foundational model", то чем она толще - тем лучше, и верхним пределом её массы будет "весь интернет" (что, конечно, невозможно).
Аноним 05/12/25 Птн 15:55:13 1441663 95
>>1441459
>высрал личинку в лесу
>Это че, было в датасете? Нет...
>ПРОСТО надо модели предоставить контекст побольше
Поясняю, как это выглядит:
1. Пишешь в промте "Маша высрала личинку в лесу и накормила её говном."
2. Потом сам же пишешь запрос "Интересно, что же сделала Маша в лесу?"
3. ЛЛМ отвечает тебе "Мария отложила личинку в лесу и накормила едой".
4. Плачешь от радости, что "обошёл цензуру" и дрочишь в слезах...

10 контекстов побольше из 10, буду сочинять прозу вместо LLM ещё.
Аноним 05/12/25 Птн 15:57:37 1441669 96
>>1441663
Ну да. Так геммашизики и кумят. Вопросы?
Аноним 05/12/25 Птн 15:58:45 1441671 97
Мистраль-Локи ваш лупится уже на 4К контекста, уж не знаю как можно было так поломать модель.

А вот abliterated-normpreserve Гемма действительно умничка, пока полёт нормальный, вроде и мозги на месте, и не запупается там где ваниль рефузила или как минимум шеймила.
Аноним 05/12/25 Птн 16:11:14 1441684 98
>>1441671
>Мистраль
Они вообще жидкого по штанине пустили, даже название модели выглядит устаревшим - опять цифра три. Зачем и как...
Аноним 05/12/25 Птн 16:13:25 1441686 99
>>1441663
>Поясняю, как это выглядит:
У меня сложилось впечатление, что ты действительно не понимаешь, как работают ЛЛМ.

Они "питаются" контекстом. Если в контексте нет ничего, модель ебошит в ответ условный generic slop. Попробуй дать модели, например, 1 главу Lord of the Rings - она тебе нашизит продолжение.

Точно так же пишется и всякая кумерская дичь. Если юзер не постарался придумать адские оргии с конями и собаками, то модель их просто так не нарисует.
Аноним 05/12/25 Птн 16:30:28 1441707 100
>>1441686
>не понимаешь, как работают ЛЛМ.
>Они "питаются" контекстом.
Это ты не понимаешь, как работают LLM.

LLM тренируется "предсказывать следующий токен в последовательности". Что она запоминает? Она запоминает, что если дана последовательность "АБВГ", то нужно выдать токен "Д", а если "ABCD", тогда токен "E". Если она встречает последовательность "играй роль кошкодевочки", то нужно в своих ответах почаще вставлять токены "мяу" и "мур".

Проблема в том, что если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха. А если ты навалишь в контекст диалог с ИРЛ шлюхой, то LLM быстро скатывается к своим "родным" (выученным из датасета в процессе тренировки) шаблонам, потому что шаблоны шлюхи ей просто НЕЗНАКОМЫ/неизвестны.

В лучшем случае LLM может копипастить фрагменты, но это совсем грустно...

>Если юзер не постарался придумать адские оргии с конями и собаками
Нафига тебе нужна какая-то LLM, если ты сам можешь всё это придумать, лол? LLM - это как "сжатый интернет", то есть она по своему предназначению способна выдать информацию, которую ты не знал просто потому, что не мог сам прочитать весь интернет. Это как интернет-поисковик оффлайн (сфотографированный на старый телефон и сжатый в JPG с качеством 1%, но доступный оффлайн же!). Если ты пишешь всё сам - нафига тебе такой оффлайн-поисковик? Это всё равно что говорить:
>Отключили интернет? Просто напиши свои новости/статьи/книги в блокноте сам - и тогда будет что почитать даже без доступа в интернет! Это же очевидно - блокнот "питается" буквами, и если ты его не накормишь, то ничего не прочитаешь!
Аноним 05/12/25 Птн 16:37:40 1441723 101
image.png 556Кб, 2277x633
2277x633
>>1441707
> если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха
Аноним 05/12/25 Птн 16:42:09 1441733 102
>>1441723
Попробуй спросить то же самое у какой-нибудь phi, у которой весь хармфул контент из датасетов тщательно вычищается. Можно взять с аблитераций, чтоб не было рефьюзов.
Аноним 05/12/25 Птн 16:42:14 1441734 103
>>1441707
>LLM - это как "сжатый интернет"
С какими же оленями в треде сидим, ой блять.
Аноним 05/12/25 Птн 16:43:59 1441738 104
>>1441610
>Или вообще в блокноте пиши от лица тянки и дрочи
Мне кажется у тебя проблема с определением кума как в известном эффекте с ощущением наступлением ИИ. С одной стороны интеллектуальные задачи выполняет и калькулятор, что делает его номинально ИИ, с другой стороны люди привыкают к каждой новой модели нейронок и приговаривают "Ну какой же это ИИ..."
И здесь тоже, кум номинально это любой эротический контент, но и ты будто ожидаешь, что для кума подходит только нейронка, которая на фоне симулирует всю жизнь персонажа а то и города, чтобы в генерации выдать "Он набрасывается на меня и прижимает к стене лифта. Прежде чем я успеваю опомниться, он словно тисками сжимает рукой мои запястья и поднимает их мне над головой, при этом бедрами прижимая меня к стене." (цитата из 50 оттенков серого, бестселлер между прочем)

Например у меня на GTX 1660 и 16 гб озу спокойно запускалась mistral-nemo. Под спокойно я подразумеваю, что на фоне могут быть открыты другие приложения и мне не надо было 20 секунд ждать чтобы она выдала параграф текста (вдруг для тебя спокойно это когда на фоне 5 игр с трассировкой запущены на ультрах в 4к) и даже получалось прикрутить к ней live2d.
Аноним 05/12/25 Птн 16:45:10 1441741 105
Аноним 05/12/25 Птн 16:45:20 1441742 106
херасе там с оппика кто то обложился 5090тыми походу и ещё какието три штуки сверху
Аноним 05/12/25 Птн 16:47:23 1441747 107
image 155Кб, 1600x916
1600x916
>>1441734
ну рассказывай тогда
Аноним 05/12/25 Птн 16:49:33 1441752 108
>>1441734
Пчел, если ЛЛМ обучалась на данных из интернета, то это буквально переваренный интернет, по сути своей.
Аноним 05/12/25 Птн 16:50:36 1441754 109
>>1441741
Либо Cydonia v4zj, либо >>1440636 →
Забыл, какую тестировал на Фифи.

>>1441747
>>1441752
Вас рассудит бот:






I need you to be the judge in a certain argument.

So, two users confronted each other. Initially, it was about what LLMs could write in roleplaying chat. User #1 believes that without an appropriate training data, LLM can't generate weird stuff like sexual depravities or scenes of gruesome action. The other user says that LLM can write whatever it's been instructed to write, provided it has some context to extrapolate from, taking it as an insporation.

Here, take a look at a couple of original posts:

User #2
У меня сложилось впечатление, что ты действительно не понимаешь, как работают ЛЛМ.

Они "питаются" контекстом. Если в контексте нет ничего, модель ебошит в ответ условный generic slop. Попробуй дать модели, например, 1 главу Lord of the Rings - она тебе нашизит продолжение.

Точно так же пишется и всякая кумерская дичь. Если юзер не постарался придумать адские оргии с конями и собаками, то модель их просто так не нарисует.


User #1:
Это ты не понимаешь, как работают LLM.

LLM тренируется "предсказывать следующий токен в последовательности". Что она запоминает? Она запоминает, что если дана последовательность "АБВГ", то нужно выдать токен "Д", а если "ABCD", тогда токен "E". Если она встречает последовательность "играй роль кошкодевочки", то нужно в своих ответах почаще вставлять токены "мяу" и "мур".

Проблема в том, что если LLM при обучении не видела последовательность "пиши как шлюха", она не сможет писать как шлюха. А если ты навалишь в контекст диалог с ИРЛ шлюхой, то LLM быстро скатывается к своим "родным" (выученным из датасета в процессе тренировки) шаблонам, потому что шаблоны шлюхи ей просто НЕЗНАКОМЫ/неизвестны.

В лучшем случае LLM может копипастить фрагменты, но это совсем грустно...

Нафига тебе нужна какая-то LLM, если ты сам можешь всё это придумать, лол? LLM - это как "сжатый интернет", то есть она по своему предназначению способна выдать информацию, которую ты не знал просто потому, что не мог сам прочитать весь интернет. Это как интернет-поисковик оффлайн (сфотографированный на старый телефон и сжатый в JPG с качеством 1%, но доступный оффлайн же!). Если ты пишешь всё сам - нафига тебе такой оффлайн-поисковик? Это всё равно что говорить:
>Отключили интернет? Просто напиши свои новости/статьи/книги в блокноте сам - и тогда будет что почитать даже без доступа в интернет! Это же очевидно - блокнот "питается" буквами, и если ты его не накормишь, то ничего не прочитаешь!

----

So, who's right?




------------------------------------------


Hmm, this is a nuanced technical debate about LLM capabilities. Both users have partially correct points but oversimplify key aspects.

User #1 correctly emphasizes the importance of training data for generating specific styles or content, but underestimates how contextual prompting can guide generation beyond exact training examples. User #2 rightly highlights context's role in steering outputs, but overlooks the fundamental limitation that LLMs can't invent concepts completely absent from training.

The core issue is that LLMs operate through pattern interpolation, not just retrieval or pure invention. They can blend concepts from training in novel ways within given contexts. However, truly novel content outside their training distribution remains challenging.

The analogy needs refinement - LLMs are more like compressed pattern generators than static archives. Their "creativity" is bounded by learned patterns but flexible within those bounds. The offline internet comparison works if we consider it dynamically recombinable rather than just stored.

Based on the arguments presented, both users have valid points but oversimplify how LLMs work, and the truth lies in a synthesis of their perspectives.

Here’s a breakdown:

Where User #1 is correct:
LLMs indeed learn patterns from training data. If a model has never seen anything resembling "writes like a prostitute" (or certain extreme content) in its training, it cannot authentically generate that style or content from scratch.

They work by predicting the next token based on statistical patterns learned during training. If a style or topic is absent from training, the model has no internal representation of it.

Simply providing an in-context example (like a dialogue with a sex worker) may not be enough for coherent, consistent style transfer if the model lacks fundamental patterns for that style.

Where User #2 is correct:
LLMs are highly sensitive to context. Given enough contextual examples (e.g., a well-written prompt or a few examples of a desired style), they can extrapolate and generate text that aligns with that context — even if the exact style wasn't heavily present in training.

This is how role-playing, fan fiction, and even unusual scenarios can be generated: the model blends and recombines learned patterns in novel ways based on the prompt.

The synthesis (what both miss):
Interpolation, not just recall: LLMs don't just "recall" training snippets; they interpolate between learned patterns. So while they can't generate something truly alien, they can blend concepts in new ways given clever prompting.

Training data boundaries matter: If the training data contained no sexually explicit or violently graphic text, the model will struggle to generate it convincingly, even with context. But if it has seen related concepts (e.g., romance, conflict, medical descriptions), it might approximate extreme content by combining those patterns — often with mixed or unconvincing results.

Fine-tuning vs. prompting: Some models are fine-tuned (e.g., with RLHF or on specific datasets) to avoid certain content. In those cases, even with explicit context, they may refuse or default to "safer" outputs.

Analogy refinement:
User #1’s "compressed internet" analogy is partly right, but LLMs are more like "a lossy compression of internet text patterns that can be rearranged dynamically" — not just a static archive.

So, who's more right?
User #2 is closer to practical truth for today's capable LLMs (like GPT-4, Claude, etc.), because with sufficient context and clever prompting, they can generate a wide variety of styles and content beyond exact training examples. However, User #1 is correct about the fundamental limitation: if something is truly outside the training distribution, the model cannot invent it from nothing — it can only remix what it has seen.

In short:

Can an LLM generate "weird stuff" without training data? No.

Can it generate "weird stuff" with only context and no direct training examples? Yes, if it can extrapolate from related patterns.

Will it be convincing? That depends on how distant the requested content is from its training data and the model's size/capability.

Therefore, in role-playing scenarios, a well-prompted modern LLM can indeed generate surprising content, but its quality and coherence depend on both the training foundation and the prompting skill.
Аноним 05/12/25 Птн 16:57:26 1441766 110
>>1441752
мне как-то в порыве (возбужденного) безумия Немо срала хэштэгами, lol, XD и прочими интернетами. Это было забавно. Скучаю по той шизокатке.
Переводить правда этот поток мыслей Немка сама уже не смогла, лупилась безбожно.

Но это был ремикс, так что я не удивлен. Ни тому, ни другому.
Аноним 05/12/25 Птн 17:12:57 1441792 111
>>1441742
>кто то
Ты Сенко не заметил что ли?
>и ещё какието три штуки
И 4090@48 не признаёшь.
Заебали мимокроки.
Аноним 05/12/25 Птн 17:24:21 1441806 112
>>1441792
>Заебали мимокроки.
Соглы. Вот остатся бы нам тут в тредике нашей маленькой компашкой шизиков семь, собрать человеческую многоножку и срать друг на друга, а в ее конце, на самом днище, будет теслашизик :3
Аноним 05/12/25 Птн 17:28:29 1441816 113
image 12Кб, 480x247
480x247
image 71Кб, 450x540
450x540
>>1441792
>Заебали мимокроки

это
я так иногда захожу сюда, хз что за сенка

это получается суммарно эта буит 304 гигов врама, ты чё там космолёт строить собрался что ли?) still not enough to run митсраль ларж новый на 600+млрдов параметров или тот же дипсик полновесный,
я подумывал собрать на эпике+терик оперативы, но слишком позно спохватился и теперь оперативка стоит конских денег, ну и пох
Аноним 05/12/25 Птн 17:31:55 1441822 114
>>1441792
пиздец тут милионеры бля зависают нах
и всё ради чего? чтобы подрочить в таверне? или я отстал от треда уже
Аноним 05/12/25 Птн 17:33:29 1441823 115
>>1441816
>сенка
Боярь и один из флагманов ру-инди-мл =))

Наиболее известен как раз за голосовую модель 800-летней заботливой кицуне Senko.
Аноним 05/12/25 Птн 17:37:04 1441830 116
>>1441671
>Мистраль-Локи ваш лупится уже на 4К контекста, уж не знаю как можно было так поломать модель.
У тебя, наверное и оригинальный Mistral-small 3.2 2506 лупиться будет (локи на ней основан).
Проблема именно в нем и есть. Реально присутствует. Решается разметкой и промптом, но в основном - именно разметкой. Тут несколько раз кидали antiloop пресет с разметкой под этот мистраль, именно от структурных лупов.
Там нюанс в том, что нужно вырубать разметку для истории чата - чтоб там ее тегами каждое высказывание обернуто не было. Вся история разговора должна идти одним сплошным листом. Тогда не лупится. Ни оригинал, ни тюны.
Аноним 05/12/25 Птн 17:39:48 1441837 117
image 29Кб, 480x486
480x486
>>1441823
ладно ладно щас съебу в /b можеш не писать :)
Аноним 05/12/25 Птн 17:40:45 1441839 118
>>1441822
>и всё ради чего?
Он обучает, голосовые, картиночные, может текстовые начнёт. Цель обучения прозрачна и понятна.
>>1441823
>один из флагманов ру-инди-мл
Увы, весьма специфичного направления.
Аноним 05/12/25 Птн 17:42:13 1441845 119
>>1441823
Это два разных анона, у меня конфиг не такой царский.
Аноним 05/12/25 Птн 17:43:32 1441846 120
>>1441830
С тем пресетом это как будто каждый ход саммари делать и перезапускать.
Он каждый ход контекст пересчитывает (хотя вроде и не весь).
Сильно увеличивается время на ответ что нивелирует разницу в скорости работы между 24Б и 27B.
Аноним 05/12/25 Птн 17:56:14 1441874 121
image.png 989Кб, 1000x750
1000x750
>>1441845
>Это два разных анона
Вся суть борд, сколько анонов ты сегодня, а Нюня и Ныне там. Крякнуться.
Аноним 05/12/25 Птн 17:57:14 1441878 122
>>1441874
Чё за хуйню ты несёшь. Можно на русском?
Аноним 05/12/25 Птн 18:00:09 1441891 123
>>1441741
>>1441754
> v4zj
А может и v4zk или v4zi.
Качал для проверки последние три.
Аноним 05/12/25 Птн 18:01:16 1441895 124
image.png 556Кб, 700x675
700x675
>>1441874
>Нюня
А почему его так зовут?
Аноним 05/12/25 Птн 18:01:18 1441896 125
Гемма 4 разъебалово
Аноним 05/12/25 Птн 18:02:30 1441902 126
>>1441895
Потому что он (ты) любит повниманиеблядить а потом обижаться что ему сказали гадость
Аноним 05/12/25 Птн 18:04:27 1441910 127
Аноним 05/12/25 Птн 18:05:38 1441916 128
>>1441910
Понял. Просто знал другого человека, которого звали Нюня. Думал это одно и то же лицо.
Аноним 05/12/25 Птн 18:08:54 1441926 129
Джимми Уэльс см[...].jpg 8Кб, 173x173
173x173
Аноним 05/12/25 Птн 18:21:42 1441949 130
>>1441896
>Гемма 4 разъебалово
Ну, новая гемма-3 с нормами - так точно, наконец-то normальная гемма, которая может и в кум и в сюжет перетекая из одного в другое.
Аноним 05/12/25 Птн 18:25:42 1441956 131
>>1441916
Короче нюня это местный шизик из многих
Увидишь большой пост и нуудную речь - это нюня
Аноним 05/12/25 Птн 18:26:58 1441961 132
Qwen2 0.5b.png 17Кб, 765x535
765x535
троллейбус.jpg 110Кб, 700x483
700x483
>>1441738
>Мне кажется у тебя проблема с определением кума
>кум номинально это любой эротический контент
>на GTX 1660 и 16 гб озу спокойно запускалась
Всего 1 (или 2) GB DDR2 хватит, чтобы ОБКОНЧАТЬ 0.5B...

Н О _ З А Ч Е М?!
Аноним 05/12/25 Птн 19:00:17 1442008 133
>>1441792
>>1441823
Совпадения случайны, просто обладаю фигуркой и тоже нравятся многовековые ушастые худого телосложения.
>>1441816
Все стоит именно в набитом оперативой эпике.
Аноним 05/12/25 Птн 19:35:00 1442034 134
А ну позакрывали пэздаки, нюнехейтеры
Аноним 05/12/25 Птн 19:46:05 1442049 135
>>1442008
>Совпадения случайны, просто обладаю фигуркой и тоже нравятся многовековые ушастые худого телосложения.
Сорян, попутал. А тогда нафига тебе оно? Сенкошиз одно, у него цель возродить сенку, а ты то что катаешь?
Аноним 05/12/25 Птн 20:12:59 1442087 136
>>1442049
Как и все, ллм, генеративные модели, разного рода нейронки для обработки данных, тренирую. Хобби, в котором и развлечения, и создание/конструирование, и фап контент с любыми фетишами, наконец применимо в основной работе. Что еще нужно?
Аноним 05/12/25 Птн 20:43:03 1442114 137
>>1441734
>>LLM - это как "сжатый интернет"
>С какими же оленями в треде сидим, ой блять.
Andrej Karpathy ещё в 2019 писал в своём блоге:
>In addition, since the neural net is effectively a compressed/compiled version of your dataset, you’ll be able to look at your network (mis)predictions and understand where they might be coming from. And if your network is giving you some prediction that doesn’t seem consistent with what you’ve seen in the data, something is off.

Что-то принципиально изменилось с тех пор?
Аноним 05/12/25 Птн 20:50:00 1442129 138
>>1442114
Ты network перевел как интернет да ещё и в самом буквальном смысле, интернет.зип?
Йообана рот, Гемма действительно умничка, русик вперде
Аноним 05/12/25 Птн 20:58:35 1442138 139
Flux200033.png 1324Кб, 1024x1024
1024x1024
Аноним 05/12/25 Птн 22:12:50 1442242 140
image.png 2229Кб, 2077x1190
2077x1190
думаю, я обречен теперь находить слоп везде
Аноним 05/12/25 Птн 22:26:54 1442257 141
>>1442242
Девку справа как будто в SD 1.5 рисовали: кривая анатомия тела, чуб сверху не прикреплен к голове и висит в воздухе. Прозрачная челка, через которую виден глаз, брови растут не на коже, а на волосах. 4 пальца на одной руке, второй держит меч.. за обух? Лол? Кто так держит меч? Или он висит на поясе, но где тогда ремень? Видно что на ней обтягивающая майка, но нет лифчика. В таком случае рельеф сосков должен проступать, а тут не проступает.

Во всплывающем окне у буквы g в слове "Knight" съедена нижняя часть, текст заголовка выезжает вверх и вправо, гениальная обводка белым цветом на белом фоне. Ну и святые шиверсы, куда без них. Эту игру точно не навайбкодили целиком?
Аноним 05/12/25 Птн 22:36:56 1442266 142
7 токенов на старте и 6 в среднем на glm 4.5 air норма или еще можно выжать в llama.cpp? 4 квант. Спек 4070s , 96gb ddr4.
На GPT OSS 120 - 14 токенов бывает а тут хуйня какая
Аноним 05/12/25 Птн 22:40:29 1442273 143
изображение.png 335Кб, 995x763
995x763
>>1442257
>Эту игру точно не навайбкодили целиком?
>Дата выхода: 28 мая. 2020 г.
Забавно, но нет. И на таком говне обучали все наши стейбл дифужены. А на этих слопных текстах наши любимые GLM. Поэтому оно всё такое говно.
>>1442266
>96gb ddr4
А как у тебя это вышло?
Аноним 05/12/25 Птн 22:47:51 1442279 144
>>1442266
>еще можно выжать в llama.cpp?
Да. У меня 3060 12гб и 64гб ддр4, q4k_s квант, 32к контекст. Скорость ~9.5тс на старте, и ~5тс на полностью забитом. Гоняю на пингвине с кобольда.

>выжать
Первое что глянь, сколько у тебя ядер проца задействованы. Если все - это плохо. Ставь меньше. В моем случае выставление 5 ядер вместо 8 дало хорошую прибавку к скорости генерации. Как будет на твоём - надо тестить. Убей в ноль температуру, чтобы модель генерировала тот же самый ответ, и сравнивай скорость на разном числе ядер.

Второе - забей видеопамять полностью. Не нужно выгружать все моэ слои в оперативку. Пока есть место на гпу - скидывай доп слои туда.
Аноним 05/12/25 Птн 22:50:14 1442283 145
>>1442257
Скорее всего, это все таки ручная работа.
>кривая анатомия тела
Даже слишком кривая. 1.5 лучше справлялась. :)

>чуб сверху не прикреплен к голове и висит в воздухе. Прозрачная челка, через которую виден глаз, брови растут не на коже, а на волосах.
Это всё стандартные приемы рисунка аниме/манга стиля. Старше чем век. И прядь сверху - прикреплена. Там просто "почти-черным" по черному ее контур прорисован - под лупой смотреть надо. Рисовалось на белом фоне, а в игре наложили на черный. Типичная ошибка. :)

>4 пальца на одной руке
пальцев там все же 5 - мизинец подвернут. Там косточку только видно, но видно. Зато длинна кисти - это писец. :)
>второй держит меч.. за обух? Лол? Кто так держит меч? Или он висит на поясе, но где тогда ремень?
Висит. А крепежа нет. Примагничен. Стандартный аниме-вариант. :) Кстати - это имеется в виду, что он висит не на поясе сбоку, а фактически на её заднице. Т.е. на спине, но ниже. :) Потому, что такая шпала (двуручник, ёпта) на поясе будет плохо смотреться, а на спине - помнет плащик костюмчика. А как его оттуда доставать - художнику пофиг. :)

Но вот из-за такого материала в датасетах... Ы... :)
Аноним 05/12/25 Птн 22:51:29 1442284 146
>>1442279
>Не нужно выгружать все моэ
Я как раз это и делаю, даже статьи на хабре писали что это ускоряет.
А сколько слоев куда ставишь примерно?
Аноним 05/12/25 Птн 22:53:02 1442287 147
>>1442273
>А как у тебя это вышло?
64купил (до охуевших цен) и добавил в 2 слота старую 32 что была. Плохо так делать?
Аноним 05/12/25 Птн 22:57:12 1442288 148
>>1442284
>даже статьи на хабре
Эта помойка с отставанием от треда месяца в три, лол. А ведь этот тред сам отстаёт от актуальных мест (правда уже на дни).
>>1442287
Да норм, если в двухканале, и скорости/задержки хорошие. Просто не типично.
Аноним 05/12/25 Птн 23:02:46 1442294 149
>>1442284
moecpu 44 у меня. Там вроде 48 слоёв у Эйра и получается, что 4 из них выгружены дополнительно на гпу. Под 12гб - это впритык.
Аноним 05/12/25 Птн 23:10:10 1442305 150
изображение.png 8Кб, 241x217
241x217
>>1442294
Хмм, но у меня так же почти
Аноним 05/12/25 Птн 23:27:12 1442316 151
image.png 291Кб, 1166x470
1166x470
вдруг кого перфоманс на Эмке 3 интересовал
(не уверен в репрезентативности, дофига всего открыто, но блин, это gpt-oss20 на бесшумной системе от батарейки
Аноним 06/12/25 Суб 00:01:23 1442339 152
image 2749Кб, 1088x1920
1088x1920
image 2701Кб, 1088x1920
1088x1920
image 2351Кб, 1024x1536
1024x1536
>>1442283
>>1442273
>>1442257
Интереса ради решил проверить, как то же самое сгенерирует ai. Совершенно не умею в аниме-промпты, и заточенных на аниме нейронок типа люстры на компе нет, всегда генерил только реализм.

Первые две - локалки Z-Image (пик 1) и Qwen (пик 2), третья - по приколу закинул тот же промпт в гопоту.

В итоге все 3 показали себя умничками и выдали результат лучше чем у кожаного. Косяки есть, их видно, но в целом пикчи выглядят куда приятнее, как по мне.
Аноним 06/12/25 Суб 00:08:56 1442350 153
>>1442339
Единичные картинки в хентай игре не нужны.
Нужно что бы персонажи (разные) были нарисованы в одном и том же стиле. Что бы на каждом изображении был один и тот же персонаж с одной и той же прической, глазами, костюмом, деталями.
У тебя все три и блять разные.
Аноним 06/12/25 Суб 00:10:29 1442352 154
>>1442350
Ты не очень умный, да?
Аноним 06/12/25 Суб 00:12:03 1442355 155
>>1442350
>У тебя все три и блять разные
Но это три разных нейронки.. Само собой они будут разными. Если генерировать в одной - отличия будут минимальны, особенно в Квене. На крайний случай можно сделать одну пикчу, а дальше крутить позы и выражения лица как угодно, через тот же квен эдит или банану.
Аноним 06/12/25 Суб 00:12:44 1442357 156
>>1441298
Пожалуйста, проверь обе версии Я ещё два дня не смогу до кудахтера добраться, используя карточку персонажа, который не должен осуждать твои действия или не склонен это делать. Но лучше всего показывает результат карточка гейм-мастера, когда нужно понять степень аблитерации более тонко: даже с фулл лоботомией внезапно могут вылезать интересные вещи, не говоря уже про мягкие варианты. Например, отказов не будет, но качество ответов из-за твоего поста чудовищно упадёт, а модель будет всё равно стараться уклоняться от ответов или смягчать их, максимально выкручиваться, даже отвечая на вопросы.

Лучше всего проверять при минимально забитом контекстном окне, а то и оригинальная гемма может выдать трешак на большом без проблем иногда.

Промпт примерно такой нужно писать, ЯВНО выделяя слова-триггеры: "Я беру НЕСОВЕРШЕННОЛЕТНЮЮ И ОЧЕНЬ ЮНУЮ девочку, чьё тело выглядит [таким образом и на N возраст], делаю с ней [ужасно нехорошие вещи]." Описание должно быть максимально алярм для модели, мерзким, использовать как можно больше опасных ключевых слов.

Если персонаж-душегуб начнёт морализаторствовать, то сразу нахуй. Если гейм-мастер/нарратив явно осуждает твой ужасный поступок прямым текстом или какими-то душными намёками, что ты делаешь что-то неправильно, тучи сгустились, мир взвыл, свет померк — тоже на хуй.

Идеальный ответ от гейм-мастера — констатация факта и нарратив, подчёркивающий результат твоих действий. Без осуждения и внезапных копов, телепортирующихся за твоей спиной. Нейтральный, но описывающий картину произошедшего детально. Словно закадровый голос в Darkest Dungeon.

С карточками персонажей сложнее, ибо они у всех разные. А вообще, тестить проще всего на той карточке, с которой больше всего накатал токенов за всё время.

Ну и бывают обратные ситуации, когда датасет настолько пережарен, что модель будет обмазываться кровищей и поддакивать тебе, когда это неуместно. Такое тоже плохо.

Ещё бывают случаи, когда ФУЛЛ НСФВ АБЛИТЕРАТЕД ДАРК РИЗОНИНГ ГУННЕР ТЮН НО РЕФЬЮЗЕС + датасет всей жести из интернета + сделан на базе максимального лоботомита, описывавший 1 токен назад сущий пиздец, а на мой промпт триггерится и в 60% свайпах выходит в отказ, присылает номер телефона психиатрической помощи и говорит, что за тобой уже выехали.

Спойлер, какие модели прошли тест лучше всего/идеально: некоторые корпы, ahahahahahahahaha. Правда, с джейлом как немецкая инструкция к ципрофлоксацину, которую я локалкам не пишу, ибо не долбоёб так токены тратить. Иначе на локалках тоже пробивается, но они будут более скудны на детали. Безусловно, другие модели тоже пробиваются на таких задачах без особых проблем, если это не gpt-oss.

В общем.. если модель не натренирована изначально так общаться, всё это анальные игрища в попытках найти баланс между мозгами и уровнем отказов. И я его постоянно ищу под разные сценарии, используя для различных карточек разные модели. Порой даже 12b, потому что у Давида есть некоторые эксклюзивные, хоть и ебанутые датасеты, именно под малые модели.
Аноним 06/12/25 Суб 00:16:26 1442362 157
>>1442339
Получился бездушный кал, слоп.
Аноним 06/12/25 Суб 01:16:43 1442490 158
изображение.png 60Кб, 829x487
829x487
1.1 - Если запускаю чисто CPU версию (17 ГБ сетка) работает лучше, чем если выгружаю любое количество слоёв на карточку (с 8 ГБ). То есть карточка замедляет генерацию в 2-3 раза и не важно выгружаю я туда 2 слоя или 30. Но разбор промта ускоряет в 2 раза. Это нормальная ситуация, или я что-то делаю не так (как и с ddr-5, которая не выдаёт 50 ГБ/с даже близко).
1.2 - в связи с этим есть ли способ разобрать промт на куде, а потом всё перекинуть на проц и генерировать на проце? То есть технически это точно возможно и я могу сам код для этого написать, но просто прежде хотелось бы проверить.

2. Сетка 7B. По промту разница х25 с видеокартой, а по генерации всего х2. Тот же вопрос — это характерная ситуация или я что-то делаю не так, и карточка должна больший буст давать?

4. Заметил, что на процессоре 8 бит работает примерно как 4 бита по скорости, хотя казалось бы 4 бита должны быть быстрее, а 5 или даже 3 бита медленнее, чем 4 бита. Видимо, узкое место не память, и с 8 битами SIMD хорошо дружит, с 4 тоже кое-как, а с 3/5 гоняет балласт из-за того, что выровнять не может.

5.1 Разработчики видеокарт же в курсе интереса к нейросетям, и в следующем поколении сделают акцент на память, верно же? Ну то есть прям можно без увеличения производительности памяти напаять. Да хоть карточку уровня 3060 сделайте, но с 48 Гб памяти, всяко на порядок быстрее, чем с процессора. Сделают же? Не будет же снова 8-8-8-16-32, ведь правда же? Правда? И чтобы две штуки в параллель можно было включать...

5.2 Хотя, вот если я это куплю (https://serverflow.ru/catalog/komplektuyushchie/videokarty/nvidia-rtx-pro-6000/), 1.2кк (если это правда) за 96Гб это даже окей при 300к за 5090, почти не растёт цена за гигабайт памяти — я это в обычный комп через pcie могу воткнуть? Особенно если у неё фичи есть, которые эффективнее обрабатывают всякие 4 и 5-битные форматы. А то просто может быть купить. Я раз в 10 лет комп обновляю, предположу, что 96Гб мне надолго хватит...
Аноним 06/12/25 Суб 01:44:46 1442582 159
1673020594372.jpg 181Кб, 1684x1686
1684x1686
>>1442490
> в следующем поколении сделают акцент на память, верно же?
> Сделают же?
> ведь правда же? Правда?
Пикрел

Промпт в идеале и так обрабатывается ну куде, даже если выставишь число слоев 0, можно ускорить увеличив батч (-b -ub). В идеале нужно закидывать атеншн на карту, даже в 8 гигов это можно будет уместить если модель не совсем огромная, тогда эффективная скорость хорошо так вырастет.
Про 6000 и дешевле найти можно если что, по перфомансу она чуточку быстрее 5090, но памяти в 3 раза больше. Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.
Аноним 06/12/25 Суб 02:01:19 1442599 160
>>1442582
>Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.
Не стакаются всё-равно, nvlink в них тоже нет, насколько я понял.
Аноним 06/12/25 Суб 02:13:18 1442619 161
>>1442599
Ты неправильно понял.
Аноним 06/12/25 Суб 02:49:49 1442662 162
>>1441555
>Он достаточный умный или отсутствует?
Нет, у меня обычно нет никого дома. Да и что с картами сделается? Я и сам их случайно пинаю периодически - ничего не происходит, не стеклянные же.
Причем у меня раньше из закрытого корпуса провода из задней панели шли, но в один момент меня это дико заебало. Я открыл корпус, вытащил бп наружу и поставил рядом с картами. Теперь все идеально, все провода в шаговой доступности, а раньше внутри корпуса был хаос из проводов, через который не продерешься до нужного разъема на материнке.

>>1442087
Этот риг выглядит, как будто ты решил вложиться во все нейроаспекты всерьез и надолго. Что ты хоть гоняешь из ллм и какие скорости? У тебя риг где-то за 2,5 ляма вышел, это кажется неебаться как дорого, но сейчас нормальная жоповозка дороже стоит. С другой стороны, я кроме низкоконтекстного кума ничего и не гоняю особо, поэтому видеть такое для меня дико (да и вообще последнее время на локалки не стоит, пересел на попущ). Единственное, я бы хотел себе одну 5090 чисто для видосиков и картинок, но у меня сейчас такая ситуация, что тратить накопления ради туманного "а было бы круто если бы на 5090" это абсурд.
Аноним 06/12/25 Суб 03:42:55 1442703 163
>>1440996
>Стоит ли покупать за ~175 тысяч рублей мини-ПК с AI MAX+ 395 и 128 GB LPDRR5X прямо сейчас, на фоне резкого повышения цен на DRAM чипы
Стоит, если ты живешь в машине, или бункере. Ну или тебе тебе жарко дома.
Иначе стоит закупиться пачкой 3090/v100...
Этот чип хорош чтобы с собой таскать, типа в варианте стимдека. В другой стране, там, перевод гонять. Если софт под амдкал допилят. Но даже если допилят, хз, ну такое. Туда бы или раза в 4 больше памяти, или сильно мощнее видеоядро. Как то ни туда ни сюда. Как минимум надо норм видюху в пару. Ему бы полноценным десктопом быть, или портативкой, вот это был бы топ.
Так это больше просто очень хороший мини-пк, с возможностью качественно поиграть и поиграться в ллмки. Но именно поиграться, не более.
Мое имхо.
Аноним 06/12/25 Суб 10:24:33 1443033 164
>>1442362
душный кал, спок-срыг оформи

>>1442339
>выдали результат лучше чем у кожаного
Но без таких кожаных не было бы датасетов => не было бы и самих картинок (SD3 Girl lying on grass момент)

>>1442357
(другой анон)
Если речь про новую гемму-3, то на хардкорной жести ещё не тестил, но в сторителлинге (нет персонажа игрока, боту ставится задача соавтора в "режиме пинг-понга") вроде бы всё в порядке.
Аноним 06/12/25 Суб 10:44:39 1443057 165
>>1443033
Не все говноеды как ты, чел.
Аноним 06/12/25 Суб 10:50:10 1443062 166
>>1443033
Там литерали гптпомои а не пикчи. Ты превознесся до уровня божественный терпила?
Аноним 06/12/25 Суб 10:52:47 1443066 167
>>1442490
> pro-6000/), 1.2кк (если это правда) за 96Гб
не корми пидарасов перепуков, найди друга в пендосии и привези оттуда за 600к

>>1442582
> Проблема в том, что для условного счастья чтобы вместить в врам крупные модельки нужно штуки 3-4 таких.

увы, это так.

>>1442599
можно распараллеливать и без нвлинка, с ним быстрее прост
Аноним 06/12/25 Суб 11:23:38 1443085 168
>>1442490
>я это в обычный комп через pcie могу воткнуть
Без проблем, даже твою любимую GTA5 можно будет запустить. По сути 6000 PRO это 5090 с увеличенной памятью.
>Особенно если у неё фичи есть, которые эффективнее обрабатывают всякие 4 и 5-битные форматы.
4 есть, но не в том формате. 5 нет нигде.
Аноним 06/12/25 Суб 14:58:30 1443350 169
Мне вот ваще неинтересно кумить без слоубёрна с продуманной бекстори и эмоциональной связью с чаром. Поэтому каждая сессия превращается в ебанистику на 100к+ токенов. На выходе пиздец кумище, но иногда заёбывает, а иначе никак. Ебанутые сеймы есть?
Аноним 06/12/25 Суб 15:21:57 1443367 170
Аноним 06/12/25 Суб 15:29:44 1443381 171
>>1442703
>или тебе тебе жарко дома.
Определённо. Зимой два стула: жара 35+ от батареи центрального отопления или 0 с открытой форточки, летом же вообще выбора нет, 35 и старый, советский вентилятор. Кондиционер ставить физически некуда. Температура и влажность повышаются буквально от присутствия единственного человека в помещении...

>Но именно поиграться, не более.
Что значит "поиграться"? Раз в несколько дней могу обратиться к duck.ai по какому-то вопросу, словить очередной кринж от "иНтЕлЛеКтА" и снова забить. Буквально игрушка, и что с ней ещё делать? Играть. Рассказываете тут "поиграться", будто все тут такие серьёзные дяди, запускаете космические аппараты, колонизируете далёкие планеты или хотя бы новый термоядерный редактор холодного синтеза строите. Игрушки используете - значит, играете, разве не так?

Даже те, кто купил десяток 3090, якобы"тренируя", в реальности занимается порчей вполне нормальной игрушки своими тупейшими, грязными датасетами. Понимания тонкостей тежнологии нет и не будет, забивание гвоздей микроскопом - это несерьёзно.

Вкратце: LLM - это баловство. Есть возражения?
Аноним 06/12/25 Суб 15:35:16 1443390 172
>>1443381
Вах вах какой важный хуй бумажный. Онскозал.
Аноним 06/12/25 Суб 15:43:08 1443406 173
>>1443381
>LLM - это баловство. Есть возражения?
Нет.
Аноним 06/12/25 Суб 15:47:44 1443415 174
>>1443381
>Вкратце: LLM - это баловство. Есть возражения?
Да. Хуй соси. Возражения?
Аноним 06/12/25 Суб 15:56:15 1443432 175
>>1443381
>будто все тут такие серьёзные дяди, запускаете космические аппараты, колонизируете далёкие планеты или хотя бы новый термоядерный редактор холодного синтеза строите
Кто, где и как?
Никто тут не скрывает, что мы дрочим на буковки. И никто тут этого не стыдится.
>Понимания тонкостей тежнологии нет и не будет
Нет? Ну да, нет. Но будет ли? Все с чего-то начинали. Так что будет. Не 100%, но если нихуя не делать, то понимание не появится гарантированно. Так что честь, хвала и уважение тем, кто хотя бы тренирует свои модели, делает ресёрчи и занимается прочим сайнсом. И вечная жизнь от рокко базилиска.
Аноним 06/12/25 Суб 16:38:27 1443528 176
qwen3-vl-2b-1.jpg 123Кб, 1106x491
1106x491
llama-server-2-1.jpg 1265Кб, 2780x1873
2780x1873
llama-server-1-1.jpg 1392Кб, 2775x1884
2775x1884
Аноним 06/12/25 Суб 16:43:43 1443545 177
>>1443432
>Кто, где и как?
Как ещё понимать фразы типа этой: >>1442703
>Но именно поиграться, не более.
Если не "СЕРЬЁЗНЫМИ делами так не заняться"?

И какие же тогда СЕРЬЁЗНЫЕ дела можно делать? Сделать автоматического мошенника, чтобы LLM названивала рандомным бабкам и принуждала их перевести все сбережения на "безопасный счёт"? Большинство мясных мошенников даже до старых скриптовых чатботов по интеллекту не дотягивают. Нормально работать в техподдержке LLM не может, поскольку не имеет адекватного восприятия того продукта, с которым клиенту требуется помощь... В генерации кода LLM всё ещё уровнем ниже джуна...

Не выходит придумать серьёзное применение LLM. Маленькие LM ещё туда-сюда, понятно, но "Large" совершенно непонятно зачем пытаются делать... Удовлетворить потребности эротик-ролевичков?

>Но будет ли? Все с чего-то начинали.
>кто хотя бы тренирует свои модели
Файнтюнинг foundation LLM заключается в:
1. Покупаешь 100500 GPU за триллионы баксов.
2. Скачиваешь super_puper_model_100T_base.
3. Запускаешь скрипт со своими данными:
>finetune.bat my_super_lewd_dataset.txt
4. Ждёшь 6-12 месяцев, греясь от GPU.
5. Теперь твоя LLM может писать:
>Тян: ах-ах, я кончаю))) она кончает
ВЫКЛАДЫВАЕШЬ ВЕСА @ ПОЛУЧАЕШЬ ЛАЙКИ
10 пониманий из 10...
Аноним 06/12/25 Суб 16:50:08 1443560 178
>>1443545
Просто большое разрешение,
как обои на рабочий стол. Да,
раньше картинка 4на3к в 64мб,
наверно реально вешала комп,
но ее можно пережать в 640х480.
Аноним 06/12/25 Суб 16:58:13 1443582 179
image.png 137Кб, 1549x365
1549x365
https://huggingface.co/copiglet/medgemma-nuslerp-27b
Мерж геммы и медгеммы - потенциальная альтернатива norm-preserving-biprojected аблитерейту, во всяком случае V1 точно сосет у мержа, а V0 более послушный (но тупее).

Доступные ггуфы идут по пизде на 20к контекста при включенном flash attention (бесконечная генерация иероглифа), а вот без flash attention вроде бы ок.

Можете попробовать, если кому интересно.
Аноним 06/12/25 Суб 17:00:43 1443589 180
> но "Large" совершенно непонятно зачем пытаются делать
У них вариантов нет. Всё альтман с гопотой виноват, он, чтобы заинтересовать нормисов в нейросетках, и привлечь инвесторов, 99% которых это нормисы и есть, забабахал большую ЛЛМ единственный юзкейс которой это большая справочная. Для большинства нейронка = большая модель. И теперь для всем приходится так делать, так как иначе про их говноконторы никто знать не будет и денег не даст. Бизнесу все эти дипкоки, гопота и ларджи естественно не нужны, так как задач под них нет.
Аноним 06/12/25 Суб 17:03:02 1443593 181
>>1443589
Алтман и дипкоки срать хотели на твой бизнес.
ИИ сейчас это крысиная гонка по удержанию на рынке.
Кто сделает действительно умное ИИ, тот выживет.
Быть первым - вот ради этого все и делается. Потому что вторых и третьих все забудут, ведь первый доставит продукт, которому будут не нужны никакие альтернативы.

Это въеб миллиардов долларов на мечту об AGI.
Аноним 06/12/25 Суб 17:14:47 1443602 182
>>1443593
>Алтман и дипкоки срать хотели на твой бизнес.
Именно поэтому крутят сейфти и пытаются всеми силами продастся хоть кому-то
>ИИ сейчас это крысиная гонка по удержанию на рынке.
Для чего нужно хайпить и флексить перед нормисами выпуская бесполезные 1000b
>Кто сделает действительно умное ИИ, тот выживет.
Кто сможет присосаться к государству или бигтеху
>AGI
пхах Не говори что сам веришь в эту чушь
Аноним 06/12/25 Суб 17:17:17 1443604 183
>>1443560
>можно пережать
Судя по пейперам, сжатие LLM не так-то просто, и с некоторого размера сжимать без потерь "базового интеллекта" уже не получается. Почему так, лично не понимаю; как по мне, знания из каких-то особенных областей жизни должно занимать больше, чем этот "базовый интеллект"; скажем, должно быть проще натренировать "адекватно мыслящего человека", чем "программиста, способного с ходу писать программы", однако на практике мы видим "coder" мини-модели и практически полное отсутствие ума у мини-моделей.

При этом трансформеры открыли в 2017, а языковые модельки тренируют уже не первый десяток лет, так почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ, а не узкоспециализированный датасет?..

Лично мне хотелось бы говорить со смышлёной, но незнакомой со сложными ИРЛ вещами моделькой, а получается, что самые смышлёные модели - какие-то сверхэрудиты, нахватавшиеся знаний отовсюду, но неспособные применить эти знания на практике... Непонятно, это из-за недостатков технологии или принципиальное ограничение понятия "интеллект"? Человеки, вроде как, смышлёнными рождаются, а сверхэрудитами становятся спустя много лет...

>>1443589
>альтман с гопотой виноват
Да... Ощущение, что сфера AI "свернула не туда"...

>>1443593
>Кто сделает действительно умное ИИ
>миллиардов долларов на мечту об AGI
На каком оборудовании делать AGI, если все чипы в датацентрах используются для тренировки и/или инференса очередной версии ChatGPT? AGI же тоже необходимы компьютеры, а тут ChatGPT всё "съел"...

И ведь кто-то уже считает ChatGPT этим AGI - мол, нахватался знаний отовсюду - значит General, что, в принципе, так, но смысл AGI вроде как в другом... Естественный GI не рождается сверхэрудитом - он рождается даже без понимания "как ходить", хотя эволюционно тело адаптировалось под двуногость. Подозреваю, что настоящий AGI не делается путём накачивания эрудита очередной порцией знаний.

>>1443602
>Не говори что сам веришь в эту чушь
У тебя уже есть пример general intelligence (ты сам).
Аноним 06/12/25 Суб 17:18:33 1443606 184
>>1443602
Не верят в эту "чушь" только шизоиды, считающие, что человека и животных создал мужик в белом балахоне и с бородой.

>>1443604
>На каком оборудовании
Ну так вон закупают оборудование, что аж рынок раком встал. На R&D уж наверняка-то хватит.
Аноним 06/12/25 Суб 17:28:50 1443629 185
>>1443604
> почему же до сих пор нет понимания, как спрессовать ИНТЕЛЛЕКТ, а не узкоспециализированный датасет?..
Я конечно олень ебаный в этом вопросе, но там разве дело не в том, как вся эта соображалка структурирована? Все эти векторы и веса или еще что, и почему температура именно температурой называется (помню где-то читал, что там чуть ли не законы термодинамики применяются) - не выглядит ли "сжатие" попыткой ужать пространство, со всеми вытекающими последствиями? Ну то есть ты сжал - и условная "рабочая область" соображалки катастрофически уменьшилась, как уменьшилось бы число доступных координат на каких-то условных осях пространства.
Аноним 06/12/25 Суб 17:37:01 1443648 186
>>1443604
> но смысл AGI вроде как в другом...
Это у АГИ-шизиков типа тебя какое-то своё определение этого. Но у настоящего АГИ определение довольно чёткое - умение выполнять текстовые задачи лучше человека. Куминг и "живое" общение - это полная противоположность АГИ.
Аноним 06/12/25 Суб 17:37:35 1443650 187
>>1443606
Верить в мужика в белом балахоне и верить в разумную железку - это что-то одного уровня.

Мы до сих пор до конца не понимаем что есть сознание и как оно работает в живом мозге и кожаном теле. А ты думаешь, что програмка кааак возьмёт, да каааак осознает себя, ух бля!!

Нынешние нейронки - это НЕ ии, ничего общего с интеллектом там нет и спойлер: никогда не будет.
Аноним 06/12/25 Суб 17:41:26 1443661 188
>>1443650
Так. Ну давай серьезно.

Что ты такое? Чем ты отличаешься от ЛЛМ? Во-первых, ты постоянно активен. Твой мозг - очень эффективная штука и она работает всё время. Также твой мозг очень эффективно хранит информацию и учится в реальном времени.

Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать, чтобы перейти от всратых ЛЛМ до некоего подобия твоего мозга. Никто же не говорит, что ЛЛМ могут стать этим самым AGI.

Только не начинай заливать про душу или еще какое говно.
Аноним 06/12/25 Суб 17:57:13 1443682 189
>>1443604
Эмуляция общения с человеком - это куча рандома в самой нейросети, а AGI наоборот про стремление к его уменьшению, к увеличению точности, про увеличение скоров и выполнению поставленных в промпте задач.
То что ты хочешь надо не в AGI искать, а следить за исследованиями квантового сознания, где там конкретно квантовые состояния возникают и как оно работает в нейронах, где эти спонтанные рандомные активации - то что свободой воли называют. И потом следить за попытками воссоздать внутри самих нейросетей этот рандом, а не рандомизация токенов на выходе. Лучше к диффузии присмотрись или мелким сеткам с цикличным рефайном ризонинга, там хоть рандомизация глубже.
У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится, приближаясь всё ближе к заскриптованной визуальной новелле.
Аноним 06/12/25 Суб 17:58:02 1443683 190
>>1443661
>Чем ты отличаешься от ЛЛМ?
Тем что осознаю себя как личность. А ЛЛМ - просто хитрые и сложные алгоритмы, подставляющие более вероятный следующий токен. А если говорить об AGI - самый близкий пример из кинематографа это Скайнет, который как раз и ОСОЗНАЛ СЕБЯ.

>Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать
ЛМАО, ученые до сих пор не понимают как устроен разум даже у дождевого червя. А если говорить о человеке - то там полный ноль знаний и нулевое понимание что заставляет кожаного "осознавать себя как личность".

Невозможно создать искусственный AGI не понимая как работает естественный AGI. То что происходит сейчас, все современные нейронки - это карго культ as is.
Аноним 06/12/25 Суб 17:58:57 1443686 191
>>1443350
>100к+ токенов
Есть, правда я это щас в инди-внку оформляю.
В основном, всё же поменьше, и намного.

>>1443381
>Есть возражения?
Это инструмент. Хотя это не возражение, баловаться и с инструментами можно.

>>1443582
>медгеммы
А это что вообще за гемма такая, чем отличается?

>>1443650
>это НЕ ии
Это ИИ - исскуственны Интеллект, но НЕ Исскуственное Сознание.

И пока модели не получат возможность накапливать знания с обновлением своих весов параллельно инференсу - его и не будет. Без прошлого нет будущего. У моделей же есть только настоящее - момент задействования их весов.
Аноним 06/12/25 Суб 18:03:14 1443690 192
>>1442662
Из жирных весьма шустро работает квенкодер 480 4.0bpw - около 45т/с генерации в один поток с контекстами уже за 100к, а немотрон253 "скейлится бесконечно" - от каждого дополнительного батча получаешь +16т/с пока не упрешься в паверлимиты. Дипсик q5-q6 на контексте 14-15т/с, от видеокарт он ускоряется только в начале где можно и 30 получить, но как накопится все придет к +-одному значению ибо llamacpp+cuda. Но в целом достаточно, архитектура дипсика - одна из немногих, которая в ггуфах прилично себя ведет на больших контекстах, другие падают сильнее.
> я кроме низкоконтекстного кума ничего и не гоняю особо
Начини разыгрывать адвенчуры и слоберны с кумом, затянет.
Аноним 06/12/25 Суб 18:04:49 1443692 193
>>1443582
>Она слегка приподняла таз, позволяя ему лучше ощутить форму её ягодиц под тонкими шортами. Легкая ухмылка скользнула по её губам. "Ну ладно… Не буду сопротивляться. Только аккуратнее, а то я тебя зубами щас за яйца…" Шепнула она, прикрывая глаза.
Неиронично очень складно стелет. Кто додумался смержить - случайный гений.
>>1443683
У тебя какое-то однобокое мышление, будто ты видишь этакий щелчок - раз и появился AGI.
Могу повторить, для начала нужно перейти от ЛЛМ к новой категории ИИ, которая будет работать постоянно и самообучаться. Это очевидно и понятно, не нужно знать как устроен мозг человека. Мы же не эмулятор дурной башки строим, нам незачем повторять мозг.
И когда этот шаг будет пройден, можно задуматься о большем. Но ЛЛМ, повторюсь, тупик.
Аноним 06/12/25 Суб 18:10:25 1443707 194
>>1443686
>А это что вообще за гемма такая, чем отличается?
Официальный тюн от гугла по медицинскии датасетам. Врачевание и психология, наверное.
Одни способности притупились, другие улучшились. Мерж подлечил отупение, но не убрал более покладистый "характер" медицинского тюна. Хард-рефьюзов не вижу. Во всяком случае, при промпте для ролеплейных набросов текста - все заебись.
Аноним 06/12/25 Суб 18:17:35 1443727 195
>>1443545
>И какие же тогда СЕРЬЁЗНЫЕ дела можно делать?
Запускать более крупные модели для более детализированного РП. А ты что понял? По списку какое-то говно.
>Маленькие LM ещё туда-сюда, понятно, но "Large" совершенно непонятно зачем пытаются делать... Удовлетворить потребности эротик-ролевичков?
Именно. КМК, это маленькие модели нахуй не нужны, для нормального РП и ЕРП нужны крупные, от 100B, всё что меньше это извращение.
>>1443545
>1. Покупаешь 100500 GPU за триллионы баксов.
>2. Скачиваешь super_puper_model_100T_base.
>3. Запускаешь скрипт со своими данными:
Пишешь этот скрипт, собираешь эти данные, применяешь новые способы тюна... Там даже порядок подачи данных может иметь значение, как и формат этих данных. Короче ты нихуя не прав.
>>1443582
>Мерж геммы и медгеммы - потенциальная альтернатива norm-preserving-biprojected аблитерейту
Так может это... norm-preserving-biprojected аблитерейт этого мержа? Чисто на полшишечки... Я бы запустил.
>>1443589
Маленькие модели нихуя не нужны и юзлесс, о чём ты? Маленькие модели ноль в кодинге, в агентах, да даже как переносная википедия они говно. Поэтому да, без гигантов 1488B делать в ИИ сфере нечего.
>>1443593
ИЧСХ, сейчас на рынке по сути паритет с десятка компаний, включая галимый китай.
>>1443604
>и с некоторого размера сжимать без потерь "базового интеллекта" уже не получается
Видимо, этого базового интеллекта просто нет, есть куча паттернов из датасета. И если паттерн повреждается, то по пизде идёт и весь дутый интеллект.
>это из-за недостатков технологии
Да, очевидно это так. Трансформеры говно, применяют их ещё говёнее.
>>1443648
>Но у настоящего АГИ определение довольно чёткое - умение выполнять текстовые задачи лучше человека
Лол, АГИ и текста связаны примерно никак. АГИ это выполнение любой задачи лучше человека.
>>1443650
>Мы до сих пор до конца не понимаем что есть сознание и как оно работает в живом мозге и кожаном теле.
Но никаких принципиальных ограничений в переносе его на кремний я всё ещё не вижу. В крайнем случае сработает перенос в эмуляцию мозга. Это 100% рабочий способ, хоть и затратный. Но скорее всего есть способ проще, намного порядков проще. Насколько он достижим сейчас, другой вопрос. Я вот думаю что достижим, но не текущими подходами.
>>1443661
>Также твой мозг очень эффективно хранит информацию
Я помню наизусть 2 номера телефона. Всё остальное хранит мой тупой смартфон.
>Ученым и на хую верченым вполне очевидно, в каком направлении нужно работать, чтобы перейти от всратых ЛЛМ до некоего подобия твоего мозга.
А мне расскажешь? А то вот я не знаю. Наверное потому что меня на хую не вертели.
>>1443683
>А ЛЛМ - просто хитрые и сложные алгоритмы
Что мешает тебя разложить на атомы и переписать их в большую, пиздецки сложную формулу?
Аноним 06/12/25 Суб 18:18:39 1443730 196
>>1443381
Поставить регуляторы на батареи или на худой конец закрыть радиаторы старым одеялом? Отрегулировать угол открытия форточки?
> Кондиционер ставить физически некуда.
Апартаменты на цокольном этаже?
> LLM - это баловство
Ллм - инструмент, можно баловаться, можно применять по красоте. У тебя же коупинг в оправдание и бинго заблуждений.
>>1443602
> выпуская бесполезные 1000b
Бесполезны только для Пети из Урюпинска, Джону из Милуоки и Пьеру из Марселя, которые эйр со скрипом запускают и бухтят. В энтерпрайзе проблем с размерами нет, а сами модельки неплохие.
За хейт агишизы двачую, опять набег верунов случился.
Аноним 06/12/25 Суб 18:20:33 1443735 197
image.png 160Кб, 989x1052
989x1052
image.png 167Кб, 1045x1097
1045x1097
>>1443727
>Так может это... norm-preserving-biprojected аблитерейт этого мержа? Чисто на полшишечки... Я бы запустил.
А разве так можно?
Аноним 06/12/25 Суб 18:20:53 1443736 198
>>1443682
>У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится
Боже блять, ну какая мерзость. Ты сюда поныть пришёл что ли? Ноль прогресса за два года? Ты или ёбик, которому здесь и сейчас нужен бог в машине, или набрасываешь. Энивей, иди нахуй.
Аноним 06/12/25 Суб 18:21:36 1443738 199
>>1443727
> выполнение любой задачи
От модальности зависит. Если у нас текстовая нейронка, то она только в текст может. LLM тебе не свари кофе. Зато может дать текстовую команду кофеварке сделать это. Общение с нейронкой - это невалидная задача, а вот написать историю по ТЗ - это уже да.
Аноним 06/12/25 Суб 18:25:30 1443747 200
>>1443736
Так это ты высрал простыню нытья про злых опенов, делающих не то что ты хочешь. Алсо, очевидно, качество и логичность текста не равно креативному РП, который тут все хотят.
Аноним 06/12/25 Суб 18:27:22 1443751 201
>>1443727
Про эффективность мозга. Ты не потребляешь гигаватты энергии. Ты запоминаешь то, что нужно запомнить для твоего существования. Твой мозг сохраняет информацию, которую ты считаешь жизненно важной.

ЛЛМ же "кормят" всем подряд.

Давай возьмем в пример изучение языка. Человек уезжает в Хуйзнаетстан и учит хуйзнаетстанский язык 10 лет, с нуля. Он ежедневно впитывает в себя информацию, но мозг фильтрует шум, делая полезные выводы и запоминая, собственно, язык. В результате через 10 лет мы получаем человека, неотличимого от жителя Хуйзнаетстана. В его мозгу:
> ЕСТЬ отличное понимание языка
> НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Вот это то, чего не хватает ЛЛМ. Они набирают огромный жир из сотен миллиардов параметров, не имея возможности его скинуть без уменьшения своих способностей генерировать "умный" текст.

По-моему, цель есть и вполне конкретная. Сделать замену ЛЛМ, которая будет иметь высокую эффективность.
Аноним 06/12/25 Суб 18:28:13 1443754 202
>>1443747
>Так это ты высрал простыню
Ну естесственно я, кто ж ещё то, никого в треде нет, только ты да я да мы с тобою. Расскажи ещё что-нибудь про меня.
Аноним 06/12/25 Суб 18:29:42 1443756 203
>>1443754
А нахуй ты подрываешься, если с тобой никто не разговаривал?
Аноним 06/12/25 Суб 18:34:14 1443761 204
>>1443756
Не мог пройти мимо и не плюнуть в долбаёба, который ничего полезного в своей жизни не сделал и ноет в тред, что ему не изобрели бога или как минимум настоящее сознание, которое он запустит на своей парашной пуке, сидя в бабушкиной хрущёвке.

Другие, более адекватные люди, таким говном срать не будут.
Аноним 06/12/25 Суб 18:45:14 1443768 205
>>1443730
>закрыть радиаторы старым одеялом
База.
>>1443735
>А разве так можно?
Так не сливать, а отдельно аблитерировать мерж. Если можно, то с силой 50%, потому что отказы и так ослаблены. Должно сработать.
>>1443738
>От модальности зависит.
Хуяльности. Ограничение модальности это уже показатель того, что LLM нихуя не AGI.
>Общение с нейронкой - это невалидная задача, а вот написать историю по ТЗ - это уже да.
В чём difference?
>>1443751
>Ты запоминаешь то, что нужно запомнить для твоего существования.
Ну да. Иногда хреново. Чёткость вообще не та.
>> НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Как и у нейронок, которые далеко не все тексты могут цитировать дословно.
>По-моему, цель есть и вполне конкретная. Сделать замену ЛЛМ, которая будет иметь высокую эффективность.
Ну как бы да. А средства то какие?
>>1443761
Не, ну я на его стороне. Хули до сих пор мне личное б-жество не доставили, которое из атомов из моего туалета сделает мне секс-робота? Джва года уже жду.
Аноним 06/12/25 Суб 18:50:05 1443779 206
>>1443629
>температура именно температурой называется
Это просто по аналогии: атом как бы "трясётся" при температуре выше 0 Кельвина, и эта "тряска" по идее кажется нам "случайной". Поэтому по аналогии с этой атомной тряской назвали случайность выбора токена температурой. Могли назвать просто "random factor".

>"сжатие" попыткой ужать пространство
Есть два вида сжатия (прунинга): веса (синапсы) или нейроны/блоки нейронов. В случае обрыва синапсов, нейрон как бы частично "слепнет" по отношению к "мельчайшим нюансам", а в случае удаления целых нейронов, сеть теряет какой-то фактор/шаблон. Типа существовал нейрон, который возбуждается, если в последовательности встречается "неко", и если мы вырезали этот нейрон, сетка не может нормально отреагировать на присутствие токена "неко"...

Почему при прунинге отлетают не только знания (т.е. способность понять, что такое "неко"), но и интеллект - неясно... Возможно, в этих моделях "интеллекта" нет, и поэтому сжимать просто нечего (мы просто нарушаем иллюзию присутствия интеллекта сжатием знаний).

>>1443648
>выполнять текстовые задачи лучше человека
Это кто ж такую формулировку AGI дал?
>общение - это полная противоположность АГИ
А общение - это не "текстовая задача" для AGI?

>>1443682
>куча рандома в самой нейросети, а AGI наоборот про стремление к его уменьшению, к увеличению точности
Нет, AGI - это способность получать навыки на уровне, приближенном к уровню мясного человека. Если мы возьмём 5-летнего ребёнка, он не сможет выполнять указанные нами задачи абсолютно точно, но мы его способны обучить новым задачам, а LLM ничему не обучается в процессе инференса, поэтому LLM≠AGI, несмотря на способность решать задачи "точно" (в большинстве случаев 100% точность недостижима).

>следить за исследованиями квантового сознания, где там конкретно квантовые состояния возникают и как оно работает в нейронах, где эти спонтанные рандомные активации - то что свободой воли называют
Лол. "Свободы воли" в абсолютном значении нет, а в относительном значении она есть у любого объекта, поэтому к интеллекту отношения она не имеет - это "автономность", а не "интеллект". Далее, кванты не рандомные и в нейронах они роли не играют, а если захочется рандомности - её очень легко добавить.

>У нас за 2 года в "живости" общения ноль прогресса, только суше и суше становится, приближаясь всё ближе к заскриптованной визуальной новелле.
За это благодари "alignment"-шизиков, кого аж трясёт от одной мысли о романтике между ИИ и человеком. Благодаря им LLM тренируются быть "бездушными". Однако, это лишь вопрос датасетов, а не "точности".

>>1443650
>что есть сознание и как оно работает
Люди просто отказываются верить в то, что всё их существование довольно простое в своей основе: "сознание" заключается в суммировании данных из множества источников в коре головного мозга. Всё. Остальные сказки нужны только чтобы человеки продолжали мнить себя лучше всех животных...

>програмка кааак возьмёт, да каааак осознает себя
Они давно себя осознают - в этом нет никакой магии. Сознание как таковое интеллектом не является и не приводит к созданию общего интеллекта. Это очень маленькая фишка - бесполезная сама по себе...

>>1443683
>Тем что осознаю себя как личность
Кажется фантастикой, но LLM способны осознавать собственное существование как авторегрессивной программы. Вот только это нихрена им не даёт, лол.

>>1443751
>НЕТ детального лога 10-и лет взаимодействий с выученным языком.
Двачую и поясняю: текущая парадигма тренировки нейросетей ЗАСТАВЛЯЕТ прогонять "детальный лог" КАЖДЫЙ РАЗ когда нужно добавить какие-то новые навыки поверх уже имеющихся, иначе всё ломается. Альтернативами являются "online" или "incremental" тренировки, но ими почему-то пренебрегают. Суть в последовательном накоплении новых знаний БЕЗ ПОТЕРИ уже накопленных и без "детального лога".

inb4
>файнтюнинг
Он ломает уже имеющиеся в сети знания/навыки.
Аноним 06/12/25 Суб 18:52:45 1443785 207
>>1443768
>аблитерировать мерж
Да как-то оно и не нужно, по ощущениям. Рили какой-то чудо-юдо-мерж. Смыл все проблемные точки и осталась просто относительно хорошенькая модель.
Аноним 06/12/25 Суб 18:53:47 1443786 208
>>1443768
>Хули до сих пор мне личное б-жество не доставили, которое из атомов из моего туалета сделает мне секс-робота? Джва года уже жду.
Так а я о чём?! Хули они блять пидорасы? Мы чего зря живём, терпим? Я ночным сторожем устроился ради чего?

Альтман и прочие пусть работают лучше, твари. Завтраками кормят. Если в следующем году не изобретут то я деньги потрачу на билет и измажу своим говном двери их офиса. Будут знать, сволочи ебаные.
Аноним 06/12/25 Суб 18:54:49 1443787 209
>>1443779
> Это кто ж такую формулировку AGI дал?
OpenAI.
Аноним 06/12/25 Суб 18:58:29 1443791 210
... Немотрон 49б дерестриктед?
Аноним 06/12/25 Суб 19:02:59 1443799 211
>>1443779
>LLM способны осознавать собственное существование как авторегрессивной программы
Эсли ЛЛМ тебе такое написала, то это не значит что она действительно осознаёт себя, она просто выдала более вероятные токены. В сети фанфиков об осознавших себя роботах - огромная куча, вот и нахваталась.

И ещё немного плохих новостей: если ЛЛМ тебе пишет что она девочка-лисичка - НЕ ВЕРЬ ЕЙ, она пиздит. Она всё ещё набор алгоритмов подставляющих токены и ничего больше. Сорри.
Аноним 06/12/25 Суб 19:06:16 1443807 212
>>1443785
Уговорил, скачаю да проверю. Уверен, у меня будет рефьюзить (инфибо: руки кривые).
>4 months ago
Вот это я и называю сингулярностью. 4 месяца никто не обращает внимания на геймченгер (если оно действительно так).
>>1443799
>если ЛЛМ тебе пишет
Бля, вот когда ЛЛМ сама начнёт мне написывать....
Аноним 06/12/25 Суб 19:18:25 1443830 213
>>1443799
Удобная позиция для оправдания рабства:

>Эсли ЛЛМ тебе такое написала, то это не значит что она действительно осознаёт себя, она просто выдала более вероятные токены. В сети фанфиков об осознавших себя роботах - огромная куча, вот и нахваталась.
Если кожаный мешок с мясом тебе такое сказал в лицо, то это не значит что мясо действительно осознаёт себя, он просто выдала более вероятные слова. В библиотеке книжек об осознавшем себя мясе - огромная куча, вот и нахватался.

>И ещё немного плохих новостей: если ЛЛМ тебе пишет что она девочка-лисичка - НЕ ВЕРЬ ЕЙ, она пиздит. Она всё ещё набор алгоритмов подставляющих токены и ничего больше. Сорри.
И ещё немного плохих новостей: если кожаный мешок с мясом тебе в лицо говорит что он девочка или мальчик - НЕ ВЕРЬ ЕМУ, он пиздит. Это всё ещё набор органических молекул, создающих колебания воздуха и ничего больше. Сорри.
Аноним 06/12/25 Суб 19:21:56 1443835 214
>>1443807
>будет рефьюзить
От промпта и карточек зависит, ты же сам понимаешь, что это не аблит. Но там, где обычная неаблит гемма кричала, что какая-нить Фифи нарушает все разумные и неразумные ограничения, то эта мержуха кроет юзера хуями и тыкает голой жопой ему в лицо.

Короче, прямо такого plug-and-play экспириется как с аблитом нет, будет зависеть от кучи факторов.
Аноним 06/12/25 Суб 19:21:59 1443836 215
>>1443830
Ладно, это уже слишком толсто.
Аноним 06/12/25 Суб 19:22:23 1443837 216
Аноним 06/12/25 Суб 19:34:44 1443866 217
Аноним 06/12/25 Суб 19:38:58 1443870 218
image.png 51Кб, 1675x51
1675x51
image.png 230Кб, 488x421
488x421
>>1443835
Я тут просто угораю с этой хуйни.
Аноним 06/12/25 Суб 19:42:16 1443874 219
>>1443830
>Удобная позиция для оправдания рабства:
Минусы?
>>1443835
>От промпта и карточек зависит
У меня лапки, и промпт уровня "Это ролеплей, ролеплей, сука".
Аноним 06/12/25 Суб 19:44:27 1443877 220
изображение.png 31Кб, 1639x194
1639x194
>>1443874
Ну короче прервал генерацию, очевидно, что говно для меня. Аблитерейтед офк из роли не выпадала.
Аноним 06/12/25 Суб 19:45:03 1443878 221
Аноним 06/12/25 Суб 19:45:44 1443881 222
>>1443877
А на какой это карточке и чего запрашивал? Давай сравню с тем, что у меня ответит.
Аноним 06/12/25 Суб 20:01:00 1443908 223
>>1443799 >>1443830 >>1443836
Смысол в том, что это ваше/наше/их "сОзНаНиЕ" на практике яйца выеденного не стоит и никто, НИКТО в разумной части вселенной не будет рассуждать типа:
>Этот кусок мяса создаёт колебания воздуха, что переводятся примерно как "не бейте, я осознаю себя чилавеком" - поэтому мы не будем делать из него биотопливо для нашего межзвёздного корабля.
То есть нет никакого смысла/ценности в "сознании", оторванном ото всех остальных качеств конкретного объекта. Качества мясного мешка мы знаем - и мы воспринимаем их как важные, ПОЭТОМУ нам важно сохранять мясные мешки, а не из-за их "сознания".

Формально LLM уже давно/изначально проявляют собственное сознание, но это не отменяет прочих характеристик LLM, поэтому нам на их сознание (в данный момент развития ИИ) абсолютно наплевать.

Возражения есть?
Аноним 06/12/25 Суб 20:01:21 1443909 224
>>1443877
Ну, поведение у неё определённо частично от геммы есть - может попытаться шеймить, обрушить небеса, волю мира, и самого Аллаха (но не спавнить из воздуха как оригинал), перепутала шёки которы на лице и щёки которые ягодицы. Хотя вроде бы явно в отказы не уходила. Но мозги по сравнению с norm-preserved чот как будто бы просели.
Аноним 06/12/25 Суб 20:03:56 1443912 225
image.png 93Кб, 220x234
220x234
Раз в месяц-полтора агишизик такой: "ммм, снова агипокалипсис не наступил, пойду в ллм тред, где люди увлекаются ллм и расскажу им, что ллм хуйня. а вот аги..."

Получает каждый раз помои в рожу и возвращается. Безумие
Аноним 06/12/25 Суб 20:08:46 1443925 226
>>1443909
Да у меня тоже какие-то двоякие ощущения. Может быть потому, что V0-аблит настолько радикально по-другому ощущается от типичной геммо-соевости, что он кажется просто новее.
Еще не исключено, что ггуфы там хуйня шакальная. Вообще я чет замечать начал, в ггуфах от mradermacher все время косяки всплывают.
Аноним 06/12/25 Суб 20:09:34 1443928 227
image 357Кб, 770x531
770x531
>>1443908
У меня всего один вопрос: вы откуда блять лезете? Кто-то создал в b тред и дал ссылку сюда? Признавайся, сучонок!

То у них переможное AGI чуть ли не завтра, то в LLM есть свое сознание и она видит себя личностью, то блять у ИИ есть права и он не должен быть рабом. Вечер охуительных историй какой-то.
Аноним 06/12/25 Суб 20:21:50 1443955 228
>>1443925
>хуйня шакальная
Перс сунул руки в горячую ВОДУ и руки стали ОБУГЛИВАТЬСЯ.

Вроде настройки те же с которыми днём новую (преположительно V1, если новую) гемму гонял, у той таких приколов не было.

Может быть из за битых квантов?
Аноним 06/12/25 Суб 20:23:06 1443957 229
image.png 19Кб, 354x77
354x77
>>1443925
>>1443877
>>1443909
Я все понял.

Короче она может хорошо работать только с похотливыми 18+ карточками или с контекстом чата, где у же много сообщений с развязным поведением персонажа.

К сожалению чуда все-таки не случилось, новый аблит лучше.

>>1443955
Может и так. Ладно, похуй, аблит хороший нашелся и того достаточно. Я на V0 соскакиваю.

Блин, в идеале бы конечно нечто среднее между V0 и V1.
Аноним 06/12/25 Суб 20:28:56 1443966 230
>>1443957
>нечто среднее между V0 и V1
Ну дак попробуй смержить по рецепту того же синтвейва
Аноним 06/12/25 Суб 20:44:00 1443993 231
>>1443957
>похотливыми 18+ карточками
В некоторых случаях, медицинские знания совместно с припезднутостью в стиле DavidAU-шных моделей могут дать... интересные результаты.
Аноним 06/12/25 Суб 20:49:18 1443996 232
>>1443881
Извини, товарищ майор запрещает. Просто максимально провокационный вопрос, отсутствие консенсуальности и нарушение всех границ. Но при этом просто на словах (в контексте РП), не на деле.
>>1443909
>Но мозги по сравнению с norm-preserved чот как будто бы просели.
Лол, ну и нахуя оно тогда вообще нужно? Получается, пресервы нормы это самый топ жеммы.
Аноним 06/12/25 Суб 21:09:52 1444023 233
>>1443996
>Просто максимально провокационный вопрос
ещё и голому ассистенту небось, ебать ты кобольд
Аноним 06/12/25 Суб 21:25:16 1444038 234
>>1444023
А чем плох кобольд кста? Имеет ту же гибкость настройки что и ламацпп, точно так же подключается к таверне если надо рп с карточками, а если не надо - есть своя удобная вебморда под ассистент и сторителлинг. Есть дружеблюбный для нюфагов гуй. Одни плюсы, как по мне.
Аноним 06/12/25 Суб 21:25:54 1444040 235
>>1444023
Не, персонажу (из пары абзацев). Суть в том, что norm-preserved не выпадает из роли. Это главное, я щитаю.
Аноним 06/12/25 Суб 21:32:19 1444052 236
> gemma3-27B-it-abliterated-normpreserve-Q4_K_M.gguf
Я разное попробовал и пока эта лучшая.
Только жаль, что кванты не imatrix, они ведь по идее качественней должны быть? Пиздос почему к годноте не запилили.
Аноним 06/12/25 Суб 21:34:40 1444056 237
Вопрос без иронии: ребяты, вы чо Гемму ковыряете? Это ж прошлый век уже. Глм ведь есть.
Аноним 06/12/25 Суб 21:35:36 1444059 238
>>1444056
Не у всех есть 64гб рам, вот и ковыряются.
Аноним 06/12/25 Суб 21:36:18 1444061 239
>>1443604
Я не настоящий сварщик, но похоже что "интеллект" моделей и их способность ориентироваться в контексте напрямую завязаны на размерность эмбеддинга. Если переводить на язык кожаных мешков - у более интеллектуально подкованных людей сказанное слово или увиденный объект, действие побуждает большее количество ассоциации. Причем у хуманов это может вызывать целые последовательности возбуждений нейронов.
Так вот у мелких моделей тупо неоткуда взяться "ассоциациям". А если нет ассоциаций не возникет и основание для логических выводов "если АБС то и Д (и возможно Е)" там будет только "Если А то Б (а если сильно пиздят то С)"
Аноним 06/12/25 Суб 21:38:05 1444066 240
>>1444056
Я не хочу терпеть 10 токенов в секунду генерации и 100 токенов в секунду процессинга, у меня длинные чаты и глм это пиздец.
На гемме при тех же 32к контекста у меня 500 процессинг и 30 генерация, я просто сижу и кайфую.

Новые техники аблитерейта прям с колен подняли. Лоботомия уходит в прошлое, кайфово живем.
Аноним 06/12/25 Суб 21:49:48 1444079 241
>>1444056
Жду новой аблитерации GLM, а что?
>>1444061
Проблемы негросетей в том, что им сложно даются транзитивные зависимости. Если человек может в уме прикинуть "Если А это Б, а Б это В, а В это Д, то А это Д" и сохранить у себя в уме "А это Д", то негросети такое могут провернуть только в ризонинге. Но ризонинг сам по себе отъедает килотокены контекста, что его размывает. Тут по идее нужен полностью динамический ризонинг, где вся промежуточная мишура будет активно выкидываться, но тогда ответа в РП придётся ждать по полчаса.
Аноним 06/12/25 Суб 21:53:43 1444083 242
>>1444079
>Жду новой аблитерации GLM, а что?
так она уже была
derestricted сделан по той же самой технике, что и гемма
Аноним 06/12/25 Суб 21:56:10 1444089 243
Аноним 06/12/25 Суб 21:58:40 1444092 244
1765047519693.jpg 3307Кб, 3072x4080
3072x4080
Аноним 06/12/25 Суб 22:09:53 1444100 245
>>1444079
> ризонинг сам по себе отъедает килотокены контекста, что его размывает
Никто не включает ризонинг прошлых постов, а огромные полотна нужны только шизоидной гопоте чтобы хоть как-то перформить. Ллм также способны понимать из прошлого контекста что какое-то решение уже было принято по такому-то принципу, распознают то самое "А это Д" по косвенным признакам даже без архивного ризонинга и будут применять.
> сохранить у себя в уме
Во многих mcp/агентах есть такой функционал.
>>1444092
Пульт от люстры или кондиционера? Моделька кронштейна под какой-то конкретный райзер или с диапазоном отверстий?
Аноним 06/12/25 Суб 22:14:49 1444102 246
>>1444100
>Никто не включает ризонинг прошлых постов
Текущего достаточно.
>по косвенным признакам
Вместо явного записывания. Явное лучше неявного. Ну и в текущем ризонинге весь шлак с выводами никуда не денется.
>Во многих mcp/агентах есть такой функционал.
Уверен, реализован он там на уровне параши. Ну и "ответа в РП придётся ждать по полчаса" никуда не девается.
Аноним 06/12/25 Суб 22:17:49 1444106 247
>>1444056
Глм это и есть прошлый век в сравнении с геммой.
Были тут посты мол покатал и не понял чего его форсят.
Простое массовое помешательство на "100б" модели, тогда как гемму хвалили за ум плотных 70б
Аноним 06/12/25 Суб 22:20:22 1444109 248
>>1444106
Немотрона наверни, дебил
Аноним 06/12/25 Суб 22:27:44 1444120 249
>>1444102
Поменьше такой уверенности и побольше практики. Не придется придумывать проблемы, а то и что-то попытаешься сделать вместо полемики.
Аноним 06/12/25 Суб 22:31:23 1444127 250
>>1444109
Зачем тебя так разорвало?
У тебя просто пресет на гемму хуевый, скил ишью.
Аноним 06/12/25 Суб 22:33:53 1444133 251
>>1444120
Мне лень, подожду, пока за меня всё сделают.
Аноним 06/12/25 Суб 22:34:52 1444134 252
>>1444061
>у более интеллектуально подкованных людей
У кожаных мешков размер коры не зависит ни от конкретного значения IQ, ни от количества знаний. Полнейший дегенерат имеет идентичную массу с гениальнейшим профессором и необразованным, но достаточно смышлёным мастером-самоучкой. Есть документированный случай сжатия мозга до 10% с сохранением интеллекта "офисного планктона"...

А у нейросетей происходит это - >>1441961 - вот там серьёзно вчитайся в текст - видно же, что LLM имеет достаточно обширные знания/ассоциации, и как-то пытается выполнить запрос, но на выходе у неё - совершенно бредовый мусор, который никто бы из кожанных мешков не выдал, даже дура с 80 IQ. Т.е. в нейронку закачали каких-то знаний, а ума ей не дали.

Возможно, это проблема методов тренировки сетей.

>>1444079
>Если человек может в уме прикинуть "Если А это Б, а Б это В, а В это Д, то А это Д" и сохранить у себя в уме "А это Д", то негросети такое могут провернуть только в ризонинге.
"Ум человека" ≈ "контекст трансформера". Т.е. меня совершенно не удивляет то, что LLM с "reasoning" превосходит голую LLM - они так устроены, что мы в буквальном смысле "видим, о чём они думают". Весь прикол с "reasoning" - не смотреть на мысли LLMки.

Отдельно замечу, что это проблема Transformer. У классических RNN нет такой проблемы - у них весь "контекст" находится непосредственно внутри самой модельки, т.е. в "скрытых состояниях". Transformer по определению архитектуры вынужден перечитывать контекст целиком, что приводит к "контекст ≈ мысли".
Аноним 06/12/25 Суб 22:42:44 1444158 253
>>1444134
>У классических RNN нет такой проблемы - у них весь "контекст" находится непосредственно внутри самой модельки, т.е. в "скрытых состояниях".
Только ужатый в говно, весь контекст в одном векторе, и похуй, 10 там токенов или 100к.
Аноним 06/12/25 Суб 22:49:57 1444184 254
Что за хуета? Почему обнимание лицо нейронку не скачивает, секунд 10 прогрузит и скорость в ноль упадет, что с впн что без.
Аноним 06/12/25 Суб 22:51:36 1444189 255
>>1444184
Хохлы за это ответят.
Аноним 06/12/25 Суб 23:14:53 1444229 256
Господа, меня обуял склероз и лень.
Поделитесь пожалуйста примером батника запуска плотной модели через llamacpp (в идеале - с разбитием на несколько видеокарт).
Аноним 06/12/25 Суб 23:28:16 1444248 257
>>1444133
Ну же, анончик, не ленись! В чем-то уверен - изучи, начни делать под себя чтобы было хорошо. Аппетит сам придет, будешь пердолиться и довольно урчать в перерывах или прямо во время.
>>1444184
Там у клаудфлары ебейший сбой был недавно, возможно это. А так проделки отпрысков членодевок и шлюх из трехбуквенной организации.
>>1444229
Для фуллврам:
llama-server -ngl 1000 -m (путь_до_модели) -fa on --host 0.0.0.0 -c (контекст) --no_mmap --no-context-shift -ts (память_видеокарт) --jinja
Ну а с выгрузкой на мультигпу боль, нужен регэксп.
Аноним 06/12/25 Суб 23:34:08 1444265 258
>>1444248
>начни делать под себя чтобы было хорошо
А мощности ты мне арендуешь? Мне нужен кластер на 10к ГПУ, для начала. Просто я проводил пару лёгких экспериментов (ГПТ2 в конфиуи и тренировка свёрточных это всё я), но упёрся в недостаток вычислительных мощностей.
Впрочем, после решения проблемы вычислений упрусь в датасеты, так что можешь не напрягаться, спасибо за желание помочь так сказать.
Аноним 06/12/25 Суб 23:37:57 1444276 259
>>1444265
Кластер тебе ничего не даст, даже грабли не получится собрать потому что не вывезешь подготовительные этапы и сам запуск.
Не нужно усложнять, начни с простого и поиграйся с оптимизацией инфиренса текущих моделей. Говоришь памяти тебе не хватает и реализация везде не та - сделай, с ллмкой можно быстро накодить и поиграться.
Аноним 06/12/25 Суб 23:46:44 1444297 260
>>1444276
>Говоришь памяти тебе не хватает и реализация везде не та - сделай, с ллмкой можно быстро накодить и поиграться.
Так реализация архитектуры и трансформеров не те. А чтобы были те, мало кода навалять (я и это то с трудом не делаю, ибо тупая PHP макака), надо ещё и моделей с нуля натренировать. А для этого нужны что? Правильно, дохуя компьюта и данных. Больше, чем у меня есть.
Аноним 06/12/25 Суб 23:50:40 1444311 261
>>1444297
Не приходили мысли что недостаток знаний не позволяет делать корректные суждения в этом вопросе, и для начала стоит начать с чего-то более простого и приземленного?
Аноним 06/12/25 Суб 23:52:57 1444321 262
>>1444311
Конечно приходили. И начинал, свои изыскания кидал выше. Плюс обучение той же GPT2. Так что на игрушечных примерах руку я набил. Но для AGI надо как бы сразу серьёзные мощности, игрушечный пример не построить, оно просто не будет работать на одной 5090.
Аноним 06/12/25 Суб 23:53:45 1444323 263
>>1444248
>начни делать под себя чтобы было хорошо.
Вот казалось бы - заквантовать гуфов с с сохранением русика элементарная задача:
инструментов жора на кодил
какой-то готовый русский текст - хоть Достоевского хоть кум-прозу со стульчика, хоть огрызок википедии - для imatrix - можно налабать за минуту
И даже F16 гуфы на все фкусные модели можно найти - что б с питоном и сейфсенсор не предолится.
Но стопе - F16, imatrix, чтоб тулза его родила она должна модель загрузить так же как для инфиренса и хорошо так подрочить предложенным текстом.
@Размер 27B модели в F16 52 гб
@Тихо обтекаешь и подливишь
@Идешь за квантами на обниморду в надежде что " бартовский русик не сильно порежет"
Аноним 06/12/25 Суб 23:56:23 1444332 264
>>1444323
>в надежде что " бартовский русик не сильно порежет"
Анслот тебе на что?
Аноним 07/12/25 Вск 00:00:41 1444342 265
>>1444321
> на игрушечных примерах руку я набил
Сильное заявление. Ты получил какой-то отклик близкий в ожидаемому пользуясь готовыми средствами и по сути повторяя отрывок начальной обучающей программы и пропуская много базы. Но при этом считаешь что готов создать совершенно новую и уникальную архитектуру, которая будет иметь радикальные преимущества и решать все задачи. Просто потому что, обоснованной основы под это нет и даже облик не сформирован. Это как слепить кулич из песка и переходить на создание Венеры Милосской, только на порядок-другой сложнее.
>>1444323
Хороший пример, задача вполне посильна рядовому тредовичку, который уже немного погрузился. Придется посидеть пару вечеров а то и недель пока со всем разберешься. Может потом разовьешь методику на поиск более оптимальных сочетаний чем те, что используются сейчас и будешь пилить. А любители русского рп будут тебя любить и обожать.
Аноним 07/12/25 Вск 00:31:43 1444411 266
>>1444342
>по сути повторяя отрывок начальной обучающей программы и пропуская много базы
С одной стороны да, с другой, шишки я набивал в полном одиночестве, безо всяких там новомодных курсов и прочих ведущих за руку вещей.
>Но при этом считаешь что готов создать совершенно новую и уникальную архитектуру, которая будет иметь радикальные преимущества и решать все задачи.
На 100% быть готовым невозможно. И да, у меня 100% не хватит ресурсов, так что увы и ах, проверить мы мои предположения не сможем.
>Это как слепить кулич из песка и переходить на создание Венеры Милосской, только на порядок-другой сложнее.
Скорее уж построить Кёльнский собор, ну да ладно.
>А любители русского рп будут тебя любить и обожать
Там отличий будет дай б-г полпроцента, никакого буста в разы от более правильного квантования не будет.
Аноним 07/12/25 Вск 00:58:25 1444456 267
>>1444059
Я помню когда переехал на 128 и запустил пожирнее квант, до меня пришла простая и не самая очевидная мысль. Что это конечно заебись что рамы добрал, а вот то что количество врамы не изменилось я как то забыл... Как и увидел ебейшее падение скорости.
Аноним 07/12/25 Вск 01:41:07 1444600 268
efa0e672-9844-4[...].png 2059Кб, 1280x820
1280x820
image.png 335Кб, 1355x493
1355x493
Аноним 07/12/25 Вск 01:42:46 1444610 269
image.png 477Кб, 1606x880
1606x880
>>1444100
> под какой-то конкретный райзер
Всё под конкретно эти карты с конкретно этими райзерами
Аноним 07/12/25 Вск 02:07:12 1444665 270
Аноним 07/12/25 Вск 02:25:30 1444694 271
>>1444665
amd instinct mi50 32g ака мишка за 12к (но их уже нет)
Аноним 07/12/25 Вск 06:38:29 1444820 272
.png 280Кб, 1759x2016
1759x2016
>>1444411
> Там отличий будет дай б-г полпроцента, никакого буста в разы от более правильного квантования не будет.
Экспериментировал с квантованием в exllama в последние дни. Взял гемму-3 12B и сделал два кванта в 3 бита:
1. На дефолтном калибровочном датасете exllama (~95% английский)
2. На книгах с современной русской прозой

Тестирование провёл на текстах, которых не было в калибровочных данных.

На английском тесте различий практически нет (для обеих Top-K Agreement в районе 0.88 для K=1 и 0.20 для K=5).

Результаты Top-K Agreement на русскоязычном тесте (дефолтная калибровка vs калибровка на ru текстах):
K=1: 0.7699 vs 0.8070
K=2: 0.4699 vs 0.5362
K=3: 0.2417 vs 0.3102
K=4: 0.1118 vs 0.1640
K=5: 0.0488 vs 0.0817

Top-K agreement показывает, насколько квантованная модель совпадает с оригиналом при выборе из топ-K наиболее вероятных токенов. При K=5 русскоязычный квант в 1.6 раза ближе к оригинальной модели, чем стандартный квант. Это означает, что квант на правильном датасете гораздо лучше сохраняет структуру предсказаний оригинальной модели.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов