Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 47 9 24
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №180 /llama/ Аноним 30/11/25 Вск 08:28:40 1435735 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17633955657361.jpg 6535Кб, 3072x4080
3072x4080
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1426038 (OP)
>>1418668 (OP)
Аноним 30/11/25 Вск 09:02:16 1435745 2
Air 4.6 сегодня
Аноним 30/11/25 Вск 09:53:13 1435789 3
Да уже не очень то и надо.
Должны уже air 5.0 ждать к этому моменту
Аноним 30/11/25 Вск 11:09:13 1435818 4
>>1435599 →
>теперь думаю стоит ли выбирать другую с 2 слотами
добавьте уже в шапку инфу про btc 79x5
5 pie 8x 3.0 + проц + память + иногда даже msata за 5-6 к рублей.
Аноним 30/11/25 Вск 11:16:23 1435821 5
Аноним 30/11/25 Вск 11:43:32 1435841 6
Анон который писал про https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted Ты был прав, это ахуеть. Кум вышел на новый уровень и не потерял в мозгах. Спасиба <3
Даже мой микро iq4_xs квант бартовского хорошо работает.
Аноним 30/11/25 Вск 11:53:39 1435848 7
>>1435841
Я скачал ArliAI_GLM-4.5-Air-Derestricted-IQ4_XS, он у меня сожрал всю память и все, что осталось от ССД. И повис. Но скорость при этом была как на втором кванте. Я выше выложил ссылку на 4.6, но у меня только первый квант может завестись, не буду пока качать.
(>>>1434315 → анон)
Аноним 30/11/25 Вск 11:57:14 1435856 8
Аноним 30/11/25 Вск 12:00:39 1435861 9
>>1435841
пацаны поделитесь шаблонами для инстракта, системным и тд. Настройками семплеров там.
Я запустил ArliAI_GLM-4.5-Air-Derestricted, а она почему-то лупится абзацами.
Какие только соски я уже таверне не покрутил - не получается избавитсья от лупа.
Аноним 30/11/25 Вск 12:29:22 1435893 10
подскажите, а на текущий момент существует такой агент, который может в интернете искать порно? типа предложить случайный интересный видос на какую-то тему. Грубо говоря "сегодня ты дрочишь на гейское порно по этой ссылке", или картинки какие-то тематические. Такое сейчас возможно в каком-нибудь готовом браузере, на сайте или локально?
Аноним 30/11/25 Вск 12:37:26 1435912 11
>>1435861
> почему-то лупится абзацами.
Это может быть формой рефуза, если у тебя там совсем страшный пиздец происходит. Пойми при каких обстоятельствах луп возникает и всё станет ясно.
мимо согласен с репрессированной базой треда
Аноним 30/11/25 Вск 12:43:01 1435919 12
>>1435893
Удваиваю вопрос. Хотелось бы откопать пару редких видео, которые сейчас, наверное найдутся только на 3.5 забытых сайтах из 2013.
Аноним 30/11/25 Вск 13:09:57 1435945 13
>>1435912
кто отрицает базу треда будет вынужден возвращаться к ней вновь и вновь
Аноним 30/11/25 Вск 13:11:38 1435946 14
>>1435945
ты, долбоёб, ты понимаешь что называешь базой молчание в ответ на вопрос и препятствие обмену информацией в тематическом треде?
Откуда вы такие повылезали блядь?
Аноним 30/11/25 Вск 13:14:46 1435950 15
>>1435946
я про другую базу, где меньше q6 жизни нет
Аноним 30/11/25 Вск 13:33:58 1435965 16
>>1435821
> лоботомитный квант
> лоботомитного тюна
> лоботомитного рипа
Это шин треда
>>1435841
В чём он прав?
Это говно. Просто нет отказов и всё.
Во всём. Никакое рп таким образом невозможно.
Кумьте на мистралеслопе и не тащите своё говно в тред
Аноним 30/11/25 Вск 13:37:07 1435974 17
>>1435965
>Никакое рп таким образом невозможно.
Раньше я думал что скил ишью это мем, но со временем понял что нет. Если ты не троллишь то это точно твой случай.
Аноним 30/11/25 Вск 13:41:21 1435980 18
>>1435974
Я отыгрываю короля, на твоем лоботомите советники просто дакают на все предложения, даже на застроить королевство храмами нех где еатядят детей.
Коупи дальше что это юзабельно, просто не задавай вопросов
Аноним 30/11/25 Вск 13:42:05 1435981 19
>>1435945
>>1435950
В базу треда верят только шизики и криворучки. Нормальное качество можно получить даже на огрызках типа мелкого мистраля. Достаточно просто внятно понимать что ты хочешь получить на выходе и соответственно прописать инструкции. Если ты даже мелкомодель обуздать не можешь я считаю тебе должен быть институционально закрыт доступ к более толстым локалкам. Потому что база треда если и существует то её смысл будет в том, что плохих моделей нет, есть долбаебы которые не умеют ими пользоваться.
Аноним 30/11/25 Вск 13:48:13 1435984 20
>>1435980
Ща бы злюкам узколобам вроде тебя что-нибудь доказывать, дыаааа. У меня всё ахуенно, у чаров сохраняется агентность и при этом свайпы свежие и интересные в сравнении с инстрактом. А ты можешь проследовать сам знаешь куды.
Аноним 30/11/25 Вск 13:51:37 1435992 21
1000018063.webp 22Кб, 480x480
480x480
>>1435984
> эм ну у меня всё отлично пруфов не будет скил ишью ну я пошёл пук
И почему я не удивлён
Аноним 30/11/25 Вск 14:00:33 1436004 22
>>1435992
>пик
А, ну тебе точно доказывать ничего не стоит. Но и так читалось, ты аватаришь тупизной
Аноним 30/11/25 Вск 14:42:30 1436053 23
>>1435912
>Это может быть формой рефуза
Нет, Айр прямо рефузит в ответе. А лупиться сам по себе.
Аноним 30/11/25 Вск 14:59:57 1436084 24
>>1435656 →
Не связано ли это с контекстом? Сейчас раз дашь понюхать большой - замедление навечно до перезапуска.
>>1435893
В конструкторе можно устроить. Можно готовые тулзы заставить искать по нужной теме, но в популярных забит только гугл.
>>1435981
Там прямо по методичке пропогандонов и манипуляторов: около половины очевидные факты, чтобы мимокроки могли поверить и была возможность "яжговорил", остальное - пихай любую херню, которую хочешь зафорсить. Базашизика и подобных на парашу.
> что плохих моделей нет
На самом деле есть, много совсем поломанных и ужаренных, что только место на обниморде занимают. Называть модель плохой потому что она мелкая или кто-то ее не осилил - уже неправильно, да.
Аноним 30/11/25 Вск 15:26:04 1436095 25
>>1436053
ни разу не ловил лупы на аире. в последний раз такие противоречивые отзывы были разве что по гемме
а ведь тренировались они на схожих датасетах
вот вам база треда Аноним 30/11/25 Вск 15:28:06 1436096 26
токены ядра.png 23Кб, 1437x801
1437x801
fddf.png 16Кб, 115x97
115x97
больше ядер не равно лучше.
запускаю GPT-OSS 120B весом 61 гигабайт на проце без видюхи, тухлый епик 2 поколения 32 ядра + 8 плашек ддр4 3200мгц, задаю вопрос размером 186 токенов, смотрю token generation на восьмой строчке выдачи:

--threads 32 = tg 6.3
--threads 16 = tg 6.8
--threads 12 = tg 7.4
--threads 10 = tg 7.5
--threads 9 = tg 7.6
--threads 8 = tg 7.6
--threads 7 = tg 7.5
--threads 6 = tg 7.3

prompt processing хз сколько, новый веб гуй его не показывает
Аноним 30/11/25 Вск 15:32:43 1436100 27
>>1436096
Это еще несколько тредов назад выяснили. Я такую же статку сюда выкладывал для r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах, и не важно, с выгрузкой на гпу или нет.

По хорошему бы эту инфу в шапку добавить. Буквально халявные 1-2 т/с на ровном месте.
Аноним 30/11/25 Вск 15:33:22 1436102 28
>>1436095
>тренировались они на схожих датасетах
Ага. Вот и думой те. У меня тоже с Аиром нет проблем, Гемма мне тоже нравилась.

Мир больших языковых моделей поистине мистичен.
Аноним 30/11/25 Вск 16:09:47 1436129 29
>>1435841
Мб повезло и я тупо зароллил, но позади 25к контекста и никакого эха или наративного репетишена нет. Счастье-то какое
Аноним 30/11/25 Вск 16:38:46 1436162 30
>>1436096
На современном эпике от 12 до 80 нет разницы, на интеле от 3 до 8. Надо будет на новых коммитах чекнуть, но врядли изменилось. Стоит давать рекомендацию тестировать на своем железе и краткую инструкцию как это сделать.
>>1436100
> и не важно, с выгрузкой на гпу или нет
Если что-то остается на процессоре то его перфоманс будет ролять, для фуллврам разницы быть уже не должно.
Аноним 30/11/25 Вск 16:57:19 1436178 31
> никакого эха или наративного репетишена нет. Счастье-то какое
Не ты ли писал что его и не было никогда, что у всех скил ишью а у тебя всё заебись?
Аноним 30/11/25 Вск 17:00:25 1436181 32
>>1436178
Не, не я. Я наоборот один из тех кто жаловался несколько раз, я в какой то момент и вовсе тильтанул и снес его. А сейчас рпспробовал или хуй знает
Аноним 30/11/25 Вск 17:01:56 1436185 33
OIP.webp 2Кб, 474x266
474x266
Не знаю в тот ли тред обращаюсь...
Вместо длинных статей понравилась идея прослушивать выжимку.

Формат подкаста голосом Скабеевой конечно кринж, но это ладно...

Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы. Подкаст получается ильно дырявый, длинные статьи может пережать до 15 минут пиздежа. В итоге две выжимки по одной и той же статье могут сильно отличаться друг от друга.

Так что подкиньте какой-то аналог НотэбукаЛМ, ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.
Аноним 30/11/25 Вск 17:30:40 1436257 34
>>1436185
>тред про локальные модели
>спрашивает про корпоративный сервис
Ну да, действительно непонятно, в тот ли тред зашел...
Аноним 30/11/25 Вск 17:52:01 1436313 35
>>1436185
В общем под задачу нужно перенастраивать промпты и сам режим работы агентов, использовать более подходящие для этого модели.
Только сложно все это по сравнению с готовой проприетарной тулзой с минимальным порогом вхождения и простым функционалом. Придется или много разбираться (при этом не обязательно использовать локальные ллм, можно и корпов), или смириться и терпеть, выбирай.
Аноним 30/11/25 Вск 19:04:02 1436417 36
найс тема
Аноним 30/11/25 Вск 19:05:01 1436418 37
>>1435893
>порно в интернете
Анон, у меня для тебя плохие новости - в интернете нихуя не ищется, поисковые системы скатились в ёбаное говно, шанс того, что поисковик найдёт тебе годноту (хоть с помощью ИИ, хоть с помощью Аллаха) в районе нихуя. Поиск по фото вообще стал говном-говна, уровня поиска по алиэкспрессу.
А ещё порнхаб с миллиардами залитых юзерами видео на разные тематики накрылся платежными системами и теперь там только авторизованные по паспорту тяночки.
Не, сайты с порно-то есть, но там никакого разнообразия. Разнообразие есть на всяких специализированных форумах, но там во-первых нихуя не ищет, а во-вторых там обычно залито всё на какие-нибудь уёбищные файлообменники платные, которые давно похерились.
Я искал запись народного стриптиза от Знака качества из 2000 года (видел по телевизору, будучи мелким) - оцифровка была на ютубе в 2024 году, её ютуб удолил и всё, нихуя нет. Даже с автором оцифровки пытался связаться, а тот в вк окуклился так, что ему не написать. Или вот искал видео из группы вк, где тянучка в 2019 выкладывала видео со стриптизом, пытаясь раскрутиться - и тоже, аллес. Группа закрыта, тян-админ в вк больше пяти лет не в онлайне. Вытянул часть с её отдельного сайта с помощью интернет-архива, благо там и видео в архив подтянулись, но только часть.
Аноним 30/11/25 Вск 19:54:30 1436496 38
>>1436313
NotebookLM умеет с промптами работать. Можно например попросить про какую-то конкретную главу из книги рассказать.
Вопрос в том как заставить ее в целом меньше тупить
Аноним 30/11/25 Вск 20:03:44 1436513 39
>>1436496
> NotebookLM умеет с промптами работать
> Можно например попросить про какую-то конкретную главу из книги рассказать.
Поделись, что ты подразумеваешь под "работой с промптами"?
Аноним 30/11/25 Вск 20:34:06 1436563 40
image.png 145Кб, 1266x849
1266x849
Аноним 30/11/25 Вск 20:39:34 1436572 41
>>1436100
>r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах
У меня на 5700x пик пришёлся на 4 ядра, но разница очень небольшая (как, впрочем, и абсолютные цифры). Память 3200, если что, модель 49b плотная, аттеншен на видимокарте был (сколько влезло).
7: 1.97
6: 2.00
5: 1.98
4: 2.02
3: 1.77
Аноним 30/11/25 Вск 20:41:05 1436578 42
Попробовал эту версию ArliAI_GLM-4.5-Air-Derestricted которую тут нахваливают. Не увидел разницы от обычной Air. Я и в обычной Air отказов и цензуры не получал.
Аноним 30/11/25 Вск 20:43:23 1436580 43
>>1436563
Нет, в данном контексте речь об инструкциях, которые передаются ллм вместе с исходными данными для промежуточной и финальной обработки, и то как эти данные оборачиваются.
>>1436572
> пик пришёлся на 4 ядра
Ты мышью активнее пошевели и "пик" на другое придется.
Аноним 30/11/25 Вск 20:46:23 1436585 44
Кто там писал в предыдущем треде что у него на жоре скорость упала на последней версии? Тоже обновился и это пиздец. У меня "контекст закончился" когда его 9к из 32 в промте и прочие странности вытекают. Откатился.

Бтв, я последние тредов 15 прочитал по Эиру. И рассуждения анонов которые писали как его промтить помогли. Переписал карточку и уже два дня кумю как ненормальный, как будто впервые 12б мистралеслоп ем и не могу насытиться. Если правильно запромтить эта модель тупо работает и делает свое дело.
Аноним 30/11/25 Вск 20:54:24 1436598 45
Аноним 30/11/25 Вск 20:56:05 1436600 46
>>1436598
Так а что там непонятно? Шаблон GLM из таверны и семплеры обычные, температура 1, min p 0.03, штраф за повтор иногда можно врубить или драй если его предпочитаешь.
Аноним 30/11/25 Вск 20:59:35 1436606 47
>>1436598
Ну и про промтинг в других тредах читай. Сори, но я заебусь это расписывать или заново искать. Там вроде три анона полезные полотна вкидывали.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов