В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
После добавления v100@32 перекинул на нее слои, которые были на теслах. Большая глм прибавила в тг 4 т/с, очень приятно. Дипсик заебался запускать, ебаный пидорас, а не модель. Все загрузилось, вармап пройден, на картах по 1,5-2 Гб свободной врам. Нет, кидает оом после свайпа, урод. Ну и нахуй он не нужен, тащемта.
Тем не менее: 1. Большая часть компьютеров не имеет больше 32 ГБ видеопамяти. - По настоящему крупные модели подавляющее большинство не запускает на видеокартах полностью или почти полностью. Как говорят - это не для вас написано, лол. Буквально, задача в другом. - У геммы 27B 6% параметров (без вижен-части) - эмбеддинг. Если оставлять его в 16-бит, а остальное гнать в 4 бита, то доля будет уже 20%. Достаточно значимая часть, чтобы об этом думать, тем более если влияние на метрики или на ощущение "на глаз" действительно заметное. 2. Я не питаю иллюзий, что я напишу exl4 или придумаю что-то концептуально новое. Нет даже особого смысла на это замахиваться. Даже если мне получится всего на 0.2% сократить потребление памяти при том же качестве со своей позиции без особых навыков и ресурсов - это большое дело. Ну и тут вообще речь о том, как запускать бомжекванты, но чтобы они просто за счёт внятного эмбеддинга были по весу как, например, Q4_K_S, а по качеству как Q4_K_M.
>>1480109 → > IQ-кванты сами по себе медленнее обычных. Потратил несколько часов, добился 5.5 токенов в секунду на i1-IQ4_XS и тех же 3 на Q4_K_S. Понял, что процессор стоило обновить ещё очень давно. Еще через пару часов скачается IQ4_XS - надеюсь хоть с ним и будут те самые 8 токенов.
>>1480327 > кидает оом после свайпа Вместо обработки ошибки жоры там длинный лог куды? Поскидывай еще немного слоев, победа близка. >>1480335 > влияние на метрики или на ощущение "на глаз" действительно заметное Если измерять по правильной методике из сауспарка то и хуй длинный получится. Тем не менее, посмотреть на результаты более менее релевентных сравнений разного влияния интересно, продолжай. >>1480337 Отыгрывай пигмалиона 6б. Я тебя ебу.
>>1480338 >Еще через пару часов скачается IQ4_XS Если хочешь поэкспериментировать - скачай оригинал или gguf в fp16 один раз, и пробуй разное. Там команда конвертации уровня llama-quantize.exe <кванты> <входной файл> <выходной файл>, конвертируется по слоям и быстро, даже на старом поколении. Ставлю рарку, что быстрее часа будет.
На чубе блять миллион карточек и все какое то дерьмо, это шутка? Может есть популярные авторы которые хоть знают как их делать, чтоб я по их странице уже карточку выбрал? Ещё, хочу отыграть монарха, а как такую карточку загуглить хз, очевидно такого тэга нет
Обожаю всякие васянские сборки на мистраль. Ты думаешь там только глинты и слоп, но нет, там всегда есть что-то еще, чего ты никогда не ожидаешь, пока оно не появится после проебанного eos-токена.
Выгорельщики, вы в курсе вообще что это самое разнообразное занятие в вашей жалкой жизни? Отыгрывали ли вы мексиканский картель крича МЕРДА МЕРДА ПУТА МЕРДА вырезая сердце на камеру? А вводили ли вы потом в этот же сюжет девочку волшебницу мадоку которая спасает ваших жертв? Подставьте ещё десяток развилок которых нет нигде и не будет, ни в играх, ни в книгах, ни в даже аниме, а там дохуя всякого трэша
Палю хайден гем. Ладно, нихуя. https://huggingface.co/MiniMaxAI/MiniMax-M2.1 Вумная, ага блять, быстрая - но тут спору нет, реально шустрая и контекст легкий. Но нихуя не для РП. Датасет жиденький. Тотальный дженерик. При намеках на сисик и писик уходит в аэймсефети модель ко ко ко. А так.. В РП уровень мысрали, а то и хуже.
>>1480373 Я не знаю что нужно чтобы побить эир, даже сами заи не знают, иначе бы не отмалчивались на 300 залайканный пост. У нас была ллама, гпт, линг, некс, солар и все кратно хуже эира
>>1480349 Заебал, зачем тебе карта монарха если ты в таверне, в своей собственной карте указываешь свою роль и играешь на сторителлере. Вместе с лорбуком и авторс нотами можно отыгрывать вообще что угодно.
>>1480335 >Даже если мне получится всего на 0.2% сократить потребление памяти при том же качестве со своей позиции без особых навыков и ресурсов - это большое дело. C одной стороны, любое улучшение это благо, с другой... 0,2% мало что решает. >>1480344 >команда конвертации уровня llama-quantize.exe <кванты> <входной файл> <выходной файл>, Сложное. >>1480369 Соснули по всем фронтам. Зато опенсорс! >>1480385 >300 залайканный пост Ух бля, ну всё, это бы заставило ответить даже Трампа!
>>1480438 >Есть ли что то на уровне хотя бы диипла? Любая модель с хорошим русским будет лучше дипла: Гемма 4б Гемма 12б Гемма 27б Квен 30б-а3б Квен 80б-а3б
Чтобы определить пойдет ли модель на твоём нищепека, смотри сколько она весит в 4 кванте: это должно помещаться во врам+рам. Например, гемма 27б в Q4_K_XL от анслота весит 16.8гб, т.е. если у тебя 1050ти 4гб и 16гб озу, то гемма влезет. Просто будет не очень быстро работать. Хочешь быстро - тогда Квен 30б-а3б, но он поглупее будет не сильно. Для квена лучше выбирать варианты с ризонингом.
>>1480267 (OP) Какие модели сейчас используют для программирования? Чёто квантованная модель оказалась не очень. 8ГБайтная ещё и выгружается в swap хотя у меня 16ГБ оперативы, видюхи нет, на процессоре. Более сложные проги выдаёт с ошибками компиляции. Онлайновый deepseek пока без ошибок, но там посох знает какая огромная модель.
>>1480267 (OP) > Tencent выложила в публичный доступ две новые модели машинного перевода — HY‑MT1.5-1.8B и HY‑MT1.5-7B. И если младшая модель почти сразу взлетела на первое место в трендах Hugging Face, то старшая — это серьёзная заявка на то, чтобы стать новой опенсорс‑SOTA в своей нише. > HY‑MT1.5-1.8B — модель оптимизирована для потребительского железа, занимает около 1 ГБ памяти и демонстрирует впечатляющую скорость: 0,18 с задержки на генерацию 50 токенов. Как утверждают разработчики, она не просто быстрая, но и по качеству превосходит многие мейнстримные коммерческие API. Достигается это за счёт продвинутой дистилляции, когда компактная модель учится, подражая поведению более крупных и мощных собратьев. > HY‑MT1.5-7B — это тяжелая артиллерия для облака. Её производительность уже сравнима с 90-м процентилем таких закрытых гигантов, как Gemini 3.0 Pro, что открывает дорогу для создания высококлассных сервисов на открытом коде.
>HY-MT1.5-7B-Q4_K_M.gguf The predawn light bleeds like liquid gold over Erantel’s domes and arches. A cool breeze, heavy with the cloying sweetness of saffron and the sharp tang of citrus, snakes through the meticulously clean streets. Below, the city stirs – not with the chaotic clamor of other capitals, but with the quiet hum of a perfectly tuned engine. Shop shutters rise in unison. Imperial guards patrol in precise formations, their polished armor catching the first rays. There are no raised voices, no arguments. Only the soft scrape of brooms on flawless cobblestones and the distant chime of temple bells. Order. Predictability. Control. The air itself feels thick with it. Yet… beneath the gleaming surface, in the shadowed alleys and behind drawn curtains, something restless shifts. A sigh trapped in a gilded cage.
Inside the Obsidian Citadel, the Imperial Throne Room:
Silence hangs heavier here than the tapestries depicting the Empire’s glorious expansion. High, arched windows of stained glass cast fragmented patterns across the polished black marble floor. Simon's throne – a monolith of dark ironwood and cold steel – sits atop a dais, commanding the vast space. Below, bathed in a shaft of cold morning light filtering through a window depicting a stern-faced goddess of justice, stand three figures. Their postures are rigidly correct, eyes carefully lowered. The only sound is the soft click-click-click of Chancellor Vorlag’s abacus beads as the elderly dwarf meticulously tallies the previous day’s grain yields from the southern provinces. His gnarled fingers move with machine-like efficiency.
To his right stands Ambassador Elara Vysara of the Elven Kingdom of Elfina. Her silver hair is bound in an intricate, severe knot, her expression as smooth and unreadable as polished Adanhan wood. She radiates an aura of cool disdain, her gaze fixed on a point just above Simon's left shoulder. Her latest petition regarding the "exorbitant" tariffs on Adanhan timber lies unopened on a nearby obsidian plinth. She hasn't mentioned it. She knows better than to press.
To Vorlag’s left, Ambassador Kaelen Thorne of the Ramihhid Sultanate offers a stark contrast. His dark skin seems to drink the light, his robes a cascade of deep crimson silk that whispers with every subtle shift. A faint, enticing aroma of honey and cardamom clings to him, a scent both exotic and deliberately provocative in this sterile space. A small, exquisite box of crystallized fruits rests on his open palm – a calculated offering, or perhaps a subtle taunt aimed at the Elf beside him? His smile is practiced, deferential, yet his dark eyes hold a flicker of sharp intelligence that misses nothing.
Vorlag finally stops clicking. He clears his throat, a sound like gravel shifting. "The southern granaries report a surplus, Your Radiance. Efficiency remains at ninety-eight point seven percent. Minor variance attributed to localized weather patterns within acceptable parameters." His voice is dry, factual. Numbers. Always numbers. Safe. Predictable. The only truth worth trusting in this den of snakes and silk.
Before either ambassador can speak, the heavy bronze doors at the far end of the hall groan open. Captain Rennick of the Dawn Patrol strides in, his usually immaculate crimson and obsidian armor marred by dust and… is that blood spatter on his vambrace? He moves with the controlled urgency of a man bearing ill tidings he dare not delay. He stops precisely ten paces from the dais, drops to one knee, fist clenched over his heart. The metallic clank echoes sharply.
"Your Radiance," Rennick's voice is tight, stripped of its usual parade-ground bark. He doesn't raise his eyes. "A report from the Whisperwind Pass. Patrol encountered… resistance."
A beat of heavy silence stretches. Vorlag’s knuckles whiten on his abacus. Elara’s perfect eyebrow twitches almost imperceptibly. Kaelen’s smile remains fixed, but the hand holding the sweet box tenses. High above, unseen in the shadowed vaults of the ceiling, a marble gargoyle’s eyes seem to gleam faintly. Resistance? Here? In the Ironhold's heartland? This… complicates the grain reports.
The air in the throne room crackles, thick with unspoken questions. The perfect machine has encountered its first, tiny grain of sand. The Living Aegis gazes down from the throne. What disruption dares mar the Empire's flawless surface? The answer, Captain Rennick waits to deliver, trembling only internally. The dawn’s golden light feels suddenly cold. A single drop of thick, unnatural blood detaches from Rennick’s vambrace and strikes the obsidian floor.
Предрассветный свет, похожий на жидкое золото, рассеивается по куполам и аркам города Эрантел. Прохладный ветерок, наполненный ароматом шафрана и цитрусов, пронизывает аккуратно ухоженные улицы. Внизу город оживает — но не с хаотичным шумом других столиц, а с тихим гулом идеально настроенных механизмов. Щиты магазинов единым движением поднимаются; имперские стражи патрулируют строгими формациями, их отполированные доспехи отражают первые лучи света. Нет громких криков, нет споров — только тихий шорох метел по безупречно чистым булыжникам и далекий звон храмовых колоколов. Порядок, предсказуемость, контроль… Воздух кажется насыщенным этими качествами. Но… под блестящей поверхностью, в темных переулках и за занавесками что-то беспокойно движется… Вздох, застрявший в золоченной клетке… Внутри Императорского дворца: Здесь тишина кажется ещё более густой, чем ткани настенных гобеленов, изображающих великолепие империи. Высокие витражные окна рассеивают разрозненные световые узоры по полу из полированного черного мрамора. Трон Саймона — монолит из темного дерева и холодной стали — возвышается на возвышении, охватывая взглядом весь простор зала. Внизу, освещенные прохладным утренним светом, стоят три фигуры; их позы неподвижны, взгляды скрыты. Единственный звук — тихий стук бусин абакуса канцлера Ворлага; пожилой гном тщательно подсчитывает объем зерновых урожаев с южных провинций. Его искривленные пальцы двигаются с механической точностью. Справа от него стоит посол Элара Висара из эльфийского королевства Эльфина; её серебристые волосы собраны в сложный узел, выражение лица непроницаемо, как полированное дерево Аданхан. Она излучает холодное презрение; её взгляд устремлен в точку над левым плечом Саймона. Её последняя петиция о «чрезмерных» тарифах на древесину Аданхана лежит нераскрытой на ближайшем обсидиановом постаменте… Она не упомянула об этом; она знает, что не стоит настаивать. Слева от Ворлага стоит посол Кэлен Торн из султаната Рамиххид; его темная кожа, кажется, поглощает свет, а одежда — это волна темно-красного шелка, шелестящего при каждом движении. От него исходит легкий аромат меда и кардамона; этот запах кажется экзотичным и намеренно провокационным в этом стерильном пространстве. На его открытой ладони лежит изящная коробочка с кристаллизованными фруктами — это рассчитанный подарок или легкая дерзость в адрес стоящей рядом эльфийки? Его улыбка вежлива и уважительна, но в его темных глазах сквозит острый ум, который ничего не упускает. Наконец Ворлаг прекращает подсчеты. Он откашлявается — звук похож на шорох гравия. «С южных зерновых складов поступили сообщения о избытке урожая, Ваше Величество. Эффективность работы системы составляет 98,7 процента; незначительные отклонения объясняются местными погодными условиями, но они находятся в приемлемых пределах», — говорит он сухим, безразличным тоном. Числа… Всегда только числа — надежные, предсказуемые… Единственная истина, достойная доверия в этом логове змей и шелка. Прежде чем кто-либо из послов успеет заговорить, тяжелые бронзовые двери в конце зала с грохотом открываются. Входит капитан Ренник из рассветной патрульной группы; его обычно безупречные красные доспехи покрыты пылью… А на его рукавице не кровь ли? Он движется с сдержанной спешкой человека, несущего плохие новости, которые он не осмеливается задерживать. Он останавливается в десяти шагах от возвышения, опускается на одно колено, сжимает кулак над сердцем… Металлический звук отдается эхом. «Ваше Величество…» — голос Ренника звучит напряженно, лишенным обычной бравурности. Он не поднимает глаз. «Из прохода „Шепчущий Ветер“ поступило сообщение… Патруль столкнулся с сопротивлением…» Наступает тяжелая тишина. Костяшки пальцев Ворлага бледнеют на абакусе; бровь Элары едва заметно дергается; улыбка Кэлена остается неподвижной, но рука, держащая коробочку с фруктами, напрягается… Высоко над головами, в темных сводах потолка, глаза мраморного гаргульи кажутся едва заметно мерцающими… Сопротивление? Здесь? В самом сердце Империи? Это… усложняет ситуацию с зерновыми урожаями. Воздух в тронном зале наполняется невысказанными вопросами… Идеальная машина столкнулась со своей первой мелкой проблемой… Что же может нарушить безупречность империи? Ответ… капитан Ренник ждет, чтобы его сообщить… Его руки дрожат… Золотой свет рассвета вдруг кажется холодным… Одна капля густой, ненатуральной крови отделяется от рукавицы Ренника и падает на обсидиановый пол…
>gemma-3-12b-it-Q4_K_M.gguf Рассветный свет льется золотым потоком на купола и арки Эрантела. Прохладный бриз, насыщенный приторной сладостью шафрана и резким ароматом цитрусовых, пробирается по безупречно чистым улицам. Внизу город оживает – не хаотичным гулом других столиц, а тихим гулом идеально настроенного двигателя. Щелчки жалюзи магазинов поднимаются одновременно. Имперские стражники маршируют в четких формациях, их отполированные доблести ловят первые лучи. Не слышно ни возвышенных голосов, ни споров. Только мягкий скрип веников о безупречном мощении и далечный перезвон колоколов храма. Порядок. Предсказуемость. Контроль. Воздух сам кажется пропитан этим. Но… под сверкающей поверхностью, в тенистых переулках и за зашторенными окнами, что-то тревожно шевелится. Вздох, запертый в золотой клетке. Внутри Черного Цитадели, в Имперском Тронном Зале: Тишина здесь висит тяжелее, чем гобелены, изображающие славное расширение Империи. Высокие, арочные окна из витражного стекла отбрасывают фрагментированные узоры на отполированный черный мраморный пол. Трон Саймона – монолит из темного железного дерева и холодной стали – возвышается на подиуме, властвуя над огромным пространством. Внизу, озаренные лучом холодного утреннего света, проникающего через окно с изображением суровой богини правосудия, стоят три фигуры. Их осанка безукоризненно прямая, глаза опущены. Единственный звук – мягкое щелчки бусин абакуса канцлера Волага, который тщательно подсчитывает урожай зерна из южных провинций за предыдущий день. Его узловатые пальцы двигаются с машинной эффективностью. Справа от него стоит посол Элара Висара из Эльфийского Королевства Эльфина. Ее серебряные волосы собраны в сложный, строгий узел, ее выражение лица столь же гладкое и нечитаемое, как отполированное адаханское дерево. Она излучает ауру холодного презрения, ее взгляд прикован к точке чуть выше левого плеча Саймона. Ее последняя петиция относительно "необоснованных" пошлин на адаханское дерево лежит неоткрытой на близлежащем обсидиановом постаменте. Она не упоминает о ней. Она знает, что не стоит давить. Слева от Волага стоит посол Кайлен Торн из Рамиххидского Султаната – резкий контраст. Его темная кожа, кажется, поглощает свет, его одеяния – каскад глубокого пурпурного шелка, шепчущего при каждом малейшем движении. Ему присущ слабый, манящий аромат меда и кардамона, запах одновременно экзотический и нарочито провокационный в этом стерильном пространстве. На его открытой ладони лежит небольшой изысканный ящик с кристаллизованными фруктами – рассчитанное подношение, или, возможно, тонкий вызов, брошенный эльфийке рядом с ним? Его улыбка отработанная, учтивая, но его темные глаза хранят отблеск острой смекалки, ничего не упускающей. Волаг наконец прекращает щелкать. Он прокашливается – звук, похожий на сдвигающиеся камни. "Южные зернохранилища сообщают о профиците, Ваше Сиятельство. Эффективность остается на девяноста восьми целых и семи десятых процента. Незначительное отклонение связано с локальными погодными условиями в пределах допустимых параметров." Его голос сухой, фактический. Числа. Всегда числа. Безопасно. Предсказуемо. Единственная правда, которой стоит доверять в этом логове змей и шелка. Прежде чем успевают высказаться какие-либо из послов, тяжелые бронзовые двери в дальнем конце зала с грохотом открываются. Капитан Ренник из Патруля Рассвета входит, его обычно безупречная броня, багряно-черная, покрыта пылью и… не так ли кровяные брызги на его наплечнике? Он движется с контролируемой срочностью человека, несущего плохие новости, которые он не смеет задерживать. Он останавливается точно в десяти шагах от подиума, опускается на одно колено, сжимает кулак над сердцем. Металлический лязг отчетливо эхом отдается. "Ваше Сиятельство," – голос Ренника напряжен, лишен обычного парадного рыка. Он не поднимает глаз. "Доклад из Перевала Шепчущего Ветра. Патруль столкнулся… с сопротивлением." Наступает пауза, наполненная тяжелым молчанием. Пальцы Волага побелели на абакусе. Бровь Элары едва заметно дергается. Улыбка Кайлена остается неизменной, но рука, держащая ящик со сладостями, напрягается. Высоко над головой, в затененных сводах потолка, глаза мраморного горгульи, кажется, слабо блестят. Сопротивление? Здесь? В сердце Железного Удерживания? Это… усложняет отчеты о зерне. Воздух в тронном зале потрескивает, насыщенный невысказанными вопросами. Идеальная машина столкнулась со своим первым, крошечным зернышком песка. Живой Щит смотрит сверху с трона. Какое потрясение осмелилось омрачить безупречную поверхность Империи? Ответ, капитан Ренник готов сообщить, дрожит лишь внутри. Утренний золотой свет внезапно кажется холодным. Одна капля густой, неестественной крови отделяется от наплечника Ренника и ударяет об обсидиановый пол.
>>1480465 Квенкодер 480б в целом ничего, по мелочи и для автокомплитов 30а3 >>1480583 Для размера неплохо, меньше художественности, но зато и меньше явных ошибок и искажений как у геммы.
>>1480739 Да не нужен мне никакой пресет, это как будто не от него вовсе зависит. Не верю я в волшебную таблетку. Главное понять обычное это дело или нет.
>>1480748 Если у тебя хуйня в промте то обычное. Не обессудь но это так. Промт решает очень сильно, Эир к нему чувствителен. Какой систем промт какой шаблон, какая карточка и какие твои вводы, это целая картина и все важно
Пчелs, так-то есть Gemini 3, а вот 235B еще не факт, что лучше Геммы текст переведет, кек. Речь идет о сопоставимых размерах. 12B и 27B полезут в условные 32 Гб общей памяти, а ваши китайские слоны не полезут.
>>1480750 По идее то не должно такого быть, использовал всё рекомендуемое (пресет от geechan для glm), пробовал то, что работало на мистралях, и всё равно частенько начинает бредить. Попробую ещё варианты. Очень нравится как он пишет, понял почему его так в этом треде любят, но иногда приходится несколько свайпов делать.
Господа, снова здравствуйте! Проебал все полимеры, не следил за тредом месяца 4 наверное. Подскажите пожалуйста, что сейчас в тренде под 3090 и 32гб рамки? А то я на геммочке3-девочке 27b для сфв и 24b форготтен-трансгрешне для нсфв до сих пор.
За пресеты - отдельное сердечко, с меня - наверстывание тредов и мб что то полезное привнесу.
(я дибил, не купил 128гб в свое время, "не горит", теперь страдать)
>>1480919 >теперь страдать Кто ж знал-то. И главное, пузырь помаленьку начинает сдуваться - трансформеры подошли к пределу имхо. А мощности производителей уже переключились. Если схлопнется, то будет доступна куча серверной памяти и сравнительно новые карты. Вот только новых моделей не будет :)
>>1480942 >Вот только новых моделей не будет :) Тааа и хер с ними, 640кб 235б квена хватит на все, лишь бы крутить где было за копейки с хорошим контекстом и квантованием. 32б конечно туповаты, но вот скачка между квеном и гопотой 5.2 телескопического прям не заметно, разве что в зирокодингах.
>>1480947 Гемма была каловой для рп во всех ее тюнах, пока величайший анон не выложил хак сиспромтом, тогда даже (а в других и смысла нет) ванильная красками заиграла. Но если говоришь что файнтюнеры шагнули вперед, заценю, спасибо!
Про Локи, там вроде базовый мистраль поновее трансгрешна, но не самый свежий, жаль, свежий мистраль ванильный говорят сильный очень, думал его уже вовсю кумят. Но все равно заценю обязательно.
Еще когда я ливал из треда, хвалили glm какой то, на 3090 и 64рам запускали, стоит семейные драгоценности ради еще двух плах ддр4 по 16гб закладывать?
>>1480947 >Это если без русского жить не получается, у него он, пожалуй самый нормальный под это дело из тюнов. Не лучший, но нормальный Я потестил всякие тюны конкретно под русский и могу сказать, что лучше этого https://huggingface.co/mradermacher/Cydonia-24B-v4.3-heretic-v2-i1-GGUF Ничего не встречал. Не лупит, не использует скучный язык как это обычно бывает в мистралетюнах на русском, персонажи самые активные, но не душат. Короче, кто именно на русском эрпэшит, оч советую попробовать. И это всё в дико пожатом IQ3_XS!
>>1480942 >схлопнется В худшем случае будут плавно допиливать модельки качественными данными и оптимизировать инференс. И модели для кода уже нужны всем. Ну то есть не схопнется.
>>1480754 Лучше, топ в своем размере и ближайших. Дальше только дипсик, и то там уже особенности стилистики и прочего. Справедливости ради задача слишком простая даже для мелочи и тем более большой геммы. Там будут отличия в степени использования возможностей языка vs дословный перевод, а выше сравнение уже на уровне субъективизма и вкусовщины. >>1480942 > трансформеры подошли к пределу Фраза-детектор. > будет доступна куча серверной памяти и сравнительно новые карты Не будет. Случится удар по пользовательскому железу еще больший чем сейчас, ведь в попытках припахать все накупленное будут максимально форсить облачные сервисы. По началу это может показаться вином, ибо будет серьезный демпинг, но как только наберет популярность - поводки будут затянуты на максимум. Продолжительный малый спрос из-за завышенных цен на рам, а потом "более выгодные облака" приведет к сокращению производства, в итоге все железо будет золотым, а подписки анальными и дорогими.
сап кумач короч я купил себе 2 v100 32gb, в комплекте был комплект охлада с 2 башнями с кулерами(и 3д хуйня чтоб их повесить) + 2 пластины под воду, 2 PCIE карты для подключения самой борды, 1 PCIE карта для 1 v100 хз зачем, ну и провода вышло это всё в 130к у шаосюя с вб(анон который советовал его, чаю тебе и низкий тебе поклон), подобный комплект на али висел за 150, также я пытался всех наебать и заказать с тао - мне отказало 3 кабаныча сказали что их карго щас не возит вообще ничего т.к. бюджет у меня шапка сухарей, решил засунуть в свой старый hp dl380p gen8 - ессно сразу эта хуйня не завелась nvidia-smi показал хуй, как и гопота убеждала меня в том что это не работает, кто бы сомневался блядь Если кто то захочет такой же хуйнёй страдать, хотя это особого смысла наверно не имеет, в бивисе ctrl+a - появятся чет типа service options - PCI Express 64-bit BAR Support, и если вы на прыщах то в /etc/default/grub - GRUB_CMDLINE_LINUX_DEFAULT="quiet pci=realloc" Нахуя я это всё задумал? Ну типа Позабыты хлопоты, остановлен бег, вкалывают роботы, а не человек, если логи и метрики будет нормально отслеживать и трактовать то и заебись, а так вон жинка сео текста да картинки пусть генерит Если вы хотите какие нить тесты провести - нехуй делать, только я пока ньюфаг скажите че там поднять и с какими параметрами, пока я только openwebui + ollama воткнул(и вроде как уже соснул потому что надо vllm ставить чтоб оффлоадить и размазывать по этому некрокалу) и invokeai
>>1481137 > отказало 3 кабаныча сказали что их карго щас не возит В серую не возят. Только в белую либо как физик экспресс, либо как юрик с доками. Тех кто возит физик экспресс и САМ выкупает не знаю. Выкупаю всегда сам юанями
Аноны, такой вопрос. Вот я начал изучать разные инструменты дл яконструирования агентов, mcp, qwen/clause/open/code. Но хочу вот что понять. Нейронка даже получая контекст, через rag, или даже получая задание с контекстом от вышестоящей нейронки всё равно находится в не равных улсовиях с человекам. У неё нет под рукой IDE. Это если бы человек писал код за один раз в пустом блокноте. Может есть какие-то проекты, которые как-то прокидывают не только вопли интерпритатора, но и помощь от LSP IDE?
>>1481068 >ведь в попытках припахать все накупленное будут максимально форсить облачные сервисы Уже пытались с играми. Гугловская Стадия сдохла, как и почти все остальные. А всё, сцуко, потому, что физику наебать не получилось. Скорость света, а значит и сигнала в оптике, конечна (причем речь даже не о вакууме - тут она еще медленней), + задержки от самого железа. И внезапно оказывается, что ее достаточно для интерактива без инпут лага - но только если сервер стоит в том же городе, или немного дальше. И ЦОД в каждое село не воткнёшь, чтобы обеспечить качество сервиса. И магистральную оптику тоже.
Тут будет то же самое. Если массово переводить вообще всё на облака - там упрется еще в некоторые ограничения физического типа. Пропускная способность каналов - не резиновая. А требования к ней возрастут кратно от текущих. Причем ведь сетевой канал - это не труба с водой, которую можно заполнять до предела, сколько влазит. Сетевой канал загруженный до предела - это хуёвый по качеству канал.
Да ебаные ковровые, чи шо? >>1481196 На всякий продублирую - llamacpp в режиме split tensor по сравнению с layers на разных контекстах (пустой, 8к, 32к, 64к, больше если не лень). В идеале на модели, которая помещается и на одну видеокарту чтобы удобно было сравнивать. Остальные настройки можно не трогать, оно по дефолту само пополам распределится. > эта топология Ты про плату на пару с нвлинком? Штука действительно удачная. А по ценам (1005010391017151 + 1005010001341763 + 80мм кулер) х2 + 1005009755765964 кажется что выгоднее выходит.
>>1481196 Но вообще интересно, даст ли выигрыш данная топология. Ждём тестов. >>1481201 А что это даст? Выдавать компилируемый код они и так умеют (хотя бы тот же квен-кодер большой). А на большее они не способны.
>>1481201 > У неё нет под рукой IDE. У нее он считай есть - в контексте находится нужный код и инструкции. Нейронка знает и читает язык куда лучше человека, так что ей норм, главное чтобы контекст не был засорен кучей однотипных правок и подобным. >>1481204 Появится потребность или выгода - возьмутся вновь, сделав выводы и актуализировав. Разумеется начинать будут с самых крупных и густонаселенных районов, но имея лишнее железо могут и до ебеней добраться. Главное что народ начнет пересаживаться и это приведет к печальным результатам. > Пропускная способность каналов - не резиновая Также говорили про невозможность массового стриминга видео, проблема решаема. Офк все это спекуляции для "негативного сценария", но подсадить людей на подписки и лишить альтернативы это очень вожделенный исход для многих.
>>1481213 Анализаторы видять библиотеки и что ты там себе в коде вызываешь. Если библиотека изменилась, что часто на питоне, то анализатор сразу начнет выть, что таких атрибутов, функий и прочего уже нет, давать подсказки. Нейронка же этого не видит и пишет код по старым лекалам.
>>1481213 >подсадить людей на подписки и лишить альтернативы это очень вожделенный исход для многих Да, вот только подписочные сервисы уже всех заебали. Раньше вестоиду было выгодно платить 9.99 в месяц и иметь доступ к куче контента на всех устройствах. Сейчас никаких кучек за 9.99 нету, потому что крупные студии вместо продажи лицензии условному нетфликсу щас открывают свои сервисы и теперь оплачивать нужно в несколько раз больше чтобы пожрать в несколько раз хуже. Также будет со всеми другими сферами даже если это будет пиздец быстро и не будет никакой задержки.
>>1481221 Нейронка очень хорошо это знает и помнит. Решается или обновлением самой нейронки, или указанием ей сначала изучить документацию и код. Даже в быстроразвивающемся мл с кучей частых изменений это не стоит остро, ерунда. >>1481222 Ну да, раньше можно было купить нетфликс, да еще шарить его семье-друзьям. А сейчас нужно иметь с десяток недешевых подписок чтобы изредка получить нужный контент. Собственно к подобной деградации все в конце и придет, только альтернативы в виде удобных пиратов не будет. К слову о пиратах - пиратить игорь и прочее тоже не получится, лол.
>>1481235 >Нейронка очень хорошо это знает и помнит. Хуйня. Увидите, как эту фичу реализуюст ещё. Я вот что подумал, можно же самому попробовать что-то такое слепить в рамках агентов кодомакак. Скачем берем нейронку архитектора, она получает от меня крупное задание, контекст кода, через качественно сделанный rag. Шллет задачу более дешевой, но быстрой llm кодомакаке что-то там переписать в каких-то моих модулях. (быстрая llm получает промпт, контекст и делает работу, отсылает это архитектору. До этого момента я описал нынешние claude-code и аналоги. А вот далее архитектор должен получить код и высеры от анализатора и уже на основе этого анализировать нужно ли переделлывать или нет. Идеальная же хуйня совместить детерминированные инструменты и умные, но не предсказуемые llm. Кароче буду тестировать, через какие нибудь свои mcp это подцеплять.
>>1481250 Что реализуют? Какой-то поток сознания вместо конкретики по теме изменения библиотек, или формулировки что должно быть. Все это уже есть, только без вредных излишеств и переусложнений. Проверка кода присутствует в виде запуска или вызова этой самой проверки.
Ровно неделя прошла Казалось бы, должна быть гонка, кто первый выпустит модель в новом году и завоюет внимание Но мы видим лишь пустоту Это действительно всё Я вижу пол года впереди без единой достойной модели
>>1480919 >32гб рамки? https://huggingface.co/TheDrummer/Magidonia-24B-v4.3 - кум льется рекой, крайне развратно. Из недостатков - при виде хуя ЛЮБОЙ персонаж превращается в шлюху и не пытается сопротивляться, только если жесткой не пропишешь конкретные действия. Если идёшь в бордель на еблю - это топ. https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v4-34B - rкум льется так же рекой, но более драматичнее. Недостаток тот же. Если идёшь в бордель на еблю с эльфами - это топ. https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3 - более быстрый и тупенький вариант. Главный недостаток тот же. Если нужно быстро передернуть - это твой выбор. https://huggingface.co/zerofata/MS3.2-PaintedFantasy-v3-24B - мой любимый лоботомит. Старается держать заданный образ персонажа и не превращает его в хорни суку при слабом запахе хуя. Кум так же льется рекой. Идеальный выбор, когда нужно, что бы персонаж не сразу на хер прыгал, а с прелюдией. Сразу скажу, катаю на английском языке. Что там на родном и могучем - хз. ГЛМ-эйр - тупо мем этого треда, полное говнище, аналог фингербокса. Не ведись.
>>1481292 >ГЛМ-эйр - тупо мем этого треда, полное говнище, аналог фингербокса. Не ведись. Вот ты мне скажи зачем. Зачем ты пиздишь. Вот нахуя. Чтобы что? Он сложнее мистрали, так как доебчивый до промта и оформления карточек. Но называть малыху фингербоксом. Чую наброс жирный делаешь ты, охуевшая ты блядина.
>>1481292 Поддержу, эир бездушный кал для кода, не более. Мистраль всё ещё лучший выбор для ерп не смотря на все проблемы >>1481293 > ой вы не поняли он просто сложнее Да и нахуй его, пусть сам в себе разбирается пока я с эльфиками кумлю
>>1481295 >Да и нахуй его, пусть сам в себе разбирается пока я с эльфиками кумлю Спору нет. С ним надо поебаться, чтобы он начал выдавать кино в своих размерах. Тут вопрос - тебе РП или дрочить. Я вот до сих пор как побитая шлюха возвращаюсь к 235му квену, который меня газлайтит и унижает. Но хоспаде - как он пишет, как он чувствует сцену.
>>1481295 А квен побольше 235b или поменьше 80b лучше этих тюнов мистрали? Большой glm 4.6 4.7 зацензурили на уровне геминище нормальный же вроде, нет?
>>1481297 >квен побольше 235b Тут всё зависит от того насколько ты любишь страдания. Но да. Он лучше, он банально больше. В нем жирнее датасет. Он умеет в РП практически без коробки, но он просто мразь, которая доведет тебя до суицида. >же вроде, нет? Ну так и используй большой ГЛМ, нахуй тебе квен?
>>1481285 Я не уверен, что именно это повлияло, потому что нвидиа поцики, по-видимому, делали оптимизоны под блеквеллы и dgx spark. У меня нет в наличии ни того, ни другого. Но как минимум апнулся RPC, потому что там минорная версия выше. Я лично гоняю сборку с adaptive-p сейчас, попутно проверяю этот чудо-семплер. Пока непонятно, но хуже не делает вроде бы.
Кто любит пердолиться с промптами и ПРЕСЕТИКАМИ вам в видео тред, там сора2 дома вышла, но нужно раскрыть, сделать пресетик и не делиться Вы же любите кушать кал с умным видом С ЗАНОСЧИВЫМ ЕБАЛОМ ЗНАТОКА
>>1481330 >Вы же любите кушать кал с умным видом С ЗАНОСЧИВЫМ ЕБАЛОМ ЗНАТОКА Да как ты заебал. Ну с чем еше не поделился. Пресеты на модели все есть. батники есть. Я только неосиляторов в жопу не целовал. Нет никакого секретного промта, который раскроет модель по новому. Ну нет. не выдаст модель сверх того чему обучена. Все современные модели работают на default плюс минус всякие rep pen по вкусу. Есть чатГПТ и кит чтобы помочь с самими промтами. Нет на ГЛМ никакого секретного способа справиться с повторением, кроме старого способа говно зашло=говно вышло. Нет никаких волшебных OOC префилов что дадут тебе кино. Нет никаких СВЕРХСЕКРЕТНЫХ форматов карточек. Он блять простой, как квадрат : <description> <appearance> <personality> И всё в таком духе. Хочешь чтобы модель была мрачной, мрачнотой. Ну добеавь ты в таверне в Author's Note (Слева внизу у тебя три полоски АДИДАС КРОСОВКИ.. сорян, что то меня понесло) что у тебя тут ДАРК ФЭНТАЗИ И МРАЧНАЯ ТЬМА МРАЧНА. Если у тебя мистраль с её ебовым промтпроцессингом. Используй лорбуки, нет - забей на них хуй.
>>1481250 Короче, подумал тут... можно короче взять кружку и запаять ей верх. Ну чтобы жидкость не проливалась да. Ну а днище можно короче наоборот распаять, чтобы пить можно было. Удобно ведь будет правда? И че никто раньше не додумался? Короче, буду тестировать.
>>1481137 Я именно про эту сомнительную штуку с nvlnk пытался найти инфу.
Найди пожалуйста модель на 33-60 ГБ, чтобы она влезала только на две карточки сразу - и сравни какая скорость с nvlink и с программно выключенным nvlink. Вот эти два режима со скриншота. Если в pipeline split я ещё верю, на одну "прокрутку" через трансформер только в одном месте передать условный мегабайт текущих значений активации, то вот в tensor split так что прям при расчёте слоя обмен идёт - уже как-то не очень.
>>1481137 Ну и странно что на али за 150 вышло. 80 на V100, сдвоенный адаптер есть за 20, разветлитель с проводами за 9, две пары радиатор+башня 16 - вроде как 125. Не знаю только что такой пластины под воду и 3д хуйня. А ещё был лот, где V100 по 30к, а не по 40к. Ну, раньше, если ты заказывал месяц назад, до нового года был.
>>1481366 >разветлитель Поначалу вроде не особо доставало, но сейчас уже раздражать начинает. Ты же специально, да? Ты же ещё "люникс" пишешь, да? Ты же? На тебе словарями поисковиками по ебалу и хватит засорять мой датасет неверной орфографией. Я же из-за тебя сам привыкну такое видеть и сам потом могу начать так писать.
Короче, ситуация такая: я анон с p104 (CUDA1) и 3060 12Гб (CUDA0), запускал маленький квенчик и чет решил ради смеха запустить его чисто на p104, вот так:
>>1481441 >что я делаю не так? Раскрываешь тайный хитрый план куртки по прогреву гоев и отрицательному апгрейду видеокарточек после слишком уж удачно вышедших паскалей. Специально криво наоптимизировали новые игры, чтобы паскали в них сосали, продали гоям новые говноархитектуры, чтобы потом внезапно "проапгрейдить" их, выпустив снова что-то "прорывное" типа паскалей (когда на старые паскали уже драйверы перестанут выпускать и никто не сможет напрямую сравнить их в новых играх). Не делай так.
>>1481428 >Ты же ещё "люникс" пишешь, да? Ты же? Верно. С разветвителем я не специально, на ус намотаю. С люником - это по историческим причинам такое, если тебя раздражает - постараюсь писать на английском. Не могу я на русском иначе написать или произнести, это шутка какая-то, а не ос, чтобы правильно её называть.
Ещё я говорю медлее, вместо медленнее и ставлю неправильно ударение в звонить/звонят или как там это произносится. И мне нравится слово "ихний" - впрочем из этого я буду только слово "ихний" защищать, а от неправильного ударения и говорить медленнее просто пока не получается себя приучить.
>>1481487 >медлее Это странно и никто так не говорит, хотя определённая логика в этом есть. Небольшой намёк на неё. Но всё-таки слишком далеко от текущей языковой нормы, чтобы просто взять и перескочить на такой вариант. >ихний >ударение в звонить/звонят А это очень даже логично и через 50-100 лет вполне имеет шансы стать языковой нормой и попасть в словари. А может и не стать. Рандом Хаотичная система, хуле. >разветвителем А это совсем из другой оперы, логики тут никакой на первый взгляд не видно, если только ты не говоришь "ветль" вместо "ветвь". Хотя может я что-то и упускаю.
Можно попробовать дать ллмке поиграться со словами, они же как раз на это и заточены. Будет интересно посмотреть. Но хороших ллмок с русским датасетом нет в природе. У нас же свой путь - спиздить у китайцев и дотюнить за 10 баксов, остальное пустить на распилы и откаты. Простите за политоту.
>>1481201 >но и помощь от LSP IDE? Представляешь, как он заебётся пересчитывать контекст, когда с каждым токеном предложения будут меняться? >>1481222 >Да, вот только подписочные сервисы уже всех заебали. Альтернативы больше нет, только пиратство я сам под этим флагом. Так что когда с играми не будет альтернативы, то людям ничего не останется, кроме как продавать анал за доступ к играм. >>1481273 >Проверка кода присутствует в виде запуска или вызова этой самой проверки. Как я понял идею того чела, это слишком поздний этап. Ну и если в негронке прописан старый апи, то цикл "нейронка высрала нерабочий код - проверка даёт отлуп - нейронка правит, высирая такой же нерабочий код" может идти вечно. А так актуальные данные по апи будут в контексте. Впрочем, тут нужно менять саму суть контекста, да и вообще целиком и полностью всё переписывать. Костыли тут будут только мешать, см. пересчёт контекста на каждый токен. >>1481330 >там сора2 дома вышла Вот когда будет 2 часа на 8ГБ видяхе, тогда приноси. >>1481504 Ты ещё скажи скинуть её на доску на мейлру. Ой...
>>1481441 Решил проверить может это я llamacpp-server не так скомпилил и запустил модельку в kobold'е картина такая же. Аларм! Проверил 3060 стоит в PCI x16. Куда копать? 3060 наелась что ли? Драйвер один на две карты, CUDA 12.9
По идее 3060 по всем параметрам должна обходить p104-100, что ж такое-то?
>>1481536 Давай я аналогию проведу: ты и есть глм. Начинай разговаривать сам с собой. Сражу скажу, я тебе не помощник, я больше по паническим атакам, злобе и тремору. Так что тут как нибудь сам сходи с ума.
>>1481543 так падажжи, я правильно понял, что ты запускаешь модель весом более 12гб и удивляешься, что на видюхе с 12гб памяти она работает медленнее, чем на видюхе с 24гб?
>>1481323 А с кем еще рпшить? >>1481330 > сора2 дома Это чего такое там? Там трахать и генерировать на основе пикчи можно? >>1481366 2x35к карты, 25к плата - провода - адаптеры или 30к за плату + даблер в единичный х16 слот, 8к радиаторы. На корпус и прочее много остается, но лучше вообще по месту что-то красивое и компактное взять. >>1481487 > по историческим причинам такое Таблы или сразу на лечение. >>1481513 > правит, высирая такой же нерабочий код" может идти вечно Не, не пойдет. Тут в целом проблема именно косячного кода по причине некорректного написания - редкое событие, и то происходит из-за сильного квантования. Причем сами нейронки это замечают и делают исправление на следующем шаге. Когда же ошибка более высокого уровня - или сразу смекают что вызовы изменились, или считывают вызываемый код или гуглят доки чтобы корректно сделать. То есть проблемы как таковой не существует, если офк на модели не совсем уг. Гораздо чаще возникают косяки, связанные с неверным планированием или упущением отдельных "мелочей". Например, стоит задача выделения компоненты сигнала и общей солянки. Последний опущ, который считается эталоном кодинга, в обсуждениях предложит тебе архитектуру, в которой при обучении для разделения компонентов сигнала создается дополнительная тренируемая сетка, которая учится выделять "второй компонент" обучаясь сравнением с условным референсом. А потом дополнительным критерием лосса делается ортогональность результатов основной и вспомогательной компоненты. Все разумно, прием хороший и относительно популярный. Вот только то, что на выходе основной сетки размерность в 2.5 раза ниже, а искусственно акцентированный второй компонент для обучения вспомогательной сетки у нас есть только в оригинальной размерности, он заметит только на этапе написания конечного кода. В итоге пук-среньк-костыли, прямо в коде даталоадера пытается тренировать и pca проектор (хотябы со сглаживанием по батчам чтобы не совсем шиза была), потому что уже зашел слишком далеко и в рамках поставленного задания вернуться в начальный этап для переосмысления не может. Если регулярно стукать палкой то офк все может, активное участие кожаного вместе с изменением структуры выполнения от линейной на "швейцарский сыр" с регулярной переоценкой в целом проблему решают. Вот именно такое развитие хотелось бы видеть, а не какую-то шизу с решением несуществующих проблем.
>>1481641 > Каддлиться > с вековыми кемономими Абсолютнейшая база. Просто когда они милые и дрищеватые - это двойне приятно. Даже бубсы пусть будут, главное не слишком большие
>>1481638 >Там трахать и генерировать на основе пикчи можно? Пикчи есть, трахать нет. >В итоге пук-среньк-костыли, прямо в коде даталоадера пытается тренировать и pca проектор Лол, вот это костылищи. А как правильно? >структуры выполнения "швейцарский сыр" Мне аж гуглить пришлось. В общем всё сводится к тому, что без кожаного делать нечего. Забавно, с учётом того, сколько средств всирают на автономных агентов. >>1481644 >Просто когда они милые и дрищеватые Ага, знаем ваших милых 800 летних жён самый рофловый перевод названия на моей памяти.
>>1481654 > Пикчи есть Уже норм, остальное наличии весов можно заставить. Что за модель? > А как правильно Если сохранять подход - или заранее натренировать проектор из второй компоненты и использовать его в качестве дополнительной ступени перед проверкой ортогональности, или им же ужать датасет второй компоненты и делать вспомогательную сетку под сокращенную размерность на выходе. Да даже просто шум будет лучше чем такое, не говоря о перфомансе. > без кожаного делать нечего Ну да, оно может самостоятельно сделать простые вещи а дальше уже лишь инструмент. Уже в текущем виде хорошо, экономит много времени и добавляет удобства. > знаем ваших Можно еще тысячу+ летнюю королеву кицун из monmusu. Там все в одном, и милая канни и ara-ara гяру по желанию, на чубе и уборщике были карточки.
>>1481292 Эй, мистралеёбы. Что там самое darkest dungeon? Я решил вспомнить былое, позапускал эти тюны. Но они слишком соевые. На удивление приятно пишут, лол. Мистраль прям выросла на глазах. Она была хуже, я точно помню, ну или меня поломали другие модели уже, что слог мистрали кажется свежим. приходится прям простить чтобы cruel был, но всё хуйня. Какая моделька будет самая мрачная, мне для истинного despair?
Какая мелкомодель (до 12B) лучше всего переводит с англюсика на русек? А то я попробовал tencent/HY-MT1.5-7B - по бенчам у них все круто, а на деле жиденько.
>>1481206 первые два скрина это лама бенч пример /app/llama-bench \ -m /models/Qwen3-30B-A3B-Q4_K_M.gguf \ -p 65536 \ -n 128 \ --n-gpu-layers 999 \ --split-mode row \ --no-warmup на 131 он не стал запускаться, зафейлился
>>1480982 >русский Стало интересно как выглядит русик на таких маленьких локалках. Оказалось, местами даже интереснее/забавнее англюсика. А последние два скриншота это сравнение навыков базовой работы с HTML у мистраля и Gemini 2.5 pro... https://huggingface.co/FlareRebellion/BereavedCompound-v1.0-24b
>>1481793 >>1481824 Лолчто, а раньше роусплит на жоре ускорял генерацию на малых контекстах даже при небыстром подключении гпу.
Ты немного ерунду затестил. Во всех случаях генерация у тебя или на пустом контексте, или после контекста из той фразы. Промпрпроцессинг же усреднен по всему интервалу (что в целом людям может быть полезно). Фактическую генерацию в llama-bench задает -d. Просто забей -d 0,8192,32768,65536,131072 и оно само по дефолту сделает на них pp512 tg512, пикрел. А просто --ctx-size в llama-cli, server и прочих - это лишь размер буфера, фактический контекст будет от фразы.
Ну и повтори тогда row с включенным и выключенным nvlink.
>>1481741 >>1480583 Вообще, сказал бы, что Гемма, но по количеству косяков они сопоставимы, как видно. Мелкие модели не лучший выбор. С Геммой 27B сравнения нет. Но я думаю, что старшая Гемма будет лучше.
>>1481292 >>1481744 Я был главный хейтер геммы, так как эта тварь была умницей-ассистентом, но отвратительна и убога в рп. Промт-хак анона (промты чаще всего херня, но этот реально наебунькал геммочку) изменил все и я даже познал дзен на какое то время (поэтому и не купил 128 рамы, сук). Но потом все таки небогатый на рп, кум и треш датасет ванильной (а другие были поломаны или лоботомиты, синтия у меня вообще гг жестко заабузила и скатилась в луп) геммы начал вылезать, либо бедный скупой текст в интересных моментах, или навязчивый биас ("они жили долго и счастливо и прошли вместе много приключений" ). И я поймал второе откровение - как только чувствую что гемма все, втыкаю мистраль и рп вновь расцветает. Хакнутая промтом Гемма и мистраль вместе дают синергию адовую, аж обои отклеиваются. Гемма задает хороший слог, логичную завязку и основной сюжет, мистраль развивает его и дает мяса.
Жаль конечно что кроме тюнов геммы ("в этот раз оно точно работает!") и тюнов мистраля посвежее ничего не произошло за почти полгода =((
>>1481800 Я плотнейше юзал 235б корпоквен для неРП задач и он охуенен, лучше дипсика и ранней 5й гопоты, и все это заводится на игровом пука без терабайта оперативы. Рп на таком, даже если допустить соевость и бедный датасет как у некрякнутой геммы, дал бы новый экспириенс. Непокупка 4х канального интуля и 128 ддр4 - моя главная нейроошибка года.
>>1481880 Почему куда эррор? Да, это примерно что нужно. Померь и те модели, и лламу 70 с разной глубиной контекста до куда влезает в разных режимах, все будут благодарны.
>>1481873 >Жаль конечно что кроме тюнов геммы ("в этот раз оно точно работает!") и тюнов мистраля посвежее ничего не произошло за почти полгода =(( Из-за этого неиронично думаю слить свой бомжериг и заменить на одну 5090. Останавливает только факт отсутствия применения 5090й за пределами ии-хрени. Игрульки либо говно, либо нетребовательны.
>>1481824 Круто, спасибо большое. Точнее не очень круто, казалось бы при row где на каждом слое пересылки то скорость уж точно должна влиять, особенно при разборе промта, где скрытый слой толстый на десятки мегабайт. Как минимум я ожидал что по латенси прямое соединение карт должно быть точно быстрее, чем через pcie, да ещё только 3.0 (оно, к слову - кидает на процессор, а потом от процессора на вторую карту - или как-то даже по pcie умеет напрямую с карты на карту?).
С другой стороны там скрытое состояние дай бог 20к между слоями, а переслать нужно только половинки в обе стоны. Причём на слоях нормализации будет быстрее продублировать нормализацию, чем пересылать эти жалкие 40 кб, и реально их надо пересылать только после квадратичных слоёв внимания. Ну, даже если там 30 слоёв, то это мегабайт в секунду. Латенси важнее скорости передачи в разы.
А деление по слоям так вообще сказка, теоретически вроде как можно ещё и kv-кеш порезать по слоям, чего вроде как никто не делает.
В общем на хрен тогда эту плату с китайским nvlink на две платы, она стоила до нового года 19к без проводов, а сейчас только за 27к вижу, а два отдельных адаптера по 5к. Было бы там аппаратная поддержка 8.6 на V100, а не 7.0 - то это окей, ради 10% на более-менее актуальной карточке вроде как хочется, пусть даже только при разборе промта. А так будто бы и смысла нет, если не стоит каких-либо ещё задач кроме инференса LLM, какой-то неросетевой pet-проект или ещё что. С другой стороны там тоже вряд ли нужен nvlink, если всего две карточки, то обучаешь что-то, что точно по масштабу меньше чем даже половина карточки, соответственно и обменивать в прямом времени уже не нужно.
>>1481873 > Непокупка 4х канального интуля и 128 ддр4 - моя главная нейроошибка года Я запускаю его в состоянии лоботомита на конфиге 16+128ч И даже при его мизерной скорости (6-7 т/с это медленно, это очень медленно) я все равно бегу к нему как плаксивая девочка. Я вот сейчас погонял кумтюны мистрали, заново. Спасибо анон за ссылки, кстати. Не пришлось смотреть чем там барабанщик наворотил. Не было у него в моделях этого угара readyart (покойся с миром слоподелатель, пусть тебе там на небе нейротянки расчесывают волосы) И наконец я смог понятно для себя определить, почему он ебет. 235 квен дает самое главное для РП. Жир повествования. Вот есть у меня одна из любимых карточек, где в условиях полного БП ты выживаешь с тянкой. Которая не тянка а нёх, но ты об этом не знаешь. И начинается РП с того что к вам в Квартиру тарабанит я вижевшая, которой собаки хотят оторвать жопу. На мистралях: хуяк, хуяк, попиздели, перевязали и ПОВАЛИЛИ МОНСТРЫ ДАЖЕ ИЗ ОЧКА, СТЕКЛА БЬЮТСЯ, ПИЗЛА СПАСАЙСЯ КТО МОЖЕТ На гемме: перевязали тянку в атмосфере НЕДОСКАЗАННОСТИ, потом поговорили в АТМОСФЕРЕ ГНЕТУЩЕЙ ТИШИНЫ, потом или что то случилось, или гемма решила что с тебя хватит и пора спать. На квене: сначала тянка посмотрит на тебя: «ты чё, ебануьый, давай не будем дверь открывать. Никого нет дома, пошла она нахуй». Ты открываешь дверь, впускаешь. Он будет абзац пасписывать как выживший заебан, как кровь стекает с раны, как она в панике будет что то говорить, что не шпашла, что сбежала и бла бла. Потом вы её перевяжите. Уложите на диван в гостиной и останетесь с тян в спальне. Потом ты положишь голову на ноги своей нёх-тянке и что то глупое расскажешь, она улыбается и тоже скажет какую то хуйню. А глаза, блять, красные. Ты обосрешься, но ничего не скажешь. Потому что если бы хотела, убила бы. Вы уже год живете. Потом ты просто закрыв глаза уснешь. И промнешься от того что она встанет, что от скажет, выйдет в зал, захлопнув за собой дверь и раздаст а вскрик, хруст костей и плоти и чавканье.
И все это в описаниях, в постоянных сочных описаниях. И именно это в нем мне и доставило. Нужно быстро пробежать сцену, это не про квен. Тут все персонажи пока не напиздятся на 1.500 токенов, вообще дело с места не сдвинется. Но ты хуяк, подвигал сюжет мистраль и вновь читаешь как очки тянки запотевают от чая, а где то на улице дракон ебет машину в выхлопную трубу. Ах ну и по моему вообще полный похуизм к порнотексту. Ассистента с его нехочу/небуду надо еще вызвать умудриться. А ну блять пробовать квен пошли! Марш, марш!
>>1481930 Да пробовали, Дружище. И так, и сяк. Пресетом 99 с грамматикой, и тот срет под себя. А уж дефолт не работает И вовсе. Впервые, за многие месяцы пердолинга моделек, постер сдался.
>>1481873 В 235 нет сои, наоборот базирован. Есть припезднутость по форматированию, много квенизмов, байасы, но в остальном хорошая девочка. В рп подкупают универсальность и разнообразие, достаточно податлива. >>1481908 > особенно при разборе промта > где скрытый слой толстый на десятки мегабайт Что? > или как-то даже по pcie умеет напрямую с карты на карту Умеет но с ограничениями. > можно ещё и kv-кеш порезать по слоям Хз что ты под этим подразумеваешь, но в жоре как раз кэш делится между устройствами, причем просто по соотношению -ts, без учета фактического устройства, которому он нужен. > на хрен тогда эту плату с китайским nvlink на две платы Главное чтобы были карточки а ее можно докупить в любой момент. Скорее всего с такой кривой реализацией сплита даже там ничего не ускорит и все как ты описал, но стоит дождаться больше адекватных тестов.
>>1481940 Тоже верно. Карточки кончатся, а платы китайцы всегда сделают. >Хз что ты под этим подразумеваешь Я сам не до конца понимаю, уже потерял мысль что я имел ввиду, размышляя об этом. Я не уверен, что нужна полная копия кеша на каждом устройстве. Речь не о том, чтобы поделить, и пересылать нужные части каждый раз - а чтобы поделить так, чтобы пересылок дальнейших не было - только обновления. Очень хочу просто на си код, где запиты тензоры как массивы, и где все формулы в явном виде записаны. Супер не оптимизированном, но супер понятном. Весь код инференса на ллм с объявлением массивов на одном экране можно уместить, если прямо писать всё. >Что? Речь о том, сколько у тебя переменных при проходе по слоям, которые не веса слоя. При генерации там смешное число порядка десяти тысяч, генерация по одному токену. При разборе промта там идёт сразу кусок на 512 токенов, например, и переменных участвующих в рссчёте уже 512 раз по несколько тысяч.
>>1480982 Ну кстати да, неплохой русик, чуть снизить темпу до 0.6 пришлось что бы англюсик не проскакивал. Другое дело что после постоянного РП на инглише, на русском кринж ловится. У меня такой вопрос - есть что-то лучше Magidonia-24B-v4.3 из последних мистрале / гемматюнов для РП на англ? Магидония прям сильно зашла. Еще пробовал WeirdCompound-v1.7 и 1.6. в целом неплохие, но поглупее как-будто. 1.7 у меня по кд бабам члены дописывал и это было никак не исправить, 1.6 норм, но хуже магидонии, как по мне. Может тюны Геммы есть интересные? Normpreserve слабоват в куме относительно вышеупомянутых. Хотел было >>1480947 Darkhn_G3-27B-Animus-V12 скачать, но там написано: The primary purpose of this model is for creative and roleplaying within the Wings of Fire universe. Какая-то слишком узкоспециализированная, я вообще не ебу что это за вселенная.
>>1481977 Валькирию 3bpw можно запустить и на 24гб видеопамяти с 24к Q8 контекста. 3bpw exl3 почти то же самое что IQ4. Тестил. Хуйня, даже ванильный Немотрончик лучше
>>1481984 Я сравниваю валькирию Q6K (конфиг V2J) с магидонией Q8 (релизный 4.3 конфиг). Последняя скатывается в > ебать наху ЧТО ты сейчасказал > вот это ЖОПА у нее БЛЯТЬ вот это да - очень странные паттерны выкрикивания слов капсом и импульсивно-истеричного поведения у любых персонажей
Надо сказать, v2j конфиг валькири тоже этим грешит, но меньше - у драммера какие-то странные датасеты пошли с недавних пор - но в целом она способна слушать инструкции, на которые магидония кладет болт. Для меня это плюс, для кого-то явно не стоит видеопамяти. А как пишет... Ну как проинструктируешь, так и напишет. Заметил, что промпты очень хорошо слушает лишь до определенного размера - как будто есть жесткий порог, после которого 100% уважуха промпта превращается в чтение между строк.
>>1481971 Объем кэша больших моделей на приличном контексте превышает объем врама потребительских карточек если что. Есть слои атеншна, есть кэш для каждого из них, когда они на одном и том же устройстве то и крупных пересылов нет. В режиме тензорпараллелизма он априори поделен - из-за этого для промптпроцессинга требуется некоторая скорость обмена, подключение по вялым шинам будет его замедлять. Плюс на жоре кэш отвязан от блоков, потому можно словить лишние пересылы даже при послойном сплите на мультигпу если блоки модели неоднородные. Но если используется оффлоад в рам то это все меркнет на фоне стриминга весов. > сколько у тебя переменных при проходе по слоям Слои всегда прсирянны, отличаются активации, которые могут идти батчем. Благо если делать все по-человечески большинство операций асинхронны и при достаточной скорости критических путей от задержек не возникает.
>>1481895 >факт отсутствия применения 5090й за пределами ии-хрени. Так у рига будто бы применений еще меньше, нейронки урезаны до ллм ±
>>1481930 >гемма решила что с тебя хватит и пора спать. Как же ты ПРОЧУВСТВОВАЛ гемму. Тут как раз алгоитм: удалить два последних сообщения и подтыкнуть мистраль.
>>1481940 >В 235 нет сои, наоборот базирован. Да я знаю, я как раз и хотел подчеркнуть что даже будь он сойжаком как гемма, все равно был бы лучше. Очень чувствуется что он просто на порядок умнее всего <50б (не <32б из-за ублюдка-немотрона). Именно этого и хочется в рп, что бы моделька понимала сцену, учитывала предисторию как автор книги, а не красивый пушкинский слог или 99 слопоэвфемизмов для "пизда хлюпает".
>>1482016 >Именно этого и хочется в рп, что бы моделька понимала сцену, учитывала предисторию как автор книги Кстати, а ты знаешь, что существует GLM-4.6 на 356.79 B параметров? Просто напоминаю.
>>1482066 Да я бы и на квенкодере с минимаксом угорел бы, и дипсик бы крутил, если бы оно все в кудахтер лезло. Но не лезет, вот в чем подводный. А квен 235 лезет в любой игровой комп, подтюненный рамкой до вполне себе консьюмерских 128гб. Но я и это проебал, отложив покупку рамки на потом.
>>1482110 Специфичен, замечал что может много внимания уделяет текущему и меньше прошлым событиям на оче длинных историях. Не настолько плохо как мистрали, но подобных ошибок больше чем привык. В остальном умница, внезапно хорошо кумит.
>>1482191 > рп тестов Слишком сложная задача все это параметризовать, а потом объективно оценивать по критериям. И рпшат люди по-разному с совершенно разными запросами и хотелками.
Есть ли сейчас модель, ради которой прям стоит собирать станцию с кучей памяти? Я понимаю, что большинство тут энтузиасты и вам в принципе вкатывает гонять всякие разные нейронки, но у меня не такой случай. Времени самому всё пробовать нету, по этому просто хочется знать, есть ли та самая локалка которая ебет в рп и на которую не жалко вывалить 200+ тыщ с учетом текущих расценок? Сам сейчас сижу на 12/32 системе, для бытовых задач использую большую гемму, для поигрушек мелкий мистраль. Вроде этих двух моделек для всего хватает, но большие я никогда и не пробовал, сравнивать просто не с чем.
>>1482274 Самым разумным в твоем случае будет найти где-нибудь апи (опенроутер, например) и поиграться с моделями побольше. Твой опыт - это твой опыт. Чего тредовички ни скажут, нельзя принимать за истину. Одному разницы нет между 12б Немо и 123б Мистралем, для другого она есть. Все субъективно, как и само понимание того, сколько может стоить машина исключительно для рпшинга. Я сижу на Эире, не вижу радикальной разницы с 32б плотненькими няшами, но разница есть, в лучшую сторону.
>>1482367 Кстати странно что nvlink настолько нулевое влияние оказывает. Может быть тестовый скрипт сделать, где тензор на 25 ГБ перекидывается с одной карты на другую и замеряется скорость? Действительно ли там будет что-то порядка ≈83 и ≈1700 мс.
Поясните некоторую вещь. Которую не понимаю как работает. Общаюсь с моделями через koboldcpp, скачиваю персонажей через characterhub. Как там общаться надо, с какой концепцией. Нужно говорить от имени себя, или как в классических текстовых рпг нужно указывать концепцию окружающего мира? Ну то есть задавать правила из чата и говорить от лица рассказчика?
Порой кажется будто работает так и так. Но в карточке это не указывается. Но когда говорю от лица персонажа (себя). Как будто ломается повествование и порой нейронка выдаёт текст от персонажа сама по себе...
>>1482274 Странный вопрос, все зависит от твоих запросов и возможностей, как правильно написал большинство не только ллм катают. А так да, в зависимости от масштаба, от эйра до дипсика/кими. В качестве разнообразия немотрончик очень хорош это про ультру, не подумайте > 200+ тыщ с учетом текущих расценок Если речь про целиком пекарню - тут можно разве что хуйцаэйр соснуть. Разве что удачно насобирать некроту на 4+ каналах ддр4 и 3090/в100. >>1482283 >>1482367 Спасибо, добра! Если тесты справедливы то выходит что нвлинк никак не влияет. >>1482368 > тестовый скрипт сделать, где тензор на 25 ГБ перекидывается с одной карты на другую This https://github.com/NVIDIA/nccl-tests Если хочешь именно скрипт:
>>1482399 Лол кек. Выходные. Время не помеха. Я месяцами общался через кобольда, а сейчас прочитал, что это всё херня и надо через SillyTavern картчоки грузить. Пиздос.
>>1482282 >найти где-нибудь апи (опенроутер, например) и поиграться с моделями побольше Спасибо, попробую на выходных. >как и само понимание того, сколько может стоить машина исключительно для рпшинга Ну я в любом случае собираюсь обновляться. Уже не первый год сижу на древней 3060 которая не вывозит даже FHD на стабильных кадрах без апскейлеров. Только сейчас у меня выбор, взять только новую карту, или вообще всю платформу, ибо мать с процессором тоже дерьмовые, которые я на сдачу брал когда у меня денег не было вообще.
>>1482375 >от эйра до дипсика/кими Как оно в сравнении с корпами? Все еще разница чувствуется, или разрыв по качеству не критичный?
>>1482376 От своего лица если ты играешь от своего персонажа. От лица рассказчика если ты собираешься тупо быть наблюдателем и хочешь чтобы всё отыгрывала нейронка. Диалоги и спич в целом выделяют двойными ковычками с обоих сторон, а нарратив пишут либо в звездочках, либо без выделения вообще - но это зависит от модели, какой формат она лучше понимает.
>>1482375 >Если тесты справедливы то выходит что нвлинк никак не влияет. Либо просто не работает, и данные катаются через псину. >>1482376 Как больше нравится, так и делай. Если совсем косноязычен, то будь рассказчиком, пусть нейронка пишет и твою речь. Если можешь связать пару слов, то можно и от первого. >>1482381 >LTX-200038.mp4 >200038 Только не говори, что это число генераций только что вышедшей нейронки. >>1482400 Это влияет только на удобство. Так то и через кобольда можно в классный экспириенс, просто всем лень. >>1482436 >без апскейлеров Даже 5090 не умеет без апскейлеров (правда там уже 4к и стабильные 144). >Как оно в сравнении с корпами? По сути это и есть корпы, просто опенсорснутые. >>1482439 >Диалоги и спич в целом выделяют двойными ковычками с обоих сторон, а нарратив пишут либо в звездочках, либо без выделения вообще Чел на русике рпшит. Там возможно лучше использовать русский книжный формат - выделение речи через тире.
>>1482368 перед покупкой гуглил какой профит от nvlink, и сошелся на следующем: профит только на дообучении и использовании моделей FP16+tensor-parallel = по сути на nvlink поебать если в целом комплект оценивать, для меня профит в следующем: 1) мне не надо бегать по городу собирать у бомжей 3090 и гадать живые они или нет 2) размер + формат подключения, я не могу себе риг поставить даже если б захотел, стойка итак вся забита 3) Лучше хуёвый станок, чем пиздатое нихуя.
>>1482436 > Как оно в сравнении с корпами? Это и есть модели аналогичные корпам. Эйр - конкурент младше-средним моделям, даже получше их будет. Остальные уже средние-старшие, считай на релиз отстают. В ассистент чате и рп могут быть даже лучше за счет меньшей лишней надрочки и лоботомии. Хз можно ли отнести к минусам, но вероятность обделаться гораздо выше, потому что на корпах ты возьмешь готовый пресет, который будет как-то работать (часто норм для старта и весьма всрато для длинночата), а тут придется настраивать и понимать как устроено.
>>1482646 >А у нас что? А у меня отвал одной видяхи. Скорее всего райзер шалит, но температура в районе сидушки почему-то начинает расти. Держу в курсе
>>1482558 А вроде же нет модельки, больше чем kimi2 на 1B?
>>1482649 Так воткни же её без райзера или через райзер от соседней. Или они хрустальные и после втыкания видюхи доставать, менять и шевелить его крайне нежелательно?
>>1481975 >Хотел было >>1480947 (You) >Darkhn_G3-27B-Animus-V12 скачать, но там написано: А еще там написано, что на ней успешно играют general purpose roleplay. И подтверждаю - я тоже про ту специализированню вселенную впервые там услышал, на странице модели. Тем не менее, от "general" с ней впечатления весьма положительные.
>>1482666 >Или они хрустальные и после втыкания видюхи доставать, менять и шевелить его крайне нежелательно? Да не, всё возможно. Просто лень слегка. Тут на новой плате каждая холодная загрузка долгая, видимо, надо тренировку отключать. Подустал перебирать короче. Впрочем да, сейчас займусь проверками, будь неладен этот недориг.
>>1482144 >>1480583 Сделали бы они ее 20b, толку было бы больше. Видимо, совсем крузис памяти их в печаль вогнал. Возьми квант только полный, если тестить будешь, на огрызке уже затестили.
>>1482768 Вот совсем не факт что от 20B было бы больше толку. Тут ведь очень специфическая задача, где излишня креативность вредит, зато точность - должна помогать. Так что небольшая сетка (которую можно без мелкоквантов на табуретке запустить), натасканная строго на эту конкретную задачу - звучит как план. И даже, IMHO, с шансами на удачную реализацию. Не замечал, что если обычным моделям дать задачу "переведи" - так начало, обычно, неплохо, а то и хорошо? Но чем дальше по тексту- тем больше отсебятины и фигни? Тут метод обучения должен быть разным. Если обычная модель - предсказывает "что будет дальше на основе контекста", то переводчик - "повтори то же самое но на другом языке". У обычной модели - это ведет к лупам, и нам не нравится. А переводчику, в общем то, как раз и надо.
>>1482649 > отвал одной видяхи Nani? Та ну, за время риговладения райзеры и питание столько мозгов делали что подобное кажется почти невероятным. Даже когда все было максимально облагорожено, все равно иногда капризничает. Райзер обычно срет ошибками и тормозами, а как отвал выглядят именно проблемы с питанием. pci-e power тоже склонны подгорать, причем по сравнению с 16 пиновым локальная статистика не в их пользу. >>1482707 Да чето среди всей этой шайки для рп субъективно лучше всего дипсик, хоть у него и параметров поменьше. Линг и кими напоминают старые его версии, которые были довольно ублюдочными, лучше но из той же оперы.
>>1482683 >>1482806 >Райзер обычно срет ошибками и тормозами ХЗ, у меня именно зависание и синька с ошибкой драйвера видяхи. Впрочем да, это райзер, карта в слоте работает чётко. Блин, у меня все запчасти для переделок заказаны из кетая через месяц, придётся текущий райзер мучить, или сидеть как лох на 235B.
>>1482870 > именно зависание и синька с ошибкой драйвера видяхи Было именно такое из-за уставшего разъема, шевеление на какое-то время исправляло. Чтобы к такому привел райзер - это нужно капитально ошибок накопить, вся система будет лагать. Обе штуки мониторятся. Ошибки легче всего в hwinfo, мотаешь в самый низ, проблемы с разъемами - сенсоры напряжения портов питания и pci-e, если под нагрузкой видны просадки - оно.
>>1482972 считать локалки не умеют, это у неё в датасете записано, что 7+8=15 чтобы оно начало считать, надо прикрутить к нему выполнение кода. что может быть чревато последствиями
>>1482983 >считать локалки не умеют Умеют. ЛЛМ устроены как большая асоциативная база данных, если очень упрощать. Логикой они обладают. Можешь придумать сам какую-нибудь задачку, какой нигде нет и предложить ее сколь-нибудь умной локалке. Гпт Осс решает университетские задачи по математике и школьные олимпиадные старших классов, например. Я даже формулировки менял и давал задачи с неверными исходными данными.
>>1482558 STREAM/TRIAD EPP=powersave -> 389 GB/s EPP=balance_performance -> 391 GB/s в принципе нарм, у японцев с этим процом 394 вышло, скорее всего с EPP=performance.
>>1482994 Ты пришёл в ЛЛМ тред рассказывать, что ЛЛМ тред говно? Агишиз опять раздуплился после новогоднего бухалова или залётный? ЛЛМ тебе и пояснения дадут как решали задачу, и объяснят пробелы. Ясен хуй, человека оне не заменит, но если у тебя самого голова на плечах есть - существует очень много юзкейсов, когда будет реальная польза.
>>1482983 Умеют. Всего на свете в датасет не запишешь. Можно и матан научить решать, если записать условия в датасет и обучить. Но она как-то сранно считает, иногда говорит что сложно, иногда осчитает. Видимо от карточки зависит, характера пони.
Ебать я лох был что на онлайн сервисах так долго сидел. Что-то умное спросить и советы можно у чат гпт онлайн бесплатно без регистрации, а кумить с джейлбрейками без цензур и багов можно было оказывается на локалках вполне. А может есть спец модели для куминга одобренные людями культуры?
>>1482933 >проблемы с разъемами - сенсоры напряжения портов питания и pci-e Короче, ХЗ что это было, перебрал, протёр контакты, и вроде починилось. А может болтик новый в держателе помог. Про совет с напряжениями спасибо, буду смотреть при проблемах. Правда ХЗ какая просадка допустима. Как будто самая большая просадка на pci-e, он на моём райзере как раз от одного саташника запитан, там лимит 52 ватта, а плата в пике запросила 55. Возможно платы с доп питанием сата не лучшая идея, как тут и писали. С другой стороны, тратить целый PCI-E питание на плату райзера это жирно как по мне.
>>1483067 > А может есть спец модели для куминга одобренные людями культуры? Новьё: - gemma3-27B-it-abliterated-normpreserve - Cydonia-24B-v4.3-heretic-v2
Старьё: - Broken-Tutu-24B-Unslop-v2.0 - Forgotten-Transgression - 12B Мистральки из шапки.
Лол а где все мои настройки с джийлбрейками и т.п. в таверне? Для локалок чтоли где-то вс езаново писать? Ну та длину ответов, запреты всякие или наоборот разрешения. Хде? Я виж ток стандартные шизоидные пресеты. А где их менять и свои создать можно? Может у тредовча есть? Делитес. Мне надо длину ответов и чтоб повествователь не пиздел когда не просят.
Слушайте, а как перевод в локалке через силли таверну работает? Оно продолжает гугл (или что другое в таверне указано) захватывать или через модель переводит когда кнопку жмешь. Мне важно знать, а то перевод хуевенький.
>>1483110 Да((( Ри работает без инета, это не локалка переводит. Я готовлюсь к чебурнету. Кто мне будет переводы делать, если не локалка? Оно то если принудить будет на 1 языке, а я не хочу.))(
>>1483109 Ну просто берешь умничку 27b и кумишь на русском сразу из коробки. А если шейх с много озу - берешь жирный квен. Пиздец вы любители собирать троллейбус из буханки хлеба, конечно
>>1482781 Если больше параметров, то модель больше одупляет, что она вообще делает, это не обязательно про креативность. Например, касательно перевода, понимает особенности художественного и технического текста, стилистики, уместности ипользования слов. Если не долбоебы занимаются подготовкой модели, то в среднем больше параметров = лучше в любой сопоставимой по классу задаче. При условии, что модели одного поколения и одной архитектуры.
>>1483117 >Кто мне будет переводы делать, если не локалка? Мозг.
>>1483118 >крякни КРЯ. Или тебе ещё и три раза ку сделать?
>>1483132 >Или там можно обойти цензуру тож? В чем соль? Новый метод аблитерации, не ломающий мозги (ну, значительно меньше) + стандартный промт соавтора-сторителлера на гемму.
+ умничка умеет кумить со смыслом, а не просто декалитры жидкостей лить
>>1483068 >он на моём райзере как раз от одного саташника запитан Земля тебе пухом - электросвиней запитывать не от писи или молекса... В крайнем случае советую тебе рассмотреть переходник 2xSATA->PCI-E 6 pin, на озоне такие валяются. Лучше всего будет запитать с разных линий (особенно если у тебя просадки), но если сечение норм, то и с одной норм, хотя бы не будешь испытывать сам разъем на прочность.
У геммочки честный кеш маленький, а остальный SWA. Я могу как-то сделать честный кеш на 32к токенов? А то она что-то пропускать начинает. Или это нельзя архитектурно? Или можно, но так как она на этом не училась - то у неё крыша поедет?
Мне срочно нужен хдд 6Тб под модели и как архив для нейрон, ну суки копоративные, создают нового бога, а мне нельзя биокарлиц багинь теперь комфортно творить. Вы б стали платить 30к за 6Тб? Все что ниже - б/у и шлак как сигейт.
>>1483249 Придется еще ПАДАЖДАТЬ. Корпы же не могут бесконечно скупать железки. Это бизнес уровня как риелтор сам бы у себя квартиры стал поккупать. Их уже даже офисники хуесосят и отменяют в соцсетях, не продержатся и полгода за такой гнилой мув. Я блять такое только в кино видел, чтоб жирный король скупил всю еду с рынка и закапывая в землю и городским тогда б пришлось пиздовать пахать в поля чтоб найти пропитание.
>>1483226 А зачем тебе столько места под модели? Вопрос без подъеба. Ну допустим ты хочешь не только под свое железо актуальные модели засейвить, но и под все юзкейсы. Скажем, 8б, 12б, 24б, 32б, 70б, 123б модели и пару МоЕшек. Например, Эир и Квен 235 (потому что больше ничего толкового для рядового пользака нет). Q4-Q6 кванты. Ну это же терабайт максимум.
У меня внешних ЖД на 15тб, там куча медиаконтента на все случаи жизни - вот это мне понятно, учитывая интернет тенденции по всему миру и в частности у нас в России.
>>1482888 Для чего нужен heretic тюн цидоньки если цидонь и так кум-тюн? На сколько я знаю что отказы нужны для характера. Аблитерированные модели имеют проблемы отыгрывать персонажей с принципами, а в комбинации с кум-тюном у тебя любой персонаж в сукуба должен превратится после 1-2 сообщений.
>>1483198 >переходник 2xSATA->PCI-E 6 pin Эээээ... А что он даст то? У меня на плате саташник, сами видеокарты само собой по отдельным проводам псины питаются. >>1483226 >Мне срочно нужен хдд 6Тб под модели и как архив для нейрон Меняю 6ТБ диск на 5090.
>>1483198 >В крайнем случае советую тебе рассмотреть переходник 2xSATA->PCI-E 6 pin, на озоне такие валяются. Вот кстати спасибо, мне давно нужно было что-то подобное, а то у меня только восемь PCI-E 8 pin от БП, а нужен девятый PCI-E 6 pin в плату воткнуть, если четвёртую карту в риг захочу добавить :)
Хотя один хуй для серьёзного рига второй БП брать придётся.
>>1482998 >в принципе нарм Бандвич штука хорошая, только вот одного его недостаточно. Интересно, что будет (особенно с промпт процессингом), если к этой системе добавить 1(одну) 5090?
Задавал этот вопрос ещё прошлом августе ЕМНИП и тогда это казалось интересным решением. Но сейчас цены совсем не те.
>>1483257 добро пожаловать в кино. жидам не выгодно, чтобы у людей были домашние компьютеры, они готовы выкидывать ваши же ахулиарды денег только на то, чтобы вам вычислительные мощности не достались и вы были вынуждены арендовать их у жидов.
>>1483277 >Пара моделек под сетап на 512гб уже ощутимо тянет карман Если у тебя есть деньги на такой сетап, то и НВМЕ от 2Тб потянешь. Даже простой SATA SSD смысла не имеет, а тут о хардах рассуждают.
>>1483273 >У меня на плате саташник А, я подумал, что у тебя там пися, но ты запитал от сата через переходник. Тогда да, печаль-беда, я ради этого новые райзеры заказывал, чтобы их можно безопасно через кабель писи напрямую питать.
>>1483274 Если в плату райзера, то норм, а если в саму карту, то стремновато (хотя, по идее, карта должна понять по sense пину, что в ней 6 pin, а не 6+2, и сбрасывать потребление, иначе зачем этот sense вообще сделан). У меня есть еще уже эксклюзивный 2хMolex->6+2 pcie (эксклюзивный т.к. этой позиции в рф магазине, который делает усиленное сечение и пайку, давно нет), вот его можно и в карту сувать, если с разных линий запитывать. Если найдешь китайский аналог, то можешь еще его рассмотреть.
>>1483260 Ну так не только нейронки, у меня просто уже место забито с инета что качаю, а также нужды диски под бэкапы на случай если действенные полетят понимаешь.
>>1483364 Ага, такой. Но если ты реально хочешь в саму карту втыкать, то будь осторожней. Как минимум осмотри и легонько подергай, а то в этих китаеподелиях пайка на соплях может быть. А потом лучше бенч прогнать какой, чтобы если где-то начнет греться или плавиться, то хотя бы под надзором.
>>1483341 >Тогда да, печаль-беда, я ради этого новые райзеры заказывал, чтобы их можно безопасно через кабель писи напрямую питать. Как по мне, саташки должно хватать, и проблема не в питании. >>1483343 Это OMV, почему бы и нет. В чистую люнупсу лезть лень. >>1483355 Ну не верь. На деле я не мажор, а айтишник на вынужденной пенсии, так что 5090 подобрал на дне рынка, и то одну.
>>1483226 пузырь либо скоро лопнет, либо, вероятнее, все будет еще хуже с железом. и что через месяц будешь писать:
>Вы б стали платить 40к за 2Тб?
1) CES 2026 показал, что на потреб. рынок забивают болт 2) сейчас, с такими ценами, уже наконец-то спрос соответствует предложению, все кто хотел (и мог) - закупились. по-этому цены не так резко растут 3) однако произодить для потреб. рынка будут намного меньше. вопрос времени, когда существующий сток распродадут. цены ниже врядли упадут, скорее снова вырастут
мне бы хотелось верить, что пузырь скоро лопнет, но CES меня в этом разубедил
>>1483544 Там че и харды подорожали? Просто с ними-то какая разница, у меня 8-терабайтный HGST уже десяток лет для хранения помоев - охуенно работает, тьфу-тьфу.
>>1483547 >Просто с ними-то какая разница, у меня 8-терабайтный HGST уже десяток лет для хранения помоев - охуенно работает, тьфу-тьфу. Ну тобишь, он вообще серверный. Потребительский не потребительтский, какая разница. Лишь бы не для записи данных с видеокамер.
>>1483549 Под файлопомойку можно и эти использовать, да и вообще почти любой хлам, в рейд-1 засунуть, и дело с концом. На самом деле - лишь бы не SMR (черепичная запись). Вот это - реальная жопа и непотребство.
>>1483547 >Там че и харды подорожали? Тут один из директоров Самсунга намедни интервью давал. И сказал: не переживайте за память, граждане - подорожает всё. Вообще всё. Ибо такова парадигма(с)
PS Я долго присматривался к планшетику игровому, всё думал: скоро ещё лучше выйдет или подешевеет, а старый пока работает же... А теперь заказал. Ибо нехуй.
>>1483068 > ХЗ какая просадка допустима В идеале минимальная, и синхронная по прочим сенсорам. То есть если проседает бп под нагрузкой - это заметят и сенсоры материнки, и разные вольтажи на гпу будут падать идентично. Если же под нагрузкой падает только один или пара вольтажей по питанию, да еще само падение больше чем 0.5В - подыхает разъем, его нагрев и рукой будет заметен после продолжительной нагрузки. Питание pci-e с райзера если он без доп питания тоже может проседать. >>1483070 nvidia-smi dmon -s et -d 10 -o DT >>1483281 > что будет (особенно с промпт процессингом), если к этой системе добавить 1(одну) 5090 А без нее оно смысла не имеет. На риге с шустрой врам к дополнению к много 12-канальной врам 20-15т/с генерации в зависимости от контекста на дипсике. Пп в районе 200-300 что мало для агентов но норм для рп. >>1483226 > Все что ниже Не так давно торговались живчики hdd на 16тб на ~20к и ssd 8тб за 30-40к. Или дешевле если удачно подыскать, бу офк но с 90+ ресурсом.
>>1480947 >>1480982 >>1481975 >>1482673 >>1481127 >>1481292 >>1481293 >>1481295 >>1481295 >>1481329 >>1481733 >>1481873 >>1481744 Блять, да как вы затрахали! >хуйнянейм говно >ниееет это ты говно сабж - лучшая модель эвер >да нет это говно вот хуйнянейм-тюн даа, вот он работает. >нихуя хуйнянейм-тюн не работает, все тюны говно, оригинальная модель - это единственно верный вариант >нет вы все долбаёбы, это хуйнянейм-2 прям топовый топ лучше быть не может, очень пиздатое РП, может даже на иврите рпшить! >да вы подождите, вот хуйнянейм-3 - вот это реально тема. лучшая модель для рп на иврите. >хуйнянейм-3 не может нормально в кум. соевая, пиздец, вот хуйнянейм3-тюн-хуйнянейм2 пиздат для кума >блять хуйнянейм3-тюн-хуйнянейм2 в иврит нихуя не может шизит и зацикливается, а вот хуйнянейм-4... >ни одной из этих хуёвин, нету в шапке, а то что в шапке - обсирается в треде.
>>1483615 >Удивлю, но модели на хф заливают чаще, чем обновляют шапку. Да ну? Серьёзно? А шапка нужна, чтобы туда пихать каждую попавшуюся модель, а не только лучшие?
>Почему тебя так порвало? Просто модели из шапки - срут, но вот истинной абсолютнейшей годнотейщины™, которая, по мнению анонов из треда, ебёт всё и вся - там почему-то нет.
>>1483612 > и всё это в 4 кванте и до 350б Просто лезут на локалки думая что тут лафа и не нужны им эти корпы хостящие в 8 бит, когда тут новейший мега пуксереньк файнтюн от драммера 24б 4q в карту влезает. А тут всё так же, ниже 6 кванта жизни нет, ниже 350б жизни нет, ниже 90к контекста жизни нет, всё это прочнейшая база, локалки очень даже живы, но не для вас, молодой человек
>>1483623 >> и всё это в 4 кванте и до 350б Наверное, только пара-тройка Анонов в этом треде способны вырваться из этого круга ада. Так что вы меньшинство, а мнение меньшинства не учитывается. А ещё вы дохуя важные, на самом деле.
>>1483616 >шапка нужна, чтобы туда пихать каждую попавшуюся модель Я тебе ничего про это не говорил. Что-то мешает обновить шапку и добавить туда лучшее из того, что вышло? Или лучшая модель выходит раз в год по твоему мнению?
>>1483616 >истинной абсолютнейшей годнотейщины Откуда ей взятся? Ты требуешь чтобы инструмент который генерирует текст предсказывая следующее слово на основе предыдущих устраивал каждого, когда у каждого свой системный промпт, свои хотелки, свои настройки семплеров,. Это просто невозможно. Даже не каждый анон знает английский.
>>1483631 > Я тебе ничего про это не говорил. Тогда к чему был тот вборс про разность обновления шапки и частоту создания новых моделей?
> Что-то мешает обновить шапку и добавить туда лучшее из того, что вышло? Отличная идея! Как мне это сразу в голову-то не пришло!? А я то думал в шапку просто рандомные модели занесли.
Только к чему ты мне-то об этом говоришь? Я по-твоему, имею возможность изменять шапку? Да и даже если бы хотел, как мне понять что Анон действительно считает годным, если вы ебучие шизы, которые не могут сойтись в одном мнении и решить что действительно годно? Засирая даже то, что занесено в шапку, под статусом "годно"?
> Ты требуешь чтобы инструмент который генерирует текст предсказывая следующее слово на основе предыдущих устраивал каждого, когда у каждого свой системный промпт, свои хотелки, свои настройки семплеров,. Я не требую, у меня просто баттхёрт. Я бугурт.
Объективно, понятно, что восприятие "годноты" у каждого отличается, отличаются настройки, железо, версии ПО, файнтюны, но блять нигде такого нет, как в этом треде. Когда буквально любое утверждение о годноте можно литералли считать бесполезным. Довериться Анону и его вкусу здесь, это всё равно, что поставить всё на зеро. Естественно, получить годноту шанс такой же, как и выиграть с подобною ставкой. Слава богу, хотя бы деньги не отбирают при входе в тред.
Затра важный день Но не для лмм Выйдет z image base и glm image Всё просто, ллм обучать сильно дороже и сложнее Да и интереса у людей к картинкам больше Всё тихонько умирает
>>1483544 Это всё было бы оправданно, если бы они действительно делали нового бога, но ведь они же разрабатывают системы для более эффективной слежки и убийства других людей. Ожидайте пришествие Allied Mastercomputer от Palantir Technologies. Человекам пизда в 2028. Скриньте.
>>1483666 >но ведь они же разрабатывают системы для более эффективной слежки и убийства других людей. Да кому нужны ваши пукалки. И следить за людьми занятие пустое, а вот ответить на платоновский вопрос было бы интересно. Есть мнение, что на этом человек и закончится, да и хуй с ним а может будет с ним что-то совсем новое. Интересно же.
>>1483612 О нет! Существует живая дискуссия по сабжу? Это просто отвратительно нахуй! Мне не нравится, ткну всех вот этих вот которые нихуя не понимают и только срут в тред. Ох как полегчало, какой я умница всё-таки. (С)Долбаёб. Бухой утка или ещё один умник нашелся?
>>1482989 Какая у тебя гпт осс? Вчера взял квен3 кодер 30Б, и он не смог на питоне с первого раза вывести список чисел от 10 до 1000, сумма первых двух цифр которых равна 5. А онлайн дипкек сразу несколько правильных вариантов предложил.
>>1483637 Такая же, как с Нвидия. Памяти у них почти всегда столько же, но АМД медленнее, чем зеленые процентов на 30. С ЛЛМ ситуация бывает лучше, идут почти вровень. Чтобы слоев больше выгружать, на Линупс надо идти, но касается это и красных и зеленых.
>>1483544 > все кто хотел (и мог) - закупились. по-этому цены не так резко растут > не так резко за прошедший месяц оператива сделала ещё +40% а суммарно с сентября по январь цена выросла в 4.6 раз
>>1480909 Нормальный пресет. Без шизапромпта/пресета всё те же проблемы что и с ним, он просто направляет модель куда нужно. Шизапромпт это когда тут постят огромный список чего модели делать НУ НИ В КОЕМ СЛУЧАЕ нельзя, у гичан вместо этого инструкции что делать желательно, всё ещё оставляя модель "развязанной"
>>1483935 >миллиард инструкций, объясняющих, что такое рп и как правильно пукать Каким промпт и должен быть. Тут как с генерацией на флакс или ван - нужно жирное полотно объясняющее каждую мелочь. И такое мнение в треде и было до того как тут начали форсить промпт в одну строчку, лол. То что модель от мелкого промпта не ломается ещё не значит что он лучше для рп, она и с "ты меня ебешь, я тебя ебу" прилично отыграет, но с большим промптом будет умнее
>>1483944 >Каким промпт и должен быть. >с большим промптом будет умнее Как ты пришел к выводу, что с большим промптом модель будет "умнее"? >Тут как с генерацией на флакс или ван - нужно жирное полотно объясняющее каждую мелочь. Зачем? У генерации картинок и креативной ролевой игры две диаметрально противоположные задачи - сгенерировать точный результат, как можно больше соответствующий описанию в случае картинкогенерации, и получить креативный, интересный ответ на твой ввод в случае рп. >И такое мнение в треде и было до того как тут начали форсить промпт в одну строчку, лол. Мнения имеют свойство изменяться с приобретением опыта. Тем более, что сейчас стали доступны мое модели, которые из коробки знают и понимают, что такое ролевая игра. Если ты Квену 235 скормишь жирное полотно из промпта - он начнет писать еще хуже, потому что будет следовать инструкциям "дважды": исходя из собственного понимания что такое ролевая игра и следуя каждой бессмысленной инструкции "ты персонаж, ответь как персонаж, потому что это ролевая игра"
>>1483944 > Тут как с генерацией на флакс или ван - нужно жирное полотно объясняющее каждую мелочь. Это не плюс. Сначала наделали мусорных капшнов, где вместо содержимого одни дефирамбы и филлеры, а потом оформили тренировку этим без должной аугментации. В итоге модель требует спама чтобы делать простые вещи, а без него не дорабатывает. > Каким промпт и должен быть. Не должен. Уместно было во времена мезозоя, когда модели вообще не понимали что к чему и как делать разметку в рп. > с большим промптом будет умнее Наоборот, внимание будет уходить не на сюжет, а на пропуск очевидного. Или наоборот слепое следование им с наваливанием слопа и тех самых ответов за юзера.
>>1483949 >что такое ролевая игра Эх, как же хочется отойти от шаблона ролевой игры... >>1483966 >Сначала наделали мусорных капшнов Но но, ты пропустил нулевой шаг. Сначала обучили модели капшенов на мусорных данных, где процентов 10 тегов просто неверны, а потом да, высрали вторично переработанные датасеты. >внимание будет уходить не на сюжет База. Реальный контекст моделей в 4к вообще не стоит превышать, а тут одних инструкций "как какать" на 16 наливают.
>>1483710 > Чтобы слоев больше выгружать, на Линупс надо идти, но касается это и красных и зеленых. Это за счет того, что можно рабочий стол вырубить и освободить кусочек памяти в видяхе? Или что-то еще?
>>1483710 >Чтобы слоев больше выгружать, на Линупс надо идти, но касается это и красных и зеленых Что это значит? Я недавно на линупс перешёл от скучной жизни и у меня нихуя не получается так же оформить загрузку VRAM и RAM, там очень строгие значения, винда же говорит "надо 300гб врам? Да похуй, держи" и проблемы на начнутся, пока ты реально не забьёшь всё, и то, она начнёт плавно из ОЗУ подсасывать. На линуксе хуй, говорит не может аллокейт KV cache ещё на моменте загрузки модели.
>>1483949 > будет следовать инструкциям "дважды": исходя из собственного понимания что такое ролевая игра и следуя каждой бессмысленной инструкции > понимания Блять что я прочитал.. Мы уже достигли аги? А ты не думал что любая, даже самая короткая инструкция накладывается на то что там квен понимает и это лишь мешает? Гоняй вообще с пустым промптом, будет ещё лучше
>>1484005 >Гоняй вообще с пустым промптом, будет ещё лучше Что за глупая гиперболизация? Тебе 15 лет? Есть большая разница между "ты участник ролевой игры и гейммастер" и "ты чар, участвуешь в ролевой игре, ролевая игра это когда ты отвечаешь как чар, чтобы развивало историю, соответствовало чару, не противоречило предыдущим сообщениям..." (И ещё тыща токенов избыточных обозначений, которая модель уже "поняла" на фразе "ты участник ролевой игры")
И ты не поверишь, Квены хорошо работают без промпта, да. Квк, Сноудроп и 235 я катал с <think> префилом на пару сотен токенов, и именно так добивался лучших результатов, когда модель не зажата в тиски, пишет интересно и свободно.
Урок тебе - не готов обсуждать другую точку зрения и аргументировать свою, не утруждайся срать в тред. Чмок в лобик.
>>1483637 Все плохо. Первая беда в пердольности - считай только линукс и все весьма сырое. Второе - основная кодовая база заточена под куду, наибольшей болью будут оптимизации атеншна и около того, в итоге формально модели запускать сможешь, но скорости будут ниже, а жор памяти выше. >>1483695 > он не смог на питоне с первого раза вывести список чисел от 10 до 1000, сумма первых двух цифр которых равна 5 Скиллишью здесь. Модель небольшая и в первую очередь заточена на выполнение конкретных инструкций. Справиться и с кривой разметкой, и с корявыми промптами, и с надмозговым запросом, который сначала нужно расшифровать у нее сил не хватает. Во втором же случае все изначально обустроено самым удачным образом, и модель не просто весьма умная, а буквально тренирована пытаться догадываться что юзверь хотел. >>1483977 > где процентов 10 тегов Какие еще теги, везде nl. И как раз условно "неверные" 10% - вообще не проблема, будет дополнительной аугментацией и легчайше отсеется. Все проблемы начались когда даже имея приличные модели, кому-то показалось что больше = лучше, и не важно насколько уместно, неважно какой ценой. >>1483990 Тут с этими самыми проблемами, которые начинаются, наоборот часто безуспешно борются, а у тебя наоборот плюсом стало.
>>1484010 >И как раз условно "неверные" 10% - вообще не проблема, будет дополнительной аугментацией А нужна ли такая аугментация? >кому-то показалось что больше = лучше Так лучше же. Или что там увеличивают?
>>1483998 А чё ему ещё делать, если у тебя нет больше VRAM? >>1484010 >Тут с этими самыми проблемами, которые начинаются, наоборот часто безуспешно борются Я на линуксе буквально третий день сижу а локальными нейронками обмазываюсь второй месяц, модели которые целиком во VRAM влезают вместе с кэшэм работают на процентов 10-20% быстрее в линуксе, а которые впритык тупо шлют меня нахуй. В винде не нужно было просто слои дрочить и подбирать чтобы и контекст залез, и слои. Не нужно было все окна закрывать, скорость просто проседала и всё. Она сама плавно кидала нехватающее в ОЗУ. Или я чё-то не понимаю? У людей беда, что винда не слои, а кэш кидает в ОЗУ и жопа по скорости начинается или что? У меня все диалоги в районе 16к контекста были и модели на 12-14 миллиардов, хз чё там у буржуев с гиганскими моделями.
>>1484038 >А чё ему ещё делать, если у тебя нет больше VRAM? Он про автоматическую выгрузку. Она руинит скорость в ноль, и нужна совсем бомжам с 4гб врам, чтобы игры не вылетали. Для ИИ настраивают нормальное разделение моделей в лламе.цпп, а не вот это всё.
>>1484028 > А нужна ли такая аугментация? С определенного момента очень. > Так лучше же. Не лучше. Лучше когда для действительно детальной картинки есть очень подробное описание с настоящим содержимым. Например > На бескрайнем полотне света, словно отражение мечты в стеклянной чаше, возникает женственная фигура, в которой синтезируется тончайшая грань между реальностью и потенциалом. Она — не просто существо, а символ архетипа, в котором скрыта пыльца времени и звёздная пыль вдохновения. Её тело, как будто вытянуто из нити, прозрачной, как дыхание утреннего тумана, излучает мягкое сияние, словно звезда, впервые родившаяся в пустоте. Каждая линия её формы — как грамматика чувства, написанная в небе, где каждый контур — это шепот небесной музыки. Голова, как кристалл, в котором отражается весь мир, украшена темными волосами, которые кажутся нитью, вытянутой из небесного шёпота, каждая из которых — как звук, который невозможно услышать, но ощущается в сердце. Вместо > фигура худой темноволосой девушки стоит на белом фоне И помимо подробного нужны также варианты короткого и среднего, которые могут быть выбраны для тренировки с некоторой вероятностью. >>1484038 > которые впритык тупо шлют меня нахуй Выкинь часть слоев на профессор изначально, будет работать быстрее чем выгрузка драйвером. > винда не слои, а кэш кидает в ОЗУ Винда ничего не кидает, там драйвер по какому-то своему алгоритму оформляет свап врам в рам, это приводит к тормозам.
>>1483983 Не обязательно стол вырубать. На Шиндовс графическая оболочка больше Врама жрет, около 2 Гб. На Линуксе можно добиться значений 500-800 Мб с легковесными оболочками. А можно и стол вырубить. Не знаю, может на Свинде тоже можно. Ну и для АМД Линукс луше потому, что там ROCm работает получше.
>>1483990 Да, Винда тебя избавляет от проблем расчетов памяти и спасает от падения в случае ее переполнения. С Линуксом надо точнее самому считать, но по итогу производительность лучше, как ты и сам написал.
>>1484059 >С определенного момента очень. А нафига? Я просто не очень много нейронки тренировал, и как по мне, запутывание сети идея плохая. >Лучше когда для действительно детальной картинки есть очень подробное описание с настоящим содержимым. А, согласен. Просто не так тебя понял вначале. Я думал ты про размеры сеток и картинок. >И помимо подробного нужны также варианты короткого и среднего, которые могут быть выбраны для тренировки с некоторой вероятностью. Как по мне, лучше сразу. Или как-нибудь комбинировать, ХЗ. Думать надо. А сейчас компании такие со словами "некогда думать, тут тренировать нужно!" кидают в нейросети тонны пизженного контента сомнительного качества. >>1484062 О, так ещё понятнее (хотя получился противоположный вывод, лол). Полностью согласен. >>1484100 >около 2 Гб Лол, нет. 300 мегабайт после загрузки. Я под браузер гиг оставляю, проблем не видел.
>>1484111 > Как по мне, лучше сразу. Или как-нибудь комбинировать Ну как раз выбирая каждый раз случайную вариацию капшна для изображения (да и изображение можно немного модифицировать при необходимости, при генерации пикч не сильно актуально, но в моделях зрения их только так шатают). Тогда оно сможет работать и с длинными и с короткими промптами. Дроп тегов или частей промпта вместе с перемешиванием где применимо необходимо чтобы модель не запоминала определенные их последовательности как триггер и не накапливала лишних байасов. А то буквально без "волшебного сочетания" будет работать сильно хуже (что и происходит), игнорировать некоторые части и т.п. > получился противоположный вывод Там строка была, смахнул случайно перед отправкой. Подробным пикчам - подробные описания и наоборот. И подробность должна быть настоящей, а не искусственной как в том гипертрофированном примере нейропомоев, которые часто можно видеть в качестве "примера хорошего".
>>1484127 >Ну как раз выбирая каждый раз случайную вариацию капшна для изображения Как вариант. Но как будто бы нужно тренировать десяток раз для каждой пикчи. Как по мне, нужно разделить обучение рисованию и обучение текстовой части. Впрочем, я не силён в современных картиночных сетях. >но в моделях зрения их только так шатают Это да, видел, но там цель в том, чтобы модель распознавала любое говно. >Дроп тегов или частей промпта вместе с перемешиванием где применимо необходимо чтобы модель не запоминала определенные их последовательности как триггер А, помню пони 6 с её вызубренным score_9, score_8_up, score_7_up, лол.
>>1484139 > десяток раз для каждой пикчи Если датасет мал то там, как правило, несколько эпох. Если он оче большой - то что для каждой пикчи не будут показаны все варианты - не страшно. Более того, в таком случае можно изначально сэкономить на сложных капшнах, подготовив их не для всего датасета. > нужно разделить обучение рисованию и обучение текстовой части Они и так разделены. Текст токенизируется, формируется в эмбеддинги и проходит через блоки трансформера, все также как в ллм, только в энкодере может быть полное внимание и не используется голова/проектор. А визуальная часть уже под полученный тензор кондишна подстраивается. В целом, когда все уже натренировано и работает, можно тренировать визуальную и текстовую часть совместно, но с рядом оговорок, потому что там легко получить коллапс. > пони 6 с её вызубренным score_9, score_8_up, score_7_up Идеальный пример. И ведь даже там если бы автор не поленился настроить должную аугментацию, изначальная задумка про "70% и выше" могла бы сработать. Не в оригинальном смысле, где подразумевалась шиза про "части датасетов", но некоторые усредненные свойства бы вызывались.
>>1484111 Так ты с подкачкой из ОЗУ сидишь, потому тебе и под брузер норм. Не обязательно 2 Гб всегда, но облочка Винды в среднем жирнее, чем мелкооболочки Линукс. Да и жрет память Винда не только графоболочкой. Плюс, в Линукс есть секретная фишка с памятью. В целом, дело вкуса, Винда неплохо справляется, но можно лучше, если охота предолиться.
>>1484161 >Если он оче большой - то что для каждой пикчи не будут показаны все варианты - не страшно. Как по мне, проёб знаний. Ну и ты походу больше про файнтюн, а я про базу. >А визуальная часть уже под полученный тензор кондишна подстраивается. Я к тому, что картинку прогонять один раз, а кепшены во всех вариантах сразу. >>1484212 >Так ты с подкачкой из ОЗУ сидишь Нет, это гроб-гроб-кладбище, я бы заметил. Ну и по диспетчеру общая выделенная память меньше памяти ГПУ.
>>1484257 > проёб знаний > а я про базу В тех масштабах "потери" как таковыми потерями даже не являются на фоне прочей стохастики. Наоборот даже лучшего усвоения можно добиться. > картинку прогонять один раз, а кепшены во всех вариантах сразу Как ты себе это представляешь?
>>1484316 >Как ты себе это представляешь? А хуй его знает. Заморозка части градиентов? Тут думать надо. Или не надо, всё равно на одной 5090 базовую рисовалку не обучить.
>>1484325 > Заморозка части градиентов? Зачем? Всякими усреднениями занимается оптимайзер, и при должной настройке делает это успешно. > на одной 5090 базовую рисовалку не обучить Можно и на одной, просто будет долго https://huggingface.co/KBlueLeaf/HDM-xut-340M-anime качество в сделку не входило.
>>1484100 >Винда тебя избавляет от проблем расчетов памяти и спасает от падения в случае ее переполнения Ну я понял в целом да. Это наверное суперважно, когда у тебя война за каждый токен на гигансткой модели, а не когда как я микрописьки 12-14б крутишь
>>1484345 >Всякими усреднениями занимается оптимайзер Ну ХЗ, я бы не назвал промпт средней длины усреднением короткого и длинного промптов. >>1484375 >война за каждый токен >автовыгрузка в оперативку На ноль делишь.
>>1484589 Лисичка ничего, лол. Но действительно хуже, менее стабильно и функционально чем наи1 и первые вд (хотя там битва была равна). Скачай попробуй, штука занимательная потыкать.
>>1483448 >https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V2 >ггуфов пока нет, какой-то новый мистралетюн (заметил случайно, драммер лойс поставил) Как-будто пережарили, по первым впечатлениям, ощущается как 12b. Хотя я предыдущие версии не проверял, может они все с такой ебанцой. Если что брал пресет со страницы модели. Q5_K_M
>>1482449 отвечу сам себе. Ministral3,14b instruct. В трусы лезет. Насколько глубоко - проверять не хочется. Галлюцинирует, иногда забывает важные детали (возможно лечится промтом). Часто пишет чушь, путая одно с другим (возможно лечится подробными карточками). Русик есть, он не самый плохой, но лучше им напрямую не пользоваться, а транслейтить, хоть через тот же мэджик. Карточки кстати читает хорошо. В отличие от Nemo 12b, прочитав карточку, пользуется ей, а не подтирается. Хотя может быть, это и минус, потому что воспринимает карточку как инструкцию. Настройки сэмплеров от 12b не подходят, приходится микрить в поисках золотой середины между "скудно и однообразно" и "да что ты черт побери несешь". Было бы круто заиметь какой-нибудь начитанный тюн с хорошим словарным запасом. Вроде бы пишет хорошо, иногда прям отлично, но как-то скупо. После какого-нибудь начитанного мержа с Немо прям грустно.
>>1481744 Это только сфв? Какой пресет/семплеры. Поделись, пожалуйста. У меня путается в контексте и говорит от моего лица почти всегда. Хотя мистралю норм.
Интересны именно gguf/llama.cpp или в крайнем случае safetensors под mlx Такие ограничения потому что только 16ГБ унифицированной памяти из которых примерно 12GB доступно на всё вместе.
>>1484872 >умные и корректные Квен, гемма, но может что-то еще вышло и я пропустил >нецензурные мыстраль-12B >русскоязычные только гемма >русскоязычные нецензурные Такие есть, но они говно, уровень "я тебя ебу" с двумя-тремя прилагательными между >специальные, vlm, tts, stt, sd Не знаю, не пользовался
>>1484852 раскочегарил-таки менестреля. Работает вполне сносно, на удивление не глуп, если давать внятные инструкции. Склоняюсь к UD-версии, она кажется получше обычной. Жаль стоковый русик посредственный, а мэджик подтупливает иногда, хоть свой плагин пиши который будет адекватно транслейтить мой запрос для сетки, и сеточный ответ - для меня. Впрочем, это мелочи.
>>1484992 >Какие подводные? Подводные в чем? Будет ли оно работать? Будет. Но модель уже древняя, есть варианты куда лучше. Плюс выбор лаунчера сомнительный, но зависит от твоих задач - пока их не перечислишь, точнее никто не ответит.
Как же у меня жопа горит. Я старательно игнорирую персонажа, избегаю его, а ебаный попугай, пол года до аги, блять, не может сложить 2 и 2 и высрать драмму где это персонаж подходит и говорит хотя бы "Ой, ты меня избегаешь?", желательно не виляя бёдрами и шепча на ушко при этом. Неет, нужно чтобы я сам это написал, буквально дал команду сделать вот так
>>1485013 Ну как тебе сказать... Ты пытаешься играть в гта вайс сити, когда актуальная - пятёрка. Пропасть в графоне/физоне имаджинировал? Вот между древней моделью и новой - разница будет такой же.
Пиши характеристики своей пекарни и какие задачи - подберем годноту тебе.
>>1485027 >я решил даже не пытаться что-то актуальное ставить Нет никакой разницы в требованиях между моделями которые весят примерно одинаково. Тебе главное загрузить их в память, остальное уже тонкости. Если загрузишь - значит заработает. Для чего тебе вообще нужна модель? Так и не ответил.
>>1485029 >Для чего тебе вообще нужна модель В первую очередь иметь возможность спрашивать всякое, что онлайн сетки цензурят. Еще хотел бы попробовать поиграть в нейроквесты, но это не основное.
>>1485032 >спрашивать всякое, что онлайн сетки цензурят Конкретику давай. Корпоратки цензурят много чего, от порнухи до политики. Если порнуха не нужна, но нужна мощная для своего размера сеть - есть всякие геммы, квены и дистиллянты дипсика. Если хочешь дрочить на нейрослоп, то тюны ламы третей и мистрали немо твои друзья. Они тупые, особенно под точные задачи, но цензуры там нет. Даже на дефолтных инструкт-версиях ее почти незаметно.
>>1485027 Было бы 32гига рама - 30a3 лучшее из того что влезло и имело бы приемлемую скорость. Чекай https://rentry.co/z4nr8ztd из шапки потенциально влезут до 12б но будет небыстро, обычно у любой врам больше чем у тебя рам.
>>1485034 >порнуха не нужна Порнуха не нужна. >всякие геммы, квены и дистиллянты дипсика И что из этого лучшее? Спасибо. >ламы третей Так я ее же и скачал.
Качай в 4 кванте. Подойдет любой, начиная от Q4_K_M до Q4_K_XL. Запускай через https://github.com/LostRuins/koboldcpp - он актуален и очень дружелюбен к новичкам.
А вообще тебе бы чуть больше оперативки - со свистом залетел бы квен 30b-a3b, он был бы и умным и быстрым, но увы.
>>1485038 >И что из этого лучшее? Попробуй гемму, если не собираешься дрочить на буковы. Либо 12B либо 3n-E4B, она весит меньше, работать будет чуть быстрее, а по мозгам чуть хуже. >Так я ее же и скачал. Ты написал, что тебе не нужна порнуха. Эта модель и ее тюны исключительно под порнуху, потому что сейчас она уже не выдерживает конкуренции.
Им нужно что то придумывать уже, это не дело. Надо как в играх чтобы ты мог и на слабой карточке запустить, но на минималках, а чтобы вообще не мог это не дело
>>1485141 Да мне похуй, хоть завтра ллмки умрут, мне Эира хватит если не до конца жизни то очень надолго. Почти каждый день его уже почти 200 дней запускаю и не заебался. Как думаешь в чем секрет?
>>1485152 В копиуме? Пока все играются с новой моделькой, ты сидишь в углу и коупишь как же мне хорошо с самой первой, экспериментальной сырой младшей версией этой модельки. Я согласен что эир можно гонять долго... Например 186 дней? Мне кажется хватит, заебало, хочется обновы
>>1485146 >чтобы вообще не мог это не дело Ты удивишься, но ты можешь. Даже если у тебя нет карточки и не хватает оперативы - есть файл подкачки. Так что да, если у тебя пустой диск на террабайт, ты можешь запустить модель на террабайт. Какая скорость там будет? Ну это уже не важно. Запускается же? Запускается.
>>1485159 У меня их больше десяти на разные случаи жизни, на один только Эир. И 46 карточек, чаров, сценариев, симуляцией и много чего ещё. Таким как ты нихуя не поможет, вам даже дипсик в полных весах за пару месяцев надоест, пушто воображалка не работает и нужно развлечение по типу ящика Скиннера. И да, ясен хуй я ничем делиться не буду, опытом нюни учёный.
>>1485163 >В другом треде какие-то ебанутые сидят. Тут тоже ебанутые, только в другую сторону. D&D с ЛЛМками играть можно только сквозь пот, кровь и такие компромиссы, которые убивают идентичность настолок
>>1485165 >вам даже дипсик в полных весах за пару месяцев надоест, пушто воображалка не работает и нужно развлечение по типу ящика Скиннера База >ясен хуй я ничем делиться не буду База. Если делиться такие вот долбаебы и будут вылезать, которые ждут что за них все сделают
>>1485172 Умные учатся на опыте других, глупые наступают в мышеловку, изобретенную веками назад. Нюня базовичок, умные треда сего его поняли и отмалчиваются, а попрошайки неосиляторы вроде тебя так и ноют спустя недели после его отвала.
>>1485179 Они неспособны досконально следовать правилам D&D. ЛЛМ - это продолжалки текстов, статистические машины. В правилах любой редакции дынды настолько много нюансов, что, возможно, следовать им смогут только самые жирненькие модели и только при загруженном через RAG полном рулбуке, что сожрет немало контекста. На локалках я не уверен что вообще есть хоть один чел в треде, которому железо это позволит.
>>1485152 >мне Эира хватит если не до конца жизни то очень надолго >почти 200 дней запускаю и не заебался Позер-показушник, я уже второй год сижу на мелкой немотроновй мистрали и не заебался. Вероятнее всего отупел, проебал килошку собственных нейронов, но не заебался.
>>1485182 >И в чем тогда цель твоего поста? Выебнуться какой ты прошаренный? Ну во первых да, позлорадствовать над теми кто не хочет задействовать даже 1% своего мозга, чтобы им самим стало интересно пользоваться инструментами что им доступны. Во вторых указать им на их проблему, вдруг среди ста болванов найдется один способный к мышлению и что-то поймет.
>>1485146 Кому им? Кому нужно? Если тебе нужно - плати денежку за апи и "запускай" хоть на калькуляторе, сбор информации и eula в подарок. >>1485152 > в чем секрет Приспособился играть с этой моделью, обыгрывая сильные и обходя слабые стороны. Ну или играешь несложное что и просто так тянет. Моделька то не самая плохая, по первым ощущениям минимакс похуже будет. >>1485165 > 46 карточек, чаров, сценариев Поделись, не жадничай. Хочется каких-нибудь адвенчуров и депрессивных сеттингов. во налетели то коршуны, не удивлюсь если 1.5 семена > ясен хуй я ничем делиться не буду А, ну хер тебе в рыло сраный урод тогда.
>>1485192 >Приспособился играть с этой моделью, обыгрывая сильные и обходя слабые стороны. Вот ты понял, ты молодец. >Поделись, не жадничай. >А, ну хер тебе в рыло сраный урод тогда. Не обижайся. Ты понимаешь суть и рано или поздно когда будет вдохновение, сам себе напишешь хорошую карточку и все у тебя будет замечательно. Делиться не буду из принципа из-за уебанов попрошаек шитпостеров, которых давно надо бойкотировать всем тредом.
>>1485192 > Приспособился играть с этой моделью, обыгрывая сильные и обходя слабые стороны. Ну или играешь несложное что и просто так тянет. Моделька то не самая плохая, по первым ощущениям минимакс похуже будет. > > ясен хуй я ничем делиться не буду > А, ну хер тебе в рыло сраный урод тогда. Твоя очередь, кидай пресет
Посоны, хочу поэкспериментировать с вайбкодингом. Хочется чтобы моделька умела в инструменты - написал промт и пусть она там сама, условно, неделю чего-нибудь делает: пишет код, тесты, запускает их, исправляет, дропает продовую бд. Есть ли возможность запустить какую-нибудь модельку на 16 гигах оперативы без видяхи, проц AMD Ryzen 7 5800U.
>>1485195 > сам себе напишешь Не, слишком лень, это прям особый вид вдохновения нужен. Более вероятность что запилю агентную систему, которая по опросу сочинит карточку. Или скорее полазию на уборщике/чубе по любимым тегам и перепишу что покажется уместным, или as is. > Делиться не буду из принципа из-за уебанов попрошаек шитпостеров Карточками? Сейчас бы заставлять каким-то поехавшим влиять на тебя, вместо глумления уже с них или какой-нибудь конфронтации, такое. >>1485200 ChatML, Names: Never, Roleplay-simple.
>>1485190 >во первых... >во вторых... Ну или ты просто чушка, которая себе оправдания на ходу придумывает. Пришел, попиздел снисходительно, и ушел обратно, ждать момента когда можно будет снова повыебываться. Уверен, ты никаких полотен с арксива и прочих помоек не читал, а смотрел уже на готовые пресеты и инструкции, переписывая их под себя. Но мозгов у тебя всё равно не хватает понять, что если бы у всех было такое отношение, ты бы щас дрочил в кулачок на дефолтных шалаф с онлика, а не нейронки гонял.
>>1485206 > ты - и есть рак этого треда > Кто не приносит ничего полезного, не развивает интересных дискуссий А что, ты играешь в неймфажество и записываешь меня в кого-то? Я в свое время много чего приносил в тред, несколькими месяцами ранее. Потом понял что это никому нахуй не надо, умные люди и так разберутся а обрыганы будут обрыганами и дальше. >>1485207 > Ну или ты просто чушка Ору как трясет итт макак когда им нос утирают в их собственной беспомощности и нежелании хоть что-нибудь делать самому, а не ждать пока корм из кормушки на голову свалится. Усмевался над вами, усмехаюсь и буду дальше усмехаться.
>>1485209 Из стандартных в таверне, я за минимализм, разве что написать что все допустимо и добавить разметку маркдауном для разделения сценария, карточки, персоналити, истории и отдельно суммарайза. И все равно на эйре не рпшу.
>>1485214 >Ору как трясет итт макак когда им нос утирают в их собственной беспомощности Не записывай других в трясунчики, трясунчик. Мне похуй на твои пресеты, просто ты чухан и пройти мимо тебя это оскорбление самого господа. >нежелании хоть что-нибудь делать самому Ты дохуя что-ли сам че-то сделал, лол? Пресетик написал? Маме похвастался уже, что заставил модельку про писик и сисик писать?
>>1485214 >Я в свое время много чего приносил в тред Я тоже, и большинству это было действительно не нужно. А кому нужно - взяли на заметку и пользуются. И я тоже пользуюсь некоторыми наработками других анонов.
Ты тут ПРИЗНАНИЯ своих заслуг ждешь? Чтоб тебе диферамбы пели? Повзрослей, пожалуйста, пчел.
>>1485219 >Как ты это понял? Легко и просто. Реально интересные пасты и шеры в треде редко генерируют здоровую дискуссию, в основном если это и происходит то по железкам, скоростям и инференсу, пожалуй это единственное продуктивное что в треде живет по сей день. В основном чем ни делятся все сводится к генерацию срачей и метанию горящего говна друг в друга, вот можешь посмотреть на товарища ниже >>1485220 с его > Ты дохуя что-ли сам че-то сделал, лол? Пресетик написал? Маме похвастался уже, что заставил модельку про писик и сисик писать? Вот такого в треде навалом, таким срать проще простого. Ну и всю ветку можно чекнуть, всего лишь предложение поиграться с промтом и реально раскрыть доступную им модель заагрило макак и они пошли в бой.
Единственная здравая причина гейткипить что-либо - это личная выгода, например от этого зависит твой заработок. Всё остальное - ресентимент, обида, злость, чувство величия, называйте как хотите, и спорить тут не о чем
>>1485165 Очень показательно как срезонировал твой пост и сгенерил срач. Колко, едко, но все по факту. От того и затряслись жопы, что все они подсознательно понимают. Пока одни сидят, ждут своего Моисея, другие кайфуют от крутых моделей, потому что готовы немного работать на свою радость, а не ждать решения.
>>1485251 Я мимо, но съебу, ты только не трясись. К следующему перекату подготовь список тем и способов их изложения, одобренный вахтой, чтобы такого не возникало впредь. >>1485253 Temp 1 - дефолт для креативных моделей, topk 0 и topp 1 не работают при таких значениях.
>>1485259 Нужны для семплера dry, не используются, если не используется он. Это набор исключений, чтобы по ним (например по разметке) не работал семплер.
>>1485190 >вдруг среди ста болванов найдется один способный к мышлению и что-то поймет Я понял, что ты долбоёб, а твои посты нужно сносить за неимением в них полезной информации. >>1485195 >шитпостеров Но ведь это буквально ты. >>1485225 >в основном если это и происходит то по железкам, скоростям и инференсу Потому что это объективные показатели. Поэтому и можно дискутировать с пруфами. А вывод моделей обсуждать смысла нет, для каждого он индивидуален. >>1485239 Карточки некоторых персонажей нарушают пару законов РФ, поэтому на мылач их выкладывать не стоит.
>>1485250 >потому что готовы немного работать на свою радость, а не ждать решения Тут все, кроме совсем зеленых, пишут карты, инструкции и пресеты целиком под себя. Нет никакой отдельной прослойки вахтеров, которые мониторят треды 24 на 7 в поисках заветного файлика. Она существует только в голове шизов, которые пытаются найти хотя бы какой-то повод чтобы повыебываться, типа "смотрите, а я вот сам написал, правда-правда" словно перед матерью хвастаясь, что впервые посрали ровно в горшок, а не мимо на половицу.
Банально есть аноны которые мигрируют с одной модели на другую и просят показать примеры промтов или настроек, чтобы снова не ебаться несколько дней, подбирая более-менее оптимальные. Но в головах шизиков они да, не хотят "работать на свою радость"
>>1485254 >Temp 1 - дефолт для креативных моделей Нет, не дефолт. Есть куча моделей, которые уже начинают дуреть при таких настройках и это касается не только васянских тюнов.
Ребята, а сильно квантование контекста в q8 влияет на РП? Вот допустим возьмем Мистраль 24б Q4 без квантования контекста и Q5 с квантованием, объем контекста при этом одинаковый (пускай 40 или 57к). Будет ли разница хоть какая-то заметная по интеллекту и удержанию контекста моделью?
>>1485268 >сильно квантование контекста в q8 влияет на РП Выше шанс что модель проебет или перепутает то что происходило ранее. >пускай 40 или 57к Для мистралей это вообще пиздец, они столько контекста не держат. Там и без квантования уже каша начинается.
>>1485277 >Всегда было так, что 1 - стандартное значение Где всегда так было? В твоей голове? Кроме квена еще есть мистрали, гемма, даже лама. Они креативно пишут при значениях и меньше единицы, снижая к тому же и шанс галлюцинаций.
>>1485275 >>1485276 Вот что интересно: сама модель, квантованная в q8 - считается здесь чуть ли не эталоном качества (при том что большинство сидят на q4-q6). Но когда речь заходит о контексте - так сразу ФУ. По этой логике контекст в q8 должен быть неотличим от неквантованного.
>>1485283 Вот такие люди еще и советы раздают, лол. Сами какую-то хуйню выдумали, поверили в нее, а потом пошли по треду разносить.
>>1485285 >когда речь заходит о контексте - так сразу ФУ Потому что уже методом тыка давно выяснили, что квантование контекста до 8 бит ломает вывод кратно сильнее, чем квантование самой модели до той же точности.
>>1485267 Это тоже запрещено. И наоборот, одеть бабушку в школьную форму- это тоже ЦП. Так что зажимают со всех сторон. >>1485277 >1 - стандартное значение Для креатива. В программировании это 0,3. >>1485285 Потому что модель квантуют с матрицами влажности и прочей хуетой, а контекст втупую обрезают биты.
>>1485301 Да, кто-то запускал оригинальные веса. Ты тоже можешь попробовать. Взять какую-нибудь небольшую гемму, запустить в оригинальных весах, потом в обрезанных, а потом сравнить качество ответов. Ну а потом заквантовать контекст и сравнить уже его. Уверен, ты именно это и сделаешь и докажешь нам, что мы не правы.
>>1485277 >Всегда было так, что 1 - стандартное значение Стандартное (а точнее рекомендованное разработчиком) значение в 1 - это только для Геммы. Для Квена, например, рекомендуется 0,7, а для Мистраля - вообще 0.15.
Если модель МОЖЕТ писать с температурой 1, это ещё не значит что такое значение ОПТИМАЛЬНОЕ или СТАНДАРТНОЕ.
>>1485309 Абсолютный минимум - это Q4 или 4.5bpw, все что ниже - очень сильно проседает, гораздо больше чем с 8bpw до 4.5. Лучше Q6 или 6bpw, дальше избыточно, ток если железо позволяет, но зачем
>>1485316 Коупинг того, кто даже в 2 кванте запустить не может. Как тот кто пересел с 2 кванта квена на 4 после апргрейда могу с уверенностью сказать - умнее оно конечно стало, но апгрейда не стоило. Апгрейда стоила возможность запускать глм в 2 кванте.