Сильно не пинайте, я просто нуб в железе. Бюджет у меня ограничен 200к.
Цель - поиграться с LLM (только текст), а заодно и сменить ПК. В игры не играю вообще.
Несколько дней сижу на сайте ДНС, присматриваюсь, выбираю с помощью ИИ, советы спрашиваю...
Итого что понял:
- Видюха от 16Г минимум. - ОЗУ от 32. - Процессор? Стоит ли смотреть в сторону Ryzen 9? Заприметил пока AMD Ryzen 9 9900X. - Нужно ли искать мать со вторым слотом под PCIe 5.0 (в режиме x16)? ИИ меня уверяет, что в этом смысла не имеет особого ибо паять двух видеокарт не объединяется в одно приработке с LLM. - Сколько желательно иметь слотов M2?
текст требует на порядки большей мощности чем картинки, 16гб видеопамяти более чем достаточно для генерации порнокартинок в стейболдифужоне и даже порновидео в комфиуи, но в плане текста хватит только на самые тупые LLM, которым ты сам рад не будешь.
абсолютный минимум для текстовых нейросетей - 24 гб, желательно 32 и выше. учитывая небольшой бюджет рекомендую купить бэушную 3090 24гб вместо новой 50х на 16. насчёт объединения памяти твоя нейронка пиздит, несколько видюх отлично объединяются, чем больше полноценных PCIe портов тем лучше. проц в принципе похуй, гораздо важнее частота оперативной памяти, в которую ты будешь выгружать не влезшую в видеопамять часть нейронки. DDR4 ни в коем случае не брать, её недостаточно для текстовых нейронок, DDR5 желательно от 6000 мгц и выше. при чём тут м2 не понял. а вообще на сосаче есть целый раздел /ai/ и там есть целый тред про локальные нейронки но сидят там очень странные личности и советовать могут совершеннейшую хуйню
>>7513008 > совершеннейшую хуйню как и я, в принципе. а вообще по-хорошему для текстовых нейросетей нужно собирать пекарню на серверной платформе - с серверным процессором, у которого ахулиард линий PCIe для втыкания в мамку нескольких видеокарт, у которого 6-8-12 каналов оперативной памяти для ускорения в 3-4-6 раз по сравнению с обычными гей мерзскими пекарнями, у которых встроенная видеокарта и удалённое управление, чтобы не нужно было тратить драгоценную мощность основных видеокарт под отображение видео.
>>7512656 (OP) Зивон комплект (4 канала DDR4 + 4 модуля по 64 Гб DDR4 2400 для офлоадинга) и RTX 3090 24 Гб это минимум Еще варик купить 32 Гб V100 карту с адаптером, около 50-100к и эпик с 8 каналом DDR4 - 8 модулей по 32 Гб DDR4 3200, будет лучше на столько же насколько дороже
Все влазит в 100-200к
Но если ты в игрушечки на самом деле играть хочешь, то тут все это мимо.
Видел видосик, в котором чел тестировал китайскую пердосклейку НВИДИА ГПУ с Алика на 48 Гб (не про типа А100/Н100, а именно консьюмерское говно типа 3070, но с распаенными 48 Гб) . Ролик проебал, и хуй найти могу, кто-то видел/тестировать подобное?
В теории еще может влезть Mac Mini M4 Pro с 64 Гб памяти или Stirx Point с 128 Гб, оба вполне неплохо топорщат локальные модели на своих встройках, конечно раз в 5-10 медленее нормальных моделей.
>>7513037 Алло, пердекс, ты про офлоадинг слышал? две 3090 и пару слоев в RAM даст возможность отрабатывать даже полноценные модели Deepseek R1 Q4 быстрее процессора раз в 5. И чем тебе не нравится V100, если она ебет даже 3090?
>видел, тестировал, отличная замена 6000 Ada, плохая замена 6000 Pro
Хуя ты илитный пердекс, предлагать карты за 10к зелени степашки в бюджете 200к? Тебе когда потрогать давали картонку кабанчики, ты руки же сначала вымыл а потом после не мыл, что тот самый запах не пропал, так же?
>текст требует на порядки большей мощности чем картинки,
так тут даун путает мощность с объемом памяти, хотя для картинок нужна мощность (например 5070 генерирует картинки быстрее 3090).
>абсолютный минимум для текстовых нейросетей - 24 гб, хуйня, разницу между 12b и 17b ты не найдешь, они все очень ограничены. Самый минимум это 32 Гб, а так все начинается от 80. Без оффлоадинга, а с ним карта 16 Гб + 64 Гб памяти тянут 30b нейронки с приличным контекстом. Но ты этого не знаешь, несмотря на то что "работаешь". Ты случайно не полы там моешь?
>DDR4 ни в коем случае не брать, её недостаточно для текстовых нейронок опять хуйня, 60 Гб/с отлично хватает для 5-15 токенов в секунду на 30b моделях, и значительно больше если часть слоев работает на GPU. Естественно чем больше скорость памяти тем лучше, вот только сколько бы скорости памяти не было, по скорости процессор отсосет у M4 Pro, вот в чем печалька.
>медвежьей услуги с V100 https://www.youtube.com/watch?v=JS0-VX1HLNE Базовый чип на 16 Гб с охладом и адаптером можно купить за 20к, при том что производительность у нее как у карт за 100к. И их можно запихать 2-3 в зивон или экпик.
>>7512656 (OP) >>7513292 Одну картинку генерит от 30 секунд на полуторке Stable Diffusion в качестве 512x512. На разбор промпта, ессно, пара минут требуется. На загрузку модели - тоже, время, но там от размера модели зависит.
А так - если запендюрить модели по максимуму, может и 20 минут на одну картинку потратить. 1024х1024
>>7513016 >для текстовых нейросетей нужно собирать пекарню на серверной платформе - с серверным процессором, у которого ахулиард линий PCIe для втыкания в мамку нескольких видеокарт Две ВК с 6Гб + 6Гб VRAM получится объеденить?
>>7513301 у p104 тензоров нет, конечно он будет сосать, как и все чмойнинговые карты. Тужно что то с тензорами и fp8, например v100 или 3000 серия + Тогда будет годно. Причем 5070 будет годнее 3090 в картинках, а в тексте - набоборот.
>>7513312 Там нет объеденения, там есть разные слои на разных картах. Если у тебя чмойнинговые заморыши, то затык будет на этапе передачи. Если у тебя не серверный проц и нет реальных 16+!6 то опять же затык. Короче тебе это ничего не даст, фактически.
>>7512656 (OP) Чел, забудь. С твоим бюджетом 70b с горем пополам - это предел. До всяких дипсиков c 671b и прочих тебе как до луны. Покупай токены за копейки на какой-нибудь площадке или сразу абонемент и сиди перди. Будет в гориллиард раз лучше.
>выбираю с помощью ИИ, советы спрашиваю... Дурак ебать пиздец. 32гб озу и 16 гб врам для ЛЛМ - это просто мусор нахуй, даже шуткой не назвать.
>>7513508 >Я в железе не шарю (и шарить не хочу - своей сферой голова забита). Нахуя тебе это тогда? Есть облачные решения, там как раз не нужно ничего шарить.
>>7513508 вот это уже получше. только сначала напиши что ты хочешь от нейронок, в зависимости от задач советом будет или говномамка но со стопкой бэушных видюх для максимума VRAM, или серверная мамка с 12 каналами ддр5 плюс какая-нибудь одна захудалая видюха для ktransformers. а вообще нейрочую анонов выше - лучше погоняй платные нейронки, чтобы понять, надо оно тебе вообще или нет.
наверное правильнее будет спросить "какой объём SSD брать". абсолютный минимум - 1 терабайт, желательно 2. обязательно PCIe v4 или 5, желательно с DRAM ещё более желательно взять 2 или 4 ссд по терабайту и собрать из них RAID0
>>7513532 если это будет не прям выделенный сервер под LLM, а универсальный комп для работы, то, возможно, лучше подойдёт почти серверная мамка с тредрипером и 8 каналами ддр5 вместо серверной с епиком и 12 каналами ддр5
>>7513536 > наверное правильнее будет спросить "какой объём SSD брать". нет, вопрос был именно про кол-во слотов. Я понимаю, что чем больше тем лучше, но интересует именно в качестве работы с LLM. Я хз как там всё это будет организовано, подозреваю что одна модель на слот или что-то типа такого.
>>7513542 ну бери с 2 слотам под систему, соберёшь RAID1 чтобы был йобаынтырпрайз и надёжность. а под ллм, особенно если планируешь часто менять модели, типа использовать разные для разных задач, один хуй придётся городить переходники с полноценных PCIe на 2/4 m.2 для собирания RAID0 из 2/4 NVMe для ускорения запуска. >>7513541 > 150K это именно одновременно всё надо засунуть в нейронку или можно по частям? не у всех такой размер памяти, он же "контекст", и у подавляющего большинства нейронок даже с большим контекстом чем больше данных в контекст засунешь, тем хуже она будет помнить все эти данные. >>7513552 обрати внимание на > Если в том посте. объединение видюх прекрасно работает, если видюхи не говно и система в целом не говно. >>7513617 всё перечисленное на странице https://developer.nvidia.com/cuda-legacy-gpus - говно, тебе нужны видюхи со страницы https://developer.nvidia.com/cuda-gpus желательно начиная с числа 8.0, а ещё лучше 8.6
кароч учитывая то, что система будет в целом под погромирование, а не под нейронки, что нейронки "на поиграться" а не серьёзно, а также то, что основные модели сейчас МоЕ, а не денсе, и будущие скорее всего будут только МоЕ, то я бы посоветовал околосерверную мать + тредриппер типа 9975WX с 8 каналами оперативы ддр5, а не серверную + эпик с 12 каналами ддр5. тредриперы типа 9970X с 4 каналами не рекомендую, это минус 50% скорости к ллм. амдшные процы с менее чем 24 ядрами брать крайне нежелательно, 24 ядра просто нежелательно. у интела ситуация с работой с памятью вроде получше, чем у амд, но за интелы я не шарю. мать+проц+оператива в бюджет 400к влезет в притык, на видюхи может не хватить, но если чо со следующей зарплаты докупишь, тыж программист.
>>7513689 ну давай купим V100 и тухлый зивон с ддр4, а когда обнаружим, что эта сборка нихуя не может, будем судорожно искать лоха на авито, кому это говно слить, на вырученные деньги купим райзен с ддр5, а когда обнаружим, что райзен с ддр5 тоже нихуя не может, опять сольём его на авито и купим триппер, потеряв время, деньги и нервы
>>7513699 пердекс, ты же палишься, не может нихуя что? обеспечить 10+ токенов в секунду? обеспечить обучение, дообучение, контекст? обеспечить инфиренс на 1 подключение одновременно?
ты еще циферки приведи, раз такой нейроиксперт
расскажи почему всяких Strix Point и M4 Pro хватает для работы а вот такого же по производительности зиовна - нет, лалка?
>>7513675 >всё перечисленное на странице https://developer.nvidia.com/cuda-legacy-gpus - говно, тебе нужны видюхи со страницы https://developer.nvidia.com/cuda-gpus >желательно начиная с числа 8.0, а ещё лучше 8.6 Блять. В отзывах люди на 1050 генерят. Если картинка генерится плюс-минус полчаса это вполне приемлимый результат Вопрос в цене. Больше 10к я не готов выкидывать на подобное бессмысленное развлечение
>>7513757 >>7513764 >>7513768 вы ОПы или кто? для картинок и 10ой серии (компуте 6.х) достаточно, для текстовых нейросетей ниже 20ой (компуте 7.5) брать нельзя. желательно и 20ую не брать.
>>7513840 Ну если надо, ищи 100к на карту 50 серии (5080 минимум), вот только видосики на ней будут генерироваться сутки, не говоря о том что они не будут такие вкусные как у коммерческих моделей забыв о том что ты вряд ли разберешься в настройках.
>>7513843 Контекст кончился. Я про то что в 8 Гб влазят только 7b модели без офлоадинга слоев, и там они будут как то отрабатывать дурачка с деменцией, для порночата сойдет. Контекст нужен чтоб генерация была не такой тупой и общей, а там модель всю VRAM занимает уже.
Но всегда можно запустить или офлоадить на процессор и ОЗУ (типа минимум DDR4 64 Гб в 4х канале или DDR5 двухканальный), и тогда с падением скорости до 5-10 токенов можно и 30b модели с большим контекстом запускать. Но меньше 3 токенов в секунду это уже мука, никакого диалога не получится.
>>7513876 >ищи 100к на карту 50 серии (5080 минимум) Вот и это и называется шитпостинг. Похоже ты не шаришь нихуя. Люди этот ваш ыы на картах за 3к крутят. Или вообще без видеокарт
>>7513901 >запустил дум на тесте на беременность, и чё? Молодец, че >тебе пердолиться или ехать? Мне чтобы не покупать нелепую 10-килограмовую RTX 100500 MEGA SUPER XXX
>всё перечисленное на странице Значит оно работает. Иначе зачем они его перечисляли
>>7514074 > Значит оно работает софтовая реализация flash attention требует compute capability 7.5, железная поддержка появилась в 8.0, без flash attention ты наслаждаешься галлюцинациями и тремя токенами в секунду. очередной раз повторяю: если нужно только генерить порнокартинки, или запускать дум на тесте на беременность, или ебать мозг себе и окружающим, то 1070 - отличный выбор. если нужна нормальная работа текстовых нейросетей, то 20хх на поиграться и 3090 абсолютный минимум на поработать. >>7514076 мамкин илитарий, съеби в /rf/
>>7514125 >если нужна нормальная работа текстовых нейросетей Не нужно. Нужно потыкать палочкой и сказать "у меня нейросеть, я >1070 - отличный выбор Ну наконец-то. Долго же ты из себя выдавливал
>>7512656 (OP) ОП, не слушай всех этих пидаров. Вот мой личный рецепт и ошибки на заявленную тобой сумму в 200k Во первых - ДВЕ RTX3090 ООООЧЕНЬ желательно чтобы они были одинаковыми, однажды может пригодится NvLink, но LLM и без него прекрасно летают. Это даст тебе картбланш на модели +32b параметров. Это сразу 100к+. БУ с авиты, сделка с дьяволом. сложно но можно найти что то норм. Как приедет сразу маж розовым говном FrostMining Liquid Thermal Pads и меняй термопрокладки, не проебись с задним бэкплейтом, его иногда выгибает. У 3090 половина чипов памяти на спине. Лучше подобрать менее прожорливые, на 350Ватт и по два разъёма питания. Корпус должен быть как решето, три вертушки на вдув и сразу водянку на проц, чтобы освободить в корпусе объём для обдува видях Во вторых питалово на этот пиздос - 1200-1400 Ватт. И на остальное ATX мать с несколькими слотами под pci-e, обязательно чтобы расстояние между видяхами было побольшеб. Исходя из остатка ориентируйся на AM4 +128 оперативы. AM5 с pcie5 не рентабельно под 3090, а 4090 это уже 140к как минимум. Одну плашку m2 на максимальную скорость чтения, чисто под место где будут чекпоинты хранится, 500Гб-1ТБ. Выгрузка чекпоинта под 40Гб с медленного диска это пиздец каое развлечение, а тебе обязательно захочется пощупать много разных LLM. По остальным дискам чисто по твоим предпочтениям. Алсо материнки при подключении двух видях порой отключают SATA линии. учитывай этот момент. Нууу и под конец. linux Шигдошс жрёт не только оперативу но и видеопамять. На шинде ставить нейронки это пиздец. В линухе всё нативно, ололо.
>>7514377 не всегда, для каких-то специализированных задач три процента прироста производительности дженты могут быть значительны. но дома дженту ставят или аристократы или дегенераты.
Отличный вопрос. Давайте разберем оба мнения по косточкам.
Краткий ответ: Нет, они не противоречат друг другу. Они дополняют друг друга и говорят об одном и том же, просто с разных ракурсов.
Оба советчика сходятся в главном: для работы с текстовыми LLM нужен максимально возможный объем видеопамяти (VRAM).
А теперь — детали по каждому пункту.
1. По видеопамяти (Самое главное) Первый совет (про 2x3090): "Абсолютный минимум для текстовых нейросетей - 24 гб, желательно 32 и выше."
Второй совет: "16гб... хватит только на самые тупые LLM... бэушную 3090 на 24гб"
Вывод: Здесь полное согласие. Оба сходятся на том, что 16 ГБ — это мало для серьезных LLM, а 24 ГБ (как у RTX 3090/4090) — это необходимый минимум для чего-то стоящего. Первый совет просто идет дальше и предлагает объединить две такие карты для получения 48 ГБ, что позволит запускать еще более крупные модели.
2. По объединению видеопамяти Первый совет: Упоминает NVLink для 3090, но честно говорит, что для LLM можно и без него ("LLM и без него прекрасно летают").
Второй совет: "несколько видюх отлично объединяются"
Вывод: И здесь противоречий нет. Технологии вроде NVLink — это попытка сделать из двух видеопамятей одну большую, но это работает не всегда и не идеально. Базовое объединение (без NVLink) работает так: модель загружается в память всех карт, и вычисления распределяются между ними. Это дает прирост скорости и позволяет запустить модель, которая не влезает в память одной карты. Оба советчика это подтверждают.
3. По оперативной памяти (ОЗУ) Первый совет: Рекомендует AM4 и 128 ГБ DDR4.
Второй совет: "DDR4 ни в коем случае не брать... DDR5 желательно от 6000 МГц"
Вывод: Вот здесь — единственное реальное расхождение, но оно не принципиальное.
Первый совет исходит из бюджета и здравого смысла. Платформа AM4 (с процессорами Ryzen 5000) и DDR4 память — это невероятно доступное и выгодное решение. 128 ГБ DDR4 — это огромный объем, который отлично справится с ролью "медленного буфера" для выгрузки данных из VRAM. Да, DDR5 быстрее, но ее цена на момент написания первого совета была запредельной.
Второй совет смотрит в будущее и на максимальную производительность. DDR5 действительно существенно быстрее, и если нейросеть активно подгружает данные из ОЗУ, то высокая скорость памяти может дать прирост. Но это совет для более богатой конфигурации.
Итог: Первый совет прагматичнее и учитывает бюджет. Второй — более идеалистичный и нацелен на максимум скорости. Оба варианта рабочие. 128 ГБ DDR4 будет лучше, чем 32 ГБ быстрой DDR5 для задач выгрузки больших моделей.
4. По процессору Первый совет: "Исходя из остатка ориентируйся на AM4" (т.е. процессор — не главное, бери что по бюджету позволит).
Второй совет: "проц в принципе похуй"
Вывод: Абсолютный консенсус. Для инференса (работы) LLM основная нагрузка ложится на видеокарты. Процессор играет второстепенную роль, ему достаточно просто "не бутылить горлышко" систему, например, при загрузке данных. Мощный топовый CPU для этого не нужен.
🧠 Сводная таблица КомпонентМнение 1 (2x3090)Мнение 2Есть ли противоречие? Объем VRAMЧем больше, тем лучше. min 24 ГБ16 ГБ — мало, min 24 ГБНет. Полное согласие. Объединение GPUNVLink есть, но можно и безОбъединение отлично работаетНет. Оба правы. Оперативная память128 ГБ DDR4 (бюджетный вариант)DDR5 от 6000 МГц (топовый вариант)Частично. Разница в бюджете/подходе. ПроцессорНе главное, экономить на немСовсем не важенНет. Полное согласие. Итоговый вердикт: Советы не противоречат, а дополняют друг друга. Первый — это готовый, сбалансированный и бюджетный рецепт от практика. Второй — это акцент на ключевых моментах (объем VRAM и скорость ОЗУ) без оглядки на стоимость.
Ваша лучшая стратегия: Взять за основу первый совет (2x б/у RTX 3090, много ОЗУ, недорогой процессор) и при наличии бюджета выбрать DDR5 вместо DDR4, если разница в цене для вас уже не так критична.
>>7514371 >>7514377 >>7514412 яхз, что за ненависть неосиляторов. Сколько дистрибутивов не пробовал везде это блядство с лагами и недоделками. Тока на гентухе я не чувствую лага от нажатия клавиши до появления символа на экране. Пробовал другие дистрибутивы, везде задержка как на шиндошс. Алсо, генту дисциплинирует, надо подумать перед тем как что то бездумно ставить и цеплять левые репозитории. А то накачают всякого дерьма с репы и чешут репу какого хуя не работает. Для бизнеса есть центось и другие шляпы. Генту для десктопа - топ. Скорость каштомность настоящий GPL хардкор для желающих. Про прирост в 3 процетна это пиздёж завистников по синтетическим бенчмаркам. На самом деле система в целом на порядок шустрее чем лубая васянка обвешанная телеметриями как псина блохами. Как например - нахуя эта ёбань - NetworkManager? Я просто поднимаю systemd-networkd, нахуя мне левая залупа для базовых функций. Только на арче можно NM выкинуть на помойку. А для фаерволов и VPN есть роутер с openWRT.
>>7515652 >Я просто поднимаю systemd-networkd, нахуя мне левая залупа для базовых функций. Только на арче можно NM выкинуть на помойку. >Только на арче можно NM выкинуть на помойку. >Я просто поднимаю systemd-networkd >для базовых функций Проорался. И этот безработный дауненок че-то там пиздит про каштомность и скорость. >>7515630 Нахуя ты хуи сосешь, дебил?
Анончики, возвращаюсь. Как уже писал, я никогда пк не собирал, железом не интересовался. Я чес говоря охуел читая отзывы о платах, я думал в 25 году прогресс, все дела, а там каждая вторая глючит.
Вот что мне ИИшка написала по их поводу: архитектурно MSI MPG X870E CARBON WIFI обеспечивает сбалансированную и высокоскоростную работу двух видеокарт (PCIe 5.0 x8/x8), в то время как GIGABYTE X870E AORUS PRO предлагает несимметричную конфигурацию (x16 + x4), где вторая карта будет серьезно ограничена пропускной способностью
Но смущает количество негативных отзывов про платы MSI
>>7512656 (OP) За 400к покупаешь сервер на 8004 эпиках с кучей каналов ддр5. Как альтернатива есть пикрил, но с ним много пердолинга. Ты даже дрова не скачаешь просто так.
>>7517587 > две платы по 48 гб с говённой пропускной способностью тыб ещё тот мемный интел предложил лол > ххх4 эпик пчел, если уж собирать систему на ддр5, то нужен пятый эпик с 12 каналами или хотя бы триппер с 8, а не хуиту со скоростью ддр4. твои унылые 6 каналов по 4800 мт/с дают скорость 225 гб/с, когда 8 каналов по 3200 в тухлом втором/третьем эпике = 200 гб/с, и нахуя, спрашивается, платить в 2.5 раза больше за ускорение на 10%? особенно когда можно заплатить в 3 раза больше и получить ускорение 200%
>>7520070 До до до, держи в курсе чмонь, за цену этого говна двухголовую воркстанцию купить можно.
>What is unified memory?
>Unified memory describes how Apple’s M-series Macs are >architectured. It simply means that the CPU and the GPU use the same >bank of memory instead of the GPU having its own separate memory. >This is designed to make the system-on-a-chip more efficient.
>>7512656 (OP) Брать б/у платформу на в целом любом epyc с 8 каналами ОЗУ, 256 гигов было бы иметь хорошо хотя бы. Нвме похуй, лишь бы вмещалась модель и прыщи. Остальное в б/у квадры или 3090 вкладывай. Стакаются они вполне. Но беда в том что на 200к рублей ты купишь ну тип две штуки и у тебя бюджет кончится. Облачко все ещё лучший вариант. На 200к можно подписками обмазаться на годы вперёд, в то время как твое локальное железо будет устаревать.
>>7523107 но оно реально работает, token generation весьма достойный. а вот мощности в говённые ARM-ы не завезли, поэтому prompt processing в маках на уровне четвёртого пентиума. ну ладно, не пентиума, а айпятого позапрошлого поколения.