1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.
2. AICG тред перекатывается после достижения предела в 1500 постов.
3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.
4. Это раздел преимущественно технического направления. Для генерации откровенного NSFW-контента без технического контекста выделена отдельная доска - /nf/. Эротика остаётся в /ai/. Голые мужики - в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.
5. Публикация откровенного NSFW-контента в /ai/ допускается в рамках технических обсуждений, связанных с процессом генерации. Откровенный NSFW-контент, не сопровождающийся разбором моделей, методов или описанием процесса генерации, размещается в /nf/.
Экспериментальный.В перспективе будет реформирован в "Тред онлайн-видео генераций" Создан с разрешения завсегдатаев раздела >>1388146 →>>1388111 →
Как вкатиться? 1) Зайти на https://sora.com с ОБЯЗАТЕЛЬНО ТОЛЬКО IP США или Канады (!). 2) Зарегать аккаунт, если еще нет. Лучше использовать нормальную Gmail почту. 3) Ввести инвайт код. 4) Генерировать, скидывая годноту в тред.
Где взять инвайт код? Либо на сторонних площадках по типу @sora_invite_bot в тг, в коментах канала n2d2ai либо ждать подачки от добрых анонов. После ввода инвайт кода вам дадут от 0 до 6 новых для приглашения кого-то еще по цепочке.
Как обойти цензуру? 1) Пробовать менять фразы, имена и в целом промпт. Описывать персонажей без личных имен чтобы не триггерить копирайт. 2) Роллить. Иногда из двух одинаковых реквестов подряд один цензуруется, а другой нет.
Какой лимит? Одновременно на одном аккаунте можно генерировать до 3 видосов. В день не более 30 штук.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1388402 Все они могут, лоры на орал хуй спавнят сами и очень даже неплохо, разве что на и2в в 2д артах они всратовато выглядят, если хуй есть с нулевой результат конечно получше будет.
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1388103 Потому что таракан не умеет решать задачи, а умный дом умеет решать задачи. Ну ладно, тут утрирование с моей стороны. У таракана есть интеллект, но он примитивный. И это не имеет никакого отношения к сложности строения таракана, а лишь к его способности реагировать на различные ситуации. Пусть его действия в большей степени инстинктивны у него тоже есть задача - выживание, и он справляется с ней примитивным набором действий. Однако для природы это не эксклюзивно.
Вышла версия 1.5 Allegro, по функционалу то же, что и 1.5, только в два раза быстрее. Лимит 400 кредитов в месяц (или 200 генераций по 33 секунды каждая) при условии ежедневного захода на сайт - 100 кредитов даются в месяц, и еще 10 кредитов даются ежедневно. Также можно фармить кредиты, выполняя специальные задания по оцениванию качества рандомных треков, это дает не больше 10 дополнительных кредитов в день. Для большего числа кредитов и более продвинутых фич типа инпэйнтинга или генерации с загруженного аудио нужно платить. Появилась возможность генерировать треки по 2 минуты 11 секунд, не больше 3 длинных треков (по 2 версии на каждый трек) в день на бесплатном тарифе.
Новинка, по качеству звука на уровне Суно или чуть выше. Лучший по качеству генератор текстов на русском. Количество генераций в день не ограничено, но за некоторые функции нужно платить (загрузку аудио, стемов и т.д.)
Это буквально первый проект который может генерировать песни по заданному тексту локально. Оригинальная версия генерирует 30-секундный отрывок за 5 минут на 4090. На данный момент качество музыки низкое по сравнению с Суно. Версия из второй ссылки лучше оптимизирована под слабые видеокарты (в т.ч. 6-8 Гб VRAM, по словам автора). Инструкция на английском по ссылке.
Еще сайты по генерации ИИ-музыки, в них тоже низкое качество звука и понимание промпта по сравнению с Суно, либо какие-то другие недостатки типа слишком долгого ожидания генерации или скудного набора жанров, но может кому-то зайдет, поэтому без описания:
______________ Напомню мега-сайт для сочинения аутентичных англоязычных текстов для ИИ-музыки в стиле известных групп и артистов от Пинк Флойда до Эминема. Зайти можно только через Дискорд.
>>1387657 Да. И гуглил ambient music generation github. Ноль >>1387702 Проверить предположение, что задача настолько проста, что с ней справится классическая cnn
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на риге из под майнинга и игнорируем горький урок.
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: https://www.libgen.is
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
>>1376160 Тут вот какая проблема, ты одно уравнение линейной регрессии записал в общей форме в абзац текста, если я тебе начну в такой формат переводить свои реальные рабочие выкладки, то там будет по 60 листов. Математический язык очень лаконичный, а в код переписать всегда успеешь (большая часть математики до кода впринципе не доходит, тк ещё на этапе поверхностного моделирования становится понятно что происходит какая-то хуета).
Ну и плюс у математического языка есть хорошее свойство генерализировать разные штуки.
Короче распиши несложную сеть с 3 слоями, 20 инпутами, 2 аутпутами и софтмаксом на конце с прямым проходом и вычислением всех производных весов нейронов (только не одного нейрона, а общий случай на каждый слой) в виде алгоритма, и на математическом языке, во-первых будет просто полезно для понимания матчасти раз ты учишь эту тему, а во-вторых сам быстро поймёшь почему язык математики работает, а текст и блок-схемы не работают (да и код часто читать сложнее латекса).
>>1377202 >Никто не спорит, что нужно понимать теоретическую базу, которая часто абстрактная. Но в данном случае мы обсуждаем нейронки, в которых вещи совсем не абстрактные. Те же QKV в трансформерах - почему я должен наизусть запоминать, что Q = Query, K = Key, V = Value? Сэкономили буквально несколько букв лишь бы обмазаться этими "абстрактными" формулами. Ещё и в код свои сокращения постоянно тянут, как будто боятся лишний килобайт на исходный код потратить или случайно выйти за ширину строки в 20 символов...
Ты сейчас вскрыл интересную тему, что дураки это не совсем то что в социуме обычно понимается. Согласно кривой статистического распределения, есть по 5% людей которые умнее или тупее всех остальных. Речь не идет о буквальных умственных отсталых, которые не способны жить самостоятельно.
Как отличить 5% самых умных? Они на автомате объясняют вещи на пальцах, потому что живут в обществе, и выучили пробным путем что если они не будут расжевывать всем все то их никогда не поймут - потому что 95% по определению их тупее. Плюс, наиболее эффективный способ разобраться в теме это в голове ее разобрать, как если бы кому-то объяснял.
Соответственно, 5% самых тупеньких наоборот стараются изъясняться максимально запутанным образом - потому что если они не будут это делать, их сразу запишут в тупых, а им бы этого не хотелось. Поэтому там где можно сказать 5 слов, мудак использует 50, а в промежутках для еще мгнозначительно помычит для весу. Процессор умеет гонять более одного конвеера инструкций одновременно, как это назвать, многоконвеерность? Да ну нахуй, СУПЕРСКАЛЯРНОСТЬ. Ну да, формулы есть максимально эффективный способ передачи, при условии что тот кому ты их передаешь способен их расшифровать. Но не единственный, а если неспособен, то это максимально неэффективый, и тебе нужно переключаться на графики которые можно понять визуально или псевдокод. Но - идиот он и есть идиот. Еще для тупых характерен лютейший group think с закидыванием говном всех кто не придерживается общепринятого в их группе мнения.
И тут возникает момент - идиот же не может быть математиком! На самом деле еще как может, и даже скорее всего большинство математиков являются идиотами. Есть такая штука как парадокс моравека, математика это классический из его столпов. Есть еще такая штука как вундеркинды, про них наиболее часто знают в контексте шахмат и математики. И это сферы, в которых компы в первую очередь начали уделывать людей начисто. В то же время, про вундеркиндов от экономики и медицины ничего особо не слышно, потому что это не области где можно функионировать в изоляции как мозг в банке. У дурака по сравнению с обычным человеком "железо" в башке не способно потянуть полноценный чекпоинт, с социализацией, мудростью, интуицией и т.д. Зато гиперсфокусироваться на узкой области оно может, и учится быстрее нормального человека, потому что параметров у нейронки дурака намного меньше. Если дураку повезет, и этой областью становятся не дота или лор стартрека, как это обычно бывает, получается Эйнштейн. Это кстати хороший аргумент в пользу классического образования, с изучением в придачу к математике еще и всякой поэзии со спортом. Если бы оно было внедрено повсеместно мы бы смогли избежать заебавших всех ретардов типа Маска и Юваля Харари.
Ну и хорошие новости - технический прогресс неумолим. Раньше кодинг - это был процесс слинковывания инструкций процессора, на этом взлетали всякие крутые ретарды типа Кнута. Сейчас кодинг это копипейст кусков из чатжпт, и обратного процесса не будет, далее будут "языки программирования" в которых нужно будет рисовать коробочки со стрелками и внутри писать нейронке что эта коробочка должна делать. С математикой то же самое будет, это будет чисто внутренний формат данных для ризонинга нейронки.
>>1387967 >далее будут "языки программирования" в которых нужно будет рисовать коробочки со стрелками На это дрочили лет 20, воз и ныне там. Короче нет, не будет. Ну и остальные анал огии про тупых и количество нейронов у них не выдерживают никакой критики. Самые умные вообще решают задачи, на объяснение названий которых тебе уйдёт полчаса (притом что ты скорее всего не совсем тупой), и это нормально, так же, как и специализация на узкой сфере.
Общаемся с самым продвинутым ИИ самой продвинутой текстовой моделью из доступных. Горим с ограничений, лимитов и банов, генерим пикчи в стиле Studio Ghibli и Венеры Милосской и обоссываем пользователей других нейросетей по мере возможности.
Общение доступно на https://chatgpt.com/ , бесплатно без СМС и регистрации. Регистрация открывает функции создания изображений (может ограничиваться при высокой нагрузке), а подписка за $20 даёт доступ к новейшим моделям и продвинутым функциям. Бояре могут заплатить 200 баксов и получить персонального учёного (почти).
Гайд по регистрации из России (устарел, нуждается в перепроверке): 1. Установи VPN, например расширение FreeVPN под свой любимый браузер и включи его. 2. Возьми нормальную почту. Адреса со многих сервисов временной почты блокируются. Отбитые могут использовать почту в RU зоне, она прекрасно работает. 3. Зайди на https://chatgpt.com/ и начни регистрацию. Ссылку активации с почты запускай только со включенным VPN. 4. Если попросят указать номер мобильного, пиздуй на sms-activate.org или 5sim.biz (дешевле) и в строку выбора услуг вбей openai. Для разового получения смс для регистрации тебе хватит индийского или польского номера за 7 - 10 рублей. Пользоваться Индонезией и странами под санкциями не рекомендуется. 5. Начинай пользоваться ChatGPT. 6. ??? 7. PROFIT!
VPN не отключаем, все заходы осуществляем с ним. Соответствие страны VPN, почты и номера не обязательно, но желательно для тех, кому доступ критически нужен, например для работы.
Для ленивых есть боты в телеге, 3 сорта: 0. Боты без истории сообщений. Каждое сообщение отправляется изолировано, диалог с ИИ невозможен, проёбывается 95% возможностей ИИ 1. Общая история на всех пользователей, говно даже хуже, чем выше 2. Приватная история на каждого пользователя, может реагировать на команды по изменению поведения и прочее. Говно, ибо платно, а бесплатный лимит или маленький, или его нет совсем.
3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>
Аноны, сейчас начал использовать для великого могучего русского языка gemini-flash-tts. Есть ли ещё какие-то годные tts для русского, сравнимые по качеству? Желательно, чтобы можно было достучаться, через api. Локальных tts подобного качества, как я понимаю нет. Я посмотрел на piper, но качество ужасное в сравнении с английскими tts типо kokoro. И ещё скажите, на стриме жопича видел, как ему слали донаты с нейроозвучкой, какой-то бабы. Голос мерзкий, но очень качественный. Это часть донатного функционала или какие-то отдельные нейронки?
Несколько дней назад решил попробовать сделать себе аудиокнигу (лучше бы просто прочитал). За это время успел протестить несколько вариантов руговорящих моделей (гугловую и несколько локальных). Локальные запускал на 5070 TI в среде ComfyUI, чтобы не мучаться каждый раз с установкой (помучиться всё равно пришлось). Результаты следующие: 1) Google Gemini TTS Pro\Flash. В API всего 15 RPD, поэтому я тыкался в AI Studio (там как я понял нет лимитов на количество запросов). За один раз позволяет сгенерировать ~11 минут аудио, время генерации бывает по разному, когда 5 минут, когда 10. Не показывает сколько токенов занимает текст, не попал в окно - удаляешь по кускам, пока не попадёшь. По качеству. Заебись, но после ~4-5 начинаются небольшие галюны, голос железеет и на фоне идёт писк, но в остальном очень хорошо. Из минусов - нет автоматизации (про апи написал вышел) и у меня произошёл какой-то факап со скачиванием сгенерированного аудио. Я как ебанат сгенерировал порядка 25 11-минутных записей, а когда решил прослушать, что я там наскачивал, то выяснилось, что скачанный файл в два раза короче сгенерированного аудио. Если быть точным то после половины начинается тишина. Пробовал в разных браузерах, всё одно. При попытке открыть аудио в отдельной вкладке - крашится браузер. 2) VibeVoice Large Q4. Генерировал чанками по 250 слов, качество хорошее, иногда бывает голос начинает хрипеть, но возможно дело в качестве референсной записи (с более чистой и качественной записью я такого не заметил). Бывают ошибки в ударениях, но не очень часто. Ну и артефакты в виде рандомной музыки на фоне. Генерирует долго (дольше, чем длится сгенерированный отрывок), при этом время генерации зависит от длины генерируемого текста. ~1.5 минуты генерация ~1 речи. ~13-14 минут на ~10 минут аудио. и ~24 минуты генерация ~20 минут аудио. Q4 занимает чуть больше 8 Гб видеопамяти. Квантизация, если я правильно понял, затрагивает только LLM, так что на качество генерации особо не влияет (по крайней мере по сравнению с Q8). 3) VibeVoice 1.5B. Не имеет смысла, по крайней мере для русского языка. Да, занимает меньше памяти, но по качеству сильно уступает большой модели (английский акцент, плохо расставляются ударения), а время генерации остаётся +- таким-же. 4) Chatterbox TTS. Запустить модель дообученную на русский не получилось. Пробовал модели выложенные в этом репозитории niobures/Chatterbox-TTS. Модель вроде как загружается в память и вроде как начинается генерация, но дальше происходит отвал жопы с гаснущими экранами (и последующей выгрузкой модели из памяти) или полным зависанием компа. Мб дело в ComfyUI, мб в том, что я рукожоп. Если тут есть кто-то, кто запускал их, то объясните как. 5) Chatterbox Multilingual TTS (v2). Относительно быстрая (примерно 0.7-9 с. генерации на 1 с. текста). После Гугла и Вайба качество среднее. Заминки, проглатывание звуков. Главная проблема - ебучее шамканье, как будто текст читает какой-то задрот-чмошник, хотя в оригинальном голосе нет и намёка на подобное. Чтобы примерно понять как это звучит загуглите "21 век, рай для интровертов". Ещё похоже на ИИ которым озвучивают животных в ебучих клипах в ютубе/инсте. Сильнее всего заметно на мужских голосах. Генерация чанками по 500 символом на чанк, в конце чанков часто глюки (вой, пердёж и прочие непонятные звуки). В некоторых генерациях добавляются "вдохи" полсе пауз, как-будто модель воздуха набирает, чтобы читать дальше. Требуется расстановка ударений при помощи акутов. В оригинальной модели указана зависимость к russian-text-stresser, но этот модуль требует установки старых версий библиотек, так-что нихуя автоматически не устанавливается, у меня не получилось доставить этот модуль даже вручную (опять таки возможно потому-что я рукожоп). Вместо него с горем пополам создал в ComfyUI ноду с моделью RUAccent, через которую подавал текст на вход Chatterbox. 6) openaudio s1 mini. Хуйня. Долго, на 1.5 минуты примерно 2 минуты генерации. Без копирования голоса сильный китайский акцент. С копированием голоса всё равно присутствует акцент похожий на кавказский. Нельзя расставить ударения. 7) F5-TTS дообученный для русского. Запускал вариант от Misha24-10/F5-TTS_RUSSIAN, другие, найденные на хаггинг вариант запустить не получилось. Просто, сердито и очень быстро. Читает монотонно, без интонаций и выразительности, не расставляет акценты в предложениях, но при этом не отдаёт роботом. Возможно на восприятие влияет ещё и специфика текста (условно художественный). Каких-то аномалий при генерации не заметил, голос копирует прям хорошо. И ОЧЕНЬ быстро. Генерация у меня занимала раз в 10 меньше чем сам отрывок. Также требуется расстановка ударений в виде + перед ударными буквами. Решал тем-же RuAccent. Короче по итогу гугл был бы заебись, если бы давал больше реквестов в день через АПИ. Возможно потом, когда модель выйдет из превью, так и будет. Через AI Studio только если слушать сразу по факту генерации ну или как-то вытягивать из кода страницы. В плане локальных было бы здорово заставить VibeVoice работать быстрее, что-бы генерация хотя-бы укладывалась в длину сгенерированного аудио, но я не нагуглил как этого добиться. F5-TTS за счёт очень быстрой генерации оставляет возможности для пост-обработки с помощью каких-нибудь других моделей, что-бы сделать аудио более естественным, но я опять таки не нашёл ничего такого. Мб кто-то из местных обитателей знает как добиться лучших результатов? Сделать VibeVoice быстрее или улучшить звучание от F5-TTS?
Всем общий Подскажите нейронку чтоб шмотки примерять, пользовался Wand, но надоело акки создавать.
Аноним08/10/25 Срд 21:44:50№1380868Ответ
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируемТред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)
✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS
✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.)
➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.
Сап, вкатун в треде, есть 2х 3090, хочу начать с Масуби и Квена. Гугл выдает какую-то непонятную хуйню, гайды и гуи конкретно для Вана 2.1. Можете ткнуть в нормальный гайд?
>>1387741 Какой тебе гайд нужен? Открывай документацию к твоему говну и читай, в musubi есть туториал. Алсо, сразу имей в виду что квен от лор лучше не станет, такое же мыло будет всегда.
>>1387770 Есть воркфлоу для конкретно Вана пикрил, а я хочу универсальный воркфлоу, чтобы я мог генерить одной хуйней под разные таргеты (Квен - просто для начала).
Двач, я топ 400 мирового рейтинга соревновательного мл, спрашивай свои вопросы. Планирую стать кагл
Аноним09/08/25 Суб 16:31:51№1308340Ответ
Двач, я топ 400 мирового рейтинга соревновательного мл, спрашивай свои вопросы. Планирую стать кагл грандмастером Девять лет опыта работы над разными задачами, так что могу пояснить буквально ща любую хуйню
>>1382955 Да нет особо никакого списка моделей. Я в голове держу, что вот есть 3-4 основных бустинга и бустинги хорошо работают на 'неровных' данных, не гладких Есть ДЛ, который работает хорошо на гладких данных (условно все, что сгенерировано природой) И есть линейные модели на случай, если я очень хорошо понимаю задачу и мне надо чисто коэфы подобрать
Тренировать что-то в ноутбуках мертвяк, я на vast.ai снимаю тачку и на ней кручу все. Кагловские ноутбуки с каждым днем все больше и больше закручивают, так что арендное железо- топ. Ну и я сначала прототип на своем рабочем маке пишу, а потом уже раскручиваю на облачной тачке
>>1308340 (OP) Как прикрутить inference engine к LLM? То есть, допустим, есть спецификация ЯП, много документации по нему и всяческой литературы, есть конпелятор этого языка, ещё есть стандартная библиотека и сотни нестандартного, но точно работающего кода. Как LLM прикрутить к этому всему, чтобы получилась экспертная система, понимающая язык натуралов и пишушая не data-driven код, а воспринимающая ЯП как факты-правила, а конпелятор как чёрный ящик, в который надо шмалять кодом?
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
В этом треде обсуждаем нейронки генерящие 3д модели, выясняем где это говно можно юзать, насколько оно говно, пиплайны с другими 3д софтами и т.д., вангуем когда 3д-мешки с говном останутся без работы.