Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
Иногда сканирую старые книжки под себя и хочу сделать из сканов их же fb2 варианты, но времени на вычитку и редактуру нет, а нейросети очень неплохо справляются с небольшими блоками текста. Так вот, хочу найти (или создать) готовый скрипт\программу, короче метод, при котором можно дать нейросети необработанный, голый текст сразу из файнридера, запакованный в фб2 или в докс как вариант, и чтоб в результате нейросеть (желательно, локально) все обработала, сделала вычитку, исправила все ошибки и лажу и выдала в результате готовую книгу с заголовками, с оглавлением, с форматированием, в общем чтоб все по феншую и заебись. Есть такие варианты? (я уже попробовал через те же нейросети писать скрипты для питона, но пока ниче толкового не вышло)
Нашел вот такую стратегию где используется нейросеть: https://www.paxhistoria.co/ Что-то вроде гибрида парахододрочилен и AI Dungeon (олды поймут). Сделано вполне недурно для альфа версии, но уже дрочат донатами в виде токенов.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1440636 >ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода Что за косяки, где инфу посмотреть, когда ждать исправленных? Или самому f16 качать и квантовать? Или я на те же грабли наступлю? Мне бы в идеале iq4xs. Можно, конечно, q3km попробовать, но, чувствую, совсем уж лоботомитом будет.
>>1438696 >больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое можешь просто скачать дамп википедии и натравить на него мелкую сетку, надроченную на поиск инфы в массивах. jan ai хвалились такими сетками
AI Chatbot General № 770 /aicg/
Аноним03/12/25 Срд 18:33:07№1439507Ответ
>>1442205 >что те боссов мафии играют,у самих кал карты "феечка из геншина", "Кошко девочка" и прочая дрисня Двачую, у кумеров афантазия на уровне жирух примерно, если не хуже. Карточка с конкурса первая еще ничего вышла, остальное - кал.
>>1442135 Он паре унтерменшей токен не дал, чтобы проксю не руинить, эти долбоебы обиделись, придумали себе войну с какими-то жирухами и заруинили прокси вообще всем. Собака на сене - типикал соевый двощер. В итоге и помидор, походу, упал из-за этих малолетних дебилов, сидим без проксей всем тредом (у меня даже ревоукнутый токен отъебнул в ошибку 500)
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1433480 (OP) Возможно тупой вопрос но насколько критично отсутствие видюхи? RAM 32, i9 13gen текстовые копайлоты более-менее пашут. ебнутая скорость/качество не нужны 512х512 достаточно, надо редачить картинки по промпту, будет ли это адекватно работать (условно до получаса) или без cuda это часы?
Google antigravity /ai/
Аноним30/11/25 Вск 21:28:16№1436633Ответ
📰 Топ новостей в области ИИ GPT‑5 ускоряет научные исследования, однако OpenAI предупреждает, что он не способен работать автономно, подчеркивая прогресс без неминуемого появления ИИ общего назначения (AGI).
Google запускает Nano Banana Pro — генератор изображений на базе Gemini‑3, обеспечивающий разрешение 4K и привязку к результатам веб-поиска, при этом стоимость составляет $0,139 за изображение в разрешении 1080p/2K и $0,24 за изображение в 4K.
Google демонстрирует возможности генерации изображений Gemini3 Pro, добавляя точную визуализацию текста и расширенные творческие инструменты управления для разработчиков.
🧠 Модели Nano Banana Pro предлагает изображения более высокого качества в разрешении 4K, улучшенную визуализацию текста и привязку к результатам ИИ-поиска, однако сопровождается более высокой задержкой и стоимостью за изображение.
Gemini3 проходит тесты по 3D-визуализации и автоматизации задач, но уступает в детализации и скорости, что выявляет ограничения флагманской мультимодальной модели.
Пользователи раннего доступа сообщают об ошибке «запах модели» («model smell») в Gemini3, подчеркивая трудности, возникающие при внедрении в реальных условиях.
📦 Продукты Google добавляет проверку водяных знаков SynthID в приложение Gemini, позволяя пользователям запрашивать, является ли изображение сгенерированным ИИ, и планирует расширить функционал на видео и аудио.
OpenAI запускает групповые чаты ChatGPT по всему миру, поддерживающие до 20 участников и работающие на базе GPT‑5.1 Auto для адаптивного выбора модели.
ChatGPT Atlas получает обновления интерфейса, включая вертикальные вкладки и встроенную интеграцию поиска Google, что улучшает рабочие процессы для продвинутых пользователей.
🔓 Открытое ПО Sber AI публикует предварительную версию GigaChat3‑702B‑A36B — MoE-модели с 702 миллиардами параметров и 36 миллиардами активных параметров, размещенную на Hugging Face.
SAM3 представляет Promptable Concept Segmentation (PCS) — сегментацию по задаваемым понятиям, расширяющую возможности сегментации по сравнению с предыдущими версиями SAM.
AllenAI выпускает набор Olmo‑3, включающий 32‑миллиардную модель «Think», а также полные обучающие данные и код для задач рассуждения, общения и использования инструментов.
💰 Финансирование Финская компания NestAI привлекает €100 миллионов и заключает партнерство с Nokia для разработки ИИ в сфере беспилотных транспортных средств и обороны, продвигая суверенитет Европы в области ИИ. Suno привлекает $250 миллионов при оценке в $2,45 миллиарда для расширения инструментов генерации музыки с помощью ИИ, несмотря на текущие судебные разбирательства.
TCS и TPG финансируют $1 миллиард из запланированных $2 миллиардов на строительство гигаваттной сети дата-центров «HyperVault» в Индии для сокращения дефицита вычислительных мощностей для ИИ.
📱 Приложения Meta запускает общедоступные комнаты Hyperscape для групп до восьми пользователей, продвигаясь к социальным метавселенным.
Amazon Prime Video тестирует автоматически генерируемые ИИ краткие пересказы эпизодов, которые объединяют ключевые сцены с повествованием, помогая зрителям быстро наверстать упущенное.
Система сортировки Sortera на базе ИИ достигает точности более 95 % в классификации марок алюминия, раскрывая неосвоенный потенциал переработки и достигая положительного денежного потока.
🏭 Компании Янн Лекун покидает Meta спустя 12 лет, чтобы основать компанию, ориентированную на передовой машинный интеллект на основе визуального обучения, знаменуя переход от исследований, сосредоточенных на больших языковых моделях (LLM).
Cisco запускает инициативу Resilient Infrastructure, предупреждая, что устаревшее сетевое оборудование создает угрозы безопасности, и объявляет о завершении жизненного цикла для устаревших устройств.
⚖️ Регулирование Бывший президент Трамп разрабатывает указ о создании «Целевой группы по судебным разбирательствам в сфере ИИ» для подачи исков против штатов, чьи нормативные акты в области ИИ могут противоречить федеральному законодательству.
Аналитики критикуют закон ЕС об ИИ за неясные механизмы реализации, предполагая, что блок может столкнуться с трудностями при формировании надежного стандарта в сфере ИИ.
🛠️ Инструменты для разработчиков Microsoft обновляет PowerToys Advanced Paste, добавив возможность запуска локальных ИИ-моделей через Foundry Local или Ollama, что позволяет выполнять такие задачи, как перевод и суммаризация, без обращения к облачным сервисам.
Теперь инструмент поддерживает несколько провайдеров (Azure OpenAI, Gemini, Mistral) и включает графический интерфейс выбора модели, предоставляя разработчикам большую гибкость.
📰 Мнения и аналитика Маркетологам необходимо перейти от KPI, основанных на кликах, к сигналаам видимости в ИИ-поиске (показы, цитирования), поскольку ответы ИИ формируют трафик более высокого качества.
План Microsoft внедрить автономных агентов в Windows вызывает негативную реакцию пользователей из-за опасений потери контроля, что влечет дискуссию о будущем дизайна операционных систем.
🧪 Исследования NVIDIA и TDAI выпускают BioCLIP2 — фундаментальную модель, обученную на 214 миллионах изображений организмов и способную классифицировать виды, пол, возраст и состояние здоровья; модель доступна в открытом исходном коде.
Инженеры по составлению промптов отмечают «распад структуры» (structure decay): повторные вызовы модели приводят к дрейфу тональности, что подчеркивает проблемы стабильности при использовании LLM.
📰 Инструменты YardStyling превращает фотографии участков в профессиональные концепции ландшафтного дизайна с помощью генеративного ИИ.
Dealism.ai предлагает ИИ-ассистента продаж для WhatsApp Business, который ведет круглосуточный диалог с клиентами, имитируя человеческое общение.
ITKDocuments обеспечивает анализ контрактов с помощью ИИ для проверки соответствия нормам и автоматизации рабочих процессов. Библиотека для выполнения кода, совместимая с Claude, обеспечивает безопасный запуск сценариев в рамках агентных фреймворков.
📰 Краткая статистика GPT‑5 обеспечивает работу групповых чатов ChatGPT, поддерживая до 20 участников.
Nano Banana Pro стоит $0,139 за изображение в разрешении 1080p/2K и $0,24 за изображение в 4K.
Предварительная версия GigaChat3 имеет 702 млрд параметров и 36 млрд активных параметров в MoE-архитектуре.
NestAI привлекла €100 млн на разработку оборонного ИИ.
BioCLIP2 обучена на 214 млн изображениях и способна идентифицировать более 1 млн видов (NVIDIA).
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Подскажите ньюфагу какие модельки я могу накатить с таким спеком (для таверны), пока щупал только модельки на опенроутере, гайд по моделям читал но нихуя не понял (там видеопамять указывается или оперативная), подскажите анончики. 32 Гб ddr5 5070ti
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1433532 >запрет на коммерческое использование или именно тренировку с коммерческими целями хз, где ты это увидел. они уже сделали отметку что это Apache 2 лицензия. Если они уже выложили так, то не могут существовать какие-либо другие выдуманные ограничения, так как Apache 2 покрывает все моменты и сверху ничего добавлять самому нельзя если используешь стандартную лицензию.
Недавно в бредаче всплыл интересный тред посвященный генератору постов двача на основе ИИ. И генератор совершенно не хуйня и он вполне себе хорошо копирует слог среднего анона и даже превосходит его. "Аноны" метко подшучивают над опом и темой его поста и если развитие проектов такого типа продолжиться то каждый "анон" в сгенереном треде будет иметь свое мнение и личность и можно будет уже самому с ними посраться, появятся шизы. Хочу создать тред исключительно по данной теме, если это продвинется дальше то каждый сможет иметь свой офлайн двач с куклами, пони, бесконечными консолесрачами и постами в стиле того самого без всяких новомодных течений. Можно будет вернуться в любую эпоху и имитировать даже несуществующие эпохи двача типа если бы двач существовал при царе Рюрике, Сталине и тд. Все приведено естественно как пример. Также реквестирую в тред любые материалы по теме генерации борд в режиме реального времени если они у вас имеются.
>>930555 (OP) А чо ты удивляешься? На Дваче нету оригинальных мыслителей, нету людей со своим стилем письма. Все одинаковые как тубаретки в магазине. Поэтому и компилятору просто закосить под серость. Знай стандартными фразами манипулируй.
AI Chatbot General № 767 /aicg/
Аноним27/11/25 Чтв 13:34:35№1432054Ответ
>>1431676 3 и 4 пики стендинг 1 герл, да пиздоглазик? >>1431681 >>1431689 Гомоконфочушки лол. Похоже этот тред окрысился со временем, давно не заходил. А раньше было душевно, все хвалили друг друга и делились знаниями.
>>1431661 >Как бы нейрофажить, чтоб не только душевно хорошо стало, но и материально? Ты можешь к примеру поработать на потогонку-галеру из ОАЭ, которая переквалифицировалась с эксплуатации дешёвых рисовак на ещё более дешёвые нейрогенерации.
Или вести сетку каналов, если понимаешь как раскручиваться (судя по посту, не понимаешь).
FLUX.2 ДРОПНУЛ! 32 МИЛЛИАРДА ПАРАМЕТРОВ. ПРОВЕРЯЙ СВОЙ VRAM, НУЖНО 64 ГБ
Аноним# OP26/11/25 Срд 12:08:58№1430679Ответ
Black Forest Labs выпустили FLUX.2 — новую серию моделей генерации изображений, представленную как передовая система «визуального интеллекта». Это совершенно новая модель с новой архитектурой, которая была обучена с нуля. FLUX.2 не является простой заменой или итеративным обновлением FLUX.1.
1. КОЛОССАЛЬНЫЙ МАСШТАБ И ПАМЯТЬ. FLUX.2 (версии Dev/Pro) обладает беспрецедентным масштабом в 32 миллиарда параметров (32B). Это значительный скачок по сравнению с FLUX.1 (12B параметров). 2. ТРЕБОВАНИЯ VRAM. Для полной загрузки модели в стандартной точности (FP16/BF16), она требует более 80 ГБ VRAM. Даже в режиме с низким потреблением VRAM (lowVRAM mode) требование составляет 64 ГБ VRAM. 3. VRAM — БИНАРНЫЙ КРИТЕРИЙ. Объем VRAM является самым критическим аппаратным ресурсом, поскольку это бинарный критерий ("работает" / "не работает эффективно"). 4. СКОРОСТЬ УБИВАЕТ ОФФЛОАДИНГ. Если веса модели не помещаются в VRAM, система вынуждена использовать механизм Weight Streaming (потоковая передача) из системной RAM. Поскольку пропускная способность системной RAM в 15–20 раз ниже, чем у VRAM, это приводит к катастрофическому падению производительности, увеличивая время генерации изображения с секунд до минут.
### Решения для локального запуска
ОПТИМИЗАЦИЯ FP8. NVIDIA и Black Forest Labs сотрудничали для квантования модели в формат FP8, который снижает требования к VRAM на 40% (до ~38–44 ГБ). Флагманская RTX 5090 (32 ГБ) считается лучшей видеокартой для FLUX.2 на потребительском рынке. КВАНТОВАНИЕ NF4/GGUF Q4. Владельцы карт с 24 ГБ VRAM (RTX 4090, RTX 3090) могут использовать 4-битное квантование, такое как NF4 / GGUF Q4, которое снижает требование до ~20–24 ГБ VRAM. СИСТЕМНАЯ RAM. Поскольку модель редко помещается в VRAM потребительских карт, системная оперативная память (RAM) становится критически важной. При агрессивном оффлоадинге потребление RAM может достигать 40 ГБ и выше. Для стабильной работы настоятельно рекомендуется иметь 64 ГБ оперативной памяти (RAM).
### Революционные возможности
Мульти-референс. Модель имеет нативную поддержку использования множества изображений в качестве входных данных, позволяя ссылаться до 10 изображений одновременно. Эта функция обеспечивает лучшую согласованность персонажей, продуктов и стиля. Гиперреализм 4MP. Поддерживается генерация и редактирование изображений в разрешении до 4 мегапикселей (4MP), что позволяет создавать фотореалистичные изображения даже в большом масштабе. Точная Типографика. FLUX.2 превосходит конкурентов в области рендеринга текста, надежно создавая сложную типографику, инфографику, логотипы и макеты UI/UX с разборчивым мелким текстом. Хирургический Контроль. Поддерживается структурированный JSON-промптинг для точного контроля над композицией и деталями камеры, а также возможность указания точных цветов, используя HEX-коды. УПРАВЛЕНИЕ СКОРОСТЬЮ. Версия FLUX.2 [flex] позволяет регулировать количество шагов (inference steps) и шкалу руководства (guidance scale tuning), чтобы обменивать скорость на точность.
ГДЕ БРАТЬ: Открытые веса FLUX.2 [dev] (32B) доступны для сообщества. Модель поддерживается в ComfyUI, который является самой мощной и модульной GUI для диффузионных моделей и имеет функции оффлоадинга и квантования.
*
Представьте, что FLUX.2 — это профессиональная студия фотопечати, которая может работать с изображениями 4MP. Она требует, чтобы исходные файлы (веса модели) были загружены в супербыструю память (VRAM), но объем этих файлов (до 90 ГБ) настолько велик, что ваш домашний ПК не может вместить их целиком. Приходится постоянно подкачивать данные с медленной системной памяти (RAM), из-за чего печать одной фотографии (генерация) занимает минуты вместо секунд.