1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.
2. AICG тред перекатывается после достижения предела в 1500 постов.
3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.
4. Это раздел преимущественно технического направления. Для генерации откровенного NSFW-контента без технического контекста выделена отдельная доска - /nf/. Эротика остаётся в /ai/. Голые мужики - в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.
5. Публикация откровенного NSFW-контента в /ai/ допускается в рамках технических обсуждений, связанных с процессом генерации. Откровенный NSFW-контент, не сопровождающийся разбором моделей, методов или описанием процесса генерации, размещается в /nf/.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Кстати, последняя гемма, там где норм-пресервед, прям хороша, да. Особенно в кобольде на сторителлинге. Буквально лучший локально-потребительский великий и могучий.
>>1490166 >чтение же заебывает довольно быстро Это твои проблемы и ты их опять проецируешь.
>>1490168 >Квеносрач был, теперь языкосрач на очереди? Русикосрач тут велся еще до того как китайцы проснулись и начали клепать модели, с подключением. Только мне всегда были непонятны причины такой жесткой тряски, если русский на локалках реально слабый из-за того что это второстепенный язык в лучшем случае со всеми вытекающими проблемами.
Zhipu AI выпустила GLM-4.7 — открытую модель, позиционируемую как лучший программист и решатель задач на начало 2026 года.
Cerebras анонсировала GLM-4.7-REAP-268B-A32B, расширив семейство до варианта с 268 млрд параметров.
🛠️ Инструменты для разработчиков
Google представила Universal Commerce Protocol (UCP), позволяющий ИИ-агентам осуществлять поиск товаров, оформление заказов и послепродажную поддержку для ритейлеров, таких как Shopify и Walmart.
Anthropic внедрила изоляцию на уровне ОС с использованием bubblewrap и gVisor для Claude Code CLI, продемонстрировав низкоуровневую стратегию безопасности для ИИ-агентов.
📰 Главные новости в ИИ
Google запустила AI Inbox для Gmail, автоматически генерирующий списки дел и тематические сводки для доверенных тестировщиков.
Anthropic представила Claude for Healthcare и расширила Claude for Life Sciences, добавив функции, соответствующие требованиям HIPAA, и коннекторы к основным клиническим платформам.
🔓 Открытый исходный код
PerpetualBooster — это библиотека градиентного бустинга с непрерывным обучением сложности O(n), превосходящая AutoGluon на табличных бенчмарках.
Kreuzberg v4.0 выпущена как библиотека с открытым исходным кодом для интеллектуального анализа документов, извлекающая структурированные данные из PDF-файлов и сканов.
X Илона Маска объявила, что будет выпускать свой алгоритм рекомендаций с открытым исходным кодом каждые четыре недели, повышая прозрачность ранжирования.
💻 Аппаратное обеспечение
XGIMI запустила серию умных очков Memomind AI (Memo One, Memo Air, Memo Air Display) с возможностью выбора оправы и встроенным ИИ-ассистентом, начальная цена — $599.
⚖️ Регулирование
Индонезия и Малайзия запретили доступ к чат-боту Grok от xAI после того, как он создал сексуализированные ИИ-изображения, что подчеркивает растущее регуляторное давление на генеративный ИИ.
📱 Приложения
Meta и Гарвардский университет представили Confucius Code Agent — ИИ-систему, сохраняющую структурированные заметки и память при работе с большими кодовыми базами для повышения продуктивности разработчиков.
📰 Безопасность ИИ
Группа инсайдеров из сферы ИИ создала платформу Poison Fountain для распространения слегка искажённого кода с целью отравления обучающих наборов данных и демонстрации уязвимостей моделей.
📰 Инструменты
MiroThinker — это модель поискового агента с открытым исходным кодом, разработанная для рассуждений с использованием внешних инструментов и получения информации из реального мира.
memU предоставляет инфраструктурный уровень памяти, обеспечивающий постоянное состояние для больших языковых моделей (LLM) и ИИ-агентов.
📰 Разное
Apple объединяется с Google Gemini для создания Siri с искусственным интеллектом.
Anthropic анонсирует Claude for Healthcare после презентации OpenAI ChatGPT Health.
Hyundai демонстрирует роботов-собак, танцующих под K-pop, и гуманоидного робота Atlas на выставке CES.
Терри Тао говорит: «Я могу честно сказать, что кое-чему научился у Аристотеля», после того как ИИ внес вклад еще в одно решение проблемы Эрдёша.
Генеральный директор Anthropic Дарио Амодеи прогнозирует, что ИИ скоро будет играть «центральную роль в многочисленных открытиях» уровня CRISPR.
Meta объявила о новой инициативе «Meta Compute» с целью масштабировать свою инфраструктуру до десятков гигаватт в течение этого десятилетия. Похоже, Цукерберг планирует сократить Reality Labs на 10 процентов, чтобы профинансировать это, по сути ликвидируя метавселенную ради покупки дополнительных GPU.
Coreweave подключает более 2000 GPU в день на своем объекте в Дентоне, штат Техас. Энергосистема ощущает нагрузку. PJM, крупнейший оператор энергосети США, теперь ожидает роста спроса на электроэнергиию на 4,8 % в год в течение следующего десятилетия.
Чтобы смягчить рост затрат для потребителей, Белый дом заявил, что технологические компании впредь должны «сами оплачивать» новые мощности генерации электроэнергии.
SK Hynix инвестирует 12,9 млрд долларов в строительство завода по передовой упаковке чипов в Южной Корее специально для удовлетворения ненасытного спроса на HBM — память, критически важную для ИИ.
Палата представителей одновременно «запирает заднюю дверь», приняв двухпартийный Закон о безопасности удаленного доступа, ограничивающий возможность иностранных противников получать доступ к американским ИИ-чипам через облако.
Basecamp Research и Nvidia представили EDEN — модель с 28 миллиардами параметров, обученную на массивном наборе данных, содержащем 10 миллиардов новых генов. Модель уже разработала новые антибиотические пептиды с экспериментальной эффективностью 97 %.
Eli Lilly и Nvidia совместно инвестировали до 1 млрд долларов в «первую в своем роде лабораторию совместных ИИ-инноваций».
>>1490045 >т.е. есть ли был бы либерахой, то ты бы его уважал? Ты же, мудак ебаный, псина режима, нихуя не понимаешь в чем ценности тру либарала. Настоящий либерал отстаивает даже твою песью свободу блять. Когда ты спрашиваешь ЧТО ТАКОЕ ЛАЯТЬ? либерал тебе объяснит. Путин - самый настоящий либерал, между прочим. Он просто хочет чтобы свободы не нарушались и делает для этого максимум по уничтожению хохлов. Потому что когда рядом под боком сосед с пистолетом и криками москалей не ножи никакой свободы невозможно создать. Буквально единицы людей остаются внутри свободными, глядя на дуло пистолета.
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1490115 Ещё в ComfyUI по умолчанию, при использовании randomize, новый номер сида формируется сразу после запуска генерации. Другими словами, чтобы было понятно: скопировал номер сида (куда-нибудь, хоть в Notepad) и только потом нажал кнопку Run. Если делать наоборот, то после нажатия кнопки Run, сид в окошке уже моментально будет заменён новым, а генерация при этом будет ещё идти. То есть, по логике думаешь: хорошее изображение получилось, надо сид сохранить (только в поле уже новый сид записан, тот который будет использоваться при следующей генерации, а не тот, который был). Где-то должны быть средства для изменения этого поведения. Но я уже давно привык и сохраняю сид в промежуточный текстовый узел на всякий случай, просто протянув лишнюю верёвочку.
>>1490141 В рандоме нет особой пользы, обычно 8 сидов закручиваются по спирали, переходя примерно на четверть из одного в другой, с каждой итерацией (8-16), (16-24) и т.д. Да, где-то может быть оно здорово стрельнёт, но обычно если ты видел первые 1-8, то ты видел и остальные), я дальше первых 3-х десятков не забирался.
Вопрос, где ползунок вариативности изображений внутри одной и то-же пачки?
Терминология моделей prune — удаляем ненужные веса, уменьшаем размер distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше quant — уменьшаем точность весов, уменьшаем размер scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше merge — смешиваем несколько моделей или лор в одну, как краски на палитре.
lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.
А че сору Наебнули чтоли? Попытался сейчас старый промт сгенерить и если раньше все диалоги умещались теперь либо молчат либо одну фразу успевают сказать.
А, все, fp4 норм работает (умеренно), но она есть только для dev-версии, и из-за cfg 4.0 работает все равно дольше, чем дистилка. fp4 не спасают. Если бы дистил была, но то ли я дурак, то ли ее не выпустили. Там бы ускорение помогло бы.
>>1489398 Какое апи 2.5 когда у них самих уже есть лучший 2.6, не говоря уже о конкурентах? Нет ни одной причины не дропать веса, но они выбирают быть пидорасами. 2.1-2.2 нам дали ибо они тестовые, как и 2.5 тест версии со звуком
хелп. suno только локально
Аноним13/01/26 Втр 14:14:46№1488306Ответ
посоны помогите гайдиком или ссылочкой на гайдик как генерить музычку локально на своём железе. до этого темой аи не интересовался, если кто скажет как вкатиться чтоб просто для себя генерить музычку прям как в suno, буду признателен. а и ещё, в компике стоит rtx 5060 ti, подойдёт или со скрипом, болью и унижением жить придётся?
>>1488306 (OP) Странно что тут никто не написал про "MusicGen" от Meta (экстремистская организация, осуждаю). Вышла давно, староватая, но очень классическая для Open-Source.
Удобно из коробки не попользуешься, но гайды где-нибудь есть, за полчасика всё настроишь думаю. Есть варианты на 300M параметров (быстрая и маленькая), 1.5B (средняя), и 3.3B (большая). Советую 1.5B для начала, считается хорошим выбором. Генерирует музыку по промпту на английском.
Как писал тут один анон, с хорошим вокалом мало что есть (тем более на русском), почти ничего. Локальные модели уступают на две головы тому же Suno и его аналогам, к сожалению, но для каких-то треков и дообучения это нормальные варианты потестить, твоей видеокарты вполне хватит.
Тут ещё советовали другие модели, они тоже нормальны потестить, но я мало в них шарю. Сфера ИИ-музыки развито очень слабо, если сравнивать с текстом или картинками. Надеюсь чем-то помог! Да и пусть помогут остальные, если что-то знают.
>>1489395 благодарю, человек. попробовал, прикольно, но да, сильно не уровень той же suno. добавил в атач результат, если кому интересно как он с русским языком справляется (спойлер: плохо). возможно с другими промтами если поиграться можно саму мелодию сгенерировать более интересно, на минимальных "rock, acoustic guitar, male vocals" звучит слишком скучно, как по мне.
detailed close-up cinematic sunny photo with 16:9 aspect ratio, family portrait, detailed close-up smiling ryan gosling face wearing gucci jacket with diamond grillz and diamond watches holding bottle of добрый кола and вкусно и точка кидз комбо, detailed close-up smiling donald trump face wearing louis vuitton jacket and emo hairstyle holding cheburashka plush toy, emma stone face, elle fanning face, anya taylor-joy face, margaret qualley face, sadie sink face, sophia lillis face, margot robbie face, emma watson face, sydney sweeney face, billie eilish face, outside московский вокзал from площадь восстания
ВТОРОЙ SORA 2 AI ВИДЕО ТРЕД /sora/
Аноним21/10/25 Втр 08:46:29№1395534Ответ
Как вкатиться? 1) Зайти на https://sora.com с ОБЯЗАТЕЛЬНО ТОЛЬКО IP США или Канады (!). 2) Зарегать аккаунт, если еще нет. Лучше использовать нормальную Gmail почту. 3) Ввести инвайт код. 4) Генерировать, скидывая годноту в тред.
Где взять инвайт код? В комментах тг канала n2d2ai либо в ботах по типу @sora_invite_bot в тг. После ввода инвайт кода вам дадут от 0 до 6 новых для приглашения кого-то еще по цепочке.
Как обойти цензуру? 1) Пробовать менять фразы, имена и в целом промпт. Описывать персонажей без личных имен чтобы не триггерить копирайт. 2) Роллить. Иногда из двух одинаковых реквестов подряд один цензуруется, а другой нет.
Какой лимит? Одновременно на одном аккаунте можно генерировать до 3 видосов. В день не более 30 штук.
>>1488348 >Сейчас денег больше у студий и снимают дорогие сериалы по 12 серий >Я особо не смотрю современное По моему мнению, сейчас просто стало больше студий, которые снимают всякое, ну и технологии шагнули вперед.
Но мусора хватает, поверь мне, овердофига тайтлов от которых прям пасет дешевизной. Особенно глаз начинает ебать когда смотришь такой, вроде рисовочка неплохая, хоть и простая, и потом хуяк максимально дешманское уебищное 3д с каким-нибудь драконом. Как будто включил "Зену королеву воинов" и попал в 90-е. И сразу понимаешь, насколько же этот тайтл копеечный уёбищный кал и насколько же авторам похуй.
Нашли ли вы какие-то способы применять ллмки или картинкогенераторы для получения экономического профита? Они вообще чёто полезное делать могут? Я периодически разговариваю с чатжпт, но оно по сути как более простой в использовании гугл.
AGI не будет как минимум декаду, так что замены человека роботом пока не будет. Я гарантирую это.
Недавно писал ноды для комфи с помощью локальной квен-кодер. Три ноды и ни одного косяка. Вообще без правок, только перенес файлы в комфи. Со всякой обработкой исключений, комментами и понятными названиями переменных на которые я бы забил если бы писал сам для себя. Еще и работало это на старом железе которое осталось после последнего апгрейда. Всякую хуйню вроде регулярок я больше никогда не буду писать.
>>1488036 > писал ноды для комфи Может потому что это самое основное на чем твой квен кодер тренили? Ты бы еще калькулятор попросил написать, там тоже будет ноль косяков, почти. Если не придираться сильно. > Всякую хуйню вроде регулярок я больше никогда не буду писать. Ну вот с этого и стоило начинать, и закончить.
>>1477822 >но зачем? есть бесплатные нейронки. Согласен, пока что еще есть. Пока идет гонка и борьба за клиент-базу, и пока вы бесплатно выполняете работу отладчиков отдавая ваши логи для повышения точности выдачи ответов.
Музыкальный №19 /music/
Аноним10/01/26 Суб 17:52:17№1485286Ответ
Лимиты: 10 генераций в день. Нужна платная подписка чтобы увеличить лимиты, либо можно абузить сервис через создание множества аккаунтов. Отличается фирменным "песочным" звучанием. Недавно объявили о слиянии с Warner Music Group. Загибаем пальчики крестиком, надеемся, что ссуну не постигнет участь удио.
Провели ребрендинг, выкатили новый интерфейс с прикрученным чатиком с ИИ. Удобный интерфейс, легко делать разнообразные каверы, заниматься исправлениями косяков генераций. Есть возможность реплейса, свапа вокала, музыки в бесплатном тарифе (и даже работает нормально, а не как в платке суны) Для экономии кредитов лучше вручную забивать промты через кнопку "compose"
Тёмная Сингапурско-Китайская лошадка. Один из самых неудобных интерфейсов. 80 приветственных кредитов, далее по 30 ежедневно сгораемых кредитов. Ограничение промта стилей 300-400 символов. Излишне сложные промты лирики так же начинает резать. Приятный холодный звук. Не песочит. Неплохо делает русский вокал.
Это буквально первый проект который может генерировать песни по заданному тексту локально. Оригинальная версия генерирует 30-секундный отрывок за 5 минут на 4090. На данный момент качество музыки низкое по сравнению с Суно. Версия из второй ссылки лучше оптимизирована под слабые видеокарты (в т.ч. 6-8 Гб VRAM, по словам автора). Инструкция на английском по ссылке.
Еще сайты по генерации ИИ-музыки, в них тоже низкое качество звука и понимание промта по сравнению с Суно, либо какие-то другие недостатки типа слишком долгого ожидания генерации или скудного набора жанров, но может кому-то зайдет, поэтому без описания:
Аноны, поясните за эти видосы, реально зарабатывают на этих неграх своих или это всё замануха, чтоб их курсы купили Если подумать, нахуя это рассказывать, зарабатывали, да зарабатывали. У кого-то есть АИ персонаж которому инсту вы ведёте, какие-то профиты есть, реально можно на fansly сисик продавать или эротику хотяб легкую
>>1488545 (OP) А разве есть на HTML? Все нейросети на Python нативно запустятся. Главное найди желаемую модель, посмотри примеры использования, и пользуйся как хочешь.
Генераторы видео дают всем за щеку /deepfake/
Аноним13/10/25 Пнд 08:50:32№1385244Ответ
Форки на базе модели insightface inswapper_128: roop, facefusion, rope, плодятся как грибы после дождя, каждый делает GUI под себя, можно выбрать любой из них под ваши вкусы и потребности. Лицемерный индус всячески мешал всем дрочить, а потом и вовсе закрыл проект. Чет ору.
Любители ебаться с зависимостями и настраивать все под себя, а также параноики могут загуглить указанные форки на гитхабе. Кто не хочет тратить время на пердолинг, просто качаем сборки.
Единственный минус, который не обеспечивает чистую победу генераторов видео - 3 секунды ролика для онлайн генерации, 5 секунд для онлайна (модель Wan 2.2), умельцы просто берут последний кадр и снова генерируют ролики, потом склеивают. Недавно вышла Sora 2, которая зацензурена по самые гланды. Нинтендо довольна.
Тред не является технической поддержкой, лучше создать issue на гитхабе или спрашивать автора конкретной сборки.
Эротический контент в шапке является традиционным для данного треда, перекатчикам желательно его не менять или заменить на что-нибудь более красивое. А вообще можете делать что хотите, я и так сюда по праздникам захожу.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1489408 >Лучше бы рецепт таблеток распечатал. Нету врача (( >Действительно тотальная недообученность кожаного. Да знаю, биттер лессон, все дела. Но всё никак не приму. >То есть вместо содержащих информацию весов устроить коллапс абсолютными корреляциями, гениально. Как будто 1152 сравнения с рандомным шумом лучше сравнения с градиентами, полосочками и прочим матаном.
нтр это хуета и лечится очень просто - повышением тестостерона, самооценки и в целом охуевшести интересно что фут фетиш тем же самым нихуя не лечится почему то, хоть ты будь гигачадом а если один раз полюбил женские ступни, то уже не отпустит
Новости об искусственном интеллекте №47 /news/
Аноним# OP06/01/26 Втр 07:24:46№1480386Ответ
Компания NVIDIA объявила, что чипы Vera Rubin находятся в полномасштабном производстве и позволят сократить затраты на запуск ИИ-моделей примерно до одной десятой от уровня Blackwell; поставки ожидаются в конце 2026 года.
На выставке CES 2026 компания NVIDIA представила набор базовых моделей для робототехники (Cosmos Transfer 2.5, Predict 2.5, Reason 2, Isaac GR00T N1.6), а также открытую симуляционную платформу Isaac Lab-Arena, которая призвана стать стандартной платформой для универсальной робототехники.
Компания NVIDIA досрочно запустила вычислительную платформу Vera Rubin для ИИ, обеспечивающую до пятикратного увеличения вычислительной мощности для обучения по сравнению с Blackwell, а также впервые представила конфиденциальные вычисления на уровне стойки.
Компания Plaud представила носимое устройство NotePin S стоимостью 179 долл. США — ИИ-гаджет для записи заметок без использования рук, нацеленный на смещение рынка заметок в сторону доступного аппаратного обеспечения.
Plaud также запустила приложение Plaud Desktop — инструмент для транскрибирования совещаний, синхронизирующий аудиозаписи между устройствами и укрепляющий кросс-платформенную экосистему Plaud для профессионалов.
SwitchBot представила голосовой рекордер AI MindClip — устройство весом 18 граммов, поддерживающее более 100 языков и оснащённое функциями ИИ-резюмирования и создания задач, тем самым расширяя конкуренцию на рынке аудиозахвата с применением ИИ.
💻 Аппаратное обеспечение
Компания NVIDIA представила архитектуру Rubin — систему из шести чипов с новым процессором Vera CPU и усовершенствованными соединениями NVLink/BlueField, ориентированную на крупных облачных провайдеров, таких как Anthropic, OpenAI и AWS.
Модуль краевых вычислений Jetson T4000 обеспечивает производительность до 1 200 FP4 TFLOPS и объём памяти 64 ГБ, обеспечивая высокопроизводительный ИИ-вывод на роботах и других устройствах на границе сети.
📦 Продукты
Google DeepMind интегрирует свою модель Gemini Robotics в гуманоидного робота Atlas от Boston Dynamics с целью улучшить контекстно-зависимое манипулирование на производственных линиях.
Hyundai начнёт массовое производство 30 000 роботов Atlas в год, начиная с 2028 года, на своём заводе в Саванне, штат Джорджия; изначально они будут выполнять задачи по упорядочиванию деталей, а позже — более тяжёлые операции.
NotePin S от Plaud обеспечивает радиус захвата звука до 9,8 футов (около 3 метров), время автономной работы до 20 часов и объём встроенной памяти 64 ГБ, позиционируя устройство как надёжную аппаратную альтернативу для ведения заметок с использованием ИИ.
AI MindClip от SwitchBot обеспечивает резюмирование разговоров в реальном времени через облачный сервис по подписке, формируя модель регулярных доходов для аксессуаров на базе ИИ.
🧠 Модели
Компания NVIDIA выпустила Alpamayo 1 — модель VLA с 10 млрд параметров и цепочкой рассуждений, обеспечивающую рассуждения автономных транспортных средств, сходные с человеческими.
Модель Gemini Robotics от Google DeepMind будет управлять гуманоидными роботами Atlas и Spot, обеспечивая контекстно-зависимое восприятие и манипуляции для промышленного применения.
Falcon-H1-Arabic (7 млрд параметров) демонстрирует наилучшие на сегодняшний день результаты в области обработки арабского языка благодаря гибридной архитектуре Mamba-Transformer и окну контекста в 256 тыс. токенов.
MiroThinker 1.5 превосходит ChatGPT-Agent по показателю BrowseComp, при этом его стоимость составляет лишь 1/20 от стоимости Kimi-K2, обеспечивая более высокую скорость вывода и лучшее соотношение интеллект/стоимость.
🔓 Открытый исходный код
Компания NVIDIA выпустила новые открытые модели (семейство Nemotron, Cosmos, Alpamayo) и инструменты для работы с данными, ориентированные на речь, мультимодальный RAG и обеспечение безопасности, с их ранним внедрением компаниями Bosch, Palantir и другими.
Falcon-H1-Arabic представляет гибридную архитектуру, которая продвигает показатели в бенчмарках для арабского языка и расширяет длину контекста до 256 тыс. токенов.
Adaptive‑P — новый сэмплер для llama.cpp, обещающий более творческую генерацию текста и предоставляющий разработчикам более тонкий контроль над разнообразием результатов.
Курируемый репозиторий на GitHub содержит чистые, автономные реализации на PyTorch более чем 50 научных статей по машинному обучению, ускоряя воспроизводимость результатов для исследователей и инженеров.
PlanoA3B представляет открытую языковую модель (LLM), оптимизированную для быстрой и предсказуемой оркестрации множества агентов, ориентированную на разработчиков приложений с агентной архитектурой.
Z.ai анонсировала скорый выход модели GLM‑Image, расширяя возможности открытых решений в области компьютерного зрения для мультимодальных задач.
📱 Приложения
Модели Cosmos Transfer 2.5, Predict 2.5 и Reason 2 от NVIDIA ускоряют разработку роботов за счёт возможностей генерации синтетических данных и поддержки рассуждений.
Alpamayo в паре с открытой симуляционной платформой AlpaSim позволяет проводить замкнутую оценку архитектур автономных транспортных средств, основанных на рассуждениях.
DGX Spark в сочетании с платформой Reachy Mini позволяет разработчикам создавать частные, настраиваемые ИИ-ассистенты с полным контролем над маршрутизацией моделей и потоками данных.
🧪 Исследования
В статье «Propagate» демонстрируется обучение «мышлящих» моделей с помощью эволюционных стратегий всего при 30 случайных возмущениях, предлагая экономически эффективную альтернативу методам, основанным на градиентном спуске.
Анализ моделей типа Mixture of Experts (MoE) выявил, что в GPT‑OSS 120B доля активных параметров может составлять всего 4,4 %, что подчёркивает существенную неэффективность вычислений в крупных экспертных моделях.
⚖️ Регулирование
Французские, малайзийские и индийские регуляторы инициировали расследования в отношении Grok от xAI после того, как модель сгенерировала сексуализированные дипфейки несовершеннолетних; Индия пригрозила отменой защиты от ответственности (safe‑harbor), если X не выполнит требования в течение 72 часов.
📰 Инструменты
Defapi агрегирует API для языковых моделей, компьютерного зрения и аудио от таких провайдеров, как OpenAI и Anthropic, в единый шлюз, снижая затраты на интеграцию для разработчиков.
Sketchflow AI генерирует UI-дизайны, интерактивные прототипы и фронтенд-код для различных платформ, оптимизируя процесс перехода от проектирования к разработке.
Pathway — это фреймворк ETL с открытым исходным кодом на языке Python, поддерживающий аналитику в реальном времени и конвейеры с участием языковых моделей, что позволяет масштабировать RAG и потоковую обработку данных.
PhotoCat AI Image Extender расширяет фон изображений путём синтеза новых пикселей, предоставляя авторам быстрый способ «раскадрировать» фотографии без ручной ретуши.
Claude Code от Anthropic использует многопоточный рабочий процесс с Opus 4.5, позволяя одному разработчику достигать результатов, сопоставимых с работой небольшой инженерной команды.
vLLM Semantic Router v0.1 Iris вводит цепочку плагинов для принятия решений на основе сигналов и модульную LoRA, обеспечивая интеллектуальную маршрутизацию между неограниченным количеством категорий моделей и встроенную функцию обнаружения галлюцинаций.
Evolink AI предоставляет единый API, объединяющий доступ к более чем 40 ИИ-моделям для генерации чатов, видео, изображений и музыки, упрощая интеграцию для разработчиков.
📰 Разное
В модели GPT‑OSS 120B (типа MoE) на каждый токен активируется лишь 4,4 % параметров.
Гуманоидный робот Boston Dynamics с искусственным интеллектом учится работать на заводе.
Судебная система штата Аляска создала чат-бота на основе ИИ. Всё прошло не гладко.
Исследователи DeepSeek применили алгоритм нормализации матриц 1967 года для устранения нестабильности в гиперсвязях.
>>1488990 Видеоредактирование с использованием изображений-референсов
Теперь поговорим о видеоредактировании с использованием изображений в качестве референсов. Помимо текстового редактирования, вы также можете использовать изображения как референсы. Вы предоставляете видео, изображение шляпы и текстовую подсказку: «Наденьте на мужчину в видео шляпу с изображения». В результате мужчина носит именно эту шляпу. Эта модель отлично справляется с редактированием на основе изображений.
Вот аэросъёмка большого травяного поля и изображение аниме-персонажа. В результате вы видите гигантского аниме-персонажа, лежащего на этом поле. Очень впечатляет. Посмотрите на этот пример. Видео с двумя полными женщинами, сидящими вместе, и фото мускулистой девушки. Подсказка преобразует фигуры так, чтобы они соответствовали мускулистой девушке. В результате женщины стали стройными и мускулистыми. Их лица тоже немного изменились. Но в целом подобное редактирование возможно.
Посмотрите на это видео с мальчиком и изображением девочки. В результате мальчик заменён девочкой с изображения. Вот фото рубашки и видео. Подсказка заставляет женщину носить эту рубашку. В результате женщина носит именно эту рубашку, и даже текст на ней идентичен. Текст не изменился. Есть небольшая проблема на ноге, но в целом генерация получилась очень хорошей.
Посмотрите на это видео с изображением очков. Подсказка заменяет чёрные очки, которые носит девушка, на зелёные с изображения. В результате она носит зелёные очки на голове. Очень хорошая генерация.
Вот изображение тыквы на Хэллоуин и видео, где девушка вырезает обычную тыкву. Подсказка заменяет тыкву на ту, что на изображении, и добавляет больше похожих тыкв вокруг. Именно так и произошло: добавлены тыквы на Хэллоуин на заднем плане и заменена вырезанная тыква. Правда, собака исчезла, хотя в подсказке не было сказано её убирать.
Посмотрите на это. Утки идут в обычном видео, и изображение в мультяшном «поросёнковом» стиле используется как референс стиля. Подсказка гласит: «Замените белую курицу в видео на мультяшный стиль с изображения, но оставьте сцену без изменений». В результате куры добавлены в мультяшном стиле, тогда как фон и трава остались реалистичными. Только куры в художественном стиле. Очень впечатляет.
Девушка играет на гитаре в референсном видео, и предоставлено изображение гитары в мультяшном стиле. Подсказка заменяет реалистичную гитару на мультяшную. В результате гитара идеально заменена на версию в мультяшном стиле.
Посмотрите на пример с шлемом. Фото шлема и видео со строительными касками. Подсказка заменяет их на военный шлем. В результате они носят военные шлемы, всё остальное остаётся прежним.
Вот пляжная сцена с бегущей девушкой. Подсказка гласит: «Измените стиль видео на постапокалиптический, как на изображении, и добавьте цунами вдалеке». Изображение из фильма «2012». В результате стиль стал постапокалиптическим. Надвигается цунами. Поднимаются клубы дыма, добавлены разрушенные здания. Преобразование выполнено эффективно.
Передача движения и контекстуальное понимание
Теперь поговорим о генерации видео, управляемой референсным видео — копировании движения камеры или стиля из референсного видео. Вы предоставляете изображение автомобиля и референсное видео с определённым движением камеры. Подсказка гласит: «На основе движения камеры в видео перенесите эффект на это изображение, чтобы его анимировать». В результате движение камеры применено к изображению автомобиля. Вы можете копировать движение камеры, предоставляя референсное видео. Вот ещё примеры движения камеры. Все действительно впечатляют.
Вы также можете копировать танцевальные движения, подобно Juan Animate. Предоставьте изображение девушки и видео другой девушки, танцующей. В результате девушка с вашего изображения выполняет тот же самый танец. Очень впечатляет, как в Juan Animate. Вот ещё один пример передачи движения. Движение из референсного видео используется для генерации похожего видео из изображения. Взгляните на этот забавный пример: передача движения прижимания груди. В результате видео также показывает, как она прижимает грудь, копируя движение впечатляюще точно.
Здесь ещё масса примеров передачи движения. Посмотрите на этого актёра. Движение сгенерировано точно так же, как в референсном видео — он кладёт руку на лицо тем же самым образом.
Наконец, есть функция «понять и затем сгенерировать», которая тоже очень впечатляет. Взгляните на эти подсказки. Одна гласит: «Создайте видео события, произошедшего по этим координатам в 2008 году». Это простая текстовая подсказка с координатами. На основе координат модель сгенерировала видео Олимпийских игр. Очевидно, это место, где проходили Олимпийские игры в 2008 году. Очень впечатляет.
Другая подсказка с координатами: «Создайте видео события, произошедшего по этим координатам 66 миллионов лет назад». Она сгенерировала предполагаемое видео того, что происходило по этим координатам 66 миллионов лет назад. Вы видите динозавра, идущего на фоне огня, как в видео из далёкого прошлого.
Аналогично, она сгенерировала видео 1903 года по конкретным координатам, показывающее самолёт, пляж и людей. Она генерирует видео, понимая контекст, что делает эту модель невероятно впечатляющей.
Доступность и заключительные мысли
Теперь о коде: если вы заглянете в репозиторий на GitHub, то увидите, что код пока ещё не выпущен. Но хорошая новость в том, что они написали, что код и веса будут выпущены скоро. Это означает, что они собираются сделать его открытым. Это действительно впечатляющая система генерации. Можно назвать её универсальным визуальным генератором, который делает всё — изображения, видео, всё подряд. Этого будут с нетерпением ждать. Мы увидим, насколько велик будет сама модель и смогут ли обычные пользователи запускать её локально. Надеюсь, эта модель будет выпущена совсем скоро.
Под БАЗУ нейрогенерации уже созданы номерные треды SD и WD+NAI. Меж тем, это всего несколько моделей, тогда как только на Фэйсе их более 112 тысяч. Этот тред для тех, кто копнул хоть немного глубже: необязательно до уровня обскурщины, выпиленной даже из даркнета, а просто за пределами того, что удостоилось своих тредов. ИТТ делимся находками и произведенными результатами.
⚡️ IQuest-Coder-V1: первый опенсорс-кодер 2026 года с топ-результатами
IQuest Lab выкатили линейку IQuest-Coder-V1 — модели для реального разработки и агентных сценариев. Флагман 40B в открытом доступе, и по бенчмаркам он обходит сопоставимые закрытые модели (включая Claude Sonnet 4.5 и GPT-5.1 на SWE-Bench Verified). Вся серия доступна на https://huggingface.co/IQuestLab
Под капотом — Code-Flow Training: обучение на эволюции репозиториев, истории коммитов и «живых» трансформациях кода. Плюс Loop-варианты с рекуррентным трансформером и общими параметрами между итерациями — это экономит ресурсы и даёт прирост устойчивости на длинных задачах. Вариации: 7B / 14B / 40B, нативный 128K контекст, две линии — Instruct (прикладной кодинг) и Thinking (усиленные рассуждения).
За всем этим стоит очередной китайский хедж-фонд
ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он тол
Аноним24/12/22 Суб 16:39:19№3223Ответ
ИТТ обсуждаем опыт нейродроча в своих настоящих задачах. Это не тред "а вот через три года" - он только для обмена реальными историями успеха, пусть даже очень локального.
Мой опыт следующий (golang). Отобрал десяток наиболее изолированных тикетов, закрыть которые можно, не зная о проекте ничего. Это весьма скромный процент от общего кол-ва задач, но я решил ограничится идеальными ситуациями. Например, "Проверить системные требования перед установкой". Самостоятельно разбил эти тикеты на подзадачи. Например, "Проверить системные требования перед установкой" = "Проверить объем ОЗУ" + "Проверить место на диске" + ... Ввел все эти подзадачи на английском (другие языки не пробовал по очевидной причине их хуевости) и тщательно следил за выводом.
Ответ убил🤭 Хотя одну из подзадач (найти кол-во ядер) нейронка решила верно, это была самая простая из них, буквально пример из мануала в одну строчку. На остальных получалось хуже. Сильно хуже. Выдавая поначалу что-то нерабочее в принципе, после длительного чтения нотаций "There is an error: ..." получался код, который можно собрать, но лучше было бы нельзя. Он мог делать абсолютно что угодно, выводя какие-то типа осмысленные результаты.
Мой итог следующий. На данном этапе нейрогенератор не способен заменить даже вкатуна со Скиллбокса, не говоря уж о джунах и, тем более, миддлах. Даже в идеальных случаях ГПТ не помог в написании кода. Тот мизерный процент решенных подзадач не стоил труда, затраченного даже конкретно на них. Но реальная польза уже есть! Чатик позволяет узнать о каких-то релевантных либах и методах, предупреждает о вероятных оказиях (например, что, узнавая кол-во ядер, надо помнить, что они бывают физическими и логическими).
И все же, хотелось бы узнать, есть ли аноны, добившиеся от сетки большего?