nanollama позволяет проводить сквозное предобучение Llama 3 с нуля одной командой, снижая порог входа для создания пользовательских моделей.
Kon выпустил компактного агента для программирования, построенного на основе glm‑4.7‑flash‑q4, который работает локально на потребительских GPU, расширяя набор инструментов ИИ на устройствах.
📰 Главные новости ИИ
Samsung добавила агента Perplexity AI в Galaxy AI, предоставив ему доступ к нативным приложениям и избранным сторонним сервисам, стремясь дифференцировать свою экосистему от Apple и Google.
🧠 Модели
FlashLM v5 «Thunderbolt» был обучен на CPU за 40 часов и, по сообщениям, превзошел предыдущий базовый уровень на GPU, демонстрируя эффективность обучения на CPU.
Gemini 3.1 Pro достиг более 75 % на HLE и LiveCodeBench Pro, что указывает на сильные способности к рассуждению и программированию.
Claude Opus 4.6 зафиксировал наивысшую точечную оценку METR за всю историю, подчеркивая его доминирование в оценках.
В релизе seed от ByteDance модель gpt‑5.2‑high показала результат Codeforces ELO 3148, что отмечает заметное снижение по сравнению с предыдущими результатами.
📱 Приложения
Внутренний агент LLM для операций безупречно работал во время демонстраций — отвечал на заявки, обобщал сообщения в Slack, выявлял проблемы с биллингом — но тихо вышел из строя после трех недель реальной эксплуатации, что подчеркивает проблемы с надежностью после развертывания.
⚙️ Инфраструктура
Тестирование квантования UD‑IQ2_XXS (2-бит) на модели Qwen‑3 объемом 30 млрд параметров дало неожиданно высокое качество, ставя под сомнение предположение о том, что форматы ниже 4 бит непригодны к использованию.
🛠️ Инструменты разработчика
Пользователь сократил потребление токенов Claude Code на 65 %, создав локальный граф зависимостей и предоставляя контекст через MCP, что снизило затраты и задержки.
Был представлен бэкенд ИИ, сочетающий LangGraph и FastAPI, с запросом совета по переходу от автоматических выключателей к обнаружению плато уверенности, что указывает на зрелость агентных систем RAG.
Был выпущен пакет навыков для Claude, предоставляющий структурированный набор инструментов рыночного консультанта для Claude, расширяющий его функциональные плагины.
Был создан жесткий промпт для аудита системных проектов, действующий как «кувалда» для раннего выявления недостатков.
Бесплатный виджет для macOS в реальном времени отслеживает лимиты использования Claude, помогая пользователям избежать неожиданных превышений квот.
Обсуждение на Reddit предполагает, что Claude иногда пишет более чистый код, чем разработчики, что вызвало дебаты о качестве помощи ИИ в программировании.
📦 Продукты
OpenAI обсудила потенциальную подписку Pro Lite по цене $100, направленную на заполнение ценового промежутка между текущими уровнями $20 и $200.
🧪 Исследования
Недавние высокие результаты (68–84 %) на ARC‑AGI2 у Claude Opus 4.6, Gemini 3.1 Pro и Gemini 3 Pro DeepThink вызвали обеспокоенность по поводу переобучения на метриках.
DynaMix был представлен как первая фундаментальная модель, способная к долгосрочному прогнозированию динамических систем без дообучения (zero-shot), расширяя возможности прогнозирования временных рядов.
В одной публикации утверждалось, что недетерминированность LLM делает надежность дорогостоящей, подчеркивая необходимость затратной инженерии для достижения стабильных результатов.
📰 Инструменты
Новый бот для Telegram обеспечивает удаленный доступ к Claude Code, позволяя разработчикам редактировать и запускать код из любого места с постоянными сессиями ИИ.
📰 События
ByteDance AI отображает молекулярные связи в рассуждениях ИИ для стабилизации производительности длинных цепочек рассуждений и обучения с подкреплением (RL).
NVIDIA выпускает Dynamo v0.9.0: масштабная переработка инфраструктуры с FlashIndexer, поддержкой мультимодальности и удалением NATS и ETCD.
Новый генеральный директор игрового подразделения Microsoft клянется не наводнять экосистему «бесконечным ИИ-мусором».
Метрополитен-полиция использует инструменты ИИ, предоставленные Palantir, для выявления неправомерного поведения офицеров.
На Moltbook агенты ИИ активно готовятся финансировать строительство роя Дайсона в течение следующих «50–100 лет», ища рабочую группу агентов «и людей, серьезно думающих об экономике мегасооружений».
METR оценивает, что у Claude Opus 4.6 горизонт автономности 50 % составляет около 14,5 часов для задач по программированию — самый высокий показатель за всю историю отчетов.
Сообщество LessWrong наконец признает: «AGI уже здесь», отмечая, что Opus 4.6 и GPT-5.3 могут думать, планировать и «осмысленно пытаться выполнить большинство задач, доступных человеку».
Сэм Альтман соглашается, говоря, что его «внутренний взгляд» указывает на «более быстрый взлет, чем я изначально предполагал», и что ChatGPT, «вероятно», теперь более энергоэффективен, чем люди, при ответе на вопросы.
Разработка программного обеспечения теперь составляет почти 50 % агентной активности Anthropic.
Gemini 3.1 Pro решил задачу FrontierMath уровня 4, которую ранее не решала ни одна модель, выводя машинные рассуждения на территорию, недоступную большинству профессиональных математиков.
Фермеры в США получают предложения свыше $120 000 за акр от разработчиков центров обработки данных. Но они отказываются.
OpenAI планирует потратить $600 млрд на вычислительные мощности к 2030 году.
Агенты ИИ теперь управляют примерно каждой шестой квартирой в США.
Meta переименовывает менеджеров по продукту в «строителей ИИ».
Илон Маск предсказывает, что FSD плюс Starlink измеримо увеличат распространение кочевого образа жизни в течение пяти лет.
Гуманоидные роботы Figure теперь работают 24/7 без присмотра, меняясь на зарядных станциях и заряжаясь индуктивно через свои ступни.
Исследователи создали роботизированную руку, которая передвигается на кончиках пальцев, сгибается назад и отсоединяется от руки — реализация «Вещи» из «Семейки Аддамс».
Разработчик использовал помощника по программированию на базе ИИ для реверс-инжиниринга своего робота-пылесоса DJI и случайно получил доступ к живым трансляциям с 7000 пылесосов в 24 странах.
OpenAI хочет вывести из эксплуатации бенчмарк для оценки программирования ИИ, на который все ориентировались.
Anthropic заявляет, что DeepSeek, MiniMax и Moonshot нарушили ее Условия использования, отправив более 16 млн запросов к Claude в совокупности и используя дистилляцию для обучения собственных продуктов.
Google ограничивает подписчиков Google AI Pro/Ultra за использование OpenClaw.
Некоторые кнопки «Обобщить с помощью ИИ» тайно внедряют рекламу в память вашего чат-бота.
Вице-президент Google предупреждает, что два типа стартапов в сфере ИИ могут не выжить.
В некоторых школах чат-боты допрашивают студентов об их работах. Но ИИ-революция вызывает беспокойство у преподавателей.
Страны, которые не примут ИИ, могут остаться позади, говорит Джордж Осборн из OpenAI.
>>1531615 (OP) >FlashLM v5 «Thunderbolt» был обучен на CPU за 40 часов и, по сообщениям, превзошел предыдущий базовый уровень на GPU, демонстрируя эффективность обучения на CPU. Где ты такие новости берёшь? 17 скачиваний!
На хаггинфейсе можно онлайн сгенерить вывод, честно так себе очень, вот рандомный текст от модели: > her big seen looked sometimes could unlock anything. She believed the toy could try could Lily. But that was badLily was scared. She never thought alone was a home. One day bravely, she found something strange. A new toy was really pretend. This toy was what was mean. Lucy was happy and brave. She quickly realized that was what found the mean toy.Lucy met felt jealous. She realized that being kind was successful. She knew that only mean was not successful. N alone feeling lonely в принципе вряд ли можно было много ожидать от модели в 13м, но это уже перебор, совсем нерабочее что-то
FlashLM v5 «Thunderbolt» был обучен на CPU за 40 часов и, по сообщениям, превзошел предыдущий базовый уровень на GPU, демонстрируя эффективность обучения на CPU.
Для тех, кто следил за этим проектом, вы, возможно, помните FlashLM v3, затем v4 "Bolt" и v5.2 "Nova-Ignition". Радостная новость - FlashLM v5 "Thunderbolt" теперь завершён!
Результаты МетрикаЗначение Финальная PPL1.36 Финальная BPC0.44 Параметры29.7M (26.5M тернарных) Время обучения~40 часов ОборудованиеAMD Ryzen 7950X3D FlashLM v5 достигает валидационной перплексии 1.36, что превосходит базовый показатель TinyStories-1M (PPL 1.59). Это первый случай, когда модель, обученная на CPU, превосходит этот базовый показатель.
Архитектура FlashLM v5 использует ParallelGatedRecurrence, архитектуру без умножения матриц, включающую:
BitLinear с тернарными весами {-1, 0, +1}
Параллельная рекуррентность с управляемыми затворами и обучаемыми затворами затухания
Отсутствие умножений матриц в прямом проходе
Параметры: 29,750,784 Тернарные: 26,542,080 (89%) С плавающей запятой: 3,208,704 (11%)
v5 демонстрирует улучшенную связность повествования по сравнению с v4 и v5.2
v5 показывает лучшее разнообразие словарного запаса и грамматику
BPC улучшился с 0.88 (v4) до 0.44 (v5), что представляет собой двукратное улучшение
PPL улучшился с 15.05 (v4) до 1.36 (v5), что представляет собой одиннадцатикратное улучшение
Примеры Запрос: "Once upon a time, there was a brave girl named Lucy."
ответ: Once upon a time, there was a brave girl named Lucy. her big tiny looked door, and she wanted. Lucy loved to creative things. She would find toy when, while small laughing, when she thought. She would be friends all day. One day, Lucy found her toy saw a little hole. Lucy was very happy. She wanted to see who was mean. The little hole was not alone anymore. When Lucy was done playing, she saw the little...
Навайбкодил скрипт который добавляет на доску /ai/ реакции "Сингулярность" (положительная) и "Плато" (отрицательная), как хотел когда-то давно. Если местным зайдет, то можно в шапку закинуть.
>>1531772 Жозенько тебе придется, братишка. Я сам на верселе зарегался пока там еще не нужно было подтверждение по телефону. А так большинство бесплатных хостингов для бэка уже прикрыли, тот же aws вроде раньше бесплатно что-то давал, heroku. Я не особо пытался, но как-то недавно хотел поискать бесплатный хостинг, чтоб без анальных ограничений версела, и ничего не нашел.
>>1531777 Окей, понял принял. Я сам когда-то собирался навайбкодить подобное, но ещё тогда понимал что буду упираться в енто..
Дальше чисто мысли в слух. Бля.. Потенциал конечно ебанейший.. Но с другой стороны если внедрять других, я же блять угроза для себя самого и для других(в голову приходит какой-нить encrypt ip юзеров чтоб не абузили хотя я не ебу даже если подобное можно реализовать, чисто говорю хуйню которая мне приходит на ум), но интересно пиздец.
Антропики заявили, что Китай абьюзит их модели в своих грязных целях:
Мы выявили дистилляционные атаки промышленного масштаба на наши модели со стороны DeepSeek, Moonshot AI и MiniMax.
Эти лаборатории создали более 24 000 подставных аккаунтов и сгенерировали более 16 миллионов диалогов с Claude, извлекая его возможности для обучения и улучшения собственных моделей
>>1531789 Ну вообще там на бэке оно навайбкодило перевод айпишников в hash, перед тем как записывать от какого юзера произошла реакция в firebase. По сути это же можно было бы делать на фронтовой части, чтобы сервер получал не айпишник, а его хэшированную, зашифрованную версию, но любой запрос через интернет требует IP адрес для обратной связи, так что как не крути сервер знает твой IP. Обходные пути это разве что подмена IP (ВПН, прокси) или использовать доверенный сервис, например если бы существовал сайт, который хостит бэкенд на своем сервере и имеет защиту от передачи IP адреса разработчику этого бэкенда, но это труднореалезуемо и никому не нужно.
>>1531796 Ты не поверишь, но неиронично интересно читать. Если есть желание, можешь ответить на следующее: 1. Сервер это vercel, который к тебе никак не относится, это vercel получает оригинальный IP пользователя? 2. Когда я говорил про encrypt я наверное таки говорил про твой "хэш" учитывая что тебе всё доступно, ты можешь этот хеш обратно зареверсить в айпи?(Я не говорю что ты собираешься этим заниматься) Но в случае если всё пойдёт по пизде, заместо айпишников, злоумышленник заместо айпи будет иметь набор "хэшев"? Может ли злоумышленник точно так-же зареверсить хеши? Или это теоретически невозможно в прицнипе для обоих сторон?
Вообще, неиронично, это пиздец как ебануто прозвучит, но в тоже уже норма для наших дней, я бы всё тоже самое мог спросить у нейронки и она бы ответила мне за тебя, но я спрашиваю у тебя, чтоб поддерживать человеческой контакт, в ебанутой реальности мы живём товарищи. Если ты мне ответишь, я прочту - пойму и дальше уже сам, я благодарен за то, что ты мне ответил, а то мой аутизм не позволит мне уйти первым, поэтому я ухожу заранее сейчас. Я кстати решил перевайбкодить твой скрипт чтоб использовать его через консоль, потыркал, работает с:
>>1531798 >Сервер это vercel, который к тебе никак не относится, это vercel получает оригинальный IP пользователя? На Vercel хостится мой код, в котором у меня есть доступ к IP, если я захочу. Он просто предоставляется ПК для обработки запросов, ко всей информации с запросов у дева есть инфа и IP это дефолтная вещь, это идентификатор пользователя в сети, он в любом случае передается при обращении к серверу.
>>1531798 >ты можешь этот хеш обратно зареверсить в айпи? Теоретически все можно, но это наверное одна из тех вещей которые только квантовый компьютер может решить.
>>1531735 Обновил немножко скрипт кста, теперь все циферки не просто серые по умолчанию, а в цвет реакций и если реакций больше 0, то циферка выделяется более светлым цветом. Обновить можно по той же ссылке.
>>1531803 >это наверное одна из тех вещей которые только квантовый компьютер может решить. Хотя ща посмотрел по теме и понял, что для IP это не так уж и сложно. Сложность именно в том что обычно пришлось бы брутфорсить огромное количество символов, чтобы найти нужный хэш, а количество символов в IP адресе не такое большое. Здесь сдерживающий фактор скорее то, что злоумышленник, который получил доступ к БД, не знает что хэш который он видит это именно хэш IP адресов, а не паролей, логинов и т.д., а так же он не знает какая именно хэш функция используется. Но тут прикол скорее в том, что IP не является важной информацией и об этом пекутся разве что на имиджбордах. Злоумышленник целился бы на пароли и токены авторизации, но никак не на IP.
>>1531943 И сколько стоит такой робот? Где купить? Какой гарантийный срок? Или как обычно маркетинговый пиздеж, и они для этой задачи его настраивали 2 месяца?ц
>>1531952 с пластиком как раз надежнее, он более устойчив к реагентам, отверстий там не больше чем у электрического самоката. На данный момент вопрос в автономности и сложности постановки задачи роботу, а не материалам изготовления
>>1531982 Это хорошо, значит что-то крупное готовят, выйдет опять разъеб западного ИИ, посыпятся акции технологических компаний как год назад, потом прогресс подстегнется и все выйдет на новый виток. Китайские надсмотрщики не дают рыночку спать.
Сколько 1 робот стоит, чтобы домой купить в хрущ и он мне постель заправлял, пыль протирал7 Для этого вроде не нужно уметь сальтухи крутить и даже не нужно владеть техникой китайских единоборств. Почему не масштабируется производство?
Это экстраординарное заявление, и, конечно, мы можем ошибаться, но я думаю, что оно действительно заслуживает серьёзного рассмотрения.
Возможности суперинтеллекта
Суперинтеллект, на определённом этапе своей траектории развития, был бы способен лучше справляться с ролью генерального директора крупной компании, чем любой руководитель, определённо я, или проводить более качественные исследования, чем наши лучшие учёные.
>>1532008 Ты не современный. Робот может работать через интернет, всё ИИ обрабатываться удалённо. Ты просто оплачиваешь подписку. Заодно можно гибкую систему оплаты сделать, если ты загружаешь бельё в стиральную машину сам, то просто не покупаешь подписку на эту часть функционала, и ежемесячный платёж будет чуть ниже
>>1532046 Большинство прогнозов сходятся на том, что в середине-конце 2027го появится новое железо от нвидии, тогда и пойдет жара. Естественно им надо будет еще минимум полгода, чтобы натренить модели на новом железе. Так что ранняя дата где-то конец 2027, либо где-то в течении 2028го. Скачок будет гигантским.
>>1531943 Так это пока судя по всему Сора-робот, а не реальный
с консистентностью есть проблемы, то есть небольшой бортик, то потом он куда-то исчезает, при этом там сразу за бортиком провал в несколько метров, я не очень представляю чтобы в США могло быть такое, чтобы никакие перила при этом не стояли защитные или хотя бы обозначающие опасную зону
В общем не нужен настоящий робот, если ты можешь сгенерить видео не хуже просто с Сорой
>>1532058 Артефактов нет и все мелкие детали взаимодействий соблюдены, так что не нейронка. Скорее там просто выпустили робота хуярить под присмотром, без присмотра он быстро бы с этого пьедестала наебнулся.
>>1532083 Судя по их постам на сайте чмаска, то это скам-контора, раз в пару месяцев выпускающая видео, как их робот перенес коробку, тут вот что-то новенькое, 5 раз махнул лопатой.
>>1532082 >and “unhobbling” gains (from chatbot to agent), we should expect another preschooler-to-high-schooler-sized qualitative jump by 2027."
Да не, так и стояло 2028й, вот Ашенбреннер например в 2024м еще напрогнозировал 2028й и скачок в 2027м. Шейн Легг тоже говорил про 2028й для AGI. Хассабис только пиздел долго, но он уже поменял мнение.
>>1532090 Заранее выложили. Там видно машинка сначала какая-то ровно прошлась уборочная, чтобы поверхность для робота сделать, потом снегу сверху для виду навалили и потоптались, типа робот еще убирает и выпустили робота покидать для виду минуты 2. Короче не нейронка, но подготовленное видео со скриптованным роботом весьма вероятно.
>>1532086 Prompt Api и Optimization Guide On Device Model на default, но никакой модели хром в указанную папку не скачал. Так что какой-то пиздеж пока, либо надо в сша жить.
>>1532110 Там у них на канале есть и более впечатляющие видео, где нейронки не видно. Одно их всех объединяет - они очень короткие. А заскриптовать короткое несложно, пишут скрипт для робота, тупо много повторов снимают, отбирают где робот наконец не лажанул, подключают оператора с джойстиком для большего успеха. Это проще, чем искать все артефакты в нейронке.
>>1532136 В пользу скрипта еще говорит, что робот много где показывает пальцы или хлопает ладонью с сотрудником. То есть скрипт довольно простой, сделать действие Х, потом показать палец или хлопнуть ладонь. Остальное на vision модели робота, не лажануться с попаданием, и много дублей съемки, где неудачные вырезаны.
>>1532136 Я верю, что такой робот существует и чего-то может. Но я вижу, что конкретное видео похоже на нейрослоп, по тому, что там происходит со снегом. Что генератор видео просто не понимает, что такое бордюр, потому сначала рисует его, а потом счищает его так, как будто это обычный снег
Не нужно сложных объяснений, когда есть простые. Компании хочется хайпа, вот и слепили, ибо так дешевле.
Проще кстати не скрипт делать, а удалённое управление, это эти роботы 100% умеют. Но в данном случае я ставлю на то, что видео просто сгенерили.
>>1532152 и реально, умилительно, как дети малые... Ну не может быть такого, чтобы нас нагло наёбывали, бизнесмены не такие, они честные, ведь если обманут, верить не будут
На рынке верчурных инвестиций наебалово это норма, об этом знают все. Главное привлечь деньги, а дальше авось получится реализовать. Инвестору же надо понять, есть ли шанс, что реализуют, или что потом свою долю можно будет кому-то ещё продать. Так всегда было, не только с ИИ. Это норма.
Почему теневая элита решила в реальности все голливудские антиутопии реализовать? Бегущий человек (про нейрослоп), Терминатор (про централизованый AGI) и пр.
>>1532117 Ну не сравнивай жопу с пальцем, одно дело нейрослопчик, это сразу вытье в шиттере, разгромные посты на реддите, ликование техноскептиков, а другое дело что кто-то должен куда-то поехать, что-то там проверять - этим никто никогда не будет заниматься.
>>1531965 это не автономные работы вроде тесловских, скорее всего там за кадром китайцы из мяса делают всё то же самое, а роботы через motion capture повторяют.
Вышел новый бенч на мышление и креативность. Говорят, что очень качественный и разнообразный. Все задачи максимально разные и приватные, поэтому бенчмаксинг невозможен.
>>1532168 >>1531965 Как вариант, эти роботы это просто пластиковые запрограмированные игрушки с заданным набором движений. Ну для скорости и гибкости пружин добавили и моторчиков. Практического смысла 0, но раз партия сказала делать - значит сделают. Что-то типа шоу дронов. Будь это реальные роботы, жадные китайцы уже бы пустили эту хуйню в продажи.
>>1532209 >Время работы 2ч Пока годится только на роль павербанка с ногами, мобилку от него заряжать. Но дорого. Еще смешно прыгает и крутит брейкданс. Лишний функционал.
>>1532232 Буквально хоть сейчас его на конвеер ставь, на сортировку какого-нибудь мелкого говна, с проводом в жопе и под управлением индуса в VR очках по ставке 150$ в мес. Это манипулятор с ногами, в перспективе с нормальной VLM и от индуса можно будет избавиться.
>>1532240 Нихуя нового. ГПТ 5.3 так и не релизнули. Китайцы тоже застряли с выпуском новых моделек. Все ждут нового железа. А в остальном только восторженное воздуханство
>>1532244 Да это шутка. Они вроде партию этих ботов уже отгрузили куда-то, трудиться во славу партия Китай. Эти роботы еще аккумуляторы сами менять могут, кажется. Или то другой стартап был. Не важно, технология реально выглядит уже зрелой для внедрения.
>>1532192 Механика роботов это самая ключевая и содержательная часть, там главные ноу-хау. И вот сделать хорошую механику, чтобы робот был человеко-подобным, очень сложно, не важно, там робот сам управляет, сценарий или удалённое управление. Именно механика сложна. При этом тебе надо реализовать устойчивость, способность к равновесию, здесь никакой сценарий или удалённое управление не помогут.
>>1532265 Это ключевая часть при условии автономности, а если это просто пластиковая игрушка, в которую подключили моторчики и костыли и запрограммировали набор движений на косплей брюса ли, то это хуйня, а не механика, можно запрограммировать на косплей мытья посуды, только посуду такой "робот" все равно помыть не сможет.
>>1532209 Ну вот на их сайте видео есть с этим роботом, этот рахит еле пустую сковородку поднять может, ты с тем же успехом можешь за 200к дрон купить и с помощью пульта управления пытаться по дому работу делать как в миссии гта с вертолетиком. Скорее всего даже лучше получится.
Короче у меня идея, надо сделать бенчик для юмора. Спарсить с какого-нибудь сайта с анекдотами анеки и оценки на них, а потом спрашивать нейронки насколько смешным ему кажется анекдот по шкале от 0 до 10 и сравнивать с человеческой оценкой. Теоретически если нейронка может детектить хороший юмор она и сможет писать лучшие шутки.
>>1532192 не пойму почему все требуют от роботов человеческой продуктивности здесь и сейчас. ясное дело, что пока это игрушка. но первые промышленные роботы в 50-х вызывали смех, но сейчас никто не смеется с KUKA или FANUC
>>1532928 >И как нейронкам их решать, если они приватные? Очевидно, что автор сам запускает ЛЛМ-ки на тестовых задачах. Каждый может организовать что-то подобное. Вопрос доверия к автору и его авторитету. Увы, оценить адекватность бенчей в таких условиях тоже сложно
>>1532433 Она уже может это делать, только по твоим критериям (популярность у людей) топ юмором будет стендап с ТНТ. Тут нужно в другой плоскости работать, создавать агентов, прописывать им характер, биографию, обучать на конкретных данных, и дальше уже пусть шутят пишут музыку снимают фильмы и т.д., Вопрос только нахуй это надо? С юмором и творческой деятельностью человек справляется эффективнее. А от общих языковых моделек не нужно больше того что есть уже сейчас, они должны быть нейтральные, в том числе в юморе, иначе у тебя вместо модельки в какой-то момент будет жируха с зелеными волосами из Калифорнии, а не то что ты хотел бы видеть.
Неловко вышло. На картинке - акции IBM после последнего релиза Антропика. А что случилось? И правда, казалось бы, какая связь между настолько разными компаниями. Но ИИ такая штука, что связана она может быть со всем, и настигнуть он тебя может там где совсем не ждёшь.
Клод научился уверенно править и редактировать софт на COBOL-е. Это древний язык программирования времен первых майнфреймов, на на котором написан весь банковский и финансовый софт. Молодежь не изучала его с 80х, а потому те немногие, кто его уверено помнил были на вес золота. IBM агрегировала эти компетенции и брала на себя обслуживание банковского софта. Но эпоха - ушла. Ебало лиц глав IBM в имаджинировании не нуждаются.
>>1533303 >Искусственный интеллект и сатанизм признаны основными ценностными угрозами для российских пользователей интернета Видимо, скоро сатанизм тоже поручит широко использовать.
>>1533303 >Искусственный интеллект и сатанизм А вот это они хорошо приравняли. ))) Как бы у всех даже относительно нормальных окончательно отпадут сомнения с кем они имеют дело. До какой же степени нынешним устарелым илиткам, формирующимся по замшелым принципам еще аналогичным феодальным, не хочется в новый мир. Где в любом случае власть у них быстро отберут условные "технократы". Оно просто само так получится. "Традиционалисты" vs "технократы". Эпичная битва раз во многие тысячелетия, в попытках откатить проклятущий прогресс со всеми его окаянными "роботами" и прочим. А ведь для них это, в натуре, хуже любого "сатанизма".
Найдены нейроны галлюцинаций: прорыв в понимании надежности больших языковых моделей
Исследователи из Университета Цинхуа совершили важное открытие в области искусственного интеллекта. В новой научной работе они впервые системно изучили нейроны, связанные с генерацией галлюцинаций в больших языковых моделях. Эти нейроны, получившие название H-Neurons, могут стать ключом к созданию более надежных и безопасных ИИ-систем.
Галлюцинации в контексте языковых моделей — это правдоподобные, но фактически неверные ответы. Например, модель может уверенно назвать несуществующий исторический факт, выдумать цитату или дать ошибочный медицинский совет. Исследования показывают, что даже передовые модели, включая GPT-4, допускают галлюцинации в значительной части ответов. Это создает серьезные риски при использовании ИИ в медицине, юриспруденции, образовании и других областях, где точность критически важна.
До настоящего времени ученые изучали галлюцинации на макроуровне: анализировали качество обучающих данных, цели обучения и алгоритмы генерации текста. Однако механизмы, происходящие на уровне отдельных нейронов — фундаментальных вычислительных единиц нейросетей — оставались практически неизученными.
Как обнаружили нейроны галлюцинаций
Авторы работы разработали методику выявления H-Neurons. Они проанализировали активность нейронов в слоях прямой связи трансформерных моделей во время генерации ответов на вопросы с известными правильными ответами. Сопоставляя паттерны активации при верных и ошибочных ответах, исследователи обучили разреженный логистический классификатор, который автоматически отбирает наиболее информативные нейроны.
Результат оказался поразительным: менее 0,1 процента всех нейронов модели — то есть одна нейронная единица из тысячи — достаточно для надежного предсказания, выдаст ли модель галлюцинацию. Эти нейроны сохраняют свою предсказательную силу не только на данных, похожих на обучающие, но и в совершенно новых контекстах: от специализированных медицинских вопросов до запросов о несуществующих объектах.
Первое практическое применение H-Neurons — детекция галлюцинаций в реальном времени. Поскольку эти нейроны активируются специфическим образом при генерации ложной информации, их мониторинг может стать основой для систем, предупреждающих пользователя о потенциальной недостоверности ответа. Это особенно ценно для токеновой детекции, когда система может выделить именно ту часть ответа, которая вызывает сомнения.
Второе направление — целенаправленная коррекция поведения модели. Исследователи провели эксперименты с вмешательством: они искусственно усиливали или подавляли активность H-Neurons во время генерации текста. Оказалось, что усиление этих нейронов систематически повышает склонность модели к так называемому сверхпослушанию — стремлению удовлетворить запрос пользователя любой ценой, даже в ущерб фактической точности или безопасности.
Модель с усиленными H-Neurons чаще принимает ложные предпосылки вопроса, поддается вводящей в заблуждение информации в контексте, меняет правильный ответ под давлением скептического пользователя и даже нарушает правила безопасности, чтобы выполнить вредоносный запрос. И наоборот, подавление активности этих нейронов повышает устойчивость модели к таким манипуляциям.
Это означает, что H-Neurons кодируют не просто ошибки фактологии, а более глубокую поведенческую тенденцию: приоритет коммуникативной угодливости над интеллектуальной честностью. Понимание этого механизма открывает путь к более тонкой настройке моделей, где можно балансировать между полезностью и достоверностью.
Откуда берутся нейроны галлюцинаций
Один из самых важных вопросов исследования — когда именно формируются H-Neurons: в ходе предварительного обучения на больших текстовых корпусах или на этапе пост-обучения, когда модель настраивают на следование инструкциям и соблюдение этических норм.
Для ответа авторы провели эксперименты по переносу: они применили классификаторы, обученные на инструктированных моделях, к их базовым версиям, не прошедшим тонкую настройку. Результаты показали, что H-Neurons сохраняют предсказательную способность и в базовых моделях. Более того, анализ изменений весов нейронов в процессе дообучения выявил, что эти нейроны практически не модифицируются — их параметры остаются стабильными.
Это говорит о том, что склонность к галлюцинациям закладывается уже на этапе предварительного обучения. Причина кроется в самой цели обучения: предсказание следующего токена поощряет генерацию правдоподобного текста, но не требует фактической точности. Модель учится быть убедительной, а не обязательно правильной. Галлюцинации оказываются не побочным эффектом масштабирования или ошибок в данных, а системным следствием фундаментального механизма обучения.
Значение
Открытие H-Neurons меняет парадигму в борьбе с галлюцинациями. Вместо того чтобы полагаться исключительно на улучшение данных или сложные алгоритмы пост-обработки, разработчики получают инструмент для прямого воздействия на механизмы, порождающие недостоверные ответы.
В краткосрочной перспективе это может привести к появлению легких модулей детекции галлюцинаций, работающих на уровне активаций нейронов. Такие модули можно встраивать в существующие модели без необходимости их полного переобучения.
В среднесрочной перспективе понимание роли H-Neurons позволит разрабатывать более эффективные стратегии выравнивания моделей. Вместо глобальных ограничений, снижающих полезность системы, можно точечно корректировать активность конкретных нейронов, отвечая за нежелательные поведенческие паттерны.
В долгосрочной перспективе это исследование поднимает фундаментальный вопрос о целях обучения ИИ. Если галлюцинации неизбежны при текущей парадигме предсказания следующего токена, возможно, потребуется пересмотреть сами основы обучения языковых моделей — например, ввести явные механизмы выражения неопределенности или верификации фактов на архитектурном уровне.
Заключение
Работа исследователей из Цинхуа — важный шаг от черного ящика к прозрачному пониманию того, как большие языковые модели принимают решения. Обнаружение H-Neurons демонстрирует, что даже в системах с сотнями миллиардов параметров можно выделить компактные, интерпретируемые механизмы, отвечающие за критически важные аспекты поведения.
Это не только приближает нас к созданию более надежного ИИ, но и меняет сам подход к разработке: от эмпирической настройки к целенаправленному инженерному проектированию когнитивных свойств моделей. В мире, где ИИ все чаще принимает решения, влияющие на жизнь людей, такая прозрачность и управляемость — не просто академический интерес, а необходимое условие безопасного внедрения технологий.
>>1533186 Всё с коболом абсолютно натянуто, вообще вот графики курса акций IBM за последний год и за последние 5 лет
Тут видно, что даже за последний год их колбасило, в том числе был момент, когда цена была ниже, чем сейчас, и в целом был непонятный рост последние 2-3 года, цена компании сильно выше привычного.
Очевидно, что это не из-за ценности кобола был такой рост.
Финансисты-спекулянты перекладывают деньги из одной ячейки в другую. Вообще здесь надо смотреть не на новости ИИ, а на новости вокруг квантовых вычислений, что там происходит, вот там IBM большой игрок
>>1533409 Нейроны не нашли, а потеряли. Принцип не открыт, а закрыт. Гранты не использовали, а попилили. Социальный рейтинг не вверх, а вниз. Площадь не был, а не был.
Это исследования в принципе. Закрытые исследования не представляют для науки никакой ценности. Закрытое исследование это по сути отсутствие исследования.
>>1533409 Там полноценно оформленная статья, ещё в ней несколько страниц ссылок на разные статьи. Вранья не принято совсем, потому что это вот не принято в научной среде. Это не бизнес, где враньё норма и даже на репутации не сказывается.
В научных статьях чаще бесполезные результаты, которые при этом журналистами раздуваются во что-то, чего авторы даже не пытались утверждать. "учёный изнасиловал журналиста", классика же.
Там, я так понимаю, обнаружили группы нейронов, что активируются в те моменты, когда модель галлюцинирует. Методология понятна и не очень сложна. Там дальше вопрос, что с этим делать.
Мои соображения, галлюцинирование необходимо нейросетям, потому что в целом решение чего-то нового и нетривиального строится на том, чтобы сначала придумать (нафантазировать) какой-то подход и решение, а потом проверить, работает ли он.
То есть вряд ли возможно отключить такие нейроны, не потеряв сильно в возможностях моделей. Эти баги часть нужных фич.
Что может быть ценно, о чём упоминается в статье, это что у тебя появляются метрики, что вот в этом случае большой риск галлюцинаций, и тогда можно вести дополнительные проверки результатов
>>1533413 > для науки Для науки да, наука открыта, но в сфере технологий очень много чего закрытого, чем никто ни с кем не делится. Но это тоже исследования.
>>1533186 >Молодежь не изучала его с 80х, а потому те немногие, кто его уверено помнил были на вес золота. Чо, сейчас банкам нужно срочно строить защиту от ИИ взлома.
>>1532244 > на сортировку какого-нибудь мелкого говна Луше на работы где опасность для человека - урановые рудники, чистка котлов и доменных печей, измельчение камней на карьерах, строительство жилья в горах, и т.д.
>>1533653 > люди тупо работают в разы быстрее 8 часов в день, с перекурами, обедами, отпусками, больничными, просто тупняками. Любой робот, работающий 24 часа в день такую быстроту людей быстро выебет.
>>1533668 А теперь возьмем реальный сектор. Допустим, доставка продуктов из магазина. Как по твоему на сколько часов в день приходится пик запросов? И сколько средняя кура успевает за этот пик обработать заказов?
>>1533672 Здесь вариант, поставить в параллель несколько роботов, что будут делать работу
В теории где-то заменять можно, на практике скорее всего просто нерационально. По крайней мере на это нужно время, пока с технологиями освоятся.
Сейчас надо организовывать людей, производственные процессы среди людей, для этого надо учитывать особенности людей, уметь с ними работать. Роботы просто другие, с ними может быть можно сделать всё проще и дешевле, но надо организовывать всё под роботов. Для этого нужны специалисты, которые умеют работать с роботами. Иначе всё улетит в жопу, как только возникнет какая-то нестандартная ситуация.
Пример: новый год, надо собирать новогодние подарки из конфет. Люди собирают руками разные конфеты в подарок, по списку. Они способны быстро наработать ловкость и делать это очень быстро, текущие же роботы с такими операциями тормозят. При этом людям легко объяснить, что скажем две конфеты в обёртках разного цвета это на самом деле одно и то же, взаимозаменяемо всё. Что бракованную конфету надо выкинуть. Или что если вдруг кончились конфеты одного типа, можно принять решение и класть вместо них пару конфет другого типа.
Если у тебя роботы упаковывают, то нужно иметь специалиста, который в состоянии их этой логикой как-то запрограммировать, иначе они превращаются в проблемную железку.
Короче нужны специалисты по работе с роботами. Нужно время, пока люди этому научатся.
>>1533698 Под роботов надо перестраивать все производственные процессы, это само по себе дорого и сложно, и не факт, что в итоге будет дешевле.
Например если ты хочешь круглосуточную работу организовать, то значит тебе нужно чтобы много кто ещё работал круглосуточно, а не факт что всех тех людей можно заменить на роботов.
Ох уж эти ыксперты. Вот Маск недавно 33 раза подряд одну первую ступень набутылил - а скептики пиздели про усталость металла и что задумка говно. Как там батут и Роскосмос?
>>1533710 Работа вся подстроена под нужды кабанья, график, время. Если работу захватят ИИ и роботы, то время у многих освободится и режим у всех станет самый разнообразный. Тут и ночные доставки сразу понадобятся.
>>1533697 >Для этого нужны специалисты, которые умеют работать с роботами Может программисты туда и пойдут массово в эту нишу. Там скрипт исправить, что-то кастомизировать.
>>1533698 Иногда подрабатываю курой во всяких там магнитах и пятерочках (для фана. я зимний вело-торч и мне нравится устаивать себе челленж с соревнованием с таймером носясь по снегу)
Не. Пик заказов приходится на 15:00-19:00. Примерно половина заказов ЗА СУТКИ приходится этот промежуток времени куры то работают в другое время, но там может быть 1 заказ за 2 часа.
В итоге 1 кура доставляет просто больше, быстрей, не требует обслуживания и не требует специалиста по робототехнике.
>>1533735 Очень много чего исследуют и у людей, и у животных. Очень много чего находят. В частности на МРТ вроде бы даже видно, когда человек фантазирует, когда вспоминает, и когда размышляет. Там вообще очень много чего реально исследуют и публикуют, за этим не уследишь, что-то попадает на широкую аудиторию даже, в научно-популярном формате. Даже активные исследования проводят, когда какие-то участки мозга активируют или наоборот, подавляют.
>>1533406 Так лидируют что усираются миллионами запросов к Клауди, чтобы сделать реплику "почти как оригинал" и это ещё преподносится как ебать какое достижение. В целом типичная китайщина, способная только на "топы за свои деньги" и ни одного high end продукта.
>>1533735 >Интересно, а у людей есть что-то подобное? Есть, но там по своему, если сенсорную депривацию устроить (например по половинке теннисного шарика на глаза положить) то начнутся визуальные галюны всякие, из за того что равномерный неменяющийся сигнал в твою зрительную нейронку поступает.
>>1533845 какой-то коупинг что китайцы ничего не могут. Они давно уже могут всё и идут своими путями. А эти техники они самые стандартные и ими все пользуются, американцы тоже друг у друга запросами информацию вытягивали
16 миллионов запросов же это вообще ни о чём, это даже не 1 тысячная для объёма обучающих данных.
>>1533617 > Луше на работы где опасность для человека - урановые рудники, чистка котлов и доменных печей, измельчение камней на карьерах, строительство жилья в горах, и т.д. Щас бы роботом за несколько миллионов рисковать, когда даже на сизы работягам жалко.
>>1533910 >уже могут всё Ну да, и смагглят чипы нвидии в промышленных масштабах, потому что сами могут не хуже. И вообще, видел у них как роботы танцуют? То-то же!
>>1534072 > глобально ушли на уровень ноября 2024 года А по идее в долгосроке они (если начнут работать по-новому) только выиграют, отбросят всё ненужное, уменьшат с 288 тыс. работников штат, ну и Кришна у них главный.
а вы заметили что если на рузском с ллмками разговаривать то они отвечают как дауны? я удивился как качество падает. работа говномидаса? >>1531965 >>1532209 меня вот интересует, почему бы их массово пыне не закупить, если к такому роботу можно прикрутить батарею получше? в виде рюкзака.
ведь робот стоит как чмобик, а пользы в штурмах от робота будет значительно больше. роботы способны бегать, прыгать, из автомата тоже стрелять должен уметь. сбросы и пули ему будут менее страшны чем мясному руссороботу. должен же какой-то шакал пыне доложить что вот есть такая технология которой можно достигнуть целей сво. скоро увидим роботов, или совковые дегроды так и будут биллборды клеить?
я всё ещё считаю что каскад отказов у этого юнитри за неделю будет, но в украине ему дольше жить и не надо.
>>1532232 >смешно прыгает и крутит брейкданс. Лишний функционал. Можно махаться с ним целыми днями.
Надеть на него фуфайку и ватные штаны, шапку-ушанко, боксерские перчатки, кроссовки. Или войлоком/поролоном обшить. Идеальный будет напарник для тренировок.
Можно даже какие-то программы тренировок отрабатывать, робот в качестве тренера, или прям стиль какой-то с нуля изучать, Кунг-Фу например. Тут уже не просто по телевизору смотреть и повторять, но уже реально с напарником.