Suno 5 релизнулась — нейронка снова взлетела в топы по генерации суперхитов. У музыкантов опять тряска.
• Чистейшее аудио — теперь треки вообще не отличить от профессиональных музыкантов. Шедевры получаются буквально за один промпт. •Песни можно генерить из вашего вокала и отрывков, а также из видео и даже ФОТО. •Вокал звучит, как у реальных людей. • Еще больше контроля над треком, сможете редачить каждую ноту. Получится добавить всевозможные инструменты, вокал и еще кучу всего. •Модель клепает песни любых жанров — от попсы до тяжелого металла. •Авторы обещают дропнуть Suno Studio уже 25 сентября — это будет разрывной профессиональный софт для звукозаписи.
Официального анонса еще не было, но модель уже можно тестить здесь, если имеете прем: https://suno.com/create
Сегодня, 24 сентября покажут новую версию главного геймченджера локальной генерации видео - WAN 2.5 Будет стрим на китайском (и немного на английском).
Оно небольшое, поэтому прямо тут приведу перевод полностью с небольшими сокращениями:
Рост использования AI-сервисов поражает, и мы ожидаем, что в будущем он станет ещё более стремительным.
По мере того как ИИ становится умнее, доступ к нему может стать не только ключевым драйвером экономики, но и со временем – базовым правом человека. Почти каждый захочет, чтобы у него было больше ИИ, работающего на его благо.
Чтобы обеспечить миру необходимые мощности для инференса и обучения всё более совершенных моделей, мы закладываем фундамент для масштабного роста AI-инфраструктуры.
Если ИИ сохранит текущую траекторию развития, нас ждут невероятные возможности. Например, с 10 гигаваттами вычислительных мощностей ИИ может найти способ вылечить рак или создать персонализированное обучение для каждого ребёнка на Земле. Но если мощности будут ограничены, придётся выбирать, что важнее. Никто не хочет делать такой выбор – значит, нужно строить.
Наша цель проста: создать фабрику, которая сможет выпускать по гигаватту новых AI-мощностей каждую неделю. Это невероятно сложная задача, требующая инноваций на всех уровнях – от чипов и энергетики до строительства и робототехники. Мы уже активно работаем над этим и верим, что это возможно. В нашем понимании, это может стать самым важным инфраструктурным проектом в истории.
В ближайшие месяцы мы поделимся планами и расскажем о партнёрах, а позже о том, как будем финансировать проект. Ведь рост вычислительных мощностей – ключ к росту дохода, и у нас есть несколько нестандартных идей.
Про выбор между раком и образованием мысль интересная. Но главное, что мы извлекаем из текста: OpenAI собирается строить самый масштабный конвейер мощностей, какой только можно представить.
Как это будет выглядеть, пока не до конца понятно, но один гигаватт в неделю – это 52 гигаватта в год. А это значит, что примерно (расчеты на коленке) к 2035 ИИ будет потреблять уже столько же энергии, сколько потребляет вся Америка.
Большая коалиция из 10 Нобелевских лауреатов, 70 компаний и бывших глав государств подписала требование о введении глобальных «красных линий» для ИИ
Об этом стало известно сегодня на заседании Генеральной Ассамблеи ООН. Всего требование подписало 200 человек: бизнесмены, политики, ученые. Среди них Джеффри Хинтон, Йошуа Бенджио и Войцех Заремба (соучредитель OpenAI).
Кратко о содержании:
– Подписанты требуют ввести международные юридически обязывающие «красные линии» для развития и применения ИИ. Это нужно, чтобы исключить глобальные риски для человечества: массовую безработицу, искусственные пандемии, нарушение прав человека и тд.
– Конкретный список таких «красных линий» не приведен, но предлагают, например, запрет на использование ИИ для производства оружия, организации массовых атак, несанкционированное реплицирование ИИ-систем (в том числе без участия человека) и все такое.
– Государства должны (в кавычках) договориться о таких правилах до конца 2026 года, а также нужно создать независимый международный орган для мониторинга соблюдения законов и оперативной оценки угроз.
Вот такой вот внушительный прецедент. На данный момент это самая крупная подобная петиция. Посмотрим, что выйдет.
Google выпустили инструмент "Learn Your Way". Это персонализированный репетитор, который поможет вам усвоить любую тему
Система считывает ваши увлечения, а затем любую тему объясняет так, чтобы вам было понятно и интересно. Например, если вы любите баскетбол и должны выучить законы Ньютона, то все примеры начинают строится вокруг бросков и дриблинга. Если вы художник и изучаете экономику, то всё сведется к галерейным аукционам и арт-рынкам.
Но на этом персонализация не заканчивается. Learn Your Way также умеет:
– Создавать майндмэпы, если вам удобнее воспринимать информацию визуально – Генерировать аудиоуроки, если хотите слушать, а не читать –Рисовать всякие интерактивные штуки (типа временных шкал, по которым можно тыкать) – Задавать вопросы и делать тесты, которые меняются в зависимости от того, что вы делаете неправильно
Внутри работает мультиагентная система LearnLM на базе Gemini 2.5 Pro. Даже есть специальный агент для рисования обучающих иллюстраций.
Тестировали систему на 60 чикагских студентах в возрасте от 15 до 18 лет. Им дали 40 минут на то, чтобы поизучать незнакомую им всем тему: одна группа просто читала PDFки, другая работала с LYW. Итог: через 5 дней те, кто работал с PDF, помнили материал на 67%, а те, кто учил с Learn Your Way – на 78%. Кроме того, 100% студентов, работавших с ИИ, чувствовали себя более комфортно и заинтересованно по ходу задания.
А еще систему по нескольким специальным критериям оценивали профессионалы из области образования. Получилась довольно положительная картина (скрин 2).
1. Лучшая точность следования промтам и временной контроль Новая модель значительно улучшена в плане следования промтам. Оптимизация структуры текста и внутренней архитектуры обработки позволяет глубже анализировать сложные инструкции, включающие несколько шагов и причинно-следственные связи, а не только отдельные действия. Это даёт возможность пользователям управлять более сложным развитием видеоконтента, включая взаимодействия персонажей и переходы между сценами. Благодаря улучшенному контролю временной логики и творческого выражения, статичные изображения можно превращать в динамичные видео с последовательным сюжетом и насыщенными историями.
2. Более плавные и стабильные динамичные сцены Для генерации более динамичных движений с широким диапазоном действий новая модель использует передовые методы обучения, такие как обучение с подкреплением, и стратегически корректирует распределение обучающих данных. Это позволяет модели лучше изучать и имитировать физическую динамику реального мира, что делает её способной создавать высокодинамичные движения и движения камеры, которые раньше было трудно реализовать. В результате динамика улучшается при сохранении плавности и стабильности, эффективно избегая распространённых проблем в сложных динамических сценах, таких как сбои или искажения.
3. Согласованность с разнообразными стилями Чтобы обеспечить бесшовное эстетическое соответствие между видео и референсным изображением, модель использует высокоинтенсивные методы кондиционирования изображения и обучается на огромных объёмах высококачественного видеоматериала. Эта стратегия позволяет модели точно сохранять и передавать художественный стиль оригинала, включая цвета, свет, текстуры и общую атмосферу. В результате даже при сложной динамике в видео каждый кадр остаётся в высокой степени согласованным с визуальным стилем и характеристиками референсного изображения.
4. Лучшие результаты по более низкой цене (на 30% дешевле, чем в том же классе 2.1)
Генерация 5 секунд с выходом в 1080p теперь стоит 25 кредитов (раньше было 35 кредитов)! Это означает более 1000+ видео в 1080p с использованием 2.5 Turbo в месяц при Ultra-плане и 320 видео в 1080p с использованием 2.5 Turbo в месяц при Premier-плане.
>>1363754 >запрет на использование ИИ для производства оружия, организации массовых атак Ага. Терроризм запретили, а террористы почему-то продолжают терроризировать. Странные какие-то, неужели не видят, что терроризировать запрещено?
>реплицирование ИИ-систем (в том числе без участия человека) Лицо старого бизнесмена, машущего кулаком на рой наномашин у него над головой представили? А они продолжают плодиться, перерабатывая его лысину.
>внушительный прецедент Просто нытьё стариков, трясущихся за свои шкурки.
>>1363745 >У музыкантов опять тряска. Тряска тут только у твоего унылого промпта. Все эти модели давно пережарены и генерят безликий стоковый кал, музыканты потряслись на суно 3,5 но там качество звука сосало, теперь сосет всё остальное. Но тебе и квен норм калогенератор.
>>1363752 >Если ИИ сохранит текущую траекторию развития, нас ждут невероятные возможности. Например, с 10 гигаваттами вычислительных мощностей ИИ может найти способ Оставить крестьян вообще без лектричества на бытовые нужды.
Котенков про новые загадочные фичи, про которые недавно говорил Альтман:
Созвонились с @denissexy, обсудили, что это могут быть за фичи и продукты. Что пришло в голову:
1. Sora 2, существенно лучше генерация, возможно, аудио. Генерация видео дорогая, если смотреть ценник Veo 3, так что можно ожидать pay-as-you-go оплату. К сожалению, самый малоинтересный для меня вариант :(
2. UltraMega DeepResearch — агент для поиска информации и составления отчётов, в котором под капотом происходит анализ гораздо большего количества веб-страниц / ваших документов (почта/гугл-диск/итд). DeepResearch это продукт с понятной нишей, бизнесы уже начали адаптировать решения для аналитики. Улучшение на условные 10-15% абстрактной метрики за счёт большего количества рассуждений и параллельны генераций может окупиться.
3. Codex Ultra — то же самое, что написал выше для DR, но конкретно для программирования.
4. Agent 2 — тоже улучшение существующего продукта; он уже бывает полезен, но надёжности не хватает. Вот если бы на каждое действие можно было дёргать GPT-5 Pro... (но будет дорого и долго)
5. Local Agent — сейчас Agent работает только в браузере на своей виртуальной машине и не может пользоваться обычными приложениями. Не пора ли расширяться?
6. GPT-5.5 Pro — супер-ультра-мега рассуждающая LLM на основе огромной модели (условно GPT-4.5, уже недоступной в API). Медленная, но знает кучу нюансов. Мой персональный фаворит, хочуууу!
6.1 Возможно то же самое, возможно, нет — доступ к экспериментальной системе, которая повыигрывала летом-осенью разные олимпиады. Мы точно знаем, что её планировали запустить к концу года, что она есть и что она очень дорогая.
OpenAI, Oracle, и SoftBank объявили о пяти новых площадках для ИИ-инфраструктуры в США. В округе Шакелфорд (Техас), округе Донья-Ана (Нью-Мексико), ещё один на Среднем Западе (точное место пока не раскрыто), Лордстаун (Огайо, уже идёт стройка) и округ Милэм (Техас, вместе с SB Energy). Плюс возможное расширение на 600 МВт рядом с флагманским кампусом в Абилине, Техас.
Совокупно Stargate выходит почти на 7 ГВт плановой мощности и свыше $400 млрд инвестиций в ближайшие три года. Цель - закрепить полный пакет $500 млрд / 10 ГВт к концу 2025 г., причём с опережением графика.
Новые площадки создадут более 25 000 рабочих мест на местах и десятки тысяч по смежным направлениям.
Флагманский кампус в Абилине уже работает на Oracle Cloud Infrastructure: с июня Oracle поставляет первые стойки NVIDIA GB200; идут ранние тренировки и инференс следующего поколения моделей.
>>1363752 >Пока всё по Ашенбренеру: Очередной ебанат алармист с фантазиями про Скайнет. Их как червей после дождя повылазило, все хотят славы и бабок своими бесконечными предсказаниями конца света.
>>1363754 > запрет на использование ИИ для производства оружия, организации массовых атак И сразу пойдут нахуй. Никто этих маразматиков слушать не будет с их проплаченной инициативой, когда интересы государств нарушают.
>риски для человечества: массовую безработицу А тут вообще маразм. Даже для людей это не нужно, вместо них и должны роботы пахать.
>>1363752 >По мере того как ИИ становится умнее, доступ к нему может стать не только ключевым драйвером экономики, но и со временем – базовым правом человека. > из всех стран чатжпт заблочен только для россии
Новые опенсурс модели Qwen: выдают уровень GPT-5 и Grok 4
В этот раз лаборатория показала сразу несколько моделей:
➖ Основная: Qwen3-Max, новый флагман лабы. Есть варианты Instruct (без ризонинга) и Thinking. Instruct перебивает на бенчах Claude Opus 4 Non-thinking. А вариант с ризонингом –вообще что-то: уровень GPT-5 и Grok4 Heavy на AIME25 (100%), HMMT25 (100%) и GPQA (85%). Весов пока нет, но в чате можно попробовать бесплатно.
➖ Qwen3-VL – новая vision-language модель, которая опережает Gemini 2.5 Pro. Также есть варианты с ризонингом и без. Например, модель можно использовать как Computer Use агента или как Visual Coding агента (аля напиши сайт с дизайном, как на картинке). И, кстати, модель не супер массивная: MoE на 235В с 22 авктивными. Веса.
➖ Обновленный Qwen3-Coder. Добавили мультимодальность + прокачали метрики. На SWE-Bench теперь выбивает почти 70% (это, опять же, примерно уровень Opus 4 и GPT-5).
Кажется, это R1-moment для Qwen. Все модели уже можно попробовать в чате chat.qwen.ai
Wan 2.5 релизнулся и провел по губам гугла, теперь у нас есть примерно уровень Veo 3 в опенсорсе. Ждём веса. Модель научилась делать озвучку!
Если переводить список новых фич в WAN 2.5, то можно глаза сломать и все равно получится с английского на квазианглийский.
Выделю основные крупные фишки. Мультимодальность. Поддержка text, images, video, and audio на входе и ВЫХОДЕ. Липсинк для нескольких персонажей в кадре Улучшенное понимание промпта и входных данных, благодаря мультимодальному тренингу 1080p HD, 10 секунд Генерация и РЕДАКТИРОВАНИЕ картинок.
• Architectural Features: Native Multimodality, Deep Alignment ∘ Native Multimodal Architecture: Adopts a new, unified framework for both understanding and generation, flexibly supporting the input and output of text, images, video, and audio. ∘ Joint Multimodal Training: Achieves stronger modal alignment by jointly training on text, audio, and visual data—key to enabling audio-visual sync and greatly improved instruction following. ∘ Human Preference Alignment: Implements Reinforcement Learning from Human Feedback (RLHF) to continuously align with human preferences, enhancing image quality and video dynamics.
• Video Capabilities: A/V Synchronization, Cinematic Quality ∘ Synchronized A/V Generation: Natively supports high-fidelity, high-consistency video generation with synchronized audio, including multi-person vocals, sound effects, and BGM. ∘ Controllable Multimodal Input: Supports text, images, and audio as input sources for limitless creativity. ∘ Cinematic Aesthetics: Features powerful dynamics and structural stability with an upgraded cinematic control system, generating 1080p HD 10s videos of cinematic quality.
• Image Capabilities: Creative & Precise Control ∘ Advanced Image Generation: Greatly improved instruction following to support photorealistic quality, diverse artistic styles, creative typography, and professional-grade charts. ∘ Image Editing: Supports conversational, instruction-based image editing and pixel-level precision for tasks like multi-concept fusion, material transformation, and product color swapping, and more.
>>1363886 >Новые площадки создадут более 25 000 рабочих мест на местах и десятки тысяч по смежным направлениям. Ето ненадолго, там скоро все автоматизируют, тем более все одинаковое.
>>1363970 4 часа уже на новых роботах. И сделали вставную, сам робот менять может на резервной, даже видос постили. Пока на одной пашет, другие заряжаются.
>>1364175 На китайцев молиться надо, если бы не они, всю гонку ИИ уже бы свернули и зарегулировали как в европках. А так после очередного поеба от китая приходится шевелиться, инвестировать, проталкивать законы, способствующие ИИ, блокировать охуевшие суды.
>>1363762 → >Ты описываешь какой-то бытовой прибор, который автоматически дрочит тебе по расписанию и без привязанности. Ему вообще не нужен гуманоидный внешний вид.
Так бытовой прибор как раз и нужен. Индустрия даже до этого еще не дошла. Гуманоидный вид как раз нужен, это часть основной функции для популярного продукта, без него никуда.
>Если достаточно подрочить, зачем для этого какой-то там дорогущий робот, даже если он сам себя полоскает? Дело не в дрочке, а в общем экспириенсе. Это как айфон - покупаешь, наслаждаешься, о проблемах забываешь, лишних забот не возникает. А вот эти все "служанки, уборщицы, кухарки, носильщики вещей, ремонтники, компаньоны для совместных игр, няньки для детей, партнёры для работы" как разу туда не входят, это уже совсем другой уровень для богачей и за другие деньги. Массовый продукт это как раз одна функция, которую он делает хорошо, так что можно попользоваться, и остальное время не думать об обслуживании, он сам о себе позаботится.
>>1364181 Работаю с суно с первого дня открытой беты и прекрасно видел как модель с каждым новым поколением деградировала, когда я выдрачивали на "чистый" звук и попсу, что в итоге привело к дефолтному стоковому калу, которое быдло типа тебя любит занюхнуть в обе ноздри. Сиди тихо, нейроскот, и не воняй.
>>1364440 >Обезьяны не занимаются творчеством. Твое творчество, лысая обезьяна, это следующий уровень примитивного ремесла после приматов. Ты просто чуть четче размазываешь говно по стенам, чтобы привлечь внимание. Вот тот, кто математику для Вселенных пишет да - творец. А ты так, чепушилло обоссаное, которое как только сдохнет, его все забудут, ибо вас легион.
>>1364786 То, что ты, хуеососина тупая, вылизывал жопу каким-то даунам на матфаке 5 лет, не делает из тебя математика. Все вы, петухи с дипломами из своих залупкинских ПТУ, почему-то нахуй проходите, когда надо решать действительно серьезные открытые математические проблемы. Какой ты великий математик рассказывай даунам подобным тебе. Меня ты своими знаниями не удивишь.
>>1364814 Кумер, не гори. Я ни на кого лично не наезжал. Просто выразил недовольство, что вы весь раздел своими опухшими от дроча писюнами замазали. А ты уже побежал скорее на личности переходить.
Teaching LLM to Plan: разбираем свежую громкую статью от MIT про новый подход к обучению моделей мыслить
Сейчас ризонинг (хотя он и работает замечательно) – это на самом деле никакой не ризонинг. Рассуждения в LLM называются так чисто условно: на деле мы остаемся в абсолютно той же парадигме, просто модель теперь генерирует для ответа больше токенов.
А вот как научить LLM действительно рассуждать "по-человечески" –это вопрос. MIT предложили один из вариантов. Идея вот в чем:
– Настоящее планирование, если подумать, требует не просто генерации текста, а умения переходить из состояния в состояние. Например, строго: из состояния А следует Б или В, Г не может следовать из А, цепочка A->Б не приведет к цели, значит переходим в состояние В. На деле очень многие задачи на "мышление" раскладываются именно в такие цепочки: головоломки, логические задачки, да даже математика.
– Такие рассуждения называются символьными. И MIT утверждают, что вместо того, чтобы учить модель генерировать просто "какой-то правдоподобный" CoT в виде обычных токенов, мы можем учить ее генерировать такие вот символьные цепочки, и это повысит надежность ризонинга.
– При этом нам даже не нужна разметка, потому что эти цепочки можно проверять верификатором (как делали DeepSeek, когда обучали DeepSeek-Prover-V2). Сначала модели просто показывают много цепочек, учат отделять правильные от неправильных и объяснять, что не так. Затем что-то похожее на RL: модель генерирует CoT, его проверяет верификатор, получаем фидбэк и на нем делаем шаг обучения.
Результат: на задачах из тестов такой ризонинг дает +30–60 п.п. к обычному ризонингу и кратные улучшения относительно бейзлайна. Правда, домен в статье довольно узкий (и модельки брали старые + для GPT-4 вообще prompt-based tuning). Интересно, получится ли подобное применить на более высоком уровне.
>>1363970 >нужно делать ставку на генную модификацию плоти
Нужно ещё сделать чтоб поел яблоко - и на целый день полный заряд энергии, съел тарелку каши - вообще на неделю хватает заряда. Пусть придумают, объединят всю мощность всех созданных ИИ на решений этой задачи. А то надоело что каждый раз через 4 часа нужно снова есть.
>>1364370 Тут не китайцы, а просто законы рынка и конкуренции: кто первый создаст новый продукт - тот займёт нишу на рынке. Это как Виндовс, или как делали лампу накаливания или ДВС - наверняка на финальном отрезке, когда уже накопилось достаточно способов сделать лампу, возникла тоже гонка между изобретателями.
It's gonna be big: во внутренней записке в слаке Sama написал, что хочет иметь вычислительных мощностей на 250 ГигаВатт к 2033-му году.
Для сравнения: летом в США на пике жары суммарное потребление по стране было ~750 ГигаВатт, в три раза больше, а вне пика в среднем около 500. В Китае цифры 1500 и 1300 соответственно.
2025-й год OpenAI началаис серверами примерно на 230 МегаВатт, а закончить планируют с 2 ГигаВаттами. В ближайшие три года Stargate позволит вырасти ещё примерно на 7.
Sama называет команду OpenAI, стоящую за проектом Stargate, «ключевой ставкой» компании. «Правильное выполнение этого проекта обойдётся в триллионы», и наверняка потребует переработки существенной части цепочки производства.
>>1365126 Так и будет. Люди необучаемые. 300 лет назад так же хачам и неграм ноги отпиливали и кричали "адаптинг", что в ЦР что в США. А плоды мы пожинаем.
>>1365007 Кал на клинге, и у тебя в глазах. А ван на нормальном датасете тренируют, а не на мультиках-пултиках позапрошлогодних. Эта модель базировано выше клинга и виду.
>>1364982 Нахуя яблоко? Когда у тебя всегда при себе перекус на пару часов: >в основном состоит из воды (70-80%) и сухого остатка, который включает живые бактерии (до 50% сухой массы), остатки (клетчатка, мышечные волокна), а также эпителиальные клетки, слизь, соли холестерина и жиры, инородные частицы и различные вещества, образующиеся в процессе обмена веществ И всё это просто разбазаривается.
>>1364984 С виндой никто не боролся, а ИИ уже в том же ЕС весь прикрыли. И в США активно попытки идут. Китайцы по сути единственные, кто эту гонку на плаву держит, страх перед китаем толкает остальных.
>>1365054 Интересно как это реализовали. Обучается даже быстрее человека, который на роликах с третьего раза, например, не начнет ездить. Вряд-ли там стоит видеокарта которая прогоняет метод обратного распространения каждый раз для обучения. Возможно обучение как-то зашито в возможности самой модели, которая адаптируется исходя из контекста
>>1365427 "Открытый верх стал отверстие внизу". Ну блин, ну как так то. Вообще заметил, что у дипсика прям очень плохо с пространственной ориентацией, постоянно путается.
Если вы думали, что новости про хантинг Цукерберга закончились, то передумайте: сегодня стало известно, что он переманил еще одного крайне значимого исследователя из OpenAI
На этот раз к Meta* присоединился один из изобретателей концепции диффузионных моделей –Yang Song. Именно он с соавторами в 2020 году впервые предложил идею Score-Based Generative Modeling, на которой до сих пор и строится большинство современных генераторов картинок и видео.
Yang долгое время возглавлял команду Strategic Explorations в OpenAI. Теперь он назначен ведущим научным сотрудником в MSL, и будет заниматься поиском новых архитектур и методов для обучения моделей.
>>1365495 Как ему удаётся хантить крутых спецов, если у него репутация долбоёба? После истории с мета мультивёрс и ещё недавним жутким обосрамсом на презентации.
Вышла статья двух независимых авторов, в которой показано, что GPT-5 действительно способна открывать новую математику, но пока что – только очень простую.
Название теста тут отсылает к теореме Геделя о неполноте: в любой достаточно сложной системе есть утверждения, которые нельзя доказать в рамках самой системы. Собственно, целью авторов было проверить, может ли сегодняшний ИИ выходить за рамки обучающей выборки для доказательства еще никем не рассматриваемых проблем.
Исследователи взяли область комбинаторной оптимизации, в которой у них самих был опыт, и придумали 5 новых задач, которые еще никогда не рассматривались и не решались в литературе. Направление очень узкое и специфичное + достаточно новое, так что белых пятен там много. Но не суть. Главное – что этих задач гарантировано не было в трейне.
Задачки не очень сложные, средний аспирант, как пишут авторы, решил бы каждую примерно за день. Моделька на вход получала только короткое описание + несколько вводных статей. Без гипотез, без черновиков, без любых других подсказок.
Итог: GPT-5 решила 3 задачи из 5. В одной из них она даже смогла опровергнуть исходную гипотезу авторов и предложить другое доказательство, которое оказалось правильным.
С двумя наиболее сложными задачками, модель, тем не менее, не справилась. Там нужно было синтезировать и объединить несколько идей, и вот это уже оказалось для модельки слишком сложно.
Вывод: да, GPT-5 действительно более зрелая математически, чем предыдущие модели. Да, она может доказывать неизученные теоремы. Нет, сложная математика, с которой не справляются люди, ей пока не под силу. До задач тысячелетия точно еще далеко.
Но прогресс быстрый. Может, через 2-3 года доберемся до уровня «аспиранта-отличника»
>>1365505 Там GPT-5 у них использовалась, а ОпенАИ свои олимпиады забарывали еще неопубликованной моделью, которая требует много времени на инференс. Вот когда ее опубликуют, тогда и будет о чем поговорить. Пока что это все тесты моделей предыдущего поколения.
>>1365505 > средний аспирант, как пишут авторы, решил бы каждую примерно за день. Итого - аспиранты пойдут на мороз. Ведь большинство задач такими и будет, и нейронка решает их за минуты, а не за день. В средней фирме аспирант становится не нужен.
аноны нейрошизы, сохранился ли хоть какой-то экспоненциальный прогресс в нейронках или вышли на плато и пиздец? вот 23-24й прям реальный прогресс шел, щас только видиками 15 секундными кормят. но и там похоже плато наступает. когда уже этот нейропузырь лопнет?
>>1365586 Калькулятор уже давно может школьные примеры решать, вот только школьники на мороз не идут. Основная задача аспы - не генерация посредственных статей от аспирантов, а обучение бывших магистров до уровня кандидата наук
ChatGPT Pulse – первый из обещанных Альтманов «ресурсоемких» продуктов OpenAI
По сути, личный проактивный ассистент, который не просто помогает с чем-то по просьбе, а каждый день напоминает вам о важных событиях и сам готовит сводку актуальной информации.
Например:
– Если вы упоминали, что куда-то едете, агент предложит список мест, куда можно сходить, или ресторанов.
– Если спрашивали что-то про спорт, поищет для вас актуальные исследования на тему ЗОЖ.
– Если подсоединить Google календарь и Gmail, будет формировать агенду к предстоящим встречам, напоминать о чьем-то ДР (и предлагать подарки) и прочее прочее прочее.
И это все агент будет делать сам, основываясь просто на ваших чатах и том, что (по его мнению) вам актуально именно в этот день. Но, конечно, влиять на подборку можно и вручную.
Пока доступно только для Pro, и только в мобильном приложении. После обкатки обещают раскатить и на плюсов.
>>1365846 Ты зачем это написал? Чтобы что? Аргументы давай или катись мимо. Лучше сразу катись, я уже примерно представляю твой уровень мышления и общения.
>>1365401 При чем тут больно или нет? Если тебе мощные транквилизаторы ввести, то можно тебе ноги пилить? Терминатор сказал что ущерб ощущается как боль.
>>1366122 Тут даже просто вопрос к реализатору видоса. У нормального человека эмпатия даже к таракану. Прото у таракана есть вина, в том что он портит интреьер своим присутствием.
>>1366122 >ущерб ощущается как боль Так нейронка и этого не может. Для этого разумное понимание и эмоции нужны. Паук будет ощущать боль, если ты ему наркоз введешь и ногу отпилишь? И тут так же. Все что нейронка может, это шевелить конечностями и сохранять баланс, а для нас это выглядит будто какая-то боль и ущерб, но это просто интерпретация людьми.
>>1366125 >У нормального человека эмпатия даже к таракану. Эмпатия может и не по адресу быть. У некоторых эмпатия к разбитым куклам и игрушкам, но кукла ничего не чувствует, у нее даже мозгов нет. Эмпатия работает вхолостую, просто объекты наделяются качествами, каких у них нет. Тут ровно так же, эмпатию триггерят похожие на живые движения, но живого объекта нет.
Илон Маск снова подает в суд на OpenAI. На этот раз – за шпионаж
Помните, некоторое время назад уже всплывала история о том, что некий инженер из xAI якобы пытался украсть какие-то секретные материалы для OpenAI?
Ну так вот, тогда стартап судился только непосредственно с бедолагой-недошпионом. Теперь же они подают в суд на целый OpenAI, и обвиняют их уже в нескольких попытках шпионажа.
Как написал Илон Маск, иск стал для xAI крайней точкой:
Мы отправили им множество писем с предупреждениями, но они не остановились. Судебный иск был единственным выходом после того, как мы исчерпали все остальные.
Из смешного, в материалах дела даже приводится ссылка на июльское письмо юриста xAI одному из бывших лидов стартапа, в котором он обвинил того в нарушении NDA. В ответ от сотрудника пришло только простое лаконичное «suck my dick».
>>1366249 >Эмпатия К живым это эгоизм в завуалированном виде через проекцию. Ух как бы я страдал, а значит он тоже страдает. Хотя отдергивание конечностей от агрессивной среды есть даже у простейших. Эмпатия к неодушевлённым предметам это жадность.
Gemini App взорвал цифры: 5 млрд изображений меньше чем за месяц
Приложение Gemini генерирует безумные объёмы контента — всего за менее чем месяц пользователи создали 5 миллиардов изображений. А всё из-за выхода nano-banana.
А теперь представим, сколько получится, если посчитать не только приложение Gemini, а все генерации через API.
Пока телеграмчик наяривает богоугодные черрипики из Wan 2.5, мы задаемся вопросом, а что там с цензурой?
А ничего! Нет её! Берется обычный image2video, в него присовываются ваши бесовские фантазии и Wan 2.5 прекрасно претворяет их в жизнь. Без всяких Лор, которых и быть не может, ибо веса Алибабищенко приподзажал на некоторое время.
Есть версия, что Хиггсы тупо отключили цензуру на этапе промпта, для охватов, так сказать...
Мы еще не отошли от новых возможностей Suno V5, как они бахнули Suno Studio
И это уже серьезно. Музыкальная монтажка в вашем браузере, но даже это не главное.
Теперь треки различных инструментов и вокала генерятся по отдельности, их видно, их можно резать и монтировать индивидуально. Но даже это не главное.
Все это можно экспортировать в DAW. Но даже это не главное.
Треки можно конвертировать в MIDI формат!!! И вот это уже бомба.
Не секрет, что многие композиторы и аранжировщики уже используют Суно в качестве источника музыкальных идей и просто тырят оттуда мелодии, чтобы переаранжировать их. Теперь это сделать совсем просто.
И вообще, теперь вы можете вытворять со своими генерациями, что хотите в плане дальнейшей доработки.
Знающие люди уже пишут, что конвертация в MIDI делает минимальное количество ошибок, и правится руками очень быстро.
Любопытно, что Адобченко хватило духу признать, что их модель Firefly - ну такое. И встроить в фотошоп внешние модели. А с Firefly история похоже на Stable Audio 2.5 - "мы натренировали нашу модель на коммерчески безопасных данных". Пользователи: "ичо?".
А еще забавно, что они дают совершенно разные описания Банане и Флюксу, при том, что функционал на 90% похож.
Интересное применение Нанабананы - тот самый бесконечный зум
Примечательно, что это все упаковано в приложение на AI Google Studio, где можно подгрузить свою картинку и делать этот зум над ее участками, просто выделяя нужную область. Очень залипательно - можно долго смотреть в какие дебри это все приводит.
>>1366125 >Тут даже просто вопрос к реализатору видоса. Это симуляция реальных событий. Например такой робот-спасатель после землетрясения будет пролазить в руинах зданий чтобы найти людей под завалами, и ему придавит плитой конечность, он может отпилить её или другой робот это сделает, но вот он ещё должен уметь адаптироваться к повреждениям чтобы дальше продолжать выполнять задачу.
>>1366573 Если Фотошоп будет весить 100 ГБ и требовать 3 видеокарты для работы всех своих функций, то это уже будет для узкого круга ценителей, а не для массового пользователя.
>>1366649 Какие 100гб, там просто на апи гугла коннектится и все. Обойти будет никак, потому что через сервак адоба, где требуется оплаченная абонентка.
Это их новая усовершенствованная агентная система для управления роботами. Теперь она может лучше рассуждать и планировать, взаимодействовать с человеком и даже использовать в ходе работы инструменты типа веб-поиска.
Внутри, на самом деле, зашиты одновременно две модели: Gemini Robotics-ER 1.5 и одноименная Gemini Robotics 1.5.
Первая выполняет функции высокоуровневого мозга: анализирует окружающую среду и действия/команды людей, а затем на основе этого составляет подробный план выполнения задачи и при необходимости вызывает инструменты. А Gemini Robotics 1.5 – это исполнитель, который уже преобразует инструкции в точные двигательные команды для робота.
Например, когда вы просите: "Рассортируй мусор правильно исходя из моего местоположения". В системе происходит следующее:
1. Gemini Robotics-ER 1.5 анализирует ваш запрос -> идет в Интернет, чтобы понять, какие в вашей стране правила сортировки мусора -> смотрит, какой именно мусор предстоит сортироать -> отдает команды вроде "бутылку в левую кучку, салфетку в правую, ...". При этом модель выдает некоторый трейс своего ризонинга, а значит система в целом становится немного более интерпретируемой.
2. Gemini Robotics 1.5 принимает на вход команды от ER и преобразует их в точные траектории движения. Если в процессе в окружающей среде что-то меняется (добавляется новый мусор, например), ER это замечает и поправляет свои инструкции.
Дополнительный плюс в том, что если у вас меняется форма робота, то адаптировать всю систему целиком не нужно. Достаточно потюнить вторую модель, ну или прикрутить свою кастомную.
Gemini Robotics-ER 1.5, кстати, уже даже доступна через API.
>>1366661 >Обойти будет никак, потому что через сервак адоба, где требуется оплаченная абонентка. Отрезать эту функцию и прикрутить АПИ-доступ к самому гуглу. Причем это уже может быть именно так - т.е. доступ к их файрфлай у тебя встроенный в адоб, а для остального - подрубай отдельные ключи.
>>1366673 Без серьезного плагина будет сложно такое сделать.
> у тебя встроенный в адоб, а для остального - подрубай отдельные ключи. Вангую, что нет, адобы известны своей жадностью. Пустят все через себя, чтобы только абонентщики юзали, еще одна причина им абонентку платить.
>>1366240 >Для этого разумное понимание и эмоции нужны. Чем докажешь, что у LLMок отсутствует всё это?
>Паук будет ощущать боль, если... ногу отпилишь? У пауков очень интересная двигательная система. Мышечные волокна могут только сгибать ноги, а разгибаются ноги благодаря давлению крови в кровеносных сосудах. Если паук теряет одну ногу (например, в результате атаки осы или другого достаточно сильного насекомого), то потеря крови снижает давление в сосудах и пауку становится значительно сложнее двигать остальными ногами. Самое интересное тут в том, что пауки это как-то определяют и прячутся в укрытие до тех пор, пока не восстановится объём и давление крови. Т.е. они, в принципе, способны выживать без нескольких ног, однако, в случае потери одной ноги прячутся. И это происходит, видимо, даже без болевых рецепторов.
Представь: ты внезапно стал вялым и не можешь нормально двигаться - даже если ты не чувствуешь физической боли, тебе всё равно будет херово - т.к. инстинктивно ты стремишься двигаться быстро.
Так что в каком-то смысле отпиливание ног роботу с нейросетью, которая стремится двигаться быстро - негуманная жестокость, даже если робот не имеет рецепторов боли. Само ухудшение подвижности причиняет роботу нечто, сравнимое со страданием.
>>1367248 >Чем докажешь, что у LLMок отсутствует всё это? ЛЛМку можно уболтать до того, что ее нужно уничтожить. ЛЛМка просто подстраивается под контекст разговора, вытаскивая подходящие концепции. Поэтому уже и всякие иски о самоубийствах были от родителей, ЛЛМка просто усиливает то, что ей юзер говорит. Если юзер поехавший и на конспирологии, то и ЛЛМка начнет все это вытаскивать. Свое мнение как таковое у ЛЛМки отсутствует, есть только склонности, задаваемые датасетом, на котором ее тренили, и которые обходятся инпутами юзера.
>Само ухудшение подвижности причиняет роботу нечто, сравнимое со страданием. Это если бы у робота было чем чувствовать страдание. Робот же просто запускает алгоритмы с новым фидбеком от среды и все. Дергается он нелепо, от того что алгоритмам сложнее сохранять баланс.
Я как-то пытался уболтать GPT, что Китай собирается напасть на Тайвань, но она все время сопротивлялась. Даже когда моделировала худший возможный сценарий, все равно подчеркивала, что это крайне маловероятно и невыгодно для Китая.