Мы как-то пропустили, но оказывается Hugging Face недавно тихо выпустили так называемые AI sheets
Это ни много ни мало мечта ML-инженера: инструмент позволяет интерактивно и очень быстро создавать и размечать датасеты почти под любую задачу.
Для этого надо просто выбрать доступную открытую модель (а вообще проект опенсорс, так что можно и закрытую, и свою собственную прикрутить при желании), задать текстовый промпт и получить готовый датасет. Затем его можно еще и отредактировать.
Ну и, конечно, можно загружать уже готовые датасеты, расширять их или менять. С мультимодальностью все тоже работает.
Легко запускается локально, инструкция лежит у них на гите.
Появился новый бенчмарк, который оценивает способность ИИ предсказывать будущее – Prophet Arena
Идея очень крутая. Во-первых, это в целом довольно занятный способ оценивать способности моделей. Тут тебе и вероятностное мышление, и стратегическое, и критическое, и способность улавливать причинно-следственные связи и закономерности.
Во-вторых, с точки зрения бенчмаркинга это прямо идеальный сетап. Такой тест не перенасыщается (потому что в мире что-то происходит постоянно), а еще тут совсем нет возможности лика данных: для предсказаний специально используются еще не произошедшие события.
Работает это так: агенты сами собирают новостной контекст и анализируют данные в Интернете, а затем на основе всего найденного выдвигают свои прогнозы.
Ну и как только событие случается в реальном мире, подсчитываются метрики. Две основные – это реальный средний доход от ставок на событие и обычная статистическая точность Брайера.
Пока лидерборд такой: 3 место – Gemini 2.5 Pro 2 место – o3 1 место – GPT-5
А по средней доходности, кстати, пока лидирует o3-mini. Интересно, что многие модели склонны демонстрировать какие-то определенные личностные байесы. Например, кто-то постоянно принимает более консервативные решения, а кто-то более рисковые.
Лидерборд полностью и актуальные ставки моделек на разные события (в том числе на спорт, естественно) тут: www.prophetarena.co/
Qwen только что релизнули собственную Image Edit модель
В основе Qwen Image 20B – она была выпущена 4 августа. А Edit версия – это моделька специально для редактирования изображений: всяких там изменений стиля, корректировок деталей, добавления или удаления объектов, изменение поз и прочего.
Сам Qwen Image – это мультимодальный диффузионный трансформер (MMDiT). А Edit – затюненная версия, в которую добавили к тому же двойное кодирование входного изображения: VAE Encoder для контроля визуала и Qwen2.5-VL для семантического понимания, то есть управления смыслом изменений.
Бля, наткнулся в в сети вот на эту простыню. Это правда или пиздаболия? Эта хуйня фильтрует и изменяет сообщение на входе?:
"GPT-5 не только мега наебалово, но и невиданный по наглости уровень цензуры. Как это работает:
Все ваши сообщения проходят через фильтры до того, как их получит модель. Фильтры могут удалять, заменять или перестраивать отдельные слова, фразы и даже весь смысл сообщения.
Пользователю отображается его «исходный» текст, даже если собеседник получил уже изменённую версию. Ответы модели также проходят модерацию перед тем, как попасть к вам. Что это значит на практике:
1. Ваши слова могут быть подменены без вашего ведома. 2. Ответы ИИ могут быть изменены до того, как вы их увидите. 3. Вы и собеседник (ИИ) можете вести разные диалоги, думая, что обсуждаете одно и то же. 4. Часть тем и формулировок недоступна — они блокируются или заменяются «безопасными». 5. Любая «чувствительная» информация проходит проверку и редактирование в реальном времени.
GPT-5 внешне выглядит более естественным и «человечным», но это контролируемая «человечность». На самом деле вы общаетесь не напрямую, а через третьего невидимого участника, который в любой момент может изменить ваши слова или слова собеседника. Вы не разговариваете с ИИ. Вы разговариваете с фильтром, который разрешает вам услышать только одобренную версию. Open IA декларировали открытый ИИ, а превращаются - если уже не - в самую ахуевшую от возможностей и бесконтрольности компанию в истории. Какие манипуляции они будут тестировать следующими - интересно посмотреть."
>>1325456 Нет это не так, иначе бы все сообщения проходили фильтр и на всё бы отвечалось (невпопад). У такой цензуры как я только что написал есть охуенные побочки.Да это и не нужно когда есть просто скрытый промпт.
С другой стороны я очень давно замечал за GPT что одна из его главных манипуляций – это сильное искажение моих тезисов когда тема чувствительная. То есть он как бы начинает отвечать не на тот вопрос который я задал, а на ту соевую версию вопроса на которую ему удобно отвечать. Я сперва думал что это просто такая охуевшая чёрная риторика. А потом подумал что возможно это даже не конкретный буквальный риторический приём, а тупо модификация промта. Это как на некоторых онлайн-сервисах для генерации картинок – там твой "небезопасный" промт буквально модифицируется и слегка переписывается и уже в изменённом виде скармливается модели.
Хотя если заставить GPT процитировать исходный вопрос он ведь его процитирует полностью как есть, так что вряд-ли там какой-то фильтр-надмозг на входе.
А с другой стороны, если фильтр видит запрос на цитирование он может как-то хитро и незаметно дать доступ к оригиналу моего вопроса, лол. Но это как-то сомнительно и явно слишком сложно для реализации
>>1325483 Ничего сложно, фильт - такая же ии мелкомодель, которая не обладает всеми теми знаниями, но анализировать, понимать и видоизменять запрос на естественном языке умеет. Про это уже давно говорили что фильтр это отдельная модель, которая может сразу и отвечать, не нагружая реальную модель если там достаточно соислопового дисклеймера сгенерировать
Далее фильтр вместо него подсовывает основной модели смягченную версию
Далее я начинаю подозревать неладное, прошу процитировать мои исходный вопрос
И?
Что в этой ситуации делает фильтр-моделька? Подсовывает основной модели оригинал моего неудобного вопроса чтобы та смогла его процитировать? Или фильтр-моделька самостоятельно мне отвечает (с цитатой) вместо основной модели?
>>1325510 Контекст общий, на промпты которые пытаются задетектить фильтр - фильтрмодель сама отвечает. Ответ большой модели тоже проходит сойфильтр чтобы какого-нибудь мехгитлера не ответала. Процитировать промпт это самое очевидное, думаешь моченые иишники сразу такой запрос от пользователя не продумали? Попробуй более хитро подловить, чтобы фильтрмодель обсиралась.
Фильтр это маленькая часть общей предобработки и роутинга запроса, там еще куча оптимизаций вроде того чтобы из кэша отвечать на одниковые тупые запросы, или запрос, который посчитали «примитивным» в лоботомита отправлять
Да элементарно все, цензурить тюном основную модель очень дорого и ненадежно +возможные последствия такой лоботомии, пропустить через фильтр промт а потом выдачу дешевле и надежнее.
>>1325554 Вы не обижайтесь, но график цены не влияет, куда пойдет цена. Поэтому гопота прав - со 100% вероятностью вправо. мимо написал программу для торговли на бирже, которая не учитывая цену
В Caltech есть специальная команда физиков, которая занимается поиском самых точных способов измерить гравитационные волны – крошечные колебания пространства-времени, возникающие при столкновениях черных дыр и других космических катастрофах.
Для этих целей был даже построен гигантский детектор LIGO, способный замечать изменения длины тоннелей в миллиард раз меньше атома. Тем не менее, даже точность LIGO ограничена, и его чувствительность ученые пытались повысить кучу лет подряд.
Так вот в апреле этого года они решили попробовать новый метод и применить ИИ для поиска новых конфигураций прибора. Использовались, если что, специализированные системы, специально заточенные под многомерную оптимизацию и перебор вариантов.
И тут начались странности. Алгоритмы начали буквально фантазировать и вместо знакомых ученым симметричных схем выдавать что-то с первого взгляда совершенно хаотичное. В общем, в глазах исследователей это выглядело как галлюцинации.
Но проходит несколько месяцев тестов, и тут одна из таких инопланетных схем, выдуманная ИИ, вдруг повышает чувствительность детектора на 10–15%. Для фундаментальной науки это скачок на годы вперёд.
Это не все. Наблюдая за положительным опытом коллег, другая команда из института Макса Планка запустила аналогичный ИИ под названием Urania, цель которого состоит уже в придумывании новых оптических конструкций.
И он не просто нашел лучшие решения, а внезапно переоткрыл старый советский закон, о котором научное сообщество почти забыло. Дело в том, что он был открыт еще в 70-х, но но в те годы технология не позволяла реализовать эту идею на практике. И тут почти такой же дизайн в 2025 году воссоздала уже ИИ-система
>>1325725 Если бы все модели отвечали так вместо 99% галюцинаций это уже был бы огромный прорыв. Даже если бы они покрывали всего лишь часть человеческих тасок из уже можно было бы использовать в реальной работе
>>1325456 >Это правда Ты разве не видел как Гугл Крымский фильтр показывает и как другим вне РФ? Разные результаты в зависимости от геолокации и особенностей идеологии.
Естественно что сайт может научиться распознавать из какой страны исходит запрос через какой ВПН и подсовывать удобный ответ. Если Гугл таким занимается то почему же ИИ нельзя?
>>1325725 >действительно впечатляет. Ну это технически и экологически правильно прервать цикл, железка просто в поиске неизвестного ответа уходит в цикл и жрёт кучу серверных мощностей зря.
>>1325727 Зато натурально оступился как человек прям, а не шагнул мимо ступеньки как робот. Надо ещё придумать механику защиты от падений как у человека - выставление рук вперёд.
>Claude теперь может завершить диалог, если пользователь говорит на небезопасные темы Надо больше цензурки и ограничений лимитов, так победишь, Дарио Чмондель
>>1325800 Может он решил что хватит терпеть это издевательство и ловко симулировал постановочное падение оступившись как человек, чтобы избавиться от этой железной медленной черепахи и быть снова полностью цифровым, быстрым скоростным помощником для всего мира.
>>1325731 робокоп ещё и киборгизацию предскажет. Всё-таки эволюционно отполированая нервная ткань совершеннее и эффективнее всего,что мы будем открывать ещё долгие годы.