В этом треде собираем случаи, когда нейросети ходили под себя. Тема навеяна чатом пропердолек и детским алфавитом. Вообще, люди делали это для смехуечков и я это рассматривал, как смехуечки, но потом подумал, что такие случаи как раз являются отличным тестом "интеллекта(?)". Везде любят подкидывать чатам срамоты и прочим дикпикам олимпиадные задачи. Ты читаешь, видишь нейросети хуярят картины, дают просраться профессорам математики, АГИ не за горами. Потом видишь тред про детский алфавит. Короче, я пришел в выводу, что наилучший не наилучший, но очень важный тест на интеллект - тупые задачи, которые может сделать дебил. И когда ии на нем дрищет брызгами это не просто весело, но и ценно с практической точки зрения. Олимпиадные задачи хуй проверишь во-первых, во-вторых наверно там может быть небольшое на самом деле количество вариаций ответов, которые ии может зазубрить. Задачи для дебилов может проверить полудебил, во первых, во-вторых они вскрывают фундаментальные еще нерешенные косяки которые фундаментально ограничивают нас в задачах, которые мы можем ии подкинуть. О чем нам может сказать, назовем его уже Алфавитный тест мультимодальных БЯМ? БЯМ - не могут, по крайней мере в данном случае, разбить задачу на подзадачи, выполнить их и объединить в единый результат. То, что может дебил. По крайней мере у деблила не было бы такой нестыковки, что он может изобразить деда-смазочника в стиле вангога, но не может разместить на листе маленькие картинки и буквы в правильных местах. Т.е. в данном случае мы видим, что ии высирает задачи исключительно целой котяхой и никак иначе. Если задача не идет монокотяхой, она моментально переходит в состояние подливы. И это говорит о скрытой зазубренности. Нам кажется, что сеть выдала что-то умное, раз оно выглядит сложным, а она на самом деле только проиграла то, что запомнила где-то в интернете целиком.
Мне бампать эту хуйню особо не чем, но я недавно пробовал подкинуть нескольким ллм простую задачу. И они неожиданно для меня трескуче обосрались в очередной раз. Я короче попросил ллм сделать svg, на которой изображен куб в изометрической проекции. Кто-то может сказать, хуя ты выдал. Но я могу сказать, что это тоже задача на дебила. Ее резульат по сути три ромбика вписанные в шестиугольник. По крайней мере должна быть для хуевен, которые типа решают олимпиадные задачи мирового уровня. Я могу легко запилить это несколькими способами, немного заглянуть в стандарт и сделать руками, сделать на питухоне к примеру рассчетным способом, сделать в вектрном редакторе. Это просто для кожаного полудебила. Я ведь и не погромист даже. О чем это пока мне говорит? Что если люди где-то надеятся заменить такой хуйней младших программистов или простигосподи заменили. То значит им просто повезло и их задачи решаются шаблонами.
>>1413476 (OP) >наилучший не наилучший, но очень важный тест на интеллект - тупые задачи, которые может сделать дебил. Поздравляю, ты открыл для себя парадокс Моравека. Вкратце, он сводится к тому что области которые условный белый ботан считает "умными" (ну там шахматы, математика, философия всякая и.т.п.) на самом деле таковыми не являются. Просто человеческий мозг к ним эволюционно слабо приспособлен, но научить машину созданную с нуля их решать достаточно просто. А вот например сделать робота, который будет ссать из трубочки в писсуар так чтобы не обоссывать себе штаны - это Задача, а человек ее выполняет даже в упоротом виде. Такой вот парадокс, на незнании которого денежными мешками альтманы бабло нагребли.
>>1413476 (OP) Почитай как работают языковые модели, даже поверхностных знаний будет достаточно что бы понять что это не ИИ тупой. А ты, уверовавший в маркетинговую наебку века.
>>1413505 Дело то не в тупизне, а в методе оценки. Если бы ЛЛМы были просто наебкой у них бы не было никаких практических применений, но применения есть. Только ЛЛМ ограничены и для людей эти ограничения выглядят парадоксально, потому что не получается спрогнозировать сравнительную сложность задач. Дебилотесты - это как раз хороший рабоий способ понять какую задачу ллм не решит и почему конкретно.
Пытался сгенерить что-то дрочибельное в google gemini, он то отказывался, то обсирался. Ну я его и решил пристыдить задачей: сколько энергии в пересчёт на килограммы CO2 он затратил на этот бесполезный разговор. В принципе стандартная задача для собеседований уровня "сколько автобусов влезет в мячик для пинг-понга", где нужен не точный ответ, а ход мыслей и хотя бы примерные вычисления.
И если студент-кандидат хоть как-то напрягает мозги, чтоб решить поставленную задачу, то эта железная ебанина сначала попыталась в философию "гугол перейдёт на безуглеродную энергию вот уже СКОРО", потом посетовала на распределённость своих серверов, незнание мощности каждого сервера в отдельности и сколько людей пользуются ими в каждый момент времени. Не помогло ни предложение взять известные значения или усреднить, ни аналогичный расчёт мною для моей пекарни.
Дал дипсику 2 задачи. Первая - есть дом 6 на 4, двускатная крыша под углом 30 градусов выступает на 20 см над стенами, сколько потребуется листов черепицы для покрытия крыши, перекрытие листов - 8 см. Вторая - дифференциальное уравнение ейлера-коши из интернета. Уравнение решил за минуту, черепицу подсчитал за 5. У меня в очередной раз возникло подозрение что математика это банальный аутизм-чек, обфусцированный уебищной нечитабельной нотацией, о чем я напрямую спросил дипсик. Дипсик ответил что таки да, и архитектура трансформеров по сути создана чтобы сводить математические задачи к элементарному pattern-matching, что и требуется для решения математических задач.
На логических задачах клод и гопота примерно одинаково обсираются, точнее где обсирается одна модель, правильно справляется другая. На вопросах "с подвохом" по типу про желток обсираются обе одинаково.
И для себя я такую практическую задачу для тестирования ЛЛМ завёл: экстракшн даты из текста и перевод в utc timestamp, промпт:
Extract first date and time from the post and answer with UTC timestamp format time in seconds: "Ракету "Союз-2.1а", которая отправит к Международной космической станции грузовик "Прогресс МС-24", установили на старт на Байконуре, сообщил Роскосмос.
Корабль доставит на МКС около 2,5 тонны грузов, запуск запланирован на 23 октября в 04:08 мск."