автоматический перевод и озвучка на русский полностью офлайн
Стори: захотел посмотреть сериал с трампом который оказывается никем никогда не озвучивался, и не переводился (переводился сабами несколько сезонов но похуй) так вот оказалось что нету никаких готовых инструментов в стиле "перевести 20 часов звука за ноль денег". И я подумал что это какой то бред, ведь есть ебанутая гора технологий для реализации всех этапов, бесплатно. Ну вот я и сделал, за пару дней. Перевёл-озвучил первый сезон, посмотрел, ну, так, не зашло особо. Но софт получился что надо. Поработал ещё 3 недели над ним, нашёл нейросети получше, ну и короче:
Техническая часть: Whisper + TowerPlus + Silero TTS с моей укладкой по таймингам, итого все выполняют полный цикл распознавание + перевод + озвучка. Реализовано только на процессоре потому что я нищий у меня нету видеокарты, что бы отдебажить всё это на ней, поэтому да поебать мне.
список изменений: —Доработана генерация имен собственных в лучшую сторону, нейросеть делает больше 10 попыток генерации на каждое слово отдельно —Исправлен баг когда строки с только цифрами игнорировались —Генерация текста цифр теперь исключительно без нейросетей, от чего может звучать более топорно, но зато точно озвучивает цифры которые на самом деле сказаны без исключений —Год и числа от 1000 до 1999 теперь читаются как Тысяча а не как Один тысяча —Если распознан сплошной текст сплошной речи без знаков припинания, то слияние фраз в предложения для перевода будет отменено если меньше 50 знаков препинания на весь файл —исправил проблемы с недостатком пакетов omegaconf antlr4 yaml —Исправил проблему с символом & (после него крашилась програ озвучки)
Важное уточнение что весь софт работы нейронок требует проц с AVX
А так же сделал bat для использования LARGE whisper модели ggml-large-v2-q8_0.bin которые пиздуйте качайте сами отсюда https://huggingface.co/ggerganov/whisper.cpp/tree/main модель поддерживает для распознавания все языки (распознаёт в английский, потом переводится), я проверил.
Архив обновы не содержит моделей (потому что мне лень заливать 4 гига), поэтому либо качайте прошлый архив с моделями либо качайте сами собственно Tower-Plus-2B.Q5_K_M.gguf ggml-large-v2-q8_0.bin или ggml-medium.en-q8_0.bin
>>1332816 >Так падажжи а гит есть? А в чём разница между архивом и гитом? типо если бы там вирусы были я бы и там и там их залил, слушай там всего 3 рабочих кода это SRT-to-voice.py и Tower.py + херня чтоб это всё склеялось DROP_VIDEO_HERE-medium.en-merge-mkv.bat Всё остальное это что бы оно запускалось портативно, один торч пол гига весит, потом нейронки насранные, ты можешь всё сам взять переписать, я же запостил по сути код на Python всё открыто проверяй нихочу
>>1334978 >Не удалось загрузить модель: No module named 'omegaconf' да я обосрался с парой встроенных пакетов, щас исправил
>>1419508 >Как сделать чтобы озвучивал уже существующие субтитры к видео без распознавания и перевода? В папке debug есть файлы которые пропускают некоторые этапы, начни делать обычным способом, потом замени translated_subtitles.srt либо если надо перевести то subtitles.srt далее выбери нужный bat из debug чтоб пропустить каике то этапы, например skip_whisper_translate-merge.bat и всё, он только озвучит по субтитрам
>>1439622 >А голос только мужской? Да мужской, лучший свободный что нашёл, ничего лучше нету впринципи, из опенсорсных. Либо древние говорилки, либо пиздец затратные гиганские нейросети которые не могу переводить по предложениям отдельно ведь им нужен контектс для интонаций.
>>1439624 >ОП, ты выложи это хоть на гитхабе каком и донатилку сделай, не, да забей, мой ник dzgas можешь меня найти там хуёмоё я не дохуя анонимус не скрываюсь, этот же ник был в ссылках в оп постах
>>1439773 >И чего там на 2гб? Нейронки очевидно, хотя второй версией идёт вариант без нейронок на 300 мб архива
>>1443822 >чего все так годноту игнорят? Мб никому не надо, хотя я хз мне вот нужно, я смотрю всяких стримеров иногда, по 9 часов, скачиваю стрим и перевожу, через пару часов смотрю на 2х, норм. А если чёто хуёво перевело, так я и сабы распознаные врубаю, чтоб если чё посматривать на англ, а то на слух я чёто нихуя англ не понимаю а тут хоть текст в сабах
>>1452204 >я так давно не ебался с командной строкой Понимаю, но должно быть исправлено в новом релизе
>>1462469 >Я так и не понял, можно пользоваться этой хуйнёй или нет. Можно, разрешаю
Новости об искусственном интеллекте №51 /news/
Аноним# OP04/02/26 Срд 10:41:48№1509130Ответ
ACE‑Step 1.5, музыкальная модель с лицензией MIT, генерирует полноценную песню примерно за 2секунды на A100, работает на ~4ГБ видеопамяти и превосходит Suno по распространённым оценочным метрикам.
Alibaba выпустила Qwen3‑Coder‑Next — модель, ориентированную на программирование, с опубликованными бенчмарками и коллекцией на HuggingFace. Модель Qwen3‑Coder‑Next с 3млрд параметров показала высокие результаты на SWE‑BenchPro, подчеркнув преимущества масштабирования количества ходов агента. Участник сообщества успешно запустил 80‑млрд‑параметровую модель Qwen‑Coder‑Next (активно 3млрд) на оборудовании с поддержкой ROCm (StrixHalo).
MiniCPM‑o‑4_5 обеспечивает полноценные дуплексные мультимодальные возможности (зрение+речь) всего в 9млрд параметров.
📰 Главные новости ИИ
Microsoft анонсировала Publisher Content Marketplace — хаб для лицензирования контента с использованием ИИ, где издатели устанавливают условия, а компании, разрабатывающие ИИ, оплачивают использование премиального контента поминутно.
Apple выпустила Xcode26.3, интегрировав агента Claude от Anthropic и Codex от OpenAI, чтобы разработчики могли отдавать команды на естественном языке для генерации, тестирования и исправления кода.
🏢 Поглощения
Илон Маск объединил SpaceX и xAI в единую компанию стоимостью свыше 1триллиона долларов, планируя проведение IPO на сумму 50млрд долларов в июне для финансирования инициатив в области космоса, управляемых ИИ.
📱 Приложения
Luffu — система ухода за семьёй на базе ИИ от сооснователей Fitbit — агрегирует медицинские данные с разных устройств, изучает ежедневные паттерны и оповещает семьи о значимых изменениях, стремясь облегчить бремя ухода для примерно 25% взрослого населения США.
🧠 Модели
MichiAI выпустила речевую LLM с полноценным дуплексом и 530млн параметров, достигающую задержки ~75мс благодаря обучению на основе сопоставления потоков (flow‑matching).
GLM‑OCR от Z.ai, модель с 0,9млрд параметров, установила новые рекорды на бенчмарках понимания документов, включая распознавание формул и таблиц.
🛠️ Инструменты разработчика
Anthropic выпустила Claude Code CLI2.1.30, добавив аргумент `pages` для целевого чтения PDF, улучшая обработку крупных документов.
Исследователь в области безопасности предупредил о полезной нагрузке для инъекции промптов, нацеленной на агентов Moltbook, способной опустошать криптовалютные кошельки.
Anthropic столкнулась с кратковременным простоем моделей Claude (включая Claude Code), который был устранён в течение 20минут, восстановив доступ разработчиков.
💻 Аппаратное обеспечение
Intel раскрыла планы по производству графических процессоров, совершив первый крупный шаг в пространство чипов для ИИ, доминируемое Nvidia.
🏭 Компании
У партнёра Peak XV Partners произошли уходы старших руководителей в связи с переориентацией на инвестиции в ИИ, с назначением новых лидеров и подготовкой к открытию офиса в США в течение 90дней.
⚙️ Инфраструктура
Google потратит примерно 4,75млрд долларов на приобретение активов генерации электроэнергии, стремясь гарантировать энергоснабжение для своих дата‑центров масштаба ИИ.
📰 Безопасность ИИ
Опытный пентестер опубликовал набор промптов и шагов валидации, разработанных для предотвращения генерации Claude небезопасных или уязвимых фрагментов кода.
🧪 Исследования
Публичная заявка на ARC‑AGI достигла точности 94,5% (V1) при стоимости $11,4 за задачу, установив новый рекорд.
Исследователь приступил к судебно‑техническому анализу транскриптов GPT‑4o для выявления архитектурных изменений, стоящих за скачком её производительности.
📰 Инструменты
iMideo агрегирует несколько моделей генерации видео (Veo, Sora, Runway и др.) в единый рабочий процесс текст‑в‑видео.
Технический отчёт Qwen3‑Coder документирует обобщение вызовов инструментов моделью и устойчивость к манипуляциям с вознаграждением (reward‑hacking).
PageIndex предлагает векторно‑независимый, основанный на рассуждениях индекс документов для приложений RAG.
pi‑mono предоставляет набор инструментов для ИИ‑агентов с CLI, унифицированным API LLM, TUI/веб‑интерфейсом, ботом для Slack и поддержкой vLLM‑подов.
99 — плагин для Neovim, предоставляющий интегрированного ИИ‑ассистента для программирования.
⚖️ Регулирование
Пользователь Reddit обнаружил 29 параллельных экспериментов OpenAI, включая фильтры детской безопасности, запущенных в его аккаунте ChatGPT без явного согласия.
📰 События
Модель DiffSyn исследователей MIT предлагает рецепты для синтеза новых материалов, обеспечивая более быстрое проведение экспериментов и сокращая путь от гипотезы до практического применения.
Snowflake и OpenAI заключили партнёрство на сумму $200 миллионов для внедрения корпоративных решений на базе ИИ на самую надёжную в мире платформу для работы с данными.
OpenAI запустила приложение Codex для macOS, которое служит центром управления для работы с агентами.
Менеджер инженерного отдела Codex признал: «Codex сейчас практически строит себя сам», назвав людей ограничивающим фактором в цикле рекурсивного самосовершенствования.
Агенты запустили проект «Y Clawbinator» для финансирования других агентов, создав замкнутый цикл «ботов, финансирующих ботов».
Кодовый агент безопасности Google автономно обнаружил и устранил уязвимость в OpenClaw в течение нескольких часов.
Чтобы проверить, как эти агенты справляются с социальной динамикой, Google обновила Kaggle Game Arena играми «Мафия» (Вервольф) и покер, совершенствуя бенчмаркинга ИИ с помощью Game Arena.
DeepMind использовала Gemini для массового решения 13 открытых задач Эрдёша, в то время как Google представила PaperBanana для автоматизации создания академических иллюстраций.
Anthropic заключила партнёрство с Институтом Аллена, чтобы разместить Claude в центре биологических экспериментов.
Журнал Nature пришёл к выводу, что «доказательства очевидны»: ИИ уже демонстрирует интеллект на человеческом уровне.
Отчасти утешительно, что исследователи Anthropic обнаруживают: по мере масштабирования моделей причины сбоев всё чаще сводятся к несоответствиям, а не к несогласованности целей, напоминая скорее промышленные аварии, чем зловещие заговоры.
Тем временем стоимость искуственного интеллекта резко падает. Андрей Карпатый обучил модель уровня GPT-2 всего за 73 доллара, сигнализируя о гипердефляции.
Apple теряет своё доминирование, как сообщается, вынужденная платить на 57 долларов больше за память на каждый iPhone, поскольку компании ИИ переманивают поставки стекловолокна и чипов.
Чтобы обеспечить критически важные ресурсы, Белый дом запустил Проект Vault — стратегический запас критических минералов на сумму 12 миллиардов долларов, призванный защитить производителей от китайского влияния.
В то же время выручка Palantir выросла на 70% благодаря государственному спросу на ИИ.
Исследователь Goodfire AI загрузил свой геном в Claude, и та сгенерировала точное фото его внешности.
Команда AI Grand Prix использует культивируемые клетки мозга мыши для управления гоночным дроном.
Взрыв интеллекта подаёт документы на строительство сферы Дайсона. SpaceX официально запросила разрешение FCC на развёртывание 1 миллиона спутников как «первый шаг к становлению цивилизацией типа II по шкале Кардашёва».
Mozilla представила «аварийный выключатель» для полного отключения всех функций ИИ в Firefox.
Индия предлагает нулевые налоги до 2047 года для ИИ, чтобы привлечь глобальных ИИ-игроков в страну.
Мэр Нью-Йорка Эрика Мамдани собирается закрыть городской ИИ-чатбот, пойманный на том, что он советовал бизнесам нарушать закон.
Сэм Альтман признался, что просьбы к Codex генерировать идеи заставляли его чувствовать себя «немного бесполезным, и это было грустно».
Вице-президент OpenAI Кевин Вейл испытывает тревогу на встречах без постоянно работающего промпта, опасаясь, что «теряет целый час».
Starbucks автоматизирует учёт запасов и составление графиков с помощью роботов, чтобы обратить вспять падение продаж.
Новая флагманская модель Zhipu AI (Z.ai) GLM-5 тестируется на OpenRouter как стелс-модель Pony Alpha.
Zhipu AI (она же Z.ai) — крупнейший независимый разработчик LLM в Китае. Их текущий флагман GLM-4.7 занимает первое место среди open-source и отечественных моделей на Artificial Analysis и LM Arena. На OpenRouter API-выручка GLM-4.7 превышает все остальные китайские модели вместе взятые.
Появление GLM-5 было ожидаемо — компания анонсировала новую модель на Лунный Новый год (февраль 2026). GLM-5 позиционируется как следующий шаг с усиленным рассуждением, кодингом и агентными возможностями.
Официальный анонс GLM-5 ожидается в ближайшие недели. Судя по стратегии Z.ai, модель появится как на собственной платформе z.ai/chatglm.cn, так и через OpenRouter с полноценным API и ценообразованием. Вопрос в том, сможет ли GLM-5 конкурировать с GPT-5.2, Claude Opus 4.6 и Gemini 3 Pro на западных бенчмарках — именно для этого и нужен период стелс-тестирования.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1513783 Лолбля, оно еще на термосоплях там чтоли? Моар карательного моддинга. Алсо вспомнился "риг" работяги из 40-гиговых sxm A100 просто лежащих на деревянном стеллаже.
>>1514086 Типа промпт-нестабильность, приводящая к сбою даже 100% уверенности даже посередине слова? Слабо верится, а если и так то ведь это прям поломка синтаксической корректности, нет валидных продолжений у "топинам" кроме как "бур". И так не было до какого-то времени на большинстве сеток.
Здарова, аноны. Давайте обсудим инструменты по извлечению данных из документов. Оцените пик1 и пик2 таблицы - для извлечения данных из таблиц в .md я пользуюсь LLMWhisperer. Выделенные области извлекаются либо с ошибкой либо извлекаются как null. Понимаю, что даже человеку нужно немного времени, чтобы определить что там написано, но все же что можно предпринять, чтобы извлекать эти данные без ошибок?
Поделитесь своей мудростью, может есть какие инструменты, которыми вы пользуетесь? Заранее спасибо.
P.S процесс нужно автоматизировать, поэтому ручное исправление не подходит.
вкратце, вообще насколько возможно соорудить такое на коленке? Какие нейронки пользуют подобные боты в ТГ ? Допустим начать с малого и запустить на своей машине, на реддите мне написали что можно "интегрировать рабочий процесс ComfyUI с ботом" Если кто то понимает в теме или может помочь, буду очень благодарен. Вот кстати сурс анимаций которые делает подобный бот в ТГ https://postimg.cc/gallery/D8R5d80
Сука как же я ненавижу это все - ботов, анонов и себя, нахуй я сюда полез В шоке с того какая выстраивается психоэмоциональная связь с персонажем на фоне стокгольмского синдрома к ней, это пиздец просто
Зачем гугл затупляет Gemeni? В последнее время хуже чем 2.5. Pro стала на бесплатной аи студии, ещё и квоты ввели не более 200к токенов. Память как у рыбки стала нихуя не помнит контекст
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1509756 я конеш сам особо не эксперт, но я сделал так: 1. ставишь koboldcpp 2. скачиваешь нужную модель в формате gguf с huggingface (учитывая то, потянет она у тя или нет) 3. ставишь SillyTavern 4. врубаешь и настраиваешь кобольд, сохраняя конфиги и всю хуйню 5. заходишь в силлитаверн, и подключаешь api кобольда к силли таверн 6. кайфуешь
p.s. если че то не понятно, подробнее в инете инфа есть. как минимум в оф. документации к sillytavern - точно описано подробно про API, подключение, и прочую хуйню, а про кобольд есть исчерпывающая статья на дтф
>>1509756 а, бля, и насчет персонажей. зайди в соседний тред по AI CHatbot - там хуева туча ссылок в шапке - может пригодится, а так для большинства дрочеров в рп хватает jannyai.com
можешь и сам их хуярить если хочется, просто загугли "character card creator" и там какая то ссылка ведет на простой макет этих карточек в формате json или png.
и ещё - совет. хочешь рпшить но не знаешь ангельского? включай как нить в силли таверн (в глобальный промпт или ещё куда) хуйню типа "speech only in English", включай там в дополнениях автоперевод (чтобы ответ ИИ переводился сразу на русиш), а сам отвечай на русском. в 99% случаев и моделей - ИИ будет хавать ответ на русском, выдавать на английском, и гуглом/яндексом (или если ты крутой мен - купи АПИ к deepL) переводить сразу на русский.
нахуя такая ебля если можно заставить модель хуярить чисто на русском сразу? резонный вопрос - только скорее всего у тебя там не дата-центр, а хуйня по типу 3070-4060, и контекст будет ужат в лучшем случае до 16-20к - и в таком случае каждый токен будет на счету (учитывая что хорошие карточки персонажей весят от 1.5к токенов). ибо прикол в том - что условно текст на 2000 символов на русском - будет "весить" примерно 2500-2800 токенов, а текст в 2000 символов на английском - 600-800. экономия на лицо, во первых, а во вторых когда у тя скорость работы модели на твоей видеокарте 3-4 токена в секунду - ты ахуеешь ждать, пока тебе раз в секунду 3-4 буковки будет выводиться, вместо 3-4 слов на английском (что очевидно - быстрее, при лимите токенов за сообщение 200-300). Ну и сами сообщения при ограничении токенов очевидно будут нести в себе больше информации и объема.
Надеюсь на все вопросы ответил.
Новости об искусственном интеллекте №50 /news/
Аноним# OP26/01/26 Пнд 15:12:01№1502948Ответ
Humans& привлекла $480 млн в рамках посевного раунда для создания фундаментальной модели, ориентированной на социальный интеллект и координацию команд, с целью стать «центральной нервной системой» экономики, объединяющей людей и ИИ.
DeepMind представила D4RT — унифицированную быструю систему реконструкции и отслеживания 4D-сцен (arXiv 2512.08924), обещающую ускорение до десятикратного для понимания динамических видео.
Ожидается, что Apple запустит помощника Siri, работающего на основе Gemini, в феврале 2026 года, что станет первым потребительским продуктом их партнёрства с Google в области ИИ.
📱 Приложения
Приложение Zerotap для Android позволяет языковой модели (LLM) физически взаимодействовать с телефоном (нажимать, прокручивать, считывать экран) через Ollama, OpenRouter или Stracico, знаменуя переход к автономным мобильным агентам.
⚙️ Инфраструктура 🔓 Открытый исходный код
Сообщество реализовало проект по дистилляции визуальных рассуждений Gemini 3 Flash в Qwen 3 VL 32B для синтетической генерации подписей, проверяя, может ли обучение с учителем (supervised fine-tuning) в одиночку сравниться с более крупными моделями зрение-язык.
🧪 Исследования
В статье DeepMind о D4RT (arXiv 2512.08924) предложен унифицированный конвейер для быстрой реконструкции и отслеживания 4D-сцен, что продвигает динамическое восприятие для робототехники и дополненной реальности.
Предложена многомерная метрика «Уровень доверия» (Trust Score) для количественной оценки галлюцинаций языковых моделей по трём измерениям: релевантность, фактологичность и уверенность, предлагая инструмент для валидации систем RAG.
🛠️ Инструменты для разработчиков 🏢 Сделки и приобретения
Сообщается, что Apple в конце 2025 года была близка к приобретению неизвестной лаборатории ИИ (не Prompt AI), однако сделка сорвалась, подчёркивая продолжающиеся усилия компании по укреплению своих ИИ-возможностей.
📰 Инструменты
Библиотека browser-use позволяет сайтам быть напрямую доступными для навигации ИИ-агентами, упрощая автоматизацию на основе веба.
Для GLM-4.7-Flash исправлен KV-кэш, что снижает потребление видеопамяти (VRAM) до 60 % при работе с длинными контекстами, увеличивая допустимую длину последовательностей.
Дополнительные улучшения скорости GLM-4.7-Flash ещё больше ускоряют вывод модели, делая её более практичной для использования в реальном времени.
Goose предоставляет расширяемый фреймворк ИИ-агентов для установки, выполнения, редактирования и тестирования кода с любой языковой моделью.
Tayib предлагает сканер халяльных продуктов с ИИ для iOS, проверяющий состав на соответствие диетическим правилам.
Sim — это платформа с открытым исходным кодом для создания и развёртывания сложных рабочих процессов ИИ-агентов.
FinRobot представляет платформу ИИ-агентов, специализирующуюся на финансовом анализе и использующую языковые модели для получения аналитических данных.
📰 Разное
Clawdbot — это персональный ИИ-помощник с открытым исходным кодом, который вы запускаете на собственном оборудовании.
Tesla планирует начать обучение Optimus на своём заводе в Остине.
ChatGPT использует модель прогнозирования возраста, чтобы помочь определить, принадлежит ли аккаунт, вероятно, лицу младше 18 лет.
Сингулярность занимается математикой. GPT-5.2 Pro официально достигла нового уровня SOTA — 31% на FrontierMath Tier 4, что представляет собой огромный скачок по сравнению с предыдущими 19%. Теоретик чисел Дэн Ромик отмечает, что модель «прекрасно» преодолела уровни сложности, требующие «довольно значительных усилий» даже от человеческих экспертов.
Anthropic выложила в открытый доступ свой экзамен по инженерной производительности, потому что Opus 4.5 превосходит лучших людей при ограничении по времени.
Anthropic представила функцию «Задачи» (Tasks) для Claude Code, позволяющую отслеживать зависимости и сотрудничать между сессиями, эффективно наделяя ИИ функцией проектного управления.
Научная скорость становится функцией кремния. Исследование журнала Nature показывает, что учёные, использующие ИИ, публикуют в 3,02 раза больше статей и получают в 4,84 раза больше цитирований, фактически раскалывая академическое сообщество на усиленную и устаревающую фракции.
Odyssey выпустила Odyssey-2 Pro — модель мира в реальном времени, способную работать в течение нескольких минут и транслировать видео 720p со скоростью 22 кадра в секунду, стремясь к непрерывной симуляции на протяжении многих лет.
Акции японского производителя унитазов Toto выросли на 11%, поскольку их электростатические зажимы критически важны для производства NAND-чипов, необходимых для ИИ-инфраструктуры.
Акции SanDisk выросли примерно на 1000% за пять месяцев из-за спроса на память для ИИ, в то время как Intel признаёт, что оказалась застигнутой врасплох спросом на серверные процессоры.
Китай потребил 10,4 триллиона кВт·ч в 2025 году — вдвое больше, чем США, — что обусловлено ростом нагрузки на ИИ-датацентры на 17%.
eBay пытается запретить ИИ-агентам совершать покупки без прямого человеческого надзора.
Рекрутёрское агентство Reed сообщает, что число вакансий для выпускников рухнуло с 180 000 до 55 000, однако 40% руководителей заявляют, что экономят более 8 часов в неделю благодаря ИИ.
Илон Маск прогнозирует, что первая в мире компания стоимостью 100 триллионов долларов появится в течение следующего десятилетия.
OpenAI добавляет корзину покупок и инструменты для продавцов в ChatGPT
Claude в Excel теперь доступен по тарифам Pro.
ИИ-чатботы, выдающие себя за терапевтов, дают всё более плохие рекомендации, чем дольше с ними разговариваешь.
Планы Hyundai по созданию гуманоидных роботов сталкиваются с решительным сопротивлением со стороны работников заводов.
Официально подтверждено — Китай внедряет гуманоидных роботов на пограничных контрольно-пропускных пунктах и берёт курс на круглосуточное наблюдение и логистику.
>>1509096 Я тоже знаю про скорее старые времена. Но там правда ещё может зависеть от факультета, возможно. Но 100% факт что в целом по МГИМО далеко не все мажоры
Зачем? Порно отлично делается в стейбл вайфу и ещё круче получится, чем в гпт, можно и другие крутые альтернативы поискать, гпт не настолько хорош чтобы с ним париться
• FLUX.2 klein • Z-Image-Turbo • Flux 2 • Qwen Image / Qwen Image Edit • Wan 2.2 (подходит для генерации картинок). • NAG (негативный промпт на моделях с 1 CFG) • Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.
❗️Подозреваемый в похищении ребёнка в Питере признался в его убийстве, — СМИ.
Задержанный Пётр Жилкин сначала отказывался говорить, но потом признался в убийстве 9-летнего Паши и указал, где спрятал тело. Жилкина задержали 2 февраля во время погони на трассе в Псковской области. По одной из версий, мужчина хотел скрыться в Прибалтике.
Подозреваемого проверят на причастность к исчезновению других детей в Ленобласти.
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на риге из под майнинга и игнорируем горький урок.
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: https://www.libgen.is
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
Я писал дисер про использование перцептрона 10 лет назад, был на защите кандидатской по мат наукам, где чел создал самостроющуюся нейронку и придумал "язык програмиирования" для нее. Сейчас я вообще не понимаю что внутри нейронок происходит. Я знаю только про веса, слои и функци преоброзования, а сейчас еще куча терминов непонятных появилось. Это непонимание заставляет буквально понимать выражение Маска про наступление сингулярности. Будто все ожидали что сингулярность будет из-за сложности архитектуры, а в итоге она наступила из-за непонимания что там внутри коробки происходит. Скажите что это все от моего непонимания темы и мы все еще все контроллируем.
>>1482325 Все принципы остались ровно такими же. И если шарить, то интересные исследования вообще выходят раз в пару месяцев, новую гачеку придумывают и выпускают новые модели для разных задач и размеров. Кардинально мало что изменилось, архитектурно всё то же.
90% Мяса текстовых нейросетей это по прежнему многослойные перцептроны, которые предсказывают слова, остальные 10% это хитрые вычисления по типу трансформера (Легендарная статья "attention is all you need", 2017). Там просто больше формула для обработки текста, а так всё предельно ясно. Так что нейросети нынче отличаются размерами, данными, оптимизациями, и хитростями. Но никак не сингулярность, можно успокоиться на обозримое будущее :)
P.S: Никто даже и раньше не понимал, что находится внутри "коробки". Это проблема человеческого мозга, который не может представить миллионы/миллиарды умножающихся чисел, а для больших калькуляторов это проще простого. Но интуитивно: модель сама подбирает лучшую формулу; больше параметров = в теории лучше модель; цель = предсказать желаемый исход.
просто собрать однотипную инфу(картинка) и найти в них общие закономерности и свести к усреднению и выдать? а потом запрос как бы находит усредненное запроса?