Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 19 10 11
автоматический перевод и озвучка на русский полностью офлайн Стори: захотел посмотреть сериал с тра Аноним # OP 12/08/25 Втр 21:38:34 1314324 1
TheTower.png 361Кб, 512x400
512x400
The Apprentice [...].mp4 6398Кб, 512x384, 00:01:39
512x384
ADigitalMediaPr[...].webm 4519Кб, 640x360, 00:06:15
640x360
автоматический перевод и озвучка на русский полностью офлайн

Стори: захотел посмотреть сериал с трампом который оказывается никем никогда не озвучивался, и не переводился (переводился сабами несколько сезонов но похуй) так вот оказалось что нету никаких готовых инструментов в стиле "перевести 20 часов звука за ноль денег". И я подумал что это какой то бред, ведь есть ебанутая гора технологий для реализации всех этапов, бесплатно. Ну вот я и сделал, за пару дней. Перевёл-озвучил первый сезон, посмотрел, ну, так, не зашло особо. Но софт получился что надо. Поработал ещё 3 недели над ним, нашёл нейросети получше, ну и короче:

Техническая часть: Whisper + TowerPlus + Silero TTS с моей укладкой по таймингам, итого все выполняют полный цикл распознавание + перевод + озвучка. Реализовано только на процессоре потому что я нищий у меня нету видеокарты, что бы отдебажить всё это на ней, поэтому да поебать мне.

Скачать+использовать:
https://drive.google.com/file/d/1Kufx5LqKOEx67xy7NNNQjcQd5qwKJt7j/view?usp=sharing полная офлайн сборка со всем софтом и моделями, которые я довёл до простоты принципиально:
1. распакуй куда угодно
2. дропни видос в .bat
3. ??????
4. готовый файл с переводом.

https://drive.google.com/file/d/1u22DFaHRaHDb7sg-i3cxW7wfEQjJUN0z/view?usp=sharing тоже самое но без моделей Whisper + TowerPlus, их можно скачать самому здесь https://huggingface.co/DZgas/Tower-Plus-2B-GGUF/tree/main и здесь https://huggingface.co/ggerganov/whisper.cpp/tree/main
Так же можно использовать другие модели, например large v2 и towerplus 9b для более лучшего перевода, но это упирается в проц и весит дохера. Всё остальное доделывайте сами, 3 модуля, всё можно менять, всё соединяется промежуточно субтитрами, а я на вайбкодился вусмерть.
Аноним # OP 12/08/25 Втр 22:10:10 1314509 2
NUUG Meetup 201[...].mp4 20382Кб, 1280x720, 00:01:52
1280x720
Аноним 15/08/25 Птн 19:57:32 1319392 3
>>1314509
анон ты гений ебать
Аноним 15/08/25 Птн 22:21:11 1319574 4
>>1314324 (OP)

Ты крут, анон. Обычно за такие готовые решения все сразу хотят получать бабки, потому они и не выходят никогда в открытый доступ, а ты обошел систему. Побольше бы таких как ты.
Аноним 26/08/25 Втр 20:07:34 1332816 5
Так падажжи а гит есть? Чет стремно без пир ревью тянуть что-то ставить себе просто с гугл диска
Аноним 28/08/25 Чтв 11:48:56 1334356 6
>>1332816
Ну загони в нейронку если боишься. Там вроде всего два файла для питона и один батник. Остальное дефолтные либы которые можешь сам скачать с надёжного источника. Ну или запускай в ВМ и не еби себе мозги
Аноним 29/08/25 Птн 00:41:48 1334978 7
>>1314324 (OP)
--- STEP 4: Generating voice from subtitles (str-to-voice.py) ---
Загрузка модели из локальной папки: silero_local...
Не удалось загрузить модель: No module named 'omegaconf'
Аноним 17/11/25 Пнд 12:57:36 1418868 8
бамп
Аноним 17/11/25 Пнд 13:44:34 1418910 9
>>1314324 (OP)
Ты чё, ебанутый? Как ты с такими умениями можешь быть нищим? Чтобы в следующем году жил в Калифорнии, блядь. Приду — проверю.
Аноним 18/11/25 Втр 02:41:49 1419508 10
Как сделать чтобы озвучивал уже существующие субтитры к видео без распознавания и перевода?
Аноним 28/11/25 Птн 19:11:40 1433768 11
Годный тред тонет

Че там, ОП-хуй напихал вирусов в свое творение под самую сраку или нет?
Аноним 03/12/25 Срд 21:00:35 1439622 12
>>1314324 (OP)

Блять, а ведь это мне сейчас прям очень надо. Рискнуть своей жопой, что ли.

А голос только мужской?
Аноним 03/12/25 Срд 21:01:48 1439624 13
17639832198760.mp4 1775Кб, 720x1280, 00:00:07
720x1280
Олсо да

>>1418910

ОП, ты выложи это хоть на гитхабе каком и донатилку сделай, видеокарту ты себе точно купишь если эта хрень рабтоает
Аноним 03/12/25 Срд 22:43:36 1439773 14
empirestrikesba[...].mp4 1886Кб, 640x360, 00:00:55
640x360
>>1334356
>Ну загони в нейронку если боишься
>2ГБ

КУДА? Буквально, нахуй, никуда его не загрузить

И чего там на 2гб?
Аноним 06/12/25 Суб 19:13:16 1443822 15
BUR2.jpg 217Кб, 478x720
478x720
Бамп нахуй блэт, чего все так годноту игнорят? Вирус там, не вирус? Заебали
Аноним 12/12/25 Птн 04:06:25 1452204 16
Хочу выразить признательность Опу, я так давно не ебался с командной строкой

Доволен как слон, интересно пиздец
Аноним 19/12/25 Птн 23:08:16 1462469 17
15409907938150.mp4 438Кб, 460x258, 00:00:10
460x258
Я так и не понял, можно пользоваться этой хуйнёй или нет.
Аноним 21/12/25 Вск 14:57:19 1464015 18
>>1462469
ну типа там сборочка под 3 Гб где Оп сделал
>с моей укладкой по таймингам

уложил ли он туда какой-нибудь майнер, хуй его знает.
Я бы уложил вам бесплатным говнюкам ищущим халявы
Аноним 09/02/26 Пнд 23:17:52 1515138 19
BillGatestestim[...].webm 5611Кб, 640x480, 00:08:20
640x480
PolyglotSpeakin[...].webm 9405Кб, 640x360, 00:08:37
640x360
сап ИИ мимо ОП

спустя пол года сделал большую обнову
https://drive.google.com/file/d/1tUjxmnuoxrxk2YmQsKDEpjjDjBEDaZPR/view?usp=sharing

список изменений:
—Доработана генерация имен собственных в лучшую сторону, нейросеть делает больше 10 попыток генерации на каждое слово отдельно
—Исправлен баг когда строки с только цифрами игнорировались
—Генерация текста цифр теперь исключительно без нейросетей, от чего может звучать более топорно, но зато точно озвучивает цифры которые на самом деле сказаны без исключений
—Год и числа от 1000 до 1999 теперь читаются как Тысяча а не как Один тысяча
—Если распознан сплошной текст сплошной речи без знаков припинания, то слияние фраз в предложения для перевода будет отменено если меньше 50 знаков препинания на весь файл
—исправил проблемы с недостатком пакетов omegaconf antlr4 yaml
—Исправил проблему с символом & (после него крашилась програ озвучки)

Важное уточнение что весь софт работы нейронок требует проц с AVX

А так же сделал bat для использования LARGE whisper модели ggml-large-v2-q8_0.bin которые пиздуйте качайте сами отсюда https://huggingface.co/ggerganov/whisper.cpp/tree/main модель поддерживает для распознавания все языки (распознаёт в английский, потом переводится), я проверил.

Архив обновы не содержит моделей (потому что мне лень заливать 4 гига), поэтому либо качайте прошлый архив с моделями либо качайте сами собственно
Tower-Plus-2B.Q5_K_M.gguf
ggml-large-v2-q8_0.bin или ggml-medium.en-q8_0.bin


>>1332816
>Так падажжи а гит есть?
А в чём разница между архивом и гитом? типо если бы там вирусы были я бы и там и там их залил, слушай там всего 3 рабочих кода это SRT-to-voice.py и Tower.py + херня чтоб это всё склеялось DROP_VIDEO_HERE-medium.en-merge-mkv.bat
Всё остальное это что бы оно запускалось портативно, один торч пол гига весит, потом нейронки насранные, ты можешь всё сам взять переписать, я же запостил по сути код на Python всё открыто проверяй нихочу

>>1334978
>Не удалось загрузить модель: No module named 'omegaconf'
да я обосрался с парой встроенных пакетов, щас исправил

>>1419508
>Как сделать чтобы озвучивал уже существующие субтитры к видео без распознавания и перевода?
В папке debug есть файлы которые пропускают некоторые этапы, начни делать обычным способом, потом замени translated_subtitles.srt либо если надо перевести то subtitles.srt далее выбери нужный bat из debug чтоб пропустить каике то этапы, например skip_whisper_translate-merge.bat и всё, он только озвучит по субтитрам

>>1439622
>А голос только мужской?
Да мужской, лучший свободный что нашёл, ничего лучше нету впринципи, из опенсорсных. Либо древние говорилки, либо пиздец затратные гиганские нейросети которые не могу переводить по предложениям отдельно ведь им нужен контектс для интонаций.

>>1439624
>ОП, ты выложи это хоть на гитхабе каком и донатилку сделай,
не, да забей, мой ник dzgas можешь меня найти там хуёмоё я не дохуя анонимус не скрываюсь, этот же ник был в ссылках в оп постах

>>1439773
>И чего там на 2гб?
Нейронки очевидно, хотя второй версией идёт вариант без нейронок на 300 мб архива

>>1443822
>чего все так годноту игнорят?
Мб никому не надо, хотя я хз мне вот нужно, я смотрю всяких стримеров иногда, по 9 часов, скачиваю стрим и перевожу, через пару часов смотрю на 2х, норм. А если чёто хуёво перевело, так я и сабы распознаные врубаю, чтоб если чё посматривать на англ, а то на слух я чёто нихуя англ не понимаю а тут хоть текст в сабах

>>1452204
>я так давно не ебался с командной строкой
Понимаю, но должно быть исправлено в новом релизе

>>1462469
>Я так и не понял, можно пользоваться этой хуйнёй или нет.
Можно, разрешаю
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов