Главная Юзердоски Каталог Трекер NSFW Настройки

Программирование

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 4 1 3
Парсер видео VK Аноним 05/01/26 Пнд 20:50:55 3618023 1
16360908453-pap[...].jpg 71Кб, 1920x1200
1920x1200
Есть очень давнее желание для себя сделать программу, которая будет парсить видео VK по профилям пользователей.
Меня интересуют только загруженные пользователями "личные" видео, давностью 10-20 лет.

Т.е условно идея такая. Я задаю перечень юзеров, которых хочу пропарсить - например, Школа такая-то, год выпуска 2009-ый.
И прога прогоняет всех юзеров, скачивает базу по видосам - инфа и превьюхи, прикрепленных к их профилям (которые открыты).

Вопрос-проблема - как из тонны говна выделить именно те видео, которые являются "личными", т.е где снимали на вписках, в классе/школе, на прогулке, клубе и т.д.
99.99% видосов будут одинаковые повторы мемов, музыкальных клипов и т.д.

Вот нужно их как-то отсеять. Ещё нужно учитывать, что есть вкладка "Добавленные" видео, но туда попадают далеко не все. Часто в то время кто-то из друзей загружал видео, а другие добавляли их к себе, но они попадали в общую закладку со всем остальным мусором, а не в личную закладку. И сама закладка "Добавленные" появилась не сразу вконтакте, и те видео, что были загружены ранее - в неё не попадают.

Есть идеи? У меня только одна пока идея - каким-то образом хэшировать и сравнивать превьюшки - и если одна и та же превьюшка часто втречается, то считать видео мусором. А редко встречающиеся превьюхи - отбирать вручную.
Аноним # OP 05/01/26 Пнд 20:53:28 3618027 2
Ну и вообще, какие подводные камни встретятся?
Пока самый очевидный для меня - это постоянные капчи, проверки на бота и т.д. Вопрос в том, насколько часто это говно будет вылазить, и получится ли вообще так массово парсить видосы?

Уточню, речь именно о vk.com, а не vkvideo. В профилях пользователей есть раздел "Видео", с vkvideo он связан, но лишь частично.

Или идея совсем утопическая?
Аноним 06/01/26 Втр 04:06:41 3618170 3
>>3618023 (OP)
>>3618027
Парсить много страничек юзеров и смотреть в их видео... Тебя как бота забанят очень быстро. Будешь с капчей дрочиться постоянно как минимум.

Насчет видео, наверное можно посмотреть на разные метаданные, вдруг там нужная инфа есть. Вдруг есть какой-то атрибут, который отличает лично загруженное видео от добавленных из пабликов мдк. А так да, сначала по превьюхам фильтровать, может быть еще как-то по названию можно.

Но чтобы полностью автоматически это сделать нужно ML модели будет запускать, которые будут классифицировать превьюху+название+само видео. Причем ML моделей готовые вряд ли есть, придется самому пердолиться. Лучше у нейронок спроси как эту задачу классификации можно решить при помощи машинного обучения. Вдруг есть какие-то отдаленно похожие решения (не для VK, а в целом по классификации видео).

Плюс большая часть профилей и групп давно закрыта. Я хз что сейчас можно в вк выловить. А так конечно с точки зрения истории и социологии возможно это будет очень ценный набор данных.
Аноним 06/01/26 Втр 18:41:59 3618569 4
>>3618023 (OP)
Тебе вк не даст соскрапить такую бд
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов