Есть очень давнее желание для себя сделать программу, которая будет парсить видео VK по профилям пользователей. Меня интересуют только загруженные пользователями "личные" видео, давностью 10-20 лет.
Т.е условно идея такая. Я задаю перечень юзеров, которых хочу пропарсить - например, Школа такая-то, год выпуска 2009-ый. И прога прогоняет всех юзеров, скачивает базу по видосам - инфа и превьюхи, прикрепленных к их профилям (которые открыты).
Вопрос-проблема - как из тонны говна выделить именно те видео, которые являются "личными", т.е где снимали на вписках, в классе/школе, на прогулке, клубе и т.д. 99.99% видосов будут одинаковые повторы мемов, музыкальных клипов и т.д.
Вот нужно их как-то отсеять. Ещё нужно учитывать, что есть вкладка "Добавленные" видео, но туда попадают далеко не все. Часто в то время кто-то из друзей загружал видео, а другие добавляли их к себе, но они попадали в общую закладку со всем остальным мусором, а не в личную закладку. И сама закладка "Добавленные" появилась не сразу вконтакте, и те видео, что были загружены ранее - в неё не попадают.
Есть идеи? У меня только одна пока идея - каким-то образом хэшировать и сравнивать превьюшки - и если одна и та же превьюшка часто втречается, то считать видео мусором. А редко встречающиеся превьюхи - отбирать вручную.
Ну и вообще, какие подводные камни встретятся? Пока самый очевидный для меня - это постоянные капчи, проверки на бота и т.д. Вопрос в том, насколько часто это говно будет вылазить, и получится ли вообще так массово парсить видосы?
Уточню, речь именно о vk.com, а не vkvideo. В профилях пользователей есть раздел "Видео", с vkvideo он связан, но лишь частично.
>>3618023 (OP) >>3618027 Парсить много страничек юзеров и смотреть в их видео... Тебя как бота забанят очень быстро. Будешь с капчей дрочиться постоянно как минимум.
Насчет видео, наверное можно посмотреть на разные метаданные, вдруг там нужная инфа есть. Вдруг есть какой-то атрибут, который отличает лично загруженное видео от добавленных из пабликов мдк. А так да, сначала по превьюхам фильтровать, может быть еще как-то по названию можно.
Но чтобы полностью автоматически это сделать нужно ML модели будет запускать, которые будут классифицировать превьюху+название+само видео. Причем ML моделей готовые вряд ли есть, придется самому пердолиться. Лучше у нейронок спроси как эту задачу классификации можно решить при помощи машинного обучения. Вдруг есть какие-то отдаленно похожие решения (не для VK, а в целом по классификации видео).
Плюс большая часть профилей и групп давно закрыта. Я хз что сейчас можно в вк выловить. А так конечно с точки зрения истории и социологии возможно это будет очень ценный набор данных.