[Ответить в тред] Ответить в тред

26/03/16 - Конкурс: Помоги гомункулу обрести семью!
15/10/15 - Набор в модераторы 15.10 по 17.10
27/09/15 - Двач API — Инструкция к применению


[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 23 | 11 | 14
Назад Вниз Каталог Обновить

Йоба парсер вся суть в посте Аноним 05/12/15 Суб 21:53:33  78678  
14493416133870.jpg (6Кб, 346x146)
Нужен парсер который бы ходил по списку ссылок 1 строка один сайт, и чтобы вытягивал почты автоматом с сайта.

Т.к. сайты немецкие, нужно чтобы он искал на сайте ссылку контакти или impressum в 99 там будет электронка которая так желанна.

Если такие парсеры, так же было бы охуенно если бы можно было задавать минус слова и плюс слова если есть плюс слово то автоматом искать и сохранять почту если доступно, если плюс слова нет то либо сохранять либо нет, на выбор, чтобы дальше уже вручную смотерть те сайты которые парсер не смог пробить/или по мину словам они не подошли
Аноним 06/12/15 Вск 06:55:23  78685
>>78678 (OP)
Это очень легко делается. Сколько платишь?
Аноним 06/12/15 Вск 22:09:59  78730
>>78685
ты думаешь я знаю сколько это стоит? Ты предлагай цену если мне дешевле будет софтверно это сделать а не человека на зарплате держать то соглашусь
Аноним 07/12/15 Пнд 12:37:48  78757
14494810683040.jpg (164Кб, 749x857)
пиши на [email protected]
Аноним 07/12/15 Пнд 13:27:09  78759
>>78730
Чёт я передумал тебе помогать. Используй Content Downloader.
[email protected] 17/12/15 Чтв 23:22:05  79341
>>78678 (OP)

блевок свой запостил, а почту не запостил
пеши попробуем хули
Аноним 18/12/15 Птн 18:30:57  79389
14504526576070.jpg (80Кб, 800x600)
>>79341

написал кароч

https://yadi.sk/d/fjYcJbzbmKeVd

скрипт бегает по ссылкам из txt,
затем добавляет к ссылке /impressum/ и снова бегает, затем чистить говно и удаялет дубли

url.txt - закидываем список таргетов
mail.txt - спаршенные мыла

сохраняет чутка мусора на выходе и похуй

Аноним 19/12/15 Суб 20:02:46  79449
>>79389
лолблять! а нахуй он мне хочет все файлы в System32 удалить? лалка, ты бы не так палевно делала говновири
Аноним 19/12/15 Суб 21:16:46  79452
>>79449

лоль какие файлы?

кстате юзай лучше на openserver, на денвере нужно с включением curl дрючиться
Аноним 20/12/15 Вск 18:47:30  79481
>>79389
ПАЦАНЫ НЕ КОЧАЙТЕ! Его скрипт качает на компутер вирус и запускает его! Всю папку виндоус мне снес!
Аноним 20/12/15 Вск 18:57:02  79482
14506270228730.jpg (123Кб, 788x1050)
>>79481

сестра галоперидолу этому

зы: пожелания к парсеру приветствуются
Аноним 20/12/15 Вск 19:32:21  79485
>>78730
>ты думаешь я знаю сколько это стоит? Ты предлагай цену
Лолд. Я в таких случаях тупо называю максимум, а потом снижаю до порога, сколько клиет может заплатить максимум.
Все верно - товар стоит столько, за сколько его можно умудриться впарить.
Аноним 20/12/15 Вск 20:06:23  79486
14506311832550.jpg (28Кб, 394x425)
>>79485

все верно, тоже пришел к такому выводу
ну не впарить ток, а адекватный ценник -не 20$


за парсер думаю 200-400$ было бы норм
(он бы мог в многопоточность, шариться по всем страницам сайта, наращивал бы самостоятельно базу таргетов и в нагрузку парсил бы телефоны, самостоятельно запускался - мож еще че придумали бы типо допольнительного парсига емейлов из whois и подобного)
Аноним 20/12/15 Вск 21:57:21  79492
14506378419580.jpg (53Кб, 596x566)
v0.1

+ мусора в mail.txt теперь не сохраняет
+ удаляет повторные мыла (раньше дописывал в конец файла, теже мыла, только без дублей лоль)

https://yadi.sk/d/HYz3f2WRmMhnL
Аноним 20/12/15 Вск 22:34:08  79498
14506400483380.jpg (25Кб, 604x335)
>Как запускать скрипты на php?

а) Хочу на домашнем компуктере

1. качаем ultimate http://open-server.ru/download/
2. устанавливаете
3. заходите куда установили C:\OpenServer\ => запускаете Open Server x86.exe
4. жмем по появившемуся флажку в трее => запустить
5. закидываем файлы cкачанного парсера в C:\OpenServer\domains\localhost\
6. набираем в браузере localhost/mail_parser v0.1/index.php
ну или localhost/index.php если закидывали файлы без папки вы наверное сами догадались:)
7. profit

Ах да, лучше использовать хотябы беслпатный vpn на всякий случай http://www.vpngate.net/en/howto_softether.aspx - кочаете клиент, там же инструкция по подключению, все просто да еще и бесплатно - слава аллаху.

В парсинге нет ничего зазорного, но все же это серая фигня и свой мамкин ип лучше не светить в куче мест.



б) Хочу на хостинге

1. легче купить хостинг за 1$ в месяц, но можно найти беслатный
2. как выбрать хостинг? например посмотреть спец разделы на сео форумах, типо... ололо... внимание... серча конечно же и подобных
на хостинге в настройках php должен быть включен curl
Аноним 20/12/15 Вск 22:55:54  79502
>>79498
>apt-get install php5
>php -F path/to/file.php
Аноним 20/12/15 Вск 23:08:17  79503
>>79502

>и так дети, что мы в видим?

два сценария для командного процессора операционной системы linux (установка интерпретатора php и запуск скрипта)
Аноним 22/12/15 Втр 11:24:01  79583
14507726418230.jpg (9Кб, 259x194)
Лень создавать тред, спрошу тут - спарсил сайт golocal.de, много фирм, тысячи их в формате название - адрес - телефон. Как эти базы можно использовать? [email protected]
Аноним 25/12/15 Птн 13:42:46  79751
14510401663230.png (121Кб, 1480x777)
Парсю немецкий mediamarkt, я нормален? Со мной всё будет хорошо?
Аноним 25/12/15 Птн 15:26:22  79754
>>79751
>Парсер в битриксе
Ты че ебанутый? Ты че там делаешь?
Аноним 25/12/15 Птн 22:18:27  79785
14510711072580.jpg (63Кб, 600x435)
>>79751
нормален, а нах тебе этот контент?


>>79754

вниманиме внимание
написал,новый парсер (!) с краулером

1) на входе берет список и переходит по внутренним ссылкам

2) если находит ссылки на внешние ресурсы, добавляет их в список заданий - тоесть патом будет сам переходить и по ним, и на них также будет переходить по внутренним (и там тоже ищет ссылки сторонние ресурсы, ну вы поняли суть)

вообщем может долго долго шариться по интернету и парсить себе базу/мыла/телефоны да что угодно автоматически расширяя базу для парсинга ^_^

заметьте что код краулер гибкий, он не просто шарится по абсолютно всем ссылкам можно включить и такой режим, но - эффективность меньше, затраты времени/ресурсов больше, а бегает только по внутренним на 1 уровень вложенности (это очень оптимизирует работу и следовательно количество различных спаршенных ресурсов будет больше)

мамкиным сириус бизнесменам продам недорого - [email protected]
всяким неудачникам, лохам и нищебродам вышлю бесплатно :*
Аноним 25/12/15 Птн 22:19:01  79786
>>79785
>>79389 --кун
Аноним 25/12/15 Птн 22:21:48  79788
14510713084590.jpg (126Кб, 700x700)
>>79786
точнее >>79492 --кун
v0.2 же
Аноним 25/12/15 Птн 23:12:06  79800
>>79754
Не, ну а чо, работает же и ладно.
>>79785
Делаем свои каталоги в дойчнете

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 23 | 11 | 14
Назад Вверх Каталог Обновить

Топ тредов