Страница 42 из 49

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 29 окт 2013, 10:23
Nagasumi
Хотелось бы добавить распознавание капчи без сторонних сервисов в парсинге ссылок.

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 29 окт 2013, 15:07
XseoN Founder
Хотелось бы добавить распознавание капчи без сторонних сервисов в парсинге ссылок.


При парсинге Yandex.ru на 1кк полученных ссылок уходит около 500 капчей (15 руб.), Yandex.ua на 1кк полученных ссылок уходит около 900 капчей (27 руб.)
Конечно, бывают IP с плохой репутацией, там соответственно будет больше расход капч.

По парсингу Google пока без изменений
выдержка из новостей (раздел Новости сайта):

Google после последнего обновления своих алгоритмов выдачи капчи так же ОЧЕНЬ ЗНАЧИТЕЛЬНО УЖЕСТОЧИЛ требования к proxy, через которые производятся запросы. Если парсить через паблик прокси, то данные прокси сейчас практически все в бане у данной ПС и при работе через них Google сначала выдает капчу, затем сообщение, что с данного IP зарегистрирован подозрительный трафик и данный IP будет блокирован на достаточно долгое время. Выход - парсинг-чекинг новых прокси с помощью парсера и XPCP.


Yahoo парсим вообще без капч, на одних прокси.

Rambler парсим по капчам немного выше Yandex.

Если не считать Google, то по капчам в парсинге картина вполне неплохая.

Мы лучше потратим время на работу по пробиву капч при регистрации в каком-нибудь новом движке.

P.S. Так же интересно мнение пользователей по реализации работы в Twitter через его API. Сейчас достаточно много прог, работающих в данном сегменте, стоит ли этим заниматься?

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 29 окт 2013, 16:22
Nagasumi
Я из google парсил казалось что слишком много капчи уходит. Еще бы поддержку возобновления в проверке ссылок.

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 29 окт 2013, 19:37
Nagasumi
Вот скин парсинга с яндекса
http://clip2net.com/s/63Z4kX
(запросил сразу 115 капчей)

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 30 окт 2013, 02:59
XseoN Founder
Еще бы поддержку возобновления в проверке ссылок

Данная возможность имеется:
Жмете стоп, дожидаетесь в статусном поле сообщения об окончании работы чекера;
Жмете сохранение с выбором;
Отмечаете галку хотя-бы одного движка;
Жмете на сохранить.

После этого в главном окне чекера в верхней таблице в колонке с кол-вом ссылок в списке в скобках появится последняя позиция. При возобновлении проверки программа предложит продолжить с данной позиции.

(запросил сразу 115 капчей)


Проверим, отпишем.

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 30 окт 2013, 17:40
XseoN Founder
(запросил сразу 115 капчей)

Проверим, отпишем.


Вышел релиз 2.0 build 1.7

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 31 окт 2013, 11:04
Nagasumi
Стало меньше, но все равно больше, чем у вас. Почему то в начале был такой скачек до сотни где-то, а потом нормально.
http://clip2net.com/s/64CQQx 57к
http://clip2net.com/s/64DF7g 400к

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 31 окт 2013, 12:09
XseoN Founder
Почему то в начале был такой скачек до сотни где-то

Я же выше озвучил, что в самый первый раз или когда жизнь кук закончилась, программа берет новые куки через капчу, 1 поток забирает в самом начале по капче, т.е. в самом начале парсинга парсер заберет в среднем кол-во капч, равное кол-ву запущенных потоков, при втором запуске парсинга такой картины не будет, капчу парсер Yandex должен есть мало.
179 капч на 400к - это нормально, при след. запуске парсера Yandex капч будет меньше.

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 31 окт 2013, 17:00
Nagasumi
У меня у одного проверка ссылок стала грузить на 100% цп!?

Re: Ошибки - Замечания - Пожелание

СообщениеДобавлено: 01 ноя 2013, 15:59
Andreus
У меня тоже проц загружен на 100% при регистрации, проверке ссылок. Но загружает его антивирус (касперский). Может при использовании другого антивируса все ок?