Страница 2 из 2

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 20 сен 2012, 17:03
vawsan
sirocco2012 писал(а):Вот при парсинге прокси с источников сначала собирает все прокси, потом начинет чекать их. Перед началом чека он удаляет дубли или нет???? Я собирал другим софтом точно с такими же источниками там дулей больше 50%. Поэтому хотелось бы чтобы перед началом чека найденных проксей эти прокси были очищены от дублей ;)

А еще чтобы найденный и очищенный список был автоматически сохранен не прерывая работу программы - чтобы потом можно было еще раз чекнуть этот же список, чем еще раз собирать прокси. Например можно им (спискам прокси) придавать в имя дату и время и тп.

Присоединяюсь.
Интересен этот вопрос, так как один раз собрал 168к прокси, рабочих оказалось 768 ) Вот и интересно, среди них были дубли или нет)

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 20 сен 2012, 18:09
svitok
Поддерживаю идею. Кстати было бы еще круче если бы можно было прокси по желанию отсеивать по региону. В частности разделить по желанию на русские и украинские и буржу. Ведь на форумах тоже ведь смотрят от куда зашел посетитель и по какому IP адресу

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 20 сен 2012, 18:15
XseoN Founder
Поэтому хотелось бы чтобы перед началом чека найденных проксей эти прокси были очищены от дублей

Чек из файла, удаление дублей, и запись спарсенных проксей в файл будет реализовано в след. сборке, по регионам пока не обещаю, надо смотреть.

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 21 сен 2012, 10:02
Sliper
А можно еще сделать вывод в файл адресов страниц на которых найдены прокси, чтобы отсеивать ненужные страницы (где есть защита от ботов либо защита яваскриптом).
А тетерь зачем это нужно )
Собрать адреса страниц где есть прокси легко и быстро можно парсером ссылок, но по такой базе сраниц XPCP собирает прокси очень долго, а так можно сформировать свою "нормальную" базу страниц .

Ну конечно к такой доработке напрашивается и отчет, например после каждого адреса писать сколько прокси на странице найдено и сколько из них рабочих (ну с рабочими возможно перебор).

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 22 сен 2012, 06:44
force
XseoN Founder, а можно сделать какую нибудь утилитку для удаления дублей доменных имен в урл листах?

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 22 сен 2012, 07:51
XseoN Founder
а можно сделать какую нибудь утилитку для удаления дублей доменных имен в урл листах?

В Парсере ссылок имеется две кноки 1. Удаление дублей строк, 2. Удаление дублей доменов.
Для удаления длублей доменов, необходимо ОБЯЗАТЕЛЬНО сначала удалить дубли строк, а затем доменов.
Видео начиная с 04.54

Re: XPCP Ошибки - Замечания - Пожелание

СообщениеДобавлено: 24 окт 2014, 15:08
XseoN Founder
Всем привет!

Вышла новая сборка полного автомата по сбору-проверке публичных прокси XPCP 1.0.1.1.
Качество проверки в количественном выражении возросло в 4-5 раз!!!
Скрин работы теста предыдущей и новой версий XPCP