Помогите составить запросы для парсинга

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Помогите составить запросы для парсинга

Сообщение wmag 06 янв 2014, 07:07

Я обратил внимание на то, что гугл запросы парсятся именно гугл.ру сервисом.
Дело в том что я сейчас находусь в Индии и собираю базу именно под Индию.
Просмотрев видеоурок несолько раз, осталось больше вопросов чем ответов (может потому что информация пока ещё не улеглась в глове), я из тех людей, кто в диалоге усваивает что-то новое гораздо лучше, нежеле по урокам или книгам.
Как состваить запросы Яндекса с учетом локации? (видимо что-то в запросы надо добавить)
Как попросить гугл работать именно от сервиса www.google.co.in (гугл для индии) а не www.google.ru?

Был бы очень благодарен если кто-то из знающих смог бы уделить полчасика через TeamViewer или просто по скайпу, что бы аглядно показать алгоритм с объяснениями Что и Зачем.
Skype: LightAlex
wmag
 
Сообщений: 2
Зарегистрирован: 04 янв 2014, 10:52

Re: Помогите составить запросы для парсинга

Сообщение TVcorp 06 янв 2014, 19:17

Тоже интересует как собрать тематическую базу под Яндекс - вроде как все правильно делаю, НО тем не менее тематических ресурсов очень мало (зато остальных очень много)
Если можно то напишите по пунктам как что делать.
TVcorp
 
Сообщений: 18
Зарегистрирован: 31 май 2013, 13:46
Откуда: С.С.С.Р - Харьков

Re: Помогите составить запросы для парсинга

Сообщение wmag 07 янв 2014, 06:35

Связался с леприконом по скайпу - жду от него ответа
Skype: LightAlex
wmag
 
Сообщений: 2
Зарегистрирован: 04 янв 2014, 10:52

Re: Помогите составить запросы для парсинга

Сообщение XseoN Founder 08 янв 2014, 09:02

Тоже интересует как собрать тематическую базу под Яндекс

Тематика собираемой базы зависит от тематики словаря, которые Вы используете при составлении запросов.

Я обратил внимание на то, что гугл запросы парсятся именно гугл.ру сервисом.

Напрямую сейчас гугл парсить дорого. Многие парсеры парсят так называемые зеркала гугла, но это жалкое подобие самого гугла, не поддерживаются поисковые теги, выдача непонятная, очень урезанная, но зато без капчи.
При выдаче ПСы смотрят откуда пришел запрос, и в соответствии с определенным регионом дают выдачу, у разных регионов, стран выдача на одни и те же запросы разная. Т.к. мы все используем прокси, а они расположены в разных странах, то получаем сборную солянку выдачи по всем регионам на те или иные запросы.
Чтобы получить выдачу по какому-то конкретному региону, стране, необходимо использовать прокси той же страны или парсить в один поток без прокси.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Помогите составить запросы для парсинга

Сообщение megapoliis 18 мар 2014, 13:15

Здравствуйте. Скажите вот есть база пастухова пол миллиарда слов. Вот к примеру можно впихнуть в парсер ваш?? если поделить на много частей. Или это полный бред будет. И парсить будет месяцами наверно))))))) Сумасшедшее количество просто. Ни когда не парсил я, только видел ваши видюшки как вы делали это. Но слов было намного меньше :D
megapoliis
 
Сообщений: 4
Зарегистрирован: 20 янв 2014, 13:18

Re: Помогите составить запросы для парсинга

Сообщение XseoN Founder 20 мар 2014, 13:52

Вот к примеру можно впихнуть в парсер ваш?? если поделить на много частей. Или это полный бред будет. И парсить будет месяцами наверно)))))))

Все ПС на один поисковый запрос отдают не более 1000 ссылок. Кто бы что не говорил, что обошел это ограничение - это реальность и ее не обойти.
Данное ограничение можно обойти окольными путями:
1. Варировать контент запроса, взяв за основу сам поисковый запрос (характерные слова/словосочетания искомого движка + поисковые теги) и присоединяя к нему сначала или с конца тематические слова/словосочетания, тем самым мы заставляем ПС дробить индекс, имеющийся по основному поисковому запросу, на части, в которых присутствуют слова/словосочетания, добавленные нами к основному поисковому запросу;
2. Разбивать запрос, в том числе запрос со словами/словосочетаниями на временные интервалы, тем самым мы вынуждаем ПС дробить индекс, имеющийся по основному поисковому запросу, на части, в каждой из которых будут ресурсы дата внесения которых в индекс ПС будет соответствовать заложенному временному интервалу из поискового запроса.

Обе эти возможности имеются в парсере XseoN.

При парсинге с помощью вышеозвученных способов будет много дублей, которые необходимо будет удалят в встроенном инструменте удаления дублей строк и доменов.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26


Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 12

cron