Примеры регулярных выражений Парсера ПК XseoN

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Примеры регулярных выражений Парсера ПК XseoN

Сообщение XseoN Founder 25 фев 2013, 16:58

Все желающие могут разместить в данной ветке проверенные регулярные выражения для парсинга любого контента.
Описание и синтаксис

1. Парсинг содержимого, находящегося между тегами, ниже приведен пример парсинга заголовка web-страницы:
Код: выделить все
URLListR [<title>(.*?)</title>] [1]


2. Парсинг ссылок, находящихся в web-странице:
Код: выделить все
URLListR [.([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})\D+([0-9]{2,5}).] [1]:[2]
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Примеры регулярных выражений Парсера ПК XseoN

Сообщение exmachina 07 апр 2015, 23:24

Здравствуйте.

Подскажите, возможно ли с помощью парсера ссылок и регулярок сделать парсинг в Гугле и Яндексе количества страниц в выдаче ПС по списку ключевых фраз в кавычках? Я пока не разобрался.
Если кто делал, поделитесь пожалуйста.

В принципе, для этих целей использую бесплатный СловоЕб, но там проблема с количеством потоков и хорошими прокси. Можно использовать платный KeyCollector, но, опять же, проблема с прокси.
Если такое возможно сделать в Xseon, то зачем пропадать хорошей возможности? Плюс, возможность использовать прокси от авторов.
exmachina
 
Сообщений: 6
Зарегистрирован: 30 янв 2015, 04:38

Re: Примеры регулярных выражений Парсера ПК XseoN

Сообщение XseoN Founder 08 апр 2015, 03:35

Подскажите, возможно ли с помощью парсера ссылок и регулярок сделать парсинг в Гугле и Яндексе

В парсере XseoN есть парсер с помощью регулярных выражений - см. синтаксис здесь, но под Ваши задачи не тестировали.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Примеры регулярных выражений Парсера ПК XseoN

Сообщение exmachina 10 апр 2015, 04:21

В общем, попробовал сделать парсер конкурентности кеев из Гугла - не получилось.
Регулярка работает правильно, проверял на исходном коде из браузера в программе TestRExp. Находит то, что нужно:
Код: выделить все
title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>

Но в парсере не хочет. Проверял в один поток без прокси. В файле с регулярными выражениями Ксеона строка поиска выглядит так:
Код: выделить все
URLListR [title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>] [1]:[2]


Что-то мне кажется, что дело не в регулярке, а в ссылке на поиск Гугла, например:
Код: выделить все
https://www.google.ru/search?q={QUERY}&ie=utf-8&oe=utf-8
или
https://www.google.ru/search?q=территория+фитнес+павлоград+цены&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw
или
https://www.google.ru/search?q=%D1%82%D0%B5%D1%80%D1%80%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D1%8F+%D1%84%D0%B8%D1%82%D0%BD%D0%B5%D1%81+%D0%BF%D0%B0%D0%B2%D0%BB%D0%BE%D0%B3%D1%80%D0%B0%D0%B4+%D1%86%D0%B5%D0%BD%D1%8B&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw


Проверял по разному. Вместо "https" писал "http" и т.д. Думаю, дело в редиректе у поиска Гугла, который парсер не обрабатывает, а ищет контент на странице редиректа.
В дальнейшем, если победить все же удастся, всплывет еще одна проблема: к парсеру URLlist не прикручена капча. Она работает при парсинге ПС на предмет ссылок, но в парсинге с помощью регулярок, нет.
В общем, пока плюнул на это и пользуюсь другим софтом.
exmachina
 
Сообщений: 6
Зарегистрирован: 30 янв 2015, 04:38

Re: Примеры регулярных выражений Парсера ПК XseoN

Сообщение XseoN Founder 10 апр 2015, 19:20

Что-то мне кажется, что дело не в регулярке, а в ссылке на поиск Гугла, например:

От Вас - техническое задание на решение задачи - мы определимся и ответим, реализуем бесплатно, но с учетом реализации в полном функционале XseoN.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26


Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9

cron