SERP Parser - как правильно сканировать выдачу

SERP Parser

В этой заметке освещается пройденный способ. Описываются допущенные ошибки при использовании SERP Parser'а для обработки 10'000 запросов в разных направлениях: съём позиций у нескольких сайтов и определение их частоты в разных регионах.

Если адекватно учесть описываемые нюансы, то возможно собирать позиции долго, много и никому не мешать.

Первая возможная ошибка - выставление глубины поиска - "вся выдача". Только представьте себе, что каждый запрос будет мусолиться пока не найдётся в поисковой системе. Это ужасно долго и глупо. Предположим, мы найдём ту самую 579 позицию, но от знания этого лучше явно не станет, а поэтому информация без смысловой нагрузки нам не нужна. Ограничимся топом (глубиной 10-30): топ10, топ20, топ30 - это должно быть индивидуально.

Вторая возможная ошибка - выставлять количество потоков более 10. Пробовалось изначально 20, затем 24, потом 27, и только позже - 10 ... И только в ожидании снятия бана был сделан вывод: чем больше обращений - намного больше появляется капча, а чем больше распознаётся капчи - больше расходов; нужно сокращать. В лучшем лучше будут разгаданы все капчи, а в худшем - доступ к поиску с локального IP будет заблокирован на N-время. Сутки или две - как повезёт. Конечно, можно отписать в техническую поддержку, рассказать какой вы хороший. Вам там на пальцах пояснят что нужно использовать Yandex.XML, попросят отключить все плагины и программы, и, быть может, подсобят в разблокировке. SERP Parser не поддерживает функции поиска через XML и разработчик не горит желанием внедрять, поэтому жертвовать потоками необходимо.

Третья возможная ошибка - отсутствие баланса на сервисе распознавания капчи и отсутствие качественных прокси. Предположим, локальный IP-адрес был заблокирован, тогда программа должна обратиться к прокси. Если этого ничего нет - беда. Третий пункт априори исключает себя, но смоделированная ситуация имеет право на существование.

Четвёртая ошибка - запускать в одной группе несколько задач. Смоделируем ситуацию: первая задача - съём позиций по списку запросов, вторая задача - определение частотности запросов по заданным регионам. Программа создаст задание и в порядке очереди начнёт выполнять. Это долго. Если нужно выполнять подобные задачи, то разумнее разбить на две отдельные группы и запустить их по отдельности. Да, можно открыть две копии программы и запустить одновременно выбранные группы задач. Это гораздо быстрее.

Ощущается большая вероятность, что Key Collector умеет обрабатывать через XML тысячи запросов. Но как-то он медленно работает. Как-то много кнопок и настроек. Как-то не очень.

Plain text

Target Image