Как обойти блокировки при парсинге сайта?

Как обойти блокировки при парсинге сайта?

При оптимизации любого сайта необходимо проводить анализ самых различных данных — от количества страниц и размещенного на них контента, до рендеринга JavaScript и структуры HTML-кода.

Проще всего это делать, используя различные парсеры, например, Screaming Frog SEO Spider. Однако некоторые сайты ограничивают возможность извлекать данные посредством парсинга, и чтобы обойти подобные блокировки могут понадобиться конкретные подходы.

1.  Измените количество активных потоков. Настройка выполняется в Configuration ⇒ Speed. Снизить можно до, например, 2-3 потоков:


Однако нужно учитывать, что данный способ уменьшает скорость парсинга, поэтому его стоит использовать только в том случае, если другие методы не помогли.

2. Использовать прокси. Настройка выполняется в Configuration ⇒ System ⇒ Proxy. Можно использовать любые — платные или бесплатные:

3. Изменить обращение к сайту, используя другого бота. Изначально парсинг происходит от бота программы, заблокировать которого проще всего. Если заменить бота на любого другого — например, на бота поисковой системы Google — блокировку можно обойти. Настройка выполняется в Configuration ⇒ User Agent:

4. В тех случаях, когда ничего не помогает, можно использовать опцию в Configuration ⇒ Authentication ⇒ Forms Based, далее нажать +Add и добавить сайт:

После отрисовки главной страницы, которая видна на изображении выше, можно повторить парсинг.

Получить консультацию

Оставьте комментарий

Ваш адрес email не будет опубликован.