При оптимизации любого сайта необходимо проводить анализ самых различных данных — от количества страниц и размещенного на них контента, до рендеринга JavaScript и структуры HTML-кода.
Проще всего это делать, используя различные парсеры, например, Screaming Frog SEO Spider. Однако некоторые сайты ограничивают возможность извлекать данные посредством парсинга, и чтобы обойти подобные блокировки могут понадобиться конкретные подходы.
1. Измените количество активных потоков. Настройка выполняется в Configuration ⇒ Speed. Снизить можно до, например, 2-3 потоков:
Однако нужно учитывать, что данный способ уменьшает скорость парсинга, поэтому его стоит использовать только в том случае, если другие методы не помогли.
2. Использовать прокси. Настройка выполняется в Configuration ⇒ System ⇒ Proxy. Можно использовать любые — платные или бесплатные:
3. Изменить обращение к сайту, используя другого бота. Изначально парсинг происходит от бота программы, заблокировать которого проще всего. Если заменить бота на любого другого — например, на бота поисковой системы Google — блокировку можно обойти. Настройка выполняется в Configuration ⇒ User Agent:
4. В тех случаях, когда ничего не помогает, можно использовать опцию в Configuration ⇒ Authentication ⇒ Forms Based, далее нажать +Add и добавить сайт:
После отрисовки главной страницы, которая видна на изображении выше, можно повторить парсинг.