Роботы поисковых систем не успевают находить и индексировать все существующие URL. Поэтому время, которое отводится на обработку каждого сайта, ограничено. Существует лимит на сканирование (краулинговый бюджет), который определяет, сколько времени и ресурсов краулер может затратить на один сайт. Этот лимит зависит от 2 основных факторов: скорости сканирования и потребности в сканировании. В свою очередь эти показатели зависят от:
возможностей поисковых систем;
мощностей сервера;
размера сайта и периодичности его обновления;
популярности и качества страниц.
Одним из способов улучшить эффективность сканирования является управление количеством страниц, подлежащих сканированию. Расходуя лимит на сканирование малоценных URL, краулер может замедлить анализ важных страниц или даже посчитать нецелесообразным обрабатывать другие URL. С помощью специальных инструментов можно сообщать роботам, какие страницы следует сканировать, а какие пропустить.
Какие URL рекомендуется закрывать для сканирования:
Служебные страницы, содержащие техническую информацию или персональные данные.
Страницы с get-параметрами: идентификаторы сеансов, UTM-метки, поиск, фильтрация, сортировка, сравнение товаров. Создают множество комбинаций URL с дублированным контентом и мета-тегами. Исключение: оптимизированные страницы фильтра с уникальным контентом и мета-тегами.
Пользовательские страницы: личный кабинет, регистрация, авторизация, корзина, оформление заказа и другие URL с конфиденциальной информацией.
Страницы с идентичным (дублированным) контентом. Правильным будет отдать роботу уникальный материал и ограничить повторяющийся, сканировать который было бы лишним.
Страницы с малополезным или спамным контентом.
Страницы с ошибкой soft 404. Это ошибка, при которой пользователь или поисковая система по URL не получают релевантный контент (страница пустая или визуально оформлена в стиле 404 страницы), а сервер при этом отдает HTTP статус 200. Если страница удалена, нужно отправлять ответ с кодом статуса 404 (not found) или 410 (gone). Если страница перенесена или у нее есть замена, отправляйте ответ с кодом 301 (permanent redirect).
Методы управления индексацией сайта
Существуют различные методы управления поведением роботов поисковых систем в пределах сайта:
одни направлены на запрет индексации “лишних” страниц;
другие позволяют оптимизировать процессы сканирования;
третьи, наоборот, помогают ускорить индексацию сайта.