Зачем управлять индексацией сайта?

Зачем управлять индексацией сайта?

Зачем управлять индексацией сайта?

В 1991 году физик Тим-Бернерс Ли запустил первый в истории веб-сайт info.cern.ch. К концу 1992 года их количество выросло до 10. Отметка в 1 миллиард сайтов была впервые достигнута в сентябре 2014 года. По состоянию на июнь 2023 года Всемирная сеть насчитывает 1 106 671 903 веб-сайтов

Роботы поисковых систем не успевают находить и индексировать все существующие URL. Поэтому время, которое отводится на обработку каждого сайта, ограничено. Существует лимит на сканирование (краулинговый бюджет), который определяет, сколько времени и ресурсов краулер может затратить на один сайт. Этот лимит зависит от 2 основных факторов: скорости сканирования и потребности в сканировании. В свою очередь эти показатели зависят от:

возможностей поисковых систем;
мощностей сервера;
размера сайта и периодичности его обновления;
популярности и качества страниц.
Одним из способов улучшить эффективность сканирования является управление количеством страниц, подлежащих сканированию. Расходуя лимит на сканирование малоценных URL, краулер может замедлить анализ важных страниц или даже посчитать нецелесообразным обрабатывать другие URL. С помощью специальных инструментов можно сообщать роботам, какие страницы следует сканировать, а какие пропустить.

Какие URL рекомендуется закрывать для сканирования:
Служебные страницы, содержащие техническую информацию или персональные данные.
Страницы с get-параметрами: идентификаторы сеансов, UTM-метки, поиск, фильтрация, сортировка, сравнение товаров. Создают множество комбинаций URL с дублированным контентом и мета-тегами. Исключение: оптимизированные страницы фильтра с уникальным контентом и мета-тегами.
Пользовательские страницы: личный кабинет, регистрация, авторизация, корзина, оформление заказа и другие URL с конфиденциальной информацией.
Страницы с идентичным (дублированным) контентом. Правильным будет отдать роботу уникальный материал и ограничить повторяющийся, сканировать который было бы лишним.
Страницы с малополезным или спамным контентом.
Страницы с ошибкой soft 404. Это ошибка, при которой пользователь или поисковая система по URL не получают релевантный контент (страница пустая или визуально оформлена в стиле 404 страницы), а сервер при этом отдает HTTP статус 200. Если страница удалена, нужно отправлять ответ с кодом статуса 404 (not found) или 410 (gone). Если страница перенесена или у нее есть замена, отправляйте ответ с кодом 301 (permanent redirect).
Методы управления индексацией сайта
Существуют различные методы управления поведением роботов поисковых систем в пределах сайта:

одни направлены на запрет индексации “лишних” страниц;
другие позволяют оптимизировать процессы сканирования;
третьи, наоборот, помогают ускорить индексацию сайта.