Что надо знать об индексации сайтов в 2021 году
Индексация — обязательный этап при продвижении любого сайта. Она напрямую связана с ранжированием, поэтому ресурс необходимо готовить к индексу соответствующим образом. Удалять страницы из индексации достаточно сложно, а чтобы скрыть их придётся изрядно попотеть.
Запретить проверку в файле robots.txt можно только для Яндекса, чтобы провернуть то же самое в Google, придётся выполнить ещё один обход страниц, которые надо убрать из индексации.
Индексация влияет на ранжирование следующим образом:
- Через хостовые факторы сайта.
- Если на сайте есть много страниц бесполезным содержанием, это расценивается как попытка манипуляции и карается по всей строгости закона поисковых систем.
Если избавиться от всех документов, которые не имеют полезного контента, позиции сайта в поисковой выдаче существенно вырастут. Доказано практикой.
Как проходит индексация
Индексация сайта — это своеобразное сканирование каждой страницы ресурса пауками поисковых систем с сохранением их в базу ПС для дальнейшей проверки по алгоритмам. Если говорить максимально просто, то паук «обходит» сайт, а система индексации «изучает» контент. Рассмотрим этот процесс на примере поисковой системы Google.
У этого поисковика в индексации задействованы три основных инструмента: планировщик, поисковой робот и система обработки.
- Планировщик — Google Scheduler — разрабатывает план индексации ресурса с учётом его краулингового бюджета.
- Паук — Googlebot — «обходит» страницы и сохраняет данные в виде двоичного кода.
- Система обработки — Google Caffeine — принимает информацию от пауков, обрабатывает и распределяет документы по индексам. Система может обрабатывать несколько десятков и сотен тысяч страниц в секунду. То есть индексация происходит непрерывно.
Подробнее о системе обработки
Сначала система приступает к выгрузке полученной от паука информации для дальнейшей обработки. Чтобы скорость анализа была высокой, данные поступают в виде двоичного кода. Для обработки Google Caffeine использует особый протокол передачи полученных данных — Protocol Buffers. Это собственная разработка Google, которая используется как аналог формата XML.
Далее данные преобразуются системой в другой формат, чтобы она могла с ними работать. Затем информация направляется в лексер. Он анализирует код страницы с целью поиска и устранения ошибок.
Ошибки кода — совсем не редкость, но они просто не позволяют выполнять анализ, поэтому их необходимо устранять. Затем система приступает к нормализации данных. Для этого она разбивает страницу на отдельные «кусочки». Например, мета-теги, тайтл, заголовки h1-h6 и т.д.
На завершающем этапе подключается Google Collapsor, являющийся подсистемой системы индикации. В его задачи входит перемещение страницы в одну из следующих групп:
- индекс проверенных документов, которые система посчитала бесполезными;
- индекс обслуживания, он же Serving Index.
Как раз в задачи Collapsor входит присвоение страницам статуса soft 404. Подсистема фильтрует индекс от бесполезных документов, к которым относятся незаполненные карточки товаров, дубли, тех. разделы и т.д. Таким образом, именно Google Collapsor «решает», попадёт ли страница в поисковую выдачу или нет, а не сама индексация. Она только обрабатывает сайты.
Google Serving Index и его роль в ранжировании
Serving Index или индекс обслуживания — это то самое заветное «место», куда стремятся «попасть» все сайты. Именно в этот индекс попадают страницы, которые допущены до ранжирования в ПС. Документ попадает в индекс обслуживания, если:
- имеет код ответа 200;
- не имеет запрета к индексации;
- пропущен Коллапсером в индекс.
Поисковик отрабатывает коды ответа следующим образом:
- 200 — паук должен обойти страницу;
- 3ХХ — паук должен обойти страницу, открывающуюся по редиректу;
- 4ХХ и 5ХХ — документ не может участвовать в поиске, если он был размещён в выдаче до момента посещения поискового робота, он будет удалён из индекса.
На что ещё обратить внимание
Количество страниц, которое обойдёт робот при очередном «посещении» сайта, определяется особой метрикой, которая называется краулинговый бюджет. Он рассчитывается планировщиком сканирования и зависит от авторитетности сайта (чем она выше, тем выше и значение бюджета) и от способности сервера обрабатывать запросы без снижения скорости загрузки.
Надо учитывать и то, что с течением времени подходы к индексации меняются. Например, раньше большой объём страниц сайта в поисковой выдаче положительно сказывался на продвижении. Теперь же это совсем не так. Много страниц имеет смысл делать только в том случае, если они приносят трафик.
Уделять внимание индексации и улучшать её необходимо, если вы хотите, чтобы ваш сайт хорошо ранжировался. Открытыми для неё должны быть страницы, по которым ведутся SEO работы и важные для Е-А-Т.
Однако важно понимать, что индексация станиц не гарантирует их попадание в выдачу, если система посчитает их бесполезными. Так что в первую очередь необходимо работать над содержанием. Механизм включение сайтов в индекс обслуживания схож во всех поисковиках, поэтому проводить специальные отдельные работы для Яндекс и Google не требуется. Достаточно комплексного подхода, учитывающего особенности всех ПС.
Наши специалисты помогут!