Статус «Страница просканирована, но пока не проиндексирована» в Google: что это и как изменить

«Страница просканирована, но пока не проиндексирована» — статус, который нередко присваивается в поисковой системе Google. При этом владельцу сайта не сообщается о причинах выставления такого статуса и каких-либо действиях для его изменения.

Google только оповещает, что индексация, возможно, будет позже или не будет вообще. Это не особо обнадёживает, особенно если страничка имеет большое значение для бизнеса и её нужно продвигать.

В этой статье разбираемся, что делать, если возникла такая ошибка.

Где посмотреть статус

Статус необходимо искать в отчёте об индексировании в Search Console. Поисковик не считает, что в этих страницах произошла ошибка, а потому относит их к категории исключённых.

Если кликнуть по статусу «Страница просканирована, но пока не проиндексирована», покажется список всех страничек, которые были просканированы ботом, но почему-то не прошли индексацию. Для поиска таких страничек также используют инструмент проверки URL в Search Console.

Ошибки в отчёте

Если вы заметили, что страничка получила такой статус, сначала необходимо убедиться, действительно ли это так. В отчётности бывают ошибки. Здесь и пригодится инструмент проверки URL. В нём представлено больше сведений о страничках сайта. Например, ошибки индексации, ошибки структурированных данных, наличие мобильной версии и т.д.

Различие информации в отчёте об индексации и инструменте проверки URL может быть вызвано как особенностями работы систем — в инструменте проверки сведения обновляются быстрее, чем в отчётности, так и багом.

Так кому доверять в таких случаях? Обычно в инструменте проверки URL представлены более «свежие» данные, поэтому ориентироваться следует именно на него.

Почему возникает ошибка и как её исправить

В Google конкретного ответа на этот вопрос не найти. Однако имеется ряд причин, которые потенциально могли привести к появлению такого статуса. Среди них:

время на индексацию;
низкое качество страничек;
деиндексация;
неправильная архитектура сайта;
дублирование контента.

Время на индексацию

Индексация не проводится за одну секунду, этот процесс требует времени. Google сам определяет, какие страницы надо проиндексировать первым делом. Если страничка была опубликована только что, не стоит ждать, что её тут же проиндексируют.

Повлиять на скорость сканирования и индексации здесь и сейчас вы не можете. Но чтобы в будущем ваши страницы попадали в индекс быстрее, можно пользоваться следующими правилами:

Разработать стратегию индексирования. Это даст краулерам поисковика понимание, какие странички надо обходить первым делом.
Проверить наличие внутренних ссылок на особенно важные страницы. Благодаря этому поисковик быстрее найдёт эти странички и лучше поймёт их содержимое.
Разработать карту сайта. В неё надо внести наиболее важные URL. Для Google это станет своеобразным навигатором, с помощью которого система будет искать странички быстрее.

Несоответствие стандартам качества

Поисковик не может индексировать все существующие страницы, так как его лимиты тоже ограничены. Соответственно, он сортирует их по соответствию стандартам качества. Тратить ресурсы на некачественные странички не имеет смысла, поэтому они отсеиваются и не индексируются.

Вероятно, причина ошибки кроется как раз в низком качестве контента. Соответственно, необходимо проверить, отвечает ли страница требованиям поисковика и способна ли в полной мере удовлетворить запрос пользователя.

Google даёт вопросы, которые помогут понять, насколько качественный контент вы предлагаете. Вопросы касаются следующих моментов:

оригинальность размещённых материалов;
наличие глубокой аналитики или полезных неочевидных фактов;
степень проработанности контента, полученного из сторонних источников;
готовность делиться представленной информацией, сохранять её и т.д.

UGC-контент

Это контент, который создают пользователи. И он тоже может влиять на качество страницы. Допустим, кто-то задаёт вопрос по материалу, а на момент обхода странички краулером ответов на него нет. Тогда Google может посчитать её низкокачественной, даже несмотря на то, что ответы могут появиться в дальнейшем.

Для борьбы с такими ситуациями можно воспользоваться идеей сервиса Quora. Там все неотвеченные вопросы маркируются префиксом /unanswered/. Файл robots.txt скрывает странички с таким префиксом от роботов. Когда на вопрос отвечают, префикс убирается, и страница оказывается доступной для индексации.

Деиндексация

Причиной появления статуса о сканировании, но отсутствии индексации может быть то, что Google почему-то убрал страничку из индекса. Часто такое происходит, когда поисковик решает заменить её на более полезную. Кроме того, к такому итогу может привести изменение алгоритмов поисковика. И, конечно, нельзя исключать вероятность сбоев на стороне поисковой системы.

Если поисковик удалил страницу из индекса, необходимо проанализировать её на предмет соответствия требованиям качества. Также учитывайте, что даже ранее проиндексированная страница может спустя какое-то время выпасть из индекса. То есть работать над контентом надо постоянно. Следите за актуальностью информации и своевременно обновляйте её.

Неправильная архитектура сайта

Непродуманная архитектура тоже может стать причиной непопадания страничек в индекс. Допустим, на сайте есть качественная страница, но обнаружить её можно только через Sitemap. Вероятно, краулер найдёт её и просканирует, но из-за отсутствия внутренних ссылок, он примет решение, что эта страничка представляет меньшую ценность, чем другие.

На сайте отсутствует какая-либо структурная информация, которая бы способствовала полноценной оценке странички. Соответственно, робот может оставить её без индексирования.

Проблема решается выстраиванием правильной, чёткой архитектуры.

Дубликаты

Дубли страниц не нравятся поисковикам, так как не считаются ценными и полезными. Для Google важно предоставлять пользователям уникальный контент, который будет полезен.

Соответственно, если краулер встречает две одинаковые или почти одинаковые страницы, он индексирует только какую-то одну. Чаще всего дубли получают статус «Страница является копией», но так происходит не всегда.

Работайте над устранением дублей или уникализацией контента на страничках с похожим содержимым.

Необходимо отличать статус «Страница просканирована, но пока не проиндексирована» и «Обнаружена, не проиндексирована». Первый значит, что робот выполнил сканирование, но индексация не состоялась. А второй — что страничка в принципе не была просканирована.

То есть система знает об этом URL, но сканирования не было. В этом случае следует узнать, почему Google не сканировал страничку. Возможно, причина в низком качестве контента, бюджете сканирования или перегруженности сервера.