Google: Проиндексировано, несмотря на блокировку в файле robots.txt

Просмотров: 2161Комментарии: 5

Куча вопросов сыпется по поводу страниц с пометкой "Проиндексировано, несмотря на блокировку в файле robots.txt" в отчете в Google Searh Console.

Ходят мифы будто это Предупреждение - хуже ошибки, страшное зло, дубли, ужас, всё пропало...

Причины

Стоит разделить на официальную и не официальную.

Официально причиной называется

Этот статус установлен, так как мы не уверены, что вы хотите удалить страницу из результатов поиска.

Тут есть довод за и против:

ЗА: Часто в список попадают технические страницы только что появившиеся (этот же довод и ЗА неофициальный вариант)

ПРОТИВ: Почему то в иных случаях гугл уверен.

А теперь моё видение: robots.txt - превентивный запрет, соответственно нельзя сказать "Мы зашли на страницу и не знали что нельзя". Де-юре при таком раскладе нельзя предъявить претензий, ответ будет "Вот смотрите у нас написано что можем, вот для чего, вот эти страницы, мы не уверены что их хотел удалить владелец".

Что касается других способов, то там без посещения страницы запрет не виден, тут за руку не поймать.

Если бы robots.txt полностью запрещал посещение, могла сложиться ситуация что половина сайта видеоматериалы сексуального характера с несовершеннолетними, но закрытая в robots.txt. Вторая половина рассказы про лунтика, где ссылка на запрещенную с текстом "читать далее...".

Индексируются ли дубли?

Что такое дубли? Это страницы с идентичным контентом, расположенные по разным адресам.

Назревает вопрос, дубль ли страница закрытая в robots.txt, но тем не менее проиндексированная, при условии что контент идентичен. Казалось бы да. Однако не всё так просто.

Страницы закрытые в robots.txt, не смотря на попадание в индекс самих страниц, имеют заблокированный для ПС контент. В чем легко убедиться попробовав вбить в поиск ключевую фразу с такой страницы. Кроме того и в самом руководстве Гугл имеется запись суть которой сводится к этому, хоть и упомянута в контексте html-атрибутов:

Внимание! Поисковый робот не обнаружит директиву noindex, если страница заблокирована в файле robots.txt. Такая страница может быть представлена в результатах поиска (например, если на нее есть ссылка на другой странице).

Чем грозит наличие в выдаче этих страниц

На самом деле ничем. Для простых пользователей они не видны. Единственное по чему можно их найти это url. Много ли посетителей у вас с поиска, которые ищут не информацию, а адрес страницы?

Настолько ли ваш сайт затмевает всех, что "пустая" страница вашего сайта обходит всех конкурентов?

Стоит ли открывать страницы в robots.txt

Необходимо понимать последствия. Ради того чтоб убрать десяток страниц, никому не мешающих, вы можете открыть тысячи, по которым будет гулять Гугл и тратить краулинговый бюджет.

Наличие noindex, canonical или редиректа в конечном итоге приведет к тому что Предупреждение исчезнет. Однако это потребует большого количества ресурсов поисковой системы, которая и дальше продолжит периодически заглядывать, не убран ли запрет.

Хотя эти страницы и без того потихоньку отвалятся.

Меры предосторожности

В первую очередь не нужно плодить ссылки на закрытые страницы, это проблемы и помимо обозначенной в данной статье.

Многие вещи возможно реализовать по событиям js, это сократит вероятность.

Кроме того относительные url вместо абсолютных в скриптах осложнят распознание ссылок.

Комментариев: 5 RSS

Оставьте комментарий!
  • Без регистрации
  • Вход/Регистрация

Комментарий будет опубликован после проверки

Вы можете войти под своим логином или зарегистрироваться на сайте.

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question

  • 1Сергей11-02-2019 00:13Учитываю...

    Собственно два момента:

    1. Если бы речь шла о нескольких десятках страниц, то вопросов даже не возникало бы. А так, при количестве товаров на сайте около 5000, всяких страниц сортировок и лимитов (закрытых в роботсе, но проиндексированных гуглом) - 1500 страниц. Страниц пагинации (нет в сайтмапе, но проиндексированных) - 1500 страниц. Как то многовато получается проиндекировано гуглом мусорных страниц...

    2. Очень удивился, когда при поиске по урлу в гугле в выдаче выдались страницы с тайтлом главной страницы категории, а при открытии страницы открылась страница 3 пагинации, на которой прописан совершенно другой тайтл (короткий, как H1 и с нумерацией, прописанный с помощью SEO FULL Index).

    Собственно эти два момента перевесили в сторону решения закрывать это все в noindex, follow

  • 2SW01-03-2019 17:10Учитываю...

    Пробовал ставить noindex - ничего не поменялось

    оказалось нужно убирать из robots.txt все запреты

    убрал и начало рости "Индексирование страницы запрещено тегом noindex", а то что "Проиндексировано, несмотря на блокировку в файле robots.txt" не меняется почти

    нагрузка на процессор выросла на хостинге

    что можно еще сделать?

  • 3Аноним06-03-2019 17:12Учитываю...

    Убрал noindex

    Вернул как было

    excaim

  • 4когда пере08-03-2019 20:41Учитываю...

    Когда перевели сайт на https была такая штука, сейчас осталось две страницы, это вход на сайт и одна непонятная

    Почему их не выкинуло?

  • 5Мирон17-03-2019 21:21Учитываю...

    Работает по синусоиде. Закидывает кучу и потихоньку выплевывает. У меня захавало после установки нового шаблона. Пару месяцев ждал, осталось штук 10 - это хуйня!