Существует несколько путей попадания страниц в индекс поисковых систем, но случается что всё идет не по сценарию.
Правильные пути
- внутренние ссылки
- внешние ссылки
- сайтмап
Как могут попасть нежелательные ссылки
Ошибки CMS при формировании ссылок
Если движок создает ссылки с лишними параметрами или дубли как в Opencart, они попадут в индекс
Внешние ссылки с ошибкой
Если при размещении ссылки, адрес скопировали не полностью или случайно "прилипли" лишние символы, получаются кривые ссылки.
Внутренние ссылки с ошибкой
Тоже самое что и выше, но касательно ссылок создаваемых вручную.
"Проверка на дубли" создающая дубли и бесконечный мусор
Если на сайте установлен счетчик яндекс-метрики и владелец сайта вбивает адреса от балды и проверяет на дубли, то эти страницы могут попасть в индекс при соответствующей настройке счетчика. То же самое происходит когда например просто нажимают фильтр, счетсик мгновенно видит что адрес изменился и передает информацию на сервер Яндекса.
Должен быть обязательно отключен обход по счетчикам в противном случае весь мусор, любая когда либо кем либо открытая страница отправляется на индексацию:
- миллиарды комбинаций фильтров
- пустые страницы
- вбитые вручную адреса
- переходы из разных источников с utm-метками
- технические ошибки и мусор
- сортировки, лимиты, ... (?sort=... &limit=....)
- поиск (?search=%%%%)
- куча всего прочего
Относительные ссылки
Можно встретить ситуацию когда в индекс попадают страницы вроде сайт/a/a/a/.
Часто это связано с наличием относительных ссылок на сайте и неправильным базовым адресом, определяемым тегом base
<head> <base ...> </head>
AJAX
Контент загружаемый через ajax так же может содержать ссылки. Эти адреса так же будут проиндексированы.
На примере Opencart это отзывы с пагинацией.
При неправильной реализации даже сам документ запрашиваемый по ajax бывает индексируется как отдельная страница.
1master24-04-2019 01:30Учитываю...
Я есть грут!
2Гугл24-04-2019 01:30Учитываю...
master, Я тоже грут!