Индексация сайта в Яндексе - технические моменты и способы влияния

В первую очередь, надо знать базовые моменты, связанные с индексацией сайт поисковой системой Яндекс:

  • Ресурс обхода ограничен, за один заход паук берет небольшое количество страниц (200-300)
  • Включение в основной индекс занимает несколько апдейтов
  • При стандартных условиях после 2-3 апдейта в индекс входит 1 главная страница
  • В последующие обновления количество страниц плавно прирастает

Описанные выше пункты справедливы при стандартном типе ввода в индекс, т.е. не делая ничего.

Быстрый ввод в индекс

Чтобы сайт посетил быстроробот, должно быть событие:

  • Появление ссылок на сайт
  • Пользовательская активность

Делая прогоны по базе ссылок, мы отслеживали поведение бота на сайте. Первый заход случался в течение 2 часов, потом пауза в 10 и дальше уже сканировал быстроробот (судя по заходу на сайт каждую минуту).

Пользовательская активность достигается различными путями, но общее в них трафик на сайт. Люди заходят на сайт, сёрфят по нему и демонстрируют хорошие поведенческие факторы. На следующий день после такой активности сайт частично входит в индекс. Главное условие - хорошие показатели поведенческих. Получая эту оценку с браузера или Метрики, поисковая система стремится обработать такой сайт быстро. Как её привлечь:

  • Ссылки из тематических постов на форумах
  • Грамонтная контекстная реклама
  • Социальные сети

Т.е. еще раз: трафик должен быть тематическим, тогда глубина и время на сайте будут хорошим. Говоря про коммерческие сайты, эти методы не только ускорят индексацию, но и, в первую очередь, позволят сразу оценить продающие свойства сайта.

Сторонние сервисы

Яндекс.Вебмастер

Надо добавить сайт, добавить sitemap.xml и отправить 10 страниц в инструмент переобхода страниц.

Яндекс.Метрика

Счетчик сайта, который даст системе информацию о цифрах поведенческого фактора, наличии потока трафика и новых урлах сайта. Под новыми урлами имеется ввиду активность посетителей на страницах, о которых бот не знает, но которые попадут в очередь за счет наличия счетчика на этих страницах.

RSS-каталоги

Добавьте свою ленту в те каталоги, которые принимают ленты бесплатно и гарантируйте себе постоянные источники ссылок на новые материалы. Сервисов не много, но свою задачу они отрабатывают.

Внутренняя оптимизация

Помимо полноты представления данных об имеющихся страницах, важно сразу же закрыть от индексации лишние страницы и правильно обрабатывать несуществующие урлы, чтобы в индекс не лез мусор, а также не расходывался зря лимит паука при обходе.

Sitemap.xml

Файл, в котором перечислены адреса всех нужных страниц сайта. Боты периодически опрашивают этот файл, при чем не только Яндекса. Если файл содержит много строк, его надо разбить на несколько, сделав главным индексный, в котором перечислить подчиненные. Также надо сослаться на sitemap.xml из robots.txt. И будет хорошо, если вы сможете включить в sitemap секцию <lastmod>.

Last-Modified

Означает дату последнего изменения документы (страницы). Несёт множество благ:

  1. Сообщает боту дату последнего изменения страницы, тем самым экономит ресурс сканирования, не заставляя бота переиндексировать страницы, на которых нет изменений.
  2. Ускоряет загрузку страницы в браузерах посетителей, посещавших сайт ранее. Т.к. нет изменений, часть страницы отдается из кеша.
  3. Весьма вероятно, что в сниппете ПС справа появится дата обновления страницы, а также получит немного трафика за счет показа по релевантным запросам как свежая информация.
  4. Еще одна галочка в ToDo-листе внутренней оптимизации.

Заполненные мета-теги

Страницы с пустыми тегами description, а тем более title менее охотно берутся в индекс.

Пагинация, поиск и фильтры

Страницы вида ?page=23 надо либо закрывать от индексации, либо указывать канонической ссылкой на первую страницу категории. Такие страницы не несут полезной нагрузки и не содержат текстов, потому трафик на них маловероятен и делать в индексе им нечего. Аналогично для страниц фильтрации и результатов поиска по сайту, если нет на то специальной идеи.

Обработка несуществующих адресов

Движок сайта должен правильно обрабатывать несуществующие адреса. Например, site.ru/cssddsrre/ - такой категории нет, сайт об этом пишет, но ответ сервера 200 ОК. Это неправильно, такие страницы хоть и не с большой, но существующей вероятностью могут попасть в индекс. Ответ должен быть 404 или 410.

Контроль переменных в урле

Аналогично пункту про 404-адреса. В адрес site.ru/dveri/?10 добавлен параметр ?10. Сервер отдает ответ 200 ОК и эта страница также претендент на попадание в индекс. Хуже того, ПС может выкинуть адрес site.ru/dveri/ и вместо него поставить в выдачу site.ru/dveri/?10. Функция контроля не простая, но необходимая, чтобы лишние параметры отсекались.

Директива Crawl-delay 

Содержится в robots.txt, служит указателем тайм-аута паукам при сканировании сайта. Если у вас тяжелый сайт и маломощный хостинг, эта директива поможет не допустить падения сайта и робот получит все страницы в нормальном виде, избежав кучи 500 ошибок.

Дополнительно

Т.к. процесс переиндексации занимает время, стоит сразу сделать следующие моменты:

  • Микроразметка в хлебных крошках для красоты и большей кликабельности сниппета
  • Включить в description или title иконки emoji, но не упорствуя в количестве
  • Проверить контроль отсутствия кавычек в мета-тегах
  • Убедиться в наличии мобильной версии сайта

 

Всё вышеперечисленное служит для быстрой, полной и стабильной индексации страниц сайта. Фронт работы не малый, но сделав это один раз, в дальнейшем возвращаться к этому не придется. Субъективно, это 20% работ по технической оптимизации сайта.


Как увеличить скорость загрузки сайта

Дополняемое руководство, со временем претендующее на статус исчерпывающего. Разные моменты, которые можно использовать для ускорения сайта. Секция head 1. Подключение скриптов после стилей Подключения js-файлов вида должны следовать после файлов стилей, иначе отрисовка страницы тормозится до загрузки скриптов. 2. Использование < link rel=" dns-prefetch " href="&n ...