Robots.txt для Joomla — операторы и настройка
Мало какой сайт может похвастаться независимостью от поисковых систем. Большинство веб-ресурсов живут только за счет органического трафика — и это нормально!
Если вы также хотите создать на свой сайт нормальный поток людей из поисковых систем, вы обязаны выполнять все требования поисковиков для правильной индексации.
Если игнорировать требования поисковиков, а в частности Яндекса и Гугла, то ваша площадка никогда не получит нормальные позиции в выдаче, а значит вы не сможете заработать на сайте.
Один из основных моментов при индексации веб-ресурса поисковиками — это правильный файл robots.txt. Он должен быть на любом сайте, в том числе и на площадках с движком Joomla. Именно от наличия этого файл зависит то, какие страницы поисковые роботы будут индексировать, а какие обойдут стороной. Не настраивая для площадки robots.txt, вы автоматически подтверждаете, что спайдер может индексировать всю площадку. И если на ней найдутся какие-то неуникальные элементы, это подпортит ее положение в выдаче — тогда вы поменяете свое отношению к созданию файла robots.txt для сайта с движком Joomla.
Содержание
Из чего состоит файл robots.txt
Чтобы понять, как необходимо настроить данный файл конкретно для вашего сайта, вы должны научиться пользоваться его командами и расшифровывать чужие файлы robots.txt. В целом, этот файл состоит из набора операторов и их значений.
Когда будете писать roborts.txt, вам необходимо будет обратиться к конкретным поисковым системам, в которых вы раскручиваете свой ресурс. Сделать это можно будет при помощи оператора user-agent. Если вы не станете изменять стандартный файл robots.txt, то возле оператора user-agent будет стоять звездочка. Она обозначает открытый доступ для всех известных поисковиков. Но вы можете убрать эту звездочку и обозначить конкретные имена поисковых роботов:
- Yandex — это совокупность всех поисковых машин сервиса Яндекс;
- YandexImages — это робот, который отвечает только за индексацию изображений в Яндексе;
- Googlebot — это спайдер компании Гугл;
- BingBot — поисковый робот, принадлежащий системе Bing;
- YaDirectBot — еще один робот Яндекса, который индексирует контекстную рекламу на сайте.
Не пугайтесь количества существующих роботов. Вам не нужно будет прописывать инструкцию для каждого существующего спайдера. Это нужно делать только в особенных случаях, если у вас какой-то уникальный проект, где, к примеру, нужно индексировать только картинки. В основном, роботы очень хорошо воспринимают общие команды, потому индивидуальный подход к поисковикам не понадобится. Разве что для Яндекса, у которого свое собственное восприятие операторов файла robots.txt.
В целом, если не планируете как-то выделяться среди других ресурсов по поводу хода индексации страниц, можете оставить возле оператора user-agent стандартную звездочку. Даже если какой-то робот вас не поймет, он проигнорирует звездочку и продолжит работу.
Чаще всего вы будете пользоваться оператором disallow. Этот тег будет отвечать за папки и страницы, к которым у поисковых роботов нет доступа. А такие страницы обязательно будут на вашем сайте, иначе не имеет смысла какая-либо настройка robots.txt. В противоположность оператору disallow существует оператор allow. Он позволит вам открывать доступ к выбранным папкам или страницам сайта. Например, если хотите открыть доступ к изображениям сайта, напечатайте строку: Allow: /images/. Если не хотите, то вместо allow укажите disallow.
Возможно, у вас возникает вопрос: зачем нужен оператор allow, если есть disallow? Дело в том, что иногда необходимо разрешить индексацию для частей ресурса, которые находятся в разделах, доступ к которым закрыт для поисковых роботов. Именно для этого и нужен оператор allow.
Благодаря оператору host вы сможете указать основное зеркало. Но лучше делать это не при помощи файла robots.txt, а указывать основной путь к сайту в настройках SEO через админку Joomla. Ведь дублированный URL для одной страницы в целом вредит ее индексации. Если вы воспользовались и перенаправлением URL через настройки Joomla, и указали host в robots.txt — ничего страшного, так даже лучше.
Оператор sitemap покажет роботам, как добраться до карты сайта. Если у вас до сих пор нет таковой, то обязательно займитесь ее созданием. Это еще один важный фактор ранжирования, который может значительно улучшить работу вашего ресурса. Чтобы вы понимали важность этого, стоит отметить, что файл sitemap имеет такое же значение, как и robots.txt.
Оператор Clean-param отвечает за запрет индексации динамических ссылок. Пример таких ссылок может быть поиск внутри сайта, когда к обычному URL дописываются различные суффиксы поискового запроса. Указать данный оператор в строке файла robots.txt — это хорошее решение.
Что касается специфичных команд Яндекса, то наиболее значимый оператор этой поисковой системы — это Crawl-delay. Он отвечает за интервал запросов робота на каждую страницу. Правильный файл robots.txt не должен сильно нагружать сайт с движком Joomla. Если у вас множество страниц и поисковые роботы слишком прогружают сервер постоянными запросами, то Crawl-delay и его настройка станут отличным решением проблемы.
Как настроить robots.txt для определенного сайта Joomla
Чтобы роботы максимально эффективно индексировали страницы сайта, нужно написать правильный файл robots. Лучше сразу активируйте человекопонятные ссылки, так как с ЧПУ настройка robots.txt слегка отличается. Активировать ЧПУ-ссылки, или SEF, можно в админке Joomla. После активации этого режима вам нужно будет в файле для роботов прописать два оператора disallow, которые будут запрещать индексацию index.php* и index2.php*. Но если у вас не включены человекопонятные ссылки, не вписываете такие команды.
В остальном настройка txt файла robots для Joomla зависит от вас: что вы хотите скрыть, а что, наоборот, продемонстрировать поисковикам. Разумеется, лучше запретить индексацию для модулей, плагинов, логов сайта, компонентов, кэша, шаблона, аккаунтов и панели администрирования. Гораздо лучше сделать упор именно на контенте, чтобы поисковики индексировали видео, картинки и статьи. Если вдруг вам нужно будет убрать из индекса какие-то части определенного поста, то необязательно использовать именно robots.txt — можете прописать тег noindex внутри конкретной страницы.