Каким должен быть правильный robots txt для wordpress

robotstxt2Добрый день, товарищи! На связи Bloger-Man.Ru. Сегодняшняя статья будет посвящена файлу robots txt для wordpress, который как известно находится в корне блога и отвечает за то что указывает какие разделы, страницы, файлы и папки можно индексировать поисковым роботам, а какие нельзя. Вы сейчас подумаете — о 100500+ статей на эту тему! Зачем еще одна?! Я Вам отвечу — для разнообразия. А почему бы и нет? Может у меня свое видение?


У Вас может возникнуть резонный вопрос — а зачем собственно закрывать от индексации некоторые места блога? Дело в том что просканирует, а впоследствии и проиндексирует поисковый робот — окажется в свободном доступе и будет доступно для поиска. А robots.txt как раз закрывает доступ поисковиков к административной части WordPress, где может хранится компроментирующая конфиденциальная информация.

Статья эта больше шпаргалка для меня на будущее, но в принципе кому-нибудь может оказаться полезной.


Мой robots txt для wordpress

Вот собственно и он:

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/cache/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-trackback 
Disallow: /wp-feed 
Disallow: /wp-comments 
Disallow: /category/ 
Disallow: /author/ 
Disallow: /page/ 
Disallow: */trackback 
Disallow: */comments 
Disallow: /*.php 
Sitemap: https://www.bloger-man.ru/sitemap.xml 

User-agent: Yandex 
Disallow: /cgi-bin 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/cache/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-trackback 
Disallow: /wp-feed 
Disallow: /wp-comments 
Disallow: /category/ 
Disallow: /author/ 
Disallow: /page/ 
Disallow: /20* 
Disallow: */trackback 
Disallow: */comments 
Disallow: /*.php 
Host: www.bloger-man.ru 
Sitemap: https://www.bloger-man.ru/sitemap.xml

Немного пробегусь по отдельным строчкам — за что они отвечают. Директивы (указания к действию) для всех поисковых роботов начинаются с:

User-agent: *

А вот робот от Яндекса очень любит когда ему лично указывают инструкции. Поэтому для него имеются отдельные инструкции, которые начинающиеся с:

User-agent: Yandex

Поисковый паучок от Google воспринимает наш правильный файл robots txtкак рекомендации, а вот воспользоваться ими или нет он решает сам.

Эта часть кода отвечает за скрытие от посторонних глаз админки вордпресса, папок тем, плагинов и кэша:

Disallow: /cgi-bin 
Disallow: /wp-admin/ 
Disallow: /wp-includes/ 
Disallow: /wp-content/plugins 
Disallow: /wp-content/cache 
Disallow: /wp-content/themes

Еще неплохо бы скрыть дубли содержимого на блоге, чтобы уникальность статей не подвергалась сомнению поисковиками даже в пределах одного сайта. Также лучше закрыть от индексации скрытые файлы с расширением .php, чтобы та же главная страница не была доступна по двум адресам. Для этого используем следующие операторы:

Disallow: /wp-trackback 
Disallow: /wp-feed 
Disallow: /wp-comments 
Disallow: /category/ 
Disallow: /author/ 
Disallow: /page/ 
Disallow: */trackback 
Disallow: */comments Disallow: /*.php

Еще не лишним будет указать поисковикам главное зеркало сайта (это учитывает только Яндекс) и расположение карты сайта (не забудьте указать свои данные):

Host: www.bloger-man.ru 
Sitemap: https://www.bloger-man.ru/sitemap.xml

Вот такой у нас получился правильный файл robots txt для wordpress. Как то так вот.

Данный мануал совсем не претендует на уникальность — информация была собрана на других блогах и адаптирована под себя.


Новости…

В последнее время после прочтения интересной статьи не блоге у Юрия Пономаренко я немного увлекся созданием страниц подписки в программе Web Builder. Вообще программа достаточно легко помогает создавать целые сайты и позволяет сразу размещать их в интернете.С кодом работать практически не надо — все делается путем перетаскивания на рабочую область сайта необходимых в работе форм и слоев. Потенциально программа способна делать многое. Я еще не до конца разобрался с ней и поэтому некоторые проблемы с адаптивностью страниц еще не решены.

И еще одна новость моего блога — я опять сменил сервис рассылки — вернулся на Justclick. Причина банальна — создать серию автоматических писем в Mad Mimi можно лишь на платном тарифе, как в общем то и на MailChimp. А я просто ума не приложу как же по-другому раздавать Вам бесплатности :pardon:. Вот и решил вернутся к истокам на старый сервис рассылок. И в связи с этим у меня есть небольшая просьба к подписавшимся через форму подписки Mad Mimi — если Вам не сложно уделите минутку Вашего драгоценнейшего времени (даже меньше) и подпишитесь заново. Если Вы забыли дорогу — то сделать это можно здесь. Я бы импортировал подписчиков, но правила джастклика позволяют импортировать не из всех сервисов рассылок.

SEOподготовка. Часть 3. Главное зеркало сайта и файл robots.txt

https://www.youtube.com/watch?v=rtfcBERCOMM

Надеюсь у Вас есть собственное мнение о составлении robots txt для wordpress — тогда милости прошу в комментарии, обсудим. Вот и все о чем я хотел сегодня написать. Заходите, подписывайтесь, высказывайте свое мнение или впечатление, а может недовольство :bita: или даже возмущение в комментариях. Удачи!

Читайте также:

Комментариев нет

  1. Валерий:

    Спасибо, Юрий. Всё четко и просто, без лишнего «запудривания». Только одно не понял, что за закрытая двадцатка Disallow: /20* ?

  2. Юрий Бараковский:

    :mail: Юрий, статья мне очень понравилась, сейчас буду делать файл robots.txt для своего сайта, спасибо за информацию.

  3. Ольга:

    Меня тоже заинтересовала эта строка)) Ни разу ее не встречала.

  4. Юрий:

    Пожалуйста, Валерий. Насколько я понял эта директива отвечает за запрет индексации страниц определенного уровня (типа http://site.ru/201*/*/*/*/), а вот какого именно сказать не могу так как сам нашел эту информацию в интернете без пояснений. Пока оставлю так — надеюсь проблем с индексацией не возникнет.

  5. Юрий:

    Юрий, рад что Вам статья пригодилась.

  6. Валерий:

    Кажется я понял. Это запрет на дублирование страниц по дате типа http://mysite.ru/2012/2013/2014/2015
    Оригинальное решение. Спасибо

  7. Дмитрий:

    я бы двадцатку лучше убрал, так как сразу запрещаются к индексу ВСЕ картинки к статьям. Посмотрите на ссылку любого фото на блога и поймете почему 🙂

  8. Юрий:

    Ну да, они по папкам с датами такого типа разсованы. Исправлю.

  9. Дмитрий:

    🙂 Я с этой двадцаткой год назад столкнулся, после обращения фотоблогера, который никак не мог понять почему его авторские фото не в поиске. Долго голову ломали по этому поводу.

  10. Юрий:

    Да уж. Бывает. Опыт — великое дело.
    Фотками в выдаче не стоит пренебрегать. Даже если они не уникальны определенный трафик все же они несут.

  11. Валерий:

    Да, действительно двадцатка лишняя. WordPress дублирует страницы по дате создания. Но это можно закрыть в настройках плагина Seo by Yoast. Вобще великолепный плагин с кучей полезных настроек. Мне нравится. Кстати, у вас же на сайте есть его описание.

  12. Юрий:

    О, спасибо за наводку. Подправлю у себя.

  13. Александр Каратаев:

    Юрий, отличная статья — всё доходчиво и ничего лишнего. Правда у меня robors.txt немного отличается… Плюс ещё для Google инструкции писал. Гугл-бот может не воспринять общие. Вот можно по ссылке глянуть на мой: http://blog.ddw.kz/robots.txt

  14. Василий:

    Нормальный, лаконичный файл robots.txt Сейчас многие начинающие блоггеры копируют такие файлы у опытных, например у Борисова. У него там какие-то непонятные свои разделы есть на сайте, а другие тупо копируют его директивы, не имея таких разделов на своем сайте.
    Файлы wp-trackback, wp-feed, wp-comments имеют расширение php, поэтому их закрывает одна команда Disallow: /*.php.

  15. Юрий:

    Мне думается, что от двойного закрытия этих файлов хуже не будет.

  16. Анна:

    Спасибо Юрий за статью)
    Вот у меня такой вопрос с подвохом, а вы не когда не задумывались, почему гугл не реагирует на эти правила page feed и пр..? Прочла такую инфу, что нужно такие урлы делать редиректом в .htcces. Что думаете? Как бороться с гуглом?

  17. Юрий:

    Ань, ну роботс это ж рекомендации для поисковых роботов, которым они могут и не последовать. Редирект естественно в таком случае надежнее. Только ка настроить правильно эти редиректы, без ущерба для блога это вопрос.

  18. Анна:

    Hi, конкурентам как поживаете? ! :bye:
    Проверяла сейчас позиции сайта и увидела, что мы с тобой по этой теме стоим рядышком бок о бок 🙂

  19. Алексей:

    У меня в яндексе статья Юры на первом месте, в гугле на 4 месте. Регион указан — Москва.
    Так что не знаю не знаю…

  20. Аня:

    Это смотря по какому запросу смотреть! 😉

  21. Алексей:

    Вот мой запрос «Каким должен быть правильный robots.txt»

  22. Юрий:

    Это совершенно случайно. Я здесь непричём 🙂

  23. Аня:

    Леш, а смысл от этого запроса? Он нулевой)))))

  24. Алексей:

    Действительно, если верить Вордстату

  25. name nika:

    Добрый вечер. А зачем в роботсе два раза прописана одна и та же карта? Подскажите пожалуйста в чем разница /wp-includes/ /wp-includes . Я имею ввиду с / и без него. Вы не могли бы посмотреть мой роботс. По моему я что-то намудрила сним.

  26. Платон Щукин:

    Для самого полного счастья вы забыли добавить вот такую строчку Allow: /wp-content/uploads/

  27. Юрий Дуболазов:

    Может disallow 🙂 ?

  28. Платон Щукин:

    Ага, додумайтесь, закройте картинки от индексации. Именно Allow: что бы потом не гадать что изображения не индексируются)))

  29. Алексей:

    Старенькая статейка 🙂
    Сегодня открыл Гуглу всё из-за мобильных требований

  30. Юрий Дуболазов:

    А что там за требования? Да время идет, актуальность уже не та.

  31. Алексей:

    Гугл теперь понижает в выдаче неоптимизированные под мобильные девайсы сайты.
    Проверить можно тут https://www.google.com/webmasters/tools/mobile-friendly/
    Проверять лучше и главную и др. страницы. В целом в гугл вебмастере видно, какие не нравятся боту.

  32. Виталий Охрименко:

    Блин, вот сколько разной, а главное противоречивой информации по поводу этого роботса уже нашел. В итоге запутался.

    Юр, подскажи пожалуйста, если не трудно, у меня роботся в порядке или надо что-то заменить

  33. Юрий Дуболазов:

    Согласен в том что тема противоречивая. Почитай вот эту темуна нашем форуме про правильный robots txt — целая дискуссия развернулась.

  34. Юля:

    Спасибо огромное за информацию, выручили просто!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *