Каким должен быть правильный robots txt для wordpress

robots txt для wordpressДобрый день, товарищи! На связи Bloger-Man.Ru. Сегодняшняя статья будет посвящена файлу robots txt для wordpressкоторый как известно находится в корне блога и отвечает за то что указывает какие разделы, страницы, файлы и папки можно индексировать поисковым роботам, а какие нельзя. Вы сейчас подумаете — о 100500+ статей на эту тему! Зачем еще одна??! Я Вам отвечу — для разнообразия. А почему бы и нет? Может у меня свое видение?

robots txt для wordpress


У Вас может возникнуть резонный вопрос — а зачем собственно закрывать от индексации некоторые места блога? Дело в том что просканирует, а впоследствии и проиндексирует поисковый робот — окажется в свободном доступе и будет доступно для поиска. А robots.txt как раз закрывает доступ поисковиков к административной части WordPress, где может хранится компроментирующая  конфиденциальная информация.

Статья эта больше шпаргалка для меня на будущее, но в принципе кому-нибудь может оказаться полезной.


 

Мой robots txt для wordpress

Вот собственно и он:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php
Sitemap: http://bloger-man.ru/sitemap.xml

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /20*
Disallow: */trackback
Disallow: */comments
Disallow: /*.php
Host: bloger-man.ru
Sitemap: http://bloger-man.ru/sitemap.xml

Немного пробегусь по отдельным строчкам — за что они отвечают. Директивы (указания к действию) для всех поисковых роботов начинаются с:

User-agent: *

А вот робот от Яндекса очень любит когда ему лично указывают инструкции. Поэтому для него имеются отдельные инструкции, которые начинающиеся с:

User-agent: Yandex

Поисковый паучок от Google воспринимает наш правильный файл robots txt как рекомендации, а вот воспользоваться ими или нет он решает сам.

Эта часть кода отвечает за скрытие от посторонних глаз админки вордпресса, папок тем, плагинов и кэша:

Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Еще неплохо бы скрыть дубли содержимого на блоге, чтобы уникальность статей не подвергалась сомнению поисковиками даже в пределах одного сайта. Также лучше закрыть от индексации скрытые файлы с расширением .php, чтобы та же главная страница не была доступна по двум адресам. Для этого используем следующие операторы:

Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: */trackback
Disallow: */comments
Disallow: /*.php

Еще не лишним будет указать поисковикам главное зеркало сайта (это учитывает только Яндекс) и расположение карты сайта (не забудьте указать свои данные):

Host: bloger-man.ru
Sitemap: http://bloger-man.ru/sitemap.xml

Вот такой у нас получился правильный файл robots txt для wordpress Как то так вот.

Данный мануал совсем не претендует на уникальность — информация была собрана на других блогах и адаптирована под себя.


 

Новости…

В последнее время после прочтения интересной статьи не блоге у Юрия Пономаренко я немного увлекся созданием страниц подписки в программе Web Builder. Вообще программа достаточно легко помогает создавать целые сайты и позволяет сразу размещать их в интернете. С кодом работать практически не надо — все делается путем перетаскивания на рабочую область сайта необходимых в работе форм и слоев. Потенциально программа способна делать многое. Я еще не до конца разобрался с ней и поэтому некоторые проблемы с адаптивностью страниц еще не решены.

И еще одна новость моего блога — я опять сменил сервис рассылки — вернулся на Justclick. Причина банальна — создать серию автоматических писем в Mad Mimi можно лишь на платном тарифе, как в общем то и на MailChimp. А я просто ума не приложу как же по-другому раздавать Вам бесплатности :pardon: . Вот и решил вернутся к истокам на старый сервис рассылок. И в связи с этим у меня есть небольшая просьба к подписавшимся через форму подписки Mad Mimi — если Вам не сложно уделите минутку Вашего драгоценнейшего времени  (даже меньше) и подпишитесь заново. Если Вы забыли дорогу — то сделать это можно здесь. Я бы импортировал подписчиков, но правила джастклика позволяют импортировать не из всех сервисов рассылок.

Надеюсь у Вас есть собственное мнение о составлении robots txt для wordpress — тогда милости прошу в комментарии, обсудим. Вот и все о чем я хотел сегодня написать.  Заходите, подписывайтесь, высказывайте свое мнение или впечатление, а может недовольство :bita:  или даже возмущение в комментариях. Удачи!

© Юрий Дуболазов

SEOподготовка. Часть 3. Главное зеркало сайта и файл robots.txt

Минисериал о том, как подготовить свой сайт на WordPress под поисковое продвижение. Третья серия про то, как...

Создание сайта.1 Урок-Nethouse.ru

http://nethouse.ru/?p=registeruser - Сайт-хостинг http://vuckers.nethouse.ru/- Мой сайт robots.txt User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin ...

Оцените, пожалуйста, статью
Ужасная статьяПлохая статьяПойдетХорошая статьяОтличная статья (3 голосов, оценка: 5,00 из 5)
Загрузка...

Юрий Дуболазов

Приветствую Вас! Я обычный человек из обычного города, обычной страны. На страницах своего блога я буду делится с вами тем что в первую очередь интересно мне - заработоке с помощью блога и социальных сетей, информацией о жизни блогосферы, о нашем сообществе "Блогеры круглого стола" и конечно же о всяких полезностях и моем родном городе Харькове.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.

34 комментария

по хронологии
по рейтингу сначала новые по хронологии
Валерий http://2x2s4.ru/

Спасибо, Юрий. Всё четко и просто, без лишнего "запудривания". Только одно не понял, что за закрытая двадцатка Disallow: /20* ?

Автор
Юрий Дуболазов http://bloger-man.ru

Пожалуйста, Валерий. Насколько я понял эта директива отвечает за запрет индексации страниц определенного уровня (типа http://site.ru/201*/*/*/*/), а вот какого именно сказать не могу так как сам нашел эту информацию в интернете без пояснений. Пока оставлю так - надеюсь проблем с индексацией не возникнет.

Валерий http://2x2s4.ru/

Кажется я понял. Это запрет на дублирование страниц по дате типа http://mysite.ru/2012/2013/2014/2015

Оригинальное решение. Спасибо

Меня тоже заинтересовала эта строка)) Ни разу ее не встречала.

Юрий Бараковский

:mail: Юрий, статья мне очень понравилась, сейчас буду делать файл robots.txt для своего сайта, спасибо за информацию.

Автор
Юрий Дуболазов http://bloger-man.ru

Юрий, рад что Вам статья пригодилась.

Дмитрий http://ideafox.ru

я бы двадцатку лучше убрал, так как сразу запрещаются к индексу ВСЕ картинки к статьям. Посмотрите на ссылку любого фото на блога и поймете почему :)

Автор
Юрий Дуболазов http://bloger-man.ru

Ну да, они по папкам с датами такого типа разсованы. Исправлю.

Дмитрий http://ideafox.ru

:) Я с этой двадцаткой год назад столкнулся, после обращения фотоблогера, который никак не мог понять почему его авторские фото не в поиске. Долго голову ломали по этому поводу.

Автор
Юрий Дуболазов http://bloger-man.ru

Да уж. Бывает. Опыт - великое дело.

Фотками в выдаче не стоит пренебрегать. Даже если они не уникальны определенный трафик все же они несут.

Валерий http://2x2s4.ru/

Да, действительно двадцатка лишняя. Wordpress дублирует страницы по дате создания. Но это можно закрыть в настройках плагина Seo by Yoast. Вобще великолепный плагин с кучей полезных настроек. Мне нравится. Кстати, у вас же на сайте есть его описание.

Автор
Юрий Дуболазов http://bloger-man.ru

О, спасибо за наводку. Подправлю у себя.

Александр Каратаев

Юрий, отличная статья - всё доходчиво и ничего лишнего. Правда у меня robors.txt немного отличается... Плюс ещё для Google инструкции писал. Гугл-бот может не воспринять общие. Вот можно по ссылке глянуть на мой: http://blog.ddw.kz/robots.txt

Василий http://vellisa.ru/

Нормальный, лаконичный файл robots.txt Сейчас многие начинающие блоггеры копируют такие файлы у опытных, например у Борисова. У него там какие-то непонятные свои разделы есть на сайте, а другие тупо копируют его директивы, не имея таких разделов на своем сайте.

Файлы wp-trackback, wp-feed, wp-comments имеют расширение php, поэтому их закрывает одна команда Disallow: /*.php.

Автор
Юрий Дуболазов http://bloger-man.ru

Мне думается, что от двойного закрытия этих файлов хуже не будет.

Анна http://web-ost.ru/

Спасибо Юрий за статью)

Вот у меня такой вопрос с подвохом, а вы не когда не задумывались, почему гугл не реагирует на эти правила page feed и пр..? Прочла такую инфу, что нужно такие урлы делать редиректом в .htcces. Что думаете? Как бороться с гуглом?

Автор
Юрий Дуболазов http://bloger-man.ru

Ань, ну роботс это ж рекомендации для поисковых роботов, которым они могут и не последовать. Редирект естественно в таком случае надежнее. Только ка настроить правильно эти редиректы, без ущерба для блога это вопрос.

Анна http://web-ost.ru

Hi, конкурентам как поживаете? ! :bye:

Проверяла сейчас позиции сайта и увидела, что мы с тобой по этой теме стоим рядышком бок о бок :-)

Автор
Юрий Дуболазов http://bloger-man.ru

Это совершенно случайно. Я здесь непричём :)

Алексей http://ozerkalke.ru/

У меня в яндексе статья Юры на первом месте, в гугле на 4 месте. Регион указан - Москва.

Так что не знаю не знаю...

Алексей http://ozerkalke.ru/

Вот мой запрос "Каким должен быть правильный robots.txt"

Аня http://web-ost.ru/

Леш, а смысл от этого запроса? Он нулевой)))))

Алексей http://ozerkalke.ru/

Действительно, если верить Вордстату

Аня http://web-ost.ru/

Это смотря по какому запросу смотреть! ;-)

Добрый вечер. А зачем в роботсе два раза прописана одна и та же карта? Подскажите пожалуйста в чем разница /wp-includes/ /wp-includes . Я имею ввиду с / и без него. Вы не могли бы посмотреть мой роботс. По моему я что-то намудрила сним.

Платон Щукин http://platon-shhukin.ru/

Для самого полного счастья вы забыли добавить вот такую строчку Allow: /wp-content/uploads/

Автор
Юрий Дуболазов http://bloger-man.ru

Может disallow :-) ?

Платон Щукин http://platon-shhukin.ru/

Ага, додумайтесь, закройте картинки от индексации. Именно Allow: что бы потом не гадать что изображения не индексируются)))

Алексей http://ozerkalke.ru

Старенькая статейка :-)

Сегодня открыл Гуглу всё из-за мобильных требований

Автор
Юрий Дуболазов http://bloger-man.ru

А что там за требования? Да время идет, актуальность уже не та.

Алексей http://ozerkalke.ru

Гугл теперь понижает в выдаче неоптимизированные под мобильные девайсы сайты.

Проверить можно тут https://www.google.com/webmasters/tools/mobile-friendly/

Проверять лучше и главную и др. страницы. В целом в гугл вебмастере видно, какие не нравятся боту.

Виталий Охрименко

Блин, вот сколько разной, а главное противоречивой информации по поводу этого роботса уже нашел. В итоге запутался.

Юр, подскажи пожалуйста, если не трудно, у меня роботся в порядке или надо что-то заменить

Автор
Юрий Дуболазов http://bloger-man.ru

Согласен в том что тема противоречивая. Почитай вот эту тему на нашем форуме про правильный robots txt - целая дискуссия развернулась.

Юля http://interieristka.ru/

Спасибо огромное за информацию, выручили просто!