Правильный robots.txt. Пример файла robots.txt для WordPress
Файл sitemap.xml и правильный robots.txt для сайта — это два обязательных документа, которые способствуют быстрому и полноценному индексированию всех необходимых страниц веб-ресурса поисковыми роботами. Правильная индексация сайта в Яндексе и Google — залог успешного продвижения блога в поисковых системах.
Как сделать карту сайта в формате XML и для чего она нужна я уже писал здесь. А сейчас давайте поговорим о том, как создать правильный robots.txt для сайта на Вордпресс и для чего он вообще нужен. Подробную информацию об этом файле можно получить у самих Яндекса и Гугла, соответственно здесь и здесь. Я же коснусь самой сути и затрону основные настройки robots.txt для WordPress на примере своего файла.
Зачем нужен файл robots.txt для сайта
Стандарт robots.txt появился еще в январе 1994 года. Сканируя веб-ресурс, поисковые роботы в первую очередь ищут текстовый файл robots.txt, расположенный в корневой папке сайта или блога. С его помощью мы можем указать для роботов разных поисковых систем определенные правила, по которым они будут проводить индексацию сайта.
Правильная настройка robots.txt позволит:
- исключить из индекса дубликаты и различные мусорные страницы;
- наложить запрет на индексацию страниц, файлов и папок, которые мы хотим скрыть;
- вообще отказать в индексации некоторым поисковым роботам (например, Yahoo, чтобы скрыть от конкурентов информацию о входящих ссылках);
- указать главное зеркало сайта (с www или без www);
- указать путь к карте сайта sitemap.xml.
Как создать правильный robots.txt для сайта
Для этой цели существуют специальные генераторы и плагины, но правильнее это сделать вручную.
Надо просто создать обычный текстовый файл с названием robots.txt, воспользовавшись любым текстовым редактором (например, Блокнотом или Notepad++) и загрузить его на хостинг в корневую папку блога. В этом файле надо прописать определенные директивы, т.е. правила индексации для роботов Яндекса, Гугла и др.
Если лень заморачиваться с этим, то ниже я приведу пример, с моей точки зрения, правильного robots.txt для WordPress с моего блога. Можно использовать его, заменив имя домена в трех местах.
Правила создания и директивы robots.txt
Для успешной поисковой оптимизации блога надо знать некоторые правила создания robots.txt:
- Отсутствие или пустой файл robots.txt будет означать, что поисковикам разрешено индексировать все содержание веб-ресурса.
- robots.txt должен открываться по адресу ваш сайт.ru/robots.txt, отдавая роботу код ответа 200 OK и иметь размер не более 32 Кб. Файл, который не удастся открыть (например, из-за 404 ошибки) или большего размера, будет считаться разрешающим.
- Количество директив в файле не должно быть больше 1024. Длина одной строки – не более 1024 символов.
- Правильный файл robots.txt может иметь несколько инструкций, каждая из которых должна начинаться с директивы User-agent и должна содержать хотя бы одну директиву Disallow. Обычно пишут инструкции в robots.txt для Google и всех остальных роботов и отдельно для Яндекса.
Основные директивы robots.txt:
User-agent – указывает, какому поисковому роботу адресована инструкция.
Символ “*” означает, что это относится ко всем роботам, например:
User-agent: *
Если нам надо создать правило в robots.txt для Яндекса, то пишем:
User-agent: Yandex
Если указана директива для конкретного робота, директива User-agent: * ним не учитывается.
Disallow и Allow – соответственно, запрещают и разрешают роботам индексацию указанных страниц. Все адреса надо указывать от корня сайта, т.е. начиная с третьего слеша. Например:
- Запрет индексации всего сайта всем роботам:
User-agent: *
Disallow: / - Запрещено индексировать Яндексу все страницы, начинающиеся с /wp-admin:
User-agent: Yandex
Disallow: /wp-admin - Пустая директива Disallow разрешает индексировать все и аналогична Allow. Например, разрешаю индексировать Яндексу весь сайт:
User-agent: Yandex
Disallow: - И наоборот, запрещаю индексировать все страницы всем поисковым роботам:
User-agent: *
Allow: - Директивы Allow и Disallow из одного блока User-agent сортируются по длине префикса URL и выполняются последовательно. Если для одной страницы сайта подходит несколько директив, то выполняется последняя в списке. Теперь на использование директив роботом порядок их написания не имеет значения. Если у директив префиксы одинаковой длины, то первой выполняется Allow. Такие правила вступили в силу с 8.03.12 года. Например, разрешает индексировать только страницы начинающиеся с /wp-includes:
User-agent: Yandex
Disallow: /
Allow: /wp-includes
Sitemap – указывает адрес карты сайта XML. На одном сайте может быть несколько директив Sitemap, которые могут быть вложенными. Все адреса файлов Sitemap надо указать в robots.txt, чтобы ускорить индексацию сайта:
Sitemap: https://blogibiznes.ru/sitemap.xml.gz
Sitemap: https://blogibiznes.ru/sitemap.xml
Host – сообщает роботу-зеркальщику, какое зеркало сайта считать главным.
Если сайт доступен по нескольким адресам (например, с www и без www), то это создает полные дубли страниц, за которые можно попасть под фильтр. Также, в этом случае, может быть проиндексирована не основная страница, а основная, наоборот, будет исключена из индекса поисковой системы. Чтобы этого не допустить служит директива Host, которая предназначена в файле robots.txt только для Яндекса и может быть только одна. Пишется она после Disallow и Allow и выглядит так:
Host: blogibiznes.ru
Crawl-delay – задает задержку между закачкой страниц в секундах. Используется, если идет большая нагрузка и сервер не успевает обрабатывать запросы. На молодых сайтах лучше директиву Crawl-delay не использовать. Пишется она так:
User-agent: Yandex
Crawl-delay: 4
Clean-param – поддерживается только Яндексом и служит для устранения дубликатов страниц с переменными, склеивая их в одну. Тем самым робот Яндекса не будет много раз закачивать похожие страницы, например, связанные с реферальными ссылками. Я пока этой директивой не пользовался, но в помощи по robots.txt для Яндекса, по ссылке в начале статьи, можно ознакомиться с этой директивой подробно.
Спецсимволы * и $ используются в robots.txt для указания путей директив Disallow и Allow:
- Спецсимвол “*” означает любую последовательность символов. Например, Disallow: /*?* означает запрет на любые страницы, где в адресе встречается “?”, не зависимо от того, какие символы идут до и после этого знака. По умолчанию спецсимвол “*” добавляется к концу каждого правила, даже если он не прописан специально.
- Символ “$” отменяет “*” на конце правила и означает строгое соответствие. Например, директива Disallow: /*?$ будет запрещать индексацию страниц, заканчивающихся знаком “?”.
Пример robots.txt для WordPress
Вот пример моего файла robots.txt для блога на движке Вордпресс:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Host: blogibiznes.ru Sitemap: https://blogibiznes.ru/sitemap.xml.gz Sitemap: https://blogibiznes.ru/sitemap.xml |
Чтобы не морочить себе голову с созданием правильного robots.txt для WordPress, можете использовать этот файл. Проблем с индексацией нет. У меня стоит скрипт защиты от копирования, поэтому будет удобнее готовый robots.txt скачать здесь и загрузить его на свой хостинг. Только не забудьте заменить имя моего сайта на свое в директивах Host и Sitemap.
Если у вас проиндексированы дубли или вы хотите запретить или разрешить роботу доступ к какой-то странице, то надо изменить robots.txt, прописав соответствующие директивы, учитывая вышеперечисленные правила. Не забудьте проконтролировать, действуют ли изменения, проверив каждый необходимый адрес. В прошлой статье я подробнее писал, как сделать анализ robots.txt для Яндекса.
Полезные дополнения по правильной настройке файла robots.txt для WordPress
Если у вас не настроены постоянные ссылки (ЧПУ), то удалите из файла строчки вида Disallow: /*?*. Иначе все страницы, кроме главной, выпадут из индекса. Подробнее об этом в статье об анализе robots.txt по ссылке выше.
Если на вашем блоге Вордпресс установлены древовидные комментарии, то они создают дубли страниц вида ?replytocom=. В robots.txt такие страницы закрыты директивой Disallow: /*?*. Но это не выход и запреты лучше удалить, а с replytocom бороться другим способом. Каким, читайте здесь.
Таким образом, актуальный robots.txt на июль 2014 года выглядит так:
User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml |
В нем дополнительно прописаны правила для роботов-индесаторов картинок.
Тем, кто зарабатывает на контекстной рекламе Google Adsense, дополнительно в самом начале файла надо прописать:
User-agent: Mediapartners-Google
Disallow:
Как видите, я не закрыл от индексации страницы категорий, тегов и архивов. А ведь они тоже создают дублированный контент. Почему это не сделано? Все просто. Для них прописал запрет непосредственно в коде самой страницы с помощью SEO-плагина для WordPress All in One Seo Pack, отметив соответствующие пункты. Подробнее об этом в статье о настройке All in One Seo Pack.
Если вы планируете продвигать страницы категорий или тегов, то стоит их открыть для роботов. Например, на блоге blogibiznes.ru рубрики не закрыты от индексации, так как в них публикуются только небольшие анонсы статей, что совсем незначительно в плане дублирования контента. А если использовать вывод цитат в ленту блога, которые заполнять уникальными анонсами, то дублирования вообще не будет.
Если вы не используете указанный выше плагин, то можно указать в файле robots.txt запрет индексации тегов, категорий и архивов. Например, добавив такие строчки:
Disallow: /author/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*
Не забудьте сделать проверку файла robots.txt в панели Яндекс.Вебмастер, после чего повторно загрузите его на хостинг.
Если у вас есть какие-то дополнения по настройке robots.txt, пишите об этом в комментариях. А сейчас посмотрите видео о том, что такое и как создать правильный robots.txt для сайта, как сделать в файле robots.txt запрет на индексацию и исправить ошибки.
Понравилась статья? Нажимай на кнопки:
Сколько я не билась с пропиской sitemap в виде Sitemap: http: //stopmig.ru/sitemap.xml, всё время выходила ошибка url на проверке, хотя по адресу всё открывается. И только прописав Allow: /http://www.stopmig.ru/sitemap.xml
ошибка исчезла. Нигде не могу найти этому объяснение. Сам файл лежит в корне блога, всё индексируется.
Видимо и у Яндекса бывают глюки, если только все в порядке с зеркалами.
Олег, благодарна за статью, потому что было желание самой разобраться с этим файлом, теперь стало понятнее, что для чего прописывается. В принципе заметила, что многие экспериментируют с файлом robots.txt. Я пока не пробовала ничего менять. А вот насколько часто можно его менять?
Сколько нужно, столько можно и менять. Но если все устраивает с индексацией сайта, то лучше экспериментов не делать.
Стоит делать проверку файла robots.txt, если в поиск попадают мусорные страницы (дубли, технические страницы и т.д.) или нормальные страницы начинают выпадать из индекса.
Что-то я не заметил, что у Вас стоит какой-то скрипт от копирования: и выделяется и копируется всё даже правым кликом мыши без проблем ))
В этом и смысл, что на первый взгляд не заметно. Можно без проблем скопировать около двух строчек текста. Но скопируйте участок побольше и сохраните в блокнот, посмотрите что получилось.
Не заметно не только на первый взгляд, но даже проведя вышеописанную Вами операцию )). Могу прислать хоть полный текст Вашей статьи :-), скопированный стандартным способом в блокнот.
Странно у меня все работает. Надо попробовать с другого компьютера.
Вот как у меня это выглядит, например:
Надо просто создать обычный текстовый файл с названием robots.txt, воспользовавшись любым текстовым редактором (например, Блокнотом или Notepad++) и загрузить его на хостинг в корневую папку блога. В этом файле надо прописать определенные директивы, т.е. правила индексации для роботов Яндекса, Гугла и др.
Read more: http ://blogibiznes.ru/pravilnyiy-fayl-robots-txt-wordpress.html#ixzz1oFKiZTAZ
Спасибо за совет, сама только недавно исправляла, мне сказали, что надо закрыть архивы.
У меня архивы в индекс не попадают, поэтому в robots.txt их не закрывал. Они закрыты у меня через All in One Seo Pack.
Спасибо, Олег! Вы просто молодец! Для тех, кто только начинает свой путь в интернете, информация, которую вы даете – это настоящий подарок!
Спасибо за пользу! А копировать с сайта все ровно получается.
Я не могу ставить запрет на копирование, типа блокировки правой кнопки, так как публикую разные коды, которые могут понадобиться читателям. Но если скопировать большой участок текста, то вместе с ним в буфер попадет ссылка на страницу. При желании ее можно удалить, но от тех, кто это делает на автомате может защитить.
Толково и пошагово написано. Еще буду читать-перечитывать статью. Нужная информация. Буду свой robots.txt переделывать.
Спасибо, не знаю, правда, как определить, хорошо у меня индексируется или плохо. Не хочется навредить.
Наталья, Вашей индексации можно только позавидовать. Я бы ничего не менял, даже Crawl-delay: 4 при Вашей посещаемости и количестве материалов будет не лишним.
А как у Вас с трафиком с Гугла по сравнению с Яндексом? Несколько необычная директива:
User-agent: Mediapartners-Google
Disallow:
Спасибо, очень подробная статья о robots.txt. Сам на днях переделывал. У меня каким-то образом robots.txt изменился и был закрыт доступ Яндекса.
Хорошо, что вовремя заметили. А то иногда блоггеры сами, по неопытности или невнимательности, закрывают доступ к индексации сайта.
Спасибо! Как всегда, по существу. Я правильно понимаю, что, если страницы индексируются, менять robots.txt не нужно?
И еще вопрос, вы напишите как-нибудь про защиту от копирования?)
Не совсем так. Если индексируются только нужные страницы, то ничего менять не надо. Могут индексироваться дубли и технические страницы. Тогда надо закрыть их в robots.txt.
В Вашем случае надо проверить какие страницы попадают в индекс. Можно сказать, что файла robots.txt у Вас нет, т.к. он практически ничего не запрещает индексировать. В выдаче есть страницы тегов, архивов и категорий. Хорошо, что на них статьи в виде небольших анонсов и ЧПУ настроены без указания категорий. Иначе одна и та же статья, помещенная одновременно в две категории, открывалась бы по разным адресам. А так, наверно, по тегам еще идет неплохой трафик?
Надо установить нормальный файл robots.txt. Обязательно указать Яндексу главное зеркало сайта с помощью директивы Host и прописать пути к карте сайта, предварительно ее создав. Здесь про карту сайта XML: https://blogibiznes.ru/kak-sozdat-kartu-sayta-google-xml-sitemaps.html
Про защиту от копирования немного писал здесь: https://blogibiznes.ru/kak-borotsya-s-vorovstvom-kontenta.html
Спасибо, отличная статья, возьму на заметку!
Олег, скажите пожалуйста, а что запрещает “/cgi-bin”? И еще вопрос: у меня на сайте около 200 статей. Яндекс индексирует нормально, а Гугл насчитал больше 1,5 тыс.стр. Не подскажете, что с этим делать?
Если в двух словах, то в папке cgi-bin находятся скрипты для создания динамических веб-страниц. Это технические документы и в индексе они не нужны.
Гугл, в отличии от Яндекса, индексирует все страницы сайта и потом, фильтруя их от мусора, в выдачу отдает определенный процент. Например, у Вас это 1640(16%), т.е. около 260 страниц не под фильтрами, что приблизительно соответствует проиндексированным страницам в Яндексе и реальному количеству страниц на сайте. Значит все в порядке.
Если разница на порядок, тогда стоит задуматься. Страницы, которые Гугл проиндексировал, но не пустил в выдачу еще называют сопли. По большому счету, файл robots.txt для Гугла не так необходим, он сам знает, что индексировать, а что нет.
Спасибо, Олег! Немного успокоили:)
Олег, спасибо за очень нужную информацию. Использовал стандартный robot.txt, и никогда не был уверен, что все правильно, потому что и мой блог, и другие, имеют каждый свои особенности. А подробностей про этот файл не знал, и нигде не мог найти. У Вас увидел впервые. Буду перечитывать, разбираться!
Я, кажется, вручную делал. Честно говоря не могу вспомнить. Но все работает и это радует.
Спасибо, очень полезная статья. Я на неё уже несколько человек направила, у которых была необходимость проверить правильность этого файла.
Спасибо, Елена, за рекламу!
Спасибо за разъяснения по директивам робота
А то новичкам абсолютно не ясно, что это за звери
Олег, сделала файл robots.txt по Вашему примеру, изменив свой.
Яндекс сразу учел изменения, а Гугл не хочет. В окошке, где указано содержание файла для редактирования все удалила и залила новый вариант, на хосте тоже все изменила.
Выхожу из Гугла, захожу проверяю это окошко – изменений нет, проверяю свой адрес с категорией, пишет – заблокированно.
Кто тормозит, я или Гугл?
Подскажите, пожалуйста.
Не совсем понял какое окошко, но сейчас у Вас установлен такой же файл robots.txt.
Окошко для редактирования содержания файла в разделе Инструменты для веб-мастеров “Доступ для сканера”.
Но они все уже исправили, значит, сделанные изменения в файле robots.txt. Гугл загружает не сразу. В моем случае новый файл загрузился только сегодня, 2 часа назад, так написано:
Загружено Статус
2 ч. назад 200 (Успешно)
Если, конечно, я все правильно поняла…
Главное что все в порядке.
Олег и все, здравствуйте!
У меня опять с Гуглом проблема, на этот раз он вдруг решил не индексировать одну страницу моего блога, пишет: Обнаружены серьезные ошибки, связанные с состоянием сайта.
Некоторые важные страницы блокируются в файле robots.txt.
На этой странице нет текста, только изображения, может в этом причина? Что я могу сделать, чтобы изменить эту ситуацию?
Может кто-нибудь сталкивался с похожей ситуацией?
Вообще, я не могу понять, как выйти на диалог с Гуглом, задать там свой вопрос можно только на англоязычном форуме. В Яндексе все понятно, там есть тех.поддержка, когда у меня был вопрос, я написала и они сразу же ответили. А тут, ничего понять не могу. Где искать тех.поддержку Гугла?
Я думаю писать в Гугл бесполезно. Страницы без текста могут не индексироваться.
Как Вы поняли, что именно эта страница не индексируется из-за ошибки? Поисковики могут и не индексировать все страницы или, во всяком случае, не сразу.
Как поняла, объясняю. Зашла в свой аккаунт, там висит: Обнаружены серьезные ошибки, связанные с состоянием сайта.
Некоторые важные страницы блокируются в файле robots.txt.
Нажимаю на ссылку “Некоторые важные страницы” и появляется эта страница моего блога.
Что касается понятий “страницы в поиске”, “загружено роботом”, “исключено роботом”, для меня это темный лес, не могу понять, что это значит.
Напишите мне на почту, какая страница доет ошибку.
Олег, не могли бы Вы посмотреть мой robots, я запуталась окончательно, так как скопировала с хостинга один robots, а Яндекс выдает другое. Хочется знать, что не так, так как Яндекс вообще не индексирует статьи. Этот вариант дали мне в школе StartUp, теперь они прислали видео, что пробелы надо убрать. Я так сделала, а на Яндексе вроде не поменялось. Я могу выслать свой robots, сама особо не сильна в этом.
Людмила, у Вас проиндексировано Яндексом 258 страниц. И самая последняя статья тоже в индексе. Почему Вы решили, что Яндекс не индексирует статьи? Индексация у Вас хорошая.
Пробел, о котором говорили в СтартАп, у Вас есть. Надо исправить. Кроме того, пропущен пробел в директиве Host перед названием сайта.
Единственная ошибка, это то, что Вы публикуете на главной полные статьи. Это приведет к санкциям за дублированный контент. Пользуйтесь тегом More и выводите на главную только анонсы.
В остальном все нормально.
Здравствуйте, Олег.
Не могу понять что я наделал с robot.txt
В корне смотрю всю как рекомендуют, проверяю через адресную строку, показывает:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http ://minihanov.ru/sitemap.xml.gz
Подскажите пожалуйста что такое?
Все в порядке. Видимо кеш в браузере не успел очиститься.
Подробно и понятно. Хорошая статья!
Мне пришло письмо от службы поддержки с советом удалить из файла строку Disallow: /*?*, чтобы сайт индексировался. Не могу понять, зачем???
Чтобы индексировался. Эта директива попросту запрещает индексацию сайта, если не настроены ЧПУ. Вариантов решения проблемы два:
1. Удалить эту директиву.
2. Настроить ЧПУ (это предпочтительнее).
Эту проблему я уже поднимал в своей предыдущей статье “Почему в индексе только главная страница сайта”. Прочитайте и поймете почему Ваш сайт не индексируется.
Про настройку ЧПУ тоже есть статья “Настройка постоянных ссылок WordPress”.
А сколько примерно ждать по времени пока гугл пересмотрит robots.txt? Была подобная проблема, вроде нашел где было и исправил. А как сказать об этом гуглу так и не нашел. Думаю врядли стоит мне им письма слать)
Писем слать не надо. Гугл сам все определит. Обычно изменения вступают в силу не сразу. Можно ждать месяц и больше.
Пара вопросов.
Зачем ставить звездочки в конце директив, если и так по умолчанию считается, что в конце звездочка?
Зачем нужны три директивы
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Если можно их заменить одной?
Disallow: /*trackback
Пытаюсь разобраться, буду рад если объясните.
Звездочки можно не ставить. Три trackback наверно для страниц разного уровня. Я trackback вообще не использую, поэтому сильно не думал об этом. Индексация нормальная и хорошо. Брал за основу файл с популярных и посещаемых блогов. Гуглу вообще robots.txt не нужен, а Яндекс все равно все сделает по своему.
Олег, глядя на Ваш сайт, считаю не стоит что-то менять. Мне очень понравился Ваш сайт, еще не встречал ничего подобного. Просто круто! Желаю удачи!
Интересный вывод: “Гуглу вообще robots.txt не нужен, а Яндекс все равно все сделает по своему”. Тогда зачем вообще заморачиваться с этим robots.txt?
Ну про Яндекс я тут с иронией сказал, все же знают, что он непредсказуем? У меня был вариант robots.txt, где было прописано всего 3 или 4 строчки и тот сайт нормально индексировался Гуглом и Яндексом (дублей не было). Но если Вы точно знаете, что та или иная директория не должна индексироваться, то лучше перестраховаться и указать поисковикам это явно.
P.S. Кстати, у Вас именно такой файл, который я упомянул выше.
Помогите, пожалуйста, решить проблему.
Суть такова: раньше стандартный роботс стоял, Яндекс проиндексировал всего 1 страницу, а Гугл индексировал их без описания и названия. Заменил на другой роботс, Яндекс все так же проиндексировал только 1 страницу, Гугл проиндексировал последнию запись в блоге с описанием, но без названия страницы.
Хотелось бы все это исправить, чтобы Яндекс начал индексировать все страницы и Гугл индексировал с описанием и названием страницы.
У Вас в robots.txt есть директива Disallow: /*?*. При не настроенных ЧПУ, эта строка запрещает индексировать весь сайт, кроме главной. Надо или настроить ЧПУ или убрать эту директиву.
Чтобы были описания, надо их написать. Установите плагин All in One Seo Pack и пропишите метатеги для главной и для всех остальных страниц.
Все эти вопросы уже поднимались в комментариях и на моем блоге есть статьи, как это все сделать.
Кроме того, советую:
писать статьи минимум 1500-2000 знаков;
установить кнопки соц.сетей и активно ими пользоваться;
наращивать бесплатную ссылочную массу.
Если на сайт никто не ссылается, то индексации можно ждать очень долго. Если будут конкретные вопросы или что-то не понятно, пишите мне на почту.
Спасибо за плагин и за информацию! Настроил ЧПУ, сделал пару записей. Посмотрим что получится.
Отличная статья, как раз создаю этот файл.
То есть, если я не создам этот файл, то на индексации это никак не отразится?
Я хочу чтобы индексировался сайт без всяких запретов и т.п.
Можно сделать этот файл и разрешить всем индексацию без ограничений. Это будет лучше, чем не иметь его вообще. Но, в какой-то момент, проиндексированные дубли и мусорные страницы сделают свое дело и подведут под фильтр.
Привет.
дело такое. обнаружил что в роботсе такое
Host: www ……. ru
Sitemap: http: //…./sitemap.xml
Sitemap: http: //…./sitemap.xml.gz
Интересует, надо ли убирать www из строки host???
Надо убрать, если основное зеркало сайта без него. В Host и Sitemap должно быть прописано одинаково, или с www или без.
А мне тоже надо основное зеркало написать?
А то я его не выбирала.
Я просто не понимаю, что эти www обозначают и зачем нужны?
Я указал только в robots, прописав для Яндекса директиву Host. В Вебмастере не указывал, он правильно сам определил. Надо, чтобы при вводе в адресную строку браузера с www и без, открывался главный адрес. В Вашем случае без www.
Искала информацию про robots.txt, и в топе 1 Яндекс выдал ваш сайт! Здорово!
Спасибо за статью Олег, информация мне очень пригодилась, все очень понятно и доступно
Дальнейших вам успехов!
Спасибо! И Вам успехов! Заходите в гости.
А что такое gz на конце карты? И почему здесь две карты, а у меня только одна с gz на конце.
Это сжатый файл xml. Оба файла указывают на одну и ту же карту.
А мне она не нужна? Вторая.
Ну так дописать же не проблема. Поисковикам по-моему все равно какая написана, одна должна быть. Обычно такой вариант robots.txt, как у Вас пишется именно так. Что интересно, в нем почти нет запрещающих директив, но в индекс не попадают ненужные страницы.
Короче, я расслаблюсь и не буду нервничать. Ниче писать не надо мне и так сойдет. Все равно не умею.
Слава мне, что я хоть одну нашла и добавила. Это и так большой прогресс для меня.
Главное, чтобы индексация нормальная была, остальное фигня.
Скажите, а почему в Вашем robots запрещены /2011/ и /2012/ по отдельности? Можно ли к ним применить правило /20*/, у меня такая необходимость тоже возникла. Пошли в индексацию архивы 2013 года, прописано Disallow: /20*, так что теперь каждый год ручками заносить?
Можно и так. Надо просто проверить в Вебмастере или все корректно запрещает. Спасибо, что напомнили, надо добавить новый год.
С убиранием копий не выходит. Я все загрузила, как мне нужно по новой и закинула папку. По идее должны все по разу отобразиться, а некоторые исчезли из статей не понятно почему. И я все на место поставила и не знаю, че делать, потому что принцип такого мне не понятен.
Здравствуйте, хочу поинтересоваться у специалистов. Меня очень волнует директива Allow, нужна ли она?
Вот, к примеру, мой робот. Не знаю, перенастраивала, правильно ли он выглядит? Все путаюсь с trackback и feed.
Буду очень и очень благодарна за помощь. Я новичок, поэтому мнение знающих людей очень важно.
Allow не помешает, Sitemap отделите пробелом, добавте Disallow: /*?*. В остальном можно оставить.
У вас проблемы с индексацией Яндексом. Советую лучше удалить все внешние ссылки с сайта (3 штуки в футере, кнопки твиттера и RSS в шапке, кнопки каталогов, счетчики закрыть и др.), часы, календарь и облако тегов. Возможно, пока не стоило устанавливать Метрику. Про рекламу тоже не время еще писать.
Почему у вас робот тут не такой, как на вашем сайте стоит, на вашем сайте совсем другой с дополненнымы директивами и у вас нету вот такой строчки:
Sitemap: _http://blogibiznes.ru/sitemap.xml.gz
Ну так не стоим на месте, все время что-то экспериментируем :-). Эта строчка ссылка на сжатый файл. По сути, обе строки дублируют друг друга, вот я одну и убрал. В принципе, robots.txt из статьи подходит для большинства сайтов на WordPress.
А в целом не плохая статья, может что-то даже добавлю из робота себе, спс, сайт сам по себе хороший!
Добрый день. Помогите пожалуйста и мне. Посмотрите мой роботс. Может что-то подскажете. Я перепробовала много их. Но не уверена, что все работает правильно.
Можно и такой вариант оставить (три строки), он тоже отлично работает, как ни странно. Но надо дописать директиву Sitemap, указав путь к карте сайта. Все же советую прописать для Яндекса отдельные правила, не забыв указать Host.
В данный момент у Вас количество проиндексированных старниц в основном индексе Гугла, в 2 раза больше, чем Яндекса. Или это влияние старого robots, или Яндексу не все нравится.
На мой взгляд слишком много рекламы, форм подписки и счетчиков. Необходимость облака тегов тоже вызывает сомнения. 10 открытых внешних ссылок с Главной – это перебор. Не ждите АГС, наводите порядок.
Помогите мне написать директиву Sitemap, и правила для Яндекса. Внешние ссылки у меня были закрыты, поменяла тему недавно и видимо что-то поменялось. Облако тегов уже убрала. Подписок меньше сделала.
У Вас уже все правильно написано. Только добавьте такие строки:
Disallow: /*?*
Disallow: /?s=
Счетчики все убирайте, оставьте только liveinternet. Кнопку +1 под каждой статьей с Главной уберите.
Строки я прописала. А как убрать Кнопку +1 с главной? Ее вообще удалить?
Я смотрю вопрос решен. Удачи!
Огромное спасибо вам, мне очень помогла ваша статья.
Хорошо, что помогла, пользуйтесь.
Олег, вопрос такой – у многих уважаемых сайтов по блоговедению в файле robots.txt есть такая строка (у вас тоже):
Disallow: /xmlrpc.php
что она делает?
у меня тоже есть такой файл в корневой папке, а в вашем примере для скачивания ее нет. Вот задумалась, надо ли мне ее прописать в своем файле?
Большое спасибо, за статью, очень нужна тем, кто только начинает.
Лучше прописать. Этот файл связан с возможностью удаленной публикации на блог и индексировать его не нужно. А вообще, иногда у меня на сайтах, где в robots.txt всего три строки кода, индексируется меньше мусора, чем на тех, где все закрыто. Так что надо просто следить, чтобы в индекс не попадали мусорные страницы и дубли. При составлении robots за основу берется файл с какого-нибудь сайта, не имеющего проблем с индексацией, а потом он корректируется под себя.
Спасибо, Олег, я у вас уже 3 статьи прочла, мне все очень понравилось, у вас хороший опыт, еще теперь буду заходить , взяла в закладки.
Олег доброго дня? Создал файл по вашему примеру, всё окей. Но есть беда. Сайт делал на шаблоне и теперь Яндекс пишет вот что “Документ содержит мета-тег meta name=”robots” со значением content=”noindex” или content=”none””.
Страниц в поиске 1шт. и то не ясно, как она вообще там есть, когда она и запрещена. Скажите, как найти на сайте в чём проблема?
А адрес сайта хотя бы можно увидеть? А то так сложно что-то ответить.
Да конечно kks-istomino.ru
В meta name=”robots” все в порядке. Яндекс проиндексировал сейчас 7 страниц, а вот с Google все неоднозначно – в основном индексе только одна страница. С xml картой проблемы, она как бы есть, но в ней 5 ссылок на другие файлы xml, а с них уже на страницы сайта.
Обратите внимание на уникальность текстов и заполнение Title, description и keywords. Например, в категории “Колодцы связи” они все однотипные и выглядят спамно.
Есть по два h1 на странице (желательно прописывать 1 раз), битые ссылки и траблы со шрифтами темы (вместо текста отображаются знаки ?).
В общем, пока надо работать над технической и внутренней оптимизацией.
Олег, спасибо вам, скажите, можете ли вы помочь с тем что описали выше?
Странно, но сайт не индексировался до сегодняшнего дня ))) Чудо какое-то.
Никаких чудес – Яндекс может и не такое)
Напишите мне на почту через Контакты, в чем конкретно нужна помощь. Ведь большинство того, что я описал, можно самому исправить.
Добрый день, как закрыть ссылки c тегом #more?
В robots.txt никак. Это хеш-тег, он не создает дублей. Но, если не нравится, его можно убрать из URL при клике на “Читать далее”.
Уже убрал, страницы то открывались совсем по другому адресу, а это дубли, вот и озадачился вчера.
Знак # – это якорь, который указывает на определенное место на странице. Это не дубли.
Я бы лучше обратил внимание на параметры ?_utl_, которые добавляют к Вашим адресам соц.кнопки uptolike. Если такие страницы попадут в индекс, вот это дубли.
Не понял, что за параметры _utl_, куда смотреть?
Это после ссылки ?_utl_t=tw – понял.
На трех сайтах эти кнопки, пока их нет в индексе. Разве Disallow: /*?* их не запрещает?
Запрещает. Но он и replytocom запрещает, тем не менее Google их в сопли складывает.
Буду безмерно благодарен, если подскажете, как прописать в robot.txt чтобы не индексировались эти урлы.
Знак ? запрещает индексацию ссылок с такими параметрами, других директив прописывать не надо. К сожалению, robots.txt – это файл, который не строго обязателен к исполнению, он лишь рекомендация по сканированию сайта.
Я вот что подумал, а если в тайтле знак вопроса, он попадает под правило “не индексировать”?
Знаки препинания из Title в URL не отображаются.
Олег, наткнулась на вашу статью в попытках разрешить одну свою беду – посещаемость свалилась, а сайт то и дело выдает инфу о “перегрузке”. Ребята с хостинга говорят, что большая часть ресурсов уходит на обработку запросов поисковых роботов к ссылкам древовидных комментариев и советуют прописать “Disallow: /*?replytocom”. Простите за тупой вопрос: куда его прописать – или это не важно? (я о том списке robots.tst). Боязно мне эксперементировать – ну, как вообще все угроблю…(((
Как раз не стоит этого делать. Сейчас у Вас в выдаче нет дублей replytocom, сделаете запрет – будут.
Стоит посмотреть, какие роботы грузят сайт. Если это не Google и Яндекс, то надо их заблокировать. Если Гугл, то можно прописать запрет индексации через Инструменты для вебмастеров в Параметрах URL. Для Яндекса пропишите в robots директиву Crawl-delay.
У меня повышается нагрузка, когда идут постоянные запросы к странице входа в админку. Проверьте нет ли у Вас такого.
Можете убрать ссылки с replytocom, сделав вывод кнопки “Ответить” скриптом. В самом крайнем случае, проще отключить древовидные комментарии, чем создавать дубли.
Ну, вот так: что ни день, то открытие ))) Мой основной робот-грузчик – sputnik аж четырех видов с небольшой разницей в цифрах.Каждое название выглядит непотребно: типа, “[...][05/Jul/2014:00:16:59 +0400] 0.710 0.730 200 5.143.224.57 milomalo.ru GET /archives/39081?replytocom=19300 HTTP/1.1 “Mozilla/5.0 (compatible; SputnikBot/2.3; +ht://corp.sputnik.ru/webmaster)” “-” 52532″.
Блокировать можно тоже в robots.tst? Прописывать целиком каждый или можно как-то усечь? И в какое место воткнуть, если брать за основу ваш образец robots.tst?
Олег, прости, что задаю так много вопросов. Если проигнорируешь – отнесусь с пониманием, поможешь разобраться – с горчей благодарностью.))) В любом случае, спасибо, что уже дал совет.
Запрет в robots:
User-agent: SputnikBot
Disallow: /
Но не факт, что он послушает. Тогда можно прописать запрет в .htaccess для IP, с которых заходит их бот.
Здравствуйте.
Помогите мне пожалуйста с роботом. Поставила новый и в индексе стали появляться лишние страницы. Не могу определить откуда они и как их правильно закрыть. Если можно, пожалуйста, посмотрите мой робот, подскажите, что у меня там не правильно.
Директива User-agent указывает определенному роботу правила индексации. То есть, после нее должны идти Disallow или Allow. У Вас все роботы в куче и получается, что все правила прописаны только для индексаторов картинок.
К тому же, страницы Тегов и Автора закрыты от индексации путем прописывания в коде строки (meta name=”robots” content=”noindex,follow) с помощью SEO-плагина. Нет необходимости дублировать запрет в robots.txt.
Если на блоге нет кода Adsense, то и правила для его робота не нужны.
Отправил правильный файл Вам на почту, можете залить его на хостинг.
Файл получила и залила на хостинг.
Олег, спасибо Вам за помощь!!!
Не за что, обращайтесь, если что.
Здравствуйте, создала сайт на Вордпресс, по совету установила плагин WP Robots Txt, чтобы можно было отредактировать файл роботс, да вот не пойму никак, как же его редактировать, не подскажете? Файл есть по умолчанию, там всего лишь пару запретов стоит, надо его заменить, а вот не соображу, как, “блондинка” я.
Удаляйте плагин. Открывайте Блокнот и копируйте туда актуальный robots.txt из статьи. Замените в директивах Host и Sitemap имя домена на свое. Сохраните файл под именем robots.txt и загрузите его в корневую папку сайта на хостинг.
Внимание! При копировании из статьи действует защита. Появляется внизу текста ссылка на этот пост. Удалите ее, начиная со слов “Read more”. Все директивы расположить в столбик, как на примере. Если будут проблемы, укажите адрес сайта, я вышлю готовый файл Вам на почту.
Олег, здравствуйте! Благодаря вашим объяснениям я составила robots, это было давно, и все работало. Но в последнее время Яндекс-вебмастер в разделе исключенные страницы, запрещенные в файле robots.txt выдает мне очень много страниц (255 шт), причем почти все они такого вида http: //www.мой сайт.ru/урл страницы.html/feed. Казалось бы, все правильно, ведь в robots я запретила индексировать feed. Но, проблема в том, что Яндекс говорит об ошибках в исключенных страницах, и их количество тоже 255 шт.
Что не так, не могу понять. Может быть Вы сможете что-нибудь подсказать. Заранее спасибо.
А вообще, каково среднее количество запрещенных страниц в результате должно быть. Мне кажется 255 это очень много.
То, что эти url в исключенных, это нормально, ведь такое правило для них прописано. Почему в них ошибки, сказать не могу, так как у меня ошибок нет, а такие страницы не запрещены в robots. Что интересно, в поиске их Яндекс тоже не показывает. У Вас страницы с feed открываются нормально?
Количество запрещенных страниц у всех разное и зависит от общего количества страниц сайта и директив в robots.txt. Например, у меня их 141.
Спасибо, Олег! Видимо придется писать в Яндекс, хотя они не очень-то в последнее время стремятся что-либо объяснять и помогать.
Можно попробовать, если ошибок на самом деле нет, а в Вебмастере они отображаются. Интересно узнать, что они ответят.
Ошибок нет, я уверена, так как ничего не меняла, а изначально их не было. Что ответит Яндекс обязательно напишу.
…Интересный ответ я получила от Яндекса, когда спросила, почему они понизили мой блог в выдачи (с 3 на 78 место) и убрали 2/3 поисковых запросов. Три раза писала и на все письма один ответ – “просто нам не нравится ваш сайт, мы считаем его некачественным”. Ни на одну ошибку не указали.
Тяжело сделать сайт, чтобы он всем нравился… и недешево.
Согласна.
Сначала блог хорошо поднимался в выдаче, доходило до 3000 уников. Был доход от рекламы. Я стала подумывать сделать еще сайты. А когда мой блог отбросили назад просто так, без объяснения причин, я поняла, что это неблагодарный бизнес и ставку на такую коммерцию делать нельзя. Теперь веду блог для себя и для тех людей, которые мне пишут и благодарят за статьи.
Бывает, что со временем фильтры сами собой снимаются и трафик возвращается. Главное продолжать работу над сайтом, просто можно не так активно, но не бросать.
Спасибо, Олег! :-))
Олег, вот обещанный ответ от Яндекса:
“Появление данных страниц в Яндекс.Вебмастере связано с тем, что на Вашем сайте, помимо доступных для посетителя страниц, есть и служебные страницы сайта, которые не должны индексироваться и участвовать в поиске. Именно такие страницы и появились в разделе “Исключённые страницы”. Не переживайте, это – нормальная ситуация, робот просто обнаружил ссылки на них на Вашем сайте, поскольку обход страниц запрещён, они не посещаются роботом, не участвуют в поиске и никаким образом не влияют на индексирование или ранжирование Вашего сайта. Их отображение носит исключительно информативный характер.”
Значит можно не переживать.
Они не ответили по сути. Я спрашивала про ОШИБКИ, которые указаны в вебмастере, а мне говорят про исключенные страницы. Если одна исключенная страница – это одна ошибка, то пусть слово “ошибки” заменят на какое-нибудь другое. Лично я это слово “ошибки” понимаю как то, что надо что-то исправить или удалить.
Если они сказали, что все нормально, то надо просто не обращать внимания.
Наверное. Спасибо, я немного успокоилась).
Привет! Есть такой вопрос. Почему в Яндекс.Вебмастер и в выдаче Гугла (в соплях) появляются страницы feed… Гугл при этом пишет, что индексация запрещена и т.д., в ЯВ – эти страницы вообще в Исключенных страницах (в “Документ запрещен в файле robots.txt”). Как их искоренить + есть и другие подобные траблы… типа /?p=1142, хотя ЧПУ настроено изначально. У Борисова вообще туфта написана… всем пишет так, а у самого другой роботс стоит и редиректа нет. Нигде нет нормальной инфы по решению этого вопроса.
Я по этому вопросу не заморачиваюсь, главное, чтобы этих страниц не было в основном индексе и не показывались в поиске. Лично у меня страниц feed нет Яндекс.Вебмастер и в Google вроде тоже. Зато есть page, хотя они закрыты и в meta robots и в файле, в отличие от feed.
Как искоренить? Для Яндекса это не нужно, у него нет соплей, а для Гугла можно запретить в Параметрах url. Хотя представители Google говорят, что никакого доп. индекса нет, это миф.
Что касается /?p=1142, то это шортлинки, которые формируются независимо от настройки ЧПУ и выводятся в коде каждой страницы в виде link rel=’shortlink’. Достаточно прописать в functions.php код:
remove_action(‘wp_head’, ‘wp_shortlink_wp_head’);
Таким же образом можно убрать и другой мусор из кода: версию WordPress, wlwmanifest и др.
А вообще, советую лучше обратить внимание на доступ робота Гугла к скриптам и стилям через robots.txt для корректного отображения на мобильной версии.
Спасибо большое за ответ. А что имеется ввиду под “доступом робота Гугла к скриптам и стилям robots.txt для корректного отображения на мобильной версии? Адаптация сайта под мобильные телефоны или я не туда клоню?
Проверь сайт здесь _https://www.google.com/webmasters/tools/mobile-friendly и обрати внимание на то, как робот Googlebot видит твою главную страницу: Некоторые ресурсы страницы (9) заблокированы в файле robots.txt. Ниже можно посмотреть ресурсы. Причем для внутренних страниц заблокированных ресурсов еще больше.
Кстати, Игорь, у тебя стоит плагин WPtouch? Смотрю сайт проходит проверку. Установлен ли какой-то плагин кеширования, а то у меня WPtouch совместно с кешированием результата не дает.
Да уж… Фигня) С этим роботсом и прочей чухней проблем больше, чем с написанием статей.) Нужно на выходных всерьез заняться изучением подобных мелочей, а то, чую… к добру эти все ограничения и сопли не приведут.
Да, поставил, плагинов кэширования пока что нет, так и не понял, что конкретно они дают. Скорость загрузки не увеличивается, хотя фиг знает – может надо и поставить. Кстати, заметил, что с плагином WPtouch реклама от Гугла не отображается, а вот от Яндекса – видна. А на одном моем сайте вообще никакого плагина для моб. нет… шаблон – самый ходовой, паблик. Да вот только я его так обработал, что проверку проходит на Гугле, хотя я к этому и не стремился. Не пойму я ничего. Учиться мне еще, и учиться)
Пока посещаемость не большая, работа кеширования может быть и не заметна. Вообще это должно больше к снижению нагрузки иметь отношение, чем к скорости. Так как нет необходимости повторно грузить неизмененные файлы. Хотя все это взаимосвязано.
WPtouch показывает рекламу в платной версии и там еще куча всяких настроек и темы на выбор.
Шаблон мог изначально быть адаптивным, там ничего и настраивать не надо.
WPtouch показывает рекламу Яндекса и на бесплатной версии.
Да в том-то и дело, что изначально не был адаптивным, потому как сталкиваюсь с подобными темами очень часто – и ни один сайт на ней проверку не проходит.
Значит ты уже спец, можешь брать заказы на адаптацию.
Конечно… а то, что как это это делается я не знаю, и в программировании ни бум, бум – это ничего.)
У нас многих это не останавливает, главное взять предоплату)