Авторизация

Забыли пароль?
 

Еще не зарегистрированы?

Регистрация

Автор: seomul (Andrey SEO)

Как запретить индексировать дубликаты страниц в WordPress. Метки в WordPress

2 Янв 2012, 16:40

Одна из самых распространенных проблем множества сайтов, которые разработаны на бесплатных CMS - автоматическая генерация дубликатов страниц.

 

Дублированный контент – это одинаковый текст или часть текста, к которому можно обратиться по разным URL.
Метки
или по другому теги, в WordPress служат ключевыми словами и словосочетаниями для статьи (хотя в последнее время поисковики не учитывают мета-тег "keywords").  И все бы было хорошо.

Благодаря им статью на определенную тему легче найти не только при помощи собственного поиска на блоге, но и в поисковых системах. Это часть семантического ядра, о котором я писал в статье "Семантическое ядро. Ключевые слова и словосочетания". Но дело в том, что у всего этого есть и обратная сторона, которая совсем не радует. Метки создают дубли страниц (дубликаты страниц), которые также индексируют поисковые системы. И это поисковыми системами может быть воспринято как спам. За что блог может загреметь под фильтр поисковых систем, из-под которого выбраться бывает порой не только очень сложно, но и не возможно. Поэтому я все метки на своем блоге удалил, так как посчитал это просто ненужной фишкой. Но если вы решились оставить метки на своем блоге, то как же избавиться от дублирования страниц? Один из способов решения данной проблемы, это запретить индексирование меток в WordPress и сделать это можно при помощи файла robots.txt, который мы более подробно разберем в будущих публикациях. Для того, чтобы запретить индексирование меток (тегов), нужно в файл robots.txt добавить строчку Disallow: /tag/*. Что я и сделал для этого блога. Файл robots.txt можно посмотреть по адресу любого блога примерно так http://domain.com/robots.txt. Но все дело в том, что это мне не помогло и Яндекс по прежнему упорно индексирует дубли страниц моего блога, что мне совсем не нравится. Для поиска решения этой проблемы мне пришлось пошерстить по Интернету. И вот что я нашел.

Для того, чтобы закрыть от индексирования дубли страниц блога на WordPress, можно использовать мета-тег rel=’canonical’. Этот тег недавно анонсировал Google, но его также поддерживает Bing и Yahoo. Включить этот тег можно в плагине All In One Seo Pack для WordPress. Сделать это нужно в связи с тем, что одна страница в WordPress доступна по двум адресам. Первый адрес по заголовку страницы, а второй адрес по тегу "More" или "Читать дальше". Первый адрес, допустим, этой страницы будет выглядеть как http://dropwind.com/kak-zapretit-indeksirovat-dublikaty-stranic-v-wordpress, а второй адрес по тегу "Читать дальше" будет выглядеть, как /blog/kak-zapretit-indeksirovat-dublikaty-stranic-v-wordpress#more-191, с приставкой #more-191 на конце. Мета-тег rel=’canonical’  можно использовать на страницах статей и на всех статических страницах. Также необходимо в файл robots.txt добавить дополнительные строчки:

[stextbox id="warning" caption="Для файла robots.txt"]

Disallow: /meta
Disallow: /tag/*
Disallow: /tags/
Disallow: /author/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/

[/stextbox]

Обязательно использовать для WordPress плагин (дополнительный модуль) All In One Seo Pack в настройках которого указать:

1. Использовать тег noindex для рубрик
2. Использовать тег noindex для архивов
3. Использовать тег noindex для архивов по тегам

Это еще одна дополнительная защита от дублирования страниц в WordPress поисковыми системами.