Дублированный контент – причины возникновения и как с ним бороться

К содержанию



Дублированный контент – причины возникновения и как с ним бороться

Опубликовано:04 Дек 2011

То, что дублированный контент на сайте негативно влияет на его индексацию и ранжирование поисковыми системами, известно давно. В этом посте я попробую рассказать о том, как обнаружить этот самый дублированный контент на Вашем сайте и избавиться от него.
Начнем с того, как определить, есть ли на Вашем сайте страницы-дубли. Вот три простых способа:
1. С помощью панели инструментов Google Webmaster. Необходимо зайти в раздел Диагностика – Предложения HTML. Тут Вы сможете увидеть список страниц с повторяющимся метаописанием и повторяющимися тегами title. Эти страницы с большой вероятностью являются дубликатами. Возможен, правда, вариант, когда Вы прописывали одинаковое метаописание или title для страниц с разным контентом(чего делать крайне не рекомендуется), т.е. такие страницы не будут являться полными дубликатами.


2. С помощью поиска Google. Для того, чтобы обнаружить дублированный контент на Вашем сайте с помощью поиска Google, Вам необходимо задать поисковый запрос в рамках Вашего сайта, который является цитатой из той страницы, которую вы подозреваете 🙂 в дублировании. Запрос будет иметь вид site:yoursite.com “цитата со страницы”. Первая часть запроса как раз указывает на то, что Вы осуществляете поиск в рамках Вашего сайта, если ее убрать, то Вы сможете проверить контент Вашей страницы на уникальность, т.е. не используется ли он на других ресурсах в Интернете.


3. Ваш собственный мозг. Поиск дублированного контента на сайте зачастую похож на работу детектива и требует постоянного анализа и исследовательской работы.
Вот некоторые из причин, по которым возникают дубликаты:
1. Страницы с www и без www. Эта проблема существует изначально у всех новых доменов. Получается, что сайт доступен по двум зеркалам http://yoursite.com и http://www.yoursite.com, между которыми зачастую распределяется ссылочный вес. Для решения проблемы используется 301 редирект. Это можно сделать вручную, добавив пару строчек кода в файл .htaccess или же через Google Webmaster, прописав там основное зеркало.
2. Защищенные страницы (https). Если на Вашем сайте есть защищенные страницы, для доступа к которым используется протокол https, может случиться так, что в индекс попадают две абсолютно одинаковых по содержанию страницы – защищенная и незащищенная. Как правило, эта проблема решается с помощью закрытия защищенных страниц от индексирования тегом noindex.
3. Дубликаты главной страницы. Еще одна очень распространенная проблема, это когда поисковой машиной индексируются одновременно корневой домен и сам индексный файл сайта. То есть, две абсолютно идентичных главных страницы сайта будут доступны по следующим адресам – http://www.yoursite.com и http://www.yoursite.com/index.html(или http://www.yoursite.com/index.php или http://www.yoursite.com/index.htm). Несмотря на то, что эта проблема также часто решается с помощью 301 редиректа, ее можно решить и с помощью тега rel=”canonical”. Этот тег указывает на страницу-первоисточник, благодаря чему поисковик не классифицирует страницу с дублированным контентом как дубликат.
Все что нужно сделать, это определить для себя первоисточник, а на всех остальных страницах с дублированным контентом прописать следующий код.
4. ID сессий. Некоторые веб-сайты, особенно торговые площадки, помечают каждого посетителя параметром отслеживания. Это параметр может случайно попасть в URL и быть проиндексированным. В результате получится что-то вроде таких дубликатов:

www.yoursite.com
www.yoursite.com/?session=12345678

Самое лучшее решение тут – это удалить параметры из URL. Если программно это неосуществимо, то можно сделать это с помощью тега rel=”canonical” или заблокировать параметр от поисковиков в панели Google Webmaster.
5. Партнерские программы. Эта проблема возникает, когда на сайте используется параметр отслеживания для аффилиатов. Как и в случае с ID сессий переменная, присвоенная аффилиату присоединяется к URL, который попадает в индекс. Решение проблемы идентичное решению с ID сессий.
6. Дублирование путей. Проблема возникает, когда к одной и той же странице сайта можно добраться несколькими путями. Например:

http://www.yoursite.com/electronics/ipad2
http://www.yoursite.com/apple/ipad2
http://www.yoursite.com/tag/favorites/ipad2

В данном примере страница с Ipad2 может быть достигнута посредством 2-х категорий и одного тега. В идеале такие URL не должны создаваться вообще. Страница-назначения должна находиться по одному URL. Тем не менее, если на сайте уже есть дубликаты, проиндексированные таким образом, для того чтобы избавиться от них можно использовать 301 редирект или тег rel=”canonical” .
7. Функциональные дубликаты. Это параметры URL, которые изменяют страницу по функционалу, не меняя при этом ее содержания. Ярким примером таких дубликатов могут быть страницы для печати. Оптимальный способ избавиться от таких страниц – это закрыть их от индексации, например, тегом noindex.
8. Поисковые фильтры. Проблема наиболее актуальна для торговых площадок и состоит в том, что при поиске по фильтрам к URL могут добавляться дополнительные параметры. Решение – закрыть от индексации фильтры.
9. Вариации продукта. Проблема возникает в Интернет-магазинах из-за того, что существуют отдельные страницы, которые отличаются от основного продукта какой-то определенной характеристикой, например, цветом. Для решения рекомендуется использовать тег rel=”canonical”, ссылающийся на страницу с основным продуктом.
10. Нумерация страницы при внутреннем поиске. Проблема нумерованных страниц с одинаковым контентом может возникать, например, при внутреннем поиске по сайту результаты которого отображаются на нескольких веб-страницах. Несмотря на то, что результаты поиска сами по себе отличаются, большинство контента на страницах может быть идентичным(Title, метаописание, заголовки, навигация, шаблон и т.д.). Для избавление от проблемы дублирования в этом случае Google предлагает использовать теги rel=”prev” and rel=”next”.

То есть, например, для третьей страницы выдачи при внутреннем поиске реализация будет выглядеть следующим образом:

<head>
<link rel=”prev”  href=”http://ww.yoursite.com/search/2”>
<link rel=”next”  href=”http://ww.yoursite.com/search/4”>
</head>

Приведенные выше примеры – далеко не все возможные варианты дублирования контента на сайте. С большим количеством вариантов дублирования и подробным описанием решения этих проблем, Вы можете ознакомиться в статье Duplicated Content in a Post Panda World, которая использовалась при подготовке материала.

Пользуйтесь и развивайтесь!

Поделиться в соц. сетях

0

Понравилась статья? Подписывайтесь на обновления блога

Введите Ваш email: