Дубликат контента VS Google Panda. Часть 1

Tweet

Итак, все мы знаем, или по крайней мере слышали, что Google ввел новый алгоритм, под кодовым названием Панда. Основным направлением борьбы в этот раз стал дублированный контент. И чем меньше на вашем сайте копипаста, тем лучше для вас же.

Вы можете сказать: мне пофигу что вы там рассказываете, у меня на сайте чистый копирайт. А вот ребята я вас сейчас слегка разочарую. Если вы используете движки для своего сайта (CMS), как к примеру на этом блоге (WordPress), то у вас в результате генерируется тонна дубликата контанта внутри самого сайта, что пагубно для позиций основных страниц в поисковой выдаче.

Итак, сегодня мы поговорим о том, что же такое дубликат контанта, как его обнаружить и как с ним бороться.

1. Что такое дубликат контента?

Давайте только сразу расставим точки над І, что бы не оставалось недоразумений, что же такое дубликат контента.

Дубликат контента — это повторение одного и того же текстового, графического, аудио или видео материала на разных страницах сайта или различных сайтах.


Вроде бы просто, но… Смотрите что получается. Многие думают, что дубликат на разных страницах — это один и тот же текст (к примеру) в разных файлах на сервере. Для робота поисковой системы (Google Crawler) каждый уникальный URL — это отдельная страница, а значит и контент на них должен быть по идее разный. Сами понимаете, что на больших веб-сайтах, построенных с использованием систем управления контентом, подобных url во много раз больше, чем обычных страниц.

2. Какую роль играет уникальный контент?

Дублированный контент давно оказывал влияние на SEO, еще до прихода Гугл Панды. И уже несколько лет принимаются самые различные методы по пресечению сайтов с подобными материалами. Вот некоторые из них.

Дополнительный индекс

Вы наверное уже сталкивались с подобным, даже если не имели сайта. Любой пользователь поисковой системы Google когда либо сталкивался с дополнительным индексом, разве что не задумывался о том, что же это такое.

Гугл использует систему дополнительного индекса, даюы очистить результаты основной выдачи от дубликатов и материала совсем уж низкого качества.

Естественно, большинство из пропущенных страниц действительно содержали попросту ворованные статьи или были очень низкого качества, но не всегда. Есть страницы и такие, которые попали по вине неправильной оптимизации сайта в эту “муссорку”, что естественно плохо для владельца, который не получает своих клиентов на сайт.

“Паучий лимит”

Паук, или поисковой робот, как я уже говорил, используется для индексации поисковой системой материалов сайта.

Дело в том, что не существует точной цифры, которая бы сказала, сколько конкретно страниц краулер обойдет за один заход на вашем сайте. Однако, существует гипотеза, что чем чаще вы отправляете паука извилистыми дорожками копипаста, тем реже он будет заходить, и тем меньше страниц он будет сканировать, дабы не загружать себя ненужной информацией в индексе.

Как видите, эта величина отнюдь не постоянная. И если поисковик перестанет ходить по некоторым страницам, которые вам нужны, или будет заглядывать туда раз в пол года, это лишь пол беды. Как бы он не прекратил наведываться на ваш сайт и вовсе.

“Потолок” индексации

Еще есть такой нюанс, что Гугл не собирается вовсе “кушать” весь ваш сайт за один заход. Многие думают, что чем больше страниц на сайте, тем лучше. Но это не всегда так. Молодой сайт с 10 000 страниц вряд ли попадет в  индекс гугла целиком за два — три месяца. И вот представьте, что нужные вам страницы будут пылится на сервере, в то время как трафик с поисковика будут собирать дубли страниц, как то к примеру версии длоя печати, которые страдают отсутствием какого либо юзабилити.

Бан за дубликат

Этот прием использовался еще до гугл панды, и сейчас только усиливает свое влияние. Если на сайте обнаруживается большое колличество не уникального контента, с большей или меньшей долей вероятности он улетит в “бан”, то есть поисковик просто не будет его индексировать, а значит и в результатах поиска его никто не найдет.

Google Panda

Ну и как уже говорилось, с введением  нового алгоритма Гугла, под названием Гугл Панда, основная цель которого — борьба с дублирующимся контентом, уникальность ваших сайтов начинает играть если не решающую, то одну из главных ролей в успехе вашего бизнеса.

3. Три вида дубликатов контента

Перед тем, как мы начнем разбирать способы поиска и борьбы с дубликатами, давайте кратенько определим три типа дубль контента. Это: (1) Полная копия, (2) Частичная копия и (3) Кросс-доменная копия.

(1) Полная копия

Полной копией можно считать две абсолютно идентичные страницы (схожесть контента), расположенные в рамках одного сайта.

(2) Частичная копия

Частичной копией считается некоторый кусок текста или другого контента, который расположен в окружении уникального материала. Это могут быть какие то цитаты, копированные изображения и тому подобное.

(3) Кросс-доменная копия

В этом случае подразумевается частичное или полное воспроизведение одного и того же материала на разных сайтах. Этот способ сложно подставить под два предыдущих, так как он сам по себе уже вызывает вопрос легальности.

4. Способы борьбы с дубликатами

Эти способы в принципе лежат на поверхности, они не мешают нормальному функционированию сайтов, но они способны побороть все проблемы, которые будут описаны в этой статье ниже.

(1) 404 (Not Found)

Конечно же, самый простой способ борьбы с дубликатом контента — это удалить его и поставить 404 ошибку вместо него. Эдакий радикальный способ =)

(2) 301 редирект

Другой способ — это воспользоваться 301 редиректом. В отличае от ошибки 404, 301 ответ сервера указывает пользователям и поисковикам, что страница была перемещена. Пользователи и пауки попадают на новую страницу, дубликат не индексируется, но все ссылки на него передают вес основной странице, а вы не теряете драгоценный трафик. Это очень хороший вариант для SEO.

(3) Robots.txt

Следующий способ направлен на отображение оригинальной страницы для пользователя без каких либо преград, однако блокирует ее от поисковых роботов. Для этого в корневой директории вашего сайта вам нужно будет разместить текстовый файл robots.txt, внутри которого указать краулерам, что на сайте можно индексировать, а что нельзя. Для этого используется специальный синтаксис. Выглядит содержимое файла примерно так:

Таким образом мы можем заблокировать от тех или иных поисковых систем отдельные страницы на сайте, или даже целые директории. Однако этот способ не является панацеей. И хоть он удобен для блокировки от индексации, он не сильно поможет для полного удаления уже попавшей в индекс информации, содержащей дубли контента.

(4) Meta теги

Вы можете контролировать индексацию страниц на уровне самих html файлов, предварительно прописав мета тег Robots. В простейшем варианте это будет выглядеть так:

Здесь мы видим, что мета тег роботс запрещает индексировать содержимое страницы и передавать вес по ссылкам на ней. Этот вариант можно назвать более дружественным к SEO, чем даже robots.txt, ведь этот тег можно создавать динамически, при помощи серверного языка программирования.

Заметка: использование этих тегов не принуждает вас на остальных страницах устанавливать параметры index и follow. Они используются по умолчанию.

(5) Rel=Canonical

В 2009 году Гугл ввел новшество — параметр Rel=Canonical, еще иногда его пишут как “Rel-canonical” или “Canonical Tag”. Это позволяет веб-мастеру указать каноническую версию любой страницы. Этот тег прописывается в шапке html, как и мета теги. Выглядит примерно так:

Когда поисковой робот считывает страницу с каноническим тегом, он индексирует и принимает во внимание только основную страницу, которая указана как каноническая. Остальные откладываются в сторонку.

Однако стоит быть очень и очень внимательным. Ведь указание для всего сайта одной канонической страницы, или неправильной страницы, могут оказаться катастрофическими.

(6) Google URL Removal

В инструментарии Google WebMaster Tools (GWT) присутствует страницы удаления, при помощи которой вы можете исключить из индекса любую, уже попавшую в лапы поисковика страницу.
Конфигурация сайта >> Доступ для сканера. Вы увидите 3 вкладки. Выберите третью: “Удалить URL” и… действуйте!

Это позволит удалить страницу из индекса. Предварительно вам нужно заблокировать дальнейшую индексацию этих страниц при помощи уже выше описанных средств.

(7) Блокировка Google по параметрам

Все в том же Google WebMaster Tools есть еще одна занятная функция. Доступна она так:
Конфигурация сайта >> Параметры URL >> Настройка параметров URL.

В списке отображаются те url параметры, которые гугл обнаружил на вашем сайте. Надпись Let Googlebot decide выставляется по умолчанию и никак не влияет сама по себе. То есть, гугл сам решает, принимать в индекс или нет на основе мета-тегов, роботса и так далее.

Для того, что бы управлять этим параметром, рядом есть кнопочка Edit.

То, что там написал Гугл, мало кто смог понять ). Но по сути, Yes означает что нужно индексировать, No — отмечаем дубликаты.

(8) Bing URL Removal

Bing Webmaster Center (BWC) имеет аналогичную GWT функцию по удалению ненужных страниц из индекса.

Пройдя по “Block URLs” > “Block URL and Cache” у вас появится примерно такое окошко:

Как видите, Бинг дает сразу несколько видов блокировки в своей ПС. Вы можете заблокировать страницу, директорию или весь сайт. Последнее, думаю, не лучший вариант ;=)

(9) Bing Parameter Blocking

Опять таки, инструмент на подобии того, что мы видели в Гугле. Вы получаете список автоматически определенных параметров и настраиваете индексацию. Однако здесь только одна опция у параметров: ignore. То есть, полное игнорирование.

Статья является свободным переводом Duplicate Content in a Post-Panda World

Если вас заинтересует погода в вашем городе, то можете посмотреть по ссылке. А то, нынче, очень не предсказуема небесная канцелярия. То в декабре +10, то резкий мороз и завирюхи в ту же ночь. А кто предупрежден — тот, как известно, вооружен (зонтиками и зимней резиной, товарищи!).

Стань уникальным – проверка на плагиат вашего контента.
Использование Video Sitemap для SEO
Оптимизация .css файлов как элемент раскрутки сайта
Буду признателен, если вы оставите свое мнение об этой статье.

Пожалуйста, оставьте ваше мнение об этой статье!