PDF & Google. Is it love?

Tweet

 Всем привет, это Азартный. Дааа, много времени прошло с последней осознанной статьи на этом блоге. Но зато я очень хорошо отдохнул, набрался сил, чуточку успокоил свои нервишки и взялся было опять за работу… Но что то лень разбирает после отпуска. А на днях еще что то и со здоровьем приключилось, лицо опухло…

Но все же, хотелось порадовать вас немного новой информацией, пусть и пока что теоретической…

А поговорим мы сейчас о PDF файлах и их индексации гуглом.

Как вы уже наверное знаете, начиная с 2001 года поисковая система Google стала индексировать и использовать в выдаче файлы формата .pdf

PDF & Google. Is it love?

PDF & Google. Is it love?

Выдержки из официальных заявлений компании, переведены на русский.
Какие типы PDF файлов индексирует Google?
По сути, гугл может проиндексировать любой текст, на любом языке из пдф файла. Важно что бы на самом файле не стояло пароля, он не был зашифрован и содержал текст в правильной кодировке.
Что касается изображений, то поисковой робот использует OCR для того, что бы попробовать найти на изображении текст.
Простое правило хорошей индексации – это попробовать выделить текст в файле, скопировать в буфер обмена и вставить в обычный текстовый редактор. Если у вас все это получилось, текст не искажен, то и индексироваться он будет отлично.
Что происходит с изображениями в PDF документе?
В данный момент изображения не индексируются. Поэтому, если вы хотите видеть их в результатах поиска, то вам лучше создать HTML копию документа.
Как поисковой системой воспринимаются ссылки в PDF файлах?
Google индексирует ссылки внутри pdf документов. При этом они так же передают ссылочную массу, PageRank и другие параметры, как и обычные html ссылки. Но на сегодня нет возможности скрыть ссылки внутри этого типа файла от перехода как это делается тегов nofollow в обычном хтмл, что тоже следует учитывать.

 

Как закрыть от индексации PDF файл?

Самый надежный способ — это воспользоваться X-Robots-Tag в HTTP заголовке серверного файла.

Так же можно попробовать закрыть папку с файлов от индексации при помощи robots.txt, но как показала практика, это не самый надежный вариант.

Если файл уже попал в индекс, то удалить его можно при помощи URL removal tool в Google Webmaster Tools.

 

Может ли PDF файл занимать высокие позиции в результатах поиска?
Конечно же! К примеру по запросу mortgage market review на верхних позициях находятся PDF файлы, благодаря релевантному и качественному содержанию, плюс входящие ссылки.

 

Будет ли считаться дубликатом контента наличие на моем сайте одних и тех же страниц в HTML и PDF формате?
Google настоятельно рекомендует содержать любой контент на сайте в единственном экземпляре. Но если все же это не возможно, то будет хорошо, если вы укажите ссылку на основную страницу, к примеру, в Sitemap, или HTTP заголовке исходника PDF файла.

Больше идей о том, как указать основное расположение контента вы можете подчерпнуть из соответствующей статьи.

 

Как можно повлиять на заголовок PDF файла в результатах поиска?
Для формирования заголовка Google использует два основных фактора:

  • Заголовочные метаданные документа
  • Текст (анкор) ссылок, которые на него ссылаются

Для влияния на результат выдачи рекомендуется дать сигнал посредством обоих факторов.

Вот немного вам теории. Так что, кто еще не занимается продвижением PDF файлов и получением ссылок с них — вперед, дерзайте! В буржунете на PDF файлах уже даже дорвеи создают. Хотя почему уже? Чего уж таить, давным давно… Просто очень часто наши SEOшники ленятся анализировать и думать, используя лишь то, что написали на всяких там серчинджинсах.

Идея статьи и оригинал ответов Гугла ТЫЦ.

Скажите, а вам не нужен случайно виртуальный номер телефона? По моему — интересная задумка, особенно для небольших фирм, которые хотят обзавестись службой поддержки по телефону.

— — —
На этом на сегодня все. На десерт интересное такое видео, о женской логике, что ли…

Перенос файлов с сервера на сервер. Все очень просто.
Amazon S3 - что с ним делать и зачем?
Оптимизация .css файлов как элемент раскрутки сайта
Буду признателен, если вы оставите свое мнение об этой статье.

Один комментарий к записи: “PDF & Google. Is it love?”

  1. Mr.nav:

    Полезная статья. Вообще PDF документы хороши не только для наполнения сайта контентом, но и в качестве маркетингового инструмента. То есть при создании небольших полезных для пользователя справочников, руководств и т. д., которые раздаются бесплатно, для привлечения трафика. Одним выстрелом двух зайцев…

Пожалуйста, оставьте ваше мнение об этой статье!