статьи и информация о SEO
RSS иконка EMail иконка Домашняя иконка
  • Индексация PDF — контента

    Написано Июнь 21st, 2009 admin Нет комментариев

    Некоторые начинающие Веб-мастера сталкиваются с очень простой проблемой — их PDF-файлы, находящиеся на сервере, не индексируются поисковиком. Для того, что бы подобные трудности не возникали впредь, полезно будет объяснить — какие PDF-документы бывают и какие из них могут попасть в индекс.

    Как уже Вам стало понятно, не все файлы с расширением PDF индексируются поисковыми машинами. Поисковики заточены исключительно на обработку текстовой информации — их не интересует, в каком именно документе находятся текст (txt, Word, HTML, PDF — не важно!). Для того, что бы Ваш PDF-документ был проиндексирован, Вам необходимо создать его в виде текста, а не в виде графического изображения. Дело в том, что PDF-конверторы, могут переводить текстовое наполнение из вордовского (или любого другого) формата, как в виде текста, так и в виде картинки — поэтому, для начала изучите программу-конвертор, а затем внимательно следите, что б она компилировала символы именно в текстовые PDF-файлы, а не в графические.

    На вид, текстовые и графические PDF-документы ничем не отличаются друг от друга — только в первом случае, текст можно выделить и скопировать, а в графическом варианте, этого сделать уже не удастся.

    Следовательно — если поисковик не может прочитать текст (из-за того, что он выполнен графически), то и, тем более, он не сможет его проиндексировать.

    Поэтому, перед тем как вывешивать PDF-файлы на сервер, попробуйте копи-паст — если символы выделяются и копируются в обычный txt, то ни один из поисковиков не откажется от того, что бы со временем занести содержимое вашего PDF-файла в свой индекс.

    Тут все просто! :-)

    Ну а с другой стороны, новости с IT-фронтов приходят обнадеживающие — не за горами уже то время, когда технология OCR ( Optical Character Recognition, т.е. оптическое распознавание символов) начнет применяться и в поисковых системах. Тогда-то уж точно надобность в подобной статье отпадет на все 100% :-)