Как самостоятельно создать оптимальный файл robots.txt для сайта
В этой публикации собраны ответы на частые вопросы новичков:
- Для чего нужен, этот самый, робот файл
- какие страницы сайта следует сделать не индексируемыми ПСами (поисковыми системами).
- Как создать правильный – robots.txt
- Также приведу несколько примеров правильных robots.txt для разных CMS
Что такое файл robots.txt и для чего он нужен:
В данном файле robots.txt содержатся указания для различных ПСов поисковиков - о том, какие страницы, файлы, разделы и директории сайта им не нужно включать в индексацию этого сайта, а какие проиндексировать.
Понятно, что везде сующаяся программа (естественно не одна), которая проводит индексацию сайтов в паутине Интернет у каждой поисковой системы. И передвигается данный робот ПС через ссылки находящиеся на сайтах в сети. Всю собранную информацию эта программа передаёт своему хозяину – поисковику. Который, в свою очередь, обновляет имеющуюся у него информацию, о тех или иных ресурсах, добавляет новые сайты и страницы, которые были обнаружены в процессе скитании (ну чем не пёс).
Теперь конкретно о действиях ПСов при попадании на любую страницу сайта .
Программа индексации сразу же после захода на сайт начинает искать служебный файл – robots.txt. И если такой файл имеется в корневой папке сайта, то робот будет исследовать (индексировать) данный сайт по содержащимся в файле правилам. При отсутствии оного искомого, индексация будет проходить на общих основаниях.
Возможно, будут исследованы все файлы, во всех папках и все страницы данного сайта, без ограничений. Но этого конечно же скорей всего не произойдет в связи с занятостью ПСа, он просто через установленное ему время, на индексацию одного сайта, уйдёт восвояси по первой найденной ссылке на сторону.
В итоге мы получим проиндексированные файлы и страницы не несущие для нас и других людей никакой информации и пользы (например, системные файлы базы данных), а информация, которую мы хотели донести поисковику, для выдачи в свет, останется прочитана только нами, обидно, не правда ли.
Вот именно для этого и требуется создать как можно более правильный файл robots.txt.
Теперь давайте рассмотрим ,что за файл такой, этот robots.txt.
- robots.txt - это простой текстовый файл, создать сие чудо можно при помощи обычного виндового блокнота.
- Местонахождение файла robots.txt - корневая папка (директория) сайта.
- Если создать пустой файл с именем robots.txt, или не создавать его вообще - это разрешит поисковикам индексировать все страницы и файлы сайта, без исключении.
- Большие файлы robots.txt – (когда их размер 256 Кб и более), так же определяются ПСами как разрешающие исследование всего сайта
- Создавать название данного файла необходимо в нижнем регистре - robots.txt.
- При переносе с локального компьютера данного файла посредством всевозможных ftp-клиентов, программу необходимо настроить на передачу текстовых файлов (но обычно это не требуется, данная опция активна по умолчанию).
А теперь самое интересное, ради чего мы здесь сегодня и собрались:
Как создать файл robots.txt
Создаём обычный .txt файл (можно обычным блокнотом) и даём ему имя robots, в итоге на выходе получаем текстовой файл – «robots.txt». Этот файл располагаем в корневой папке Вашего проекта, то есть данный файл должен отображаться при введении в адресную строку браузера http://ваш_сайт.ru/robots.txt.
Таким же образом Вы можете читать файл robots.txt любого чужого сайта, просто после домена приписав robots.txt
Теперь разберемся, что в него нам нужно записать.
В правильном файле robots.txt обязательно быть в директивы: «User-agent» и «Disallow».
Директива «User-agent» - должно содержать наименование поискового робота для которого предназначена данная и последующие строки файла.
- Если обращение происходит ко всем поисковикам без исключения, то в «User-agent» пишем символ «*» звездочку, выглядеть сие внутри нашего файла будет так:
User-agent: *
- А вот если обратиться необходимо к определённому ПСу роботу, например Яшки (Яндекса), то наша запись будет выглядеть следующим образом:
User-agent: Yandex
Теперь что касается обязательной директивы «Disallow»
«Disallow» говорит поисковой программе о том, что ему бедолаге дабы не перегрузить себя излишними мотаниями индексировать необязательно и не нужно.
Disallow: /
- Данная запись говорит о разрешении прошерстить весь сайт от А до Я
- Чтобы наложим запрет на исследование допустим файла error.html который находится у нас (допустим) в корневой папке нашего проекта. Запишем мы данное действие следующим образом:
Disallow: / error.html
- Сейчас запретим индексирование файла esy.html, который, опять же гипотетически, в папке «systemem».
Пишем оное вот таким макаром:
Disallow: / systemem /esy.html
- Ну а теперь запретим индексацию определенных папок сайта (директорий), ну незачем допустим нам передача информации из папки - «addon» и папки «cgi-bin».
Disallow: /cgi-bin/
Disallow: /forum/
- Этой записью мы сказали роботу, что всё что находится в этих папках ему не предназначено.
- Если же у нас имеется несколько файлов и папок, схожих своими названиями, то мы можем запретить их и исследование ПСом при помощи всего одной строки.
К примеру, запретим поползновения робота по директориям и файлам, которые начинаются с символов hay. Это папки hay, hay 111, hay 112 и страницы hay.html, hayworld.html и т.п.
Мы запишем это так:
Disallow: / hay
- так же в «Disallow» можно использовать некоторые символьные значения, но правда это действует не на все поисковые системаы. Но вот Гугля (Google) вполне нам подходит т.к.
поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).
Для чего это нам? Данной манипуляцией мы можем сказать ПСу что файлы с определенным расширением, к примеру, «htm», не его ума дело:
Disallow: *.htm$
User-agent: Googlebot
Disallow: *.pdf$
Этот вариант накладывает запрет на проверку PDF файлов для гугля:
Второе решение данного вопроса - это создать собственную отдельную папку pdf и запихать все наши PDF документы в него.
Тогда в файле robots.txt начеркаем следующие строки:
User-agent: *
Disallow: /pdf/
Ну вот, зная хотя бы данный минимум, Вы уже легко сможем создать свой файл robots.txt и регулировать действия разных ПСов при очередной проверке вашего сайта.
Как создать txt файл с именем yandex -
Вот несколько примеров почти идеальных файлов robot.txt для движков сайта (блогов и форумов) на различных CMS :
Пока вполне можете использовать эти robots.txt файлы, а после уже отредактируете согласно структуре Вашего сайта
Как самостоятельно создать оптимизированный файл robots.txt для своего сайта.