Главная » Статьи » Полезные статьи » Вебмастеру |
Файл robots.txt предназначен для указания инструкций поисковым роботам по индексированию сайта. Говоря другими словами, с помощью этого файла вы можете указать роботу, какие страницы нужны в поисковой выдаче, а какие нет. На каждом сайте есть страницы, которые несут или чисто служебный характер (страница регистрации пользователей, страница входа, панель управления и прочие) или страницы с дублирующим контентом (информеры, страница результатов поиска). Эти страницы не оптимизируются, под них не составляется семантическое ядро, они не содержат ценного контента и только затрудняют поисковому роботу правильно индексировать ваш сайт. Когда робот посещает сайт, то начинает его «поглощать» именно с файла robots.txt, если в нем нет запрета на индексацию, то «Паук» начнет загребать в свой «чемодан» все в подряд, и, как правило, это все лишние и бессмысленные страницы. Когда время пребывания и место в «чемодане» заканчивается – робот покидает сайт…. И так каждый раз при его посещении… В итоге – ни одна действительно важная страница не оказывается в результатах поиска и ваша посещаемость «застыла» с постоянным числом 0. На каждом сайте, созданном в системе uCoz, уже есть правильно сконфигурированный файл robots.txt, и если вы не понимаете его важность, то лучше не редактируйте его и оставьте таким, каким он есть, иначе вы рискуете испортить сайт! Посмотреть свой robots.txt вы можете по адресу: http://имя вашего сайта/robots.txt А редактировать его можно прямо через файловый менеджер (файл robots.txt лежит в корне сайта). Внимание! Для молодых сайтов (до 1 месяца) накладывается запрет на индексирование сайта – называется этот период карантин. Подробнее о карантине, его сроках и условиях досрочного снятия я написал здесь. В период карантина даже не мечтайте о возможности редактирования файла robots.txt, потому что это физически невозможно и абсолютно бессмысленно… Файл robots.txt сайта uCoz, который находится на карантине, выглядит так. Директивы robots.txtДавайте попробуем разобраться, что означают строки (директивы), записанные в этот файл. 1. User-agent: - означает, что данная инструкция, предназначенная для кого-то… Если после двоеточия стоит * - значит для ВСЕХ поисковых роботов. 2. Disallow: - означает, что поисковому роботу запрещено индексировать какую-то страницу… Если после двоеточия стоит / - значит, запрещено индексировать ВСЕ страницы сайта (ваш сайт на карантине). 3. Allow: - означает противоположное значение директиве Disallow. Если после двоеточия стоит /load – значит, запрещено индексировать ВЕСЬ сайт, кроме главной страницы модуля «Каталог файлов». 4. Sitemap: - означает, что поисковому роботу следует ознакомиться c XML картой сайта… Тут указываются с каждой новой строчки отдельно имя директивы и ссылка на карту сайта, карту форума и карту интернет-магазина (если модуль активирован).
Что можно добавить или удалить в robots.txt для uCoz?Удалять какие-либо строки из robots.txt я бы не рекомендовал, за исключением ссылок на XML карты модулей, которые вы не используете (чтобы не вводить робота в заблуждение отсутствием файлов), а вот добавить кое-что можно и даже нужно! 1. Если вы используете бесплатный домен uCoz (имя-сайта.ucoz.ru), то этого делать не нужно, а если вы купили и прикрепили свой домен, то вам необходимо указать его основной приоритетный адрес (зеркало сайта) путем добавления следующей сроки: Host: www.ваш-сайт.ru (http:// - ставить не обязательно) Тут обратите внимание, что сайты www и без www – это 2 разных сайта, и если в robots.txt вы укажете основной домен с www, то в дальнейшей раскрутке вам придется везде указывать его имя в таком же формате. Я никогда не ставлю приоритетным хост с www, так как без него проще и короче. 2. В uCoz как и в любом другом движке встречаются дубли страниц. Иначе говоря, одна и та же страница доступная по 2-ум разным ссылкам. Называются они SSID дубли и ссылка выглядит так: http://ваш-сайт.ru/?ssid=4984834732fsd8202034564imdfndffy243ndf8 Чтобы закрыть эти дубли необходимо добавить к списку основных директив следующую запись: Disallow: /?ssid= Возможно, что на вашем сайте нет дублей или разработчики системы уже устранили этот недочет (я просто не в курсе пока…), но в любом случае, эта строчка не помешает. 3. Если на вашем сайте есть гостевая книга, то ее тоже можно закрыть от индексации, так как смысла от нее нет и ценности тоже… Disallow: /gb 4. Закройте вручную все страницы, которые несут чисто служебный характер и не относятся к тематическому контенту сайта. Например, у меня есть страница, на которой я опубликовал информацию для рекламодателей (описание аудитории, рекламные места, цены и прочее). Эта страница не нужна в результатах поиска, так как рекламодатель проявивший желание разместить рекламу на моем сайте и так найдет эту страницу, или свяжется со мной через форму обратной связи. Так как данная страница была создана в «Редакторе страниц», ее вид будет следующим: http://ваш-сайт.ru/index/reklama_na_saite Чтобы закрыть страницу от индексации, в robots.txt я добавлю следующую строчку: Disallow: /index/reklama_na_saite Правильный robots.txt для uCozСамый правильный robots.txt для uCoz – «родной», но если учесть все мои рекомендации, опубликованные выше (для сайта без форума и интернет-магазина с доменом второго уровня), то robots.txt будет выглядеть следующим образом:
Файл простой по своей структуре, но довольно опасен для самостоятельного изменения, так как ошибки в robots.txt могут привести к серьезным последствиям в плане продвижения. Напоминаю, что только что созданные сайты в uCoz находятся на карантине в течении 30-ти дней и редактирование файла robots.txt просто невозможно. | |||||||||||||||||||||||||||||||||||||||||||||
Просмотров: 2256 | | |
Всего комментариев: 0 | |