Главная » Статьи » Полезные статьи » Вебмастеру

Robots.txt для uCoz

uCozФайл robots.txt предназначен для указания инструкций поисковым роботам по индексированию сайта. Говоря другими словами, с помощью этого файла вы можете указать роботу, какие страницы нужны в поисковой выдаче, а какие нет.

На каждом сайте есть страницы, которые несут или чисто служебный характер (страница регистрации пользователей, страница входа, панель управления и прочие) или страницы с дублирующим контентом (информеры, страница результатов поиска). Эти страницы не оптимизируются, под них не составляется семантическое ядро, они не содержат ценного контента и только затрудняют поисковому роботу правильно индексировать ваш сайт. Когда робот посещает сайт, то начинает его «поглощать» именно с файла robots.txt, если в нем нет запрета на индексацию, то «Паук» начнет загребать в свой «чемодан» все в подряд, и, как правило, это все лишние и бессмысленные страницы. Когда время пребывания и место в «чемодане» заканчивается – робот покидает сайт…. И так каждый раз при его посещении… В итоге – ни одна действительно важная страница не оказывается в результатах поиска и ваша посещаемость «застыла» с постоянным числом 0.

На каждом сайте, созданном в системе uCoz, уже есть правильно сконфигурированный файл robots.txt, и если вы не понимаете его важность, то лучше не редактируйте его и оставьте таким, каким он есть, иначе вы рискуете испортить сайт!

Посмотреть свой robots.txt вы можете по адресу:  http://имя вашего сайта/robots.txt

А редактировать его можно прямо через файловый менеджер (файл robots.txt лежит в корне сайта).

Стандартный robots.txt

Внимание! Для молодых сайтов (до 1 месяца) накладывается запрет на индексирование сайта – называется этот период карантин. Подробнее о карантине, его сроках и условиях досрочного снятия я написал здесь. В период карантина даже не мечтайте о возможности редактирования файла robots.txt, потому что это физически невозможно и абсолютно бессмысленно…

Файл robots.txt сайта uCoz, который находится на карантине, выглядит так.

Директивы robots.txt

Давайте попробуем разобраться, что означают строки (директивы), записанные в этот файл.

1. User-agent: - означает, что данная инструкция, предназначенная для кого-то…

Если после двоеточия стоит * - значит для ВСЕХ поисковых роботов.
Если стоит Googlebot – значит, инструкция предназначена для поискового бота Google.
Если стоит Yandex – значит, инструкция предназначена для поискового бота Яндекса.
Если стоит Yahoo! Slurp - значит, инструкция предназначена для поискового бота Yahoo.
И так далее…

2. Disallow: - означает, что поисковому роботу запрещено индексировать какую-то страницу…

Если после двоеточия стоит / - значит, запрещено индексировать ВСЕ страницы сайта (ваш сайт на карантине).
Если стоит /load – значит, запрещено индексировать только главную страницу модуля «Каталог файлов».
Если стоит /load/ - значит, запрещено индексировать весь раздел «Каталог файлов» (включая категории и материалы).
Если стоит /load/kategoriya - значит, запрещено индексировать страницу указанной категории.
Если стоит /load/kategoriya/ - значит, запрещено индексировать страницу указанной категории и все материалы, находящиеся в ней.

3. Allow: - означает противоположное значение директиве Disallow.

Если после двоеточия стоит /load – значит, запрещено индексировать ВЕСЬ сайт, кроме главной страницы модуля «Каталог файлов».
Если стоит /load/ - значит, запрещено индексировать ВЕСЬ сайт кроме всего раздела «Каталог файлов» (включая категории и материалы).

4. Sitemap: - означает, что поисковому роботу следует ознакомиться c XML картой сайта…

Тут указываются с каждой новой строчки отдельно имя директивы и ссылка на карту сайта, карту форума и карту интернет-магазина (если модуль активирован).

 

Что можно добавить или удалить в robots.txt для uCoz?

Удалять какие-либо строки из robots.txt я бы не рекомендовал, за исключением ссылок на XML карты модулей, которые вы не используете (чтобы не вводить робота в заблуждение отсутствием файлов), а вот добавить кое-что можно и даже нужно!

1. Если вы используете бесплатный домен uCoz (имя-сайта.ucoz.ru), то этого делать не нужно, а если вы купили и прикрепили свой домен, то вам необходимо указать его основной приоритетный адрес (зеркало сайта) путем добавления следующей сроки:

Host: www.ваш-сайт.ru (http:// - ставить не обязательно)

Тут обратите внимание, что сайты www и без www – это 2 разных сайта, и если в robots.txt вы укажете основной домен с www, то в дальнейшей раскрутке вам придется везде указывать его имя в таком же формате. Я никогда не ставлю приоритетным хост с www, так как без него проще и короче.

2. В uCoz как и в любом другом движке встречаются дубли страниц. Иначе говоря, одна и та же страница доступная по 2-ум разным ссылкам. Называются они SSID дубли и ссылка выглядит так:

http://ваш-сайт.ru/?ssid=4984834732fsd8202034564imdfndffy243ndf8

Чтобы закрыть эти дубли необходимо добавить к списку основных директив следующую запись:

Disallow: /?ssid=

Возможно, что на вашем сайте нет дублей или разработчики системы уже устранили этот недочет (я просто не в курсе пока…), но в любом случае, эта строчка не помешает.

3. Если на вашем сайте есть гостевая книга, то ее тоже можно закрыть от индексации, так как смысла от нее нет и ценности тоже…

Disallow: /gb

4. Закройте вручную все страницы, которые несут чисто служебный характер и не относятся к тематическому контенту сайта.

Например, у меня есть страница, на которой я опубликовал информацию для рекламодателей (описание аудитории, рекламные места, цены и прочее). Эта страница не нужна в результатах поиска, так как рекламодатель проявивший желание разместить рекламу на моем сайте и так найдет эту страницу, или свяжется со мной через форму обратной связи. Так как данная страница была создана в «Редакторе страниц», ее вид будет следующим:

http://ваш-сайт.ru/index/reklama_na_saite

Чтобы закрыть страницу от индексации, в robots.txt я добавлю следующую строчку:

Disallow: /index/reklama_na_saite

Правильный robots.txt для uCoz

Самый правильный robots.txt для uCoz – «родной», но если учесть все мои рекомендации, опубликованные выше (для сайта без форума и интернет-магазина с доменом второго уровня), то robots.txt будет выглядеть следующим образом:

ROBOTS.TXT РАСШИФРОВКА
User-agent: * Всем поисковым ботам
Disallow: /a/ Не индексировать страницу обработки ошибок страниц
Disallow: /stat/ Не индексировать статистику
Disallow: /index/1 Не индексировать служебную страницу
Disallow: /index/2 Не индексировать служебную страницу
Disallow: /index/3 Не индексировать служебную страницу
Disallow: /index/5 Не индексировать служебную страницу
Disallow: /index/7 Не индексировать каталог аватаров
Disallow: /index/8 Не индексировать профиль пользователя
Disallow: /index/9 Не индексировать страницу "Доступ запрещен"
Disallow: /panel/ Не индексировать админ-панель
Disallow: /admin/ Не индексировать страницу входа в админ-панель
Disallow: /secure/ Не индексировать служебную страницу
Disallow: /informer/ Не индексировать список информеров
Disallow: /mchat Не индексировать миничат
Disallow: /search Не индексировать страницу в результатами поиска по сайту
Disallow: /?ssid= Не индексировать дубли страниц
Disallow: /gb Не индексировать гостевую книгу
Disallow: /index/reklama_na_saite Не индексировать страницу «Реклама на сайте»
Sitemap: http://site.ru/sitemap.xml Адрес карты сайта
Host: site.ru Основное зеркало сайта

 

Файл простой по своей структуре, но довольно опасен для самостоятельного изменения, так как ошибки в robots.txt могут привести к серьезным последствиям в плане продвижения. Напоминаю, что только что созданные сайты в uCoz находятся на карантине в течении 30-ти дней и редактирование файла robots.txt просто невозможно.

Категория: Вебмастеру | Добавил: bobasan (22.05.2016)
Просмотров: 2256 | Теги: robots.txt, robots, UCOZ | Рейтинг: 5.0/1
Всего комментариев: 0
avatar
КОНТАКТЫ
Украина
Черкассы
Энгельса 50



+38 (098) 412-31-96 bobsan@at.ua
О проекте BobSan
BobSan.at.ua - сайт посвященный компьютерным технологиям и программному обеспечению. Сайт ежедневно обновляется и пополняется новыми программами, новостями, статьями. Все материалы распространяются абсолютно бесплатно.