Запрещаем в .htaccess ботам посещать сайт

Скорость загрузки сайта – один из важных параметров, влияющих на поведенческие факторы сайта. А они, как известно, в значительной степени влияют на ранжирование сайта в поисковых системах. В свою очередь на скорость загрузки сайта, помимо параметров сервера где расположен сайт, влияет нагрузка на сайт со стороны роботов различных сервисов и спам-ботов. Поэтому, очень полезно запретить нежелательным “посетителям” заходить на ваш сайт. 

Запретив основной массе нежелательных роботов (ботов) посещать ваш сайт, вы можете значительно снизить нагрузку на сайт.

Ограничить доступ ботам, парсерам и прочему спаму посещать ваш сайт можно с помощью правил файла .htaccess (рекомендации в robots.txt как показала практика зачастую игнорируется). О том как это сделать – ниже.

Запрещаем доступ ботам через .htaccess

Запретить ботам посещать ваш сайт можно тремя способами:

  1. По ip-адресу
  2. По User-Agent
  3. По маске Ip (по странам)

Вычислять нежелательных ботов по их ip-адресам, с соот-щим баном этих адресов – занятие нудное и малоэффективное: ip-адреса меняются, появляются новые и т.д. Есть гораздо лучше решение – поставить запрет по его имени (User-Agent). В таком случае неважно с какого ip он приходит. Также дополнительно можно забанить ботам вход на сайт по маске ip-адресов зарубежных стран, с которых эти боты приходят (зачастую сервера seo-сервисов, спам-ботов и прочих парсеров находятся за рубежом).

Список популярных ботов

Нежелательных роботов достаточно много, но самые популярные и соответственно самые надоедливые приведены ниже:

  1. AhrefsBot – этот робот сервиса ahrefs.com анализирует страницы сайта на наличие внешних ссылок.
  2. SemrushBot – робот аналитического сервиса ru.semrush.com по анализу сайтов.
  3. MJ12bot – поисковый робот сервиса Majestic, который собирает данные об исходящих ссылках на сайтах.
  4. Riddler – робот сервиса riddler.io
  5. aiHitBot – робот сервиса aihitdata.com
  6. trovitBot – робот сервиса trovit.com
  7. Detectify – робот сервиса detectify.com
  8. BLEXBot – робот от webmeup-crawler.com
  9. dotbot – робот сервиса www.dotnetdotcom.org
  10. FlipboardProxy – робот сервиса flipboard.com
  11. rogerBot – робот компании Moz Pro. Он обращается к коду вашего сайта, анализирует его и доставляет отчет по нему в Moz Pro.
  12. MegaIndex – робот сервиса megaindex.ru (система автоматизированного продвижения)

Запрещаем доступ по User-Agent

Добавляем в .htaccess следующий код:

Вариант 1

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} “.*AhrefsBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*SemrushBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MJ12bot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Riddler.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*aiHitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*trovitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Detectify.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*BLEXBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*dotbot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*FlipboardProxy.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*rogerBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MegaIndex\.ru/2\.0.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*LinkpadBot.*”
RewriteRule “.*” “-” [F]
</IfModule>

Вариант 2

RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} MJ12bot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} Riddler
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} aiHitBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} trovitBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} Detectify
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} BLEXBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} dotbot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} rogerBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot
RewriteRule (.*) – [F,L]

Я обычно пользуюсь первым вариантом.

Запрещаем доступ по маске ip-адресов

Значительная часть сервисов, которые грузят ваш сайт, находятся на серверах, расположенных за рубежом. Проанализировав лог файлы десятков сайтов, я выделил маски ip-адресов наиболее часто посещаемых роботов.

Для запрета ботам заходить с указанных айпи-адресов необходимо добавить следующие строки в .htaccess (комментарии можно не добавлять – это перечисление стран с соответствующими масками подсетей):

# Germany = 5.9. 46.4. 78.46. 88.198. 88.217. 144.76. 148.251. 178.203. 46.229.168
# France = 51.254. 62.210.148. 91.121. 149.202. 151.80. 164.132. 212.83.174. 163.
# USA = 69.30. 69.197.163.195 71.13.87.122 104.131.147.112 107.170. 192.187.104. 192.243.55. 207.46.13.97 148.177.168.116 104.148.44.
# Ukraine = 91.198.143. 130.0. 89.21.70. 89.21.71.
# Kazahstan = 82.200.159.

Order deny,allow
Deny from 5.9. 46.4. 51.254. 62.210.148. 69.30. 69.197.163.195 71.13.87.122 78.46. 88.198. 88.217. 91.121. 91.198.143. 104.131.147.112 107.170. 130.0. 144.76. 148.251. 149.202. 151.80. 164.132.
Deny from 178.203. 192.187.104. 192.243.55. 207.46.13.97 212.83.174. 148.177.168.116 82.200.159. 89.21.70. 89.21.71. 104.148.44. 163.

Вы можете добавлять в файл .htaccess другие айпи-адреса, с которых была замечена большая активность.

Будьте внимательны, и не запретите IP-адреса роботов поисковых систем!

Программа по анализу лог-файлов

Для отслеживания активности ботов вы можете воспользоваться моей программой – Logmaster, которая по загруженному лог-файлу с вашего сервера даст вам полную картину по айпи адресам, с которых идет нагрузка на ваш сайт.

Более подробно с действием программы можно ознакомиться тут, саму программу скачать тут.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (2 оценок, среднее: 5,00 из 5)
Загрузка...
Добавить комментарий

один × пять =

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: