Запрещаем в .htaccess ботам посещать сайт

Обновлено: 23 декабря, 2021

Скорость загрузки сайта – один из важных параметров, влияющих на поведенческие факторы сайта. А они, как известно, в значительной степени влияют на ранжирование сайта в поисковых системах. В свою очередь на скорость загрузки сайта, помимо параметров сервера где расположен сайт, влияет нагрузка на сайт со стороны роботов различных сервисов и спам-ботов. Поэтому, очень полезно запретить нежелательным “посетителям” заходить на ваш сайт.

Запретив основной массе нежелательных роботов (ботов) посещать ваш сайт, вы можете значительно снизить нагрузку на сайт.

Ограничить доступ ботам, парсерам и прочему спаму посещать ваш сайт можно с помощью правил файла .htaccess (рекомендации в robots.txt как показала практика зачастую игнорируется). О том как это сделать – ниже.

Запрещаем доступ ботам через .htaccess

Запретить ботам посещать ваш сайт можно тремя способами:

  1. По ip-адресу
  2. По User-Agent
  3. По маске Ip (по странам)

Вычислять нежелательных ботов по их ip-адресам, с соот-щим баном этих адресов – занятие нудное и малоэффективное: ip-адреса меняются, появляются новые и т.д. Есть гораздо лучше решение – поставить запрет по его имени (User-Agent). В таком случае неважно с какого ip он приходит. Также дополнительно можно забанить ботам вход на сайт по маске ip-адресов зарубежных стран, с которых эти боты приходят (зачастую сервера seo-сервисов, спам-ботов и прочих парсеров находятся за рубежом).

Список популярных ботов

Нежелательных роботов достаточно много, но самые популярные и соответственно самые надоедливые приведены ниже:

  1. AhrefsBot – этот робот сервиса ahrefs.com анализирует страницы сайта на наличие внешних ссылок.
  2. SemrushBot – робот аналитического сервиса ru.semrush.com по анализу сайтов.
  3. MJ12bot – поисковый робот сервиса Majestic, который собирает данные об исходящих ссылках на сайтах.
  4. Riddler – робот сервиса riddler.io
  5. aiHitBot – робот сервиса aihitdata.com
  6. trovitBot – робот сервиса trovit.com
  7. Detectify – робот сервиса detectify.com
  8. BLEXBot – робот от webmeup-crawler.com
  9. dotbot – робот сервиса www.dotnetdotcom.org
  10. FlipboardProxy – робот сервиса flipboard.com
  11. rogerBot – робот компании Moz Pro. Он обращается к коду вашего сайта, анализирует его и доставляет отчет по нему в Moz Pro.
  12. MegaIndex – робот сервиса megaindex.ru (система автоматизированного продвижения)

Запрещаем доступ по User-Agent

Добавляем в .htaccess следующий код:

Вариант 1

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} “.*AhrefsBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*SemrushBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MJ12bot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Riddler.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*aiHitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*trovitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Detectify.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*BLEXBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*dotbot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*FlipboardProxy.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*rogerBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MegaIndex\.ru/2\.0.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*LinkpadBot.*”
RewriteRule “.*” “-” [F]
</IfModule>

Вариант 2

RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} MJ12bot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} Riddler
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} aiHitBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} trovitBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} Detectify
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} BLEXBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} dotbot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} rogerBot
RewriteRule (.*) – [F,L]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot
RewriteRule (.*) – [F,L]

Я обычно пользуюсь первым вариантом.

Запрещаем доступ по маске ip-адресов

Значительная часть сервисов, которые грузят ваш сайт, находятся на серверах, расположенных за рубежом. Проанализировав лог файлы десятков сайтов, я выделил маски ip-адресов наиболее часто посещаемых роботов.

Для запрета ботам заходить с указанных айпи-адресов необходимо добавить следующие строки в .htaccess:


Order deny,allow
Deny from 5.9. 46.4.

Вы можете добавлять в файл .htaccess другие айпи-адреса, с которых была замечена большая активность.

Будьте внимательны, и не запретите IP-адреса роботов поисковых систем!

Пример файла .htaccess

Пример файла .htaccess, запрещающий ботам других стран (Германии, Франции, США, Украины, Казахстана) и самых популярных сервисов-парсеров посещать сайт (в комментариях ip соответствтующих стран):

RewriteEngine On
RewriteBase /

# Germany = 5.9. 46.4. 78.46. 88.198. 88.217. 144.76. 148.251. 178.203. 46.229.168 94.130.18.35 173.212.233.
# France = 51.254. 62.210.148. 91.121. 149.202. 151.80. 164.132. 212.83.174. 163. 188.165.233. 188.165.234.
# USA = 69.30. 69.197.163.195 71.13.87.122 104.131.147.112 107.170. 192.187.104. 192.243.55. 207.46.13.97 148.177.168.116 104.148.44. 169.229.3.91
# USA = 54.165. 34.192. 216.244.64.-216.244.95. 199.47.80.-199.47.87 104.148.44.34 104.148.71.26 104.148.38. 198.89.125.126 23.237.4.26
# Ukraine = 91.198.143. 130.0. 89.21.70. 89.21.71. 178.137.128. 193.106.28. 193.106.29. 193.106.30. 193.106.31. 91.200.80.2
# Kazahstan = 82.200.159.
# Ireland = 185.234.217.
# Poland = 80.211.246. 91.196.48.-91.196.51. 185.25.148. 185.25.151.
# Canada = 167.114.181.145 192.175.111.237
# Thailand = 118.174.41.

Order deny,allow
Deny from 5.9. 46.4. 51.254. 62.210.148. 69.30. 69.197.163.195 71.13.87.122 78.46. 88.198. 88.217. 91.121. 91.198.143. 104.131.147.112 107.170. 130.0. 144.76. 148.251. 149.202. 151.80. 164.132. 173.212.233.
Deny from 178.203. 192.187.104. 192.243.55. 207.46.13.97 212.83.174. 148.177.168.116 82.200.159. 89.21.70. 89.21.71. 104.148.44. 163. 54.165. 34.192. 216.244.64. 188.165.233. 188.165.234. 178.137.128. 104.148.44.34
Deny from 185.234.217. 193.106.28. 193.106.29. 193.106.30. 193.106.31. 94.130.18.35 199.47.80. 199.47.81. 199.47.82. 199.47.83. 199.47.84. 199.47.85. 199.47.86. 199.47.87. 167.114.181.145 192.175.111.237
Deny from 216.244.64. 216.244.65. 216.244.66. 216.244.67. 216.244.68. 216.244.69. 216.244.70. 216.244.71. 216.244.72. 216.244.73. 216.244.74. 216.244.75. 216.244.76. 216.244.77. 216.244.78. 216.244.79. 104.148.71.26 80.211.246.
Deny from 216.244.80. 216.244.81. 216.244.82. 216.244.83. 216.244.84. 216.244.85. 216.244.86. 216.244.87. 216.244.88. 216.244.89. 216.244.90. 216.244.91. 216.244.92. 216.244.93. 216.244.94. 216.244.95.
Deny from 91.196.48. 91.196.49. 91.196.50. 91.196.51. 169.229.3.91 185.25.148. 185.25.149. 185.25.150. 185.25.151. 91.200.80.2

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} “.*AhrefsBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*SemrushBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MJ12bot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Riddler.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*aiHitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*trovitBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Detectify.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*BLEXBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*dotbot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*FlipboardProxy.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*rogerBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*MegaIndex\.ru/2\.0.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*LinkpadBot.*”
RewriteRule “.*” “-” [F]

Скачать пример готового файла htaccess можно ЗДЕСЬ.

Следует отметить, что при закрытии ip-адресов в .htaccess как показано в примере, некоторые сервисы могут перестать работать. Например, сервис ping-admin, который при запрете вышеуказанных ip перестает работать, даже если выбрать точку мониторинга РФ. Для того чтобы он заработал, необходимо убрать из запрета маску 80.211.246. (Польша).

Программа по анализу лог-файлов

Для отслеживания активности ботов вы можете воспользоваться моей программой – Logmaster, которая по загруженному лог-файлу с вашего сервера даст вам полную картину по айпи адресам, с которых идет нагрузка на ваш сайт.

Более подробно с действием программы можно ознакомиться тут, саму программу скачать тут.

Рейтинг автора
Автор статьи
Юрий
SEO-аналитик, программист (PHP, Ajax, Delphi, MySQL).
Написано статей
268
3 оценки, среднее: 5,00 из 53 оценки, среднее: 5,00 из 53 оценки, среднее: 5,00 из 53 оценки, среднее: 5,00 из 53 оценки, среднее: 5,00 из 5 (3 оценок, среднее: 5,00 из 5)
Для того чтобы оценить запись, вы должны быть зарегистрированным пользователем сайта.
Загрузка...
Понравилась статья? Поделиться с друзьями:
Блог Программиста
Добавить комментарий

20 − восемь =