- Описание программы
- Функционал
- Алгоритм
- Работа с программой
- Загружаем лог-файл
- Копируем информацию по ip-адресу
- Фильтруем загруженный log-файл по ip либо url-у
- Определяем ip-адреса, с которых идут основные запросы на сайт
- Настройки
- Настройка информации по ip-адресам
- Настройка выгрузки данных
- Отчеты
- Отчеты – Log-файл
- Отчеты – Результат
- Отчеты – График (ботов)
- Скачать программу Logmaster
Обновлено: 23 декабря, 2021
Иногда очень полезно понимать с каких ip-адресов идут обращения на ваш сайт. И видеть это не в разрезе списка непонятной информации с лог файла, а структурированно по кол-ву обращений с каждого адреса, информацией ко конкретным айпишникам, просмотра динамики посещения вашего сайта с отдельных либо групп ip-адресов, с возможностью сортировок и т.д. Все это позволяет сделать программа Logmaster, изначальная цель которой была вычислить зловредных ботов, которые нагружали один из моих сайтов. Но программа оказалась полезной и я решил расширить ее функционал, и она стала полноценным анализатором лог-файла.
Ввиду того, что программа изначально была заточена под решение одной задачи, юзабилити и прочим моментам я уделил минимум внимание.
Описание программы
Функционал
Программа предназначена для анализа лог файлов: считает и выводит кол-во ботов поисковых систем, группирует данные по ip, позволяет выводить данные из лог-файла по различным фильтрам (по ip, по url-у и т.д.).
Лог-файл – (от английского log – файл регистрации, протокол, журнал или лог) — файл, который содержит системную информацию о том, что делает пользователь в хронологическом порядке:
• дата и время визита пользователя;
• IP-адрес компьютера пользователя;
• наименование браузера пользователя;
• URL страницы, которую запросил пользователь;
• реферер пользователя.
Алгоритм
Работа программы построена на следующем алгоритме:
- Вы загружаете лог-файл в программу.
- Программа каждую строку лог-файла разбивает на поля с соответствующими значениями: ip-адрес, дата и время посещения сайта, формат запроса (Get/Post), url страницы обращения, дополнительная информация (user-agent и прочее). На основе это информации формируется первый список.
- Айпи адреса группируются, подсчитывается их кол-во, и из ранее составленного списка известных айпи-адресов и масок подсетей формируется информация по каждому ip во втором списке.
- При выгрузке результатов в html-файл либо xsl-файл – те айпи адреса, которые в настройках ip-адресов отмечены как боты – подсвечиваются определенным цветом.
- По этим же исходным данным ботов формируется и графики посещения сайта с выбранных групп айпи адресов (например, можно на графике посмотреть динамику посещения вашего сайта ботами всех поисковых систем).
Более подробно о том как с этими данными работать – ниже.
Работа с программой
Загружаем лог-файл
В верхнем меню выбираем Log файл->Загрузить
Если лог-файл большого размера, загружаться он может достаточно долго. В этом случае рекомендую разбить файл на несколько частей.
Либо прервать загрузку файла с помощью пункта верхнего меню Log файл->Стоп
После загрузки файла сформируются два списка – в левом списке загруженный лог файл построчно (в каждом столбце соот-щая информация по ip-адресу), в правом списке – сгруппированные ip-адреса, с подсчетом их количества.
В левом списке – ip-адреса отображаются в таком же порядке как в загруженном лог-файле (то есть с сортировка по времени), а в правом – сгруппированный список ip-адресов отображается с сортировкой по количеству (сколько раз соответствующий ip-адрес встречался в лог-файле).
Копируем информацию по ip-адресу
Снизу, под левым список расположены два поля, которые служат для отображения ip-адреса и урла выбранной записи (чтобы можно было скопировать соответствующие значения в буфер обмена).
Фильтруем загруженный log-файл по ip либо url-у
Под верхним меню есть два поля – отображать по Ip, и отображать по URL. Эти поля служат для фильтрации отображения результатов в левом списке, то есть в случаях когда вы хотите увидеть информацию по определенному ip-адресу, либо по URL-у страницы, на который шел входящий трафик. Для подобной фильтрации необходимо занести значение в соответствующее поле, и нажать на клавишу Enter.
Пример фильтрации по определенном урлу:
Чтобы вернуть предыдущий полный список входящих ip-адресов, не загружая лог-файл заново, в верхнем меню необходимо выбрать пункт Log файл->Все
Определяем ip-адреса, с которых идут основные запросы на сайт
В правом списке – записи из log-файла сгруппированы по ip-адресам, и отсортированы по количеству – сколько раз соответствующие ip-адреса встречались в лог-файле (от максимума к минимуму). В 3-ем столбце этого списка “%” – это процент соответствующего айпи-адреса от общего кол-ва загруженных айпи-адресов, в 4-ом – страна этого ip-адреса, в 5-ом – информация по айпи (например бот).
С помощью правого списка можно увидеть с каких ip-адресов идет основной трафик на сайт, и, в случае необходимости принять соответствующие меры. Например – запретить нежелательным ботам посещать ваш сайт.
Информация по ip-адресам (4-ый и 5-ый столбец правого списка), берется из файла настроек, о котором расскажу ниже.
Настройки
Настройка информации по ip-адресам
Анализируя айпи-адреса из лог-файлов десятков сайтов, я составил основной список наиболее посещаемых роботов поисковых систем, спам-ботов и т.д. Все они отображены в форме “Настройки IP” (пункт меню Настройки->Ip адреса)
Естественно, здесь представлен список не всех роботов, и вы можете пополнять базу новыми ботами и информацией по ним.
Для того чтобы не заполнять эту базу отдельными ip-адресами, в базе собраны маски подсетей известных роботов.
Настройки простые – три поля: сам ip-адрес либо маска подсети, информация по нему и страна с которой этот робот заходит.
При добавление новых айпи-адресов – любое из полей можно оставлять пустым, кроме естественно поля самого айпи-адреса.
Настройка выгрузки данных
На форму настройки выгрузки информации можно перейти через пункт верхнего меню Настройки->Выгрузки
Здесь две настройки – каким цветом подсвечивать ботов в выгрузках (файлах .html и .xsl) и формат выгрузки .xls-файла.
Отчеты
Верхний пункт меню “Отчеты” разделен на 3 пункта:
- Log-файл – выгружается левый список в файлы формата .html либо .xls с подсветкой ботов
- Результат – выгружается левый список в файлы формата .html либо .xls с подсветкой ботов
- График – формируется форма с графиком, отображающим динамику обращения выбранных ip-адресов или групп ip-адресов (по умолчанию – ботов).
Процедуру формирования вы можете прервать тем же способом, что и при загрузке лог-файла (через пункт верхнего меню Log файл->Стоп)
Файлы с отчетами сохраняются в папке, где расположена программа.
Отчеты – Log-файл
При выборе этого пункта меню левый список выгружается соответственно в .html либо .xls файл. При этом айпи-адреса, которые в настройках айпи-адресов отмечены как боты – выделяются цветом.
Пример выгрузки лог файла в формате .html
Пример выгрузки лог файла в формате .xls
Отчеты – Результат
При выборе этого пункта меню уже правый список выгружается соответственно в .html либо .xls файл. При этом также как и в предыдущем случае, айпи-адреса, которые в настройках айпи-адресов отмечены как боты – выделяются цветом.
Пример выгрузки результата в формате .html
Отчеты – График (ботов)
При выборе этого пункта меню создается форма с графиком динамики посещения указанными ip-адресами либо их группами за весь период.
График посещаемости сайта по группам Ip-адресов
Здесь же в форме можно с помощью полей, находящихся под графиком, задать нужные параметры группировки ip-адресов: по стране либо по полю “информация по Ip” (все эти данные берутся из настроек IP-адресов). Вот например график посещаемости сайтам яндекс ботами:
Скачать программу Logmaster
Скачать архив программы можно по ссылке.