Анализ файлов посещений

Анализ файлов посещений

В файлах посещений (их называют еще log-файлами) содержится набор записей с информацией о всех запросах, поступивших к Web-серверу. Обычно провайдеры предоставляют своим клиентам доступ к таким файлам, однако это не общее правило. Если файлы посещений доступны, то появляется возможность самостоятельно анализировать посещаемость и получать отчеты в любой форме, которую допускает соответствующее программное обеспечение.

Для каждого конкретного файла браузер должен сгенерировать соответствующий запрос. Информация о нем размещается в отдельных строках файла посещений. Если, например, запрашивается HTML-страница, содержащая три графических элемента, то браузер сгенерирует четыре запроса к серверу, а в log-файле появятся четыре новых строки. Некорректные запросы (например, на несуществующие документы) регистрируются тем же образом в файле регистрации ошибок.

Структура записи в log-файле может иметь, например, такой вид:

195.218.191.75 – [03/Jun/1999:13:50:56 +0400] «GET / HTTP/1.0» 200 489

Каждое поле записи отделено пробелом. Поля, имеющие сложную структуру, заключены в квадратные скобки или двойные кавычки. Если значение какого-либо поля отсутствует, то на его месте ставится дефис.

В семи полях записи указано:

• с какого адреса (хоста) пришел на сервер запрос. Хостом в данном случае называют компьютер, с адреса которого сервер получил запрос, то есть компьютер, через который пользователь непосредственно связывается с Internet;

• данные об авторизации, если на узле реализована система авторизации;

• имя, использованное при авторизации;

• время окончания обработки запроса;

• первая строка заголовка запроса (в ней указан метод запроса, адрес запрашиваемого ресурса и используемый протокол);

• код результата, полученного при обработке запроса;

• количество переданных байтов, исключая заголовок.

Серверы могут генерировать log-файлы также в комбинированном, или так называемом NCSA-формате (впервые он появился у сервера NCSA – прародителя известного Apache). В комбинированном формате в запись добавлены еще два поля:

• адрес документа, по ссылке с которого посетитель перешел к искомому ресурсу;

• идентификатор программы-клиента.

Такой формат предоставляет гораздо больше информации о запросе, чем обычный. Два указанных поля наиболее важны при анализе эффективности действий по популяризации Web-узла и при планировании его развития, которое предусматривает внедрение новых технологий и услуг.

Просмотр файлов посещений сервера позволит узнать о том, какие документы вызывают наибольший интерес. Вы можете эффективнее распределять свои усилия, работая над улучшением качества именно этих страниц. Конечно, некоторое время придется потратить и на сам анализ.

Анализ адреса источника запроса (первое поле) позволяет с некоторой долей погрешности выяснить популярность узла. Она определяется не количеством переданных файлов, а числом уникальных хостов за период времени. Можно построить три достаточно информативных зависимости:

• количество уникальных хостов за определенный период времени (сутки, неделя);

• прирост уникальных хостов за период времени;

• популярность узла по странам.

Для построения второй зависимости необходимо хранить список всех адресов, с которых кого-либо приходили запросы. Такой список может быть сформирован из log-файла.

Программы

Программа анализа серверных файлов Analog 5.32

Программа Analog 5.32 (http://www.analog.cx/) предназначена для анализа серверных log-файлов. Она работает почти со всеми операционными системами, отличается довольно высокой скоростью обработки файлов и дает разнообразную статистику. Analog не требует инсталляции; распространяется бесплатно. Разработчик – Стивен Тернер (Stephen R. E. Turner, статистическая лаборатория в Кембридже, Англия). Программа строит отчеты в формате HTML, а также позволяет сохранять результаты анализа в формате, удобном для машинной обработки. На рис. 4.2 и 4.3 показаны фрагменты статистических отчетов, сформированных в формате HTML.

Рис. 4.2. Фрагмент статистического отчета, сформированного программой Analog

Рис. 4.3. Еще один фрагмент статистического отчета

Для того чтобы воспользоваться программой Analog, вы должны иметь доступ к log-файлам.

При работе с удаленным сервером существуют две возможности использования программы. Если у вас есть соответствующие права доступа, вы можете запустить ее непосредственно на сервере; если таких прав нет, загрузите log-файлы своего узла с сервера на локальный компьютер и запустите программу оттуда.

Инструкции по работе с программой незначительно варьируются в зависимости от операционной системы, для которой она предназначена и которую вы используете. Существуют варианты программы для ОС Windows (все версии) и DOS, а также для Mac, OS/2, Unix и Linux (все версии), OpenVMS, Acorn RiscOS, BeOS, Mac OS X, NeXTSTEP и пр.

Статистические отчеты можно получить в следующих разрезах:

• по времени (квартальный, по месяцам, по неделям, по дням, по дням недели, по времени суток – например, 5– или 15-минутный, – по часам недели);

• по доменам (см. рис. 4.4);

Рис. 4.4. Отчет по доменам

• по организациям;

• по хостам;

• о перенаправлениях;

• об ошибках хоста;

• по коду возврата;

• по операционным системам (см. рис. 4.5);

Рис. 4.5. Отчет по операционным системам

• по размерам файлов;

• по типам файлов;

• по директориям;

• по отказам;

• по запросам.

Данный текст является ознакомительным фрагментом.