Анализ файлов посещений
Анализ файлов посещений
В файлах посещений (их называют еще log-файлами) содержится набор записей с информацией о всех запросах, поступивших к Web-серверу. Обычно провайдеры предоставляют своим клиентам доступ к таким файлам, однако это не общее правило. Если файлы посещений доступны, то появляется возможность самостоятельно анализировать посещаемость и получать отчеты в любой форме, которую допускает соответствующее программное обеспечение.
Для каждого конкретного файла браузер должен сгенерировать соответствующий запрос. Информация о нем размещается в отдельных строках файла посещений. Если, например, запрашивается HTML-страница, содержащая три графических элемента, то браузер сгенерирует четыре запроса к серверу, а в log-файле появятся четыре новых строки. Некорректные запросы (например, на несуществующие документы) регистрируются тем же образом в файле регистрации ошибок.
Структура записи в log-файле может иметь, например, такой вид:
195.218.191.75 – [03/Jun/1999:13:50:56 +0400] «GET / HTTP/1.0» 200 489
Каждое поле записи отделено пробелом. Поля, имеющие сложную структуру, заключены в квадратные скобки или двойные кавычки. Если значение какого-либо поля отсутствует, то на его месте ставится дефис.
В семи полях записи указано:
• с какого адреса (хоста) пришел на сервер запрос. Хостом в данном случае называют компьютер, с адреса которого сервер получил запрос, то есть компьютер, через который пользователь непосредственно связывается с Internet;
• данные об авторизации, если на узле реализована система авторизации;
• имя, использованное при авторизации;
• время окончания обработки запроса;
• первая строка заголовка запроса (в ней указан метод запроса, адрес запрашиваемого ресурса и используемый протокол);
• код результата, полученного при обработке запроса;
• количество переданных байтов, исключая заголовок.
Серверы могут генерировать log-файлы также в комбинированном, или так называемом NCSA-формате (впервые он появился у сервера NCSA – прародителя известного Apache). В комбинированном формате в запись добавлены еще два поля:
• адрес документа, по ссылке с которого посетитель перешел к искомому ресурсу;
• идентификатор программы-клиента.
Такой формат предоставляет гораздо больше информации о запросе, чем обычный. Два указанных поля наиболее важны при анализе эффективности действий по популяризации Web-узла и при планировании его развития, которое предусматривает внедрение новых технологий и услуг.
Просмотр файлов посещений сервера позволит узнать о том, какие документы вызывают наибольший интерес. Вы можете эффективнее распределять свои усилия, работая над улучшением качества именно этих страниц. Конечно, некоторое время придется потратить и на сам анализ.
Анализ адреса источника запроса (первое поле) позволяет с некоторой долей погрешности выяснить популярность узла. Она определяется не количеством переданных файлов, а числом уникальных хостов за период времени. Можно построить три достаточно информативных зависимости:
• количество уникальных хостов за определенный период времени (сутки, неделя);
• прирост уникальных хостов за период времени;
• популярность узла по странам.
Для построения второй зависимости необходимо хранить список всех адресов, с которых кого-либо приходили запросы. Такой список может быть сформирован из log-файла.
Программы
Программа анализа серверных файлов Analog 5.32
Программа Analog 5.32 (http://www.analog.cx/) предназначена для анализа серверных log-файлов. Она работает почти со всеми операционными системами, отличается довольно высокой скоростью обработки файлов и дает разнообразную статистику. Analog не требует инсталляции; распространяется бесплатно. Разработчик – Стивен Тернер (Stephen R. E. Turner, статистическая лаборатория в Кембридже, Англия). Программа строит отчеты в формате HTML, а также позволяет сохранять результаты анализа в формате, удобном для машинной обработки. На рис. 4.2 и 4.3 показаны фрагменты статистических отчетов, сформированных в формате HTML.
Рис. 4.2. Фрагмент статистического отчета, сформированного программой Analog
Для того чтобы воспользоваться программой Analog, вы должны иметь доступ к log-файлам.
При работе с удаленным сервером существуют две возможности использования программы. Если у вас есть соответствующие права доступа, вы можете запустить ее непосредственно на сервере; если таких прав нет, загрузите log-файлы своего узла с сервера на локальный компьютер и запустите программу оттуда.
Инструкции по работе с программой незначительно варьируются в зависимости от операционной системы, для которой она предназначена и которую вы используете. Существуют варианты программы для ОС Windows (все версии) и DOS, а также для Mac, OS/2, Unix и Linux (все версии), OpenVMS, Acorn RiscOS, BeOS, Mac OS X, NeXTSTEP и пр.
Статистические отчеты можно получить в следующих разрезах:
• по времени (квартальный, по месяцам, по неделям, по дням, по дням недели, по времени суток – например, 5– или 15-минутный, – по часам недели);
• по доменам (см. рис. 4.4);
• по организациям;
• по хостам;
• о перенаправлениях;
• об ошибках хоста;
• по коду возврата;
• по операционным системам (см. рис. 4.5);
• по размерам файлов;
• по типам файлов;
• по директориям;
• по отказам;
• по запросам.Данный текст является ознакомительным фрагментом.