This page is an archived copy on Gagin.ru personal site

InterNet magazine, number 15
Сюжеты | Статистика
Сергей Барбараш

Тамагочи по-вебмастерски

Вторая статья о статистике трафика, которую мы печатаем в этом номере, описывает самый старый, точный (пока речь не заходит о подтасовке фактов) и естественный подход к этой задаче - анализ "журнала посещений" (лог-файла) самого сервера. Почтенный возраст такого способа выражается в обилии и многоцветьи программ, выжимающих из переспелых лог-плодов интеллектуальные напитки на любой вкус. Радугу рисует опытный веб-мастер Сергей БАРБАРАШ, sgt@israel.ru

За поворотом, в глубине лесного лога
Готово будущее мне верней залога.
Пастернак

Статистика знает все. Есть ложь, наглая ложь - и статистика. "Я прошу вас на минуту забыть, что вы работаете в Госкомстате, и отвечать суду только правду"... Список избитых афоризмов на тему статистики можно продолжать долго. К статистике можно относиться по-разному; равнодушным она не оставляет никого. Влияет ли на это магия чисел и малопонятных закорючек, или же все объясняется природным человеческим занудством и нездоровым любопытством - факт остается фактом: статистика волнует всех. Причем статистика абсолютно любая. Результаты опроса на тему "Как вы произносите слово FAQ?" в анкете сервера Slashdot (slashdot.org/ pollBooth.pl? qid=faq) отчего-то вызывают не меньший интерес, чем (казалось бы) куда более актуальные голосовалки на сервере "Московских новостей" (www.mn.ru).

Если у вас есть собственный веб-сайт - вы счастливый человек. Вы можете поделиться с сетевым сообществом сокровенными мыслями и картинками возбуждающего содержания. Вы можете заставить ваших посетителей прослушивать любимую вами музыку, а при определенных навыках и качествах характера - завесить им броузер и порушить систему Виндоуз. Все эти возможности хорошо известны и подробно описаны в Сети и в офлайне. Но самое главное - у вашего веб-сервера есть лог-файл! Лог-файл - это не только мощный маркетинговый инструмент для оценки эффективности веб-сайта. Не только шанс поиграть в КГБ. ( - Але, Вася? Ну как тебе моя /pics/hotgal.jpg? Как когда? 28 Mar 1999 23:27:02 MSD!) Это еще и уникальный в своем роде развлекательный ресурс. С его помощью вы сможете выяснить, кто ходит в гости по утрам. Вы убедитесь в том, что незваный гость намного лучше татарина. Наконец, вы поймете - за логами ужасно интересно просто... наблюдать! За каждой строчкой лога - человек, со своими мыслями, своими чувствами и своей версией Эксплорера.

Проведите небольшой эксперимент. Понаблюдайте за вашим логом в течение нескольких минут. Потом отвлекитесь. Погуляйте, послушайте музыку, посмотрите кино. Решительно отгоните коварное желание узнать, что произошло с вашим детищем за эти несколько часов. Займитесь уборкой по дому, сходите с друзьями на концерт, позвоните родителям в конце концов. Что, вы не можете заснуть, прежде чем не убедитесь, что лог вырос еще на несколько кило- (мега-, гига-, тера-) байт? Вам непременно нужно выяснить, не добавилась ли еще пара посетителей из Южной Африки? Вас гложет неутоленное желание узнать, кто еще поставил ссылку на ваш сайт? Поздравляю вас - вы влипли. Окончательно и навсегда. Лог стал организмом, зависящим исключительно от вашего внимания. Повесьте пару баннеров, обновите информацию на сервере - и лог расцветет, начнет набирать обороты. Забудьте о нем на пару дней - и он начнет чахнуть и вянуть на глазах. У вас же не каменное сердце! И вы не сможете этого допустить. Вероятно, именно на этой малопонятной особенности человеческого характера сыграли японские изобретатели электронных домашних питомцев. Но что такое аляповатые пищащие брелки по сравнению с файлом, каждый байт которого дышит жизнью, настоящей жизнью. Это ли не пресловутый real life?!

Итак, что же представляет собой лог-файл и как им управлять? Лог - это своего рода бортжурнал веб-сервера; файл, в котором ведутся записи о посетителях. Каждая строчка лога несет в себе информацию о запросе со стороны пользовательской бродилки. Формат лог-записей стандартен для большинства веб-серверов. Рассмотрим примерную запись в лог-файле:

195.46.160.47 - [30/Dec/1998:17:18:45 +0300]
GET /info/index.html HTTP/1.0 200 1465
http://www.gagin.ru/internet/ Mozilla/4.04 [en] (Win95; I)

Первое поле в строке - это адрес посетителя. Здесь может стоять как IP-адрес (как в данном примере), так и название хоста (типа inter.net.ru). Следующие два поля отсутствуют (это информация о пользователе в режиме аутентификации [sic!]), впрочем, они используются очень редко. Далее следуют - дата, собственно текст запроса, код ошибки протокола HTTP (в нашем примере - 200 - ошибки нет, а что такое 404, знает каждый ребенок), количество пересланных байтов, реферер (сайт, по ссылке с которого попали на вашу страницу) и идентификатор бродилки. NB: последние два поля (реферер и бродилка) по умолчанию отсутствуют, а зря - их статистическую ценность трудно переоценить.

Стоп. Внимательный и искушенный в вопросах статистики читатель уже несомненно оценил всю глубину статистических исследований, которые возможно провести, даже имея такой весьма скудный набор параметров. Но обо всем по порядку. На благодатной почве всеобщей привязанности к цифрам и графикам выросло и растет огромное количество программок, программ и программных пакетов, облегчающих преобразование емких, но сухих строк лог-файла в понятные и радующие глаз статистические отчеты. Спектр подобных продуктов весьма широк - от наборов бесплатных скриптов на Перле до монстров-паноптикумов под Windows, стоящих до нескольких тысяч долларов. Мы разберем самые, на наш взгляд, удачные и интересные из них.

Прежде всего хотелось бы определиться, какие именно навороты хотелось бы видеть пользователю в подобных программах. Стандартный набор возможностей, присутствующий во всех без исключения продуктах - это простые статистические выкладки, основанные на элементарном подсчитывании количества нужных записей. Например: количество хитов в день; распределение встречающихся моделей бродилок; сайтов, наиболее часто ссылающихся на наш сервер; географическое распределение посетителей сайта.

Следующая, более продвинутая категория - статистика по отдельным сессиям. Сессия - это совокупность действий отдельного пользователя за время его пребывания на сайте. В этой категории возможны отчеты об отдельных посетителях - кто какие страницы смотрит, сколько времени человек проводит на сервере в среднем, каковы наиболее частые маршруты по сайту, какие страницы наиболее часто становятся входными (первыми в маршруте), а какие - выходными (последними), и т.д. К сожалению, возможность выдавать отчеты по сессиям отсутствует во всех просмотренных нами бесплатных программах.

Наконец, существует категория чисто маркетинговых отчетов - таких, как подсчет показанных и нажатых баннеров, определение слов, по которым ваш сервер находят в поисковых системах, отлов посетивших вас spider-роботов (систем сбора информации) - все данные для эффективной раскрутки сайта.

Самым, пожалуй, известным программным продуктом категории лог-анализаторов является пакет WebTrends, произведение одноименной фирмы - Каин и Манфред обширного семейства лог-обработчиков. В этой программе реализовано огромное количество возможностей, многие из которых способны значительно облегчить жизнь практикующего вебмастера. Облегчить ему жизнь не сможет лишь цена сего достойного продукта. Она колеблется от четырехсот до шести тысяч долларов (в зависимости от приобретаемого пакета программ, коих у них довольно немало). Его полноценная версия доступна для выкачивания из Сети - но, натурально, использование этой версии ограничено двумя неделями. WebTrends предоставляет все удобства, какие только может пожелать пользователь Windows: генерация отчетов в нескольких файловых форматах (включая HTML, Word и Excel), выдача более семидесяти различных графиков и таблиц, работа с удаленными и автоматически обновляющимися логами - далеко не полный список всех возможностей этой программы. Понятное дело, WebTrends нацелен в первую очередь на корпоративного заказчика, соответствуя ему и масштабом услуг, и (увы) ценой. Тем не менее не стоит пренебрегать двухнедельной возможностью насладиться этой мечтой статистикомана.

Из более дешевых, но все еще коммерческих пакетов стоит выделить NetIntellect (фирма WebManage, www.net intellect.com, 200 долларов). Создаваемые с ее помощью отчеты изобилуют массой цифр и графиков, поданных грамотно и удобно (см. скриншот). Раздолье для истинных ценителей точных данных. Результаты обработки логов можно просмотреть не только в виде HTML, Word или Access, но и в собственном, чрезвычайно удобном интерфейсе самой программы. Графики, прокручивающиеся в любом направлении, составление запросов собственного сочинения, возможность сравнения таблиц и результатов... Не жизнь - малина.

Программа FunnelWeb (фирма Active Concepts, www.active concepts.com/ fweb.html, 250 долларов) ориентируется скорей на любителей кидать понты - результатом ее работы являются не очень удобные для сравнения, но исполненные в приятном и не совсем обычном стиле графики - и даже раскрашенная карта мира, символизирующая географический разброс гостей веб-сайта. Для практического же применения этот продукт, на мой взгляд, не особо пригоден. Для того чтобы оправдать свое соседство с конкурентами в ценовой категории, FunnelWeb не хватает малого - быть хоть в чем-то немного лучше других. А этого, увы, не видно - не покидает ощущение сероватости. Цитируя любимый фильм - "все то же самое, но без фантазий".

Для большинства вебмастеров, собирающихся исследовать логи в течение длительного времени, но не имеющих возможности выложить за это удовольствие пару сотен грин, рекомендуется программа OpenWebScope (www.open webscope.com), распостраняющаяся на условно-бесплатных правах (shareware). Внешний вид составляемых ею отчетов не очень впечатляет (можно надеяться, что это не окончательный вариант дизайна - продукт еще не достиг статуса релиза). Зато налицо удобство интерфейса, динамическая подгрузка логов по FTP и большой диапазон настроек. Удобство работы с удаленным сервером достойно всяческих похвал - реализованы все ключевые возможности WebTrends, при абсолютном выигрыше с финансовой стороны. Остается надеется, что достигнув скорого релиза, программа станет только лучше, не поступившись святыми идеалами shareware.

Для тех же, кого не испугаешь командной строкой и отсутствием графического интерфейса, существует немало программ (в подавляющем большинстве - бесплатных!), облегчающих общение с вашим электронным другом и на ОС Юникс. Так как большинство веб-серверов базируются именно на Юниксе, освоив одну из таких программ, вы сможете автоматически добавить регулярно обновляющиеся статистические отчеты в качестве части своего сайта. Ассортимент продуктов под эту недружественную, но мощную ОС также чрезвычайно широк. Наибольшей популярностью пользуются программы analog (analog.gsp.com) и http-analyze (www.netstore.de/ Supply/ http-analyze/). Первая известна своим исключительным быстродействием и спартанской непритязательностью дизайна. Отчеты же, генерируемые http-analyze, вполне могут посоперничать с продукцией многих коммерческих программ. Но самой яркой особенностью этой программы является представление графиков в формате VRML. Отныне вы сможете наблюдать рост посещений сайта под любым углом. Лучший вид на этот график - если сесть в бомбардировщик (см. картинку). Трудно найти практическое применение этой впечатляющей возможности, зато выглядит шикарно. Чистая эстетика для истинных любителей статистики. На память приходит герой Дугласа Адамса (www.dirk. clara.net), программист, написавший программу для составления финансовых отчетов. Отчеты генерировались в виде небольших музыкальных произведений - для кого мажорный вальс, а для кого и марш траурный.

В завершение предложим домашний рецепт изготовления собственного лог-обработчика. Если вы обладаете некоторыми навыками программирования и знакомы со скриптовыми языками типа Perl и Visual Basic - для вас нет никаких проблем: принцип подсчета веб-статистики чрезвычайно незамысловат, и вы без труда сможете за короткое время сочинить удобный вам лично инструмент (скорей всего вы уже так и сделали). В противном случае - купите книжку по MS Excel, и с помощью этой, прямо скажем, приятной и полезной программы вы после небольших усилий сможете строить собственные графики и таблицы. Лог-файл импортируется в Excel "на ура" - в качестве разделителя записей используйте пробел, избавьтесь от ненужных хвостиков типа смещения по GMT - и ваш лог уже в таблице, полностью готовый к составлению графиков и отчетов. Дерзайте! И - пожалуйста, заходите на логи.


В оглавление номера This page is an archived copy on Gagin.ru personal site