Об авторе

Поиск по сайту:

GUI.ruЧеловек и компьютер

Война миров: Как примирить их?

Иван Дегтяренко
14.08.2006Иван Дегтяренко

Комментариев:

6

Кто здесь? Основы анализа серверных журналов

Чтобы на деле, а не на словах реализовывать идеалы человеко-ориентированного проектирования, нам нужно знать наших пользователей. Всесторонний анализ деятельности пользователей требует проведения множества трудоемких и длительных методик. Они подробно описываются, например, в книге Understanding Your Users авторов C. Courage и K. Baxter. Однако ресурсы разработки чаще всего не позволяют провести полный цикл исследовательских работ, и, к тому же, у нас может не быть прямого доступа к пользователям.

Однако среди используемых методик есть и «дешевые» варианты. Исследование — это подготовка площадки, на которой возводится фундамент будущего интерфейса. Краткое исследование — это еще не надежный глубокий котлован, но уже и не ухабистый пустырь. В случае с веб-сайтами хорошая методика, которая послужит вам бульдозером — это анализ серверных журналов (лог-файлов).

Серверный журнал — это текстовый файл, создаваемый серверным ПО и содержащий информацию обо всех запросах к серверу. Чаще всего используется журнал в формате Apache Combined Log Format. Он содержит следующую информацию:

  • IP-адрес посетителя;
  • дата и время запроса;
  • текст запроса (в том числе, URL запрашиваемого посетителем файла);
  • referer — страница, по ссылке с которой пришел посетитель;
  • название браузера посетителя;
  • имя пользователя (если посетитель вошел, используя HTTP-аутентификацию);
  • код ответа сервера;
  • размер запрашиваемого посетителем файла.

Также в лог-файл могут быть включены коды cookie-файлов, полученных посетителями. Это позволяет существенно повысить точность выделения отдельных посетителей.

Зачем это нужно? Анализ серверных журналов является также и хорошей отправной точкой для более глубокого анализа. Изучив активность посетителей на сайте, мы можем выделить основные сценарии работы с сайтом, типичные варианты начала сессии, наиболее популярное и неожиданно непопулярное содержание, определить «тонкие места», где посетители «теряют нить» какого-либо процесса. Также лог-файлы могут дать информацию об использовании скриптов и статистике переходов по баннерам. Наконец, анализ лог-файлов позволяет составить географический и технический профиль ваших посетителей.

Сессия — ряд запросов от одного посетителя, интервал между каждыми двумя последовательными запросами не превышает некоторой заданной величины (обычно 30 минут)

Условия проведения анализа. Важнейшим условием применимости метода является, собственно, наличие предмета анализа. Это значит, что у вас, во-первых, уже должен быть некий сайт, который вы собираетесь улучшать/перерабатывать/содержать, и, во-вторых, должны быть лог-файлы. Для анализа обычно достаточно данных за последние несколько недель. Если ваш сайт достаточно популярен и его посещаемость стабильна, достаточно будет данных за две — три недели. Слишком большой файл потребует больших затрат машинного времени. Правда, если в вашем бизнесе играют большую роль сезонные колебания, и вы готовы ждать, имеет смысл провести анализ за длительный срок.

Перед проведением анализа очень важно собрать информацию о структуре сайта. Если вы работаете над сайтом собственной компании, спрашивайте у того, кто занимался архитектурой сайта. Если вы работаете для внешнего заказчика, «трясите» заказчика. Иначе это приведет к длительным разбирательствам методом проб и ошибок, связанным с параметрами какого-нибудь важного скрипта или различными непонятными «мусорными» запросами. Это, в свою очередь, приводит к огромным лишним тратам времени и ваших нейронов.

Технически анализ лог-файлов реализуется при помощи специальных программ, которые представляют данные, содержащиеся в лог-файлах, в удобном для человека виде. В качестве примера таких программ можно привести популярные WebTrends и Sawmill. Для внутренних нужд компании, возможно, более удобным будет применение какого-либо из он-лайновых решений веб-аналитики (так называют направление, связанное с совокупностью средств анализа посещаемости веб-сайтов).

Процесс. Сам анализ представляет собой итеративный (куда ж без этого :) ) гипотетико-дедуктивный процесс, в котором при первоначальном анализе в основном выдвигаются гипотезы, которые затем подвергаются более тщательному рассмотрению. Содержание первого этапа во многом определяется структурой интерфейса программы. Обычно после общего обзора различной статистики рождаются различные гипотезы насчет важных сценариев использования и возможных проблем на сайте.

Часто статистику приходится пересчитывать, чтобы посмотреть на нее с разных ракурсов. Среди страниц сайта часто можно выделить группы страниц, например, новостные. Для вас может быть интересным рассмотреть как статистику, касающуюся отдельных статей, так и статистику, касающуюся групп статей или всех статей в целом. Так, при рассмотрении переходов с заглавной страницы часто важен факт, что определенный процент людей читают новости (не важно, какие именно). Иногда же нам важно выяснить, насколько сильно привлекает посетителей некоторая конкретная новость (например, о начале действия некого выгодного предложения).

Проводя анализ, очень важно сравнивать получаемые данные с бизнес-ожиданиями владельцев сайта. В каком именно месте сайта пользователи редко кликают на ссылки вопреки вашим ожиданиям? В каком месте пользователи «выпадают» из запланированной владельцами сайта цепочки переходов между страницам? На каких страницах посетители слишком часто покидают сайт? А может, большинство и должны покидать сайт на этой странице, удовлетворившись результатом работы? Куда тогда переходят те, кто не ушел? Может, они перешли туда, потому что не получили то, что искали? Такие вопросы стоит задать себе в ходе предварительного этапа (эти вопросы определяются целями анализа). Возможно, их стоит записать. Затем остается «всего лишь» найти ответы на них. Удачного анализа!

Товарищи ученые… Также интересно отметить, что в последнее время многие авторы, пишущие на тему взаимодействия человека с компьютером и проектирования интерфейсов, в том числе, такие известные, как Ed Chi разрабатывают сложные методики анализа и визуализации данных лог-файлов. Например, в статье Heer и Chi «Separating the Swarm: Categorization Methods for User Sessions on the Web» {PDF, 452Kb} описывается математическая методика кластеризации сессий в зависимости от содержимого просматриваемых пользователем страниц, времени просмотра каждой из страниц, места этих страниц в структуре сайта. Авторы показали эффективность данной методики как в экспериментальном исследовании, так и в собственном case study. К сожалению, коммерческие продукты, позволяющие проводить анализ подобного рода, в данный момент отсутствуют.

Комментарии (6)

RSS feed for comments on this post | TrackBack URI

Dem20.02.2008 23:37
1

Очень познавательная статья. У меня вопрос к автору: Есть ли в природе технологии кластеризации сессий на основе анализа текстов запросов - и что можно почитать.

Иван Дегтяренко21.02.2008 22:51
2

Спасибо за интерес!
Думаю, совместить технологии кластерного анализа и контент-анализа в принципе возможно, хотя конкретные примеры исследований мне неизвестны. Для этого при помощи контент-анализа нужно выделить определенные количественные или классифицирующие характеристики текста. Об этом можно почитать в любом руководстве по контент-анализу. Затем эти характеристики мы используем в кластер анализе, здесь скорее всего подойдет two step claster analysis (подобная фича есть в SPSS).
Другое дело, что из поисковых запросов не очень много показателей можно вытянуть. По крайней мере, только этих показателей будет явно недостаточно. Можно получить длину запроса, количество запросов в сессии. Если это узкотематический ресурс, то теоретически возможно составить глоссарий для автоматической тематической классификации запросов. Что-то еще сходу не придумаю.

Dem28.02.2008 01:04
3

Я хочу написать систему, которая позволит рекламодателю оценить по текстам запросов аудиторию сайта. Понятно, что кроме текстов в анализе будут участвовать региональная привязка, частота запроса, время пребывания пользователя на сайте, пришедшего по данному, конкретному запросу и возможно ряд других параметров. Это будет дипломная работа.

Ваша статья, Иван меня очень заинтересовала, так что буду рад вашим советам и замечаниям.

Иван Дегтяренко28.02.2008 01:25
4

Что ж, могу пожелать удачи ;)

Dem01.06.2008 23:59
5

Мои поиски привели к диссертации

Щербина, Андрей Андреевич.
Исследование и разработка метода автоматической классификации поведения пользователей Интернет [Электронный ресурс]: дис…. канд. физ.-мат. наук: 05.13.11. - М.: РГБ, 2007. - (Из фондов Российской Государственной Библиотеки).

Автор собственно реализовал кластеризацию сессий по лог-файлу.

Вы говорите в статье
“Также в лог-файл могут быть включены коды cookie-файлов, полученных посетителями. Это позволяет существенно повысить точность выделения отдельных посетителей.”

К сожалению, серверов, которые имеют такую возможность немного. Кроме того ни один лог-анализатор не способен предоставить данных об операционной системе и экранных настройках пользователя, об использовании им определенных браузеров и версий Java Script. А пока счетчики так и будут основным инструментом статистики.

Правда, компания NetPromoter предложила довольно интересное решение http://cybermarketing.ru/kniga-avtory-izdatelstvo/statistics_12.htm

Иван Дегтяренко02.06.2008 10:26
6

Dem, спасибо за любопытные данные.

Оставить комментарий