This page is an archived copy on Gagin.ru personal site

InterNet magazine, number 14
Сюжеты|Конкуренция
Михаил Ашаров

Магнит под компасом

Жизнь в Интернете была бы скучна без скандалов. В феврале страсти разыгрались вокруг накруток статистики сервера агентства "РосБизнесКонсалтинг" в рейтинге Rambler Top100. Накрутки были, хотя никто не может дать однозначного ответа, чья в том вина. Но самое главное, что эта история впервые всерьез подняла вопрос о методах подсчета статистики посещаемости рекламных площадок в Интернете и их независимом аудите. Михаил АШАРОВ, asharov@inter.net.ru

Как измерить популярность веб-сайта? Существует несколько устоявшихся схем измерения свойств потока посетителей (трафика). Самая старая и известная из них -- анализ собственных журналов посещений (логов) сервера. Обычно такой журнал содержит подробную запись о каждом факте запроса информации с сервера -- имя документа или рисунка, дату и время, получил ли читатель то, что хотел или что-то этому помешало.

Подводные камни на пути применения этого метода тоже давно известны. Во-первых, прочесть сам журнал посещений и сделать из него выводы человек не в состоянии. Для анализа журналов существует целый спектр программ, бесплатных и платных, обрабатывающих данные одного сервера или целой группы серверов сразу, делающие из данных простые или псевдонаучные, или по-настоящему глубокие и интересные выводы. Во-вторых, журнал содержит сведения только об адресах машин, пользователи которых заходили на сервер, а не о самих пользователях. Один и тот же пользователь, подключающийся по модему, в разных сеансах может получить разные адреса. Наоборот, группа пользователей может быть представлена в логах одним адресом. Группа может быть очень большой -- к примеру, состоять из работников большой корпорации, вся сеть которой находится за шлюзом-прокси. В-третьих, сильно искажают реальную картину буферы (кэши), для повышения производительности сохраняющие однажды полученные тексты и иллюстрации. Функция кэширования стандартна во всех основных броузерах, кроме того, кеши могут располагаться между сервером и читателем, часто у провайдера.

"Печеньица" (cookies) в сочетании с обычным логом могут дать более детальную картину. С их помощью можно различить читателей, объединенных в логе под одним номером шлюзовой машины. Но некоторая часть пользователей запрещает своим бродилкам лакомиться печеньицами, поскольку-де те могут пролить свет на тайны их личной жизни или коммерческой деятельности.

Этими сложностями часто обосновывается пренебрежительное отношение к количеству обращений или, как его еще называют, "числу хитов". Не стоит, однако, упускать из виду, что даже такая информация, доступная практически каждому владельцу веб-сервера, офлайновым издателям достается потом и деньгами.

Альтернативный вариант -- попытка составить представительную группу пользователей на добровольной или платной основе и затем с помощью специальной программы, устанавливаемой на машине каждого участника, детально зафиксировать все его перемещения по вебу. Здесь свои проблемы. Маниш Бхатия (Manish Bhatia), функционер Nielsen Web, в прошлогоднем интервью C|Net (www.news.com/News/Item/0,4,23124,00.html) признала, что собрать представительную выборку не получается -- среди согласившихся участвовать в эксперименте непропорционально высокий процент специалистов и мало настоящих "чайников". Возможно, новой компании Free-PC (www.free-pc.com), раздающей даром компьютеры с предустановленной утилитой сбора сведений о посещении сайтов, этим способом удастся завербовать менее искушенных пользователей. Однако результаты таких измерений все равно могут быть статистически значимыми лишь для ведущих сайтов, огромный пласт "середнячков" останется вне поля зрения.

Промежуточная схема, основанная на получении и анализе данных тех самых шлюзов, о которых говорилось выше, используется компанией Web21 в их рейтинге 100hot (www.100hot.com/ methodology.chtml). Ее недостатки и достоинства причудливо объединяют свойства обоих подходов и достойны отдельного рассмотрения.

Помимо содержательности отчетов о посещениях и аудитории перед рекламодателем или баннерной сетью (которую в некотором смысле можно назвать аналогом рекламного агентства в Интернете) стоит вопрос простой их достоверности. Собственные графики и суммарные показатели перед обнародованием легко умножить на произвольный больший единицы коэффициент. Сырой журнал посещений подделать труднее, но и обнаружить подделку непросто. Единственный выход -- независимый аудит.

В англоязычной Сети аудит веб-сайтов организационно похож на классический финансовый. Независимые аудиторские компании берут на анализ журналы посещений или устанавливают собственные программы непосредственно на сервере. Затем результаты, скомбинированные с результатами опроса фокусных групп и т.п., передаются заказчику, а тот ставит в известность рекламодателей, а иногда и широкую общественность.

В России полноценный независимый аудит трафика веб-сайтов пока, насколько мне известно, не предлагает ни одна компания. Среди очевидных причин -- неразвитость рынка веб-рекламы и, соответственно, отсутствие платежеспособного спроса. Однако отставание в развитии (в данном случае российской части Интернета от западной/американской) иногда оборачивается преимуществом. Почти одновременно с формированием российского Интернета как среды в нем появились внешние счетчики посещений. По мере появления новые сайты вступали в их рейтинги. Самым старым, популярным, уважаемым и идеологически проработанным рейтингом является Rambler Top100 (counter.rambler.ru/top100/).

Не то чтоб на Западе не было внешних счетчиков. Они, конечно, есть -- упомянем хотя бы Hitbox (hitbox.com) или популярный в России eXTReMe Tracker (www.extreme-dm.com). Но сложная культура корпоративного имиджа приводит к тому, что серьезные серверы такими счетчиками не пользуются. Он слишком открыт, цифры, которые он показывает, слишком технические и нуждаются в дальнейшей интерпретации. Одним словом, это чересчур черновая, приблизительная, "салфеточная" информация-прикидка, и мультинациональная корпорация не может позволить себе ее публичное обнародованине.

Более домашние нравы российской Сети и раннее появление в ней Рамблера привели к тому, что очень многие серьезные по российским меркам компании пользуются внешним счетчиком. Наоборот, неиспользование такого счетчика вызывает подозрения -- "а что это вы там скрываете?"

Принцип работы счетчика прост до крайности и в то же время остроумен. В веб-страницу вставляется небольшой рисунок, файл которого лежит не на сервере владельца страницы, а на сервере счетчика. Когда читатель открывает такую страницу, его броузер скачивает как саму страницу и ее элементы с сервера владельца, так и рисунок счетчика со счетного сервера. Таким образом, счетный сервер получает возможность учитывать посетителей страницы, в которую такое изображение вставлено.

Внешний счетчик -- еще более приблизительный механизм, чем подсчет статистики по журналам сервера. Дополнительная неопределенность вносится читателями, у которых графика в броузере отключена для скорости, и теми, кто не дождался полной загрузки страницы и нажал "стоп". Однако широкий охват выявил три главных достоинства внешнего счетчика -- независимость, равенство условий и, так сказать, "общий знаменатель", одинаковый перечень и формат результатов. Какие бы погрешности не предполагала методика измерений, эти погрешности одинаковы для всех участников, и показания счетчика для разных сайтов можно сравнивать между собой. Если только счетчик имеет механизмы защиты от накруток.

Накрутка -- искусственное увеличение показателей счетчика, не связанное с реальным увеличением аудитории или частоты заходов "среднего" читателя. Как всякий конфликт интересов, накрутки и борьба с ними развиваются по спирали.

Пока сайтов в рейтинге-счетчике мало и их посещают сравнительно редко, злокозненный владелец ресурса может сидеть сам и щелкать в броузере кнопку перезагрузки. Или попросить друзей делать то же. Владелец счетчика к подсчету числа хитов-запросов добавляет подсчет числа различных машин (хостов), с которых эти запросы поступили. И вводит временной интервал (скажем, 30 секунд), в течение которого повторный запрос с одного и того же хоста не засчитывается. Последнее, кстати, позволяет корректно учесть запросы тех пользователей, которых операционная система приучила к двойному щелчку мыши. Владелец ресурса ставит картинки счетчика на разные страницы. Владелец счетчика начинает регистрировать URL страниц, вместе с которыми запрашивается счетчик (это возможно, такой URL называется referer, и в Рамблере есть соответствующая колонка suspicious referer -- подозрительная страница со счетчиком). И запускает специальные служебные программы, изучающие страницы клиента на предмет дубликатов счетчика. Владелец ресурса задумывается. Потом зовет программистов.

Официальные ответы "РосБизнесКонсалтинга" на вопросы журнала Internet

Какие возможные варианты сценария завышения показаний счетчика рассматривает внутреннее расследование? Кто именно расследование проводит?

Расследование ведется службой безопасности РБК.

Нашей технической службе несколько раз приходилось разбираться со случаями многократного обращения к ресурсам сервера со стороны корпоративных клиентов, которые ежеминутно скачивают информацию с нашего сервера в свою локальную сеть для всех своих сотрудников. Последний такой случай -- "Золото-платина банк", которому было предложено более рациональное техническое решение. По нашему глубокому убеждению, результатом этого скандала должно стать изменение Рамблером методики подсчета рейтингов. Например, допускать в первую сотню только серверы с открытой статистикой. Мы уверены, что такие признанные рейтинговые системы, как Рамблер, Stars и List, найдут возможность проводить достоверный веб-аудит. Мы, со своей стороны, готовы предоставить им свои логи. При наличии подобного механизма уже никто не сможет ставить под вопрос достоверность рейтингов.

Мы благодарны тем, кто посчитал МГУ и Курчатовский институт (прим. ред. -- где расположены две из четырех подсетей, упоминаемых в статье) нашими дочерними предприятиями. К сожалению, для нас это не так.

С чем вы связываете падение примерно в два раза начиная с 02.02.99 числа хостов за день на страницах с аккаунтами Рамблера 15057, 15060, 15140, 15143 и 15273?

Указанные вами страницы являются разделами нашего сервера, посетителями которого являются в основном платные клиенты. Так как нам не хватало канала (3Мбит/с), на котором установлен сервер www.rbc.ru, мы установили дополнительный сервер (lorry.rbc.ru 212.111.64.135), на который переводим часть наших платных подписчиков. Мы не хотели афишировать этот сервер, установленный на 10 Мбит/с, но обстоятельства нас вынудили к раскрытию коммерческой тайны раньше времени. Страницы этого сервера не участвуют ни в одном рейтинге, включая рейтинг Рамблер Top 100. Из-за этого посещаемость платных разделов на www.rbc.ru упала на 20 -- 30%. На популярности главных страниц это практически не отразилось, колебания в 3 -- 5% являются постоянными и нормальными. Мы сделали это сознательно, чтобы обеспечить доступ платным клиентам к информации по отдельному высокоскоростному каналу.

Если вас подставили, есть ли у вас предположения о том, как именно технически это могли сделать?

Прежде всего и всегда надо искать, кому это выгодно. Это не первый случай провокаций в адрес РИА "РосБизнесКонсалтинг", занимающего большую нишу информационного бизнеса не только в Интернете. Дело в том, что на протяжении семи лет нашу информацию получает самое большое количество подписчиков. Это является главной статьей дохода агентства, где работает 250 человек. К сожалению, доход от рекламы в российском Интернете пока является очень незначительным. С целью переманить наших клиентов группа мелких агентств, почему-то упорно считающих себя нашими конкурентами, и организовала эту шумиху с подметными письмами и несуществующим пресс-релизом компании Netskate (чему последовало официальное опровержение). Эффект получился обратный. Заметно возросло количество заявок на рекламу.

Тут борьба теряет ясные очертания и отчасти переходит в подполье. Иногда неясно даже, кто именно и с кем борется.

В конце января разработчики Top100 решили внимательно проверить сайты-обитателей наиболее престижных первых двадцаток по тематическим разделам рейтинга. Наибольший резонанс получила история с накрученными показаниями счетчиков некоторых разделов второго уровня (т. е. тех, в которые ссылки ведут непосредственно с головной страницы сервера) звезды кризисного взлета посещений информационного агентства "РоcБизнесКонсалтинг" (далее РБК, www.rbc.ru, мы писали о нем в "бордовом" номере журнала: inter.net.ru/12/3.html).

Мониторинг дал результаты, о которых администрация Top100 29 января официально сообщила в РБК. Речь шла о трех страницах -- "Валюты - кредиты" (www.rbc.ru/ currency_p.html), "Финансовая аналитика" (www.rbc.ru/ analyst_p.html) и "Фондовый рынок" (www.rbc.ru/ cgi-bin/ showtocn.cgi? page=PNSMTR). По данным Top100 на этих страницах наблюдалось "непропорционально большое число" заходов пользователей из четырех подсетей Интернета (195.218.167.*, 195.218.168.*, 144.206.8.* и 158.250.28.*), как минимум две из которых находятся в ведении партнеров РБК. Ежедневно в районе полудня отмечался всплеск активности этих подсетей. Кроме того, по данным статистики выходило, что адресное пространство сетей практически полностью занято, что тоже было очень подозрительно. Дело в том, что для удобства администрирования каждой сети выделяется определенное количество номеров машин вне зависимости от того, сколько их на самом деле в сети будет работать. Обычно лишь некоторые из этих номеров заняты компьютерами, а остальные свободны. Обратный случай -- редкость.

Статистика РБК вызывала вопросы у экспертов и до проверки Top100. Сервер РБК практически единственный, чья кривая посещений не пошла на значительный спад после кризисного пика. Однако под подозрение попали лишь страницы второго уровня, к головной, самой интересной с точки зрения рейтинга, претензий не предъявлялось. Так что загадка пока так и осталась загадкой, разве что перейдя из разряда детективных в содержательные.

По словам начальника отдела автоматизации РБК Алексея Кузовкина, после получения письма из Top100 на www.rbc.ru поставили фильтр, запрещающий пользователям упомянутых в письме Top100 сетей посещать сервер. Администрация рейтинга продолжала следить за статистикой страниц РБК, но в дальнейшем ничего подозрительного не выявила. Однако, не без помощи конкурентов РБК (в частности, компании "Финмаркет"), история получила огласку. Информацию распространили агентства Прайм-ТАСС, Интерфакс и АК&М, статьи об этом случае напечатали "Компьютерра" и даже "Коммерсантъ-Daily". Почти все (кроме, пожалуй, "Коммерсанта") однозначно обвиняли в накрутке РБК.

Там же предприняли несколько шагов, совпавших по времени с публичным обсуждением темы. Во-первых, на самом сервере РБК была открыта достаточно подробная и оперативно обновляемая статистика -- www.rbc.ru/stat.html, причем посмотреть статистику в цифрах можно начиная с ноября прошлого года, а с декабря и по текущий день цифры проиллюстрированы графиками. Показаны кумулятивные, т. е. без какой бы то ни было детализации по хостам, данные посещений первой страницы, для сравнения приведены также данные внешних счетчиков. Во-вторых, РБК открыло статистику почти всех своих страниц в рейтинге, и призвало другие фирмы к большей открытости в вопросе освещения собственного трафика.

Была ли накрутка? Да. Данные, подтвержденные администрацией Rambler Top100, однозначно об этом говорят. И небольшой круг "источников излучения", и резкий пик хитов по времени, и число посетителей страниц по дням до и после первых чисел февраля (см. рисунок 1), когда маска на сервер была поставлена, говорят об искусственном происхождении цифр на счетчиках некоторых страниц второго уровня.

Если статистику накручивали из РБК, то зачем? Вопрос не такой тривиальный, как может показаться. Агентство продает баннерную рекламу на своем сайте, причем продает ее в пять-десять раз дороже, чем большинство участников рекламного рынка ($15 за 1000 показов на первой странице и $10 на остальных). Но на попавших под подозрение страницах не было коммерческой рекламы, только на двух из них крутились баннеры из системы провайдера РБК -- компании "Гласнет". Поэтому прямого урона рекламодатели не понесли.

Тем не менее, смысл в накручивать напрямую не "продающиеся" страницы есть. Совокупный рекламный бюджет русского Интернета пока невелик и составляет, по разным оценкам, от нескольких сот до миллиона долларов в год. Рассчитывать на эти деньги могут в основном самые популярные сервера, что известно и по опыту Запада (www.cyberatlas.com/ segments/advertising/ad_revenue_reports.html). Поэтому закрепиться в первых строках рейтингов, в частности, Top100 -- это серьезная коммерческая задача. Конечно, в конце концов клиент будет оценивать рекламу по ее эффекту, но ведь сначала он, клиент, еще должен выбрать рекламные площади, и в поисках большой аудитории он скорее всего обратится к отчетам и рейтингам. Правильно это или нет, в частности, нужна ли клиенту большая аудитория или, наоборот, небольшая, но с особенными характеристиками -- отдельный вопрос.

Сервер РБК -- один из немногих крупных серверов, у которого в Top100 рейтингуется много страниц, а не одна, как, например, у "Анекдотов из России". Это считается дурным тоном, но не противоречит правилам счетчика. Разрешение включать в рейтинг любую отдельную страницу вполне оправдано с административной точки зрения, поскольку избавляет Top100 от изматывающих обсуждений вопроса, что считать одним ресурсом, а что -- разными. Однако при таком порядке владелец сервера может поставить себе задачей ввести в первую двадцатку несколько своих страниц. Действительно, производит впечатление -- "всех по одному, а нас много". Некоторые из подозрительных страниц как раз и входили в первые двадцатки.

Но это, пожалуй, единственная логичная причина, если отбросить совсем уж фантастические варианты, что РБК накручивал счетчик, планируя через какое-то время начать продажу рекламы на этих страницах. Но и ее логичность, как оказалось, сомнительна: РБК утверждает, что рекламодателю гарантирован CTR не ниже одного процента, то есть если из 10 000 посетителей на его баннер нажмут меньше 100, то показ рекламы продолжается до тех пор, пока необходимая сотня посетителей не наберется -- естественно, без дополнительной оплаты. Четверо (из более чем сотни рекламных клиентов) этой гарантией реально воспользовались.

РБК ли накручивало статистику? Неизвестно. В последующий за описанными событиями период в Rambler Top100 можно было видеть несколько аномальных однодневных взлетов показателей ряда малоизвестных страниц. Статистика несла характерные признаки явной накрутки -- все хиты приходились на один-два часа, запросы шли подряд по сетям, словно на параде, да и, наконец, самое простое -- популярность сайта взлетала в несколько раз безо всяких на то причин и так же резко падала. Владельцы страниц сами терялись в догадках, и не верить им нет оснований, хотя бы потому, что в принципе, обладая подобной технологией накруток, несложно все видимые на глаз признаки убрать. Очевидно, кто-то просто испытывал новое "вооружение". То же самое -- намеренная акция третьих лиц по дискредитации ресурса -- могло быть и в случае с РБК. А могло и не быть -- достоверной методики расследования никто не опубликовал.

Аналитики РБК и сами не смогли достаточно внятно объяснить нам загадочные скачки. Официальный комментарий приведен во врезке. Однако почему на некоторых страницах появление дополнительного сервера сказалось так резко, а на других практически никак не отразилось? Если дело действительно в платных клиентах, то как удалось так быстро, в одночасье переключить их с одного сервера на другой? И зачем считать "коммерческой тайной" установку дополнительного сервера на быстром канале? Помнится, раньше РБК не только не утаивало информацию о расширении канала -- наоборот, громко объявляло о каждом таком случае.

Отметим, что толкование статистики -- трудная задача. Например, пожелавший остаться неизвестным аналитик предложил интересную гипотезу, связывающую количество посещений страницы www.rbc.ru/currency_p.html с маржой операций по покупке-продаже доллара. Он пишет: "В момент возрастания политической напряженности или финансовой неопределенности обменные пункты и банки страхуют свой риск за счет увеличения прибыли при обменных операциях, увеличивая разницу между курсами покупки и продажи (т. е. маржу). При этом потребители настоящей услуги, в основном частные лица, теряют интерес к валютообменным операциям по невыгодным обменным курсам и, как следствие, теряют интерес к информационным услугам этого рода (см. рисунок 2). В настоящее время критическая величина маржи -- приблизительно 82 коп., после этого интерес к валютообменным операциям падает. Это число не является постоянным и меняется со временем. Знание текущего значения этого "магического" числа может позволить обменным пунктам оптимально назначать курсы покупки - продажи с учетом сразу двух критериев: прибыль и оборачиваемость. Самое простое правило -- не превышать (прим. ред. --критическую величину маржи)". Похожая идея -- зависимость трафика от политических, экономических и других факторов массового действия -- обсуждается в заметке Николая Попова с характерным названием "Может ли Рэмблер предсказывать землетрясения?" (www.nsk.su/~np/e_rambler.htm).

Принцип действия новых технологий накруток в общих чертах известен и состоит в том, что обратный адрес на запросах, идущих к серверу владельца страницы и одновременно к счетчикам, подделывается произвольным образом. То есть запрос идет с машины злоумышленника (или экспериментатора), а серверы думают, что совсем из другого места. При этом обратные адреса лучше брать реальные, благо составить большой список реальных адресов интернет-машин несложно. Можно обработать логи популярного серевра, можно написать (или найти) программу перебора IP-номеров и опроса службы DNS на предмет наличия имени. Не обязательно даже выяснять, есть ли машина на самом деле -- логи любого сервера с именами уже будут выглядеть правдоподобно. Осталось еще добавить случайности, распределение запросов по часам -- и рецепт "Сделай сам интернет-аудиторию" готов. Для приготовления блюда нужна программа посылки поддельных запросов, но за этим дело не станет -- если она еще не появилась, то скоро появится.

Известны и способы обнаружения подобных "генераторов аудиторий". До сих пор рейтинговые системы не включали в состав своих программ изощренные средства борьбы с ними (это бы увеличило нагрузку на и так не скучающие серверы счетчиков). Сейчас время пришло, и скоро подобные средства появятся. На хитрого клиента найдется сервер с винтом.

Мораль этой истории своя для каждой из сторон. Рекламодателям не следует ограничиваться данными публичных бесплатных рейтингов в изучении предполагаемых рекламных площадок. Да, пока нет аудита, смотреть на внешние счетчики надо, но следует иметь в виду, что они несовершенны, и всегда есть шанс, что статистика "подогрета". Следите за тем, насколько оперативно и точно хозяева конкретного рейтинга реагируют на "подкопы", какие меры они принимают. Выясните, что именно считает данный счетчик (у каждого свой набор показателей). Сравните данные нескольких счетчиков. Возьмите у продавца рекламы, с которым хотите сотрудничать, полную статистику и проанализируйте ее сами. А лучше всего -- обратитесь за исследованием к профессиональному посреднику: это сохранит если не деньги, то время и силы. Рекламоносителям, отстающим от конкурентов по посещаемости, разумно компенсировать это отставание аудитом. Если его нет сейчас, то он появится тут же вслед за платежеспособным спросом. Рейтингам следует "вооружаться". А читателям -- задуматься: кто предложит независимый аудит? Сегодняшние претенденты связаны с существующими и известными контент-холдингами -- это их слабое место, они не могут считаться объективными. Нужен новый игрок. Может быть, им будете вы?
Данные Рамблер Топ100

При анализе результатов статистики пяти эккаунтов 15057, 15140, 15273, 2332, 30537, для трех (15057, 15140, 15273) был обнаружен странный артефакт, непропорционально большое число хостов с сетей 195.218.168.x, 158.250.x.x и 195.218.167.x .

Например, для эккаунта 15057 наблюдается следующая картина (данные снимались в промежутке между 13-14 часами) 20. 01. Всего=2343 195.218.168.x=101 158.250.x.x=155 195.218.167.x=101
21. 01. Всего=1719 195.218.168.x=99 158.250.x.x=146 195.218.167.x=101
22. 01. Всего=1370 195.218.168.x=101 158.250.x.x=144 195.218.167.x=100
24. 01.(Вс) Всего=103 195.218.168.x=0 158.250.x.x=0 195.218.167.x=0
25. 01. Всего=1342 195.218.168.x=123 158.250.x.x=179 195.218.167.x=122
26. 01. Всего=1294 195.218.168.x=125 158.250.x.x=178 195.218.167.x=121

Такая же картина наблюдается и для остальных двух эккаунтов. Физически мы не смогли обнаружить эти машины.


В оглавление номера This page is an archived copy on Gagin.ru personal site