This page is an archived copy on Gagin.ru personal site




АрхивРеклама в журналеКнига отзывов
ПодпискаВыходные данныеОбратная связь






Не насытится око


Можно ли научить программу искать по-человечески?


Антон НОСИК
anton@cityline.ru

Все вещи - в труде; не может человек пересказать всего; не насытится око зрением, не наполнится ухо слушанием.
Екклесиаст, 1:8

Плюнь тому в глаза, кто скажет, что можно объять необъятное.
Козьма Прутков

Объем информационного потока, который обрушивается на нас из Повсеместно Протянутой Паутины, измеряется в терабайтах. Так, во всяком случае, утверждает американский программист и исследователь Брюстер Кале, отец информационной системы WAIS, который в прошлом году создал специальный проект для отслеживания и сохранения всей информации, доступной в Сети (www.archive.org). Кале приводит данные о том, что средний "период полураспада" гипертекстового документа на серверах WWW составляет от 44 до 71 дня; кроме того, общее число страниц и адресов Паутины удваивается каждые 53 дня. Поток бурлит, разливается, затапливает страны и материки киберпространства... Нужны серьезные технологические ухищрения, чтобы машины могли уследить за этим половодьем.

Еще совсем недавно организаторы проектов типа гуттенбергского (10 тыс. электронных книг к 2000 году) мечтали нашпиговать Сеть информацией до такой степени, чтобы в ней можно было найти электронную копию любого бумажного документа, когда-либо существовавшего в природе. И, хотя в пределе такая цель недостижима, строители информационной магистрали подошли к осуществлению своей мечты достаточно близко. Сегодня в Интернете без предварительных подсказок можно оперативно выловить последние новости CNN, биографию известного корпоративного магната, рецепт приготовления сырой рыбы из бумажных журавликов и набор ключей для взлома популярных пользовательских программ. Просите - и получите.

Вы знаете, что и как искать в Сети. Тут-то и начинаются проблемы: как ограничить поток информации, чтобы не утонуть в ней, и не перерывать каждый раз мегабайты не относящихся к делу сообщений, дабы выловить в них крупицу интересующих нас сведений. Человек, активно исследующий информационные потоки Интернета, довольно быстро осознает необходимость их фильтрации и просеивания, предельного ограничения числа источников.

Над вопросом о техническом обустройстве информационных фильтров лучшие умы кибернетики бьются уже не первый год. Разработка алгоритмов программного отделения зерен от плевел ведется и в университетах, и в коммерческих фирмах. Одновременно со средствами "умного" поиска повсеместно создаются каталоги информационных ресурсов, и составители пытаются облегчить пользователю отбор ценных для него источников.

Николас Негропонте из MIT предсказывал несколько лет тому назад на страницах "Wired", что будущее принадлежит электронным агентам по сбору информации. То есть настанет время, когда мы перестанем самостоятельно искать что-либо в Сети, поскольку электронные гонцы справятся с задачей много лучше нас. А конечному пользователю достанутся лишь информационные сливки, заботливо снятые агентами и поданные к столу в нужное время в высоких бокалах с вишенкой.

Такое видение информационного обмена можно считать утопическим, несбыточным, теоретическим. Едва ли в обозримом будущем агенты научатся иметь собственное мнение о качестве материалов.

Все те заведомые сложности, о которых здесь сказано, нисколько не мешают разработчикам вкладывать силы и средства в их создание. Причем некоторые инструменты фильтрации информационного потока уже сегодня можно видеть в действии на различных серверах... "Интеллигентными" их можно назвать с очень большой натяжкой.

На использовании пользовательских предпочтений при отборе материалов основана, в частности, та самая технология PUSH, о которой так много говорится в последнее время. Нового в ней, конечно же, ничего нет, речь идет о старой доброй подписке на периодические издания по каталогу. Единожды решив, что нас устраивают сводки финансовых новостей от CNN, компьютерных - от С|Net, общечеловеческих - от Hotwired, мы можем подписаться на несколько электронных изданий и получать время от времени сводку их публикаций с адресами (либо сами публикации, в зависимости от выбранной технологии). Не рыскать по информационным морям и волнам, а начинать день именно с тех новостей, которые нам казались интересными на момент оформления подписки.

Более тонкие технологии лежат в основе фильтров, исследующих не интересы, а вкусы пользователя. Здесь разработчики программ используют два принципиально различных подхода. Один состоит в составлении так называемого "психографического профиля" для каждого пользователя. Так действует программа Affinicast Interaction Manager. Другой подход основан на сравнении анкеты конкретного респондента с накопленной статистикой предпочтений большой группы пользователей. Допущение здесь очевидное: если достоверно известно, что многие любители пива из Московской области запоем читают анекдоты от Вернера, то ваша одинцовская прописка и любовь к "Балтике N.6" делают вас потенциальным поклонником именно этого сервера. Если же вы - член движения "Субтропическая Россия" и носите клетчатые брюки, то вам должен больше прийтись по душе Генератор жалоб Скотта Пакина... Такое групповое профилирование лежит в основе разработок Firefly, Net Perceptions и LikeMinds.

Еще один способ выяснения вкусов пользователя применяется на серверах новостей Excite и Wisewire.Com. Здесь речь идет о так называемых "адаптивных фильтрах". Пользователю предлагается ознакомиться с серией новостных сообщений и выставить каждому свои оценки. Таким образом можно оценить одновременно и тематические предпочтения, и литературные вкусы респондента, чтобы затем строить на этих критериях отбор предлагаемых ему документов. Обратим внимание, что в основном все эти программы предназначены для фильтрации материалов, происходящих из какого-либо одного источника (MSN, Excite News, ZDNet, Wisewire.Com, Hotwired и проч.).

Но основная проблема, связанная с внедрением "умных" фильтрующих агентов в повседневную сетевую практику - резко негативное отношение к подобным инструментам со стороны самих пользователей. Оказывается, бесцельное или прицельное блуждание по просторам Всемирной Паутины давно вошло у завсегдатаев Сети в приятную привычку, и они отнюдь не стремятся переложить это занятие на плечи электронных друзей. Представьте себе, что вместо вас в увлекательное путешествие отправился туристический агент. А значит - как бы ни были хороши фильтры, над разработкой которых бьются сегодня программистские фирмы, нам и дальше предстоит тонуть в океане информации, полагаясь на собственный вкус больше, чем на электронный разум...



Ваше имя:   E-mail:
Как вам материал?
Хороший   Так себе   Плохой
А длина?
В самый раз   Перебор   Слишком мало  
Ваше мнение:


АрхивСледующий материалКнига отзывов
К оглавлениюПредыдущий материалОбратная связь

Журнал "Интернет". Регистрационное свидетельство Госкомпечати РФ N. 016370 от 16.07.1997 г. Распространяется через сети розничной торговли, через компьютерные сети, а также путем подписки. Мнение редакции по тем или иным вопросам может не всегда совпадать с мнениями авторов. Редакция не несет ответственности за содержание рекламных материалов. Перепечтка или копирование запрещены, при цитировании ссылка на журнал "Интернет" обязательна.
Copyright © 1997 Журнал "Internet"
Copyright © 1997 Netskate
E-mail: imag@netskate.ru
Телефон: 245-45-84