This page is an archived copy on Gagin.ru personal site



4Internet - ежемесячное приложение к сети
АрхивРеклама в журналеКнига отзывов
FAQВыходные данныеОбратная связь



Культура



Поймай языка в искалке


Эксперименты по подсчету толщины доменов и популярности языков

Иван ПАРАВОЗОВ
www.cityline.ru/paravozov-news/

Где-то когда-то я слышал, что русский язык - второй по популярности. Где и как - не помню: то ли в Сети после английского, то ли в Европе после немецкого. И, стало быть, развивать русскоязычные ресурсы - полезно и перспективно. Давайте попробуем проверить, так ли это. Какие у нас есть для того средства? Первое, что приходит в голову - воспользоваться поисковыми системами.

Лирическое отступление
Поисковые машины - одно из самых замечательных явлений современной Сети. Они позволяют найти в огромной неупорядоченной куче документов именно то, что нужно читателю. Именно искалки, как принято их называть в русской сетевой тусовке, считаются наиболее популярными серверами, наиболее выгодными и загадочными. Игры с искалками могут доставить изощренному естествоиспытателю немало минут веселья и азарта. Они, удивительные машины, настолько сложны и так начитаны, что могут применяться в качестве средства анализа слабосвязанной информации экономическими и военными шпионами (inter.net.ru/1/13.html). Существуют специальные руководства для владельцев веб-серверов и просто страничек о том, как сделать свой ресурс более заметным для искалок (www.zhurnal.ru/2/meta.htm). Существуют серверы, посвященные новостям поисковых машин (searchenginewatch.com). Существуют роботы, которые сообщают о вашем ресурсе сразу нескольким искалкам (moko.cityline.ru/free/addurl/), причем за это даже стараются брать деньги (www.submit-it.com). Существуют длинные статьи, как правильно пользоваться поисковыми машинами (www.zhurnal.ru/1/altavi.htm). Сегодня в Сети без искалок не обойтись. С ними можно даже играть - см. постскриптум.

Предупреждение
Если вы хотите надежных цифр и четких выводов - пролистайте эту статью. Их здесь не будет. То есть цифр и предположений будет в избытке, а вот их достоверность и правомерность - вопрос сомнительный. Получение качественной аналитики - это вряд ли вообще решаемая задача.

Проведем некоторый эксперимент с искалками. Основная его цель - понять, сколько каких языков и стран в Сети. Проделаем это в два этапа.

Эксперимент первый
Количество документов в доменах
Пойдем в Альтависту (altavista.digital.com) и посчитаем, сколько документов она знает в домене RU и некоторых других. Для этого существует служебное слово domain. Если задать в строке поиска domain:ru, то получим цифру, характеризующую размер веба в этом домене. Это скорее качественный показатель, чем количественный, но именно оценка важности нам и требуется.

На специальной страничке, посвященной описанию своих достоинств (altavista.digital.com/av/content/about_our_strengths.htm), Альтависта утверждает, что только она умеет искать по имени домена. Однако это неправда - HotBot (www.hotbot.com), искалка легендарного журнала Wired и его электронного собрата Hotwired) тоже включает такие возможности. С ним проблема заключается в другом - эта поисковая машина недружелюбна по отношению к восьмибитным символам вообще и, следовательно, к русскому языку. Однако русскоязычные документы HotBot все-таки учитывает, хотя и не признает в них никаких слов. Результат поиска можно посмотреть в таблице 1 (выборка стран произвольная).

Таблица 1.
Количество документов в доменах
Домен Страна Документов по данным Altvista Документов по данным HotBot
.com США и не только 15 607 236 16 987 203
.de Германия 1 382 441 2 822 405
.uk Великобритания 982 359 2 154 793
.se Швеция 836 129 853 985
.it Италия 586 479 1 057 904
.nl Нидерланды 402 655 785 532
.fr Франция 310 023 862 013
.es Испания 247 214 432 834
.fi Финляндия 245 905 609 190
.ch Швейцария 237 956 590 910
.ru Россия 121 687 283 825
.za Южная Америка 80 195 150 660
.su Бывший СССР 26 933 56 768
.cn Китай 10 273 70 911
.int Междунар. домен 3928 29 422

Заметим, что эти цифры получены 8 октября 1997. Кстати, примерно за месяц до этого Альтависта находила только 111 000 документов в домене .RU, то есть на 10% меньше. Свидетельствует ли это о росте кругозора этой поисковой машины или о росте русского веба? Не знаю. Но для домена .SU эта цифра упала с 27 700 до 26 900, и это общая тенденция: количество учтенных Альтавистой документов в разных доменах несколько уменьшилось в большинстве случаев.

Вывод из вышеприведенной таблицы, казалось бы, напрашивается простой: американский и английский домены наполнены на порядок плотнее немецкого. И на два порядка обходят Россию. С другой стороны, насыщенность Сети информацией явно не зависит напрямую от популярности языка как такового: китайский домен в хвосте списка (хотя скорее по геополитическим причинам), а Италия сильно обгоняет Испанию. Если верить Альтависте с Хотботом.

В базе yandex.ru в доменах su и ru соотношение английских текстов к русским примерно 2 к 1

А верить им не надо - к этой стороне земного шара они относятся все-таки довольно холодно. Во всяком случае, отечественные искалки сообщают совершенно другие цифры. Апорт (www.aport.ru) заявлял 9 октября 1997-го, что "поиск ведется по 1 447 244 документам (9672 сервера)", а он выдает эти цифры в соответствии с текущим состоянием базы документов. Rambler (www.rambler.ru) проиндексировал 1 600 000 документов на 9000 серверах. Яndex (yandex.ru) декларирует около 5000 серверов и 40 гигабайт текстов. А это значит, что мы вполне можем потягаться с немцами. Если не задумываться о том, что, быть может, где-то в домене DE есть своя искалка, которая тоже гораздо более внимательна к родным серверам и выдает цифры, также сильно превосходящие статистику Альтависты.

Эксперимент второй
Количество слов
Я взял некоторый набор слов (хлеб, вода, солнце, счастье, курить, фильм) и поискал их на нескольких языках. Потом просто просуммировал количество найденных документов для всех слов из списка. Получились следующие цифры:

Язык Сумма
английский 1 089 000
испанский 57 000
итальянский 46 000
немецкий 18 700
русский 4 700

Опять же - результаты только качественные. В адекватности подбора слов я вовсе не уверен, не учтено и то, что в русском языке изменяется слово, а не артикль. Исходя из результатов второго теста можно предположить, что испанский язык на самом-то деле в почете, что итальянцы весьма интернетизированная нация, которая любят родной язык, что немцы в Интернете говорят в основном по-английски, а русский язык все-таки не сравним по интернет-популярности ни с одним из иностранных. И опять же - это если верить Альтависте.

Попробуем провести ту же процедуру с отечественными искалками. Но приведем более полную таблицу 2.

Таблица 2.
Количество слов
  Апорт Яndex Rambler Rambler через
морфологию Яndex
(www.comptek.ru/ramb.html)
ВОДА 17 254 39 538 12 109 35 855
ФИЛЬМ 8132 21 229 6538 14 551
СЧАСТЬЕ 6611 4950 6419 16 835
СОЛНЦЕ 5698 4588 11 809 17 178
ХЛЕБ 4173 5270 5246 9307
КУРИТЬ 2208 2176 2208 6432
СУММА 44 076 77 751 44 329 100 158

Таким образом, можно заметить, что и тут русский язык, если пользоваться внимательными отечественными искалками, вполне может претендовать на второе место. Или нет?

Итог печален и прост: понятно, что ничего не понятно. Мы знаем, что ничего не знаем. Достоверно известно, что достоверных источников информации нет. Но это все неважно - потому что мораль в любом случае неизменна: работать, работать и еще раз работать.

P.S. Кстати говоря, Яndex, работающий морфологической приставкой к Рамблеру, можно использовать не по назначению - для языковых игр. Когда Яndex передает запрос Рамблеру, он преобразует искомое слово во все его формы и посылает запрос, в котором полученные вариации группируются операторами ИЛИ. И эти самые формы видны. Причем некоторые из них могут превращаться в другие слова. Предлагая Яндексу эти новые слова, можно продолжать цепочку. Вот примеры таких цепочек (благодарю за них Елену Колмановскую):

  1. ИДТИ к СЛАВЕ: идти (шли) - слать (слав) - слава
  2. ДАМА в ДАЛИ: дама (дам) - дать (дали) - даль
  3. БРАВО, БЕРЕТ: браво - бравый (брав) - брать (берет) - берет
  4. ПАС ПАВУ: пас - пасти - (пасти - сущ.) - пасть (глагол) пасть (пав) - пава
Попробуйте сами построить такую цепочку.


Ваше имя:   E-mail:
Как вам материал?
Хороший   Так себе   Плохой
А длина?
В самый раз   Перебор   Слишком мало  
Ваше мнение:


АрхивСледующий материалКнига отзывов
К оглавлениюПредыдущий материалОбратная связь

Журнал "Интернет". Регистрационное свидетельство Госкомпечати РФ N. 016370 от 16.07.1997 г. Распространяется через сети розничной торговли, через компьютерные сети, а также путем подписки. Мнение редакции по тем или иным вопросам может не всегда совпадать с мнениями авторов. Редакция не несет ответственности за содержание рекламных материалов. Перепечтка или копирование запрещены, при цитировании ссылка на журнал "Интернет" обязательна.
Copyright © 1997 Журнал "Internet"
Copyright © 1997 Netskate
Netscate E-mail: imag@netskate.ru
Телефон: 245-45-84