|
Эксперименты по подсчету толщины доменов и популярности языков
Иван ПАРАВОЗОВ
www.cityline.ru/paravozov-news/
Где-то когда-то я слышал, что русский язык - второй по популярности. Где и как - не помню: то ли в Сети после английского, то ли в Европе после немецкого. И, стало быть, развивать русскоязычные ресурсы - полезно и перспективно. Давайте попробуем проверить, так ли это. Какие у нас есть для того средства? Первое, что приходит в голову - воспользоваться поисковыми системами.
Лирическое отступление
Поисковые машины - одно из самых замечательных явлений современной Сети. Они позволяют найти в огромной неупорядоченной куче документов именно то, что нужно читателю. Именно искалки, как принято их называть в русской сетевой тусовке, считаются наиболее популярными серверами, наиболее выгодными и загадочными. Игры с искалками могут доставить изощренному естествоиспытателю немало минут веселья и азарта. Они, удивительные машины, настолько сложны и так начитаны, что могут применяться в качестве средства анализа слабосвязанной информации экономическими и военными шпионами (inter.net.ru/1/13.html). Существуют специальные руководства для владельцев веб-серверов и просто страничек о том, как сделать свой ресурс более заметным для искалок (www.zhurnal.ru/2/meta.htm). Существуют серверы, посвященные новостям поисковых машин (searchenginewatch.com). Существуют роботы, которые сообщают о вашем ресурсе сразу нескольким искалкам (moko.cityline.ru/free/addurl/), причем за это даже стараются брать деньги (www.submit-it.com). Существуют длинные статьи, как правильно пользоваться поисковыми машинами (www.zhurnal.ru/1/altavi.htm). Сегодня в Сети без искалок не обойтись. С ними можно даже играть - см. постскриптум.
Предупреждение
Если вы хотите надежных цифр и четких выводов - пролистайте эту статью. Их здесь не будет. То есть цифр и предположений будет в избытке, а вот их достоверность и правомерность - вопрос сомнительный. Получение качественной аналитики - это вряд ли вообще решаемая задача.
Проведем некоторый эксперимент с искалками. Основная его цель - понять, сколько каких языков и стран в Сети. Проделаем это в два этапа.
Эксперимент первый
Количество документов в доменах Пойдем в Альтависту (altavista.digital.com) и посчитаем, сколько документов она знает в домене RU и некоторых других. Для этого существует служебное слово
domain. Если задать в строке поиска domain:ru, то получим цифру, характеризующую размер веба в этом домене. Это скорее качественный показатель, чем количественный, но именно оценка важности нам и требуется.
На специальной страничке, посвященной описанию своих достоинств (altavista.digital.com/av/content/about_our_strengths.htm), Альтависта утверждает, что только она умеет искать по имени домена. Однако это неправда - HotBot (www.hotbot.com), искалка легендарного журнала Wired и его электронного собрата Hotwired) тоже включает такие возможности. С ним проблема заключается в другом - эта поисковая машина недружелюбна по отношению к восьмибитным символам вообще и, следовательно, к русскому языку. Однако русскоязычные документы HotBot все-таки учитывает, хотя и не признает в них никаких слов. Результат поиска можно посмотреть в таблице 1 (выборка стран произвольная).
Таблица 1. Количество документов в доменах |
|
|
Домен
|
Страна
|
Документов по данным Altvista
|
Документов по данным HotBot
|
|
.com
|
США и не только
|
15 607 236
|
16 987 203
|
|
.de
|
Германия
|
1 382 441
|
2 822 405
|
|
.uk
|
Великобритания
|
982 359
|
2 154 793
|
|
.se
|
Швеция
|
836 129
|
853 985
|
|
.it
|
Италия
|
586 479
|
1 057 904
|
|
.nl
|
Нидерланды
|
402 655
|
785 532
|
|
.fr
|
Франция
|
310 023
|
862 013
|
|
.es
|
Испания
|
247 214
|
432 834
|
|
.fi
|
Финляндия
|
245 905
|
609 190
|
|
.ch
|
Швейцария
|
237 956
|
590 910
|
|
.ru
|
Россия
|
121 687
|
283 825
|
|
.za
|
Южная Америка
|
80 195
|
150 660
|
|
.su
|
Бывший СССР
|
26 933
|
56 768
|
|
.cn
|
Китай
|
10 273
|
70 911
|
|
.int
|
Междунар. домен
|
3928
|
29 422
|
|
Заметим, что эти цифры получены 8 октября 1997. Кстати, примерно за месяц до этого Альтависта находила только 111 000 документов в домене .RU, то есть на 10% меньше. Свидетельствует ли это о росте кругозора этой поисковой машины или о росте русского веба? Не знаю. Но для домена .SU эта цифра упала с 27 700 до 26 900, и это общая тенденция: количество учтенных Альтавистой документов в разных доменах несколько уменьшилось в большинстве случаев.
Вывод из вышеприведенной таблицы, казалось бы, напрашивается простой: американский и английский домены наполнены на порядок плотнее немецкого. И на два порядка обходят Россию. С другой стороны, насыщенность Сети информацией явно не зависит напрямую от популярности языка как такового: китайский домен в хвосте списка (хотя скорее по геополитическим причинам), а Италия сильно обгоняет Испанию. Если верить Альтависте с Хотботом.
| В базе yandex.ru
в доменах su и ru соотношение
английских текстов
к русским
примерно 2 к 1
|
А верить им не надо - к этой стороне земного шара они относятся все-таки довольно холодно. Во всяком случае, отечественные искалки сообщают совершенно другие цифры. Апорт (www.aport.ru) заявлял 9 октября 1997-го, что "поиск ведется по 1 447 244 документам (9672 сервера)", а он выдает эти цифры в соответствии с текущим состоянием базы документов. Rambler (www.rambler.ru) проиндексировал
1 600 000 документов на 9000 серверах. Яndex (yandex.ru) декларирует около 5000 серверов и 40 гигабайт текстов. А это значит, что мы вполне можем потягаться с немцами. Если не задумываться о том, что, быть может, где-то в домене DE есть своя искалка, которая тоже гораздо более внимательна к родным серверам и выдает цифры, также сильно превосходящие статистику
Альтависты.
Эксперимент второй
Количество слов Я взял некоторый набор слов (хлеб,
вода, солнце, счастье, курить, фильм)
и поискал их на нескольких языках. Потом просто просуммировал количество найденных документов для всех слов из списка. Получились следующие цифры:
| Язык |
Сумма |
| английский |
1 089 000 |
| испанский |
57 000 |
| итальянский |
46 000 |
| немецкий |
18 700 |
| русский |
4 700 |
Опять же - результаты только качественные. В адекватности подбора слов я вовсе не уверен, не учтено и то, что в русском языке изменяется слово, а не артикль. Исходя из результатов второго теста можно предположить, что испанский язык на самом-то деле в почете, что итальянцы весьма интернетизированная нация, которая любят родной язык, что немцы в Интернете говорят в основном по-английски, а русский язык все-таки не сравним по интернет-популярности ни с одним из иностранных. И опять же - это если верить Альтависте.
Попробуем провести ту же процедуру с отечественными искалками. Но
приведем более полную таблицу 2.
Таблица 2. Количество слов |
|
| |
Апорт |
Яndex |
Rambler |
Rambler через морфологию Яndex (www.comptek.ru/ramb.html) |
| ВОДА |
17 254 |
39 538 |
12 109
|
35 855
|
|
ФИЛЬМ
|
8132
|
21 229
|
6538
|
14 551
|
|
СЧАСТЬЕ
|
6611
|
4950
|
6419
|
16 835
|
|
СОЛНЦЕ
|
5698
|
4588
|
11 809
|
17 178
|
|
ХЛЕБ
|
4173
|
5270
|
5246
|
9307
|
|
КУРИТЬ
|
2208
|
2176
|
2208
|
6432
|
|
СУММА
|
44 076
|
77 751
|
44 329
|
100 158
|
Таким образом, можно заметить, что
и тут русский язык, если пользоваться внимательными отечественными искалками, вполне может претендовать на второе место. Или нет?
Итог печален и прост: понятно, что ничего не понятно. Мы знаем, что ничего не знаем. Достоверно известно, что достоверных источников информации нет. Но это все неважно - потому что мораль в любом случае неизменна: работать, работать и еще раз работать.
P.S. Кстати говоря, Яndex, работающий морфологической приставкой к Рамблеру, можно использовать не по назначению - для языковых игр. Когда Яndex передает запрос Рамблеру, он преобразует искомое слово во все его формы и посылает запрос, в котором полученные вариации группируются операторами ИЛИ. И эти самые формы видны. Причем некоторые из них могут превращаться в другие слова. Предлагая Яндексу эти новые слова, можно продолжать цепочку. Вот примеры таких цепочек (благодарю за них Елену Колмановскую):
- ИДТИ к СЛАВЕ: идти (шли) - слать (слав) - слава
- ДАМА в ДАЛИ: дама (дам) - дать (дали) - даль
- БРАВО, БЕРЕТ: браво - бравый (брав) - брать (берет) - берет
- ПАС ПАВУ: пас - пасти - (пасти - сущ.) - пасть (глагол) пасть (пав) - пава
Попробуйте сами построить такую цепочку.
|