This page is an archived copy on Gagin.ru personal site



4Internet - ежемесячное приложение к сети
АрхивРеклама в журналеКнига отзывов
FAQВыходные данныеОбратная связь



К теме номера


Недавний проект, названный UNL - Universal Networking Language - еще одна попытка создать язык-посредник, на этот раз предназначенный не для понимания человеком, а для внутреннего представления текста в системе автоматических переводчиков в Интернете.

UNL


Кирилл ШИРОКОВ
shq@humanoid.net

С чего все началось
Идею использовать механизмы для перевода с одного языка на другой предлагали еще Лейбниц и Декарт. Они пытались создать словарь, основанный на числовых кодах. Существовали идеи о языке, построенном только лишь на логике и на символах-пиктограммах, на котором люди могли бы общаться без страха остаться непонятыми. Самой известной работой стала "interlingua" Джона Вилкинса (John Wilkins. Essay towards a Real Character and a Philosophical Language. 1668). Были созданы еще несколько языков, среди которых наиболее известно Эсперанто Льва Знаменгофа.

В 1933 году было выдано два патента - в России и во Франции. Французский армянин George Artsouni разработал схему устройства на бумажной ленте для перевода произвольного слова на другой язык и продемонстрировал прототип системы в 1937 году. В России патент получил Петр Смирнов-Троянский, чье изобретение оказалось исторически важней - он видел в механическом переводе три стадии: на первой человек-редактор, знающий исходный язык, преобразовывал слова предложения в "основную" форму и расставлял синтаксические функции слов. Затем на второй стадии машина переводила эти формы и функции на заданный язык, и на третьей стадии полученное редактировал человек. Тогда Смирнов-Троянский утверждал, что хотя бы вторая стадия может быть автоматизирована.

Но первые практические идеи машинного перевода появились в огромных машинных залах в 50-х годах. Это было то время, когда Клод Шеннон формулировал теорию информации, а Норберт Виннер придумывал концепции кибернетики.

Следует заметить, что в то время, когда MT (Machine Translation) только начинался, никто еще не слышал о контекстно-свободных грамматиках, а изучение естественного языка начиналось со статистических экспериментов. Таких, как посчитать процент вхождений букв, их сочетаний. А затем, например, генерировать случайные слова на основе статистики.

В 1947 году американцы A.D. Booth и D.H.V. Britten написали программу по словарному переводу (dictionary lookup) индивидуальных слов. Берем, например, предложение "See you, John". Переводим: "Вижу, ты, Иван". Или: - Por que?" - "По что?". Заметим, что системы этого поколения не делали синтаксического разбора, а лишь переставляли слова. В 1949 году Warren Weaver заявил идею третьего, промежуточного языка - "universal language" или "interlingua". Эта идея - представление семантики выражения на внутреннем языке системы называется сейчас "representation of knowledge" - "представление знаний". Вскоре в нескольких американских центрах началась разработка систем понимания естественного языка. Erwin Reifler высказал идеи о предварительном редактировании текста и о его постредактировании. Цель первого - избавить входной текст от неясностей морфологического ("Души прекрасные порывы") синтаксического ("Я догонял девушку с веслом") и семантического (смыслового: "Гонялся за другом на катке") характера. Это необходимо потому, что в каждое наше предложение мы вкладываем весь наш опыт, то есть, наше знание о мире, включая прочитанное и пережитое. У машин же опыт иной, нечеловеческий. Роль маньяка-психолога ("А что вы этим имели в виду?") может играть и машина. Под постредактированием понимается доведение переведенного текста до правильно сказанного и благозвучного. Технические специалисты вполне в состоянии понять подстрочник перевода и сформулировать все корректно - так, как "обычно говорят". Заметим, что перевод бывает двух крайностей - технический, где смысл и термины должны быть переданы максимально точно, и политический, где главное - не растерять туман идей. В 80-х годах начали разрабатываться различные заказные системы перевода. Для ВВС США был разработан "Systran" - система перевода с русского языка на английский (www.systrasoft.com). Также Французско-Английская система для перевода авиационной документации и другие. И только в последнее время появились коммерческие системы перевода.

Многоязычные и двуязычные системы перевода
Обычно различают системы двуязычные и многоязычные. Двуязычные (bilingual) проектируются для перевода с одного конкретного языка на другой, и в процессе перевода они используют особенности, присущие именно заданным языкам. Например, когда мы переводим слово "стена" с русского на английский, нам не требуется знать, внутренняя или внешняя она по отношению к зданию, тогда как в немецком языке "стены" различаются: внутренняя зовется "Wand", а внешняя "Mauer".

В идеальной многоязычной системе процесс анализа языка не зависит от того, на каком языке должен быть представлен перевод. Такая система требует наличия interlingua. Этот язык, или точнее, представление входного текста, удобно делать не человеческим, а пригодным для машинной обработки, передачи и хранения.

UNL
И вот пришло время поговорить, наконец о UNL.

Японский проект UNL или Universal Network Language возник в связи с потребностью перевода документов при пересылке в Интернете. Основная идея Универсального Сетевого Языка состоит в том, чтобы любой желающий, задумав о чем-то поведать миру, смог отослать текст и японцу и украинцу, не задумываясь о том, на каком языке его послание захотят прочесть. Для этого он должен поступить так: взять переводчик со своего родного языка в UNL, перевести текст и отправить по почте или, например, положить на свою домашнюю страницу. И любой, кто захочет прочесть сообщение, должен будет с помощью сервера-посредника или с помощью транслятора на локальной машине перевести послание на свой родной язык.

UNL
 

Реализация этой идеи очень важна в качестве стандартного средства, ибо те, к сожалению, многие, кто не знает английского, буквально отрезаны от огромного информационного пространства, и им необходимо всегда ждать перевода.

Модуль, осуществляющий анализ естественного языка, называется в UNL "Deconverter". Модуль генерации - "Enconverter". Имея два таких модуля для одного языка, мы совершаем простой ход и объединяем их в UNL-редактор. Предположим, мы печатаем в нем текст. Его анализирует Enconverter, а результирующий UNL-текст переводит назад Deconverter, показывая нам то жалкое, что глупая железка уразумела из наших гениальных сентенций. Находя взаимопонимание с системой, мы избавляем текст от неоднозначностей (если необходимо, конечно), доводя текст до приемлемого для системы вида.

Лексикон UNL состоит из универсальных слов (Universal Words, UW). Если автор желает ввести новое слово, то он волен это сделать, если, правда, сумеет описать множество его значений. Существуют также и правила, по которым слово убирается из множества UW. При построении словаря UNL лингвисты всего мира пляшут от английского языка, и недаром. Догадайтесь, почему.

На реализацию проекта отведено 10 лет, и первые три из них предполагается потратить на создание модулей для Арабского, Китайского, Английского, Французского, Русского и Испанского языков. В дополнение к сказанному, в проекте участвуют испанцы, португальцы и индусы.

И последнее. Чтобы найти упоминание о UNL в Internet, не терзайте AltaVista, а просто обратитесь вот сюда: unl.ias.unu.edu.



Ваше имя:   E-mail:
Как вам материал?
Хороший   Так себе   Плохой
А длина?
В самый раз   Перебор   Слишком мало  
Ваше мнение:


АрхивСледующий материалКнига отзывов
К оглавлениюПредыдущий материалОбратная связь

Журнал "Интернет". Регистрационное свидетельство Госкомпечати РФ N. 016370 от 16.07.1997 г. Распространяется через сети розничной торговли, через компьютерные сети, а также путем подписки. Мнение редакции по тем или иным вопросам может не всегда совпадать с мнениями авторов. Редакция не несет ответственности за содержание рекламных материалов. Перепечтка или копирование запрещены, при цитировании ссылка на журнал "Интернет" обязательна.
Copyright © 1997 Журнал "Internet"
Copyright © 1997 Netskate
Netscate E-mail: imag@netskate.ru
Телефон: 245-45-84