Universal networking language что это
Что такое UNL?
Под UNL скрывается обозначение универсального сетевого языка, разрабатывающегося в настоящее время семнадцатью научными институтами, университетами, заинтересованными фирмами из разных стран под эгидой UNU/IAS.
Под аббревиатурой UNL скрывается обозначение универсального сетевого языка (The Universal Networking Language), разрабатывающегося в настоящее время семнадцатью научными институтами, университетами, заинтересованными фирмами и исследовательскими центрами из разных стран под эгидой Института передовых исследований токийского университета Организации Объединенных Наций ( UNU/IAS ).
В настоящее время люди используют для общения около трех тысяч языков и диалектов. На сорока языках говорит более трех миллиардов человек. В проекте UNL, реализация которого началась в апреле 1996 года (всего же он рассчитан на десять лет), ведутся в том числе работы по интеграции языков в систему. На данный момент задействовано шесть официальных языков ООН (арабский, китайский, английский, французский, русский и испанский), а также хинди, индонезийский, итальянский, японский, латышский, немецкий, монгольский, португальский, суахили и тайский. Русский язык «представляют» две организации: компания «СТАР СПб» и Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук.
Особенности языка UNL
Приведу, наконец, пример. Так, английскому слову dog в словаре UW будут среди прочих соответствовать такие концептуальные элементы:
Одним своим положением UNL несколько напоминает грамматику синтаксических групп (по А. В. Гладкому), а именно тем, что отношения могут быть сгруппированы, пронумерованы и объединены в совокупности, называемые scopes. Номер группы наравне с UW может выступать в качестве члена отношения, и ему (номеру) тоже можно приписывать атрибутивные метки, характеризующие всю совокупность. Подобное объединение совсем не обязательно, оно лишь помогает увидеть иерархию структуры в целом.
Значение английского предложения The dog caught a wild cat будет иметь следующее UNL-представление:
agt( catch (icl>#event).@past.@pred.@entry, dog (icl>animal).@def)
obj( catch (icl>#event).@past.@pred.@entry, cat (icl>animal).@indef)
mod( cat (icl>animal).@indef, wild (icl>#state, ant>domestic))
Несколько слов об устройстве системы UNL
Как система UNL будет работать
Создатели UNL планируют (при благоприятном развитии системы и достаточном финансировании) распространить сферу действия UNL на периодические издания, публикуемые в Интернете, на электронную почту и конференции, онлайновые библиотечные, научно-технические и информационно-поисковые системы, не говоря уже о публикациях таких организаций, как ООН и ЮНЕСКО. Представляете, вы пишете деловое письмо по-русски, а ваш партнер из Пекина получает его на китайском! Такие дела.
СОДЕРЖАНИЕ
Объем и цели
UNL разработан, чтобы установить простую основу для представления наиболее важных аспектов информации и значения в форме, независимой от машинного и человеческого языка. Будучи независимым от языка формализмом, UNL стремится кодировать, хранить, распространять и извлекать информацию независимо от исходного языка, на котором она была выражена. В этом смысле UNL стремится предоставить инструменты для систематического преодоления языкового барьера.
Тем не менее, важно отметить, что в настоящее время было бы глупо утверждать, что оно представляет «полное» значение любого слова, предложения или текста для любого языка. Тонкости намерения и интерпретации делают «полное значение», каким бы мы ни понимали его, слишком вариативным и субъективным для любого систематического рассмотрения. Таким образом, UNL избегает ловушек, связанных с попыткой представить «полное значение» предложений или текстов, ориентируясь вместо этого на «основное» или «согласованное» значение, наиболее часто приписываемое им. В этом смысле большая часть тонкости поэзии, метафор, образного языка, намеков и других сложных косвенных коммуникативных форм поведения выходит за рамки текущих целей и целей UNL. Вместо этого UNL нацелен на прямое коммуникативное поведение и буквальное значение как осязаемую, конкретную основу для большинства человеческих коммуникаций в практических повседневных условиях.
Состав
В подходе UNL информация, передаваемая естественным языком, представлена предложением за предложением в виде гиперграфа, состоящего из набора направленных двоичных помеченных ссылок (называемых отношениями ) между узлами или гиперузлами ( универсальные слова или просто UW ), которые обозначают концепции. UW также могут быть аннотированы атрибутами, представляющими контекстную информацию.
UW предназначены для представления универсальных концепций, но выражаются английскими словами или на любом другом естественном языке для удобства чтения. Они состоят из «заглавного слова» (корень UW) и «списка ограничений» (суффикс UW в скобках), где ограничения используются для устранения неоднозначности общей концепции, передаваемой заглавным словом. Набор UW организован в онтологии UNL, в которой концепции высокого уровня связаны с концепциями более низкого уровня через отношения «icl» (= является разновидностью), «iof» (= является экземпляром) и « equ «(= равно).
Отношения предназначены для представления семантических связей между словами на всех существующих языках. Они могут быть онтологическими (например, «icl» и «iof», упомянутые выше), логическими (например, «и» и «или») и тематическими (например, «agt» = агент, «ins» = инструмент, «tim» = время, «plc» = место и т. д.). В настоящее время в спецификациях UNL 46 отношений. Они совместно определяют синтаксис UNL.
Атрибуты представляют информацию, которая не может быть передана UW и отношениями. Обычно они представляют информацию, касающуюся времени («@past», «@future» и т. Д.), Ссылки («@def», «@indef» и т. Д.), Модальности («@can», «@must», и т. д.), фокус («@topic», «@focus» и т. д.) и т. д.
История
Программа UNL началась в 1996 году по инициативе Института перспективных исследований Университета Организации Объединенных Наций в Токио, Япония. В январе 2001 года Университет Организации Объединенных Наций учредил автономную организацию UNDL Foundation, которая отвечала за разработку и управление Программой UNL. Фонд, некоммерческая международная организация, имеет независимую идентичность от Университета Организации Объединенных Наций, хотя имеет особые связи с ООН. Он унаследовал от УООН / ИПИ мандат на реализацию Программы UNL, с тем чтобы он мог выполнять свою миссию.
В программе уже пройдены важные вехи. Общая архитектура системы UNL была разработана с набором базового программного обеспечения и инструментов, необходимых для ее функционирования. Они проходят испытания и улучшаются. За последние несколько лет было накоплено огромное количество лингвистических ресурсов по различным родным языкам, которые уже находятся в стадии разработки, а также по выражению UNL. Более того, техническая инфраструктура для расширения этих ресурсов уже существует, что облегчает участие многих других языков в системе UNL отныне. Ежегодно публикуется все больше научных работ и академических диссертаций по UNL.
Сборник 2000
Содержание
Модуль универсального сетевого языка (UNL)
в составе системы ЭТАП-3 [1]
И.М. Богуславский, Л.Л. Иомдин, Л.Г. Крейдлин, Н.Е. Фрид,
И.Л. Сагалова, В.Г. Сизов
Институт проблем передачи информации РАН
bogus@.iitp.ru, iomdin@.iitp.ru, lenya@.iitp.ru, nadya@.iitp.ru,
sagalova@.iitp.ru, sizov@.iitp.ru
1. Введение
ЭТАП-3 – это полифункциональная система обработки текста на естественном языке, которая разрабатывается с 1980-х гг. группой российских лингвистов, математиков и программистов в Институте проблем передачи информации РАН. В основу системы ЭТАП-3 положена теория «Смысл Û Текст», разработанная И.А. Мельчуком, и интегральная теория языка, разработанная Ю.Д. Апресяном.
ЭТАП-3 не является коммерческой разработкой, нацеленной на достижение конкретной прикладной цели. Наша основная задача – лингвистическое моделирование естественного языка и компьютерная реализация таких моделей. Этим объясняется наше стремление строить модели, как можно более адекватные с лингвистической точки зрения. Нередко в систему вводится обширная лингвистическая информация независимо от того, необходима она для повышения эффективности компьютерной обработки текста или нет. В частности, мы стремимся получать лингвистически корректные синтаксические структуры для каждого предложения не потому, что иначе предложение нельзя будет, например, правильно перевести на другой язык, а просто потому, что этого требует задача моделирования синтаксиса естественного языка. Впрочем, мы убеждены в том, что в конечном счете теоретическая адекватность и полнота лингвистической информации окупаются и с чисто практической точки зрения.
Во всех приложениях ЭТАПА-3 используются оригинальная система трехзначной логики и детально разработанный формальный язык лингвистического описания FORET (см. Апресян и др. 1992а, Apresjan et al. 1992b).
2. Этап-3: модули, свойства, архитектура, реализация
2.1. Модули
Система ЭТАП-3 содержит следующие основные модули:
Ниже мы кратко охарактеризуем все эти модули, а на одном из них – модуле UNL – остановимся более подробно.
2.1.1. Система машинного перевода ЭТАП-3
Основной модуль ЭТАПа-3 – это система машинного перевода (МП), обслуживающая пять пар языков. Имеются системы для перевода: (1) с английского языка на русский, (2) с русского на английский, (3) с русского на корейский, (4) с русского на французский и (5) с русского на немецкий.
К настоящему моменту наиболее детально разработаны первые две системы. Система перевода с английского языка на русский и с русского на английский, которую можно рассматривать как единый двунаправленный модуль, предназначена для перевода реальных текстов, преимущественно научно-технической тематики. Наилучшие результаты получены для текстов по вычислительной технике, электротехнике, экономике и политике, поскольку комбинаторные словари рабочих языков системы (каждый содержит около 50 000 словарных статей) преимущественно ориентированы на лексику этих предметных областей. Однако ЭТАП-3 справляется и с текстами на бытовые темы, так как в последнее время словари были существенно пополнены бытовой лексикой. Для каждой лексемы в комбинаторном словаре приводятся ее синтаксические, словообразовательные, семантические и словообразовательные признаки, ее модель управления, а также сведения об устойчивых словосочетаниях с данной лексемой.
Кроме того, имеется русский морфологический словарь (100 000 словарных статей), который помимо сугубо морфологической информации содержит базовые синтаксические сведения о лексеме и ее приблизительный переводной эквивалент. Такую же структуру имеет и английский морфологический словарь (60 000 словарных статей). В основу системы положены исчерпывающие грамматические описания английского и русского языков, составленные разработчиками ЭТАПА-3.
Для остальных пар языков системы перевода существуют на уровне прототипов.
Если на вход ЭТАПа-3 поступает омонимичное предложение и система не может разрешить эту омонимию, то на выходе предлагаются несколько вариантов перевода. Во всех прочих случаях система выдает одну, наиболее правдоподобную, синтаксическую структуру и один, наиболее вероятный, перевод. Если же пользователь системы хочет получить все возможные переводы, он может выбрать соответствующую опцию, и система «вспомнит» все случаи неразрешенной омонимии и выдаст все возможные синтаксические структуры предложения с допустимыми для них лексическими наполнениями. Рассмотрим один реальный пример. Предложение They made a general remark that. при выбранной опции «все варианты перевода» было переведено на русский язык двумя способами, которые различаются как синтаксическими структурами, так и выбором лексики: (а) Они сделали общее замечание, что… и (б) Они вынудили генерала отметить, что…
2.1.2. Естественно-языковой интерфейс для баз данных
Данный модуль системы ЭТАП-3 переводит запросы, заданные в свободной форме на естественном языке (английском или русском), в выражения языка запросов SQL. Модуль также осуществляет перевод с SQL на естественный язык. В основу модуля положен разработанный специально для этой цели семантический компонент, который переводит глубинно-синтаксическую структуру в формально-семантическое представление, от которого можно легко перейти к представлению на языке SQL.
2.1.3. Система синонимического перифразирования
Этот модуль предназначен для проведения лингвистических экспериментов по получению разнообразных синонимических и квазисинонимических перифраз русских и английских предложений. В основу системы положен аппарат лексических функций, одно из важнейших нововведений теории «Смысл Û Текст». Результат работы модуля синонимического перифразирования можно проиллюстрировать на следующем примере:
(1) The director ordered John to write a report – The director gave John an order to write a report – John was ordered by the director to write a report – John received an order from the director to write a report.
Данное направление лингвистических исследований представляется весьма перспективным, так как может иметь самое разнообразное применение, например, в обучении родному и иностранному языку, в авторских системах и системах планирования текста.
2.1.4. Корректор синтаксических ошибок
2.1.5.Система обучения языку с помощью компьютера
Этот модуль представляет собой автономное программное приложение, а именно, компьютерную игру в виде диалога. Эту программу можно использовать при обучении русскому, английскому и немецкому языку как иностранному. Игра предназначена для тех, кто уже хорошо овладел языком, но хотел бы расширить свой словарный запас, прежде всего, за счет устойчивых словосочетаний и средств перифразирования. В основу системы положен аппарат лексических функций. Программу также могут с успехом использовать и носители вышеперечисленных языков, желающие обогатить свой словарный запас (например, журналисты, учителя и даже политики).
2.1.6. Рабочее место для синтаксической разметки корпуса текстов.
Этот недавно разработанный модуль использует словари ЭТАПа-3, а также морфологический и синтаксический анализаторы системы для построения первого синтаксически размеченного корпуса русских текстов. Это приложение смешанного типа: древесная структура, полученная в результате автоматического анализа, редактируется затем человеком с помощью удобных графических средств.
2.2. Основные свойства системы
Среди основных черт системы ЭТАП-3 в целом и отдельных ее модулей можно отметить следующие:
В настоящей версии ЭТАПа-3 все модули используют только алгоритмы, основанные на правилах. Однако в ряде недавно проведенных экспериментов модуль МП был дополнен компонентом, основанным на обращении к архиву переводов (translation memory), а также статистическим компонентом, который полуавтоматически извлекает переводные эквиваленты из двуязычных корпусов текстов (см. Iomdin & Streiter 1999).
Как и многие другие системы обработки текста на естественном языке, ЭТАП-3 характеризуется уровневым подходом. В ходе обработки каждое предложение проходит несколько стадий и на каждой стадии представляется в виде некоторой структуры: 1) морфологической, 2) синтаксической и 3) нормализованной (или глубинно-синтаксической). Собственно перевод (трансфер) осуществляется на уровне нормализованной синтаксической структуры, т.е. английские нормализованные структуры преобразуются в соответствующие русские нормализованные структуры и наоборот.
ЭТАП-3 характеризуется лексикалистским подходом в том отношении, что информация, записываемая в словаре, признается такой же важной, как и информация, фиксируемая в грамматике. Соответственно, словари ЭТАПа-3 содержат существенно больше информации, чем словари, используемые в других аналогичных системах. Словарная статья ЭТАПа-3 содержит, помимо имени лексемы, сведения о синтаксических и семантических признаках лексемы, ее модель управления, переводной эквивалент, разнообразные правила, а также значения лексических функций, ключевым словом которых является данная лексема. Синтаксические признаки слова характеризуют его способность или неспособность выступать в тех или иных синтаксических конструкциях. Слову может приписываться несколько синтаксических признаков из общего списка, содержащего более 200 признаков. Семантические признаки необходимы для проверки семантического согласования между словами в предложении. Модель управления слова содержит информацию о поверхностном выражении актантов данного слова (например, слово может управлять тем или иным предлогом или союзом или той или иной падежной формой имени). Важнейшей составляющей словарной статьи являются правила. Все правила в ЭТАПе-3 распределяются между грамматикой и словарем. Грамматические правила более общие и применяются к широким классам слов, в то время как правила, упоминаемые в словарных статьях (непосредственно или с помощью отсылки) применяются к небольшим группам слов или даже к отдельным словам. Подобная организация правил обеспечивает автоматическую настройку системы на обработку каждого отдельного предложения. В процессе перевода активируются только те правила, отсылка к которым в явном виде содержится в словарных статьях слов, содержащихся в предложении.
Приведем в качестве иллюстрации фрагмент словарной статьи английского слова chance:
Разрабатывая систему ЭТАП-3, мы стремились построить ее компоненты таким образом, чтобы их можно было использовать в самых разных целях. В частности, основные грамматические и словарные ресурсы системы используются во всех ее модулях. Так, например, русские словари используются на этапе анализа при переводе с русского языка на английский и на этапе синтеза при переводе с английского языка на русский; одни и те же словари используются в модуле МП, в системе перифразирования, в синтаксически размеченном корпусе и др. Более того, некоторые из ресурсов системы могут «отчуждаться» от нее и, пройдя доработку в зависимости от требований заказчика, использоваться в различных системах обработки естественно-языковых текстов.
2.3.Общая архитектура системы ЭТАП-3
Чтобы дать общее представление о функционировании системы ЭТАП-3, мы приводим общий алгоритм модуля МП (Схема 1). Все остальные модули можно, с известной оговоркой, рассматривать как производные от данного.
МОДУЛЬ МАШИННОГО ПЕРЕВОДА СИСТЕМЫ ЭТАП-3
(АРХИТЕКТУРА)
Морфологическая структура (выходная)
Синтаксическая структура (выходная)
Комбинаторный словарь (выходной)
Комбинаторный словарь (входной)
Морфологический словарь (выходной)
Морфологический словарь (входной)
Морфологическая структура (входная)
Синтаксическая структура (входная)
Нормализованная структура (входная)
Нормализованная структура (выходная)
2.4. Реализация
Система ЭТАП-3 была реализована на вычислительной машине MicroVax (операционная система VMS). Недавно было создано новое программное обеспечение для работы с ЭТАПом-3 на персональных компьютерах под Windows NT 4.0, что позволяет лексикографу использовать целый ряд дополнительных инструментов и более эффективно поддерживать и редактировать словари.
3. Интерфейс для языка UNL
3.1 Предпосылки и цели
Модуль UNL разрабатывается в рамках обширного международного проекта, ставящего перед собой весьма амбициозную цель: преодолеть, по крайней мере, частично, языковой барьер, разделяющий пользователей Интернета. Несмотря на то, что с возникновением Интернета временные и пространственные барьеры между людьми практически исчезли, пользователи Интернета продолжают быть разделенными языковым барьером. Это, по-видимому, является главной помехой на пути к успешной международной и межличностной коммуникации в информационном обществе. Разнообразие языков, на которых говорят пользователи Интернета, было осознано как одна из насущных проблем человечества. Во всяком случае, об этом свидетельствует тот факт, что проект, ставящий целью эту проблему разрешить, проводится под эгидой ООН и координируется Институтом перспективных исследований при Университете ООН.
Проект был основан в 1996 г. В настоящее время в проекте участвуют 15 университетов и научно-исследовательских институтов из Бразилии, Германии, Индии, Индонезии, Иордании, Испании, Италии, Китая, Латвии, Монголии, России, Таиланда, Франции и Японии.
Ожидается, что в ближайшие годы к проекту присоединятся коллективы и из других стран, так что в конечном счете планируется охватить государственные языки всех стран-членов ООН
Таким образом, данный проект принципиально отличается от традиционного машинного перевода. Прежде всего, входом для порождения текстов на разных естественных языках, служит структура UNL, качество которой не зависит от несовершенства процедур анализа текстов. В процессе интерактивного построения UNL структуры редактор будет просматривать результаты работы автоматического энконвертора, исправлять ошибки и разрешать оставшуюся многозначность. Затем редактор может запустить деконвертор и перевести отредактированное им UNL выражение на свой родной язык, чтобы проверить результаты своей работы и при необходимости внести в это выражение дополнительные изменения.
Другое важное отличие системы UNL от машинного перевода заключается в том, что выражения на языке UNL можно порождать и хранить вне всякой зависимости от тех естественных языков, на которые эти тексты будут переводиться. UNL можно рассматривать как универсальный способ представления значения. Чтобы обработать текст на UNL автоматически – например, проиндексировать его, провести по нему поиск или извлечь из него информацию, необязательно переводить этот текст на естественный язык. Последнее необходимо только в том случае, если с текстом будет работать человек.
Энконвертор и деконвентор для каждого естественного языка образуют языковой сервер, который планируется разместить в Интернете. Все языковые серверы будут связаны в единую сеть UNL, что позволит пользователю Интернета переводить любой документ с UNL на свой собственный язык, а также переводить на UNL те тексты, которые он хочет сделать общедоступными.
3.2 Язык UNL
Каждое УС соответствует некоторому английскому слову. Некоторые слова имеют семантические ограничители, которые уточняют значения этих слов. В большинстве случаев ограничители указывают место концепта в базе знаний. Это делается следующим образом. Универсальное Слово вида A (icl>B) интерпретируется как ‘A относится к категории B’. Например, УС coach без каких-либо ограничителей имеет те же значения, что и английское слово coach в целом. Чтобы уточнить значение слова, используются ограничители. Так, выражение coach (icl>transport) следует понимать как ‘coach как транспортное средство’, то есть, автобус; выражение coach (icl>human)имеет интерпретацию ‘ coach как человек’, то есть, тренер, а выражение coach (icl>do) – интерпретацию ‘ coach как разновидность действия’, то есть глагол тренировать. Иными словами, аппарат ограничителей позволяет представить УС как английской слово, взятое ровно в одном значении. Кроме того, ограничители позволяют ввести концепты, для которых в английском языке отсутствуют однословные обозначения. Например, в русском языке имеется обширная группа глаголов движения, в значение которых входит указание на способ или средство перемещения: прилететь, приплыть, приползти, прибежать и др. Для глаголов этой группы отсутствуют однословные английские соответствия. Однако на основе английских слов можно построить УС, близкие им по смыслу, например, come (met>ship) означает ‘прибыть, причем средством передвижения является корабль’.
Приведем пример выражения на языке UNL, соответствующего английскому предложению
(2) However, language differences are a barrier to the smooth flow of information in our society.
Каждая строка UNL структуры представляет собой выражение вида отношение (УС1, УС2). Для простоты семантические ограничители при универсальных словах опущены.
3.3. Перевод с UNL на русский язык в системе ЭТАП-3
В то же время имеются и существенные различия между выражениями языка UNL и НормСС:
2.1. Значение УС может соответствовать сразу нескольким значениям одного слова (см. выше).
2.2. Они могут соответствовать свободному словосочетанию (например, computer-based или high-quality).
2.3. Они могут соответствовать некоторой форме слова (например, слово best является формой слова good или well).
2.4. Они могут обозначать концепт, для которого нет прямого соответствия в английском языке.
НормСС предложения (2) выглядит следующим образом:
Поскольку УС языка UNL обозначаются английскими лексемами, представляется
целесообразным осуществить переход от представления на языке UNL к русскому предложению через посредство английской НормСС, которая будет служить промежуточным представлением (ПП). Это обеспечит наиболее простой переход от выражения на языке UNL к русскому предложению.
Таким образом, весь процесс перехода от выражения на языке UNL к русскому предложению осуществляется в три шага.
Схема 3
Первый из этих шагов представляет собой интерфейс между языком UNL и системой ЭТАП-3, а остальные осуществляются стандартными средствами англо-русского модуля системы ЭТАП-3.
Алгоритм перевода с UNL на русский язык показан на схеме 3.
Как следует из вышесказанного, переход от выражения на языке UNL к НормСС должен решать следующие пять задач:
Таким образом, все эти задачи решаются либо при помощи словарей, либо при помощи правил. Правила подразделяются на три класса в зависимости от степени универсальности: различаются ОБЩИЕ, ТРАФАРЕТНЫЕ и СЛОВАРНЫЕ правила. Общие правила могут активироваться при обработке любого предложения. Два других типа правил применяются только в том случае, если в обрабатываемом предложении имеется слово, которое содержит отсылку к некоторому правилу (в случае трафаретного правила) или само правило (в случае словарного правила). Подобная организация правил обеспечивает автоматическую настройку системы: активируются только те правила, которые требуются для обработки того или иного предложения.
3.4. Настоящее положение дел и планы на будущее
Экспериментальная версия модуля перевода с UNL на русский доступна по адресу http://proling.iitp.ru/Deco. К лету 2000 г. мы планируем сделать модуль пригодным для общего пользования. Следующей нашей задачей будет создание интерактивного энконвертора.
Как явствует из схемы 3, интерфейс между UNL и структурами, с которыми работает модуль машинного перевода ЭТАП-3 осуществляется на уровне английской НормСС. Из этой же схемы видно, что английский перевод исходного UNL выражения является естественным побочным продуктом такой архитектуры. Для этого достаточно направить английскую НормСС на синтез. Уже проведен ряд успешных экспериментов в этом направлении.
Литература
Igor Boguslavsky (1995). A bi-directional Russian-to-English machine translation system (ETAP-3). // Proceedings of the Machine Translation Summit V. Luxembourg.
Leonid Iomdin & Oliver Streiter. (1999). Learning from Parallel Corpora: Experiments in Machine Translation. // Dialogue’99: Computational Linguistics and its Applications International Workshop. Tarusa, Russia, June 1999. Vol.2, pp. 79-88.
[1] Исследование, которому посвящена данная статья, проводилось при частичной финансовой поддержке Российского Фонда Фундаментальных Исследований (грант № 99-06-80277).