Рассмотрены проблемы пополнения компьютерного семантического словаря новыми словами, встреченными в тексте при его анализе. Предлагаемая для этого система работает в полуавтоматическом диалоговом режиме. На первом этапе определяются морфологические характеристики нового слова, на втором – его синтактико-семантические параметры по аналогам, имеющимся в существующем словаре. Предлагаемые подходы обеспечивают высокий уровень точности. Впервые появилась возможность указания точной семантики новых слов с учетом не только семантических классов, но и аргументов, обеспечивающих связь с подсоединяемыми словами.
В конце апреля на конференции «Российские интернет-технологии» (РИТ++/2011) компания PROMT представила доклад о своей новой разработке в области машинного перевода.
Гибридная технология PROMT совмещает в себе метод машинного перевода, основанный на правилах (его сейчас используют разнообразные решения PROMT и онлайн-сервис компании Translate.Ru), и статистический метод.
Это позволяет сохранить основное преимущество традиционной технологии PROMT – создание связного и грамматически правильного перевода – и прибавить к нему сильные стороны статистического метода – быстрое добавление терминологии из двуязычного текста и обеспечение гладкости получаемого текста.
5. Пример морфологического словаря системы АОТ Таблица Lemmata содержит перечень всех лемм данного словаря, для каждой леммы даны ее свойства: 1. псевдооснова слова (общая для всех словоформ данного слова подстрока), 2. ссылка на набор окончаний 3. ссылка на набор ударений 4. ссылка на набор приставок 5. ссылка на пользовательскую сессию, при которой была внесено последнее изменение этой записи 6. cсылка на общие граммемы данной леммы Таблица FlexiaModels cодержит перечень возможных окончаний всех лемм. 1. Поле PrefixStr содержит префикс данной словоформы (возможно, пустой) 2. Поле FlexiaStr содержит окончание данной словоформы (возможно, пустое) 3. Поле Ancode содержит морфологическую интерпретацию данной словоформы. Таблица AccentModels содержит перечень возможных номеров ударных гласных для словоформ. Таблица Ancodes содержит все возможные морфологические интерпретации. Поле PartOfSpeech содержит часть речи (C,Г,П,...), а полеGrammems набор граммем, типа «мр,но,ед,им».