О чем, собственно, речь   Машинный перевод Былое и думы Опыт работы над системой  машинного перевода  в компании  SYSTRAN  (2004-2006) Alexandre Grebenkov [email_address]
Планчик   Немного истории Компания  SYSTRAN Система  SYSTRAN Опыт разработки (былое) Актуальное (думы)
Немного истории   1. 1947 – Warren Weaver, Andrew Booth, Norbert Wiener : "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.''
Немного истории   2. 19 54  –  Georgeto wn experiment словарь порядка 200 слов 6 грамматических правил 60 русских предложений Как следствие возникновение многих исследовательских групп, ориентированных на создание машинного перевода
Немного истории   3. 19 66  –  Доклад  ALPAC Yohoshua Bar-Hillel :  “ John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. ”  (1959) Как следствие свертывание большинства исследовательских групп, ориентированных на создание машинного перевода
Немного истории 4 . 19 68  –  Образование  SYSTRAN Dr. Peter Toma, California 1. Поддержка системы, разработанной в недрах  United States Department of Defense 2. Работа для/с Еврокомиссией *. Проект Союз-Апполон (1973) тишина до 1986 года… ( Gachot,  французская компания)
Компания  SYSTRAN   SYSTRAN = PROMT in the world in Russia Более 90% рынка Доход в 2007 году  ~ 13 млн евро Акции торгуются на бирже
Компания  SYSTRAN   Штаб-квартира в Париже Grande Arche de la D éfense
Компания  SYSTRAN   Филиал в Сан-Диего California
Компания  SYSTRAN   Организация Численность -- порядка 100 человек  (50 в Париже, 50 в Сан-Диего) R&D  и директорат в Париже Продажи и маркетинг   в Сан-Диего Гендиректор  Dimitris Sabatakakis http://www.systran.fr/ http://www.systran. ru /
Компания  SYSTRAN   Заказчики Большие корпорации  (70%) Интернет-компании  (28%) Обычные пользователи  (2%) 1.  Ford, General Motors, Oracle, Symantec, Gaumont, DaimlerChrysler, Cisco 2. aol, yahoo, altavista, babelfish,  -google, +windows
Компания  SYSTRAN Классификация систем  машинного перевода  Классический ( MT, LMT ),  Systran, Promt Т ranslation Memory (TM),  ассоциативная память,  Promt, Trados Статистический ( SMT ) , Google SYSTRAN –  это Голиаф классического подхода ,  это тысячи человеко-лет.
Система  SYSTRAN Переводчик в разных видах Серверные решения, много десятков тысяч   евро, контракты на много лет Настольные решения ( Windows, Linux, Unix ), стоимость от 80 евро до 1000 Мобильные решения ( PocketPC, wap )   до сих пор не выпущены
Система  SYSTRAN Команда  R&D   Руководитель :   Jean Senellart Соотношение лингвистов и программистов 3 к 1 Порядка 10 млн строк кода только в программах  SYSTRAN , а словари никто и не считал. Число программистов, работающих над ядром… 5 включая руководителя.
Система  SYSTRAN Языковые пары   Качественный перевод: англо-франко-английский, англо-немецко-английский, немецко-франко-немецкий, русско-английский Средний перевод: европейские языки Восточные языки :  арабский, японский, китайский, корейский Экзотика: урду, хинди А вообще, 52 пары
Система  SYSTRAN Гы-гы-гы или  оценка качества перевода  Ээээ… нууу… ээээ… так сказать… Скажем так, для больших объемов текста это очень круто, когда можно примерно понять, о чем идет речь.
Система  SYSTRAN Оценка качества перевода  (серьезная версия) BLEU, NIST Система  SYSTRAN  показывает хорошие результаты относительно других переводчиков, а по основным парам перевода она является лидером.
Система  SYSTRAN Опыт работы или « здраствуйте ,  кажетсь ,  у вас есть  ош u бка » Работа над ядром системы Работа над лингвистическими движками Ответственный за  RU-EN-RU Разработка  RU-FR-RU Разработка независимого трансфера Всякое, разное, прочее
Система  SYSTRAN Архитектура Ядро системы (С++) Лингвистические движки (С) Оболочка (С++) Лингвистические ресурсы Внутренние инструменты ( perl )
Система  SYSTRAN Лингвистический движок  (теория) Модуль анализа Модуль трансфера Модуль синтеза Лингвистические ресурсы
Система  SYSTRAN Лингвистический движок  (жизнь) Модули разбиваются над сабмодули: лексический, снятия омонимии  etc. Модули не независимы: анализ связан с трансфером и синтезом. Нет четкого разделения между морфологией, синтаксисом и семантикой Нет четкого разделения между кодом и ресурсами Процесс перевода построен на использовании индексов  ( более 120 индексов )
Система  SYSTRAN Лингвистический движок  (код) Движки были написаны в цифровом коде в 60 годах В 70-80 их переписали в ассемблере В начале 90 их переписали в ассемблероподобном СИ. В середине 90 разобрались с некоторыми техническими моментами (использование  Unicode,  современные библиотеки). С тех пор их боятся, и никто не трогает Код необычайно уязвим.
Система  SYSTRAN В чем проблема  Сложность задачи Организация работы Бизнес-подход Невозможность решить задачу академически
Система  SYSTRAN Как сделать лучше Централизованное решение (а-ля  multitran.ru ) Объединение статистики и классики
Система  SYSTRAN GALE (new DARPA project) Global Autonomous Language Exploitation   Полное разрешение  проблемы распознавания речи и  автоматического перевода 1  млрд долларов на 10 лет

Ag Systran 2008 04 26

  • 1.
    О чем, собственно,речь Машинный перевод Былое и думы Опыт работы над системой машинного перевода в компании SYSTRAN (2004-2006) Alexandre Grebenkov [email_address]
  • 2.
    Планчик Немного истории Компания SYSTRAN Система SYSTRAN Опыт разработки (былое) Актуальное (думы)
  • 3.
    Немного истории 1. 1947 – Warren Weaver, Andrew Booth, Norbert Wiener : "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.''
  • 4.
    Немного истории 2. 19 54 – Georgeto wn experiment словарь порядка 200 слов 6 грамматических правил 60 русских предложений Как следствие возникновение многих исследовательских групп, ориентированных на создание машинного перевода
  • 5.
    Немного истории 3. 19 66 – Доклад ALPAC Yohoshua Bar-Hillel : “ John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. ” (1959) Как следствие свертывание большинства исследовательских групп, ориентированных на создание машинного перевода
  • 6.
    Немного истории 4. 19 68 – Образование SYSTRAN Dr. Peter Toma, California 1. Поддержка системы, разработанной в недрах United States Department of Defense 2. Работа для/с Еврокомиссией *. Проект Союз-Апполон (1973) тишина до 1986 года… ( Gachot, французская компания)
  • 7.
    Компания SYSTRAN SYSTRAN = PROMT in the world in Russia Более 90% рынка Доход в 2007 году ~ 13 млн евро Акции торгуются на бирже
  • 8.
    Компания SYSTRAN Штаб-квартира в Париже Grande Arche de la D éfense
  • 9.
    Компания SYSTRAN Филиал в Сан-Диего California
  • 10.
    Компания SYSTRAN Организация Численность -- порядка 100 человек (50 в Париже, 50 в Сан-Диего) R&D и директорат в Париже Продажи и маркетинг в Сан-Диего Гендиректор Dimitris Sabatakakis http://www.systran.fr/ http://www.systran. ru /
  • 11.
    Компания SYSTRAN Заказчики Большие корпорации (70%) Интернет-компании (28%) Обычные пользователи (2%) 1. Ford, General Motors, Oracle, Symantec, Gaumont, DaimlerChrysler, Cisco 2. aol, yahoo, altavista, babelfish, -google, +windows
  • 12.
    Компания SYSTRANКлассификация систем машинного перевода Классический ( MT, LMT ), Systran, Promt Т ranslation Memory (TM), ассоциативная память, Promt, Trados Статистический ( SMT ) , Google SYSTRAN – это Голиаф классического подхода , это тысячи человеко-лет.
  • 13.
    Система SYSTRANПереводчик в разных видах Серверные решения, много десятков тысяч евро, контракты на много лет Настольные решения ( Windows, Linux, Unix ), стоимость от 80 евро до 1000 Мобильные решения ( PocketPC, wap ) до сих пор не выпущены
  • 14.
    Система SYSTRANКоманда R&D Руководитель : Jean Senellart Соотношение лингвистов и программистов 3 к 1 Порядка 10 млн строк кода только в программах SYSTRAN , а словари никто и не считал. Число программистов, работающих над ядром… 5 включая руководителя.
  • 15.
    Система SYSTRANЯзыковые пары Качественный перевод: англо-франко-английский, англо-немецко-английский, немецко-франко-немецкий, русско-английский Средний перевод: европейские языки Восточные языки : арабский, японский, китайский, корейский Экзотика: урду, хинди А вообще, 52 пары
  • 16.
    Система SYSTRANГы-гы-гы или оценка качества перевода Ээээ… нууу… ээээ… так сказать… Скажем так, для больших объемов текста это очень круто, когда можно примерно понять, о чем идет речь.
  • 17.
    Система SYSTRANОценка качества перевода (серьезная версия) BLEU, NIST Система SYSTRAN показывает хорошие результаты относительно других переводчиков, а по основным парам перевода она является лидером.
  • 18.
    Система SYSTRANОпыт работы или « здраствуйте , кажетсь , у вас есть ош u бка » Работа над ядром системы Работа над лингвистическими движками Ответственный за RU-EN-RU Разработка RU-FR-RU Разработка независимого трансфера Всякое, разное, прочее
  • 19.
    Система SYSTRANАрхитектура Ядро системы (С++) Лингвистические движки (С) Оболочка (С++) Лингвистические ресурсы Внутренние инструменты ( perl )
  • 20.
    Система SYSTRANЛингвистический движок (теория) Модуль анализа Модуль трансфера Модуль синтеза Лингвистические ресурсы
  • 21.
    Система SYSTRANЛингвистический движок (жизнь) Модули разбиваются над сабмодули: лексический, снятия омонимии etc. Модули не независимы: анализ связан с трансфером и синтезом. Нет четкого разделения между морфологией, синтаксисом и семантикой Нет четкого разделения между кодом и ресурсами Процесс перевода построен на использовании индексов ( более 120 индексов )
  • 22.
    Система SYSTRANЛингвистический движок (код) Движки были написаны в цифровом коде в 60 годах В 70-80 их переписали в ассемблере В начале 90 их переписали в ассемблероподобном СИ. В середине 90 разобрались с некоторыми техническими моментами (использование Unicode, современные библиотеки). С тех пор их боятся, и никто не трогает Код необычайно уязвим.
  • 23.
    Система SYSTRANВ чем проблема Сложность задачи Организация работы Бизнес-подход Невозможность решить задачу академически
  • 24.
    Система SYSTRANКак сделать лучше Централизованное решение (а-ля multitran.ru ) Объединение статистики и классики
  • 25.
    Система SYSTRANGALE (new DARPA project) Global Autonomous Language Exploitation Полное разрешение проблемы распознавания речи и автоматического перевода 1 млрд долларов на 10 лет