А.Костюченко -- технология Compreno фирмы ABBYY
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

А.Костюченко -- технология Compreno фирмы ABBYY

  • 10,588 views
Uploaded on

Доклад Александра Костюченко "Технология анализа текстов и перевода Compreno фирмы ABBYY" на 58 заседании Русского ...

Доклад Александра Костюченко "Технология анализа текстов и перевода Compreno фирмы ABBYY" на 58 заседании Русского отделения INCOSE, 8 февраля 2012 года

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
  • А вы не обратили внимание, что вы откомментировали не мою презентацию? Там другая фамилия. Чем я занимаюсь, читайте в http://ailev.ru
    Are you sure you want to
    Your message goes here
  • А чего там дискутировать?! Либо вы работаете с этой технологией (как мы -- мы ведём с ней эксперименты), либо разговариваете о ней, не попробовав. Предложите свою технологию, мы и её попробуем. Пока вашей нету -- работаем с лучшей, т.е. Compreno. Пока наш опыт положительный.
    Are you sure you want to
    Your message goes here
  • @ailev
    Что касается так называемой технологии Compreno, то, извините, это просто надувательство публики.
    Интересно, что никто из авторов Compreno не вступает со мною в какую-либо дискуссию на предмет задекларированных возможностей 'понимания смысла' и 'извлечения знаний'.
    Are you sure you want to
    Your message goes here
  • @ailev
    Честно говоря, Анатолий Игоревич, из Ваших презентаций я так и не понял, чем Вы занимаетесь, хотя интуитивно понимаю, что очень важным и интересным.
    У меня сложилось мнение, что компьютерная лингвистика бессильна решать задачи там, где требуется ОСМЫСЛЕНИЕ и извлечение ЗНАНИЙ.
    Are you sure you want to
    Your message goes here
  • Эдуард, полностью с вами согласен. Именно мы поэтому работаем с компьютерными лингвистами, добавляя наши знаниевые технологии (см, например http://dot15926.livejournal.com/33691.html и там ссылку на более подробную презентацию).
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
10,588
On Slideshare
4,043
From Embeds
6,545
Number of Embeds
34

Actions

Shares
Downloads
43
Comments
6
Likes
5

Embeds 6,545

http://roem.ru 5,112
http://lj-toys.com 482
http://feedly.com 362
http://l.lj-toys.com 354
http://www.inoreader.com 29
http://m.roem.ru 29
http://inoreader.com 27
http://digg.com 25
http://my.ya.ru 18
http://reader.aol.com 16
http://www.newsblur.com 12
http://ivast.siliconrus.com 11
http://www.tetiva.biz 10
http://feeds.feedburner.com 9
http://roem.trin.2tfarm.ru 8
http://newsfeed.aemedia.ru 7
http://beta.inoreader.com 5
https://reader.aol.com 4
http://newsblur.com 3
http://roem.t30p.ru 3
http://feedreader.com 3
http://tetiva.biz 2
http://roemru.ya.ru 2
http://roem.ru. 2
http://webcache.googleusercontent.com 1
http://vbros.org 1
http://login.mlg.ru 1
http://my.yandex.ru 1
http://subscribe.ru 1
http://www.ustart.org 1
http://92.50.194.162 1
http://beta.bazqux.com 1
http://www.hopesandfears.com 1
http://www.roem.ru 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Мы разделяем наши технологии на две большие группы: это распознавание, необходимое для трансформации данных отображенных на бумажном носителе, в электронный, editable формат, их трансформации в удобные пользователю форматы и Семантико-синтаксический Анализ, необходимый для корректного перевода текста, позволяющий с невероятной эффективностью искать нужные факты в массивах неструктурированных данных. Именно со второй технологи е й мы пришли в Сколково и на ней более детально остановимся.
  • Хотя все люди на земле говорят разными словами, но мыслят они очень похожими понятиями. Все люди ходят на работу, сидят дома, работают на компьютерах, составляют договоры, летают на самолетах, ведут переговоры. Для них строятся похожие бизнес-центры, они находятся в похожих помещениях и пользуются похожей мебелью. Все эти понятия и их взаимоотношения в разных развитых цивилизациях имеют гораздо больше общего, чем различного. Универсальная семантическая иерархия – это дерево понятий, универсальное для всех языков, толстые ветви которого являются более общими и универсальными понятиями (например, «движение»), а тонкие – более специфическими, но тоже универсальными понятиями (например, «плавать»). Древесная структура позволяет обеспечить наследование свойств от предков к потомкам, благодаря которому описание новых понятий происходит быстрее. Так, например, чтобы описать понятие «приказ», уже не надо перечислять все характеристики понятия «документ».
  • А вот пример, как Универсальный класс связан с Понятиями конкретного языка. К каждому универсальному понятию в дереве мы присоединяем конкретные слова и словосочетания. При синтаксическом анализе и построении семантического представления, мы переходим от Исходного языка к Универсальному языку, языку Понятий и Смыслов. Затем при Синтезе мы переходим от Универсального языка к целевому языку Перевода. Например, Русский-Универсальный-Английский.
  • При подключении нового языка, например, Французского, достаточно только описать переход от Французского к Универсальному и от Универсального к Французскому. И мы автоматом получаем пары переводов: RU <> EN , RU <> FR , EN <> FR . Добавляя Немецкий, мы получаем уже пары переводов: RU <> EN , RU <> FR , EN <> FR , RU <> DE , DE <> FR , EN <> DE .
  • При подключении нового языка, например, Французского, достаточно только описать переход от Французского к Универсальному и от Универсального к Французскому. И мы автоматом получаем пары переводов: RU <> EN , RU <> FR , EN <> FR . Добавляя Немецкий, мы получаем уже пары переводов: RU <> EN , RU <> FR , EN <> FR , RU <> DE , DE <> FR , EN <> DE .
  • Второй, но не менее важной частью технологии является полный синтаксический разбор текста. Синтаксис – это способ «кодирования» семантических отношений (или «слов», выражающих эти понятия) в конкретном языке. Сами семантические отношения универсальны, а способы их реализации в каждом языке – свои. В каких-то языках установлен линейный порядок, в других используются падежи, предлоги, специальные служебные слова, где-то используется все сразу. Для каждого языка синтаксическое описание делается заново, но сами средства, которые разные языки используют для кодирования смысла, перечислимы. При описывании нового языка, используется конструктор для его описания (тот же линейный порядок, различные типы синтаксических преобразований, грамматические значения, предлоги, специальные конструкции ). Используя семантическую иерархию, синтаксическое описание языка, а также статистику взаимоотношений между понятиями, технология Compreno производит полный анализ текста. Исходный текст разбирается с учетом синтаксиса, специфичного для данного конкретного языка, и с использованием информации о семантическом поведении слов в исходном тексте. В итоге текст преобразуется в универсальное для всех языков представление связанных между собой универсальных понятий, и это представление по сути выражает СМЫСЛ сказанного. Далее этот СМЫСЛ можно переводить на другие языки или использовать для индекса поисковой системы, которая сможет на его основе осуществлять смысловой (интеллектуальный) поиск.
  • Технология Compreno также успешно определяет такие сложные синтаксические связи, как замена слова «мальчик» на слово «он» в предложении: «Хоть мальчик и хотел поиграть, но он понимал, что у него мало времени». Или целые пропуски в сложносочиненных предложениях, например «он любит красное вино, а она – белое». Эти связи также выражаются в универсальной структуре СМЫСЛа и несут важную информацию для поиска или перевода. Таким образом, система стремится к определению смысла текста на обычном языке, позволяя машине «понять» этот текст и трансформировать его в универсальное представление, не зависящее от языка.
  • Получение универсального представления (смысла) дает возможность решать множество различных практических задач, в частности – перевод с одного языка на другой, а также интеллектуальный поиск по смыслу. Новая технология позволяет изменить сами принцип поиска, когда вместо ввода ключевых слов в запросе можно указать сам вопрос. Система проанализирует вопрос и подберет те результаты, которые отвечают его смыслу. В частности, ответы могут быть выражены словами, не присутствующими в вопросе. Таким образом технология позволяет существенно повысить качество поиска и анализа информации
  • Среди других возможных применений данной технологии можно назвать [ читает ]
  • Несколько фактов о проекте: технология основана на результатах лингвистических исследований многих ведущих ученых мира последних 50 лет и является для многих из них воплощением далёкой мечты, ставшей реальностью благодаря применению современных компьютерных инженерных подходов. В проекте на данный момент участвует около 300 человек, активно привлекаются студенты кафедры Аби в МФТИ и выпускники ведущих ВУЗов страны. Компания Аби ведет многолетнюю работу над данным проектом и для выполнения его в рамках Сколково передаёт все необходимые права на интеллектуальную собственность резиденту Сколково
  • Несколько слов о материнской компании. Компания была основана в 1989 году. Сейчас в компании работает более 1000 человек в 1 3 офисах по всему миру. Штаб-квартира и центр разработки всех продуктов и технологий находится в Москве. За это время продукты компании получили более 2 4 0 наград от лидирующих журналов и тестовых лабораторий за качество, удобство и лучшее соотношение цена/качество своих продуктов. Среди этих наград есть и государственная Премия Правительства РФ в области науки и техники. Ежегодно свыше 11 миллионов копий программы ABBYY FineReader распространяется по всему миру. А электронным словарём ABBYY Lingvo пользуются свыше 7 миллионов человек.
  • Это была короткая презентация инновационной лингвистической технологии ABBYY Compreno . Она работает уже сегодня и призвана помогать людям по всему миру.

Transcript

  • 1. Система понимания и перевода естественного языка ABBYY Compreno Александр Костюченко ABBYY
  • 2. Технологии ABBYY
    • Распознавание
    • Трансформация данных (бумага/ pdf –редактируемый формат/ MS-Office )
    • Извлечение данных из структурированных и гибких форм (data capture)
    • Семантико-синтаксический анализ
    • Построение семантических представлений для предложений в текстах на естественных языках
    • Перевод ( происходит за счет полного синтаксического анализа предложения, его семантической интерпретации и синтеза из универсальной семантической структуры предложения на выходном языке )
    • Извлечение данных из неструктурированных текстов
  • 3. Универсальная Семантическая Иерархия
    • Универсальные семантические описания позволяют легко переводить текст с любого языка в универсальный язык и с универсального – на любой.
  • 4. Универсальная Семантическая Иерархия
  • 5. Универсальная Семантическая Иерархия
  • 6. Универсальная Семантическая Иерархия
  • 7. Синтаксис и его роль в разборе
  • 8. Сложные связи в тексте
  • 9. Применение технологии
    • Письменный перевод с одного языка на другой
    • Интеллектуальный поиск :
      • Поиск по смыслу, а не по ключевым словам
      • Извлечение фактов и связей между объектами поиска/мониторинга (в т.ч. для конкурентной разведки)
      • Мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа
      • Возможность получить ответы на запросы, заданные обычным языком (например, «Чем владеет Иван Иванович Бобров?»)
    • Многоязычный поиск, т.е. когда на вопрос на одном языке находятся ответы на всех языках, поддерживаемых системой
    • Классификация документов и поиск похожих документов по смыслу
  • 10. Использование компьютерной лингвистики для других прикладных задач
    • Распознавание речи
    • Защита от несанкционированного использования информации
    • Автоматическое реферирование и аннотирование документов
    • Анализ тональности
  • 11. Факты о проекте
    • Основывается на результатах лингвистических исследований многих ведущих ученых мира (за последние 50 лет )
    • В проекте участвует более 300 человек
    • Активно привлекаются молодые кадры, студенты кафедры ABBYY в МФТИ и выпускники ведущих вузов страны (МГУ, РГГУ, МГЛУ, СПбГУ)
    • Материнская компания ABBYY передает резиденту Сколково «Аби ИнфоПоиск» все необходимые права на интеллектуальную собственность для осуществления проекта
  • 12. Факты о компании
    • ABBYY была основана в 1989 году
    • В компании работает более 1000 человек
    • 13 офисов по всему миру
    • Более 240 наград от ведущих международных журналов и тестовых лабораторий
    • Свыше 11 миллионов копий программы ABBYY FineReader распространяется ежегодно по всему миру
    • Наиболее популярные продукты: ABBYY FineReader ( система оптического распознавания) и ABBYY Lingvo ( электронный словарь )
  • 13.
    • МЫ ПОМОГАЕМ ЛЮДЯМ
    • ПОНИМАТЬ ДРУГ ДРУГА
  • 14. Вопросы ? Контактная информация : Александр Костюченко Менеджер проектов Департамент лингвистических технологий ABBYY Phone: +7 495 783 37 00 E-mail: [email_address] www.abbyy.com