Pre Defense

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Pre Defense - Presentation Transcript

    1. Компьютерная семантика и задачи машинного перевода Дмитрий Кан, ПМ-ПУ, ТП [email_address]
    2. Outline
      • Схема диссертации
      • Компьютерная семантика
      • Анализ текстов
      • Синтез предложений
      • Переводной семантический словарь
      • Система машинного перевода
      • Метрики
    3. Методы машинного перевода
    4. Основные подходы
    5. SMT in a nutshell
      • Максимизировать
      • p(e|f), e – предложение перевода, f – предложение оригинала
      • Теорема Байеса:
    6. SMT in a nutshell
      • p(e) – Языковая модель, которая:
        • Назначает наибольшую вероятность беглым, грамматически верным предложениям
        • Вычисляется по одноязычному корпусу
      • p(f|e) – Модель перевода
        • Назначает наибольшую вероятность парам предложений с одним значением
        • Вычисляется по двуязычному корпусу
    7. Анализ текстов
      • В корне дерева время
      • По дереву – в прошлое и будущее
      • Свойства и атрибуты объектов
      • Связи объектов
      • Выявление центрального объекта (саммаризация)
      • Анафорические ссылки
    8. Структура семантики текста
    9. Дерево текста
      • В корне – время (в предложении – гл.)
      • Вниз по дереву – в будущее
      • Вверху по дереву – в прошлое
      • Кадры текста
      • Портрет объектов
    10. Портрет объекта
      • Объект
        • Уточняющие прилагательные
        • Уточняющие существительные
        • Действия (гл)
        • Время
        • Связи с другими объектами
    11. Связи между объектами
      • Стол находится в комнате Ивана.
      • находится (@Им Стол @Где в (@Пред комнате (@Род Ивана))).
      • 1. Объекты отношений:
      • НАХОДИТЬСЯ Loc(Z1,МЕСТО:Z2)
      •   Z1:@ОНЪ$17 => СТОЛ $121344
      • Z2:$1~@Где => В КОМНАТА $123314
    12. Связи между объектами 2
      • 2. Конкретизация объекта
      • КОМНАТА$123314 (Z1) , Z1 - атрибут
      • Z1:@Род => ИВАН $1241301000 (значение атрибута)
      • Аппарат: СГТ, Предложно-падежн. Формы и базисные функции
    13. Синтез предложений
      • Алгоритм линеаризации
      • Статистическое упорядочивание
      • Демо
    14. Алгоритм Линеаризации
      • На входе: семантическое дерево
      • На выходе: предложение на естественном языке
      • Линеаризация (И. Мельчук) – иерархический процесс синтеза предложения по его семантическому дереву, при котором отдельные слова образуют корректные семантические и синтаксические группы, а группы формируют предложение
    15. Иерархическая линеаризация
      • Мельчук (слабые и сильные связи)
        • Слово определяет строгий порядок группы слов
        • Слова соединяются в группы (деепр. обороты)
        • Слова не вляют на взаимный порядок
      • Семантическое дерево
      • STL-like tree
      • Перенос поддеревьев
      • Сложные предложения ( Я постучал, и Петя открыл дверь )
      • Приложения: МП, plagiarism detection, summarization
    16. Пример семантического дерева
      • любит <X007.004>
      • (@ Вин Сашу <X003.002><+ СущСущ 3+>
      • (@ Вин Умного <X001.001><+ Какой : ПрилСущ 7+>,
      • @ Вин красивого <X002.001><+ Однородный : ОднорПрил6 +>),
      • @ Им Маша <X006.003><+ СущГлаг3 +>
      • (@ Им интересная <X004.001><+ КАКОЙ : ПрилСущ7 +>,
      • @ Им замечательная <X005.001><+ Однородный : ОднорПрил6 +>)
      • )
      • .
      • Умного красивого Сашу любит интересная замечательная Маша.
    17. Визуальная интерпретация
    18. Tree in C++ STL style
    19. Правила линеаризации (русский язык)
      • Узлы подлежат обмену только на одном уровне в семантическом дереве
      • При синтезе уточняющие прилагательные предшествуют существительным
      • Притяжательные местоимения также предшетсвуют существительным
      • Предлоги предшествуют своим поддеревьям в синтезируемом предложении
    20. Статистический подход
      • Вход: последовательность слов без отношения порядка
      • Выход: наиболее вероятные кандидаты в предложения
    21. Алгоритм Global Similarity metrics: Local Similarity metrics:
    22. Примеры перестановок
    23. Переводной семантический словарь
      • 7 лет на семантический словарь: частично автоматическое построение
      • Для перевода: важнейший компонент
      • Как ускорить процесс?
    24. Ответ: GIZA++
      • Гибридный подход
      • Статистическое выравнивание слов
      • Автоматическая генерация словаря
      • Необходимость параллельного корпуса
      • Проверка качества через экспериментальную СМП
    25. GIZA++
      • Модуль выравнивания слов
      • Входит в состав пакета Moses ( статистический МП )
      • 86000 предложений -> 1, 3 млн пар слов в выходных данных
      • Задача разрешения полисемии
      • Высокий уровень избыточности данных в словаре
    26. GIZA++: output
      • Desperate to hold onto power , Pervez Musharraf has
      • discarded Pakistan ' s constitutional framework and
      • declared a state of emergency .
      • NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
      • стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
      • ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
      • конституционную ({ 14 15 }) систему ({ })
      • Пакистана ({ 11 12 13 }) и ({ 16 })
      • объявил ({ 17 }) о ({ 18 }) введении ({ })
      • чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
    27. Таблица соответствий слов
    28. Схема алгоритма
    29. Выдержка из словаря
      • В Y1>HabU(Y1:, ПРЕД :Z1) \ <149>--->Within
      • В Y1>Loc(Y1:, ВНУТРИ $12/313/05( ПРЕД :Z1)) \ <146>--->at
      • В Y1>Loc(Y1:,Oper01(#, ПРЕД :Z1)) \ <208>--->In
      • В Y1>Loc(Y1:, ПРЕД :Z1) \ <224>--->Throughout
      • ...
      • МАРШАЛЛ S1>Hab(S1: ЧЕЛОВЕК $1241,S0: ФАМИЛИЯ $1241/11) \ <2>
      • --->Marshall
      • ...
      • НА Y1>Direkt(Y1:, ВЕРХ $12/141/05( ВИН :Z1)) \ <67>--->at
      • НА Y1>Direkt(Y1:, РОД :Z1) \ <100>--->on
      • НА Y1>Direkt(Y1:, РОД :Z1) \ <69>--->for
      • НА Y1>Direkt(Y1:, РОД :Z1) \ <74>--->for the
      • ...
      • ОБРАЗ ( РОД :Z1) \ <2>--->a way
      • ОБЩЕМИРОВОЙ A1>Rel(A1: НЕЧТО $1, ПОЛНЫЙ $12/207/05( МИР $1227))
      • \ <1>--->global
      • ...
      • Всего около 18 тысяч пар слов
    30. Система МП
      • Компьютерная семантика в основе
      • Переводной семантический словарь
      • СГТ  предлоги (по словарю Кутарбы)
      • Демо
    31. Оценка: метрики Метрика BLEU :
    32. Открытые вопросы
      • Грамматическое время
      • Коррекция ошибок в словаре
      • Метрика с оценкой семантической близости
      • Проработка СГТ
      • Перевод на русский язык
    SlideShare Zeitgeist 2009

    + dmitrykandmitrykan Nominate

    custom

    107 views, 0 favs, 1 embeds more stats

    Slides I have had when pre-defending my PhD dissert more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 107
      • 103 on SlideShare
      • 4 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 4
    Most viewed embeds
    • 4 views on http://dmitrykan.blogspot.com

    more

    All embeds
    • 4 views on http://dmitrykan.blogspot.com

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?