2. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
3. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
6. Графы и деревья
Наиболее типичное дерево зависимостей:
● Ориентированный ацикличный связный граф
● Каждое слово в предложении представлено узлом в
дереве
● Корень – узел без входящей дуги
● Для каждого узла есть только один главный узел,
которому он подчиняется
7. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
8. The LinGO Redwoods
Treebank
● Язык: английский
● Лингвистический подход: HPSG
● Грамматика: LinGO ERG
● Виды аннотаций:
– Синтаксические деревья
– Синтаксические зависимости
9.
10. The LinGO Redwoods
Treebank
● Источники данных:
– Verbmobil and e-commerce corpora
– LOGON Norwegian-English MT corpus
– English Wikipedia (from WeScience)
– Brown corpus (SemCor)
– и др.
12. Синтаксические деревья
Синтаксическое дерево
DELPH-IN Derivation Tree
грамматики составляющих
13. Синтаксические зависимости
Формат: элементарные структуры зависимостей
(Elementary Dependency Structures, http://moin.delph-in.net/RmrsEds)
Предикаты соответствуют группам слов
Некоторые слова семантически пусты и не
представлены в графе зависимостей
Элементарные структуры зависимостей не
формируют деревья
15. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
16. Трансформация в структуры зависимостей
Сложные случаи:
● сокращенные отрицательные формы
The dog couldn't bark.
● пунктуация
● устойчивые выражения
18. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
23. Transparent predicates
Предикат, который приравнивается к
одному из своих аргументов
[transparent]
nominalization ARG1
implicit_conj LHNDL
implicit_conj LINDEX
/_c$/ LHNDL
/_c$/ LINDEX
24. Transparent predicates
Root
e9 e2
The dog arrived and barked.
{e2:
_1:_the_q<0:3>[BV x5]
x5:_dog_n_1<4:7>[]
e9:_arrive_v_1<8:15>[ARG1 x5]
e2:_and_c<16:19>[LINDEX e9, RINDEX e11,
LHNDL e9, RHNDL e11]
e11:_bark_v_1<20:27>[ARG1 x5]
}
25. Relational predicates
Предикаты с двумя аргументами, один
из которых – главная составляющая, а
другой – зависимая составляющая.
/_c$/ LHNDL RHNDL
/_c$/ LINDEX RINDEX
of_p ARG2 ARG1
part_of ARG0 ARG1
poss ARG2 ARG1
28. Redundant predicates
e9 e11
The dog arrived and barked.
{e2:
_1:_the_q<0:3>[BV x5]
x5:_dog_n_1<4:7>[]
e9:_arrive_v_1<8:15>[ARG1 x5]
e2:_and_c<16:19>[LINDEX e9, RINDEX e11,
LHNDL e9, RHNDL e11]
e11:_bark_v_1<20:27>[ARG1 x5]
}
29. Трансформация синтаксических
зависимостей
Определение типа Разбиение Разбиение
предиката устойчивых сокращенных
(lexical, transparent, выражений на отрицательных
relational,redundant) отдельные форм
слова
Отделение
пунктуации
33. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
34. Корпус PEST
Язык: английский
Две части: 10 предложений и 15
предложений
Форматы:
CoNLL Syntactic Dependencies
CoNLL PropBank Semantics
Stanford basic
Stanford collapsed dependencies
Enju predicate – argument structures
35. CoNLL Syntactic Dependencies
Деревья из Penn Treebank
трансформированные с помощью утилиты
PennConverter
Главные составляющие – функциональные
слова
Граф зависимостей – ориентированное
дерево:
каждое слово в предложение представлено узлом в графе
граф связный
у каждого узла есть только один главный узел, которому он
подчиняется
в графе отсутствуют циклы
36. CoNLL PropBank Semantics
Аннотации PropBank и NomBank “поверх”
синтаксической разметки PennTreebank
Лексические главные состаляющие
У зависимой составляющей могут быть
несколько синтаксических главных
составляющих
Граф несвязный
Некоторые слова предложения
семантически пусты и не представлены в
графе
37. Stanford Basic Dependencies
Трансформирован из деревьев
составляющих из PennTreebank
Лексические главные состаляющие
Граф зависимостей – ориентированное
дерево:
каждое слово в предложение представлено узлом в
графе
граф связный
у каждого узла есть только один главный узел,
которому он подчиняется
в графе отсутствуют циклы
38. Stanford Standard
Dependencies
Главные составляющие – функциональные
слова
Граф зависимостей не формирует дерево:
Семантически “пустые” слова
множественные главные составляющие
циклы
39. Enju Predicate – Argument
Structures (EP)
Лексические главные состаляющие
Полу-автоматически трансформирован из
PennTreebank с помощью HPSG-
преобразований
Граф зависимостей не формирует дерево
40. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
41. Выбор корня
A similar technique is almost impossible to
apply to other crops, such as cotton,
soybeans and rice.
CoNLL Syntactic: is
CoNLL PropBank: -
Stanford Basic: impossible
Stanford Standard: impossible
Enju Predicate-Argument Structures: is
DELHP-IN Derivation Tree: is
DELPH-IN MRS: almost
42. Союзы
A , B and C A , B and C
CoNLL Syntactic Dependencies CoNLL PropBank Dependencies
A , B and C A , B and C
Stanford Basic Dependencies Stanford Standard Dependencies
A , B and C
Enju PAS
A , B and C A , B and C
DELHP-IN Derivation Tree DELHP-IN MRS
43. Инфинитив
CoNLL syntactic
Enju PAS to apply
DELPH-IN Derivation Tree
Stanford Basic to apply
Stanford Standard
CoNLL PropBank -
DELPH-IN MRS
46. Предлоги
CoNLL Syntactic
Stanford Basic crops such as
DELPH-IN Derevation Tree crops such as
Enju PAS crops such as
DELPH-IN MRS crops such as
CoNLL PropBank -
Stanford Standard
50. План презентации
Введение
The LinGO Redwoods Treebank
Конвертер для Redwoods
трансформация синтаксических деревьев
трансформация синтаксических зависимостей
Корпус PEST
Сравнительный анализ преобразованных
структур со стандартами
Заключение
51. Заключение
● Различные форматы предлагают
несхожие решения
● DELPH-IN Derivation Trees ближе
всего к CoNLL Syntactic
Dependencies
● DELPH-IN MRS ближе всего к Enju
PAS
52. Будущая работа
● Закончить и опубликовать в свободном
доступе конвертер
● Конвертировать корпус Redwoods в
структуры зависимостей между отдельными
словами
● Использовать Redwoods для экспериментов
с синтаксическими анализаторами
(парсерами)