1. Открытый корпус: принципы работы и перспективы
Открытый корпус: принципы работы и
перспективы
Д. В. Грановский В. В. Бочаров С. В. Бичинёва
Mathlingvo, СПбГУ
21 октября 2010 г.
3. Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
4. Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
5. Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
с открытым исходным кодом
7. Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
8. Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
разметка не единообразна
9. Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . стать причиной появления вирусов, неотличимых по своим
свойствам от диких вирусов, вызывающих заболевания.
вызывающий, A, pl, gen ,plen
. . . одной из главных причин, вызывающих насторожённое и
даже негативное отношение педагогов к компьютерному
тестированию. . .
вызывать, V, tran, ipf, partcp, act, . . .
10. Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . В результате стирки <. . . > стали цвета хаки.
хаки, S, inan, n, sg, gen, 0
Один нёс в руке деревянный ящичек цвета хаки, другой был в
наушниках и с антенной.
хаки, A, sg, gen, plen, 0
12. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
13. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
14. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
15. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
16. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
17. Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
существуют уровни качества разметки
18. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
19. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
20. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
21. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование
22. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
23. Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или иной
степенью фильтрации
24. Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
25. Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
26. Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
27. Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
4 поддержка интерфейса для ручного снятия
грамматической неоднозначности.
30. Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
31. Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
32. Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
33. Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
34. Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
– внесение изменений очень трудоемко
35. Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
36. Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
Единица грамматической разметки — токен.
Внутри токена не бывает пробелов.
37. Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
38. Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
39. Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
Для словарных:
1 идентификатор леммы из словаря,
2 часть речи,
3 набор значений обязательных для данной части речи
грамматических категорий,
4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
40. Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
41. Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
42. Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
43. Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
44. Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания
45. Открытый корпус: принципы работы и перспективы
Заключение
Мы считаем, что открытость лингвистических баз
данных является существенным стимулом для
развития науки о языке и для создания прикладных
систем обработки текста. Вместе с тем, создание
таких баз требует больших трудозатрат, что
существенным образом влияет на рентабельность
разработки ПО и на трудоемкость исследований. В
объединении усилий сообщества для создания
открытого размеченного корпуса мы и видим решение
вышеозначенной проблемы.