Открытый корпус: принципы работы и перспективы
Открытый корпус: принципы работы и
перспективы
Д. В. Грановский В. В. Бочаров С. В. Бичинёва
Mathlingvo, СПбГУ
21 октября 2010 г.
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
с открытым исходным кодом
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
разметка не единообразна
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . стать причиной появления вирусов, неотличимых по своим
свойствам от диких вирусов, вызывающих заболевания.
вызывающий, A, pl, gen ,plen
. . . одной из главных причин, вызывающих насторожённое и
даже негативное отношение педагогов к компьютерному
тестированию. . .
вызывать, V, tran, ipf, partcp, act, . . .
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . В результате стирки <. . . > стали цвета хаки.
хаки, S, inan, n, sg, gen, 0
Один нёс в руке деревянный ящичек цвета хаки, другой был в
наушниках и с антенной.
хаки, A, sg, gen, plen, 0
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или иной
степенью фильтрации
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
4 поддержка интерфейса для ручного снятия
грамматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
Единица грамматической разметки — токен.
Внутри токена не бывает пробелов.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
Для словарных:
1 идентификатор леммы из словаря,
2 часть речи,
3 набор значений обязательных для данной части речи
грамматических категорий,
4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Заключение
Мы считаем, что открытость лингвистических баз
данных является существенным стимулом для
развития науки о языке и для создания прикладных
систем обработки текста. Вместе с тем, создание
таких баз требует больших трудозатрат, что
существенным образом влияет на рентабельность
разработки ПО и на трудоемкость исследований. В
объединении усилий сообщества для создания
открытого размеченного корпуса мы и видим решение
вышеозначенной проблемы.
Открытый корпус: принципы работы и перспективы
Спасибо
Спасибо за внимание!
Открытый корпус: принципы работы и перспективы
Contacts
http://opencorpora.org
granovsky@opencorpora.org
bocharov@opencorpora.org

2010 ims slides

  • 1.
    Открытый корпус: принципыработы и перспективы Открытый корпус: принципы работы и перспективы Д. В. Грановский В. В. Бочаров С. В. Бичинёва Mathlingvo, СПбГУ 21 октября 2010 г.
  • 2.
    Открытый корпус: принципыработы и перспективы OpenCorpora — это корпус текстов на русском языке
  • 3.
    Открытый корпус: принципыработы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией
  • 4.
    Открытый корпус: принципыработы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией размечаемый сообществом пользователей
  • 5.
    Открытый корпус: принципыработы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией размечаемый сообществом пользователей с открытым исходным кодом
  • 6.
    Открытый корпус: принципыработы и перспективы Проблемы других корпусов полные тексты недоступны
  • 7.
    Открытый корпус: принципыработы и перспективы Проблемы других корпусов полные тексты недоступны разметка недоступна
  • 8.
    Открытый корпус: принципыработы и перспективы Проблемы других корпусов полные тексты недоступны разметка недоступна разметка не единообразна
  • 9.
    Открытый корпус: принципыработы и перспективы Пример неединообразия . . . стать причиной появления вирусов, неотличимых по своим свойствам от диких вирусов, вызывающих заболевания. вызывающий, A, pl, gen ,plen . . . одной из главных причин, вызывающих насторожённое и даже негативное отношение педагогов к компьютерному тестированию. . . вызывать, V, tran, ipf, partcp, act, . . .
  • 10.
    Открытый корпус: принципыработы и перспективы Пример неединообразия . . . В результате стирки <. . . > стали цвета хаки. хаки, S, inan, n, sg, gen, 0 Один нёс в руке деревянный ящичек цвета хаки, другой был в наушниках и с антенной. хаки, A, sg, gen, plen, 0
  • 11.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать
  • 12.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально!
  • 13.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом
  • 14.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется
  • 15.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере
  • 16.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере устойчиво — потому что сохраняется история изменений, а правку можно «откатить»
  • 17.
    Открытый корпус: принципыработы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере устойчиво — потому что сохраняется история изменений, а правку можно «откатить» существуют уровни качества разметки
  • 18.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных
  • 19.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс:
  • 20.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск
  • 21.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование
  • 22.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование; очевидно, веб-интерфейс
  • 23.
    Открытый корпус: принципыработы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование; очевидно, веб-интерфейс Система экспорта — выгрузка данных с той или иной степенью фильтрации
  • 24.
    Открытый корпус: принципыработы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт),
  • 25.
    Открытый корпус: принципыработы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся,
  • 26.
    Открытый корпус: принципыработы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся, 3 автоматический морфологический разбор новых текстов при помощи словаря,
  • 27.
    Открытый корпус: принципыработы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся, 3 автоматический морфологический разбор новых текстов при помощи словаря, 4 поддержка интерфейса для ручного снятия грамматической неоднозначности.
  • 28.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki
  • 29.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище
  • 30.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок
  • 31.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки
  • 32.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации
  • 33.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации – все равно требуется разрабатывать пользовательский интерфейс
  • 34.
    Открытый корпус: принципыработы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации – все равно требуется разрабатывать пользовательский интерфейс – внесение изменений очень трудоемко
  • 35.
    Открытый корпус: принципыработы и перспективы Структура корпуса 1 Единица верхнего уровня — «книга». 2 Книга делится на абзацы. 3 Абзац делится на предложения. 4 Предложение делится на токены.
  • 36.
    Открытый корпус: принципыработы и перспективы Структура корпуса 1 Единица верхнего уровня — «книга». 2 Книга делится на абзацы. 3 Абзац делится на предложения. 4 Предложение делится на токены. Единица грамматической разметки — токен. Внутри токена не бывает пробелов.
  • 37.
    Открытый корпус: принципыработы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций.
  • 38.
    Открытый корпус: принципыработы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций. Токены бывают 1 словарные 2 несловарные
  • 39.
    Открытый корпус: принципыработы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций. Токены бывают 1 словарные 2 несловарные Для словарных: 1 идентификатор леммы из словаря, 2 часть речи, 3 набор значений обязательных для данной части речи грамматических категорий, 4 набор меток, обозначающих особенности конкретного употребления словоформы в тексте.
  • 40.
    Открытый корпус: принципыработы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены
  • 41.
    Открытый корпус: принципыработы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы
  • 42.
    Открытый корпус: принципыработы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности
  • 43.
    Открытый корпус: принципыработы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности 4 Ручное снятие неоднозначности пользователями
  • 44.
    Открытый корпус: принципыработы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности 4 Ручное снятие неоднозначности пользователями 5 Разметка доступна для просмотра и скачивания
  • 45.
    Открытый корпус: принципыработы и перспективы Заключение Мы считаем, что открытость лингвистических баз данных является существенным стимулом для развития науки о языке и для создания прикладных систем обработки текста. Вместе с тем, создание таких баз требует больших трудозатрат, что существенным образом влияет на рентабельность разработки ПО и на трудоемкость исследований. В объединении усилий сообщества для создания открытого размеченного корпуса мы и видим решение вышеозначенной проблемы.
  • 46.
    Открытый корпус: принципыработы и перспективы Спасибо Спасибо за внимание!
  • 47.
    Открытый корпус: принципыработы и перспективы Contacts http://opencorpora.org granovsky@opencorpora.org bocharov@opencorpora.org