SlideShare a Scribd company logo
1 of 47
Download to read offline
Открытый корпус: принципы работы и перспективы
Открытый корпус: принципы работы и
перспективы
Д. В. Грановский В. В. Бочаров С. В. Бичинёва
Mathlingvo, СПбГУ
21 октября 2010 г.
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензией
размечаемый сообществом пользователей
с открытым исходным кодом
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступна
разметка не единообразна
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . стать причиной появления вирусов, неотличимых по своим
свойствам от диких вирусов, вызывающих заболевания.
вызывающий, A, pl, gen ,plen
. . . одной из главных причин, вызывающих насторожённое и
даже негативное отношение педагогов к компьютерному
тестированию. . .
вызывать, V, tran, ipf, partcp, act, . . .
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . В результате стирки <. . . > стали цвета хаки.
хаки, S, inan, n, sg, gen, 0
Один нёс в руке деревянный ящичек цвета хаки, другой был в
наушниках и с антенной.
хаки, A, sg, gen, plen, 0
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществом
единообразно — потому что по одинаковой инструкции и
проверяется
удобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, а
правку можно «откатить»
существуют уровни качества разметки
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,
удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или иной
степенью фильтрации
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстов
при помощи словаря,
4 поддержка интерфейса для ручного снятия
грамматической неоднозначности.
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок
+ есть язык разметки
– можно хранить только тексты в вики-разметке,
связанные между собой ссылками или путем
категоризации
– все равно требуется разрабатывать пользовательский
интерфейс
– внесение изменений очень трудоемко
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».
2 Книга делится на абзацы.
3 Абзац делится на предложения.
4 Предложение делится на токены.
Единица грамматической разметки — токен.
Внутри токена не бывает пробелов.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают
1 словарные
2 несловарные
Для словарных:
1 идентификатор леммы из словаря,
2 часть речи,
3 набор значений обязательных для данной части речи
грамматических категорий,
4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текст
под лицензией, совместимой с CC-BY-SA
проходит вычитку
делится на абзацы, предложения и токены
2 Морфологические интерпретации
словарь на базе словаря проекта АОТ
но морфологический стандарт — свой
генерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)
привязка к словарю на основе эвристик
снятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания
Открытый корпус: принципы работы и перспективы
Заключение
Мы считаем, что открытость лингвистических баз
данных является существенным стимулом для
развития науки о языке и для создания прикладных
систем обработки текста. Вместе с тем, создание
таких баз требует больших трудозатрат, что
существенным образом влияет на рентабельность
разработки ПО и на трудоемкость исследований. В
объединении усилий сообщества для создания
открытого размеченного корпуса мы и видим решение
вышеозначенной проблемы.
Открытый корпус: принципы работы и перспективы
Спасибо
Спасибо за внимание!
Открытый корпус: принципы работы и перспективы
Contacts
http://opencorpora.org
granovsky@opencorpora.org
bocharov@opencorpora.org

More Related Content

Viewers also liked

Atividades Práticas Com Professor Robson
Atividades Práticas Com Professor RobsonAtividades Práticas Com Professor Robson
Atividades Práticas Com Professor Robsonguest97bf29
 
WiPromo Overview
WiPromo OverviewWiPromo Overview
WiPromo OverviewAlex Tilt
 
Discribes You
Discribes YouDiscribes You
Discribes Yousatya414
 
Christmas is for Cookies
Christmas is for CookiesChristmas is for Cookies
Christmas is for CookiesJon Gatrell
 
Jeffrey A Bourque
Jeffrey A BourqueJeffrey A Bourque
Jeffrey A Bourquejabourque
 

Viewers also liked (6)

Hide you file behind a picture
Hide you file behind a pictureHide you file behind a picture
Hide you file behind a picture
 
Atividades Práticas Com Professor Robson
Atividades Práticas Com Professor RobsonAtividades Práticas Com Professor Robson
Atividades Práticas Com Professor Robson
 
WiPromo Overview
WiPromo OverviewWiPromo Overview
WiPromo Overview
 
Discribes You
Discribes YouDiscribes You
Discribes You
 
Christmas is for Cookies
Christmas is for CookiesChristmas is for Cookies
Christmas is for Cookies
 
Jeffrey A Bourque
Jeffrey A BourqueJeffrey A Bourque
Jeffrey A Bourque
 

Similar to 2010 ims slides

2011 09-arm-bibliografa
2011 09-arm-bibliografa2011 09-arm-bibliografa
2011 09-arm-bibliografaPDA Ekniga
 
Accessibility meets structure
Accessibility meets structureAccessibility meets structure
Accessibility meets structureLara Simonova
 
VivaCore - быстрый старт
VivaCore - быстрый стартVivaCore - быстрый старт
VivaCore - быстрый стартTatyanazaxarova
 
2014 03-27-arm-bibliografa
2014 03-27-arm-bibliografa2014 03-27-arm-bibliografa
2014 03-27-arm-bibliografaPDA Ekniga
 
Сущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreСущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreTatyanazaxarova
 
Open Journal Systems - обзор возможностей
Open Journal Systems - обзор возможностейOpen Journal Systems - обзор возможностей
Open Journal Systems - обзор возможностейAlexei Lutay
 
SOLID Principles in the real world
SOLID Principles in the real worldSOLID Principles in the real world
SOLID Principles in the real worldEPAM
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей КудрявцевAvitoTech
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииDenis Latushkin
 
11 melnikov blogs_arbicon
11 melnikov blogs_arbicon11 melnikov blogs_arbicon
11 melnikov blogs_arbiconunilib
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)Alexander Gornik
 
Елизавета Голенок Переходим на mono или как это было
Елизавета Голенок  Переходим на mono или как это былоЕлизавета Голенок  Переходим на mono или как это было
Елизавета Голенок Переходим на mono или как это былоMskDotNet Community
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems
 
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru GroupMail.ru Group
 
Введение в Mendeley (2015)
Введение в Mendeley (2015)Введение в Mendeley (2015)
Введение в Mendeley (2015)Alexei Lutay
 
Краткое описание библиотеки анализа кода VivaCore
Краткое описание библиотеки анализа кода VivaCoreКраткое описание библиотеки анализа кода VivaCore
Краткое описание библиотеки анализа кода VivaCoreTatyanazaxarova
 

Similar to 2010 ims slides (20)

Open Corpora
Open CorporaOpen Corpora
Open Corpora
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Open your source
Open your sourceOpen your source
Open your source
 
2011 09-arm-bibliografa
2011 09-arm-bibliografa2011 09-arm-bibliografa
2011 09-arm-bibliografa
 
Accessibility meets structure
Accessibility meets structureAccessibility meets structure
Accessibility meets structure
 
VivaCore - быстрый старт
VivaCore - быстрый стартVivaCore - быстрый старт
VivaCore - быстрый старт
 
2014 03-27-arm-bibliografa
2014 03-27-arm-bibliografa2014 03-27-arm-bibliografa
2014 03-27-arm-bibliografa
 
Сущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreСущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCore
 
Open Journal Systems - обзор возможностей
Open Journal Systems - обзор возможностейOpen Journal Systems - обзор возможностей
Open Journal Systems - обзор возможностей
 
SOLID Principles in the real world
SOLID Principles in the real worldSOLID Principles in the real world
SOLID Principles in the real world
 
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 Как перестать бояться и начать контрибьютить - Алексей Кудрявцев Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
Как перестать бояться и начать контрибьютить - Алексей Кудрявцев
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложении
 
11 melnikov blogs_arbicon
11 melnikov blogs_arbicon11 melnikov blogs_arbicon
11 melnikov blogs_arbicon
 
от Web 1.0 к web 2.0
от Web 1.0 к web 2.0от Web 1.0 к web 2.0
от Web 1.0 к web 2.0
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)
 
Елизавета Голенок Переходим на mono или как это было
Елизавета Голенок  Переходим на mono или как это былоЕлизавета Голенок  Переходим на mono или как это было
Елизавета Голенок Переходим на mono или как это было
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015
 
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group
«Advanced {product_name} configuring», Алексей Макеев, Mail.Ru Group
 
Введение в Mendeley (2015)
Введение в Mendeley (2015)Введение в Mendeley (2015)
Введение в Mendeley (2015)
 
Краткое описание библиотеки анализа кода VivaCore
Краткое описание библиотеки анализа кода VivaCoreКраткое описание библиотеки анализа кода VivaCore
Краткое описание библиотеки анализа кода VivaCore
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

2010 ims slides

  • 1. Открытый корпус: принципы работы и перспективы Открытый корпус: принципы работы и перспективы Д. В. Грановский В. В. Бочаров С. В. Бичинёва Mathlingvo, СПбГУ 21 октября 2010 г.
  • 2. Открытый корпус: принципы работы и перспективы OpenCorpora — это корпус текстов на русском языке
  • 3. Открытый корпус: принципы работы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией
  • 4. Открытый корпус: принципы работы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией размечаемый сообществом пользователей
  • 5. Открытый корпус: принципы работы и перспективы OpenCorpora — это корпус текстов на русском языке полностью доступный под свободной лицензией размечаемый сообществом пользователей с открытым исходным кодом
  • 6. Открытый корпус: принципы работы и перспективы Проблемы других корпусов полные тексты недоступны
  • 7. Открытый корпус: принципы работы и перспективы Проблемы других корпусов полные тексты недоступны разметка недоступна
  • 8. Открытый корпус: принципы работы и перспективы Проблемы других корпусов полные тексты недоступны разметка недоступна разметка не единообразна
  • 9. Открытый корпус: принципы работы и перспективы Пример неединообразия . . . стать причиной появления вирусов, неотличимых по своим свойствам от диких вирусов, вызывающих заболевания. вызывающий, A, pl, gen ,plen . . . одной из главных причин, вызывающих насторожённое и даже негативное отношение педагогов к компьютерному тестированию. . . вызывать, V, tran, ipf, partcp, act, . . .
  • 10. Открытый корпус: принципы работы и перспективы Пример неединообразия . . . В результате стирки <. . . > стали цвета хаки. хаки, S, inan, n, sg, gen, 0 Один нёс в руке деревянный ящичек цвета хаки, другой был в наушниках и с антенной. хаки, A, sg, gen, plen, 0
  • 11. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать
  • 12. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально!
  • 13. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом
  • 14. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется
  • 15. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере
  • 16. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере устойчиво — потому что сохраняется история изменений, а правку можно «откатить»
  • 17. Открытый корпус: принципы работы и перспективы А у нас? весь корпус можно скачать. . . и это легально! корпус размечается сообществом единообразно — потому что по одинаковой инструкции и проверяется удобно — потому что в браузере устойчиво — потому что сохраняется история изменений, а правку можно «откатить» существуют уровни качества разметки
  • 18. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных
  • 19. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс:
  • 20. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск
  • 21. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование
  • 22. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование; очевидно, веб-интерфейс
  • 23. Открытый корпус: принципы работы и перспективы Компоненты системы Хранилище — добавление, хранение и выдача данных Интерфейс: для просмотра — навигация и поиск для редактирования — понятное представление разметки, удобное редактирование; очевидно, веб-интерфейс Система экспорта — выгрузка данных с той или иной степенью фильтрации
  • 24. Открытый корпус: принципы работы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт),
  • 25. Открытый корпус: принципы работы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся,
  • 26. Открытый корпус: принципы работы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся, 3 автоматический морфологический разбор новых текстов при помощи словаря,
  • 27. Открытый корпус: принципы работы и перспективы Задачи 1-го этапа 1 доступ к словарю (чтение, редактирование, экспорт), 2 доступ к добавлению новых текстов в корпус и редактированию имеющихся, 3 автоматический морфологический разбор новых текстов при помощи словаря, 4 поддержка интерфейса для ручного снятия грамматической неоднозначности.
  • 28. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki
  • 29. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище
  • 30. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок
  • 31. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки
  • 32. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации
  • 33. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации – все равно требуется разрабатывать пользовательский интерфейс
  • 34. Открытый корпус: принципы работы и перспективы Инструменты MediaWiki + есть хранилище + есть история правок + есть язык разметки – можно хранить только тексты в вики-разметке, связанные между собой ссылками или путем категоризации – все равно требуется разрабатывать пользовательский интерфейс – внесение изменений очень трудоемко
  • 35. Открытый корпус: принципы работы и перспективы Структура корпуса 1 Единица верхнего уровня — «книга». 2 Книга делится на абзацы. 3 Абзац делится на предложения. 4 Предложение делится на токены.
  • 36. Открытый корпус: принципы работы и перспективы Структура корпуса 1 Единица верхнего уровня — «книга». 2 Книга делится на абзацы. 3 Абзац делится на предложения. 4 Предложение делится на токены. Единица грамматической разметки — токен. Внутри токена не бывает пробелов.
  • 37. Открытый корпус: принципы работы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций.
  • 38. Открытый корпус: принципы работы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций. Токены бывают 1 словарные 2 несловарные
  • 39. Открытый корпус: принципы работы и перспективы Ещё о токенах Разметка токена состоит из нескольких интерпретаций. Токены бывают 1 словарные 2 несловарные Для словарных: 1 идентификатор леммы из словаря, 2 часть речи, 3 набор значений обязательных для данной части речи грамматических категорий, 4 набор меток, обозначающих особенности конкретного употребления словоформы в тексте.
  • 40. Открытый корпус: принципы работы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены
  • 41. Открытый корпус: принципы работы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы
  • 42. Открытый корпус: принципы работы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности
  • 43. Открытый корпус: принципы работы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности 4 Ручное снятие неоднозначности пользователями
  • 44. Открытый корпус: принципы работы и перспективы Жизненный цикл текста 1 Исходный текст под лицензией, совместимой с CC-BY-SA проходит вычитку делится на абзацы, предложения и токены 2 Морфологические интерпретации словарь на базе словаря проекта АОТ но морфологический стандарт — свой генерируются все возможные гипотезы 3 Полуавтоматика (сейчас её нет) привязка к словарю на основе эвристик снятие простой неоднозначности 4 Ручное снятие неоднозначности пользователями 5 Разметка доступна для просмотра и скачивания
  • 45. Открытый корпус: принципы работы и перспективы Заключение Мы считаем, что открытость лингвистических баз данных является существенным стимулом для развития науки о языке и для создания прикладных систем обработки текста. Вместе с тем, создание таких баз требует больших трудозатрат, что существенным образом влияет на рентабельность разработки ПО и на трудоемкость исследований. В объединении усилий сообщества для создания открытого размеченного корпуса мы и видим решение вышеозначенной проблемы.
  • 46. Открытый корпус: принципы работы и перспективы Спасибо Спасибо за внимание!
  • 47. Открытый корпус: принципы работы и перспективы Contacts http://opencorpora.org granovsky@opencorpora.org bocharov@opencorpora.org