SlideShare a Scribd company logo
Предварительная обработка и
разметка корпуса
Технологии корпусной лингвистики. Лекция 4
А.В. Луканин
Основные процедуры обработки ЕЯ
 корпус в его современном понимании – это всегда
компьютерная база данных
 в процессе его создания используются
специальные процедуры и программы
 Токенизация – разбиение потока символов в
естественном языке на отдельные значимые
единицы (токены, словоформы) – необходимое
условие для дальнейшей обработки
естественного языка
Токенизация
 Ни один ЕЯ не обладает совершенной пунктуацией
 В англ. языке chap.
 сокращенная форма слова chapter
 chap, расположенное в конце предложения
 Jan.
 сокращенная форма слова January
 имя собственное, расположенное в конце предложения
 Точка в конце предложения оформляется в
отдельный тэг
Основные процедуры обработки ЕЯ
 Лемматизация – процесс образования первоначальной
формы слова, исходя из других его словоформ.
 Во многих языках слово может встречаться в нескольких
формах с различными флексиями.
 Например, английский глагол walk может быть
представлен следующими формами: walk, walked, walks,
walking.
 Базовая форма, walk, зафиксированная в словаре,
называется леммой слова.
Основные процедуры обработки ЕЯ
 Стемминг – нахождении стема (основы) слова.
 Стеммер обрабатывает отдельное слово без знания
контекста, и, таким образом, не может
дифференцировать слова, которые имеют разные
значения в силу отнесенности к разным частям речи.
 Стеммеры обычно более просты для реализации и
быстрее обрабатывают данные, а более низкая точность
их работы может не иметь решающего значения для
многих приложений.
 better -> bett, good -> good
Основные процедуры обработки ЕЯ
 [The] [quick] [brown] [fox] [jumped] [over] [the] [lazy]
[dogs].
 Один из наиболее популярных стеммеров,
SnowballAnalyzer, выдает следующие стемы:
 [quick] [brown] [fox] [jump] [over] [lazy] [dog].
 Леммы слов данного предложения будут следующими:
 [the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog].
 Лемматизация связана с идентификацией частей речи и
включает в себя сокращение слов из корпуса до
соответствующих им лексем.
Лемматизация
 Именно лемматизация позволяет исследователю
выделять и изучать все варианты отдельной лексемы без
необходимости введения всех возможных вариантов.
 All women were walking in the streets.
 токены (словоформы) представлены слева в скобках <>
 звездочка '*' – слово в тексте начинается с заглавной буквы
"<*all>"
"all" <*> <Quant> DET PRE SG/PL
"<women>"
"woman" N NOM PL
Лемматизация
"<were>"
"be" <SV> <SVC/N> <SVC/A> V PAST VFIN
"<walking>"
"walk" <SV> <SVO> PCP1
"<in>"
"in" PREP
"<the>"
"the" <Def> DET CENTRAL ART SG/PL
"<streets>"
"street" N NOM PL
"<$.>"
Основные процедуры обработки ЕЯ
 Парсинг – это процесс сопоставления линейной
последовательности лексем (слов, токенов) языка с его
формальной грамматикой.
 Результатом обычно является дерево зависимостей
(синтаксическое дерево).
 Статистические подходы: парсер тренируется на
снабженных вручную пометами синтаксических деревьях
(tree-banks)
 Подходы, основанные на правилах или основанные на
ограничениях: прямо моделируют специфические
лингвистические теории.
Парсинг
 Большинство предложений неоднозначны в любой
теории.
 На основе правил (или перечня ограничений) должна
быть разработана стратегия снятия неоднозначности.
 Многие стратегии снятия неоднозначности полагаются на:
 количественные данные – частоту данной структуры в данном
корпусе (тип),
 ограничения на выборку для данных лексических единиц, которые
были получены или выделены из корпусных данных, и т.д.
Основные процедуры обработки ЕЯ
 Необходимо рассматривать два условия при обсуждении
предварительной обработки корпусов:
1. Каждый шаг подготовки текста к обработке заставляет
составителя корпуса принимать лингвистические
решения, которые влияют на последующие шаги и на
оценку корпуса.
 Конечный пользователь должен быть в курсе этих решений, чтобы
найти то, что он ищет.
 New York и Baden Baden – одно или два слова?
 Что делать с такими явлениями, как немецкие глаголы с
отделяемыми приставками?
Основные процедуры обработки ЕЯ
2. Конечного пользователя нужно поставить в известность о
том, какая работа была проделана на стадии
предварительной обработки и о возможных погрешностях
 любые ошибки в кодировке, особенно системные, могут повлиять
на результаты, полученные пользователями корпуса
Разметка корпуса
 Разметка корпусов (tagging, annotation) представляет
собой трудоемкую операцию, особенно учитывая
размеры современных корпусов.
 Некоторые виды разметки, в частности, анафорической,
просодической, основная часть работы проводится
вручную.
 Для морфологического и синтаксического анализа
существуют различные программные средства, которые
принято называть соответственно тэггеры (taggers) и
парсеры (parsers).
Разметка корпуса
 Автоматический морфологический анализатор (тэггер)
приписывает каждой лексической единице
грамматические характеристики
 часть речи, лемма и набор граммем (например, род, число, падеж,
одушевленность/неодушевленность, переходность и т.д.).
 Автоматический синтаксический анализатор фиксирует
синтаксические связи между словами и
словосочетаниями, а синтаксическим единицам
приписывает соответствующие характеристики
 тип предложения, синтаксическая функция словосочетания и т.д.
Снятие неоднозначности
 Автоматический анализ ЕЯ небезошибочен и многозначен
– он, как правило, дает несколько вариантов анализа для
одной лексической единицы (слова, словосочетания,
предложения).
 В этом случае говорят о грамматической омонимии.
 Снятие неоднозначности (морфологической,
синтаксической) – одна из важнейших и сложнейших
задач компьютерной лингвистики.
 При создании корпусов для снятия неоднозначности
используются автоматические и ручные способы.
Снятие неоднозначности
 Корпусы нового поколения включают сотни миллионов
слов, поэтому выдвигаются принципы разработки систем,
которые бы минимизировали вмешательство человека.
 Автоматическое разрешение морфологической или
синтаксической неоднозначности, как правило,
основывается на использовании информации более
высокого уровня (синтаксического, семантического) с
применением статистических методов.
Снятие неоднозначности
 Для указания леммы словоформы достаточно сравнить
слова по морфологическому словарю.
 Если форма может быть членом более чем одной
категории, необходимо снятие морфологической
неоднозначности.
 Например, слова words, forms, can, use, present и process могут
быть как существительными, так и глаголами.
 Достичь точной разметки английского корпуса можно
путём анализа контекста или анализа более высокого
уровня.
Лингвистическая разметка
 Морфологическая
 Синтаксическая
 Семантическая
 Анафорическая
 Просодическая
 Дискурсная
 и др.
Морфологическая разметка
 part-of-speech tagging (POS-tagging), дословно –
частеречная разметка
 также указываются признаки грамматических
категорий, свойственных данной части речи
 большинство крупных корпусов являются
морфологически размеченными корпусами
 успехи в компьютерной морфологии позволяют
автоматически с большой степенью правильности
размечать корпусы больших размеров
Морфологическая разметка
 Метка включает лемму, признак части речи,
признаки грамматических категорий
 В 1980 году появилась размеченная версия
Брауновского корпуса, в которой была проведена
лемматизация словоформ, маркировка их
поверхностно-синтаксических функций и т.д.
Морфологическая разметка
 the_AT jury_NN further_RB said_VBD in_IN term-
end_NN presentments_NNS that_CS the_AT
*city_NP *executive_NP *committee_NP ,_,
which_WDT had_HVD over-all_JJ charge_NN of_IN
the_AT election_NN ,_, deserves_VBZ the_AT
praise_NN and_CC thanks_NNS of_IN the_AT
*city_NP *of_NP *atlanta_NP for_IN the_AT
manner_NN in_IN which_WDT the_AT election_NN
was_BEDZ conducted_VBN |
Морфологическая разметка АОТ
<?xml version="1.0" encoding="windows-1251" ?> <text> <p>
<s><w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г"
gram="мн,нс,нп,дст,прш," /></w>
<w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>
<w>вечерне
<ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," />
<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w>
<pun>.</pun> </s>
<s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П"
gram="мр,ед,им,вн," /></w>
<w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w>
<w>колоколов
<ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," />
<ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w>
<pun>.</pun> </s></p></text>
Синтаксическая разметка
 является результатом парсинга, выполняемого на
основе данных морфологического анализа
 описывает синтаксические связи между лексичес-
кими единицами и различные синтаксические
конструкции (например, придаточное предложе-
ние, глагольное словосочетание и т.д.)
 В отличие от морфологии, способы представле-
ния синтаксической структуры и синтаксических
отношений не столь унифицированы.
Синтаксическая разметка
 Наблюдается разнообразие синтаксических
теорий и формализмов:
 грамматика зависимостей;
 грамматика непосредственно составляющих;
 грамматика структурных схем;
 традиционные синтаксические учения о членах
предложения;
 функциональная грамматика;
 семантический синтаксис и др.
Семантическая разметка
 предусматривает спецификацию значения слов,
разрешение омонимии и синонимии,
категоризацию слов (разряды), выделение
тематических классов, признаков каузативности,
оценочных и деривационных характеристик и т.д.
 Семантические тэги чаще всего обозначают
семантические категории, к которым относится
данное слово или словосочетание, и более узкие
подкатегории, специфицирующие его значение.
Семантическая разметка НКРЯ
 каждой словоформе приписываются пометы трёх
типов:
1. разряд (имя собственное, возвратное
местоимение и т.д.);
2. лексико-семантические характеристики
(тематический класс лексемы, признаки
каузативности, оценки и т.д.);
3. деривационные характеристики («диминутив»,
«отадъективное наречие» и т.д.).
Семантическая разметка НКРЯ
 лексико-семантические тэги сгруппированы по
следующим полям:
 таксономия (тематический класс лексемы) – для
имен существительных, прилагательных, глаголов и
наречий;
 мереология (указание на отношения «часть –
целое», «элемент – множество») – для предметных
и непредметных имен;
Семантическая разметка НКРЯ
 топология (топологический статус обозначаемого
объекта) – для предметных имен;
 каузация – для глаголов;
 служебный статус – для глаголов;
 оценка – для предметных и непредметных имен,
прилагательных и наречий.
Семантическая разметка НКРЯ
 Словообразовательные характеристики включают
несколько типов:
 морфо-семантические словообразовательные признаки
(например, «каритив», «семельфактив»);
 разряд производящего слова (например, отглагольное
существительное или отадъективное наречие);
 лексико-семантический (таксономический) тип производящего
слова (например, наречие, образованное от прилагательного
размера);
 морфологический тип словообразования (субстантивация,
сложное слово)

More Related Content

What's hot

Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
Smolensk Computer Science Club
 
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...ivanov156633595
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографииArtem Lukanin
 
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистикаAndreySemenyuk
 
сжатое изложение
сжатое изложениесжатое изложение
сжатое изложение
Анна Бодня
 
проба
пробапроба
проба
Kirill Molochev
 
425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформацииivanov15548
 

What's hot (9)

Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)4 встреча — Компьютерная лингвистика (А. Катинская)
4 встреча — Компьютерная лингвистика (А. Катинская)
 
172.употребление французских неопределенных детерминативов и переводческие о...
172.употребление французских неопределенных  детерминативов и переводческие о...172.употребление французских неопределенных  детерминативов и переводческие о...
172.употребление французских неопределенных детерминативов и переводческие о...
 
Понятие лексикографии
Понятие лексикографииПонятие лексикографии
Понятие лексикографии
 
прикладная лингистика
прикладная лингистикаприкладная лингистика
прикладная лингистика
 
сжатое изложение
сжатое изложениесжатое изложение
сжатое изложение
 
проба
пробапроба
проба
 
425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации425.теория и практика перевода переводческие трансформации
425.теория и практика перевода переводческие трансформации
 

Viewers also liked

дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
Ирина Слуцкая
 
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
Yandex
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOArtem Lukanin
 
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
prmegaindex
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, ЯндексYandex
 
Dima maksimov
Dima maksimovDima maksimov
Dima maksimovyarulet
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Yandex
 
живые сайты
живые сайтыживые сайты
живые сайты
zexzex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Yandex
 
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_частьAlexander Shapovalov
 
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Yandex
 
повышение продаж
повышение продажповышение продаж
повышение продаж
prmegaindex
 
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
Нарижный Денис
 
Instrukcija
InstrukcijaInstrukcija
Instrukcijaaivenkov
 

Viewers also liked (20)

дистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном форматедистанционное обучение в корпоративном формате
дистанционное обучение в корпоративном формате
 
-
--
-
 
20131210прохоренков
20131210прохоренков20131210прохоренков
20131210прохоренков
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
 
Внутреняя оптимизация
Внутреняя оптимизацияВнутреняя оптимизация
Внутреняя оптимизация
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, Яндекс
 
1
11
1
 
112
112112
112
 
Dima maksimov
Dima maksimovDima maksimov
Dima maksimov
 
usereto
useretousereto
usereto
 
up
upup
up
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
живые сайты
живые сайтыживые сайты
живые сайты
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
cjdk
cjdkcjdk
cjdk
 
методические рекомендации_2_часть
методические рекомендации_2_частьметодические рекомендации_2_часть
методические рекомендации_2_часть
 
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
Иван Ямщиков — Социальная экономика. Как_дружба_с_графами_может_помочь_вашему...
 
повышение продаж
повышение продажповышение продаж
повышение продаж
 
Кейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебелиКейс от Studio f1: интернет-магазин антикварной мебели
Кейс от Studio f1: интернет-магазин антикварной мебели
 
Instrukcija
InstrukcijaInstrukcija
Instrukcija
 

Similar to Предварительная обработка и разметка корпуса текстов

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксисeibolshakova
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введениеeibolshakova
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
QPsoft
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
нескучная корректура и редактура
нескучная корректура и редактуранескучная корректура и редактура
нескучная корректура и редактураMaksym Balaklytskyi
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
разделы русского языка
разделы русского языкаразделы русского языка
разделы русского языкаLyudmila Pozdeeva
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Open Corpora
Open CorporaOpen Corpora
Open Corpora
Lidia Pivovarova
 
Инструментальные системы извлечения информации
Инструментальные системы извлечения информацииИнструментальные системы извлечения информации
Инструментальные системы извлечения информации
Alexey Noskov
 

Similar to Предварительная обработка и разметка корпуса текстов (20)

АОТ - Предсинтаксис
АОТ - ПредсинтаксисАОТ - Предсинтаксис
АОТ - Предсинтаксис
 
Promt
PromtPromt
Promt
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
RussNet
RussNetRussNet
RussNet
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Masa
MasaMasa
Masa
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
нескучная корректура и редактура
нескучная корректура и редактуранескучная корректура и редактура
нескучная корректура и редактура
 
Программная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблоновПрограммная поддержка языка лексико-синтаксических шаблонов
Программная поддержка языка лексико-синтаксических шаблонов
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
аот
аотаот
аот
 
Программная поддержка морфемного словаря
Программная поддержка морфемного словаряПрограммная поддержка морфемного словаря
Программная поддержка морфемного словаря
 
разделы русского языка
разделы русского языкаразделы русского языка
разделы русского языка
 
Авиком
АвикомАвиком
Авиком
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Open Corpora
Open CorporaOpen Corpora
Open Corpora
 
Инструментальные системы извлечения информации
Инструментальные системы извлечения информацииИнструментальные системы извлечения информации
Инструментальные системы извлечения информации
 

More from Artem Lukanin

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
Artem Lukanin
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
Artem Lukanin
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикографияArtem Lukanin
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемыArtem Lukanin
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязыкArtem Lukanin
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеArtem Lukanin
 
Типология словарей
Типология словарейТипология словарей
Типология словарейArtem Lukanin
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое полеArtem Lukanin
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речиArtem Lukanin
 
Криптография
КриптографияКриптография
КриптографияArtem Lukanin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного переводаArtem Lukanin
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовArtem Lukanin
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сетиArtem Lukanin
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматArtem Lukanin
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматовArtem Lukanin
 

More from Artem Lukanin (18)

Normalization of Non-Standard Words with Finite State Transducers for Russi...
Normalization of Non-Standard Words  with Finite State Transducers  for Russi...Normalization of Non-Standard Words  with Finite State Transducers  for Russi...
Normalization of Non-Standard Words with Finite State Transducers for Russi...
 
Text Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in UnitexText Processing with Finite State Transducers in Unitex
Text Processing with Finite State Transducers in Unitex
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 
Научно-техническая лексикография
Научно-техническая лексикографияНаучно-техническая лексикография
Научно-техническая лексикография
 
Структура значения лексемы
Структура значения лексемыСтруктура значения лексемы
Структура значения лексемы
 
Семантический метаязык
Семантический метаязыкСемантический метаязык
Семантический метаязык
 
Классический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровнеКлассический метод анализа языка на лексико-семантическом уровне
Классический метод анализа языка на лексико-семантическом уровне
 
Типология словарей
Типология словарейТипология словарей
Типология словарей
 
Семантическое поле
Семантическое полеСемантическое поле
Семантическое поле
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
Криптография
КриптографияКриптография
Криптография
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Подъязыки в системах машинного перевода
Подъязыки в системах машинного переводаПодъязыки в системах машинного перевода
Подъязыки в системах машинного перевода
 
Фреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстовФреймы в системах автоматической обработки текстов
Фреймы в системах автоматической обработки текстов
 
Искусственные нейронные сети
Искусственные нейронные сетиИскусственные нейронные сети
Искусственные нейронные сети
 
Системы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автоматСистемы автоматической обработки текста и лингвистический автомат
Системы автоматической обработки текста и лингвистический автомат
 
Теория конечных автоматов
Теория конечных автоматовТеория конечных автоматов
Теория конечных автоматов
 

Предварительная обработка и разметка корпуса текстов

  • 1. Предварительная обработка и разметка корпуса Технологии корпусной лингвистики. Лекция 4 А.В. Луканин
  • 2. Основные процедуры обработки ЕЯ  корпус в его современном понимании – это всегда компьютерная база данных  в процессе его создания используются специальные процедуры и программы  Токенизация – разбиение потока символов в естественном языке на отдельные значимые единицы (токены, словоформы) – необходимое условие для дальнейшей обработки естественного языка
  • 3. Токенизация  Ни один ЕЯ не обладает совершенной пунктуацией  В англ. языке chap.  сокращенная форма слова chapter  chap, расположенное в конце предложения  Jan.  сокращенная форма слова January  имя собственное, расположенное в конце предложения  Точка в конце предложения оформляется в отдельный тэг
  • 4. Основные процедуры обработки ЕЯ  Лемматизация – процесс образования первоначальной формы слова, исходя из других его словоформ.  Во многих языках слово может встречаться в нескольких формах с различными флексиями.  Например, английский глагол walk может быть представлен следующими формами: walk, walked, walks, walking.  Базовая форма, walk, зафиксированная в словаре, называется леммой слова.
  • 5. Основные процедуры обработки ЕЯ  Стемминг – нахождении стема (основы) слова.  Стеммер обрабатывает отдельное слово без знания контекста, и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи.  Стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений.  better -> bett, good -> good
  • 6. Основные процедуры обработки ЕЯ  [The] [quick] [brown] [fox] [jumped] [over] [the] [lazy] [dogs].  Один из наиболее популярных стеммеров, SnowballAnalyzer, выдает следующие стемы:  [quick] [brown] [fox] [jump] [over] [lazy] [dog].  Леммы слов данного предложения будут следующими:  [the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog].  Лемматизация связана с идентификацией частей речи и включает в себя сокращение слов из корпуса до соответствующих им лексем.
  • 7. Лемматизация  Именно лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов.  All women were walking in the streets.  токены (словоформы) представлены слева в скобках <>  звездочка '*' – слово в тексте начинается с заглавной буквы "<*all>" "all" <*> <Quant> DET PRE SG/PL "<women>" "woman" N NOM PL
  • 8. Лемматизация "<were>" "be" <SV> <SVC/N> <SVC/A> V PAST VFIN "<walking>" "walk" <SV> <SVO> PCP1 "<in>" "in" PREP "<the>" "the" <Def> DET CENTRAL ART SG/PL "<streets>" "street" N NOM PL "<$.>"
  • 9. Основные процедуры обработки ЕЯ  Парсинг – это процесс сопоставления линейной последовательности лексем (слов, токенов) языка с его формальной грамматикой.  Результатом обычно является дерево зависимостей (синтаксическое дерево).  Статистические подходы: парсер тренируется на снабженных вручную пометами синтаксических деревьях (tree-banks)  Подходы, основанные на правилах или основанные на ограничениях: прямо моделируют специфические лингвистические теории.
  • 10. Парсинг  Большинство предложений неоднозначны в любой теории.  На основе правил (или перечня ограничений) должна быть разработана стратегия снятия неоднозначности.  Многие стратегии снятия неоднозначности полагаются на:  количественные данные – частоту данной структуры в данном корпусе (тип),  ограничения на выборку для данных лексических единиц, которые были получены или выделены из корпусных данных, и т.д.
  • 11. Основные процедуры обработки ЕЯ  Необходимо рассматривать два условия при обсуждении предварительной обработки корпусов: 1. Каждый шаг подготовки текста к обработке заставляет составителя корпуса принимать лингвистические решения, которые влияют на последующие шаги и на оценку корпуса.  Конечный пользователь должен быть в курсе этих решений, чтобы найти то, что он ищет.  New York и Baden Baden – одно или два слова?  Что делать с такими явлениями, как немецкие глаголы с отделяемыми приставками?
  • 12. Основные процедуры обработки ЕЯ 2. Конечного пользователя нужно поставить в известность о том, какая работа была проделана на стадии предварительной обработки и о возможных погрешностях  любые ошибки в кодировке, особенно системные, могут повлиять на результаты, полученные пользователями корпуса
  • 13. Разметка корпуса  Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учитывая размеры современных корпусов.  Некоторые виды разметки, в частности, анафорической, просодической, основная часть работы проводится вручную.  Для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers).
  • 14. Разметка корпуса  Автоматический морфологический анализатор (тэггер) приписывает каждой лексической единице грамматические характеристики  часть речи, лемма и набор граммем (например, род, число, падеж, одушевленность/неодушевленность, переходность и т.д.).  Автоматический синтаксический анализатор фиксирует синтаксические связи между словами и словосочетаниями, а синтаксическим единицам приписывает соответствующие характеристики  тип предложения, синтаксическая функция словосочетания и т.д.
  • 15. Снятие неоднозначности  Автоматический анализ ЕЯ небезошибочен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения).  В этом случае говорят о грамматической омонимии.  Снятие неоднозначности (морфологической, синтаксической) – одна из важнейших и сложнейших задач компьютерной лингвистики.  При создании корпусов для снятия неоднозначности используются автоматические и ручные способы.
  • 16. Снятие неоднозначности  Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека.  Автоматическое разрешение морфологической или синтаксической неоднозначности, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.
  • 17. Снятие неоднозначности  Для указания леммы словоформы достаточно сравнить слова по морфологическому словарю.  Если форма может быть членом более чем одной категории, необходимо снятие морфологической неоднозначности.  Например, слова words, forms, can, use, present и process могут быть как существительными, так и глаголами.  Достичь точной разметки английского корпуса можно путём анализа контекста или анализа более высокого уровня.
  • 18. Лингвистическая разметка  Морфологическая  Синтаксическая  Семантическая  Анафорическая  Просодическая  Дискурсная  и др.
  • 19. Морфологическая разметка  part-of-speech tagging (POS-tagging), дословно – частеречная разметка  также указываются признаки грамматических категорий, свойственных данной части речи  большинство крупных корпусов являются морфологически размеченными корпусами  успехи в компьютерной морфологии позволяют автоматически с большой степенью правильности размечать корпусы больших размеров
  • 20. Морфологическая разметка  Метка включает лемму, признак части речи, признаки грамматических категорий  В 1980 году появилась размеченная версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и т.д.
  • 21. Морфологическая разметка  the_AT jury_NN further_RB said_VBD in_IN term- end_NN presentments_NNS that_CS the_AT *city_NP *executive_NP *committee_NP ,_, which_WDT had_HVD over-all_JJ charge_NN of_IN the_AT election_NN ,_, deserves_VBZ the_AT praise_NN and_CC thanks_NNS of_IN the_AT *city_NP *of_NP *atlanta_NP for_IN the_AT manner_NN in_IN which_WDT the_AT election_NN was_BEDZ conducted_VBN |
  • 22. Морфологическая разметка АОТ <?xml version="1.0" encoding="windows-1251" ?> <text> <p> <s><w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /></w> <w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w> <w>вечерне <ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," /> <ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w> <pun>.</pun> </s> <s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр,ед,им,вн," /></w> <w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w> <w>колоколов <ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," /> <ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w> <pun>.</pun> </s></p></text>
  • 23. Синтаксическая разметка  является результатом парсинга, выполняемого на основе данных морфологического анализа  описывает синтаксические связи между лексичес- кими единицами и различные синтаксические конструкции (например, придаточное предложе- ние, глагольное словосочетание и т.д.)  В отличие от морфологии, способы представле- ния синтаксической структуры и синтаксических отношений не столь унифицированы.
  • 24. Синтаксическая разметка  Наблюдается разнообразие синтаксических теорий и формализмов:  грамматика зависимостей;  грамматика непосредственно составляющих;  грамматика структурных схем;  традиционные синтаксические учения о членах предложения;  функциональная грамматика;  семантический синтаксис и др.
  • 25.
  • 26. Семантическая разметка  предусматривает спецификацию значения слов, разрешение омонимии и синонимии, категоризацию слов (разряды), выделение тематических классов, признаков каузативности, оценочных и деривационных характеристик и т.д.  Семантические тэги чаще всего обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение.
  • 27. Семантическая разметка НКРЯ  каждой словоформе приписываются пометы трёх типов: 1. разряд (имя собственное, возвратное местоимение и т.д.); 2. лексико-семантические характеристики (тематический класс лексемы, признаки каузативности, оценки и т.д.); 3. деривационные характеристики («диминутив», «отадъективное наречие» и т.д.).
  • 28. Семантическая разметка НКРЯ  лексико-семантические тэги сгруппированы по следующим полям:  таксономия (тематический класс лексемы) – для имен существительных, прилагательных, глаголов и наречий;  мереология (указание на отношения «часть – целое», «элемент – множество») – для предметных и непредметных имен;
  • 29. Семантическая разметка НКРЯ  топология (топологический статус обозначаемого объекта) – для предметных имен;  каузация – для глаголов;  служебный статус – для глаголов;  оценка – для предметных и непредметных имен, прилагательных и наречий.
  • 30. Семантическая разметка НКРЯ  Словообразовательные характеристики включают несколько типов:  морфо-семантические словообразовательные признаки (например, «каритив», «семельфактив»);  разряд производящего слова (например, отглагольное существительное или отадъективное наречие);  лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера);  морфологический тип словообразования (субстантивация, сложное слово)