SlideShare a Scribd company logo
1 of 12
Download to read offline
Дипломная работа




 ПРОГРАММНЫЕ СРЕДСТВА
  ПОДДЕРЖКИ СЛОВАРЯ
БУКВЕННЫХ И МОРФЕМНЫХ
      ПАРОНИМОВ

                                Автор:
              Белова Татьяна Сергеевна

                 Научный руководитель:
       к.ф.-м.н. доцент Большакова Е.И.
Понятие паронима
• Паронимы – это близкие по произношению,
  но разные по значению слова
   адресат – адресант, песочный - песчаный

• Различие слов может быть формально
  измерено в
   – звуках исламский – исландский 1 звук
   – буквах   калинка – калитка    1 буква
   – морфах     одеть – надеть     1 морф
Подходы к построению
компьютерных словарей паронимов
1.       Словарь паронимов «КОНТЕКСТ»
     •     в основе – текстовый словарь паронимов
     •     небольшой объем

2.       Электронный словарь паронимов
          В. Гусева и Н. Саломатиной
     •     автоматический подход
     •     слишком узкое понимание паронимов

3.       Словарь паронимов для задачи исправления
         паронимических ошибок (И. Большаков)
     •     буквенные и морфемные паронимы
     •     текстовые файлы
Постановка задачи

• Разработать и реализовать словарь
  буквенных и морфемных паронимов
  русского языка, позволяющий:
  – загружать готовые лингвистические данные
  – автоматически пополнять базу паронимов
  – отразить наиболее общее понимание
    паронимов, уточняемое настройкой
    параметров
• Предоставить прикладной и
  пользовательский интерфейсы для
  работы со словарем
Формализация понятия
          паронима
• Сформулированы определения паронимов
(в основе – понятие редакционного расстояния)

Буквенными паронимами на расстоянии d
  называются слова, находящиеся на
  редакционном расстоянии в буквах, равном d.
Морфемными паронимами на расстоянии d
  называются слова, находящиеся на
  редакционном расстоянии в морфах, равном d.

• Определен набор параметров, позволяющих
  варьировать строгость определений
Схема базы данных




               PARONYMS
Архитектура комплекса программных
   средств, реализующих словарь
             паронимов
Алгоритм составления
          словаря
• Загрузка исходных данных
  – Фильтрация, анализ
  – Добавление данных в словарь
• Автоматическое пополнение словаря
  – Поиск пар паронимов
  – Подсчет параметров
  – Добавление информации в словарь в
    компактном виде
Особенности:
• Расширяемость словарной базы
• Настраиваемые параметры составления
  словаря
Поиск паронимов
       для заданного слова
Параметры:
  –   максимальное редакционное расстояние
  –   степень искажения
  –   совпадение части речи, рода, числа
  –   различия в конкретных типах морфов
  –   учет чередующихся корней
  –   работа с произвольными словоформами
Результат:
  – буквенные и морфемные паронимы
  – морфемный состав
  – грамматические характеристики
Пользовательский интерфейс
Результаты работы

Произведен анализ прикладных задач и
существующих словарей паронимов
Разработана реляционная модель
хранения данных
Реализован комплекс программных
средств, отвечающий предъявленным
требованиям
Протестировано заполнение словаря на
основе разных исходных файлов
большого объема
Спасибо за
внимание!

More Related Content

Similar to Программные средства поддержки словаря буквенных и морфемных паронимов

состав слова и методика его изучения на уроках русского языка в начальной школе
состав слова и методика его изучения на уроках русского языка в начальной школесостав слова и методика его изучения на уроках русского языка в начальной школе
состав слова и методика его изучения на уроках русского языка в начальной школеKLLM73
 
АвторефератБочкарева
АвторефератБочкареваАвторефератБочкарева
АвторефератБочкареваIrina Bochkareva
 
презентация 08.09.10 даньшина м.в.
презентация 08.09.10 даньшина м.в.презентация 08.09.10 даньшина м.в.
презентация 08.09.10 даньшина м.в.it-semio
 
Презентация: Орфоэпия
Презентация: ОрфоэпияПрезентация: Орфоэпия
Презентация: Орфоэпияozlmgouru
 
791.культура речевого поведения практикум
791.культура речевого поведения  практикум791.культура речевого поведения  практикум
791.культура речевого поведения практикумivanov1566334322
 
механизмы речи
механизмы речимеханизмы речи
механизмы речиnadyushka1999
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстовArtem Lukanin
 
849 русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с
849  русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с849  русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с
849 русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159сdfdkfjs
 
дизорфография. методические приемы коррекции
дизорфография. методические приемы коррекциидизорфография. методические приемы коррекции
дизорфография. методические приемы коррекцииЕвгений Азов
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина GeeksLab Odessa
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикографияArtem Lukanin
 

Similar to Программные средства поддержки словаря буквенных и морфемных паронимов (20)

состав слова и методика его изучения на уроках русского языка в начальной школе
состав слова и методика его изучения на уроках русского языка в начальной школесостав слова и методика его изучения на уроках русского языка в начальной школе
состав слова и методика его изучения на уроках русского языка в начальной школе
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
АвторефератБочкарева
АвторефератБочкареваАвторефератБочкарева
АвторефератБочкарева
 
презентация 08.09.10 даньшина м.в.
презентация 08.09.10 даньшина м.в.презентация 08.09.10 даньшина м.в.
презентация 08.09.10 даньшина м.в.
 
Презентация: Орфоэпия
Презентация: ОрфоэпияПрезентация: Орфоэпия
Презентация: Орфоэпия
 
791.культура речевого поведения практикум
791.культура речевого поведения  практикум791.культура речевого поведения  практикум
791.культура речевого поведения практикум
 
Promt
PromtPromt
Promt
 
механизмы речи
механизмы речимеханизмы речи
механизмы речи
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Особые корпусы текстов
Особые корпусы текстовОсобые корпусы текстов
Особые корпусы текстов
 
RussNet
RussNetRussNet
RussNet
 
849 русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с
849  русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с849  русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с
849 русский язык. 6кл. метод. рекоменд. ладыженская-2014 -159с
 
Puls Russian
Puls RussianPuls Russian
Puls Russian
 
дизорфография. методические приемы коррекции
дизорфография. методические приемы коррекциидизорфография. методические приемы коррекции
дизорфография. методические приемы коррекции
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
 
Компьютерная лексикография
Компьютерная лексикографияКомпьютерная лексикография
Компьютерная лексикография
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Программные средства поддержки словаря буквенных и морфемных паронимов

  • 1. Дипломная работа ПРОГРАММНЫЕ СРЕДСТВА ПОДДЕРЖКИ СЛОВАРЯ БУКВЕННЫХ И МОРФЕМНЫХ ПАРОНИМОВ Автор: Белова Татьяна Сергеевна Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.
  • 2. Понятие паронима • Паронимы – это близкие по произношению, но разные по значению слова адресат – адресант, песочный - песчаный • Различие слов может быть формально измерено в – звуках исламский – исландский 1 звук – буквах калинка – калитка 1 буква – морфах одеть – надеть 1 морф
  • 3. Подходы к построению компьютерных словарей паронимов 1. Словарь паронимов «КОНТЕКСТ» • в основе – текстовый словарь паронимов • небольшой объем 2. Электронный словарь паронимов В. Гусева и Н. Саломатиной • автоматический подход • слишком узкое понимание паронимов 3. Словарь паронимов для задачи исправления паронимических ошибок (И. Большаков) • буквенные и морфемные паронимы • текстовые файлы
  • 4. Постановка задачи • Разработать и реализовать словарь буквенных и морфемных паронимов русского языка, позволяющий: – загружать готовые лингвистические данные – автоматически пополнять базу паронимов – отразить наиболее общее понимание паронимов, уточняемое настройкой параметров • Предоставить прикладной и пользовательский интерфейсы для работы со словарем
  • 5. Формализация понятия паронима • Сформулированы определения паронимов (в основе – понятие редакционного расстояния) Буквенными паронимами на расстоянии d называются слова, находящиеся на редакционном расстоянии в буквах, равном d. Морфемными паронимами на расстоянии d называются слова, находящиеся на редакционном расстоянии в морфах, равном d. • Определен набор параметров, позволяющих варьировать строгость определений
  • 7. Архитектура комплекса программных средств, реализующих словарь паронимов
  • 8. Алгоритм составления словаря • Загрузка исходных данных – Фильтрация, анализ – Добавление данных в словарь • Автоматическое пополнение словаря – Поиск пар паронимов – Подсчет параметров – Добавление информации в словарь в компактном виде Особенности: • Расширяемость словарной базы • Настраиваемые параметры составления словаря
  • 9. Поиск паронимов для заданного слова Параметры: – максимальное редакционное расстояние – степень искажения – совпадение части речи, рода, числа – различия в конкретных типах морфов – учет чередующихся корней – работа с произвольными словоформами Результат: – буквенные и морфемные паронимы – морфемный состав – грамматические характеристики
  • 11. Результаты работы Произведен анализ прикладных задач и существующих словарей паронимов Разработана реляционная модель хранения данных Реализован комплекс программных средств, отвечающий предъявленным требованиям Протестировано заполнение словаря на основе разных исходных файлов большого объема