Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Электронные словари
     паронимов

           Белова Татьяна 525гр.

          Научный руководитель:
               Больш...
Содержание
1. Паронимы
2. Электронные словари паронимов
  •   Исследование вариативности слов
  •   Эффект кластеризации и...
Паронимы
• не существует единого понимания термина
  «пароним»
Паронимы – слова со схожим звучанием при
  их семантическом...
Виды паронимов
• звуковые (квазиомонимы)
        исламский – исландский,
• буквенные
           калинка – калитка,
• морфе...
Электронные словари паронимов
Авторы: В.Д. Гусев, Н.В. Саломатина
Исходный словарь:
  D. Worth, A. Kozak, D. Jonson
  Russ...
Основные понятия
• Каноническая словоформа (лексема) –
  единица языка, рассматриваемая во всей
  совокупности своих форм ...
Формализация понятия паронима
Слова a и b являются паронимами, если

            d (a, b )
                        ≤ q,
  ...
Словарь паронимов: версия 1
редакционное расстояние d = 1
Процедура построения:
• подмножества слов одинаковой длины
• ите...
Вариативность слов
• доля слов, имеющих паронимы - 43%
• среди редакционных операций
  преобладают замены
• вариативность ...
Количественные характеристики
• слова с рекордным числом паронимов
   – операция замены бок (20), полить (17),
   – операц...
Словарь паронимов: версия 2
• увеличение степени искажения (d=2)
Отличия:
• комбинирование операций
• появление новых опер...
Количественные характеристики
         паронимов
• Мощность редакционных операций
          SS>SD>SI>DD>II>DI
            ...
Наиболее и наименее
         изменчивые слова
Наиболее изменчивые слова
• длина ≥ 6
• преимущественно глаголы
Рекорды:
  р...
Эффект кластеризации
         искажений
• Новый параметр – расстояние между
  искажениями
• Кластеризованные искажения –
 ...
Свойства кластеризованных
           искажений
• обе позиции принадлежат одному и
  тому же слогу/морфеме
   синеватый – с...
Векторы искажений
• Наиболее высокочастотные:
    за 1813
    по 1632
    ся 1590
    на 1342
    вы – за 1290
    с – за ...
Дальнейшее увеличение степени
       искажения (d=3)
• качественно новых эффектов не появляется
• отмеченные ранее свойств...
Морфемные паронимы
Морфемными паронимами называются слова,
• относящиеся к одной части речи
• имеющие одинаковый корень (в...
Морфемные модели
 - представление слов в виде цепочки
   морфем с унифицированным корнем
 под-R-к-а (подборка, подножка, п...
Вариативность морфемных
           моделей
• Доля слов, имеющих паронимы:
  – 32% (операция замены)
  – 39% (операция вста...
Фонетическое сходство
Снижается:
• с ростом редакционного расстояния
• при изменении ударения
• при сильном разнесении по ...
Словарь звуковых паронимов
• Словарь звуковых паронимов –
  фонетический аналог словаря
  буквенных паронимов
• схожесть з...
Постановка задачи
• построение компьютерного словаря
  буквенных и морфемных паронимов
• основа: текстовые файлы, содержащ...
Схема базы данных
  Слова




Морфемный состав         Расстояния




             Морфы



                              ...
Реализация
• Язык реализации – Java
Используемая СУБД:
• HSQLDB – реляционная СУБД
  – небольшого размера (~600Кб)
  – мож...
Спасибо за внимание!

      Вопросы?
Upcoming SlideShare
Loading in …5
×

Электронные словари паронимов

3,182 views

Published on

Белова Татьяна
18 ноября 2008

  • Be the first to comment

  • Be the first to like this

Электронные словари паронимов

  1. 1. Электронные словари паронимов Белова Татьяна 525гр. Научный руководитель: Большакова Е.И.
  2. 2. Содержание 1. Паронимы 2. Электронные словари паронимов • Исследование вариативности слов • Эффект кластеризации искажений 3. Морфемные модели 4. Морфемные паронимы 5. Звуковые паронимы 2
  3. 3. Паронимы • не существует единого понимания термина «пароним» Паронимы – слова со схожим звучанием при их семантическом различии (полном или частичном). Паронимы – однокоренные слова, принадлежащие к одной части речи. время – бремя скрытый – скрытный нервный – неровный 3
  4. 4. Виды паронимов • звуковые (квазиомонимы) исламский – исландский, • буквенные калинка – калитка, • морфемные (однокоренные) одеть – надеть, • морфемные наличность – комичность. 4
  5. 5. Электронные словари паронимов Авторы: В.Д. Гусев, Н.В. Саломатина Исходный словарь: D. Worth, A. Kozak, D. Jonson Russian Derivation Dictionary 100 960 слов Для создания словарей потребовалось: • формальное определение паронимов • эффективный алгоритм построения 5
  6. 6. Основные понятия • Каноническая словоформа (лексема) – единица языка, рассматриваемая во всей совокупности своих форм и значений. • Редакционные операции: замена, вставка, удаление символа • Редакционное расстояние (d) – минимальное число ред. операций, переводящих одно слово в другое лень – тень (d=1), роса – проза (d=2) 6
  7. 7. Формализация понятия паронима Слова a и b являются паронимами, если d (a, b ) ≤ q, min( a , b ) где d(a,b) – редакционное расстояние, q – некоторый порог (обычно q≤1/3), |a| – длина слова 7
  8. 8. Словарь паронимов: версия 1 редакционное расстояние d = 1 Процедура построения: • подмножества слов одинаковой длины • итеративный процесс по номеру позиции, в которой производится замена (или вставка) символа • представление в виде дерева, в котором склеены одинаковые префиксные части 8
  9. 9. Вариативность слов • доля слов, имеющих паронимы - 43% • среди редакционных операций преобладают замены • вариативность и число паронимов зависят от длины слова (убывают с увеличением длины слова) • число паронимов зависит от номера позиции 9
  10. 10. Количественные характеристики • слова с рекордным числом паронимов – операция замены бок (20), полить (17), – операция вставки есть (11), поить (11) • зависимость вариативности от длины слова: Вариативность – отношение числа слов длины j, имеющих паронимы, к общему числу слов длины j. Среднее число Максимальное Вариативность Длина слова паронимов число паронимов 2 4,2 16 100% 4 1,86 31 88% 10 1,3 18 40% 10
  11. 11. Словарь паронимов: версия 2 • увеличение степени искажения (d=2) Отличия: • комбинирование операций • появление новых операций (перестановка символов, перенос символа) • эффект позиционной кластеризации искажений • рост рекордных показателей 11
  12. 12. Количественные характеристики паронимов • Мощность редакционных операций SS>SD>SI>DD>II>DI (S>D>I для d=1), S - замена D - удаление I - вставка • доля слов, имеющих паронимы - 82% (43% для d=1) 12
  13. 13. Наиболее и наименее изменчивые слова Наиболее изменчивые слова • длина ≥ 6 • преимущественно глаголы Рекорды: рака - 277 паронимов полить - 225 паронимов Наименее изменчивые слова • низкочастотные • преимущественно: существительные, слова иностранного происхождения, составные слова взгляд, хнычущий, кенгуру, чудо-юдо 13
  14. 14. Эффект кластеризации искажений • Новый параметр – расстояние между искажениями • Кластеризованные искажения – искажения, затрагивающие соседние позиции Эффект кластеризации искажений Число кластеризованных искажений существенно выше, чем в модели с независимым распределением 14
  15. 15. Свойства кластеризованных искажений • обе позиции принадлежат одному и тому же слогу/морфеме синеватый – сизоватый, скрываться – скрыться • наблюдается в основном для операций II, DD и SS • высокочастотные искажения жестко привязаны к морфемной структуре слов 15
  16. 16. Векторы искажений • Наиболее высокочастотные: за 1813 по 1632 ся 1590 на 1342 вы – за 1290 с – за 1087 • наиболее вариативная часть слова – префикс 16
  17. 17. Дальнейшее увеличение степени искажения (d=3) • качественно новых эффектов не появляется • отмеченные ранее свойства проявляются более ярко: – рекорды j=10: макс. число паронимов для SSS – 178 (при d=2 рекордное число для SS – 53) – наиболее вариативны приставки – кластеризация четко фиксирует морфемную структуру слов подход - расход античность – лиричность 17
  18. 18. Морфемные паронимы Морфемными паронимами называются слова, • относящиеся к одной части речи • имеющие одинаковый корень (возможно, с внутрикоренными чередованиями) или омонимичные корни • различающиеся вспомогательными морфемами, т.е. суффиксами, суффиксоидами, префиксами, префиксоидами осудить – обсудить, песочный - песчаный 18
  19. 19. Морфемные модели - представление слов в виде цепочки морфем с унифицированным корнем под-R-к-а (подборка, подножка, подземка) • на 100 тыс. слов – ~30 тыс. моделей • исследовались модели, встретившиеся в словаре не менее 10 раз (покрывают более 80% всех слов) • Редакционные операции: замена/удаление одного морфа 19
  20. 20. Вариативность морфемных моделей • Доля слов, имеющих паронимы: – 32% (операция замены) – 39% (операция вставки) • Наиболее частая – вставка: не – 479 раз – замена: а – и – 205 раз • Наиболее вариативные части слова: первая приставка и первый суффикс. • Варьируются чаще многосимвольные морфемы 20
  21. 21. Фонетическое сходство Снижается: • с ростом редакционного расстояния • при изменении ударения • при сильном разнесении по позициям карточка - картошка крыса – рысак шило - мыло 21
  22. 22. Словарь звуковых паронимов • Словарь звуковых паронимов – фонетический аналог словаря буквенных паронимов • схожесть звуков определяется по артикуляционно-акустическим признакам (твердость/глухость, ударность/безударность) • наблюдаются те же закономерности, что и в буквенной версии словаря 22
  23. 23. Постановка задачи • построение компьютерного словаря буквенных и морфемных паронимов • основа: текстовые файлы, содержащие словарные данные Использование: • поиск паронимов • исправление ошибок, связанных с неправильным употреблением слов- паронимов 23
  24. 24. Схема базы данных Слова Морфемный состав Расстояния Морфы 24
  25. 25. Реализация • Язык реализации – Java Используемая СУБД: • HSQLDB – реляционная СУБД – небольшого размера (~600Кб) – можно использовать как библиотеку На данный момент реализовано частичное заполнение базы данных. 25
  26. 26. Спасибо за внимание! Вопросы?

×