Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель:  к.ф.-м.н. доцент Б...
Терминология <ul><ul><li>Морфема  – наименьшая языковая единица, обладающая значением: </li></ul></ul><ul><ul><ul><ul><li>...
Морфемные словари и  подходы к их построению <ul><li>Морфемные словари (МС): </li></ul><ul><ul><li>Печатные:  (словарь А.Н...
Постановка задачи <ul><ul><li>Цель: </li></ul></ul><ul><ul><li>разработка компьютерного морфемного словаря русского языка ...
Принципы организации словарных данных <ul><ul><li>Исходные данные  – текстовые файлы со словами, разбитыми на морфы (типы ...
Схема базы данных словаря words word_morphs morphs allomorphs /14 Слово Id  слова Бетономешалка 235 Процедура 15782 Id 1 I...
Функции словаря <ul><li>1)  Осуществление морфемного разбора слов,  хранящихся  в БД словаря </li></ul><ul><li>Пример :  з...
Поиск вариантов морфемного разбиения  (для отсутствующих в БД слов) <ul><li>Шаг поиска: </li></ul><ul><li>1)  Отщепляются ...
Дерево поиска. Пример 1)«» 2) Столик 3) Приставка 1)«» 2) Столик 3) корень Приставка = « » 1)«+Стол» 2) ик 3) суффикс Коре...
Программная реализация <ul><li>Язык реализации –  С++ </li></ul><ul><li>Среда разработки –  Visual Studio 2005 </li></ul><...
Пользовательский интерфейс. Поиск морфемного состава /14
Пользовательский интерфейс. Поиск слов с заданной морфемой /14
Результаты работы <ul><li>Изучены  существующие морфемные словари и способы их построения. </li></ul><ul><li>Предложена  м...
/14 Благодарю за внимание!
Upcoming SlideShare
Loading in …5
×

Программная поддержка морфемного словаря

2,002 views

Published on

Швейкина О.А.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,002
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
11
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Программная поддержка морфемного словаря

  1. 1. Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.
  2. 2. Терминология <ul><ul><li>Морфема – наименьшая языковая единица, обладающая значением: </li></ul></ul><ul><ul><ul><ul><li>Корень: стол, един </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Аффикс: при (приставка), от (суффикс) </li></ul></ul></ul></ul><ul><ul><li>Морф – конкретная реализация морфемы в тексте; </li></ul></ul><ul><ul><li>Пример: пер, пир, ставл </li></ul></ul><ul><ul><li>Алломорф - совокупность морфов одной морфемы; </li></ul></ul><ul><ul><li>Пример: бр, бер, бор </li></ul></ul><ul><ul><li>Морфемный разбор слова – нахождение минимальных значимых единиц, из которых оно составлено </li></ul></ul><ul><ul><li>Пример: по лож ени е , по лаг ать </li></ul></ul>/14
  3. 3. Морфемные словари и подходы к их построению <ul><li>Морфемные словари (МС): </li></ul><ul><ul><li>Печатные: (словарь А.Н. Тихонова) </li></ul></ul><ul><ul><ul><li>Тяжело вносить дополнения </li></ul></ul></ul><ul><ul><ul><li>Медленный поиск </li></ul></ul></ul><ul><ul><li>Электронные: («Яндекс. Словари», «Ариадна») </li></ul></ul><ul><ul><ul><li>Нет прикладного интерфейса </li></ul></ul></ul><ul><li>Подходы к построению: </li></ul><ul><ul><li>Составление вручную (высокая точность) </li></ul></ul><ul><ul><li>Автоматизированный (точность около 80%) </li></ul></ul><ul><ul><ul><li>Генетический алгоритм </li></ul></ul></ul><ul><ul><ul><li>Построение правил разбиения на морфы </li></ul></ul></ul><ul><ul><ul><li>Вероятностный метод </li></ul></ul></ul>/14
  4. 4. Постановка задачи <ul><ul><li>Цель: </li></ul></ul><ul><ul><li>разработка компьютерного морфемного словаря русского языка и поддерживающих его программ </li></ul></ul><ul><ul><li>Исходные данные составлены вручную (текст. файлы) </li></ul></ul><ul><ul><li>Требуется разработать: </li></ul></ul><ul><ul><li>схему хранения однокоренных и многокоренных слов; </li></ul></ul><ul><ul><li>программы загрузки исходных данных; </li></ul></ul><ul><ul><li>процедуры, выполняющие: </li></ul></ul><ul><ul><ul><li>Морфемный разбор слов, содержащихся в БД; </li></ul></ul></ul><ul><ul><ul><li>Морфемный разбор слов, отсутствующих в БД; </li></ul></ul></ul><ul><ul><ul><li>Поиск слов с заданной морфемой; </li></ul></ul></ul><ul><ul><li>пользовательский и прикладной интерфейсы. </li></ul></ul>/14
  5. 5. Принципы организации словарных данных <ul><ul><li>Исходные данные – текстовые файлы со словами, разбитыми на морфы (типы морфов помечены): + бетон % о + меш – алк * а </li></ul></ul><ul><ul><li>Хранимые данные: </li></ul></ul><ul><ul><ul><li>для каждого слова хранится: </li></ul></ul></ul><ul><ul><ul><ul><li>1) Строковое представление </li></ul></ul></ul></ul><ul><ul><ul><ul><li>2) Связи с морфами (морфемный состав) </li></ul></ul></ul></ul><ul><ul><ul><li>для каждого морфа хранится: </li></ul></ul></ul><ul><ul><ul><ul><li>1) Строковое представление </li></ul></ul></ul></ul><ul><ul><ul><ul><li>2) Тип (соединит. гласная является отдельным типом) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>3) Связи с морфами (алломорфы) </li></ul></ul></ul></ul>/14
  6. 6. Схема базы данных словаря words word_morphs morphs allomorphs /14 Слово Id слова Бетономешалка 235 Процедура 15782 Id 1 Id 2 1543 1547 1543 1569 Корень Рас 1543 Корень Бетон 147 Id морфа морф Тип морфа 21 О Соед.гласная 1547 Раст Корень Id слова № морфа в слове Id морфа 235 1 147 235 2 21
  7. 7. Функции словаря <ul><li>1) Осуществление морфемного разбора слов, хранящихся в БД словаря </li></ul><ul><li>Пример : запрос: одичавший </li></ul><ul><li>результат: - О + ДИЧ - АВШ * ИЙ </li></ul><ul><li>2) Поиск возможного морфемного разбора слов, отсутствующих в БД словаря </li></ul><ul><li>3) Поиск групп слов, содержащих заданную морфему (с учетом возможных алломорфов) </li></ul><ul><li>Пример: запрос: -бер- (корень) </li></ul><ul><li>результат: слова с корнями </li></ul><ul><li>-бер-, -бир-, -бр-, -бор-. </li></ul>/14
  8. 8. Поиск вариантов морфемного разбиения (для отсутствующих в БД слов) <ul><li>Шаг поиска: </li></ul><ul><li>1) Отщепляются очередные несколько букв. Они рассматриваются как кандидаты в морфы </li></ul><ul><li>2) Проверяется , являются ли эти буквы нужным морфом </li></ul><ul><li>3) Если да – </li></ul><ul><li>эти буквы считаются морфом слова, продолжается поиск разбиения для остатка </li></ul><ul><li>Если нет – </li></ul><ul><li>отщепляется еще одна буква , либо ищется след. тип </li></ul><ul><li>Строится дерево поиска , в узлах: </li></ul><ul><li>Разобранная и неразобранная части слова, </li></ul><ul><li>Текущий тип морфа </li></ul>/14
  9. 9. Дерево поиска. Пример 1)«» 2) Столик 3) Приставка 1)«» 2) Столик 3) корень Приставка = « » 1)«+Стол» 2) ик 3) суффикс Корень = «Стол» 1)«+Стол-и» 2) к 3) суффикс 1)«+Стол-ик» 2) - 3) - Суффикс = «ик» Суффикс = «и» Суффикс = « » 1)«+Стол-и-к» 2) - 3) - Суффикс = «к» /14 1)«-С» 2) толик 3) корень 1)«+Стол» 2) ик 3) окончание Приставка = « С »
  10. 10. Программная реализация <ul><li>Язык реализации – С++ </li></ul><ul><li>Среда разработки – Visual Studio 2005 </li></ul><ul><li>Библиотека графического интерфейса – MFC </li></ul><ul><li>Реляционная база данных – SQLITE </li></ul><ul><li>Язык для работы с базой данных – SQL </li></ul><ul><li>Прикладной интерфейс , поддерживающий : </li></ul><ul><ul><li>Загрузку исходных файлов; </li></ul></ul><ul><ul><li>Поиск морфемного состава слов из БД, не из БД; </li></ul></ul><ul><ul><li>Поиск слов с заданной морфемой </li></ul></ul>/14
  11. 11. Пользовательский интерфейс. Поиск морфемного состава /14
  12. 12. Пользовательский интерфейс. Поиск слов с заданной морфемой /14
  13. 13. Результаты работы <ul><li>Изучены существующие морфемные словари и способы их построения. </li></ul><ul><li>Предложена модель хранения словарных данных. </li></ul><ul><li>Разработаны программные средства поддержки: </li></ul><ul><ul><li>загрузки словарных данных из текстовых файлов; </li></ul></ul><ul><ul><li>поиска морфемного разбора заданного слова </li></ul></ul><ul><ul><ul><li>из БД </li></ul></ul></ul><ul><ul><ul><li>не из БД; </li></ul></ul></ul><ul><ul><li>поиска слов, содержащих заданную морфему. </li></ul></ul><ul><li>Реализован прикладной и пользовательский интерфейсы. </li></ul>/14
  14. 14. /14 Благодарю за внимание!

×