SlideShare a Scribd company logo
1 of 23
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА НАТЕМУ:
«ПРОГРАММНАЯ СРЕДА ПОЛУАВТОМАТИЧЕСКОЙ
ГЕНЕРАЦИИ СЛОВАРЕЙ ДЛЯ ЛЕКСИКОГРАФОВ»
РУКОВОДИТЕЛЬ: К.Ф.-М.Н., ДОЦЕНТ, СОШНИКОВ Д.В.
ДИПЛОМНИК ГРУППЫ 08-606: КИРИЛИНА А.А.
МОСКОВСКИЙАВИАЦИОННЫЙ ИНСТИТУТ
(НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)
Москва, 2015
1. АКТУАЛЬНОСТЬ
2.ТРУДОЁМКОСТЬ ЗАДАЧИ
 КАРТИНКА три статьи -> другие статьи
 При этом нужно вспомнить все переводы и ничего
не забыть
3. ОБОБЩЕНИЕ ЗАДАЧИ
4. ЦЕЛЬ РАБОТЫ
Создание АРМ лексикографа со считыванием и
генерацией словарей в различных форматах.
5. КОНКУРЕНТЫ
WeSay Leacslann
6. ФУНКЦИОНАЛ АРМ
7. ФУНКЦИОНАЛ АРМ
8. ЗАДАЧИ
 Построить общую модель данных
 Реализовать импорт данных
 Реализовать генерацию «обратного» словаря
 Создать пользовательский клиент для
редактирования словаря лексикографом
9. МЕТАЯЗЫК
 Общие идеи
 Словам соответствуют UID
 Гипотеза С-В
 Фрагмент таблицы БД
10. МОДЕЛЬ ДАННЫХ EDMX
11.ТЕХНОЛОГИИ
12. XSLT-ПРЕОБРАЗОВАНИЕ
14. РЕДАКТИРОВАНИЕ СЛОВАРЯ
 Функции для редактирования и связки слов и примеров.
 Можно вывести список несвязанных ни с какими словами примерами.
Причины их появления:
 Такие примеры могут появиться из-за особенностей перевода:
аппарат cihaz, apparat; кассовый ~ kassa cihazı; звуковой ~ лингв. ses
cihazı; речевой ~ лингв. söz cihazı; летательный ~ uçquç şekiy
 Формы одного слова не распознались из-за неточности правил.
 Неоднокоренные слова посчитались однокоренными – например с
коротенькими словами.
15. ИНТЕРФЕЙС ПРОГРАММЫ
16. ИНТЕРВАЛЬНАЯ ОЦЕНКА ОСТАВШЕГОСЯ ВРЕМЕНИ РАБОТЫ
𝑋 – время редактирования взятой наугад словарной статьи.
𝑋~𝑁(𝑚 𝑋, 𝜎 𝑋)
С вероятностью 1 − 𝛼 оставшееся время работы над словарём будет покрываться промежутком
𝑁 𝑋 𝑛 − 𝑁
𝜎 𝑛
𝑛
𝑡1−
𝛼
2
, 𝑁 𝑋 𝑛 + 𝑁
𝜎 𝑛
𝑛
𝑡1−
𝛼
2
.
𝜎 𝑛 =
1
𝑛 𝑖=1
𝑛
(𝑋𝑖− 𝑋 𝑛)2
- оценка среднеквадратического отклонения
𝑡1−
𝛼
2
– квантиль уровня 1 −
𝛼
2
распределенияСтьюдента с n степенями свободы
17. ПРЕИМУЩЕСТВА ИНТЕРВАЛЬНОЙ ОЦЕНКИ
18. ГЕНЕРАЦИЯ «ОБРАТНОГО» СЛОВАРЯ
 А ЗДЕСЬ ВЫ ВИДИТЕ КРАСИВЕНЬКИЙ АЛГОРИТМ
НА ПСЕВДОКОДИКЕ
19. ПОДЫТОЖИМ,ЧТО ПОЛУЧИЛОСЬ
20. МОБИЛЬНОЕ ПРИЛОЖЕНИЕ
21. РЕЗУЛЬТАТЫ
 Разработана модель представления множества словарей на едином
лингвистическом поле (несколько словарей вместе в одной модели)
(!переписывать)
 Разработан алгоритм построения «обратного» словаря
 Разработана среда, позволяющая считывать словари в формате .docx для
последующей обработки и редактирования
22. ПЛАНЫ
 Русско-крымскотатарский в крымскотатарско-русский
 Совместный словарь трёх авторов на базе русско-украинско-
крымскотатарского
 Русско-караимский в караимско-русский
 Перевод в облачную архитектуру SAAS
 Облачный доступ к программе Microsoft Bizspark – подана заявка.
СПАСИБО ЗА ВНИМАНИЕ

More Related Content

More from Sergey Maslennikov

Программное средство сравнительного исследования человеко- машинных интерфей...
Программное средство сравнительного исследования человеко- машинных интерфей...Программное средство сравнительного исследования человеко- машинных интерфей...
Программное средство сравнительного исследования человеко- машинных интерфей...Sergey Maslennikov
 
Применение компьютерного моделирования для решения задач параметрической ид...
Применение компьютерного  моделирования  для решения задач параметрической ид...Применение компьютерного  моделирования  для решения задач параметрической ид...
Применение компьютерного моделирования для решения задач параметрической ид...Sergey Maslennikov
 
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...Sergey Maslennikov
 
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...Sergey Maslennikov
 
Система автоматического мониторинга физической подготовки учащихся на основ...
Система автоматического мониторинга  физической подготовки учащихся  на основ...Система автоматического мониторинга  физической подготовки учащихся  на основ...
Система автоматического мониторинга физической подготовки учащихся на основ...Sergey Maslennikov
 
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...Sergey Maslennikov
 
3D-моделирование поведения роя частиц с использованием подходов многоагентных...
3D-моделирование поведения роя частиц с использованием подходов многоагентных...3D-моделирование поведения роя частиц с использованием подходов многоагентных...
3D-моделирование поведения роя частиц с использованием подходов многоагентных...Sergey Maslennikov
 
Программно-информационное обеспечение построения орбитальной группировки косм...
Программно-информационное обеспечение построения орбитальной группировки косм...Программно-информационное обеспечение построения орбитальной группировки косм...
Программно-информационное обеспечение построения орбитальной группировки косм...Sergey Maslennikov
 
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...Sergey Maslennikov
 
Программное и информационное обеспечение шахматной системы
Программное и информационное обеспечение шахматной системыПрограммное и информационное обеспечение шахматной системы
Программное и информационное обеспечение шахматной системыSergey Maslennikov
 
Платформа для проведения интернет конференций
Платформа для проведения интернет конференцийПлатформа для проведения интернет конференций
Платформа для проведения интернет конференцийSergey Maslennikov
 

More from Sergey Maslennikov (14)

Программное средство сравнительного исследования человеко- машинных интерфей...
Программное средство сравнительного исследования человеко- машинных интерфей...Программное средство сравнительного исследования человеко- машинных интерфей...
Программное средство сравнительного исследования человеко- машинных интерфей...
 
Prezentatsia
PrezentatsiaPrezentatsia
Prezentatsia
 
Применение компьютерного моделирования для решения задач параметрической ид...
Применение компьютерного  моделирования  для решения задач параметрической ид...Применение компьютерного  моделирования  для решения задач параметрической ид...
Применение компьютерного моделирования для решения задач параметрической ид...
 
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...
ВЕБ-ПОРТАЛ ДЛЯ ПРОВЕДЕНИЯ КОНТРОЛЬНЫХ 
И ПРАКТИЧЕСКИХ РАБОТ ПО ПРОГРАММИРОВАН...
 
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...
Оптимизация методов внутрикадрового предсказания формата H.265(HEVC) для пото...
 
Система автоматического мониторинга физической подготовки учащихся на основ...
Система автоматического мониторинга  физической подготовки учащихся  на основ...Система автоматического мониторинга  физической подготовки учащихся  на основ...
Система автоматического мониторинга физической подготовки учащихся на основ...
 
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...
Применение алгоритмов гарантированной двухсторонней оценки решения в задачах ...
 
3D-моделирование поведения роя частиц с использованием подходов многоагентных...
3D-моделирование поведения роя частиц с использованием подходов многоагентных...3D-моделирование поведения роя частиц с использованием подходов многоагентных...
3D-моделирование поведения роя частиц с использованием подходов многоагентных...
 
Программно-информационное обеспечение построения орбитальной группировки косм...
Программно-информационное обеспечение построения орбитальной группировки косм...Программно-информационное обеспечение построения орбитальной группировки косм...
Программно-информационное обеспечение построения орбитальной группировки косм...
 
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...
ВЕБ-СЕРВИС ДЛЯ РАСПРЕДЕЛЕННОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО ТЕСТИРОВАНИЯ С ФУНК...
 
Программное и информационное обеспечение шахматной системы
Программное и информационное обеспечение шахматной системыПрограммное и информационное обеспечение шахматной системы
Программное и информационное обеспечение шахматной системы
 
Maslennikov
MaslennikovMaslennikov
Maslennikov
 
Платформа для проведения интернет конференций
Платформа для проведения интернет конференцийПлатформа для проведения интернет конференций
Платформа для проведения интернет конференций
 
Django
DjangoDjango
Django
 

полуавтоматическая генерации словарей для лексикографов

  • 1. ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА НАТЕМУ: «ПРОГРАММНАЯ СРЕДА ПОЛУАВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ СЛОВАРЕЙ ДЛЯ ЛЕКСИКОГРАФОВ» РУКОВОДИТЕЛЬ: К.Ф.-М.Н., ДОЦЕНТ, СОШНИКОВ Д.В. ДИПЛОМНИК ГРУППЫ 08-606: КИРИЛИНА А.А. МОСКОВСКИЙАВИАЦИОННЫЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ) Москва, 2015
  • 3. 2.ТРУДОЁМКОСТЬ ЗАДАЧИ  КАРТИНКА три статьи -> другие статьи  При этом нужно вспомнить все переводы и ничего не забыть
  • 5. 4. ЦЕЛЬ РАБОТЫ Создание АРМ лексикографа со считыванием и генерацией словарей в различных форматах.
  • 9. 8. ЗАДАЧИ  Построить общую модель данных  Реализовать импорт данных  Реализовать генерацию «обратного» словаря  Создать пользовательский клиент для редактирования словаря лексикографом
  • 10. 9. МЕТАЯЗЫК  Общие идеи  Словам соответствуют UID  Гипотеза С-В  Фрагмент таблицы БД
  • 14. 14. РЕДАКТИРОВАНИЕ СЛОВАРЯ  Функции для редактирования и связки слов и примеров.  Можно вывести список несвязанных ни с какими словами примерами. Причины их появления:  Такие примеры могут появиться из-за особенностей перевода: аппарат cihaz, apparat; кассовый ~ kassa cihazı; звуковой ~ лингв. ses cihazı; речевой ~ лингв. söz cihazı; летательный ~ uçquç şekiy  Формы одного слова не распознались из-за неточности правил.  Неоднокоренные слова посчитались однокоренными – например с коротенькими словами.
  • 16. 16. ИНТЕРВАЛЬНАЯ ОЦЕНКА ОСТАВШЕГОСЯ ВРЕМЕНИ РАБОТЫ 𝑋 – время редактирования взятой наугад словарной статьи. 𝑋~𝑁(𝑚 𝑋, 𝜎 𝑋) С вероятностью 1 − 𝛼 оставшееся время работы над словарём будет покрываться промежутком 𝑁 𝑋 𝑛 − 𝑁 𝜎 𝑛 𝑛 𝑡1− 𝛼 2 , 𝑁 𝑋 𝑛 + 𝑁 𝜎 𝑛 𝑛 𝑡1− 𝛼 2 . 𝜎 𝑛 = 1 𝑛 𝑖=1 𝑛 (𝑋𝑖− 𝑋 𝑛)2 - оценка среднеквадратического отклонения 𝑡1− 𝛼 2 – квантиль уровня 1 − 𝛼 2 распределенияСтьюдента с n степенями свободы
  • 18. 18. ГЕНЕРАЦИЯ «ОБРАТНОГО» СЛОВАРЯ  А ЗДЕСЬ ВЫ ВИДИТЕ КРАСИВЕНЬКИЙ АЛГОРИТМ НА ПСЕВДОКОДИКЕ
  • 21. 21. РЕЗУЛЬТАТЫ  Разработана модель представления множества словарей на едином лингвистическом поле (несколько словарей вместе в одной модели) (!переписывать)  Разработан алгоритм построения «обратного» словаря  Разработана среда, позволяющая считывать словари в формате .docx для последующей обработки и редактирования
  • 22. 22. ПЛАНЫ  Русско-крымскотатарский в крымскотатарско-русский  Совместный словарь трёх авторов на базе русско-украинско- крымскотатарского  Русско-караимский в караимско-русский  Перевод в облачную архитектуру SAAS  Облачный доступ к программе Microsoft Bizspark – подана заявка.

Editor's Notes

  1. У меня есть знакомый, который составил русско-крымскотатарский словарь и он спросил, могу ли я написать программу, которая сгенерировала бы на его основе крымскотатарско-русский словарь. // Тюркская языковая группа -> кыпчакские и огузские. Татарский – кыпчакский язык, а турецкий – огузский, а крымскотатарский язык – гибридный. Среди крымских татар у южнобережных диалект относится к огузской группе, а у степных – к кыпчакской. Есть ещё диалект средней полосы - смешанный, литературный язык основан на смешанном. //Я решила взяться за более обобщенную задачу – сделать автоматическое рабочее место лексикографа для работы с любыми словарями.
  2. На этом языке говорит около полумиллиона человек. Помимо Крыма на нём говорят в разных странах: в Узбекистане, Турции, Румынии, Болгарии, прилегающих к Крыму районах России и Украины. У крымских татар, живущих в этих странах, крымскотатарский – единственный общий язык, на котором они могут общаться друг с другом. Для того чтобы собрать все слова-переводы, нужно читать словарь, параллельно выписывая все слова из правой части словарных статей вместе с переводом (то есть заголовком). Встретив слово второй раз в правой части какой-либо статьи, нужно дописать второй перевод для этого слова и так далее. Вместе со словами-переводами нужно выписывать и примеры к ним.
  3. Посмотрите, сколько действий вам нужно сделать, даже если ваш словарь состоит из трех слов. А если их не три, а тридцать тысяч? Действия, которые нужно проделать, с одной стороны – монотонная задача, действия несложные, но в огромных количествах и требующие внимания, чтобы ничего не пропустить и вставить куда нужно. Поэтому эта деятельность требует много человекочасов, а это дорого.
  4. Мы решили обобщить задачу и сделать автоматизированное рабочее место лексикографа. Лексикограф – человек, который занимается составлением словарей.
  5. АРМ должно поддерживать считывание словарей с различной внутренней структурой (разметкой, обозначениями и т.д.) и генерацию словарей на разных языках. // Дв // Создание АРМ лексикографа с поддержкой словарей в различных форматах и с генерацией словарей в различных форматах.
  6. На рынке есть конкуренты, но, во-первых, их не много.
  7. Во-вторых, либо это бесплатные приложения с небогатым функционалом, либо функционал шире, но они дорого стоят. А это не подходит людям, занимающимся миноритарными языками у нас в стране, потому что они как правило небогаты, у них нет таких денег. // WeSay – для энтузиастов, которые хотят составить словарь своего родного языка, а не для учёных. Экспорт только в один формат, невозможность
  8. В АРМ, разработанной в рамках выполнения дипломной работы, помимо обычного для таких систем функционала (редактирование и дополнение словаря) можно считывать уже написанный словарь в формате .docx и создавать к нему «обратный».
  9. Таким образом задачи у меня были такие: …
  10. Нет привязки к конкретному языку. Все слова хранятся в таблице.
  11. // По которой генерировалась БД // поменять картинку
  12. Я реализовала её (модель) на платформе Microsoft .NET, СУБД SQL Server
  13. Вордовский документ состоит из нескольких XML документов. Нам нужен только один из них, тот, который содержит то, что написал пользователь. Таким образом мы можем рассматривать словарь как XML документ. С помощью XSLT преобразования преобразуем XML документ во внутренний формат моей системы. Благодаря этому, когда мы решим использовать словарь с другой разметкой (где примеры будут разделены не точками с запятой, а запятыми, вместо римских цифр арабские и т.п.), достаточно будет только написать новое XSLT-преобразование. // посмотреть название штуки, которая сохраняет в ворд из проги // ответ на вопрос почему XSLT, а не RegExp – потому что, во-первых, regexp зашит в коде, а XSLT в отдельном файле и его просто поменять. Ну и потому, что XSLT – технология для работы с XML документами, и она обеспечивает более удобный способ обращения с ними.
  14. К сожалению есть одна сложность, которая не позволяет соотнести все примеры с каким-либо словом. Пример «летательный аппарат – учкъуч шекий не является примером ни к слову джихаз, ни к слову аппарат. // Ещё две причины: Формы одного (однокоренные) слова не распознались из-за неточности правил Неоднокоренные слова посчитались однокоренными – например с коротенькими словами
  15. Лексикографу предстоит руками группировать переводы по смысловым (синонимичным) группам и оставшиеся бесхозными примеры связывать со словарными статьями.
  16. А этот слайд для тех, кто уже было подумал, что в моей работе нет математики. Чтобы пользователю было комфортнее работать, я оцениваю оставшееся время работы над словарём на основе времени редактирования каждой статьи. Во многих программах, где реализована функция оставшегося времени работы (например, в навигаторе; время копирования файлов и т.д.) и там как правило пользователю показывают точечную оценку оставшегося времени, то есть число: пять минут, два часа и т.д. Поэтому часто при изменение ситуации оставшееся время меняется и это сбивает человека с толку. Поэтому я решила сделать интервальную оценку, чтобы пользователь видел диапазон, в который с достаточно большой вероятностью он уложится. // Доверительный интервал для среднего значения при неизвестной дисперсии. Величина – оставшееся время, оно случайное и я оцениваю его среднее значение. Матожидание – это среднее значение. Квантили у меня Стьюдентовские, потому что . (X_n)^- -среднее время редактирования одной статьи, рассчитанное на основе статей, которые лексикограф уже отредактировал. Оставшееся время – СВ и я пытаюсь оценить её среднее значение, оно же мат. ожидание. Эта СВ – гауссовская. Доверительный интервал для гауссовской СВ с неизвестной дисперсией рассчитывается по такой формуле.
  17. Был разработан алгоритм генерации обратного словаря. С его помощью для каждой будущей словарной статьи подбираются слова-переводы, примеры и переводы примеров. // Вообще-то термин обратный словарь уже занят и им называют словари, в которых слова отсортированы по алфавиту не с начала слова, а с конца. // Проходимся по разным таблицам (заменить это на «алгоритм генерации обратного словаря» и взять и написать в виде псевдокода. Для все w принадл. W – мн-ву слов) и собираем нужные данные. Склеиваем нужные данные в нужном порядке Теперь можно вывести в файл (и отнести в типографию)
  18. В итоге мы получили «обратный» словарь и можем его редактировать. //Исходный ???
  19. Я провела исследование существующих мобильных приложений для запоминания иностранных слов и спроектировала интерфейс мобильного приложения в Ак-шюр Ар-Пи. // Запомнить названия проанализрованных приложений: AnyMemo, LinguaLeo, … // Почему я не сделала программу: …
  20. На защиту выносятся следующие результаты. // Разработан алгоритм построения «обратного» словаря с учётом сложных примеров // Среда, позволяющая: Считывать уже написанный словарь и работать с ним Создать словарь «обратный» к данному Работать над совместным словарём с другим автором Редактировать словарь Вывести словарь в файл