SlideShare a Scribd company logo
1 of 157
Download to read offline
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Кваліфікаційна наукова
праця на правах рукопису
Голуб Марія Сергіївна
УДК 004.896
ДИСЕРТАЦІЯ
ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК ДЛЯ КЛАСИФІКАЦІЇ
УКРАЇНОМОВНИХ ТЕКСТІВ В ІНФОРМАЦІЙНІЙ ТЕХНОЛОГІЇ
ІНТЕЛЕКТУАЛЬНОГО МОНІТОРИНГУ
05.13.06 - інформаційні технології
Подається на здобуття наукового ступеня кандидата технічних наук
Дисертація містить результати власних
досліджень. Використання ідей, результатів і
текстів інших авторів мають посилання на
відповідне джерело
М.С. Голуб
Науковий керівник:
Півень Олег Борисович,
кандидат фізико-математичних наук, доцент
Черкаси - 2018
2
АНОТАЦІЯ
Голуб М.С. Формування масиву чисельних ознак для класифікації
україномовних текстів в інформаційній технології інтелектуального
моніторингу. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня кандидата технічних наук за
спеціальністю 05.13.06 «Інформаційні технології». – Черкаський державний
технологічний університет, Черкаси, 2018.
Дисертація присвячена розв’язанню наукової задачі підвищення
адекватності класифікації україномовних текстів шляхом розробки методів і
засобів ефективного формування масиву їх чисельних ознак для побудови
моделей-класифікаторів в інформаційних технологіях багаторівневого
інтелектуального моніторингу.
У першому розділі подані результати інформаційного пошуку існуючих
підходів, методів та інформаційних технологій класифікації друкованих текстів,
придатних для використання в технологіях багаторівневого інтелектуального
моніторингу.
Визначено, що найбільш перспективним напрямом досліджень, який
дозволить розв’язати поставлену наукову задачу, є машинне навчання
поліноміальних моделей на основі масивів вхідних даних (МВД), сформованих
на основі чисельних характеристик текстових повідомлень. Визначений перелік
задач, які необхідно розв’язати для досягнення мети дисертаційного
дослідження.
Другий розділ присвячений формалізації процесу формування масиву
вхідних даних шляхом перетворення друкованого тексту до масиву його
чисельних ознак. Обґрунтований критерій інформативності ознак у формі
ймовірності використання ознаки на ділянках тексту – вікнах, формалізовані
вимоги до кожного із етапів перетворення інформації, висунуті гіпотези про
підвищення інформативності масиву вхідних даних шляхом формування
індивідуального переліку інформативних ознак та використання дисперсії
3
ймовірності використання ознак змінної кількості вікон при побудові точок
спостереження.
У третьому розділі подані результати експериментальної перевірки
висунутих гіпотез, методика проведення експериментальних досліджень, аналіз
їх результатів та описана інформаційна технологія перетворення друкованих
текстів.
Експериментально досліджено залежність кількості правильно
класифікованих частин текстів – вікон від значення мінімальної
інформативності ознак, розміру вікна та кроку зміни кількості вікон при
побудові точок спостереження. Це дозволило експериментально підтвердити
висунуті гіпотези, удосконалити метод формування словника ознак, створити
новий метод побудови точок спостереження масиву вхідних даних. Забезпечена
координація взаємодій нового та удосконалених методів перетворення текстів із
синтезатором моделей, базою модельних знань та іншими елеметами
інформаційної технології багаторівневого інтелектуального моніторингу
(ІТБІМ). В результаті поєднання нових та існуючих елементів досягнуто
системнго ефекту емерджентності у формі нової для ІТБІМ здатності
класифікувати україномовні текстові повідомлення та збільшення кількості
правильно класифікованих текстів у порівнянні з аналогами. Їх частка сягнула
98-100%. Одночасно зменшився до 500 знаків розмір текстового повідомлення,
яке може бути класифікованим правильно.
Червертий розділ містить опис процесу реалізації ІТБІМ із функціями
класифікації текстів у формі моніторингової інтелектуальної системи (МІС) та
результати випробування удосконаленої МІС. На етапі аналізу вимог до
існуючої методики реалізації МІС подані зміни у формі UML діаграм діяльності
та діаграми класів. Випробування МІС проведено в процесі розв’язання задачі
виявлення місця проживання авторів друкованих текстових повідомлень та при
розв’язанні задачі атрибуції. Інформаційна технологія багаторівневого
інтелектуального моніторингу набула здатності розв’язувати завдання
інтелектуального аналізу україномовних текстів, зокрема їх класифікації.
4
Наукова новизна отриманих результатів відображена такими
положеннями:
удосконалено метод формування словника ознак. Це передбачає
визначення критерію інформативності ознаки та їх добору за цим критерієм.
Процес відбувається шляхом формування адаптивного переліку
класифікаційних ознак для кожного завдання за результатами випробування
моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак
для кожного класу індивідуально і підвищити селективність моделі-
класифікатора;
уперше розроблений метод побудови точок спостереження в
багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції
тексту на вікна та визначення ймовірності використання ознаки у вікні.
Відрізняється від вже існуючих методів використанням дисперсії ймовірностей
ознак при змінній кількості спостережень. Це забезпечує зниження варіації
значень ознак та збільшує кількість правильно класифікованих текстів;
удосконалено метод перетворення текстового повідомлення до масиву його
чисельних ознак, що передбачає декомпозицію тексту на вікна однакового
розміру, формування словника ознак, побудову точок спостереження. На відміну
від існуючих методів, тут застосовується оптимізація розміру вікна за критерієм
максимальної кількості правильно класифікованих текстів, адаптивне
формування словника ознак та дисперсійна побудова точок спостереження.
Таким чином підвищується адаптивність процесу формування масиву чисельних
ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення
особливих умов формування масиву чисельних ознак в процесі побудови моделі-
класифікатора;
набула подальшого розвитку методологія створення інформаційних
систем багаторівневого інтелектуального моніторингу за рахунок використання
методу перетворення текстового повідомлення в процесі синтезу моделей-
класифікаторів. Це дозволяє розширити можливості використання
моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
5
технологічність процесів за рахунок використання типових інструментів на
різних етапах класифікації, оперативно розробляти нові методи класифікації при
зміні завдання обробки текстів.
Практичне значення отриманих результатів в тому, що результати
дисертаційного дослідження відкривають можливості для використання систем
багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу
інформаційних потоків, поданих у вигляді друкованих текстів. Наведені
обчислювальні схеми та технологія забезпечують швидкодію та невибагливість
до апаратних ресурсів при реалізації в програмному середовищі, дозволяють
ефективно отримати класифікацію україномовних текстів засобами вже
існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури
вже існуючих програмних комплексів.
Досягнення цих результатів відкриває можливості для широкого
використання систем багаторівневого інтелектуального моніторингу під час
виявлення та аналізу інформаційних потоків у вигляді друкованих текстів.
Розроблені на їх основі інформаційні засоби пройшли тестування та практичну
апробацію у реальних програмних продуктах багаторівневого моніторингу.
Застосування розробленої інформаційної технології класифікації текстів
дозволяє автоматизувати процеси інтелектуального аналізу інформаційних
потоків. Таким чином було забезпечено ефективність процесу інформаційного
моніторингу. В деяких випадках провести моніторинг текстових повідомлень в
соціальних та інших спільнотах іншими методами неможливо.
Практична цінність роботи підтверджена актами впровадження основних
результатів дисертаційнго дослідження: у виробництво ТОВ НВП «КІАТОН»
(акт про результати впровадження від 03.11.2017), у діяльність Славутицької
міської адміністрації (акт про впровадження від 18.01.2018 р.), у діяльність ГС
«Міжрегіональний Союз птахівників і кормовиробників України» (акт
впровадження від 19.04.2017 р.).
6
Ключові слова: інформаційна технологія, інтелектуальний моніторинг,
класифікація текстів, словник ознак, точка спостереження, масив вхідних даних,
МГУА.
SUMMARY
Maria S. Holub. Formation of an array of numerical features for the classification
of Ukrainian-language texts in the intellectual monitoring technology. – Qualification
scientific paper, manuscript.
Thesis for a Candidate Degree in Information Technologies: Speciality 05.13.06
– Information Technologies. – Cherkasy State Technological University, Cherkasy,
2018.
The thesis solves the scientific problem of increasing the adequacy of the
classification of Ukrainian-language texts by means of developing methods of effective
formation of an array of their numerical features for the construction of classifier
models in multilevel intellectual monitoring technologies.
In the first part the results of the information retrieval of existing approaches,
methods and information technologies applied for the classification of the printed texts
being appropriate for using in multilevel intellectual monitoring technologies have
been provided.
It was determined that the most promising area of research that allows solving
the given scientific problem is the machine learning of polynomial models based on
the input data arrays (IDA) formed on the basis of numerical characteristics of text
messages. The tasks that need to be solved to achieve the goal of the thesis research
were determined.
In the second part the author provides formalization of the process of the input
data array formation by converting the printed text into an array of its numerical
features. The criterion of informative features in the form of the probability of using
the sign in the text sections (windows) was substantiated. The requirements for each
stage of the information transformation were formalized. The hypotheses about
increasing the informativeness of the input data array by forming an individual list of
7
informative features and the use of the variance of the probability of using the signs of
the variable number of windows in the construction of points were made.
The third part presents the results of experimental verification of the hypotheses
put forward, the methodology of conducting experimental research, analysis of their
results and describes the information technology of the transformation of printed texts.
The dependence of the number of correctly classified parts of texts (windows)
on the value of the minimum informativeness of the signs, the size of the window and
the step of changing the number of windows in the construction of the observation
points has been experimentally investigated experimentally. This allowed to
experimentally confirm the hypotheses made, to improve the method of forming the
vocabulary of signs, to create a new method of constructing points of observation of
the input array. Coordination of the interactions of new and improved methods of
converting texts with model synthesizers, base of model knowledge and other elements
of information technology of multilevel intellectual monitoring (ITMIM) is provided.
As a result of the combination of new and existing elements, a systematic effect of the
emergence in the form of a new for ITMIM ability to classify Ukrainian-language text
messages and increase the number of correctly classified texts compared with
analogues has been achieved. Their share reached 98-100%. At the same time, the size
of a text message, which can be categorized correctly, has been reduced to 500
characters.
In the fourth part the author describes the implementation of the ITMIM with
functions of the classification of texts in the form of a monitoring intellectual system
(MIS) and the results of the test of the improved MIS. At the stage of the analysis of
requirements to the existing method of implementation of the MIS changes in the form
of UML activity diagrams and class diagrams are presented. The MIS test was
conducted in the process of solving the problem of finding the place of residence of the
authors of printed text messages and in solving the attribution task. The information
technology of multilevel intellectual monitoring has acquired the ability to solve
problems of intellectual analysis of Ukrainian-language texts, in particular their
classification.
8
Scientific novelty of the obtained results: the method of forming a dictionary of
features was improved. This involved determining the criterion of informative nature
of the sign and its selection on this criterion. The process was carried out by forming
an adaptive list of classification characteristics for each task based on the results of
testing the classifier model. This allowed to increase the number of informational
attributes for each class individually as well as the selectivity of the classifier model;
At first, a method for constructing observation points in a multidimensional
space of numerical signs of a text has been developed. It consists in decomposing the
text on the windows and determining the likelihood of using the sign in the window. It
differs from existing methods using the dispersion of probabilities of signs with a
variable number of observations. This reduces the variation of the values of the signs
and increases the number of correctly classified texts; the method of converting a text
message into an array of its numerical features is improved, which involves
decomposing the text into windows of the same size, forming a dictionary of features,
constructing points of observation. Unlike existing ones, the optimization of the
window size is based on the criterion of the maximum number of correctly classified
texts, the adaptive formation of the vocabulary of signs and the dispersion construction
of points of observation. Thus, the adaptability of the process of forming an array of
numerical text attributes to the properties of classes increases. This is due to ensuring
special conditions for the formation of an array of numerical features in the process of
constructing a model-classifier;
The methodology of creating multilevel intellectual monitoring information
systems through the use the method of converting text messages into the synthesis of
classifier models has been further developed. This allows us to expand the possibilities
of using monitoring systems in the field of intellectual analysis of texts, to ensure the
processability of processes through the use of standard tools at different stages of
classification, to rapidly develop new methods of classification when changing the task
of text processing.
Practical value of the results. The results of the research conducted within the
thesis provide opportunities for the use of multilevel intellectual monitoring systems
9
in the process of detecting and analyzing information streams presented in the form of
printed texts. The computational schemes and technology presented in the thesis
provide fast and unpretentious to hardware resources when implemented in the
software environment, allow to effectively obtain the classification of Ukrainian-
language texts by means of existing monitoring intellectual systems and integrate them
into the structure of existing software systems.
Achieving these results offers opportunities for widespread use of multilevel
intellectual monitoring systems for detecting and analyzing information streams in the
form of printed texts. The information tools developed on their basis were tested in
real-world multilevel monitoring software products.
Application of the developed information technology of classification of texts allows
to automate the processes of intellectual analysis of information flows. Thus, the
process of information monitoring was provided. In some cases it is not possible to
monitor text messages in social and other communities in other ways.
The practical value of the study was confirmed by implementing the main
results of the thesis research in the industrial processes of LLC R&D company "Cation"
(Act of Implementation 11.3.2017), in the activities of the Slavutych city
administration (the act on implementation from January 18, 2018) Interregional Union
of Poultry and Forage Producers of Ukraine "(Act of Implementation dated
19.04.2017).
The information technology of multilevel intellectual monitoring has acquired
the ability to solve the problems of intellectual analysis of Ukrainian-language texts,
in particular those of their classification.
Key words: information technology, intellectual monitoring, classification of
texts, dictionary of features, observation point, input data array, GMDH.
10
Список основних публікацій здобувача
[1] Голуб М.С. Формування масиву вхідних даних при класифікації текстів в
технології інформаційного моніторингу. Математичні машини і системи.
2018. № 1. С. 59-66.
[2] Голуб М.С. Дисперсійний метод формування точок спостереження в
інформаційній технології класифікації текстів. Вісник інженерної академії
України. 2017. № 3. С.38-42.
[3] Голуб С.В., Мартинова Г.І., Голуб М.С. Моделювання діалектного тексту в
технології багаторівневого інформаційного моніторингу. Математичні
машини і системи. 2016. № 4. С. 76-83.
[4] Holub Maria, Piven Oleg. Classification of texts in the technology multilevel
information monitoring. Inzynier XXI wieku. Monografia: Wydawnictwo
naukowe Akademii Techniczno-Humanistycznej w Bielsku-Bialej. 2016. 119-
122 s.
[5] Голуб С.В., Константиновська О.В., Голуб М.С. Відображення властивостей
автора тексту в структурі багатопараметричної моделі. Системи обробки
інформації: Збірник наукових праць. Х.: Харківський університет
повітряних сил імені Івана Кожедуба, 2014. Вип. 9 (125). С. 82-87.
[6] Голуб С.В., Константиновська О.В., Голуб М.С. Формування показників
масиву вхідних даних для ідентифікації авторства текстових повідомлень
Системи обробки інформації: збірник наукових праць. Х.: Харківський
університет Повітряних сил імені Івана Кожедуба, 2014. Вип. 2 (118). С. 89-
92.
[7] Голуб М.С. Інтелектуальний моніторинг друкованих текстів. Математичне
та імітаційне моделювання систем. МОДС 2018: тези доповідей
Тринадцятої міжнародної науково-практичної конференції (Чернігів, 25 -
29 червня 2018 р.). Чернігів : ЧНТУ, 2018. – С. 292–298
[8] Голуб М.С. Побудова точок спостереження при класифікації текстів
машинним навчання поліноміальних моделей. Інформація, комунікація,
11
суспільство 2018. Інформація, комунікація, суспільство 2018: Матеріали 7-
ї Міжнародної наукової конференції ICS-2018. Львів: Видавництво
Львівської політехніки, 2018. С. 277-278.
[9] Голуб М.С. Формування масиву вхідних даних для класифікації друкованих
текстів в технології багаторівневого інтелектуального моніторингу.
«Інформаційні технології та комп’ютерне моделювання»: матеріали
статей Міжнародної науково-практичної конференції, м. Івано-
Франківськ, 14-10 травня 2018 року. Івано-Франківськ. 2018. С. 339-342.
[10] Голуб М.С. Застосування частотного критерію інформативності ознак в
задачах інтелектуального аналізу тексту багаторівневого інформаційного
моніторингу. «Інформаційні технології та комп’ютерне моделювання»:
матеріали статей Міжнародної науково-практичної конференції, м. Івано-
Франківськ, 15-20 травня 2017 року. Івано-Франківськ. 2017. С. 16-19.
[11] Голуб М.С. Інтелектуальний пошук відомостей технічними системами
інформаційного моніторингу. «Інформаційні технології та комп’ютерне
моделювання»: матеріали статей шостої міжнародної науково-
практичної конференції, Івано-Франківськ, 23-28 травня 2016 року. Івано-
Франківськ. 2016. С. 83-84.
[12] Голуб М.С. Інтелектуальний аналіз текстів. Інформація, комунікація,
суспільство 2015: матеріали 5-ї Міжнар. наук. конференції ICS-2016.
Львів: Видавництво Львівської політехніки, 2016. С. 230-231.
[13] Голуб С.В., Голуб М.С. Профілювання текстів у технології інформаційного
моніторингу. Матеріали 4-ї міжнародної наукової конференції ICS-2015
«Інформація, комунікація, суспільство 2015». Львів: Видавництво
Львівської політехніки, 2015. С.176-177.
[14] Голуб М.С. Вибір ознак в процесі інтелектуальної обробки текстових
повідомлень. Інформація, комунікація, суспільство 2014: матеріали 3-ї
Міжнар. наук. конференції ICS-2014. Львів: Видавництво Львівської
політехніки, 2014. – С. 148-149.
12
[15] Golub Maria. The Input Data Array (IDA) Format is Unified to Ensure the
Consolidation of Heterogeneous Models, Synthesized by the Model Synthesis
Algorithm. Modern problems of radio engineering, Telecommunications, and
computer Science. Proceedings of the International Conference TCSET’2014.
Dedicated to the 170th anniversary of Lviv Polytechnic National University. Lviv
Publishing House of Lviv Polytechnic. 2014. p. 657
[16] Голуб М.С. Відображення властивостей текстових повідомлень в структурі
індуктивних моделей. Проблеми інформатизації: Матеріали першої
міжнародної науково-технічної конференції. Черкаси: ЧДТУ; Київ: ДУТ;
Тольятті: ТДУ; Полтава: ПНТУ, 2013. С. 59.
13
ЗМІСТ
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ.................................................................... 16
ВСТУП.................................................................................................................... 18
РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В
ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ
ПОВІДОМЛЕНЬ .................................................................................................... 25
1.1. Задачі аналізу текстових повідомлень ........................................................ 25
1.1.1. Інтелектуальний аналіз текстів .............................................................. 25
1.1.2. Класифікація ........................................................................................... 27
1.1.3. Атрибуція ................................................................................................ 29
1.1.4. Профілювання......................................................................................... 32
1.1.5. Контент-анатіз текстів............................................................................ 33
1.2. Процес перетворення текстових повідомлень ............................................ 34
1.2.1. Декомпозиція тексту............................................................................... 34
1.2.2. Формування переліку інформативних ознак......................................... 35
1.2.3. Критерії інформативності ознак ............................................................ 37
1.3. Методи синтезу моделей-класифікаторів ................................................... 41
1.4. Автоматизація аналізу друкованих текстів................................................. 46
1.4.1. Особливості автоматизації текстів......................................................... 46
1.4.2. Багаторівневий аналіз та методи декомпозиції текстового
повідомлення .................................................................................................... 46
1.4.3. Багаторівневий інтелектуальний моніторинг........................................ 48
1.5. Обгрунтування задач досліджень................................................................ 53
1.6. Висновки до розділу..................................................................................... 54
РОЗДІЛ 2. РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПОБУДОВИ
ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ПЕРЕТВОРЕННЯ ТЕКСТІВ........................ 56
2.1. Стратегія досліджень. Опис предметної області ........................................ 56
14
2.2. Математична постановка завдання............................................................. 62
2.3. Гіпотези......................................................................................................... 64
2.3.1. Про критерій інформативності ознак .................................................... 64
2.3.2. Про адаптивність процесу формування словника ознак ...................... 65
2.3.3. Про межу інформативної достатності ................................................... 67
2.3.4. Про використання дисперсії при побудові точок спостереження МВД
........................................................................................................................... 68
2.3.5. Про метод синтезу моделей-класифікаторів ......................................... 69
2.3.6. Про інтелектуальний моніторинг........................................................... 71
2.4. Технологія багаторівневого моделювання текстових повідомлень........ 72
2.5. Висновки до розділу..................................................................................... 73
РОЗДІЛ 3. ЕКСПЕРИМЕНТАЛЬНІ ДОСЛІДЖЕННЯ МЕТОДІВ
ПЕРЕТВОРЕННЯ ДРУКОВАНИХ ТЕКСТІВ...................................................... 75
3.1. Зміст досліджень .......................................................................................... 75
3.2. Оцінка інформативності ознак..................................................................... 75
3.3. Адаптивне формування словника ознак...................................................... 77
3.4. Оптимізація розміру вікна та межі інформативної достатності ................ 85
3.5. Дисперсний метод побудови точок спостереження ................................... 91
3.5.1. Формування точок спостереження за дисперсним методом із
постійною основою .......................................................................................... 91
3.5.2. Формування точок спостереження із змінною кількістю точок, за
якими розраховується дисперсія ..................................................................... 94
3.6. Синтез моделей-класифікаторів .................................................................. 96
3.7. Метод перетворення друкованих текстів.................................................. 104
3.8. Інформаційна технологія класифікації текстів машинним навчанням
поліноміальних моделей ................................................................................... 107
3.9. Висновки до розділу................................................................................... 107
15
РОЗДІЛ 4. РЕАЛІЗАЦІЯ ТА ЗАСТОСУВАННЯ РЕЗУЛЬТАТІВ ДОСЛІДЖЕНЬ
В МОНІТОРИНГОВИХ ІНТЕЛЕКТУАЛЬНИХ СИСТЕМАХ ......................... 110
4.1. Про використання отриманих результатів................................................ 110
4.2. Особливості реалізації інформаційної технології класифікації текстів у
формі моніторингової інтелектуальної системи.............................................. 110
4.3. Реалізація етапу «Аналіз вимог» технології проектування МІС ............. 111
4.3.1. Вимоги взаємодії із зовнішнім середовищем...................................... 111
4.3.2. Функціональні вимоги.......................................................................... 112
4.3.3. Вимоги до процесу оптимізації значення межі інформативної
достатності...................................................................................................... 115
4.3.4. Вимоги до процесів оптимізації розміру вікон ................................... 116
4.3.5. Вимоги до конструювання моделі в процесі класифікації тексту ..... 117
4.3.6. Вимоги до системи вцілому ................................................................. 118
4.4. Реалізація інформаційної технології перетворення друкованих текстів в
моніторинговій інформаційній системі ........................................................... 120
4.5. Випробування моніторингової інтелектуальної сиситеми з функціями
класифікації текстів........................................................................................... 123
4.5.1. Класифікація текстів за місцем проживання автора........................... 123
4.5.2. Атрибуція текстів моніторинговою інтелектуальною системою....... 127
4.6. Порівняння характеристик МІС із відомими аналогами.......................... 129
4.7. Висновки до розділу................................................................................... 129
ВИСНОВКИ ......................................................................................................... 131
СПИСОК ЛІТЕРАТУРИ...................................................................................... 134
ДОДАТКИ ............................................................................................................ 150
Додаток A. Список публікацій здобувача за темою дисертації та відомості про
апробацію результатів дисертації..................................................................... 150
Додаток Б. Відомості щодо впровадження результатів роботи ...................... 154
16
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ
Скорочення Пояснення
ІТ Інформаційна технологія
СППР Система підтримки прийняття рішень
АТ Атрибуція тексту
ІАД Інтелекутальний аналіз даних
МГУА Метод групового врахування аргументів
ПО Первинний опис
МВД Масив вхідних даних
МІС Моніторингова інтелектуальна система
МІД Межа інформативної достатності
ГФЗ Голобальна функціональна залежність
БМЗ База модельних знань
ОПР Особа, що приймає рішення
ЛЗПІ Локальне завдання перетворення інформації
АСМ Алгоритм синтезу моделей
БЕО Багатокритеріалоьне експертне оцінювання
ВС Вихідний сигнал
ГЗ Горизонтальний зв’зок
ООП Об’єктно-орієнтоване проектування
СПІ Система перетворення інформації
БД База даних
АСБПД
Автоматизована система багаторівневого
перетворення даних
ІС Інформаційна система
ІАТ Інтелектуальний аналіз текстів
КТ Класифікація текстів
ПД Перетворення даних
17
Скорочення Пояснення
ВІЗ Вертикальні ієрархічні зв’язки
ГІЗ Горизонтальні ієрархічні зв’язки
ГФС Глобальна функція системи
КВ Керуючий вплив
18
ВСТУП
Актуальність теми. В сучасних реаліях інформаційної війни в Україні
необхідно автоматизувати процеси класифікації україномовних текстів. Це
розширить можливості технології багаторівневого інтелектуального
моніторингу. Результати роботи можуть бути використані в технологіях захисту
інформаційного простору України, для атрибуції та профілювання текстів в
криміналістиці, класифікації E-mail повідомлень, організації змістового пошуку
інформації в бібліотеках, створення нових архівів текстів та для виконання інших
подібних завдань. Розроблені методи та засоби атрибуції текстів придатні для
використання у процесах консолідації результатів обробки текстових
повідомлень, психологічних тестів, економічних даних у технологіях
інформаційного моніторингу та при реалізації інших завдань.
На сьогодні завдання класифікації текстів в моніторингових системах
найчастіше розв’язують контент-аналізом та методами машинного навчання. В
результаті застосування цих методів виникають такі проблеми: можливість
суб’єктивного викривлення результатів класифікації автором під час контент-
аналізу, необхідність мати тексти великого розміру та недостатня адекватність
результатів класифікації. Уникають цих проблем шляхом підвищення
інформативності масивів чисельних ознак текстових повідомлень, що
застосовуються в процесі машинного навчання поліноміальних моделей,
нейронних мереж, побудови регресійних моделей і т.д.. Робіт, де подавались би
результати дослідження процесів формування масиву чисельних ознак для
класифікації україномовних текстів машинним навчанням, виявити не вдалося.
Підґрунтям цього дослідження є роботи Люгера Д. Ф., Маккарті Д.,
Бродера А., Ланде Д. В., Глибовця М. М., Хопкрофта Дж., Івахненка О. Г.,
Шаронової Н.В., Литвинова В. В., Поспєлова Д. А., Степаненка В. Є.,
Широкова В. А., Мартинової Г. І., Шемакіна Ю. І., Кронгауза М. А. та інших
вчених в галузі інформаційних технологій, комп'ютерної лінгвістики,
української філології та індуктивного моделювання.
19
Класифікація текстів передбачає побудову вирішуючого правила. Його
завдання – перетворення значень класифікаційних ознак до форми висновку про
те, до якого із наперед заданих класів належить текст. Під час обробки великих
масивів текстів необхідно застосувати відповідні технологій інформаційного
моніторингу. З цією метою використання інформаційної технології
багаторівневого інтелектуального моніторингу стримує відсутність у ній методів
та засобів визначення чисельних характеристик друкованих текстів для
формування масиву вхідних даних. Тому дисертаційні дослідження, пов’язані із
підвищенням інформативності масивів чисельних характеристики друкованих
текстових повідомлень, є актуальними. А отримані результати дозволяють
підвищити адекватність класифікації україномовних текстів інформаційною
технологією багаторівневого інтелектуального моніторингу.
Зв’язок роботи з науковими програмами, планами, темами. Основні
дослідження з теми дисертації проводилися відповідно до планів наукових
досліджень кафедри інформаційної безпеки та комп’ютерної інженерії
Черкаського державного технологічного університету. Зокрема, в рамках
науково-дослідної роботи «Розробка методів та засобів оцінки ефективності
соціоінжинірингу» (№ ДР 0116U008715).
Дослідження проводили відповідно до пріоритетних тематичних напрямів
науково-технічних розробок на період до 2020 року «Технології та засоби
розробки програмних продуктів і систем», затверджених постановою Кабінету
Міністрів України №556 від 23.08.2016 р.
Мета і завдання дослідження. Мета дослідження полягає у підвищенні
адекватності класифікації україномовних текстів. Це передбачає розробку
методів і засобів ефективного формування масиву їх чисельних ознак для
побудови моделей-класифікаторів в інформаційних технологіях багаторівневого
інтелектуального моніторингу.
Для досягнення поставленої мети реалізовували такі завдання:
20
1. Аналіз і узагальнення існуючих підходів, методів та засобів формування
масиву чисельних ознак в інформаційних технологіях класифікації друкованих
текстів методами машинного навчання.
2. Дослідження процесів оптимізації розміру вікон, добору інформативних
ознак та формування їх словника.
3. Дослідження процесів побудови точок спостереження в
багатовимірному просторі ознак.
4. Дослідження взаємодії процесів перетворення друкованих
україномовних текстів до форми масиву чисельних ознак та методів синтезу
моделей-класифікаторів за технологією машинного навчання поліноміальних
моделей.
5. Впровадження результатів досліджень із класифікації текстів у практику
створення та застосування інформаційних систем багаторівневого
інтелектуального моніторингу.
Об’єктом дослідження є процеси інтелектуального аналізу текстів в
інформаційних технологіях багаторівневого моніторингу.
Предмет досліджень - процеси формування масиву чисельних ознак для
побудови моделей-класифікаторів україномовних текстів методами машинного
навчання в технологіях інтелектуального моніторингу.
Методи досліджень. Під час формулювання плану досліджень
використано системний підхід та системний аналіз; у розв’язанні задач синтезу
моделей-класифікаторів - методи індуктивного моделювання; формування
словника ознак друкованого тексту передбачало методи лінгвістичного аналізу,
параметричної оптимізації. Під час формалізації завдання досліджень
використані положення теорії множин та експертні методи; побудова точок
спостережень передбачала дисперсійний аналіз; у формуванні показника
інформативності використали теорію ймовірностей. У побудові функціональної
схеми методу класифікації тексту використали методологію створення
інформаційних систем багаторівневого інтелектуального моніторингу.
21
Наукова новизна отриманих результатів
Удосконалено метод формування словника ознак. Це передбачає
визначення критерію інформативності ознаки та їх добору за цим критерієм.
Процес відбувається шляхом формування адаптивного переліку
класифікаційних ознак для кожного завдання за результатами випробування
моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак
для кожного класу індивідуально і підвищити селективність моделі-
класифікатора.
Уперше розроблений метод побудови точок спостереження в
багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції
тексту на вікна та визначення ймовірності використання ознаки у вікні.
Відрізняється від вже існуючих методів використанням дисперсії ймовірностей
ознак при змінній кількості спостережень. Це забезпечує зниження варіації
значень ознак та збільшує кількість правильно класифікованих текстів.
Удосконалено метод перетворення текстового повідомлення до масиву
його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового
розміру, формування словника ознак, побудову точок спостереження. На відміну
від існуючих застосовується оптимізація розміру вікна за критерієм
максимальної кількості правильно класифікованих текстів, адаптивне
формування словника ознак та дисперсійна побудова точок спостереження.
Таким чином підвищується адаптивність процесу формування масиву чисельних
ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення
особливих умов формування масиву чисельних ознак в процесі побудови моделі-
класифікатора.
Набула подальшого розвитку методологія створення інформаційних
систем багаторівневого інтелектуального моніторингу за рахунок використання
методу перетворення текстового повідомлення в процесі синтезу моделей-
класифікаторів. Це дозволяє розширити можливості використання
моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
технологічність процесів за рахунок використання типових інструментів на
22
різних етапах класифікації, оперативно розробляти нові методи класифікації при
зміні завдання обробки текстів.
Практичне значення отриманих результатів. Результати
дисертаційного дослідження відкривають можливості для використання систем
багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу
інформаційних потоків, поданих у вигляді друкованих текстів. Наведені
обчислювальні схеми та технологія забезпечують швидкодію та невибагливість
до апаратних ресурсів при реалізації в програмному середовищі, дозволяють
ефективно отримати класифікацію україномовних текстів засобами вже
існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури
вже існуючих програмних комплексів.
Досягнення цих результатів відкриває можливості для широкого
використання систем багаторівневого інтелектуального моніторингу під час
виявлення та аналізу інформаційних потоків у вигляді друкованих текстів.
Розроблені на їх основі інформаційні засоби пройшли тестування та практичну
апробацію у реальних програмних продуктах багаторівневого моніторингу.
Застосування розробленої інформаційної технології класифікації текстів
дозволяє автоматизувати процеси інтелектуального аналізу інформаційних
потоків. Таким чином забезпечили процес інформаційного моніторингу. В
деяких випадках провести моніторинг текстових повідомлень в соціальних та
інших спільнотах іншими методами неможливо.
Особистий внесок здобувача. Усі наукові результати дисертаційної роботи
автор отримала самостійно. У працях, опублікованих у співавторстві, здобувачеві
належать: [1] – реалізація дослідження процесу класифікації текстів при
застосуванні фіксованого переліку показників масиву вхідних даних в задачах
атрибуції, запропоновано дисперсійний критерій оцінки інформативності ознак;
[2] – отримання залежності результатів класифікації текстів від виду опорної
функції синтезатора моделей; [3] – отримані результати використання вже
існуючої інформаційної системи багаторівневого моніторингу для розв’язання
задачі класифікації текстів за змістом шляхом використанням нових засобів
23
перетворення текстових повідомлень до типової форми масиву вхідних даних;
[4] – застосована інформаційна технологія інтелектуального моніторингу текстів
для розв’язання задачі виявлення місця проживання авторів шляхом
класифікації текстів за говірками. За принципами Г.І. Мартинової автором
сформовані класи діалектних текстів та синтезовані вирішуючі правила у формі
індуктивних моделей класифікаторів. Отримані результати класифікації текстів.
Апробація результатів дослідження. Основні результати та дисертаційна
робота в цілому апробовані на 10 міжнародних науково-практичних
конференціях: Тринадцятій міжнародній науково-практичній конференції
«Математичне та імітаційне моделювання систем. МОДС 2018», м. Чернігів,
2018 р.; 7 Міжнародній науковій конференція «Інформація, комунікація,
суспільство 2018», м. Львів, травень 2018 р.; Міжнародній науково-практичній
конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-
Франківськ, травень 2018 р.; Міжнародній науково-практичній конференції
«Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ,
травень 2017 р.; Міжнародній науково-практичній конференції «Інформаційні
технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2016 р.;
5 Міжнародній науковій конференція «Інформація, комунікація, суспільство
2016», м. Львів, травень 2016 р.; 4 Міжнародній науковій конференція
«Інформація, комунікація, суспільство 2015», м. Львів, травень 2015 р.; 3
Міжнародній науковій конференція «Інформація, комунікація, суспільство
2014», м. Львів, травень 2014 р.; Proceedings of the International Conference
«Modern problems of radio engineering, Telecommunications, and computer Science
TCSET’2014», Lviv, 2014; Першій міжнародній науково-технічній конференції
«Проблеми інформатизації», м. Черкаси, 2013 р..
Публікації. За темою дисертації з викладенням її основних результатів
опубліковано 16 наукових праць, серед яких 1 стаття в монографії, що видана за
кордоном України, 5 статей у наукових фахових виданнях України (з яких 2
статті – одноосібно), з них 2 – у виданнях, що індексуються міжнародними
24
бібліометричними та наукометричними базами даних, 10 публікацій в
матеріалах та тезах доповідей міжнародних наукових конференцій.
25
РОЗДІЛ 1.
ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ
ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ
1.1. Задачі аналізу текстових повідомлень
1.1.1. Інтелектуальний аналіз текстів
Інтелектуальний аналіз тексту – напрям інтелектуального аналізу даних з
метою отримання інформації з текстових документів, ґрунтуючись на
застосуванні методів машинного навчання та обробки природної мови.
Інтелектуальний аналіз тексту використовує всі ті ж підходи до переробки
інформації, що й Data Mining, однак Data Mining має справу з сховищами та
базами даних, а text mining – з електронними бібліотеками та збірками текстів
[5].
Інтелектуальний аналіз текстів (ІАТ) передбачає вирішення таких завдань,
як пошук інформації, категоризація текстів, обробка змін в збірках текстів,
розробка засобів подання інформації для користувача [6].
Потреба в автоматизації робіт, пов’язаних із аналізом текстів, бере початок
від авторовідчої експертизи в криміналістиці. За особливостями написання
тексту виявляється його автор. Якщо особа автора невідома виявляють стать, вік,
освіту, та інші ознаки автора.
Традиційно ці завдання виконувались експертними методами на підставі
уявлення, що текст повинен містити авторські стилістичні особливості. Такі
методи залежать від суб’єктивної думки експерта, від рівня його кваліфікації.
Крім того рукописні тексти аналізувались за характеристиками почерку. На
сьогодні актуальними є завдання аналізу друкованих текстів, зокрема із Internet-
джерел. Тому інструментами дослідження стають статистичні методи [7].
Завдання залишаються традиційними для криміналістики: ідентифікація та
діагностика. Від іденитфікації очікують підтвердження або заперечення
авторства особи, відоме під назвою «Атрибуція» [8]. На сьогодні запропонована
26
значна кількість методів визначення авторства друкованих тектсів, що
використовують підрахунок кількості використання окремих «особливих» слів,
та інших елементів речення. Популярності набуло використання методів
штучного інтелекту.
Завдання ідентифікації [9] формалізується як особливий випадок задачі
класифікації [10]
Діагностика надає можливості для виявлення особистісних ознак автора:
рідну мову та рівень володіння іноземними мовами, галузь професійної
діяльності, освіченість, стать, вік, національність, соціальне положення та інші,
які отримали назву «Профілювання автора» [11].
Інтелектуальний аналіз текстів (Text Mining) поєднують статистичні,
лінгвістичні та інтелектуальні методи інформаційного пошуку, виявлення
закономірностей та здобуття іншої інформації з текстів [12]. Інформацйний
пошук застосовують для навігації дослідників, фільтрації документів [13].
Системи Text Mining автоматично реферують текти та виявляють поняття і
факти. За рахунок автоматизації та інтелектуальзації процесів пошуку
інформації аналітику надається великий обсяг зпрофільованої інформації.
Використання технологій інтелектуального аналізу текстів розширює
можливості Аналітика за рахунок класифікації та кластеризації документів за їх
ознаками, відповідей на запитання, аналізу зв’язків між поняттями у документі.
Під час пошуку інформації інтелектуальний аналіз текстів застосовують
для структурування документальних даних, здобуття інформації з документів,
пошук текстів певних авторів у локальних реляційних базах даних, у
гіпертекстових базах даних, як от мережа Інтернет. Застосування
інтелектуального аналізу текстів у пошуку інформації дає змогу зменшити час
при виконанні пошуку та уникнути інформаційного перенавантаження у процесі
прийняття рішень.
Категоризація документів – це зіставлення документів збірника з однією
або кількома класами схожих між собою текстів, як от за темою, стилем чи
іншою ознакою. Процесі розподілення текстів на категорії може відбуватися за
27
участю людини або автоматично. У першому випадку, який передбачає
класифікацію документів, система інтелектуального аналізу текстів зараховує
текстові повідомлення до вже визначених класів. Попередньо для цього
відбувається навчання фахівцем моделі-класифікатора. Людина надає системі
перелік класів та зразки документів, які до них належать. У другому випадку
категоризації відбувається кластеризація документів системою інтелектуального
аналізу текстів. Система сама визначає множину класів, за якими треба
розподілити тексти. В технології машинного навчання це називається навчанням
без вчителя. У такому випадку фахівець повідомляє системі ІАТ кількість
кластерів, на які потрібно розбити збірку текстів. В алгоритм програми вже
закладена процедура вибору ознак [14].
На сьогодні значна кількість інформаційних систем використвують
технології Text Mining. Серед найвідоміших [12] Intelligent Miner for Text (IBM),
PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp), Oracle Text
(Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream
(ElVisti). Ці системи використовують математичні та лінгвістичні
алгоритми аналізу текстових даних, надають можливості доступу до
зовнішніх джерел даних, їх візуалізації та перетворення.
1.1.2. Класифікація
Задача класифікації розв’язується у випадку, коли необхідно
автоматизувати процес групування елементів відповідно до наперед заданих
ознак. Експертами задаються перелік класів, множину ознак для кожного класу,
за якими відбувається класифікація нових елементів.
Класифікація текстів визначається як розподіл текстових повідомлень на
визначені категорії або групи [15]. Методи класифікації текстових повідомлень
інтегрують дві галузі: машинне навчання та інформаційний пошук. Таким чином
автоматична класифікація текстів може виконуватися як на основі визначених
заздалегідь інформативних ознак та множини тектових повідомлень, так і у
28
формі автоматизованого процесу [16]. За умови використання методів
машинного навчання ми використовуємо вирішуюче правило. Його будують на
основі тренувальної вибірки текстів. Під час використання методів машинного
навчання ця вибірка заздалегідь сформована експертом. Алгоритм машинного
навчання вибудовує процедуру класифікації документів, грунтуючись на
автоматичному аналізі заданої множини сгрупованих текстів. Вирішуюче
правило, яке зараховує текст до певного класу створюють на основі аналізу
властивостей класів.
Процес класифікації текстів складається із двох етапів: конструювання
моделі та використання моделі. Перший етап передбачає опис множини класів,
на які поділяють тексти. Другий етап полягає у класифікації моделей, їх нових
або невідомих значень, та оцінку точності моделі-класифікатора.
У випадку, коли не вдається віднести новий елемент до наперед
визначеного класу за допомогою класифікаційних ознак, задача зветься
слабоформалізованою. Вона розв’язується шляхом побудови вирішуючого
правила, яке дозволяє перетворити значення класифікаційних критеріїв у
висновок про приналежність елемента до того чи іншого класу. Таке правило
отримують у формі моделей-класифікаторів.
В [17] подані характеристики різних типів класифікаторів (табл. 1.1).
Таблиця 1.1 – Характеристики класифікаторів
Критерій Тип Коментар
Використання або
невикористання
навчальних даних
Класифікація з
учителем
Вхідні дані поділяють,
використовуючи набір зразків
як навчальні дані
Класифікація без
учителя
Відомі як кластеризація, не
беруть до уваги результати
експертного групування
навчальних даних для
класифікації вхідних даних
29
Продовження Таблиці 1.1
Урахування або
неврахування будь-
якого припущення
про розподіл
вихідних даних
Напівавтоматичне
навчання
Навчання відбувається з
використанням даних як з
мітками, так і без них
Параметричні
класифікатори
Грунтуються на припущенні,
що функція щільності
ймовірності для кожного класу
відома
Непараметричні
класифікатори
Не обмежуються жодними
припущеннями про розподіл
вхідних даних
Розгляд одного
класифікатора або
ансамблю
Один
класифікатор
Використовується єдиний
класифікатор для групувіання
об’єкта
Ансамбль
класифікаторів
Під час групування об’єкта
враховуються результати
кількох (ансамблю)
класифікаторів
Використання або
невикористання
технології жорсткого
поділу, де кожен
об’єкт належить
лише одному
кластеру
Жорсткий
класифікатор
Не враховують подальші зміни
різних класів
М’який
(нечіткий)
класифікатор
Моделюються поступові
граничні зміни, забезпечуючи
оцінку ступеня подібності всіх
класів
Видача
класифікатором
розподілу
ймовірності
належності до всіх
класів
Імовірнісний
класифікатор
Класифікатор здатен для
заданого зразка оцінити
розподіл імовірності на
множині класів
Неймовірнісний
класифікатор
Підхід визначає лише найбільш
придатний клас для вхідного
образу
Для аналізу текстів може бути застосованта технологія класифікації із
учителем.
1.1.3. Атрибуція
Завдання визначення автора тексту та його опису відоме під назвою
«Атрибуція тексту» (АТ). Як відомо [8], АТ – це дослідження тексту з метою
встановлення авторства або отримання відомостей про автора та про умови
створення текстового документа. Об’єктом дослідження є тексти документів.
30
Досліджуються різноманітні записи, наприклад щоденник, листи, офіційні
документи, літературні твори, тексти публічних виступів окремо або в їх
сукупності. Предметом досліджень АТ є відомості про автора і умови створення
тексту. На відміну від дослідження почерку в цьому випадку аналізуються
лінгвістичні особливості тексту.
Сама проблема ідентифікації авторства виникла дуже давно, але спроби
використати обчислювальну техніку для її вирішення почали робити тільки з 70-
х років XX ст.
Давні (“домашинні”) методи, наприклад, початку XX ст., відрізнялися
наявністю великої кількості суб’єктивних оцінок: весь обсяг роботи виконувався
вручну. Як приклад такої роботи можна привести працю Н.В. Морозова
“Лінгвістичні спектри...” [18]. Дуже цікаві ідеї визначити автора за спектрами
вживання службових частин мови перевірялися на практиці вручну з олівцем в
руках.
В наш час нових обчислювальних технологій з’явилися нові методи, що
зумовлюють високу оцінку тих критеріїв та ознак, які визначають належність
тексту тому чи іншому автору.
Прикладом вживання таких технологій можуть бути методика Л.І. Бородкіна
та Л.В. Мілова, в основі якої лежить побудова графа сильних зв’язків за
матрицею частот парної повторюваності граматичних класів слів [19], методика
Захарова В.Н. та ін., яка основана на діалоговій комп’ютерній обробці
літературних творів та використовує багато граматичних характеристик [20].
Ці методи потребують великої витрати часу та залучення в експеримент
багатьох дослідників і вибірок великої кількості текстового матеріалу, крім того,
методи, що розглядаються, характеризуються великим набором ознак, за
допомогою яких можна досягти кінцевої мети – атрибуції тексту, але пошук та
етапну обробку цих ознак потребує значно кращої автоматизації.
АТ розв’язує дві групи задач [21]:
1. Ідентифікаційні – підтвердження або виключення авторства певної
особи.
31
2. Визначення чи автором кількох текстів була одна і та ж особа;
перевірка чи є особа, що написала текст, його справжнім автором. При
розв’язанні цих задач автор тесту відомий та доступний. Найвідомішими
ідентифікаційними задачами є виявлення плагіату або підтвердження авторських
прав на літературний твір.
3. Діагностичні – визначення особистісних характеристик автора. зокрема
його освітнього рівня, рідної мови, знання іноземних мов, галузі діяльності,
професії, хобі, статі, віку, соціального положення, національності та інших
соціальних характеристик; наявність навичок певного стулю мовлення;
виявлення факту зумисного викривлення письмового мовлення. Відомою
діагностичною задачею є визначення особистісних характеристик автора
анонімного листа, які дозволять виявити перелік осіб, що підлягають перевірці.
Визначається також психологічний стан особи в момент написання цього листа,
виявляється факт написання листа в незвичайних умовах, під диктовку іншої
людини.
Традиційно АТ передбачає послідовний розв’язок експертами задач
класифікації та ідентифікації і містить кілька стадій [8]:
1. Підготовча.
2. Аналітична.
3. Порівняльних досліджень.
4. Формування висновку.
На підготовчій стадії відбувається формулювання задачі та формування
даних, що дозволяють її розв’язати. Оцінюється інформативність цих даних
відповідно до поставленої задачі. Експерти знайомляться із постановою про
призначення експертизи та матеріалами, що надійшли.
На аналітичній стадії виявляються перелік ознак та їх характеристики, за
допомогою яких буде надалі проведена ідентифікація автора текстового
повідомлення. Вивчається окремо текст, що досліджується, та зразки письмових
повідомлень підозрюваної особи. Результатом стадії є розв’язання задачі
32
класифікації – визначення до якої із відомих груп осіб відноситься автор тексту,
що досліджується.
На стадії порівняльних досліджень розв’язується перший етап задачі
ідентифікації автора. Виявляються співпадання та відмінності характеристик
тексту та ідентифікаційних ознак осіб, що належить цієї групи, належить
текстове повідомлення.
На стадії формування висновку відбувається оцінка виявлених співпадань
та відмінностей, відбувається остаточне розв’язання задачі ідентифікації автора.
Це заключна стадія АЕ. Формулюється експертний висновок. Вимогою до нього
є однозначність формулювань.
На мою думку при автоматизації АЕ залучення експертів на стадіях 1 і 4
(Підготовчій та Формування висновку) є обов’язковим. Тому інформаційна
технологія повинна бути автоматизованою, а не автоматичною.
1.1.4. Профілювання
Останнім часом актуальність задачі визначення властивостей автора за
його текстовими повідомленнями зростає. Це пов’язано не тільки із необхідністю
автоматизації процесу атрибуції тексту [22] – встановлення авторства анонімних
повідомлень, чи до цього часу невідомих авторів літературних творів. Цікавими
у науковому плані є дослідження тексту з метою автоматизації процесу
виявлення додаткової інформації про стан здоров’я автора, виявлення його
прихильності до вибору певних рішень. Розв’язання цієї задачі є важливою
складовою процесу консолідації інформації [23], отриманої із різнорідних
джерел, з метою виявлення механізмів впливовості зовнішніх факторів на
досліджувані процеси в криміналістиці, історичній інформатиці, соціології та
інших галузях людської діяльності, де вимагається багаторівневе перетворення
даних у інформацію. Інформаційні технології аналізу текстових повідомлень
можуть бути успішно використані також в процесі адаптивного позиціонування
сайтів в глобальному інформаційному середовищі [24].
33
На сьогодні вважається доведеним, що стан автора відображається в його
тексті [25]. За результатами досліджень формальних і неформальних
характеристик текстового повідомлення визначаються окремі риси автора, що
утворюють особистісний психологічний портрет [26]. В лінгвістиці
сформульовано термін author profiling – профілювання автора, тобто виявлення
ознак автора за написаним ним текстом [11].
Для розв’язання завдання профілювання тексту небхідно мати масив даних
із відомостями про стать, вік, освіту та рідну мову автора а також параметрами
тексту, що непідконтрольні автору, та засоби виявлення кореляцій між
параметрами автора та параметрами тексту [27]. Автори стверджують, що на
сьогодні не існує валідних методик визначення характеристик автора тексту,
немає узагальнюючих теоретичних досліджень, не проведені статистичні
дослідження для виявлення значимості тиї чи інших мовних елементів для
діагностування характеристик автора текту [28].
Серед інформаційних систем, що реалізують методики профілювання
авторів російськомовних текстів, відома програма ВААЛ (www.vaal.ru). Вона
визначає мотивованість автора на основі аналізу лексики тексту.
Програма «Анализ писем» (http://www.analizpisem.ru) визначає настрої
автора на момент написання текстового повідомлення на основі положень теорії
фоносемантики. Аналізується відношення частоти використання певних букв до
середньої частоти їх використання особою. Вважається [29], що це характеризує
настрій людини.
1.1.5. Контент-анатіз текстів
Серед множини визначень контент-аналізу для цього дослідження
доцільно застосувати таке [30]: «Контент-аналіз – це методика виявлення
ймовірності появи в тексті певних характеристик, що цікавлять дослідника. Вона
дозволяє досліднику прийти до певних висновків щодо намірів автора тексту чи
можливих реакцій адресата».
34
Контент-аналіз використовує частотні характеристики текстів та їх
статистичні оцінки, отриманих за результатами декомпозиції цих текстів.
Найменшим неподільним елементом, що містить контент – є слово. Починаючи
від визначення частот використання слів та словосполучень на нижньому рівні
декомпозиції, далі піднімаються до аналізу частоти використання із заданими
ознаками речень, абзаців, текстів в цілому – статей, книг [31]. Глибина
декомпозиції текстів залежить від поставленого завдання. Висновки про
тенденції розвитку науки робляться на підставі аналізу частоти використання
книг певної тематики, редакційну політику видання оцінюють за аналізом частот
статей та їх тематики. Популярність публічної особи оцінюється за кількістю
текстів та речень, в яких згадується ім’я цієї особи. Тематику тексті та його
емоційну забарвленість оцінюють за [31].
Незаперечною перевагою контент-аналізу є відтворюваність його
результатів [32]. Але при цьому існують проблеми неоднозначності критеріїв та
трудомісткості процедур [31].
Властивості змісту тесту вимірюються шляхом перерахунку кількості
вживаних ознак, що відображають його суттєві якості [32]. Первинний опис
формується шляхом створення переліку первинних понять (окремих слів), що є
інформативними та відображають змістовні властивості тексту. Перелік понять
формується евристично, експертним методом. Після цього поняття поєднуються
за певною ознакою в категорії. Належність до певних категорій визначається не
тільки шляхом порівняння із наперед заданим переліком слів (житло – будинок,
барлога, помешкання та інші) але і за граматичними ознаками (дієслово, іменник
та інші) [31].
1.2. Процес перетворення текстових повідомлень
1.2.1. Декомпозиція тексту
З метою виявлення ознак текстових повідомлень, що можуть бути
використані в процесі інтелектуального аналізу тексту, проводиться
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria

More Related Content

What's hot

Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...e-ranok e-ranok
 
Інформатика (Морзе, Барна, Вембер) 8 клас
Інформатика (Морзе, Барна, Вембер) 8 класІнформатика (Морзе, Барна, Вембер) 8 клас
Інформатика (Морзе, Барна, Вембер) 8 класВолодимир Медвідь
 
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...Василий Цупа
 
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...Василий Цупа
 
Електронний підручник
Електронний підручникЕлектронний підручник
Електронний підручникKalachova
 
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...Василий Цупа
 
04 навчальна програма для учнів 5-9 класів 2017-2018
04 навчальна програма для учнів 5-9 класів 2017-201804 навчальна програма для учнів 5-9 класів 2017-2018
04 навчальна програма для учнів 5-9 класів 2017-2018VsimPPT
 
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному роціВасилий Цупа
 
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...Shool1
 

What's hot (20)

Aref deev
Aref deevAref deev
Aref deev
 
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
 
9
99
9
 
Aref nagi ed
Aref nagi edAref nagi ed
Aref nagi ed
 
Інформатика (Морзе, Барна, Вембер) 8 клас
Інформатика (Морзе, Барна, Вембер) 8 класІнформатика (Морзе, Барна, Вембер) 8 клас
Інформатика (Морзе, Барна, Вембер) 8 клас
 
Disser rozlomii
Disser rozlomiiDisser rozlomii
Disser rozlomii
 
1 (1)
1 (1)1 (1)
1 (1)
 
Aref rozlomii
Aref rozlomiiAref rozlomii
Aref rozlomii
 
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2014-2015 навчальному...
 
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...
06 навчальна програма поглибленого вивчення інформатики для учнів 8-12 класів...
 
Автореферат КАРАПЕТЯН А. Р.
Автореферат  КАРАПЕТЯН А. Р.Автореферат  КАРАПЕТЯН А. Р.
Автореферат КАРАПЕТЯН А. Р.
 
Dis kar2 (2)
Dis kar2 (2)Dis kar2 (2)
Dis kar2 (2)
 
Електронний підручник
Електронний підручникЕлектронний підручник
Електронний підручник
 
Aref kovalenko
Aref  kovalenkoAref  kovalenko
Aref kovalenko
 
Dis deev
Dis deevDis deev
Dis deev
 
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...
07 1-методичні рекомендації щодо вивчення інформатики у 2015-2016 навчальному...
 
04 навчальна програма для учнів 5-9 класів 2017-2018
04 навчальна програма для учнів 5-9 класів 2017-201804 навчальна програма для учнів 5-9 класів 2017-2018
04 навчальна програма для учнів 5-9 класів 2017-2018
 
Dis deev
Dis deevDis deev
Dis deev
 
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році
07 методичні рекомендації щодо вивчення інформатики у 2012-2013 навчальному році
 
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...
викладання автоматизованого створення й публікації веб ресурсів у курсі інфор...
 

Similar to Dis holub maria

презентац я
презентац япрезентац я
презентац яFr3dd0
 
Лаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных системЛаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных системKostiantyn Potomkin
 
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...Oleksii Voronkin
 

Similar to Dis holub maria (20)

Aref -
Aref -Aref -
Aref -
 
Aref stabetska
Aref stabetskaAref stabetska
Aref stabetska
 
Aref миронюк випр. 12.04
Aref миронюк випр. 12.04Aref миронюк випр. 12.04
Aref миронюк випр. 12.04
 
косилов автореферат
косилов авторефераткосилов автореферат
косилов автореферат
 
Aref zazhoma vm
Aref zazhoma vmAref zazhoma vm
Aref zazhoma vm
 
Aref chikunov
Aref chikunovAref chikunov
Aref chikunov
 
Міценко_дисертація
Міценко_дисертаціяМіценко_дисертація
Міценко_дисертація
 
Diss mogilatenko
Diss mogilatenkoDiss mogilatenko
Diss mogilatenko
 
Aref kapitan
Aref kapitanAref kapitan
Aref kapitan
 
Aref tarasenko
Aref tarasenkoAref tarasenko
Aref tarasenko
 
презентац я
презентац япрезентац я
презентац я
 
Лаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных системЛаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных систем
 
іуст 2013
іуст 2013іуст 2013
іуст 2013
 
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
 
Vidguk korchenko
Vidguk korchenkoVidguk korchenko
Vidguk korchenko
 
Mahovich aref
Mahovich arefMahovich aref
Mahovich aref
 
Ref mogilatenko
Ref mogilatenkoRef mogilatenko
Ref mogilatenko
 
Dis (1)
Dis (1)Dis (1)
Dis (1)
 
Dis
DisDis
Dis
 
ITONT-2018
ITONT-2018ITONT-2018
ITONT-2018
 

More from Черкаський державний технологічний університет

More from Черкаський державний технологічний університет (20)

Vidguk zablodska
Vidguk zablodskaVidguk zablodska
Vidguk zablodska
 
Vidguk karlova (2)
Vidguk karlova (2)Vidguk karlova (2)
Vidguk karlova (2)
 
Vidguk karlova
Vidguk karlovaVidguk karlova
Vidguk karlova
 
Vidguk kudrina
Vidguk kudrinaVidguk kudrina
Vidguk kudrina
 
Vidguk boychenko
Vidguk boychenkoVidguk boychenko
Vidguk boychenko
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus td nv_zvo
Silabus td nv_zvoSilabus td nv_zvo
Silabus td nv_zvo
 
Prezentation 18 05_2019
Prezentation 18 05_2019Prezentation 18 05_2019
Prezentation 18 05_2019
 
Reklama pp
Reklama ppReklama pp
Reklama pp
 
Vutiag 7
Vutiag 7Vutiag 7
Vutiag 7
 
Vutiag 6
Vutiag 6Vutiag 6
Vutiag 6
 
Protocol 7
Protocol 7Protocol 7
Protocol 7
 
Vitiag 7
Vitiag 7Vitiag 7
Vitiag 7
 
Vitiag 6
Vitiag 6Vitiag 6
Vitiag 6
 
Vitiag 5
Vitiag 5Vitiag 5
Vitiag 5
 
Vitiag 4
Vitiag 4Vitiag 4
Vitiag 4
 
Vitiag 3
Vitiag 3Vitiag 3
Vitiag 3
 
Vitiag 2
Vitiag 2Vitiag 2
Vitiag 2
 

Recently uploaded

Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВІм’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВestet13
 
Графіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та областіГрафіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та області24tvua
 
Енергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptxЕнергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptxssuserd1824d
 
70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстання70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстанняestet13
 
Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...ssuser7541ef1
 
Альфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptxАльфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptxssuserd1824d
 
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...ssuser7541ef1
 
80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...estet13
 
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...ssuser7541ef1
 
Графіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рікГрафіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рік24tvua
 
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?Collaborator.pro
 
Пасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptxПасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptxssuserd1824d
 
Хвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з нимиХвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з нимиtetiana1958
 
Презентація про виникнення балади., особливості
Презентація про виникнення балади., особливостіПрезентація про виникнення балади., особливості
Презентація про виникнення балади., особливостіAdriana Himinets
 
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr4book
 

Recently uploaded (15)

Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВІм’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
 
Графіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та областіГрафіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та області
 
Енергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptxЕнергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptx
 
70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстання70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстання
 
Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...
 
Альфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptxАльфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptx
 
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
 
80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...
 
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
 
Графіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рікГрафіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рік
 
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
 
Пасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptxПасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptx
 
Хвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з нимиХвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з ними
 
Презентація про виникнення балади., особливості
Презентація про виникнення балади., особливостіПрезентація про виникнення балади., особливості
Презентація про виникнення балади., особливості
 
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
 

Dis holub maria

  • 1. МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ Кваліфікаційна наукова праця на правах рукопису Голуб Марія Сергіївна УДК 004.896 ДИСЕРТАЦІЯ ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК ДЛЯ КЛАСИФІКАЦІЇ УКРАЇНОМОВНИХ ТЕКСТІВ В ІНФОРМАЦІЙНІЙ ТЕХНОЛОГІЇ ІНТЕЛЕКТУАЛЬНОГО МОНІТОРИНГУ 05.13.06 - інформаційні технології Подається на здобуття наукового ступеня кандидата технічних наук Дисертація містить результати власних досліджень. Використання ідей, результатів і текстів інших авторів мають посилання на відповідне джерело М.С. Голуб Науковий керівник: Півень Олег Борисович, кандидат фізико-математичних наук, доцент Черкаси - 2018
  • 2. 2 АНОТАЦІЯ Голуб М.С. Формування масиву чисельних ознак для класифікації україномовних текстів в інформаційній технології інтелектуального моніторингу. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 «Інформаційні технології». – Черкаський державний технологічний університет, Черкаси, 2018. Дисертація присвячена розв’язанню наукової задачі підвищення адекватності класифікації україномовних текстів шляхом розробки методів і засобів ефективного формування масиву їх чисельних ознак для побудови моделей-класифікаторів в інформаційних технологіях багаторівневого інтелектуального моніторингу. У першому розділі подані результати інформаційного пошуку існуючих підходів, методів та інформаційних технологій класифікації друкованих текстів, придатних для використання в технологіях багаторівневого інтелектуального моніторингу. Визначено, що найбільш перспективним напрямом досліджень, який дозволить розв’язати поставлену наукову задачу, є машинне навчання поліноміальних моделей на основі масивів вхідних даних (МВД), сформованих на основі чисельних характеристик текстових повідомлень. Визначений перелік задач, які необхідно розв’язати для досягнення мети дисертаційного дослідження. Другий розділ присвячений формалізації процесу формування масиву вхідних даних шляхом перетворення друкованого тексту до масиву його чисельних ознак. Обґрунтований критерій інформативності ознак у формі ймовірності використання ознаки на ділянках тексту – вікнах, формалізовані вимоги до кожного із етапів перетворення інформації, висунуті гіпотези про підвищення інформативності масиву вхідних даних шляхом формування індивідуального переліку інформативних ознак та використання дисперсії
  • 3. 3 ймовірності використання ознак змінної кількості вікон при побудові точок спостереження. У третьому розділі подані результати експериментальної перевірки висунутих гіпотез, методика проведення експериментальних досліджень, аналіз їх результатів та описана інформаційна технологія перетворення друкованих текстів. Експериментально досліджено залежність кількості правильно класифікованих частин текстів – вікон від значення мінімальної інформативності ознак, розміру вікна та кроку зміни кількості вікон при побудові точок спостереження. Це дозволило експериментально підтвердити висунуті гіпотези, удосконалити метод формування словника ознак, створити новий метод побудови точок спостереження масиву вхідних даних. Забезпечена координація взаємодій нового та удосконалених методів перетворення текстів із синтезатором моделей, базою модельних знань та іншими елеметами інформаційної технології багаторівневого інтелектуального моніторингу (ІТБІМ). В результаті поєднання нових та існуючих елементів досягнуто системнго ефекту емерджентності у формі нової для ІТБІМ здатності класифікувати україномовні текстові повідомлення та збільшення кількості правильно класифікованих текстів у порівнянні з аналогами. Їх частка сягнула 98-100%. Одночасно зменшився до 500 знаків розмір текстового повідомлення, яке може бути класифікованим правильно. Червертий розділ містить опис процесу реалізації ІТБІМ із функціями класифікації текстів у формі моніторингової інтелектуальної системи (МІС) та результати випробування удосконаленої МІС. На етапі аналізу вимог до існуючої методики реалізації МІС подані зміни у формі UML діаграм діяльності та діаграми класів. Випробування МІС проведено в процесі розв’язання задачі виявлення місця проживання авторів друкованих текстових повідомлень та при розв’язанні задачі атрибуції. Інформаційна технологія багаторівневого інтелектуального моніторингу набула здатності розв’язувати завдання інтелектуального аналізу україномовних текстів, зокрема їх класифікації.
  • 4. 4 Наукова новизна отриманих результатів відображена такими положеннями: удосконалено метод формування словника ознак. Це передбачає визначення критерію інформативності ознаки та їх добору за цим критерієм. Процес відбувається шляхом формування адаптивного переліку класифікаційних ознак для кожного завдання за результатами випробування моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак для кожного класу індивідуально і підвищити селективність моделі- класифікатора; уперше розроблений метод побудови точок спостереження в багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції тексту на вікна та визначення ймовірності використання ознаки у вікні. Відрізняється від вже існуючих методів використанням дисперсії ймовірностей ознак при змінній кількості спостережень. Це забезпечує зниження варіації значень ознак та збільшує кількість правильно класифікованих текстів; удосконалено метод перетворення текстового повідомлення до масиву його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового розміру, формування словника ознак, побудову точок спостереження. На відміну від існуючих методів, тут застосовується оптимізація розміру вікна за критерієм максимальної кількості правильно класифікованих текстів, адаптивне формування словника ознак та дисперсійна побудова точок спостереження. Таким чином підвищується адаптивність процесу формування масиву чисельних ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення особливих умов формування масиву чисельних ознак в процесі побудови моделі- класифікатора; набула подальшого розвитку методологія створення інформаційних систем багаторівневого інтелектуального моніторингу за рахунок використання методу перетворення текстового повідомлення в процесі синтезу моделей- класифікаторів. Це дозволяє розширити можливості використання моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
  • 5. 5 технологічність процесів за рахунок використання типових інструментів на різних етапах класифікації, оперативно розробляти нові методи класифікації при зміні завдання обробки текстів. Практичне значення отриманих результатів в тому, що результати дисертаційного дослідження відкривають можливості для використання систем багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу інформаційних потоків, поданих у вигляді друкованих текстів. Наведені обчислювальні схеми та технологія забезпечують швидкодію та невибагливість до апаратних ресурсів при реалізації в програмному середовищі, дозволяють ефективно отримати класифікацію україномовних текстів засобами вже існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури вже існуючих програмних комплексів. Досягнення цих результатів відкриває можливості для широкого використання систем багаторівневого інтелектуального моніторингу під час виявлення та аналізу інформаційних потоків у вигляді друкованих текстів. Розроблені на їх основі інформаційні засоби пройшли тестування та практичну апробацію у реальних програмних продуктах багаторівневого моніторингу. Застосування розробленої інформаційної технології класифікації текстів дозволяє автоматизувати процеси інтелектуального аналізу інформаційних потоків. Таким чином було забезпечено ефективність процесу інформаційного моніторингу. В деяких випадках провести моніторинг текстових повідомлень в соціальних та інших спільнотах іншими методами неможливо. Практична цінність роботи підтверджена актами впровадження основних результатів дисертаційнго дослідження: у виробництво ТОВ НВП «КІАТОН» (акт про результати впровадження від 03.11.2017), у діяльність Славутицької міської адміністрації (акт про впровадження від 18.01.2018 р.), у діяльність ГС «Міжрегіональний Союз птахівників і кормовиробників України» (акт впровадження від 19.04.2017 р.).
  • 6. 6 Ключові слова: інформаційна технологія, інтелектуальний моніторинг, класифікація текстів, словник ознак, точка спостереження, масив вхідних даних, МГУА. SUMMARY Maria S. Holub. Formation of an array of numerical features for the classification of Ukrainian-language texts in the intellectual monitoring technology. – Qualification scientific paper, manuscript. Thesis for a Candidate Degree in Information Technologies: Speciality 05.13.06 – Information Technologies. – Cherkasy State Technological University, Cherkasy, 2018. The thesis solves the scientific problem of increasing the adequacy of the classification of Ukrainian-language texts by means of developing methods of effective formation of an array of their numerical features for the construction of classifier models in multilevel intellectual monitoring technologies. In the first part the results of the information retrieval of existing approaches, methods and information technologies applied for the classification of the printed texts being appropriate for using in multilevel intellectual monitoring technologies have been provided. It was determined that the most promising area of research that allows solving the given scientific problem is the machine learning of polynomial models based on the input data arrays (IDA) formed on the basis of numerical characteristics of text messages. The tasks that need to be solved to achieve the goal of the thesis research were determined. In the second part the author provides formalization of the process of the input data array formation by converting the printed text into an array of its numerical features. The criterion of informative features in the form of the probability of using the sign in the text sections (windows) was substantiated. The requirements for each stage of the information transformation were formalized. The hypotheses about increasing the informativeness of the input data array by forming an individual list of
  • 7. 7 informative features and the use of the variance of the probability of using the signs of the variable number of windows in the construction of points were made. The third part presents the results of experimental verification of the hypotheses put forward, the methodology of conducting experimental research, analysis of their results and describes the information technology of the transformation of printed texts. The dependence of the number of correctly classified parts of texts (windows) on the value of the minimum informativeness of the signs, the size of the window and the step of changing the number of windows in the construction of the observation points has been experimentally investigated experimentally. This allowed to experimentally confirm the hypotheses made, to improve the method of forming the vocabulary of signs, to create a new method of constructing points of observation of the input array. Coordination of the interactions of new and improved methods of converting texts with model synthesizers, base of model knowledge and other elements of information technology of multilevel intellectual monitoring (ITMIM) is provided. As a result of the combination of new and existing elements, a systematic effect of the emergence in the form of a new for ITMIM ability to classify Ukrainian-language text messages and increase the number of correctly classified texts compared with analogues has been achieved. Their share reached 98-100%. At the same time, the size of a text message, which can be categorized correctly, has been reduced to 500 characters. In the fourth part the author describes the implementation of the ITMIM with functions of the classification of texts in the form of a monitoring intellectual system (MIS) and the results of the test of the improved MIS. At the stage of the analysis of requirements to the existing method of implementation of the MIS changes in the form of UML activity diagrams and class diagrams are presented. The MIS test was conducted in the process of solving the problem of finding the place of residence of the authors of printed text messages and in solving the attribution task. The information technology of multilevel intellectual monitoring has acquired the ability to solve problems of intellectual analysis of Ukrainian-language texts, in particular their classification.
  • 8. 8 Scientific novelty of the obtained results: the method of forming a dictionary of features was improved. This involved determining the criterion of informative nature of the sign and its selection on this criterion. The process was carried out by forming an adaptive list of classification characteristics for each task based on the results of testing the classifier model. This allowed to increase the number of informational attributes for each class individually as well as the selectivity of the classifier model; At first, a method for constructing observation points in a multidimensional space of numerical signs of a text has been developed. It consists in decomposing the text on the windows and determining the likelihood of using the sign in the window. It differs from existing methods using the dispersion of probabilities of signs with a variable number of observations. This reduces the variation of the values of the signs and increases the number of correctly classified texts; the method of converting a text message into an array of its numerical features is improved, which involves decomposing the text into windows of the same size, forming a dictionary of features, constructing points of observation. Unlike existing ones, the optimization of the window size is based on the criterion of the maximum number of correctly classified texts, the adaptive formation of the vocabulary of signs and the dispersion construction of points of observation. Thus, the adaptability of the process of forming an array of numerical text attributes to the properties of classes increases. This is due to ensuring special conditions for the formation of an array of numerical features in the process of constructing a model-classifier; The methodology of creating multilevel intellectual monitoring information systems through the use the method of converting text messages into the synthesis of classifier models has been further developed. This allows us to expand the possibilities of using monitoring systems in the field of intellectual analysis of texts, to ensure the processability of processes through the use of standard tools at different stages of classification, to rapidly develop new methods of classification when changing the task of text processing. Practical value of the results. The results of the research conducted within the thesis provide opportunities for the use of multilevel intellectual monitoring systems
  • 9. 9 in the process of detecting and analyzing information streams presented in the form of printed texts. The computational schemes and technology presented in the thesis provide fast and unpretentious to hardware resources when implemented in the software environment, allow to effectively obtain the classification of Ukrainian- language texts by means of existing monitoring intellectual systems and integrate them into the structure of existing software systems. Achieving these results offers opportunities for widespread use of multilevel intellectual monitoring systems for detecting and analyzing information streams in the form of printed texts. The information tools developed on their basis were tested in real-world multilevel monitoring software products. Application of the developed information technology of classification of texts allows to automate the processes of intellectual analysis of information flows. Thus, the process of information monitoring was provided. In some cases it is not possible to monitor text messages in social and other communities in other ways. The practical value of the study was confirmed by implementing the main results of the thesis research in the industrial processes of LLC R&D company "Cation" (Act of Implementation 11.3.2017), in the activities of the Slavutych city administration (the act on implementation from January 18, 2018) Interregional Union of Poultry and Forage Producers of Ukraine "(Act of Implementation dated 19.04.2017). The information technology of multilevel intellectual monitoring has acquired the ability to solve the problems of intellectual analysis of Ukrainian-language texts, in particular those of their classification. Key words: information technology, intellectual monitoring, classification of texts, dictionary of features, observation point, input data array, GMDH.
  • 10. 10 Список основних публікацій здобувача [1] Голуб М.С. Формування масиву вхідних даних при класифікації текстів в технології інформаційного моніторингу. Математичні машини і системи. 2018. № 1. С. 59-66. [2] Голуб М.С. Дисперсійний метод формування точок спостереження в інформаційній технології класифікації текстів. Вісник інженерної академії України. 2017. № 3. С.38-42. [3] Голуб С.В., Мартинова Г.І., Голуб М.С. Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу. Математичні машини і системи. 2016. № 4. С. 76-83. [4] Holub Maria, Piven Oleg. Classification of texts in the technology multilevel information monitoring. Inzynier XXI wieku. Monografia: Wydawnictwo naukowe Akademii Techniczno-Humanistycznej w Bielsku-Bialej. 2016. 119- 122 s. [5] Голуб С.В., Константиновська О.В., Голуб М.С. Відображення властивостей автора тексту в структурі багатопараметричної моделі. Системи обробки інформації: Збірник наукових праць. Х.: Харківський університет повітряних сил імені Івана Кожедуба, 2014. Вип. 9 (125). С. 82-87. [6] Голуб С.В., Константиновська О.В., Голуб М.С. Формування показників масиву вхідних даних для ідентифікації авторства текстових повідомлень Системи обробки інформації: збірник наукових праць. Х.: Харківський університет Повітряних сил імені Івана Кожедуба, 2014. Вип. 2 (118). С. 89- 92. [7] Голуб М.С. Інтелектуальний моніторинг друкованих текстів. Математичне та імітаційне моделювання систем. МОДС 2018: тези доповідей Тринадцятої міжнародної науково-практичної конференції (Чернігів, 25 - 29 червня 2018 р.). Чернігів : ЧНТУ, 2018. – С. 292–298 [8] Голуб М.С. Побудова точок спостереження при класифікації текстів машинним навчання поліноміальних моделей. Інформація, комунікація,
  • 11. 11 суспільство 2018. Інформація, комунікація, суспільство 2018: Матеріали 7- ї Міжнародної наукової конференції ICS-2018. Львів: Видавництво Львівської політехніки, 2018. С. 277-278. [9] Голуб М.С. Формування масиву вхідних даних для класифікації друкованих текстів в технології багаторівневого інтелектуального моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей Міжнародної науково-практичної конференції, м. Івано- Франківськ, 14-10 травня 2018 року. Івано-Франківськ. 2018. С. 339-342. [10] Голуб М.С. Застосування частотного критерію інформативності ознак в задачах інтелектуального аналізу тексту багаторівневого інформаційного моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей Міжнародної науково-практичної конференції, м. Івано- Франківськ, 15-20 травня 2017 року. Івано-Франківськ. 2017. С. 16-19. [11] Голуб М.С. Інтелектуальний пошук відомостей технічними системами інформаційного моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей шостої міжнародної науково- практичної конференції, Івано-Франківськ, 23-28 травня 2016 року. Івано- Франківськ. 2016. С. 83-84. [12] Голуб М.С. Інтелектуальний аналіз текстів. Інформація, комунікація, суспільство 2015: матеріали 5-ї Міжнар. наук. конференції ICS-2016. Львів: Видавництво Львівської політехніки, 2016. С. 230-231. [13] Голуб С.В., Голуб М.С. Профілювання текстів у технології інформаційного моніторингу. Матеріали 4-ї міжнародної наукової конференції ICS-2015 «Інформація, комунікація, суспільство 2015». Львів: Видавництво Львівської політехніки, 2015. С.176-177. [14] Голуб М.С. Вибір ознак в процесі інтелектуальної обробки текстових повідомлень. Інформація, комунікація, суспільство 2014: матеріали 3-ї Міжнар. наук. конференції ICS-2014. Львів: Видавництво Львівської політехніки, 2014. – С. 148-149.
  • 12. 12 [15] Golub Maria. The Input Data Array (IDA) Format is Unified to Ensure the Consolidation of Heterogeneous Models, Synthesized by the Model Synthesis Algorithm. Modern problems of radio engineering, Telecommunications, and computer Science. Proceedings of the International Conference TCSET’2014. Dedicated to the 170th anniversary of Lviv Polytechnic National University. Lviv Publishing House of Lviv Polytechnic. 2014. p. 657 [16] Голуб М.С. Відображення властивостей текстових повідомлень в структурі індуктивних моделей. Проблеми інформатизації: Матеріали першої міжнародної науково-технічної конференції. Черкаси: ЧДТУ; Київ: ДУТ; Тольятті: ТДУ; Полтава: ПНТУ, 2013. С. 59.
  • 13. 13 ЗМІСТ ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ.................................................................... 16 ВСТУП.................................................................................................................... 18 РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ .................................................................................................... 25 1.1. Задачі аналізу текстових повідомлень ........................................................ 25 1.1.1. Інтелектуальний аналіз текстів .............................................................. 25 1.1.2. Класифікація ........................................................................................... 27 1.1.3. Атрибуція ................................................................................................ 29 1.1.4. Профілювання......................................................................................... 32 1.1.5. Контент-анатіз текстів............................................................................ 33 1.2. Процес перетворення текстових повідомлень ............................................ 34 1.2.1. Декомпозиція тексту............................................................................... 34 1.2.2. Формування переліку інформативних ознак......................................... 35 1.2.3. Критерії інформативності ознак ............................................................ 37 1.3. Методи синтезу моделей-класифікаторів ................................................... 41 1.4. Автоматизація аналізу друкованих текстів................................................. 46 1.4.1. Особливості автоматизації текстів......................................................... 46 1.4.2. Багаторівневий аналіз та методи декомпозиції текстового повідомлення .................................................................................................... 46 1.4.3. Багаторівневий інтелектуальний моніторинг........................................ 48 1.5. Обгрунтування задач досліджень................................................................ 53 1.6. Висновки до розділу..................................................................................... 54 РОЗДІЛ 2. РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПОБУДОВИ ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ПЕРЕТВОРЕННЯ ТЕКСТІВ........................ 56 2.1. Стратегія досліджень. Опис предметної області ........................................ 56
  • 14. 14 2.2. Математична постановка завдання............................................................. 62 2.3. Гіпотези......................................................................................................... 64 2.3.1. Про критерій інформативності ознак .................................................... 64 2.3.2. Про адаптивність процесу формування словника ознак ...................... 65 2.3.3. Про межу інформативної достатності ................................................... 67 2.3.4. Про використання дисперсії при побудові точок спостереження МВД ........................................................................................................................... 68 2.3.5. Про метод синтезу моделей-класифікаторів ......................................... 69 2.3.6. Про інтелектуальний моніторинг........................................................... 71 2.4. Технологія багаторівневого моделювання текстових повідомлень........ 72 2.5. Висновки до розділу..................................................................................... 73 РОЗДІЛ 3. ЕКСПЕРИМЕНТАЛЬНІ ДОСЛІДЖЕННЯ МЕТОДІВ ПЕРЕТВОРЕННЯ ДРУКОВАНИХ ТЕКСТІВ...................................................... 75 3.1. Зміст досліджень .......................................................................................... 75 3.2. Оцінка інформативності ознак..................................................................... 75 3.3. Адаптивне формування словника ознак...................................................... 77 3.4. Оптимізація розміру вікна та межі інформативної достатності ................ 85 3.5. Дисперсний метод побудови точок спостереження ................................... 91 3.5.1. Формування точок спостереження за дисперсним методом із постійною основою .......................................................................................... 91 3.5.2. Формування точок спостереження із змінною кількістю точок, за якими розраховується дисперсія ..................................................................... 94 3.6. Синтез моделей-класифікаторів .................................................................. 96 3.7. Метод перетворення друкованих текстів.................................................. 104 3.8. Інформаційна технологія класифікації текстів машинним навчанням поліноміальних моделей ................................................................................... 107 3.9. Висновки до розділу................................................................................... 107
  • 15. 15 РОЗДІЛ 4. РЕАЛІЗАЦІЯ ТА ЗАСТОСУВАННЯ РЕЗУЛЬТАТІВ ДОСЛІДЖЕНЬ В МОНІТОРИНГОВИХ ІНТЕЛЕКТУАЛЬНИХ СИСТЕМАХ ......................... 110 4.1. Про використання отриманих результатів................................................ 110 4.2. Особливості реалізації інформаційної технології класифікації текстів у формі моніторингової інтелектуальної системи.............................................. 110 4.3. Реалізація етапу «Аналіз вимог» технології проектування МІС ............. 111 4.3.1. Вимоги взаємодії із зовнішнім середовищем...................................... 111 4.3.2. Функціональні вимоги.......................................................................... 112 4.3.3. Вимоги до процесу оптимізації значення межі інформативної достатності...................................................................................................... 115 4.3.4. Вимоги до процесів оптимізації розміру вікон ................................... 116 4.3.5. Вимоги до конструювання моделі в процесі класифікації тексту ..... 117 4.3.6. Вимоги до системи вцілому ................................................................. 118 4.4. Реалізація інформаційної технології перетворення друкованих текстів в моніторинговій інформаційній системі ........................................................... 120 4.5. Випробування моніторингової інтелектуальної сиситеми з функціями класифікації текстів........................................................................................... 123 4.5.1. Класифікація текстів за місцем проживання автора........................... 123 4.5.2. Атрибуція текстів моніторинговою інтелектуальною системою....... 127 4.6. Порівняння характеристик МІС із відомими аналогами.......................... 129 4.7. Висновки до розділу................................................................................... 129 ВИСНОВКИ ......................................................................................................... 131 СПИСОК ЛІТЕРАТУРИ...................................................................................... 134 ДОДАТКИ ............................................................................................................ 150 Додаток A. Список публікацій здобувача за темою дисертації та відомості про апробацію результатів дисертації..................................................................... 150 Додаток Б. Відомості щодо впровадження результатів роботи ...................... 154
  • 16. 16 ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ Скорочення Пояснення ІТ Інформаційна технологія СППР Система підтримки прийняття рішень АТ Атрибуція тексту ІАД Інтелекутальний аналіз даних МГУА Метод групового врахування аргументів ПО Первинний опис МВД Масив вхідних даних МІС Моніторингова інтелектуальна система МІД Межа інформативної достатності ГФЗ Голобальна функціональна залежність БМЗ База модельних знань ОПР Особа, що приймає рішення ЛЗПІ Локальне завдання перетворення інформації АСМ Алгоритм синтезу моделей БЕО Багатокритеріалоьне експертне оцінювання ВС Вихідний сигнал ГЗ Горизонтальний зв’зок ООП Об’єктно-орієнтоване проектування СПІ Система перетворення інформації БД База даних АСБПД Автоматизована система багаторівневого перетворення даних ІС Інформаційна система ІАТ Інтелектуальний аналіз текстів КТ Класифікація текстів ПД Перетворення даних
  • 17. 17 Скорочення Пояснення ВІЗ Вертикальні ієрархічні зв’язки ГІЗ Горизонтальні ієрархічні зв’язки ГФС Глобальна функція системи КВ Керуючий вплив
  • 18. 18 ВСТУП Актуальність теми. В сучасних реаліях інформаційної війни в Україні необхідно автоматизувати процеси класифікації україномовних текстів. Це розширить можливості технології багаторівневого інтелектуального моніторингу. Результати роботи можуть бути використані в технологіях захисту інформаційного простору України, для атрибуції та профілювання текстів в криміналістиці, класифікації E-mail повідомлень, організації змістового пошуку інформації в бібліотеках, створення нових архівів текстів та для виконання інших подібних завдань. Розроблені методи та засоби атрибуції текстів придатні для використання у процесах консолідації результатів обробки текстових повідомлень, психологічних тестів, економічних даних у технологіях інформаційного моніторингу та при реалізації інших завдань. На сьогодні завдання класифікації текстів в моніторингових системах найчастіше розв’язують контент-аналізом та методами машинного навчання. В результаті застосування цих методів виникають такі проблеми: можливість суб’єктивного викривлення результатів класифікації автором під час контент- аналізу, необхідність мати тексти великого розміру та недостатня адекватність результатів класифікації. Уникають цих проблем шляхом підвищення інформативності масивів чисельних ознак текстових повідомлень, що застосовуються в процесі машинного навчання поліноміальних моделей, нейронних мереж, побудови регресійних моделей і т.д.. Робіт, де подавались би результати дослідження процесів формування масиву чисельних ознак для класифікації україномовних текстів машинним навчанням, виявити не вдалося. Підґрунтям цього дослідження є роботи Люгера Д. Ф., Маккарті Д., Бродера А., Ланде Д. В., Глибовця М. М., Хопкрофта Дж., Івахненка О. Г., Шаронової Н.В., Литвинова В. В., Поспєлова Д. А., Степаненка В. Є., Широкова В. А., Мартинової Г. І., Шемакіна Ю. І., Кронгауза М. А. та інших вчених в галузі інформаційних технологій, комп'ютерної лінгвістики, української філології та індуктивного моделювання.
  • 19. 19 Класифікація текстів передбачає побудову вирішуючого правила. Його завдання – перетворення значень класифікаційних ознак до форми висновку про те, до якого із наперед заданих класів належить текст. Під час обробки великих масивів текстів необхідно застосувати відповідні технологій інформаційного моніторингу. З цією метою використання інформаційної технології багаторівневого інтелектуального моніторингу стримує відсутність у ній методів та засобів визначення чисельних характеристик друкованих текстів для формування масиву вхідних даних. Тому дисертаційні дослідження, пов’язані із підвищенням інформативності масивів чисельних характеристики друкованих текстових повідомлень, є актуальними. А отримані результати дозволяють підвищити адекватність класифікації україномовних текстів інформаційною технологією багаторівневого інтелектуального моніторингу. Зв’язок роботи з науковими програмами, планами, темами. Основні дослідження з теми дисертації проводилися відповідно до планів наукових досліджень кафедри інформаційної безпеки та комп’ютерної інженерії Черкаського державного технологічного університету. Зокрема, в рамках науково-дослідної роботи «Розробка методів та засобів оцінки ефективності соціоінжинірингу» (№ ДР 0116U008715). Дослідження проводили відповідно до пріоритетних тематичних напрямів науково-технічних розробок на період до 2020 року «Технології та засоби розробки програмних продуктів і систем», затверджених постановою Кабінету Міністрів України №556 від 23.08.2016 р. Мета і завдання дослідження. Мета дослідження полягає у підвищенні адекватності класифікації україномовних текстів. Це передбачає розробку методів і засобів ефективного формування масиву їх чисельних ознак для побудови моделей-класифікаторів в інформаційних технологіях багаторівневого інтелектуального моніторингу. Для досягнення поставленої мети реалізовували такі завдання:
  • 20. 20 1. Аналіз і узагальнення існуючих підходів, методів та засобів формування масиву чисельних ознак в інформаційних технологіях класифікації друкованих текстів методами машинного навчання. 2. Дослідження процесів оптимізації розміру вікон, добору інформативних ознак та формування їх словника. 3. Дослідження процесів побудови точок спостереження в багатовимірному просторі ознак. 4. Дослідження взаємодії процесів перетворення друкованих україномовних текстів до форми масиву чисельних ознак та методів синтезу моделей-класифікаторів за технологією машинного навчання поліноміальних моделей. 5. Впровадження результатів досліджень із класифікації текстів у практику створення та застосування інформаційних систем багаторівневого інтелектуального моніторингу. Об’єктом дослідження є процеси інтелектуального аналізу текстів в інформаційних технологіях багаторівневого моніторингу. Предмет досліджень - процеси формування масиву чисельних ознак для побудови моделей-класифікаторів україномовних текстів методами машинного навчання в технологіях інтелектуального моніторингу. Методи досліджень. Під час формулювання плану досліджень використано системний підхід та системний аналіз; у розв’язанні задач синтезу моделей-класифікаторів - методи індуктивного моделювання; формування словника ознак друкованого тексту передбачало методи лінгвістичного аналізу, параметричної оптимізації. Під час формалізації завдання досліджень використані положення теорії множин та експертні методи; побудова точок спостережень передбачала дисперсійний аналіз; у формуванні показника інформативності використали теорію ймовірностей. У побудові функціональної схеми методу класифікації тексту використали методологію створення інформаційних систем багаторівневого інтелектуального моніторингу.
  • 21. 21 Наукова новизна отриманих результатів Удосконалено метод формування словника ознак. Це передбачає визначення критерію інформативності ознаки та їх добору за цим критерієм. Процес відбувається шляхом формування адаптивного переліку класифікаційних ознак для кожного завдання за результатами випробування моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак для кожного класу індивідуально і підвищити селективність моделі- класифікатора. Уперше розроблений метод побудови точок спостереження в багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції тексту на вікна та визначення ймовірності використання ознаки у вікні. Відрізняється від вже існуючих методів використанням дисперсії ймовірностей ознак при змінній кількості спостережень. Це забезпечує зниження варіації значень ознак та збільшує кількість правильно класифікованих текстів. Удосконалено метод перетворення текстового повідомлення до масиву його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового розміру, формування словника ознак, побудову точок спостереження. На відміну від існуючих застосовується оптимізація розміру вікна за критерієм максимальної кількості правильно класифікованих текстів, адаптивне формування словника ознак та дисперсійна побудова точок спостереження. Таким чином підвищується адаптивність процесу формування масиву чисельних ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення особливих умов формування масиву чисельних ознак в процесі побудови моделі- класифікатора. Набула подальшого розвитку методологія створення інформаційних систем багаторівневого інтелектуального моніторингу за рахунок використання методу перетворення текстового повідомлення в процесі синтезу моделей- класифікаторів. Це дозволяє розширити можливості використання моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити технологічність процесів за рахунок використання типових інструментів на
  • 22. 22 різних етапах класифікації, оперативно розробляти нові методи класифікації при зміні завдання обробки текстів. Практичне значення отриманих результатів. Результати дисертаційного дослідження відкривають можливості для використання систем багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу інформаційних потоків, поданих у вигляді друкованих текстів. Наведені обчислювальні схеми та технологія забезпечують швидкодію та невибагливість до апаратних ресурсів при реалізації в програмному середовищі, дозволяють ефективно отримати класифікацію україномовних текстів засобами вже існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури вже існуючих програмних комплексів. Досягнення цих результатів відкриває можливості для широкого використання систем багаторівневого інтелектуального моніторингу під час виявлення та аналізу інформаційних потоків у вигляді друкованих текстів. Розроблені на їх основі інформаційні засоби пройшли тестування та практичну апробацію у реальних програмних продуктах багаторівневого моніторингу. Застосування розробленої інформаційної технології класифікації текстів дозволяє автоматизувати процеси інтелектуального аналізу інформаційних потоків. Таким чином забезпечили процес інформаційного моніторингу. В деяких випадках провести моніторинг текстових повідомлень в соціальних та інших спільнотах іншими методами неможливо. Особистий внесок здобувача. Усі наукові результати дисертаційної роботи автор отримала самостійно. У працях, опублікованих у співавторстві, здобувачеві належать: [1] – реалізація дослідження процесу класифікації текстів при застосуванні фіксованого переліку показників масиву вхідних даних в задачах атрибуції, запропоновано дисперсійний критерій оцінки інформативності ознак; [2] – отримання залежності результатів класифікації текстів від виду опорної функції синтезатора моделей; [3] – отримані результати використання вже існуючої інформаційної системи багаторівневого моніторингу для розв’язання задачі класифікації текстів за змістом шляхом використанням нових засобів
  • 23. 23 перетворення текстових повідомлень до типової форми масиву вхідних даних; [4] – застосована інформаційна технологія інтелектуального моніторингу текстів для розв’язання задачі виявлення місця проживання авторів шляхом класифікації текстів за говірками. За принципами Г.І. Мартинової автором сформовані класи діалектних текстів та синтезовані вирішуючі правила у формі індуктивних моделей класифікаторів. Отримані результати класифікації текстів. Апробація результатів дослідження. Основні результати та дисертаційна робота в цілому апробовані на 10 міжнародних науково-практичних конференціях: Тринадцятій міжнародній науково-практичній конференції «Математичне та імітаційне моделювання систем. МОДС 2018», м. Чернігів, 2018 р.; 7 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2018», м. Львів, травень 2018 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано- Франківськ, травень 2018 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2017 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2016 р.; 5 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2016», м. Львів, травень 2016 р.; 4 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2015», м. Львів, травень 2015 р.; 3 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2014», м. Львів, травень 2014 р.; Proceedings of the International Conference «Modern problems of radio engineering, Telecommunications, and computer Science TCSET’2014», Lviv, 2014; Першій міжнародній науково-технічній конференції «Проблеми інформатизації», м. Черкаси, 2013 р.. Публікації. За темою дисертації з викладенням її основних результатів опубліковано 16 наукових праць, серед яких 1 стаття в монографії, що видана за кордоном України, 5 статей у наукових фахових виданнях України (з яких 2 статті – одноосібно), з них 2 – у виданнях, що індексуються міжнародними
  • 24. 24 бібліометричними та наукометричними базами даних, 10 публікацій в матеріалах та тезах доповідей міжнародних наукових конференцій.
  • 25. 25 РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ 1.1. Задачі аналізу текстових повідомлень 1.1.1. Інтелектуальний аналіз текстів Інтелектуальний аналіз тексту – напрям інтелектуального аналізу даних з метою отримання інформації з текстових документів, ґрунтуючись на застосуванні методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до переробки інформації, що й Data Mining, однак Data Mining має справу з сховищами та базами даних, а text mining – з електронними бібліотеками та збірками текстів [5]. Інтелектуальний аналіз текстів (ІАТ) передбачає вирішення таких завдань, як пошук інформації, категоризація текстів, обробка змін в збірках текстів, розробка засобів подання інформації для користувача [6]. Потреба в автоматизації робіт, пов’язаних із аналізом текстів, бере початок від авторовідчої експертизи в криміналістиці. За особливостями написання тексту виявляється його автор. Якщо особа автора невідома виявляють стать, вік, освіту, та інші ознаки автора. Традиційно ці завдання виконувались експертними методами на підставі уявлення, що текст повинен містити авторські стилістичні особливості. Такі методи залежать від суб’єктивної думки експерта, від рівня його кваліфікації. Крім того рукописні тексти аналізувались за характеристиками почерку. На сьогодні актуальними є завдання аналізу друкованих текстів, зокрема із Internet- джерел. Тому інструментами дослідження стають статистичні методи [7]. Завдання залишаються традиційними для криміналістики: ідентифікація та діагностика. Від іденитфікації очікують підтвердження або заперечення авторства особи, відоме під назвою «Атрибуція» [8]. На сьогодні запропонована
  • 26. 26 значна кількість методів визначення авторства друкованих тектсів, що використовують підрахунок кількості використання окремих «особливих» слів, та інших елементів речення. Популярності набуло використання методів штучного інтелекту. Завдання ідентифікації [9] формалізується як особливий випадок задачі класифікації [10] Діагностика надає можливості для виявлення особистісних ознак автора: рідну мову та рівень володіння іноземними мовами, галузь професійної діяльності, освіченість, стать, вік, національність, соціальне положення та інші, які отримали назву «Профілювання автора» [11]. Інтелектуальний аналіз текстів (Text Mining) поєднують статистичні, лінгвістичні та інтелектуальні методи інформаційного пошуку, виявлення закономірностей та здобуття іншої інформації з текстів [12]. Інформацйний пошук застосовують для навігації дослідників, фільтрації документів [13]. Системи Text Mining автоматично реферують текти та виявляють поняття і факти. За рахунок автоматизації та інтелектуальзації процесів пошуку інформації аналітику надається великий обсяг зпрофільованої інформації. Використання технологій інтелектуального аналізу текстів розширює можливості Аналітика за рахунок класифікації та кластеризації документів за їх ознаками, відповідей на запитання, аналізу зв’язків між поняттями у документі. Під час пошуку інформації інтелектуальний аналіз текстів застосовують для структурування документальних даних, здобуття інформації з документів, пошук текстів певних авторів у локальних реляційних базах даних, у гіпертекстових базах даних, як от мережа Інтернет. Застосування інтелектуального аналізу текстів у пошуку інформації дає змогу зменшити час при виконанні пошуку та уникнути інформаційного перенавантаження у процесі прийняття рішень. Категоризація документів – це зіставлення документів збірника з однією або кількома класами схожих між собою текстів, як от за темою, стилем чи іншою ознакою. Процесі розподілення текстів на категорії може відбуватися за
  • 27. 27 участю людини або автоматично. У першому випадку, який передбачає класифікацію документів, система інтелектуального аналізу текстів зараховує текстові повідомлення до вже визначених класів. Попередньо для цього відбувається навчання фахівцем моделі-класифікатора. Людина надає системі перелік класів та зразки документів, які до них належать. У другому випадку категоризації відбувається кластеризація документів системою інтелектуального аналізу текстів. Система сама визначає множину класів, за якими треба розподілити тексти. В технології машинного навчання це називається навчанням без вчителя. У такому випадку фахівець повідомляє системі ІАТ кількість кластерів, на які потрібно розбити збірку текстів. В алгоритм програми вже закладена процедура вибору ознак [14]. На сьогодні значна кількість інформаційних систем використвують технології Text Mining. Серед найвідоміших [12] Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti). Ці системи використовують математичні та лінгвістичні алгоритми аналізу текстових даних, надають можливості доступу до зовнішніх джерел даних, їх візуалізації та перетворення. 1.1.2. Класифікація Задача класифікації розв’язується у випадку, коли необхідно автоматизувати процес групування елементів відповідно до наперед заданих ознак. Експертами задаються перелік класів, множину ознак для кожного класу, за якими відбувається класифікація нових елементів. Класифікація текстів визначається як розподіл текстових повідомлень на визначені категорії або групи [15]. Методи класифікації текстових повідомлень інтегрують дві галузі: машинне навчання та інформаційний пошук. Таким чином автоматична класифікація текстів може виконуватися як на основі визначених заздалегідь інформативних ознак та множини тектових повідомлень, так і у
  • 28. 28 формі автоматизованого процесу [16]. За умови використання методів машинного навчання ми використовуємо вирішуюче правило. Його будують на основі тренувальної вибірки текстів. Під час використання методів машинного навчання ця вибірка заздалегідь сформована експертом. Алгоритм машинного навчання вибудовує процедуру класифікації документів, грунтуючись на автоматичному аналізі заданої множини сгрупованих текстів. Вирішуюче правило, яке зараховує текст до певного класу створюють на основі аналізу властивостей класів. Процес класифікації текстів складається із двох етапів: конструювання моделі та використання моделі. Перший етап передбачає опис множини класів, на які поділяють тексти. Другий етап полягає у класифікації моделей, їх нових або невідомих значень, та оцінку точності моделі-класифікатора. У випадку, коли не вдається віднести новий елемент до наперед визначеного класу за допомогою класифікаційних ознак, задача зветься слабоформалізованою. Вона розв’язується шляхом побудови вирішуючого правила, яке дозволяє перетворити значення класифікаційних критеріїв у висновок про приналежність елемента до того чи іншого класу. Таке правило отримують у формі моделей-класифікаторів. В [17] подані характеристики різних типів класифікаторів (табл. 1.1). Таблиця 1.1 – Характеристики класифікаторів Критерій Тип Коментар Використання або невикористання навчальних даних Класифікація з учителем Вхідні дані поділяють, використовуючи набір зразків як навчальні дані Класифікація без учителя Відомі як кластеризація, не беруть до уваги результати експертного групування навчальних даних для класифікації вхідних даних
  • 29. 29 Продовження Таблиці 1.1 Урахування або неврахування будь- якого припущення про розподіл вихідних даних Напівавтоматичне навчання Навчання відбувається з використанням даних як з мітками, так і без них Параметричні класифікатори Грунтуються на припущенні, що функція щільності ймовірності для кожного класу відома Непараметричні класифікатори Не обмежуються жодними припущеннями про розподіл вхідних даних Розгляд одного класифікатора або ансамблю Один класифікатор Використовується єдиний класифікатор для групувіання об’єкта Ансамбль класифікаторів Під час групування об’єкта враховуються результати кількох (ансамблю) класифікаторів Використання або невикористання технології жорсткого поділу, де кожен об’єкт належить лише одному кластеру Жорсткий класифікатор Не враховують подальші зміни різних класів М’який (нечіткий) класифікатор Моделюються поступові граничні зміни, забезпечуючи оцінку ступеня подібності всіх класів Видача класифікатором розподілу ймовірності належності до всіх класів Імовірнісний класифікатор Класифікатор здатен для заданого зразка оцінити розподіл імовірності на множині класів Неймовірнісний класифікатор Підхід визначає лише найбільш придатний клас для вхідного образу Для аналізу текстів може бути застосованта технологія класифікації із учителем. 1.1.3. Атрибуція Завдання визначення автора тексту та його опису відоме під назвою «Атрибуція тексту» (АТ). Як відомо [8], АТ – це дослідження тексту з метою встановлення авторства або отримання відомостей про автора та про умови створення текстового документа. Об’єктом дослідження є тексти документів.
  • 30. 30 Досліджуються різноманітні записи, наприклад щоденник, листи, офіційні документи, літературні твори, тексти публічних виступів окремо або в їх сукупності. Предметом досліджень АТ є відомості про автора і умови створення тексту. На відміну від дослідження почерку в цьому випадку аналізуються лінгвістичні особливості тексту. Сама проблема ідентифікації авторства виникла дуже давно, але спроби використати обчислювальну техніку для її вирішення почали робити тільки з 70- х років XX ст. Давні (“домашинні”) методи, наприклад, початку XX ст., відрізнялися наявністю великої кількості суб’єктивних оцінок: весь обсяг роботи виконувався вручну. Як приклад такої роботи можна привести працю Н.В. Морозова “Лінгвістичні спектри...” [18]. Дуже цікаві ідеї визначити автора за спектрами вживання службових частин мови перевірялися на практиці вручну з олівцем в руках. В наш час нових обчислювальних технологій з’явилися нові методи, що зумовлюють високу оцінку тих критеріїв та ознак, які визначають належність тексту тому чи іншому автору. Прикладом вживання таких технологій можуть бути методика Л.І. Бородкіна та Л.В. Мілова, в основі якої лежить побудова графа сильних зв’язків за матрицею частот парної повторюваності граматичних класів слів [19], методика Захарова В.Н. та ін., яка основана на діалоговій комп’ютерній обробці літературних творів та використовує багато граматичних характеристик [20]. Ці методи потребують великої витрати часу та залучення в експеримент багатьох дослідників і вибірок великої кількості текстового матеріалу, крім того, методи, що розглядаються, характеризуються великим набором ознак, за допомогою яких можна досягти кінцевої мети – атрибуції тексту, але пошук та етапну обробку цих ознак потребує значно кращої автоматизації. АТ розв’язує дві групи задач [21]: 1. Ідентифікаційні – підтвердження або виключення авторства певної особи.
  • 31. 31 2. Визначення чи автором кількох текстів була одна і та ж особа; перевірка чи є особа, що написала текст, його справжнім автором. При розв’язанні цих задач автор тесту відомий та доступний. Найвідомішими ідентифікаційними задачами є виявлення плагіату або підтвердження авторських прав на літературний твір. 3. Діагностичні – визначення особистісних характеристик автора. зокрема його освітнього рівня, рідної мови, знання іноземних мов, галузі діяльності, професії, хобі, статі, віку, соціального положення, національності та інших соціальних характеристик; наявність навичок певного стулю мовлення; виявлення факту зумисного викривлення письмового мовлення. Відомою діагностичною задачею є визначення особистісних характеристик автора анонімного листа, які дозволять виявити перелік осіб, що підлягають перевірці. Визначається також психологічний стан особи в момент написання цього листа, виявляється факт написання листа в незвичайних умовах, під диктовку іншої людини. Традиційно АТ передбачає послідовний розв’язок експертами задач класифікації та ідентифікації і містить кілька стадій [8]: 1. Підготовча. 2. Аналітична. 3. Порівняльних досліджень. 4. Формування висновку. На підготовчій стадії відбувається формулювання задачі та формування даних, що дозволяють її розв’язати. Оцінюється інформативність цих даних відповідно до поставленої задачі. Експерти знайомляться із постановою про призначення експертизи та матеріалами, що надійшли. На аналітичній стадії виявляються перелік ознак та їх характеристики, за допомогою яких буде надалі проведена ідентифікація автора текстового повідомлення. Вивчається окремо текст, що досліджується, та зразки письмових повідомлень підозрюваної особи. Результатом стадії є розв’язання задачі
  • 32. 32 класифікації – визначення до якої із відомих груп осіб відноситься автор тексту, що досліджується. На стадії порівняльних досліджень розв’язується перший етап задачі ідентифікації автора. Виявляються співпадання та відмінності характеристик тексту та ідентифікаційних ознак осіб, що належить цієї групи, належить текстове повідомлення. На стадії формування висновку відбувається оцінка виявлених співпадань та відмінностей, відбувається остаточне розв’язання задачі ідентифікації автора. Це заключна стадія АЕ. Формулюється експертний висновок. Вимогою до нього є однозначність формулювань. На мою думку при автоматизації АЕ залучення експертів на стадіях 1 і 4 (Підготовчій та Формування висновку) є обов’язковим. Тому інформаційна технологія повинна бути автоматизованою, а не автоматичною. 1.1.4. Профілювання Останнім часом актуальність задачі визначення властивостей автора за його текстовими повідомленнями зростає. Це пов’язано не тільки із необхідністю автоматизації процесу атрибуції тексту [22] – встановлення авторства анонімних повідомлень, чи до цього часу невідомих авторів літературних творів. Цікавими у науковому плані є дослідження тексту з метою автоматизації процесу виявлення додаткової інформації про стан здоров’я автора, виявлення його прихильності до вибору певних рішень. Розв’язання цієї задачі є важливою складовою процесу консолідації інформації [23], отриманої із різнорідних джерел, з метою виявлення механізмів впливовості зовнішніх факторів на досліджувані процеси в криміналістиці, історичній інформатиці, соціології та інших галузях людської діяльності, де вимагається багаторівневе перетворення даних у інформацію. Інформаційні технології аналізу текстових повідомлень можуть бути успішно використані також в процесі адаптивного позиціонування сайтів в глобальному інформаційному середовищі [24].
  • 33. 33 На сьогодні вважається доведеним, що стан автора відображається в його тексті [25]. За результатами досліджень формальних і неформальних характеристик текстового повідомлення визначаються окремі риси автора, що утворюють особистісний психологічний портрет [26]. В лінгвістиці сформульовано термін author profiling – профілювання автора, тобто виявлення ознак автора за написаним ним текстом [11]. Для розв’язання завдання профілювання тексту небхідно мати масив даних із відомостями про стать, вік, освіту та рідну мову автора а також параметрами тексту, що непідконтрольні автору, та засоби виявлення кореляцій між параметрами автора та параметрами тексту [27]. Автори стверджують, що на сьогодні не існує валідних методик визначення характеристик автора тексту, немає узагальнюючих теоретичних досліджень, не проведені статистичні дослідження для виявлення значимості тиї чи інших мовних елементів для діагностування характеристик автора текту [28]. Серед інформаційних систем, що реалізують методики профілювання авторів російськомовних текстів, відома програма ВААЛ (www.vaal.ru). Вона визначає мотивованість автора на основі аналізу лексики тексту. Програма «Анализ писем» (http://www.analizpisem.ru) визначає настрої автора на момент написання текстового повідомлення на основі положень теорії фоносемантики. Аналізується відношення частоти використання певних букв до середньої частоти їх використання особою. Вважається [29], що це характеризує настрій людини. 1.1.5. Контент-анатіз текстів Серед множини визначень контент-аналізу для цього дослідження доцільно застосувати таке [30]: «Контент-аналіз – це методика виявлення ймовірності появи в тексті певних характеристик, що цікавлять дослідника. Вона дозволяє досліднику прийти до певних висновків щодо намірів автора тексту чи можливих реакцій адресата».
  • 34. 34 Контент-аналіз використовує частотні характеристики текстів та їх статистичні оцінки, отриманих за результатами декомпозиції цих текстів. Найменшим неподільним елементом, що містить контент – є слово. Починаючи від визначення частот використання слів та словосполучень на нижньому рівні декомпозиції, далі піднімаються до аналізу частоти використання із заданими ознаками речень, абзаців, текстів в цілому – статей, книг [31]. Глибина декомпозиції текстів залежить від поставленого завдання. Висновки про тенденції розвитку науки робляться на підставі аналізу частоти використання книг певної тематики, редакційну політику видання оцінюють за аналізом частот статей та їх тематики. Популярність публічної особи оцінюється за кількістю текстів та речень, в яких згадується ім’я цієї особи. Тематику тексті та його емоційну забарвленість оцінюють за [31]. Незаперечною перевагою контент-аналізу є відтворюваність його результатів [32]. Але при цьому існують проблеми неоднозначності критеріїв та трудомісткості процедур [31]. Властивості змісту тесту вимірюються шляхом перерахунку кількості вживаних ознак, що відображають його суттєві якості [32]. Первинний опис формується шляхом створення переліку первинних понять (окремих слів), що є інформативними та відображають змістовні властивості тексту. Перелік понять формується евристично, експертним методом. Після цього поняття поєднуються за певною ознакою в категорії. Належність до певних категорій визначається не тільки шляхом порівняння із наперед заданим переліком слів (житло – будинок, барлога, помешкання та інші) але і за граматичними ознаками (дієслово, іменник та інші) [31]. 1.2. Процес перетворення текстових повідомлень 1.2.1. Декомпозиція тексту З метою виявлення ознак текстових повідомлень, що можуть бути використані в процесі інтелектуального аналізу тексту, проводиться