SlideShare a Scribd company logo
1 of 158
Download to read offline
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Кваліфікаційна наукова
праця на правах рукопису
Голуб Марія Сергіївна
УДК 004.896
ДИСЕРТАЦІЯ
ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК ДЛЯ КЛАСИФІКАЦІЇ
УКРАЇНОМОВНИХ ТЕКСТІВ В ІНФОРМАЦІЙНІЙ ТЕХНОЛОГІЇ
ІНТЕЛЕКТУАЛЬНОГО МОНІТОРИНГУ
05.13.06 - інформаційні технології
Подається на здобуття наукового ступеня кандидата технічних наук
Дисертація містить результати власних
досліджень. Використання ідей, результатів і
текстів інших авторів мають посилання на
відповідне джерело
М.С. Голуб
Науковий керівник:
Півень Олег Борисович,
кандидат фізико-математичних наук, доцент
Черкаси - 2018
2
АНОТАЦІЯ
Голуб М.С. Формування масиву чисельних ознак для класифікації
україномовних текстів в інформаційній технології інтелектуального
моніторингу. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня кандидата технічних наук за
спеціальністю 05.13.06 «Інформаційні технології». – Черкаський державний
технологічний університет, Черкаси, 2018.
Дисертація присвячена розв’язанню наукової задачі підвищення
адекватності класифікації україномовних текстів шляхом розробки методів і
засобів ефективного формування масиву їх чисельних ознак для побудови
моделей-класифікаторів в інформаційних технологіях багаторівневого
інтелектуального моніторингу.
У першому розділі подані результати інформаційного пошуку існуючих
підходів, методів та інформаційних технологій класифікації друкованих текстів,
придатних для використання в технологіях багаторівневого інтелектуального
моніторингу.
Визначено, що найбільш перспективним напрямом досліджень, який
дозволить розв’язати поставлену наукову задачу, є машинне навчання
поліноміальних моделей на основі масивів вхідних даних (МВД), сформованих
на основі чисельних характеристик текстових повідомлень. Визначений перелік
задач, які необхідно розв’язати для досягнення мети дисертаційного
дослідження.
Другий розділ присвячений формалізації процесу формування масиву
вхідних даних шляхом перетворення друкованого тексту до масиву його
чисельних ознак. Обґрунтований критерій інформативності ознак у формі
ймовірності використання ознаки на ділянках тексту – вікнах, формалізовані
вимоги до кожного із етапів перетворення інформації, висунуті гіпотези про
підвищення інформативності масиву вхідних даних шляхом формування
індивідуального переліку інформативних ознак та використання дисперсії
3
ймовірності використання ознак змінної кількості вікон при побудові точок
спостереження.
У третьому розділі подані результати експериментальної перевірки
висунутих гіпотез, методика проведення експериментальних досліджень, аналіз
їх результатів та описана інформаційна технологія перетворення друкованих
текстів.
Експериментально досліджено залежність кількості правильно
класифікованих частин текстів – вікон від значення мінімальної
інформативності ознак, розміру вікна та кроку зміни кількості вікон при
побудові точок спостереження. Це дозволило експериментально підтвердити
висунуті гіпотези, удосконалити метод формування словника ознак, створити
новий метод побудови точок спостереження масиву вхідних даних. Забезпечена
координація взаємодій нового та удосконалених методів перетворення текстів із
синтезатором моделей, базою модельних знань та іншими елеметами
інформаційної технології багаторівневого інтелектуального моніторингу
(ІТБІМ). В результаті поєднання нових та існуючих елементів досягнуто
системнго ефекту емерджентності у формі нової для ІТБІМ здатності
класифікувати україномовні текстові повідомлення та збільшення кількості
правильно класифікованих текстів у порівнянні з аналогами. Їх частка сягнула
98-100%. Одночасно зменшився до 500 знаків розмір текстового повідомлення,
яке може бути класифікованим правильно.
Червертий розділ містить опис процесу реалізації ІТБІМ із функціями
класифікації текстів у формі моніторингової інтелектуальної системи (МІС) та
результати випробування удосконаленої МІС. На етапі аналізу вимог до
існуючої методики реалізації МІС подані зміни у формі UML діаграм діяльності
та діаграми класів. Випробування МІС проведено в процесі розв’язання задачі
виявлення місця проживання авторів друкованих текстових повідомлень та при
розв’язанні задачі атрибуції. Інформаційна технологія багаторівневого
інтелектуального моніторингу набула здатності розв’язувати завдання
інтелектуального аналізу україномовних текстів, зокрема їх класифікації.
4
Наукова новизна отриманих результатів відображена такими
положеннями:
удосконалено метод формування словника ознак. Це передбачає
визначення критерію інформативності ознаки та їх добору за цим критерієм.
Процес відбувається шляхом формування адаптивного переліку
класифікаційних ознак для кожного завдання за результатами випробування
моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак
для кожного класу індивідуально і підвищити селективність моделі-
класифікатора;
уперше розроблений метод побудови точок спостереження в
багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції
тексту на вікна та визначення ймовірності використання ознаки у вікні.
Відрізняється від вже існуючих методів використанням дисперсії ймовірностей
ознак при змінній кількості спостережень. Це забезпечує зниження варіації
значень ознак та збільшує кількість правильно класифікованих текстів;
удосконалено метод перетворення текстового повідомлення до масиву його
чисельних ознак, що передбачає декомпозицію тексту на вікна однакового
розміру, формування словника ознак, побудову точок спостереження. На відміну
від існуючих застосовується оптимізація розміру вікна за критерієм
максимальної кількості правильно класифікованих текстів, адаптивне
формування словника ознак та дисперсійна побудова точок спостереження.
Таким чином підвищується адаптивність процесу формування масиву чисельних
ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення
особливих умов формування масиву чисельних ознак в процесі побудови моделі-
класифікатора;
набула подальшого розвитку методологія створення інформаційних
систем багаторівневого інтелектуального моніторингу за рахунок використання
методу перетворення текстового повідомлення в процесі синтезу моделей-
класифікаторів. Це дозволяє розширити можливості використання
моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
5
технологічність процесів за рахунок використання типових інструментів на
різних етапах класифікації, оперативно розробляти нові методи класифікації при
зміні завдання обробки текстів.
Практичне значення отриманих результатів в тому, що результати
дисертаційного дослідження відкривають можливості для використання систем
багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу
інформаційних потоків, поданих у вигляді друкованих текстів. Наведені
обчислювальні схеми та технологія забезпечують швидкодію та невибагливість
до апаратних ресурсів при реалізації в програмному середовищі, дозволяють
ефективно отримати класифікацію україномовних текстів засобами вже
існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури
вже існуючих програмних комплексів.
Досягнення цих результатів відкриває можливості для широкого
використання систем багаторівневого інтелектуального моніторингу під час
виявлення та аналізу інформаційних потоків у вигляді друкованих текстів.
Розроблені на їх основі інформаційні засоби пройшли тестування та практичну
апробацію у реальних програмних продуктах багаторівневого моніторингу.
Застосування розробленої інформаційної технології класифікації текстів
дозволяє автоматизувати процеси інтелектуального аналізу інформаційних
потоків. Таким чином забезпечили процес інформаційного моніторингу. В
деяких випадках провести моніторинг текстових повідомлень в соціальних та
інших спільнотах іншими методами неможливо.
Практична цінність роботи підтверджена актами впровадження основних
результатів дисертаційнго дослідження: у виробництво ТОВ НВП «Катіон» (акт
про результати впровадження від 03.11.2017), у діяльність Славутицької міської
адміністрації (акт про впровадження від 18.01.2018 р.), у діяльність ГС
«Міжрегіональний Союз птахівників і кормовиробників України» (акт
впровадження від 19.04.2017 р.).
6
Ключові слова: інформаційна технологія, інтелектуальний моніторинг,
класифікація текстів, словник ознак, точка спостереження, масив вхідних даних,
МГУА.
SUMMARY
Holub M. Formation processes of a numerical indications for ukrainian-language
text’s classification in the intellectual monitoring technology. – Qualifying scientific
work as a manuscript.
Thesis for the candidate degree of technical sciences in a specialty 05.13.06 -
Information technologies. – Cherkasy State Technological University, Cherkasy, 2018.
Dissertation is devoted to solve the scientific problem of increasing the adequacy
of the ukrainian-language texts classification. It’s process combine developing
methods and means of effective formation an array of their numerical indications for
constructing model-classifiers in multi-level intellectual monitoring technologies.
The dissertation is devoted to solving the scientific problem of increasing the
adequacy of the classification of Ukrainian-language texts by developing methods and
means for effective formation of an array of their numerical features for constructing
model-classifiers in information technologies of multi-level intellectual monitoring.
The first part presents the results of the existing approaches information retrieval,
methods and information technologies for the classification of printed texts suitable for
using in multilevel intelligent monitoring technologies.
It is determined that the most promising area of research that allows solving a
given scientific problem is the machine learning of polynomial models based on the
input data arrays (MVD) formed on the basis of numerical characteristics of text
messages. The list of tasks that need to be solved to achieve the goal of the dissertation
research is determined.
The second part is devoted to the formalization the process of forming the input
data array by converting the printed text into an array of its numerical features. The
criterion of informative features in the form of the probability of using the sign in the
text sections is windows, the formal requirements for each stage of the information
7
transformation, the hypotheses about increasing the informativeness of the input data
array by forming an individual list of informative features and the use of the variance
of the probability of using the signs of the variable number of windows in the
construction of points is substantiated. observation.
The third part presents the results of experimental verification of the hypotheses
put forward, the methodology of conducting experimental research, analysis of their
results and describes the information technology of the transformation of printed texts.
The dependence of the number of correctly classified parts of texts - windows
on the value of the minimum informativeness of the signs, the size of the window and
the step of changing the number of windows in the construction of the observation
points has been experimentally investigated experimentally. This allowed
experimentally to confirm the hypotheses advanced, to improve the method of forming
the vocabulary of signs, to create a new method of constructing points of observation
of the input array. Coordination of the interactions of new and improved methods of
converting texts with model synthesizers, base of model knowledge and other elements
of information technology of multilevel intelligent monitoring (ITBIM) is provided.
As a result of the combination of new and existing elements, a systematic effect of the
emergence in the form of a new for ITBIM ability to classify Ukrainian-language text
messages and increase the number of correctly classified texts compared with
analogues has been achieved. Their share reached 98-100%. At the same time, the size
of a text message, which can be categorized correctly, has been reduced to 500
characters.
In the fourth part describes the implementation of the ITBIM with functions of
the classification of texts in the form of a monitoring intellectual system (MIS) and the
results of the test of the improved MIS. At the stage of the analysis of requirements to
the existing method of implementation of the MIS changes in the form of UML activity
diagrams and class diagrams are presented. The MIS test was conducted in the process
of solving the problem of finding the place of residence of the authors of printed text
messages and in solving the attribution task. The information technology of multi-level
8
intellectual monitoring has acquired the ability to solve problems of intellectual
analysis of Ukrainian-language texts, in particular their classification.
Scientific novelty of the obtained results: the method of forming a features
dictionary is improved. This involves determining the criterion of informative nature
of the sign and its selection on this criterion. The process is carried out by forming an
adaptive list of classification characteristics for each task based on the results of testing
the model-classifier. This allows you to increase the number of informational attributes
for each class individually and increase the selectivity of the model-classifier;
At first, a method for constructing observation points in a multidimensional
space of numerical signs of a text has been developed. It consists in decomposing the
text on the windows and determining the likelihood of using the sign in the window. It
differs from existing methods using the dispersion of probabilities of signs with a
variable number of observations. This reduces the variation of the values of the signs
and increases the number of correctly classified texts; the method of converting a text
message into an array of its numerical features is improved, which involves
decomposing the text into windows of the same size, forming a dictionary of features,
constructing points of observation. Unlike existing ones, the optimization of the
window size is based on the criterion of the maximum number of correctly classified
texts, the adaptive formation of the vocabulary of signs and the dispersion construction
of points of observation. Thus, the adaptability of the process of forming an array of
numerical text attributes to the properties of classes increases. This is due to ensuring
special conditions for the formation of an array of numerical features in the process of
constructing a model-classifier;
The creating multi-level intelligent monitoring information systems
methodology through the use the method of converting text messages into the synthesis
of model-classifiers has developed further. This allows us to expand the possibilities
of using monitoring systems in the field of intellectual analysis of texts, to ensure the
processability of processes through the use of standard tools at different stages of
classification, to rapidly develop new methods of classification when changing the task
of text processing.
9
Practical value of the results. The results of the dissertation research provide
opportunities for the use of multilevel intelligent monitoring systems in the process of
detecting and analyzing information streams presented in the form of printed texts. The
given computational schemes and technology provide fast and unpretentious to
hardware resources when implemented in the software environment, allow to
effectively obtain the classification of Ukrainian-language texts by means of existing
monitoring intellectual systems and integrate them into the structure of existing
software systems.
The achievement of these results opens opportunities for widespread use of
multilevel intelligent monitoring systems when detecting and analyzing information
streams in the form of printed texts. The information tools developed on their basis
were tested and tested in real-world software products of multi-level monitoring.
Application of the developed information technology of classification of texts allows
to automate the processes of intellectual analysis of information flows. Thus, the
process of information monitoring was provided. In some cases it is not possible to
monitor text messages in social and other communities in other ways.
The practical value of the work is confirmed by the acts of implementation of
the main results of the dissertation research: in the production of LLC CJSC "Cation"
(an act on the results of implementation from 11.3.2017), in the activities of the
Slavutych city administration (the act on implementation from January 18, 2018)
Interregional Union of Poultry and Forage Producers of Ukraine "(Act of
Implementation dated 19.04.2017).
The results obtained during the study were confirmed experimentally in
determining the place of residence of the authors of printed text messages, between the
solving tasks of attribution and text profiling. The information technology of multi-
level intellectual monitoring has acquired an ability to solve the problems of
intellectual analysis of Ukrainian-language texts, in particular their classification.
Key-words: information technology, intellectual monitoring, classification of
texts, dictionary of features, observation point, array of input data, GMDH
10
Список основних публікацій здобувача
[1] Голуб М.С. Формування масиву вхідних даних при класифікації текстів в
технології інформаційного моніторингу. Математичні машини і системи.
2018. № 1. С. 59-66.
[2] Голуб М.С. Дисперсійний метод формування точок спостереження в
інформаційній технології класифікації текстів. Вісник інженерної академії
України. 2017. № 3. С.38-42.
[3] Голуб С.В., Мартинова Г.І., Голуб М.С. Моделювання діалектного тексту в
технології багаторівневого інформаційного моніторингу. Математичні
машини і системи. 2016. № 4. С. 76-83.
[4] Holub Maria, Piven Oleg. Classification of texts in the technology multilevel
information monitoring. Inzynier XXI wieku. Monografia: Wydawnictwo
naukowe Akademii Techniczno-Humanistycznej w Bielsku-Bialej. 2016. 119-
122 s.
[5] Голуб С.В., Константиновська О.В., Голуб М.С. Відображення властивостей
автора тексту в структурі багатопараметричної моделі. Системи обробки
інформації: Збірник наукових праць. Х.: Харківський університет
повітряних сил імені Івана Кожедуба, 2014. Вип. 9 (125). С. 82-87.
[6] Голуб С.В., Константиновська О.В., Голуб М.С. Формування показників
масиву вхідних даних для ідентифікації авторства текстових повідомлень
Системи обробки інформації: збірник наукових праць. Х.: Харківський
університет Повітряних сил імені Івана Кожедуба, 2014. Вип. 2 (118). С. 89-
92.
[7] Голуб М.С. Інтелектуальний моніторинг друкованих текстів. Математичне
та імітаційне моделювання систем. МОДС 2018: тези доповідей
Тринадцятої міжнародної науково-практичної конференції (Чернігів, 25 -
29 червня 2018 р.). Чернігів : ЧНТУ, 2018. – С. 292–298
11
[8] Голуб М.С. Побудова точок спостереження при класифікації текстів
машинним навчання поліноміальних моделей. Інформація, комунікація,
суспільство 2018. Інформація, комунікація, суспільство 2018: Матеріали 7-
ї Міжнародної наукової конференції ICS-2018. Львів: Видавництво
Львівської політехніки, 2018. С. 277-278.
[9] Голуб М.С. Формування масиву вхідних даних для класифікації друкованих
текстів в технології багаторівневого інтелектуального моніторингу.
«Інформаційні технології та комп’ютерне моделювання»: матеріали
статей Міжнародної науково-практичної конференції, м. Івано-
Франківськ, 14-10 травня 2018 року. Івано-Франківськ. 2018. С. 339-342.
[10] Голуб М.С. Застосування частотного критерію інформативності ознак в
задачах інтелектуального аналізу тексту багаторівневого інформаційного
моніторингу. «Інформаційні технології та комп’ютерне моделювання»:
матеріали статей Міжнародної науково-практичної конференції, м. Івано-
Франківськ, 15-20 травня 2017 року. Івано-Франківськ. 2017. С. 16-19.
[11] Голуб М.С. Інтелектуальний пошук відомостей технічними системами
інформаційного моніторингу. «Інформаційні технології та комп’ютерне
моделювання»: матеріали статей шостої міжнародної науково-
практичної конференції, Івано-Франківськ, 23-28 травня 2016 року. Івано-
Франківськ. 2016. С. 83-84.
[12] Голуб М.С. Інтелектуальний аналіз текстів. Інформація, комунікація,
суспільство 2015: матеріали 5-ї Міжнар. наук. конференції ICS-2016.
Львів: Видавництво Львівської політехніки, 2016. С. 230-231.
[13] Голуб С.В., Голуб М.С. Профілювання текстів у технології інформаційного
моніторингу. Матеріали 4-ї міжнародної наукової конференції ICS-2015
«Інформація, комунікація, суспільство 2015». Львів: Видавництво
Львівської політехніки, 2015. С.176-177.
[14] Голуб М.С. Вибір ознак в процесі інтелектуальної обробки текстових
повідомлень. Інформація, комунікація, суспільство 2014: матеріали 3-ї
12
Міжнар. наук. конференції ICS-2014. Львів: Видавництво Львівської
політехніки, 2014. – С. 148-149.
[15] Golub Maria. The Input Data Array (IDA) Format is Unified to Ensure the
Consolidation of Heterogeneous Models, Synthesized by the Model Synthesis
Algorithm. Modern problems of radio engineering, Telecommunications, and
computer Science. Proceedings of the International Conference TCSET’2014.
Dedicated to the 170th anniversary of Lviv Polytechnic National University. Lviv
Publishing House of Lviv Polytechnic. 2014. p. 657
[16] Голуб М.С. Відображення властивостей текстових повідомлень в структурі
індуктивних моделей. Проблеми інформатизації: Матеріали першої
міжнародної науково-технічної конференції. Черкаси: ЧДТУ; Київ: ДУТ;
Тольятті: ТДУ; Полтава: ПНТУ, 2013. С. 59.
13
ЗМІСТ
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ...................................................................... 16
ВСТУП........................................................................................................................ 18
РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В
ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ
ПОВІДОМЛЕНЬ........................................................................................................ 25
1.1. Задачі аналізу текстових повідомлень ..........................................................25
1.1.1. Інтелектуальний аналіз текстів ................................................................25
1.1.2. Класифікація ..............................................................................................27
1.1.3. Атрибуція ...................................................................................................29
1.1.4. Профілювання............................................................................................32
1.1.5. Контент-анатіз текстів...............................................................................33
1.2. Процес перетворення текстових повідомлень..............................................34
1.2.1. Декомпозиція тексту .................................................................................34
1.2.2. Формування переліку інформативних ознак..........................................35
1.2.3. Критерії інформативності ознак ..............................................................37
1.3. Методи синтезу моделей-класифікаторів.....................................................41
1.4. Автоматизація аналізу друкованих текстів ..................................................46
1.4.1. Особливості автоматизації текстів ..........................................................46
1.4.2. Багаторівневий аналіз та методи декомпозиції текстового
повідомлення........................................................................................................46
1.4.3. Багаторівневий інтелектуальний моніторинг.........................................48
1.5. Обгрунтування задач досліджень ..................................................................53
1.6. Висновки до розділу........................................................................................54
РОЗДІЛ 2. РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПОБУДОВИ
ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ПЕРЕТВОРЕННЯ ТЕКСТІВ......................... 56
2.1. Стратегія досліджень. Опис предметної області .........................................56
14
2.2. Математична постановка завдання...............................................................62
2.3. Гіпотези ............................................................................................................64
2.3.1. Про критерій інформативності ознак ......................................................64
2.3.2. Про адаптивність процесу формування словника ознак.......................65
2.3.3. Про межу інформативної достатності.....................................................67
2.3.4. Про використання дисперсії при побудові точок спостереження МВД
...............................................................................................................................68
2.3.5. Про метод синтезу моделей-класифікаторів ..........................................69
2.3.6. Про інтелектуальний моніторинг.............................................................71
2.4. Технологія багаторівневого моделювання текстових повідомлень........72
2.5. Висновки до розділу........................................................................................73
РОЗДІЛ 3. ЕКСПЕРИМЕНТАЛЬНІ ДОСЛІДЖЕННЯ МЕТОДІВ
ПЕРЕТВОРЕННЯ ДРУКОВАНИХ ТЕКСТІВ ....................................................... 75
3.1. Зміст досліджень..............................................................................................75
3.2. Оцінка інформативності ознак.......................................................................75
3.3. Адаптивне формування словника ознак .......................................................77
3.4. Оптимізація розміру вікна та межі інформативної достатності.................85
3.5. Дисперсний метод побудови точок спостереження ....................................90
3.5.1. Формування точок спостереження за дисперсним методом із
постійною основою .............................................................................................91
3.5.2. Формування точок спостереження із змінною кількістю точок, за
якими розраховується дисперсія........................................................................93
3.6. Синтез моделей-класифікаторів.....................................................................96
3.7. Метод перетворення друкованих текстів....................................................103
3.8. Інформаційна технологія класифікації текстів машинним навчанням
поліноміальних моделей......................................................................................107
3.9. Висновки до розділу......................................................................................107
15
РОЗДІЛ 4. РЕАЛІЗАЦІЯ ТА ЗАСТОСУВАННЯ РЕЗУЛЬТАТІВ ДОСЛІДЖЕНЬ
В МОНІТОРИНГОВИХ ІНТЕЛЕКТУАЛЬНИХ СИСТЕМАХ.......................... 110
4.1. Про використання отриманих результатів..................................................110
4.2. Особливості реалізації інформаційної технології класифікації текстів у
формі моніторингової інтелектуальної системи ...............................................110
4.3. Реалізація етапу «Аналіз вимог» технології проектування МІС..............111
4.3.1. Вимоги взаємодії із зовнішнім середовищем .......................................111
4.3.2. Функціональні вимоги ............................................................................112
4.3.3. Вимоги до процесу оптимізації значення межі інформативної
достатності..........................................................................................................116
4.3.4. Вимоги до процесів оптимізації розміру вікон ....................................117
4.3.5. Вимоги до конструювання моделі в процесі класифікації тексту......118
4.3.6. Вимоги до системи вцілому ...................................................................119
4.4. Реалізація інформаційної технології перетворення друкованих текстів в
моніторинговій інформаційній системі..............................................................121
4.5. Випробування моніторингової інтелектуальної сиситеми з функціями
класифікації текстів..............................................................................................124
4.5.1. Класифікація текстів за місцем проживання автора............................124
4.5.2. Атрибуція текстів моніторинговою інтелектуальною системою.......128
4.6. Порівняння характеристик МІС із відомими аналогами...........................130
4.7. Висновки до розділу......................................................................................130
ВИСНОВКИ............................................................................................................. 132
СПИСОК ЛІТЕРАТУРИ......................................................................................... 135
ДОДАТКИ................................................................................................................ 151
Додаток A. Список публікацій здобувача за темою дисертації та відомості про
апробацію результатів дисертації.......................................................................151
Додаток Б. Відомості щодо впровадження результатів роботи ....................... 155
16
ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ
Скорочення Пояснення
ІТ Інформаційна технологія
СППР Система підтримки прийняття рішень
АТ Атрибуція тексту
ІАД Інтелекутальний аналіз даних
МГУА Метод групового врахування аргументів
ПО Первинний опис
МВД Масив вхідних даних
МІС Моніторингова інтелектуальна система
МІД Межа інформативної достатності
ГФЗ Голобальна функціональна залежність
БМЗ База модельних знань
ОПР Особа, що приймає рішення
ЛЗПІ Локальне завдання перетворення інформації
АСМ Алгоритм синтезу моделей
БЕО Багатокритеріалоьне експертне оцінювання
ВС Вихідний сигнал
ГЗ Горизонтальний зв’зок
ООП Об’єктно-орієнтоване проектування
СПІ Система перетворення інформації
БД База даних
АСБПД
Автоматизована система багаторівневого
перетворення даних
ІС Інформаційна система
ІАТ Інтелектуальний аналіз текстів
КТ Класифікація текстів
ПД Перетворення даних
17
Скорочення Пояснення
ВІЗ Вертикальні ієрархічні зв’язки
ГІЗ Горизонтальні ієрархічні зв’язки
ГФС Глобальна функція системи
КВ Керуючий вплив
18
ВСТУП
Актуальність теми. В сучасних реаліях інформаційної війни в Україні
необхідно автоматизувати процеси класифікації україномовних текстів. Це
розширить можливості технології багаторівневого інтелектуального
моніторингу. Результати роботи можуть використовувати в технологіях захисту
інформаційного простору України, для атрибуції та профілювання текстів в
криміналістиці, класифікації E-mail повідомлень, організації змістового пошуку
інформації в бібліотеках, створення нових архівів текстів та для виконання інших
подібних завдань. Розроблені методи та засоби атрибуції текстів для
використання у консолідації результатів обробки текстових повідомлень,
психологічних тестів, економічних даних у технологіях інформаційного
моніторингу та інших завдань.
На сьогодні завдання класифікації текстів в моніторингових системах
найчастіше розв’язують контент-аналізом та методами машинного навчання. В
результаті застосування цих методів існують такі проблеми: можливість
суб’єктивного викривлення результатів класифікації автором під час контент-
аналізу, необхідність мати тексти великого розміру та недостатня адекватність
результатів класифікації. Уникають їх проблем шляхом підвищення
інформативності масивів чисельних ознак текстових повідомлень, що
застосовуються в процесі машинного навчання поліноміальних моделей,
нейронних мереж, побудови регресійних моделей і т.д.. Робіт, де подавались би
результати дослідження процесів формування масиву чисельних ознак для
класифікації україномовних текстів машинним навчанням, виявити не вдалося.
Підґрунтям наших досліджень є роботи Люгера Д. Ф., Маккарті Д.,
Бродера А., Ланде Д. В., Глибовця М. М., Хопкрофта Дж., Івахненка О. Г.,
Шаронової Н.В., Литвинова В. В., Поспєлова Д. А., Степаненка В. Є.,
Широкова В. А., Мартинової Г. І., Шемакіна Ю. І., Кронгауза М. А. та інших
вчених в галузі інформаційних технологій, комп'ютерної лінгвістики,
української філології та індуктивного моделювання.
19
Класифікація текстів передбачає побудову вирішуючого правила. Його
завдання – перетворення значень класифікаційних ознак до форми висновку про
те, до якого із наперед заданих класів належить текст. Під час обробки великих
масивів текстів необхідно застосувати відповідні технологій інформаційного
моніторингу. З цією метою використання інформаційної технології
багаторівневого інтелектуального моніторингу стримує відсутність у ній методів
та засобів визначення чисельних характеристик друкованих текстів для
формування масиву вхідних даних. Тому дисертаційні дослідження, пов’язані із
підвищенням інформативності масивів чисельних характеристики друкованих
текстових повідомлень, є актуальними. А отримані результати дозволяють
підвищити адекватність класифікації україномовних текстів інформаційною
технологією багаторівневого інтелектуального моніторингу.
Зв’язок роботи з науковими програмами, планами, темами. Основні
дослідження з теми дисертації проводили відповідно до планів наукових
досліджень кафедри інформаційної безпеки та комп’ютерної інженерії
Черкаського державного технологічного університету. Зокрема, в рамках
науково-дослідної роботи «Розробка методів та засобів оцінки ефективності
соціоінжинірингу» (№ ДР 0116U008715).
Дослідження проводили відповідно до пріоритетних тематичних напрямів
науково-технічних розробок на період до 2020 року «Технології та засоби
розробки програмних продуктів і систем», затверджених постановою Кабінету
Міністрів України №556 від 23.08.2016 р.
Мета і завдання дослідження. Мета дослідження полягає у підвищенні
адекватності класифікації україномовних текстів. Це передбачає розробку
методів і засобів ефективного формування масиву їх чисельних ознак для
побудови моделей-класифікаторів в інформаційних технологіях багаторівневого
інтелектуального моніторингу.
Для досягнення поставленої мети реалізовували такі завдання:
20
1. Аналіз і узагальнення існуючих підходів, методів та засобів формування
масиву чисельних ознак в інформаційних технологіях класифікації друкованих
текстів методами машинного навчання.
2. Дослідження процесів оптимізації розміру вікон, добору інформативних
ознак та формування їх словника.
3. Дослідження процесів побудови точок спостереження в
багатовимірному просторі ознак.
4. Дослідження взаємодії процесів перетворення друкованих
україномовних текстів до форми масиву чисельних ознак та методів синтезу
моделей-класифікаторів за технологією машинного навчання поліноміальних
моделей.
5. Впровадження результатів досліджень із класифікації текстів у практику
створення та застосування інформаційних систем багаторівневого
інтелектуального моніторингу.
Об’єктом дослідження є процеси інтелектуального аналізу текстів в
інформаційних технологіях багаторівневого моніторингу.
Предмет досліджень - процеси формування масиву чисельних ознак для
побудови моделей-класифікаторів україномовних текстів методами машинного
навчання в технологіях інтелектуального моніторингу.
Методи досліджень. Під час формулювання плану досліджень
використали системний підхід та системний аналіз; у розв’язанні задач синтезу
моделей-класифікаторів - методи індуктивного моделювання; формування
словника ознак друкованого тексту передбачало методи лінгвістичного аналізу,
параметричної оптимізації. Під час формалізації завдання досліджень
використані положення теорії множин та експертні методи; побудова точок
спостережень передбачала дисперсійний аналіз; у формуванні показника
інформативності використали теорію ймовірностей. У побудові функціональної
схеми методу класифікації тексту використали методологію створення
інформаційних систем багаторівневого інтелектуального моніторингу.
21
Наукова новизна отриманих результатів
Удосконалено метод формування словника ознак. Це передбачає
визначення критерію інформативності ознаки та їх добору за цим критерієм.
Процес відбувається шляхом формування адаптивного переліку
класифікаційних ознак для кожного завдання за результатами випробування
моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак
для кожного класу індивідуально і підвищити селективність моделі-
класифікатора.
Уперше розроблений метод побудови точок спостереження в
багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції
тексту на вікна та визначення ймовірності використання ознаки у вікні.
Відрізняється від вже існуючих методів використанням дисперсії ймовірностей
ознак при змінній кількості спостережень. Це забезпечує зниження варіації
значень ознак та збільшує кількість правильно класифікованих текстів.
Удосконалено метод перетворення текстового повідомлення до масиву
його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового
розміру, формування словника ознак, побудову точок спостереження. На відміну
від існуючих застосовується оптимізація розміру вікна за критерієм
максимальної кількості правильно класифікованих текстів, адаптивне
формування словника ознак та дисперсійна побудова точок спостереження.
Таким чином підвищується адаптивність процесу формування масиву чисельних
ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення
особливих умов формування масиву чисельних ознак в процесі побудови моделі-
класифікатора.
Набула подальшого розвитку методологія створення інформаційних
систем багаторівневого інтелектуального моніторингу за рахунок використання
методу перетворення текстового повідомлення в процесі синтезу моделей-
класифікаторів. Це дозволяє розширити можливості використання
моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
технологічність процесів за рахунок використання типових інструментів на
22
різних етапах класифікації, оперативно розробляти нові методи класифікації при
зміні завдання обробки текстів.
Практичне значення отриманих результатів. Результати
дисертаційного дослідження відкривають можливості для використання систем
багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу
інформаційних потоків, поданих у вигляді друкованих текстів. Наведені
обчислювальні схеми та технологія забезпечують швидкодію та невибагливість
до апаратних ресурсів при реалізації в програмному середовищі, дозволяють
ефективно отримати класифікацію україномовних текстів засобами вже
існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури
вже існуючих програмних комплексів.
Досягнення цих результатів відкриває можливості для широкого
використання систем багаторівневого інтелектуального моніторингу під час
виявлення та аналізу інформаційних потоків у вигляді друкованих текстів.
Розроблені на їх основі інформаційні засоби пройшли тестування та практичну
апробацію у реальних програмних продуктах багаторівневого моніторингу.
Застосування розробленої інформаційної технології класифікації текстів
дозволяє автоматизувати процеси інтелектуального аналізу інформаційних
потоків. Таким чином забезпечили процес інформаційного моніторингу. В
деяких випадках провести моніторинг текстових повідомлень в соціальних та
інших спільнотах іншими методами неможливо.
Особистий внесок здобувача. Усі наукові результати дисертаційної роботи
автор отримала самостійно. У працях, опублікованих у співавторстві, здобувачеві
належать: [1] – реалізація дослідження процесу класифікації текстів при
застосуванні фіксованого переліку показників масиву вхідних даних в задачах
атрибуції, запропоновано дисперсійний критерій оцінки інформативності ознак;
[2] – отримання залежності результатів класифікації текстів від виду опорної
функції синтезатора моделей; [3] – отримані результати використання вже
існуючої інформаційної системи багаторівневого моніторингу для розв’язання
задачі класифікації текстів за змістом шляхом використанням нових засобів
23
перетворення текстових повідомлень до типової форми масиву вхідних даних;
[4] – застосована інформаційна технологія інтелектуального моніторингу текстів
для розв’язання задачі виявлення місця проживання авторів шляхом
класифікації текстів за говірками. За принципами Г.І. Мартинової автором
сформовані класи діалектних текстів та синтезовані вирішуючі правила у формі
індуктивних моделей класифікаторів. Отримані результати класифікації текстів.
Апробація результатів дослідження. Основні результати та дисертаційна
робота в цілому апробовані на 10 міжнародних науково-практичних
конференціях: Тринадцятій міжнародній науково-практичній конференції
«Математичне та імітаційне моделювання систем. МОДС 2018», м. Чернігів,
2018 р.; 7 Міжнародній науковій конференція «Інформація, комунікація,
суспільство 2018», м. Львів, травень 2018 р.; Міжнародній науково-практичній
конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-
Франківськ, травень 2018 р.; Міжнародній науково-практичній конференції
«Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ,
травень 2017 р.; Міжнародній науково-практичній конференції «Інформаційні
технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2016 р.;
5 Міжнародній науковій конференція «Інформація, комунікація, суспільство
2016», м. Львів, травень 2016 р.; 4 Міжнародній науковій конференція
«Інформація, комунікація, суспільство 2015», м. Львів, травень 2015 р.; 3
Міжнародній науковій конференція «Інформація, комунікація, суспільство
2014», м. Львів, травень 2014 р.; Proceedings of the International Conference
«Modern problems of radio engineering, Telecommunications, and computer Science
TCSET’2014», Lviv, 2014; Першій міжнародній науково-технічній конференції
«Проблеми інформатизації», м. Черкаси, 2013 р..
Публікації. За темою дисертації з викладенням її основних результатів
опубліковано 16 наукових праць, серед яких 1 стаття в монографії, що видана за
кордоном України, 5 статей у наукових фахових виданнях України (з яких 2
статті – одноосібно), з них 2 – у виданнях, що індексуються міжнародними
24
бібліометричними та наукометричними базами даних, 10 публікацій в
матеріалах та тезах доповідей міжнародних наукових конференцій.
25
РОЗДІЛ 1.
ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ
ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ
1.1. Задачі аналізу текстових повідомлень
1.1.1. Інтелектуальний аналіз текстів
Інтелектуальний аналіз тексту – напрям інтелектуального аналізу даних з
метою отримання інформації з текстових документів, ґрунтуючись на
застосуванні методів машинного навчання та обробки природної мови.
Інтелектуальний аналіз тексту використовує всі ті ж підходи до переробки
інформації, що й Data Mining, однак Data Mining має справу з сховищами та
базами даних, а text mining – з електронними бібліотеками та збірками текстів
[5].
Інтелектуальний аналіз текстів (ІАТ) передбачає вирішення таких завдань,
як пошук інформації, категоризація текстів, обробка змін в збірках текстів,
розробка засобів подання інформації для користувача [6].
Потреба в автоматизації робіт, пов’язаних із аналізом текстів, бере початок
від авторовідчої експертизи в криміналістиці. За особливостями написання
тексту виявляється його автор. Якщо особа автора невідома виявляють стать, вік,
освіту, та інші ознаки автора.
Традиційно ці завдання виконувались експертними методами на підставі
уявлення, що текст повинен містити авторські стилістичні особливості. Такі
методи залежать від суб’єктивної думки експерта, від рівня його кваліфікації.
Крім того рукописні тексти аналізувались за характеристиками почерку. На
сьогодні актуальними є завдання аналізу друкованих текстів, зокрема із Internet-
джерел. Тому інструментами дослідження стають статистичні методи [7].
Завдання залишаються традиційними для криміналістики: Ідентифікація і
діагностика. Від іденитфікації очікують підтвердження або заперечення
авторства особи, відоме під назвою «Атрибуція» [8]. Запропонована значна
26
кількість методів визначення авторства друкованих тектсів, що використовують
підрахунок кількості використання окремих «особливих» слів, та інших
елементів речення. Популярності набуло використання методів штучного
інтелекту.
Завдання ідентифікації [9] формалізується як особливий випадок задачі
класифікації [10]
Діагностика надає можливості для виявлення особистісних ознак автора:
рідну мову та рівень володіння іноземними мовами, галузь професійної
діяльності, освіченість, стать, вік, національність, соціальне положення та інші,
які отримали назву «Профілювання автора» [11].
Інтелектуальний аналіз текстів (Text Mining) поєднують статистичні,
лінгвістичні та інтелектуальні методи інформаційного пошуку, виявлення
закономірностей та здобуття іншої інформації з текстів [12]. Інформацйний
пошук застосовують для навігації дослідників, фільтрації документів [13].
Системи Text Mining автоматично реферують текти та виявляють поняття і
факти. За рахунок автоматизації та інтелектуальзації процесів пошуку
інформації аналітику надається великий обсяг зпрофільованої інформації.
Використання технологій інтелектуального аналізу текстів розширює
можливості Аналітика за рахунок класифікації та кластеризації документів за їх
ознаками, відповідей на запитання, аналізу зв’язків між поняттями у документі.
Під час пошуку інформації інтелектуальний аналіз текстів застосовують
для структурування документальних даних, здобуття інформації з документів,
пошук текстів певних авторів у локальних реляційних базах даних, у
гіпертекстових базах даних, як от мережа Інтернет. Застосування
інтелектуального аналізу текстів у пошуку інформації дає змогу зменшити час у
виконанні пошуку та уникнути інформаційного перевантаження у процесі
прийняття рішень.
Категоризація документів – це зіставлення документів збірника з однією
або кількома класами схожих між собою текстів, як от за темою, стилем чи
іншою ознакою. Процесі розподілення текстів на категорії може відбуватися
27
участю людини або автоматично. У першому випадку, який передбачає
класифікацію документів, система інтелектуального аналізу текстів зараховує
текстові повідомлення до вже визначених класів. Попередньо для цього
відбувається навчання фахівцем моделі-класифікатора. Людина надає системі
перелік класів та зразки документів, які до них належать. У другому випадку
категоризації відбувається кластеризація документів системою інтелектуального
аналізу текстів. Система сама визначає множину класів, за якими треба
розподілити тексти. В технології машинного навчання це називається навчанням
без вчителя. У такому випадку фахівець повідомляє системі ІАТ кількість
кластерів, на які потрібно розбити збірку текстів. В алгоритм програми вже
закладена процедура вибору ознак [14].
На сьогодні значна кількість інформаційних систем використвують
технології Text Mining. Серед найвідоміших [12] Intelligent Miner for Text (IBM),
PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp), Oracle Text
(Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream
(ElVisti). Ці системи використовують математичні та лінгвістичні
алгоритми аналізу текстових даних, надають можливості доступу до
зовнішніх джерел даних, їх візуалізації та перетворення.
1.1.2. Класифікація
Задача класифікації розв’язується у випадку, коли необхідно
автоматизувати процес групування елементів відповідно до наперед заданих
ознак. Експертами задаються перелік класів, множину ознак для кожного класу,
за якими відбувається класифікація нових елементів.
Класифікація текстів визначається як розподіл текстових повідомлень на
визначені категорії або групи [15]. Методи класифікації текстових повідомлень
інтегрують дві галузі: машинне навчання та інформаційний пошук. Таким чином
автоматична класифікація текстів може виконуватися як на основі визначених
заздалегідь інформативних ознак та множини тектових повідомлень, так і
28
автоматизованим процесом [16]. За умови використання методів машинного
навчання ми використовуємо вирішуюче правило. Його будують на основі
тренувальної вибірки текстів. Під час використання методів машинного
навчання ця вибірка заздалегідь сформована експертом. Алгоритм машинного
навчання вибудовує процедуру класифікації документів, грунтуючись на
автоматичному аналізі заданої множини сгрупованих текстів. Вирішуюче
правило, яке зараховує текст до певного класу створюють на основі аналізу
властивостей класів.
Процес класифікації текстів складається із двох етапів: конструювання
моделі та використання моделі. Перший етап передбачає опис множини класів,
на які поділяють тексти. Другий етап полягає у класифікації моделей, їх нових
або невідомих значень, та оцінку точності моделі-класифікатора.
У випадку, коли не вдається віднести новий елемент до наперед
визначеного класу за допомогою класифікаційних ознак, задача зветься
слабоформалізованою. Вона розв’язується шляхом побудови вирішуючого
правила, яке дозволяє перетворити значення класифікаційних критеріїв у
висновок про приналежність елемента до того чи іншого класу. Таке правило
отримують у формі моделей-класифікаторів.
В [17] подані характеристики різних типів класифікаторів (табл. 1.1).
Таблиця 1.1 – Характеристики класифікаторів
Критерій Тип Коментар
Використання або
невикористання
навчальних даних
Класифікація з
учителем
Вхідні дані поділяють,
використовуючи набір зразків
як навчальні дані
Класифікація без
учителя
Відомі як кластеризація, не
беруть до уваги результати
експертного групування
навчальних даних для
класифікації вхідних даних
29
Продовження Таблиці 1.1
Урахування або
неврахування будь-
якого припущення
про розподіл
вихідних даних
Напівавтоматичне
навчання
Навчання відбувається з
використанням даних як з
мітками, так і без них
Параметричні
класифікатори
Грунтуються на припущенні,
що функція щільності
ймовірності для кожного класу
відома
Непараметричні
класифікатори
Не обмежуються жодними
припущеннями про розподіл
вхідних даних
Розгляд одного
класифікатора або
ансамблю
Один
класифікатор
Використовується єдиний
класифікатор для групувіання
об’єкта
Ансамбль
класифікаторів
Під час групування об’єкта
враховуються результати
кількох (ансамблю)
класифікаторів
Використання або
невикористання
технології жорсткого
поділу, де кожен
об’єкт належить
лише одному
кластеру
Жорсткий
класифікатор
Не враховують подальші зміни
різних класів
М’який
(нечіткий)
класифікатор
Моделюються поступові
граничні зміни, забезпечуючи
оцінку ступеня подібності всіх
класів
Видача
класифікатором
розподілу
ймовірності
належності до всіх
класів
Імовірнісний
класифікатор
Класифікатор здатен для
заданого зразка оцінити
розподіл імовірності на
множині класів
Неймовірнісний
класифікатор
Підхід визначає лише найбільш
придатний клас для вхідного
образу
Для аналізу текстів може бути застосованта технологія класифікації із
учителем.
1.1.3. Атрибуція
Завдання визначення автора тексту та його опису відоме під назвою
«Атрибуція тексту» (АТ). Як відомо [8], АТ – це дослідження тексту з метою
встановлення авторства або отримання відомостей про автора та про умови
створення текстового документа. Об’єктом дослідження є тексти документів.
30
Досліджуються різноманітні записи, наприклад щоденник, листи, офіційні
документи, літературні твори, тексти публічних виступів окремо або в їх
сукупності. Предметом досліджень АТ є відомості про автора і умови створення
тексту. На відміну від дослідження почерку в цьому випадку аналізуються
лінгвістичні особливості тексту.
Сама проблема ідентифікації авторства виникла дуже давно, але спроби
використати обчислювальну техніку для її вирішення почали робити тільки з 70-
х років XX ст.
Давні (“домашинні”) методи, наприклад, початку XX ст., відрізнялися
наявністю великої кількості суб’єктивних оцінок: весь обсяг роботи виконувався
вручну. Як приклад такої роботи можна привести працю Н.В. Морозова
“Лінгвістичні спектри...” [18]. Дуже цікаві ідеї визначити автора за спектрами
вживання службових частин мови перевірялися на практиці вручну з олівцем в
руках.
В наш час нових обчислювальних технологій з’явилися нові методи, що
зумовлюють високу оцінку тих критеріїв та ознак, які визначають належність
тексту тому чи іншому автору.
Прикладом вживання таких технологій можуть бути методика Л.І. Бородкіна
та Л.В. Мілова, в основі якої лежить побудова графа сильних зв’язків за
матрицею частот парної повторюваності граматичних класів слів [19], методика
Захарова В.Н. та ін., яка основана на діалоговій комп’ютерній обробці
літературних творів та використовує багато граматичних характеристик [20].
Ці методи вимагають великої витрати часу та залучення в експеримент
багатьох дослідників і вибірок великої кількості текстового матеріалу, крім того,
ці праці характеризуються великим набором ознак, за допомогою яких можна
досягти кінцевої мети – атрибуції тексту, але пошук та етапну обробку цих ознак
потребує значно кращої автоматизації.
АТ розв’язує дві групи задач [21]:
1. Ідентифікаційні – підтвердження або виключення авторства певної
особи; виявле
31
2. Визначення чи автором кількох текстів була одна і та ж особа;
перевірка чи є особа, що написала текст, його справжнім автором. При
розв’язанні цих задач автор тесту відомий та доступний. Найвідомішими
ідентифікаційними задачами є виявлення плагіату або підтвердження авторських
прав на літературний твір
3. Діагностичні – визначення особистісних характеристик автора. зокрема
його освітнього рівня, рідної мови, знання іноземних мов, галузі діяльності,
професії, хобі, статі, віку, соціального положення, національності та інших
соціальних характеристик; наявність навичок певного стулю мовлення;
виявлення факту зумисного викривлення письмового мовлення. Відомою
діагностичною задачею є визначення особистісних характеристик автора
анонімного листа, які дозволять виявити перелік осіб, що підлягають перевірці.
Визначається також психологічний стан особи в момент написання цього листа,
виявляється факт написання листа в незвичайних умовах, під диктовку іншої
людини.
Традиційно АТ передбачає послідовний розв’язок експертами задач
класифікації та ідентифікації і містить кілька стадій [8]:
1. Підготовча.
2. Аналітична.
3. Порівняльних досліджень.
4. Формування висновку.
На підготовчій стадії відбувається формулювання задачі та формування
даних, що дозволяють її розв’язати. Оцінюється інформативність цих даних
відповідно до поставленої задачі. Експерти знайомляться із постановою про
призначення експертизи та матеріалами, що надійшли.
На аналітичній стадії виявляються перелік ознак та їх характеристики, за
допомогою яких буде надалі проведена ідентифікація автора текстового
повідомлення. Вивчається окремо текст, що досліджується, та зразки письмових
повідомлень підозрюваної особи. Результатом стадії є розв’язання задачі
32
класифікації – визначення до якої із відомих груп осіб відноситься автор тексту,
що досліджується.
На стадії порівняльних досліджень розв’язується перший етап задачі
ідентифікації автора. Виявляються співпадання та відмінності характеристик
тексту та ідентифікаційних ознак осіб, що належить цієї групи, належить
текстове повідомлення.
На стадії формування висновку відбувається оцінка виявлених співпадань
та відмінностей, відбувається остаточне розв’язання задачі ідентифікації автора.
Це заключна стадія АЕ. Формулюється експертний висновок. Вимогою до нього
є однозначність формулювань.
На мою думку при автоматизації АЕ залучення експертів на стадіях 1 і 4
(Підготовчій та Формування висновку) є обов’язковим. Тому інформаційна
технологія повинна бути автоматизованою, а не автоматичною.
1.1.4. Профілювання
Останнім часом актуальність задачі визначення властивостей автора за
його текстовими повідомленнями зростає. Це пов’язано не тільки із необхідністю
автоматизації процесу атрибуції тексту [22] – встановлення авторства анонімних
повідомлень, чи до цього часу невідомих авторів літературних творів. Цікавими
у науковому плані є дослідження тексту з метою автоматизації процесу
виявлення додаткової інформації про стан здоров’я автора, виявлення його
прихильності до вибору певних рішень. Розв’язання цієї задачі є важливою
складовою процесу консолідації інформації [23], отриманої із різнорідних
джерел, з метою виявлення механізмів впливовості зовнішніх факторів на
досліджувані процеси в криміналістиці, історичній інформатиці, соціології та
інших галузях людської діяльності, де вимагається багаторівневе перетворення
даних у інформацію. Інформаційні технології аналізу текстових повідомлень
можуть бути успішно використані також в процесі адаптивного позиціонування
сайтів в глобальному інформаційному середовищі [24].
33
На сьогодні вважається доведеним, що стан автора відображається в його
тексті [25]. За результатами досліджень формальних і неформальних
характеристик текстового повідомлення визначаються окремі риси автора, що
утворюють особистісний психологічний портрет [26]. В лінгвістиці
сформульовано термін author profiling – профілювання автора, тобто виявлення
ознак автора за написаним ним текстом [11].
Для розв’язання завдання профілювання тексту небхідно мати масив даних
із відомостями про стать, вік, освіту та рідну мову автора а також параметрами
тексту, що непідконтрольні автору, та засоби виявлення кореляцій між
параметрами автора та параметрами тексту [27]. Автори стверджують, що на
сьогодні не існує валідних методик визначення характеристик автора тексту,
немає узагальнюючих теоретичних досліджень, не проведені статистичні
дослідження для виявлення значимості тиї чи інших мовних елементів для
діагностування характеристик автора текту [28].
Серед інформаційних систем, що реалізують методики профілювання
авторів російськомовних текстів, відома програма ВААЛ (www.vaal.ru). Вона
визначає мотивованість автора на основі аналізу лексики тексту.
Програма «Анализ писем» (http://www.analizpisem.ru) визначає настрої
автора на момент написання текстового повідомлення на основі положень теорії
фоносемантики. Аналізується відношення частоти використання певних букв до
середньої частоти їх використання особою. Вважається [29], що це характеризує
настрій людини.
1.1.5. Контент-анатіз текстів
Серед множини визначень контент-аналізу для цього дослідження
доцільно застосувати таке [30]: «Контент-аналіз – це методика виявлення
ймовірності появи в тексті певних характеристик, що цікавлять дослідника. Вона
дозволяє досліднику прийти до певних висновків щодо намірів автора тексту чи
можливих реакцій адресата».
34
Контент-аналіз використовує частотні характеристики текстів та їх
статистичні оцінки, отриманих за результатами декомпозиції цих текстів.
Найменшим неподільним елементом, що містить контент – є слово. Починаючи
від визначення частот використання слів та словосполучень на нижньому рівні
декомпозиції, далі піднімаються до аналізу частоти використання із заданими
ознаками речень, абзаців, текстів в цілому – статей, книг [31]. Глибина
декомпозиції текстів залежить від поставленого завдання. Висновки про
тенденції розвитку науки робляться на підставі аналізу частоти використання
книг певної тематики, редакційну політику видання оцінюють за аналізом частот
статей та їх тематики. Популярність публічної особи оцінюється за кількістю
текстів та речень, в яких згадується ім’я цієї особи. Тематику тексті та його
емоційну забарвленість оцінюють за [31].
Незаперечною перевагою контент-аналізу є відтворюваність його
результатів [32]. Але існують проблеми неоднозначності критеріїв та
трудомісткості процедур [31].
Властивості змісту тесту вимірюються шляхом перерахунку кількості
вживаних ознак, що відображають його суттєві якості [32]. Первинний опис
формується шляхом створення переліку первинних понять (окремих слів), що є
інформативними та відображають змістовні властивості тексту. Перелік понять
формується евристично, експертним методом. Після цього поняття поєднуються
за певною ознакою в категорії. Належність до певних категорій визначається не
тільки шляхом порівняння із наперед заданим переліком слів (житло – будинок,
барлога, помешкання та інші) але і за граматичними ознаками (дієслово, іменник
та інші) [31].
1.2. Процес перетворення текстових повідомлень
1.2.1. Декомпозиція тексту
З метою виявлення ознак текстових повідомлень, що можуть бути
використані в процесі інтелектуального аналізу тексту, проводиться
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria
Dis holub maria

More Related Content

What's hot

What's hot (20)

AVTOREFERAT
AVTOREFERATAVTOREFERAT
AVTOREFERAT
 
Aref deev
Aref deevAref deev
Aref deev
 
дисер черкаси 27.08.17.doc
дисер черкаси 27.08.17.docдисер черкаси 27.08.17.doc
дисер черкаси 27.08.17.doc
 
Disser rozlomii
Disser rozlomiiDisser rozlomii
Disser rozlomii
 
Aref rozlomii
Aref rozlomiiAref rozlomii
Aref rozlomii
 
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
 
Aref tarasenko
Aref tarasenkoAref tarasenko
Aref tarasenko
 
Aref zazhoma vm
Aref zazhoma vmAref zazhoma vm
Aref zazhoma vm
 
1 (1)
1 (1)1 (1)
1 (1)
 
Aref -
Aref -Aref -
Aref -
 
Aref kovalenko
Aref  kovalenkoAref  kovalenko
Aref kovalenko
 
Автореферат КАРАПЕТЯН А. Р.
Автореферат  КАРАПЕТЯН А. Р.Автореферат  КАРАПЕТЯН А. Р.
Автореферат КАРАПЕТЯН А. Р.
 
Dis kar2 (2)
Dis kar2 (2)Dis kar2 (2)
Dis kar2 (2)
 
Aref nagi ed
Aref nagi edAref nagi ed
Aref nagi ed
 
Disertatsiya zazhoma vm
Disertatsiya zazhoma vmDisertatsiya zazhoma vm
Disertatsiya zazhoma vm
 
дисертацIя друк миронюк
дисертацIя друк миронюкдисертацIя друк миронюк
дисертацIя друк миронюк
 
косилов автореферат
косилов авторефераткосилов автореферат
косилов автореферат
 
Aref akel al_djanabi
Aref akel al_djanabiAref akel al_djanabi
Aref akel al_djanabi
 
Aref chikunov
Aref chikunovAref chikunov
Aref chikunov
 
автореферат підлісний
автореферат підліснийавтореферат підлісний
автореферат підлісний
 

Similar to Dis holub maria

презентац я
презентац япрезентац я
презентац я
Fr3dd0
 
Кафедра ІСТ. Вдосконалення навчального процесу студентів
Кафедра ІСТ. Вдосконалення навчального процесу студентівКафедра ІСТ. Вдосконалення навчального процесу студентів
Кафедра ІСТ. Вдосконалення навчального процесу студентів
Footniko
 

Similar to Dis holub maria (20)

Aref stabetska
Aref stabetskaAref stabetska
Aref stabetska
 
Aref миронюк випр. 12.04
Aref миронюк випр. 12.04Aref миронюк випр. 12.04
Aref миронюк випр. 12.04
 
Aref kapitan
Aref kapitanAref kapitan
Aref kapitan
 
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
ПЕРСПЕКТИВИ РОЗВИТКУ ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНИХ ТЕХНОЛОГІЙ У НАВЧАННІ СТУДЕН...
 
Dis deev
Dis deevDis deev
Dis deev
 
Міценко_дисертація
Міценко_дисертаціяМіценко_дисертація
Міценко_дисертація
 
Diss mogilatenko
Diss mogilatenkoDiss mogilatenko
Diss mogilatenko
 
Dis deev
Dis deevDis deev
Dis deev
 
Vidguk korchenko
Vidguk korchenkoVidguk korchenko
Vidguk korchenko
 
Лаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных системЛаборатория программного обеспечения автоматизованных систем
Лаборатория программного обеспечения автоматизованных систем
 
презентац я
презентац япрезентац я
презентац я
 
Dis (1)
Dis (1)Dis (1)
Dis (1)
 
Dis
DisDis
Dis
 
Vidguk gorbov
Vidguk gorbovVidguk gorbov
Vidguk gorbov
 
Кафедра ІСТ. Вдосконалення навчального процесу студентів
Кафедра ІСТ. Вдосконалення навчального процесу студентівКафедра ІСТ. Вдосконалення навчального процесу студентів
Кафедра ІСТ. Вдосконалення навчального процесу студентів
 
Mahovich aref
Mahovich arefMahovich aref
Mahovich aref
 
Ref mogilatenko
Ref mogilatenkoRef mogilatenko
Ref mogilatenko
 
Computer science.pdf
Computer science.pdfComputer science.pdf
Computer science.pdf
 
Лавданський
ЛавданськийЛавданський
Лавданський
 
Musienko
MusienkoMusienko
Musienko
 

More from Черкаський державний технологічний університет

More from Черкаський державний технологічний університет (20)

Vidguk zablodska
Vidguk zablodskaVidguk zablodska
Vidguk zablodska
 
Vidguk karlova (2)
Vidguk karlova (2)Vidguk karlova (2)
Vidguk karlova (2)
 
Vidguk karlova
Vidguk karlovaVidguk karlova
Vidguk karlova
 
Vidguk kudrina
Vidguk kudrinaVidguk kudrina
Vidguk kudrina
 
Vidguk boychenko
Vidguk boychenkoVidguk boychenko
Vidguk boychenko
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus oit
Silabus oitSilabus oit
Silabus oit
 
Silabus td nv_zvo
Silabus td nv_zvoSilabus td nv_zvo
Silabus td nv_zvo
 
Prezentation 18 05_2019
Prezentation 18 05_2019Prezentation 18 05_2019
Prezentation 18 05_2019
 
Reklama pp
Reklama ppReklama pp
Reklama pp
 
Vutiag 7
Vutiag 7Vutiag 7
Vutiag 7
 
Vutiag 6
Vutiag 6Vutiag 6
Vutiag 6
 
Protocol 7
Protocol 7Protocol 7
Protocol 7
 
Vitiag 7
Vitiag 7Vitiag 7
Vitiag 7
 
Vitiag 6
Vitiag 6Vitiag 6
Vitiag 6
 
Vitiag 5
Vitiag 5Vitiag 5
Vitiag 5
 
Vitiag 4
Vitiag 4Vitiag 4
Vitiag 4
 
Vitiag 3
Vitiag 3Vitiag 3
Vitiag 3
 
Vitiag 2
Vitiag 2Vitiag 2
Vitiag 2
 

Recently uploaded

Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Collaborator.pro
 
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейсиДмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
Collaborator.pro
 
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
ssuser7541ef1
 

Recently uploaded (17)

Хвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з нимиХвороби картоплі та заходи боротьби з ними
Хвороби картоплі та заходи боротьби з ними
 
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
Анастасія Крижановська. Як AI-революція вплинула на бізнес контент-агентства?
 
Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...Особливості застосування інструментарію оцінювання готовності дитини до навча...
Особливості застосування інструментарію оцінювання готовності дитини до навча...
 
Презентація про виникнення балади., особливості
Презентація про виникнення балади., особливостіПрезентація про виникнення балади., особливості
Презентація про виникнення балади., особливості
 
70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстання70 років тому – початок Кенгірського повстання
70 років тому – початок Кенгірського повстання
 
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
10_iu_g_2018_stand dfgdf gdf gdfgdfgsdfge er gesr
 
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
Заняття у різновіковій групі. Особливості планування та проведення з дітьми д...
 
80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...80 років від часу депортації з Криму кримських татар і осіб інших національно...
80 років від часу депортації з Криму кримських татар і осіб інших національно...
 
Проблема міжпівкульної асиметрії та взаємодії пр №5.pptx
Проблема міжпівкульної асиметрії та взаємодії пр №5.pptxПроблема міжпівкульної асиметрії та взаємодії пр №5.pptx
Проблема міжпівкульної асиметрії та взаємодії пр №5.pptx
 
Графіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рікГрафіки відключень у Вінниці і області на 2024 рік
Графіки відключень у Вінниці і області на 2024 рік
 
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейсиДмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
Дмитро Ковшун. SEO в Crypto & Web 3 не для хомяків: реальність, стратегії, кейси
 
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВІм’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
Ім’я чернігівця на карті Місяця. ЮРІЙ МЕЗЕНЦЕВ
 
Альфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptxАльфрейні опорядження поверхонь ТООРтаПД.pptx
Альфрейні опорядження поверхонь ТООРтаПД.pptx
 
Графіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та областіГрафіки стабілізаційних відключень у Чернігові та області
Графіки стабілізаційних відключень у Чернігові та області
 
Енергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptxЕнергоефективність будинку: як її підвищити.pptx
Енергоефективність будинку: як її підвищити.pptx
 
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
Тренінг про тренінг. Педагогам ЗДО проте як скласти та провести тренінг у кол...
 
Пасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptxПасивний будинок Енергоефективність ОБСБД.pptx
Пасивний будинок Енергоефективність ОБСБД.pptx
 

Dis holub maria

  • 1. МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ Кваліфікаційна наукова праця на правах рукопису Голуб Марія Сергіївна УДК 004.896 ДИСЕРТАЦІЯ ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК ДЛЯ КЛАСИФІКАЦІЇ УКРАЇНОМОВНИХ ТЕКСТІВ В ІНФОРМАЦІЙНІЙ ТЕХНОЛОГІЇ ІНТЕЛЕКТУАЛЬНОГО МОНІТОРИНГУ 05.13.06 - інформаційні технології Подається на здобуття наукового ступеня кандидата технічних наук Дисертація містить результати власних досліджень. Використання ідей, результатів і текстів інших авторів мають посилання на відповідне джерело М.С. Голуб Науковий керівник: Півень Олег Борисович, кандидат фізико-математичних наук, доцент Черкаси - 2018
  • 2. 2 АНОТАЦІЯ Голуб М.С. Формування масиву чисельних ознак для класифікації україномовних текстів в інформаційній технології інтелектуального моніторингу. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 «Інформаційні технології». – Черкаський державний технологічний університет, Черкаси, 2018. Дисертація присвячена розв’язанню наукової задачі підвищення адекватності класифікації україномовних текстів шляхом розробки методів і засобів ефективного формування масиву їх чисельних ознак для побудови моделей-класифікаторів в інформаційних технологіях багаторівневого інтелектуального моніторингу. У першому розділі подані результати інформаційного пошуку існуючих підходів, методів та інформаційних технологій класифікації друкованих текстів, придатних для використання в технологіях багаторівневого інтелектуального моніторингу. Визначено, що найбільш перспективним напрямом досліджень, який дозволить розв’язати поставлену наукову задачу, є машинне навчання поліноміальних моделей на основі масивів вхідних даних (МВД), сформованих на основі чисельних характеристик текстових повідомлень. Визначений перелік задач, які необхідно розв’язати для досягнення мети дисертаційного дослідження. Другий розділ присвячений формалізації процесу формування масиву вхідних даних шляхом перетворення друкованого тексту до масиву його чисельних ознак. Обґрунтований критерій інформативності ознак у формі ймовірності використання ознаки на ділянках тексту – вікнах, формалізовані вимоги до кожного із етапів перетворення інформації, висунуті гіпотези про підвищення інформативності масиву вхідних даних шляхом формування індивідуального переліку інформативних ознак та використання дисперсії
  • 3. 3 ймовірності використання ознак змінної кількості вікон при побудові точок спостереження. У третьому розділі подані результати експериментальної перевірки висунутих гіпотез, методика проведення експериментальних досліджень, аналіз їх результатів та описана інформаційна технологія перетворення друкованих текстів. Експериментально досліджено залежність кількості правильно класифікованих частин текстів – вікон від значення мінімальної інформативності ознак, розміру вікна та кроку зміни кількості вікон при побудові точок спостереження. Це дозволило експериментально підтвердити висунуті гіпотези, удосконалити метод формування словника ознак, створити новий метод побудови точок спостереження масиву вхідних даних. Забезпечена координація взаємодій нового та удосконалених методів перетворення текстів із синтезатором моделей, базою модельних знань та іншими елеметами інформаційної технології багаторівневого інтелектуального моніторингу (ІТБІМ). В результаті поєднання нових та існуючих елементів досягнуто системнго ефекту емерджентності у формі нової для ІТБІМ здатності класифікувати україномовні текстові повідомлення та збільшення кількості правильно класифікованих текстів у порівнянні з аналогами. Їх частка сягнула 98-100%. Одночасно зменшився до 500 знаків розмір текстового повідомлення, яке може бути класифікованим правильно. Червертий розділ містить опис процесу реалізації ІТБІМ із функціями класифікації текстів у формі моніторингової інтелектуальної системи (МІС) та результати випробування удосконаленої МІС. На етапі аналізу вимог до існуючої методики реалізації МІС подані зміни у формі UML діаграм діяльності та діаграми класів. Випробування МІС проведено в процесі розв’язання задачі виявлення місця проживання авторів друкованих текстових повідомлень та при розв’язанні задачі атрибуції. Інформаційна технологія багаторівневого інтелектуального моніторингу набула здатності розв’язувати завдання інтелектуального аналізу україномовних текстів, зокрема їх класифікації.
  • 4. 4 Наукова новизна отриманих результатів відображена такими положеннями: удосконалено метод формування словника ознак. Це передбачає визначення критерію інформативності ознаки та їх добору за цим критерієм. Процес відбувається шляхом формування адаптивного переліку класифікаційних ознак для кожного завдання за результатами випробування моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак для кожного класу індивідуально і підвищити селективність моделі- класифікатора; уперше розроблений метод побудови точок спостереження в багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції тексту на вікна та визначення ймовірності використання ознаки у вікні. Відрізняється від вже існуючих методів використанням дисперсії ймовірностей ознак при змінній кількості спостережень. Це забезпечує зниження варіації значень ознак та збільшує кількість правильно класифікованих текстів; удосконалено метод перетворення текстового повідомлення до масиву його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового розміру, формування словника ознак, побудову точок спостереження. На відміну від існуючих застосовується оптимізація розміру вікна за критерієм максимальної кількості правильно класифікованих текстів, адаптивне формування словника ознак та дисперсійна побудова точок спостереження. Таким чином підвищується адаптивність процесу формування масиву чисельних ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення особливих умов формування масиву чисельних ознак в процесі побудови моделі- класифікатора; набула подальшого розвитку методологія створення інформаційних систем багаторівневого інтелектуального моніторингу за рахунок використання методу перетворення текстового повідомлення в процесі синтезу моделей- класифікаторів. Це дозволяє розширити можливості використання моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити
  • 5. 5 технологічність процесів за рахунок використання типових інструментів на різних етапах класифікації, оперативно розробляти нові методи класифікації при зміні завдання обробки текстів. Практичне значення отриманих результатів в тому, що результати дисертаційного дослідження відкривають можливості для використання систем багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу інформаційних потоків, поданих у вигляді друкованих текстів. Наведені обчислювальні схеми та технологія забезпечують швидкодію та невибагливість до апаратних ресурсів при реалізації в програмному середовищі, дозволяють ефективно отримати класифікацію україномовних текстів засобами вже існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури вже існуючих програмних комплексів. Досягнення цих результатів відкриває можливості для широкого використання систем багаторівневого інтелектуального моніторингу під час виявлення та аналізу інформаційних потоків у вигляді друкованих текстів. Розроблені на їх основі інформаційні засоби пройшли тестування та практичну апробацію у реальних програмних продуктах багаторівневого моніторингу. Застосування розробленої інформаційної технології класифікації текстів дозволяє автоматизувати процеси інтелектуального аналізу інформаційних потоків. Таким чином забезпечили процес інформаційного моніторингу. В деяких випадках провести моніторинг текстових повідомлень в соціальних та інших спільнотах іншими методами неможливо. Практична цінність роботи підтверджена актами впровадження основних результатів дисертаційнго дослідження: у виробництво ТОВ НВП «Катіон» (акт про результати впровадження від 03.11.2017), у діяльність Славутицької міської адміністрації (акт про впровадження від 18.01.2018 р.), у діяльність ГС «Міжрегіональний Союз птахівників і кормовиробників України» (акт впровадження від 19.04.2017 р.).
  • 6. 6 Ключові слова: інформаційна технологія, інтелектуальний моніторинг, класифікація текстів, словник ознак, точка спостереження, масив вхідних даних, МГУА. SUMMARY Holub M. Formation processes of a numerical indications for ukrainian-language text’s classification in the intellectual monitoring technology. – Qualifying scientific work as a manuscript. Thesis for the candidate degree of technical sciences in a specialty 05.13.06 - Information technologies. – Cherkasy State Technological University, Cherkasy, 2018. Dissertation is devoted to solve the scientific problem of increasing the adequacy of the ukrainian-language texts classification. It’s process combine developing methods and means of effective formation an array of their numerical indications for constructing model-classifiers in multi-level intellectual monitoring technologies. The dissertation is devoted to solving the scientific problem of increasing the adequacy of the classification of Ukrainian-language texts by developing methods and means for effective formation of an array of their numerical features for constructing model-classifiers in information technologies of multi-level intellectual monitoring. The first part presents the results of the existing approaches information retrieval, methods and information technologies for the classification of printed texts suitable for using in multilevel intelligent monitoring technologies. It is determined that the most promising area of research that allows solving a given scientific problem is the machine learning of polynomial models based on the input data arrays (MVD) formed on the basis of numerical characteristics of text messages. The list of tasks that need to be solved to achieve the goal of the dissertation research is determined. The second part is devoted to the formalization the process of forming the input data array by converting the printed text into an array of its numerical features. The criterion of informative features in the form of the probability of using the sign in the text sections is windows, the formal requirements for each stage of the information
  • 7. 7 transformation, the hypotheses about increasing the informativeness of the input data array by forming an individual list of informative features and the use of the variance of the probability of using the signs of the variable number of windows in the construction of points is substantiated. observation. The third part presents the results of experimental verification of the hypotheses put forward, the methodology of conducting experimental research, analysis of their results and describes the information technology of the transformation of printed texts. The dependence of the number of correctly classified parts of texts - windows on the value of the minimum informativeness of the signs, the size of the window and the step of changing the number of windows in the construction of the observation points has been experimentally investigated experimentally. This allowed experimentally to confirm the hypotheses advanced, to improve the method of forming the vocabulary of signs, to create a new method of constructing points of observation of the input array. Coordination of the interactions of new and improved methods of converting texts with model synthesizers, base of model knowledge and other elements of information technology of multilevel intelligent monitoring (ITBIM) is provided. As a result of the combination of new and existing elements, a systematic effect of the emergence in the form of a new for ITBIM ability to classify Ukrainian-language text messages and increase the number of correctly classified texts compared with analogues has been achieved. Their share reached 98-100%. At the same time, the size of a text message, which can be categorized correctly, has been reduced to 500 characters. In the fourth part describes the implementation of the ITBIM with functions of the classification of texts in the form of a monitoring intellectual system (MIS) and the results of the test of the improved MIS. At the stage of the analysis of requirements to the existing method of implementation of the MIS changes in the form of UML activity diagrams and class diagrams are presented. The MIS test was conducted in the process of solving the problem of finding the place of residence of the authors of printed text messages and in solving the attribution task. The information technology of multi-level
  • 8. 8 intellectual monitoring has acquired the ability to solve problems of intellectual analysis of Ukrainian-language texts, in particular their classification. Scientific novelty of the obtained results: the method of forming a features dictionary is improved. This involves determining the criterion of informative nature of the sign and its selection on this criterion. The process is carried out by forming an adaptive list of classification characteristics for each task based on the results of testing the model-classifier. This allows you to increase the number of informational attributes for each class individually and increase the selectivity of the model-classifier; At first, a method for constructing observation points in a multidimensional space of numerical signs of a text has been developed. It consists in decomposing the text on the windows and determining the likelihood of using the sign in the window. It differs from existing methods using the dispersion of probabilities of signs with a variable number of observations. This reduces the variation of the values of the signs and increases the number of correctly classified texts; the method of converting a text message into an array of its numerical features is improved, which involves decomposing the text into windows of the same size, forming a dictionary of features, constructing points of observation. Unlike existing ones, the optimization of the window size is based on the criterion of the maximum number of correctly classified texts, the adaptive formation of the vocabulary of signs and the dispersion construction of points of observation. Thus, the adaptability of the process of forming an array of numerical text attributes to the properties of classes increases. This is due to ensuring special conditions for the formation of an array of numerical features in the process of constructing a model-classifier; The creating multi-level intelligent monitoring information systems methodology through the use the method of converting text messages into the synthesis of model-classifiers has developed further. This allows us to expand the possibilities of using monitoring systems in the field of intellectual analysis of texts, to ensure the processability of processes through the use of standard tools at different stages of classification, to rapidly develop new methods of classification when changing the task of text processing.
  • 9. 9 Practical value of the results. The results of the dissertation research provide opportunities for the use of multilevel intelligent monitoring systems in the process of detecting and analyzing information streams presented in the form of printed texts. The given computational schemes and technology provide fast and unpretentious to hardware resources when implemented in the software environment, allow to effectively obtain the classification of Ukrainian-language texts by means of existing monitoring intellectual systems and integrate them into the structure of existing software systems. The achievement of these results opens opportunities for widespread use of multilevel intelligent monitoring systems when detecting and analyzing information streams in the form of printed texts. The information tools developed on their basis were tested and tested in real-world software products of multi-level monitoring. Application of the developed information technology of classification of texts allows to automate the processes of intellectual analysis of information flows. Thus, the process of information monitoring was provided. In some cases it is not possible to monitor text messages in social and other communities in other ways. The practical value of the work is confirmed by the acts of implementation of the main results of the dissertation research: in the production of LLC CJSC "Cation" (an act on the results of implementation from 11.3.2017), in the activities of the Slavutych city administration (the act on implementation from January 18, 2018) Interregional Union of Poultry and Forage Producers of Ukraine "(Act of Implementation dated 19.04.2017). The results obtained during the study were confirmed experimentally in determining the place of residence of the authors of printed text messages, between the solving tasks of attribution and text profiling. The information technology of multi- level intellectual monitoring has acquired an ability to solve the problems of intellectual analysis of Ukrainian-language texts, in particular their classification. Key-words: information technology, intellectual monitoring, classification of texts, dictionary of features, observation point, array of input data, GMDH
  • 10. 10 Список основних публікацій здобувача [1] Голуб М.С. Формування масиву вхідних даних при класифікації текстів в технології інформаційного моніторингу. Математичні машини і системи. 2018. № 1. С. 59-66. [2] Голуб М.С. Дисперсійний метод формування точок спостереження в інформаційній технології класифікації текстів. Вісник інженерної академії України. 2017. № 3. С.38-42. [3] Голуб С.В., Мартинова Г.І., Голуб М.С. Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу. Математичні машини і системи. 2016. № 4. С. 76-83. [4] Holub Maria, Piven Oleg. Classification of texts in the technology multilevel information monitoring. Inzynier XXI wieku. Monografia: Wydawnictwo naukowe Akademii Techniczno-Humanistycznej w Bielsku-Bialej. 2016. 119- 122 s. [5] Голуб С.В., Константиновська О.В., Голуб М.С. Відображення властивостей автора тексту в структурі багатопараметричної моделі. Системи обробки інформації: Збірник наукових праць. Х.: Харківський університет повітряних сил імені Івана Кожедуба, 2014. Вип. 9 (125). С. 82-87. [6] Голуб С.В., Константиновська О.В., Голуб М.С. Формування показників масиву вхідних даних для ідентифікації авторства текстових повідомлень Системи обробки інформації: збірник наукових праць. Х.: Харківський університет Повітряних сил імені Івана Кожедуба, 2014. Вип. 2 (118). С. 89- 92. [7] Голуб М.С. Інтелектуальний моніторинг друкованих текстів. Математичне та імітаційне моделювання систем. МОДС 2018: тези доповідей Тринадцятої міжнародної науково-практичної конференції (Чернігів, 25 - 29 червня 2018 р.). Чернігів : ЧНТУ, 2018. – С. 292–298
  • 11. 11 [8] Голуб М.С. Побудова точок спостереження при класифікації текстів машинним навчання поліноміальних моделей. Інформація, комунікація, суспільство 2018. Інформація, комунікація, суспільство 2018: Матеріали 7- ї Міжнародної наукової конференції ICS-2018. Львів: Видавництво Львівської політехніки, 2018. С. 277-278. [9] Голуб М.С. Формування масиву вхідних даних для класифікації друкованих текстів в технології багаторівневого інтелектуального моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей Міжнародної науково-практичної конференції, м. Івано- Франківськ, 14-10 травня 2018 року. Івано-Франківськ. 2018. С. 339-342. [10] Голуб М.С. Застосування частотного критерію інформативності ознак в задачах інтелектуального аналізу тексту багаторівневого інформаційного моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей Міжнародної науково-практичної конференції, м. Івано- Франківськ, 15-20 травня 2017 року. Івано-Франківськ. 2017. С. 16-19. [11] Голуб М.С. Інтелектуальний пошук відомостей технічними системами інформаційного моніторингу. «Інформаційні технології та комп’ютерне моделювання»: матеріали статей шостої міжнародної науково- практичної конференції, Івано-Франківськ, 23-28 травня 2016 року. Івано- Франківськ. 2016. С. 83-84. [12] Голуб М.С. Інтелектуальний аналіз текстів. Інформація, комунікація, суспільство 2015: матеріали 5-ї Міжнар. наук. конференції ICS-2016. Львів: Видавництво Львівської політехніки, 2016. С. 230-231. [13] Голуб С.В., Голуб М.С. Профілювання текстів у технології інформаційного моніторингу. Матеріали 4-ї міжнародної наукової конференції ICS-2015 «Інформація, комунікація, суспільство 2015». Львів: Видавництво Львівської політехніки, 2015. С.176-177. [14] Голуб М.С. Вибір ознак в процесі інтелектуальної обробки текстових повідомлень. Інформація, комунікація, суспільство 2014: матеріали 3-ї
  • 12. 12 Міжнар. наук. конференції ICS-2014. Львів: Видавництво Львівської політехніки, 2014. – С. 148-149. [15] Golub Maria. The Input Data Array (IDA) Format is Unified to Ensure the Consolidation of Heterogeneous Models, Synthesized by the Model Synthesis Algorithm. Modern problems of radio engineering, Telecommunications, and computer Science. Proceedings of the International Conference TCSET’2014. Dedicated to the 170th anniversary of Lviv Polytechnic National University. Lviv Publishing House of Lviv Polytechnic. 2014. p. 657 [16] Голуб М.С. Відображення властивостей текстових повідомлень в структурі індуктивних моделей. Проблеми інформатизації: Матеріали першої міжнародної науково-технічної конференції. Черкаси: ЧДТУ; Київ: ДУТ; Тольятті: ТДУ; Полтава: ПНТУ, 2013. С. 59.
  • 13. 13 ЗМІСТ ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ...................................................................... 16 ВСТУП........................................................................................................................ 18 РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ........................................................................................................ 25 1.1. Задачі аналізу текстових повідомлень ..........................................................25 1.1.1. Інтелектуальний аналіз текстів ................................................................25 1.1.2. Класифікація ..............................................................................................27 1.1.3. Атрибуція ...................................................................................................29 1.1.4. Профілювання............................................................................................32 1.1.5. Контент-анатіз текстів...............................................................................33 1.2. Процес перетворення текстових повідомлень..............................................34 1.2.1. Декомпозиція тексту .................................................................................34 1.2.2. Формування переліку інформативних ознак..........................................35 1.2.3. Критерії інформативності ознак ..............................................................37 1.3. Методи синтезу моделей-класифікаторів.....................................................41 1.4. Автоматизація аналізу друкованих текстів ..................................................46 1.4.1. Особливості автоматизації текстів ..........................................................46 1.4.2. Багаторівневий аналіз та методи декомпозиції текстового повідомлення........................................................................................................46 1.4.3. Багаторівневий інтелектуальний моніторинг.........................................48 1.5. Обгрунтування задач досліджень ..................................................................53 1.6. Висновки до розділу........................................................................................54 РОЗДІЛ 2. РОЗРОБКА МЕТОДІВ ТА ЗАСОБІВ ПОБУДОВИ ІНФОРМАЦІЙНОЇ ТЕХНОЛОГІЇ ПЕРЕТВОРЕННЯ ТЕКСТІВ......................... 56 2.1. Стратегія досліджень. Опис предметної області .........................................56
  • 14. 14 2.2. Математична постановка завдання...............................................................62 2.3. Гіпотези ............................................................................................................64 2.3.1. Про критерій інформативності ознак ......................................................64 2.3.2. Про адаптивність процесу формування словника ознак.......................65 2.3.3. Про межу інформативної достатності.....................................................67 2.3.4. Про використання дисперсії при побудові точок спостереження МВД ...............................................................................................................................68 2.3.5. Про метод синтезу моделей-класифікаторів ..........................................69 2.3.6. Про інтелектуальний моніторинг.............................................................71 2.4. Технологія багаторівневого моделювання текстових повідомлень........72 2.5. Висновки до розділу........................................................................................73 РОЗДІЛ 3. ЕКСПЕРИМЕНТАЛЬНІ ДОСЛІДЖЕННЯ МЕТОДІВ ПЕРЕТВОРЕННЯ ДРУКОВАНИХ ТЕКСТІВ ....................................................... 75 3.1. Зміст досліджень..............................................................................................75 3.2. Оцінка інформативності ознак.......................................................................75 3.3. Адаптивне формування словника ознак .......................................................77 3.4. Оптимізація розміру вікна та межі інформативної достатності.................85 3.5. Дисперсний метод побудови точок спостереження ....................................90 3.5.1. Формування точок спостереження за дисперсним методом із постійною основою .............................................................................................91 3.5.2. Формування точок спостереження із змінною кількістю точок, за якими розраховується дисперсія........................................................................93 3.6. Синтез моделей-класифікаторів.....................................................................96 3.7. Метод перетворення друкованих текстів....................................................103 3.8. Інформаційна технологія класифікації текстів машинним навчанням поліноміальних моделей......................................................................................107 3.9. Висновки до розділу......................................................................................107
  • 15. 15 РОЗДІЛ 4. РЕАЛІЗАЦІЯ ТА ЗАСТОСУВАННЯ РЕЗУЛЬТАТІВ ДОСЛІДЖЕНЬ В МОНІТОРИНГОВИХ ІНТЕЛЕКТУАЛЬНИХ СИСТЕМАХ.......................... 110 4.1. Про використання отриманих результатів..................................................110 4.2. Особливості реалізації інформаційної технології класифікації текстів у формі моніторингової інтелектуальної системи ...............................................110 4.3. Реалізація етапу «Аналіз вимог» технології проектування МІС..............111 4.3.1. Вимоги взаємодії із зовнішнім середовищем .......................................111 4.3.2. Функціональні вимоги ............................................................................112 4.3.3. Вимоги до процесу оптимізації значення межі інформативної достатності..........................................................................................................116 4.3.4. Вимоги до процесів оптимізації розміру вікон ....................................117 4.3.5. Вимоги до конструювання моделі в процесі класифікації тексту......118 4.3.6. Вимоги до системи вцілому ...................................................................119 4.4. Реалізація інформаційної технології перетворення друкованих текстів в моніторинговій інформаційній системі..............................................................121 4.5. Випробування моніторингової інтелектуальної сиситеми з функціями класифікації текстів..............................................................................................124 4.5.1. Класифікація текстів за місцем проживання автора............................124 4.5.2. Атрибуція текстів моніторинговою інтелектуальною системою.......128 4.6. Порівняння характеристик МІС із відомими аналогами...........................130 4.7. Висновки до розділу......................................................................................130 ВИСНОВКИ............................................................................................................. 132 СПИСОК ЛІТЕРАТУРИ......................................................................................... 135 ДОДАТКИ................................................................................................................ 151 Додаток A. Список публікацій здобувача за темою дисертації та відомості про апробацію результатів дисертації.......................................................................151 Додаток Б. Відомості щодо впровадження результатів роботи ....................... 155
  • 16. 16 ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ Скорочення Пояснення ІТ Інформаційна технологія СППР Система підтримки прийняття рішень АТ Атрибуція тексту ІАД Інтелекутальний аналіз даних МГУА Метод групового врахування аргументів ПО Первинний опис МВД Масив вхідних даних МІС Моніторингова інтелектуальна система МІД Межа інформативної достатності ГФЗ Голобальна функціональна залежність БМЗ База модельних знань ОПР Особа, що приймає рішення ЛЗПІ Локальне завдання перетворення інформації АСМ Алгоритм синтезу моделей БЕО Багатокритеріалоьне експертне оцінювання ВС Вихідний сигнал ГЗ Горизонтальний зв’зок ООП Об’єктно-орієнтоване проектування СПІ Система перетворення інформації БД База даних АСБПД Автоматизована система багаторівневого перетворення даних ІС Інформаційна система ІАТ Інтелектуальний аналіз текстів КТ Класифікація текстів ПД Перетворення даних
  • 17. 17 Скорочення Пояснення ВІЗ Вертикальні ієрархічні зв’язки ГІЗ Горизонтальні ієрархічні зв’язки ГФС Глобальна функція системи КВ Керуючий вплив
  • 18. 18 ВСТУП Актуальність теми. В сучасних реаліях інформаційної війни в Україні необхідно автоматизувати процеси класифікації україномовних текстів. Це розширить можливості технології багаторівневого інтелектуального моніторингу. Результати роботи можуть використовувати в технологіях захисту інформаційного простору України, для атрибуції та профілювання текстів в криміналістиці, класифікації E-mail повідомлень, організації змістового пошуку інформації в бібліотеках, створення нових архівів текстів та для виконання інших подібних завдань. Розроблені методи та засоби атрибуції текстів для використання у консолідації результатів обробки текстових повідомлень, психологічних тестів, економічних даних у технологіях інформаційного моніторингу та інших завдань. На сьогодні завдання класифікації текстів в моніторингових системах найчастіше розв’язують контент-аналізом та методами машинного навчання. В результаті застосування цих методів існують такі проблеми: можливість суб’єктивного викривлення результатів класифікації автором під час контент- аналізу, необхідність мати тексти великого розміру та недостатня адекватність результатів класифікації. Уникають їх проблем шляхом підвищення інформативності масивів чисельних ознак текстових повідомлень, що застосовуються в процесі машинного навчання поліноміальних моделей, нейронних мереж, побудови регресійних моделей і т.д.. Робіт, де подавались би результати дослідження процесів формування масиву чисельних ознак для класифікації україномовних текстів машинним навчанням, виявити не вдалося. Підґрунтям наших досліджень є роботи Люгера Д. Ф., Маккарті Д., Бродера А., Ланде Д. В., Глибовця М. М., Хопкрофта Дж., Івахненка О. Г., Шаронової Н.В., Литвинова В. В., Поспєлова Д. А., Степаненка В. Є., Широкова В. А., Мартинової Г. І., Шемакіна Ю. І., Кронгауза М. А. та інших вчених в галузі інформаційних технологій, комп'ютерної лінгвістики, української філології та індуктивного моделювання.
  • 19. 19 Класифікація текстів передбачає побудову вирішуючого правила. Його завдання – перетворення значень класифікаційних ознак до форми висновку про те, до якого із наперед заданих класів належить текст. Під час обробки великих масивів текстів необхідно застосувати відповідні технологій інформаційного моніторингу. З цією метою використання інформаційної технології багаторівневого інтелектуального моніторингу стримує відсутність у ній методів та засобів визначення чисельних характеристик друкованих текстів для формування масиву вхідних даних. Тому дисертаційні дослідження, пов’язані із підвищенням інформативності масивів чисельних характеристики друкованих текстових повідомлень, є актуальними. А отримані результати дозволяють підвищити адекватність класифікації україномовних текстів інформаційною технологією багаторівневого інтелектуального моніторингу. Зв’язок роботи з науковими програмами, планами, темами. Основні дослідження з теми дисертації проводили відповідно до планів наукових досліджень кафедри інформаційної безпеки та комп’ютерної інженерії Черкаського державного технологічного університету. Зокрема, в рамках науково-дослідної роботи «Розробка методів та засобів оцінки ефективності соціоінжинірингу» (№ ДР 0116U008715). Дослідження проводили відповідно до пріоритетних тематичних напрямів науково-технічних розробок на період до 2020 року «Технології та засоби розробки програмних продуктів і систем», затверджених постановою Кабінету Міністрів України №556 від 23.08.2016 р. Мета і завдання дослідження. Мета дослідження полягає у підвищенні адекватності класифікації україномовних текстів. Це передбачає розробку методів і засобів ефективного формування масиву їх чисельних ознак для побудови моделей-класифікаторів в інформаційних технологіях багаторівневого інтелектуального моніторингу. Для досягнення поставленої мети реалізовували такі завдання:
  • 20. 20 1. Аналіз і узагальнення існуючих підходів, методів та засобів формування масиву чисельних ознак в інформаційних технологіях класифікації друкованих текстів методами машинного навчання. 2. Дослідження процесів оптимізації розміру вікон, добору інформативних ознак та формування їх словника. 3. Дослідження процесів побудови точок спостереження в багатовимірному просторі ознак. 4. Дослідження взаємодії процесів перетворення друкованих україномовних текстів до форми масиву чисельних ознак та методів синтезу моделей-класифікаторів за технологією машинного навчання поліноміальних моделей. 5. Впровадження результатів досліджень із класифікації текстів у практику створення та застосування інформаційних систем багаторівневого інтелектуального моніторингу. Об’єктом дослідження є процеси інтелектуального аналізу текстів в інформаційних технологіях багаторівневого моніторингу. Предмет досліджень - процеси формування масиву чисельних ознак для побудови моделей-класифікаторів україномовних текстів методами машинного навчання в технологіях інтелектуального моніторингу. Методи досліджень. Під час формулювання плану досліджень використали системний підхід та системний аналіз; у розв’язанні задач синтезу моделей-класифікаторів - методи індуктивного моделювання; формування словника ознак друкованого тексту передбачало методи лінгвістичного аналізу, параметричної оптимізації. Під час формалізації завдання досліджень використані положення теорії множин та експертні методи; побудова точок спостережень передбачала дисперсійний аналіз; у формуванні показника інформативності використали теорію ймовірностей. У побудові функціональної схеми методу класифікації тексту використали методологію створення інформаційних систем багаторівневого інтелектуального моніторингу.
  • 21. 21 Наукова новизна отриманих результатів Удосконалено метод формування словника ознак. Це передбачає визначення критерію інформативності ознаки та їх добору за цим критерієм. Процес відбувається шляхом формування адаптивного переліку класифікаційних ознак для кожного завдання за результатами випробування моделі-класифікатора. Це дозволяє збільшити кількість інформативних ознак для кожного класу індивідуально і підвищити селективність моделі- класифікатора. Уперше розроблений метод побудови точок спостереження в багатовимірному просторі чисельних ознак тексту. Він полягає у декомпозиції тексту на вікна та визначення ймовірності використання ознаки у вікні. Відрізняється від вже існуючих методів використанням дисперсії ймовірностей ознак при змінній кількості спостережень. Це забезпечує зниження варіації значень ознак та збільшує кількість правильно класифікованих текстів. Удосконалено метод перетворення текстового повідомлення до масиву його чисельних ознак, що передбачає декомпозицію тексту на вікна однакового розміру, формування словника ознак, побудову точок спостереження. На відміну від існуючих застосовується оптимізація розміру вікна за критерієм максимальної кількості правильно класифікованих текстів, адаптивне формування словника ознак та дисперсійна побудова точок спостереження. Таким чином підвищується адаптивність процесу формування масиву чисельних ознак тексту до властивостей класів. Це відбувається за рахунок забезпечення особливих умов формування масиву чисельних ознак в процесі побудови моделі- класифікатора. Набула подальшого розвитку методологія створення інформаційних систем багаторівневого інтелектуального моніторингу за рахунок використання методу перетворення текстового повідомлення в процесі синтезу моделей- класифікаторів. Це дозволяє розширити можливості використання моніторингових систем в галузі інтелектуального аналізу текстів, забезпечити технологічність процесів за рахунок використання типових інструментів на
  • 22. 22 різних етапах класифікації, оперативно розробляти нові методи класифікації при зміні завдання обробки текстів. Практичне значення отриманих результатів. Результати дисертаційного дослідження відкривають можливості для використання систем багаторівневого інтелектуального моніторингу в процесі виявлення та аналізу інформаційних потоків, поданих у вигляді друкованих текстів. Наведені обчислювальні схеми та технологія забезпечують швидкодію та невибагливість до апаратних ресурсів при реалізації в програмному середовищі, дозволяють ефективно отримати класифікацію україномовних текстів засобами вже існуючих моніторингових інтелектуальних систем та інтегрувати їх до структури вже існуючих програмних комплексів. Досягнення цих результатів відкриває можливості для широкого використання систем багаторівневого інтелектуального моніторингу під час виявлення та аналізу інформаційних потоків у вигляді друкованих текстів. Розроблені на їх основі інформаційні засоби пройшли тестування та практичну апробацію у реальних програмних продуктах багаторівневого моніторингу. Застосування розробленої інформаційної технології класифікації текстів дозволяє автоматизувати процеси інтелектуального аналізу інформаційних потоків. Таким чином забезпечили процес інформаційного моніторингу. В деяких випадках провести моніторинг текстових повідомлень в соціальних та інших спільнотах іншими методами неможливо. Особистий внесок здобувача. Усі наукові результати дисертаційної роботи автор отримала самостійно. У працях, опублікованих у співавторстві, здобувачеві належать: [1] – реалізація дослідження процесу класифікації текстів при застосуванні фіксованого переліку показників масиву вхідних даних в задачах атрибуції, запропоновано дисперсійний критерій оцінки інформативності ознак; [2] – отримання залежності результатів класифікації текстів від виду опорної функції синтезатора моделей; [3] – отримані результати використання вже існуючої інформаційної системи багаторівневого моніторингу для розв’язання задачі класифікації текстів за змістом шляхом використанням нових засобів
  • 23. 23 перетворення текстових повідомлень до типової форми масиву вхідних даних; [4] – застосована інформаційна технологія інтелектуального моніторингу текстів для розв’язання задачі виявлення місця проживання авторів шляхом класифікації текстів за говірками. За принципами Г.І. Мартинової автором сформовані класи діалектних текстів та синтезовані вирішуючі правила у формі індуктивних моделей класифікаторів. Отримані результати класифікації текстів. Апробація результатів дослідження. Основні результати та дисертаційна робота в цілому апробовані на 10 міжнародних науково-практичних конференціях: Тринадцятій міжнародній науково-практичній конференції «Математичне та імітаційне моделювання систем. МОДС 2018», м. Чернігів, 2018 р.; 7 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2018», м. Львів, травень 2018 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано- Франківськ, травень 2018 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2017 р.; Міжнародній науково-практичній конференції «Інформаційні технології та комп’ютерне моделювання», м. Івано-Франківськ, травень 2016 р.; 5 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2016», м. Львів, травень 2016 р.; 4 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2015», м. Львів, травень 2015 р.; 3 Міжнародній науковій конференція «Інформація, комунікація, суспільство 2014», м. Львів, травень 2014 р.; Proceedings of the International Conference «Modern problems of radio engineering, Telecommunications, and computer Science TCSET’2014», Lviv, 2014; Першій міжнародній науково-технічній конференції «Проблеми інформатизації», м. Черкаси, 2013 р.. Публікації. За темою дисертації з викладенням її основних результатів опубліковано 16 наукових праць, серед яких 1 стаття в монографії, що видана за кордоном України, 5 статей у наукових фахових виданнях України (з яких 2 статті – одноосібно), з них 2 – у виданнях, що індексуються міжнародними
  • 24. 24 бібліометричними та наукометричними базами даних, 10 публікацій в матеріалах та тезах доповідей міжнародних наукових конференцій.
  • 25. 25 РОЗДІЛ 1. ФОРМУВАННЯ МАСИВУ ЧИСЕЛЬНИХ ОЗНАК В ТЕХНОЛОГІЯХ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТОВИХ ПОВІДОМЛЕНЬ 1.1. Задачі аналізу текстових повідомлень 1.1.1. Інтелектуальний аналіз текстів Інтелектуальний аналіз тексту – напрям інтелектуального аналізу даних з метою отримання інформації з текстових документів, ґрунтуючись на застосуванні методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до переробки інформації, що й Data Mining, однак Data Mining має справу з сховищами та базами даних, а text mining – з електронними бібліотеками та збірками текстів [5]. Інтелектуальний аналіз текстів (ІАТ) передбачає вирішення таких завдань, як пошук інформації, категоризація текстів, обробка змін в збірках текстів, розробка засобів подання інформації для користувача [6]. Потреба в автоматизації робіт, пов’язаних із аналізом текстів, бере початок від авторовідчої експертизи в криміналістиці. За особливостями написання тексту виявляється його автор. Якщо особа автора невідома виявляють стать, вік, освіту, та інші ознаки автора. Традиційно ці завдання виконувались експертними методами на підставі уявлення, що текст повинен містити авторські стилістичні особливості. Такі методи залежать від суб’єктивної думки експерта, від рівня його кваліфікації. Крім того рукописні тексти аналізувались за характеристиками почерку. На сьогодні актуальними є завдання аналізу друкованих текстів, зокрема із Internet- джерел. Тому інструментами дослідження стають статистичні методи [7]. Завдання залишаються традиційними для криміналістики: Ідентифікація і діагностика. Від іденитфікації очікують підтвердження або заперечення авторства особи, відоме під назвою «Атрибуція» [8]. Запропонована значна
  • 26. 26 кількість методів визначення авторства друкованих тектсів, що використовують підрахунок кількості використання окремих «особливих» слів, та інших елементів речення. Популярності набуло використання методів штучного інтелекту. Завдання ідентифікації [9] формалізується як особливий випадок задачі класифікації [10] Діагностика надає можливості для виявлення особистісних ознак автора: рідну мову та рівень володіння іноземними мовами, галузь професійної діяльності, освіченість, стать, вік, національність, соціальне положення та інші, які отримали назву «Профілювання автора» [11]. Інтелектуальний аналіз текстів (Text Mining) поєднують статистичні, лінгвістичні та інтелектуальні методи інформаційного пошуку, виявлення закономірностей та здобуття іншої інформації з текстів [12]. Інформацйний пошук застосовують для навігації дослідників, фільтрації документів [13]. Системи Text Mining автоматично реферують текти та виявляють поняття і факти. За рахунок автоматизації та інтелектуальзації процесів пошуку інформації аналітику надається великий обсяг зпрофільованої інформації. Використання технологій інтелектуального аналізу текстів розширює можливості Аналітика за рахунок класифікації та кластеризації документів за їх ознаками, відповідей на запитання, аналізу зв’язків між поняттями у документі. Під час пошуку інформації інтелектуальний аналіз текстів застосовують для структурування документальних даних, здобуття інформації з документів, пошук текстів певних авторів у локальних реляційних базах даних, у гіпертекстових базах даних, як от мережа Інтернет. Застосування інтелектуального аналізу текстів у пошуку інформації дає змогу зменшити час у виконанні пошуку та уникнути інформаційного перевантаження у процесі прийняття рішень. Категоризація документів – це зіставлення документів збірника з однією або кількома класами схожих між собою текстів, як от за темою, стилем чи іншою ознакою. Процесі розподілення текстів на категорії може відбуватися
  • 27. 27 участю людини або автоматично. У першому випадку, який передбачає класифікацію документів, система інтелектуального аналізу текстів зараховує текстові повідомлення до вже визначених класів. Попередньо для цього відбувається навчання фахівцем моделі-класифікатора. Людина надає системі перелік класів та зразки документів, які до них належать. У другому випадку категоризації відбувається кластеризація документів системою інтелектуального аналізу текстів. Система сама визначає множину класів, за якими треба розподілити тексти. В технології машинного навчання це називається навчанням без вчителя. У такому випадку фахівець повідомляє системі ІАТ кількість кластерів, на які потрібно розбити збірку текстів. В алгоритм програми вже закладена процедура вибору ознак [14]. На сьогодні значна кількість інформаційних систем використвують технології Text Mining. Серед найвідоміших [12] Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti). Ці системи використовують математичні та лінгвістичні алгоритми аналізу текстових даних, надають можливості доступу до зовнішніх джерел даних, їх візуалізації та перетворення. 1.1.2. Класифікація Задача класифікації розв’язується у випадку, коли необхідно автоматизувати процес групування елементів відповідно до наперед заданих ознак. Експертами задаються перелік класів, множину ознак для кожного класу, за якими відбувається класифікація нових елементів. Класифікація текстів визначається як розподіл текстових повідомлень на визначені категорії або групи [15]. Методи класифікації текстових повідомлень інтегрують дві галузі: машинне навчання та інформаційний пошук. Таким чином автоматична класифікація текстів може виконуватися як на основі визначених заздалегідь інформативних ознак та множини тектових повідомлень, так і
  • 28. 28 автоматизованим процесом [16]. За умови використання методів машинного навчання ми використовуємо вирішуюче правило. Його будують на основі тренувальної вибірки текстів. Під час використання методів машинного навчання ця вибірка заздалегідь сформована експертом. Алгоритм машинного навчання вибудовує процедуру класифікації документів, грунтуючись на автоматичному аналізі заданої множини сгрупованих текстів. Вирішуюче правило, яке зараховує текст до певного класу створюють на основі аналізу властивостей класів. Процес класифікації текстів складається із двох етапів: конструювання моделі та використання моделі. Перший етап передбачає опис множини класів, на які поділяють тексти. Другий етап полягає у класифікації моделей, їх нових або невідомих значень, та оцінку точності моделі-класифікатора. У випадку, коли не вдається віднести новий елемент до наперед визначеного класу за допомогою класифікаційних ознак, задача зветься слабоформалізованою. Вона розв’язується шляхом побудови вирішуючого правила, яке дозволяє перетворити значення класифікаційних критеріїв у висновок про приналежність елемента до того чи іншого класу. Таке правило отримують у формі моделей-класифікаторів. В [17] подані характеристики різних типів класифікаторів (табл. 1.1). Таблиця 1.1 – Характеристики класифікаторів Критерій Тип Коментар Використання або невикористання навчальних даних Класифікація з учителем Вхідні дані поділяють, використовуючи набір зразків як навчальні дані Класифікація без учителя Відомі як кластеризація, не беруть до уваги результати експертного групування навчальних даних для класифікації вхідних даних
  • 29. 29 Продовження Таблиці 1.1 Урахування або неврахування будь- якого припущення про розподіл вихідних даних Напівавтоматичне навчання Навчання відбувається з використанням даних як з мітками, так і без них Параметричні класифікатори Грунтуються на припущенні, що функція щільності ймовірності для кожного класу відома Непараметричні класифікатори Не обмежуються жодними припущеннями про розподіл вхідних даних Розгляд одного класифікатора або ансамблю Один класифікатор Використовується єдиний класифікатор для групувіання об’єкта Ансамбль класифікаторів Під час групування об’єкта враховуються результати кількох (ансамблю) класифікаторів Використання або невикористання технології жорсткого поділу, де кожен об’єкт належить лише одному кластеру Жорсткий класифікатор Не враховують подальші зміни різних класів М’який (нечіткий) класифікатор Моделюються поступові граничні зміни, забезпечуючи оцінку ступеня подібності всіх класів Видача класифікатором розподілу ймовірності належності до всіх класів Імовірнісний класифікатор Класифікатор здатен для заданого зразка оцінити розподіл імовірності на множині класів Неймовірнісний класифікатор Підхід визначає лише найбільш придатний клас для вхідного образу Для аналізу текстів може бути застосованта технологія класифікації із учителем. 1.1.3. Атрибуція Завдання визначення автора тексту та його опису відоме під назвою «Атрибуція тексту» (АТ). Як відомо [8], АТ – це дослідження тексту з метою встановлення авторства або отримання відомостей про автора та про умови створення текстового документа. Об’єктом дослідження є тексти документів.
  • 30. 30 Досліджуються різноманітні записи, наприклад щоденник, листи, офіційні документи, літературні твори, тексти публічних виступів окремо або в їх сукупності. Предметом досліджень АТ є відомості про автора і умови створення тексту. На відміну від дослідження почерку в цьому випадку аналізуються лінгвістичні особливості тексту. Сама проблема ідентифікації авторства виникла дуже давно, але спроби використати обчислювальну техніку для її вирішення почали робити тільки з 70- х років XX ст. Давні (“домашинні”) методи, наприклад, початку XX ст., відрізнялися наявністю великої кількості суб’єктивних оцінок: весь обсяг роботи виконувався вручну. Як приклад такої роботи можна привести працю Н.В. Морозова “Лінгвістичні спектри...” [18]. Дуже цікаві ідеї визначити автора за спектрами вживання службових частин мови перевірялися на практиці вручну з олівцем в руках. В наш час нових обчислювальних технологій з’явилися нові методи, що зумовлюють високу оцінку тих критеріїв та ознак, які визначають належність тексту тому чи іншому автору. Прикладом вживання таких технологій можуть бути методика Л.І. Бородкіна та Л.В. Мілова, в основі якої лежить побудова графа сильних зв’язків за матрицею частот парної повторюваності граматичних класів слів [19], методика Захарова В.Н. та ін., яка основана на діалоговій комп’ютерній обробці літературних творів та використовує багато граматичних характеристик [20]. Ці методи вимагають великої витрати часу та залучення в експеримент багатьох дослідників і вибірок великої кількості текстового матеріалу, крім того, ці праці характеризуються великим набором ознак, за допомогою яких можна досягти кінцевої мети – атрибуції тексту, але пошук та етапну обробку цих ознак потребує значно кращої автоматизації. АТ розв’язує дві групи задач [21]: 1. Ідентифікаційні – підтвердження або виключення авторства певної особи; виявле
  • 31. 31 2. Визначення чи автором кількох текстів була одна і та ж особа; перевірка чи є особа, що написала текст, його справжнім автором. При розв’язанні цих задач автор тесту відомий та доступний. Найвідомішими ідентифікаційними задачами є виявлення плагіату або підтвердження авторських прав на літературний твір 3. Діагностичні – визначення особистісних характеристик автора. зокрема його освітнього рівня, рідної мови, знання іноземних мов, галузі діяльності, професії, хобі, статі, віку, соціального положення, національності та інших соціальних характеристик; наявність навичок певного стулю мовлення; виявлення факту зумисного викривлення письмового мовлення. Відомою діагностичною задачею є визначення особистісних характеристик автора анонімного листа, які дозволять виявити перелік осіб, що підлягають перевірці. Визначається також психологічний стан особи в момент написання цього листа, виявляється факт написання листа в незвичайних умовах, під диктовку іншої людини. Традиційно АТ передбачає послідовний розв’язок експертами задач класифікації та ідентифікації і містить кілька стадій [8]: 1. Підготовча. 2. Аналітична. 3. Порівняльних досліджень. 4. Формування висновку. На підготовчій стадії відбувається формулювання задачі та формування даних, що дозволяють її розв’язати. Оцінюється інформативність цих даних відповідно до поставленої задачі. Експерти знайомляться із постановою про призначення експертизи та матеріалами, що надійшли. На аналітичній стадії виявляються перелік ознак та їх характеристики, за допомогою яких буде надалі проведена ідентифікація автора текстового повідомлення. Вивчається окремо текст, що досліджується, та зразки письмових повідомлень підозрюваної особи. Результатом стадії є розв’язання задачі
  • 32. 32 класифікації – визначення до якої із відомих груп осіб відноситься автор тексту, що досліджується. На стадії порівняльних досліджень розв’язується перший етап задачі ідентифікації автора. Виявляються співпадання та відмінності характеристик тексту та ідентифікаційних ознак осіб, що належить цієї групи, належить текстове повідомлення. На стадії формування висновку відбувається оцінка виявлених співпадань та відмінностей, відбувається остаточне розв’язання задачі ідентифікації автора. Це заключна стадія АЕ. Формулюється експертний висновок. Вимогою до нього є однозначність формулювань. На мою думку при автоматизації АЕ залучення експертів на стадіях 1 і 4 (Підготовчій та Формування висновку) є обов’язковим. Тому інформаційна технологія повинна бути автоматизованою, а не автоматичною. 1.1.4. Профілювання Останнім часом актуальність задачі визначення властивостей автора за його текстовими повідомленнями зростає. Це пов’язано не тільки із необхідністю автоматизації процесу атрибуції тексту [22] – встановлення авторства анонімних повідомлень, чи до цього часу невідомих авторів літературних творів. Цікавими у науковому плані є дослідження тексту з метою автоматизації процесу виявлення додаткової інформації про стан здоров’я автора, виявлення його прихильності до вибору певних рішень. Розв’язання цієї задачі є важливою складовою процесу консолідації інформації [23], отриманої із різнорідних джерел, з метою виявлення механізмів впливовості зовнішніх факторів на досліджувані процеси в криміналістиці, історичній інформатиці, соціології та інших галузях людської діяльності, де вимагається багаторівневе перетворення даних у інформацію. Інформаційні технології аналізу текстових повідомлень можуть бути успішно використані також в процесі адаптивного позиціонування сайтів в глобальному інформаційному середовищі [24].
  • 33. 33 На сьогодні вважається доведеним, що стан автора відображається в його тексті [25]. За результатами досліджень формальних і неформальних характеристик текстового повідомлення визначаються окремі риси автора, що утворюють особистісний психологічний портрет [26]. В лінгвістиці сформульовано термін author profiling – профілювання автора, тобто виявлення ознак автора за написаним ним текстом [11]. Для розв’язання завдання профілювання тексту небхідно мати масив даних із відомостями про стать, вік, освіту та рідну мову автора а також параметрами тексту, що непідконтрольні автору, та засоби виявлення кореляцій між параметрами автора та параметрами тексту [27]. Автори стверджують, що на сьогодні не існує валідних методик визначення характеристик автора тексту, немає узагальнюючих теоретичних досліджень, не проведені статистичні дослідження для виявлення значимості тиї чи інших мовних елементів для діагностування характеристик автора текту [28]. Серед інформаційних систем, що реалізують методики профілювання авторів російськомовних текстів, відома програма ВААЛ (www.vaal.ru). Вона визначає мотивованість автора на основі аналізу лексики тексту. Програма «Анализ писем» (http://www.analizpisem.ru) визначає настрої автора на момент написання текстового повідомлення на основі положень теорії фоносемантики. Аналізується відношення частоти використання певних букв до середньої частоти їх використання особою. Вважається [29], що це характеризує настрій людини. 1.1.5. Контент-анатіз текстів Серед множини визначень контент-аналізу для цього дослідження доцільно застосувати таке [30]: «Контент-аналіз – це методика виявлення ймовірності появи в тексті певних характеристик, що цікавлять дослідника. Вона дозволяє досліднику прийти до певних висновків щодо намірів автора тексту чи можливих реакцій адресата».
  • 34. 34 Контент-аналіз використовує частотні характеристики текстів та їх статистичні оцінки, отриманих за результатами декомпозиції цих текстів. Найменшим неподільним елементом, що містить контент – є слово. Починаючи від визначення частот використання слів та словосполучень на нижньому рівні декомпозиції, далі піднімаються до аналізу частоти використання із заданими ознаками речень, абзаців, текстів в цілому – статей, книг [31]. Глибина декомпозиції текстів залежить від поставленого завдання. Висновки про тенденції розвитку науки робляться на підставі аналізу частоти використання книг певної тематики, редакційну політику видання оцінюють за аналізом частот статей та їх тематики. Популярність публічної особи оцінюється за кількістю текстів та речень, в яких згадується ім’я цієї особи. Тематику тексті та його емоційну забарвленість оцінюють за [31]. Незаперечною перевагою контент-аналізу є відтворюваність його результатів [32]. Але існують проблеми неоднозначності критеріїв та трудомісткості процедур [31]. Властивості змісту тесту вимірюються шляхом перерахунку кількості вживаних ознак, що відображають його суттєві якості [32]. Первинний опис формується шляхом створення переліку первинних понять (окремих слів), що є інформативними та відображають змістовні властивості тексту. Перелік понять формується евристично, експертним методом. Після цього поняття поєднуються за певною ознакою в категорії. Належність до певних категорій визначається не тільки шляхом порівняння із наперед заданим переліком слів (житло – будинок, барлога, помешкання та інші) але і за граматичними ознаками (дієслово, іменник та інші) [31]. 1.2. Процес перетворення текстових повідомлень 1.2.1. Декомпозиція тексту З метою виявлення ознак текстових повідомлень, що можуть бути використані в процесі інтелектуального аналізу тексту, проводиться