2. 2
АНОТАЦІЯ
Тарасенко Я.В. Метод семантичного стиснення текстової інформації для
протидії комп’ютерній лінгвістичній стеганографії. – Кваліфікаційна наукова праця
на правах рукопису.
Дисертація на здобуття наукового ступеня кандидата технічних наук за
спеціальністю 05.13.05 – «Комп’ютерні системи та компоненти». – Черкаський
державний технологічний університет, Черкаси, 2018.
Дисертація присвячена вирішенню науково-практичної задачі підвищення
ефективності протидії комп’ютерній лінгвістичній стеганографії на основі розробки
та впровадження методу семантичного стиснення текстової інформації з втратами,
що базується на дискурсному аналізі.
У першому розділі доведено актуальність роботи, досліджено види
стеганографії та її основні задачі, а також еволюцію лінгвістичної стеганографії як
одного з напрямів класичної. На основі цього виділено проблеми та перспективи
комп’ютерної лінгвістичної стеганографії як інструменту розвитку текстової на
сучасному етапі розвитку. Розглянуто загальні способи протидії засобам
стеганографії та особливості текстового стегоаналізу як часткового випадку, що
відноситься до дослідження текстових даних. Виділено проблеми комп’ютерної
обробки тексту та програмних засобів текстової стеганографії та стегоаналізу.
У другому розділі удосконалено методи комп’ютерного лінгвістичного аналізу
тексту (морфологічний, синтаксичний, дискурсний аналіз), математичні атаки на
стегосистему (статистичні, імовірнісні атаки та на основі математичного
моделювання). На основі аналізу існуючих методів стегоаналізу та алгоритмів
скорочення тексту, а також можливості використання математичних методів в
лінгвістичному стегоаналізі було адаптовано їх під задачі дослідження та визначено
особливості розробки методу семантичного стиснення текстової інформації і його
практичної реалізації для ефективної протидії комп’ютерній лінгвістичній
стеганографії.
Третій розділ присвячений розробці методу семантичного стиснення текстової
інформації для протидії комп’ютерній лінгвістичній стеганографії. Описуються
3. 3
етапи функціонування методу (етап автоматизованого лінгвістичного аналізу тексту,
оцінки осмисленості та виділення основної думки, стиснення та модифікації,
алгоритм формування тексту після внесення змін) та наведено механізм і засоби
семантичного стиснення на основі автоматизованого дискурсного аналізу з
використанням елементів інтенсіональної логіки та формальних граматик природніх
мов.
У четвертому розділі обґрунтовується вибір інструментальних засобів,
проводиться розробка та описується програмна реалізація, модулі системи та їх
взаємодія. Наводиться алгоритм роботи системи та її функціональні можливості.
Після опису матеріалів та стратегії тестування програмного комплексу наводяться
результати експериментального дослідження та порівнюються з аналогами,
доводиться ефективність системи, вирішується ряд питань, пов’язаних з перевіркою
працездатності програмного комплексу та ефективності розробленого методу. При
реалізації використовується розроблений метод семантичного стиснення текстової
інформації для протидії комп’ютерній лінгвістичній стеганографії.
Наукова новизна отриманих результатів:
вперше розроблено метод семантичного стиснення текстової інформації на
основі дискурсного аналізу шляхом застосування інтенсіональної логіки, який
забезпечує протидію комп’ютерній лінгвістичній стеганографії при обробці масивів
текстових даних довільної розмірності;
удосконалено методи комп’ютерного лінгвістичного стегоаналізу на основі
морфологічно-синтаксичного та семантичного аналізу шляхом дискурсного
дослідження, що забезпечило можливість обробки текстів будь-якої тематики і
стилю для виявлення прихованого повідомлення, як в осмислених, так і в штучно
згенерованих англомовних текстах;
удосконалено методи лінгвістичного аналізу та реферування тексту на основі
дискурсного аналізу, шляхом застосування математичних методів оцінки для атак
на стегосистему, поєднаних інтенсіональною логікою та формальними граматиками
природніх мов з лінгвістичними методами дослідження тексту, що забезпечило їх
адаптацію до вирішення задач комп’ютерного стегоаналізу.
4. 4
Практичне значення отриманий результатів полягає у використанні
розробленого методу для автоматизованого проведення атаки на лінгвістичну
стегосистему (включно зі стегосистемами, які ґрунтуються на використанні
неосмислених текстів), чим забезпечується можливість обробки безперервного
потоку текстової інформації. Новий підхід до дискурсного аналізу збільшує середні
показники стиснення та дозволяє видалити в середньому більше 98% наявного
стегоповідомлення. Комплексний підхід до стегоаналізу та стиснення відкриває
широкий спектр можливостей для застосування програмного комплексу для
вирішення багатьох практичних задач захисту інформації в комп’ютерних системах
та мережах, а саме:
1. В системах дослідження неперервних потоків обміну та передачі текстової
інформації терористичними угрупуваннями та для протидії стеганографічному
відволіканню несправжніми контейнерами.
2. Для автоматизації обробки текстових даних в комп’ютерних системах
стегоаналізу.
3. Для запобігання зберігання незаконної інформації в мережевих ресурсах з
вільним доступом.
4. Для забезпечення протидії процесу утворення текстової інформації з метою
приховування стегоповідомлення.
5. Для підвищення ефективності взаємодії людини з комп’ютерною системою
стегоаналізу за рахунок скорочення великих масивів текстових даних та
пришвидшення їх остаточної обробки людиною.
6. Для запобігання прихованої передачі керуючого сигналу при
нейролінгвістичному програмуванні.
7. Для протидії передачі дезінформуючого стегоповідомлення, в яке
вбудований маркер ігнорування його отримувачем.
8. Для запобігання збору зловмисником інформації про автора повідомлення і
збереження таємниці переписки в комп’ютерній мережі.
5. 5
Програмний комплекс може використовуватись в областях, не пов’язаних із
захистом інформації, а саме в програмних засобах обробки інформації, що
представлена природомовними об’єктами:
1. В комп’ютерних системах виявлення плагіату.
2. В комп’ютерних системах для виділення тематики та мети написання
тексту.
3. В системах автоматизованого перекладу.
4. В якості сканеру для виявлення неосмислених текстів.
Практична цінність роботи підтверджена актами впровадження основних
результатів дисертаційного дослідження: для ефективної протидії витоку
конфіденційної інформації при реалізації модуля спеціалізованого програмного
забезпечення в ТОВ «ГАЛАВТОТРАНС» (Акт впровадження від 06.06.2018 р.); в
навчальний процес ЗВО України, а саме: Черкаського державного технологічного
університету на кафедрі інформаційної безпеки та комп’ютерної інженерії при
викладанні дисципліни «Стеганографічні методи захисту інформації», а також при
курсовому та дипломному проектуванні студентами денної форми навчання
напряму підготовки 6.170103 «Управління інформаційною безпекою» (Акт
впровадження від 15.05.2018 р.); Черкаського інституту пожежної безпеки імені
Героїв Чорнобиля НУЦЗ України на кафедрі вищої математики та інформаційних
технологій при викладанні дисциплін «Основи інформаційних технологій» та
«Основи вищої математики та математична статистика» студентам денної форми
навчання освітньо-професійного напряму підготовки «Пожежна Безпека» (Акт
впровадження від 24.05.2018 р.).
Ключові слова: комп’ютерна лінгвістична стеганографія, семантичне
стиснення тексту, текстовий стегоаналіз, автоматизований стегоаналіз, визначення
осмисленості тексту, атака на лінгвістичну стегосистему, протидія комп’ютерній
лінгвістичній стеганографії, лінгвістична стегосистема, комп’ютерний стегоаналіз,
атака стисненням.
6. 6
SUMMARY
Tarasenko Ya. Method of the textual information semantic compression for
counteracting computer linguistic steganography. – Qualifying scientific work on the
rights of manuscripts.
Thesis for scientific degree of candidate of technical sciences, specialty: 05.13.05 –
“Computer systems and components”. – Cherkasy State Technological University,
Cherkasy, 2018.
The scientific and practical problem of increasing the effectiveness of computer
linguistic steganography countering based on the development and implementation of the
method of the textual information semantic compression with loss based on discourse
analysis is solved in the thesis.
The relevance of the work is proved in the first chapter. The types of steganography
and its main problems, as well as the evolution of linguistic steganography as one of the
classical steganography directions, are analyed. The problems and perspectives of
computer linguistic steganography as a tool for the textual steganography development at
the present time are highlighted on this basis. The general methods of the steganography
means counteracting and the textual steganalysis features as a partial case concerning to
the textual data analysis are reviewed. The problems of computer text processing and
textual steganography and stegaanalysis software are highlighted.
The second chapter deals with the improving of methods of computer linguistic
analysis of the text (morphological, syntactic, discursive analysis), mathematical attacks
on the stegosystem (statistical, probabilistic attacks and attacks on the basis of
mathematical simulation). On the basis of existing methods of stoaganalysis and
algorithms of text summarization analysis, as well as the mathematical methods in
linguistic stegoanalysis usage possibility analysis, they were adopted for research tasks
and the peculiarities of the textual information semantic compression method development
and its practical implementation for effective counteracting the computer linguistic
steganography were determined.
The third chapter is devoted to the development of the method of the textual
information semantic compression for counteracting computer linguistic steganography.
7. 7
The stages of the of the method’s functioning are described (automated linguistic analysis
of the text, evaluating its comprehension and allocation of the basic meaning,
compression, modification and formation of the final text after making changes). The
mechanism and means of semantic compression on the basis of automated discursive
analysis using elements of intensional logic and the natural language formal grammars are
described.
The fourth chapter justifies the tools’ choice, develops and describes software
implementation, the system’s modules and their interaction. The algorithm of the system
operation and its functionality is presented. After describing the materials and testing
strategy of the software complex, the results of the experimental study are described and
compared with the analogues. The efficiency of the system is presented, and the tasks
related to the software complex testing and the developed method effectiveness
verification are solved. The developed method of the textual information semantic
compression for counteracting computer linguistic steganography is used in the software
implementation.
Scientific novelty of the obtained results:
• the method of the textual information semantic compression on the basis of
discursive analysis was developed for the first time through the use of intensional logic,
which provides computer linguistic steganography counteraction in processing the textual
data arrays of arbitrary volume;
• the methods of computer linguistic stegoanalysis were improved on the basis of
morphological-syntactic and semantic analysis by means of discursive research, which
provides the ability for processing the texts of any subject and style for revealing the
hidden message both in meaningful and in artificially generated English texts;
• the methods of linguistic analysis and text summarization were improved on the
basis of discursive analysis, using mathematical methods for assessing attacks on the
stegosystem, combined with the help of intensional logic and formal grammars of natural
languages with linguistic methods of textual analysis, which ensured their adaptation to
the tasks of computer stygoanalysis.
8. 8
The practical value of the results is based in use of the developed method for
automated attacks on the linguistic stegosystem (including stegosystems based on the use
of meaningless texts), which provides the possibility of processing a stream of textual
data. The new approach to discursive analysis increases the average compression ratio and
allows to remove on average more than 98% of the existing stegomessage. A complex
approach to steganalysis and compression opens a wide range of possibilities for the
software complex application in solving lots of practical information protection tasks in
computer systems and networks, namely:
1. In the eternal streams investigation systems of textual data exchange and
transmission by the terrorist groups and in counteracting the steganographic distraction by
unrealized containers.
2. To automate the textual data processing in computer systems of stegoanalysis.
3. To prevent the storage of illegal information in free access network resources.
4. To counteract the process of creation the textual information for the purpose of
the stegomessage hidding.
5. To increase the effectiveness of human interaction with the computer system of
steganalysis by reducing the large arrays of textual data and accelerating its final
processing by man.
6. To prevent latent transmission of the control signal in neuro-linguistic
programming.
7. To counteract the false stegomessage transmission in which the ignoring marker
is built-in.
8. To prevent tracking the message’s author and keep the correspondence secret in
computer network.
The software complex can be used in areas not related to the information protection,
namely in software tools for processing information provided by the objects of natural
language:
1. In the computer systems of plagiarism detection.
2. In the computer systems of selection the subject and purpose of the text.
3. In automated translation systems.
9. 9
4. As a scanner to detect meaningless texts.
Practical value of work is confirmed by the acts of implementation of the main
results of the thesis: for effective counteraction to the leakage of confidential information
due to the implementation of the specialized software module at "GALAVTOTRANS" Ltd
(Act of implementation dated 06.06.2018); in the educational process of the ukrainian
institution of higher education, namely: Cherkasy State Technological University at the
Department of Information Security and Computer Engineering in teaching of the
discipline named "Steganographic Methods of Information Security", as well as in creating
tasks for academic year and graduation projects for full-time students of specialty
6.170103 "Information Security Management "(Act of implementation dated 15.05.2018);
Cherkasy Institute of Fire Safety named after Chornobyl Heroes of National University of
Civil Protection of Ukraine at the Department of Higher Mathematics and Information
Technologies in teaching of such disciplines as "Fundamentals of Information
Technologies" and "Fundamentals of Higher Mathematics and Mathematical Statistics" for
students of full-time education of "Fire Safety" specialty (Act of implementation dated
24.05.2018).
Keywords: computer linguistic steganography, semantic compression of the text,
textual styganalysis, automated steganalysis, determination of the textual meaningfulness,
attack on the linguistic stegosystem, counteraction the computer linguistic steganography,
linguistic stegosystem, computer steganalysis, attack by compression.
Список публікацій здобувача:
1. Криптографічне кодування: обробка та захист інформації : колективна
монографія / під ред. В.М. Рудницького. Харків : ТОВ «ДІСА ПЛЮС», 2018. 139 с.
2. Федотова-Півень І.М., Тарасенко Я.В. Шляхи задоволення потреб сучасної
кібербезпеки в рамках протидії методам комп’ютерної лінгвістичної стеганографії.
Безпека інформації. 2017. Том 23, № 3. С. 190-196.
3. Тарасенко Я.В. Програмний комплекс проведення атаки на лінгвістичну
стегосистему. Безпека інформації. 2018. Том 24, № 1. С. 56-61.
10. 10
4. Тарасенко Я.В., Півень О.Б., Федотова-Півень І.М. Метод семантичного
стиснення текстової інформації для протидії комп’ютерній лінгвістичній
стеганографії. Наука і техніка Повітряних Сил Збройних Сил України. 2018.
№ 3 (32). С. 68-78.
5. Тарасенко Я.В. Експериментальне дослідження роботи програмного
комплексу проведення атаки на лінгвістичну стегосистему. Захист інформації. 2018.
Том 20, № 2. С. 79-88.
6. Тарасенко Я.В., Півень О.Б. Особливості обчислення інформаційної
ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну
стегосистему. Безпека інформації. 2018. Том 24, № 2. С. 124-129.
7. Tarasenko Ya., Piven O., Fedotova-Piven I. Researching the features of practical
use of the software complex for attacking the linguistic stegosystem. World Science
(Warsaw, Poland). 2018. № 6 (34), Vol. 1. P. 27-30.
8. Fedotova-Piven I., Tarasenko Ya. The ways of solving problems of data
processing automation in the systems of textual steganalysis. Scientific Development and
Achievements: proceedings of the International Scientific Conference (St. Andrews,
Scotland, UK, December 1, 2017) / ed. M.A. Holdenblat. NGO «European Scientific
Platform». Obuhiv: Printing House «Drukarik», 2017. Part 2. P. 172-174.
9. Тарасенко Я. В. Перспективи розвитку автоматизованих програмних засобів
та систем текстового стегоаналізу. Наука у контексті сучасних глобалізаційних
процесів: матеріали Міжнародної науково-практичної конференції «Європейська
наукова платформа» (м. Полтава, 19 листопада 2017 р.): зб. наук. праць «ΛΌГOΣ»
/ відп. за вип. Голденблат М.А. Одеса: Друкарик, 2017. Т. 10. С. 75-77.
10. Tarasenko Y. About the textual information compression based on discourse
analysis. Проблеми інформатизації: тези доповідей четвертої Міжнародної
науково-технічної конференції (3-4 листопада 2016 р.). Черкаси: ЧДТУ; Баку: ВА
ЗС АР; Бельсько-Бяла: УТіГН; Полтава: ПНТУ ім. Юрія Кондратюка, 2016. С. 68.
11. Tarasenko Ya. To the problems of the textual information processing
automation in modern computer systems. Проблеми інформатизації: тези доповідей
п’ятої Міжнародної науково-технічної конференції (13-15 листопада 2017 р.).
11. 11
Черкаси: ЧДТУ; Баку: ВА ЗС АР; Бельсько-Бяла: УТіГН; Полтава: ПНТУ ім. Юрія
Кондратюка, 2017. С. 17.
12. Федотова-Півень І.М., Тарасенко Я.В. Небезпека лінгвістичної
стеганографії на сучасному етапі розвитку держави. Сучасні тенденції розвитку
науки: матеріали II Міжнародної науково-практичної конференції (м. Київ, 17-18
березня 2018 р.). Київ: МЦНД, 2018. Частина 2. С. 40-41.
13. Федотова-Півень І.М., Тарасенко Я.В. Ентропія як визначальна
характеристика в стегоаналізі тексту природньої мови. Концептуальні шляхи
розвитку науки: матеріали III Міжнародної науково-практичної конференції (м.
Київ, 05-06 квітня 2018 р.). Київ: МЦНД, 2018. Частина 2. С. 13-14.
14. Федотова-Півень І.М., Тарасенко Я.В. Особливості використання
математичних методів в лінгвістичній стеганографії та стегоаналізі. Інформаційна
безпека та комп’ютерні технології: матеріали III Міжнародної науково-
практичної конференції (м. Кропивницький, 19-20 квітня 2018 р.). Кропивницький:
ЦНТУ, 2018. С. 140-141.
15. Тарасенко Я. В. Англійська мова як основний інструмент комп’ютерної
лінгвістичної стеганографії. ProfIT Conference: матеріали I Міжнародної науково-
практичної конференції IT-професіоналів та аналітиків комп’ютерних систем (м.
Харків, 24-26 квітня 2018 р.). Харків: ТОВ «Планета-прінт», 2018. С. 31-32.
16. Тарасенко Я.В., Півень О.Б., Федотова-Півень І.М. Особливості
проектування комп’ютерних систем автоматизованого лінгвістичного стегоаналізу.
Інформаційне суспільство: технологічні, економічні та технічні аспекти
становлення: матеріали Міжнародної наукової інтернет-конференції (м. Тернопіль,
15 травня 2018 р.). Тернопіль, 2018. Випуск 28. С. 57-59.
12. 12
ЗМІСТ
ВСТУП................................................................................................................................ 15
РОЗДІЛ 1 АНАЛІЗ ЗАДАЧ І МЕТОДІВ ДЛЯ ПРОТИДІЇ КОМП’ЮТЕРНІЙ
ЛІНГВІСТИЧНІЙ СТЕГАНОГРАФІЇ ............................................................................. 23
1.1. Види стеганографії та її основні задачі ..................................................... 23
1.2. Проблеми та перспективи комп’ютерної лінгвістичної стеганографії .. 25
1.3. Найпоширеніші методи стеганографії....................................................... 27
1.3.1. Методи довільного інтервалу .......................................................... 27
1.3.2. Синтаксичні методи.......................................................................... 28
1.3.3. Семантичні методи ........................................................................... 29
1.4. Способи протидії засобам стеганографії................................................... 30
1.5. Методи проведення атак на стегосистему................................................. 33
1.5.1. Статистичні атаки ............................................................................. 33
1.5.2. Імовірнісні методи стегоаналізу...................................................... 34
1.5.3. Атаки на основі математичного моделювання.............................. 36
1.6. Особливості текстового стегоаналізу ........................................................ 37
1.7. Аналіз можливості використання математичних методів в
лінгвістичному стегоаналізі............................................................................... 40
1.8. Обґрунтування обраних методів аналізу тексту....................................... 41
1.9. Проблеми комп’ютерної обробки текстової інформації.......................... 42
1.10. Характеристика і опис популярних комп’ютерних систем текстової
стеганографії і стегоаналізу ............................................................................... 44
Висновки до розділу 1 ........................................................................................ 47
РОЗДІЛ 2 УДОСКОНАЛЕННЯ МЕТОДІВ ЛІНГВІСТИЧНОГО АНАЛІЗУ І
РЕФЕРУВАННЯ ТЕКСТУ ТА МЕТОДІВ КОМП’ЮТЕРНОГО ЛІНГВІСТИЧНОГО
СТЕГОАНАЛІЗУ............................................................................................................... 49
2.1. Адаптація методів комп’ютерного лінгвістичного аналізу для вирішення
задач комп’ютерного стегоаналізу.................................................................... 49
2.1.1. Морфологічний аналіз...................................................................... 49
2.1.2. Синтаксичний аналіз ........................................................................ 51
13. 13
2.1.3. Комп’ютерний дискурсний аналіз .................................................. 55
2.2. Особливості використання методів реферування тексту в
комп’ютерному стегоаналізі .............................................................................. 57
2.3. Удосконалення методів комп’ютерного лінгвістичного стегоаналізу для
врахування широкого спектру загроз ............................................................... 60
Висновки до розділу 2 ........................................................................................ 64
РОЗДІЛ 3 РОЗРОБКА МЕТОДУ СЕМАНТИЧНОГО СТИСНЕННЯ ТЕКСТОВОЇ
ІНФОРМАЦІЇ ДЛЯ ПРОТИДІЇ КОМП’ЮТЕРНІЙ ЛІНГВІСТИЧНІЙ
СТЕГАНОГРАФІЇ ............................................................................................................. 66
3.1. Етап автоматизованого лінгвістичного аналізу тексту............................ 66
3.2. Етап оцінки осмисленості тексту та виділення основної думки............. 68
3.3. Етап стиснення тексту................................................................................. 75
3.4. Етап модифікації тексту.............................................................................. 88
3.5. Алгоритм формування тексту після внесення змін.................................. 95
Висновки до розділу 3 ...................................................................................... 100
РОЗДІЛ 4 РЕАЛІЗАЦІЯ МЕТОДУ СЕМАНТИЧНОГО СТИСНЕННЯ ТЕКСТОВОЇ
ІНФОРМАЦІЇ ДЛЯ ПРОТИДІЇ КОМП’ЮТЕРНІЙ ЛІНГВІСТИЧНІЙ
СТЕГАНОГРАФІЇ ........................................................................................................... 103
4.1. Спеціалізована комп’ютерна система протидії комп’ютерній
лінгвістичній стеганографії.............................................................................. 103
4.1.1. Обґрунтування вибору інструментальних засобів розробки
спеціалізованої комп’ютерної системи................................................... 103
4.1.2. Короткий опис функціонування системи..................................... 107
4.1.3. Опис програмних компонентів спеціалізованої комп’ютерної
системи....................................................................................................... 111
4.1.4. Взаємодія модулів системи та алгоритм її роботи...................... 116
4.1.5. Функціональні можливості системи ............................................. 120
4.2. Експериментальна перевірка функціонування спеціалізованої
комп’ютерної системи ...................................................................................... 123
4.2.1. Підготовка експериментальної перевірки.................................... 123
14. 14
4.2.2. Опис матеріалів для проведення експериментальної перевірки 125
4.2.3. Результати експериментального дослідження............................. 127
4.2.4. Порівняльна характеристика розробленої системи з існуючими
аналогічними системами.......................................................................... 139
Висновки до розділу 4 ...................................................................................... 143
ВИСНОВКИ..................................................................................................................... 146
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ....................................................................... 148
ДОДАТОК А ЧАСТИНИ ПРОГРАМНОГО КОДУ ДЛЯ РЕАЛІЗАЦІЇ ОСНОВНИХ
СИСТЕМ ПРОГРАМНОГО КОМПЛЕКСУ ПРОВЕДЕННЯ АТАКИ НА
ЛІНГВІСТИЧНУ СТЕГОСИСТЕМУ............................................................................ 160
ДОДАТОК Б ЗНІМКИ ЕКРАНУ ІНТЕРФЕЙСУ ПРОГРАМНОГО КОМПЛЕКСУ180
ДОДАТОК В СПИСОК ПУБЛІКАЦІЙ ЗДОБУВАЧА ЗА ТЕМОЮ ДИСЕРТАЦІЇ ТА
ВІДОМОСТІ ПРО АПРОБАЦІЮ РЕЗУЛЬТАТІВ ДИСЕРТАЦІЇ.............................. 181
ДОДАТОК Г АКТИ ВПРОВАДЖЕННЯ РЕЗУЛЬТАТІВ ДИСЕРТАЦІЙНОЇ
РОБОТИ............................................................................................................................ 185
15. 15
ВСТУП
У сучасному інформаційному просторі залишаються великі ризики
кібертерористичних атак та промислового шпигунства. У цьому зв’язку, постає
гостра необхідність в розробці нових ефективних методів, програмних засобів і
комп’ютерних систем, що спрямовані на виявлення та протидію прихованому
витоку інформації чи передачі секретних даних за допомогою методів комп’ютерної
лінгвістичної стеганографії. Така необхідність зумовлена великим об’ємом текстової
інформації, особливо іноземною мовою, що передається і неможливістю її обробки
за допомогою людського ресурсу при відсутності ефективних комп’ютерних систем
обробки текстових даних для протидії загрозам, які спричинені комп’ютерною
лінгвістичною стеганографією.
Рахунок вітчизняних комп’ютерних систем стегоаналізу тексту ведеться на
одиниці. В той же час, існує багато закордонних методів та алгоритмів виявлення
прихованого повідомлення в тексті [19, 31, 47, 70, 71, 72, 73, 114, 115], розробкою
яких займаються такі вчені, як: P. Meng, L. Huang, Z. Chen, Zh. Yu, W. Yang,
І. В. Нечта, проте, вони мають багато недоліків, зокрема, вузько направлене
дослідження та відсутність дій зі стегоповідомленням. Тому, виникає необхідність
їх вдосконалення для видалення стегоповідомлення на основі семантичного
стиснення тексту.
До важливих алгоритмів скорочення тексту [63, 64, 65, 66, 117, 118, 119]
належать: Relevance Measure, Hidden Markov Model, Centroid Based Summarization,
Abstractive Summarization. Дослідженнями в цьому напрямку займалися такі вчені:
Y. Gong, X. Lin, D. P. O’leary, J. M. Conroy, D. R. Radev, H. Jing, M. Stys, D. Tam,
R. Paulus, C. Xiong, R. Socker. Недолік розглянутих методів полягає у відсутності
врахування особливостей використання методів стеганографії, а тому існує шанс
відновлення стегоповідомлення із залишкових фрагментів. Вирішення недоліку
можливе завдяки використанню інтенсіональної логіки для протидії семантичним і
синтаксичним методам стеганографії.
16. 16
Проте, розвиток комп’ютерних систем, особливо в напрямку вдосконалення
засобів комп’ютерної лінгвістичної стеганографії, зокрема, розвиток онтологічного
підходу [8] зумовлює необхідність протидії незаконному використанню цих засобів.
Значний внесок в цьому напрямку зробило дослідження вчених В. А. Міщенко та Ю.
В. Віланського з метою нанесення шкоди стегоповідомленню. Відсутність
комплексного підходу та можливості врахування семантики в описаному авторами
методі зумовлює потребу в проведенні досліджень в напрямку видалення
стегоповідомлення шляхом семантичного стиснення з урахуванням початкової
семантики тексту.
Крім того, атаки на лексичні стеганографічні системи природніх мов
досліджені недостатньо [33]. В той же час, існуючі програмні засоби лінгвістичного
аналізу [44], дискурсного аналізу [15, 45] та стиснення тексту є розрізненими вузько
спеціалізованими методами, які можна застосовувати лише як частину дослідження,
проведеного людиною, а тому виникає необхідність в дослідницьких розробках для
автоматизації стегоаналізу тексту та атак на лінгвістичну стегосистему шляхом
впровадження новітніх методів у комп’ютерні системи обробки інформації.
Отже, тема дисертаційного дослідження «Метод семантичного стиснення
текстової інформації для протидії комп’ютерній лінгвістичній стеганографії» є
актуальною.
Зв'язок роботи з науковими програмами, планами, темами.
Дисертаційна робота виконана відповідно до Постанови Президії НАНУ від
20.12.13 №179 «Основні наукові напрями та найважливіші проблеми
фундаментальних досліджень у галузі природничих, технічних і гуманітарних наук
Національної академії наук України на 2014-2018 рр.», а саме – п. 1.2.8.1. «Розробка
методів та інформаційних технологій розв’язання задач комп’ютерної криптографії
та стеганографії», а також в рамках тем, що відносяться до напряму інформаційних і
комунікаційних технологій та затверджені Кабінетом Міністрів України постановою
від 7 вересня 2011 р. № 942 «Про затвердження переліку пріоритетних тематичних
наукових досліджень і науково-технічних розробок на період до 2020 року», а саме –
17. 17
«Технології та засоби захисту інформації» та «Інтелектуальні інформаційні та
інформаційно-аналітичні технології».
Результати дисертаційної роботи пов’язані з науково-дослідною роботою
Черкаського державного технологічного університету: «Розробка та дослідження
нових методів протидії комп’ютерній лінгвістичній стеганографії на основі
використання семантичного аналізу та модифікації тексту» (ДР №0118U002313), в
якій автор був виконавцем.
Мета і задачі дослідження
Метою роботи є підвищення ефективності протидії комп’ютерній
лінгвістичній стеганографії на основі розробки та впровадження методу
семантичного стиснення текстової інформації з втратами, що базується на
дискурсному аналізі. Для досягнення мети були поставлені наступні задачі:
1. Розробити метод стиснення текстової інформації для протидії комп’ютерній
лінгвістичній стеганографії в текстових даних довільної розмірності.
2. Удосконалити методи комп’ютерного лінгвістичного стегоаналізу для
виявлення прихованого повідомлення в англомовних текстах.
3. Адаптувати методи лінгвістичного аналізу та реферування тексту для їх
застосування в задачах комп’ютерного стегоаналізу.
У відповідності з задачами дисертаційного дослідження визначені та
сформовані його об’єкт та предмет.
Об’єктом дослідження роботи є процеси лінгвістичного стегоаналізу тексту
та проведення атаки на лінгвістичну стегосистему для видалення
стегоповідомлення.
В якості предмета дослідження виступають методи проведення атаки на
стегосистему для видалення стегоповідомлення шляхом семантичного стиснення з
втратами, а також методи та комп’ютерні системи дискурсного лінгвістичного
аналізу та реферування текстів, заходи по протидії методам комп’ютерної
лінгвістичної стеганографії.
Процес вирішення задач дисертаційного дослідження вимагає комплексного
підходу до методів наукового дослідження.
18. 18
Для вирішення задачі розробки методу стиснення текстової інформації для
протидії комп’ютерній лінгвістичній стеганографії в текстових даних довільної
розмірності використано методи: теорія імовірності, математична статистика та
моделювання, теорія множин, морфологічний (метод логічного множення),
синтаксичний (імовірнісно-статистичний підхід) та дискурсний (текстуально-
інтертекстуальний підхід) аналіз, методи реферування та написання переказів,
структурне, модульне та динамічне програмування, функціональне тестування.
Для вирішення задачі удосконалення методів комп’ютерного лінгвістичного
стегоаналізу для виявлення прихованого повідомлення в англомовних текстах
використано методи: теорія імовірності, математична статистика та моделювання,
теорія множин, дискурсний аналіз, інтенсіональна логіка.
Для вирішення задачі адаптації методів лінгвістичного аналізу та реферування
тексту для їх застосування в задачах комп’ютерного стегоаналізу використано
методи: теорія імовірності, математична статистика та моделювання, теорія множин,
морфологічний, синтаксичний та дискурсний аналіз, методи реферування та
написання переказів, інтенсіональна логіка, формальні граматики природніх мов.
Наукова новизна отриманих результатів:
1. Вперше розроблено метод семантичного стиснення текстової інформації на
основі дискурсного аналізу шляхом застосування інтенсіональної логіки, який
забезпечує протидію комп’ютерній лінгвістичній стеганографії при обробці масивів
текстових даних довільної розмірності.
2. Удосконалено методи комп’ютерного лінгвістичного стегоаналізу на основі
морфологічно-синтаксичного та семантичного аналізу шляхом дискурсного
дослідження, що забезпечило можливість обробки текстів будь-якої тематики і
стилю для виявлення прихованого повідомлення, як в осмислених, так і в штучно
згенерованих англомовних текстах.
3. Удосконалено методи лінгвістичного аналізу та реферування тексту на основі
дискурсного аналізу, шляхом застосування математичних методів оцінки для атак
на стегосистему, поєднаних інтенсіональною логікою та формальними граматиками
19. 19
природніх мов з лінгвістичними методами дослідження тексту, що забезпечило їх
адаптацію до вирішення задач комп’ютерного стегоаналізу.
Практичне значення одержаних результатів використанні розробленого
методу для автоматизованого проведення атаки на лінгвістичну стегосистему
(включно зі стегосистемами, які ґрунтуються на використанні неосмислених
текстів), чим забезпечується можливість обробки безперервного потоку текстової
інформації. Новий підхід до дискурсного аналізу збільшує середні показники
стиснення та дозволяє видалити в середньому більше 98% наявного
стегоповідомлення. Комплексний підхід до стегоаналізу та стиснення відкриває
широкий спектр можливостей для застосування програмного комплексу для
вирішення багатьох практичних задач захисту інформації в комп’ютерних системах
та мережах, а саме:
1. В системах дослідження неперервних потоків обміну та передачі текстової
інформації терористичними угрупуваннями та для протидії стеганографічному
відволіканню несправжніми контейнерами.
2. Для автоматизації обробки текстових даних в комп’ютерних системах
стегоаналізу.
3. Для запобігання зберігання незаконної інформації в мережевих ресурсах з
вільним доступом.
4. Для забезпечення протидії процесу утворення текстової інформації з метою
приховування стегоповідомлення.
5. Для підвищення ефективності взаємодії людини з комп’ютерною системою
стегоаналізу за рахунок скорочення великих масивів текстових даних та
пришвидшення їх остаточної обробки людиною.
6. Для запобігання прихованої передачі керуючого сигналу при
нейролінгвістичному програмуванні.
7. Для протидії передачі дезінформуючого стегоповідомлення, в яке
вбудований маркер ігнорування його отримувачем.
8. Для запобігання збору зловмисником інформації про автора повідомлення і
збереження таємниці переписки в комп’ютерній мережі.
20. 20
Програмний комплекс може використовуватись в областях, не пов’язаних із
захистом інформації, а саме в програмних засобах обробки інформації, що
представлена природомовними об’єктами:
1. В комп’ютерних системах виявлення плагіату.
2. В комп’ютерних системах для виділення тематики та мети написання тексту.
3. В системах автоматизованого перекладу.
4. В якості сканеру для виявлення неосмислених текстів
Практична цінність роботи підтверджена актами впровадження основних
результатів дисертаційного дослідження: для ефективної протидії витоку
конфіденційної інформації при реалізації модуля спеціалізованого програмного
забезпечення в ТОВ «ГАЛАВТОТРАНС» (Акт впровадження від 06.06.2018 р.); в
навчальний процес ЗВО України, а саме: Черкаського державного технологічного
університету на кафедрі інформаційної безпеки та комп’ютерної інженерії при
викладанні дисципліни «Стеганографічні методи захисту інформації», а також при
курсовому та дипломному проектуванні студентами денної форми навчання
напряму підготовки 6.170103 «Управління інформаційною безпекою» (Акт
впровадження від 15.05.2018 р.); Черкаського інституту пожежної безпеки імені
Героїв Чорнобиля НУЦЗ України на кафедрі вищої математики та інформаційних
технологій при викладанні дисциплін «Основи інформаційних технологій» та
«Основи вищої математики та математична статистика» студентам денної форми
навчання освітньо-професійного напряму підготовки «Пожежна Безпека» (Акт
впровадження від 24.05.2018 р.).
Особистий внесок здобувача. Дисертація є самостійно виконаною завершеною
працею здобувача. Наукові положення та практичні результати, що в ній містяться
та виносяться на захист, отримані автором самостійно.
У друкованих працях, опублікованих у співавторстві автору належить:
визначення шляхів задоволення потреб кібербезпеки у нейтралізації загроз,
зумовлених комп’ютерною лінгвістичною стеганографією [35], розробка методу
семантичного стиснення текстової інформації для протидії комп’ютерній
лінгвістичній стеганографії [75], формалізація задачі визначення ентропії тексту
21. 21
природньої мови для видалення семантичної надлишковості [87], дослідження
практичних аспектів застосування програмного комплексу проведення атаки на
лінгвістичну стегосистему [112], дослідження особливостей представлення операцій
розширеного матричного криптоперетворення [80], визначення теоретичних та
практичних аспектів протидії комп’ютерній лінгвістичній стеганографії [6, 28, 37,
50, 105].
Апробація результатів дисертації. Результати дисертаційного дослідження
доповідались та розглядались на 10 міжнародних наукових конференціях:
1. Четверта міжнародна науково-технічна конференція «Проблеми
інформатизації», 3-4 листопада 2016 р., Черкаси – Баку – Бельсько-Бяла – Полтава.
2. Міжнародна науково-практична конференція «Наука у контексті сучасних
глобалізаційних процесів», 19 листопада 2017 р., м. Полтава.
3. П’ята міжнародна науково-технічна конференція «Проблеми
інформатизації», 13-15 листопада 2017 р., Черкаси – Баку – Бельсько-Бяла –
Полтава.
4. International Scientific and Practical Conference “Scientific Development and
Achievements”, December 1, 2017, St. Andrews, Scotland, UK.
5. II Міжнародна науково-практична конференція «Сучасні тенденції розвитку
науки», 17-18 березня 2018 р., м. Київ.
6. III Міжнародна науково-практична конференція «Концептуальні шляхи
розвитку науки», 05-06 квітня 2018 р., м. Київ.
7. III Міжнародна науково-практична конференція «Інформаційна безпека та
комп’ютерні технології», 19-20 квітня 2018 р., м. Кропивницький.
8. I Міжнародна науково-практична конференція IT-професіоналів та аналітиків
комп’ютерних систем «ProfIT Conference», 24-26 квітня 2018 р., м. Харків.
9. Міжнародна наукова інтернет-конференції «Інформаційне суспільство:
технологічні, економічні та технічні аспекти становлення», 15 травня 2018 р., м.
Тернопіль.
10. II International Scientific and Practical Conference “International Trends in
Science and Technology”, May 31, 2018, Warsaw, Poland.
22. 22
Публікації. Результати дослідження висвітлені в 16 наукових публікаціях, в
тому числі у 7 статтях [35, 50, 75, 87, 104, 111, 112], з яких 5 у фахових виданнях
[35, 75, 87, 104, 111], 1 у зарубіжному міжнародному рецензованому журналі [112],
8 тезах наукових конференцій [6, 28, 36, 37, 43, 52, 78, 105] та 1 колективній
монографії [80].
Структура дисертації. Дисертаційна робота викладена на 188 сторінках, з
яких 125 сторінок основного тексту та складається зі вступу, чотирьох розділів,
висновку, списку використаної літератури (складається із 119 джерел), 4 додатків.
Також дисертація налічує 22 рисунки, 3 таблиці, 32 формули.
23. 23
РОЗДІЛ 1
АНАЛІЗ ЗАДАЧ І МЕТОДІВ ДЛЯ ПРОТИДІЇ КОМП’ЮТЕРНІЙ
ЛІНГВІСТИЧНІЙ СТЕГАНОГРАФІЇ
1.1. Види стеганографії та її основні задачі
Шляхи передачі секретної інформації за умови приховування самого факту
наявності такого повідомлення, хвилювали людство з моменту зародження
цивілізації. Стеганографія як наука в сучасному вигляді сформувалася відносно
недавно, проте класична стеганографія існує з дописьменних часів. Під дією
процесів еволюції усіх сфер життя людини з класичної стеганографії виокремились
багато напрямів, в тому числі і досить молодих та перспективних. Таким чином,
Жмакін М.О. [1] умовно поділяє стеганографію на класичну, до якої не входять
комп’ютерні методи, комп’ютерну, що базується на принципах комп’ютерної
платформи та цифрову, що є частковим випадком комп’ютерної та ґрунтується на
приховуванні інформації в цифрових об’єктах [1].
У зв’язку з розвитком науки та техніки, збільшенням кількості персональний
комп’ютерів та об’єднання їх у мережі, комп’ютерну стеганографію можна вважати
найбільш перспективним напрямом на сьогоднішній день. Згідно з Грибуніним В. Г.
[2] «Повідомлення вбудовують зараз в цифрові дані, що, як правило, мають
аналогову природу – мову, аудіо записи, відео та навіть текстові файли і виконувані
файли програм» [2, c. 5]. Якщо взяти до уваги тенденції міграції файлів в мережі,
особливості передачі даних, кількість та завантаженість соціальних мереж, можна
стверджувати, що спілкування займає ключову позицію в процесі обміну
інформації. У процесі спілкування хоча і використовуються і відео і зображення і
звукові файли, проте основним засобом цього процесу є мова, а у випадку обміну
даних в мережі Інтернет це письмова мова, зокрема текстова інформація. Отже,
можна зробити висновок, що саме текст є найбільш перспективним контейнером для
передачі повідомлення, а враховуючи об’єми текстової інформації, яка щосекунди
24. 24
передається, можливість відслідкувати наявність стегоповідомлення наближається
до нуля.
Згідно з Кошевою Н. А., питання текстової стеганографії розглядає досить
мало наукових праць [3, c. 234], а відповідно можна стверджувати, що питання
текстової стеганографії та текстового стегоаналізу є важливими на сьогоднішній
день з огляду на стан інформаційної безпеки, проте недостатньо дослідженими.
Основною задачею стеганографії є приховування інформації. На ряду з
корисними завданнями, такими як захист авторських прав, визначення плагіату, все
ж передача прихованого повідомлення несе значну небезпеку в сучасному світі,
якщо враховувати інформаційні війни, корпоративне шпигунство та тероризм.
Текстова стеганографія як засіб приховування інформації займає провідне місце,
адже має на меті несанкціоноване зберігання і передачу інформації саме в процесі
спілкування.
За Неха Рані [4], текстова стеганографія є найбільш складною через наявність
меншої кількості надлишкових даних порівняно зі звуком чи зображенням [4,
c. 3014], але це робить її найбільш криптостійкою, оскільки криптостійкість
стеганографічного алгоритму обернено пропорційна розміру повідомлення [5].
Опираючись на це, можна обґрунтувати необхідність створення ефективних
алгоритмів стегоаналізу. Хоч у тексті і досить мало механічної надлишковості, але,
якщо розглядати текст з лінгвістичної точки зору, то він буде володіти значною
надлишковістю саме на смисловому рівні. Це зумовлено тим, що природня мова
сама по собі містить велику кількість другорядних даних, що можуть слугувати
контейнером для приховування секретного повідомлення. Отже, в будь якому
випадку текстова стеганографія представляє собою значний інтерес та несе в собі
небезпеку [6]. Питаннями ж текстової стеганографії займається також лінгвістична
стеганографія, досліджуючи саме лінгвістичні методи та засоби модифікації
текстового повідомлення.
25. 25
1.2. Проблеми та перспективи комп’ютерної лінгвістичної стеганографії
Комп’ютерна лінгвістична стеганографія як новий етап в розвитку напряму
класичної стеганографії має на меті автоматизацію існуючих підходів вбудовування
стегоповідомлення у текст за допомогою комп’ютерної техніки. Інакше кажучи,
вона об’єднує два окремі напрями, а саме комп’ютерну та лінгвістичну
стеганографію відповідно до вимог сучасного інформаційного суспільства. Адже, як
зазначає Бабіна О.І. в статті [7], «Методи сучасної лінгвістичної стеганографії
націлені на автоматизацію створення стеготексту» [7, с. 28]. Автор виділяє 2
напрями роботи комп’ютерних стеганографічних систем, що зводяться до
вбудовування стегоповідомлення при заданому стеготексті, де користувач програми
вводить повідомлення і воно автоматично інтегрується у текст тими чи іншими
засобами та при не заданому стеготексті, коли стеготекст генерується автоматично з
уже вбудованим повідомленням [7, c. 28]. Таким чином постає ряд питань при
комп’ютерній генерації тексту, які можливо використати при проведенні атаки на
лінгвістичну стегосистему. Зокрема, якщо розглядати перший напрям, основною
проблемою залишається модифікація тексту без явних відхилень в його
морфологічній чи синтаксичній структурі, а також у плані пунктуації. У випадку
другого напряму постає проблема осмисленості тексту. Це зумовлено
недосконалістю комп’ютерних систем синтезу та розуміння природньої мови, проте
проводяться розробки в напрямку алгоритмізації мови.
Наприклад, для вирішення цих питань, Бабіна О. І. розглядає різноманітні
прийоми, описані в статті [8]. Так, описується лексико-семантичний підхід, що
вирішує питання еквівалентності, співпадіння та взаємозамінності значень
синонімів відповідно до контексту, підхід що базується на машинному перекладі,
що працює за рахунок неоднозначності перекладу, та особливу увагу звертає на себе
онтологічний підхід, оснований на представленні Смисл-Текст [8]. Як зазначає
автор, онтологічний підхід є найбільш криптостійким, адже навіть людині, особливо
непідготовленій досить важко визначити прихований підтекст, не кажучи вже про
комп’ютерну програму. Проте, не зважаючи на високу складність реалізації такого
26. 26
підходу при його автоматизації, він є найбільш привабливим та перспективним, а
тому необхідно мати ефективні засоби протидії йому. Отже, автоматизація процесу
стегоаналізу знаходиться в пріоритеті. Оскільки описаний підхід є стійким до будь-
яких механічних маніпуляцій з текстом під час аналізу, це підтверджує необхідність
аналізу тексту та проведення змін саме на смисловому рівні для ефективної протидії
онтологічному підходу.
Складність такого аналізу полягає саме в автоматизації процесу, адже щоб
програма могла зрозуміти текст слід застосовувати одночасно усі лінгвістичні
прийоми з метою отримання базових результатів для згаданого дискурсного аналізу.
Основна проблема стегоаналізу в описаних умовах полягає не лише у визначенні
самого факту наявності секретного повідомлення, а у його розшифровці, яка в
деяких випадках неможлива. Саме тому перед засобами проведення атаки на
стегосистему стоїть задача комп’ютеризованого видалення цього повідомлення, а це
в свою чергу можливо досягти лише за допомогою видалення другорядної
смислової інформації. Стеганографія в свою чергу веде роботу з метою
недопущення такого результату. Проте всі маніпуляції проходять саме з текстом на
тому чи іншому рівні сприйняття.
Думки вчених різняться щодо питання визначення місця лінгвістичної та
відповідно похідної від неї комп’ютерної лінгвістичної стеганографії в ієрархії
напрямів стеганографії. Наприклад, Єфременко Н. В. в [9] виділяє в окремий напрям
текстову стеганографію, що, на думку автора є частиною лінгвістичної [9, с. 69].
Проте, як зазначає Кріста Бенет у [10], поняття текстової стеганографії є більш
широким, в свою чергу поняття лінгвістичної стеганографії є поняттям вужчим за
текстову стеганографію, адже не важливо був текст згенерований, модифікований
механічно чи за допомогою лінгвістичних засобів, результат залишається незмінним
– секретне повідомлення приховане у тексті [10, с. 7-8]. На основі цього можна
стверджувати, що прийоми лінгвістичної та текстової стеганографії взаємопов’язані.
В той же час, комп’ютерна обробка тексту, як стверджується в [11], має на
меті розподілення тексту по блокам, створення прямих та зворотніх словників та
виявлення формальної граматики, однак використовується лише в якості
27. 27
допоміжного методу дослідження у зв’язку зі своєю недосконалістю. Звідси можна
зробити висновок, що є висока необхідність в його доопрацюванні для виключення з
процесу дослідження людського фактору та повної автоматизації процесу.
Барсуков В.С. в статті [12] описує загальні тенденції розвитку стеганографії та
виділяє принципово нові види прихованого зв’язку, що, як стверджує автор,
з’являться після 2030 року [12]. Проте, якщо розглядати лінгвістичну
стеганографію, то базуючись на тенденціях її розвитку можна стверджувати, що
комп’ютерна лінгвістична стеганографія не лише сучасний етап, а й напрям, за яким
вона буде розвиватися в найближчому майбутньому.
1.3. Найпоширеніші методи стеганографії
1.3.1. Методи довільного інтервалу
З метою ефективної розробки методу семантичного стиснення текстової
інформації для протидії комп’ютерній лінгвістичній стеганографії, що буде
проводити атаку на лінгвістичну стегосистему, перш за все слід виявити особливості
методів лінгвістичної стеганографії та відповідно визначити їх властивості. Як вже
згадувалось в першому розділі роботи, Кухарська Н. П. в статті [13] виділяє три
групи методів лінгвістичної стеганографії: методи довільного інтервалу,
синтаксичні та семантичні методи.
Методи довільного інтервалу поділяються на такі види: метод зміни кількості
пропусків між реченнями, метод зміни кількості пропусків у кінці текстових рядків,
метод зміни кількості пропусків між словами вирівняного за шириною тексту [13].
Отже, ця група методів побудована саме на кодуванні повідомлення на основі
кількості пропусків між словами чи реченнями. Вона найпростіша в реалізації та
найочевидніша для виявлення. І, хоча існує думка, що модифікації не спричиняють
змін у значенні фраз та читач навряд чи помітить додані пробіли [13], проте,
очевидно, що методи довільного інтервалу мають досить низьку криптостійкість,
особливо коли йдеться про комп’ютерний аналіз, адже зайві інтервали навіть при
28. 28
попередньому огляді легко помітити. А комп’ютерна програма аналізу швидко
знайде зайві інтервали в тексті та зі стовідсотковою точністю шляхом виділення
закономірності статистичного розподілу інтервалів визначить, випадкові чи
навмисні ці зміни в тексті.
Згідно з Ефременко Н.В. [9], недолік цієї групи методів полягає у втраті
доданих бітів під час форматування текстовими редакторами і саме тому в
лінгвістичній стеганографії використовуються синтаксичні та семантичні методи
окремо чи разом з методами довільного інтервалу [9].
1.3.2. Синтаксичні методи
Наступною групою методів лінгвістичної стеганографії є синтаксичні методи
приховування інформації у тексті.
Кошева Н. А. в [14] визначає, що синтаксичні методи базуються на
особливостях пунктуації, абревіатур та скорочень, а також стверджує, що до
синтаксичних методів відносять і методи, основані на зміні стилю і структури
речення без помітного спотворення вихідного смислового навантаження [14, c. 35].
Автор виділяє переваги такого підходу, що полягають у легкості вбудовування
синтаксичних конструкцій в будь-який текст, відзначає легкість розробки і
автоматизації систем для реалізації синтаксичних методів, а також вказує недоліки,
що полягають у легкості злому системи та можливість видалення секретної
інформації як при навмисній атаці, так і при повторному наборі тексту чи
редагуванні текстовими редакторами [15, c. 35]. Кухарська Н. П. в статті [13]
погоджується з цими характеристиками та вказує на суттєве спотворення смислу
тексту у випадку, коли мова йде про відхилення від правил пунктуації, що є
неоднозначними [13]. Це відкриває шлях для ще однієї атаки, основаної на
смисловому аналізі тексту.
Таким чином синтаксичні методи є більш криптостійкими порівняно з групою
методів довільних інтервалів, особливо для засобів комп’ютерного стегоаналізу,
адже в цьому випадку слід проводити дослідження смислової цілісності тексту, що
29. 29
буде порушена зміною пунктуації, та потребуватиме визначення смислового
навантаження кожної з частин тексту та дослідження їх смислової єдності. Проте
комп’ютерні засоби з легкістю можуть знайти незвичний розподіл регістру букв,
невидимих символів та видалити повідомлення шляхом комп’ютерного приведення
формату до загальних норм, а програмний продукт, що направлений на стиснення
смислової інформації на основі дискурсного аналізу зможе ефективно протидіяти
будь-яким синтаксичним маніпуляціям.
1.3.3. Семантичні методи
До наступної значної групи методів лінгвістичної стеганографії належать
семантичні методи, які беруть початок від певних літературних прийомів класичної
стеганографії, як анаграми, акровірші чи алюзії [16], що дозволяли приховати
інформацію в будь-яких літературних чи наукових працях.
Кошева Н. А. в [14] називає їх ще лексичними методами, що полягають у
використанні семантичних особливостей мови та разом з тим відзначає їх високу
ефективність, зумовлену маніпуляціями безпосередньо зі словами та реченнями і
відносить до цієї групи метод заміни синонімів, що дозволяє зберегти синтаксичну
структуру речень та основне смислове навантаження [14].
Також Кухарська Н. П. у роботі [13] зауважує, що при використанні
семантичних методів іноді виникають деякі нюанси, пов’язані з вживанням
ключових слів у реченнях та їх смисловими відтінками [13]. А отже можна зробити
висновок, що протидіяти таким методам значно важче, оскільки текст слід
аналізувати також на смисловому рівні та розглядати його в цілому, що складніше
реалізувати на програмному рівні, а отже виникають певні перешкоди, пов’язані з
програмним аналізом тексту.
Хоча семантичні методи володіють найвищою криптостійкістю серед усіх
інших розглянутих груп методів, вони не позбавлена значних недоліків. Так,
Кошева Н. А. вказує на можливість спотворення стилю тексту, зокрема авторського
стилю і стверджує, що саме на цьому факті базується більшість методів стегоаналізу
30. 30
[3]. Проте, як вже згадувалось, методи стегоаналізу та стеганографії розвиваються
паралельно, а отже семантичні методи розвиваються в напрямку позбавлення цих
недоліків і протидії більшості відомих атак на стегосистему. Звідси слідує, що
необхідно використовувати нестандартний підхід до стегоаналізу, що
будуватиметься на комп’ютерній оцінці осмисленості тексту загалом та смислової
єдності кожної його частини зокрема. Таким чином, аналіз дискурсу тексту в
комплексі з методами стегоаналізу, направленими на протидію попереднім групам
методів стеганографії забезпечить ефективне виявлення факту спотворення
смислового відтінку частини тексту, спричиненого заміною синонімів шляхом
відстеження єдності мікротем. Такий комплексний підхід оснований на існуючих
методах лінгвістичного аналізу тексту.
1.4. Способи протидії засобам стеганографії
Крім вищеописаних методів уснує також ряд підходів, про які не слід забувати, як,
наприклад, про методи текстової стеганографії, основані на зміні коду символів
тексту та вбудовуванні стегоповідомлення на основі різниці форматів кодування. На
сайті [17] демонструється приклад роботи програмних засобів, що реалізують
методи з різними кодовими комбінаціями в форматі UNICODE та описується
можливість їх використання для соціальних мереж. Проте такий вид стеганографії
не надійний, враховуючи незначну криптостійкість алгоритму. Якщо мова йде про
надійність, не можливо не згадати про описану в книзі [18] тенденцію підвищення
ефективності стеганографії в зображеннях шляхом підвищення стійкості до атак
стисненням та про твердження, що стиснення та стеганографія це 2 поняття, що
нерозривно супроводжують одне одного [18, с. 248]. Базуючись на дослідженнях
[19] можна стверджувати, що криптостійкість текстової стеганографії також
піддається впливу атаки механічним стисненням. Тож, на сучасному етапі розвитку
проводяться спроби розробки методів текстової стеганографії, що направлені на
ліквідацію цього недоліку, проте смислове стиснення інформації залишається тією
31. 31
атакою, що може ефективно протидіяти методам сучасної тектової стеганографії та з
великою ефективністю видаляти стегоповідомлення.
Н. Урбанович та В. Пласковіцкий в статті [20] вказують, що проведений
порівняльний аналіз існуючих методів текстової стеганографії за допомогою
спеціально розробленого програмного засобу підтверджує факт недостатньо
ефективного приховування повідомлення та роблять висновок про актуальність
задачі розробки нових методів, що підвищують стійкість до атак [20]. Таким чином,
перш за все слід розглянути способи протидії засобам стеганографії взагалі та
особливості текстового стегоаналізу зокрема. Це підтвердить факт необхідності
розробки методу стиснення текстової інформації для протидії комп’ютерній
лінгвістичній стеганографії, а також виявить певні тенденції текстового стегоаналізу
для більш широкого розуміння напрямку роботи.
Ефективність засобів стеганографії визначається ефективністю засобів
стегоаналізу та успішністю атак на стегосистему. Більшість різновидів способів
протидії засобам стеганографії підпорядковуються певному алгоритму дій. Таким
чином, Грибунін В. Г. в книзі [2] визначає такі пункти первинного аналізу, як
первинне сортування стегоконтейнеру за зовнішніми ознаками, виділення
стегоконтейнеру з відомим алгоритмом вбудовування, визначення використаних
стегоалгоритмів, перевірка достатності обсягу матеріалу для стегоаналізу, перевірка
можливості проведення аналізу по окремим випадкам, аналітична розробка
стегоматеріалів, розробка методів розкриття стегосистеми, виділення
стегоконтейнеру з відомими алгоритмами вбудовування, але невідомими ключами і
т. д. [2, с. 32-33].
На основі цього автор виділяє такі стегоатаки, як атака проти систем
прихованої передачі повідомлення та атаки на системи цифрових водяних знаків, що
в свою чергу поділяються на геометричні, криптографічні атаки, атаки проти
використаного протоколу та атаки, направлені на видалення цифрового водяного
знаку [2]. Автор описує особливості кожного типу атак, а саме, для першого типу
характерний факт незмінності стегоповідомлення та відсутність протидії роботі
декодеру, що не може насторожити відправника та отримувача повідомлення;