3. 1
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми дисертації. У сучасному інформаційному просторі
залишаються великі ризики кібертерористичних атак та промислового шпигунства.
У цьому зв’язку, постає гостра необхідність в розробці нових ефективних методів,
програмних засобів і комп’ютерних систем, що спрямовані на виявлення та
протидію прихованому витоку інформації чи передачі секретних даних за
допомогою методів комп’ютерної лінгвістичної стеганографії. Така необхідність
зумовлена великим об’ємом текстової інформації, особливо іноземною мовою, що
передається і неможливістю її обробки за допомогою людського ресурсу при
відсутності ефективних комп’ютерних систем обробки текстових даних для протидії
загрозам, які спричинені комп’ютерною лінгвістичною стеганографією.
Рахунок вітчизняних комп’ютерних систем стегоаналізу тексту ведеться на
одиниці. В той же час, існує багато закордонних методів та алгоритмів виявлення
прихованого повідомлення в тексті, розробкою яких займаються такі вчені, як:
P. Meng, L. Huang, Z. Chen, Zh. Yu, W. Yang, І. В. Нечта, проте, вони мають багато
недоліків, зокрема, вузько направлене дослідження та відсутність дій зі
стегоповідомленням. Тому, виникає необхідність їх вдосконалення для видалення
стегоповідомлення на основі семантичного стиснення тексту.
До важливих алгоритмів скорочення тексту належать: Relevance Measure,
Hidden Markov Model, Centroid Based Summarization, Abstractive Summarization.
Дослідженнями в цьому напрямку займалися такі вчені: Y. Gong, X. Lin,
D. P. O’leary, J. M. Conroy, D. R. Radev, H. Jing, M. Stys, D. Tam, R. Paulus, C. Xiong,
R. Socker. Недолік розглянутих методів полягає у відсутності врахування
особливостей використання методів стеганографії, а тому існує шанс відновлення
стегоповідомлення із залишкових фрагментів. Вирішення недоліку можливе завдяки
використанню інтенсіональної логіки для протидії семантичним і синтаксичним
методам стеганографії.
Проте, розвиток комп’ютерних систем, особливо в напрямку вдосконалення
засобів комп’ютерної лінгвістичної стеганографії, зокрема, розвиток онтологічного
підходу зумовлює необхідність протидії незаконному використанню цих засобів.
Значний внесок в цьому напрямку зробило дослідження вчених В. А. Міщенко та
Ю. В. Віланського з метою нанесення шкоди стегоповідомленню. Відсутність
комплексного підходу та можливості врахування семантики в описаному авторами
методі зумовлює потребу в проведенні досліджень в напрямку видалення
стегоповідомлення шляхом семантичного стиснення з урахуванням початкової
семантики тексту.
Крім того, атаки на лексичні стеганографічні системи природніх мов
досліджені недостатньо. В той же час, існуючі програмні засоби лінгвістичного
аналізу, дискурсного аналізу та стиснення тексту є розрізненими вузько
спеціалізованими методами, які можна застосовувати лише як частину дослідження,
4. 2
проведеного людиною, а тому виникає необхідність в дослідницьких розробках для
автоматизації стегоаналізу тексту та атак на лінгвістичну стегосистему шляхом
впровадження новітніх методів у комп’ютерні системи обробки інформації.
Отже, тема дисертаційного дослідження «Метод семантичного стиснення
текстової інформації для протидії комп’ютерній лінгвістичній стеганографії» є
актуальною.
Зв'язок роботи з науковими програмами, планами, темами. Дисертаційна
робота виконана відповідно до Постанови Президії НАНУ від 20.12.13 №179
«Основні наукові напрями та найважливіші проблеми фундаментальних досліджень
у галузі природничих, технічних і гуманітарних наук Національної академії наук
України на 2014-2018 рр.», а саме – п. 1.2.8.1. «Розробка методів та інформаційних
технологій розв’язання задач комп’ютерної криптографії та стеганографії», а також
в рамках тем, що відносяться до напряму інформаційних і комунікаційних
технологій та затверджені Кабінетом Міністрів України постановою від 7 вересня
2011 р. № 942 «Про затвердження переліку пріоритетних тематичних наукових
досліджень і науково-технічних розробок на період до 2020 року», а саме –
«Технології та засоби захисту інформації» та «Інтелектуальні інформаційні та
інформаційно-аналітичні технології».
Результати дисертаційної роботи пов’язані з науково-дослідною роботою
Черкаського державного технологічного університету на тему: «Розробка та
дослідження нових методів протидії комп’ютерній лінгвістичній стеганографії на
основі використання семантичного аналізу та модифікації тексту»
(ДР №0118U002313), в якій автор був виконавцем.
Мета і задачі дослідження. Метою роботи є підвищення ефективності
протидії комп’ютерній лінгвістичній стеганографії на основі розробки та
впровадження методу семантичного стиснення текстової інформації з втратами, що
базується на дискурсному аналізі.
Для досягнення мети поставлено наступні задачі:
1. Розробити метод стиснення текстової інформації для протидії комп’ютерній
лінгвістичній стеганографії в текстових даних довільної розмірності.
2. Удосконалити методи комп’ютерного лінгвістичного стегоаналізу для
виявлення прихованого повідомлення в англомовних текстах.
3. Адаптувати методи лінгвістичного аналізу та реферування тексту для їх
застосування в задачах комп’ютерного стегоаналізу.
Об’єктом досліджень роботи є процеси лінгвістичного стегоаналізу тексту та
проведення атаки на лінгвістичну стегосистему для видалення стегоповідомлення.
Предметом досліджень є методи проведення атаки на стегосистему для
видалення стегоповідомлення шляхом семантичного стиснення з втратами, а також
методи та комп’ютерні системи дискурсного лінгвістичного аналізу та реферування
текстів, заходи по протидії методам комп’ютерної лінгвістичної стеганографії.
5. 3
Методи досліджень. Для вирішення задачі розробки методу стиснення
текстової інформації для протидії комп’ютерній лінгвістичній стеганографії в
текстових даних довільної розмірності використано методи: теорія імовірності,
математична статистика та моделювання, теорія множин, морфологічний (метод
логічного множення), синтаксичний (імовірнісно-статистичний підхід) та
дискурсний (текстуально-інтертекстуальний підхід) аналіз, методи реферування та
написання переказів, структурне, модульне та динамічне програмування,
функціональне тестування.
Для вирішення задачі удосконалення методів комп’ютерного лінгвістичного
стегоаналізу для виявлення прихованого повідомлення в англомовних текстах
використано методи: теорія імовірності, математична статистика та моделювання,
теорія множин, дискурсний аналіз, інтенсіональна логіка.
Для вирішення задачі адаптації методів лінгвістичного аналізу та реферування
тексту для їх застосування в задачах комп’ютерного стегоаналізу використано
методи: теорія імовірності, математична статистика та моделювання, теорія множин,
морфологічний, синтаксичний та дискурсний аналіз, методи реферування та
написання переказів, інтенсіональна логіка, формальні граматики природніх мов.
Наукова новизна одержаних результатів.
Вперше розроблено метод семантичного стиснення текстової інформації на
основі дискурсного аналізу шляхом застосування інтенсіональної логіки, який
забезпечує протидію комп’ютерній лінгвістичній стеганографії при обробці масивів
текстових даних довільної розмірності.
Удосконалено методи комп’ютерного лінгвістичного стегоаналізу на основі
морфологічно-синтаксичного та семантичного аналізу шляхом дискурсного
дослідження, що забезпечило можливість обробки текстів будь-якої тематики і
стилю для виявлення прихованого повідомлення як в осмислених, так і в штучно
згенерованих англомовних текстах.
Удосконалено методи лінгвістичного аналізу та реферування тексту на основі
дискурсного аналізу шляхом застосування математичних методів оцінки для атак на
стегосистему, поєднаних інтенсіональною логікою та формальними граматиками
природніх мов з лінгвістичними методами дослідження тексту, що забезпечило їх
адаптацію до вирішення задач комп’ютерного стегоаналізу.
Практичне значення одержаних результатів.
Практичне значення полягає у використанні розробленого методу для
автоматизованого проведення атаки на лінгвістичну стегосистему (включно зі
стегосистемами, які ґрунтуються на використанні неосмислених текстів), чим
забезпечується можливість обробки безперервного потоку текстової інформації.
Новий підхід до дискурсного аналізу збільшує середні показники стиснення та
дозволяє видалити в середньому більше 98% наявного стегоповідомлення.
Комплексний підхід до стегоаналізу та стиснення відкриває широкий спектр
6. 4
можливостей для застосування програмного комплексу для вирішення багатьох
практичних задач захисту інформації в комп’ютерних системах та мережах, а саме:
1. В системах дослідження неперервних потоків обміну та передачі текстової
інформації терористичними угрупуваннями та для протидії стеганографічному
відволіканню несправжніми контейнерами.
2. Для автоматизації обробки текстових даних в комп’ютерних системах
стегоаналізу.
3. Для запобігання зберігання незаконної інформації в мережевих ресурсах з
вільним доступом.
4. Для забезпечення протидії процесу утворення текстової інформації з метою
приховування стегоповідомлення.
5. Для підвищення ефективності взаємодії людини з комп’ютерною системою
стегоаналізу за рахунок скорочення великих масивів текстових даних та
пришвидшення їх остаточної обробки людиною.
6. Для запобігання прихованої передачі керуючого сигналу при
нейролінгвістичному програмуванні.
7. Для протидії передачі дезінформуючого стегоповідомлення, в яке
вбудований маркер ігнорування його отримувачем.
8. Для запобігання збору зловмисником інформації про автора повідомлення і
збереження таємниці переписки в комп’ютерній мережі.
Програмний комплекс може використовуватись в областях, не пов’язаних із
захистом інформації, а саме в програмних засобах обробки інформації, що
представлена природомовними об’єктами:
1. В комп’ютерних системах виявлення плагіату.
2. В комп’ютерних системах для виділення тематики та мети написання тексту.
3. В системах автоматизованого перекладу.
4. В якості сканеру для виявлення неосмислених текстів.
Практична цінність роботи підтверджена актами впровадження основних
результатів дисертаційного дослідження: для ефективної протидії витоку
конфіденційної інформації при реалізації модуля спеціалізованого програмного
забезпечення в ТОВ «ГАЛАВТОТРАНС» (Акт впровадження від 06.06.2018 р.); в
навчальний процес ЗВО України, а саме: Черкаського державного технологічного
університету на кафедрі інформаційної безпеки та комп’ютерної інженерії при
викладанні дисципліни «Стеганографічні методи захисту інформації», а також при
курсовому та дипломному проектуванні студентами денної форми навчання
напряму підготовки 6.170103 «Управління інформаційною безпекою» (Акт
впровадження від 15.05.2018 р.); Черкаського інституту пожежної безпеки імені
Героїв Чорнобиля НУЦЗ України на кафедрі вищої математики та інформаційних
технологій при викладанні дисциплін «Основи інформаційних технологій» та
«Основи вищої математики та математична статистика» студентам денної форми
7. 5
навчання освітньо-професійного напряму підготовки «Пожежна Безпека» (Акт
впровадження від 24.05.2018 р.).
Особистий внесок здобувача. Дисертація є самостійно виконаною завершеною
працею здобувача. Наукові положення та практичні результати, що в ній містяться
та виносяться на захист, отримані автором самостійно.
В опублікованих працях у співавторстві автору належить: визначення шляхів
задоволення потреб кібербезпеки у нейтралізації загроз, зумовлених комп’ютерною
лінгвістичною стеганографією [1], розробка методу семантичного стиснення
текстової інформації для протидії комп’ютерній лінгвістичній стеганографії [3],
формалізація задачі визначення ентропії тексту природньої мови для видалення
семантичної надлишковості [5], дослідження практичних аспектів застосування
програмного комплексу проведення атаки на лінгвістичну стегосистему [6],
дослідження особливостей представлення операцій розширеного матричного
криптоперетворення [8], визначення теоретичних та практичних аспектів протидії
комп’ютерній лінгвістичній стеганографії [7, 12-14, 16].
Апробація роботи. Результати дисертаційного дослідження доповідались та
розглядались на 10 міжнародних наукових конференціях: 4-й Міжнародній науково-
технічній конференції «Проблеми інформатизації» (Черкаси – Баку – Бельсько-Бяла
– Полтава, 3-4 листопада 2016); Міжнародній науково-практичній конференції
«Наука у контексті сучасних глобалізаційних процесів» (м. Полтава, 19 листопада
2017); 5-й Міжнародній науково-технічній конференції «Проблеми інформатизації»
(Черкаси – Баку – Бельсько-Бяла – Полтава, 13-15 листопада 2017); International
Scientific and Practical Conference “Scientific Development and Achievements”
(St. Andrews, Scotland, UK, 1 December, 2017); II Міжнародній науково-практичній
конференції «Сучасні тенденції розвитку науки» (м. Київ, 17-18 березня 2018);
III Міжнародній науково-практичній конференції «Концептуальні шляхи розвитку
науки» (м. Київ, 05-06 квітня 2018); III Міжнародній науково-практичній
конференції «Інформаційна безпека та комп’ютерні технології» (м. Кропивницький,
19-20 квітня 2018); I Міжнародній науково-практичній конференції IT-
професіоналів та аналітиків комп’ютерних систем «ProfIT Conference» (м. Харків,
24-26 квітня 2018); Міжнародній науковій інтернет-конференції «Інформаційне
суспільство: технологічні, економічні та технічні аспекти становлення»
(м. Тернопіль, 15 травня 2018); II International Scientific and Practical Conference
“International Trends in Science and Technology” (Warsaw, Poland, 31 May, 2018).
Публікації. Результати дослідження висвітлені в 16 наукових публікаціях, а
саме: у 7 статтях, з яких 5 у фахових виданнях (з них 2 статті одноосібно), 1 в
іноземному міжнародному виданні, 8 тезах доповідей на конференціях та 1
колективній монографії.
Структура та обсяг дисертації. Дисертаційна робота викладена на 188
сторінках, з яких 125 сторінок основного тексту та складається зі вступу, чотирьох
8. 6
розділів, висновку, списку використаної літератури, що складається зі 119 джерел та
4 додатків. Дисертація налічує 22 рисунки, 3 таблиці, 32 формули.
ОСНОВНИЙ ЗМІСТ РОБОТИ
У вступі обґрунтовано актуальність роботи, сформульовано мету та задачі
дисертаційного дослідження, наведено об’єкт, предмет та використані методи,
визначено наукову новизну та практичне значення результатів, відображено зв’язок
дисертації з діючими науковими програмами, планами та темами. Представлено
інформацію про наукові публікації за темою дисертаційної роботи та про її
апробацію. Відображено структуру дисертації.
У першому розділі «Текстова стеганографія та особливості текстового
стегоаналізу» – досліджено основні задачі стеганографії та її види. Виявлено, що
питання текстової стеганографії розглядає порівняно мало наукових праць.
Доведено актуальність досліджень в напрямку протидії текстовій стеганографії.
Розглянуто підрозділ текстової стеганографії – лінгвістичну стеганографію. На
основі дослідження розвитку, проблем та перспектив лінгвістичної стеганографії
доводиться важливість створення автоматизованих комп’ютерних засобів для
протидії їй та необхідність розробки ефективного методу, що забезпечив би
виділення смислу та підтексту завдяки автоматизованому дискурсному аналізу.
Після розгляду текстової стеганографії на сучасному етапі її розвитку та
основних її методів, було доведено, що смислове стиснення інформації є
ефективною атакою на лінгвістичну стегосистему. Для підтвердження цього
висновку були розглянуті основні способи протидії засобам стеганографії, в
результаті чого виявлено, що основною проблемою є автоматизація цього процесу.
Досліджена проблема виокремлення другорядної інформації та її видалення з тексту
природньої мови. Аналіз існуючих досліджень виявив, що задача протидії текстовій
стеганографії є актуальною.
Досліджено основні проблеми автоматичного аналізу текстових документів та
проаналізовано шляхи їх вирішення у вітчизняних та зарубіжних дослідженнях, в
результаті чого визначено задачу автоматизованого дослідження семантики тексту в
рамках стегоаналізу. Також проведено дослідження сучасного стану програмних
засобів текстової стеганографії та стегоаналізу та виявлена недосконалість засобів
комп’ютерного аналізу семантики тексту.
У другому розділі «Методи лінгвістичної стеганографії та стегоаналізу» –
проведено досліджено особливостей використання методів та алгоритмів
необхідних для розв’язання задачі протидії комп’ютерній лінгвістичній
стеганографії шляхом проведення атаки семантичним стисненням на лінгвістичну
стегосистему. Дослідження методів текстової стеганографії виявило, що методи
довільних інтервалів, синтаксичні і семантичні методи є найбільш вживаними, проте
автоматизований стегоаналіз не ефективний проти методів, що впливають на
семантику. Здійснення смислового дослідження можливе завдяки дискурсному
9. 7
аналізу. Було проаналізовано засоби його реалізації, які складаються з
морфологічного та синтаксичного дослідження тексту, що водночас можуть
виявляти ознаки використання методів довільного інтервалу та синтаксичних
методів, а результат їх роботи є основою для виявлення осмисленості тексту.
Обрано та обґрунтовано базові методи морфологічного (метод логічного множення),
синтаксичного (імовірнісно-статистичний підхід), дискурсного аналізу
(текстуально-інтертекстуальний підхід).
Проведено дослідження математичних атак на стегосистему, а саме
статистичні, імовірнісні методи та атаки на основі математичного моделювання.
Таким чином, було обрано загальну стратегію та визначено особливості
розробки методу семантичного стиснення текстової інформації і його практичної
реалізації для ефективної протидії комп’ютерній лінгвістичній стеганографії.
У третьому розділі «Розробка методу семантичного стиснення текстової
інформації для протидії комп’ютерній лінгвістичній стеганографії» –
запропоновано метод семантичного стиснення текстової інформації для протидії
комп’ютерній лінгвістичній стеганографії, що складається з 5 послідовних етапів:
автоматизованого лінгвістичного аналізу тексту, оцінки осмисленості тексту та
виділення його основної думки, стиснення, модифікації, формування остаточного
тексту після внесення змін.
Етап автоматизованого лінгвістичного аналізу тексту забезпечує визначення
імовірності модифікації тексту засобами стеганографії та визначає місця у тексті для
більш ретельного стиснення. За основу взяті існуючі методи та алгоритми
морфологічного та синтаксичного аналізу, які вдосконалені для врахування
можливого використання засобів стеганографії.
Дослідження статистичного розподілу помилок у тексті при морфологічному
аналізі дозволяє зробити висновок про їх штучне внесення з метою вбудовування
стегоповідомлення.
Синтаксичний аналіз оснований на математичному моделюванні. Подальшого
розвитку набуває підхід до синтаксичного аналізу, описаний вченими:
А. М. Андрєєвим, Д. В. Березкіним, А. В. Брик, Ю. А. Кантоністовим. Особливістю
використання підходу в цьому дисертаційному дослідження є його адаптація для
задач стегоаналізу.
Побудова дерева відповідностей при визначенні синтаксичної структури
відбувається за прикладом підходу, описаного вченими: S. Bird, E. Klein, E. Loper.
Кожне з дерев відповідає можливості застосування тих чи інших синтаксичних
прийомів стеганографії.
Таким чином, кожне досліджуване речення порівнюється з моделлю можливої
стегосистеми. У випадку, коли структура речення відповідає змодельованій
стегосистемі, робиться висновок про можливість приховування повідомлення. У
випадку часткового співпадіння, змодельовані стегосистеми порівнюються між
собою і визначається імовірна модель стегосистеми на основі використання кругів
10. 8
Ейлера. Імовірність модифікації усього тексту визначається за формулою:
𝑃′(𝐴′) =
∑ 𝑃 𝑖(𝐴 𝑛)𝑛
𝑖=1
|𝛺′|
, при 𝑃𝑖(𝐴 𝑛) ≥ 0,5, де 𝑃′(𝐴′) – імовірність події, що характеризує
наявність стегоповідомлення у тексті, 𝑃𝑖(𝐴 𝑛) – імовірність наявності
стегоповідомлення у n реченнях, |𝛺′| – загальна множина речень у тексті.
Етап оцінки осмисленості тексту та виділення основної думки перш за все
передбачає визначення загальної цілісності тексту. Він є необхідною умовою для
дослідження семантики тексту, визначення наявності слідів застосування
семантичних методів стеганографії, проведення дискурсного аналізу та для
видалення стегоповідомлення.
Дослідження загальної цілісності тексту передбачає аналіз його структурної
(аналіз слів-маркерів що представляють собою синоніми одного і того ж поняття),
комунікативної (аналіз зв’язності мікротем між собою через дослідження
розгортання основної теми та зв’язності кожного наступного речення з попереднім)
та смислової цілісності (розгляд поширення тем та мікротем на площині тексту). Так
визначається неосмислений текст. Наступним кроком є аналіз множини речень
кожної підтеми на наявність слідів стеганографії за допомогою елементів
інтенсіональної логіки. Так досягається унікальний підхід до дискурсного аналізу,
що є ефективним в умовах дослідження тексту будь-якої тематики, стилю та
одночасно враховує семантику і можливість приховування стегоповідомлення.
Для аналізу виконання умов зв’язності тексту виводяться умови осмисленості
тексту: 1) ∀𝑋 𝑛 та ∀𝑌𝑛 ∈ 𝐵 𝑘; 2) 𝐵 𝑘 ∈ 𝐴; 3) 𝑀 𝑛 𝑘+1
∋ 𝑀 𝑛 𝑘
∉ 𝑀 𝑛 𝑘−1
, де 𝐵 𝑘 – множина
синонімів мікротеми k, А – множина синонімів основної теми, 𝑀 – твердження, що є
осмисленим і складається з лексичної одиниці X, що пов’язана з одиницею Y.
Загальна осмисленість тексту виражається формулою: 𝑍 =
𝑀 𝑛
′ +𝑇𝑛
′+𝐿 𝑛
′ +𝑉𝑛
′
4𝑛
∙ 100%,
де 𝑀 𝑛
′
– кількість осмислених тверджень, 𝑇𝑛
′
– кількість речень, що задовольняють
умові 1, 𝐿 𝑛
′
– умові 2, 𝑉𝑛
′
– умові 3, n – кількість речень. При цьому, враховується
також семантична та синтаксична синонімія.
Наступним кроком є інтертекстуальна перевірка на основі підходу вченого
Крутоярова Д.В.. Відмінністю в даному дисертаційному дослідженні є пошук
початкового тексту, для порівняння з ним досліджуваного та виявлення слідів його
модифікації.
Етап стиснення тексту складається з паралельних етапів видалення,
узагальнення та заміни.
Стиснення полягає у видаленні семантичної надлишковості на основі
інтенсіональної логіки. 𝑊1, 𝑊2, … , 𝑊𝑛 – це світи, утворені в процесі морфологічно-
синтаксичного та дискурсного аналізу. Кожен з них відповідає за можливе
приховування стегоповідомлення відповідним методом стеганографії. Інформацію
на дотику всіх світів не можливо модифікувати без порушення цілісності та
лінійності тексту.
11. 9
Визначення надлишкової смислової інформації включає в себе визначення
ентропії смислової інформації в умовах проведення атаки семантичним стисненням.
Внутрішнє скорочення тексту передбачає видалення надлишковості з окремих
речень чи їх частин, після чого кожен елемент речення співвідноситься з
мікротемами і основною темою тексту. Отримання скороченого речення (𝑆𝐸𝑁𝑇′
) на
етапі видалення передбачає видалення однорідних членів, повторів, а також
елементів, виявлених при морфологічно-синтаксичному та дискурсному аналізі, в
яких існує імовірність використання стеганографічних засобів.
Щоб отримати узагальнений уривок (𝐺𝐸𝑁′
) необхідно видалити елементи, що
мають ознаки модифікації стеганографічними засобами та елементи множини
основного смислового елементу X, якому вони підпорядковуються. У випадку його
відсутності, він вводиться штучно, усі інші однорідні елементи замінюються на Х.
Отримання заміненого уривку (𝑆𝑈𝐵′
) передбачає видалення елементів, в яких існує
імовірність використання стеганографічних засобів та знаходження елементу Y, що
належить до семантичного значення ряду елементів та заміну цього ряду на Y.
При скороченні тексту частинами видаляютья мікротеми, що дублюють чи
уточнюють інформацію з іншої мікротеми. Це забезпечує протидію онтологічному
підходу до лінгвістичної стеганографії. Лексичні одиниці у скороченому тексті
замінюються на їх синоніми меншої довжини.
У випадку, коли текст неосмислений, визначається А – множина синонімів
основної теми та 𝐵1, 𝐵2 … 𝐵𝑛 – множини синонімів кожної з мікротем, та
видаляються частини (𝑇′′
), що порушують умови висхідного розвитку і не поєднані
з основною темою тексту. Стиснення відбувається по принципу видалення усіх
мікротем, що не належать А. Формула стиснення має вигляд: 𝑇∗
= 𝑇 − 𝑇′′
+ 𝐴. В
загальному, формула стиснення має вигляд:
𝑀′
= {
(𝑆𝐸𝑁𝑇′
∩ 𝐺𝐸𝑁′
∩ 𝑆𝑈𝐵′
) ∩ 𝑏 𝑛
′′
, якщо текст осмислений
𝑇 − 𝑇′′
+ 𝐴, якщо текст не має ознак осмисленості
, .
де 𝑏 𝑛
′′
– речення, в яких замінено синоніми, 𝑀′
– змінений текст. В результаті
видаляється або спотворюється стегоповідомлення, приховане за допомогою
найбільш криптостійких методів лінгвістичної стеганографії.
Етап модифікації тексту забезпечує виправлення помилок, спричинених
стисненням, знищує залишки стегоповідомлення, які не можливо видалити без
втрати семантичної структури, протидіє використанню методу довільних інтервалів
чи штучному внесенню помилок до правопису. Складається з кроків: видалення
зайвих інтервалів (за принципом матричного криптоперетворення), виправлення
морфологічних помилок, виправлення синтаксичних помилок та заміни синонімів.
Це забезпечує тональні якості тексту. Виправляються морфологічні помилки:
неправильне вживання однини чи множини, використання закінчення -ed замість
індикаторів минулого часу, відсутність закінчення третьої особи, вживання
закінчення -er при порівнянні чи -ing у прогресивних конструкціях.
12. 10
Виправляються синтаксичні помилки: порушення узгодження дієслова, у
використанні артиклю, неправильне узгодження часу дієслів, неправильна форма чи
відсутність допоміжного дієслова. Пунктуація, яка може не відповідати правилам
граматики і тавтологія також береться до уваги.
Після цього слова замінюються відповідниками, за умови, що не є важливим
наявність синоніма саме меншої довжини.
Етап формування тексту після внесення змін складається з: формування
морфологічно-синтаксичної структури, реалізації семантичної відповідності, опису
внесених модифікацій. В результаті забезпечуються інформаційно-структурні
якості тексту та встановлюється відповідність між семантичною структурою
початкового і сформованого тексту. Етап враховує особливості стилістики
синтаксичної структури оригінального тексту та семантичної структури його
дискурсу. Всі елементи остаточного тексту формуються згідно з правилами
побудови текстів. За приведенням синтаксичної структури тексту до осмисленого
вигляду слідує реалізація семантичної відповідності.
Програмні перетворення речень забезпечують комунікативну цілісність тексту.
Структурна і смислова цілісність досягається шляхом формування тексту в цілому.
Виправляються невідповідності у семантичній структурі між результуючим і
початковим текстом. Забезпечується захист від приховування стегоповідомлення
завдяки зміні положення рівноправних мікротем у тексті та проводиться опис
внесених модифікацій для пришвидшення остаточного висновку оператором.
У четвертому розділі «Програмна реалізація методу семантичного
стиснення текстової інформації для протидії комп’ютерній лінгвістичній
стеганографії» – описано реалізований на основі розробленого методу програмний
комплекс для проведення атаки на лінгвістичну стегосистему, що складається з 9
взаємопов’язаних модулів, 25 систем та 6 підсистем (рис.1). Крім того, приводяться
дані його практичного випробування.
Програмний комплекс містить такі модулі: МНС – налаштування системи,
МВК – взаємодії з користувачем, МПВД – підготовки вхідних даних, МЛАТ –
лінгвістичного аналізу тексту, МООТВОД – оцінки осмисленості тексту та
виділення основної думки, МСТ – стиснення тексту, МПР – прийняття рішень,
ММТ – модифікації тексту, МФРТ – формування результуючого тексту. Перелічені
модулі складаються з наступних систем: СМА – морфологічного аналізу, СВІВМЗС
– визначення імовірності використання морфологічних засобів стеганографії, ССТ –
синтаксичного аналізу, СВІВСЗС – визначення імовірності використання
синтаксичних засобів стеганографії, СТДА – текстуального дискурсного аналізу,
СВТМ – виділення теми та мікротем, САСЦЗ – аналізу семантичної цілісності і
завершеності, СДІЛ – дослідження з використанням інтенсіональної логіки, СООВ –
оцінки осмисленості виразів, СООТ – оцінки осмисленості тексту, СВМ –
визначення мети, СІДА – інтертекстуального дискурсного аналізу, СОЕ –
обчислення ентропії, СВН – визначення надлишковості, СВС – внутрішнього
13. 11
стиснення, ССТЧ – скорочення тексту частинами, СЗС – заміни синонімів, ССНТ –
стиснення неосмисленого тексту, СВІ – видалення інтервалів, СВМП – виправлення
морфологічних помилок, СВСП – виправлення синтаксичних помилок, СФМФС –
формування морфологічно-синтаксичної структури, СФСС – формування
семантичної структури, СОМ – опису модифікацій. Також, програмний комплекс
містить такі підсистеми: ПОКЦ – оцінки комунікативної цілісності, ПОСЦ – оцінки
смислової цілісності, ПОСТЦ – оцінки структурної цілісності, ПВ – видалення, ПУ –
узагальнення, ПЗ – заміни. БД – база даних.
Рис. 1. Архітектура програмного комплексу
Модульна структура дозволяє охопити широкий спектр загроз та адаптуватися
під конкретні умови. Гнучка система налаштувань програмного комплексу дозволяє
розподілити виконувані функції між підсистемами та підвищити його ефективність.
14. 12
Тестування проводилось на основі наборів текстів, розподілених в ієрархії,
починаючи від об’єму, стилю та ентропії, наявності стегоповідомлення і
закінчуючи методом стеганографії.
Модуль інтертекстуального дискурсного аналізу перевірявся на основі текстів з
мережі Інтернет. Генерація неосмислених текстів проводилася за допомогою
онлайн-сервісів: Random Text Generator, Text Generator, Dummy Text Generator.
Загальна кількість текстів для експерименту перевищувала 4000 загальним об’ємом
до 2000 Мб.
Завдяки комплексному підходу та широкому спектру врахованих загроз,
ефективність атаки на стегосистему збільшується (рис. 2а), хоча одночасно зі
збільшенням об’єму тексту росте і імовірність виникнення помилок стегоаналізу
першого (прийняття пустого контейнеру за заповнений) та другого (прийняття
заповненого контейнеру за порожній) роду (рис. 2б).
а) б)
Рис. 2. Характер зміни ефективності реалізованого методу в залежності від об’єму: а) відсоткове
значення видаленого стегоповідомлення; б) імовірність появи помилок 1-го та 2-го роду
Відсоткове значення об’єму вилученого стегоповідомлення по відношенню до
початкового його об’єму (рис. 2а) було отримано не нижче 94% для речень та 99%
для об’ємних текстів. Виявлено, що метод не втрачає ефективності при обробці
програмним комплексом як малих, так і великих за об’ємом текстів.
Як видно з графіку (рис. 3), виявлений коефіцієнт стиснення в середньому
дорівнює 2,7 для окремих речень та 4,76 для тексту. Стиснене речення в середньому
складало 36% від його початкового об’єму, осмислений текст стискався в
середньому до 25%, неосмислений до 7% від початкового об’єму.
94
95
96
97
98
99
100
Об'ємвидаленогостегоповідомлення(%)
Об'єм тексту (Кб)
0
20
40
60
80
100 0-1
2-5
6-50
51-300
301-1000
>1000
Імовірністьпомилки(%)
Об'єм тексту (Кб)
Помилки
першого роду
Помилки другого
роду
15. 13
Рис. 3. Показники стиснення і ефективність стегоатаки для текстів об’ємом 50-300 Кб в залежності
від стилю тексту
Програмний комплекс демонструє стабільність ефективності видалення
стегоповідомлення в залежності від застосованого методу стеганографії (рис. 4).
Ефективність не нижча за 95,6%.
Рис. 4. Характер зміни об’єму видаленого стегоповідомлення від методів приховування
повідомлення (довільного інтервалу, синтаксичних, семантичних, іноваційних)
Усі розглянуті аналогічні системи реферування не мають функції стегоаналізу,
їх ефективність для протидії стеганографії низька. На відміну від розробленої
системи, аналоги зустрічають труднощі при скороченні як вкрай малих так і вкрай
великих текстів, а імовірність видалення стегоповідомлення залежить від
використаних методів стеганографії. Лише система LexRank має засоби врахування
семантики, оскільки застосовує дискурсний аналіз. Середні показники стиснення
тексту за допомогою розробленої системи в порівнянні з LexRank вдалось
збільшити на 8% за рахунок застосування інтенсіональної логіки.
0
10
20
30
40
50
60
70
80
90
100
Відсотки(%)
Стиль тексту
Відсоткове
значення об'єму
вилученого
стегоповідомлення
відносно його
початкового об'єму
Відсоткове
значення об'єму
тексту після
стиснення відносно
початкового об'єму
93
94
95
96
97
98
99
100
Об'ємвидаленого
стегоповідомлення(%)
Відсоткове значення
видаленого
стегоповідомлення по
відношенню до
початкового об'єму
16. 14
Ефективність розглянутих систем стегоаналізу, крім методу основаного на
стисненні за допомогою архіватору зростає зі збільшенням об’єму тексту.
Розроблена система є універсальною. Існуючі системи текстового стегоаналізу, що
враховують дослідження семантики, демонструють ефективність в межах від 76%
до 97,5%. Розроблений стегоаналізатор повністю виконує поставлену задачу, будучи
основою для проведення атаки семантичним стисненням, а його ефективності
достатньо, щоб збільшити ефективність атаки, середні показники якої не нижче
98,65% з урахуванням широкого спектру загроз.
У додатках наведено частини програмного коду для реалізації основних систем
програмного комплексу проведення атаки на лінгвістичну стегосистему, знімки
екрану інтерфейсу програмного комплексу, список публікацій здобувача за темою
дисертації та відомості про апробацію результатів, а також акти впровадження
результатів дисертаційної роботи.
ВИСНОВКИ
У дисертаційному дослідженні вирішено актуальну науково-практичну задачу
підвищення ефективності протидії комп’ютерній лінгвістичній стеганографії на
основі розробки та впровадження методу семантичного стиснення текстової
інформації з втратами, що базується на дискурсному аналізі. При цьому отримані
такі результати:
1. Удосконалено методи лінгвістичного аналізу та реферування тексту на
основі дискурсного аналізу за рахунок застосування дерева прийняття рішень для
врахування на кожному етапі дослідження тексту можливості використання методів
лінгвістичної стеганографії, шляхом застосування математичних методів оцінки для
атак на стегосистему, поєднаних інтенсіональною логікою та формальними
граматиками природніх мов з лінгвістичними методами дослідження тексту, що
забезпечило можливість їх використання для вирішення задач комп’ютерного
стегоаналізу.
2. Удосконалено методи комп’ютерного лінгвістичного стегоаналізу на основі
морфологічно-синтаксичного та семантичного аналізу шляхом дискурсного
дослідження, що забезпечило можливість охоплення максимально широкого
спектру можливих загроз та ефективної обробки текстів будь-якої тематики і стилю
для виявлення прихованого повідомлення і проведення атаки стисненням на
лінгвістичну стегосистему, яка використовує в якості стегоконтейнеру як осмислені,
так і штучно згенеровані тексти природньою (англійською) мовою.
3. Розроблено метод семантичного стиснення текстової інформації на основі
текстуально-інтертекстуального дискурсного аналізу тексту шляхом застосування
інтенсіональної логіки, який забезпечує протидію комп’ютерній лінгвістичній
стеганографії при обробці як масивів, так і безперервного потоку текстових даних
довільної розмірності та неможливість відновлення стегоповідомлення, що
досягається за рахунок направленого стиснення та модифікації тексту частинами.
17. 15
4. Удосконалені методи та алгоритми стегоаналізу, лінгвістичного аналізу та
реферування текстової інформації доведені до програмного забезпечення,
придатного в інженерній практиці побудови комп’ютерних систем, що забезпечують
підвищення ефективності протидії комп’ютерній лінгвістичній стеганографії.
Побудований програмний комплекс, який реалізує основні результати
дослідження здійснює стегоаналіз і протидіє методам комп’ютерної лінгвістичної
стеганографії за рахунок атаки на лінгвістичну стегосистему шляхом стиснення та
модифікації тексту. Ефективність стиснення складає 64% для речень, 79% для
осмислених текстів та 93% для неосмислених текстів, а середня імовірність
видалення стегоповідомлення не нижча 98,65%. Розробка охоплює значно ширший
спектр загроз в порівнянні з існуючими системами стегоаналізу. Порівняння з
існуючими системами реферування довело ефективність розробленої системи для
задач стеганографії, а також виявило на 8% покращений за рахунок використання
нового підходу в дискурсному аналізі показник стиснення тексту в порівнянні з
LexRank, в основі якої також лежить дискурсний аналіз.
Результати дисертаційного дослідження впроваджені в ТОВ
«ГАЛАВТОТРАНС» – для ефективної протидії витоку конфіденційної інформації
при реалізації модуля спеціалізованого програмного забезпечення та у навчальний
процес Черкаського державного технологічного університету і Черкаського
інституту пожежної безпеки імені Героїв Чорнобиля НУЦЗ України.
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
Статті у наукових фахових виданнях України, які включено до міжнародних наукометричних баз
1. Федотова-Півень І.М., Тарасенко Я.В. Шляхи задоволення потреб сучасної
кібербезпеки в рамках протидії методам комп’ютерної лінгвістичної стеганографії.
Безпека інформації. 2017. Том 23, № 3. С. 190-196. (INDEX COPERNICUS, CrossRef,
Google Scholar, Russian Science Citation Index (eLIBRARY.RU), Bielefeld Academic
Search Engine (BASE), WorldCat (OAIster), EBSCOhost).
2. Тарасенко Я.В. Програмний комплекс проведення атаки на лінгвістичну
стегосистему. Безпека інформації. 2018. Том 24, № 1. С. 56-61. (INDEX
COPERNICUS, CrossRef, Google Scholar, Russian Science Citation Index
(eLIBRARY.RU), Bielefeld Academic Search Engine (BASE), WorldCat (OAIster),
EBSCOhost).
3. Тарасенко Я. В., Півень О. Б., Федотова-Півень, І. М. Метод семантичного
стиснення текстової інформації для протидії комп’ютерній лінгвістичній
стеганографії. Наука і техніка Повітряних Сил Збройних Сил України. 2018. №3(32).
С. 68-78. (Ulrich’s Periodicals Directory, CrossRef, INDEX COPERNICUS, General
Impact Factor, Scientific Indexed Service, Citefactor, ResearchBib, Orcid, Academic
Resource Index, Google Scholar).
4. Тарасенко Я. В. Експериментальне дослідження роботи програмного
комплексу проведення атаки на лінгвістичну стегосистему. Захист інформації. 2018.
18. 16
Том 20, № 2. С. 79-88. (INDEX COPERNICUS, Google Scholar, Russian Science
Citation Index (eLIBRARY.RU), Bielefeld Academic Search Engine (BASE), WorldCat
(OAIster)).
5. Тарасенко Я.В., Півень О.Б. Особливості обчислення інформаційної
ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну
стегосистему. Безпека інформації. 2018. Том 24, № 2. С. 124-129. (INDEX
COPERNICUS, CrossRef, Google Scholar, Russian Science Citation Index
(eLIBRARY.RU), Bielefeld Academic Search Engine (BASE), WorldCat (OAIster),
EBSCOhost).
Стаття у науковому періодичному виданні іншої держави
6. Tarasenko Ya., Piven O., Fedotova-Piven I. Researching the features of practical
use of the software complex for attacking the linguistic stegosystem. World Science
(Warsaw, Poland). 2018. № 6 (34), Vol. 1. P. 27-30.
Стаття у збірнику праць міжнародної конференції, що включено до міжнародних
наукометричних баз
7. Fedotova-Piven I., Tarasenko Ya. The ways of solving problems of data
processing automation in the systems of textual steganalysis. Scientific Development and
Achievements: proceedings of the International Scientific Conference (St. Andrews,
Scotland, UK, December 1, 2017) / ed. M.A. Holdenblat. NGO «European Scientific
Platform». Obuhiv: Printing House «Drukarik», 2017. Part 2. P. 172-174. (Google
Scholar, eLIBRARY.RU, РИНЦ)
Публікація у колективній монографії
8. Криптографічне кодування: обробка та захист інформації: колективна
монографія / під ред. В.М. Рудницького. Харків: ТОВ «ДІСА ПЛЮС», 2018. 139 с.
Публікації у матеріалах міжнародних конференцій
9. Tarasenko Y. About the textual information compression based on discourse
analysis. Проблеми інформатизації: тези доповідей четвертої Міжнародної
науково-технічної конференції (3-4 листопада 2016 р.). Черкаси: ЧДТУ; Баку: ВА
ЗС АР; Бельсько-Бяла: УТіГН; Полтава: ПНТУ ім. Юрія Кондратюка, 2016. С. 68.
10. Tarasenko Ya. To the problems of the textual information processing
automation in modern computer systems. Проблеми інформатизації: тези доповідей
п’ятої Міжнародної науково-технічної конференції (13-15 листопада 2017 р.).
Черкаси: ЧДТУ; Баку: ВА ЗС АР; Бельсько-Бяла: УТіГН; Полтава: ПНТУ ім. Юрія
Кондратюка, 2017. С. 17.
11. Тарасенко Я. В. Перспективи розвитку автоматизованих програмних
засобів та систем текстового стегоаналізу. Наука у контексті сучасних
глобалізаційних процесів: матеріали Міжнародної науково-практичної конференції
«Європейська наукова платформа» (м. Полтава, 19 листопада 2017 р.): зб. наук.
праць «ΛΌГOΣ» / відп. за вип. Голденблат М.А. Одеса: Друкарик, 2017. Т. 10. С. 75-
77.
19. 17
12. Федотова-Півень І.М., Тарасенко Я.В. Небезпека лінгвістичної
стеганографії на сучасному етапі розвитку держави. Сучасні тенденції розвитку
науки: матеріали II Міжнародної науково-практичної конференції (м. Київ, 17-18
березня 2018 р.). Київ: МЦНД, 2018. Частина 2. С. 40-41.
13. Федотова-Півень І.М., Тарасенко Я.В. Ентропія як визначальна
характеристика в стегоаналізі тексту природньої мови. Концептуальні шляхи
розвитку науки: матеріали III Міжнародної науково-практичної конференції (м.
Київ, 05-06 квітня 2018 р.). Київ: МЦНД, 2018. Частина 2. С. 13-14.
14. Федотова-Півень І.М., Тарасенко Я.В. Особливості використання
математичних методів в лінгвістичній стеганографії та стегоаналізі. Інформаційна
безпека та комп’ютерні технології: матеріали III Міжнародної науково-
практичної конференції (м. Кропивницький, 19-20 квітня 2018 р.). Кропивницький:
ЦНТУ, 2018. С. 140-141.
15. Тарасенко Я. В. Англійська мова як основний інструмент комп’ютерної
лінгвістичної стеганографії. ProfIT Conference: матеріали I Міжнародної науково-
практичної конференції IT-професіоналів та аналітиків комп’ютерних систем (м.
Харків, 24-26 квітня 2018 р.). Харків: ТОВ «Планета-прінт», 2018. С. 31-32.
16. Тарасенко Я.В., Півень О.Б., Федотова-Півень І.М. Особливості
проектування комп’ютерних систем автоматизованого лінгвістичного стегоаналізу.
Інформаційне суспільство: технологічні, економічні та технічні аспекти
становлення: матеріали Міжнародної наукової інтернет-конференції (м. Тернопіль,
15 травня 2018 р.). Тернопіль, 2018. Випуск 28. С. 57-59.
АНОТАЦІЯ
Тарасенко Я. В. Метод семантичного стиснення текстової інформації для
протидії комп’ютерній лінгвістичній стеганографії. – На правах рукопису.
Дисертація на здобуття наукового ступеня кандидата технічних наук за
спеціальністю 05.13.05 – «Комп’ютерні системи та компоненти». – Черкаський
державний технологічний університет Міністерства освіти і науки України. –
Черкаси, 2018.
Дисертаційне дослідження вирішує актуальну науково-практичну задачу
підвищення ефективності протидії комп’ютерній лінгвістичній стеганографії на
основі розробки та впровадження методу семантичного стиснення текстової
інформації з втратами, що базується на дискурсному аналізі. Розроблено метод
семантичного стиснення текстової інформації для протидії комп’ютерній
лінгвістичній стеганографії, що забезпечує проведення атаки на лінгвістичну
стегосистему з метою видалення стегоповідомлення шляхом семантичного
стиснення тексту з урахуванням широкого спектру засобів стеганографії та
початкової семантичної структури тексту. Метод забезпечує комплексний
стегоаналіз текстових даних на основі дискурсного аналізу та відзначається
можливістю виявлення та стиснення неосмислених текстів. Нова концепція
20. 18
дискурсного аналізу за допомогою інтенсіональної логіки сприяє ефективному
дослідженню текстів будь-якої тематики та стилю. Методи реферування тексту та
методи морфологічного і синтаксичного аналізу адаптовані для врахування
можливого використання засобів стеганографії.
Програмна реалізація методу доводить його ефективність для обробки великих
масивів текстових даних англійською мовою. Крім того, реалізована система
захисту програмного комплексу від перевантаження.
Експериментальне дослідження виявило ефективність стиснення в межах від
64% для речень до 79% для осмислених текстів та 93% для неосмислених текстів.
Імовірність повного видалення стегоповідомлення в середньому не нижче 98,65%.
Розроблена система стегоаналізу охоплює значно ширший спектр досліджуваних
елементів, порівняно з аналогами, а метод ефективно протидіє актуальним загрозам.
Ключові слова: комп’ютерна лінгвістична стеганографія, семантичне стиснення
тексту, текстовий стегоаналіз, автоматизований стегоаналіз, визначення
осмисленості тексту, атака на лінгвістичну стегосистему, протидія комп’ютерній
лінгвістичній стеганографії, лінгвістична стегосистема, комп’ютерний стегоаналіз,
атака стисненням.
АННОТАЦИЯ
Тарасенко Я. В. Метод семантического сжатия текстовой информации для
противодействия компьютерной лингвистической стеганографии. – На правах
рукописи.
Диссертация на соискание ученой степени кандидата технических наук по
специальности 05.13.05 – «Компьютерные системы та компоненты». – Черкасский
государственный технологический университет Министерства образования и науки
Украины. – Черкассы, 2018.
Диссертационное исследование решает актуальную научно-практическую
задачу повышения эффективности противодействия компьютерной
лингвистической стеганографии на основе разработки и внедрения метода
семантического сжатия текстовой информации с потерями, основанного на
дискурсном анализе. Разработан метод семантического сжатия текстовой
информации для противодействия компьютерной лингвистической стеганографии,
обеспечивающий проведение атаки на лингвистическую стегосистему с целью
удаления стегосообщения путем семантического сжатия текста с учетом начальной
семантической структуры текста и широкого спектра средств стеганографии. Метод
обеспечивает комплексный стегоанализ текстовых данных на основе дискурсного
анализа и отмечается возможностью обнаружения и сжатия неосмысленных. Новая
концепция дискурсного анализа, основана на использовании интенсиональной
логики, способствует эффективному исследованию текстов любой тематики и стиля.
Методы реферирования текста и методы морфологического и синтаксического
анализа адаптированы для учета возможного использования средств стеганографии.
21. 19
Программная реализация метода доказывает его эффективность для обработки
больших массивов текстовых данных на английском языке. Кроме того, реализована
система защиты программного комплекса от перегрузки.
Экспериментальное исследование показало эффективность сжатия в пределах
от 64% для предложений до 79% для осмысленных текстов и 93% для
неосмысленных текстов. Вероятность полного удаления стегосообщения в среднем
не ниже 98,65%. Разработанная система стегоанализа охватывает значительно более
широкий спектр изучаемых элементов по сравнению с аналогами, а метод
эффективно противодействует актуальным угрозам.
Ключевые слова: компьютерная лингвистическая стеганография, семантическое
сжатие текста, текстовый стегоанализ, автоматизированный стегоанализ,
определение осмысленности текста, атака на лингвистическую стегосистему,
противодействие компьютерной лингвистической стеганографии, лингвистическая
стегосистема, компьютерный стегоанализ, атака сжатием.
ABSTRACT
Tarasenko Ya. Method of the textual information semantic compression for
counteracting computer linguistic steganography. – On the rights of manuscript.
Thesis for scientific degree of candidate of technical sciences, specialty: 05.13.05 –
Computer Systems and Components. – Cherkassy State Technological University,
Cherkassy, 2018.
The actual scientific and practical problem of increasing the effectiveness of
computer linguistic steganography countering based on the development and
implementation of the method of the textual information semantic compression with loss
based on discourse analysis is solved in the thesis. The method of the textual information
semantic compression for counteracting computer linguistic steganography is presented. It
provides an attack on the linguistic stegosystem to remove or destroy the main part of a
stegomessage by semantic compression of the text, taking into account the wide range of
steganography means and the initial semantic structure of the text. The method consists of
five stages: automated linguistic analysis of the text, evaluating its comprehension and
allocation of the basic meaning, compression, modification and formation of the final text
after making changes. The method fully provides a comprehensive steganalysis of textual
data on the basis of discursive analysis and is effectively allocated by the ability of
meaningless and artificially generated texts detection and compression. The new concept
of discursive analysis helps to study texts of any subject and style. Methods of text
abstracting, on which the compression is based and methods of morphological and
syntactic analysis, on which the research of discourse is based, are adapted to take into
account the possible use of means of steganography. Mathematical methods of attacking
the stegosystem are effectively and harmoniously combined with linguistic methods of
analysis with the help of natural languages formal grammars elements and intensional
22. 20
logic, the peculiarities of which use determine the developed concept for discursive
analysis.
On the basis of the developed method, a program complex was implemented that
detects the presence of the text modification traces by the means of linguistic
steganography and makes changes to the text by its compression and modification without
losing the semantic structure and semantic loading in order to remove the possible
stegomessage. So, the automation of the text-research process is achieved in order to
detect the presence of a hidden message in it. It provides a significant increase in the
efficiency of textual data large arrays in English processing. The system of the software
complex protection from the overload is implemented, which prevents the increase of the
execution time for more than 20,000 milliseconds. The modular structure of the developed
software complex allows to cover a wide range of threats and to adapt the software for
specific conditions. Flexible two-stage setting allows to distribute executable functions
between the subsystems and to increase the efficiency of the system depending on the
required practical task.
The experimental study, which proved the efficiency and effectiveness of the method
and the software complex, developed on its basis, was carried out. It has been found that
compression efficiency ranges from 64% for sentences to 79% for meaningful texts and
93% for meaningless texts. At the same time, the probability of the stegomessage removal
on average is not lower than 98.65%. Due to the complex approach and the wide range of
possible threats, the effectiveness of the attack on the stegosystem increases, although at
the same time with the volume of text increasing, the probability of steganalization
mistakes occurrence of the first (perception of an empty container as a filled) type and the
second (perception of a filled container as an empty) type increases too. Also, the
developed system of steganalysis covers a much wider spectrum of investigated elements
according to the tasks of the research and provides a significantly higher index of
stegoattack efficiency than in the use of similar steganalizers. Comparison with existing
abstracting systems has proven the efficiency of using the developed system for
steganography tasks, and also revealed a higher compression ratio of the text. The created
method takes into account the available methods of textual steganography and is effective
in counteracting current threats.
A comprehensive approach to steganalization and compression opens up a wide range
of possibilities for application of the software complex, realized by the method for solving
many practical tasks of cybersecurity.
Keywords: computer linguistic steganography, semantic compression of the text,
textual styganalysis, automated steganalysis, determination of the textual meaningfulness,
attack on the linguistic stegosystem, counteraction the computer linguistic steganography,
linguistic stegosystem, computer steganalysis, attack by compression.