SlideShare a Scribd company logo
1 of 19
Київський національний університет імені Тараса Шевченка
УДК 004.89:004.912
Порхун Олена Володимирівна
Автоматична класифікація багатовимірних об’єктів
із застосуванням апарату нейронних мереж
01.05.01 – теоретичні основи інформатики та кібернетики
АВТОРЕФЕРАТ
дисертації на здобуття наукового ступеня
кандидата фізико-математичних наук
Київ - 2009
2
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність теми. На сьогодні в різних галузях людської діяльності накопичено великі об’єми
інформації про різні матеріальні та нематеріальні сутності, їх властивості, поведінку та зв’язки. Робота будь-
якого експерту з набором понять та сутностей завжди будується на використанні класифікації.
При автоматичній обробці баз даних, добуванні знань, інтелектуальному аналізі даних вирішуються
задачі класифікації з використанням методів природно-мовних теорій, математичної статистики, теорії
прийняття рішень. Метою автоматизованих систем діагностики також є ефективна класифікація об’єктів
дослідження. При аналізі об'єктів враховується велика кількість параметрів, що в свою чергу потребує
розробки та застосування спеціальних алгоритмів обробки багатовимірних даних.
З появою в Internet засобів масової інформації особливого значення набуває організація роботи з
текстовими документами. Постає необхідність у розробці ефективних засобів та методів систематизації
великих масивів текстової інформації, що в свою чергу вимагає створення ефективних методів для її
класифікації, оптимізації пошуку, комунікації між різними за тематикою Internet-порталами та базами
даних.
Тому потреба у розробці ефективних засобів та методів класифікації постійно зростає та
розширюється область їх використання.
Проведений аналіз існуючих методів класифікації дозволив виділити ряд проблем, що
перешкоджають розширенню сфери їх застосування. Основним недоліком традиційних методів є їх
залежність від розмірності простору ознак та об’єму даних. Цю проблему допомагає вирішити апарат
нейронних мереж, що зарекомендував себе як ефективний засіб для боротьби з “прокляттям розмірності”.
Здатність до обробки даних великої розмірності та вміння навчатися на прикладах виділяють апарат
нейронних мереж як потужний метод моделювання, що дозволяє відтворювати достатньо складні
залежності. Це обумовило вибір даного апарату в якості базового засобу для класифікації досліджуваних
об’єктів у дисертаційній роботі.
Важливою задачею при класифікації об’єктів є побудова простору ознак, або в термінах теорії
розпізнавання образів – вихідного опису об’єкту. Метою є одержання такого вихідного опису об’єкту, в
термінах якого задача класифікації може бути вирішена прийнятним чином. При формуванні простору ознак
задача може ускладнюватися тим, що апостеріорно вибрані ознаки можуть бути розподілені по різнорідним
групам, кожна з яких характеризує об’єкт у відповідності із значеннями ознак, які вона містить. В таких
випадках необхідна спільна обробка даних груп для забезпечення впливу кожної ознаки на процес
класифікації. В багатьох випадках в силу значної різнорідності та різномасштабності ознак дана задача
виявляється складною, її вирішення залежить від засобів класифікації, що використовуються, та алгоритму
обробки вхідних показників. У дисертаційній роботі запропоновано універсальний евристичний алгоритм
побудови вектора ознак, розподілених по різнорідним групам, з використанням нейронної мережі прямого
розповсюдження. За допомогою нейронної мережі прямого розповсюдження та даного алгоритму була
розроблена система автоматичної класифікації текстів.
Вирішення задачі кластеризації об’єктів вимагає знання числа кластерів, на які необхідно розбити
вибірку. В більшості випадків ця інформація відсутня та вибір способу визначення кількості кластерів
покладають на користувача. В дисертаційній роботі пропонується евристичний алгоритм для автоматичного
визначення кількості кластерів при кластеризації об’єктів. Із застосуванням нейронної мережі Кохонена та
даного алгоритму була розроблена автоматична система кластеризації текстів, що дозволяє за заданим
набором ознак розбити простір текстових документів на кластери подібних між собою текстів.
3
Зв'язок роботи з науковими програмами, планами, темами. Основні дослідження за темою
дисертації проводились на кафедрі математичної інформатики факультету кібернетики Київського
національного університету імені Тараса Шевченка в рамках:
1) науково-технічної бюджетної теми: Б/Т № 06БФ015-01 “Cтворення теоретичних основ, методів та
засобів інтелектуалізації інформаційно-комунікаційних технологій для розподілених комп’ютерних систем”
(№ держреєстрації 0106U005860);
2) державної науково-технічної програми “Образний комп’ютер”, зокрема, у науково-дослідних
роботах за договорами:
 № 03ДП015-01 “Розробити інформаційну технологію синтезу, аналізу, реферування, пошуку і
смислової інтерпретації текстової інформації та смислового перекладу текстової інформації з однієї мови на
іншу” (№ держреєстрації 0103U005499). Замовник Міністерство промислової політики;
 № 04ДП015-06 “Розробити експериментальну комп'ютерно-лінгвістичну технологію змістовного
аналізу текстової інформації” (№ держреєстрації 0104U004834). Замовник Міжнародний науково-
навчальний центр інформаційних технологій та систем;
 № 06ДП015-05 “Розробити ескізний проект системи мультилінвістичної фільтрації та
семантичного аналізу текстової інформації на базі мультилінгвістичної бази знань типу WordNet” (№
держреєстрації 0106U006685). Замовник Міжнародний науково-навчальний центр інформаційних
технологій та систем;
 № 07ДП015-04 “Розробити систему смислового контекстного аналізу текстових документів на
основі онтологічної бази знань” (№ держреєстрації 0107U003920). Замовник Міжнародний науково-
навчальний центр інформаційних технологій та систем;
 № 08ДП015-07 “Розробити системи смислової класифікації, рубрикації та кластеризації природно
мовних текстових документів на основі семантичного аналізу” (№ держреєстрації 0108U007255). Замовник
Міжнародний науково-навчальний центр інформаційних технологій та систем.
3) науково-технічних робіт за договорами:
 № 05ДП015-03 “Створення технології компю’терно – лінгвістичної обробки текстової інформації на
природній мові” (№ держреєстрації 0105U008126). Замовник Міністерство освіти та науки України;
 №07ДП015-06 “Створення глобальної україномовної лексико-семантичної онтологічної бази
лінгвістичних знань та розробка пакету програм інтелектуальної обробки текстових документів” (№
держреєстрації 0107U006801). Замовник Міністерство освіти та науки України.
Мета і задачі дослідження. Метою дослідження в дисертаційній роботі є розробка ефективних
алгоритмів для вирішення задачі класифікації об’єктів, які задані набором числових ознак, а також розробка
автоматичних систем класифікації та кластеризації із застосуванням вище зазначених алгоритмів та апарату
нейронних мереж.
В дисертаційній роботі поставлено та розв’язано такі задачі:
- визначення числа кластерів при розв’язанні задачі кластеризації об’єктів;
- побудова вектора ознак для вирішення задачі класифікації об'єктів, представлених різнорідними
групами числових ознак, нейронною мережею прямого розповсюдження;
- розробка автоматичних систем класифікації та кластеризації текстової інформації;
- експериментальне випробування розроблених систем на прикладі розв’язання задач атрибуції
текстів.
4
Об'єкт дослідження. Об'єктом дослідження є автоматична класифікація багатовимірних об’єктів,
заданих векторами числових ознак.
Предмет дослідження. Предметом дослідження є апарат нейронних мереж як інструмент для
розробки методів та автоматичних систем класифікації та кластеризації.
Методи дослідження. При розробці автоматичних систем класифікації та кластеризації, евристичних
алгоритмів для визначення числа кластерів та побудови вектора ознак при класифікації об’єктів
застосовувались методи оптимізації, програмування, теорії прийняття рішень, методи навчання нейронних
мереж тощо.
Наукова новизна одержаних результатів. Основними науковими результатами є:
- вперше запропоновано метод визначення числа кластерів при кластеризації корпусу об'єктів із
застосуванням нейронної мережі Кохонена, критерію якості отриманих кластерів та методу ідеальної точки;
- вперше запропоновано метод побудови вектора ознак об'єкту із врахуванням випадків їх розподілу
по різнорідним групам; розроблено алгоритм пошуку оптимальної вибірки для побудови вектора ознак при
класифікації об'єктів;
- встановлено та обґрунтовано оцінки складності алгоритму пошуку оптимальної вибірки із
врахуванням випадків наявності у вибірці прикладів з нерівномірним розподілом груп ознак;
- розроблено автоматичну систему класифікації текстів на основі виділеного набору ознак із
застосуванням нейронної мережі прямого розповсюдження та запропонованого методу побудови вектора
ознак;
- розроблено автоматичну систему кластеризації текстів з можливостями здійснення кластеризації
при відомій кількості кластерів та з використанням запропонованого алгоритму визначення числа кластерів;
- застосовано розроблені автоматичні системи класифікації та кластеризації текстів для вирішення
задач атрибуції художніх творів.
Практичне значення одержаних результатів. Практичне значення роботи полягає у розширенні
сфери застосувань розроблених алгоритмів та автоматичних систем класифікації і кластеризації текстів.
Створені алгоритми здатні працювати з векторами великої розмірності, розроблені автоматичні системи
дають змогу запам’ятовувати значну кількість образів, навчатися як із використанням вчителя, так і без його
залучення, узагальнювати та кластеризувати великі масиви даних. Все це робить можливим застосування
даних розробок до широкого кола прикладних задач. Ефективність розроблених автоматичних систем
класифікації та кластеризації текстів продемонстровано на прикладі розв’язання задач атрибуції художніх
творів.
Особистий внесок здобувача полягає у розробці нових інструментів для вирішення проблеми
класифікації інформації: автоматичних систем класифікації і кластеризації та нових алгоритмів для
розв’язання основних задач, що виникають в процесі вирішення проблеми класифікації. Всі основні
результати дисертаційної роботи одержані автором самостійно. У публікаціях, написаних у співавторстві,
здобувачеві належить: у роботі [3] – розробка, обґрунтування та програмна реалізація методу побудови
вектора ознак об’єкту, що класифікується, розробка автоматичної системи класифікації та її випробування
для вирішення задачі атрибуції художніх творів; у роботах [4, 5] – розробка автоматичної системи
класифікації текстів та методу визначення числа кластерів при кластеризації корпусу об'єктів.
5
Апробація результатів роботи. Основні результати роботи доповідалися та обговорювалися на
наукових семінарах факультету кібернетики Київського національного університету імені Тараса Шевченка
та конференціях, у тому числі на:
1. Міжнародній конференції “Стилистика и теория языковой коммуникации”, Москва, 20-21 апреля
2005г.
2. Міжнародній конференції з автоматичного управління “Автоматика – 2006”, Вінниця, 25-28
вересня, 2006 р.
3. Міжнародній конференції “Теоретичні та прикладні аспекти побудови програмних систем”, Київ,
5-8 грудня 2006 р.
4. Міжнародній науковій конференції MegaLing’2007 “Горизонти прикладної лінгвістики та
лінгвістичних технологій”, Крим, Партеніт, 2007р.
Публікації
Основні результати роботи викладені в 6 друкованих працях, з яких 3 – статті у наукових фахових
журналах, рекомендованих ВАК України (з них 2 виконано без співавторів) та 3 публікації у вигляді тез
міжнародних наукових конференцій.
Структура дисертації. Дисертація складається зі вступу, п’яти розділів, висновків, додатків та списку
використаних джерел з 100 найменувань. Обсяг дисертації – 110 сторінок основного тексту українською
мовою, ілюстрованих 5 рисунками та 12 таблицями.
6
ЗМІСТ РОБОТИ
У вступі обґрунтовано вибір теми дисертаційної роботи та її актуальність, сформульовано задачі
дослідження, відзначено наукову новизну та практичне значення одержаних результатів.
У першому розділі виконано аналіз існуючих методів та алгоритмів класифікації. Розглянуто існуючі
методи класифікації у контексті їх застосування до вирішення задач класифікації текстів. Проведено огляд
літературних джерел з проблем, що виникають при вирішенні задач класифікації, показано сучасний стан
проблеми.
Потужним класом методів класифікації є методи дискримінації, які базуються на навчанні. Широке
застосування серед методів даної групи здобули ядерні методи машинного навчання. Першою концепцією
ядерного підходу став метод опорних векторів, запропонований В. Вапніком у 1992 р. Він одержав широке
застосування при вирішенні цілого ряду задач аналізу зображень, відновлення регресії, ідентифікації та ін.
Подальшим удосконаленням методу опорних векторів, зокрема, для роботи з даними без лінійно-роздільної
здатності, стала реалізація побудови вирішального правила у класі нелінійних поверхонь, запропонована В.
Вапніком та С. Бургесом у 1995 р. Активного розвитку серед методів даного класу набув Байєсовський
підхід, розроблений для оцінювання параметрів моделей при класифікації об’єктів, заданих набором
атрибутів. Метод Байєса одержав подальший розвиток у застосуванні байєсовських мереж, які дозволяють
вирішити проблеми, пов’язані з неправомірністю припущення про умовну незалежність атрибутів об’єктів
при використанні правила Байєса. У 2000 р. був розроблений метод релевантних векторів, який дозволив
автоматично знаходити значення параметрів регуляризації, відокремлюючи таким чином, корисні
закономірності вхідних даних від шумів.
Альтернативою методам навчання є методи, що базуються на обчисленні відстаней. Серед них
застосування одержали метод k-найближчих сусідів, метод міркування за аналогією (Case Based Reasoning,
CBR), класифікатор Роше. Вони не потребують фази навчання та відносяться до класу методів, робота яких
базується на збереженні даних у пам’яті для порівняння з новими елементами.
Широко застосовними методами класифікації є побудова дерев розв'язків, логічні методи та методи з
використанням моделей, що самоорганізуються. Важливими результатами у розвитку методів, що базуються
на принципах самоорганізації, є розробки цілого класу адаптивних моделей, що самоорганізуються,
українськими кібернетиками під керівництвом академіка А.Г. Івахненко. Запроваджений ними принцип
масової селекції ліг в основу відомого методу групового врахування аргументів.
При вирішенні задач класифікації без застосування навчання широко використовується апарат
кластерного аналізу даних. Ряд алгоритмів, що використовуються при кластерному аналізі, розробили
зарубіжні вчені: Дж. Мак-Кін, Г. Болл, Д. Холл, Г. Ланс, У. Уільямсон, Н. Джардайн. Значний внесок у
розвиток кластерного аналізу зробили роботи радянських вчених – Є.М. Бравермана, А.А. Дорофеюка, І.Б.
Мучника, Л.А. Растригіна, Ю.І. Журавльова, І.І. Єлисеєва, М.Г. Загоруйко, В.М. Йолкіної та Г.С. Лобова.
Потужними програмними продуктами для розв’язання задач кластеризації є пакети програм ППСА та
Класс-Мастер, створені С.О. Айвазяном, І.С. Єнюковим та Б.Г. Міркіним.
Актуальною задачею класифікації є проблема класифікації текстів на природній мові. За роки
досліджень в області автоматичної класифікації текстової інформації було запропоновано ряд відомих
методів класифікації: метод Байєса, метод опорних векторів, метод k-найближчих сусідів, класифікатор
Роше. В якості методу класифікації різнорідних за характером текстів при виборі різних основ класифікації
пропонується використання методу комбінованої ієрархічної класифікації.
7
На основі проведеного аналізу методів класифікації було виявлено їх основний недолік – залежність
від розмірності простору ознак об’єктів та об’єму вхідних даних. Цю проблему допомагає вирішити апарат
нейронних мереж. Важливими результатами в області класифікації складних об’єктів із застосуванням
нейронних мереж є розробки з реалізації моделі поведінки користувачів Grid-систем українськими вченими:
О.М. Куссулем, А.Ю. Шелестовим, С.В. Скакуном. Відомими роботами з автоматичної класифікації текстів
із застосуванням нейронних мереж є дослідження російських вчених: А.Ф. Гарєєва, О.Г. Шевельова, А.В.
Петракова, А.М. Андреєва, Д.В. Березкіна, В.В. Сюзєва, В.І. Шабанова.
На основі проведеного аналізу було виділено основні проблеми, які потребують вирішення при
класифікації великих корпусів багатовимірних об’єктів із застосуванням нейронних мереж. По-перше, це
визначення числа кластерів при кластеризації об’єктів, заданих числовими векторами ознак. У
дисертаційній роботі для вирішення цієї проблеми запропоновано метод, що базується на використанні
нейронної мережі Кохонена та критерію якості отриманих розбиттів. По-друге, це побудова вектора ознак
об'єкту, розподілених по різнорідним групам, що реалізується у роботі за допомогою запропонованих
алгоритмів та нейронної мережі прямого розповсюдження.
У другому розділі розглянуто методи вирішення задач, що виникають при класифікації об'єктів,
заданих числовим набором ознак, за допомогою апарату нейронних мереж, зокрема, мережі Кохонена та
мережі прямого розповсюдження.
Для визначення числа кластерів при кластеризації об’єктів запропоновано евристичний алгоритм,
який належить до класу комбінованих методів – базується на використанні нейронної мережі Кохонена,
критерію якості отриманих розбиттів та методі ідеальної точки. Перевагою даного способу визначення
результуючого розбиття є представлення розв’язків задачі із вказанням їх оцінок.
Алгоритм включає в себе два критерії. Перший припускає, що вірне розбиття на кластери – це
розбиття з найбільшою частотою, отримане нейронною мережею Кохонена.
На першому етапі алгоритму проводиться серія запусків нейронної мережі та отримується множина
розбиттів, кількість яких дорівнює числу спроб. За розбиттями будується матриця, де рядкам відповідає
множина об’єктів P, а стовпчикам – кластери розбиттів lQ , kl ,1= . Елемент матриці обчислюється
наступним чином:




∉−
∈
= l
ti
l
ti
ij
Cp
Cp
a
,1
,1
,
де lmt ,1= , kl ,1= , l
l
t QC ⊂ , 
kl
ll QQ
,1=
⊂
.
Кожній матриці ставиться у відповідність граф. Для кожного ребра графу вказується оцінка c(e), як
сила зв’язку i-го вузла з j-м, яка обчислюється за формулою:
kwec
klQq
q
l
)()(
,1,
∑=∈
= ,
де




−
=∈∈⊂∃
=
інакше
mtCpCpQC
w l
l
tj
l
til
l
t
q
,1
,1,&:,1
8
Наступним кроком є вибір оптимального графу, в якому сумарна оцінка ребер – максимальна. Цей
граф відповідатиме розбиттю з найбільшою частотою, отриманим нейронною мережею. Розв’язок
шукається відповідно до критерію: сила зв’язку між і-м та j-м об’єктами більше 0 – їх відносять до одного
кластеру, інакше – до різних.
Недоліком цього критерію є розбиття вибірки об'єктів на якомога менше число кластерів, тому для
оцінки одержаних розбиттів використовується другий критерій, що задається як оптимізація цільової
функції:
∑∈
→+−=
Mi
i gfF max
де if – сума відстаней точок кластеру від центру кластеру по всіх кластерах, i= M,1 , M – кількість
кластерів розбиття, g – сумарна відстань між центрами кластерів.
Даний критерій дає змогу знаходити розв’язки серед розбиттів з більшою потужністю.
Для зважування результатів обох критеріїв використовується метод ідеальної точки, що
визначається як точка з двома координатами (найкращими за значеннями обох критеріїв). Правило вибору
полягає у знаходженні альтернативи, що має оцінку найближчу до ідеальної точки.
Для побудови вектора ознак об’єкту, розподілених по різнорідним групам, запропоновано метод, що
базується на використанні нейронної мережі прямого розповсюдження та реалізації двох алгоритмів: А1
(пошук оптимальної вибірки) та А2 (побудова вектора ознак об'єкту за числом η). Згідно даному
методу формуються три вибірки векторів ознак (розмірності векторів дорівнюють загальній кількості
значень ознак обох груп):
- вибірка А: містить вектори, сформовані лише із значень першої групи ознак, решта компонент –
нульові;
- вибірка В: складається із векторів зі значеннями другої групи ознак, відповідні компоненти першої
групи – нульові;
- вибірка С: включає вектори зі зваженими значеннями ознак обох груп.
Кожній із сформованих вибірок ставиться у відповідність точка з відрізку [0,1]: вибірці С – точка 0.5,
вибіркам А та В, відповідно – крайні точки відрізку 0 та 1.
Для сформованих вибірок проводиться навчання мережі та за результатами тестування визначаються
дві найкращі, що задають наступний інтервал пошуку оптимальної вибірки, для якої виконується умова
зупинки алгоритму А1. Умовою зупинки алгоритму А1 вважається одержання відрізку, довжина якого
менше достатньо малої вибраної величини ε, або якщо нова сформована вибірка, не є кращою за значенням
критерію оцінки навчання мережі за попередні. Критерій оцінки навчання мережі визначається наступним
чином:
Ω
Α= DrgF min ,
де Ω – множина вибірок векторів, що використовувалися для навчання мережі, D – відстань між
векторами – виходом налаштованої мережі для даного тестового прикладу та відомою для цього прикладу
відповіддю (класом).
Нова вибірка формується із векторів середніх значень поточних векторів вибірок; відповідна їй точка
з відрізку – середнє значення точок, що відповідають поточним вибіркам. Результатом роботи алгоритму А1
є знайдена точка η, що відповідає оптимальній вибірці. Для побудови вектору ознак за числом η
реалізований відповідний алгоритм А2.
9
Для простору ознак, розподілених більш ніж на дві групи, вирішення задачі зводиться до реалізації
алгоритмів А1 та А2.
Розроблений метод є ефективним для визначення роздільної здатності довільної групи ознак.
Виділивши кількісні ознаки, що характеризують заданий корпус об'єктів та, використовуючи розроблений
метод, можна досліджувати широкий клас задач класифікації.
Наведено оцінки складності алгоритму пошуку оптимальної вибірки. Під обчислювальною
складністю алгоритму пошуку оптимальної вибірки розуміється верхня границя для максимального числа
основних операцій, які необхідно виконати алгоритму для знаходження оптимальної вибірки.
Лема 2.1. Нехай n – розмірність вектора ознак об'єкту одноелементної вибірки;
ε – задана точність алгоритму А1 (довжина відрізку, одна з крайніх точок якого відповідає оптимальній
вибірці); W – число вагових зв'язків між нейронами, включаючи зсуви внутрішніх та вихідних нейронів.
Тоді оцінка алгоритму А1 з використанням одноелементної вибірки складає: )(
1
log2 WOn ⋅
ε
.
У випадку, коли навчальні вибірки містять множину об’єктів, має місце
Теорема 2.1. Нехай N – розмірність вектору ознак для об'єктів навчальної вибірки, які визначаються
групами ознак; P – кількість прикладів (об'єктів) у вибірці; ε – задана точність алгоритму А1; W – число
вагових зв'язків між нейронами, включаючи зсуви внутрішніх та вихідних нейронів. Тоді для алгоритму А1
справедлива оцінка: )(
1
log2 WPON ⋅
ε
.
Позначимо через приклад виду T – приклад, для якого вектор по одній з груп ознак не містить значень,
а по іншій групі ознак його розмірність дорівнює N (довжині вектора-прикладу). Наявність у вибірці
прикладу виду T можлива, коли існує група ознак, за якою вектори для різних об'єктів вибірки будуть мати
різну розмірність. Наприклад, таку групу ознак можуть складати точки на графіках функцій, що задають
опис об'єктів та мають різні допустимі області визначення для кожного об'єкту. Для випадків наявності у
вибірці прикладів з нерівномірним розподілом груп ознак мають місце:
Наслідок 2.1. Нехай N – розмірність вектору ознак для об'єктів навчальної вибірки, що включає
ознаки всіх груп, які виділені при класифікації.
Якщо навчальна вибірка із P прикладів містить приклад виду T, то оцінка складності алгоритму А1
дорівнює: )(
1
log2 WPON ⋅
ε
.
Наслідок 2.2. Якщо у вибірці з P прикладів є приклад виду T по групі α та приклад виду T по групі β,
то оцінка складності алгоритму А1 складає: )(
1
log2 2 WPON ⋅
ε
.
Наслідок 2.3. Якщо у вибірці з Р прикладів є приклад виду T та приклад, для якого одна з груп ознак
обмежена по довжині значенням С, то оцінка складності для алгоритму А1 складає:
)(
1
log)( 2 WPOCN ⋅+
ε
.
Третій розділ присвячено проблемі класифікації текстів на природній мові, методам обробки та
аналізу текстової інформації. Розробка систем класифікації текстів на природній мові вимагає створення
10
словникової бази для визначення основних характеристик кожного слова тексту. Для розпізнавання
змістовної тотожності та близькості слів при обробці текстів застосовуються методи приведення їх до
нормалізованої канонічної форми, що полягають у заміні початкової форми слова на сполучення її
словозмінної основи та номера флективного класу. При побудові словникової бази україномовних та
російськомовних текстів використовуються два словники: словник основ слів української мови та словник
флективних груп. Словник основ включає: частину мови, до якої відноситься слово, основу слова та
вказівник на рядок у словнику флексій, що може відноситись до цього слова. Словник флективних груп
представлений у вигляді таблиць, де стовпчикам відповідають відмінки, а рядкам – комбінації числа і роду
або інших граматичних характеристик.
При синтаксичному аналізі, який використовується для обробки текстів, визначається наявність у
тексті виділених дослідником ознак, що характеризують синтаксичну структуру мови тексту. Важливим
параметром, що характеризує складність структури речень тексту, є показник середньої кількості зв'язків
між словами різних частин мови в одному реченні. Запропоновано метод для визначення в межах речення
середньої кількості зв'язків "іменник – описові характеристики". Описовими характеристиками виступають
прикметники, дієприкметники та дієприслівники, що розглядаються окремо. Даний метод базується на
перевірці двох умов.
Умова1. Ідентичність граматичних ознак іменника та описових характеристик, які йому
співставляються;
Умова 2. Критерій відстані між словами. Чим менше відстань між іменником та описовою
характеристикою, що йому співставляється, тим більша ймовірність даного зв'язку.
Четвертий розділ присвячено проблемі атрибуції текстів, підходам до її вирішення, розглядається
формування простору ознак художніх творів.
Для побудови параметричного простору в задачах атрибуції текстів необхідними групами ознак є
морфологічні та синтаксичні конструкції. Виділення ознак лексичного та морфологічного рівнів у даній
роботі здійснюється з використанням сформованих результуючих частотних словників текстів. При цьому
результуючий частотний словник тексту будується в результаті перетину корпусного частотного словника
та частотного словника даного тексту. Частотний словник, побудований для заданого тексту, складається із
впорядкованого за алфавітом списку всіх слів, перетворених у слова-основи. До окремої групи ознак
виділено частоти появи службових слів у тексті. Для аналізу синтаксичної структури речень тексту
пропонуються використати наступні ознаки:
- частку появи внутрішніх розділових знаків (двокрапка, кома, тире, крапка з комою, дужки, лапки);
- частку появи зовнішніх розділових знаків (крапка, знак оклику, знак питання, багатокрапка,
комбінація знаків оклику та знаків питання);
- середню довжину речення (середня кількість слів у реченні);
- частку слів певної довжини (довжини слів з однієї літери, з 2-х і т.д. до 10);
- частку речень певної довжини (з одного слова, з 2-х слів і т.д. до 30);
- середню кількість прикметників, дієприкметників і дієприслівників до іменника (окремо).
При визначенні речень певної довжини використовується блок для виділення лексем у тексті та
здійснюється перевірка на кінець речення. В якості міток кінця речення виступають зовнішні розділові
знаки (крапка, знак оклику, знак питання, багатокрапка, комбінація знаків оклику та знаків питання).
11
Остання група синтаксичних ознак визначається із застосуванням запропонованого методу
визначення зв'язку між іменником та його описовими характеристиками (прикметником, дієприкметником
та дієприслівником).
У п’ятому розділі описано розроблені автоматичні системи кластеризації і класифікації текстів та
розглянуто їх використання при розв’язанні задач атрибуції художніх творів.
Для розробки автоматичної системи класифікації текстів Atributer була використана нейронна мережа
прямого розповсюдження, структура якої задається користувачем. Тестування системи Atributer
проводилося на прикладі вирішення задачі атрибуції художніх творів. При формуванні вихідного опису
текстів вибірки були використані ознаки, описані у розділі 4. Для вирішення задачі атрибуції заданої
вибірки текстів була сформована архітектура нейронної мережі, зображена на рис. 1.
Рис. 1. Архітектура нейронної мережі у даному експерименті
Для кожного блоку нейронів в якості функції виходу були використані відповідно такі функції: exp(-
x2
), 1-( exp(-x2
)) та th(x). Для вихідного шару нейронів використана сигмоїдна функція: 1/(1+exp(-x)).
Налаштування мережі реалізовано з використанням методу зворотнього розповсюдження помилки,
алгоритмів А1 (пошук оптимальної вибірки) та А2 (побудова вхідного вектору ознак об'єкту за числом η).
Різнорідні групи параметрів, за якими будується вектор ознак, складають частоти результуючих частотних
словників текстів вибірки та визначені синтаксичні ознаки.
Навчання та тестування системи проводилось на текстах з обмеженням об'єму до 2000 слів. Навчальна
вибірка, що використовувалась, включала 100 художніх творів наступних авторів (по 10 творів кожного
автора): О. Пушкіна, В. Набокова, М. Горького, М. Булгакова, І. Тургенєва, Л. Толстого, А. Чехова, М.
Шолохова, Ф. Достоєвського, М. Гоголя.
Тестовим прикладом, що використовувався в процесі алгоритму пошуку оптимальної вибірки, був
вибраний уривок з твору В. Набокова “Встреча”; вектор ознак, сформований для цього тексту,
використовувався мережею як навчальний приклад з навчальної вибірки. Об’єм уривку (кількість слів)
складає половину об’єму всього тексту, який використовувався при навчанні системи. З рис. 2 видно, що
при точці з відрізку [0,1], що дорівнює 0.65625 досягається кращий, відповідно критерію оцінки навчання,
результат.
12
0
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0 0,5 0,625 0,65625 0,6875 0,75 1
Числа, що відповідають вибіркам
сформованим у процесі алгоритму
ЗначеннякритеріюF
Рис. 2. Пошук оптимальної вибірки
З отриманих результатів випливає, що для класифікації даної навчальної вибірки більш визначальною
є група синтаксичних ознак (результат класифікації вектором за групою ознак частотного словника, який на
відрізку відповідає точці 0, виявляється найгірший за критерієм).
В якості тестових прикладів для системи було використано 100 художніх творів, які не
використовувались при навчанні системи, написаних авторами з навчальної вибірки (по 10 творів кожного
автора).
Результати, одержані системою Atributer, подано у наступній інтерпретації.
Нехай Hi – подія, яка полягає в тому, що тексти і-го автора вірно розпізнані системою Atributer, тобто
віднесені до класу, що відповідає автору і, де ni ,1= , n – кількість авторів у тестовій вибірці, або кількість
класів; Hi / Hj – подія, яка полягає в тому, що тексти і-го автора віднесені до автора j, де nj ,1= (при i=j
дана подія співпадає з подією Hi). Покладемо P(Hi) – правдоподібність події Hi, яка визначається як
відношення кількості вірно прокласифікованих системою текстів і-го автора до кількості всіх текстів автора
і; відповідно P(Hi / Hj) – правдоподібність події Hi / Hj – відношення кількості розпізнаних системою текстів
і-го автора як текстів автора j до кількості всіх текстів автора і.
Результати класифікації, отримані системою Atributer для заданої тестової вибірки, наведені у
таблицю 1. У даній таблиці рядки та стовпчики відповідають класам розбиття, тобто авторам з тестової
вибірки, а комірка і-го рядка та j-го стовпчика – містить правдоподібність події P(Hi/Hj). Діагональні
елементи таблиці представляють правдоподібності того, що всі тексти одного автора розпізнані вірно.
Індекси подій відповідають заданому порядку авторів у навчальній вибірці.
13
Таблиця 1.
Hj, 10,1=j
Hi, 10,1=i
H1 H2 H3 H4 H5 H6 H7 H8 H9 H10
H1 6/10 1/10 0 0 1/10 2/10 0 0 0 0
H2 0 9/10 1/10 0 0 0 0 0 0 0
H3 0 0 5/10 2/10 1/10 1/10 0 1/10 0 0
H4 0 1/10 2/10 6/10 1/10 0 0 0 0 0
H5 0 0 1/10 1/10 8/10 0 0 0 0 0
H6 1/10 0 0 0 1/10 7/10 0 0 0 1/10
H7 0 0 0 0 1/10 0 9/10 0 0 0
H8 0 0 1/10 0 0 1/10 0 7/10 1/10 0
H9 0 1/10 2/10 1/10 0 0 0 1/10 5/10 0
H10 0 1/10 0 0 0 0 0 0 0 9/10
Згідно даних таблиці 1 вірно розпізнані системою Atributer тексти складають 71%; середня кількість
невірно прокласифікованих текстів для кожного з 10 авторів у даному експерименті становить 3 тексти.
При тестуванні розробленої системи класифікації Atributer було розглянуто її застосування для
встановлення авторства твору “Роман з кокаїном”. Проведений дослідниками аналіз, що базувався на
використанні суб'єктивно-атрибутивного підходу дозволив висунути гіпотезу про те, що автор даного твору
– Набоков, який писав під псевдонімом М. Агеєв.
Результати класифікації даного твору за допогою системи Atributer подано у наступній інтерпретації.
Розглянемо виходи системи Atributer xT
i для даного тексту T як відстані до кожного з класів авторів Ci, i=1,
…, n, які були визначені для навчальної вибірки, тобто: xT
i = ))(),(( TPViCVDist , де V(Ci) – вектор, що
відповідає автору Ci , V(PT ) – вектор ознак для даного тексту. Тоді x*
– відстань до найближчого для тексту
T класу: 
iC TPViCVDistArg
i
x ))(),((min
*
= , С*
– найближчий для тексту T клас.
Результати класифікації для твору “Роман с кокаїном” наведені у таблиці 2.
Таблиця 2.
Класи авторів (Сi – <автор>) Виходи системи Atributer, xT
i
C1 – < О. Пушкін > 0,98781
C2 – < В. Набоков> 0,00535
C3 – < М. Горький> 0,03467
C4 – < М. Булгаков> 0,53489
C5 – < І. Тургенєв> 1,02340
C6 – < Л. Толстой> 0,02978
C7 – < А. Чехов> 0,78796
C8 – < М. Шолохов> 0,08872
C9 – <Ф. Достоєвський> 0,00745
C10 – < М. Гоголь> 0,82435
С*
= C2 x*
= T
x2 =0,00535
Згідно даної таблиці найближчим класом для твору “Роман с кокаїном” є клас творів Набокова. Це дає
підстави стверджувати, що він подібний за даним простором ознак до творів Набокова, які
використовувались для навчання системи та творів Набокова, які були вірно розпізнані системою.
Отримані результати дозволяють підкреслити ефективність та перспективність застосування
автоматичної системи класифікації Atributer при вирішенні проблеми атрибуції текстів. Подальше
удосконалення можливостей та знаходження у процесі тестування оптимальної мережевої архітектури цієї
14
системи відкриває її великий потенціал у розв’занні широкого кола задач класифікації текстів за різними
групами ознак.
Із застосовуванням нейронної мережі Кохонена та запропонованого методу визначення числа
кластерів була розроблена автоматична система кластеризації текстів на природній мові – Clasterizator. Дана
система призначена для вирішення задач кластеризації документів масиву за вибраним профілем –
тематикою тексту або стилем його написання (стилістичними ознаками). За виділеним користувачем
набором характеристик система Clasterizator дозволяє розбити текстову вибірку на кластери схожих між
собою текстів.
При проведенні тематичної кластеризації документів для побудови векторів ознак пропонується
використати дані створених результуючих частотних словників.
При кластеризації текстової вибірки за стилістичними ознаками вектори ознак можуть формуватися із
даних результуючих частотних словників, статистики службових слів та синтаксичних характеристик,
визначених у розділі 4.
Для тестування автоматичної системи кластеризації Clasterizator було проведено кластеризацію
вибірки художніх текстів за стилістичними ознаками. Навчальна вибірка, що використовувалась, включала
85 художніх творів російських письменників.
Кластеризація проводилась окремо за: синтаксичними ознаками та статистикою службових слів;
даними результуючих частотних словників; незваженими ознаками всіх груп; зваженими ознаками всіх
груп, відповідно до числа η, визначеного із застосуванням алгоритму пошуку оптимальної вибірки.
Найкращий результат отримано при кластеризації тестової вибірки текстів за зваженими ознаками
всіх груп, відповідно до числа η, знайденого за допомогою алгоритму пошуку оптимальної вибірки: вірно
розпізнані системою Clasterizator тексти складають ~ 70,6%; середня кількість невірно прокластеризованих
текстів для кожного з 12 авторів у даному експерименті становить 2 тексти.
15
ВИСНОВКИ
Результатом дисертаційного дослідження є аналіз та удосконалення методів для вирішення задач
класифікації об’єктів. Із застосуванням апарату нейронних мереж створено нові більш досконалі алгоритми
для вирішення складних проблем, які виникають при розв’язанні задач класифікації об’єктів, представлених
багавимірними векторами ознак. Ефективність даних алгоритмів продемонстровано на прикладах вирішення
прикладних задач. При проведені досліджень одержано такі результати:
1. Вперше запропоновано метод визначення числа кластерів при кластеризації корпусу об'єктів із
застосуванням нейронної мережі Кохонена, критерію якості отриманих кластерів та методу ідеальної точки.
2. Розроблено автоматичну систему кластеризації текстів Clasterizator з використанням
запропонованого методу визначення числа кластерів.
3. Застосовано систему Clasterizator для класифікації текстів за стилістичними ознаками, які
продемонстрували її ефективність при розв’язанні поставленої задачі.
4. Розроблено метод побудови вектора ознак, що розподілені по різнорідним групам, для
класифікації об'єктів.
5. За допомогою застосування нейронної мережі прямого розповсюдження та запропонованого
методу побудови вектора ознак розроблено автоматичну систему класифікації текстів Atributer.
6. Експериментально досліджено можливості системи Atributer для вирішення задачі атрибуції
художніх творів російських письменників. Показано, що метод формування вектора ознак є ефективним для
визначення роздільної здатності кожної групи ознак.
16
СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ
1. Порхун О.В. Методи та алгоритми для розв’язання задач класифікації // Вісник Київського
університету. Серія фіз.-мат. наук. – 2005. – №1. – С. 212-220.
2. Порхун О.В. Побудова параметричного простору в задачах атрибуції текстів. Метод формування
вхідного вектору для розпізнавання стилю тексту нейронною мережею // Вісник Київського університету.
Серія фіз.-мат. наук. – 2005. – №4. – С. 207-212.
3. Анисимов А.В., Порхун Е.В., Тарануха В.Ю. Алгоритм формирования параметрического вектора
для решения задач классификации нейронной сетью прямого распространения // Кибернетика и системный
анализ. – 2007. – №2. – C. 3-14.
4. Анисимова Е.А., Порхун Е.В., Тарануха В.Ю. Информационные технологии обработки
документов, представленных в виде текстов на естественном языке. Возможности применения WORDNET и
нейронных сетей // Матеріали міжнародної конференції з автоматичного управління “Автоматика – 2006”. –
Вінниця, 2006. – С. 344.
5. Порхун Е.В., Тарануха В.Ю. Применение WORDNET и нейронных сетей в создании
интеллектуальных систем обработки текстов на естественном языке // Матеріали міжнародної конференції
TAAPSD’2006 “Теоретичні та прикладні аспекти побудови програмних систем”. – Київ, 2006. – С. 183-186.
6. Порхун Е.В. Разработка автоматической системы классификации текстов с применением аппарата
нейронных сетей // Матеріали міжнародної наукової конференції MegaLing’2007 “Горизонти прикладної
лінгвістики та лінгвістичних технологій”. – Крим, Партеніт, 2007. – С. 283-285.
АНОТАЦІЯ
Порхун О. В. Автоматична класифікація багатовимірних об’єктів із застосуванням нейронних мереж.
– Рукопис.
Дисертація на здобуття наукового ступеня кандидата фізико-математичних наук за спеціальністю
01.05.01 – теоретичні основи інформатики та кібернетики. – Київський національний університет імені
Тараса Шевченка, Київ, 2009.
Дисертація присвячена дослідженню проблеми автоматичної класифікації багатовимірних об’єктів,
розробці нових методів та алгоритмів для вирішення ключових проблем, які виникають при класифікації та
кластеризації об’єктів, представлених числовими ознаками.
Запропоновано метод для визначення числа кластерів при кластеризації корпусу об’єктів нейронною
мережею Кохонена із застосуванням критерію якості отриманих розбиттів та методу ідеальної точки.
Запропоновано метод побудови вектора ознак, що розподілені по різнорідним групам, для класифікації
об'єктів. Розроблено алгоритм пошуку оптимальної вибірки для класифікації об'єктів, представлених
набором ознак, розподілених по різнорідним групам. Встановлено та обґрунтовано оцінки складності
алгоритму пошуку оптимальної вибірки із врахуванням випадків наявності у вибірці прикладів з
нерівномірним розподілом груп ознак. Із застосуванням нейронної мережі прямого розповсюдження та
запропонованого методу побудови вектора ознак розроблено автоматичну систему класифікації текстів.
Розроблено автоматичну систему кластеризації текстів з використанням запропонованого методу
визначення числа кластерів. Застосовано автоматичні системи класифікації та кластеризації текстів для
вирішення задач атрибуції художніх творів. Розроблені системи виявилися ефективними для класифікації
великих масивів текстів значних об’ємів.
17
Ключові слова: нейронна мережа, алгоритми навчання, оптимальний граф, вектор ознак, різнорідні
групи ознак, критерій оцінки навчання, оптимальна вибірка, результуючий частотний словник, щільність
класу, радіус класу.
АННОТАЦИЯ
Порхун Е. В. Автоматическая классификация многомерных объектов с применением нейронных
сетей. – Рукопись.
Диссертация на соискание ученой степени кандидата физико-математических наук по специальности
01.05.01 – теоретические основы информатики и кибернетики. – Киевский национальный университет
имени Тараса Шевченка, Киев, 2009.
Диссертация посвящена исследованию проблемы автоматической классификации многомерных
объектов, разработке новых методов и алгоритмов для решения задач, возникающих при классификации и
кластеризации объектов, представленных числовыми признаками.
Предложен метод для определения числа кластеров при кластеризации корпуса объектов нейронной
сетью Кохонена с применением критерия качества полученных разбиений и метода идеальной точки.
Предложен метод формирования вектора признаков для классификации объектов, заданных набором
параметров, распределенных по разнородным группам. Разработан алгоритм поиска оптимальной выборки
для классификации объектов, представленных набором параметров, распределенных по разнородным
группам. Установлено и обусловлено оценки сложности алгоритма поиска оптимальной выборки с учетом
наличия в исходной выборке примеров с неравномерным распределением групп признаков. С применением
нейронной сети прямого распространения и предложенного метода формирования вектора признаков
разработано автоматическую систему классификации текстов, представленных выделенным набором
параметров. Разработано автоматическую систему кластеризации текстов с применением предложенного
метода определения числа кластеров. Применены разработанные системы классификации и кластеризации
текстов для решения задач атрибуции художественных произведений. Эти системы оказались
эффективными для классификации больших массивов текстов значительных объемов.
Ключевые слова: нейронная сеть, алгоритм обучения, оптимальный граф, вектор признаков,
разнородные группы признаков, критерий оценки обучения, оптимальная выборка, результирующий
частотный словарь, плотность класса, радиус класса.
ABSTRACT
Porkhun O. V. Automatic classification of multidimensional objects using neural networks. – Manuscript.
A thesis presented in partial fulfillment for the degree of candidate of physical and mathematical science in
the subject of 01.05.01 – Theoretical bases of informatics and cybernetics. – Taras Shevchenko National University
of Kiev, Kiev, 2009.
Thesis is dedicated to research of the problem of multidimensional objects automatic classification as well as
to development of new methods and algorithms for solving basic problems of classification and clustering objects
presented by quantitative features using neural networks.
The method for determining the number of clusters during the clusterization by the Kohonen neural network
using a criterion of quality is offered. The criterion combines density and distance based measure and method of
18
ideal point. The method for constructing features vector for classification presented by the set of heterogeneous
parameters is offered.
The algorithm for optimum selection of weights for parameters set was developed. Taking into account
uneven distribution of features groups estimations of complexity of algorithm were calculated and proved.
Using the feedforward neural network and the offered method for constructing features vector the automatic
system of texts classification presented by the selected set of parameters is developed.
Using the offered method for determining the number of clusters the automatic system for texts clustering is
developed. The developed systems were applied for the decision of tasks of art texts attribution. These systems
appeared effective for classification of large arrays of big texts.
Keywords: neural network, learning algorithms, optimum graph, features vector, heterogeneous features
groups, criterion of learning estimation, optimum selection, resulting frequency dictionary, class density, radius of
class.
19

More Related Content

What's hot

What's hot (19)

Prez artem11
Prez artem11Prez artem11
Prez artem11
 
Aref -
Aref -Aref -
Aref -
 
Vidguk musienko
Vidguk musienkoVidguk musienko
Vidguk musienko
 
Dis (1)
Dis (1)Dis (1)
Dis (1)
 
Dis
DisDis
Dis
 
Aref миронюк випр. 12.04
Aref миронюк випр. 12.04Aref миронюк випр. 12.04
Aref миронюк випр. 12.04
 
Aref kovalenko
Aref  kovalenkoAref  kovalenko
Aref kovalenko
 
Aref Lavdanskiy
Aref LavdanskiyAref Lavdanskiy
Aref Lavdanskiy
 
Dis stabetska
Dis stabetskaDis stabetska
Dis stabetska
 
Aref stabetska
Aref stabetskaAref stabetska
Aref stabetska
 
Aref nagi ed
Aref nagi edAref nagi ed
Aref nagi ed
 
Diss Lavdanskiy
Diss LavdanskiyDiss Lavdanskiy
Diss Lavdanskiy
 
Лавданський
ЛавданськийЛавданський
Лавданський
 
Diss_Lavdanskiy
Diss_LavdanskiyDiss_Lavdanskiy
Diss_Lavdanskiy
 
Aref chikunov
Aref chikunovAref chikunov
Aref chikunov
 
Міценко_дисертація
Міценко_дисертаціяМіценко_дисертація
Міценко_дисертація
 
міценко відгук співак
міценко відгук співакміценко відгук співак
міценко відгук співак
 
відгук пустовіт
відгук пустовітвідгук пустовіт
відгук пустовіт
 
Aref tarasenko
Aref tarasenkoAref tarasenko
Aref tarasenko
 

Viewers also liked

Multiclassification system
Multiclassification systemMulticlassification system
Multiclassification system
Elena Porkhun
 

Viewers also liked (10)

Multiclassification system
Multiclassification systemMulticlassification system
Multiclassification system
 
PorkhunCV_cat
PorkhunCV_catPorkhunCV_cat
PorkhunCV_cat
 
Semantics
SemanticsSemantics
Semantics
 
мое портфолио 2015г.
мое портфолио 2015г.мое портфолио 2015г.
мое портфолио 2015г.
 
20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町
 
PorkhunCV_english
PorkhunCV_englishPorkhunCV_english
PorkhunCV_english
 
20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)
 
20160618_HTML5プロフェッショナル認定試験レベル1 技術解説セミナー in OSC北海道2016
20160618_HTML5プロフェッショナル認定試験レベル1 技術解説セミナー in OSC北海道2016 20160618_HTML5プロフェッショナル認定試験レベル1 技術解説セミナー in OSC北海道2016
20160618_HTML5プロフェッショナル認定試験レベル1 技術解説セミナー in OSC北海道2016
 
20141004 ゼウス・ラーニングパワーlinuxサーバ構築セミナー
20141004 ゼウス・ラーニングパワーlinuxサーバ構築セミナー20141004 ゼウス・ラーニングパワーlinuxサーバ構築セミナー
20141004 ゼウス・ラーニングパワーlinuxサーバ構築セミナー
 
20150613 html5プロフェッショナル認定試験 レベル1技術解説セミナー
20150613 html5プロフェッショナル認定試験 レベル1技術解説セミナー 20150613 html5プロフェッショナル認定試験 レベル1技術解説セミナー
20150613 html5プロフェッショナル認定試験 レベル1技術解説セミナー
 

Similar to AVTOREFERAT

IT connect 2011
IT connect 2011IT connect 2011
IT connect 2011
MageCloud
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
Volodymyr Saviak
 

Similar to AVTOREFERAT (20)

іуст 2013
іуст 2013іуст 2013
іуст 2013
 
смпр
смпрсмпр
смпр
 
косилов автореферат
косилов авторефераткосилов автореферат
косилов автореферат
 
Aref zazhoma vm
Aref zazhoma vmAref zazhoma vm
Aref zazhoma vm
 
Автореферат КАРАПЕТЯН А. Р.
Автореферат  КАРАПЕТЯН А. Р.Автореферат  КАРАПЕТЯН А. Р.
Автореферат КАРАПЕТЯН А. Р.
 
Program ph d-122
Program ph d-122Program ph d-122
Program ph d-122
 
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
Основи алгоритмізації та програмування для старшокласників, турніри та олімпі...
 
Autoreferat lukashenko
Autoreferat lukashenkoAutoreferat lukashenko
Autoreferat lukashenko
 
Dis deev
Dis deevDis deev
Dis deev
 
1 (1)
1 (1)1 (1)
1 (1)
 
Aref
ArefAref
Aref
 
Dis deev
Dis deevDis deev
Dis deev
 
Prez artem11
Prez artem11Prez artem11
Prez artem11
 
Prez artem11
Prez artem11Prez artem11
Prez artem11
 
автореферат лелеко
автореферат лелекоавтореферат лелеко
автореферат лелеко
 
Aref rozlomii
Aref rozlomiiAref rozlomii
Aref rozlomii
 
Musienko
MusienkoMusienko
Musienko
 
IT connect 2011
IT connect 2011IT connect 2011
IT connect 2011
 
Petrenko hpc day 2011 Kiev
Petrenko hpc day 2011 KievPetrenko hpc day 2011 Kiev
Petrenko hpc day 2011 Kiev
 
Aref susoenko
Aref susoenkoAref susoenko
Aref susoenko
 

AVTOREFERAT

  • 1. Київський національний університет імені Тараса Шевченка УДК 004.89:004.912 Порхун Олена Володимирівна Автоматична класифікація багатовимірних об’єктів із застосуванням апарату нейронних мереж 01.05.01 – теоретичні основи інформатики та кібернетики АВТОРЕФЕРАТ дисертації на здобуття наукового ступеня кандидата фізико-математичних наук
  • 3. ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ Актуальність теми. На сьогодні в різних галузях людської діяльності накопичено великі об’єми інформації про різні матеріальні та нематеріальні сутності, їх властивості, поведінку та зв’язки. Робота будь- якого експерту з набором понять та сутностей завжди будується на використанні класифікації. При автоматичній обробці баз даних, добуванні знань, інтелектуальному аналізі даних вирішуються задачі класифікації з використанням методів природно-мовних теорій, математичної статистики, теорії прийняття рішень. Метою автоматизованих систем діагностики також є ефективна класифікація об’єктів дослідження. При аналізі об'єктів враховується велика кількість параметрів, що в свою чергу потребує розробки та застосування спеціальних алгоритмів обробки багатовимірних даних. З появою в Internet засобів масової інформації особливого значення набуває організація роботи з текстовими документами. Постає необхідність у розробці ефективних засобів та методів систематизації великих масивів текстової інформації, що в свою чергу вимагає створення ефективних методів для її класифікації, оптимізації пошуку, комунікації між різними за тематикою Internet-порталами та базами даних. Тому потреба у розробці ефективних засобів та методів класифікації постійно зростає та розширюється область їх використання. Проведений аналіз існуючих методів класифікації дозволив виділити ряд проблем, що перешкоджають розширенню сфери їх застосування. Основним недоліком традиційних методів є їх залежність від розмірності простору ознак та об’єму даних. Цю проблему допомагає вирішити апарат нейронних мереж, що зарекомендував себе як ефективний засіб для боротьби з “прокляттям розмірності”. Здатність до обробки даних великої розмірності та вміння навчатися на прикладах виділяють апарат нейронних мереж як потужний метод моделювання, що дозволяє відтворювати достатньо складні залежності. Це обумовило вибір даного апарату в якості базового засобу для класифікації досліджуваних об’єктів у дисертаційній роботі. Важливою задачею при класифікації об’єктів є побудова простору ознак, або в термінах теорії розпізнавання образів – вихідного опису об’єкту. Метою є одержання такого вихідного опису об’єкту, в термінах якого задача класифікації може бути вирішена прийнятним чином. При формуванні простору ознак задача може ускладнюватися тим, що апостеріорно вибрані ознаки можуть бути розподілені по різнорідним групам, кожна з яких характеризує об’єкт у відповідності із значеннями ознак, які вона містить. В таких випадках необхідна спільна обробка даних груп для забезпечення впливу кожної ознаки на процес класифікації. В багатьох випадках в силу значної різнорідності та різномасштабності ознак дана задача виявляється складною, її вирішення залежить від засобів класифікації, що використовуються, та алгоритму обробки вхідних показників. У дисертаційній роботі запропоновано універсальний евристичний алгоритм побудови вектора ознак, розподілених по різнорідним групам, з використанням нейронної мережі прямого розповсюдження. За допомогою нейронної мережі прямого розповсюдження та даного алгоритму була розроблена система автоматичної класифікації текстів. Вирішення задачі кластеризації об’єктів вимагає знання числа кластерів, на які необхідно розбити вибірку. В більшості випадків ця інформація відсутня та вибір способу визначення кількості кластерів покладають на користувача. В дисертаційній роботі пропонується евристичний алгоритм для автоматичного визначення кількості кластерів при кластеризації об’єктів. Із застосуванням нейронної мережі Кохонена та даного алгоритму була розроблена автоматична система кластеризації текстів, що дозволяє за заданим набором ознак розбити простір текстових документів на кластери подібних між собою текстів. 3
  • 4. Зв'язок роботи з науковими програмами, планами, темами. Основні дослідження за темою дисертації проводились на кафедрі математичної інформатики факультету кібернетики Київського національного університету імені Тараса Шевченка в рамках: 1) науково-технічної бюджетної теми: Б/Т № 06БФ015-01 “Cтворення теоретичних основ, методів та засобів інтелектуалізації інформаційно-комунікаційних технологій для розподілених комп’ютерних систем” (№ держреєстрації 0106U005860); 2) державної науково-технічної програми “Образний комп’ютер”, зокрема, у науково-дослідних роботах за договорами:  № 03ДП015-01 “Розробити інформаційну технологію синтезу, аналізу, реферування, пошуку і смислової інтерпретації текстової інформації та смислового перекладу текстової інформації з однієї мови на іншу” (№ держреєстрації 0103U005499). Замовник Міністерство промислової політики;  № 04ДП015-06 “Розробити експериментальну комп'ютерно-лінгвістичну технологію змістовного аналізу текстової інформації” (№ держреєстрації 0104U004834). Замовник Міжнародний науково- навчальний центр інформаційних технологій та систем;  № 06ДП015-05 “Розробити ескізний проект системи мультилінвістичної фільтрації та семантичного аналізу текстової інформації на базі мультилінгвістичної бази знань типу WordNet” (№ держреєстрації 0106U006685). Замовник Міжнародний науково-навчальний центр інформаційних технологій та систем;  № 07ДП015-04 “Розробити систему смислового контекстного аналізу текстових документів на основі онтологічної бази знань” (№ держреєстрації 0107U003920). Замовник Міжнародний науково- навчальний центр інформаційних технологій та систем;  № 08ДП015-07 “Розробити системи смислової класифікації, рубрикації та кластеризації природно мовних текстових документів на основі семантичного аналізу” (№ держреєстрації 0108U007255). Замовник Міжнародний науково-навчальний центр інформаційних технологій та систем. 3) науково-технічних робіт за договорами:  № 05ДП015-03 “Створення технології компю’терно – лінгвістичної обробки текстової інформації на природній мові” (№ держреєстрації 0105U008126). Замовник Міністерство освіти та науки України;  №07ДП015-06 “Створення глобальної україномовної лексико-семантичної онтологічної бази лінгвістичних знань та розробка пакету програм інтелектуальної обробки текстових документів” (№ держреєстрації 0107U006801). Замовник Міністерство освіти та науки України. Мета і задачі дослідження. Метою дослідження в дисертаційній роботі є розробка ефективних алгоритмів для вирішення задачі класифікації об’єктів, які задані набором числових ознак, а також розробка автоматичних систем класифікації та кластеризації із застосуванням вище зазначених алгоритмів та апарату нейронних мереж. В дисертаційній роботі поставлено та розв’язано такі задачі: - визначення числа кластерів при розв’язанні задачі кластеризації об’єктів; - побудова вектора ознак для вирішення задачі класифікації об'єктів, представлених різнорідними групами числових ознак, нейронною мережею прямого розповсюдження; - розробка автоматичних систем класифікації та кластеризації текстової інформації; - експериментальне випробування розроблених систем на прикладі розв’язання задач атрибуції текстів. 4
  • 5. Об'єкт дослідження. Об'єктом дослідження є автоматична класифікація багатовимірних об’єктів, заданих векторами числових ознак. Предмет дослідження. Предметом дослідження є апарат нейронних мереж як інструмент для розробки методів та автоматичних систем класифікації та кластеризації. Методи дослідження. При розробці автоматичних систем класифікації та кластеризації, евристичних алгоритмів для визначення числа кластерів та побудови вектора ознак при класифікації об’єктів застосовувались методи оптимізації, програмування, теорії прийняття рішень, методи навчання нейронних мереж тощо. Наукова новизна одержаних результатів. Основними науковими результатами є: - вперше запропоновано метод визначення числа кластерів при кластеризації корпусу об'єктів із застосуванням нейронної мережі Кохонена, критерію якості отриманих кластерів та методу ідеальної точки; - вперше запропоновано метод побудови вектора ознак об'єкту із врахуванням випадків їх розподілу по різнорідним групам; розроблено алгоритм пошуку оптимальної вибірки для побудови вектора ознак при класифікації об'єктів; - встановлено та обґрунтовано оцінки складності алгоритму пошуку оптимальної вибірки із врахуванням випадків наявності у вибірці прикладів з нерівномірним розподілом груп ознак; - розроблено автоматичну систему класифікації текстів на основі виділеного набору ознак із застосуванням нейронної мережі прямого розповсюдження та запропонованого методу побудови вектора ознак; - розроблено автоматичну систему кластеризації текстів з можливостями здійснення кластеризації при відомій кількості кластерів та з використанням запропонованого алгоритму визначення числа кластерів; - застосовано розроблені автоматичні системи класифікації та кластеризації текстів для вирішення задач атрибуції художніх творів. Практичне значення одержаних результатів. Практичне значення роботи полягає у розширенні сфери застосувань розроблених алгоритмів та автоматичних систем класифікації і кластеризації текстів. Створені алгоритми здатні працювати з векторами великої розмірності, розроблені автоматичні системи дають змогу запам’ятовувати значну кількість образів, навчатися як із використанням вчителя, так і без його залучення, узагальнювати та кластеризувати великі масиви даних. Все це робить можливим застосування даних розробок до широкого кола прикладних задач. Ефективність розроблених автоматичних систем класифікації та кластеризації текстів продемонстровано на прикладі розв’язання задач атрибуції художніх творів. Особистий внесок здобувача полягає у розробці нових інструментів для вирішення проблеми класифікації інформації: автоматичних систем класифікації і кластеризації та нових алгоритмів для розв’язання основних задач, що виникають в процесі вирішення проблеми класифікації. Всі основні результати дисертаційної роботи одержані автором самостійно. У публікаціях, написаних у співавторстві, здобувачеві належить: у роботі [3] – розробка, обґрунтування та програмна реалізація методу побудови вектора ознак об’єкту, що класифікується, розробка автоматичної системи класифікації та її випробування для вирішення задачі атрибуції художніх творів; у роботах [4, 5] – розробка автоматичної системи класифікації текстів та методу визначення числа кластерів при кластеризації корпусу об'єктів. 5
  • 6. Апробація результатів роботи. Основні результати роботи доповідалися та обговорювалися на наукових семінарах факультету кібернетики Київського національного університету імені Тараса Шевченка та конференціях, у тому числі на: 1. Міжнародній конференції “Стилистика и теория языковой коммуникации”, Москва, 20-21 апреля 2005г. 2. Міжнародній конференції з автоматичного управління “Автоматика – 2006”, Вінниця, 25-28 вересня, 2006 р. 3. Міжнародній конференції “Теоретичні та прикладні аспекти побудови програмних систем”, Київ, 5-8 грудня 2006 р. 4. Міжнародній науковій конференції MegaLing’2007 “Горизонти прикладної лінгвістики та лінгвістичних технологій”, Крим, Партеніт, 2007р. Публікації Основні результати роботи викладені в 6 друкованих працях, з яких 3 – статті у наукових фахових журналах, рекомендованих ВАК України (з них 2 виконано без співавторів) та 3 публікації у вигляді тез міжнародних наукових конференцій. Структура дисертації. Дисертація складається зі вступу, п’яти розділів, висновків, додатків та списку використаних джерел з 100 найменувань. Обсяг дисертації – 110 сторінок основного тексту українською мовою, ілюстрованих 5 рисунками та 12 таблицями. 6
  • 7. ЗМІСТ РОБОТИ У вступі обґрунтовано вибір теми дисертаційної роботи та її актуальність, сформульовано задачі дослідження, відзначено наукову новизну та практичне значення одержаних результатів. У першому розділі виконано аналіз існуючих методів та алгоритмів класифікації. Розглянуто існуючі методи класифікації у контексті їх застосування до вирішення задач класифікації текстів. Проведено огляд літературних джерел з проблем, що виникають при вирішенні задач класифікації, показано сучасний стан проблеми. Потужним класом методів класифікації є методи дискримінації, які базуються на навчанні. Широке застосування серед методів даної групи здобули ядерні методи машинного навчання. Першою концепцією ядерного підходу став метод опорних векторів, запропонований В. Вапніком у 1992 р. Він одержав широке застосування при вирішенні цілого ряду задач аналізу зображень, відновлення регресії, ідентифікації та ін. Подальшим удосконаленням методу опорних векторів, зокрема, для роботи з даними без лінійно-роздільної здатності, стала реалізація побудови вирішального правила у класі нелінійних поверхонь, запропонована В. Вапніком та С. Бургесом у 1995 р. Активного розвитку серед методів даного класу набув Байєсовський підхід, розроблений для оцінювання параметрів моделей при класифікації об’єктів, заданих набором атрибутів. Метод Байєса одержав подальший розвиток у застосуванні байєсовських мереж, які дозволяють вирішити проблеми, пов’язані з неправомірністю припущення про умовну незалежність атрибутів об’єктів при використанні правила Байєса. У 2000 р. був розроблений метод релевантних векторів, який дозволив автоматично знаходити значення параметрів регуляризації, відокремлюючи таким чином, корисні закономірності вхідних даних від шумів. Альтернативою методам навчання є методи, що базуються на обчисленні відстаней. Серед них застосування одержали метод k-найближчих сусідів, метод міркування за аналогією (Case Based Reasoning, CBR), класифікатор Роше. Вони не потребують фази навчання та відносяться до класу методів, робота яких базується на збереженні даних у пам’яті для порівняння з новими елементами. Широко застосовними методами класифікації є побудова дерев розв'язків, логічні методи та методи з використанням моделей, що самоорганізуються. Важливими результатами у розвитку методів, що базуються на принципах самоорганізації, є розробки цілого класу адаптивних моделей, що самоорганізуються, українськими кібернетиками під керівництвом академіка А.Г. Івахненко. Запроваджений ними принцип масової селекції ліг в основу відомого методу групового врахування аргументів. При вирішенні задач класифікації без застосування навчання широко використовується апарат кластерного аналізу даних. Ряд алгоритмів, що використовуються при кластерному аналізі, розробили зарубіжні вчені: Дж. Мак-Кін, Г. Болл, Д. Холл, Г. Ланс, У. Уільямсон, Н. Джардайн. Значний внесок у розвиток кластерного аналізу зробили роботи радянських вчених – Є.М. Бравермана, А.А. Дорофеюка, І.Б. Мучника, Л.А. Растригіна, Ю.І. Журавльова, І.І. Єлисеєва, М.Г. Загоруйко, В.М. Йолкіної та Г.С. Лобова. Потужними програмними продуктами для розв’язання задач кластеризації є пакети програм ППСА та Класс-Мастер, створені С.О. Айвазяном, І.С. Єнюковим та Б.Г. Міркіним. Актуальною задачею класифікації є проблема класифікації текстів на природній мові. За роки досліджень в області автоматичної класифікації текстової інформації було запропоновано ряд відомих методів класифікації: метод Байєса, метод опорних векторів, метод k-найближчих сусідів, класифікатор Роше. В якості методу класифікації різнорідних за характером текстів при виборі різних основ класифікації пропонується використання методу комбінованої ієрархічної класифікації. 7
  • 8. На основі проведеного аналізу методів класифікації було виявлено їх основний недолік – залежність від розмірності простору ознак об’єктів та об’єму вхідних даних. Цю проблему допомагає вирішити апарат нейронних мереж. Важливими результатами в області класифікації складних об’єктів із застосуванням нейронних мереж є розробки з реалізації моделі поведінки користувачів Grid-систем українськими вченими: О.М. Куссулем, А.Ю. Шелестовим, С.В. Скакуном. Відомими роботами з автоматичної класифікації текстів із застосуванням нейронних мереж є дослідження російських вчених: А.Ф. Гарєєва, О.Г. Шевельова, А.В. Петракова, А.М. Андреєва, Д.В. Березкіна, В.В. Сюзєва, В.І. Шабанова. На основі проведеного аналізу було виділено основні проблеми, які потребують вирішення при класифікації великих корпусів багатовимірних об’єктів із застосуванням нейронних мереж. По-перше, це визначення числа кластерів при кластеризації об’єктів, заданих числовими векторами ознак. У дисертаційній роботі для вирішення цієї проблеми запропоновано метод, що базується на використанні нейронної мережі Кохонена та критерію якості отриманих розбиттів. По-друге, це побудова вектора ознак об'єкту, розподілених по різнорідним групам, що реалізується у роботі за допомогою запропонованих алгоритмів та нейронної мережі прямого розповсюдження. У другому розділі розглянуто методи вирішення задач, що виникають при класифікації об'єктів, заданих числовим набором ознак, за допомогою апарату нейронних мереж, зокрема, мережі Кохонена та мережі прямого розповсюдження. Для визначення числа кластерів при кластеризації об’єктів запропоновано евристичний алгоритм, який належить до класу комбінованих методів – базується на використанні нейронної мережі Кохонена, критерію якості отриманих розбиттів та методі ідеальної точки. Перевагою даного способу визначення результуючого розбиття є представлення розв’язків задачі із вказанням їх оцінок. Алгоритм включає в себе два критерії. Перший припускає, що вірне розбиття на кластери – це розбиття з найбільшою частотою, отримане нейронною мережею Кохонена. На першому етапі алгоритму проводиться серія запусків нейронної мережі та отримується множина розбиттів, кількість яких дорівнює числу спроб. За розбиттями будується матриця, де рядкам відповідає множина об’єктів P, а стовпчикам – кластери розбиттів lQ , kl ,1= . Елемент матриці обчислюється наступним чином:     ∉− ∈ = l ti l ti ij Cp Cp a ,1 ,1 , де lmt ,1= , kl ,1= , l l t QC ⊂ ,  kl ll QQ ,1= ⊂ . Кожній матриці ставиться у відповідність граф. Для кожного ребра графу вказується оцінка c(e), як сила зв’язку i-го вузла з j-м, яка обчислюється за формулою: kwec klQq q l )()( ,1, ∑=∈ = , де     − =∈∈⊂∃ = інакше mtCpCpQC w l l tj l til l t q ,1 ,1,&:,1 8
  • 9. Наступним кроком є вибір оптимального графу, в якому сумарна оцінка ребер – максимальна. Цей граф відповідатиме розбиттю з найбільшою частотою, отриманим нейронною мережею. Розв’язок шукається відповідно до критерію: сила зв’язку між і-м та j-м об’єктами більше 0 – їх відносять до одного кластеру, інакше – до різних. Недоліком цього критерію є розбиття вибірки об'єктів на якомога менше число кластерів, тому для оцінки одержаних розбиттів використовується другий критерій, що задається як оптимізація цільової функції: ∑∈ →+−= Mi i gfF max де if – сума відстаней точок кластеру від центру кластеру по всіх кластерах, i= M,1 , M – кількість кластерів розбиття, g – сумарна відстань між центрами кластерів. Даний критерій дає змогу знаходити розв’язки серед розбиттів з більшою потужністю. Для зважування результатів обох критеріїв використовується метод ідеальної точки, що визначається як точка з двома координатами (найкращими за значеннями обох критеріїв). Правило вибору полягає у знаходженні альтернативи, що має оцінку найближчу до ідеальної точки. Для побудови вектора ознак об’єкту, розподілених по різнорідним групам, запропоновано метод, що базується на використанні нейронної мережі прямого розповсюдження та реалізації двох алгоритмів: А1 (пошук оптимальної вибірки) та А2 (побудова вектора ознак об'єкту за числом η). Згідно даному методу формуються три вибірки векторів ознак (розмірності векторів дорівнюють загальній кількості значень ознак обох груп): - вибірка А: містить вектори, сформовані лише із значень першої групи ознак, решта компонент – нульові; - вибірка В: складається із векторів зі значеннями другої групи ознак, відповідні компоненти першої групи – нульові; - вибірка С: включає вектори зі зваженими значеннями ознак обох груп. Кожній із сформованих вибірок ставиться у відповідність точка з відрізку [0,1]: вибірці С – точка 0.5, вибіркам А та В, відповідно – крайні точки відрізку 0 та 1. Для сформованих вибірок проводиться навчання мережі та за результатами тестування визначаються дві найкращі, що задають наступний інтервал пошуку оптимальної вибірки, для якої виконується умова зупинки алгоритму А1. Умовою зупинки алгоритму А1 вважається одержання відрізку, довжина якого менше достатньо малої вибраної величини ε, або якщо нова сформована вибірка, не є кращою за значенням критерію оцінки навчання мережі за попередні. Критерій оцінки навчання мережі визначається наступним чином: Ω Α= DrgF min , де Ω – множина вибірок векторів, що використовувалися для навчання мережі, D – відстань між векторами – виходом налаштованої мережі для даного тестового прикладу та відомою для цього прикладу відповіддю (класом). Нова вибірка формується із векторів середніх значень поточних векторів вибірок; відповідна їй точка з відрізку – середнє значення точок, що відповідають поточним вибіркам. Результатом роботи алгоритму А1 є знайдена точка η, що відповідає оптимальній вибірці. Для побудови вектору ознак за числом η реалізований відповідний алгоритм А2. 9
  • 10. Для простору ознак, розподілених більш ніж на дві групи, вирішення задачі зводиться до реалізації алгоритмів А1 та А2. Розроблений метод є ефективним для визначення роздільної здатності довільної групи ознак. Виділивши кількісні ознаки, що характеризують заданий корпус об'єктів та, використовуючи розроблений метод, можна досліджувати широкий клас задач класифікації. Наведено оцінки складності алгоритму пошуку оптимальної вибірки. Під обчислювальною складністю алгоритму пошуку оптимальної вибірки розуміється верхня границя для максимального числа основних операцій, які необхідно виконати алгоритму для знаходження оптимальної вибірки. Лема 2.1. Нехай n – розмірність вектора ознак об'єкту одноелементної вибірки; ε – задана точність алгоритму А1 (довжина відрізку, одна з крайніх точок якого відповідає оптимальній вибірці); W – число вагових зв'язків між нейронами, включаючи зсуви внутрішніх та вихідних нейронів. Тоді оцінка алгоритму А1 з використанням одноелементної вибірки складає: )( 1 log2 WOn ⋅ ε . У випадку, коли навчальні вибірки містять множину об’єктів, має місце Теорема 2.1. Нехай N – розмірність вектору ознак для об'єктів навчальної вибірки, які визначаються групами ознак; P – кількість прикладів (об'єктів) у вибірці; ε – задана точність алгоритму А1; W – число вагових зв'язків між нейронами, включаючи зсуви внутрішніх та вихідних нейронів. Тоді для алгоритму А1 справедлива оцінка: )( 1 log2 WPON ⋅ ε . Позначимо через приклад виду T – приклад, для якого вектор по одній з груп ознак не містить значень, а по іншій групі ознак його розмірність дорівнює N (довжині вектора-прикладу). Наявність у вибірці прикладу виду T можлива, коли існує група ознак, за якою вектори для різних об'єктів вибірки будуть мати різну розмірність. Наприклад, таку групу ознак можуть складати точки на графіках функцій, що задають опис об'єктів та мають різні допустимі області визначення для кожного об'єкту. Для випадків наявності у вибірці прикладів з нерівномірним розподілом груп ознак мають місце: Наслідок 2.1. Нехай N – розмірність вектору ознак для об'єктів навчальної вибірки, що включає ознаки всіх груп, які виділені при класифікації. Якщо навчальна вибірка із P прикладів містить приклад виду T, то оцінка складності алгоритму А1 дорівнює: )( 1 log2 WPON ⋅ ε . Наслідок 2.2. Якщо у вибірці з P прикладів є приклад виду T по групі α та приклад виду T по групі β, то оцінка складності алгоритму А1 складає: )( 1 log2 2 WPON ⋅ ε . Наслідок 2.3. Якщо у вибірці з Р прикладів є приклад виду T та приклад, для якого одна з груп ознак обмежена по довжині значенням С, то оцінка складності для алгоритму А1 складає: )( 1 log)( 2 WPOCN ⋅+ ε . Третій розділ присвячено проблемі класифікації текстів на природній мові, методам обробки та аналізу текстової інформації. Розробка систем класифікації текстів на природній мові вимагає створення 10
  • 11. словникової бази для визначення основних характеристик кожного слова тексту. Для розпізнавання змістовної тотожності та близькості слів при обробці текстів застосовуються методи приведення їх до нормалізованої канонічної форми, що полягають у заміні початкової форми слова на сполучення її словозмінної основи та номера флективного класу. При побудові словникової бази україномовних та російськомовних текстів використовуються два словники: словник основ слів української мови та словник флективних груп. Словник основ включає: частину мови, до якої відноситься слово, основу слова та вказівник на рядок у словнику флексій, що може відноситись до цього слова. Словник флективних груп представлений у вигляді таблиць, де стовпчикам відповідають відмінки, а рядкам – комбінації числа і роду або інших граматичних характеристик. При синтаксичному аналізі, який використовується для обробки текстів, визначається наявність у тексті виділених дослідником ознак, що характеризують синтаксичну структуру мови тексту. Важливим параметром, що характеризує складність структури речень тексту, є показник середньої кількості зв'язків між словами різних частин мови в одному реченні. Запропоновано метод для визначення в межах речення середньої кількості зв'язків "іменник – описові характеристики". Описовими характеристиками виступають прикметники, дієприкметники та дієприслівники, що розглядаються окремо. Даний метод базується на перевірці двох умов. Умова1. Ідентичність граматичних ознак іменника та описових характеристик, які йому співставляються; Умова 2. Критерій відстані між словами. Чим менше відстань між іменником та описовою характеристикою, що йому співставляється, тим більша ймовірність даного зв'язку. Четвертий розділ присвячено проблемі атрибуції текстів, підходам до її вирішення, розглядається формування простору ознак художніх творів. Для побудови параметричного простору в задачах атрибуції текстів необхідними групами ознак є морфологічні та синтаксичні конструкції. Виділення ознак лексичного та морфологічного рівнів у даній роботі здійснюється з використанням сформованих результуючих частотних словників текстів. При цьому результуючий частотний словник тексту будується в результаті перетину корпусного частотного словника та частотного словника даного тексту. Частотний словник, побудований для заданого тексту, складається із впорядкованого за алфавітом списку всіх слів, перетворених у слова-основи. До окремої групи ознак виділено частоти появи службових слів у тексті. Для аналізу синтаксичної структури речень тексту пропонуються використати наступні ознаки: - частку появи внутрішніх розділових знаків (двокрапка, кома, тире, крапка з комою, дужки, лапки); - частку появи зовнішніх розділових знаків (крапка, знак оклику, знак питання, багатокрапка, комбінація знаків оклику та знаків питання); - середню довжину речення (середня кількість слів у реченні); - частку слів певної довжини (довжини слів з однієї літери, з 2-х і т.д. до 10); - частку речень певної довжини (з одного слова, з 2-х слів і т.д. до 30); - середню кількість прикметників, дієприкметників і дієприслівників до іменника (окремо). При визначенні речень певної довжини використовується блок для виділення лексем у тексті та здійснюється перевірка на кінець речення. В якості міток кінця речення виступають зовнішні розділові знаки (крапка, знак оклику, знак питання, багатокрапка, комбінація знаків оклику та знаків питання). 11
  • 12. Остання група синтаксичних ознак визначається із застосуванням запропонованого методу визначення зв'язку між іменником та його описовими характеристиками (прикметником, дієприкметником та дієприслівником). У п’ятому розділі описано розроблені автоматичні системи кластеризації і класифікації текстів та розглянуто їх використання при розв’язанні задач атрибуції художніх творів. Для розробки автоматичної системи класифікації текстів Atributer була використана нейронна мережа прямого розповсюдження, структура якої задається користувачем. Тестування системи Atributer проводилося на прикладі вирішення задачі атрибуції художніх творів. При формуванні вихідного опису текстів вибірки були використані ознаки, описані у розділі 4. Для вирішення задачі атрибуції заданої вибірки текстів була сформована архітектура нейронної мережі, зображена на рис. 1. Рис. 1. Архітектура нейронної мережі у даному експерименті Для кожного блоку нейронів в якості функції виходу були використані відповідно такі функції: exp(- x2 ), 1-( exp(-x2 )) та th(x). Для вихідного шару нейронів використана сигмоїдна функція: 1/(1+exp(-x)). Налаштування мережі реалізовано з використанням методу зворотнього розповсюдження помилки, алгоритмів А1 (пошук оптимальної вибірки) та А2 (побудова вхідного вектору ознак об'єкту за числом η). Різнорідні групи параметрів, за якими будується вектор ознак, складають частоти результуючих частотних словників текстів вибірки та визначені синтаксичні ознаки. Навчання та тестування системи проводилось на текстах з обмеженням об'єму до 2000 слів. Навчальна вибірка, що використовувалась, включала 100 художніх творів наступних авторів (по 10 творів кожного автора): О. Пушкіна, В. Набокова, М. Горького, М. Булгакова, І. Тургенєва, Л. Толстого, А. Чехова, М. Шолохова, Ф. Достоєвського, М. Гоголя. Тестовим прикладом, що використовувався в процесі алгоритму пошуку оптимальної вибірки, був вибраний уривок з твору В. Набокова “Встреча”; вектор ознак, сформований для цього тексту, використовувався мережею як навчальний приклад з навчальної вибірки. Об’єм уривку (кількість слів) складає половину об’єму всього тексту, який використовувався при навчанні системи. З рис. 2 видно, що при точці з відрізку [0,1], що дорівнює 0.65625 досягається кращий, відповідно критерію оцінки навчання, результат. 12
  • 13. 0 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0 0,5 0,625 0,65625 0,6875 0,75 1 Числа, що відповідають вибіркам сформованим у процесі алгоритму ЗначеннякритеріюF Рис. 2. Пошук оптимальної вибірки З отриманих результатів випливає, що для класифікації даної навчальної вибірки більш визначальною є група синтаксичних ознак (результат класифікації вектором за групою ознак частотного словника, який на відрізку відповідає точці 0, виявляється найгірший за критерієм). В якості тестових прикладів для системи було використано 100 художніх творів, які не використовувались при навчанні системи, написаних авторами з навчальної вибірки (по 10 творів кожного автора). Результати, одержані системою Atributer, подано у наступній інтерпретації. Нехай Hi – подія, яка полягає в тому, що тексти і-го автора вірно розпізнані системою Atributer, тобто віднесені до класу, що відповідає автору і, де ni ,1= , n – кількість авторів у тестовій вибірці, або кількість класів; Hi / Hj – подія, яка полягає в тому, що тексти і-го автора віднесені до автора j, де nj ,1= (при i=j дана подія співпадає з подією Hi). Покладемо P(Hi) – правдоподібність події Hi, яка визначається як відношення кількості вірно прокласифікованих системою текстів і-го автора до кількості всіх текстів автора і; відповідно P(Hi / Hj) – правдоподібність події Hi / Hj – відношення кількості розпізнаних системою текстів і-го автора як текстів автора j до кількості всіх текстів автора і. Результати класифікації, отримані системою Atributer для заданої тестової вибірки, наведені у таблицю 1. У даній таблиці рядки та стовпчики відповідають класам розбиття, тобто авторам з тестової вибірки, а комірка і-го рядка та j-го стовпчика – містить правдоподібність події P(Hi/Hj). Діагональні елементи таблиці представляють правдоподібності того, що всі тексти одного автора розпізнані вірно. Індекси подій відповідають заданому порядку авторів у навчальній вибірці. 13
  • 14. Таблиця 1. Hj, 10,1=j Hi, 10,1=i H1 H2 H3 H4 H5 H6 H7 H8 H9 H10 H1 6/10 1/10 0 0 1/10 2/10 0 0 0 0 H2 0 9/10 1/10 0 0 0 0 0 0 0 H3 0 0 5/10 2/10 1/10 1/10 0 1/10 0 0 H4 0 1/10 2/10 6/10 1/10 0 0 0 0 0 H5 0 0 1/10 1/10 8/10 0 0 0 0 0 H6 1/10 0 0 0 1/10 7/10 0 0 0 1/10 H7 0 0 0 0 1/10 0 9/10 0 0 0 H8 0 0 1/10 0 0 1/10 0 7/10 1/10 0 H9 0 1/10 2/10 1/10 0 0 0 1/10 5/10 0 H10 0 1/10 0 0 0 0 0 0 0 9/10 Згідно даних таблиці 1 вірно розпізнані системою Atributer тексти складають 71%; середня кількість невірно прокласифікованих текстів для кожного з 10 авторів у даному експерименті становить 3 тексти. При тестуванні розробленої системи класифікації Atributer було розглянуто її застосування для встановлення авторства твору “Роман з кокаїном”. Проведений дослідниками аналіз, що базувався на використанні суб'єктивно-атрибутивного підходу дозволив висунути гіпотезу про те, що автор даного твору – Набоков, який писав під псевдонімом М. Агеєв. Результати класифікації даного твору за допогою системи Atributer подано у наступній інтерпретації. Розглянемо виходи системи Atributer xT i для даного тексту T як відстані до кожного з класів авторів Ci, i=1, …, n, які були визначені для навчальної вибірки, тобто: xT i = ))(),(( TPViCVDist , де V(Ci) – вектор, що відповідає автору Ci , V(PT ) – вектор ознак для даного тексту. Тоді x* – відстань до найближчого для тексту T класу:  iC TPViCVDistArg i x ))(),((min * = , С* – найближчий для тексту T клас. Результати класифікації для твору “Роман с кокаїном” наведені у таблиці 2. Таблиця 2. Класи авторів (Сi – <автор>) Виходи системи Atributer, xT i C1 – < О. Пушкін > 0,98781 C2 – < В. Набоков> 0,00535 C3 – < М. Горький> 0,03467 C4 – < М. Булгаков> 0,53489 C5 – < І. Тургенєв> 1,02340 C6 – < Л. Толстой> 0,02978 C7 – < А. Чехов> 0,78796 C8 – < М. Шолохов> 0,08872 C9 – <Ф. Достоєвський> 0,00745 C10 – < М. Гоголь> 0,82435 С* = C2 x* = T x2 =0,00535 Згідно даної таблиці найближчим класом для твору “Роман с кокаїном” є клас творів Набокова. Це дає підстави стверджувати, що він подібний за даним простором ознак до творів Набокова, які використовувались для навчання системи та творів Набокова, які були вірно розпізнані системою. Отримані результати дозволяють підкреслити ефективність та перспективність застосування автоматичної системи класифікації Atributer при вирішенні проблеми атрибуції текстів. Подальше удосконалення можливостей та знаходження у процесі тестування оптимальної мережевої архітектури цієї 14
  • 15. системи відкриває її великий потенціал у розв’занні широкого кола задач класифікації текстів за різними групами ознак. Із застосовуванням нейронної мережі Кохонена та запропонованого методу визначення числа кластерів була розроблена автоматична система кластеризації текстів на природній мові – Clasterizator. Дана система призначена для вирішення задач кластеризації документів масиву за вибраним профілем – тематикою тексту або стилем його написання (стилістичними ознаками). За виділеним користувачем набором характеристик система Clasterizator дозволяє розбити текстову вибірку на кластери схожих між собою текстів. При проведенні тематичної кластеризації документів для побудови векторів ознак пропонується використати дані створених результуючих частотних словників. При кластеризації текстової вибірки за стилістичними ознаками вектори ознак можуть формуватися із даних результуючих частотних словників, статистики службових слів та синтаксичних характеристик, визначених у розділі 4. Для тестування автоматичної системи кластеризації Clasterizator було проведено кластеризацію вибірки художніх текстів за стилістичними ознаками. Навчальна вибірка, що використовувалась, включала 85 художніх творів російських письменників. Кластеризація проводилась окремо за: синтаксичними ознаками та статистикою службових слів; даними результуючих частотних словників; незваженими ознаками всіх груп; зваженими ознаками всіх груп, відповідно до числа η, визначеного із застосуванням алгоритму пошуку оптимальної вибірки. Найкращий результат отримано при кластеризації тестової вибірки текстів за зваженими ознаками всіх груп, відповідно до числа η, знайденого за допомогою алгоритму пошуку оптимальної вибірки: вірно розпізнані системою Clasterizator тексти складають ~ 70,6%; середня кількість невірно прокластеризованих текстів для кожного з 12 авторів у даному експерименті становить 2 тексти. 15
  • 16. ВИСНОВКИ Результатом дисертаційного дослідження є аналіз та удосконалення методів для вирішення задач класифікації об’єктів. Із застосуванням апарату нейронних мереж створено нові більш досконалі алгоритми для вирішення складних проблем, які виникають при розв’язанні задач класифікації об’єктів, представлених багавимірними векторами ознак. Ефективність даних алгоритмів продемонстровано на прикладах вирішення прикладних задач. При проведені досліджень одержано такі результати: 1. Вперше запропоновано метод визначення числа кластерів при кластеризації корпусу об'єктів із застосуванням нейронної мережі Кохонена, критерію якості отриманих кластерів та методу ідеальної точки. 2. Розроблено автоматичну систему кластеризації текстів Clasterizator з використанням запропонованого методу визначення числа кластерів. 3. Застосовано систему Clasterizator для класифікації текстів за стилістичними ознаками, які продемонстрували її ефективність при розв’язанні поставленої задачі. 4. Розроблено метод побудови вектора ознак, що розподілені по різнорідним групам, для класифікації об'єктів. 5. За допомогою застосування нейронної мережі прямого розповсюдження та запропонованого методу побудови вектора ознак розроблено автоматичну систему класифікації текстів Atributer. 6. Експериментально досліджено можливості системи Atributer для вирішення задачі атрибуції художніх творів російських письменників. Показано, що метод формування вектора ознак є ефективним для визначення роздільної здатності кожної групи ознак. 16
  • 17. СПИСОК ОПУБЛІКОВАНИХ ПРАЦЬ ЗА ТЕМОЮ ДИСЕРТАЦІЇ 1. Порхун О.В. Методи та алгоритми для розв’язання задач класифікації // Вісник Київського університету. Серія фіз.-мат. наук. – 2005. – №1. – С. 212-220. 2. Порхун О.В. Побудова параметричного простору в задачах атрибуції текстів. Метод формування вхідного вектору для розпізнавання стилю тексту нейронною мережею // Вісник Київського університету. Серія фіз.-мат. наук. – 2005. – №4. – С. 207-212. 3. Анисимов А.В., Порхун Е.В., Тарануха В.Ю. Алгоритм формирования параметрического вектора для решения задач классификации нейронной сетью прямого распространения // Кибернетика и системный анализ. – 2007. – №2. – C. 3-14. 4. Анисимова Е.А., Порхун Е.В., Тарануха В.Ю. Информационные технологии обработки документов, представленных в виде текстов на естественном языке. Возможности применения WORDNET и нейронных сетей // Матеріали міжнародної конференції з автоматичного управління “Автоматика – 2006”. – Вінниця, 2006. – С. 344. 5. Порхун Е.В., Тарануха В.Ю. Применение WORDNET и нейронных сетей в создании интеллектуальных систем обработки текстов на естественном языке // Матеріали міжнародної конференції TAAPSD’2006 “Теоретичні та прикладні аспекти побудови програмних систем”. – Київ, 2006. – С. 183-186. 6. Порхун Е.В. Разработка автоматической системы классификации текстов с применением аппарата нейронных сетей // Матеріали міжнародної наукової конференції MegaLing’2007 “Горизонти прикладної лінгвістики та лінгвістичних технологій”. – Крим, Партеніт, 2007. – С. 283-285. АНОТАЦІЯ Порхун О. В. Автоматична класифікація багатовимірних об’єктів із застосуванням нейронних мереж. – Рукопис. Дисертація на здобуття наукового ступеня кандидата фізико-математичних наук за спеціальністю 01.05.01 – теоретичні основи інформатики та кібернетики. – Київський національний університет імені Тараса Шевченка, Київ, 2009. Дисертація присвячена дослідженню проблеми автоматичної класифікації багатовимірних об’єктів, розробці нових методів та алгоритмів для вирішення ключових проблем, які виникають при класифікації та кластеризації об’єктів, представлених числовими ознаками. Запропоновано метод для визначення числа кластерів при кластеризації корпусу об’єктів нейронною мережею Кохонена із застосуванням критерію якості отриманих розбиттів та методу ідеальної точки. Запропоновано метод побудови вектора ознак, що розподілені по різнорідним групам, для класифікації об'єктів. Розроблено алгоритм пошуку оптимальної вибірки для класифікації об'єктів, представлених набором ознак, розподілених по різнорідним групам. Встановлено та обґрунтовано оцінки складності алгоритму пошуку оптимальної вибірки із врахуванням випадків наявності у вибірці прикладів з нерівномірним розподілом груп ознак. Із застосуванням нейронної мережі прямого розповсюдження та запропонованого методу побудови вектора ознак розроблено автоматичну систему класифікації текстів. Розроблено автоматичну систему кластеризації текстів з використанням запропонованого методу визначення числа кластерів. Застосовано автоматичні системи класифікації та кластеризації текстів для вирішення задач атрибуції художніх творів. Розроблені системи виявилися ефективними для класифікації великих масивів текстів значних об’ємів. 17
  • 18. Ключові слова: нейронна мережа, алгоритми навчання, оптимальний граф, вектор ознак, різнорідні групи ознак, критерій оцінки навчання, оптимальна вибірка, результуючий частотний словник, щільність класу, радіус класу. АННОТАЦИЯ Порхун Е. В. Автоматическая классификация многомерных объектов с применением нейронных сетей. – Рукопись. Диссертация на соискание ученой степени кандидата физико-математических наук по специальности 01.05.01 – теоретические основы информатики и кибернетики. – Киевский национальный университет имени Тараса Шевченка, Киев, 2009. Диссертация посвящена исследованию проблемы автоматической классификации многомерных объектов, разработке новых методов и алгоритмов для решения задач, возникающих при классификации и кластеризации объектов, представленных числовыми признаками. Предложен метод для определения числа кластеров при кластеризации корпуса объектов нейронной сетью Кохонена с применением критерия качества полученных разбиений и метода идеальной точки. Предложен метод формирования вектора признаков для классификации объектов, заданных набором параметров, распределенных по разнородным группам. Разработан алгоритм поиска оптимальной выборки для классификации объектов, представленных набором параметров, распределенных по разнородным группам. Установлено и обусловлено оценки сложности алгоритма поиска оптимальной выборки с учетом наличия в исходной выборке примеров с неравномерным распределением групп признаков. С применением нейронной сети прямого распространения и предложенного метода формирования вектора признаков разработано автоматическую систему классификации текстов, представленных выделенным набором параметров. Разработано автоматическую систему кластеризации текстов с применением предложенного метода определения числа кластеров. Применены разработанные системы классификации и кластеризации текстов для решения задач атрибуции художественных произведений. Эти системы оказались эффективными для классификации больших массивов текстов значительных объемов. Ключевые слова: нейронная сеть, алгоритм обучения, оптимальный граф, вектор признаков, разнородные группы признаков, критерий оценки обучения, оптимальная выборка, результирующий частотный словарь, плотность класса, радиус класса. ABSTRACT Porkhun O. V. Automatic classification of multidimensional objects using neural networks. – Manuscript. A thesis presented in partial fulfillment for the degree of candidate of physical and mathematical science in the subject of 01.05.01 – Theoretical bases of informatics and cybernetics. – Taras Shevchenko National University of Kiev, Kiev, 2009. Thesis is dedicated to research of the problem of multidimensional objects automatic classification as well as to development of new methods and algorithms for solving basic problems of classification and clustering objects presented by quantitative features using neural networks. The method for determining the number of clusters during the clusterization by the Kohonen neural network using a criterion of quality is offered. The criterion combines density and distance based measure and method of 18
  • 19. ideal point. The method for constructing features vector for classification presented by the set of heterogeneous parameters is offered. The algorithm for optimum selection of weights for parameters set was developed. Taking into account uneven distribution of features groups estimations of complexity of algorithm were calculated and proved. Using the feedforward neural network and the offered method for constructing features vector the automatic system of texts classification presented by the selected set of parameters is developed. Using the offered method for determining the number of clusters the automatic system for texts clustering is developed. The developed systems were applied for the decision of tasks of art texts attribution. These systems appeared effective for classification of large arrays of big texts. Keywords: neural network, learning algorithms, optimum graph, features vector, heterogeneous features groups, criterion of learning estimation, optimum selection, resulting frequency dictionary, class density, radius of class. 19