1. На правах рукописи
АФОНИН Александр Юрьевич
МНОГОМЕРНОЕ ПРЕДСТАВЛЕНИЕ
И ОБРАБОТКА ДАННЫХ
В ИНФОРМАЦИОННОЙ СИСТЕМЕ АНКЕТИРОВАНИЯ
Специальность 05.13.01 – Системный анализ, управление
и обработка информации (приборостроение)
Автореферат
диссертации на соискание учёной степени
кандидата технических наук
ПЕНЗА 2011
2. 2
Диссертационная работа выполнена в государственном образо-
вательном учреждении высшего профессионального образования
«Пензенский государственный университет» на кафедре «Математи-
ческое обеспечение и применение ЭВМ».
Научный руководитель – доктор технических наук, профессор
Макарычев Пётр Петрович.
Официальные оппоненты: доктор технических наук, профессор
Якимов Александр Николаевич;
кандидат технических наук, доцент
Дрождин Владимир Викторович.
Ведущая организация – ОАО «Научно-производственное пред-
приятие ″Рубин″» (г. Пенза).
Защита диссертации состоится 10 февраля 2011 г., в 14 часов,
на заседании диссертационного совета Д 212.186.04 в государствен-
ном образовательном учреждении высшего профессионального обра-
зования «Пензенский государственный университет» по адресу:
440026, г. Пенза, ул. Красная, 40.
С диссертацией и авторефератом можно ознакомиться в библио-
теке государственного образовательного учреждения высшего про-
фессионального образования «Пензенский государственный универ-
ситет» и на сайте www.pnzgu.ru.
Автореферат разослан «___» января 2011 г.
Учёный секретарь
диссертационного совета
доктор технических наук,
профессор Смогунов В. В.
3. 3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Анкетирование является одной из основных
форм учета мнений респондентов в социологических, психологических,
экономических, педагогических и других исследованиях. Независимо от
цели процесс анкетирования разделяют на четыре этапа: подготовка анкет,
проведение анкетирования (сбор данных), обработка собранных данных,
анализ результатов опроса и принятие на их основе решений. При исполь-
зовании «бумажного» подхода проведения анкетирования на всех этапах
требуются значительные материальные и временные затраты. Применение
информационных технологий позволяет снизить эти затраты, повысить
оперативность и результативность анкетирования.
Современные информационные системы анкетирования характери-
зуются накоплением большого объема информации, сложностью процедур
анализа данных, возможностью осуществления удаленного опроса респон-
дентов. К настоящему времени имеется ряд систем, обеспечивающих под-
держку проведения анкетирования, таких как «АНКЕТЕР», «1С: Предпри-
ятие. Оценка персонала», «Анкетирование», «Degsee Sure» и др. Разработ-
ка данных информационных систем стала возможной в результате разви-
тия теории моделей реляционных и многомерных данных, математических
методов исследования информационных систем и Web-технологий.
Значительный вклад в решение проблемы создания современных
информационных систем, в том числе и систем анкетирования, содержа-
щих эффективные инструментальные средства сбора и обработки данных,
внесли Г. Уильман, И. Ф. Кодд, Дж. Маккенел, Т. Л. Саати, А. Бергер,
А. А. Барсегян и др. В развитие математических и имитационных методов
исследования характеристик информационных систем наибольший вклад
внесли Дж. Уолрэнд, А. К. Эрланг, А. А. Марков, В. В. Крылов, В. Г. Ба-
шарин, В. Л. Брейдо, Б. С. Лившиц и др.
Несмотря на широкое применение информационных технологий и
систем при проведении анкетирования, остаются нерешенными две проб-
лемы. Первая проблема связана с разработкой многомерных моделей дан-
ных в терминах измерений, фактов и их отношений. Сложность решения
данной проблемы обусловлена:
– недостаточной изученностью процессов контроля и управления,
реализуемых с применением анкетирования респондентов, методов сис-
темного, оперативного и интеллектуального анализа данных;
– высокими требованиями к качеству данных, которое достигается
выбором организации процессов в системе первичного сбора, формы опи-
сания и хранения данных, процедуры проверки качества данных;
– требованиями завершенности предварительной обработки, неиз-
менности и независимости данных, которые определяются критериями ка-
чества анкетирования, ограничениями на объем и типы данных, исполь-
зуемыми программными средствами анализа.
4. 4
Вторая проблема связана с обеспечением приемлемых характери-
стик информационных систем анкетирования на начальных этапах проек-
тирования, когда возможно проведение только модельных экспериментов с
использованием положений теории сетей массового обслуживания и одно-
го из ее направлений – теории телетрафика. Данная проблема обусловлена
отсутствием эффективных методов оценки степени соответствия имитаци-
онной модели реальным процессам в информационной системе, для опи-
сания которых она разрабатывается. В связи с этим проверка адекватности
в первую очередь основывается на профессиональном опыте и творческой
интуиции разработчика. Нерешенность данной проблемы также не дает
возможности однозначно реализовать процедуры проверки устойчивости и
чувствительности имитационной модели. Отсутствие перечисленных оце-
нок не позволяет судить о влиянии изменений параметров и входных воз-
действий на закономерности поведения информационной системы анкети-
рования.
Необходимость решения названных проблем применительно к про-
цессу создания информационных систем анкетирования определяет акту-
альность данного диссертационного исследования.
Целью диссертационной работы является обоснование и исследо-
вание процессов сбора, предварительной обработки, многомерного пред-
ставления данных и проведения статистического, оперативного и интел-
лектуального анализа в информационной системе анкетирования с клиент-
серверной архитектурой.
В соответствии с целью исследования решены задачи:
– анализа процессов анкетирования и разработки концепции построе-
ния информационной системы анкетирования для проведения потребитель-
ского мониторинга, экспертных опросов, тестирования компетенций;
– теоретического обоснования многомерного представления данных
в информационной системе анкетирования для реализации процессов сбо-
ра, хранения и обработки информации;
– исследования характеристик информационной системы анкетиро-
вания с архитектурой «клиент-сервер» методами теории систем и сетей
массового обслуживания;
– разработки и исследования методики предварительной обработки
анкет, проведения оперативного и интеллектуального анализа данных ин-
формационной системы анкетирования;
– разработки архитектуры, серверных и клиентских приложений ин-
формационной системы анкетирования на базе корпоративной компьютер-
ной сети вуза и проведения экспериментов.
Объектом исследования является информационная система анкети-
рования с функциями редактирования анкет, опроса респондентов, предва-
рительной обработки, анализа данных и оперативного представления ре-
зультатов в режиме удаленного доступа.
5. 5
Предметом исследования являются процессы сбора и обработки
информации при проведении анкетирования, закономерности функциони-
рования клиент-серверных систем.
Методы исследования основаны на теории информационных сис-
тем, теории оперативного и интеллектуального анализа данных, теории
информационных процессов и систем, теории математического и имитаци-
онного моделирования, методах объектно-ориентированного проектирова-
ния и анализа.
Научная новизна работы заключается в следующем:
1) предложено многомерное представление данных в информацион-
ной системе анкетирования с поддержкой опроса различных групп респон-
дентов, которое отличается описанием свойств измерительных шкал и ие-
рархий измерений с использованием исчисления предикатов;
2) разработана методика оценки адекватности, устойчивости и чув-
ствительности имитационной модели информационной системы анкетиро-
вания в режиме удаленного доступа, отличающаяся реализацией метода
предельных точек на основе построения графа достижимости;
3) предложен алгоритм функционирования модуля редактирования
анкет в режиме удаленного доступа, отличающийся формированием во-
просов полузакрытого типа при проведении экспертного опроса;
4) с применением метода анализа иерархий разработана методика
предварительной обработки и анализа данных информационной системы
анкетирования, полученных с использованием номинальных и порядковых
измерительных шкал.
Практическая значимость исследований. Полученные в диссерта-
ции теоретические и практические результаты позволяют значительно
расширить функциональные возможности информационной системы анке-
тирования в режиме удаленного доступа к ресурсам как организаторов, так
и респондентов. Предложенная методика предварительной обработки и
анализа результатов анкетирования дает возможность оперативно пред-
ставлять результаты анкетирования в числовой и графической формах
средствами информационной системы. Методика построения имитацион-
ных моделей обеспечивает оценку проектировщиком адекватности, устой-
чивости и чувствительности модели серверных систем методом предель-
ных точек.
Реализация и внедрение результатов работы. Результаты диссер-
тационного исследования применяются в Пензенском государственном
университете для проведения потребительского мониторинга качества об-
разовательного процесса среди преподавателей, студентов, выпускников,
аспирантов и сотрудников университета.
Материалы диссертационной работы были использованы при созда-
нии учебного пособия «Оперативный и интеллектуальный анализ данных»,
предназначенного для студентов, обучающихся по образовательным про-
6. 6
граммам направлений 230100 «Информатика и вычислительная техника»
и 230200 «Информационные системы».
Достоверность полученных результатов основана на использовании
современных математических методов и технологий анализа данных и
компьютерного моделирования. Научные положения, теоретические выво-
ды и практические рекомендации, содержащиеся в диссертации, обосно-
ваны и подтверждены результатами эксплуатации информационной сис-
темы анкетирования.
Результаты, выносимые на защиту:
– многомерное представление данных в информационной системе
анкетирования на основе исчисления предикатов, обеспечивающее реали-
зацию модулей сбора, предварительной обработки, хранения, оперативно-
го и интеллектуального анализа в режиме удаленного доступа;
– методика оценки характеристик информационной системы анкети-
рования, позволяющая проводить исследование функционирования систе-
мы с применением методов математического и имитационного моделиро-
вания на этапе проектирования;
– алгоритм функционирования модуля редактирования анкет, даю-
щий возможность организовать работу с вопросами полузакрытого типа в
режиме удаленного доступа при проведении экспертного опроса;
– методика предварительной обработки и анализа данных инфор-
мационной системы анкетирования с использованием метода анализа
иерархий;
– информационная система анкетирования, поддерживающая созда-
ние и редактирование анкет, процессы одновременного опроса различных
групп респондентов в режиме удаленного доступа, сбор, обработку и хра-
нение результатов анкетирования.
Апробация работы. Основные результаты диссертационной работы
докладывались и обсуждались на следующих конференциях: «Технологии
Microsoft в теории и практике программирования» (Нижний Новгород,
2006 г.); VII Международной научно-технической конференции «Новые
информационные технологии и системы» (Пенза, 2006 г.); XI Междуна-
родной научно-практической конференции «Университетское образова-
ние» (Пенза, 2007 г.); VIII Всероссийской выставке научно-технического
творчества молодежи (Москва, 2008 г.); II Всероссийской научно-практи-
ческой конференции с международным участием «Перспективы развития
информационных технологий» (Новосибирск, 2010 г.); Международной
научно-практической конференции «Информатизация образования» (Пен-
за, 2010 г.); IV Всероссийской научно-практической конференции с меж-
дународным участием «Проблемы и перспективы развития образования в
России» (Новосибирск, 2010 г.); II Международной научной заочной кон-
ференции «Актуальные вопросы современной техники и технологии» (Ли-
7. 7
пецк, 2010 г.); IX Международной научно-технической конференции «Но-
вые информационные технологии и системы» (Пенза, 2010 г.).
Публикации. По теме диссертационного исследования опубликова-
но 14 печатных работ: 1 статья в издании из перечня ВАК, 11 – в материа-
лах российских и международных конференций, 1 учебное пособие, 1 сви-
детельство о регистрации информационной системы.
Структура и объем работы. Диссертация состоит из введения, че-
тырех глав, заключения, списка литературы из 131 наименования и 6 при-
ложений. Объем работы: 127 страниц основного текста, включающего
40 рисунков, 1 таблицу и 47 страниц приложений.
СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована актуальность темы диссертации, сформули-
рованы цель и задачи исследования, показаны научная новизна и практиче-
ская значимость результатов диссертационного исследования, приведены
сведения об апробации работы и публикациях.
В первой главе дан обзор существующих информационных систем
анкетирования, определен их компонентный состав, выполнен анализ ме-
тодов обработки данных информационной системы анкетирования.
Анкетирование используется в случаях, когда невозможно измерить
какую-либо характеристику объекта с помощью измерительного инстру-
мента. Это предъявляет к процессам сбора, хранения, обработки и визуа-
лизации данных определенные требования. В число доминирующих требо-
ваний при проектировании систем подобного рода входят фиксация ре-
зультатов проведенных опросов в базе данных, проведение предваритель-
ной обработки данных, сбор статистических данных на этапе прохождения
анкетирования, построение отчетов по результатам анкетирования. Выде-
ляют три типа вопросов, используемых в анкетах: открытого, полузакры-
того (полуоткрытого) и закрытого типов.
При проведении анкетирования исследователь, как правило, работает
с двумя типами измерительных шкал: номинальными и порядковыми. Ко-
личество меток для названных шкал непостоянно и может варьироваться в
пределах одной анкеты. Для номинальных шкал при предварительной об-
работке данных допустимо использовать операции проверки на совпадение
(несовпадение) двух измерений:
{ }1: ; 0:i,j i j i jx x x xδ = = ≠ , (1)
где i jx ,x – записи разных измерений.
Для порядковых шкал допустимо применять не только операции
проверки на совпадение, но и установки предпочтительности ix перед jx :
( ) ( ) ( ){ }1: 0; 0: 0i j i j i jC x x x x x x− = − ≥ − < . (2)
8. 8
Над результатами операций (1) и (2) при проведении системного,
статистического, оперативного и интеллектуального анализа данных мож-
но выполнять более сложные преобразования.
В диссертации показано, что системы анкетирования, представлен-
ные в настоящее время на рынке, в своем большинстве поставляются в
рамках корпоративных платформ, либо являются узкоспециализирован-
ными и рассчитаны на работу с определенными программно-аппаратными
комплексами, либо обладают ограниченным набором средств анализа и ви-
зуализации собранной информации.
Современные подходы к анализу информации основываются на мно-
гомерном представлении данных с учетом формул (1), (2). Реализация мно-
гомерного представления данных в информационных системах базируется
на концепциях сбора информации (OLTP – On-line Transaction Processing),
преобразования (ETL – Extraction Transformation Loading), оперативного
анализа данных (OLAP – On-line Analytical Processing). Перечисленные
концепции поддерживаются ведущими компаниями: Microsoft, Oracle,
IBM, BaseGroup и пр. В соответствии с этими концепциями разработчик
должен представлять область данных в виде совокупности трех областей:
операционной базы данных, промежуточной области и хранилища данных.
Операционные базы применяются для сбора и накопления данных, хране-
ния справочной информации. Промежуточная область используется при
реализации процессов ETL. Нормативно-справочная информация (спра-
вочники) переносится в процессе загрузки данных, затем загружается таб-
лица фактов и формируются агрегаты. Хранилище данных предназначено
для организации долговременного хранения информации.
Информационные системы анкетирования должны удовлетворять
требованиям теста FASMI (Fast Analysis of Shared Multidimensional Infor-
mational), сформулированного на основе правил, предложенных И. Ф. Код-
дом. Из множества требований этого теста можно выделить относящиеся
к представлению и обработке данных информационной системы анкетиро-
вания:
– многомерное концептуальное представление данных с поддержкой
иерархий и множественных иерархий;
– поддержка статистического, оперативного и интеллектуального
анализа данных независимо от используемого программного приложения,
визуализации результатов в доступном для конечного пользователя виде;
– многопользовательский доступ к данным анкетирования и резуль-
татам анализа с поддержкой механизмов блокировки.
В диссертации отмечено, что для моделирования информационных
систем класса «клиент-сервер» наибольшее распространение получили
подходы, основанные на положениях теории систем и сетей массового об-
служивания, теории сетей Петри. Анализ информационной системы анали-
9. 9
тическими методами выполняется на основе дискретных и непрерывных
цепей Маркова. При представлении используются классические, стохасти-
ческие и раскрашенные сети Петри. При этом применяются аналитические
методы и методы имитационного моделирования.
Во второй главе выполнено теоретическое обоснование многомер-
ного представления данных анкетирования, разработаны концептуальные
модели информационной системы анкетирования, предложена методика
оперативного анализа и подготовки данных для последующей обработки.
В составе измерений выделено четыре группы. Первая группа вклю-
чает в себя измерения, определяемые на основе анализа структурной орга-
низации университета. Группа содержит следующие измерения: «респон-
дент», «группа респондентов», «кафедра», «факультет», «университет»,
«время проведения анкетирования» и др. Эти измерения необходимы при
анализе данных всех анкет, которые используются в системе анкетирова-
ния университета и фиксируются в транзакционной базе данных. Вторую
группу составляют измерения, формируемые на основе вопросов, содер-
жащихся в социально-паспортной статистике анкеты: «должность», «уче-
ная степень», «возраст», «пол», «курс обучения», «специальность» и т.д.
При проведении оперативного и интеллектуального анализа эти измерения
могут быть использованы и как факты. Третью группу составляют измере-
ния, определяемые основной частью анкеты и формируемые на основе во-
просов закрытого типа, например: «Насколько Вы удовлетворены доступ-
ностью информации о жизни университета?». Количество меток на шкале
этих измерений определяется разработчиком анкеты. Четвертая группа
формируется на основе многомерного представления данных анкеты и оп-
ределяется лицом, выполняющим анализ.
В случае иерархии измерений с тремя уровнями структура измерения
«группа респондентов → кафедра → факультет» представляется в виде:
( ) ( ){ }, , , ,r R x y z | P x y z= < > , (3)
где r – отношение со схемой R; x,y,z< > – упорядоченная последова-
тельность кортежей; ( ), ,P x y z – тернарный предикат первого порядка,
определяемый на основе высказываний относительно измерения;
1 2, , , mx x x ... x= , 1 2, , , ny y y ... ó= , 1 2, , , qz z z ... z= – кортежи перемен-
ных, представляющих имена совокупностей (атрибутов) уровней измере-
ния «группа респондентов», «кафедра», «факультет» соответственно.
Тернарный предикат ( ), ,P x y z в диссертации представляется в виде
логического произведения двух бинарных и одного унарного предикатов:
( ) ( ) ( ) ( )1 1 2 2 1 2 3 1 2, , , , , , , , , , ..,m n qP x,y,z P x x ... x y P y y ... y z P z z . z= ∧ ∧% % , (4)
где y% , z% – переменные, представляющие совокупности имен уровней из-
мерений «кафедра», «факультет» соответственно.
10. 10
На основе формул (3), (4) осуществляется декомпозиция отношения
( )r R и задается система отношений:
( ) ( ){ }
( ) ( ){ }
( ) ( ){ }
1 1
2 2
3 3
, | , ,
, | , ,
| ,
r R x y P x y
r R y z P y z
r R z P z
= < >
= < >
= < >
% %
% % (5)
где R1, R2, R3 – схемы отношений; iP , 1, 2i = – бинарные предикаты;
P3 – унарный предикат; y% , z% – переменные, представляющие совокуп-
ность имен уровней измерения «кафедра», «факультет» соответственно.
Для иерархии измерений с двумя уровнями «вопрос анкеты → анке-
та» отношение на множестве атрибутов задается в виде:
( ) ( ){ }4 4, | ,r R b c P b c= < > , (6)
где b – кортеж атрибутов уровня измерения «вопрос анкеты»; c – кортеж
атрибутов уровня измерения «анкета», ( )4 ,P b c – бинарный предикат, при-
менение которого определяется высказыванием относительно имен сово-
купностей анкеты.
С учетом формул (3) и (6) отношение для измерения мер (фактов) за-
писывается следующим образом:
( ) ( ){ }5 1 2 1 2, , , , ,..., | , , , , , ...,m mr R t x b a a a P t x b a a a= % %% % , (7)
где t – некоторая дата в измерении «время»; x% – переменная, представ-
ляющая совокупность имен уровня измерения «группа респондентов»; b% –
переменная, представляющая совокупность имен уровня измерения «во-
прос анкеты»; 1 2, ,..., ma a a – имена переменных, представляющих совокуп-
ности ответов на вопрос анкеты; m – число вариантов ответов.
Системный граф структуры данных, определенный выражениями (3),
(5) и (7), изображен на рисунке 1.
Рисунок 1 – Системный граф структуры данных
2c 3c
4c
5c
4b
3b
2b
z3
z2
y3
y2
y4
x4
x3
x2
am
R2
R5
R3
4R′
4R′′
R1
t
a1
z1
y1
x1
a2
1b
1c
z4
11. 11
В соответствии с выбранными множествами измерений в диссерта-
ции для системы разработаны две многомерные модели данных. Первая
модель данных содержит измерения из первой группы и факты, в качестве
которых использованы измерения второй группы. Данная модель позволя-
ет выполнять статистические процедуры для подготовки оперативного от-
чета о результатах проведенного анкетирования. Вторая модель данных
построена с использованием измерений всех четырех групп.
Модель допускает выполнение операций детализации, проекции,
среза и консолидации при обработке данных. Если измерения получены с
использованием номинальной шкалы, то в таблице фактов регистрируется
количество совпадений по k-му варианту ответа на вопрос анкеты:
{ }1
, 1,2, ...,
n
k k jj
n k m=
= δ ∈∑ , (8)
где n – общее число ответов на вопрос анкеты.
В случае порядковой шкалы в хранилище данных дополнительно ре-
гистрируются ранги вариантов ответов:
( )1
n
i i jj
R C x x=
= −∑ . (9)
Дальнейшая обработка данных выполняется на основе kn и iR ,
включает операции поиска выборочной медианы, расчета коэффициентов
ранговой корреляции, процедуры статистического и интеллектуального
анализа.
Для предварительной обработки результатов анкетирования также
предлагается использовать метод анализа иерархий. Применение данного
метода позволяет на основе матриц парных сравнений, проводимых экс-
пертами, сформировать вектор приоритетов и получить интегральную
оценку (рисунок 2). Для определения весовых коэффициентов в процессе
ранжирования вопросов анкеты могут привлекаться эксперты, что позво-
ляет снизить субъективную составляющую оценки.
1ν
1γ
mν1α
1q
2q
5q
1A
kA
5α
2α
1q 2q
7q
2A
mβ
2ν
1β
2β
2γ
kγ
Рисунок 2 – Иерархическая структура анализа данных
12. 12
Для получения интегральной оценки мнений респондентов, запол-
нивших анкету с номером k , используется формула
1 1 1
gm m
k i i i j j
i i j
A q
= = =
= β ν = β α∑ ∑ ∑ , 1, 2, 3, ...k = , (10)
где jq – количество совпадений или ранг варианта ответа на вопрос анке-
ты; jα – весовой коэффициент, отражающий приоритетность ответа;
iβ – весовой коэффициент, отражающий приоритетность вопроса в анкете.
Приведенная интегральная оценка позволяет сравнивать различные
группы респондентов. При необходимости получения информации о мне-
ниях всех групп респондентов факультета или кафедры аналитик имеет
возможность учесть вклад в оценку качества образовательных услуг каж-
дой из групп опрашиваемых. С этой целью методом парных сравнений оп-
ределяются весовые коэффициенты kγ , характеризующие приоритетность
анкет.
После расчета оценок mν на уровне кластеров вопросов аналитик
может провести кластерный анализ данных анкетирования для оценки рас-
пределений мнений, например, по кафедрам.
Использование многомерного хранилища данных позволяет приме-
нять OLAP-анализ к данным анкетирования, агрегировать и сравнивать ре-
зультаты анкетирования с учетом свойств измерительных шкал. Использо-
вание иерархических измерений позволяет при проведении OLAP-анализа
получать различные срезы данных. Основным измерением в модели данных
является время (дата проведения анкетирования). При проведении опроса с
заданной периодичностью системный аналитик получает возможность от-
слеживать динамику мнений респондентов по изучаемой проблеме.
Третья глава посвящена разработке методики анализа информаци-
онной системы анкетирования методом имитационного моделирования.
Предложены модели различных узлов сетей массового обслуживания
(включая узлы с различными дисциплинами обслуживания), узлов слияния
и разветвления информационных потоков, генераторов заявок в виде сетей
Петри. Представлена процедура построения непрерывных моделей в виде
цепей Маркова с применением графа достижимости сетей Петри.
Модель содержит три источника заявок, формируемых пользователя-
ми клиентских терминалов в процессе анкетирования, сервер приложений
и сервер баз данных. Каждый источник генерирует поток заявок одного
типа, включая заявки на получение статического содержимого сайта (изо-
бражения, статические HTML-страницы, стилевые таблицы); заявки на по-
лучение информации из базы данных; заявки сохранения информации в
базе данных. Имитационная модель информационной системы анкетиро-
вания в виде раскрашенной стохастической сети Петри приведена на ри-
сунке 3. Для моделирования обработки сервером заявок разного типа в мо-
13. 13
дель введена раскраска в виде маркеров различной формы <▼ ♦ ■ •>.
Маркеры, обозначенные кружком, отражают состояния занятости ресурса
сервера приложений – обработки запросов каналами сервера приложений.
Рисунок 3 – Модель Web-сервера в виде сети Петри
Переходы сети Петри 1 2 3t , t , t ассоциированы с источниками заявок,
интенсивность поступления которых на входы сервера приложений
1 2 3, ,λ λ λ соответственно. Множество M каналов сервера разбито на под-
множество загруженных каналов 1M и подмножество свободных каналов
2M . При этом 1 2M M∩ = ∅ и ( )1 2M M M= ∪ . Моменты инициирования
обработки заявок сервером приложений имитируются переходами
4 5 18, , ...,t t t . При поступлении очередной заявки в момент времени jτ за-
пускается канал обслуживания 2qK M∈ с наименьшим номером. Время за-
пуска канала qK определяется временем q
k jτ = τ . Окончание обслуживания
заявок имитируется переходами 19 20 33, , ...,t t t . Время окончания обслужи-
вания заявки с раскраской i каналом qK задается выражением
1 ; 1, 2, 3q q
k k it i= τ + µ = , (11)
где iµ – интенсивность обслуживания заявки с раскраской i.
Разработанная в диссертации методика анализа свойств имитацион-
ной модели предполагает проведение предварительных вычислительных
экспериментов. Методика реализована на основе метода предельных то-
чек. В соответствии с данным методом проведение вычислительных экспе-
риментов выполняется для вариантов исходных значений параметров мо-
дели, обеспечивающих ее функционирование в выбранных режимах. Вы-
бор режимов осуществляется из условия достижения конечных результа-
тов имитации, которые могут быть подтверждены аналитическими мето-
дами. Методика обеспечивает проведение исследования «непрерывности»
14. 14
реакции модели по отношению к исходным данным, на устойчивость, чув-
ствительность и адекватность.
Для подтверждения результатов имитации аналитическими метода-
ми предполагаются однородность потока заявок и отсутствие раскраски в
модели. В результате модель преобразуется в стохастическую сеть Петри,
в которой циркулирует однородный ординарный поток заявок с экспонен-
циальным распределением. Для преобразованной сети Петри строится
граф достижимости. Построение выполняется на основе матричного опи-
сания <P, T, I, O, M>, где P – множество вершин; T – множество перехо-
дов; I – функция входов; O – функция выходов; M – матрица маркировки.
На основе графа достижимости исследуется логика функционирова-
ния процессов, выявляются циклы в модели. Вершины графа достижимо-
сти, связанные отношениями мгновенного перехода модели из одного со-
стояния в другое, склеиваются.
На основе графа достижимости строится непрерывная цепь Маркова.
Система дифференциальных уравнений непрерывной модели, адекватной
имитационной модели Web-сервера, имеет вид:
( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( )
0 0 1
1 0 1 2
2 1 2 3
1
d d ,
d d 2 ,
d d 2 3 ,
d dn n n
P t t P t P t
P t t P t P t P t
P t t P t P t P t
.....................................................................
P t t P t n P t ,−
= −λ + µ
= λ − λ + µ + µ
= λ − λ + µ + µ
= λ + µ
(12)
где n – число каналов обслуживания; iP – вероятность обработки запроса
i-каналом обслуживания ( 0,1, 2, ...,i n= ).
Система (12) позволяет рассчитать основные характеристики систе-
мы: вероятность простоя, вероятность отказа, абсолютную пропускную
способность системы, среднее число занятых каналов. Результаты анали-
тического расчета сравниваются с результатами имитационного моделиро-
вания, и осуществляется настройка отдельных узлов математической мо-
дели. По умолчанию Web-сервер настроен для работы c 15 одновременны-
ми соединениями, поэтому 15n = . Интенсивность поступления заявок на
обслуживание 10λ = определена исходя из собранной статистики работы
промежуточного варианта системы. Средняя интенсивность обслуживания
заявок 2,5µ = . Среднее время обработки одной заявки сервером приложе-
ний равно 0,4 с. Сравнение результатов имитационного и аналитического
моделирования системы позволяет сделать выводы о корректности постро-
енной имитационной модели. Среднее время обслуживания заявки 0,4 и
0,40 с; загрузка системы 4 и 3,8; среднее число заявок в системе 3,9 и 3,8
для аналитической и имитационной моделей соответственно. Полученная
15. 15
модель настраивается с учетом разнородности потока заявок, различных
типов входных потоков.
С использованием функции Хэвисайда в диссертации решена задача
визуализации трафика в различных узлах системы. График трафика на вы-
ходе узла обслуживания с интенсивностями поступления заявок 1
1 5 c−
λ = ,
1
2 2 c−
λ = , 1
3 3 c−
λ = и средними временами обслуживания 1 0 15 ct ,= ,
2 0 35 ct ,= , 3 0 75 ct ,= приведен на рисунке 4.
Рисунок 4 – График трафика на выходе узла обслуживания
Результаты анализа системы массового обслуживания в среде
MathCAD позволили сделать предварительные выводы о возможной за-
грузке. При заданных характеристиках системы каналы с 10 по 15 остают-
ся незагруженными. Опытная эксплуатация показала устойчивость функ-
ционирования модулей. Было проведено нагрузочное тестирование систе-
мы, в результате которого была собрана необходимая информация
для проведения корректировки распределения нагрузки между модулями
в целях повышения скорости обработки запросов и отказоустойчивости
системы.
В четвертой главе приведено описание разработанной системы.
Информационная система обеспечивает конструирование анкет (возможно
использование предопределенных видов ответов, формирование новых);
создание учетных записей групп пользователей и назначение им опреде-
ленных прав на анкеты; администрирование процесса анкетирования; ре-
гистрацию и хранение собранных и проанализированных данных; форми-
рование статистики прохождения анкетирования и отчетов по результатам
проводимого опроса.
При разработке концептуальной модели поведения пользователей в
системе выделены группы и сформулированы требования с учетом решае-
мых задач. Ограничение доступа пользователей к системе представляет со-
бой групповую модель наделения прав. В соответствии с этой моделью ка-
ждый пользователь, зарегистрированный в системе, может быть членом не-
скольких групп и получать доступ в соответствии с назначенными правами.
16. 16
К основным достоинствам информационной системы анкетирования
на основе Web-технологий следует отнести:
− исключение этапов распечатки анкет, последующего ручного
ввода информации для проведения анализа;
− оперативность при подведении итогов и их опубликовании;
− расширение территориального охвата респондентов при проведе-
нии удаленного анкетирования;
− возможность контроля процесса прохождения анкетирования;
− возможность оперативного редактирования текстов анкет (на-
пример, исправление орфографических ошибок).
Система рассчитана на эксплуатацию в сетях с поддержкой протоко-
ла HTTP. На стороне клиента необходимо наличие Web-браузера, поддер-
живающего JavaScript. Это требование позволяет проводить анкетирование
на любом современном компьютере, вне зависимости от установленной
операционной системы. Серверная часть системы рассчитана на работу
под управлением Web-сервера Resin. В качестве сервера базы данных мо-
гут быть использованы MS SQL Server 2000/2005/2008, MySQL и Firebird.
К аппаратной части системы предъявляются требования в зависимости от
максимально возможной планируемой загрузки. Использование версии
Resin для Linux/Unix либо для Windows позволяет разворачивать систему
на серверах, функционирующих под управлением этих операционных
систем.
В заключении сформулированы основные результаты диссертаци-
онной работы.
Приложения содержат акты внедрения системы, листинги динами-
ческих и имитационных моделей в математическом пакете MathCAD,
функциональные и информационные модели, результаты проведенных
экспериментов.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
Основные результаты диссертационной работы состоят в следующем:
1) предложено многомерное представление данных в информацион-
ной системе анкетирования, обеспечивающее реализацию модулей сбора,
предварительной обработки, хранения, оперативного и интеллектуального
анализа в режиме удаленного доступа;
2) разработана методика оценки характеристик информационной
системы анкетирования для проведения предварительного анализа загруз-
ки системы;
3) предложен алгоритм функционирования модуля редактирования
анкет, позволяющий организовать работу с вопросами полузакрытого типа
в режиме удаленного доступа при проведении экспертного опроса;
17. 17
4) разработана методика предварительной обработки и анализа дан-
ных информационной системы анкетирования с использованием метода
анализа иерархий;
5) предложен алгоритм функционирования модуля управления про-
цессами создания и редактирования анкет, проведения опроса респонден-
тов, создания и распределения прав доступа к информационному ресурсу
между группами пользователей;
6) разработана информационная система анкетирования на основе
Web-технологий, поддерживающая создание, редактирование опросов, од-
новременное прохождение множества анкет различных групп респонден-
тов в режиме удаленного доступа, сбор, обработку и хранение результатов
анкетирования.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, рекомендованных ВАК России
1 Афонин, А. Ю. Система анкетирования на основе Web-техноло-
гий / А. Ю. Афонин, П. П. Макарычев // Известия высших учебных заведе-
ний. Поволжский регион. Технические науки. – 2010. – № 3. – С. 33–39.
Публикации в других изданиях
2 Афонин, А. Ю. Организация импорта и экспорта данных при хра-
нении на MS SQL Server / А. Ю. Афонин, П. П. Макарычев // Технологии
Microsoft в теории и практике программирования : материалы конф. / под
ред. проф. Р. Г. Стронгина. – Н. Новгород : Изд-во Нижегор. гос. ун-та,
2006. – С. 24–25.
3 Афонин, А. Ю. Администрирование и анализ данных средствами
SQL Server / А. Ю. Афонин, Е. Н. Прошкина // Новые информационные
технологии и системы : тр. VII Междунар. науч.-техн. конф. – Пенза : Ин-
форм.-изд. центр ПГУ, 2006. – Ч. 1. – С. 207–210.
4 Афонин, А. Ю. Мониторинг удовлетворенности преподавателей и
студентов деятельностью вуза / А. Ю. Афонин, П. П. Макарычев // Новые
информационные технологии и системы : тр. VII Междунар. науч.-техн.
конф. – Пенза : Информ.-изд. центр ПГУ, 2006. – Ч. 2. – С. 178–180.
5 Афонин, А. Ю. Система мониторинга удовлетворенности качест-
вом образовательных услуг / А. Ю. Афонин, П. П. Макарычев // Универси-
тетское образование : сб. ст. XI Междунар. науч.-метод. конф. – Пенза :
ПДЗ, 2007 – C. 30−31.
6 Афонин, А. Ю. Система мониторинга удовлетворенности качеством
образовательных услуг / А. Ю. Афонин, П. П. Макарычев // Актуальные
проблемы высшего профессионального образования в России : материалы
межвуз. науч.-практ. конф. – Елабуга : Изд-во ЕГПУ, 2007. – C. 30–32.
18. 18
7 Афонин, А. Ю. Методология проектирования систем потребитель-
ского мониторинга вуза / А. Ю. Афонин // Перспективы развития инфор-
мационных технологий : сб. материалов II Ежегод. всерос. науч.-практ.
конф. с междунар. участием. – Новосибирск : Изд-во «СИБПРИНТ», 2010. –
С. 242–246.
8 Афонин, А. Ю. Методология разработки систем потребитель-
ского мониторинга / А. Ю. Афонин // Информатизация образования. По-
волжье – 2010 : тр. всерос. науч.-метод. конф. – Пенза : Изд-во ПГУ, 2010. –
С. 23–24.
9 Афонин, А. Ю. Оперативный и интеллектуальный анализ данных :
учеб. пособие / П. П. Макарычев, В. Б. Механов, А. Ю. Афонин. – Пенза :
Изд-во ПГУ, 2010. – 156 с.
10 Афонин, А. Ю. Система потребительского мониторинга вуза /
А. Ю. Афонин // Проблемы и перспективы развития образования в России :
сб. материалов IV Междунар. науч.-практ. конф. / под общ. ред.
С. С. Чернова. – Новосибирск : Изд-во НГТУ, 2010. – С. 141–145.
11 Афонин, А. Ю. Анализ данных потребительского мониторинга
вуза методом анализа иерархий / А. Ю. Афонин, П. П. Макарычев // Акту-
альные вопросы современной техники и технологии : сб. докл. II Между-
нар. науч. заоч. конф. / под ред. А. В. Горбенко, С. В. Довженко. – Липецк :
Изд. центр «Де-факто», 2010. – C. 12–14.
12 Афонин, А. Ю. Аналитическое и имитационное моделирование
Web-сервера / А. Ю. Афонин, П. П. Макарычев // Новые информационные
технологии и системы : тр. IX Междунар. науч.-техн. конф. – Пенза : Изд-
во ПГУ, 2010. – Ч. 2. – С. 94–99.
13 Афонин, А. Ю. Тестирование программного обеспечения посред-
ством фаззинга / А. Ю. Афонин // Новые информационные технологии
и системы : тр. IX Междунар. науч.-техн. конф. – Пенза : Изд-во ПГУ,
2010. – Ч. 2. – С. 113–118.
14 Свидетельство об отраслевой регистрации № 9506 в Отраслевом
фонде алгоритмов программ на разработку «Система мониторинга удовле-
творенности потребителей качеством образовательных услуг» / А. Ю. Афо-
нин. – Опубл. 25.11.2007.
19. 19
Научное издание
АФОНИН Александр Юрьевич
МНОГОМЕРНОЕ ПРЕДСТАВЛЕНИЕ
И ОБРАБОТКА ДАННЫХ
В ИНФОРМАЦИОННОЙ СИСТЕМЕ АНКЕТИРОВАНИЯ
Специальность 05.13.01 – Системный анализ, управление
и обработка информации (приборостроение)
Редактор Е. П. Мухина
Компьютерная верстка М. Б. Жучковой
Подписано в печать 28.12.2010.
Формат 60×841
/16. Усл. печ. л. 1,16.
Тираж 100. Заказ № 825.
__________________________
Издательство ПГУ
440026, Пенза, Красная, 40.