Основной целью работы является создание автоматизированной системы, позволяющей своевременно и оперативно осуществлять подготовку, проведение, обработку вопросников обследования репродуктивных планов населения в 2012 году в рамках реализации Системы федеральных статистических наблюдений по социально-демографическим проблемам.
В результате создания ПК РПН-2012 должны быть достигнуты следующие результаты:
1. Осуществлена подготовка к РПН-2012.
2. Осуществлена обработка первичных материалов РПН-2012.
3. Созданы территориально-распределенные программно-аппаратные комплексы, развернутые в региональных центрах обработки, с интегрированной системой защиты информации.
4. Соблюдена единая методика и технология в процессе обработки данных РПН-2012, обеспечивающая единство подходов и методов в получении информации во всех территориально распределенных центрах обработки.
5. Достигнута высокая скорость и качество технической поддержки процессов обработки за счет единой точки регистрации и обработки всех заявок и обращений пользователей.
6. Осуществлена выгрузка данных, прошедших контроль, для последующей передачи на федеральный уровень.
7. Осуществлена обработка материалов РПН-2012 на федеральном уровне.
8. Сформирована итоговая база данных на федеральном уровне.
9. Опубликованы итоги РПН-2012 на Web-ресурсе Росстата с возможностью удаленного доступа к базе микроданных.
Программный комплекс для подготовки и проведения автоматизированной обработки и получения итогов выборочного наблюдения репродуктивных
1. Программный комплекс для подготовки и проведения
автоматизированной обработки и получения итогов выборочного
наблюдения репродуктивных планов населения в 2012 году
Цели создания ПК РПН-2012
Основной целью работы является создание автоматизированной системы, позволяющей
своевременно и оперативно осуществлять подготовку, проведение, обработку вопросников РПН-
2012 в рамках реализации Системы федеральных статистических наблюдений по социально-
демографическим проблемам.
В результате создания ПК РПН-2012 должны быть достигнуты следующие результаты:
1. Осуществлена подготовка к РПН-2012.
2. Осуществлена обработка первичных материалов РПН-2012.
3. Созданы территориально-распределенные программно-аппаратные комплексы,
развернутые в региональных центрах обработки, с интегрированной системой защиты
информации.
4. Соблюдена единая методика и технология в процессе обработки данных РПН-
2012, обеспечивающая единство подходов и методов в получении информации во всех
территориально распределенных центрах обработки.
5. Достигнута высокая скорость и качество технической поддержки процессов
обработки за счет единой точки регистрации и обработки всех заявок и обращений
пользователей.
6. Осуществлена выгрузка данных, прошедших контроль, для последующей
передачи на федеральный уровень.
7. Осуществлена обработка материалов РПН-2012 на федеральном уровне.
8. Сформирована итоговая база данных на федеральном уровне.
9. Опубликованы итоги РПН-2012 на web-ресурсе Росстата с возможностью
удаленного доступа к базе микроданных.
Характеристики объектов и субъектов автоматизации
2. Объектом автоматизации являются процессы полного цикла автоматизированной
обработки материалов РПН-2012.
Проведение обследования репродуктивных планов населения включает в себя
следующие этапы:
Этап 1. Подготовка к проведению РПН-2012.
Этап 2. Проведение РПН-2012.
Этап 3. Ввод и обработка первичных материалов РПН-2012 на региональном
уровне.
Этап 4. Обработка первичных материалов РПН-2012 на федеральном уровне,
получение сводных итогов.
Этап 5. Формирование и выверка базы данных РПН-2012 на федеральном уровне.
Этап 6. Получение итогов РПН-2012 на федеральном уровне.
Этап 7. Распространение итогов обследования.
Для реализации вышеперечисленных этапов в рамках проекта по разработке
автоматизированной системы для обработки и публикации итогов обследования
автоматизированы следующие объекты:
1) Процесс формирования на федеральном уровне списка домохозяйств.
2) Процесс регистрации, ввода и кодирования первичных данных на региональном
уровне.
3) Процесс формального и логического контроля первичных данных на региональном
уровне.
4) Процесс расчета дополнительных показателей, автокоррекции и импутации данных на
федеральном уровне.
5) Процесс распространения данных на генеральную совокупность.
6) Процесс формирования регламентных и публикационных таблиц.
7) Процесс загрузки данных наблюдения в комплексы SuperSTAR и SPSS Statistics.
8) Процесс публикации итогов наблюдения на сайте Росстата.
Так же в рамках технологических работ должны быть автоматизированы следующие
вспомогательные процессы:
1) Процесс администрирования.
3. 2) Процесс формирования и ведения нормативно-справочной информации.
3) Процесс мониторинга хода автоматизированной обработки.
Субъекты автоматизации ПК РПН-2012 распределены по двум уровням:
Региональный уровень включает в себя региональные центры подготовки и обработки
материалов РПН-2012, которые располагаются в Территориальных органах государственной
статистики (ТОГС). Региональные центры осуществляют следующие задачи регионального
уровня:
− загрузка списка домохозяйств;
− ввод, кодирование и первичный контроль данных с вопросников РПН-2012;
− формальный и логический контроль данных РПН-2012;
− выверки промежуточных итогов РПН-2012;
− мониторинг проведения РПН-2012.
Федеральный уровень включает в себя Центральный аппарат Росстата и центр
обработки данных на федеральном уровне (ЦОДФУ), который отвечает за автоматизированную
обработку материалов РПН-2012 и формирование итоговой базы данных на федеральном
уровне. На федеральном уровне выполняются следующие задачи:
− загрузка электронных пачек с данными РПН-2012 в базу данных первичного
информационного фонда (БД ПИФ ФУ);
− выполнение этапа автокоррекции;
− выполнение этапа импутации;
− выполнение этапа распространения данных на генеральную совокупность;
− формирование базы данных обобщенного информационного фонда (БД ОИФ ФУ);
− построение регламентных и публикационных таблиц, построения не регламентных
таблиц;
− обеспечение публикации итогов РПН-2012 в Интернете;
− обеспечение удаленного доступа к базе микроданных;
− мониторинг проведения РПН-2012.
Описание процессов
Процесс формирования на федеральном уровне списка домохозяйств заключается в
загрузке на региональном уровне Excel файла с перечнем населенных пунктов и привязанного к
ним списка обследуемых домохозяйств.
4. Процесс ввода и кодирования материалов обследования заключается в ручном вводе
данных с форм РПН-2012 на автоматизированных рабочих местах (АРМ), кодирование
словарных полей вопросников при помощи использования поиска значений в электронных
справочниках и последующее сохранение данных в виде электронных пачек.
Процесс контроля данных заключается в проведении формального и логического
контроля на АРМ, в соответствии с правилами, описанными в экономическом описании.
Процесс формирования пообъектной базы данных (ПБД ФУ) заключается в
последовательном слиянии в единый массив всех данных, полученных в ходе РПН-2012, в
последовательном выполнении этапов автокоррекции, импутации и распространении данных на
генеральную совокупность.
Процесс получения итоговых таблиц заключается в пакетной генерации итоговых
отчетов, на основе сконструированных макетов таблиц в соответствии с экономическим
описанием.
Процесс загрузки данных наблюдения в комплексы SuperSTAR и SPSS Statistics
заключается в выгрузке итоговых данных обследования в соответствующие программные
комплексы для дальнейшей обработки и анализа.
Процесс публикации итогов РПН-2012 заключается в публикации и предоставлении
общего доступа к итогам РПН 2012 года в Интернете, системном представлении итогов
обследования в виде обобщенного информационного фонда по отдельным единицам
обследования, содержащего первичные и агрегированные (сводные) данные.
Процесс администрирования заключается в установке и обновлении программного
обеспечения, в настройке прав доступа к задачам, выполняемым подсистемами.
Процесс формирования и ведения нормативно-справочной информации заключается в
просмотре и актуализации нормативно-справочной информации (справочников).
Процесс мониторинга проведения РПН-2012 заключается в предоставлении информации
о ходе автоматизированной обработки в виде набора отчетов.
Ключевые преимущества технологий регионального уровня
На регионально уровне по мере поступления заполненных вопросников осуществляется
ввод домохозяйства в систему и для каждого добавленного в систему домохозяйства ввод,
кодирование и первичный контроль данных с вопросников. В процессе сохранения введенных
5. данных по домохозяйству осуществляется автоматическое формирование электронной пачки.
После полного ввода домохозяйства выполняется формальный и логический контроль
введенных данных. При наличии ошибок контроля осуществляется редактирование
домохозяйства и выполняется повторный формальный и логический контроль данных.
Электронная пачка сразу сохраняется в базу данных на федеральном уровне.
Основные требования, предъявляемые к подсистеме ввода, кодирования и
контроля данных форм РПН-2012
Инструментарием комплексного обследования являются следующие вопросники:
− вопросник для домохозяйства;
− индивидуальный вопросник.
Функциональные требования
− Подсистема должна предоставлять возможность пользователю вносить данные из
вопросника РПН-2012 в соответствующие поля на форме ввода данных. Поля на форме ввода
данных должны соответствовать полям вопросника.
− Пользователям должна предоставляться возможность кодирования словарных
полей вопросников при помощи использования поиска значений в электронных справочниках.
− Ко всем полям, по которым происходит кодирование, должны быть подключены
электронные словари с возможностью поиска.
− Подсистема должна предоставлять возможность пользователям выполнять
сохранение вводимой информации на любом этапе ввода данных с форм.
− При сохранении должна фиксироваться информация об учетной записи оператора
ввода.
− Подсистема должна предоставлять возможность в разрезе домохозяйств
формировать электронные пачки, состоящие из вопросников со статусов «Ввод закончен».
− Подсистема должна предоставлять возможность проведения выборочной
верификации – повторного ввода отдельных вопросников другим оператором и сравнение
введенных данных для проверки достоверности введенных данных.
− Подсистема должна предоставлять возможность проведения формального и
логического контроля в пределах одного вопросника. В случае обнаружения ошибки логического
или формального контроля на экране должна отображаться следующая информация:
сообщение об ошибке; номер сработавшего правила формально-логического контроля; ссылки
на поля вопросника, участвовавшие в проверке с возможностью быстрой навигации по ним.
6. − Подсистема должна предоставлять возможность просмотра оператором пачки в
режиме прохождения формально-логического контроля с возможностью перехода к следующей
ошибке в данных по мере ее исправления.
− Подсистема должна предоставлять возможность разделения ошибок на
«жесткие», т.е. обязательные для исправления и не позволяющие без исправления продолжить
формально-логический контроль, и «мягкие», которые оператор, изучив ситуацию, может
признать неисправляемыми, пометить и продолжить контроль. Информация о «мягких»
ошибках, зафиксированных в пачке, должна сохраняться на все время ее существования.
− Подсистема должна фиксировать информацию обо всех действиях оператора,
включая вид и время операций, ошибки и исправления в журнале обработки каждой электронной
пачки. Данная информация должна быть доступна в мониторинге хода автоматизированной
обработки материалов обследования по запросу, сформированному заказчиком.
Состав и структура подсистемы
Подсистема состоит из модуля ввода и кодирования, а также из модуля формального и
логического контроля данных с вопросников РПН-2012.
Модуль ввода и кодирования выполнен в виде формы, через которую осуществляется
ручной ввод данных с вопросников, при этом поля формы ввода полностью соответствуют
полям вопросника.
На форме присутствуют три основные области: «Область отображения полей
вопросника», «Область операций» и «Область отображения перечня вопросников и ошибок
контроля».
7. Модуль ввода позволяет оперативно вводить данные с вопросников за счет полного
соответствия полей формы полям вопросника. Ко всем словарным полям подключены
электронные справочники. Выбранный ответ у вопроса подсвечивается специальным цветом.
Данный механизм позволяет упростить процедуру визуального контроля данных.
В результате ввода вопросников одного домохозяйства формируются электронная пачка,
содержащая информацию о домохозяйстве с данными введенных вопросников.
Электронная пачка является единицей хранения информации, подлежащей обработке на
федеральном уровне.
Имя пачки формируется из набора полей: код территории, код населенного пункта и код
домохозяйства, и является уникальным атрибутом пачки.
По завершению ввода данных с вопросника выполняется формальный и логический
контроль данных. Формальный и логический контроль данных реализуется в соответствии с
экономическим описанием (ЭО). Правила контроля включают межформенную и
внутриформенную проверку данных с вопросников.
Подсистема предоставляет возможность производить контроль по каждому отдельному
вопроснику или производить массовую проверку домохозяйств.
8. Контроль отдельного вопросника производится на форме ввода данных с вопросников,
что позволяет осуществлять контроль в процессе ввода данных с вопросника. При обнаружении
ошибок контроля выводится их перечень в области ошибок контроля. При наведении на ошибку
контроля отображается описание данной ошибки. При нажатии на ошибку контроля
осуществляется автоматический переход к полю вопросника для исправления ошибки контроля.
Массовая проверка домохозяйств (АвтоФЛК) позволяет проверить все домохозяйства,
находящиеся в статусе «Ввод завершен», «ФЛК пройден», «Отправлен/выгружен». По
окончании проверки в окне запуска контроля выводятся ее результаты.
Домохозяйства, в которых ошибок не обнаружено после запуска операции контроля,
автоматически переходят в статус обработки «ФЛК пройден».
Ключевые преимущества технологий федерального уровня
На федеральном уровне в рамках системы ПК РПН-2012 формируется центральное
хранилище (БД ПИФ ФУ). Затем осуществляется формирование первичных и расчетных
показателей (формируется БД ОИФ ФУ). Как только из данных электронных пачек
сформированы первичные показатели, пользователи ЦОДФУ получают возможность
конструировать запросы к БД ОИФ ФУ с использованием программного продукта SPSS Statistic.
В процессе формирования БД ОИФ ФУ возможно применение различных правил,
позволяющих исправить найденные систематические аномалии в данных методом
автокоррекции, а также восстановить пропущенные данные методом импутации c
использованием программного продукта SPSS Statistic.
Процесс получения итогов ПК РПН-2012 проводится на федеральном уровне. Получение
итогов заключается в формировании предопределенных в ЭО рабочих и публикационных
таблиц, а также самостоятельном конструировании персоналом заказчика произвольных
макетов таблиц и увязок. На основе разработанных макетов таблиц осуществляется пакетная
генерация итоговых отчетов, содержащих данные обследования, осуществляется выверка
внутритабличных и межтабличных увязок. После того, как данные в базе выверены, полученные
итоговые отчеты могут быть опубликованы.
Представления итогов обследования в виде обобщенного информационного фонда по
отдельным единицам обследования, содержащего первичные и агрегированные (сводные)
данные осуществляется с использованием программного продукта Space-Time Research
SuperSTAR.
9. ПК РПН-2012 федерального уровня состоит из следующих функциональных блоков:
− Автоматическое прохождение формального и логического контроля.
− Формирование базы данных обобщенного информационного фонда и расчет
показателей.
− Анализа полученных данных.
− Исправление систематических аномалий в данных.
− Получение итоговых таблиц.
− Публикация итогов в интернете.
В процессе получения данных с регионального уровня и загрузки электронных пачек в БД
ПИФ ФУ система предоставляет возможность оператору осуществлять массовую проверку
домохозяйств (АвтоФЛК), что уменьшает вероятность попадания в базу данных обобщенного
информационного фонда (БД ОИФ ФУ) некорректных данных.
Для анализа данных используется программный продукт SPSS Statistic, который
позволяет эффективно анализировать данные и наглядно представлять результаты в виде
таблиц и диаграмм.
SPSS Statistics включает следующие ключевые функции:
− Линейные модели предлагают разнообразные процедуры регрессионного и
расширенного статистического анализа, спроектированные с учетом присущих характеристик
составных отношений описания данных.
− Нелинейные модели предоставляют возможность применять к данным более
сложные модели.
− Настраиваемые таблицы позволяют пользователям легко определять суть данных
и быстро выводить обзор результатов в разных стилях для разных потребителей.
10. Для анализа данных во всех разрезах в SPSS используются OLAP. При этом OLAP-кубы
SPSS гораздо проще в использовании, чем OLAP-кубы, созданные в других программных
продуктах. Пользователям предоставляется возможность самостоятельно настраивать OLAP-
кубы, не обращаясь за помощью к специалистам по информационным технологиям. OLAP-кубы
SPSS работают непосредственно на основе файлов данных SPSS и в них используются метки
переменных и значений. При помощи SPSS можно агрегировать в OLAP-кубы миллионы строк,
что позволяет без труда анализировать данные любых типов и объемов.
В процессе анализа обобщенного информационного фонда могут быть найдены
систематические аномалии в данных или пропуски в данных. Для исправления найденных
систематических аномалий в данных применяется метод автокоррекции, для восстановления
пропущенных данных применяется метод импутации. Пользователям предоставляется
возможность, используя программный продукт SPSS, самостоятельно применять различные
методы импутации и автокоррекции, а также указывать перечень переменных, для которых
данные методы должны быть применены.
11. ПК РПН-2012 предоставляет возможность выгружать данные обобщенного
информационного фонда для дальнейшей обработки их в системе Space-Time Research
SuperSTAR.
Система предоставляет возможность на основе разработанных макетов таблиц
осуществлять пакетную генерацию итоговых отчетов, содержащих данные комплексного
обследования.
Представления итогов обследования в виде обобщенного информационного фонда по
отдельным единицам обследования, содержащего первичные и агрегированные (сводные)
данные осуществляется с использованием программного продукта Space-Time Research
SuperSTAR.
Всем посетителям web-сайта с итогами обследования доступны следующие функции:
− выполнение одного или нескольких запросов;
− формирование шаблонов запросов;
− представление результатов выполнения запроса, как в виде таблиц, так и в виде
графиков и диаграмм для их дальнейшего анализа;
− сохранение результатов выполнения запросов на компьютере пользователя в
форматах Excel;
− формирование итоговых значений с учетом и без взвешивания (подключение и
отключение коэффициента взвешивания);
− добавление расчетных показателей по заданной формуле в шаблон запроса;
− расчет количества записей в пределах объекта наблюдения по определенному
признаку или условию;
− вычисление суммовых, средних, минимальных, максимальных значений в шаблоне
запроса;
− формирование агрегированных показателей из данных разных таблиц (по типам
вопросников), связь между которыми осуществляется по ключевым полям;
− фильтрация, отбор записей и их реквизитов по заданному критерию.