Uma Proposta de Aplicação de Business Inteligence para o Censo das IES

886 views
828 views

Published on

Published in: Technology
2 Comments
2 Likes
Statistics
Notes
No Downloads
Views
Total views
886
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
2
Likes
2
Embeds 0
No embeds

No notes for slide

Uma Proposta de Aplicação de Business Inteligence para o Censo das IES

  1. 1. ¸˜ Uma Proposta de Aplicacao de Business Inteligence para o Censo das IES Andr´ Monteiro1 , Fernando Cezar Borges1 , Hugo Alex Conceicao Silva1 , e ¸˜ M´ rio Jorge Pereira , Mauricio Cesar Santos da Purificacao1 a 1 ¸˜ 1 Centro de Processamento de Dados – Universidade Federal da Bahia (UFBA) 40.170.110 – Salvador – BA – Brazil {andremp,fercez,mariojp,mauricioc}@ufba.br Abstract. This paper presents a proposal to optimize the chain of routines per- formed during the preparation of the census of Higher Education Institutions. This improvement will be achieved by adopting a model that uses Business In- telligence tools during the process of collecting and validating data from the National Institute of Educational Studies Anisio Teixeira. The proposal is be- ing developed at the Federal University of Bahia and could be applyed to other Higher Education Institutions in the future. Resumo. Este artigo apresenta uma proposta para otimizar a cadeia de rotinas executadas durante a elaboracao do censo das Instituicoes de Ensino Superior. ¸˜ ¸˜ Esta melhoria ser´ dada atrav´ s da adocao de um modelo que utiliza ferramen- a e ¸˜ tas de Business Intelligence nas etapas de coleta e validacao dos dados junto ao ¸˜ Instituto Nacional de Estudos e Pesquisas Educacionais An´sio Teixeira. A pro- ı posta apresentada est´ sendo desenvolvida na Universidade Federal da Bahia e a poder´ ser aplicada em outras Instituicoes de Ensino Superior posteriormente. a ¸˜ ¸˜1. Introducao ¸˜ ´O censo das Instituicoes de Ensino Superior (IES) e realizado anualmente e seus dados ¸˜s˜ o disponibilizados para a sociedade em geral. O tempo entre a disponibilizacao dos in- adicadores obtidos ao final do censo e a pr´ xima coleta n˜ o permite que as IES procedam o a ¸˜com as intervencoes necess´ rias para a melhoria dos indicadores. A proposta deste tra- a ´ ´balho e definir um modelo unico de Data Warehouse (DW) para todas as IES que atendaaos indicadores coletados durante o censo. Como resultado, espera-se facilitar e agilizar ¸˜a coleta dos dados, minimizar o tempo entre a coleta e a divulgacao dos resultados, per-mitir um monitoramento constante dos indicadores por parte das IES e consequentemente ¸˜melhorar a qualidade da informacao fornecida. ¸˜ ´ Este artigo encontra-se organizado da seguinte forma: Na secao 2 e detalhado o ´ ¸˜ ´processo do censo que e realizado pelas IES anualmente. Na secao 3 e apresentado o con- ´ ¸˜ceito de Business Intelligence (BI) e e detalhada uma arquitetura geral para a construcao ¸˜ ¸˜ ´de solucoes de BI. Na secao 4 e apresentada a su´te Pentaho BI que tem sido utilizada ıcomo plataforma de desenvolvimento na Universidade Federal da Bahia (UFBA) e faz ¸˜ ´ ¸˜parte da proposta deste trabalho. Na secao 5 e apresentado o modelo proposto e na Secao ´6 e apresentada a conclus˜ o e os trabalhos futuros referentes a esta proposta. a
  2. 2. 2. CensoO Instituto Nacional de Estudos e Pesquisas Educacionais An´sio Teixeira (Inep) rea- ı `liza uma coleta anual de dados juntos as IES. A coleta dos dados tem como referˆ ncia e o 1 2as diretrizes gerais previstas pelo Decreto n 6.425 de 4 de abril de 2008 . A par-tir dos dados obtidos s˜ o elaborados indicadores educacionais. Este processo de coleta a ¸˜ ´e disponibilizacao dos dados (na forma de indicadores educacionais) e conhecido como ¸˜censo da educacao superior. ¸˜ Ao fim do censo as informacoes s˜ o disponibilizadas oficialmente tanto para a co- a ¸˜munidade acadˆ mica como para a sociedade em geral. Esta divulgacao re´ ne informacoes e u ¸˜ ¸˜ ¸˜sobre as instituicoes de ensino superior, e entre elas est˜ o: dados dos cursos de graduacao a ` a e ¸˜presenciais ou a distˆ ncia, cursos sequˆ nciais, vagas oferecidas, inscricoes, matr´culas, ı ¸˜ingressantes e concluintes al´ m de informacoes sobre docentes nas diferentes formas de e ¸˜organizacao acadˆ mica e categorias administrativas. e ¸˜ Para chegar aos indicadores, as informacoes s˜ o obtidas por meio de um ques- ation´ rio eletrˆ nico que fica aberto durante um per´odo para o preenchimento pelas IES. a o ıO preenchimento ocorre, normalmente, dentro do primeiro trimestre do ano. Ap´ s este o ¸˜ ¸˜per´odo, os dados s˜ o novamente colocados a disposicao das IES para validacao e/ou ı a ¸˜correcao. O Inep pode ent˜ o realizar uma an´ lise na base de dados gerada pela coleta a a e e ¸˜para verificar a ocorrˆ ncia de inconsistˆ ncias nas informacoes obtidas. Depois desta ¸˜verificacao o Inep divulga os indicadores gerados durante o censo, normalmente, no´ultimo trimestre do ano. ´ ¸˜ Durante este processo e necess´ rio o envio de informacoes ao Minist´ rio da a e ¸˜ ¸˜Educacao (MEC), o que ocorre atrav´ s de uma extracao de dados, seja esta feita por emeio de planilhas eletrˆ nicas, relat´ rios e/ou carga de dados obtidos a partir dos sistemas o o ´operacionais das IES. Devido ao volume de dados essa etapa e bastante custosa. Outro ´ ¸˜problema no uso dos dados dos sistemas operacionais e a sua constante atualizacao, o quedificulta a auditoria ap´ s a carga, por conta dos relat´ rios refletirem o estado atual do sis- o o ´tema. Deste modo, e necess´ rio arquivar e manter relat´ rios que s˜ o gerados no momento a o a ¸˜da extracao dos dados ou do preenchimento das planilhas. A Figura 1 detalha o processodo Censo realizado pelas IES.3. Business Intelligence a ¸˜BI pode ser visto como um processo sistem´ tico de aquisicao, tratamento e an´ lise de a ¸˜ ¸˜ ainformacoes em que os dados internos e externos de uma organizacao s˜ o integrados para ¸˜ ´gerar informacao pertinente para o processo de tomada de decis˜ o. O papel do BI e criar aum ambiente informacional com processos atrav´ s dos quais os dados operacionais pos- esam ser coletados, tanto dos sistemas transacionais como de fontes externas, e analisados,revelando dimens˜ es ”estrat´ gicas”do neg´ cio [Petrini et al. 2006]. o e o Analisando a Figura 2, podemos visualizar um modelo tradicional para o desen- ¸˜volvimento de solucoes de BI. Segundo este modelo, existem basicamente dois compo-nentes representados pela Arquitetura T´ cnica de Povoamento (ATP) e pela Arquitetura e 1 http://www.planalto.gov.br/ccivil 03/ Ato2007-2010/2008/Decreto/D6425.htm 2 http://www.censosuperior.inep.gov.br/
  3. 3. ¸˜ Figura 1. Processo de Coleta e Divulgacao de Dados do Censo.de Acesso aos Dados (AAD). A ATP define como os dados oriundos dos sistemas opera-cionais (fontes de dados externas e internas) s˜ o carregadas no DW atrav´ s do processo de a e ¸˜ ¸˜Extracao, Transformacao e Carga (ETC) (do inglˆ s Extract, Transform and Load (ETL). eNo processo de ETL, os dados operacionais s˜ o uniformizados, selecionados, transfor- a ¸˜mados, e carregados no DW da solucao de BI. A AAD define como os dados armazenados no DW ser˜ o acessados pelos ausu´ rios. Por exemplo, pode-se construir Data Marts (DMs), que s˜ o como um DW a a ı ´armazenando dados a n´veis departamentais ou v´nculados a areas espec´ficas do neg´ cio, ı ı o ¸˜de modo que, caso o DW necessite de algum suporte ou manutencao, os departamentoscontinuem acessando seus dados nos respectivos DMs. Por conseguinte, um novo pro-cesso de ETL ser´ realizado para que do DW possa realizar-se a carga nos dados dos aDMs. Al´ m desses dois componentes, existe uma camada de metadados que engloba e ¸˜ ¸˜toda a solucao. Os metadados devem possibilitar o registro de todas as informacoes sobre ¸˜os dados como suas origens e os processos de transformacao sofridos. S˜ o de extrema aimportˆ ncia dentro do ambiente de DW, pois representam uma vis˜ o integrada das bases a ade dados que fazem parte deste ambiente. S˜ o utilizados para construir, manter, gerenciar ae utilizar o DW [da Costa and Anci˜ es 2001]. a4. Su´te Pentaho BI ı ´O Pentaho e uma alternativa comercial e de c´ digo fonte aberto para projetos de BI o ´[Almeida 2010]. E oficialmente formado por cinco componentes que foram criados sepa- ¸˜radamente com o objetivo de solucionar etapas espec´ficas do processo de construcao de ı ¸˜uma solucao de BI. Por isso, tamb´ m podem ser utilizados individualmente, interagindo ecom outras ferramentas. Estes componentes s˜ o complementares entre si e fornecem su- a ¸˜porte completo a uma solucao de BI quando utilizados em conjunto. Estes componentes e suas funcionalidades s˜ o a detalhados abaixo[Bouman and van Dongen 2009]:
  4. 4. Figura 2. ˜ Arquitetura de BI - Visao Simplificada. Adaptado de ˜ [da Costa and Anciaes 2001]. • Pentaho BI Server: Cont´ m a infra-estrutura respons´ vel por integrar a solucao e a ¸˜ de BI. Ele oferece servicos essenciais para construir, implantar, executar e dar ¸ suporte aos relat´ rios, an´ lise de cubos, dashboards, etc. Tamb´ m provˆ mecanis- o a e e ¸˜ mos de autenticacao e controle de acesso; • Pentaho Data Integration (PDI): Tamb´ m conhecido por Kettle, e respons´ vel e ´ a ¸˜ ¸˜ pela construcao e execucao do processo de ETL; • Pentaho Analysis: Tamb´ m conhecido como Mondriam, e um servidor OLAP 3 e ´ que permite analisar interativamente grandes conjuntos de dados armazenados em ´ bancos de dados relacionais (pois e baseado na arquitetura ROLAP); • Pentaho Reporting: E ´ uma colecao de projetos de c´ digo fonte aberto, focados ¸˜ o ¸˜ ¸˜ ¸˜ principalmente na criacao, producao e publicacao do conte´ do de relat´ rios de u o forma rica e sofisticada; • Pentaho Dashboards: Este m´ dulo da su´te permite a criacao de pain´ is de con- o ı ¸˜ e 4 e ´ trole, mais conhecidos como Dashboards e atrav´ s dele e poss´vel reunir em uma ı mesma tela os principais indicadores de um departamento ou de toda a empresa; ´ • Weka: E um conjunto abrangente de ferramentas para aprendizado de m´ quina e a ¸˜ mineracao de dados. Pode ser usada para ajudar a entender melhor o neg´ cio da o ¸˜ instituicao. O Weka n˜ o faz parte originalmente da su´te, mas pode ser usado em a ı conjunto para a an´ lise de dados. a5. Modelo Proposto ´ ´A proposta deste trabalho e que seja definido um modelo unico de DW que atenda aosindicadores utilizados pelo MEC durante o censo das IES. Este modelo seria replicado `em todas as IES sendo que suas dimens˜ es seriam preenchidas pelo MEC cabendo as IES oo preenchimento das tabelas fato do modelo. As IES iriam ent˜ o extrair os dados dos a 3 O termo OLAP refere-se a um conjunto de ferramentas voltadas para acesso e an´ lise ad-hoc de dados, a ¸˜ `com o objetivo final de transformar dados em informacoes capazes de dar suporte as decis˜ es gerenciais de oforma amig´ vel, flex´vel e em tempo h´ bil ao usu´ rio [Ara´ jo et al. 2007] a ı a a u 4 Painel com um conjunto de indicadores gr´ ficos que, por estar num formato visual, facilita a com- a a ¸˜ ¸˜preens˜ o e assimilacao das informacoes. Geralmente estes indicadores gr´ ficos s˜ o integrados entre si a a[Almeida 2010].
  5. 5. seus sistemas operacionas, tratar/unificar e fazer a carga em seu modelo dimensional e nomodelo dimensional do censo. Deste modo, a coleta dos dados para o MEC se resumir´ a a ¸˜extracao dos dados nas tabelas fato do modelo das IES e a carga nas tabelas fato do Inep(modelo do censo). Observa-se a existˆ ncia de duas camadas dimensionais no modelo proposto, a eprimeira camada refere-se ao pr´ prio DW que seria mantido por cada IES segundo as o `suas necessidades e a segunda camada, a um DW de modelagem unificada para todas asIES de modo que os indicadores necess´ rios ao censo sejam contemplados. Para as IES aser´ entregue uma infraestrutura pronta de BI (Um live cd contendo o sistema operacional aDebian5 e a su´te Pentaho BI, previamente configurada com o banco de dados PostgreSQL ı6 ¸˜ ). Apenas a configuracao do preenchimento (carga) dos dados seria necess´ ria. A pr´ pria a oIES poderia fazer consultas atrav´ s da ferramenta de BI e assim validar os dados gerados. e Figura 3. Arquitetura do Modelo Proposto. ¸˜ A Figura 3 apresenta como est˜ o definidas as camadas da solucao proposta: Na acamada 1 temos os diferentes bancos operacionais das diferentes IES. Entre a camada 1e a camada 2 temos o primeiro ETL, devido a pluralidade de sistemas e a necessidade ¸˜de uniformizacao dos dados. O modelo da camada 2 deve contemplar os indicadores a e `necess´ rios ao censo, podendo tamb´ m atender a necessidades especif´cas das IES. Neste ıcaso, pode se considerar que cada IES mantenha um DW particular e a partir dele sejarealizada a carga no DW que ser´ utilizado pelo censo. a Na camada 3, o DW possui o mesmo modelo para as diferentes IES. Entre ascamadas 2 e 3 temos o segundo ETL que deve ser o mesmo para todas as IES, ondepodem ser efetuadas validacoes al´ m da carga dos dados 4. Na 3◦ e ultima camada temos ¸˜ e ´o DW geral que contempla todas as cargas das IES. Atualmente a camada 1 e 2 tem sido trabalhada pela Universidade Federal da 5 http://www.debian.org/ 6 http://www.postgresql.org/
  6. 6. Bahia (UFBA). A modelagem feita para o DW da UFBA j´ contempla a maioria dos a `indicadores do censo relacionados a alunos e docentes (este DW contempla ainda outras a ¸˜an´ lises realizadas pela instituicao, como o planejamento acadˆ mico, carga hor´ ria semes- e a ´tral de docentes etc...). O que precisa ser feito no momento e a modelagem do restantedos indicadores, a carga dos dados, a modelagem final da camada 3 e a disponibilizacao ¸˜ ¸˜da solucao completa para outras IES. ¸˜ ¸˜ Figura 4. Etapas para Coleta e Divulgacao do Censo com Adocao do Novo Mod- elo. ¸˜ ¸˜ Com a adocao dessa proposta por parte da IES, a coleta e divulgacao dos dados ¸˜do censo passa a ser mais direta, sendo necess´ rio apenas a realizacao de 3 etapas por a ¸˜parte do Inep (Figura 4). As fases de extracao de dados seriam facilitadas pelo uso da ¸˜ferramenta PDI e as etapas de validacao e an´ lise de dados seriam facilitadas pelas ferra- a ¸˜mentas Pentaho Analysis, Pentaho Reporting e Pentaho Dashboards, na criacao de cubosOLAP, relat´ rios gerenciais e dashboards com os indicadores educacionais. o6. Trabalhos Futuros e Conclus˜ o a ¸˜ ´A adocao do modelo proposto por este artigo vai permitir um processo mais agil e de ¸˜melhor qualidade para geracao dos dados relacionados ao censo das IES. O acompan- ¸˜hamento dos indicadores por parte das IES e as intervencoes a serem realizadas pelasmesmas podem ser feitas antes mesmo do t´ rmino de todas as etapas do censo. O uso e ¸˜de ferramentas Open Source permite uma maior facilidade na replicacao da proposta e na ¸˜ ¸˜disponibilizacao das ferramentas para as IES, al´ m de seguir a recomendacao do Governo e ¸˜Federal na adocao de programas caracterizados por esse tipo de licenciamento. ¸˜ Com a disponibilizacao destas ferramentas livres j´ configuradas, as IES podem a ¸˜inclusive trabalhar no sentido de desenvolver solucoes customizadas de acordo com suasnecessidades espec´ficas. ıReferˆ ncias e `Almeida, G. R. (2010). mpentaho uma ferramenta de acesso as an´ lises olap da su´te a ı de business intelligence pentaho em dispositivos m´ veis android. Technical report, o Universidade Federal da Bahia.Ara´ jo, E. M. T., de Lourdes Souza Batista, M., and de Magalh˜ es, T. M. (2007). Olap: u a Caracter´sticas, arquitetura e ferramentas. Technical report, Instituto Vianna J´ nior - ı u Faculdades Integradas Vianna J´ nior. uBouman, R. and van Dongen, J. (2009). Pentaho Solutions Business Intelligence and Data Warehousing with Pentaho and MySQL. Wiley Publishing, Inc. ¸˜da Costa, A. F. and Anci˜ es, F. C. (2001). Aspectos de criacao e carga de um ambiente a de data warehouse. Technical report, Rio de Janeiro.Petrini, M., Freitas, M. T., and Pozzebon, M. (2006). Inteligˆ ncia de neg´ cios ou in- e o teligˆ ncia competitiva? noivo neur´ tico, noiva nervosa. e o

×