Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Uma Proposta de Aplicação de Business Inteligence para o Censo das IES

988 views

Published on

Published in: Technology

Uma Proposta de Aplicação de Business Inteligence para o Censo das IES

  1. 1. ¸˜ Uma Proposta de Aplicacao de Business Inteligence para o Censo das IES Andr´ Monteiro1 , Fernando Cezar Borges1 , Hugo Alex Conceicao Silva1 , e ¸˜ M´ rio Jorge Pereira , Mauricio Cesar Santos da Purificacao1 a 1 ¸˜ 1 Centro de Processamento de Dados – Universidade Federal da Bahia (UFBA) 40.170.110 – Salvador – BA – Brazil {andremp,fercez,mariojp,mauricioc}@ufba.br Abstract. This paper presents a proposal to optimize the chain of routines per- formed during the preparation of the census of Higher Education Institutions. This improvement will be achieved by adopting a model that uses Business In- telligence tools during the process of collecting and validating data from the National Institute of Educational Studies Anisio Teixeira. The proposal is be- ing developed at the Federal University of Bahia and could be applyed to other Higher Education Institutions in the future. Resumo. Este artigo apresenta uma proposta para otimizar a cadeia de rotinas executadas durante a elaboracao do censo das Instituicoes de Ensino Superior. ¸˜ ¸˜ Esta melhoria ser´ dada atrav´ s da adocao de um modelo que utiliza ferramen- a e ¸˜ tas de Business Intelligence nas etapas de coleta e validacao dos dados junto ao ¸˜ Instituto Nacional de Estudos e Pesquisas Educacionais An´sio Teixeira. A pro- ı posta apresentada est´ sendo desenvolvida na Universidade Federal da Bahia e a poder´ ser aplicada em outras Instituicoes de Ensino Superior posteriormente. a ¸˜ ¸˜1. Introducao ¸˜ ´O censo das Instituicoes de Ensino Superior (IES) e realizado anualmente e seus dados ¸˜s˜ o disponibilizados para a sociedade em geral. O tempo entre a disponibilizacao dos in- adicadores obtidos ao final do censo e a pr´ xima coleta n˜ o permite que as IES procedam o a ¸˜com as intervencoes necess´ rias para a melhoria dos indicadores. A proposta deste tra- a ´ ´balho e definir um modelo unico de Data Warehouse (DW) para todas as IES que atendaaos indicadores coletados durante o censo. Como resultado, espera-se facilitar e agilizar ¸˜a coleta dos dados, minimizar o tempo entre a coleta e a divulgacao dos resultados, per-mitir um monitoramento constante dos indicadores por parte das IES e consequentemente ¸˜melhorar a qualidade da informacao fornecida. ¸˜ ´ Este artigo encontra-se organizado da seguinte forma: Na secao 2 e detalhado o ´ ¸˜ ´processo do censo que e realizado pelas IES anualmente. Na secao 3 e apresentado o con- ´ ¸˜ceito de Business Intelligence (BI) e e detalhada uma arquitetura geral para a construcao ¸˜ ¸˜ ´de solucoes de BI. Na secao 4 e apresentada a su´te Pentaho BI que tem sido utilizada ıcomo plataforma de desenvolvimento na Universidade Federal da Bahia (UFBA) e faz ¸˜ ´ ¸˜parte da proposta deste trabalho. Na secao 5 e apresentado o modelo proposto e na Secao ´6 e apresentada a conclus˜ o e os trabalhos futuros referentes a esta proposta. a
  2. 2. 2. CensoO Instituto Nacional de Estudos e Pesquisas Educacionais An´sio Teixeira (Inep) rea- ı `liza uma coleta anual de dados juntos as IES. A coleta dos dados tem como referˆ ncia e o 1 2as diretrizes gerais previstas pelo Decreto n 6.425 de 4 de abril de 2008 . A par-tir dos dados obtidos s˜ o elaborados indicadores educacionais. Este processo de coleta a ¸˜ ´e disponibilizacao dos dados (na forma de indicadores educacionais) e conhecido como ¸˜censo da educacao superior. ¸˜ Ao fim do censo as informacoes s˜ o disponibilizadas oficialmente tanto para a co- a ¸˜munidade acadˆ mica como para a sociedade em geral. Esta divulgacao re´ ne informacoes e u ¸˜ ¸˜ ¸˜sobre as instituicoes de ensino superior, e entre elas est˜ o: dados dos cursos de graduacao a ` a e ¸˜presenciais ou a distˆ ncia, cursos sequˆ nciais, vagas oferecidas, inscricoes, matr´culas, ı ¸˜ingressantes e concluintes al´ m de informacoes sobre docentes nas diferentes formas de e ¸˜organizacao acadˆ mica e categorias administrativas. e ¸˜ Para chegar aos indicadores, as informacoes s˜ o obtidas por meio de um ques- ation´ rio eletrˆ nico que fica aberto durante um per´odo para o preenchimento pelas IES. a o ıO preenchimento ocorre, normalmente, dentro do primeiro trimestre do ano. Ap´ s este o ¸˜ ¸˜per´odo, os dados s˜ o novamente colocados a disposicao das IES para validacao e/ou ı a ¸˜correcao. O Inep pode ent˜ o realizar uma an´ lise na base de dados gerada pela coleta a a e e ¸˜para verificar a ocorrˆ ncia de inconsistˆ ncias nas informacoes obtidas. Depois desta ¸˜verificacao o Inep divulga os indicadores gerados durante o censo, normalmente, no´ultimo trimestre do ano. ´ ¸˜ Durante este processo e necess´ rio o envio de informacoes ao Minist´ rio da a e ¸˜ ¸˜Educacao (MEC), o que ocorre atrav´ s de uma extracao de dados, seja esta feita por emeio de planilhas eletrˆ nicas, relat´ rios e/ou carga de dados obtidos a partir dos sistemas o o ´operacionais das IES. Devido ao volume de dados essa etapa e bastante custosa. Outro ´ ¸˜problema no uso dos dados dos sistemas operacionais e a sua constante atualizacao, o quedificulta a auditoria ap´ s a carga, por conta dos relat´ rios refletirem o estado atual do sis- o o ´tema. Deste modo, e necess´ rio arquivar e manter relat´ rios que s˜ o gerados no momento a o a ¸˜da extracao dos dados ou do preenchimento das planilhas. A Figura 1 detalha o processodo Censo realizado pelas IES.3. Business Intelligence a ¸˜BI pode ser visto como um processo sistem´ tico de aquisicao, tratamento e an´ lise de a ¸˜ ¸˜ ainformacoes em que os dados internos e externos de uma organizacao s˜ o integrados para ¸˜ ´gerar informacao pertinente para o processo de tomada de decis˜ o. O papel do BI e criar aum ambiente informacional com processos atrav´ s dos quais os dados operacionais pos- esam ser coletados, tanto dos sistemas transacionais como de fontes externas, e analisados,revelando dimens˜ es ”estrat´ gicas”do neg´ cio [Petrini et al. 2006]. o e o Analisando a Figura 2, podemos visualizar um modelo tradicional para o desen- ¸˜volvimento de solucoes de BI. Segundo este modelo, existem basicamente dois compo-nentes representados pela Arquitetura T´ cnica de Povoamento (ATP) e pela Arquitetura e 1 http://www.planalto.gov.br/ccivil 03/ Ato2007-2010/2008/Decreto/D6425.htm 2 http://www.censosuperior.inep.gov.br/
  3. 3. ¸˜ Figura 1. Processo de Coleta e Divulgacao de Dados do Censo.de Acesso aos Dados (AAD). A ATP define como os dados oriundos dos sistemas opera-cionais (fontes de dados externas e internas) s˜ o carregadas no DW atrav´ s do processo de a e ¸˜ ¸˜Extracao, Transformacao e Carga (ETC) (do inglˆ s Extract, Transform and Load (ETL). eNo processo de ETL, os dados operacionais s˜ o uniformizados, selecionados, transfor- a ¸˜mados, e carregados no DW da solucao de BI. A AAD define como os dados armazenados no DW ser˜ o acessados pelos ausu´ rios. Por exemplo, pode-se construir Data Marts (DMs), que s˜ o como um DW a a ı ´armazenando dados a n´veis departamentais ou v´nculados a areas espec´ficas do neg´ cio, ı ı o ¸˜de modo que, caso o DW necessite de algum suporte ou manutencao, os departamentoscontinuem acessando seus dados nos respectivos DMs. Por conseguinte, um novo pro-cesso de ETL ser´ realizado para que do DW possa realizar-se a carga nos dados dos aDMs. Al´ m desses dois componentes, existe uma camada de metadados que engloba e ¸˜ ¸˜toda a solucao. Os metadados devem possibilitar o registro de todas as informacoes sobre ¸˜os dados como suas origens e os processos de transformacao sofridos. S˜ o de extrema aimportˆ ncia dentro do ambiente de DW, pois representam uma vis˜ o integrada das bases a ade dados que fazem parte deste ambiente. S˜ o utilizados para construir, manter, gerenciar ae utilizar o DW [da Costa and Anci˜ es 2001]. a4. Su´te Pentaho BI ı ´O Pentaho e uma alternativa comercial e de c´ digo fonte aberto para projetos de BI o ´[Almeida 2010]. E oficialmente formado por cinco componentes que foram criados sepa- ¸˜radamente com o objetivo de solucionar etapas espec´ficas do processo de construcao de ı ¸˜uma solucao de BI. Por isso, tamb´ m podem ser utilizados individualmente, interagindo ecom outras ferramentas. Estes componentes s˜ o complementares entre si e fornecem su- a ¸˜porte completo a uma solucao de BI quando utilizados em conjunto. Estes componentes e suas funcionalidades s˜ o a detalhados abaixo[Bouman and van Dongen 2009]:
  4. 4. Figura 2. ˜ Arquitetura de BI - Visao Simplificada. Adaptado de ˜ [da Costa and Anciaes 2001]. • Pentaho BI Server: Cont´ m a infra-estrutura respons´ vel por integrar a solucao e a ¸˜ de BI. Ele oferece servicos essenciais para construir, implantar, executar e dar ¸ suporte aos relat´ rios, an´ lise de cubos, dashboards, etc. Tamb´ m provˆ mecanis- o a e e ¸˜ mos de autenticacao e controle de acesso; • Pentaho Data Integration (PDI): Tamb´ m conhecido por Kettle, e respons´ vel e ´ a ¸˜ ¸˜ pela construcao e execucao do processo de ETL; • Pentaho Analysis: Tamb´ m conhecido como Mondriam, e um servidor OLAP 3 e ´ que permite analisar interativamente grandes conjuntos de dados armazenados em ´ bancos de dados relacionais (pois e baseado na arquitetura ROLAP); • Pentaho Reporting: E ´ uma colecao de projetos de c´ digo fonte aberto, focados ¸˜ o ¸˜ ¸˜ ¸˜ principalmente na criacao, producao e publicacao do conte´ do de relat´ rios de u o forma rica e sofisticada; • Pentaho Dashboards: Este m´ dulo da su´te permite a criacao de pain´ is de con- o ı ¸˜ e 4 e ´ trole, mais conhecidos como Dashboards e atrav´ s dele e poss´vel reunir em uma ı mesma tela os principais indicadores de um departamento ou de toda a empresa; ´ • Weka: E um conjunto abrangente de ferramentas para aprendizado de m´ quina e a ¸˜ mineracao de dados. Pode ser usada para ajudar a entender melhor o neg´ cio da o ¸˜ instituicao. O Weka n˜ o faz parte originalmente da su´te, mas pode ser usado em a ı conjunto para a an´ lise de dados. a5. Modelo Proposto ´ ´A proposta deste trabalho e que seja definido um modelo unico de DW que atenda aosindicadores utilizados pelo MEC durante o censo das IES. Este modelo seria replicado `em todas as IES sendo que suas dimens˜ es seriam preenchidas pelo MEC cabendo as IES oo preenchimento das tabelas fato do modelo. As IES iriam ent˜ o extrair os dados dos a 3 O termo OLAP refere-se a um conjunto de ferramentas voltadas para acesso e an´ lise ad-hoc de dados, a ¸˜ `com o objetivo final de transformar dados em informacoes capazes de dar suporte as decis˜ es gerenciais de oforma amig´ vel, flex´vel e em tempo h´ bil ao usu´ rio [Ara´ jo et al. 2007] a ı a a u 4 Painel com um conjunto de indicadores gr´ ficos que, por estar num formato visual, facilita a com- a a ¸˜ ¸˜preens˜ o e assimilacao das informacoes. Geralmente estes indicadores gr´ ficos s˜ o integrados entre si a a[Almeida 2010].
  5. 5. seus sistemas operacionas, tratar/unificar e fazer a carga em seu modelo dimensional e nomodelo dimensional do censo. Deste modo, a coleta dos dados para o MEC se resumir´ a a ¸˜extracao dos dados nas tabelas fato do modelo das IES e a carga nas tabelas fato do Inep(modelo do censo). Observa-se a existˆ ncia de duas camadas dimensionais no modelo proposto, a eprimeira camada refere-se ao pr´ prio DW que seria mantido por cada IES segundo as o `suas necessidades e a segunda camada, a um DW de modelagem unificada para todas asIES de modo que os indicadores necess´ rios ao censo sejam contemplados. Para as IES aser´ entregue uma infraestrutura pronta de BI (Um live cd contendo o sistema operacional aDebian5 e a su´te Pentaho BI, previamente configurada com o banco de dados PostgreSQL ı6 ¸˜ ). Apenas a configuracao do preenchimento (carga) dos dados seria necess´ ria. A pr´ pria a oIES poderia fazer consultas atrav´ s da ferramenta de BI e assim validar os dados gerados. e Figura 3. Arquitetura do Modelo Proposto. ¸˜ A Figura 3 apresenta como est˜ o definidas as camadas da solucao proposta: Na acamada 1 temos os diferentes bancos operacionais das diferentes IES. Entre a camada 1e a camada 2 temos o primeiro ETL, devido a pluralidade de sistemas e a necessidade ¸˜de uniformizacao dos dados. O modelo da camada 2 deve contemplar os indicadores a e `necess´ rios ao censo, podendo tamb´ m atender a necessidades especif´cas das IES. Neste ıcaso, pode se considerar que cada IES mantenha um DW particular e a partir dele sejarealizada a carga no DW que ser´ utilizado pelo censo. a Na camada 3, o DW possui o mesmo modelo para as diferentes IES. Entre ascamadas 2 e 3 temos o segundo ETL que deve ser o mesmo para todas as IES, ondepodem ser efetuadas validacoes al´ m da carga dos dados 4. Na 3◦ e ultima camada temos ¸˜ e ´o DW geral que contempla todas as cargas das IES. Atualmente a camada 1 e 2 tem sido trabalhada pela Universidade Federal da 5 http://www.debian.org/ 6 http://www.postgresql.org/
  6. 6. Bahia (UFBA). A modelagem feita para o DW da UFBA j´ contempla a maioria dos a `indicadores do censo relacionados a alunos e docentes (este DW contempla ainda outras a ¸˜an´ lises realizadas pela instituicao, como o planejamento acadˆ mico, carga hor´ ria semes- e a ´tral de docentes etc...). O que precisa ser feito no momento e a modelagem do restantedos indicadores, a carga dos dados, a modelagem final da camada 3 e a disponibilizacao ¸˜ ¸˜da solucao completa para outras IES. ¸˜ ¸˜ Figura 4. Etapas para Coleta e Divulgacao do Censo com Adocao do Novo Mod- elo. ¸˜ ¸˜ Com a adocao dessa proposta por parte da IES, a coleta e divulgacao dos dados ¸˜do censo passa a ser mais direta, sendo necess´ rio apenas a realizacao de 3 etapas por a ¸˜parte do Inep (Figura 4). As fases de extracao de dados seriam facilitadas pelo uso da ¸˜ferramenta PDI e as etapas de validacao e an´ lise de dados seriam facilitadas pelas ferra- a ¸˜mentas Pentaho Analysis, Pentaho Reporting e Pentaho Dashboards, na criacao de cubosOLAP, relat´ rios gerenciais e dashboards com os indicadores educacionais. o6. Trabalhos Futuros e Conclus˜ o a ¸˜ ´A adocao do modelo proposto por este artigo vai permitir um processo mais agil e de ¸˜melhor qualidade para geracao dos dados relacionados ao censo das IES. O acompan- ¸˜hamento dos indicadores por parte das IES e as intervencoes a serem realizadas pelasmesmas podem ser feitas antes mesmo do t´ rmino de todas as etapas do censo. O uso e ¸˜de ferramentas Open Source permite uma maior facilidade na replicacao da proposta e na ¸˜ ¸˜disponibilizacao das ferramentas para as IES, al´ m de seguir a recomendacao do Governo e ¸˜Federal na adocao de programas caracterizados por esse tipo de licenciamento. ¸˜ Com a disponibilizacao destas ferramentas livres j´ configuradas, as IES podem a ¸˜inclusive trabalhar no sentido de desenvolver solucoes customizadas de acordo com suasnecessidades espec´ficas. ıReferˆ ncias e `Almeida, G. R. (2010). mpentaho uma ferramenta de acesso as an´ lises olap da su´te a ı de business intelligence pentaho em dispositivos m´ veis android. Technical report, o Universidade Federal da Bahia.Ara´ jo, E. M. T., de Lourdes Souza Batista, M., and de Magalh˜ es, T. M. (2007). Olap: u a Caracter´sticas, arquitetura e ferramentas. Technical report, Instituto Vianna J´ nior - ı u Faculdades Integradas Vianna J´ nior. uBouman, R. and van Dongen, J. (2009). Pentaho Solutions Business Intelligence and Data Warehousing with Pentaho and MySQL. Wiley Publishing, Inc. ¸˜da Costa, A. F. and Anci˜ es, F. C. (2001). Aspectos de criacao e carga de um ambiente a de data warehouse. Technical report, Rio de Janeiro.Petrini, M., Freitas, M. T., and Pozzebon, M. (2006). Inteligˆ ncia de neg´ cios ou in- e o teligˆ ncia competitiva? noivo neur´ tico, noiva nervosa. e o

×