• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI
 

Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI

on

  • 907 views

 

Statistics

Views

Total Views
907
Views on SlideShare
907
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI Document Transcript

    • Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI. Ana Cristina do Espírito Santo Melo, Gustavo Ramos, Mauricio Cesar Santos da Purificação e Vaninha Vieira Centro de Processamento de Dados – Universidade Federal da Bahia (UFBA) Av. Ademar de Barros, s/n - Campus de Ondina, 40170-110, Salvador–Bahia {acesmelo, gustavo, mauricioc, vaninha}@ufba.br Resumo. Soluções de Business Intelligence (BI) possibilitam uma melhora significativa no processo decisório das organizações ao oferecer informações úteis, de modo rápido e facilitado, a partir dos próprios dados existentes nelas. Porém, o alto custo de soluções proprietárias dificulta a sua implantação em organizações de orçamento reduzido, como as instituições públicas de ensino superior. Além de ter um custo menor, soluções livres para BI ainda são customizáveis de acordo com os interesses de quem as estejam implantando. Este artigo descreve uma experiência de construção de uma solução de BI com o uso da suíte Pentaho BI na UFBA, mostrando as dificuldades encontradas, lições aprendidas, o que já foi realizado e a perspectiva de trabalhos futuros. Palavras chave. Business Intelligence, Software Livre, Data Warehouse, Pentaho.1 Introdução BI é um termo genérico para descrever o aproveitamento dos recursos internos e externos daorganização para tomar melhores decisões de negócios (KIMBALL e ROSS, 2002). De forma maisespecífica, BI pode ser definido como todo o processo de coleta e análise de dados, fazendo uso demetodologias, processos e tecnologias diversas, de modo a disponibilizar, para os gestores de umaorganização, informações úteis de modo rápido e facilitado a respeito da mesma (PETRINI,FREITAS e POZZEBON, 2006). As soluções de BI devem ser flexíveis para se adequarem àsnecessidades e limitações de cada organização que as estejam implantando. Uma solução de BI em Software Livre (SL) pode ser customizada para qualquernecessidade, pois o código fonte está acessível a todos. Não há custos para adquirir a ferramenta,paga-se apenas por suporte ou treinamento, caso seja necessário. Em contrapartida, a curva deaprendizagem pode ser maior do que com o uso de softwares proprietários, que, em geral, oferecemsuporte, ampla documentação e são mais fáceis de serem manipulados. O Centro de Processamento de Dados da UFBA (CPD-UFBA) criou o projeto UFBADB(SALVADOR, ARAÚJO e VIEIRA) com o objetivo inicial de centralizar os dados dos estudantes,professores e outros que estejam vinculados à universidade. Mas, a instituição ainda carece demecanismos que facilitem o processo de tomada de decisões e a geração de relatórios estatísticos.Este cenário motivou o estabelecimento de uma parceria entre o CPD-UFBA e o Departamento deCiência da Computação (DCC-UFBA) para desenvolver uma proposta preliminar de solução de BIutilizando software livre. Esta proposta preliminar, desenvolvida no contexto da disciplina "Tópicosem Banco de Dados" no semestre 2009.2, tem sido ampliada pelo CPD-UFBA, através de duasbolsas financiadas pelo projeto de ações Afirmativas - Permanecer UFBA.
    • 2 A suíte Pentaho BI A escolha da Suíte Pentaho BI ocorreu após a análise de ferramentas realizada durante asatividades da disciplina citada anteriormente. A maturidade e estabilidade apresentada por ela podeser comprovada pelo seu crescente uso internacionalmente (PENTAHO CORPORATION, 2010).Também existem casos de uso de grandes empresas nacionais, como o Serpro (TESSLER e DESALES, 2008). Além disso, a comunidade brasileira que a utiliza está em plena expansão, o quepode ser notado pelo aumento na quantidade de mensagens na lista de discussão Pentaho-BR(YAHOO! DO BRASIL INTERNET LTDA., 2010). Em 2009 foram 141 mensagens em média pormês, contra 106,5 em 2008 e apenas 29,17 em 2007. Ela é oficialmente formada por cinco componentes que foram criados separadamente com oobjetivo de solucionar etapas específicas do processo de construção de uma solução de BI. Por isso,também podem ser utilizados individualmente, interagindo com outras ferramentas. Os cinco componentes são:1. Pentaho BI Platform. Contém a infra-estrutura responsável por integrar a solução de BI. Ele oferece serviços essenciais para construir, implantar, executar e dar suporte aos relatórios, análise de cubos, dashboards, etc. Também provê mecanismos de autenticação e controle de acesso.2. Pentaho Data Integration (PDI). Também conhecido por Kettle, esta ferramenta é responsável pelo processo de ETL (Extraction, Transformation and Load ou, em português, Extração, Transformação e Carga).3. Mondrian. É um servidor OLAP que permite analisar interativamente grandes conjuntos de dados armazenados em bancos de dados relacionais.4. Pentaho Reporting. É uma coleção de projetos de código fonte aberto, focados principalmente na criação, produção e publicação do conteúdo de relatórios de forma rica e sofisticada.5. Weka. É um conjunto abrangente de ferramentas para aprendizado de máquina e mineração de dados. Pode ser usada para ajudar a entender melhor o negócio da instituição. Ainda existem outras promissoras ferramentas produzidas pela comunidade SL que nãoforam oficialmente incorporadas à suíte. Entre elas está o Pentaho Analysis Tool (PAT), quepermite fazer consultas OLAP utilizando o recurso arrastar e soltar (drag-and-drop) e o CommunityDashboards Framework (CDF), plugin que provê uma plataforma para a criação de dashboards nasuíte Pentaho (FERREIRA, RAMOS, et al., 2009). A suíte Pentaho BI está disponível em duas versões. A versão Community Edition (CE) temtodo o seu código aberto e é mantida por uma comunidade de voluntários bastante ativos. Ela possuitodas as ferramentas citadas anteriormente. A versão comercial da suíte, a Enterprise Edition, possuiparte de seu código fechado. Ela é mantida pela Pentaho Corporation, organização que fornecesuporte técnico e algumas funcionalidades a mais a seus clientes.3 Arquitetura da Solução A arquitetura da solução de BI proposta para a UFBA é baseada na arquitetura em camadas,definida por (MENOLLI, 2004). A Figura 1 ilustra essa arquitetura, suas camadas e componentes,indicando como a mesma foi implementada e o que foi desenvolvido até o presente momento. Asbases de dados citadas nesta figura referem-se ao UFBADB (base integrada de pessoal da UFBA),SIACDB (base de dados do Sistema Acadêmico) e SIPDB (base de dados do Sistema de Pessoal).
    • Figura 1 - Arquitetura da Solução de BI UFBA As cinco camadas da arquitetura (1 Fonte de Dados, 2- ETL, 3- Área de Estágio, 4- DW e (1- 45- Área de Análise) estão numeradas de acordo com a ordem natural de desenvolvimento de umprojeto de Data Warehouse (DW). A arquitetura prevê a utilização de fontes de dados em diversos .formatos, o que faz com que na camada de ETL sejam descritos dois módulos: um para dados emum formato de referência (que deve ser definido pela gerência do projeto), e outro módulo referente definidoà migração de dados em outros formatos que não o definido como referência. Ambos os tipos dedados serão integrados e incorporados aos Data Marts (DM) através da camada 3. Utilizamos o banco de dados P PostgreSQL nas camadas 1 e 4. As outras ferramentasutilizadas fazem parte da Suíte Pentaho BI. Na camada 2 utilizamos a ferramenta Pentaho DataIntegration. E, para a camada 5, foram utilizadas as ferramentas Pentaho User Console, Report . ferramentasDesigner e Schema-Workbench. Os itens destacados em amarelo correspondem ao que foi .desenvolvido inicialmente: o processo de ETL do UFBDB, a carga dos dados no DM, e algumas :análises. Com o objetivo de diminuir o escopo do projeto da disciplina, apenas a fonte de dados ,UFBADB foi utilizada, devido a limitações de tempo impostas pelo período de aulas da disciplina períodona qual o projeto foi realizado. Com as bolsas obtidas, pôde ser dado continuidade aos trabalhosdesenvolvidos. Os próximos passos concentram-se em integrar, ao DM inicial, os dados dos s concentram inicialvestibulandos da UFBA e os dados de produção acadêmica dos docentes da Universidade. A arquitetura em camadas foi escolhida devido à previsibilidade do uso de bases de dadosem formatos distintos e a independência existente entre as camadas. Isto pode ser bastante útil naincorporação de bases como a do Lattes, e mails, arquivos textos e outros documentos. O que e-mails,acontece na camada inferior é transparente para a camada superior. Deste modo, alterações podem modoser realizadas nas camadas inferiores, desde que seja mantida a forma como os dados são fornecidos dadosàs camadas superiores (MENOLLI, 2004) 2004).
    • A escassez de documentação e a falta de conhecimento sobre as ferramentas demandaramum grande esforço por parte dos alunos da disciplina e até mesmo da equipe do projeto Permanecer,apesar do manual da suíte Pentaho elaborado durante a disciplina. As maiores dificuldades foram encontradas na etapa de ETL, devido à grande variedade deopções e o desconhecimento da ferramenta Kettle. Também foi observado que a análise do cubodeveria ter um apelo visual mais forte e uma melhor usabilidade. Ela deve ser fácil de manusear,pois os seus usuários são analistas de negócio. A ferramenta responsável pela interface gráfica quepermite a navegação OLAP é o JPivot1. Ela está bastante defasada e é considerada um ponto fracoda suíte. Por isso, será substituída pelo PAT em breve (FERREIRA, RAMOS, et al., 2009).4 Modelagem Dimensional O modelo conceitual do UFBADB, cedido pelo CPD-UFBA, foi analisado para que fossepossível gerar um modelo dimensional correspondente. Para isso, foi experimentado o uso dametodologia proposta por (MOODY e KORTINK, 2000). O modelo dimensional gerado estádescrito na Figura 2. Essa metodologia indica os passos a serem seguidos para criar modelosdimensionais a partir de modelos entidade-relacionamento (ER). Figura 2 - Modelo Dimensional do UFBADB Segundo o modelo gerado, a tabela fato (fato_pef_pessoa_fisica) descreve a quantidade depessoas de acordo com os dados armazenados nas tabelas dimensões. As tabelas dimensõesrelacionadas a essa tabela fato são dim_end_endereco, dim_tvn_tipo_vinculo, dim_cor_cor,dim_etn_etnia, dim_sex_sexo, dim_eci_estado_civil, dim_gsg_grupo_sanguineo,dim_esc_escolaridade, dim_tmp_tempo e dim_end_endereco_nascimento.1 http://jpivot.sourceforge.net/
    • Esse modelo foi gerado a partir da limpeza de várias tabelas e dados, avaliados comodesnecessários ao modelo dimensional. Como foram utilizados dados reais, algumas informaçõestambém foram excluídas para manter a confidencialidade. Foram utilizados os operadores deAgregação e Colapso de Hierarquia (MOODY e KORTINK, 2000) para geração das dimensões quecaracterizam a tabela fato. Através da metodologia de derivação de modelos utilizada, pôde-se chegar a um modelointermediário, em que alguns problemas tiveram de ser analisados com mais rigor pela equipe doprojeto. Primeiro, verificou-se que as dimensões dim_end_endereco edim_end_endereco_nascimento causariam uma duplicação desnecessária dos dados, pois adimensão dim_end_endereco pode ser caracterizada como uma dimensão com múltiplos papéis.Deste modo, a dimensão dim_end_endereco_nascimento foi fisicamente eliminada e a tratamoscomo uma dimensão lógica, implementada através de uma visão (view), gerada a partir da dimensãodim_end_endereco. Nessa visão, foi eliminado o atributo bairro, que não é considerado necessáriopara as consultas relacionadas ao endereço de nascimento da pessoa. Segundo, o modelo ER do UFBADB possui relacionamentos n X m ao tratar dos vínculosde funcionários. Neste modelo, uma mesma pessoa pode ter o vínculo de Aluno, Docente, ProfessorSubstituto, Professor Visitante e outros. Tal fato é descrito por (KIMBALL, REEVES, et al., 1998)como um problema de modelagem dimensional. Para resolvê-lo, foi necessário criar uma dimensãocom uma coluna para cada tipo de vínculo. Essa modelagem contempla todas as análises baseadasno vínculo. Mas ela não é recomendada caso a quantidade de tipos (vínculos, neste caso) sejagrande ou cresça muito com o tempo.5 O Projeto BI Após os Trabalhos da Disciplina Como já citado, após as atividades da disciplina "Tópicos em Banco de Dados" no semestre2009.2, o CPD-UFBA conseguiu duas bolsas através do projeto de ações Afirmativas - PermanecerUFBA. Deste modo pôde-se dar continuidade ao trabalho realizado no UFBADB pela equipe dadisciplina. O plano de ação inicial deste projeto constituiu-se em colocar em funcionamento toda asolução criada pelos alunos da disciplina dentro do CPD, para que a mesma pudesse ser avaliada,criticada e melhorada. Foi constatado pelos bolsistas que o processo de ETL necessitava serrefatorado para que novas cargas de dados pudessem ser realizadas. E, além disso, o mesmo deveriaser revisado de modo a avaliar a qualidade dos dados gerados nas consultas OLAP. A equipe do projeto Permanecer também têm explorado o uso de relatórios e dashboards noPentaho, assim como a criação de modelos de metadados, o que não foi explorado anteriormentedevido ao curto prazo da disciplina. Outro ponto importante é a realização da customização daferramenta, de modo a atender os padrões gráficos dos sistemas da UFBA e dos relatóriosdisponibilizados pelas aplicações existentes. Espera-se com o término dos trabalhos do UFBADB, que dois outros DM sejam criados eintegrados a solução inicial. Um para que os dados dos vestibulandos da universidade possam seranalisados, principalmente os referentes ao questionário sócio-econômico e o outro para armazenaros dados referentes às publicações acadêmicas da Universidade. Neste último caso deverão serutilizadas informações advindas da plataforma Lattes, em cruzamento com os dados do SistemaAcadêmico, Sistema de Pessoal e ao próprio UFBADB. Falta apenas a definição de como a solução desenvolvida poderá ser implantada nauniversidade de modo que os gestores possam ter acesso a mesma. Além disso, é necessário aespecificação de uma rotina rigorosa de testes para validar os dados que estão sendo gerados nas
    • consultas, pois é de crucial importância que estes dados estejam corretos e sejam confiáveis para ouso pelos gestores da instituição. Além do trabalho de desenvolvimento no Pentaho, a equipe do projeto Permanecer temtrabalhado na melhoria do manual da ferramenta, criado pelas equipes da disciplina. Isso possibilitaque o conhecimento adquirido possa ser facilmente repassado a outras pessoas que entrem noprojeto ajudando na fase inicial de aprendizado. Na Figura 3 e na Figura 4, apresentamos um exemplo de consulta OLAP gerada, relativa aosdados de docente e cor a partir do UFBADB. Figura 3 - Exemplo de Consulta OLAP
    • Figura 4 - Exemplo de Gráfico Gerado para a Consulta OLAP6 Conclusões e Trabalhos Futuros O Software Livre tem vantagens e desvantagens se comparado ao similar de código fechado.As desvantagens relacionadas à documentação são reduzidas com a disseminação do software, poisos próprios usuários começam a ter iniciativas como a dos alunos da disciplina, passando a criarmanuais e blogs e a participar de fóruns e listas de discussão sobre o mesmo. No Brasil e no mundo,o crescimento da quantidade de usuários da Suíte Pentaho BI tem contribuído para o aumento dasua documentação. Esta experiência mostrou que, apesar do esforço inicial requerido para conhecer a suíte, elapossui uma boa relação custo-benefício. Pode ser adquirida gratuitamente e é consideradaatualmente como alternativa viável para uma solução de BI. A equipe de desenvolvedores damesma está bastante ativa e já existem iniciativas para superar suas principais deficiências, como éo caso da substituição do JPivot. A suíte está madura e pode ser utilizada como uma alternativa para organizações que, apesarde ter um orçamento reduzido, desejam adotar uma solução de BI para apoiar seu processo detomada de decisões e geração de relatórios. O esforço dos seus desenvolvedores a consolidou comoprincipal alternativa livre para BI. Pode-se então avaliar, através deste artigo que a suíte Pentaho constitui-se como uma boaopção de ferramenta para o desenvolvimento de soluções de BI nas instituições federais de ensinosuperior (IFES). Além disso, se outras instituições aderirem ao uso, pode se formar uma rede decolaboração em torno desta tecnologia, o que facilitará ainda mais o desenvolvimento de soluções,melhoria da ferramenta, geração de conhecimento e documentação. Espera-se que ao fim do projeto Permanecer o CPD-UFBA consiga recursos suficientes paracontinuar o andamento dos trabalhos e que outros trabalhos de parceria entre o DCC e o CPD-UFBA possam ser realizados, em torno do projeto BI UFBA e outros projetos de importância para oCPD.
    • Referências BibliográficasFERREIRA, M. et al. Plataforma Pentaho de Business: Manual de utilização. UFBA. Salvador.2009. Disponível em https://disciplinas.dcc.ufba.br/pub/MATB10/NotasDeAula/Pentaho_3_5.pdf.Acessado em 05/02/2010.KIMBALL, R. et al. The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing,Developing and Deploying Data Warehouses. New York, NY, USA: Wiley, 1998.KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: The Complete Guide to DimensionalModeling. 2ª Edição. ed. New York, NY, USA: Wiley, 2002.MENOLLI, A. Definição de uma Arquitetura de Data Warehousing para Gestão em Ciência eTecnologia no Brasil, 2004. Disponivel em:<http://www.din.uem.br/~mmdias/pesquisa/Andre_dissertacao.pdf>. Dissertação (Mestrado emCiência da Computação) - Universidade Estadual de Maringá, Conselho Nacional deDesenvolvimento Científico e Tecnológico.MOODY, D. L.; KORTINK, M. A. R. From Enterprise Models to Dimensional Models:AMethodology for Data Warehouse and Data Mart Design. Proceedings of the InternationalWorkshop on Design and Management of Data Warehouses (DMDW2000), Estocolmo,Suécia, Junho 2000.PENTAHO CORPORATION. Customer Successes. Open Source Business Intelligence - OpenSource Reporting, ETL & Data Integration and OLAP | Pentaho, 2010. Disponivel em:<http://www.pentaho.com/about/customers/>. Acesso em: 11 jan. 2010.PETRINI, M.; FREITAS, M. T.; POZZEBON, M. Inteligência de Negócios ou InteligênciaCompetitiva? Noivo Neurótico, Noiva Nervosa. EnANPAD, Salvador, BA, Setembro 2006.SALVADOR, H.; ARAÚJO, C.; VIEIRA, V. Um Banco de Dados Único para os SistemasCorporativos, Salvador. Disponivel em:<https://disciplinas.dcc.ufba.br/pub/MATB10/NotasDeAula/Artigo_UFBADB.pdf>. Acesso em: 29jan. 2009.TESSLER, G.; DE SALES, F. Inteligência de negócios com software livre, 2008. Disponivel em:<http://www.serpro.gov.br/imprensa/publicacoes/tematec/2008/tematec-ano-x-no-xx-2008/tematec%202%20-%20ano%20x%20-%20n%20xx%20-%202008>. Acesso em: 20 fev. 2010.SERPRO.YAHOO! DO BRASIL INTERNET LTDA. Pentaho Brasil. Yahoo! Grupos, 2010. Disponivel em:<http://br.groups.yahoo.com/group/pentahobr/>. Acesso em: 14 out. 2009.