Your SlideShare is downloading. ×
Sino
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
315
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Projeto 2 SINOMestrado em Engenharia e Gestão de Sistemas de Informação Sistemas para Inteligência do Negócio e das Organizações 1º ano/1ºsemestre [Construção de BI]
  • 2. Índice1. Introdução ............................................................................................................................. 22. Modelação da previsão do income (SAS) .............................................................................. 23. Ferramenta SpagoBI .............................................................................................................. 44. Ferramenta Pentaho ............................................................................................................. 65. Modelo-multidimensional ................................................................................................... 126. Análise dos dados - Pentaho ............................................................................................... 15 Iteractive Report ..................................................................................................................... 15 Analyzer Report ....................................................................................................................... 18 Dashboard ............................................................................................................................... 247. Análise dos dados - SQL Server Business Intelligence Development Studio ....................... 27 Criação dos Cubos OLAP ......................................................................................................... 28 Análise dos dados ................................................................................................................... 34 Reports .................................................................................................................................... 398. Conclusão ............................................................................................................................ 44 Resultados ............................................................................................................................... 44 Limitações ............................................................................................................................... 449. Referências .......................................................................................................................... 4510. Anexos ............................................................................................................................. 46 1 Página
  • 3. 1. Introdução No âmbito da disciplina de Sistemas para a Inteligência do Negócio e Organizações foifornecido, pelos docentes, um dataset (livro de MSExcel) de uma determinada organização e depoisgerar/induzir um modelo de previsão do Income na ferramenta SAS Enterprise Miner com base nomelhor modelo obtido no projecto anterior, gerou-se recorrendo à ferramenta Pentaho BI Suite,análises, reports e dashboards respondendo assim a algumas questões delineadas anteriormente. Os dados de estudo são referentes a membros de uma determinada população que umaorganização de estudos estatísticos realizou. Através desses dados o grupo pretende extrair informaçãoútil de modo a identificar e compreender o tipo de negócio em causa, assim como, explorar os dadospara tomadas de decisão a nível operacional, táctico e estratégico. Neste caso, o nível estratégico será omais explorado onde as decisões estratégicas são as mais relevantes para o negócio em questão.Pretende-se compreender, identificar, preparar e modelar os dados relevantes para o suporte àsdecisões da gestão, facilitando relatórios em tempo útil e com a informação necessária para umacorrecta tomada de decisão. A ferramenta utilizada inicialmente foi o SpagoBI que tecnicamente se tornou de difícilconfiguração e atrasou definitivamente o projecto. Optou-se então por outra ferramenta, o Pentaho BISuite, que a nível de configurações se mostrou mais acessível e em termos de utilização efuncionalidades revelou-se mais útil e intuitiva. A estrutura do relatório será a seguinte: - Introdução; - Modelação da previsão do income (SAS); - Ferramenta SpagoBI; - Ferramenta Pentaho; - Modelo-multidimensional; - Analise dos indicadores, Dashboards, Reports; - Conclusões. 2. Modelação da previsão do income (SAS) Na construção do modelo de previsão de income foram utilizados os componentes e as suasrespectivas configurações do melhor modelo do primeiro projecto para a disciplina de sistemas para ainteligência do negócio das organizações (SINO) e o componente Score e Insight. O modelo é constituídopelos nós Input Data Source, Data Partition, Regression, Tree, Neuronal Network, Assessment eReporter, Score, Insight como ilustra a próxima imagem. 2 PáginaFigura 1 - Modelo de previsão income.
  • 4. A próxima tabela apresenta o melhor resultado modelo do primeiro projecto. Algoritmos Previsão % Teste Prev. Total Prev. Errados Conf. Modelo Redes Neuronais Income Valid. 30 10826 1880 82,63% (iteração 12) Teste 30 10826 1872 82,71%Tabela 1 - Melhor resultado. A próxima tabela apresenta o papel de cada componente no modelo de previsão de income. Componente Razão/conclusão Work.Censos foi utilizado para carregar o dataset preparado do primeiro projecto. Work.Censos2 foi utilizado para carregar os dados do dataset disponibilizado pelos docentes, onde os valores de income são desconhecidos. O próprio SAS Enterprise Miner disponibiliza vários meios para testar a qualidade e a validade do modelo assim como fornece métricas de qualidade. Para separar o dataset num conjunto de treino, validação e teste foi utilizado o nó Data Partition. Como o objectivo do modelo de Data Mining construído é a previsão de income, a técnica, redes neuronais, é uma boa escolha uma vez que os resultados do modelo são mais importantes do que propriamente a compreensão de como este modelo trabalha; Este nó fornece uma framework para comparar modelos e previsões, a comparação é baseada nos benefícios/perdas actuais e esperadas que vão resultar da implementação do modelo. Teve pouco impacto nesta fase. O Reporter disponibiliza as matrizes de validação e de teste para identificar, entre outras métricas, a acuidade, sensibilidade, especificidade e cobertura de cada modelo. Teve pouco impacto nesta fase. Permite gerar valores de previsão de um modelo de treino. Este componente foi útil para explorar os resultados da previsão e converter os mesmos para Excel.Tabela 2 - Componentes da modelo. A próxima imagem apresenta os resultados da previsão e como se converte os resultados paraExcel. 3 Página
  • 5. Figura 2 - Resultado da previsão. Após a execução a obtenção dos resultados de previsão, estes podem ser utilizados pelasferramentas de business intelligence (spagobi, pentaho e development studio). 3. Ferramenta SpagoBI SpagoBI é uma solução Business Inteligence, totalmente gratuita e desenvolvida pela SpagoWorld,fundada e apoiada pela Engineering Group. Com o SpagoBI é possível desenvolver projetos BI em ambientes integrados. Cobre todo o gamade necessidades analíticas: emissão derelatórios estáticos, análise dinâmica emultidimensional, procura de informaçõesescondidas através de técnicas DataMining emonitorização do desempenho da empresaatravés de quadros.SpagoBI é composto pelos seguintes módulosprincipais: 4 Página
  • 6. Neste projeto foram utilizados os seguintes módulos:  SpagoBI Meta: Ambiente focalizado na chamada de meta dados;Este módulo oferece uma ferramenta de apoio à base de dados, através do qual os utilizadores definemobjetivos simples e complexos para ser usado dentro da plataforma por ferramentas de análise. Estemódulo também enriquece a base de conhecimento dos meta dados do SpagoBI Server, para que possafacilmente ser consultado através das ferramentas disponíveis, tais como Reports, OLAP e QbE.  SpagoBI Server: Analytical Engine (AE) plataforma de BI que oferece todas as funcionalidades principais e de análise. Este é o módulo principal da suite. o O Analytical Model é o núcleo principal do SpagoBI Server, e cobre todas a gama de necessidades analíticas, fornecendo muitas soluções para cada área analítica. o O Behavioural Model (BM) regula a visibilidade sobre os documentos e dados de acordo com os papéis dos utilizadores finais. 5 Página
  • 7. o A Administration Tools serve de suporte a desenvolvedores, (testers) testadores e administradores no seu trabalho diário, promovendo várias funcionalidades. o O Cross Services inclui as funcionalidades comuns da plataforma que podem ser usadas em todas as áreas analíticas. 4. Ferramenta Pentaho O Pentaho BI Suite engloba as melhores capacidades open-source de Business Intelligence comsoftware e serviços adicionais concebidos para ajudar a organização a: - Atingir sucesso BI - Poupar tempo, recursos e dinheiro - Mitigar o risco Existe uma evidência muito grande entre os profissionais TI, consultores e analistas industriaisque o sucesso ou falha nos projectos BI está frequentemente mais relacionado com problemas de“pessoas e processos” do que com a tecnologia. Fraco planeamento, falta de comprometimento,recursos inadequados ou falta de competências e incapacidade de responder com resultados de formarápida podem ameaçar o sucesso de um projecto BI independentemente da tecnologia seleccionada eutilizada. Não é segredo que a maioria dos projectos de Data Warehousing, migração e análise de dadossão caros, têm grandes ciclos de implementação e altos riscos de falha, surgindo o conceito de Agile BIque redefine a forma como os projectos BI são construídos e implementados, tendo neste caso oPentaho unificado os processos de ETL, modelação e visualização num só ambiente de desenvolvimentopara desenvolver e implementar projectos de Business Intelligence. Este conceito de Agile BI define: - Competências instantâneas, desenvolvimento de aplicações BI interactivas - Permite perfeita colaboração entre os programadores e os utilizadores finais 6 - Junta o complexo desenvolvimento BI num único processo Página - Reduz o tempo e a dificuldade de construir ou implementar aplicações BI
  • 8. - Combina a força do rápido desenvolvimento de aplicações BI com a fase ETL para asnecessidades de integração complexa de dados. Figura 3 - Modelação Metadata, ETL, Visualização – Pentaho BI Suite Relativamente à arquitectura tecnológica, a figura abaixo mostra a relação entre os maiorescomponentes do BI Server e as suas interfaces com o mundo exterior. Pode-se referir que o coração doserver é o Solution Engine, pois é o ponto central para a actividade na plataforma Pentaho BI. Encontra-se entre o mundo exterior – Web Client, Services, System Monitor, etc e a camada de componentes daplataforma. 7 Página
  • 9. Figura 4 - Infra-estrutura tecnológica A Pentaho Open Source BI Suite é uma solução flexível e personalizável para adaptação eimplementação BI em diferentes tipos de empresas e negócios, incluindo as seguintes áreas de BI: - Relatórios - Análises de Informações (OLAP) - Painéis de Controlo (Dashboards) - Mineração de Dados (Data Mining) - Integração de Dados A arquitectura tecnológica referida acima é implementada como serviços onde os mesmos sãoexpostos via AJAX e Web Services, onde a plataforma de BI se define e executa regras de negócio,apresentação de conteúdo, pontos de integração para aplicações e portais, processo de gestão,integração e segurança centralizada. 8 Página
  • 10. Figura 5 - Plataforma BI Relativamente ao serviço Pentaho Reporting, é permitido a acesso a formato de dados dediferentes fontes, tais como, RDBMS (Relational Database Management System), XML e OLAP,permitindo também vários tipos de relatório, nomeadamente, relatórios operacionais, analíticos efinanceiros. O acesso pode ser directamente à fonte de dados ou à camada de metadados definida ecentralizada. As principais vantagens do serviço Pentaho Reporting é o design flexível de relatórios,tendo como características de aceder a bases relacionais, OLAP ou XML, ocultar objectos do relatório deforma condicional e é multi-plataforma (cliente e servidor). Figura 6 - Serviço Reporting 9 Página Em relação ao serviço Pentaho Analysis, este serviço possui uma arquitectura “ROLAP” etrabalha com as mais conhecidas bases de dados proprietárias e open source, possui visualização de
  • 11. dados de forma “dimensional”, por exemplo, vendas por região, por canal de vendas, por período, etc.Relativamente à navegação e exploração de dados, é permitido executar análises Ad Hoc, fazer “Drill-down”do ano para o quartil, seleccionar membros específicos para análise e possui um Front-End Webou Excel. As vantagens do serviço Pentaho Analysis são a arquitectura baseada em padrões possuindorecuperação de dados baseado em comandos SQL, análises interactivas com acesso via Web ou Excel,desempenho e escalabilidade com suporte a tabelas agregadas e utilização do Aggregation Designerpara auxiliar na construção das tabelas agregadas e integração com o Pentaho Open Source BI Suitecaracterizando-se pela auditoria abrangente das actividades do utilizador, de desempenho e de acessoaos dados, segurança integrada, alertas, integração e metadados. Figura 7 - Gerar Reports para posterior análise O serviço Pentaho Dashboards possui uma forte integração de processos de negócio podendoreceber eventos de sistemas externos ou despoletar eventos em sistemas externos. Uma das mais-valiasé a integração com o Pentaho Open Source BI Suite englobando um “Dril-down” sensível a contexto pararelatórios ou análises OLAP e a arquitectura moderna e baseada em padrões onde todos oscomponentes são expostos como webservices. As vantagens do serviço Petanho Dashboards são várias,entre elas, a grande variedade de componentes visuais, filtos baseados em papéis ou assuntos, “Drill-down” para relatórios detalhados, análises OLAP ou outros dashboards e integração com Google Mapspara localização inteligente. 10 Página
  • 12. Figura 8 - Serviço Dashboards Outro dos serviços disponíveis é o Pentaho Data Integration que possui um extenso conjuntode recursos com um excelente desempenho e escalabilidade e com um amplo suporte de base dedados. Este serviço está 100% orientado aos metadados e ao nível da maturidade é um produto de 4ªgeração. As várias vantagens deste serviço são a abordagem orientada a metadados onde se podemfazer transformações complexas, sem escrever uma única linha de código sendo 100% java, ou seja,multi-plataforma. Possui uma gestão estruturada de modelos, conexões e logs num repositório na basede dados e tem facilidade para reutilização de consultas e transformações. O Pentaho Data Integration éuma ferramenta ETL completa, com mais 60 objectos de mapeamento pré-concebido, suporte para asfontes de dados mais comuns, incluindo os RDBMS’s líderes de mercado e uma variedade de formatos“flat file”. Contém um suporte avançado para Data Warehouse, para as dimensões do tipo “Junk” e“Slowly Changing Dimensions”. 11 Página Figura 9 - Pentaho Data Integration e perspectiva da estratégia de negócio
  • 13. Sendo uma tecnologia Open Source, tem inovações que ocorrem de forma mais rápida, com umcusto mais baixo, com tecnologia projectada para o BI operacional e SOA (Service Oriented Architecture),utilizando as tecnologias mais recentes. Encerra também uma grande abrangência pois para além derelatórios possui também análises OLAP, dashboards e técnicas de data mining. 5. Modelo-multidimensional A estratégia para iniciar a concepção do modelo multidimensional teve por base o datasetfornecido pelos docentes. Desta forma tenta-se perceber que tipo de tabelas de factos e dimensões irãoser criadas para responder de forma directa às necessidades da gestão e de modo a optimizar odesempenho no processamento dessas necessidades. Figura 10 – Esquema do modelo multidimensional De modo a dar resposta às necessidades da gestão, foi concebida a estrutura do sistema deData Warehousing através da implementação do esquema em estrela, Figura 10, no qual integramos atabela de factos, que partilham dimensões comuns. A tabela de facto corresponde às componentes de negócio que pretendemos analisar. Estastabelas são constituídas por um conjunto de atributos numéricos, factos, analisáveis através de funçõesestatísticas e por um conjunto de chaves estrangeiras que permitem a relação entre a tabela de factos e 12as várias dimensões que lhe estão associadas. Estas tabelas contêm uma grande quantidade de registos. Página Já as tabelas de dimensões vão-nos possibilitar a análise da tabela de factos a que estas estãorelacionadas sob diferentes perspectivas, tais como: qual o pais de origem, que escolaridade, qual
  • 14. ocupação, entre outras. Estas tabelas contêm poucos registos quando comparadas com as tabelas de factos. Foram criadas 5 dimensões, DimTrabalho, DimLocalizacao, DimIdentificacao, DimIdade e DimEscolaridade e a tabela de factos, TbFactosIncome através dos dados contidos no dataset. Tabela Facto Income CapitalG ain Bin_Inco CapitalLo me<=50 ss Bin_Inco Income me>50 Hours_p er_week Empresti mo Resultad oCapital Tabela A. 1 – Descrição dos atributos da tabela de factos Income.Nome do facto Observações AgregaçãoIDEscolaridade Chave primária em DimEscolaridadeIDIdade Chave primária em DimIdadeIDIdentificacao Chave primária em DimIdentificacaoIDLocalizacao Chave primária em DimLocalizacaoIDTrabalho Chave primária em DimTrabalhoCapitalGain Total capital ganho. SomaCapitalLoss Total do volume de vendas SomaHours_per_week Total de horas de trabalho semanais. Soma Facto não aditivo, criado através da subtracção de capitalGain com capitalLoss,ResultadoCapital admitindo que este atributo indica o montante de liquidez que a pessoa Soma necessita Facto não aditivo, obtido através da condição: se ResultadoCapital < 0 então aEmprestimo Soma pessoa necessita de empréstimoBin_Income>50 Número de pessoas com income superior a 50k. SomaBin_Income<=50 Número de pessoas com income inferior ou igual a 50k. SomaElemento Número de pessoas. Soma 13 Página Dimensão Trabalho
  • 15. ClasseTrab ClasseH Ocupacao orasPor IDTrabalho Tabela B. – Descrição dos atributos da dimensão TrabalhoNome do atributo Observações TipoIDTrabalho Chave primária da tabela intClasseTrabalho Classificação segundo o trabalho Nvarchar(50)ClasseHorasPorSemana Classificação da escala de horas de Trabalho Nvarchar(50)Ocupacao Classificação segundo a ocupação Nvarchar(50) Dimensão Localização Continente Pais Pais IDLocalizacao Tabela C. – Descrição dos atributos da dimensão LocalizaçãoNome do atributo Observações TipoIDLocalizacao Chave primária da tabela intContinente Criado a partir da associação ao país Nvarchar(50)Pais Pais de origem Nvarchar(50) Dimensão Identificação Relacao IDIdentificacao Raca Sexo EstadoCivil 14 Página
  • 16. Tabela D. – Descrição dos atributos da dimensão Identificação Nome do atributo Observações Tipo IDIdentificacao Chave primária da tabela int Relacao Classificação segundo a relação Nvarchar(50) Raca Classificação segundo a raça Nvarchar(50) Sexo Classificação segundo a genero Nvarchar(50) EstadoCivil Classificação segundo a estado civil Nvarchar(50) Dimensão Idade ClasseIdade IDIdade Descricao ClasseIda Tabela E. – Descrição dos atributos da dimensão Idade Nome do atributo Observações Tipo IDIdade Chave primária da tabela int ClasseIdade Classificação segundo grupos etários Nvarchar(50) DescricaoClasseIdade Descrição dos grupos etários Nvarchar(50) Dimensão Escolaridade EL IDEscolaridade ELDescription Tabela F. – Descrição dos atributos da dimensão EscolaridadeNome do atributo Observações TipoIDEscolaridade Chave primária da tabela intEducationLevel Escala de níveis de escolaridade vigente na Europa Nvarchar(50)EducationLevelDescription Descrição da escala Nvarchar(50) 6. Análise dos dados - Pentaho Iteractive Report É usado para responder a questões que ocorrem numa base regular. A quem, o quê, onde e quando. Sendo as perguntas mais comuns de negócios que podem necessitar de respostas de imediato. Quais são os melhores desempenhos desta semana? Qual campanha de marketing foi a mais 15 efetiva para 2010? Eles permitem executar, recuperar e analisar o resultado, mas com pouca flexibilidade na saída do relatório em si. O relatório é habitualmente exibido em HTML, PDF ou um Página formato Excel, podendo ser impresso e é por natureza estático.
  • 17. Características: - Nível de dificuldade mínimo para os utilizadores na interação e execução. - Não é necessário nenhum treino para os utilizadores para executarem e compreenderem; - Criar resumos e relatórios com níveis de detalhe e conecta-los através de passagem de parâmetros via hiperligação ou expressões de estilo; - Podem ter parâmetros adicionais adicionados, se necessário, para alterar a estrutura do relatório, bem como filtros; - Pode ser enviado por email ou distribuído de diferentes meios. - Normalmente, a estrutura do relatório é relativamente inalterado mas pode ser dinâmico; Serão analisados alguns Iteractive Report, sendo que apenas excertos se encontram na análise.Em anexo podem ser encontrados completos.Iteractive Report 1 Este Iteractive Report está divido em classes de idade, tendo associado a cada uma delas asclasses do nível educacional. Sendo estas as classes e subclasses, têm associado o income, continente(filtrado apenas para análise da Europa) e raça obtendo-se com os elementos, o número de casos emque estes acontecem. Podemos concluir, por exemplo, que na classe de idade mais jovem, na Europa e com nível 2 deescolaridade, apenas existe um elemento de raça branca a ganhar <=50k. 16 Página
  • 18. Iteractive Report 2 É possível fazer várias conjugações de dados obtendo-se os dados necessários para tomada dedecisões de negócio. Com este Report é analisado por Income, o número de elementos com baixo níveleducacional, associando a ele a classe de idade e continente de origem. Com baixo nível educacional (Level0 a Level3) existem 8709 indivíduos, sendo possível observarem que associação é mais incidente. Por exemplo, com income <=50k existem 281 indivíduos com nível educacional 3 na classe deidade mais alta oriundos da América do Norte.Iteractive Report 3 17 Página
  • 19. Esta análise agrupa pelo income e filtra por nível educacional elevado os elementosexistentes na associação destes com o continente e classe de idades. É possível verificar que maisde metade dos indivíduos possuem nível educacional elevado e que é nas classes de idade maisjovens que se encontra a maioria de inquiridos que ganham <=50k com um nível educacionalelevado (Level4 a Level6).Analyzer Report O Pentaho Analyzer Report ajuda a operar com a máxima eficácia ganhando as percepções ecompreensão necessária para tomar as decisões corretas. Os serviços do Pentaho Analysis permitemanalisar dados iterativamente através dos datawarehouses, fornecendo tabelas de referência cruzadacom diferentes dimensões.  O Pentaho Analysis oferece as seguintes funcionalidades: - Pentaho user-console web interface; - Interface de visualização em tempo real; - Uma programação complexa do sub-sistema; - Uma capacidade de enviar email de uma análise publicada para outros utilizadores; - Capacidade de criar esquemas de análise complexas; - Capacidade de melhorar o desempenho do cubo ROLAP com designer de agregação.  Características: - Arrastar e soltar os analytical reporting; - Ordenar, preencher e perfurar os dados dinamicamente; - Ver gráficos; - Exportar dados para MSExcel; - Personalizar totais e cálculos definidos pelo utilizador; - Classificação e filtragem avançada; - Adicionar Iteractive Reports para o Dashboard; - Guardar e compartilhar relatórios. São apresentados excertos dos Analyser Report para proceder a uma análise, sendo que seencontram completos em anexo.Analyzer Report 1 18 Página
  • 20. Através da construção da tabela onde são associados os dados para análise é criadoautomaticamente o gráfico. Neste caso pode ser analisada a percentagem de elementos associado aonível educacional, raça e income. Por exemplo, para a raça branca e ganhando <=50k o nível educacionalmais presente é o nível 3, já para a raça branca a ganhar >50k existem em maioria, com percentagenspróximas, indivíduos com nível de escolaridade 6 e 4. Outra analise que pode ser feita é a de verificarquem tem maior/menor nível de escolaridade. O nível 6 encontra-se, sobretudo, associado a quemganha mais de 50k.Analyzer Report 2 19 Página Esta analise mostra a associação do continente de origem com o nível educacional, cruzando-oscom o income obtendo assim a elementos associados nesse cruzamento de dados. Verifica-se com esta
  • 21. análise, por exemplo, que os naturais da América do Norte, todos os que têm nível 6 de escolaridadeganham >50k e que com os Europeus existem elementos a ganhar este valor possuindo qualquer nívelde escolaridade.Analyzer Report 3 Nesta análise é possível perceber qual a classe de idade associado ao nível educacional eincome que mais elementos possui. Com o nível 6 de escolaridade, por exemplo, encontram-se apenasindivíduos com idade compreendida entre os 26 e 65 anos. Mais de 7000 elementos encontram-seinseridos no Level3 a ganhar menos de 50k e a ganhar mais de 50k possuindo o Level5 estão inseridoscerta de 3000 indivíduos. 20Analyzer Report 4 Página
  • 22. Esta análise mostra o cruzamento entre a classe deidade, raça e income, obtendo-se o número de elementosassociado a esse cruzamento de dados. Podemos verificar que aclasse de idade dos 26 aos 45 anos é a que possui maiselementos a ganhar tanto <=50k como >50k sendo que a raçaassociada é a branca. Esta é a classe de idade que inclui maisindivíduos. A raça branca da classe mais jovem é a que possuimaior discrepância no número de indivíduos que ganha mais oumenos de 50k. 21 Página
  • 23. Analyzer Report 5 Com este Analyzer Report é possível observar os resultados dos cruzamentos da classe deidades e income, com as raças e a naturalidade dos habitantes. Podemos atestar que, por exemplo, noshabitantes da América do Sul apenas estão presentes três raças: Amer-Indian-Eskimi, Other e White,sendo que deste a maioria está presente na classe dos 26-45 anos, ganham menos de 50k e são de raçabranca. 22 Página
  • 24. Analyzer Report 6 Com esta ferramenta é possível classificar os dados automaticamente através da escolharespectiva de tipo de classificação. Na tabela desta análise é possível observar a associação de cores aosvalores dados, quando melhor o valor mais verde é, quando pior, mais se aproxima do vermelho. Além 23da classificação por cores também é possível utilizar o preenchimento da célula conforme o valor damesma, tal como também é apresentado nesta análise. Página
  • 25. São apresentados aqui os valores de capital ganho, perdido, respetivas percentagens ediferença de capital em percentagem. Isto associado à classe de idade e nível educacional. A maiorvariação de capital encontra-se associada aos níveis 3, 4 e 5 de escolaridade.Dashboard Os Dashboards fornecerem uma visão imediata do desempenho individual, departamental ouempresarial. Ao oferecer métricas-chave com uma interface atraente, intuitiva e visual, os painéisoferecem aos utilizadores de negócios as informações críticas que precisam para entender e melhorar odesempenho organizacional.Dashboards Pentaho proporcionam essa visibilidade, fornecendo:  Abrangentes capacidades de gestão de métricas que permitam a definição e acompanhamento de métricas críticas para o indivíduo, departamento ou nível da empresa;  Ricas e interativas apresentações visuais para que os utilizadores empresariais podem ver imediatamente quais métricas de negócios estão no caminho certo e as que precisam de atenção;  Integração com Pentaho Reporting e Analyser Pentaho para que os utilizadores podem perfurar para relatórios e análise subjacentes para entender quais os fatores que estão a contribuir para o bom ou mau desempenho;  Portal de integração para tornar mais fácil entregar métricas de negócios relevantes para um grande número de utilizadores, perfeitamente integrado na sua aplicação;  Alerta Integrado para monitorar continuamente exceções e notificar os utilizadores a tomar medidas.Dashboard 1 24 Página
  • 26. Com este Dashboard é possível fazer análises alterando os filtros para analisar assim várioscasos em diferentes perspectivas. Neste caso são estudados os cruzamentos entre os continentes e oincome, o nível educacional e o income, e o nível educacional com a nacionalidade. Estes gráficos têmfiltros e a tabela associados. É possível verificar, por exemplo, que os Europeus ganham, na sua maioriamenos de 50k e que estes têm na maioria o nível 3 de escolaridade. Com o nível 6 de escolaridade, agrande maioria mais de 50k.Dashboard 2 Este dashboard mostra a associação entre o income e a classe de idade, o nível educacional, ocontinente de naturalidade e a raça. Em qualquer dos casos a classe de idade entre os 26 e os 45 são osmais ganham. Os que possuem nível 3 de escolaridade são os que mais elementos têm a ganhar menosde 50k. Os com nível 5 são os que ganham mais de 50k. 25 Página
  • 27. Dashboard 3 - KPI Este dashboard dá-nos um indicador, dependendo de onde se encontra o valor, poderão sertomadas decisões ou preverem-se ter de as tomar. Este KPI mostra-nos que para um income menor que50k existem cerca de 65% dos indivíduos, quando este valor ultrapassar 75% dos casos é grave porque apopulação está na grande maioria a ganhar pouco, podendo querer significar que a população está aempobrecer.Dashboard 4 - KPI Com a análise destes KPI’s é possível verificar como os indivíduos gerem o dinheiro, mostra qual ocapital ganho e o perdido. A diferença destes diz-nos o nível de possível endividamento da população.Os valores de capital ganho são superiores aos do capital perdido, quando estes chegarem a 50% da 26população é necessária alguma precaução pois é possível que metade da população esteja a endividar-se. Página
  • 28. 7. Aná lise dos dádos - SQL Server Business Intelligence Development StudioIntrodução Uma vez efectuada a migração dos dados do Excel para o modelo multi-dimensional, énecessário agora proceder à exploração da Data Wharehouse através da tecnologia On-Line AnalyticalProcessing (OLAP) que permitirá gerar Reports e Dashboards. A tecnologia OLAP vai permitir a criação de cubos para possibilitar a análise da informação sobdiferentes perspectivas. A análise da informação propriamente dita é efectuada recorrendo, quer aosReports, quer aos Dashboards. Todo este processo foi executado através de projectos do tipo BusinessIntelligence do Visual Studio 2008 e do aplicativo Pentaho User Console.Configurações SQL Server Business Intelligence Development StudioAntes de criar o projecto Analysis Services é necessário iniciar os serviços Server e Server Browser nogestor de configurações do SQL Server. Neste trabalho, o serviço SQL Server foi útil para facultar acessoaos repositórios. O serviço Server Browser foi útil para permitir acesso remoto ao Data Wharehouse queo Analysis Services utiliza para a execução dos cubos. Figura 11- Configuração dos Serviços SQL. Após a selecção do Data Source é necessário indicar as credenciais que são utilizadas para aligação ao repositório. O modo escolhido foi a utilização da conta do serviço. 27 Figura 12 - Autenticação à base de dados. Página Para realizar o deployment é essencial especificar o servidor de base de Dados naspropriedades do projecto.
  • 29. Figura 13 - Definir o servidor de base de dados.Criação dos Cubos OLAP Cubos OLAP permitem uma análise multidimensional dos dados armazenados no DataWharehouse. Esta análise intervém num qualquer indicador de negócio que faça sentido para a tomadade decisão, tirando partido da simplicidade de obtenção de relatórios, análises comparativas evisualização de subconjuntos de maior interesse. Este tipo de método de análise foca-se sobretudo noapoio à gestão organizacional. Figura 14 – Criação de um novo projecto. Para a criação dos cubos, o primeiro passo consiste em criar um novo projecto do tipo BusinessIntelligence, neste caso um Analysis Services Project, conforme Figura 14. 28 Página
  • 30. Figura 15 – Definição da origem dos dados. De seguida, é necessário proceder à selecção do banco de dados de onde será feita a análiseatravés dos cubos OLAP, sendo então definido então o caminho de acesso, conforme Figura 15. Figura 16 – Nova vista. No passo seguinte deve clicar com o botão direito do rato sobre Data Source Views do SolutionExplorer e seleccionar a opção New Data Source View, conforme Figura 16, para assim criar uma novavista, Data Source View, que irá conter as tabelas de factos e de dimensão que podem vir a fazer partedo cubo. 29 Página
  • 31. Figura 17 – Selecção de tabelas. É através da caixa de diálogo que surge então, Data Source View Wizard, Figura 17, que seprocede à triagem das tabelas de factos e dimensão, passando as pretendidas da caixa de listagemAvailable objects para a caixa de listagem Included objects. No final surge a vista do modelo derelacionamentos entre as tabelas de factos e dimensões. Figura 18 – Criar o cubo. Tendo a nova vista, cria-se o cubo que irá permitir a análise flexível e dinâmica relativamenteaos indicadores de gestão em estudo. Assim, deve clicar com o botão direito do rato sobre Cubes daárea Solution Explorer, Figura 18, e seleccionar a opção New Cube. 30 Página
  • 32. Figura 19 – Selecção das tabelas de factos. O primeiro passo desta fase consiste na selecção da vista que vai servir de base ao cubo edefinição das tabelas onde se encontram os factos a analisar, Figura 19. Figura 20 – Selecção dos factos a incluir no cubo. De seguida indica-se quais as medidas, os factos, a incluir no cubo, conforme Figura 20. 31 Página
  • 33. Figura 21 – Selecção das dimensões a incluir no cubo. Por fim são seleccionadas as dimensões a incluir no cubo, Figura 21. Figura 22 – Cubo Income. Obtendo-se então as tabelas de factos e dimensões que compõem o cubo, Figura 22. A azulencontram-se referenciadas as tabelas de dimensões e a amarelo as tabelas de factos. 32 Página
  • 34. Figura 23 – Estrutura da dimensão Localização. É agora necessário indicar para cada tabela de dimensão os campos e a hierarquia, caso exista,entre esses campos. Assim, após fazer duplo clique sobre a dimensão pretendida, e usando comoexemplo a dimLocalizacao da Figura 23, é necessário primeiro arrastar os campos seleccionados databela dimLocalizacao, que se encontra na área Data Source View, para a área Attributes. Depois éestabelecida a, ou as hierarquias, arrastando para a área Hierarchies os atributos que vão fazer parte dahierarquia, do nível mais alto para o nível mais baixo desta. No caso a dimensão Localização foi criado uma hierarquia, composta pelos atributos Pais eContinente. As restantes hierarquias das restantes dimensões foram estabelecidas de acordo com odescrito anteriormente/fase5 do relatório. Figura 24 – Processamento de dados Uma vez definidas todas as hierarquias e campos a usar processa-se os dados através do íconeProcess representado no menu do separador Cube Structure, Figura 24. 33 Página
  • 35. Figura 25 – Processamento de dados. A Figura 25 apresenta o processamento do cubo com sucesso. É de notar que esteprocessamento pode ser efectuado em paralelo ou sequencialmente.Análise dos dados SQL Server Reporting Services fornece um conjunto de ferramentas, serviços que ajudam acriar, implementar e gerir relatórios para análise de dados e tomada de decisão. As ferramentasReporting Services funcionam dentro do ambiente Microsoft Visual Studio e são complementeintegradas com as ferramentas e componentes do SQL Server. Com Reporting Services, podem-se criar relatórios interactivos através de diversas fontes dedados relacionais, multidimensionais ou XML. Podem-se publicar relatórios e calendarizar oprocessamento de relatórios. O Reporting Services também permite criar relatórios ad-hoc com base emmodelos predefinidos e explorar dados interactivamente dentro do modelo. Pode-se escolher umavariedade de formatos de visualização, exportar relatórios para outras aplicações e assinar relatóriospublicados. Os relatórios podem ser visualizados numa página Web ou uma aplicação Windows. Tanto como o Reporting Services, as tabelas dinâmicas em MSExcel permitem a análise dedados e a tomada de decisão, sendo que com o uso destas pode-se, facilmente, obter múltiplas visõesdo mesmo conjunto de dados ou rodar as linhas e colunas para obter resumos diferentes dos dados deorigem. As tabelas dinâmicas em MSExcel, em comparação com o Reporting Services fornecem ummaior controlo na formatação (diferentes fontes, tamanhos, estilos e cores) dos valores, disponibilizauma maior diversidade de gráficos, permite criar diferentes folhas no mesmo ficheiro e pode serinterpretado por diversos programas. Para uma grande flexibilidade na manipulação dos dados, e também a possibilidade de criaçãode gráficos a partir dos dados manipulados, a apresentação e a manipulação dos dados será feita 34através do Microsoft Excel, uma vez que grande parte dos utilizadores já está familiarizada com estaferramenta. Página
  • 36. Figura 26 – Escolher origem de importação. Para a análise de um cubo no Microsoft Excel é necessário em primeiro lugar criar uma ligação aum cubo do SQL Server Analysis Services, Figura 26, e importar os dados para o Excel como uma tabeladinâmica. Figura 27 – Introdução de credenciais do SQL Server. O primeiro passo da importação consiste na introdução das credenciais para criar a ligação aoservidor, conforme Figura 27. 35 Página
  • 37. Figura 28 – Selecção do cubo. De seguida, selecciona-se a base de dados e depois o cubo que se pretende importar paraanálise, conforme Figura 28. Figura 29 – Nome e descrição da ligação. No passo seguinte, Figura 29, atribui-se o nome e, caso o pretenda, a descrição da ligação aestabelecer. 36 Página Figura 30 – Tipo de visualização dos dados.
  • 38. Neste passo, Figura 30, selecciona-se o método de visualização dos dados pretendido, bemcomo a localização destes na folha indicada.Figura 31 – Volume de income>50k para todos os países e agrupados por continente. Na primeira análise a ser efectuada vai ser usado o campo income>50k, que indica o volume depessoas com income maior que 50k por país de origem, proveniente da hierarquia da tabeladimLocalizacao. Assim, consegue-se analisar a distribuição de income>50k, através de drilldown, eagrupá-las por continente e país. Utilizando a ordenação é facilmente perceptível o território nativo daspessoas com income superior a 50k. Figura 32 – Aplicação de filtros. No entanto, nem sempre nos interessa toda a informação, podendo então colocar filtros nastabelas dinâmicas, Figura 32, para obtenção uma análise mais profunda. Neste caso, foi excluído o áreacom maior frequência para se poder identificar e diferenciar mais facilmente as restantes localizações. 37 Página
  • 39. Figura 33 – Formatação de campo. Existe também a hipótese de modificar a representação dos próprios dados. A Figura 33demonstra uma transformação efectuada nos dados para apresentar os valores em percentagem, emque neste caso se observa o peso percentual que cada território teve no volume de vendas efectuadonos quatro anos em análise. Figura 34 – Análise percentual volume de income>50k. A transformação efectuada anteriormente pode também ser observada graficamente. NaFigura 34 observa-se a análise para todas as áreas excepto a América do Norte. Assim, comprova-sefacilmente e rapidamente que as pessoas de origem asiática têm maior poder de compra. A Europa,América Central e América do Sul estão num patamar mais baixo em termos de vendas. 38 Página
  • 40. Reports Figura 35 – Criar um novo projecto. Para a criação dos reports, o primeiro passo consiste em criar um novo projecto do tipoBusiness Intelligence, neste caso um Report Server Project Wizard, conforme Figura 35. Figura 36 – Selecção do data source. De seguida, é necessário seleccionar o data source que irá ser utilizado para a criação dosreports, conforme Figura 36. 39 Página
  • 41. Figura 37 – Selecção dos atributos a analisar e criação de um campo calculado. No seguimento do passo anterior, é necessário escolher os atributos a analisar no relatório ecriar novos membros calculados que ajudem na análise dos relatórios, como demonstra a Figura 37. Figura 38 – Query criada. Sendo de seguida apresentada a query criada automaticamente como demonstra a Figura 38. 40 Página
  • 42. Figura 39 – Selecção do formato do relatório. Depois, é necessário escolher o tipo de formato de relatório que se pretende, ou formato emtabela ou em matriz, conforme Figura 39. Figura 40 – Agrupamento dos dados Este passo baseia-se no agrupamento dos diversos dados em três áreas, páginas, grupos oudetalhes. Como mostra a Figura 40, coloca-se cada género por cada página, raça por grupos e os 41restantes na área de detalhe. Página
  • 43. Figura 41 – Escolha do layout da tabela Para cada tabela é preciso escolher o seu layout, como apresenta a Figura 41, foi escolhido olayout slate e enable drilldown. Nos dois passos seguintes, define-se a cor das tabelas e o respectivonome do report. Figura 42 – Report criado Terminado o último passo da criação do report tem-se a opção de pré-visualizar o report e deexportar para outros formatos, como comprova a Figura 42. 42 Página
  • 44. Figura 43 – Report exportado para MHTML Como forma de demonstrar as capacidades dos reports, exportamos para o formato MHTML.Como se observa na Figura 43, o browser apresenta uma tabela com o número de income menor ouigual a 50k e superior a 50k por raça e género.Conclusão Nesta fase, grande parte do tempo foi consumida pela criação dos cubos, tendo-nos deparado coma dificuldade de estabelecer hierarquias. Outro tanto foi investido na análise dos dados utilizandotabelas e gráficos dinâmicos, através do Microsoft Excel, e pela utilização dos relatórios criados atravésdo Microsoft Visual Studio. Na exploração dos cubos foram utilizadas diversas operações, como o Drill-down e Roll-up. Foramtambém utilizados filtros e operações matemáticas sobre os dados. Apercebemo-nos assim que amanipulação dos dados com estas ferramentas se tornam fáceis para a obtenção das informaçõespretendidas. É de notar que, aquando da análise reparámos que o nome dos campos criados no Data Warehousepoderiam ser mais descritivos para os gestores pois, apesar de quem está a desenvolver o DataWarehouse saber o conteúdo destes, ou aperceber-se facilmente do significado de cada designação,para quem está por fora do assunto não se torna tão intuitivo visto alguns terem nomes abreviados. 43 Página
  • 45. 8. ConclusãoResultados Os conceitos teóricos permitiram a elaboração do modelo multidimensional, criação de reports,análises e dashboards como proposta para alcançar os objectivos propostos. Com base nosconhecimentos adquiridos, possibilitou que potenciássemos a nossa aprendizagem na exploração,análise e possível tomada de decisão com base em dashboards e reports que se basearam em análisestendo em consideração o atributo de income. Como foi referido, tivemos alguns problemas nomanuseamento da ferramenta inicialmente disponibilizada, o que levou a um atraso definitivo noprojecto. Tendo em conta isso, foi decidido então escolher outra tecnologia que nos permitisse obter osresultados esperados para respectiva tomada de decisão com base na informação disponibilizada. As técnicas e as ferramentas neste projecto permitiram obter uma visão melhor e amplificadado negócio, o que simplifica o processo de exploração de dados, auxiliando a tomada de decisão e o seuuso nas estratégias de negócio. A realização deste tipo de projecto, enriqueceu bastante os nossos conhecimentos, uma vezque pomos em prática conceitos que não utilizamos frequentemente, e além disso permite-nos explorarnovas ferramentas, que estão actualmente no topo do mercado de trabalho.Limitações As limitações sentidas estiveram principalmente ligadas com os recursos disponibilizadossobretudo a tecnologia SpagoBI que se mostrou de difícil configuração. Devido a isso, surgiu anecessidade de se optar por outra ferramenta, recaindo a escolha no Petanho BI Suite. Outra limitaçãofoi na construção de dashboards e na análise da respectiva informação e o seu contributo na ajuda detomada de decisão. 44 Página
  • 46. 9. Referências Pentaho, Manually Configuring an MS SQL Server 2000 and 2005 Connection, Acedido a 15 deFevereiro de 2011 - http://wiki.pentaho.com/display/ServerDoc2x/Manually+Configuring+an+MS+SQL+Server+2000+and+2005+Connection Pentaho , Part 2: Configuring Server Side Data Connections – even easier!, Acedido a 15 deFevereiro de 2011 - http://blog.pentaho.com/2010/07/23/part-2-configuring-server-side-data-connections-even-easier/ 45 Página
  • 47. 10. AnexosOs Analyser Reports, Iteractive Reports e Dashboards podem ser vistos em ficheirosanexos a este documento.Anexo 1Como criar uma ligação SQL em PentahoPara aceder a uma base de dados Microsoft SQL Server, deve-se primeiro instalar e configurar o SQLServer Driver para JDBC. Um tipo de JDBC driver fornece uma conectividade para um ambiente Java ecomo o Pentaho é baseado em Java, ou seja, este Driver é essencial. Este mesmo Driver fornece acessoJDBC para ambas as versões 32 e 64-bit de SQL Server através de uma aplicação ou applet Java. Deseguida será explicado passo a passo, com recurso a imagens, as configurações necessárias paraefectuar a conexão do SQL Server ao Pentaho BI Suite:1. Abrir: ‘http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=21599’2. Fazer o download do ficheiro 1033sqljdbc_3.0.1301.101_enu.exe3. Executar o ficheiro e fazer unzip dos ficheiros para a pasta ‘C:programas’4. Na pasta que foi zipada C:ProgramasMicrosoft SQL Server JDBC Driver 3.0sqljdbc_3.0enu, deve-se copiar o ficheiro sqljdbc4.jar para:  C:Programaspentahodesign-toolsreport-designerlibjdbc  C:Programaspentahoserverbiserver-eetomcatwebappspentahoWEB-INFlib  C:Programaspentahodesign-toolsmetadata-editorlibextJDBC  C:Programaspentahodesign-toolsschema-workbenchdrivers  C:Programaspentahodesign-toolsdata-integrationlibextJDBC  C:Programaspentahoserverenterprise-consolejdbc5. Dar permissões de acesso remoto ao SQL, acedendo ao:  SQL Server Configuration Manager 46 Página
  • 48. Figura 44 - Aceder ao SQL Server Configuration ManagerFigura 45 - SQL Server Configuration Manager – SQL Server Services 47 Página
  • 49. Figura 46 - SQL Server Configuration Manager - Protocols for SQL Server SQL Server Management Studio Figura 47 - Aceder ao SQL Server Management Studio 48 Página
  • 50. Figura 48 - SQL Server Management Studio - Server Properties6. Criar nova conexão no Enterprise Console Figura 49 - Petanho Enterprise Console - Admnistration  Driver Class: com.microsoft.sqlserver.jdbc.SQLServerDriver  User Name: UserSQLSERVER  Password: PasswordSQLSERVER  49 URL: jdbc:sqlserver://<instancia SQL >;DatabaseName=<Base dados SQL> Página7. Criar nova conexão no User Console (imagem: ConexãoUserConsole.png)
  • 51. Figura 50 - Criar conexão ao SQL Server através do Pentaho 50 Página