Desenhar o conceito de data warehouse numa biblioteca da universidade
Upcoming SlideShare
Loading in...5
×
 

Desenhar o conceito de data warehouse numa biblioteca da universidade

on

  • 1,206 views

Artigo científico

Artigo científico

Statistics

Views

Total Views
1,206
Views on SlideShare
1,206
Embed Views
0

Actions

Likes
0
Downloads
18
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Desenhar o conceito de data warehouse numa biblioteca da universidade Desenhar o conceito de data warehouse numa biblioteca da universidade Document Transcript

  • Desenhar O Conceito de Data Warehouse NumaBiblioteca da UniversidadeARISTIDIS DE JESUS ORNAI ´Universidade de Evora Actualmente no mundo da Tecnologia da Informa¸˜o tem se vindo a ganhar mais conhecimento cada Tecnologia de Data Warehouse. Data warehouse ´ um sistema de cole¸˜o de uma variedade e cade dados necess´rios, seja na forma de dados hist´ricos ao longo de cinco anos ou dados actu- a oais. Data warehouse ´ geralmente apoiado por um modelo conceptual de dados chamado modelo emultidimensional que pode ser usado para exibir dados de diferentes dimens˜es de an´lise e re- o alat´rios. Os dados s˜o uma mais valia importante na organiza¸˜o que ´ usada para fazer uma o a ca eestrat´gia ou tomar uma decis˜o. O processo de dados pode ser realizado em v´rios lugares, por e a aexemplo, base de dados, aplica¸˜es, e tecnologia de data warehouse. O m´todo utilizado ´ a fase co e edo desenvolvimento de um data warehouse na Biblioteca que identifica a sua arquitectura com ovolume de informa¸˜o mais importante a n´ operacional, de gest˜o e estrat´gico. Essa descri¸˜o ca ıvel a e caapresenta uma arquitectura em esquema dimensional, como exibido na arquitectura do processode circula¸˜o dos livros. caCategorias e Descritores de Assunto: 1 [Kimball, 1998]: Modelo Dimensional; 2 [INMON,1996]: Processo de Apoio a Decis˜o ` aPalavras-chave adicionais: Data Warehouse, Data Mart, Processo de Circula¸˜o, Tomada de cadecis˜o a1. ¸˜ INTRODUCAOData warehouse ´ uma colec¸˜o de dados integrados, orientados por assunto, n˜o e ca avol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a acis˜o(INMON, 1996). Esse conceito facilita as organiza¸˜es a gerir e manter os a codados hist´ricos obtidos a partir do sistema operacional ou de aplica¸˜es. O uso de o codata warehouse ´ quase obrigat´rio em todas as organiza¸˜es, incluindo Bibliote- e o cocas.O data warehouse permite a integra¸˜o de v´rios tipos de dados a partir de uma ca avariedade de aplica¸˜es ou sistemas. Isso garante o mecanismo de acesso para os ge- costores obterem informa¸˜es e analis´-las para a tomada de decis˜o. As Bibliotecas co a aque n˜o possuem uma integra¸˜o de data warehouse utilizam um processo manual a caou usam um software utilizado para conectar os diferentes m´dulos. Basicamente oo processo que acontece ´ a actividade de resumir os dados que foram armazenados eno data warehouse ou sistema de base de dados em causa. O objectivo desta an´lise a´ desenhar e construir um data warehouse para a Biblioteca de uma Universidade.eOs resultados obtidos ser˜o: desenho do esquema de estrela(Star Schema) para a aBiblioteca de uma Universidade, desenho da arquitectura do processo de circula¸˜o cados livros e a base de dados de data warehouse.Aristidis de Jesus Ornai, m6463@alunos.uevora.pt ´Universidade de Evora, Mestrado em Eng. Inform´tica. Relat´rios de Estado da Arte 2012. a o SemEv 2012, P´ginas 1–8. a
  • 2 · Aristidis Jesus2. DATA WAREHOUSEExistem v´rios conceitos de Data Warehouse propostos por diferentes autores. aApresentam-se dois dos principais conceitos que s˜o considerados muito importante. aPrimeiro, o conceito defendido pelo professor Ralph Kimball que ´ um dos maiores econceituados precursores de conceitos de Data Warehouse. Este autor refere queum data warehouse n˜o ´ mais do que a uni˜o de um conjunto de Data Marts. a e aUm data mart pode ser definido como um Data Warehouse de pequena capaci-dade que abrange uma determinada ´rea ou departamento, oferecendo informa¸˜es a comais detalhadas sobre um determinado assunto em quest˜o. O paradigma que aRalph Kimball defende baseia-se no facto da informa¸˜o ser guardada utilizando cao modelo dimensional(Kimball, 1998). Segundo, o Bill Inmon que descreve datawarehouse como “uma cole¸˜o de dados integrados, orientados, por assunto, n˜o ca avol´teis, vari´veis no tempo, e que fornecem suporte ao processo de apoio ` de- a a acis˜o”(INMON, 1996). O paradigma deste autor difere um pouco do paradigma ade Kimball e defende que um Data Warehouse ´ apenas uma parte de todo o pro- ecesso de Business Intelligence. Baseado na defini¸˜o do Inmon, deve seguir-se as cacaracter´ısticas mencionados em seguida:2.1 Orientado por AssuntoUma das principais caracter´ ısticas do Data warehouse ´ o facto de ter uma forte e ´orienta¸˜o por assunto. E organizado em torno de assuntos importantes, tais como capor exemplo, cliente, produto e vendas. S˜o por isso focados na modela¸˜o e an´lise a ca ade dados para quem toma decis˜es, em vez de opera¸˜es di´rias e processamento o co ade transac¸˜es. Os Data warehouses s˜o selecionados, isto ´, fornecem uma vis˜o co a e asimples sobre quest˜es de um tema particular atrav´s da exclus˜o de dados que o e an˜o s˜o importantes no suporte ao processo de decis˜o. Pelo contr´rio, em ambi- a a a aentes operacionais as aplica¸˜es contˆm dados necess´rios ` satisfa¸˜o imediata dos co e a a carequisitos funcionais que podem ou n˜o ser utilizados no processo de decis˜o. a a2.2 IntegradoUm data warehouse ´ constru´ por integra¸˜o de m´ltiplas fontes de dados. S˜o e ıdo ca u aaplicadas t´cnicas de limpeza de dados e t´cnicas de integra¸˜o de dados. A inte- e e cagra¸˜o de dados, provenientes de sistemas operacionais, efectua-se nos mais variados can´ ıveis, na estrutura consistente de c´digos, na forma consistente das vari´veis, na o aconvers˜o de nomes, etc. Os dados que s˜o inseridos no Data warehouse devem a aestar consistentes entre si em termos de nomes, formatos e unidades de medida.Quando a informa¸˜o ´ movida para o Data Warehouse, ´ feita a convers˜o. No ca e e aprocesso de integra¸˜o dos dados tamb´m pode ser necess´rio corrigir dados que ca e aestejam inconsistentes na origem, devido ` n˜o integra¸˜o dos sistemas transac- a a cacionais que fornecem para um estado uniforme de modo a permitir a carga no Datawarehouse.2.3 N˜o Vol´tile a aUm sistema operacional permite diversas opera¸˜es de actualiza¸˜o dos dados como co caacrescentar, substituir e apagar. Num Data Warehouse, pelo contr´rio, s´ existem a odois tipos de opera¸˜es: uma introdu¸˜o inicial dos dados e o acesso a estes, n˜o co ca aSemEv 2012.
  • Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 3requerendo por isso mecanismos de processamento de transac¸˜es, recupera¸˜o e co cacontrolo de concorrˆncia. Os dados que s˜o introduzidos no Data wahouse s˜o e a aest´ticos, s˜o dados que reflectem situa¸˜es consolidadas, que n˜o sofrer˜o actu- a a co a aaliza¸˜es. Os dados ap´s serem extra´ co o ıdos, transformados e transportados para oData Warehouse est˜o dispon´ a ıveis para os utilizadores apenas para consulta(figura1). Fig. 1. N˜o Vol´tile a a2.4 Vari´veis no Tempo aO sistema operacional cont´m dados actuais, enquanto o data warehouse contˆm e edados n˜o s´ actuais, mas tamb´m dados do hist´rico para serem utilizados na a o e oan´lise e tomada de decis˜o. A dimens˜o do tempo ´ uma vari´vel importante que a a a e adeve ser suportado por todos os data warehouse. Os dados para an´lise de v´rias a afontes contˆm v´rios valores de tempo, por exemplo, di´rios, semanais e mensais. e a a3. ELEMENTOS DE UM DATA WAREHOUSE3.1 Business Inteligence(BI)O conceito do BI n˜o ´ recente. Muitas pessoas utilizaram esse conceito para a etomar decis˜es que permitissem uma melhoria de vida nas comunidades. O inter- oesse pelo BI tem vindo a crescer na medida em que a sua utiliza¸˜o possibilita caa`s Bibliotecas realizar an´lises e simula¸˜es, de forma a tornar mais eficientes os a coprocessos relacionados com o apoio ` decis˜o. Esse termo Business Inteligence gan- a ahou maior abrangˆncia, dentro de um processo natural de evolu¸˜o, as solu¸˜es de e ca coDSS(Decision Support System), geradores de consultas e de relat´rios, Data Marts, oData mining, ferramentas OLAP(Online Analytical Processing), entre outras.3.2 Data Warehouse vs Data MartEstes dois conceitos s˜o muito importantes e h´ que fazer uma distin¸˜o entre eles. a a caUm Data Mart pode ser definido como um Data Warehouse de menor capacidade,que abrange uma ´rea ou departamento espec´ a ıfico, oferecendo informa¸˜es mais de- co ´talhadas sobre um determinado assunto. E por isso, uma abordagem espec´ ıfica doData Warehouse e o seu dom´ ınio abrange apenas uma ´rea espec´ a ıfica da Biblioteca.Um Data Warehouse pode ser visto como um conjunto de Data Marts, contendotodas as informa¸˜es da biblioteca provenientes de diversas fontes de dados opera- cocionais, dispostas de forma integrada e consolidada. SemEv 2012.
  • 4 · Aristidis Jesus3.3 ´ Area de Estagiamento de Dados(Staging Area)Os processos mais importantes na forma¸˜o de um Data Warehouse da Biblioteca cas˜o sem d´vida os que envolvem a ´rea de est´gio. Esta constitui uma ´rea in- a u a a aterm´dia de armazenamento de informa¸˜o entre os sistemas operacionais e o Data e caWarehouse. Os sistemas operacionais s˜o fontes de dados que abastecem o Data aWarehouse. Os dados provenientes desses sistemas operacionais necessitam de serpreparados para que sejam carregados no Data Warehouse. Para isso, s˜o uti- alizadas as tabelas de Staging Area, que s˜o respons´veis por este armazenamento in- a a e ´term´dio de dados. E nesta fase que ´ implementado o processo de ETL(Extrac¸˜o, e caTransforma¸˜o e Carregamento), essencial no Data Warehouse. ca3.4 ETL(Extraction, Transformation, Loading)—Extrac¸˜o ca O objectivo dos m´todos de extrac¸˜o ´ isolar os dados que ser˜o utilizados pe- e ca e a a a ´ los sistemas de apoio ` decis˜o. E necess´rio filtrar apenas os dados que ser˜o a a necess´rios, a fim de se evitar desperd´ de desempenho e de armazenamento. a ıcio Existem diversas t´cnicas de extrac¸˜o de dados, os dados podem ser extra´ e ca ıdos periodicamente, sendo neste caso o utilizador a definir a periodicidade do pro- cesso. Assim que ´ inicializado, o processo extrai as modifica¸˜es realizadas desde e co o per´ıodo da ultima actualiza¸˜o, actualizando os dados no Data Warehouse. ´ ca—Transforma¸˜oca A partir do momento em que os dados j´ tenham sido extra´ a ıdos dos sistemas operacionais para a ´rea de est´gio, a fase de transforma¸˜o ´ iniciada. Nesta a a ca e fase, um conjunto de processos s˜o iniciados, tais como limpeza e atribui¸˜o de a ca novas chaves. As rotinas de limpeza e integra¸˜o dos dados tˆm como objectivo ca e assegurar a consistˆncia no Data Warehouse. Por vezes s˜o realizadas exclus˜es e a o de informa¸˜o desnecess´rias, excluindo atributos e entidades que n˜o estejam ca a a regularmente a ser tratado pelo Data Warehouse. S˜o tamb´m por vezes ex- a e clu´ ıdas rela¸˜es entre tabelas ou efectuados merging, opera¸˜es que influenciam co co o desempenho das consultas.—Carregamento O processo de carregamento ´ realizado ap´s efectuados todos os tratamentos e o aos dados nos processos de extrac¸˜o e transforma¸˜o. Esta etapa consiste em ca ca carregar os dados tratados e armazenados na ´rea de est´gio e migr´-los para o a a a Data Warehouse.3.5 Armazenamento de Dados OperacionalO conceito de ODS(Operational Data Storage) surgiu por volta dos anos 90, eera visto como sendo um tipo de Data Warehouse. O ODS ´ formado por da- edos retirados dos diversos sistemas operacionais e sujeitos a diversas opera¸˜es de cotransforma¸˜o e convers˜o. Contem informa¸˜o detalhada de cariz transaccional, ca a caactual e sujeita a processos de actualiza¸˜o regular. Fornece suporte ao processo cade tomada de decis˜es detalhadas, de cariz operacional, exigindo respostas quase oimediatas. O seu hist´rico ´ curto e a informa¸˜o est´ organizada por ´reas de o e ca a aan´lise. aSemEv 2012.
  • Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 53.6 Modelo dimensionalO modelo dimensional ´ um desenho l´gico que tem o objectivo de apresentar os e odados num padr˜o normal e intuitivo que permite o acesso em alta performance. aO modelo dimensional utiliza o conceito do modelo relacional(ER) com algumasrestri¸˜es importantes. Cada modelo dimensional ´ composto por uma tabela com co euma chave prim´ria composta, chamada tabela de factos, e um conjunto de tabelas amenores, chamadas tabelas de dimens˜o. Em outras palavras, a chave prim´ria da a atabela de factos ´ composta de duas ou mais chaves estrangeiras. A caracter´ e ısticamais importante neste modelo dimensional ´ a de todas as chaves naturais poderem eser substitu´ıdas por chaves substitutas(surrogate keys). A utilidade de uma chavesubstituta ´ permitir que o Data Warehouse possa ter alguma liberdade no uso dos edados, ao contr´rio do produzido pelo sistema OLTP. Baseado no diagrama Entity- aRelation da Biblioteca e em necessidades de informa¸˜o exigidos pelo bibliotec´rio ca ae do gestor da Biblioteca, foi criado ent˜o um modelo dimensional numa forma em aesquema da estrela para a data warehouse da Biblioteca, como ilustrado na figura2. Fig. 2. Esquema de Estrela para o Facto de Circula¸˜o ca SemEv 2012.
  • 6 · Aristidis Jesus3.7 MetadadosA defini¸˜o mais comum de metadados ´ dados sobre dados. Devido ao grande ca evolume de dados contidos no Data Warehouse ´ necess´rio que exista uma forma e a ´flex´ e eficiente de acesso aos dados. E necess´rio saber que dados est˜o dispon´ ıvel a a ıveise onde est˜o localizados. Os metadados podem ser vistos como a descri¸˜o dos da- a cados, do seu ambiente, como s˜o manipulados e para onde s˜o distribu´ a a ıdos. Osmetadados permitem definir as estruturas de informa¸˜es usadas, os algoritmos coutilizados para a transforma¸˜o, convers˜o, acumula¸˜o e agrega¸˜o de dados. Per- ca a ca camitem identificar as fontes de informa¸˜o, qual o destino dos dados e tamb´m ca econtrolar o mapeamento de dados ODS para o Data Warehouse. Os metadadospodem servir tamb´m para fazer a consolida¸˜o dos termos e temas dos dados. Um e cadeterminado termo deve ter o mesmo significado em todo o Data Warehouse.4. GRANULARIDADEDesigna o n´ ou grau de detalhe dos dados no modelo dimensional. Geralmente, ıvela granularidade da tabela de factos ´ escolhida para ter o menor n´ e ıvel de gran-ularidade poss´ ıvel. Pois isto permitir´ responder melhor a novas consultas e ` a aintrodu¸˜o de novos elementos de dados com n´ maior. A decis˜o sobre o grau ca ıvel atem uma implica¸˜o directa no n´ de detalhe da informa¸˜o disponibilizada no ca ıvel caData Warehouse.5. ¸˜ NECESSIDADES DA INFORMACAO DA BIBLIOTECAO levantamento das necessidades de informa¸˜o da Biblioteca ´ uma fase muito ca eimportante do trabalho de planeamento. Aqui define-se todas as fontes de dadosutilizados no data warehouse e define-se as necessidades de informa¸˜o a ser gerada caatrav´s da an´lise de relat´rios. Fontes de dados utilizados no data warehouse s˜o e a o aos dados na base de dados biblioteca, que cont´m por exemplo tabelas de: livro, etipo, autor, editor, aula, data, aluno, docente, curso e outras tabelas relacionadas.As necessidades de gest˜o de informa¸˜o da biblioteca obtˆm as seguintes formas: a ca e—As tendˆncias dos livros emprestados por professores e alunos. e—Informa¸˜es sobre os tipos de livros que s˜o muitas vezes emprestados. co a—Tendˆncias no processo de circula¸˜o. e ca—Informa¸˜es sobre o nome do autor e da editora cujos livros s˜o muitas vezes co a emprestados.6. ARQUITECTURA DE UM SISTEMA DE BIBLIOTECAEntende-se por arquitectura, o conjunto de regras/estruturas a partir das quais ´ econstru´ um sistema. Esta identifica e compreende o fluxo de dados atrav´s do ıdo esistema e a forma como ser˜o utilizados dentro da pr´pria institui¸˜o. A estrutura a o cade um Data Warehouse ´ constru´ por uma base de dados independente, desen- e ıdahada especificamente para apoio ` decis˜o, n˜o podendo ser actualizada e ao qual a a aos utilizadores acedem atrav´s de uma ferramenta front-end. Este sistema t´ e ıpicode Biblioteca composto por v´rios processos indicam factos de cada uma delas: aaquisi¸˜o, circula¸˜o, processo t´cnicos e servi¸o de referˆncia de livros. Arquitec- ca ca e c etura considerada no processo de circula¸˜o ´ o seguinte(figura 3): ca eSemEv 2012.
  • Desenhar O Conceito de Data Warehouse numa Biblioteca da Universidade · 7 Fig. 3. Arquitectura de Um Sistema de Biblioteca—ETL: Componente que se dedica ` extrac¸˜o, carga e transforma¸˜o de dados. E a a ca ca ´ parte respons´vel pela recolha de informa¸˜es provenientes de diversas fontes. a co—Data Warehouse: Local onde ficam concentrados os dados extra´ ıdos dos sistemas operacionais. A vantagem de ter um reposit´rio de dados ` parte ´ a possibilidade de armazenar o a e informa¸˜es hist´ricas e agregadas, dando um melhor suporte para as an´lises co o a futuras.—Front-end: ´ E a parte vis´ıvel aos utilizadores. Pode ser em forma de relat´rios padroniza- o dos, portal de intranet/internet, an´lises OLAP entre outras fun¸˜es, como Data a co mining ou simula¸˜es futuras. co7. ESQUEMA DE ESTRELA(STAR SCHEMA)No sistema OLTP(Online Transactional Processing) usa-se uma t´cnica conhecida ecomo modelagem de dados ER(Entity-Relationship). No data warehouse utiliza-seuma t´cnica de modelagem de dados que costuma-se chamar modelagem dimen- esional. Modelagem dimensional ´ um modelo de call-base que suporta alto volume ede query. Esquema estrela(star schema) ´ uma ferramenta que ´ aplicada a mode- e elagem dimensional e cont´m uma tabela de factos central. Tabela de factos cont´m e eatributos descritivos que s˜o usados para processar o query e chaves estrangeiras apara conectar `s tabelas de dimens˜o. An´lise de decis˜o de atributos consiste em a a a amedidas de desempenho, m´tricas operacionais, tamanho de agrega¸˜o e todas as e caoutras m´tricas que s˜o necess´rios para analisar o desempenho da organiza¸˜o. A e a a catabela de factos mostra o que ´ suportado pelo data warehouse para an´lise de de- e acis˜o. Tabelas de dimens˜o cercam a tabela de factos central. Tabelas de dimens˜o a a acontˆm atributos que descrevem os dados inseridos na tabela de factos. Tabela edimensional mostra como os dados ser˜o analisados. a Ap´s a an´lise do exemplo concreto do esquema de estrela(figura 2), considerou- o a SemEv 2012.
  • 8 · Aristidis Jesusse que as necessidades de gest˜o da informa¸˜o da biblioteca s˜o uteis. Definiu-se a a ca a ´tabela de facto para o processo de circula¸˜o contendo dados como C´digo Empresta ca oe Multa, representando o n´mero da identifica¸˜o espec´ u ca ıfico de cada empr´stimo edo livro e o pagamento relativo ` entrega fora do prazo determinado. Tamb´m a edesigna-se as dimens˜es adequadas para modelar o data warehouse como um sis- otema de apoio ` decis˜o; por exemplo Dimens˜o Curso, Data, Editor, Aluno, Livro, a a aAutor, Docente, Tipo e Fonte. Na “Dimens˜o Tipo“(figura 2) de empr´stimo do a elivro pretende defini-lo como o empr´stimo para uso na escola ou empr´stimo domi- e ecili´rio. a8. ˜ CONCLUSOESAp´s o desenvolvimento do conceito de data warehouse da Biblioteca e a an´lise do o amesmo, obt´m-se algumas conclus˜es e sugest˜es que se considerou importantes: e o o—O modelo de data warehouse que foi desenhado e constru´ como o processo de ıdo circula¸˜o de livros, pode garantir o acesso aos gestores da biblioteca de tomada ca de decis˜es. o—Na fase de planeamento, o assunto do data warehouse pode ser desenvolvido em v´rios aspectos, de acordo com as necessidades da biblioteca. a—No momento de an´lise do data warehouse, precisam ser desenvolvidas ferramen- a tas de an´lise, ou seja, OLAP e Minera¸˜o de dados. a ca ˆREFERENCIASAranha Filho, F. J. E. 2005. Perfil de usu´rio da biblioteca karl a. boedecker: gera¸˜o de valor a ca para pesquisadores por meio de coopera¸˜o indirecta. http://hdl.handle.net/10438/2959. ca (online em Des 20, 2011).Caldeira, C. P. 2008. Data Warehouse:Conceitos e Modelos. Edi¸˜o S´ ca ılabos,Lda.Inmon, W. H. 1997. Como construir o data warehouse. 1–37p.K.Tanaka, A. Arquitectura de data warehouse. http://www.uniriotec.br/~tanaka/SAIN. (on- line em Des 27, 2011).Nicole Amboni, Guilherme Cintra, E. d. O. Estrat´gia de crm aplicada a dsi:uma proposta e para as bibliotecas universit´rias. Gest˜o de Informa¸˜o, 1–16p. a a caPanegassi, L. F. 2006. Data warehouse.Ralph kimball, M. R. The Data Warehouse: The Complete Guide to Dimensional Modeling. Wiley Computer Publishing,New York,John Wiley & Sons,Inc, Second Edition.Santana, M. F. 2010. O conceito de data warehousing aplicado a gest˜o de informa¸˜es em ` a co bibliotecas. 137–158.Wikipedia. Extract, transformation,load. http://en.wikipedia.org/wiki/Extract, _transform,_load. (online em Des 28, 2011).Wikipedia. Star schema. http://en.wikipedia.org/wiki/Star_schema. (online em Des 27, 2011).SemEv 2012.