SlideShare a Scribd company logo
1 of 26
Projeto de pesquisa
Os benefícios de Qualidade de Dados e seus desafios:
Padronização, Aplicação de Políticas e Data Profiling.
Jonata Stracci Santos, RM 41577
jstracci.inc@gmail.com
Orientador: Celso Poderoso
RESUMO
A informação é o bem mais valioso de qualquer negócio. No atual momento tecnológico,
onde dados são gerados e armazenados em múltiplas plataformas corporativas,
credibilidade e legitimidade dos dados são essenciais para o sucesso de qualquer negócio.
A baixa qualidade de dados tem uma série de consequências negativas para a
manutenção e evolução de qualquer organização. Este artigo irá fornecer conceitos gerais
de Qualidade de Dados, e ilustrar como Data Profiling pode ser utilizado para melhorar a
qualidade dos dados das organizações.
Palavras-chave: Qualidade de Dados, Data Profiling, Data Warehouse,
Metodologia, Business Intelligence.
ABSTRACT
Information is the most valuable asset of any given business. In the current technological
moment where data is generated and stored in multiple enterprise platforms. Data's
credibility and legitimacy are essential to the success of any kind of business. As a result,
the poor quality of data has a number of negative consequences to the growth of any
organization. This article will provide general concepts of Data Quality, and illustrate how
Data Profiling can be used to improve the quality of organization’s data.
Keywords: Data Quality, Data Profiling, Data
Warehouse, Methodology, Business Intelligence.
ÍNDICE
Introdução................................................................................................................................................4
Qualidade de Dados (Data Quality)...........................................................................................................5
Cenários e Desafios ..............................................................................................................................5
Padronização, Aplicação de Politicas
..............................................................................................................................................................6
Dimensões de Qualidade de Dados...........................................................................................................7
Os principais aspectos de um projeto de Qualidade de Dados.............................................................9
Investigação de dados com Data Profiling
................................................................................................................................................................10
Data Profiling
............................................................................................................................................................11
Metodologia de Data Profiling
............................................................................................................................................................12
Introdução ao Oracle Entreprise Data Quality (OEQD)
................................................................................................................................................................13
Exemplo de Utilização Metodologia e Ferramenta
............................................................................................................................................................15
Primeiro Passo:
............................................................................................................................................................15
Segundo Passo: ..................................................................................................................................19
Conclusão................................................................................................................................................24
Bibliografia..............................................................................................................................................26
Introdução
A ausência de metodologia, padrões e monitoração: está diretamente relacionada aos
desafios que organizações enfrentam durante o processo de implementação de Qualidade
de Dados. “Empresas estão empenhadas e cada vez mais direcionadas a capitalizar a
informação e principalmente o conhecimento” (Kuan-Tsae, 1999, p.2). Entretanto, na
maioria das vezes estas mesmas empresas estão lutando silenciosamente contra o
impacto da baixa qualidade dos dados. Um recente estudo do instituto Gartner como mais
de 600 usuários de Business Intelligence apresenta que: 35% destes participantes
afirmaram que Qualidade de Dados está entre os três maiores problemas que
organizações iram lidar nos próximos 12-18 meses [1].
Quando tratamos especificamente de Business Intelligence, também conhecido
amplamente como sistemas de tomada de decisão, é importante destacar que a baixa
qualidade dos dados analisados tem um impacto de grande alcance e os efeitos podem ser
tangíveis e intangíveis [2]. Além disso, a baixa qualidade de dados leva os usuários de
Business Intelligence a desacreditar e por fim abandonar o uso destas ferramentas. Sendo
assim, garantir dados completos e consistentes é primordial para uma implantação de
Business Intelligence bem sucedida. Em outras palavras a qualidade de dados é o fator
chave de sucesso para a tomada de decisão empresarial.
Ao logo deste artigo procuro detalhar as Dimensões e Aspectos de Qualidade de dados,
Ausência de Padronização e Políticas. Deixando em evidencia os grandes desafios de
Qualidade de Dados e sua magnitude. Além disso, será disponibilizado adaptação de
metodologia de investigação de dados. Será introduzido diretrizes que poderão, se
adotadas, enriquecer qualquer projeto de Qualidade de Dados, em especial para projetos
de implementações de Data Warehousing. E por fim, apresentar como uma das
ferramentas de Qualidade de Dados – Data Profiling tem um papel essencial na avaliação
de conteúdo, estrutura e na qualidade dos dados.
Qualidade de Dados (Data Quality)
“Define-se como atividade que detecta e corrige anomalias nos dados” (C. Batini, 1998), ou para um
dos maiores especialistas da área Larry P. English “cumprir de forma consistente o trabalho intelectual
e as expectativas do cliente final”. Trazendo para o dia-a-dia de projeto, é comum escutar que
qualidade de dados é o uso de dados adequadamente para atender aos requisitos de negócios. De
fato, em todas as literaturas citadas nesse artigo é possível encontrar um padrão nas citações das
características coletivas de Qualidade de Dados tais como: validade, integridade, acessibilidade,
pontualidade, contexto, precisão, confiabilidade, integralidade. É importante destacar que,
Qualidade de Dados é composta por parâmetros mensuráveis e subjetivos que podem ser totalmente
modificados conforme a estratégia de negócio abordada em cada projeto.
Dados inconsistentes, imprecisos, incompletos e desatualizados é a principal causa de problemas nas
análises, e consequentemente pode ser o maior desafio de implementação de um projeto de Business
Intelligence de sucesso. Por exemplo: ineficiência operacional, análise de falhas na otimização de
negócios e por fim clientes insatisfeitos [3].
De modo geral, o objetivo do processo de Qualidade de dados (Data Quality - DQ) é de monitorar e
melhorar a qualidade de dados da Empresa, de forma objetiva e prática ao longo do tempo. Existe no
mercado inúmeros frameworks de DQ, afim de entender e direcionar suas aplicações em organizações.
É importante destacar que na pratica, a qualidade de dados é uma preocupação para os profissionais
envolvidos em implementações de uma vasta gama de sistemas de informações, que podem variar
entre armazenamento de dados, inteligência de negócios (BI), sistemas de relacionamento com
o cliente, sistemas de gestão de cadeia de abastecimento, dentre outros [3]. Afim de limitar o
escopo deste artigo, levo em consideração na sua totalidade, o relacionamento de DQ (Data Quality-
Qualidade de Dados) em relação ao escopo de implantação de sistemas de inteligência de negócio
(BI).
Cenários e Desafios
Existem muitos desafios a serem solucionados ao decorrer de implementação de Qualidade de Dados,
ou ainda maiores desafios a serem enfrentados quando tratamos no nível corporativo (Governança de
Qualidade de Dados). Entretanto é de amplo conhecimento que na maioria dos casos de
implementações de qualidade de dados, em projetos de business Intelligence, o resultado da baixa
qualidade de dados tem como origem principal a fonte de dados (Sistemas legado) e/ou falta de
especificações de negócio com qualidade. Em outras palavras a baixa qualidade de dados está
atrelada a falta de padrões e procedimentos dos sistemas responsáveis pelo dado, por exemplo:
sistemas de relacionamento com o cliente, sistema de armazenamento de controle e nota fiscais,
dentre outros.
Os grandes vilões desse desafio podem ser; falta de padronizações no processo de entrada de dados,
baixa qualidade na documentação do processo de negócio, falta de integridade entre origem de dados,
erro na transformação do dado, erro na integração do dado entre sistemas distintos, erro na entrada de
dados, dentre outros. Que de fato produzem os problemas mais frequentes de qualidade de dados.
Além disso é de grande conhecimento do mercado que erros de entrada de dados são rotineiros, estes
erros podem incluir erros ortográficos, transposições de números, códigos incorretos, campo não
informado (sem preenchimento), nomes irreconhecíveis, abreviaturas ou siglas, dentre outros [4].
Podemos visualizar esse fato de mercado através de gráfico publicado no artigo Data Warehousing
Special Report: Data Quality and the bottom Line – (Eckerson, Wayne W. - TDWI, 2002) [4].
0 20 40 60 80 100
Entrada de Dados por Funcionário
Entrada de Dados por Cliente
Mudanca de Sitema Origem de Dados
Migração de Dados
Expectativa de Usuário Errônea
Dados Externos
Erro de sistema
Outros
Origem de Problemas de Qualidade de
Dados
Figura 1: A entrada de dados nos Sistemas origens (sistemas legado, web ou cliente-servidor ...) e Mudança de sistemas Origem
de Dados são as maiores causas de problemas/baixa qualidade de dados para gerentes de Data Warehousing. (Pesquisa
considera uma ou mais opções).
Padronização, Aplicação de Politicas
A falta de adoção de padrões, metodologia, dicionário de dados, e pincipalmente ausência de rotinas
de validação são os maiores responsáveis pelo cenário apresentado na Figura 1 [4]. Levando em
consideração estas afirmações com o intuito em exemplificar, é possíveis agrupar os problemas de
qualidade de dados em um modo geral (mundo técnico) em duas categorias: Problemas evitados por
mecanismos de SGBDRs (Sistemas de Gestão de Base de Dados Relacionais) e Problemas não
evitados por mecanismos de SGBDRs.
• Problemas evitados por mecanismos de SGBDRs: Os Sistemas de Banco de dados
possuem mecanismos a fim de assegurar a integridade dos seus esquemas de dados. Quando
bem definidos evitam grandes problemas de qualidade de dados. Exemplo de mecanismos:
Not Null, Unique e Primary Key, Foreign Key, Domain, Check, Default e triggers...
• Problemas não evitados por mecanismos de SGBDRs: Existem no entanto problemas com
dados que não podem ser evitados através da definição de restrições de integridade suportado
pelos SGBDRs. Estes problemas podem atingir registros isolados ou conjuntos de registros.
Estes problemas podem ser: campo preenchido como “Não Informado”, dados que não
representam a realidade no mundo real, dados que não seguem requisitos de negócio, erro de
entrada de dados, registros aproximadamente duplicados por entrada de dados equivocado (o
mesmo cliente cadastrado duas ou mais vezes, erro manual de entrada de dados), unidade de
medida inconsistente, dentre outros possível problemas.
Os desafios são inúmeros, e a presente demanda por Qualidade de Dados está presente no dia a dia
de qualquer projeto ou área de Business Intelligence, sendo através de demandas regulatórias ou até
mesmo de integração de sistemas afim de analisar o cliente. Acredito que com um foco holístico e
principalmente corporativo é possível afirmar que cada vez mais o dado (informação) se torna um dos
maiores bens de qualquer organização.
Dimensões de Qualidade de Dados
Agora que já possuímos uma breve bagagem sobre Qualidade de Dados, e principalmente sabemos os
maiores desafios que qualquer projeto de Qualidade de Dados irá enfrentar. Uma pergunta básica vem
à mente, Quais os principais aspectos que um projeto de Qualidade de Dados ira lidar?
Como esse artigo tem o objetivo em apresentar uma das ferramentas que podemos usar para analisar
a qualidade de dados (Data Profilling), não poderia deixar de comentar que a maioria dos especialistas
do assunto introduzem robustos frameworks afim de planejar e executar projetos de aperfeiçoamento
da qualidade dos dados de uma organização. Em outros casos são apresentado dimensões e/ou
aspectos de um projeto de Qualidade de Dados. Gostaria de enfatizar que: em ambos os casos são
utilizado técnicas e aspectos alinhados com conhecimento do negócio com o objetivo principal em
planejar, executar e apresentar o estado atual e futuro da qualidade dos dados organizacional [2]. Em
outras palavras a mescla de técnicas e padrões em um framework direciona o projeto de qualidade de
dados. Na tabela abaixo, será apresentado de modo geral os aspectos(dimensões) de um projeto de
qualidade de dados.
Tabela 1: Tabela descritiva de visão geral das dimensões de Qualidade de Dados. Adaptação de Data Quality Dimensions -
Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information [2].
Em cada dimensão são utilizados inúmeras técnicas e ferramentas afim de executar o projeto com
sucesso. No nosso caso a ferramenta/técnica de Data Profiling pode ser utilizada para atender
demandas das seguintes dimensões: ‘Integridade de Dados Fundamentais’, ‘Exatidão’, ‘Duplicidade’,
‘Transação de Negócio Requisitado’. Onde Data Profiling será detalhado no tópico Investigação de
dados com data Profiling.
Os principais aspectos de um projeto de Qualidade de Dados
No começo do tópico Dimensões de Qualidade de Dados foi levando a questão, Quais os principais
aspectos que um projeto de Qualidade de Dados ira lidar? Contudo, já sabemos que o projeto deve ser
direcionado através de framework e dimensões de conhecimento e principalmente uma abordagem
holística e corporativa, entretanto ainda não temos um panorama geral para solucionar esta pergunta.
Sendo assim à partir da consolidação destes argumentos, podemos agora definir em termos gerais os
seis aspectos (por Jim Harris – Outubor de 2013) que todos os profissionais de qualidade de dados
iram lidar.
1. Investigar: Trata-se da Investigação periódica da qualidade de dados. A atividade de
investigação significa analisar os dados dentro de uma ótica qualitativa, sem necessariamente
inserir os pontos analisados (ou os problemas descobertos) como regras de validação. É muito
importante que seja definido uma periodicidade para a execução da atividade de Investigação
de qualidade dos dados. Podemos notar que investigação faz parte de muitas dimensões
apresentadas na Tabela 1. Esteja preparado para conhecer os requisitos de negócio e
principalmente os processos de negócio. A interação com a área usuária será prioritária.
2. Comunicar: À partir dos levantamentos (investigações) o próximo passo é comunicar, os
resultados desta avaliação para o público responsável. Com o objetivo em ajudar a melhorar a
compreensão dos dados, verificar relevância dos dados e priorizar questões críticas [5]. É
importante destacar que este fórum pode ser muitas vezes estressante e gerar situações
desagradáveis, entretanto é essencial para a avaliação dos custos do projeto. Onde à partir
desse ponto será definido uma agenda e escopo de trabalho.
3. Colaborar: A colaboração entre áreas, equipes, negócio vs. tecnologia deve se tornar a chave
de sucesso do projeto. Depois de ter investigado e comunicado, será necessário reunir a
equipe que irá atuar em conjunto para melhorar a qualidade de dados. Uma equipe
interdisciplinar será necessário porque podemos ver na maioria das dimensões encontramos
necessidades de uma ótima coesão entre o negócio e o técnico
4. Remediar: Com objetivo em resolver os problemas de qualidade de dados será necessário a
combinação entre tarefas de limpeza de dados e prevenção de defeitos. E nesse aspecto que
é reforçado a necessidade de uma visão holística e corporativa, onde governança de dados
muitas vezes será necessário para atribuir uma prevenção de defeitos estruturada e bem
sucedida. Em outras palavras é inevitável que a limpeza de dados é usada para corrigir os
problemas atuais, enquanto a prevenção de defeitos está direcionado a construir um futuro
melhor.
5. Estimular: Esse aspecto está diretamente ligado ao sucesso de implementações, onde é
necessário estimular os próximos passo. É importante sempre relacionar o sucesso de
implementações ao impacto nos negócios, tais como riscos mitigados, custo reduzidos, ou até
mesmo aumento de receitas.
6. Reiterar: O processo de qualidade de dados é continuo e sempre haverá melhorias em
projeções. Além disso o monitoramento do dados também é deve ser continuo. Sabemos que o
negócio muda constantemente, a coleta de dados aumenta a cada dia, integração entre
sistemas e aquisição de nova companhia são frequentes no mercado. Sendo assim é
importante destacar que a jornada de qualidade de dados deve fazer parte do dia a dia de uma
corporação.
Finalmente, após o detalhamento dos 6 aspectos podemos ter uma visão clara, mesmo que macro, dos
aspectos que profissionais que atuam em qualidade de dados iram lidar no seu dia a dia. No próximo
tópico será apresentado a metodologia e ferramenta de Data Profiling.
Investigação de dados com Data Profiling
Até o momento o artigo apresentou uma visão geral sobre Qualidade de Dados. Através da introdução
das suas dimensões e aspectos foi possível identificar as principais características, ferramentas e
processos. Adiante iremos navegar em linhas detalhadas sobre Data Profiling. O intuito deste tópico;
tem o objetivo em descrever, exemplificar e estabelecer metodologia de investigação de dados. Será
introduzido diretrizes que poderão, se adotadas, enriquecer qualquer projeto de Qualidade de Dados,
em especial para projetos de implementações de Data Warehousing tanto para relatórios de tomada de
decisão quanto mineração de dados e similares. Na figura 2 [7] pode-se notar que a utilização de Data
Profiling neste artigo se aplica entre as origens de dados (Legado) e o Data Warehouse (destino),
entretanto a metodologia aqui detalhada poderá ser utilizada entre integrações de sistemas, construção
e manutenção de Data Warehousing, manutenção e implementação de sistema legado, integração de
sistemas externos, dentre outros. É de conhecimento que nenhum projeto de Data Warehousing pode
ser desenvolvido sem dados. A coleta desses dados passa através do conhecimento dos diferentes
sistemas responsáveis por este grupo de dados. Entretanto a qualidade desses dados será a chave de
sucesso de qualquer implementação.
Figura 2[7]: Abrangência de qualidade de dados e data Profiling.
Existe no mercado ferramentas facilitadoras para implementação de Data Profiling, em outros casos
são adotados tarefas manuais com auxílio de ferramentas do tipo Excel e SQL. Nesse artigo será
usado como exemplo literário as ferramentas Oracle Data Integrator, que tem o objetivo principal na
integração dos dados (Processo de ETL: Extração, Transformação e Carga de dados) e também a
extensão Oracle Data Integrator – Data Quality e Data Profiling. Este artigo não tem o intuito em
vender, apresentar, direcionar a utilização de uma determinada ferramenta, e sim apresentar
adaptação de metodologia de Data Profiling e seus benefícios. Sendo assim dito, é importante
destacar que a implementação do processo de Data Profiling fornecera as características do
metadados associado ao conjunto de dados de escopo do projeto, que ajudara a reduzir a quantidade
de esforços necessários para a integração de dados. As informações recolhidas através de Data
Profiling ajuda a automatizar a preparação de dados para a integração (ETL), e se desenvolvida com
sucesso produzira redução significativa no custo da construção do Data Warehousing. Jack Olson [6]
comenta no seu livro que “a realização de Data Profiling no início de um projeto pode reduzir o custo
total do mesmo projeto em 35%.” levando essa afirmação em consideração, ele sugere que para
muitos projetos de Data Warehousing o custo de uma ferramenta de Data Profiling é pequeno perto
das economias que este projeto irar obter com a implementação da metodologia de Data Profiling.
Agora que possuímos uma introdução e já conhecemos que a implementação da metodologia e
processos de Data Profiling poderá trazer retorno econômicos para qualquer implementação de Data
Warehousing, chegou o momento de apresentar detalhadamente Data Profiling.
Data Profiling
Data Profiling é definida como uma das atividades do processo de qualidade de dados. Além disso,
como apresentado na Tabela 1 Data Profiling (DP) é uma ferramenta usada em muitas dimensões de
um projeto de Qualidade de Dados. O processo de Data Profiling pretende detectar de forma
sistemática, erros, inconsistências, redundâncias e a existência de informação incompleta nos dados e
respectivos metadados [6]. Depois da análise dos dados, o processo de DP deve produzir um conjunto
de relatórios com informação sobre o estado dos dados.
Qual o resultado esperados deste relatório/analise?
1. Avaliar se os metadados descrevem exatamente os valores reais da base de dados;
2. Ter uma ideia clara da qualidade dos dados;
3. Direcionar a correção dos dados que apresentam problemas, através de uma ferramenta de
limpeza de dados (Data Cleaning);
4. Equacionar a alteração dos requisitos da aplicação (Origem). Avaliar o planejamento de um
projeto de remediação.
Metodologia de Data Profiling
Existe no mercado muitas metodologias de Data Profiling (DP), neste tópico pretendo apresentar
adaptação da metodologia proposta por Jack Olson [6]. A adaptação da Metodologia pode ser aplicada
em qualquer banco de dados e projeto de qualidade de dados. Contudo deve se respeitar os requisitos
de negócio, funcionais e técnicos de cada projeto que adote esta metodologia. Objetivo é reportar de
forma rigorosa e sistêmica o maior número de erros. A adaptação se baseia em abordagem bottom-up,
começando no elemento mais elementar (coluna) progredindo até os elementos mais complexos
(Regra de Negocio). Para que se consiga analisar um escopo de dados na sua totalidade, a adaptação
é constituída por três etapas principais: Analise de colunas (Analise das propriedades, dicionários de
dados e analise estatísticas, medida mensurável), Analise de Estruturas e Analise de Regras de
Negócio [6]. Abaixo será detalhado cada etapa:
1. Analise de colunas:
a. Analisar as propriedades de cada coluna a fim de se verificar se a mesma segue de
acordo com o conjunto de propriedades da coluna. Exemplo: Analisar se determinado
campo deve ser ou não do tipo CHAR ou do tipo STRING.
b. Analisar e validar as colunas através de comparação com a definição do dicionário de
dados e seu determinado domínio. Exemplo: Confrontar tamanho de CEP conforme os
padrões adotados pelo Correio.
c. Analisar cada coluna aplicando funções estatísticas tais como cálculo de percentuais,
contagens, máximos, mínimos, medias, medianas. Desta forma o analista pode
encontrar conclusões sobre possíveis anomalias que existem nos dados de uma
coluna. Exemplo: Usando a função MAX ou MIM o analista ao verificar os resultados
pode afirmar que existem ou não inconsistências de domínio na coluna.
2. Analise de Estruturas: Tem como objetivo detectar todas as relações que existem entre as
colunas de uma tabela e as relações que existem entre as tabelas de um Banco de dados. Esta
etapa relata anomalias no nível da estrutura de banco de dados. O processo de análise da
estrutura dos dados é semelhante ao da análise das propriedades de uma coluna. Todo o
processo é efetuado através do desenho da solução, definição da solução e da validação da
documentação contra a solução aplicada no Banco de Dados.
3. Analise de Regras de Negócio: O terceiro passo da metodologia permite avaliar os dados
segundo um conjunto de condições que estão definidas no negócio. A detecção de anomalias é
efetuada através da validação das regras de negócio e seu objetivo. Resumidamente o objetivo
é testar se os dados obedecem a determinadas condições definidas pelas regras de negócio.
E importante destacar que a utilização desta metodologia irá trazer benefício e artefatos para provar
qual o escopo de dados que deverá ser corrigido no projeto de qualidade de dados. Além disso, Data
Profilling está diretamente relacionado a dimensão Exatidão (Tabela 1) que tem como objetivo
mensurar o conteúdo dos dados referente a sua fonte onde podemos relacionar a tarefa 1. C da
metodologia apresentada acima.
Com a utilização de funções MAX, MIN, o analista de negócio poderá encontrar padrões, e afirmar
assertividade no escopo de dados analisado. Sendo assim, podemos concluir que a ferramenta de
Data Profiling pode ser usado para avaliar a integridade dos dados. Além disso, Data Profiling tem o
objetivo em mostrar se um registro de cliente, campo no sistema de inventario por exemplo, tem um
padrão valido e se o conteúdo do dado está de acordo com o esperado pelo negócio. Entretanto,
apenas o cliente pode confirmar se o seu RG, por exemplo, armazenado no sistema é de fato correto.
Do mesmo modo que apenas contando os produtos na prateleira e comparando estes contra o sistema
de inventario, podemos afirmar que o resultado da contagem manual reflete o valor disponível no
sistema de estoque. Como o próprio Jack Olson cita [6] "Você não pode dizer se algo está errado, a
menos que você possa definir o que é ser certo.", em outras palavras, em circunstâncias especificas
será necessário trabalhos manuais e abrangentes, esteja preparado para isso.
Introdução ao Oracle Entreprise Data Quality (OEQD)
Agora que temos a metodologia de Data Profiling a ser seguida, e sabemos que a aplicação dessa
metodologia e seus processo trarão grandes benefícios para a implementação de projeto de qualidade
de dados em implementações de Data Warehousing. Será apresentado nesse tópico com intuito em
exemplificar a utilização de ferramenta seguindo a adaptação da metodologia proposta acima. Todo
projeto de implementação de Data Warehousing passa por processo de escolha de ferramentas, para
este exemplo literário não foi diferente. Após uma avaliação de mercado foi escolhido a utilização das
ferramentas Oracle Entreprise Data Quality, que fornece uma camada de ferramentas que atende
grande amplitude e funcionalidades para Qualidade de Dados. Onde estas ferramentas podem ser
resumidas da seguinte forma:
• Data Profiling and Auditing: Ferramentas com intuito em compreender os dados e identificar
rapidamente os problemas de dados e monitorar a evolução da qualidade dos dados.
• Data Parsing and Standardization: Processadores poderosos para transformar e padronizar
nomes, endereços, números de telefone e outros tipos de dados.
• Matching, Merging, and Survivorship: Capacidade de integração, opção de harmonização
para vinculo ou mescla de registros, configuração de regra de sobrevivência flexível
(Survivorship)
Um dos principais motivos da escolha das ferramentas Oracle de qualidade de dados está relacionado
a amplitude e coesão com os aspectos de qualidade de dados descritos no tópico “os principais
aspectos de um projeto de qualidade de dados”. Na figura abaixo apresento a arquitetura que deve ser
adotada.
Figura 3 [8]: Arquitetura OEDQ (Oracle Entreprise Data Quality), baseado em Getting Started Guide ODQ –
196909
Podemos notar na figura 3 a amplitude de funções que OEDQ irá atender no projeto de qualidade de
dados. Além disso, abaixo descrevo detalhadamente esta arquitetura:
Oracle Data Profiling:
• Metabase Server – contém todos os metadados;
• Scheduler Server – Executa jobs de profiling (carga de tabelas, analise, investigações);
• Oracle Data Quality User Interface – Interface gráfica para acesso ao Oracle Data Profiling and
Data Quality.
• Oracle Data Quality ODBC Adapter – utilizado para conectar via ODBC nas origens. Este
componente adicional somente pode ser instalado em Windows.
Oracle Data Quality: Utilize os mesmos componentes do Oracle Data Profiling, além disso possui um
componente específico “Data Quality Server” (servidor do Oracle Data Quality).
• Portas: Durante a instalação do Oracle Data Profiling e Data Quality será necessário a criação
de duas portas que devem estar habilitadas entre as máquinas cliente e o servidor. Estas
portas são utilizadas pelos seguintes serviços:
• Oracle Data Quality Scheduler – Requer uma porta chamada “Scheduler Port”;
• Oracle Data Profiling and Quality Metabase Repository – requer uma porta chamada
“Repository Port”.
Entretanto neste artigo será apresentado apenas exemplo de utilização da ferramenta de Data
Profiling, afim de exemplificar a utilização da metodologia apresentado ao longo do artigo. Após a
instalação da arquitetura, que não iremos tratar, e principalmente o desenvolvimento de escopo e
documentos funcionais que descrevem o negócio. Será iniciado o processo de Data Profiling conforme
os passos a seguir.
Exemplo de Utilização Metodologia e Ferramenta
Com o intuito em explicar a utilização da ferramenta alinhada com a metodologia que foi introduzida
neste artigo. Será definido que o escopo deste projeto trata de qualidade de dados de base de cliente
entre camada intermedia de carga para sistema de Data Warehousing, maiores detalhamentos serão
apresentados ao longo deste tópico. Abaixo será apresentado passo a passo de implementação de
Data Profiling alinhando as melhores práticas de utilização da ferramenta e principalmente a utilização
da adequação da metodologia de Data Profiling.
Primeiro Passo:
• Objetivo: Entender os problemas de qualidade de dados
• Abordagem:
o Identificar o grupo de dados que será analisado;
o Identificar os requisitos de qualidade de dados;
o Extrair os dados do sistema origem;
o Profiling cada grupo de dados;
o Início do desenvolvimento de avaliação de qualidade de dados.
• Entregáveis:
o Perfil dos dados (Profiling);
o Relatórios de qualidade de dados.
E de fácil percepção que os processos que são adotados na ferramenta de Data Profiling seguem a
adaptação da metodologia descrita ao longo do artigo. O objetivo é alinhar a metodologia e aplicá-la
com a ajuda da ferramenta. Abaixo será descrito detalhadamente as abordagens/atividades:
Figura 4: Detalhamento dos processos de entendimento de problemas de qualidade de dados, adequação metodologia de Data
Profiling e melhores práticas de utilização da ferramenta de Data Profiling Oracle.
1. Carga de arquivo de dados:
i. Criar um Data Store: Um ‘data store’ define as informações de conexão com a origem
de dados.
Figura 5: Criando novo Data Store.
ii. Criar um SnapShot: Um SnapShot é a cópia dos dados oriundos da origem de dados
que será armazenada no repositório do EDQ.
Figura 6: Criando um SnapShot.
2. Desenvolver processo de Profiling: Crie um novo processo e adicione processadores
(funções) de perfis.
Figura 7: Exemplo de processo de Profiling.
A ferramenta de Data Profiling disponibiliza uma cadeia de processadores (funções) de perfis
(Profiling processors), com o intuído em entender e identificar problemas na qualidade de
dados. Abaixo podemos ver a descrição de alguns processadores, que alinhado ao requisito de
negócio facilitara o esforço de programador.
Figura 8: Exemplo de profiler, funções disponíveis pela ferramenta.
3. Avaliar processo de Profiling: Executar Drill down sobre os dados para investigar possíveis
problemas de dados. O ‘Results Browser’ apresenta os resultados de cada função do processo
criado. Além disso os links disponibilizados no ‘Results Browser’ possibilita ao analista
visualizar os dados reais à partir dos dados encenados.
Figura 9: Results Browser, após a exclusão do processo de profiling será disponibilizado resultados conforme
apresentado na figura.
Figura 10: Results Browser detalhados.
Na figura 10 pode ser notar a versatilidade da ferramenta que disponibiliza informações sobre o
processo executado de Profiling. Em outras palavras, à partir do desenvolvimento do processo
de profiling seguindo os requisitos de negócio e principalmente a metodologia de data profiling
podemos obter uma grande gama de analises, estas que não só ajudaram na definição de
escopo de dados a serem atacados na qualidade de dados da integração como disponibiliza os
dados em si.
4. Preparar resultado de Profiling: Criar grupo de relatórios para documentar os resultados de
profiling. Também será possível o desenvolvimento de gráficos.
Figura 11: Opções de relatórios disponíveis.
Segundo Passo:
• Objetivo: Detalhar e Avaliar Profilling
• Abordagem:
o Priorizar tarefas detalhadas de Profiling
o Executar tarefas detalhadas de Profiling
o Desenvolver avalição detalhada
• Entregáveis:
o Avaliação de qualidade de dados detalhada
O segundo passo é composto por tarefas que tem como objetivo final apresentar avaliação detalhada
da qualidade de dados. Esta avaliação detalhada seguira os resultados esperados pela metodologia
de data profiling tais como avaliar metadados, avaliação da qualidade de dados, direcionar a correção
dentre outros. Abaixo será detalhado o segundo passo:
Figura 12: Detalhamento dos processos de detalhamento e avaliação de profiling. Processo incremental à partir dos resultados
do primeiro passo.
O primeiro passo indicou que existe prováveis problemas de qualidade de dados como por exemplo: o
número do telefone do cliente. Lembrando que o objetivo desse artigo é apresentar a metodológica e
exemplificar a utilização da ferramenta, sendo assim poderá ser aplicado estes passos em qualquer
massa de dados.
Agora que fechamos o escopo da baixa qualidade de dados do campo número de telefone do cliente,
será necessário ‘digging down’, que em outras palavras significa ir a fundo no problema. À partir do
detalhamento será possível auxiliar a identificação de problemas específicos e subsequentes auditoria
e correção necessária na origem, no processo de negócio e em alguns casos em processo de ETL de
origem para DW. E importante destacar que quando o desenvolvimento de DW está relacionado a
governança de dados corporativo muitas vezes a solução do problema de baixa qualidade de dados
será aplicado no menor nível, em outras palavras na origem de dados. Entretanto, em alguns casos a
solução será aplicada em processos de ETL de camadas intermediarias do DW. Esta solução
dependera do escopo do projeto que irá aplicar a metodologia apresentada nesse artigo. Voltando
para o escopo do problema de qualidade, o próximo passo será a criação de snapshot que extrai
apenas as informações do campo número de telefone a partir da fonte de dados.
1. Criar Snapshot detalhado:
Figura 13: Criando snapshot detalhado apenas com os campos necessários para o detalhamento do problema de qualidade de
dados do campo telefone.
2. Desenvolver processo de profiling detalhado:
Com o Snapshot número de telefone criado, agora será necessário desenvolver processo de
profiling detalhado que possuirá funções adicionais para ajudar a entender os dados e conduzir os
tipos de remediação e auditoria. Após o desenvolvimento do processo o mesmo necessita ser
executado. Conforme figura 14.
3. Avaliar resultados de profiling detalhado:
Figura 14: Processo detalhado de profiling e resultado.
Avaliar os resultado detalhados utilizando ‘drill down’ em cada resultado de atributo detalhado.
Exemplo, examinar o retorno do profiling com funções Min / Max que neste caso mostra que o
comprimento máximo de todos os dados do número de telefone está dentro da especificação.
No entanto, o valor do comprimento máximo não é um número de telefone válido, levando
então a necessidade de criar profiling adicionais, tais como a verificação de caracteres
inválidos dentro do número de telefone de dados. A figura 14 mostra exemplo de processo de
profiling detalhado já executado, que tem como objetivo testar a qualidade de regra de negócio
que segue os seguintes requisitos: Número de Telefone não deve exceder 25 caracteres,
Extensão do número de telefone não deve exceder 20 caracteres, Código de Área não deve
exceder 10 caracteres. Esse exemplo segue o tipo três da metodologia de data profiling –
Analise da regra de negócio. Conforme figura 14 podemos notar que todos os campos seguem
os requisitos de negócio, entretanto o teste Max do campo PRIMARY_PHONE_NUMEBER
apresenta um e-mail como retorno máximo sendo assim encontrado erro de qualidade de
dados. Em resumo o campo foi preenchido no mínimo uma vez com um valor não valido. Uma
das características mais importantes da ferramenta na tarefa de avaliação do resultado do
profiling é o ‘drill down’, fique atendo as possíveis formas de utilizar esta função.
Figura 15: ‘Drill down’ no registro especifico com baixa qualidade de dados, registro que possui e-mail no campo telefone.
Também é possível identificar padrões de preenchimento do campo telefone à partir do ‘drill
down’ conforme figura abaixo 16.
Figura 16: Padrão de preenchimento do campo telefone.
Em resumo, a utilização adequada da metodologia de data profiling com auxílio das
funcionalidades da ferramenta Oracle Data Profiling (Oracle Data Integrator) alinhado com os
requisitos de negócio irá proporcionar o foco da baixa qualidade de dados.
4. Desenvolver plano de remediação preliminar:
Desenvolver plano de remediação preliminar à partir dos resultados do profiling e principalmente
das violações de qualidade de dados. Isso inclui violações especificas relacionadas os requisitos e
regras definidas para a qualidade de dados. Onde dependendo do projeto a solução pode ser
aplicada em camadas intermediarias, e/ou no processo de coleta de dados, e/ou na origem de
dados. Essa tarefa tem como objetivo principal apresentar as remediações. E também será
necessário definir próximos passos e cenário de soluções. Conforme referência ao aspecto
remediar descrito no tópico ‘Os principais aspectos de um projeto de qualidade de dados’,
podemos afirmar que esta tarefa tem total coesão com este aspecto. Sem mais delongas, abaixo
podemos notar o gráfico que apresenta a avaliação do exemplo campo telefônico, detalhado por
campo e por regra de negócio.
Figura 17: Gráfico com o resultado da avaliação de Data Profiling para o exemplo, campo número de telefone.
Neste exemplo o plano de remediação tem como foco criar processo de qualidade de dados entre a
extração do dado da origem e processo de carga no DW. Onde será aplicado as seguintes tarefas, por
exemplo, determinar formato padrão do campo telefônico, determinar caracteres valido e não valido na
carga, remover caracteres inválidos. Lembrando que será necessário a solicitação, revisão do
requisitos funcionais juntamente com a área usuário afim de solicitar e validar o formato correto do
campo telefone, normalizar o mesmo e por fim aplicar solução no processo de carga.
Em resumo, esse exemplo mostrou passo-a-passo como deve ser aplicado a metodologia de Data
Profiling usando a ferramenta Oracle Data Integrator - Profiling com o intuito em criar perfis de
qualidade de dados, possibilitando menor esforço para a implementação de qualidade de dados em
projeto de Data Warehousing. Este tópico teve o intuito em apresentar solução em linhas gerais para o
desenvolvimento de data profiling. Lembrando que a ferramenta também possui funções de Cleansing
(limpeza de dados) e Monitoring (Monitoração) que atendem outros aspectos de um projeto de
Qualidade de Dados. A utilização da metodologia de Data Profiling com auxílio da ferramenta
acrescenta um valor significativo e tangível para qualquer projeto de BI (Data Warehousing) quando
utilizado para fornecer evidencias detalhada de uma massa de dados. Além disso, Data Profiling
ajudara a expor regras de negócio que estão embutidas em dados trazendo eficiência durante as
etapas de integração de dados.
Conclusão
A estratégia de Qualidade de Dados deve ser projetada para ser ágil e adaptável. Ela deve ser tratada
como um processo vivo, que pode ser aperfeiçoado continuamente com o intuito em atender aos
objetivos empresariais. Atualmente a crescente demanda por qualidade de dados está totalmente
relacionado ao momento que vivemos onde a informação é uma das estratégias principais para
qualquer organização se destacar no mercado. Não importa se a necessidade de projeto de qualidade
de dados segue exigências legais ou regulatórias, a demanda por projetos de qualidade de dados
tende apenas a crescer. Sendo assim é importante entender os aspectos de qualidade de dados e
principalmente a adoção de metodologia e/ou frameworks que direcione as políticas, padrões e
atividades de um projeto de qualidade de dados.
Além disso, a abordagem de qualidade de dados deve ser holística e na maioria dos casos deve seguir
uma perspectiva empresarial, caso contrário pode se perder a assertividade e gerar soluções
inconsistentes com inúmeras ‘versões da verdade’. Lembre-se que antes de entender o que está
errado, será necessário definir o que é ser certo. Tenha em mente que os dados devem ser
gerenciados por todo o seu ciclo de vida desde a entrada por sistemas legado até o consumo destes
em relatórios gerenciais. Entretanto as iniciativas de qualidade de dados em implementações de Data
Warehousing (BI) não devem ser colocadas em segundo plano, com a justificativa de cumprir as metas
de prazo ou de orçamento. É importante destacar que a carga de dados sem qualidade em um projeto
de Data Warehousing resultara em relatórios sem credibilidade. Por fim, as tarefas de Qualidade de
Dados devem ser um esforço conjunto de negócios e de TI para garantir o sucesso da iniciativa.
O objetivo deste artigo foi apresentar em termos gerais o que é qualidade de dados, e principalmente
como Data Profiling pode ajudar a melhora continua de qualidade de dados em uma implementação de
Data Warehousing. Entretanto a adequação da metodologia de Data Profiling aqui apresentada pode
ser utilizada em qualquer projeto de qualidade de dados, com o intuito em trazer benefícios financeiros
e principalmente elevar a credibilidade dos dados. Qualidade de dados é o fator chave de sucesso para
a tomada de decisão empresarial.
Bibliografia
• [1] Gartner, ‘Gartner Says Organizations Must Establish Data Stewardship Roles to
Improve Data Quality’, January 2008 -Disponível em: http://www.gartner.com/newsroom/id/589207
• [2] Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and
Trusted Information (Morgan Kaufmann Publishers © 2008)
• [3] C. Batini, Data Quality: Concepts, Methodlogies and techiniques (Data-Centric System
and Application) – ( Springer, New York, 1a ed., 1998 )
• [4] Eckerson, Wayne W., Data Warehousing Special Report: Data Quality and the bottom
Line – (TDWI, 2002) Disponível em: http://download.101com.com/pub/tdwi/Files/DQReport.pdf
• [5] Jim Harris is the OCDQ Blogger – Obsessive Compulsive Data Quality – Outubro 2013
Disponível em: http://www.ocdqblog.com/home/data-quality-in-six-verbs.html
• [6] J. E. Olson, Data Quality: The Accuracy Dimension ( Morgan Kaufmann, 1a ed., Dezembro
2002 )
• [7] Comprehensive Data Quality with Oracle Data Integrator and Oracle Enterprise Data
Quality ( Oracle White Paper – Janeiro 2013 ) Disponível em:
http://www.oracle.com/technetwork/middleware/data-integrator/overview/oracledi-comprehensive-quality-131748.pdf
• [8] Getting Started Guide ODQ – 196909, Oracle, October 2009 - Disponível em:
http://www.oracle.com/technetwork/middleware/data-integration/overview/odq-11g-getting-started-guide-196909.pdf
• Kuan-Tsae Huang, Yang W. Lee, and Richard Y. Wang, Quality Information and
Knowledge (Prentice Hall PTR, 1999), p. 2.
• Larry P. English John Wiley, Improving Data Warehouse and Business Information Quality:
Methods for Reducing Costs and Increasing Profits (Sons, 1999) (Larry P. English, p 24
1999)

More Related Content

What's hot

คมดาบสั้น ตอน2 หน้า251-500
คมดาบสั้น ตอน2 หน้า251-500คมดาบสั้น ตอน2 หน้า251-500
คมดาบสั้น ตอน2 หน้า251-500sornblog2u
 
Tecnologia da soldagem de ferros fundidos
Tecnologia da soldagem de ferros fundidosTecnologia da soldagem de ferros fundidos
Tecnologia da soldagem de ferros fundidosCristiano Scheuer
 
Tecnologia da Informação Aplicada a Sistemas de Informação Empresariais
Tecnologia da Informação Aplicada a Sistemas de Informação EmpresariaisTecnologia da Informação Aplicada a Sistemas de Informação Empresariais
Tecnologia da Informação Aplicada a Sistemas de Informação EmpresariaisJeziel L. C.
 
Zs 1021 teks viler - braca border (scanturion & emeri)(5 mb)
Zs 1021   teks viler - braca border (scanturion & emeri)(5 mb)Zs 1021   teks viler - braca border (scanturion & emeri)(5 mb)
Zs 1021 teks viler - braca border (scanturion & emeri)(5 mb)zoran radovic
 
μετά την καταστροφή
μετά την καταστροφήμετά την καταστροφή
μετά την καταστροφήpinnokio.gr
 
Zagor SD - 030 - Osveta vudu
Zagor SD - 030 - Osveta vuduZagor SD - 030 - Osveta vudu
Zagor SD - 030 - Osveta vuduStripovizijacom
 
Zagor Ludens 216 - Puni mjesec
Zagor Ludens  216 - Puni mjesecZagor Ludens  216 - Puni mjesec
Zagor Ludens 216 - Puni mjesecStripovizijacom
 
Manga Nozoki Ana Tomo 8
Manga Nozoki Ana Tomo 8Manga Nozoki Ana Tomo 8
Manga Nozoki Ana Tomo 8Kuroe
 
สรจักร คนสองวิญญาณ
สรจักร   คนสองวิญญาณสรจักร   คนสองวิญญาณ
สรจักร คนสองวิญญาณsornblog2u
 
変ホ長調音階(バイオリン指板表)scale Eb_major
変ホ長調音階(バイオリン指板表)scale Eb_major変ホ長調音階(バイオリン指板表)scale Eb_major
変ホ長調音階(バイオリン指板表)scale Eb_majorviolin class
 
E 66 pont fog 403 a 404a-411a montage 10-79
E  66 pont fog 403 a 404a-411a montage 10-79E  66 pont fog 403 a 404a-411a montage 10-79
E 66 pont fog 403 a 404a-411a montage 10-79fallay
 
קניון מלחה - חנויות בקומה 3
קניון מלחה - חנויות בקומה 3קניון מלחה - חנויות בקומה 3
קניון מלחה - חנויות בקומה 3weiss2001
 
รหัสลับหลังคาโลก เล่ม 10
รหัสลับหลังคาโลก เล่ม 10รหัสลับหลังคาโลก เล่ม 10
รหัสลับหลังคาโลก เล่ม 10sornblog2u
 

What's hot (20)

913 vesela udovica
913   vesela udovica913   vesela udovica
913 vesela udovica
 
คมดาบสั้น ตอน2 หน้า251-500
คมดาบสั้น ตอน2 หน้า251-500คมดาบสั้น ตอน2 หน้า251-500
คมดาบสั้น ตอน2 หน้า251-500
 
Tecnologia da soldagem de ferros fundidos
Tecnologia da soldagem de ferros fundidosTecnologia da soldagem de ferros fundidos
Tecnologia da soldagem de ferros fundidos
 
Vajat erp 104
Vajat erp 104Vajat erp 104
Vajat erp 104
 
Tecnologia da Informação Aplicada a Sistemas de Informação Empresariais
Tecnologia da Informação Aplicada a Sistemas de Informação EmpresariaisTecnologia da Informação Aplicada a Sistemas de Informação Empresariais
Tecnologia da Informação Aplicada a Sistemas de Informação Empresariais
 
Zs 1021 teks viler - braca border (scanturion & emeri)(5 mb)
Zs 1021   teks viler - braca border (scanturion & emeri)(5 mb)Zs 1021   teks viler - braca border (scanturion & emeri)(5 mb)
Zs 1021 teks viler - braca border (scanturion & emeri)(5 mb)
 
TTF.DC.02
TTF.DC.02TTF.DC.02
TTF.DC.02
 
μετά την καταστροφή
μετά την καταστροφήμετά την καταστροφή
μετά την καταστροφή
 
Zagor SD - 030 - Osveta vudu
Zagor SD - 030 - Osveta vuduZagor SD - 030 - Osveta vudu
Zagor SD - 030 - Osveta vudu
 
Zagor Ludens 216 - Puni mjesec
Zagor Ludens  216 - Puni mjesecZagor Ludens  216 - Puni mjesec
Zagor Ludens 216 - Puni mjesec
 
Manga Nozoki Ana Tomo 8
Manga Nozoki Ana Tomo 8Manga Nozoki Ana Tomo 8
Manga Nozoki Ana Tomo 8
 
สรจักร คนสองวิญญาณ
สรจักร   คนสองวิญญาณสรจักร   คนสองวิญญาณ
สรจักร คนสองวิญญาณ
 
変ホ長調音階(バイオリン指板表)scale Eb_major
変ホ長調音階(バイオリン指板表)scale Eb_major変ホ長調音階(バイオリン指板表)scale Eb_major
変ホ長調音階(バイオリン指板表)scale Eb_major
 
E 66 pont fog 403 a 404a-411a montage 10-79
E  66 pont fog 403 a 404a-411a montage 10-79E  66 pont fog 403 a 404a-411a montage 10-79
E 66 pont fog 403 a 404a-411a montage 10-79
 
TTF.49
TTF.49TTF.49
TTF.49
 
Hizb 7
Hizb 7Hizb 7
Hizb 7
 
12.19 The Future
12.19 The Future  12.19 The Future
12.19 The Future
 
קניון מלחה - חנויות בקומה 3
קניון מלחה - חנויות בקומה 3קניון מלחה - חנויות בקומה 3
קניון מלחה - חנויות בקומה 3
 
825 vruce olovo
825  vruce olovo825  vruce olovo
825 vruce olovo
 
รหัสลับหลังคาโลก เล่ม 10
รหัสลับหลังคาโลก เล่ม 10รหัสลับหลังคาโลก เล่ม 10
รหัสลับหลังคาโลก เล่ม 10
 

Similar to 20BI-Artigo_TCC_final

GOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdfGOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdfJoseEPininga
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationLeonardo Couto
 
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...tdc-globalcode
 
Governança de Dados-Uma abordagem via Canvas MGD_v02
Governança de Dados-Uma abordagem via Canvas MGD_v02Governança de Dados-Uma abordagem via Canvas MGD_v02
Governança de Dados-Uma abordagem via Canvas MGD_v02Carlos Barbieri
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Carlos Barbieri
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoClaudio Bonel
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
realizando_limpeza_de_dados_com_data_quality_services
realizando_limpeza_de_dados_com_data_quality_servicesrealizando_limpeza_de_dados_com_data_quality_services
realizando_limpeza_de_dados_com_data_quality_servicesarthurjosemberg
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...tdc-globalcode
 
Qualidade Dados vs Dados Qualidade Gilberto Pereira
Qualidade Dados vs Dados Qualidade Gilberto PereiraQualidade Dados vs Dados Qualidade Gilberto Pereira
Qualidade Dados vs Dados Qualidade Gilberto PereiraP&P - Pessoas e Processos
 
Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Leonardo Couto
 
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaWiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaLeonardo Couto
 
Transforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaTransforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaLeonardo Couto
 
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...E-Commerce Brasil
 
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...Universidade de São Paulo (EEL USP)
 
A utilização de datawarehouse em uma rede de concessionários de veículos como...
A utilização de datawarehouse em uma rede de concessionários de veículos como...A utilização de datawarehouse em uma rede de concessionários de veículos como...
A utilização de datawarehouse em uma rede de concessionários de veículos como...James Wright
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosCentus Consultoria
 

Similar to 20BI-Artigo_TCC_final (20)

GOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdfGOVERNANCA DE DADOS.pdf
GOVERNANCA DE DADOS.pdf
 
Wiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data PreparationWiseminer: Data Blending & Data Preparation
Wiseminer: Data Blending & Data Preparation
 
dq
dqdq
dq
 
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
TDC2018SP | Trilha Arq Dados - A importância da Governança de dados, MDM e Qu...
 
Governança de Dados-Uma abordagem via Canvas MGD_v02
Governança de Dados-Uma abordagem via Canvas MGD_v02Governança de Dados-Uma abordagem via Canvas MGD_v02
Governança de Dados-Uma abordagem via Canvas MGD_v02
 
Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03Gd canvas v01_slideshare_parte03
Gd canvas v01_slideshare_parte03
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª Edição
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
realizando_limpeza_de_dados_com_data_quality_services
realizando_limpeza_de_dados_com_data_quality_servicesrealizando_limpeza_de_dados_com_data_quality_services
realizando_limpeza_de_dados_com_data_quality_services
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
 
Qualidade Dados vs Dados Qualidade Gilberto Pereira
Qualidade Dados vs Dados Qualidade Gilberto PereiraQualidade Dados vs Dados Qualidade Gilberto Pereira
Qualidade Dados vs Dados Qualidade Gilberto Pereira
 
Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01Wiseminer data intelligence 2015 01
Wiseminer data intelligence 2015 01
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem CompetitivaWiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
Wiseminer Data Intelligence - Transformando Dados em Vantagem Competitiva
 
Transforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem CompetitivaTransforme Dados em Vantagem Competitiva
Transforme Dados em Vantagem Competitiva
 
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
Fórum E-Commerce Brasil | O Poder da Gestão de Dados Mestres na Transformação...
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...
A Importância dos Sistemas de Qualidade para o Desenvolvimento de Software da...
 
A utilização de datawarehouse em uma rede de concessionários de veículos como...
A utilização de datawarehouse em uma rede de concessionários de veículos como...A utilização de datawarehouse em uma rede de concessionários de veículos como...
A utilização de datawarehouse em uma rede de concessionários de veículos como...
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de Dados
 

20BI-Artigo_TCC_final

  • 1. Projeto de pesquisa Os benefícios de Qualidade de Dados e seus desafios: Padronização, Aplicação de Políticas e Data Profiling. Jonata Stracci Santos, RM 41577 jstracci.inc@gmail.com Orientador: Celso Poderoso RESUMO A informação é o bem mais valioso de qualquer negócio. No atual momento tecnológico, onde dados são gerados e armazenados em múltiplas plataformas corporativas, credibilidade e legitimidade dos dados são essenciais para o sucesso de qualquer negócio. A baixa qualidade de dados tem uma série de consequências negativas para a manutenção e evolução de qualquer organização. Este artigo irá fornecer conceitos gerais de Qualidade de Dados, e ilustrar como Data Profiling pode ser utilizado para melhorar a qualidade dos dados das organizações. Palavras-chave: Qualidade de Dados, Data Profiling, Data Warehouse, Metodologia, Business Intelligence. ABSTRACT Information is the most valuable asset of any given business. In the current technological moment where data is generated and stored in multiple enterprise platforms. Data's credibility and legitimacy are essential to the success of any kind of business. As a result, the poor quality of data has a number of negative consequences to the growth of any organization. This article will provide general concepts of Data Quality, and illustrate how Data Profiling can be used to improve the quality of organization’s data.
  • 2. Keywords: Data Quality, Data Profiling, Data Warehouse, Methodology, Business Intelligence.
  • 3. ÍNDICE Introdução................................................................................................................................................4 Qualidade de Dados (Data Quality)...........................................................................................................5 Cenários e Desafios ..............................................................................................................................5 Padronização, Aplicação de Politicas ..............................................................................................................................................................6 Dimensões de Qualidade de Dados...........................................................................................................7 Os principais aspectos de um projeto de Qualidade de Dados.............................................................9 Investigação de dados com Data Profiling ................................................................................................................................................................10 Data Profiling ............................................................................................................................................................11 Metodologia de Data Profiling ............................................................................................................................................................12 Introdução ao Oracle Entreprise Data Quality (OEQD) ................................................................................................................................................................13 Exemplo de Utilização Metodologia e Ferramenta ............................................................................................................................................................15 Primeiro Passo: ............................................................................................................................................................15 Segundo Passo: ..................................................................................................................................19 Conclusão................................................................................................................................................24 Bibliografia..............................................................................................................................................26
  • 4. Introdução A ausência de metodologia, padrões e monitoração: está diretamente relacionada aos desafios que organizações enfrentam durante o processo de implementação de Qualidade de Dados. “Empresas estão empenhadas e cada vez mais direcionadas a capitalizar a informação e principalmente o conhecimento” (Kuan-Tsae, 1999, p.2). Entretanto, na maioria das vezes estas mesmas empresas estão lutando silenciosamente contra o impacto da baixa qualidade dos dados. Um recente estudo do instituto Gartner como mais de 600 usuários de Business Intelligence apresenta que: 35% destes participantes afirmaram que Qualidade de Dados está entre os três maiores problemas que organizações iram lidar nos próximos 12-18 meses [1]. Quando tratamos especificamente de Business Intelligence, também conhecido amplamente como sistemas de tomada de decisão, é importante destacar que a baixa qualidade dos dados analisados tem um impacto de grande alcance e os efeitos podem ser tangíveis e intangíveis [2]. Além disso, a baixa qualidade de dados leva os usuários de Business Intelligence a desacreditar e por fim abandonar o uso destas ferramentas. Sendo assim, garantir dados completos e consistentes é primordial para uma implantação de Business Intelligence bem sucedida. Em outras palavras a qualidade de dados é o fator chave de sucesso para a tomada de decisão empresarial. Ao logo deste artigo procuro detalhar as Dimensões e Aspectos de Qualidade de dados, Ausência de Padronização e Políticas. Deixando em evidencia os grandes desafios de Qualidade de Dados e sua magnitude. Além disso, será disponibilizado adaptação de metodologia de investigação de dados. Será introduzido diretrizes que poderão, se adotadas, enriquecer qualquer projeto de Qualidade de Dados, em especial para projetos de implementações de Data Warehousing. E por fim, apresentar como uma das ferramentas de Qualidade de Dados – Data Profiling tem um papel essencial na avaliação de conteúdo, estrutura e na qualidade dos dados.
  • 5. Qualidade de Dados (Data Quality) “Define-se como atividade que detecta e corrige anomalias nos dados” (C. Batini, 1998), ou para um dos maiores especialistas da área Larry P. English “cumprir de forma consistente o trabalho intelectual e as expectativas do cliente final”. Trazendo para o dia-a-dia de projeto, é comum escutar que qualidade de dados é o uso de dados adequadamente para atender aos requisitos de negócios. De fato, em todas as literaturas citadas nesse artigo é possível encontrar um padrão nas citações das características coletivas de Qualidade de Dados tais como: validade, integridade, acessibilidade, pontualidade, contexto, precisão, confiabilidade, integralidade. É importante destacar que, Qualidade de Dados é composta por parâmetros mensuráveis e subjetivos que podem ser totalmente modificados conforme a estratégia de negócio abordada em cada projeto. Dados inconsistentes, imprecisos, incompletos e desatualizados é a principal causa de problemas nas análises, e consequentemente pode ser o maior desafio de implementação de um projeto de Business Intelligence de sucesso. Por exemplo: ineficiência operacional, análise de falhas na otimização de negócios e por fim clientes insatisfeitos [3]. De modo geral, o objetivo do processo de Qualidade de dados (Data Quality - DQ) é de monitorar e melhorar a qualidade de dados da Empresa, de forma objetiva e prática ao longo do tempo. Existe no mercado inúmeros frameworks de DQ, afim de entender e direcionar suas aplicações em organizações. É importante destacar que na pratica, a qualidade de dados é uma preocupação para os profissionais envolvidos em implementações de uma vasta gama de sistemas de informações, que podem variar entre armazenamento de dados, inteligência de negócios (BI), sistemas de relacionamento com o cliente, sistemas de gestão de cadeia de abastecimento, dentre outros [3]. Afim de limitar o escopo deste artigo, levo em consideração na sua totalidade, o relacionamento de DQ (Data Quality- Qualidade de Dados) em relação ao escopo de implantação de sistemas de inteligência de negócio (BI). Cenários e Desafios Existem muitos desafios a serem solucionados ao decorrer de implementação de Qualidade de Dados, ou ainda maiores desafios a serem enfrentados quando tratamos no nível corporativo (Governança de Qualidade de Dados). Entretanto é de amplo conhecimento que na maioria dos casos de implementações de qualidade de dados, em projetos de business Intelligence, o resultado da baixa qualidade de dados tem como origem principal a fonte de dados (Sistemas legado) e/ou falta de especificações de negócio com qualidade. Em outras palavras a baixa qualidade de dados está atrelada a falta de padrões e procedimentos dos sistemas responsáveis pelo dado, por exemplo:
  • 6. sistemas de relacionamento com o cliente, sistema de armazenamento de controle e nota fiscais, dentre outros. Os grandes vilões desse desafio podem ser; falta de padronizações no processo de entrada de dados, baixa qualidade na documentação do processo de negócio, falta de integridade entre origem de dados, erro na transformação do dado, erro na integração do dado entre sistemas distintos, erro na entrada de dados, dentre outros. Que de fato produzem os problemas mais frequentes de qualidade de dados. Além disso é de grande conhecimento do mercado que erros de entrada de dados são rotineiros, estes erros podem incluir erros ortográficos, transposições de números, códigos incorretos, campo não informado (sem preenchimento), nomes irreconhecíveis, abreviaturas ou siglas, dentre outros [4]. Podemos visualizar esse fato de mercado através de gráfico publicado no artigo Data Warehousing Special Report: Data Quality and the bottom Line – (Eckerson, Wayne W. - TDWI, 2002) [4]. 0 20 40 60 80 100 Entrada de Dados por Funcionário Entrada de Dados por Cliente Mudanca de Sitema Origem de Dados Migração de Dados Expectativa de Usuário Errônea Dados Externos Erro de sistema Outros Origem de Problemas de Qualidade de Dados Figura 1: A entrada de dados nos Sistemas origens (sistemas legado, web ou cliente-servidor ...) e Mudança de sistemas Origem de Dados são as maiores causas de problemas/baixa qualidade de dados para gerentes de Data Warehousing. (Pesquisa considera uma ou mais opções). Padronização, Aplicação de Politicas A falta de adoção de padrões, metodologia, dicionário de dados, e pincipalmente ausência de rotinas de validação são os maiores responsáveis pelo cenário apresentado na Figura 1 [4]. Levando em consideração estas afirmações com o intuito em exemplificar, é possíveis agrupar os problemas de qualidade de dados em um modo geral (mundo técnico) em duas categorias: Problemas evitados por
  • 7. mecanismos de SGBDRs (Sistemas de Gestão de Base de Dados Relacionais) e Problemas não evitados por mecanismos de SGBDRs. • Problemas evitados por mecanismos de SGBDRs: Os Sistemas de Banco de dados possuem mecanismos a fim de assegurar a integridade dos seus esquemas de dados. Quando bem definidos evitam grandes problemas de qualidade de dados. Exemplo de mecanismos: Not Null, Unique e Primary Key, Foreign Key, Domain, Check, Default e triggers... • Problemas não evitados por mecanismos de SGBDRs: Existem no entanto problemas com dados que não podem ser evitados através da definição de restrições de integridade suportado pelos SGBDRs. Estes problemas podem atingir registros isolados ou conjuntos de registros. Estes problemas podem ser: campo preenchido como “Não Informado”, dados que não representam a realidade no mundo real, dados que não seguem requisitos de negócio, erro de entrada de dados, registros aproximadamente duplicados por entrada de dados equivocado (o mesmo cliente cadastrado duas ou mais vezes, erro manual de entrada de dados), unidade de medida inconsistente, dentre outros possível problemas. Os desafios são inúmeros, e a presente demanda por Qualidade de Dados está presente no dia a dia de qualquer projeto ou área de Business Intelligence, sendo através de demandas regulatórias ou até mesmo de integração de sistemas afim de analisar o cliente. Acredito que com um foco holístico e principalmente corporativo é possível afirmar que cada vez mais o dado (informação) se torna um dos maiores bens de qualquer organização. Dimensões de Qualidade de Dados Agora que já possuímos uma breve bagagem sobre Qualidade de Dados, e principalmente sabemos os maiores desafios que qualquer projeto de Qualidade de Dados irá enfrentar. Uma pergunta básica vem à mente, Quais os principais aspectos que um projeto de Qualidade de Dados ira lidar? Como esse artigo tem o objetivo em apresentar uma das ferramentas que podemos usar para analisar a qualidade de dados (Data Profilling), não poderia deixar de comentar que a maioria dos especialistas do assunto introduzem robustos frameworks afim de planejar e executar projetos de aperfeiçoamento da qualidade dos dados de uma organização. Em outros casos são apresentado dimensões e/ou aspectos de um projeto de Qualidade de Dados. Gostaria de enfatizar que: em ambos os casos são utilizado técnicas e aspectos alinhados com conhecimento do negócio com o objetivo principal em planejar, executar e apresentar o estado atual e futuro da qualidade dos dados organizacional [2]. Em outras palavras a mescla de técnicas e padrões em um framework direciona o projeto de qualidade de
  • 8. dados. Na tabela abaixo, será apresentado de modo geral os aspectos(dimensões) de um projeto de qualidade de dados. Tabela 1: Tabela descritiva de visão geral das dimensões de Qualidade de Dados. Adaptação de Data Quality Dimensions - Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information [2].
  • 9. Em cada dimensão são utilizados inúmeras técnicas e ferramentas afim de executar o projeto com sucesso. No nosso caso a ferramenta/técnica de Data Profiling pode ser utilizada para atender demandas das seguintes dimensões: ‘Integridade de Dados Fundamentais’, ‘Exatidão’, ‘Duplicidade’, ‘Transação de Negócio Requisitado’. Onde Data Profiling será detalhado no tópico Investigação de dados com data Profiling. Os principais aspectos de um projeto de Qualidade de Dados No começo do tópico Dimensões de Qualidade de Dados foi levando a questão, Quais os principais aspectos que um projeto de Qualidade de Dados ira lidar? Contudo, já sabemos que o projeto deve ser direcionado através de framework e dimensões de conhecimento e principalmente uma abordagem holística e corporativa, entretanto ainda não temos um panorama geral para solucionar esta pergunta. Sendo assim à partir da consolidação destes argumentos, podemos agora definir em termos gerais os seis aspectos (por Jim Harris – Outubor de 2013) que todos os profissionais de qualidade de dados iram lidar. 1. Investigar: Trata-se da Investigação periódica da qualidade de dados. A atividade de investigação significa analisar os dados dentro de uma ótica qualitativa, sem necessariamente inserir os pontos analisados (ou os problemas descobertos) como regras de validação. É muito importante que seja definido uma periodicidade para a execução da atividade de Investigação de qualidade dos dados. Podemos notar que investigação faz parte de muitas dimensões apresentadas na Tabela 1. Esteja preparado para conhecer os requisitos de negócio e principalmente os processos de negócio. A interação com a área usuária será prioritária. 2. Comunicar: À partir dos levantamentos (investigações) o próximo passo é comunicar, os resultados desta avaliação para o público responsável. Com o objetivo em ajudar a melhorar a compreensão dos dados, verificar relevância dos dados e priorizar questões críticas [5]. É importante destacar que este fórum pode ser muitas vezes estressante e gerar situações desagradáveis, entretanto é essencial para a avaliação dos custos do projeto. Onde à partir desse ponto será definido uma agenda e escopo de trabalho. 3. Colaborar: A colaboração entre áreas, equipes, negócio vs. tecnologia deve se tornar a chave de sucesso do projeto. Depois de ter investigado e comunicado, será necessário reunir a equipe que irá atuar em conjunto para melhorar a qualidade de dados. Uma equipe interdisciplinar será necessário porque podemos ver na maioria das dimensões encontramos necessidades de uma ótima coesão entre o negócio e o técnico
  • 10. 4. Remediar: Com objetivo em resolver os problemas de qualidade de dados será necessário a combinação entre tarefas de limpeza de dados e prevenção de defeitos. E nesse aspecto que é reforçado a necessidade de uma visão holística e corporativa, onde governança de dados muitas vezes será necessário para atribuir uma prevenção de defeitos estruturada e bem sucedida. Em outras palavras é inevitável que a limpeza de dados é usada para corrigir os problemas atuais, enquanto a prevenção de defeitos está direcionado a construir um futuro melhor. 5. Estimular: Esse aspecto está diretamente ligado ao sucesso de implementações, onde é necessário estimular os próximos passo. É importante sempre relacionar o sucesso de implementações ao impacto nos negócios, tais como riscos mitigados, custo reduzidos, ou até mesmo aumento de receitas. 6. Reiterar: O processo de qualidade de dados é continuo e sempre haverá melhorias em projeções. Além disso o monitoramento do dados também é deve ser continuo. Sabemos que o negócio muda constantemente, a coleta de dados aumenta a cada dia, integração entre sistemas e aquisição de nova companhia são frequentes no mercado. Sendo assim é importante destacar que a jornada de qualidade de dados deve fazer parte do dia a dia de uma corporação. Finalmente, após o detalhamento dos 6 aspectos podemos ter uma visão clara, mesmo que macro, dos aspectos que profissionais que atuam em qualidade de dados iram lidar no seu dia a dia. No próximo tópico será apresentado a metodologia e ferramenta de Data Profiling. Investigação de dados com Data Profiling Até o momento o artigo apresentou uma visão geral sobre Qualidade de Dados. Através da introdução das suas dimensões e aspectos foi possível identificar as principais características, ferramentas e processos. Adiante iremos navegar em linhas detalhadas sobre Data Profiling. O intuito deste tópico; tem o objetivo em descrever, exemplificar e estabelecer metodologia de investigação de dados. Será introduzido diretrizes que poderão, se adotadas, enriquecer qualquer projeto de Qualidade de Dados, em especial para projetos de implementações de Data Warehousing tanto para relatórios de tomada de decisão quanto mineração de dados e similares. Na figura 2 [7] pode-se notar que a utilização de Data Profiling neste artigo se aplica entre as origens de dados (Legado) e o Data Warehouse (destino), entretanto a metodologia aqui detalhada poderá ser utilizada entre integrações de sistemas, construção e manutenção de Data Warehousing, manutenção e implementação de sistema legado, integração de
  • 11. sistemas externos, dentre outros. É de conhecimento que nenhum projeto de Data Warehousing pode ser desenvolvido sem dados. A coleta desses dados passa através do conhecimento dos diferentes sistemas responsáveis por este grupo de dados. Entretanto a qualidade desses dados será a chave de sucesso de qualquer implementação. Figura 2[7]: Abrangência de qualidade de dados e data Profiling. Existe no mercado ferramentas facilitadoras para implementação de Data Profiling, em outros casos são adotados tarefas manuais com auxílio de ferramentas do tipo Excel e SQL. Nesse artigo será usado como exemplo literário as ferramentas Oracle Data Integrator, que tem o objetivo principal na integração dos dados (Processo de ETL: Extração, Transformação e Carga de dados) e também a extensão Oracle Data Integrator – Data Quality e Data Profiling. Este artigo não tem o intuito em vender, apresentar, direcionar a utilização de uma determinada ferramenta, e sim apresentar adaptação de metodologia de Data Profiling e seus benefícios. Sendo assim dito, é importante destacar que a implementação do processo de Data Profiling fornecera as características do metadados associado ao conjunto de dados de escopo do projeto, que ajudara a reduzir a quantidade de esforços necessários para a integração de dados. As informações recolhidas através de Data Profiling ajuda a automatizar a preparação de dados para a integração (ETL), e se desenvolvida com sucesso produzira redução significativa no custo da construção do Data Warehousing. Jack Olson [6] comenta no seu livro que “a realização de Data Profiling no início de um projeto pode reduzir o custo total do mesmo projeto em 35%.” levando essa afirmação em consideração, ele sugere que para muitos projetos de Data Warehousing o custo de uma ferramenta de Data Profiling é pequeno perto das economias que este projeto irar obter com a implementação da metodologia de Data Profiling. Agora que possuímos uma introdução e já conhecemos que a implementação da metodologia e processos de Data Profiling poderá trazer retorno econômicos para qualquer implementação de Data Warehousing, chegou o momento de apresentar detalhadamente Data Profiling. Data Profiling Data Profiling é definida como uma das atividades do processo de qualidade de dados. Além disso, como apresentado na Tabela 1 Data Profiling (DP) é uma ferramenta usada em muitas dimensões de
  • 12. um projeto de Qualidade de Dados. O processo de Data Profiling pretende detectar de forma sistemática, erros, inconsistências, redundâncias e a existência de informação incompleta nos dados e respectivos metadados [6]. Depois da análise dos dados, o processo de DP deve produzir um conjunto de relatórios com informação sobre o estado dos dados. Qual o resultado esperados deste relatório/analise? 1. Avaliar se os metadados descrevem exatamente os valores reais da base de dados; 2. Ter uma ideia clara da qualidade dos dados; 3. Direcionar a correção dos dados que apresentam problemas, através de uma ferramenta de limpeza de dados (Data Cleaning); 4. Equacionar a alteração dos requisitos da aplicação (Origem). Avaliar o planejamento de um projeto de remediação. Metodologia de Data Profiling Existe no mercado muitas metodologias de Data Profiling (DP), neste tópico pretendo apresentar adaptação da metodologia proposta por Jack Olson [6]. A adaptação da Metodologia pode ser aplicada em qualquer banco de dados e projeto de qualidade de dados. Contudo deve se respeitar os requisitos de negócio, funcionais e técnicos de cada projeto que adote esta metodologia. Objetivo é reportar de forma rigorosa e sistêmica o maior número de erros. A adaptação se baseia em abordagem bottom-up, começando no elemento mais elementar (coluna) progredindo até os elementos mais complexos (Regra de Negocio). Para que se consiga analisar um escopo de dados na sua totalidade, a adaptação é constituída por três etapas principais: Analise de colunas (Analise das propriedades, dicionários de dados e analise estatísticas, medida mensurável), Analise de Estruturas e Analise de Regras de Negócio [6]. Abaixo será detalhado cada etapa: 1. Analise de colunas: a. Analisar as propriedades de cada coluna a fim de se verificar se a mesma segue de acordo com o conjunto de propriedades da coluna. Exemplo: Analisar se determinado campo deve ser ou não do tipo CHAR ou do tipo STRING. b. Analisar e validar as colunas através de comparação com a definição do dicionário de dados e seu determinado domínio. Exemplo: Confrontar tamanho de CEP conforme os padrões adotados pelo Correio. c. Analisar cada coluna aplicando funções estatísticas tais como cálculo de percentuais, contagens, máximos, mínimos, medias, medianas. Desta forma o analista pode encontrar conclusões sobre possíveis anomalias que existem nos dados de uma
  • 13. coluna. Exemplo: Usando a função MAX ou MIM o analista ao verificar os resultados pode afirmar que existem ou não inconsistências de domínio na coluna. 2. Analise de Estruturas: Tem como objetivo detectar todas as relações que existem entre as colunas de uma tabela e as relações que existem entre as tabelas de um Banco de dados. Esta etapa relata anomalias no nível da estrutura de banco de dados. O processo de análise da estrutura dos dados é semelhante ao da análise das propriedades de uma coluna. Todo o processo é efetuado através do desenho da solução, definição da solução e da validação da documentação contra a solução aplicada no Banco de Dados. 3. Analise de Regras de Negócio: O terceiro passo da metodologia permite avaliar os dados segundo um conjunto de condições que estão definidas no negócio. A detecção de anomalias é efetuada através da validação das regras de negócio e seu objetivo. Resumidamente o objetivo é testar se os dados obedecem a determinadas condições definidas pelas regras de negócio. E importante destacar que a utilização desta metodologia irá trazer benefício e artefatos para provar qual o escopo de dados que deverá ser corrigido no projeto de qualidade de dados. Além disso, Data Profilling está diretamente relacionado a dimensão Exatidão (Tabela 1) que tem como objetivo mensurar o conteúdo dos dados referente a sua fonte onde podemos relacionar a tarefa 1. C da metodologia apresentada acima. Com a utilização de funções MAX, MIN, o analista de negócio poderá encontrar padrões, e afirmar assertividade no escopo de dados analisado. Sendo assim, podemos concluir que a ferramenta de Data Profiling pode ser usado para avaliar a integridade dos dados. Além disso, Data Profiling tem o objetivo em mostrar se um registro de cliente, campo no sistema de inventario por exemplo, tem um padrão valido e se o conteúdo do dado está de acordo com o esperado pelo negócio. Entretanto, apenas o cliente pode confirmar se o seu RG, por exemplo, armazenado no sistema é de fato correto. Do mesmo modo que apenas contando os produtos na prateleira e comparando estes contra o sistema de inventario, podemos afirmar que o resultado da contagem manual reflete o valor disponível no sistema de estoque. Como o próprio Jack Olson cita [6] "Você não pode dizer se algo está errado, a menos que você possa definir o que é ser certo.", em outras palavras, em circunstâncias especificas será necessário trabalhos manuais e abrangentes, esteja preparado para isso. Introdução ao Oracle Entreprise Data Quality (OEQD) Agora que temos a metodologia de Data Profiling a ser seguida, e sabemos que a aplicação dessa metodologia e seus processo trarão grandes benefícios para a implementação de projeto de qualidade de dados em implementações de Data Warehousing. Será apresentado nesse tópico com intuito em exemplificar a utilização de ferramenta seguindo a adaptação da metodologia proposta acima. Todo projeto de implementação de Data Warehousing passa por processo de escolha de ferramentas, para
  • 14. este exemplo literário não foi diferente. Após uma avaliação de mercado foi escolhido a utilização das ferramentas Oracle Entreprise Data Quality, que fornece uma camada de ferramentas que atende grande amplitude e funcionalidades para Qualidade de Dados. Onde estas ferramentas podem ser resumidas da seguinte forma: • Data Profiling and Auditing: Ferramentas com intuito em compreender os dados e identificar rapidamente os problemas de dados e monitorar a evolução da qualidade dos dados. • Data Parsing and Standardization: Processadores poderosos para transformar e padronizar nomes, endereços, números de telefone e outros tipos de dados. • Matching, Merging, and Survivorship: Capacidade de integração, opção de harmonização para vinculo ou mescla de registros, configuração de regra de sobrevivência flexível (Survivorship) Um dos principais motivos da escolha das ferramentas Oracle de qualidade de dados está relacionado a amplitude e coesão com os aspectos de qualidade de dados descritos no tópico “os principais aspectos de um projeto de qualidade de dados”. Na figura abaixo apresento a arquitetura que deve ser adotada. Figura 3 [8]: Arquitetura OEDQ (Oracle Entreprise Data Quality), baseado em Getting Started Guide ODQ – 196909 Podemos notar na figura 3 a amplitude de funções que OEDQ irá atender no projeto de qualidade de dados. Além disso, abaixo descrevo detalhadamente esta arquitetura: Oracle Data Profiling: • Metabase Server – contém todos os metadados;
  • 15. • Scheduler Server – Executa jobs de profiling (carga de tabelas, analise, investigações); • Oracle Data Quality User Interface – Interface gráfica para acesso ao Oracle Data Profiling and Data Quality. • Oracle Data Quality ODBC Adapter – utilizado para conectar via ODBC nas origens. Este componente adicional somente pode ser instalado em Windows. Oracle Data Quality: Utilize os mesmos componentes do Oracle Data Profiling, além disso possui um componente específico “Data Quality Server” (servidor do Oracle Data Quality). • Portas: Durante a instalação do Oracle Data Profiling e Data Quality será necessário a criação de duas portas que devem estar habilitadas entre as máquinas cliente e o servidor. Estas portas são utilizadas pelos seguintes serviços: • Oracle Data Quality Scheduler – Requer uma porta chamada “Scheduler Port”; • Oracle Data Profiling and Quality Metabase Repository – requer uma porta chamada “Repository Port”. Entretanto neste artigo será apresentado apenas exemplo de utilização da ferramenta de Data Profiling, afim de exemplificar a utilização da metodologia apresentado ao longo do artigo. Após a instalação da arquitetura, que não iremos tratar, e principalmente o desenvolvimento de escopo e documentos funcionais que descrevem o negócio. Será iniciado o processo de Data Profiling conforme os passos a seguir. Exemplo de Utilização Metodologia e Ferramenta Com o intuito em explicar a utilização da ferramenta alinhada com a metodologia que foi introduzida neste artigo. Será definido que o escopo deste projeto trata de qualidade de dados de base de cliente entre camada intermedia de carga para sistema de Data Warehousing, maiores detalhamentos serão apresentados ao longo deste tópico. Abaixo será apresentado passo a passo de implementação de Data Profiling alinhando as melhores práticas de utilização da ferramenta e principalmente a utilização da adequação da metodologia de Data Profiling. Primeiro Passo: • Objetivo: Entender os problemas de qualidade de dados
  • 16. • Abordagem: o Identificar o grupo de dados que será analisado; o Identificar os requisitos de qualidade de dados; o Extrair os dados do sistema origem; o Profiling cada grupo de dados; o Início do desenvolvimento de avaliação de qualidade de dados. • Entregáveis: o Perfil dos dados (Profiling); o Relatórios de qualidade de dados. E de fácil percepção que os processos que são adotados na ferramenta de Data Profiling seguem a adaptação da metodologia descrita ao longo do artigo. O objetivo é alinhar a metodologia e aplicá-la com a ajuda da ferramenta. Abaixo será descrito detalhadamente as abordagens/atividades: Figura 4: Detalhamento dos processos de entendimento de problemas de qualidade de dados, adequação metodologia de Data Profiling e melhores práticas de utilização da ferramenta de Data Profiling Oracle. 1. Carga de arquivo de dados: i. Criar um Data Store: Um ‘data store’ define as informações de conexão com a origem de dados.
  • 17. Figura 5: Criando novo Data Store. ii. Criar um SnapShot: Um SnapShot é a cópia dos dados oriundos da origem de dados que será armazenada no repositório do EDQ. Figura 6: Criando um SnapShot. 2. Desenvolver processo de Profiling: Crie um novo processo e adicione processadores (funções) de perfis. Figura 7: Exemplo de processo de Profiling. A ferramenta de Data Profiling disponibiliza uma cadeia de processadores (funções) de perfis (Profiling processors), com o intuído em entender e identificar problemas na qualidade de dados. Abaixo podemos ver a descrição de alguns processadores, que alinhado ao requisito de negócio facilitara o esforço de programador.
  • 18. Figura 8: Exemplo de profiler, funções disponíveis pela ferramenta. 3. Avaliar processo de Profiling: Executar Drill down sobre os dados para investigar possíveis problemas de dados. O ‘Results Browser’ apresenta os resultados de cada função do processo criado. Além disso os links disponibilizados no ‘Results Browser’ possibilita ao analista visualizar os dados reais à partir dos dados encenados. Figura 9: Results Browser, após a exclusão do processo de profiling será disponibilizado resultados conforme apresentado na figura. Figura 10: Results Browser detalhados.
  • 19. Na figura 10 pode ser notar a versatilidade da ferramenta que disponibiliza informações sobre o processo executado de Profiling. Em outras palavras, à partir do desenvolvimento do processo de profiling seguindo os requisitos de negócio e principalmente a metodologia de data profiling podemos obter uma grande gama de analises, estas que não só ajudaram na definição de escopo de dados a serem atacados na qualidade de dados da integração como disponibiliza os dados em si. 4. Preparar resultado de Profiling: Criar grupo de relatórios para documentar os resultados de profiling. Também será possível o desenvolvimento de gráficos. Figura 11: Opções de relatórios disponíveis. Segundo Passo: • Objetivo: Detalhar e Avaliar Profilling • Abordagem: o Priorizar tarefas detalhadas de Profiling o Executar tarefas detalhadas de Profiling o Desenvolver avalição detalhada • Entregáveis: o Avaliação de qualidade de dados detalhada
  • 20. O segundo passo é composto por tarefas que tem como objetivo final apresentar avaliação detalhada da qualidade de dados. Esta avaliação detalhada seguira os resultados esperados pela metodologia de data profiling tais como avaliar metadados, avaliação da qualidade de dados, direcionar a correção dentre outros. Abaixo será detalhado o segundo passo: Figura 12: Detalhamento dos processos de detalhamento e avaliação de profiling. Processo incremental à partir dos resultados do primeiro passo. O primeiro passo indicou que existe prováveis problemas de qualidade de dados como por exemplo: o número do telefone do cliente. Lembrando que o objetivo desse artigo é apresentar a metodológica e exemplificar a utilização da ferramenta, sendo assim poderá ser aplicado estes passos em qualquer massa de dados. Agora que fechamos o escopo da baixa qualidade de dados do campo número de telefone do cliente, será necessário ‘digging down’, que em outras palavras significa ir a fundo no problema. À partir do detalhamento será possível auxiliar a identificação de problemas específicos e subsequentes auditoria e correção necessária na origem, no processo de negócio e em alguns casos em processo de ETL de origem para DW. E importante destacar que quando o desenvolvimento de DW está relacionado a governança de dados corporativo muitas vezes a solução do problema de baixa qualidade de dados será aplicado no menor nível, em outras palavras na origem de dados. Entretanto, em alguns casos a solução será aplicada em processos de ETL de camadas intermediarias do DW. Esta solução dependera do escopo do projeto que irá aplicar a metodologia apresentada nesse artigo. Voltando para o escopo do problema de qualidade, o próximo passo será a criação de snapshot que extrai apenas as informações do campo número de telefone a partir da fonte de dados. 1. Criar Snapshot detalhado:
  • 21. Figura 13: Criando snapshot detalhado apenas com os campos necessários para o detalhamento do problema de qualidade de dados do campo telefone. 2. Desenvolver processo de profiling detalhado: Com o Snapshot número de telefone criado, agora será necessário desenvolver processo de profiling detalhado que possuirá funções adicionais para ajudar a entender os dados e conduzir os tipos de remediação e auditoria. Após o desenvolvimento do processo o mesmo necessita ser executado. Conforme figura 14. 3. Avaliar resultados de profiling detalhado:
  • 22. Figura 14: Processo detalhado de profiling e resultado. Avaliar os resultado detalhados utilizando ‘drill down’ em cada resultado de atributo detalhado. Exemplo, examinar o retorno do profiling com funções Min / Max que neste caso mostra que o comprimento máximo de todos os dados do número de telefone está dentro da especificação. No entanto, o valor do comprimento máximo não é um número de telefone válido, levando então a necessidade de criar profiling adicionais, tais como a verificação de caracteres inválidos dentro do número de telefone de dados. A figura 14 mostra exemplo de processo de profiling detalhado já executado, que tem como objetivo testar a qualidade de regra de negócio que segue os seguintes requisitos: Número de Telefone não deve exceder 25 caracteres, Extensão do número de telefone não deve exceder 20 caracteres, Código de Área não deve exceder 10 caracteres. Esse exemplo segue o tipo três da metodologia de data profiling – Analise da regra de negócio. Conforme figura 14 podemos notar que todos os campos seguem os requisitos de negócio, entretanto o teste Max do campo PRIMARY_PHONE_NUMEBER apresenta um e-mail como retorno máximo sendo assim encontrado erro de qualidade de dados. Em resumo o campo foi preenchido no mínimo uma vez com um valor não valido. Uma das características mais importantes da ferramenta na tarefa de avaliação do resultado do profiling é o ‘drill down’, fique atendo as possíveis formas de utilizar esta função. Figura 15: ‘Drill down’ no registro especifico com baixa qualidade de dados, registro que possui e-mail no campo telefone. Também é possível identificar padrões de preenchimento do campo telefone à partir do ‘drill down’ conforme figura abaixo 16.
  • 23. Figura 16: Padrão de preenchimento do campo telefone. Em resumo, a utilização adequada da metodologia de data profiling com auxílio das funcionalidades da ferramenta Oracle Data Profiling (Oracle Data Integrator) alinhado com os requisitos de negócio irá proporcionar o foco da baixa qualidade de dados. 4. Desenvolver plano de remediação preliminar: Desenvolver plano de remediação preliminar à partir dos resultados do profiling e principalmente das violações de qualidade de dados. Isso inclui violações especificas relacionadas os requisitos e regras definidas para a qualidade de dados. Onde dependendo do projeto a solução pode ser aplicada em camadas intermediarias, e/ou no processo de coleta de dados, e/ou na origem de dados. Essa tarefa tem como objetivo principal apresentar as remediações. E também será necessário definir próximos passos e cenário de soluções. Conforme referência ao aspecto remediar descrito no tópico ‘Os principais aspectos de um projeto de qualidade de dados’, podemos afirmar que esta tarefa tem total coesão com este aspecto. Sem mais delongas, abaixo podemos notar o gráfico que apresenta a avaliação do exemplo campo telefônico, detalhado por campo e por regra de negócio.
  • 24. Figura 17: Gráfico com o resultado da avaliação de Data Profiling para o exemplo, campo número de telefone. Neste exemplo o plano de remediação tem como foco criar processo de qualidade de dados entre a extração do dado da origem e processo de carga no DW. Onde será aplicado as seguintes tarefas, por exemplo, determinar formato padrão do campo telefônico, determinar caracteres valido e não valido na carga, remover caracteres inválidos. Lembrando que será necessário a solicitação, revisão do requisitos funcionais juntamente com a área usuário afim de solicitar e validar o formato correto do campo telefone, normalizar o mesmo e por fim aplicar solução no processo de carga. Em resumo, esse exemplo mostrou passo-a-passo como deve ser aplicado a metodologia de Data Profiling usando a ferramenta Oracle Data Integrator - Profiling com o intuito em criar perfis de qualidade de dados, possibilitando menor esforço para a implementação de qualidade de dados em projeto de Data Warehousing. Este tópico teve o intuito em apresentar solução em linhas gerais para o desenvolvimento de data profiling. Lembrando que a ferramenta também possui funções de Cleansing (limpeza de dados) e Monitoring (Monitoração) que atendem outros aspectos de um projeto de Qualidade de Dados. A utilização da metodologia de Data Profiling com auxílio da ferramenta acrescenta um valor significativo e tangível para qualquer projeto de BI (Data Warehousing) quando utilizado para fornecer evidencias detalhada de uma massa de dados. Além disso, Data Profiling ajudara a expor regras de negócio que estão embutidas em dados trazendo eficiência durante as etapas de integração de dados. Conclusão A estratégia de Qualidade de Dados deve ser projetada para ser ágil e adaptável. Ela deve ser tratada como um processo vivo, que pode ser aperfeiçoado continuamente com o intuito em atender aos objetivos empresariais. Atualmente a crescente demanda por qualidade de dados está totalmente relacionado ao momento que vivemos onde a informação é uma das estratégias principais para
  • 25. qualquer organização se destacar no mercado. Não importa se a necessidade de projeto de qualidade de dados segue exigências legais ou regulatórias, a demanda por projetos de qualidade de dados tende apenas a crescer. Sendo assim é importante entender os aspectos de qualidade de dados e principalmente a adoção de metodologia e/ou frameworks que direcione as políticas, padrões e atividades de um projeto de qualidade de dados. Além disso, a abordagem de qualidade de dados deve ser holística e na maioria dos casos deve seguir uma perspectiva empresarial, caso contrário pode se perder a assertividade e gerar soluções inconsistentes com inúmeras ‘versões da verdade’. Lembre-se que antes de entender o que está errado, será necessário definir o que é ser certo. Tenha em mente que os dados devem ser gerenciados por todo o seu ciclo de vida desde a entrada por sistemas legado até o consumo destes em relatórios gerenciais. Entretanto as iniciativas de qualidade de dados em implementações de Data Warehousing (BI) não devem ser colocadas em segundo plano, com a justificativa de cumprir as metas de prazo ou de orçamento. É importante destacar que a carga de dados sem qualidade em um projeto de Data Warehousing resultara em relatórios sem credibilidade. Por fim, as tarefas de Qualidade de Dados devem ser um esforço conjunto de negócios e de TI para garantir o sucesso da iniciativa. O objetivo deste artigo foi apresentar em termos gerais o que é qualidade de dados, e principalmente como Data Profiling pode ajudar a melhora continua de qualidade de dados em uma implementação de Data Warehousing. Entretanto a adequação da metodologia de Data Profiling aqui apresentada pode ser utilizada em qualquer projeto de qualidade de dados, com o intuito em trazer benefícios financeiros e principalmente elevar a credibilidade dos dados. Qualidade de dados é o fator chave de sucesso para a tomada de decisão empresarial.
  • 26. Bibliografia • [1] Gartner, ‘Gartner Says Organizations Must Establish Data Stewardship Roles to Improve Data Quality’, January 2008 -Disponível em: http://www.gartner.com/newsroom/id/589207 • [2] Danette McGilvray, Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information (Morgan Kaufmann Publishers © 2008) • [3] C. Batini, Data Quality: Concepts, Methodlogies and techiniques (Data-Centric System and Application) – ( Springer, New York, 1a ed., 1998 ) • [4] Eckerson, Wayne W., Data Warehousing Special Report: Data Quality and the bottom Line – (TDWI, 2002) Disponível em: http://download.101com.com/pub/tdwi/Files/DQReport.pdf • [5] Jim Harris is the OCDQ Blogger – Obsessive Compulsive Data Quality – Outubro 2013 Disponível em: http://www.ocdqblog.com/home/data-quality-in-six-verbs.html • [6] J. E. Olson, Data Quality: The Accuracy Dimension ( Morgan Kaufmann, 1a ed., Dezembro 2002 ) • [7] Comprehensive Data Quality with Oracle Data Integrator and Oracle Enterprise Data Quality ( Oracle White Paper – Janeiro 2013 ) Disponível em: http://www.oracle.com/technetwork/middleware/data-integrator/overview/oracledi-comprehensive-quality-131748.pdf • [8] Getting Started Guide ODQ – 196909, Oracle, October 2009 - Disponível em: http://www.oracle.com/technetwork/middleware/data-integration/overview/odq-11g-getting-started-guide-196909.pdf • Kuan-Tsae Huang, Yang W. Lee, and Richard Y. Wang, Quality Information and Knowledge (Prentice Hall PTR, 1999), p. 2. • Larry P. English John Wiley, Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits (Sons, 1999) (Larry P. English, p 24 1999)