• Save
Análise de Clusters - White Paper ELOGroup
Upcoming SlideShare
Loading in...5
×
 

Análise de Clusters - White Paper ELOGroup

on

  • 592 views

 

Statistics

Views

Total Views
592
Views on SlideShare
591
Embed Views
1

Actions

Likes
1
Downloads
0
Comments
0

1 Embed 1

https://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Análise de Clusters - White Paper ELOGroup Análise de Clusters - White Paper ELOGroup Document Transcript

    • 1Objetivos e análise Seleção Processamento Transformação Interpretação ValidaçãoWhite Papers Elo GroupAnálise de ClustersO método multivariado proporciona a análisesimultânea de um ou mais objetos. Há uma variedadedestes métodos que se diferenciam apenas na suafinalidade. A Análise de Clusters é um dos métodosmultivariados baseado nas características dos objetos,com a tentativa de maximizar tanto a homogeneidadequanto a heterogeneidade através da formação dosclusters, tendo como objetivo a similaridade entre osgrupos.Temas relacionados: Método multivariado Análise de Clusters Processo decisórioConceitos Centrais Método multivariado: análise exploratória dedados, prestando-se a gerar hipóteses, e nãotecer confirmações a respeito dos mesmos,nos quais se tem uma afirmação a respeito daamostra em estudo. Análise de clusters: é o processo de agruparum conjunto de objetos em grupos de objetossimilares. Processo decisório: é o meio que aorganização utiliza para alcançar os objetivos.Etapas do Processo DecisórioSugestões de Aprofundamento LIGO, A.K.; MANFREDINI, A. C.;et. al. Clusters Empresariais noBrasil (2007). ALBUQUERQUE, Mácio A.Estabilidade em análise deagrupamento. 2005.
    • 2Para se tomar uma decisão é necessário aavaliação de vários fatores. A análise destes érealizada levando em consideração asinformações relevantes ao entendimento dofenômeno em questão. Pois, uma decisão deveser controlada e mensurada. Estes dois atributosestão auxiliados pela avaliação estatística dasinformações.Os métodos estatísticos, aliados à tecnologia,cada vez mais estão sendo utilizados de formadiferenciada pelas empresas. Dependendo do conhecimento que se pretende gerar, aanálise multivariada é a mais recomendada, pois utilizam as variáveis na interpretaçãoteórica do conjunto de dados obtidos.Entre os métodos multivariados mais recorrentes, destaca-se a Análise de Clusters, que seráobjeto de estudo nesse White Paper Elo Group.A análise de clusters é uma tecnologia usada para combinar observações dentro dos gruposhomogêneos ou similares, ou seja, classifica-se de acordo com as relações da amostraformando grupos de objetos similares, como indivíduos, empresas e cidades. Osagrupamentos ou clusters devem ter uma elevada homogeneidade com os objetos etambém uma heterogeneidade entre os grupos.Com os objetosEntre os gruposIntroduçãoConceitos Centrais da Análise de Clusters“A análise multivariada é um vastocampo, no qual até os estatísticosexperientes movem-se com cautela,devido esta ser uma área recente daciência, pois já se descobriu muitosobre esta técnica estatística, masmuito ainda está para se descobrir.”MAGNUSSON
    • 3A aplicação desta análise está inserida em cenários que tem a finalidade de estudar grupossimilares. A similaridade entre objetos é uma forma de afinidade para serem agrupados. Asfunções da Análise de Clusters são: redução dos dados: reduz a informação de uma população total ou amostra paragrupos específicos; geração de hipóteses: quando um pesquisador desenvolve hipóteses para afetar anatureza dos dados ou para examinar os dados determinados.Porém, precauções devem ser tomadas: a análise é descritiva, não teórica e não inferencial; a análise de clusters sempre criará grupos; a análise depende de variáveis usada como base para mensurar a similaridade, nãopossuindo um visão generalizada.Para organizar as regras de decisão da Análise de Clusters, as etapas do framework doprocesso decisório são: definição dos objetivos e análise de dados, seleção de dados,processamento dos dados, transformação dos dados, interpretação dos dados e validação.As etapas do processo decisório da Análise de Clusters são dependentes, formando umprocedimento metodológico. Pode ocorrer o retorno a alguma etapa para corrigir ousomente com a finalidade de aprimorar.1. Definição de objetivos e análise de dadosEssa etapa refere-se à definição dos objetivos, análise de dados e formulação de problemas.É considerada a etapa mais importante porque é a escolha das variáveis na qual o processode aglomeração se baseará. O conjunto de variáveis deve descrever a semelhança entreobjetos, pois é onde se fixa o critério de homogeneidade.1.1. Definição dos objetivos: Definir qual a intenção de realizar a análise de clusters, tendo como referência que ao objetivo desta análise é encontrar e separar objetos em grupos similares Somente variáveis que especificam os objetivos da análise de clusters são incluídas;1.2. Análise de dados:A análise de dados apresenta as seguintes características: descrição: identificar os grupos naturais com os dados que pode ser feito porDesenvolvimento do Processo Decisório
    • 4exploração de padrão, criando uma sistemática (empiricamente classificação deobjetos) ou no padrão de confirmação (teoricamente baseado na classificação); simplificação de dados: a capacidade de analisar grupos de similares informações emvez da observação de todos os indivíduos; identificação de relações: a simplificada estrutura da análise de clusters não revelamrelacionamentos de outra maneira.1.3. Formulação de problemas:Pode ser identificado algum problema caso ocorra: a inclusão de alguma variável sem importância o resultado da análise pode ter umerro.2. Seleção de dadosEsta etapa visa a identificação das características das informações, resultando em umsubconjunto de dados com atributos relevantes. É importante que esta etapa estejaalinhada com os objetivos do projeto para que estes sejam alcançados.3. Processamento dos dadosO processamento de dados tem como objetivo assegurar a qualidade dos dadosselecionados. Esta etapa consiste em processar dados, gerando resultado com outros dados.Este resultado auxiliará no processo de tomada de decisão.O processamento inicia com uma revisão da estrutura de dados e a definição de medidas dequalidade.Alguns problemas são encontrados e devem ser tratados, como: Eliminação de dados duplicados ou corrompidos que devem ser removidos; Tratamento de outliers - são valores significantemente fora do esperado para umavariável; Valores faltantes - valores que não estão presentes no conjunto selecionado evalores inválidos que foram eliminados durante a detecção de outliers.4. Transformação de dadosO objetivo desta etapa é tornar os dados úteis pela conversão de dados brutos em umaforma padrão de uso. A transformação deve preservar as informações dos dados brutos nasamostras, além de auxiliar na redução de tempo de processamento. É nesta etapa quesurgem a técnicas de clusterização, as quais são: hierárquicas aglomerativas, divisórias e pordensidade.A primeira técnica produzem agrupamentos hierárquicos, iniciando com clusters unitários,passando, repetidamente, por aglutinações dois a dois até chegar no número de clustersdesejados. A hierárquica divisória tem como base o agrupamento hierárquico com umcluster único, contendo todo o conjunto de objetos e repetidamente dividindo os clusters
    • 5em duas partes seguindo algum critério de similaridade até chegar no número de clustersdesejados. Já por densidade o número de clusters é fornecido por um algoritmo, sendo idealadequado para clusters de formato arbitrário.5. Interpretação dos dadosA interpretação tem como objetivo a procura do sentido mais amplo das respostas, o que éfeito mediante sua ligação a outros conhecimentos anteriormente obtidos. A interpretaçãoconsta de uma análise quantitativa e uma de conteúdo para os fatores qualitativos.6. ValidaçãoA validação é amparada pela medição de qualidade do resultado, caracterizada pelacompreensão e interesse. A compreensão relaciona-se com de interpretação. E o interessecombina fatores que estimam o conhecimento inesperado que existe. A validação descreveas características de cada cluster para explicar a diferença entre as dimensões.Para uma validação positiva, o resultado da escolha dos dados deverá apresentar ocumprimento dos objetivos propostos.Objeivo 1Objetivo 2Objetivo 3Perfil + objetivoalcançadoDefinição deobjetivosAnálise dedadosSeleção dedadosProcessamento etransformação dosdadosInterpretação dedados Validação
    • 6O white paper tem como objetivo introduzir o assunto, fornecendo noções gerais sobre otema em questão.A análise de cluster é uma das técnicas mais utilizadas no processo de dados paradescoberta de agrupamentos e identificação de importantes distribuições e padrões paraentendimento dos dados. Desta forma, é possível formar grandes bancos de dados cominformações relevantes, agrupando-as por dados de similaridade, e assim ter verdadeiroconhecimento e definição de ações e estratégias. A análise permite uma visão estratégicados custos, do posicionamento no mercado, dos concorrentes, do público-alvo, entre outros.Assim sendo, o importante da análise de cluster é a interação entre as etapas, pois se umaseleciona dados não apropriados, resultará em uma pesquisa ineficiente.Considerações Finais
    • 7Principais Referências BASSAB, Wilton O.; MIAZAKI, Edina S. ; ANDRADE, Dalton F. Introdução à análise deagrupamento. 9° Simpósio Nacional de Probabilidade e Estatística. São Paulo, 1990. DONI, Marcelo V. Análise de cluster: métodos hierárquicos e de particionamento.São Paulo, 2004. EVERITT, B.; LANDAU, S.; LEESE, M.; STAHL, D. (2009). Cluster Analysis. Wiley Seriesin Probability and Statistics. John Wiley & Sons. 5th Edition. HAIR, J.; BLACK, W.; BABIN, B.; ANDERSON, R. (2010). Multivariate DataAnalysis. Pearson Prentice Hall, 7th Edition. SHARMA, S. (1996). Applied MultivariateTechniques. John Wiley & Sons. 1st Edition. KARRER, Daniel. Cluster Analysis Method. Rio de Janeiro, 2012. VICINI, Lorena. Análise multivariada da teoria à prática. Santa Maria : UFSM, CCNE,2005. 215 p. : il.Referências Complementares ALBUQUERQUE, Mácio A. Estabilidade em análise de agrupamento. Recife, 2005. 62f. : il. LIGO, Antônio C.; MANFREDINI, A. C.; et. al. Clusters Empresariais no Brasil. 2007.Sites http://w3.ufsm.br/adriano/livro/Caderno%20dedatico%20multivariada%20-%20LIVRO%20FINAL%201.pdf http://www.pgbiom.ufrpe.br/dissertacoes/2005/d2005-01.pdf http://meusite.mackenzie.com.br/rogerio/tgi/2004Cluster.PDF http://numa.sc.usp.br/saate/index.php/saateSugestões de Aprofundamento