• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP
 

ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP

on

  • 542 views

O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento ...

O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao
crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um
estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) – Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos estudantes de tal Instituto.

Statistics

Views

Total Views
542
Views on SlideShare
542
Embed Views
0

Actions

Likes
0
Downloads
12
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE  DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP Document Transcript

    • Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. ANÁLISE ESPACIAL-TEMPORAL DE DADOS USANDO TÉCNICAS DE MINERAÇÃO DE DADOS GEOGRÁFICOS E A FERRAMENTA VIS-STAMP Thiago Reis da Silva1, Diego Grosmann1, Fábio Abrantes Diniz1, Íthalo Bruno Grigório de Moura1, Angélica Félix de Castro1 1 Programa de Pós-Graduação em Ciência da Computação, UERN/UFERSA, Mossoró – RN. {trsilva.si, diegogrosmann, fabio.abrantes.diniz, ithalobgm, angelicafcastro}@gmail.com RESUMO: O uso de técnicas e ferramentas para a análise de fenômenos que variam no espaço e no tempo é indispensável. Esses fenômenos, por exemplo, poderão estar relacionados ao ordenamento territorial, distribuição da saúde, segurança pública, entre outros. Desta forma, surgem ferramentas computacionais chamadas de Sistemas de Informações Geográficas (SIG) que apoiam a modelagem desses fenômenos, permitindo o armazenamento e a visualização das informações geradas. Devido ao crescimento da quantidade de dados geográficos, surgiu um novo campo chamado de Mineração de Dados Geográficos. Nesta perspectiva, nosso objetivo é expor o uso de SIG como uma ferramenta para análise espaço-temporal. E, através do uso de Mineração de Dados Geográficos, utilizar métodos de Clusterização, para identificar padrões dispostos nos dados. Para isso, foi utilizada a ferramenta VIS-STAMP (A Visualization System for Space-Time and Multivariate Patterns) e, foi abordado um estudo de caso com base nos dados do controle acadêmico do Instituto Federal do Piauí (IFPI) – Campus de Floriano, de 1998 a 2010. Com a análise destes dados, pretende-se verificar as correlações entre a classe social, etnia e outros indicadores socioeconômicos a fim de verificar os perfis dos estudantes de tal Instituto. PALAVRAS-CHAVE: Mineração de dados geográficos, Análise espaço-temporal, Sistemas de informações geográficas. INTRODUÇÃO: Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo para o progresso socioeconômico local, regional e nacional. A implantação do campi, no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência e Tecnologia, no que diz respeito à descentralização de qualificação profissional, levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende-se evitar o êxodo de jovens estudantes para a capital (SILVA et. al. 2012). Neste contexto, este artigo analisa a base de dados do Instituto Federal do Piauí (IFPI – Campus Floriano), para detectar, através de Mineração de Dados Geográficos e com utilização da ferramenta VIS-STAMP, os perfis da comunidade acadêmica desta Instituição de Ensino, verificando se a classe social, a etnia declarada pelos estudantes, tem impacto na escolha do curso ou realidade socioeconômica dos mesmos. O trabalho proposto por Oliveira et. al. (2011) apresenta uma análise da base de dados das matrículas dos discentes do IFPI - Campus Picos, utilizando a ferramenta WEKA e três algoritmos diferentes: Classificação, Clusterização e Associação. Em Silva et. al. (2011) é apresentada uma análise similar a de Oliveira et. al. (2011), utilizando a ferramenta WEKA para encontrar padrões que mostrassem relações entre a classe social, etnia e cidade de procedência dos alunos matriculados no IFPI – Campus Floriano. Este artigo diferencia-se dos trabalhos anteriores por utilizar a ferramenta VIS-STAMP para descobrir padrões e depois comparar com os resultados do trabalho proposto por Silva et. al. (2011). MINERAÇÃO DE DADOS E A FERRAMENTA VIS-STAMP: A Mineração de Dados é uma das etapas do processo de descoberta do conhecimento em banco de dados, do inglês, Knowledge Discovery in Databases (KDD), sendo um processo, não trivial, de extração de informações
    • Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados (FAYYAD; SHAPIRO; SMYTH, 1996). A ferramenta VIS-STAMP é um software para explorar dados multivariados em espaço-temporal (DIASHENG, 2006). Descobre padrões e apresenta-os de uma forma de fácil interpretação humana, ajudando no raciocínio analítico e/ou tomada de decisão. A ferramenta é composta por um MapMatrix (Mapa de Matriz) para a visualização temporal dos mapas; um Space-Time Matrix (S-T Matrix) o qual organiza os padrões multivariados no campo espaço-temporal; um Self Organizing Map (SOM), que são Mapa Auto Organizável, possibilitando a representação multivariada de agrupamento e de abstração (incluindo agrupamento de séries temporais); e um Parallel Coordinate Plot (PCP), que são os Plots de coordenadas paralelas que permitem a visualização de padrões multivariados (DIASHENG, 2006). METODOLOGIA E ÁREA DE ESTUDO: Para o desenvolvimento deste artigo foi utilizada a base de dados de matrícula do IFPI – Campus Floriano, que contém dados dos estudantes matriculados entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. As etapas da Mineração de dados utilizadas foram: seleção de dados, pré-processamento, transformação dos dados, interpretação/avaliação (SILVA et. al. 2011). O presente artigo faz uma análise dos dados do corpo discente que estudou e estuda no IFPI – Campus Floriano, localizado no estado do Piauí. O Piauí está localizado a noroeste da região Nordeste do Brasil, ocupa uma área de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes (IBGE, 2012). Sua capital é a cidade de Teresina. A economia do estado é baseada no setor de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja, algodão, arroz, cana-de-açúcar, mandioca, mel) e na pecuária extensiva. A Figura 1 ilustra a localização da área de estudos (município de Floriano) em relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz parte. Figura 1 - Localização da área de estudos em relação ao território do Brasil. Fonte: (SILVA et. al. 2011). RESULTADOS E DISCUSSÃO: Nesta seção, são apresentados os resultados da análise espaço- temporal dos índices apresentados com o VIS-STAMP. Inicialmente, foi feita uma Mineração de Dados usando as seguintes variáveis: renda, classe social (C, D, E e F) e cor da pele (Parda, Amarela, Branca e Negra) e constatou-se uma correlação entre elas. Foi visto que os estudantes de etnia parda (cluster amarelo forte) e com uma renda em média de 2 (dois) salários mínimos são maioria no instituto, como ilustra a Figura 2 (A). A Figura 2 (B) corresponde ao SOM (que é um Mapa Auto Organizável para processar os perfis multivariados, onde cada nó colorido representa um cluster e nós mais próximos são mais parecidos). O SOM é utilizado em Mineração de Dados para reduzir a dimensionalidade dos dados, apresentando- os no formato bidimensional. É importante salientar que o cluster de cor azul, o maior cluster na
    • Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. Figura 2 (B), representa a cidade de Floriano – PI, pois é a cidade que possui a maior quantidade de aluno no Instituto. Assim, quanto maior a quantidade de dados presentes no cluster, maior será a área do círculo no SOM. Figura 2 – (A) PCP com os clusters formados pelos índices, (B) SOM mostrando os clusters formados e suas grandezas. As outras cidades, que possuem um número considerado de alunos no Instituto são: Guadalupe, representado pelo cluster vermelho, Jerumenha, que corresponde ao cluster verde escuro. O cluster roxo representa a cidade de Canto do Buriti, o cluster lilás corresponde à cidade de Amarante. Outras cidades do Piauí também são apresentadas na Figura 2 (B), mas com um número pequeno de alunos, como é o caso da cidade de Oeiras, representado na Figura 2 (B), pelo cluster azul claro. Figura 3 – Matrix de Mapa representando a formação de cluster espaço-temporal com os dados do Instituto entre os anos de 1998 a 2010. A representação do MapMatrix (Matrix de Mapa) – Figura 3 – possibilita ao usuário visualizar os clusters, mostrando como eles se apresentam e como as mudanças ocorrem em uma determinada linha
    • Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. de tempo, entre os anos de 1998 a 2010. Constatando que, com o passar dos tempos, mais estudantes das cidades circunvizinhas se deslocaram para estudar no campus de Floriano – PI. É no MapMatrix que podemos analisar a representação espaço-temporal, analisando as diferenças que ocorrem nos mapas em cada ano. Posteriormente a base foi minerada, usando apenas a classe etnia (Branca, Amarela, Negra e Parda). Notou-se, visualizando apenas um cluster (cluster roxo), uma correlação entre os índices. É possível verificar relações esperadas e inesperadas. A relação esperada é que a grande maioria dos estudantes é da cidade de Floriano – PI e a inesperada é que uma parte considerada dos alunos se declarou negra, como podemos observar na Figura 4. Figura 4 – Visão individual dos dados do clus ter selecionado. A Figura 5 representa o SOM após a seleção do cluster, exibido na Figura 4, onde se constatou que a dimensão do círculo é elevada, caracterizando assim, a existência de uma grande quantidade de estudantes presentes nele. Figura 5 – Visão em cluster da seleção de um cluster. Analisando os padrões gerados pela ferramenta, identificou-se que a cor da pele em nada influencia a instituição de origem: em todas as etnias, a maioria dos alunos foi proveniente de escola pública. No entanto, na classe social C apresentou uma predominância em instituições filantrópicas. Para as instituições públicas e privadas, a predominância continua sendo de estudantes da classe E.
    • Anais VI Simpósio Regional de Geoprocessamento e Sensoriamento Remoto - Geonordeste, Aracaju, SE, Brasil, 26 a 30 de novembro de 2012, UFS. A classe social também apresentou relação direta com o curso escolhido. Identificou-se que alunos de classe social mais alta preferem cursos nas áreas de técnico em edificações e informática e ensino médio subsequente em edificações. Outros padrões relevantes foram: 1. Os alunos, que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso de Matemática, são da cidade de Floriano, pertencem classe social C e são de etnia negra; 2. Os alunos que ingressaram depois de 2008 e oriundos de escolas particulares, escolheram o curso de Análise e Desenvolvimento de Sistemas e são de etnia parda; 3. O curso de Biologia até o ano de 2005 foi preferido por mulheres da classe social C e etnia branca. Comparando os resultados gerados com o trabalho apresentado em Silva et. al. (2011), constatou-se que mesmo utilizando outra ferramenta para mineração dos dados da base do IFPI, os resultados encontrados são basicamente os mesmos, não diferenciando muito de uma ferramenta para outra. Concluindo-se que não importa utilizar diferentes ferramentas para mineração desta base, que o resultado encontrado será essencialmente o mesmo. CONCLUSÕES: Verificou-se que os estudantes do IFPI – Campus Floriano são predominantes de classe social baixa e de etnia parda. Foi constatado também que, a cada ano os estudantes de etnia negra vêm aumentando no Instituto. Tais estudantes são oriundos de escolas públicas, verificando que o IFPI, de fato, exerce o seu papel de inclusão social, pois não apresentou uma disparidade entre seus alunos referentes à classe social, a etnia e a origem escolar dos mesmos. Através desta pesquisa concluiu-se que a Mineração de Dados é um processo de fundamental importância para a obtenção de informações de grandes bases de dados. Como trabalho futuro propõe- se a exploração desta base de dados utilizando outros softwares de Mineração de Dados Geográficos, fazendo uma comparação entre os resultados gerados. AGRADECIMENTOS: Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI – Campus Floriano pela disponibilização da base de dados. REFERÊNCIAS: IBGE. Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso em: jun. 2012. Diasheng, G., Jin, C., Maceachren, M. A., K, L. A Visual Inquiry System for Space-Time and Multivariate Patterns (VIS-STAMP). 2006. Fayyad, U. M.; Shapiro, G. P.; Smyth, P. From data mining to knowledge discovery: An overview. AI Magazine pp. 37–54, 1996. Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. Spatial analysis of the student profile of federal techical school of Piauí. In: ISTI: Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. p. 368-373. Silva, T. R.; Grosmann, D.; Oliveira, A. T; Castro, A. F.; Silva, M. P. S. Análise Espacial do Perfil dos Alunos do IFPI – Campus Floriano usando Técnicas de Mineração de Dados. In: Encontro Regional de Computação Ceará, Maranhão e Piauí - ERCEMAPI. Teresina, PI. 2011.