Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados
Upcoming SlideShare
Loading in...5
×
 

Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados

on

  • 533 views

A economia do Piauí caracteriza-se por sua fragilidade, evidenciada ...

A economia do Piauí caracteriza-se por sua fragilidade, evidenciada
pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal
do Piauí assume responsabilidades sociais diante da extrema necessidade de
desenvolver conhecimentos e tecnologias de aproveitamento e agregação de
valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos
estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de
mineração de dados e sistemas de informação geográficos.

Statistics

Views

Total Views
533
Views on SlideShare
533
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnicas de mineração de dados Document Transcript

  • Análise Espacial do Perfil dos Alunos do IFPI – Campus Floriano usando Técnicas de Mineração de DadosThiago Reis da Silva1, Diego Grosmann1, Artur Luiz T de Oliveira1, Angélica Félix de Castro1, Marcelino Pereira dos Santos Silva1 1 Programa de Pós-Graduação em Ciência da Computação – MCC Universidade do Estado do Rio Grande do Norte – UERN/ Universidade Federal Rural do Semi-Árido – UFERSA BR 110 – Km 46 – Bairro Costa e Silva – Campus Central 59.625-620 Mossoró – RN, Brasil {trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com, angelica@ufersa.edu.br, marcelinopereira@uern.br Abstract: The economy of Piauí is characterized by its fragility, as evidenced by the behavior of some of its indicators. The IFPI - the Federal Institute of Piauí assume social responsibilities in the face of dire need to develop knowledge and technologies for exploitation and value adding. In this context the present article is a study on the profile of students in the IFPI - Campus Floriano. For this we used data mining techniques and geographic information systems. Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal do Piauí assume responsabilidades sociais diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de mineração de dados e sistemas de informação geográficos.1. IntroduçãoOs Institutos Federais de Educação, Ciência e Tecnologia são instituições queproduzem, disseminam e aplicam o conhecimento tecnológico e acadêmico paraformação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindopara o progresso socioeconômico local, regional e nacional. A implantação dos campi,no interior do Estado, atende a meta do Programa de Expansão da Rede Federal deEducação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciênciae Tecnologia, no que diz respeito à descentralização de qualificação profissional,levando em conta as necessidades socioeconômicas de cada região. Com isso, pretende-se evitar o êxodo de jovens estudantes para a capital. O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é umainstituição com atuação no Estado do Piauí, detentora de autonomia administrativa,patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública deEducação Superior, Básica e Profissional, pluricurricular e multicampi, está presente emdez municípios do estado, especializada na oferta de Educação Profissional e
  • Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentoshumanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei(PDI, 2009). Nesse contexto, o IFPI assume responsabilidades sociais, diante da extremanecessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregaçãode valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações doestado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros(PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controleacadêmico do IFPI – Campus Floriano a fim de identificar o padrão dos estudantes dainstituição. Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2apresenta uma revisão de literatura, abordando em subseções os Sistemas de InformaçãoGeográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineraçãoe Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada.A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros sãoapresentados na seção 5.2. Revisão de LiteraturaA seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizadospara o desenvolvimento deste trabalho.2.1. Sistema de Informação GeográficoO Sistema de Informação Geográfico (SIG) é um tipo especial de sistema deinformações. Por definição pode-se dizer que um SIG é um sistema de informaçãobaseado em computador que permite capturar, modelar, manipular, recuperar, consultar,analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA,1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade demanipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT,1997). Um SIG integra dados espaciais com outros tipos de dados em único sistema.Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancosde dados. O processo de converter mapas e outros tipos de informações espaciais numaforma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação eexibição de dados geográficos (BRETRNITZ, 2010).2.2. Descoberta do Conhecimento em Banco de DadosA Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discoveryin Databases (KDD) é o processo, não trivial, de extração de informações implícitas,previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados emum banco de dados (FAYYAD et al, 1996). O termo “não trivial” torna clara aexistência de alguma técnica de busca ou inferência. “Previamente desconhecidas”indica que a informação deve ser nova para o sistema e de preferência também para ousuário. E, por último, “potencialmente úteis”, deixa claro que esta informação devetrazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algumganho.
  • O processo de KDD contém uma série de passos, tais como: Seleção, Pré-processamento e Limpeza, Transformação, Mineração de Dados (datamining) eInterpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processocompreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ouinformação. O processo em si possui duas características relevantes: é interativo eiterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades.Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma édependente dos resultados das que a precedem. Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsávelpela transformação de dados em informações. A mineração de dados está relacionadacom a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos enão apenas consultas complexas e elaboradas com a finalidade de confirmar umahipótese em função dos relacionamentos existentes. A mineração de dados, portanto, éuma descoberta eficiente de informações válidas e não óbvias de uma grande coleção dedados (OLIVEIRA et al, 2011).2.3. Técnicas de MineraçãoSegundo Prass (2004), as técnicas de mineração consistem na especificação de métodosque nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada,uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir sãodescritas as técnicas utilizadas neste trabalho.2.3.1 Classificação e PrediçãoSegundo Amo (2004), classificação é o processo de buscar modelos (funções) quedescrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelospara predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados deamostragem ou de treinamento. No caso da predição, o objetivo é inferir valores noconjunto de dados.2.3.2 AssociaçãoAs regras de associação consistem em padrões do tipo A → B, onde A e B sãoconjuntos de valores antecedentes e consequentes. Consideremos um exemplo desupermercado. O padrão “Cliente que compra pão também compra leite” representa umpadrão de comportamento dos clientes do supermercado. Essa organização pode serválida na organização dos produtos na prateleira visando o aumento das vendas.3. MetodologiaPara o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula doIFPI – Campus Floriano, que contem dados dos estudantes matriculados entre o ano de1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimentoforam seguidos os passos do KDD: Seleção dos dados, Pré-Processamento,Transformação, Mineração de Dados, e interpretação/avaliação. Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco dedados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software deMineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql,TerraView e o Weka GNU possui licença GNU/GPL (General Public License).
  • 3.1 Seleção de dadosA base de dados do IFPI é formada por 53 campos e está salva no formato de arquivoExcel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade donascimento, estado do nascimento, estado civil, renda familiar, financiamento dainstituição de origem, curso e período de ingresso.3.2 Pré-processamentoComo citado anteriormente à base de dados estava no formato de arquivo Excel, parafacilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivocsv e posteriormente importados no banco de dados MySql. Para a importação primeirocriou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv. Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valoresausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeiratécnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridosmanualmente utilizando o campo nome como base, o campo estado de origem tambémutilizou essa mesma técnica usando como base a cidade de origem. Para os demaiscampos, foi utilizada a segunda técnica (b), realizando um processo de adequação dosdados retirando espaços em branco antes e depois dos dados e caracteres inválidos ecomo tratamento das linhas sem dados simplesmente às ignoramos.3.3 Transformação dos dadosNesta fase foram gerados dados a partir dos dados existentes. Tendo a data denascimento como base, geramos o campo idade. Já a renda foi dividida para refletir asclasses sociais, a criação das classes se deu de acordo com as regras propostas pelaconsultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com rendamensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2:maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$600; E: maior que R$ 400; F: menor que R$ 200. Para simplificar a consulta, as classes proposta pela Target sofreram algumasalterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe Ee F foram juntos na classe E.3.4 Mineração de DadosAlgumas ferramentas foram analisadas e o Weka (Waikato Environment for KnowledgeAnalysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelofato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelopoder de exposição dos resultados da mineração com clareza. Para a manipulação dosdados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esseformato é o ARFF (Attribute-Relation File Forma). Para gerar o arquivo arff primeiro exportamos os dados do banco de dadosutilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os meta-dados referentes às colunas. Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidosa duas de técnicas de mineração de dados. Eles foram submetidos à classificação atravésdos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIPA.
  • 3.5 Interpretação/AvaliaçãoNesta fase os dados foram analisados e os padrões e as características foramidentificados, sendo apresentados os resultados na próxima seção. Para uma melhor apresentação dos dados em forma de mapas utilizamos osoftware TerraView e as malhas digitais municipais e estaduais disponíveis no site doIBGE (IBGE, 2011).4. Área de EstudoO presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaramno IFPI – Campus Floriano. O Instituto Federal do Piauí foi criado mediantetransformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). SuaReitoria está instalada em Teresina – PI. O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma áreade 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Suacapital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setorde serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja,algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva. A Figura 1 ilustra a localização da área de estudos (município de Floriano) emrelação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano fazparte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direitadesse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupauma área de 3.409 km2 (IBGE, 2011). O município possui um IDH de 0,711 que éconsiderado médio (HDR, 2011). Figura 1 - Localização da área de estudos em relação ao território do Brasil.4. 1. ResultadosNesta seção serão apresentadas as informações obtidas na fase de análise de dados doKDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e emrelação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com oDistrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra aimportância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua
  • atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dosalunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti,Oeiras, Amarante e Teresina. Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil e a direita temos a distribuição dentro do estado do Piauí. Com a intenção de avaliar se a renda dos estudantes tem uma influência direta nadistribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapaapresentamos a classe social predominante dos discentes por estado e por cidade. Nelapodemos constatar que estudantes de regiões mais distantes do polo educacionalapresentam uma classe social mais elevada que os nascidos na microrregião de Floriano.Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de setransportar até lugares mais distantes e de sustentar-se. Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e por cidade. Tendo como base o contexto social em nosso país, no qual afrodescendentesainda são muito discriminados, utilizamos o algoritmo de classificação RandomTreepara avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada
  • na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam amesma classe social, todos enquadrados na classe E, assim não constatamos umadesigualdade gerada pela cor da pele. Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a cor da pele. Avaliamos também que a classe social e a cor da pele têm influencia direta sobrea instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que acor da pele em nada influência a instituição de origem sendo que para todas as etnias amaioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentouuma predominância em instituições filantrópicas, para as instituições públicas e privadasa predominância continua sendo de alunos da classe E. A classe social apresentou relação direta com o curso escolhido. Identificamosapós classificação realizada pelo algoritmo RandomTree que alunos de classe socialmais altas dão preferência a cursos na área de técnico em edificações e informática, econcomitante em edificações. Com o algoritmo J48 identificamos também que a classesocial tem relação direta com a idade dos alunos. Alunos com idade inferior a 21pertencem a classes sociais mais altas. Através da análise da árvore gerada pelo algoritmo REPTree identificamos queos alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nosanos posteriores, o número alunos de escola pública superaram o número de alunos deescola privada. Com o uso do algoritmo JRIP que identifica as regras pressentes na base dedados identificamos cinco regras predominantes. Das quais as três seguintes sedestacam. 1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso de Matemática, são locais, têm classe social C1 e são da etnia negra; 2. Os alunos que ingressaram depois de 2008 vindos de escola particular escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia branca; 3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe social C1 e etnia branca;5. Conclusões e Trabalhos FuturosAtravés da pesquisa acima apresentada concluímos que a mineração de dados é umprocesso de fundamental importância para a obtenção de informações de grandes bases
  • de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social,pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia. Como trabalho futuro propõe-se a exploração desta base de dados utilizandooutras técnicas de mineração de dados como a Clusterização e a utilização de outrasferramentas de mineração.AgradecimentosOs autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI –Campus Floriano pela disponibilização da base de dados.Referências BibliográficasAmo, S. A. (2004) “Técnicas de Mineração de Dados”. In: Sociedade Brasileira de Computação, UFBA. Jornadas de Atualização em Informática. Salvador – BA, Universidade Federal da Bahia, 2004, v.2, p195-236.Breternitz, V. J. (2010) “Sistemas de informações geográficas: uma visão para administradores e profissionais de tecnologia da informação,” 2010.Câmara, G.; Casanova, M. A. (1995) “Fields and objects algebras for gis operations operations.” vol. 1, pp. 407 – 420, 1995.Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) “From data mining to knowledge discovery: An overview”, AI Magazine pp. 37–54, 1996.HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>. Acesso em set. 2011.IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso em set. 2011.Miller, H. J.; Han, J. (2001) “Geographic data mining and knowledge discovery: An overview”. London: Taylor and Francis, in press, B., 2001.Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011) “Spatial analysis of the student profile of federal techical school of piaui”. In: ISTI: Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II, p. 368-373.Prass, F. S. (2004) “Kdd: Processo de descoberta de conhecimento em bancos de dados” vol. 1, pp. 10 – 14, 2004.PDI (2009) “Plano de Desenvolvimento Institucional”. Disponível em: < http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em set. 2011.Target (2011) Disponível em: <http://www.target.com.br/portal_new/Home.aspx>. Acesso em set. 2011.Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) “Demystifying the persistent ambiguity of gis as Tool Versus Science” The Annals of the Association of American Geographes, 87(2): 346-362, 1997.