Projeto de Aplicação - Passagens Federais
Upcoming SlideShare
Loading in...5
×
 

Projeto de Aplicação - Passagens Federais

on

  • 993 views

Projeto de Aplicação como requisito final para a disciplina Mineração de Dados - Prof. Wagner Meira Jr - Doutorado em Bioinformática

Projeto de Aplicação como requisito final para a disciplina Mineração de Dados - Prof. Wagner Meira Jr - Doutorado em Bioinformática

Statistics

Views

Total Views
993
Views on SlideShare
989
Embed Views
4

Actions

Likes
0
Downloads
2
Comments
0

1 Embed 4

http://www.slideshare.net 4

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Projeto de Aplicação - Passagens Federais Projeto de Aplicação - Passagens Federais Presentation Transcript

  • Projeto de Aplicação – Análise do uso de Passagens Aéreas Federais Rodrigo da Silva Soares Rondon Pessoa de Mendonça Neto
  • Objetivo Verificar o uso de passagens aéreas federais através de mineração de padrões frequentes. Hipóteses: 1 - Existem associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. 2 - Qual a relação entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. 3 - A relação entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro.
  • Base de Dados Passagens Aéreas Federais 2007 Atributos
    • Código do órgão
    • Nome do órgão
    • Número PCDP
    • Tipo de passageiro
    • Data de partida
    • Turno da partida
    • Tipo de viagem
    • Companhia
    • V12
    • Custo da tarifa
    • Tarifa praticada
    • Trecho
    • Dia da semana
    • Trajeto
    • Data e hora de partida
  • Pré-Processamento Filtros: Redução e Limpeza dos dados RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml). Discretize : Discretiza um intervalo de atributos numéricos utilizando a técnica MDL.
    • 2 etapas:
        • Um método de avaliação
        • Um método de busca
    • Utilizamos dois métodos:
        • InfoGainAttributeEval - Ranker
        • ChiSquare - Ranker
    Pré-Processamento - Seleção de Atributos
  • InfoGainAttributeEval - Ranker
    • === Attribute Selection on all input data ===
    • Search Method:
    • Attribute ranking.
    • Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):
    • Information Gain Ranking Filter
    • Ranked attributes:
    • 1.106828 3 Num_PCDP
    • 1.033605 8 Data_Hora_Partida
    • 0.670534 5 Data_Inicio
    • 0.379512 7 Trajeto
    • 0.379512 12 Trecho
    • 0.292108 2 Nome_Orgao
    • 0.26584 1 Cod_Orgao
    • 0.118241 10 Companhia
    • 0.097476 13 Dia_Semana
    • 0.013819 9 Turno_Partirda
    • 0.005139 11 Tarifa_Praticada
    • 0.005113 14 Custo_Tarifa
    • 0.000581 6 Internacional
    • Selected attributes: 3,8,5,7,12,2,1,10,13,9,11,14,6 : 13
    ChiSquaredAttributeEval - Ranker
    • === Attribute Selection on all input data ===
    • Search Method:
    • Attribute ranking.
    • Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):
    • Chi-squared Ranking Filter
    • Ranked attributes:
    • 7780.123 3 Num_PCDP
    • 7182.115 8 Data_Hora_Partida
    • 2656.849 5 Data_Inicio
    • 1078.49 7 Trajeto
    • 1078.49 12 Trecho
    • 965.474 2 Nome_Orgao
    • 658.226 1 Cod_Orgao
    • 320.807 10 Companhia
    • 260.794 13 Dia_Semana
    • 36.345 9 Turno_Partirda
    • 16.905 14 Custo_Tarifa
    • 11.549 11 Tarifa_Praticada
    • 0.973 6 Internacional
    • Selected attributes: 3,8,5,7,12,2,1,10,13,9,14,11,6 : 13
  • Algoritmos
    • 3 algoritmos para aprender Associações :
      • Apriori;
      • PredictiveApriori;
      • Tertius;
      • Trabalham somente com dados nominais;
      • Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.
    • 2 algoritmos para Classificação :
      • BFTree;
      • REPTree;
      • Modelos para a previsão de classes (nominal ou númerica):
  • Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. === Run information === Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1 Relation: BasePassagensDiscretizada-weka.filters.unsupervised.attribute.RemoveUseless-M99.0-weka.filters.unsupervised.attribute.Remove-R1,3,5-13 Instances: 74262 Attributes: 3 Nome_Orgao tipo_proposto Custo_Tarifa Test mode: split 99.0% train, remainder test
  • Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. PredictiveApriori =================== Best rules found: 1. Custo_Tarifa=BAIXO 156 ==> Internacional=NAO 156 acc:(0.99497) 2. tipo_proposto=Colaborador Eventual Internacional=SIM 7 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=ALTO 3 acc:(0.46999) 3. Custo_Tarifa=INCOMUM 12 ==> tipo_proposto=Servidor Internacional=SIM 9 acc:(0.72776) 4. Custo_Tarifa=ALTO 214 ==> tipo_proposto=Servidor 123 acc:(0.58724) 5. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 acc:(0.58268) 6. tipo_proposto=Colaborador Eventual Internacional=NAO Custo_Tarifa=ALTO 80 ==> Nome_Orgao=Gabinete do Ministro 45 acc:(0.58026) 7. Custo_Tarifa=NAO AVALIADO 14 ==> tipo_proposto=Colaborador Eventual Internacional=NAO 8 acc:(0.57539) 8. Internacional=SIM 21 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=INCOMUM 12 acc:(0.5747)
  • Resultados Hipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. Apriori ======= Minimum support: 0.35 (700 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 13 Best rules found: 1. Companhia=GOL Custo_Tarifa=NORMAL 752 ==> Internacional=NAO 752 conf:(1) 2. Companhia=TAM Custo_Tarifa=NORMAL 708 ==> Internacional=NAO 708 conf:(1) 3. Turno_Partirda=MANHA Custo_Tarifa=NORMAL 889 ==> Internacional=NAO 888 conf:(1) 4. Custo_Tarifa=NORMAL 1604 ==> Internacional=NAO 1602 conf:(1) 5. tipo_proposto=Servidor Custo_Tarifa=NORMAL 945 ==> Internacional=NAO 943 conf:(1) 6. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=NORMAL 936 ==> Internacional=NAO 934 conf:(1) 7. Companhia=TAM 898 ==> Internacional=NAO 895 conf:(1) 8. Companhia=GOL 888 ==> Internacional=NAO 882 conf:(0.99) 9. Turno_Partirda=MANHA 1076 ==> Internacional=NAO 1068 conf:(0.99) 10. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 conf:(0.99)
  • Resultados Hipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. PredictiveApriori =================== Best rules found: 1. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=GOL Custo_Tarifa=NORMAL 299 ==> Internacional=NAO 299 acc:(0.99484) 2 . Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Turno_Partirda=MANHA Dia_Semana=Segunda-Feira Custo_Tarifa=NORMAL 280 ==> Internacional=NAO 280 acc:(0.9948) 3 . Companhia=TAM Dia_Semana=Segunda-Feira 275 ==> Internacional=NAO 275 acc:(0.99479) 4. Dia_Semana=Terca-Feira Custo_Tarifa=NORMAL 271 ==> Internacional=NAO 271 acc:(0.99478) Tertius ======= 1. /* 0,343644 0,082384 */ tipo_proposto = Colaborador Eventual ==> Nome_Orgao = Secretaria Nacional de Seguranca Publica 2. /* 0,338121 0,081495 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = NAO AVALIADO or Nome_Orgao = Secretaria Nacional de Seguranca Publica 3. /* 0,329954 0,082249 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = INCOMUM or Nome_Orgao = Secretaria Nacional de Seguranca Publica 4. /* 0,318858 0,073160 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = ALTO or Nome_Orgao = Secretaria Nacional de Seguranca Publica
  • Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro Resultados 2) Trajeto=(Recife-Brasilia)|(Florianopolis-Brasilia) | Turno_Partirda=(TARDE): Servidor(8.0/0.0) 1) Turno_Partirda=(NOITE) | Trajeto=(Brasilia-Belem)|(Brasilia-Fortaleza) | | Trajeto=(Brasilia-Fortaleza): Servidor(1.0/1.0) Trajeto=(Brasilia-Goiania): Servidor(5.0/2.0) Trajeto=(Brasilia-Florianopolis): Servidor(10.0/7.0) Trajeto=(Brasilia-Belo Horizonte): Colaborador Eventual(30.0/12.0) Trajeto!=(Brasilia-Curitiba): Colaborador Eventual(24.0/16.0) === Classifier model (full training set) === Best-First Decision Tree === Evaluation on training set === === Summary === Correctly Classified Instances 1568 78.4 % Incorrectly Classified Instances 432 21.6 % Exemplos da Árvore: 3)
  • Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro Resultados Apriori ======= Minimum support: 0.2 (400 instances) Minimum metric <lift>: 1.1 Best rules found: 1. tipo_proposto=Colaborador Eventual Internacional=NAO 751 ==> Companhia=TAM 460 conf:(0.61) < lift:(1.36)> lev:(0.06) [122] conv:(1.42) 2. tipo_proposto=Servidor Internacional=NAO 1167 ==> Companhia=GOL 684 conf:(0.59) < lift:(1.32)> lev:(0.08) [165] conv:(1.34) 3. tipo_proposto=Servidor 1181 ==> Companhia=GOL 690 conf:(0.58) < lift:(1.32)> lev:(0.08) [165] conv:(1.33) PredictiveApriori =================== Best rules found: 1. Turno_Partirda=NOITE Companhia=GOL 224 ==> Internacional=NAO 224 acc:(0.995) 2. Turno_Partirda=TARDE Companhia=TAM 210 ==> Internacional=NAO 210 acc:(0.995) 3. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=TAM 188 ==> Internacional=NAO 188 acc:(0.99499) 4. Companhia=NHT 24 ==> Internacional=NAO 24 acc:(0.99466) 5. tipo_proposto=Colaborador Eventual Trajeto=Porto Alegre-Brasilia 24 ==> Internacional=NAO Companhia=TAM 24 acc:(0.99466) 6. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Internacional=NAO 9 acc:(0.99129) 7. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Turno_Partirda=NOITE 9 acc:(0.99129) 8. Internacional=NAO Trajeto=Brasilia-Rio de Janeiro Turno_Partirda=MANHA Companhia=GOL 23 ==> tipo_proposto=Servidor 22 acc:(0.98756)
  • Referências
    • Agrawal R, Imielinski T, Swami AN. &quot;Mining Association Rules between Sets of Items in Large Databases.&quot; SIGMOD . June 1993, 22 (2):207-16.
    • Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1.
    • Peter A. Flach and Nicolas Lachiche. Confirmation-Guided Discovery of First-Order Rules with Tertius. Machine Learning ,volume 42 (1/2): 61--95, January 2001.
    • S. Kotsiantis, D. Kanellopoulos, Association Rules Mining: A Recent Overview, GESTS International Transactions on Computer Science and Engineering, Vol.32 (1), 2006, pp. 71–82
    [email_address] [email_address]