Projeto de Aplicação – Análise do uso de Passagens Aéreas Federais Rodrigo da Silva Soares Rondon Pessoa de Mendonça Neto
Objetivo Verificar o uso de passagens aéreas federais através de mineração de padrões frequentes. Hipóteses: 1  -  Existem...
Base de Dados Passagens Aéreas Federais 2007 Atributos <ul><li>Código  do órgão </li></ul><ul><li>Nome do órgão </li></ul>...
Pré-Processamento Filtros: Redução e Limpeza dos dados RemoveUseless  - Remove atribs. nominais que variam muito (threshol...
<ul><li>2 etapas: </li></ul><ul><ul><ul><li>Um método de avaliação </li></ul></ul></ul><ul><ul><ul><li>Um método de busca ...
InfoGainAttributeEval  - Ranker <ul><li>=== Attribute Selection on all input data === </li></ul><ul><li>Search Method: </l...
Algoritmos <ul><li>3 algoritmos para aprender   Associações : </li></ul><ul><ul><li>Apriori; </li></ul></ul><ul><ul><li>Pr...
Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da P...
Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da P...
Resultados Hipótese 2 – Relações entre  o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. Apri...
Resultados Hipótese 2 – Relações entre  o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. Pred...
Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o...
Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o...
Referências <ul><li>Agrawal R, Imielinski T, Swami AN. &quot;Mining Association Rules between Sets of Items in Large Datab...
Upcoming SlideShare
Loading in...5
×

Projeto de Aplicação - Passagens Federais

638

Published on

Projeto de Aplicação como requisito final para a disciplina Mineração de Dados - Prof. Wagner Meira Jr - Doutorado em Bioinformática

Published in: Education, Technology, Travel
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
638
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Projeto de Aplicação - Passagens Federais

  1. 1. Projeto de Aplicação – Análise do uso de Passagens Aéreas Federais Rodrigo da Silva Soares Rondon Pessoa de Mendonça Neto
  2. 2. Objetivo Verificar o uso de passagens aéreas federais através de mineração de padrões frequentes. Hipóteses: 1 - Existem associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. 2 - Qual a relação entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. 3 - A relação entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro.
  3. 3. Base de Dados Passagens Aéreas Federais 2007 Atributos <ul><li>Código do órgão </li></ul><ul><li>Nome do órgão </li></ul><ul><li>Número PCDP </li></ul><ul><li>Tipo de passageiro </li></ul><ul><li>Data de partida </li></ul><ul><li>Turno da partida </li></ul><ul><li>Tipo de viagem </li></ul><ul><li>Companhia </li></ul><ul><li>V12 </li></ul><ul><li>Custo da tarifa </li></ul><ul><li>Tarifa praticada </li></ul><ul><li>Trecho </li></ul><ul><li>Dia da semana </li></ul><ul><li>Trajeto </li></ul><ul><li>Data e hora de partida </li></ul>
  4. 4. Pré-Processamento Filtros: Redução e Limpeza dos dados RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos constantes (nme/nml). Discretize : Discretiza um intervalo de atributos numéricos utilizando a técnica MDL.
  5. 5. <ul><li>2 etapas: </li></ul><ul><ul><ul><li>Um método de avaliação </li></ul></ul></ul><ul><ul><ul><li>Um método de busca </li></ul></ul></ul><ul><li>Utilizamos dois métodos: </li></ul><ul><ul><ul><li>InfoGainAttributeEval - Ranker </li></ul></ul></ul><ul><ul><ul><li>ChiSquare - Ranker </li></ul></ul></ul>Pré-Processamento - Seleção de Atributos
  6. 6. InfoGainAttributeEval - Ranker <ul><li>=== Attribute Selection on all input data === </li></ul><ul><li>Search Method: </li></ul><ul><li>Attribute ranking. </li></ul><ul><li>Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto): </li></ul><ul><li>Information Gain Ranking Filter </li></ul><ul><li>Ranked attributes: </li></ul><ul><li>1.106828 3 Num_PCDP </li></ul><ul><li>1.033605 8 Data_Hora_Partida </li></ul><ul><li>0.670534 5 Data_Inicio </li></ul><ul><li>0.379512 7 Trajeto </li></ul><ul><li>0.379512 12 Trecho </li></ul><ul><li>0.292108 2 Nome_Orgao </li></ul><ul><li>0.26584 1 Cod_Orgao </li></ul><ul><li>0.118241 10 Companhia </li></ul><ul><li>0.097476 13 Dia_Semana </li></ul><ul><li>0.013819 9 Turno_Partirda </li></ul><ul><li>0.005139 11 Tarifa_Praticada </li></ul><ul><li>0.005113 14 Custo_Tarifa </li></ul><ul><li>0.000581 6 Internacional </li></ul><ul><li>Selected attributes: 3,8,5,7,12,2,1,10,13,9,11,14,6 : 13 </li></ul>ChiSquaredAttributeEval - Ranker <ul><li>=== Attribute Selection on all input data === </li></ul><ul><li>Search Method: </li></ul><ul><li>Attribute ranking. </li></ul><ul><li>Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto): </li></ul><ul><li>Chi-squared Ranking Filter </li></ul><ul><li>Ranked attributes: </li></ul><ul><li>7780.123 3 Num_PCDP </li></ul><ul><li>7182.115 8 Data_Hora_Partida </li></ul><ul><li>2656.849 5 Data_Inicio </li></ul><ul><li>1078.49 7 Trajeto </li></ul><ul><li>1078.49 12 Trecho </li></ul><ul><li>965.474 2 Nome_Orgao </li></ul><ul><li>658.226 1 Cod_Orgao </li></ul><ul><li>320.807 10 Companhia </li></ul><ul><li>260.794 13 Dia_Semana </li></ul><ul><li>36.345 9 Turno_Partirda </li></ul><ul><li>16.905 14 Custo_Tarifa </li></ul><ul><li>11.549 11 Tarifa_Praticada </li></ul><ul><li>0.973 6 Internacional </li></ul><ul><li>Selected attributes: 3,8,5,7,12,2,1,10,13,9,14,11,6 : 13 </li></ul>
  7. 7. Algoritmos <ul><li>3 algoritmos para aprender Associações : </li></ul><ul><ul><li>Apriori; </li></ul></ul><ul><ul><li>PredictiveApriori; </li></ul></ul><ul><ul><li>Tertius; </li></ul></ul><ul><ul><li>Trabalham somente com dados nominais; </li></ul></ul><ul><ul><li>Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança. </li></ul></ul><ul><li>2 algoritmos para Classificação : </li></ul><ul><ul><li>BFTree; </li></ul></ul><ul><ul><li>REPTree; </li></ul></ul><ul><ul><li>Modelos para a previsão de classes (nominal ou númerica): </li></ul></ul>
  8. 8. Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. === Run information === Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1 Relation: BasePassagensDiscretizada-weka.filters.unsupervised.attribute.RemoveUseless-M99.0-weka.filters.unsupervised.attribute.Remove-R1,3,5-13 Instances: 74262 Attributes: 3 Nome_Orgao tipo_proposto Custo_Tarifa Test mode: split 99.0% train, remainder test
  9. 9. Resultados Hipótese 1 - A ssociações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem. PredictiveApriori =================== Best rules found: 1. Custo_Tarifa=BAIXO 156 ==> Internacional=NAO 156 acc:(0.99497) 2. tipo_proposto=Colaborador Eventual Internacional=SIM 7 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=ALTO 3 acc:(0.46999) 3. Custo_Tarifa=INCOMUM 12 ==> tipo_proposto=Servidor Internacional=SIM 9 acc:(0.72776) 4. Custo_Tarifa=ALTO 214 ==> tipo_proposto=Servidor 123 acc:(0.58724) 5. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 acc:(0.58268) 6. tipo_proposto=Colaborador Eventual Internacional=NAO Custo_Tarifa=ALTO 80 ==> Nome_Orgao=Gabinete do Ministro 45 acc:(0.58026) 7. Custo_Tarifa=NAO AVALIADO 14 ==> tipo_proposto=Colaborador Eventual Internacional=NAO 8 acc:(0.57539) 8. Internacional=SIM 21 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=INCOMUM 12 acc:(0.5747)
  10. 10. Resultados Hipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. Apriori ======= Minimum support: 0.35 (700 instances) Minimum metric <confidence>: 0.9 Number of cycles performed: 13 Best rules found: 1. Companhia=GOL Custo_Tarifa=NORMAL 752 ==> Internacional=NAO 752 conf:(1) 2. Companhia=TAM Custo_Tarifa=NORMAL 708 ==> Internacional=NAO 708 conf:(1) 3. Turno_Partirda=MANHA Custo_Tarifa=NORMAL 889 ==> Internacional=NAO 888 conf:(1) 4. Custo_Tarifa=NORMAL 1604 ==> Internacional=NAO 1602 conf:(1) 5. tipo_proposto=Servidor Custo_Tarifa=NORMAL 945 ==> Internacional=NAO 943 conf:(1) 6. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=NORMAL 936 ==> Internacional=NAO 934 conf:(1) 7. Companhia=TAM 898 ==> Internacional=NAO 895 conf:(1) 8. Companhia=GOL 888 ==> Internacional=NAO 882 conf:(0.99) 9. Turno_Partirda=MANHA 1076 ==> Internacional=NAO 1068 conf:(0.99) 10. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 conf:(0.99)
  11. 11. Resultados Hipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida. PredictiveApriori =================== Best rules found: 1. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=GOL Custo_Tarifa=NORMAL 299 ==> Internacional=NAO 299 acc:(0.99484) 2 . Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Turno_Partirda=MANHA Dia_Semana=Segunda-Feira Custo_Tarifa=NORMAL 280 ==> Internacional=NAO 280 acc:(0.9948) 3 . Companhia=TAM Dia_Semana=Segunda-Feira 275 ==> Internacional=NAO 275 acc:(0.99479) 4. Dia_Semana=Terca-Feira Custo_Tarifa=NORMAL 271 ==> Internacional=NAO 271 acc:(0.99478) Tertius ======= 1. /* 0,343644 0,082384 */ tipo_proposto = Colaborador Eventual ==> Nome_Orgao = Secretaria Nacional de Seguranca Publica 2. /* 0,338121 0,081495 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = NAO AVALIADO or Nome_Orgao = Secretaria Nacional de Seguranca Publica 3. /* 0,329954 0,082249 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = INCOMUM or Nome_Orgao = Secretaria Nacional de Seguranca Publica 4. /* 0,318858 0,073160 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = ALTO or Nome_Orgao = Secretaria Nacional de Seguranca Publica
  12. 12. Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro Resultados 2) Trajeto=(Recife-Brasilia)|(Florianopolis-Brasilia) | Turno_Partirda=(TARDE): Servidor(8.0/0.0) 1) Turno_Partirda=(NOITE) | Trajeto=(Brasilia-Belem)|(Brasilia-Fortaleza) | | Trajeto=(Brasilia-Fortaleza): Servidor(1.0/1.0) Trajeto=(Brasilia-Goiania): Servidor(5.0/2.0) Trajeto=(Brasilia-Florianopolis): Servidor(10.0/7.0) Trajeto=(Brasilia-Belo Horizonte): Colaborador Eventual(30.0/12.0) Trajeto!=(Brasilia-Curitiba): Colaborador Eventual(24.0/16.0) === Classifier model (full training set) === Best-First Decision Tree === Evaluation on training set === === Summary === Correctly Classified Instances 1568 78.4 % Incorrectly Classified Instances 432 21.6 % Exemplos da Árvore: 3)
  13. 13. Hipótese 3 –R elações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro Resultados Apriori ======= Minimum support: 0.2 (400 instances) Minimum metric <lift>: 1.1 Best rules found: 1. tipo_proposto=Colaborador Eventual Internacional=NAO 751 ==> Companhia=TAM 460 conf:(0.61) < lift:(1.36)> lev:(0.06) [122] conv:(1.42) 2. tipo_proposto=Servidor Internacional=NAO 1167 ==> Companhia=GOL 684 conf:(0.59) < lift:(1.32)> lev:(0.08) [165] conv:(1.34) 3. tipo_proposto=Servidor 1181 ==> Companhia=GOL 690 conf:(0.58) < lift:(1.32)> lev:(0.08) [165] conv:(1.33) PredictiveApriori =================== Best rules found: 1. Turno_Partirda=NOITE Companhia=GOL 224 ==> Internacional=NAO 224 acc:(0.995) 2. Turno_Partirda=TARDE Companhia=TAM 210 ==> Internacional=NAO 210 acc:(0.995) 3. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=TAM 188 ==> Internacional=NAO 188 acc:(0.99499) 4. Companhia=NHT 24 ==> Internacional=NAO 24 acc:(0.99466) 5. tipo_proposto=Colaborador Eventual Trajeto=Porto Alegre-Brasilia 24 ==> Internacional=NAO Companhia=TAM 24 acc:(0.99466) 6. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Internacional=NAO 9 acc:(0.99129) 7. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Turno_Partirda=NOITE 9 acc:(0.99129) 8. Internacional=NAO Trajeto=Brasilia-Rio de Janeiro Turno_Partirda=MANHA Companhia=GOL 23 ==> tipo_proposto=Servidor 22 acc:(0.98756)
  14. 14. Referências <ul><li>Agrawal R, Imielinski T, Swami AN. &quot;Mining Association Rules between Sets of Items in Large Databases.&quot; SIGMOD . June 1993, 22 (2):207-16. </li></ul><ul><li>Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1. </li></ul><ul><li>Peter A. Flach and Nicolas Lachiche. Confirmation-Guided Discovery of First-Order Rules with Tertius. Machine Learning ,volume 42 (1/2): 61--95, January 2001. </li></ul><ul><li>S. Kotsiantis, D. Kanellopoulos, Association Rules Mining: A Recent Overview, GESTS International Transactions on Computer Science and Engineering, Vol.32 (1), 2006, pp. 71–82 </li></ul>[email_address] [email_address]
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×