MAPREDUCE PARA O
MÉTODO DE REGRESSÃO
    POR MÍNIMOS
 QUADRADOS PARCIAIS
       (MRPLS)

     MACHINE LEARNING I
       LE...
MOTIVAÇÃO



CONSTRUIR MODELOS
MAIS ROBUSTOS

UTILIZAÇÃO DO PLS                           PLS                           PL...
MOTIVAÇÃO


PROBLEMA
                    T   X   Y
 PLS - DUAS FASES

   TREINO               Q   B
   (CUSTOSO)

   TESTE...
OBJETIVO


MODELO PLS

 VOLUME ELEVADO DE DADOS

 FASE DE TREINAMENTO

   ALGORITMOS: PLS1 (USA NIPALS), PLS2

   PARADIGM...
OBJETIVO


INVESTIGAR                  PLS   MRPLS


    DESEMPENHO

    EFICIÊNCIA

    VOLUME DE DADOS

    MODELO




 ...
MAPREDUCE

DESENVOLVIDO PELA GOOGLE

PARADIGMA DE PROGRAMAÇÃO (CLOUD COMPUTING)

  OBJETIVO

    SIMPLIFICAR A PROGRAMAÇÃO...
MAPREDUCE

PROBLEMA

 CONTAGEM DE PALAVRAS

   ENTRADA = [BANANA,MELÃO,MAÇÃ,MELÃO,MAÇÃ]


   SAÍDA DESEJADA = {BANANA: 1, ...
MAPREDUCE

MAP                    REDUCE

 (BANANA,1);(MELÃO,     (BANANA,[1]);
 1);(MAÇÃ,1);(MELÃO,    (MELÃO,[1,1]);
 1)...
MAPREDUCE




            9
MAPREDUCE




            10
HADOOP
DESENVOLVIDO PELA APACHE

  INSPIRADO NO GFS/MAPREDUCE

PLATAFORMA

    OBJETIVOS

      EXECUTAR APLICAÇÕES PARA G...
HADOOP




         12
DATASET

TOY-DATASET (MEAT)

  APROX. 200 EXEMPLOS, 100 CARACTS. E 3 VAR.
  DEPENDENTES

TOY-DATASET

  REPLICAR CONJUNTO ...
METODOLOGIA


ELABORAR A VERSÃO MAPREDUCE DO PLS

ANALISAR A CORRETUDE DOS ALGORITMOS

PREPARAR O DATASET

SIMULAÇÃO

 AMB...
METODOLOGIA


ESCOLHER/PREPARAR AMBIENTE REAL(CLUSTER)

ANALISAR O TEMPO DE PROCESSAMENTO - MÉTRICAS

  SPEEDUP (SP = TS/T...
FERRAMENTAS/EXPERIMENTOS

HADOOP (HDFS)

  HADOOP STREAMING

FRAMEWORK LEARNTRADE

CLUSTER DA TECGRAF




                ...
CRONOGRAMA

 ELABORAR A VERSAO MAPREDUCE DO
                                    ok    07/09/08 - 20/09/08
PLS

    ANALISA...
REFERÊNCIAS



MILIDIU, R. L. ; RENTERIA, Raul . DPLS and PPLS: Two PLS Algorithms for Large Data Sets. Computational Stat...
Upcoming SlideShare
Loading in …5
×

MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS)

1,152 views

Published on

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,152
On SlideShare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
15
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS)

  1. 1. MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS) MACHINE LEARNING I LEANDRO ALVIM PROF. RUY MILIDIÚ 1
  2. 2. MOTIVAÇÃO CONSTRUIR MODELOS MAIS ROBUSTOS UTILIZAÇÃO DO PLS PLS PLS TEMPO ( PLS/ TEMPO ( PLS/ TOTAL ) TOTAL ) PROBLEMA 100 100 75 75 DESEMPENHO 50 50 25 25 0 0 1 10 20 30 27k 54k 108k 216k N. FATORES N. EXEMPLOS 2
  3. 3. MOTIVAÇÃO PROBLEMA T X Y PLS - DUAS FASES TREINO Q B (CUSTOSO) TESTE 3
  4. 4. OBJETIVO MODELO PLS VOLUME ELEVADO DE DADOS FASE DE TREINAMENTO ALGORITMOS: PLS1 (USA NIPALS), PLS2 PARADIGMA MAPREDUCE 4
  5. 5. OBJETIVO INVESTIGAR PLS MRPLS DESEMPENHO EFICIÊNCIA VOLUME DE DADOS MODELO 5
  6. 6. MAPREDUCE DESENVOLVIDO PELA GOOGLE PARADIGMA DE PROGRAMAÇÃO (CLOUD COMPUTING) OBJETIVO SIMPLIFICAR A PROGRAMAÇÃO - GRANDES VOLUMES DE DADOS MASCARAR O PARADIGMA MESTRE/ESCRAVO 6
  7. 7. MAPREDUCE PROBLEMA CONTAGEM DE PALAVRAS ENTRADA = [BANANA,MELÃO,MAÇÃ,MELÃO,MAÇÃ] SAÍDA DESEJADA = {BANANA: 1, MELÃO: 2, MAÇÃ: 2} 7
  8. 8. MAPREDUCE MAP REDUCE (BANANA,1);(MELÃO, (BANANA,[1]); 1);(MAÇÃ,1);(MELÃO, (MELÃO,[1,1]); 1) [(MAÇÃ,[1])] SOMAR VALORES POR CHAVE 8
  9. 9. MAPREDUCE 9
  10. 10. MAPREDUCE 10
  11. 11. HADOOP DESENVOLVIDO PELA APACHE INSPIRADO NO GFS/MAPREDUCE PLATAFORMA OBJETIVOS EXECUTAR APLICAÇÕES PARA GRANDES VOLUMES DE DADOS MÁQUINAS DE CUSTO BAIXO EFICIENTE (PARALELISMO LOCAL) CONFIÁVEL (HDFS) 11
  12. 12. HADOOP 12
  13. 13. DATASET TOY-DATASET (MEAT) APROX. 200 EXEMPLOS, 100 CARACTS. E 3 VAR. DEPENDENTES TOY-DATASET REPLICAR CONJUNTO DE EXEMPLOS 1M EXEMPLOS X 100 CARACT. E 3 VAR. DEPENDENTES 13
  14. 14. METODOLOGIA ELABORAR A VERSÃO MAPREDUCE DO PLS ANALISAR A CORRETUDE DOS ALGORITMOS PREPARAR O DATASET SIMULAÇÃO AMBIENTE PSEUDO-DISTRIBUIDO 14
  15. 15. METODOLOGIA ESCOLHER/PREPARAR AMBIENTE REAL(CLUSTER) ANALISAR O TEMPO DE PROCESSAMENTO - MÉTRICAS SPEEDUP (SP = TS/TP) LINEAR? (SP=P) EFICIENCY (EP = SP/P) RELATÓRIO 15
  16. 16. FERRAMENTAS/EXPERIMENTOS HADOOP (HDFS) HADOOP STREAMING FRAMEWORK LEARNTRADE CLUSTER DA TECGRAF 16
  17. 17. CRONOGRAMA ELABORAR A VERSAO MAPREDUCE DO ok 07/09/08 - 20/09/08 PLS ANALISAR A CORRETUDE DOS ok 20/09/08 - 22/09/08 ALGORITMOS PREPARAR UM DATASET PARA ok 01/10/08 TESTE SIMULACAO EM AMBIENTE PSEUDO- ok 01/10/08 - 03/10/08 DISTRIBUIDO ESCOLHER/PREPARAR AMBIENTE ok 20/09/08 - 07/09/08 PARA OS TESTES ANALISAR O TEMPO DE nok 08/09/08 - ??/??/08 PROCESSAMENTO - METRICAS ESCREVER UM RELATORIO nok ??/??/08-??/??/08 17
  18. 18. REFERÊNCIAS MILIDIU, R. L. ; RENTERIA, Raul . DPLS and PPLS: Two PLS Algorithms for Large Data Sets. Computational Statistics and Data Analysis, v. 48, p. 125-138, 2005. MapReduce: Simplified Data Processing on Large Clusters Hadoop Distributed File System Hadoop Map/Reduce 18

×