• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS)
 

MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS)

on

  • 1,389 views

 

Statistics

Views

Total Views
1,389
Views on SlideShare
1,379
Embed Views
10

Actions

Likes
0
Downloads
11
Comments
0

1 Embed 10

http://www.slideshare.net 10

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS) MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS) Presentation Transcript

    • MAPREDUCE PARA O MÉTODO DE REGRESSÃO POR MÍNIMOS QUADRADOS PARCIAIS (MRPLS) MACHINE LEARNING I LEANDRO ALVIM PROF. RUY MILIDIÚ 1
    • MOTIVAÇÃO CONSTRUIR MODELOS MAIS ROBUSTOS UTILIZAÇÃO DO PLS PLS PLS TEMPO ( PLS/ TEMPO ( PLS/ TOTAL ) TOTAL ) PROBLEMA 100 100 75 75 DESEMPENHO 50 50 25 25 0 0 1 10 20 30 27k 54k 108k 216k N. FATORES N. EXEMPLOS 2
    • MOTIVAÇÃO PROBLEMA T X Y PLS - DUAS FASES TREINO Q B (CUSTOSO) TESTE 3
    • OBJETIVO MODELO PLS VOLUME ELEVADO DE DADOS FASE DE TREINAMENTO ALGORITMOS: PLS1 (USA NIPALS), PLS2 PARADIGMA MAPREDUCE 4
    • OBJETIVO INVESTIGAR PLS MRPLS DESEMPENHO EFICIÊNCIA VOLUME DE DADOS MODELO 5
    • MAPREDUCE DESENVOLVIDO PELA GOOGLE PARADIGMA DE PROGRAMAÇÃO (CLOUD COMPUTING) OBJETIVO SIMPLIFICAR A PROGRAMAÇÃO - GRANDES VOLUMES DE DADOS MASCARAR O PARADIGMA MESTRE/ESCRAVO 6
    • MAPREDUCE PROBLEMA CONTAGEM DE PALAVRAS ENTRADA = [BANANA,MELÃO,MAÇÃ,MELÃO,MAÇÃ] SAÍDA DESEJADA = {BANANA: 1, MELÃO: 2, MAÇÃ: 2} 7
    • MAPREDUCE MAP REDUCE (BANANA,1);(MELÃO, (BANANA,[1]); 1);(MAÇÃ,1);(MELÃO, (MELÃO,[1,1]); 1) [(MAÇÃ,[1])] SOMAR VALORES POR CHAVE 8
    • MAPREDUCE 9
    • MAPREDUCE 10
    • HADOOP DESENVOLVIDO PELA APACHE INSPIRADO NO GFS/MAPREDUCE PLATAFORMA OBJETIVOS EXECUTAR APLICAÇÕES PARA GRANDES VOLUMES DE DADOS MÁQUINAS DE CUSTO BAIXO EFICIENTE (PARALELISMO LOCAL) CONFIÁVEL (HDFS) 11
    • HADOOP 12
    • DATASET TOY-DATASET (MEAT) APROX. 200 EXEMPLOS, 100 CARACTS. E 3 VAR. DEPENDENTES TOY-DATASET REPLICAR CONJUNTO DE EXEMPLOS 1M EXEMPLOS X 100 CARACT. E 3 VAR. DEPENDENTES 13
    • METODOLOGIA ELABORAR A VERSÃO MAPREDUCE DO PLS ANALISAR A CORRETUDE DOS ALGORITMOS PREPARAR O DATASET SIMULAÇÃO AMBIENTE PSEUDO-DISTRIBUIDO 14
    • METODOLOGIA ESCOLHER/PREPARAR AMBIENTE REAL(CLUSTER) ANALISAR O TEMPO DE PROCESSAMENTO - MÉTRICAS SPEEDUP (SP = TS/TP) LINEAR? (SP=P) EFICIENCY (EP = SP/P) RELATÓRIO 15
    • FERRAMENTAS/EXPERIMENTOS HADOOP (HDFS) HADOOP STREAMING FRAMEWORK LEARNTRADE CLUSTER DA TECGRAF 16
    • CRONOGRAMA ELABORAR A VERSAO MAPREDUCE DO ok 07/09/08 - 20/09/08 PLS ANALISAR A CORRETUDE DOS ok 20/09/08 - 22/09/08 ALGORITMOS PREPARAR UM DATASET PARA ok 01/10/08 TESTE SIMULACAO EM AMBIENTE PSEUDO- ok 01/10/08 - 03/10/08 DISTRIBUIDO ESCOLHER/PREPARAR AMBIENTE ok 20/09/08 - 07/09/08 PARA OS TESTES ANALISAR O TEMPO DE nok 08/09/08 - ??/??/08 PROCESSAMENTO - METRICAS ESCREVER UM RELATORIO nok ??/??/08-??/??/08 17
    • REFERÊNCIAS MILIDIU, R. L. ; RENTERIA, Raul . DPLS and PPLS: Two PLS Algorithms for Large Data Sets. Computational Statistics and Data Analysis, v. 48, p. 125-138, 2005. MapReduce: Simplified Data Processing on Large Clusters Hadoop Distributed File System Hadoop Map/Reduce 18