R e la Web Analytics: esempi di manipolazione dei dati

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    4 Favorites

    R e la Web Analytics: esempi di manipolazione dei dati - Presentation Transcript

    1. Web Analytics: la statistica con
    2. Web Analytics: la statistica con 1 2 3
      • Cos’è R: principali caratteristiche del programma
      • IRIS: Un esempio di dataset
      • Caso pratico di Web Analysis
      • Importare file esterni .csv
      • Caratteristiche database
      • Elenco delle pagine di accesso per chiave
      • Elenco delle chiavi: dettaglio frequenze
      • La pagina più “vista” vs “visitata”
      • Durata media delle visite per chiave
      • Torta delle uscita per chiave con tempo inferiore ai due secondi
      • R : programma di statistica opensource
      • Principali caratteristiche:
      • È gratuito
      • È una combinazione tra un linguaggio e un software
      • Permette una flessibile gestione e manipolazione di dati
      • Offre numerose varianti grafiche
      • Può importare file da molti altri sofware (es. SPSS, SAS, STATA)
      • Ha a disposizione una vasta manualistica di supporto
      • Sito web: www.r-project.org
      • Download: http: //cran . r-project . org/mirrors . html
      1 3 2
    3. Editor di testo Rappresentazione grafica Barra degli strumenti 1 3 2
      • IRIS : un esempio di dati
      • IRIS: database contenente informazioni su 3 tipi di fiori (setosa, versicolor e virginica)
      • 1) Richiamiamo il file
      2 3 1
    4. 2) Visualizziamo le principali informazioni ( SUMMARY ) 3) Visualizziamo gli attributi del file ( ATTRIBUTES ) 2 3 1
    5. 4) Rappresentazioni grafiche > plot(iris, main=“plot(iris)”, col=“blue”) > help(plot) #richiama l’help di R per la funzione Plot 2 3 1
      • Caso pratico di Web Analysis
      • Importiamo i file esterni in formato .csv
      • Importiamo il primo file
      • file1<-read.csv(&quot;C:\WebAnalytics\file1.csv&quot;,header=TRUE,sep=&quot;;&quot;)
      3 1 2 a b c d e f g h
      • Importiamo il secondo file
      • file2<-read.csv(&quot;C:\WebAnalytics\file2.csv&quot;,header=TRUE,sep=&quot;;&quot;)
      3 1 2 a b c d e f g h
      • Uniamo i due file in un’unica tabella
      • file3<-merge(file1, file2, by.x = &quot;ID_VISITA&quot;, by.y = &quot;ID_VISITA&quot;, all = TRUE)
      • NOTA: Ogni ID viene ripetuto tante volte quante sono le pagine viste dall’utente.
      3 1 2 a b c d e f g h
      • Caratteristiche database
      • summary(file3)
      3 1 2 a b c d e f g h
      • Elenco delle pagine di accesso per chiave:
      • dettaglio del numero di pagine
      • sub<-subset(file1,file1[,3]!=c(&quot;&quot;)) #subset con gli accessi provenienti da motore di ricerca
      • table(file1$MOTORE_DI_PROVENIENZA!=&quot;&quot;) #tab. frequenza per visualizzare il n° accessi da motore di ricerca
      • FALSE TRUE
      • 55 45
      • file3$DUP1<-duplicated(file3[,1]) # nuova variabile per identificare solo la prima pagina per ciascun accesso
      • sub2<-subset(file3,file3$DUP1==FALSE&file3[,3]!=c(“”))
      • #dataset composto dai soli accessi provenienti da motore e identificazione della prima pagina
      • sub_chiave<-subset(sub2,select=c(CHIAVE_VISITA,URL_PAGINA_VISITATA))
      • #nuovo dataset composto dalle sole variabili CHIAVE_VISITA e URL_PAGINA_VISITATA
      3 1 2 a b c d e f g h
      • Elenco delle pagine di accesso per chiave:
      • dettaglio del numero di pagine
      • sub2$VP<- paste(sub_chiave$CHIAVE_VISITA,” — “, sub_chiave$
      • URL_PAGINA_VISITATA)
      • #concatena le due variabili in un solo oggetto, separate dal “ –”
      • cbind(sort(table(sub2$VP),decreasing=TRUE))
      • #tabella di frequenza per la nuova variabile aggregata
      3 1 2 a b c d e f g h
      • Elenco delle pagine di accesso per chiave:
      • dettaglio del numero di pagine
      3 1 2 a b c d e f g h
      • Elenco Delle Chiavi Presenti
      • Le chiavi più utilizzate: tabella
      • #visualizziamo i dati all’interno
      • di una tabella di frequenza
      • cbind(summary(
      • file1$CHIAVE_VISITA,
      • maxsum=20))
      • cbind(sort(table(
      • file3$CHIAVE_VISITA),
      • decreasing = TRUE))
      3 1 2 nessuna chiave associata chiave con il più alto numero di accessi a b c d e f g h
      • Le chiavi più utilizzate: grafico
      • #torta per visualizzare la chiave
      • con frequenza di accessi più alta
      • pie(sort(table(file1$CHIAVE_
      • VISITA)[-1]),cex=0.6,col=
      • rainbow(24), radius = 0.9)
      3 1 2 a b c d e f g h
      • La pagina più vista
      • #tabella di frequenza per identificare
      • le pagine più viste
      • cbind(summary(
      • file3$URL_PAGINA_VISITATA,
      • maxsum=20))
      • cbind(sort(table(file3$
      • URL_PAGINA_VISITATA),
      • decreasing = TRUE))
      3 1 2 a b c d e f g h
      • La pagina più visitata
      • #tabella di frequenza per identificare
      • le pagine più visitate (se un ID visualizza
      • più volte la stessa pagina, quest’ultima
      • viene conteggiata una sola volta)
      • file3$UNION<- paste(
      • file3$URL_PAGINA_VISITATA,
      • file3$ID_VISITA)
      • file3$DUP<-
      • duplicated(paste(file3$URL_PAGINA_
      • VISITATA,file3$ID_VISITA))
      • file3$DUP<- ifelse
      • (file3[,10]==&quot;TRUE&quot;,1,0)
      • cbind(sort(table(file3$URL_PAGINA_
      • VISITATA,file3$DUP)[,1],
      • decreasing = TRUE))
      3 1 2 a b c d e f g h
      • Durata media delle visite
      • #nuova variabile che calcola la differenza tra le date inserite
      • file3$DIFF<-as.numeric(c(0,diff(strptime(file3$DATA_ORA_
      • ACCESSO, &quot;%Y%m%d:%H.%M.%S&quot;))))
      • #nuova variabile dicotomica (0-1) per identificare una sola volta l’ID
      • file3$UNIF<-ifelse(file3$DUP1== FALSE ,1,0)
      • #creiamo 2 dataset in cui aggreghiamo (1) la durata di navigazione per chiave e (2) il numero di ID per chiave
      • fileAGGR1<-aggregate(file3$DIFF,list(file3$CHIAVE_VISITA),sum)
      • fileAGGR2<-aggregate(file3$UNIF,list(file3$CHIAVE_VISITA),sum)
      • #diamo i nomi alle varibili presenti nei 2 precedenti dataset
      • colnames(fileAGGR1)<-c(“chiave”,”sum”)
      • colnames(fileAGGR2)<-c(“chiave”,”count”)
      3 1 2 a b c d e f g h
      • Durata media delle visite
      • #uniamo i due file in uno unico
      • fileTOT<-merge(fileAGGR1,
      • fileAGGR2,by.x=”chiave”,
      • by.y=”chiave”)
      • #nuova variabile che calcola la media
      • fileTOT$mean<-format(as.numeric
      • ((fileTOT[,2]/ fileTOT[,3])),
      • digits=2)
      • #visualizziamo la tabella
      • print(fileTOT)
      3 1 2 a b c d e f g h
      • Torta delle uscite per chiave con tempo inferiore
      • ai due secondi
      • #nuova var che calcola diff
      • fileUSC<-subset(file3,file3$
      • DIFF==1&file3$CHIAVE_VISITA!=&quot;&quot;)
      • #utilizziamo la funzione split
      • pie(sort(table(fileUSC$CHIAVE_
      • VISITA
      3 1 2 a b c d e f g h
      • Le visite fatte dal medesimo IP: quante e quali
      • #nuova variabile di aggregazione: numero di ID per ciascun IP
      • fileAGGR3<-aggregate(file3$UNIF,list(file3$IP_VISITA),sum)
      • #creiamo un sottoinsieme di dati composto dai soli IP associati a più di un ID
      • subIP<-subset(fileAGGR3,fileAGGR3[,2]!=1)
      • #ordiniamo il file subIP
      • subIP[order(subIP[,2],decreasing = TRUE),]
      3 1 2 a b c d e f g h
      • Le visite fatte dal medesimo IP: quante e quali
      • #uniamo il nuovo sottoinsieme subIP con i dati presenti nel file3
      • fileRES<-merge(file3, subIP ,by.y=&quot;Group.1&quot;,by.x=&quot;IP_VISITA&quot;,all.y=TRUE,all.x=FALSE)
      • #ordiniamo il file per le voci IP e ID
      • fileRES[order(fileRES$IP_VISITA,fileRES$ID_VISITA),]
      3 1 2 a b c d e f g h
    6. Profilo Angela Baldan Si occupa dell’analisi di dati di vendita per Lotto Sport Italia Spa Riferimenti: linkedin.com/in/angelabaldan [email_address] Gestione di una campagna PPC www.yoyoformazione.it
    7. Grazie per l’attenzione www.yoyoformazione.it Web Analytics 27 settembre 2007 – pag:

    + marco.zieromarco.ziero, 3 years ago

    custom

    2598 views, 4 favs, 1 embeds more stats

    Slide della presentazione di Angela Baldan circa R more

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 2598
      • 2551 on SlideShare
      • 47 from embeds
    • Comments 0
    • Favorites 4
    • Downloads 46
    Most viewed embeds
    • 47 views on http://www.marcoziero.it

    more

    All embeds
    • 47 views on http://www.marcoziero.it

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories