SlideShare a Scribd company logo
1 of 16
Download to read offline
1 
Anàlisi 
de 
dades 
Treball: 
Correlació 
entre 
variables 
Universitat 
Pompeu 
Fabra 
Maria 
Delgado 
Henri 
Hicham 
Miquel 
Bargalló 
Aleix 
Garcés
2 
Índex 
1. 
Introducció 
2. 
Variables 
categòriques 
amb 
variables 
categòriques 
2.1 
Marca 
de 
mòbil 
i 
districte 
3. 
Variables 
categòriques 
amb 
variables 
numèriques 
3.1 
Marca 
de 
mòbil 
i 
edat 
3.2 
Tipus 
de 
tarifa 
i 
despesa 
mensual 
3.3 
Despesa 
mensual 
i 
companyia 
telefònica 
4. 
Variables 
numèriques 
amb 
variables 
numèriques 
4.1 
Despesa 
mensual 
i 
edat 
4.2 
Hores 
d’ús 
del 
mòbil 
i 
edat 
4.3 
Hores 
d’ús 
de 
la 
tablet 
i 
edat 
4.4 
Hores 
d’ús 
del 
mòbil 
i 
hores 
de 
temps 
lliure 
5. 
Conclusió
1. 
Introducció 
En 
la 
primera 
part 
del 
treball 
vam 
analitzar 
una 
sèrie 
de 
variables 
relacionades 
amb 
l’ús 
del 
smartphone 
per 
tal 
de 
tenir 
informació 
sobre 
aquest 
àmbit 
com 
per 
exemple 
la 
marca 
de 
mòbil, 
la 
companyia 
telefònica 
o 
les 
hores 
d’ús 
del 
mòbil 
entre 
d’altres. 
En 
la 
segona 
part 
d’aquest 
treballem 
estudiarem 
les 
diverses 
correlacions 
que 
existeixen 
entre 
les 
variables 
que 
vam 
analitzar 
a 
la 
primera 
part. 
Les 
correlacions 
que 
podem 
trobar 
les 
podem 
dividir 
de 
tres 
tipus: 
-­‐ 
Variable 
categòrica 
amb 
variable 
categòrica. 
En 
concret 
nosaltres 
hem 
comparat 
el 
districte 
de 
residencia 
de 
cada 
persona 
amb 
la 
marca 
de 
mòbil 
que 
tenien. 
-­‐ 
Variable 
categòrica 
amb 
variable 
numèrica. 
En 
àmbit 
nosaltres 
hem 
comparat 
la 
marca 
de 
mòbil 
i 
l’edat, 
el 
tipus 
de 
tarifa 
i 
la 
despesa 
mensual 
i 
també 
la 
despesa 
mensual 
i 
la 
companyia 
telefònica. 
-­‐ 
Variable 
numèrica 
amb 
variable 
numèrica. 
En 
aquesta 
part 
hem 
comparat 
la 
despesa 
mensual 
i 
l’edat, 
les 
hores 
d’ús 
del 
mòbil 
i 
l’edat, 
les 
hores 
d’ús 
de 
la 
tablet 
i 
l’edat 
i 
les 
hores 
d’ús 
del 
mòbil 
i 
les 
hores 
de 
temps 
lliure. 
3
MARCA DE MÒBIL I DISTRICTE 
4 
2. 
Variables 
categòriques 
amb 
variables 
categòriques 
2.1 
Marca 
de 
mòbil 
i 
districte 
Freqüència absoluta 
30 
24 
18 
12 
6 
0 
6 6 
2 
6 
5 
1 1 
1 
3 
2 
2 
2 
1 
2 4 
1 
3 
4 
4 2 2 
Apple 
Samsung 
1 1 
1 2 
1 
1 1 1 
Blackberr y 
1 1 
Google 
1 
HTC 
2 1 
1 1 
1 
Huawei 
1 
LG 
1 
1 
Nokia 
8 
3 
3 
1 
1 
2 
Altres 
Sarrià-Sant Gervasi Sants-Montjuïc Sant Martí Sant Andreu 
Nou Barris Les Corts Horta-Guinardó Gràcia 
Eixample Ciutat Vella Altres 
Aquesta 
relació 
que 
hi 
ha 
entre 
les 
variables 
dels 
districtes 
de 
Barcelona 
segons 
la 
marca 
de 
mòbil 
ha 
sigut 
molt 
feble. 
Podríem 
dir 
que 
no 
hi 
ha 
una 
relació 
entre 
la 
marca 
de 
mòbil 
i 
els 
districtes. 
Si 
la 
nostre 
intenció 
era 
trobar 
que 
pels 
districtes 
més 
rics 
podíem 
trobar 
una 
preferència 
per 
mòbils 
de 
preus 
més 
alts 
(com 
és 
el 
cas 
de 
Apple), 
hem 
observat 
que 
no 
passa. 
Això 
demostra 
que 
les 
empreses 
de 
mòbils 
s’adapten 
a 
les 
diferents 
demandes 
que 
existeixen 
en 
el 
mercat; 
es 
a 
dir, 
que 
tenen 
diferents 
tipus 
de 
mòbils 
segons 
les 
disposicions 
a 
pagar 
dels 
clients 
i 
les 
seves 
preferències.
3. 
Variable 
categòrica 
amb 
numèrica 
3.1 
Marca 
de 
mòbil 
i 
edat 
En 
la 
relació 
de 
les 
variables 
marques 
de 
mòbil 
i 
Edat 
hem 
pogut 
observar 
una 
sèrie 
de 
punts 
interesants. 
En 
primer 
lloc, 
podem 
observar 
que 
les 
marques 
que 
en 
el 
primer 
informe 
ens 
demostrava 
que 
eren 
les 
més 
utilitzades 
per 
la 
població 
(Samsung 
i 
Apple) 
no 
tenen 
cap 
correlació 
amb 
edats 
determinades. 
Es 
a 
dir, 
són 
utilitzades 
per 
totes 
les 
edats. 
Però 
si 
agafavem 
intervals 
d’edat 
segons 
marques 
determinades, 
podiem 
observar 
certes 
coses. 
16 
12 
8 
4 
12 15 17 19 21 23 25 27 29 32 37 42 45 48 52 55 62 68 70 72 82 
Altres 
HTC 
Google 
LG 
Huawei 
Blackberry 
Nokia 
Samsung 
Per 
exemple, 
per 
la 
marca 
Apple 
podiem 
comprovar 
que 
era 
més 
atractiva 
pels 
més 
joves. 
Una 
dada 
que 
ho 
demostrava 
ens 
la 
donava 
el 
diagrama 
de 
caixa, 
que 
indicava 
que 
el 
50% 
dels 
casos 
es 
trobaven 
entre 
els 
18 
i 
els 
27 
anys, 
o 
fins 
i 
tot, 
que 
el 
75% 
dels 
casos 
es 
trobaven 
entre 
14 
i 
els 
27 
anys. 
Això 
pot 
demostrar 
qui 
son 
els 
clients 
més 
importants 
per 
la 
marca 
Apple 
de 
telefons 
mobils. 
5 
MARCA DE MÒBIL I EDAT 
• Apple predomina en les franges de 17 a 30! 
• Samsung la trobem al llarg de totes les edats 
Freqüència absoluta 
0 
Edat 
Apple
En 
el 
cas 
de 
la 
marca 
Samsung, 
no 
podíem 
observar 
una 
franja 
d’edat 
tant 
concreta. 
La 
separació 
entre 
el 
primer 
quartil 
i 
el 
tercer 
quartil 
(que 
ens 
indica 
on 
podem 
trobar 
un 
50% 
de 
les 
dades) 
es 
trobaven 
en 
18 
i 
en 
42 
respectivament. 
Això 
ens 
fa 
intuir 
que 
la 
marca 
Samsung 
en 
canvi 
no 
es 
trobava 
tant 
enfocada 
cap 
a 
una 
edat 
determinada. 
6 
Resums 
resistents 
Mínim 
18 
Q1 
20 
Mediana 
24,5 
Q3 
46,25 
Màxim 
55
3.2 
Tipus 
de 
tarifa 
i 
despesa 
mensual 
La 
comparació 
entre 
aquestes 
dues 
variables 
ens 
mostra 
que 
la 
gran 
majoria 
dels 
usuaris 
enquestats 
prefereixen 
les 
tarifes 
de 
contracte 
per 
davant 
de 
les 
de 
prepagament. 
Dintre 
d'aquesta 
modalitat, 
si 
volguéssim 
afegir 
un 
producte 
o 
servei 
nou 
en 
el 
mercat, 
caldria 
tenir 
en 
compte 
que 
una 
gran 
part 
de 
la 
nostra 
mostra 
esta 
disposada 
a 
gastar-­‐se 
entre 
20 
i 
30€ 
al 
mes 
per 
als 
seus 
serveis 
de 
telefonia 
mòbil. 
TIPUS DE TARIFA I DESPESA 
7 
MENSUAL 
70 
60 
50 
40 
30 
20 
10 
0 
Contracte 
Prepagament 
Contracte 
Quantitat 
45 
36 
27 
18 
0 9 
0 a 10€ 
10 a 20€ 
20 a 30€ 
30 a 40€ 
40 a 50€ 
50 a 60€ Prepagament 
Quantitat 
45 
36 
27 
18 
0 9 
0 a 10€ 
10 a 20€ 
20 a 30€ 
30 a 40€ 
40 a 50€ 
50 a 60€
3.3 
Despesa 
mensual 
i 
companyia 
telefònica 
Una 
comparació 
interessant 
que 
vam 
considerar 
va 
ser 
la 
de 
despesa 
mensual 
en 
relació 
amb 
la 
companyia 
telefònica 
que 
es 
tenia 
contractada. 
Tal 
i 
com 
ja 
hem 
mencionat 
anteriorment, 
es 
pot 
veure 
que 
la 
majoria 
de 
contractes 
estandarditzats 
es 
troben 
entre 
20€ 
i 
30€ 
i 
així 
ho 
compleixen 
totes 
les 
companyies 
principals 
excepte 
Yoigo. 
Hi 
ha 
altres 
companyies 
alternatives 
com 
la 
Racc 
on 
els 
consumidors 
gasten 
molt 
menys 
degut 
als 
contractes 
més 
reduïts. 
Hem 
adjuntat 
un 
diagrama 
de 
caixes 
on 
es 
pot 
veure 
que 
la 
major 
part 
dels 
valors 
de 
les 
principals 
companyies 
es 
troben 
compresos 
en 
l’interval 
20-­‐30€ 
i 
veiem 
que 
les 
mitjanes(els 
punts 
blaus), 
són 
bastant 
semblants. 
També 
veiem 
valors 
atípics 
en 
totes 
les 
companyies 
compresos 
entre 
50€ 
fins 
a 
70€ 
així 
com 
també 
valors 
atípics 
que 
representen 
mínims 
com 
en 
el 
cas 
de 
la 
companyia 
Movistar. 
8
4. 
Variables 
numèriques 
amb 
variables 
numèriques 
4.1 
Despesa 
mensual 
i 
edat 
En 
aquest 
diagrama 
de 
dispersió 
es 
posen 
en 
relació 
dues 
variables 
numèriques. 
En 
l’eix 
de 
les 
Y 
tenim 
la 
despesa 
mensual 
en 
mòbil 
mentre 
que 
en 
l’eix 
de 
les 
X 
tenim 
l’edat 
de 
les 
persones 
enquestades. 
Podem 
veure 
que 
no 
hi 
ha 
cap 
forma 
definida 
dels 
punts. 
Així 
veiem 
com 
la 
correlació 
és 
de 
0,09. 
Per 
tant, 
veiem 
que 
hi 
ha 
molt 
poca 
relació 
entre 
les 
dues 
variables. 
Per 
altra 
banda, 
veiem 
com 
l’equació 
de 
la 
recta 
de 
regressió 
és 
de 
Y=20,56+0,05X. 
Així, 
veiem 
que 
té 
una 
pendent 
positiva 
però 
molt 
feble. 
També 
veiem 
que 
l’error 
de 
regressió 
és 
de 
19,44, 
per 
tant, 
els 
valors 
no 
s’ajusten 
gaire 
a 
la 
tendència 
que 
mostra 
la 
recta 
ja 
que 
és 
un 
valor 
molt 
elevat. 
La 
força 
d’aquest 
diagrama 
és 
molt 
baixa 
ja 
que, 
per 
un 
costat, 
veiem 
que 
els 
punts 
no 
conformen 
cap 
tendència 
ni 
forma 
i 
per 
altra, 
perquè 
la 
correlació 
està 
molt 
propera 
a 
0(0,09). 
Cal 
reafirmar 
que 
R² 
ens 
indica 
que 
no 
existeix 
cap 
mena 
de 
dependència 
entre 
edat 
i 
despesa 
ja 
que 
el 
valor 
és 
de 
0,01. 
Aquest 
fet 
té 
lògica, 
ja 
que 
no 
per 
ser 
més 
gran 
s’hauria 
de 
gastar 
més 
en 
el 
consum 
de 
tarifes 
de 
mòbil 
ja 
que 
,avui 
en 
dia, 
les 
tarifes 
estan 
molt 
estandarditzades 
i, 
per 
tant, 
moltes 
volten 
aproximadament 
entre 
els 
valors 
de 
20€ 
i 
30€. 
9
Hi 
ha 
alguns 
valors 
atípics 
que 
es 
troben 
en 
l’interval 
de 
50€-­‐60€. 
Així, 
aquest 
fet 
es 
podria 
explicar 
per 
la 
contractació 
d’una 
tarifa 
específica 
per 
alguna 
feina 
concreta 
que 
requereixi 
cobertura 
a 
l’estranger 
etc... 
4.2 
Hores 
setmanals 
d’ús 
del 
mòbil 
i 
edat 
En 
aquest 
cas, 
la 
variable 
dependent 
és 
la 
variable 
numèrica 
«hores 
d'ús 
del 
mòbil», 
representada 
a 
l'eix 
de 
les 
y. 
Contràriament, 
la 
variable 
independent 
és 
la 
variable 
categòrica 
«edat», 
representada 
a 
l'eix 
de 
les 
x. 
En 
aquest 
anàlisi, 
però, 
l'edat 
serà 
utilitzada 
com 
a 
variable 
numèrica. 
Tenim 
una 
mostra 
de 
100 
dades. 
Fent 
un 
primer 
cop 
d'ull 
als 
resultats 
obtinguts 
a 
l'Odstats 
tenim 
que 
la 
mitjana 
d'hores 
d'ús 
del 
mòbil 
es 
troba 
en 
les 
26,02 
hores 
setmanals, 
mentre 
que 
la 
mitjana 
de 
la 
variable 
edat 
dels 
enquestats 
és 
de 
30,99 
anys. 
En 
aquest 
gràfic 
de 
dispersió, 
podem 
apreciar 
com 
la 
nostra 
mostra 
no 
té 
cap 
forma 
definida. 
Si 
tractem 
de 
traçar 
una 
recta 
de 
regressió, 
aquesta 
ens 
sortirà 
de 
la 
forma 
Y=38,38 
– 
0,4X. 
Té 
una 
associació 
negativa 
a 
que 
els 
valors 
per 
sota 
de 
la 
mitjana 
d'una 
de 
les 
variables 
acompanyen 
als 
valors 
per 
sobre 
de 
la 
mitjana 
de 
l'altra 
variable. 
10
La 
correlació 
té 
un 
valor 
de 
-­‐0,36; 
un 
valor 
que 
també 
ens 
ajuda 
a 
veure 
que 
la 
nostra 
disperssió 
té 
una 
associació 
negativa. 
Pel 
que 
fa 
a 
la 
força 
de 
la 
nostra 
mostra, 
podem 
afirmar 
que 
aquesta 
és 
feble 
per 
dos 
motius: 
el 
primer 
és 
perquè 
visualment 
podem 
apreciar 
com 
els 
punts 
es 
troben 
bastant 
separats 
de 
la 
recta 
de 
regressió, 
i 
segon 
perquè 
el 
valor 
-­‐0,36, 
que 
està 
més 
proper 
de 
0 
que 
de 
-­‐1, 
ens 
indica 
aquesta 
feblesa. 
La 
R² 
ens 
indica 
la 
dependència 
que 
existeix 
entre 
la 
variable 
x 
i 
la 
y. 
En 
la 
nostra 
mostra 
té 
un 
valor 
de 
0,13; 
un 
valor 
més 
proper 
a 
0 
que 
a 
1. 
Això 
ens 
indica 
que 
les 
variables 
no 
dependen 
fortament 
una 
de 
l'altra, 
és 
a 
dir, 
que 
el 
nombre 
d'hores 
d'ús 
del 
mòbil 
a 
la 
setmana 
que 
realiza 
la 
nostra 
mostra 
no 
depèn 
de 
l'edat 
dels 
usuaris. 
L'error 
de 
regressió, 
amb 
un 
valor 
de 
18,35, 
és 
bastant 
elevat. 
Això 
ens 
indica 
que 
els 
valors 
de 
la 
nostra 
mostra 
no 
s'ajusten 
completament 
a 
la 
recta 
de 
regressió. 
Una 
part 
important 
de 
l'estudi 
és 
comprovar 
la 
influència 
dels 
valors 
atípics. 
Tenim 
alguns 
quatre 
usuaris 
que 
fan 
un 
ús 
de 
80 
hores 
de 
mòbil 
setmanals, 
i 
volem 
comprovar 
si 
aquests 
valors 
són 
influents 
en 
la 
nostra 
mostra. 
En 
aquest 
anàlisi, 
trobem 
valors 
més 
allunyats 
de 
la 
recta 
de 
regressió 
que 
altres, 
però 
si 
es 
consideren 
valors 
atípics 
s'ha 
de 
tenir 
en 
compte 
que 
la 
majoria 
d'ells 
són 
no 
influents, 
perquè 
en 
cas 
de 
suprimir-­‐los, 
el 
pendent 
de 
la 
nostra 
recta 
no 
varia. 
11
4.3 
Hores 
setmanals 
d'ús 
de 
tablet 
o 
ordinadors 
i 
edat 
En 
aquest 
cas, 
la 
variable 
dependent 
és 
la 
variable 
numèrica 
«hores 
d'ús 
de 
tablets 
o 
ordinadors», 
representada 
a 
l'eix 
de 
les 
y, 
mentre 
que 
la 
variable 
independent 
és 
la 
variable 
categòrica 
«edat», 
que 
l'hem 
representada 
a 
l'eix 
de 
les 
y. 
Tenim 
una 
mostra 
de 
100 
dades. 
Fent 
un 
primer 
cop 
d'ull 
als 
resultats 
obtinguts 
a 
l'Odstats 
tenim 
que 
la 
mitjana 
d'hores 
d'ús 
de 
la 
tablet 
o 
ordinador 
es 
troba 
en 
les 
21,33 
hores 
setmanals, 
mentre 
que 
la 
mitjana 
de 
la 
variable 
edat 
dels 
enquestats 
és 
de 
30,99 
anys. 
En 
el 
següent 
gràfic 
de 
dispersió, 
podem 
apreciar 
com 
aquest 
no 
té 
una 
forma 
definida. 
Podem 
veure 
com 
concentra, 
un 
major 
nombre 
de 
valors 
entre 
la 
x=13 
i 
la 
x=28, 
però 
això 
no 
ens 
indica 
una 
forma 
clara 
de 
la 
mostra, 
perquè 
tenim 
bastants 
valors 
que 
s'allunyen 
de 
la 
recta 
de 
regressió. 
La 
correlació 
dóna 
una 
xifra 
de 
-­‐0.18, 
el 
que 
ens 
indica 
que 
és 
feble 
perquè 
el 
valor 
es 
troba 
molt 
proper 
a 
-­‐1. 
La 
proximitat 
dels 
punts 
de 
la 
mostra 
a 
la 
recta 
de 
regressió 
és 
bastant 
escassa, 
excepte 
en 
algunes 
concentracions 
puntuals 
de 
valors. 
Això 
també 
ens 
ve 
a 
indicar, 
però 
aquest 
cop 
de 
manera 
visual, 
que 
l'associació 
entre 
les 
variables 
és 
molt 
feble. 
La 
correlació 
també 
ens 
indica 
que 
l'associació 
entre 
les 
variables 
és 
negativa, 
perquè 
el 
valor 
és 
< 
0 
i 
perquè 
ho 
podem 
apreciar 
a 
la 
recta 
de 
regressió 
representada 
en 
el 
diagrama 
de 
dispersió. 
La 
R², 
que 
ens 
indica 
la 
dependència 
entre 
les 
variables 
x 
i 
y, 
en 
aquest 
cas 
és 
de 
0,03. 
Aquest 
valor 
encara 
és 
més 
baix 
que 
el 
de 
les 
hores 
d'ús 
12
setmanal 
del 
mòbil. 
Al 
trobar-­‐se 
tant 
proper 
a 
0, 
ens 
indica 
que 
les 
variables 
no 
depenen, 
per 
res, 
l'una 
de 
l'altra, 
és 
a 
dir 
que 
el 
nombre 
d'hores 
a 
la 
setmana 
que 
els 
usuaris 
utilitzen 
mòbils 
o 
tablets 
no 
té 
a 
veure 
amb 
la 
seva 
edat. 
L'error 
de 
regressió, 
amb 
un 
valor 
de 
13,63, 
ens 
indica 
que 
els 
valors 
de 
la 
mostra 
no 
s'ajusten 
completament 
a 
la 
recta 
de 
regressió. 
Si 
fem 
un 
petit 
estudi 
dels 
valors 
atípics 
que 
ens 
apareixen 
en 
el 
nostre 
diagrama 
de 
disperssió, 
podrem 
aclarir 
si 
aquests 
són 
influents 
o 
no 
en 
la 
nostra 
mostra. 
Per 
exemple, 
si 
analitzem 
els 
casos 
14 
i 
54 
ens 
donarem 
compte 
que, 
si 
prescindim 
de 
tots 
dos 
valors, 
la 
nostra 
recta 
de 
regressió 
canvia 
molt. 
Passa 
a 
tenir 
un 
pendent 
de 
-­‐ 
0,14 
a 
un 
pendent 
de 
-­‐0,09. 
Això 
ens 
indica 
que 
tant 
el 
valor 
14 
com 
el 
valor 
54 
són 
influents 
per 
a 
la 
nostra 
mostra. 
Si 
prescindim 
del 
valor 
51, 
ens 
donarem 
compte 
que 
també 
és 
un 
valor 
atípic 
bastant 
influent, 
perquè 
el 
pendent 
de 
la 
nostra 
recta 
de 
regressió 
passa 
de 
-­‐0,14 
a 
-­‐0,17. 
13
4.4 
Hores 
d’ús 
del 
mòbil 
i 
hores 
de 
temps 
lliure 
Aquest 
diagrama 
de 
dispersió 
correspon 
a 
la 
comparació 
de 
dues 
variables 
numèriques 
que 
són 
les 
hores 
de 
mòbil 
(en 
el 
eix 
de 
las 
Y) 
i 
les 
hores 
de 
temps 
lliure 
(en 
el 
eix 
de 
las 
X). 
Podem 
apreciar 
una 
correlació 
de 
0,27, 
el 
que 
significa 
que 
és 
gairebé 
inexistent. 
Pel 
que 
fa 
a 
la 
recta 
de 
regressió 
és 
de 
Y=16,6 
+ 
0,23X, 
el 
que 
significa 
que 
el 
pendent 
és 
positiu 
però 
quasi 
bé 
ni 
influeix, 
i 
l’error 
de 
regressió 
és 
de 
18,96, 
el 
que 
representa 
que 
la 
recta 
no 
s’ajusta 
gens 
a 
les 
dades 
obtingudes 
realment. 
Això 
es 
pot 
verificar 
mirant 
la 
R² 
que 
és 
de 
0,07, 
i 
per 
tant 
no 
existeix 
ningun 
tipus 
de 
relació 
entre 
aquestes 
variables. 
Això 
es 
pot 
explicar 
perquè 
actualment 
el 
telèfon 
mòbil 
es 
pot 
utilitzar 
en 
qualsevol 
moment 
del 
dia 
i 
no 
necessàriament 
mentre 
algú 
té 
temps 
lliure, 
sinó 
que 
mentre 
es 
treballa 
també 
es 
pot 
consultar 
el 
mòbil 
amb 
llibertat. 
Finalment 
cal 
destacar 
que 
hi 
ha 
una 
sèrie 
de 
valors 
atípics 
que 
són 
un 
ús 
del 
mòbil 
en 
més 
de 
80 
hores 
setmanals 
però 
que 
tampoc 
tenen 
cap 
relació 
amb 
les 
hores 
lliures 
d’aquestes 
persones. 
14
5. 
Conclusió 
Després 
d’analitzar 
tots 
els 
resultats 
obtinguts 
creiem 
que 
en 
gairebé 
cap 
de 
les 
dades 
analitzades 
en 
podem 
extreure 
unes 
conclusions 
a 
partir 
de 
les 
quals 
trobem 
un 
problema 
o 
una 
necessitat 
concreta. 
Tot 
i 
així, 
per 
tal 
de 
decidir 
quin 
producte 
o 
servei 
podríem 
dur 
a 
terme 
hem 
decidit 
mirar 
generalment 
tots 
els 
resultats 
i 
comprovar 
de 
quina 
manera 
podríem 
satisfer 
a 
la 
majoria 
de 
la 
població. 
Hem 
analitzat 
que 
la 
majoria 
de 
gent 
que 
utilitza 
el 
mòbil 
tenen 
entre 
15 
i 
30 
anys, 
i 
aquest 
target 
en 
concret 
destaca 
per 
un 
ús 
elevat 
del 
mòbil 
però 
en 
canvi 
els 
ingressos 
econòmics 
són 
més 
reduïts 
i 
això 
es 
veu 
reflectit 
per 
en 
la 
despesa 
mensual 
(entre 
20 
i 
30€) 
probablement 
degut 
a 
que 
la 
majoria 
d’aquesta 
gent 
són 
estudiants 
i 
el 
seu 
capital 
econòmic 
és 
inferior 
respecte 
a 
gent 
que 
treballi. 
A 
partir 
d’aquestes 
dades 
podem 
determinar 
que 
probablement 
aquesta 
gent 
necessitaria 
una 
tarifa 
econòmica 
més 
acord 
a 
les 
seves 
necessitats 
i 
per 
aquest 
motiu 
creiem 
que 
un 
bon 
producte 
seria 
oferir 
una 
tarifa 
destinada 
a 
estudiants, 
amb 
un 
preu 
reduït 
d’aproximadament 
uns 
20€ 
i 
amb 
unes 
característiques 
concretes 
com 
5Gb 
de 
internet, 
trucades 
i 
missatges 
il·∙limitats. 
Tot 
això 
seria 
possible 
degut 
a 
que 
el 
cost 
marginal 
de 
qualsevol 
companyia 
per 
afegir 
un 
més 
internet 
o 
més 
trucades 
a 
qualsevol 
client 
és 
gairebé 
nul. 
15
16

More Related Content

More from AleixGarces

Back Home: Pla Financer (PPT)
Back Home: Pla Financer (PPT)Back Home: Pla Financer (PPT)
Back Home: Pla Financer (PPT)AleixGarces
 
Back Home: Pla Financer
Back Home: Pla FinancerBack Home: Pla Financer
Back Home: Pla FinancerAleixGarces
 
MANGO Smile: Gamificació en la recollida de roba
MANGO Smile: Gamificació en la recollida de robaMANGO Smile: Gamificació en la recollida de roba
MANGO Smile: Gamificació en la recollida de robaAleixGarces
 
Pla de Marketing - Back Home
Pla de Marketing - Back HomePla de Marketing - Back Home
Pla de Marketing - Back HomeAleixGarces
 
Xarxes Socials (TotPadel)
Xarxes Socials (TotPadel)Xarxes Socials (TotPadel)
Xarxes Socials (TotPadel)AleixGarces
 
Treball de Recerca: Un problema, una solució
Treball de Recerca: Un problema, una solucióTreball de Recerca: Un problema, una solució
Treball de Recerca: Un problema, una solucióAleixGarces
 
Back Home: Pla d'operacions
Back Home: Pla d'operacionsBack Home: Pla d'operacions
Back Home: Pla d'operacionsAleixGarces
 
Back Home: Business Plan
Back Home: Business Plan Back Home: Business Plan
Back Home: Business Plan AleixGarces
 

More from AleixGarces (10)

Back Home: Pla Financer (PPT)
Back Home: Pla Financer (PPT)Back Home: Pla Financer (PPT)
Back Home: Pla Financer (PPT)
 
Back Home: Pla Financer
Back Home: Pla FinancerBack Home: Pla Financer
Back Home: Pla Financer
 
MANGO Smile: Gamificació en la recollida de roba
MANGO Smile: Gamificació en la recollida de robaMANGO Smile: Gamificació en la recollida de roba
MANGO Smile: Gamificació en la recollida de roba
 
Pla de Marketing - Back Home
Pla de Marketing - Back HomePla de Marketing - Back Home
Pla de Marketing - Back Home
 
Xarxes Socials (TotPadel)
Xarxes Socials (TotPadel)Xarxes Socials (TotPadel)
Xarxes Socials (TotPadel)
 
Xarxes socials
Xarxes socialsXarxes socials
Xarxes socials
 
Treball de Recerca: Un problema, una solució
Treball de Recerca: Un problema, una solucióTreball de Recerca: Un problema, una solució
Treball de Recerca: Un problema, una solució
 
Enquesta
Enquesta Enquesta
Enquesta
 
Back Home: Pla d'operacions
Back Home: Pla d'operacionsBack Home: Pla d'operacions
Back Home: Pla d'operacions
 
Back Home: Business Plan
Back Home: Business Plan Back Home: Business Plan
Back Home: Business Plan
 

Treball correlació

  • 1. 1 Anàlisi de dades Treball: Correlació entre variables Universitat Pompeu Fabra Maria Delgado Henri Hicham Miquel Bargalló Aleix Garcés
  • 2. 2 Índex 1. Introducció 2. Variables categòriques amb variables categòriques 2.1 Marca de mòbil i districte 3. Variables categòriques amb variables numèriques 3.1 Marca de mòbil i edat 3.2 Tipus de tarifa i despesa mensual 3.3 Despesa mensual i companyia telefònica 4. Variables numèriques amb variables numèriques 4.1 Despesa mensual i edat 4.2 Hores d’ús del mòbil i edat 4.3 Hores d’ús de la tablet i edat 4.4 Hores d’ús del mòbil i hores de temps lliure 5. Conclusió
  • 3. 1. Introducció En la primera part del treball vam analitzar una sèrie de variables relacionades amb l’ús del smartphone per tal de tenir informació sobre aquest àmbit com per exemple la marca de mòbil, la companyia telefònica o les hores d’ús del mòbil entre d’altres. En la segona part d’aquest treballem estudiarem les diverses correlacions que existeixen entre les variables que vam analitzar a la primera part. Les correlacions que podem trobar les podem dividir de tres tipus: -­‐ Variable categòrica amb variable categòrica. En concret nosaltres hem comparat el districte de residencia de cada persona amb la marca de mòbil que tenien. -­‐ Variable categòrica amb variable numèrica. En àmbit nosaltres hem comparat la marca de mòbil i l’edat, el tipus de tarifa i la despesa mensual i també la despesa mensual i la companyia telefònica. -­‐ Variable numèrica amb variable numèrica. En aquesta part hem comparat la despesa mensual i l’edat, les hores d’ús del mòbil i l’edat, les hores d’ús de la tablet i l’edat i les hores d’ús del mòbil i les hores de temps lliure. 3
  • 4. MARCA DE MÒBIL I DISTRICTE 4 2. Variables categòriques amb variables categòriques 2.1 Marca de mòbil i districte Freqüència absoluta 30 24 18 12 6 0 6 6 2 6 5 1 1 1 3 2 2 2 1 2 4 1 3 4 4 2 2 Apple Samsung 1 1 1 2 1 1 1 1 Blackberr y 1 1 Google 1 HTC 2 1 1 1 1 Huawei 1 LG 1 1 Nokia 8 3 3 1 1 2 Altres Sarrià-Sant Gervasi Sants-Montjuïc Sant Martí Sant Andreu Nou Barris Les Corts Horta-Guinardó Gràcia Eixample Ciutat Vella Altres Aquesta relació que hi ha entre les variables dels districtes de Barcelona segons la marca de mòbil ha sigut molt feble. Podríem dir que no hi ha una relació entre la marca de mòbil i els districtes. Si la nostre intenció era trobar que pels districtes més rics podíem trobar una preferència per mòbils de preus més alts (com és el cas de Apple), hem observat que no passa. Això demostra que les empreses de mòbils s’adapten a les diferents demandes que existeixen en el mercat; es a dir, que tenen diferents tipus de mòbils segons les disposicions a pagar dels clients i les seves preferències.
  • 5. 3. Variable categòrica amb numèrica 3.1 Marca de mòbil i edat En la relació de les variables marques de mòbil i Edat hem pogut observar una sèrie de punts interesants. En primer lloc, podem observar que les marques que en el primer informe ens demostrava que eren les més utilitzades per la població (Samsung i Apple) no tenen cap correlació amb edats determinades. Es a dir, són utilitzades per totes les edats. Però si agafavem intervals d’edat segons marques determinades, podiem observar certes coses. 16 12 8 4 12 15 17 19 21 23 25 27 29 32 37 42 45 48 52 55 62 68 70 72 82 Altres HTC Google LG Huawei Blackberry Nokia Samsung Per exemple, per la marca Apple podiem comprovar que era més atractiva pels més joves. Una dada que ho demostrava ens la donava el diagrama de caixa, que indicava que el 50% dels casos es trobaven entre els 18 i els 27 anys, o fins i tot, que el 75% dels casos es trobaven entre 14 i els 27 anys. Això pot demostrar qui son els clients més importants per la marca Apple de telefons mobils. 5 MARCA DE MÒBIL I EDAT • Apple predomina en les franges de 17 a 30! • Samsung la trobem al llarg de totes les edats Freqüència absoluta 0 Edat Apple
  • 6. En el cas de la marca Samsung, no podíem observar una franja d’edat tant concreta. La separació entre el primer quartil i el tercer quartil (que ens indica on podem trobar un 50% de les dades) es trobaven en 18 i en 42 respectivament. Això ens fa intuir que la marca Samsung en canvi no es trobava tant enfocada cap a una edat determinada. 6 Resums resistents Mínim 18 Q1 20 Mediana 24,5 Q3 46,25 Màxim 55
  • 7. 3.2 Tipus de tarifa i despesa mensual La comparació entre aquestes dues variables ens mostra que la gran majoria dels usuaris enquestats prefereixen les tarifes de contracte per davant de les de prepagament. Dintre d'aquesta modalitat, si volguéssim afegir un producte o servei nou en el mercat, caldria tenir en compte que una gran part de la nostra mostra esta disposada a gastar-­‐se entre 20 i 30€ al mes per als seus serveis de telefonia mòbil. TIPUS DE TARIFA I DESPESA 7 MENSUAL 70 60 50 40 30 20 10 0 Contracte Prepagament Contracte Quantitat 45 36 27 18 0 9 0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€ Prepagament Quantitat 45 36 27 18 0 9 0 a 10€ 10 a 20€ 20 a 30€ 30 a 40€ 40 a 50€ 50 a 60€
  • 8. 3.3 Despesa mensual i companyia telefònica Una comparació interessant que vam considerar va ser la de despesa mensual en relació amb la companyia telefònica que es tenia contractada. Tal i com ja hem mencionat anteriorment, es pot veure que la majoria de contractes estandarditzats es troben entre 20€ i 30€ i així ho compleixen totes les companyies principals excepte Yoigo. Hi ha altres companyies alternatives com la Racc on els consumidors gasten molt menys degut als contractes més reduïts. Hem adjuntat un diagrama de caixes on es pot veure que la major part dels valors de les principals companyies es troben compresos en l’interval 20-­‐30€ i veiem que les mitjanes(els punts blaus), són bastant semblants. També veiem valors atípics en totes les companyies compresos entre 50€ fins a 70€ així com també valors atípics que representen mínims com en el cas de la companyia Movistar. 8
  • 9. 4. Variables numèriques amb variables numèriques 4.1 Despesa mensual i edat En aquest diagrama de dispersió es posen en relació dues variables numèriques. En l’eix de les Y tenim la despesa mensual en mòbil mentre que en l’eix de les X tenim l’edat de les persones enquestades. Podem veure que no hi ha cap forma definida dels punts. Així veiem com la correlació és de 0,09. Per tant, veiem que hi ha molt poca relació entre les dues variables. Per altra banda, veiem com l’equació de la recta de regressió és de Y=20,56+0,05X. Així, veiem que té una pendent positiva però molt feble. També veiem que l’error de regressió és de 19,44, per tant, els valors no s’ajusten gaire a la tendència que mostra la recta ja que és un valor molt elevat. La força d’aquest diagrama és molt baixa ja que, per un costat, veiem que els punts no conformen cap tendència ni forma i per altra, perquè la correlació està molt propera a 0(0,09). Cal reafirmar que R² ens indica que no existeix cap mena de dependència entre edat i despesa ja que el valor és de 0,01. Aquest fet té lògica, ja que no per ser més gran s’hauria de gastar més en el consum de tarifes de mòbil ja que ,avui en dia, les tarifes estan molt estandarditzades i, per tant, moltes volten aproximadament entre els valors de 20€ i 30€. 9
  • 10. Hi ha alguns valors atípics que es troben en l’interval de 50€-­‐60€. Així, aquest fet es podria explicar per la contractació d’una tarifa específica per alguna feina concreta que requereixi cobertura a l’estranger etc... 4.2 Hores setmanals d’ús del mòbil i edat En aquest cas, la variable dependent és la variable numèrica «hores d'ús del mòbil», representada a l'eix de les y. Contràriament, la variable independent és la variable categòrica «edat», representada a l'eix de les x. En aquest anàlisi, però, l'edat serà utilitzada com a variable numèrica. Tenim una mostra de 100 dades. Fent un primer cop d'ull als resultats obtinguts a l'Odstats tenim que la mitjana d'hores d'ús del mòbil es troba en les 26,02 hores setmanals, mentre que la mitjana de la variable edat dels enquestats és de 30,99 anys. En aquest gràfic de dispersió, podem apreciar com la nostra mostra no té cap forma definida. Si tractem de traçar una recta de regressió, aquesta ens sortirà de la forma Y=38,38 – 0,4X. Té una associació negativa a que els valors per sota de la mitjana d'una de les variables acompanyen als valors per sobre de la mitjana de l'altra variable. 10
  • 11. La correlació té un valor de -­‐0,36; un valor que també ens ajuda a veure que la nostra disperssió té una associació negativa. Pel que fa a la força de la nostra mostra, podem afirmar que aquesta és feble per dos motius: el primer és perquè visualment podem apreciar com els punts es troben bastant separats de la recta de regressió, i segon perquè el valor -­‐0,36, que està més proper de 0 que de -­‐1, ens indica aquesta feblesa. La R² ens indica la dependència que existeix entre la variable x i la y. En la nostra mostra té un valor de 0,13; un valor més proper a 0 que a 1. Això ens indica que les variables no dependen fortament una de l'altra, és a dir, que el nombre d'hores d'ús del mòbil a la setmana que realiza la nostra mostra no depèn de l'edat dels usuaris. L'error de regressió, amb un valor de 18,35, és bastant elevat. Això ens indica que els valors de la nostra mostra no s'ajusten completament a la recta de regressió. Una part important de l'estudi és comprovar la influència dels valors atípics. Tenim alguns quatre usuaris que fan un ús de 80 hores de mòbil setmanals, i volem comprovar si aquests valors són influents en la nostra mostra. En aquest anàlisi, trobem valors més allunyats de la recta de regressió que altres, però si es consideren valors atípics s'ha de tenir en compte que la majoria d'ells són no influents, perquè en cas de suprimir-­‐los, el pendent de la nostra recta no varia. 11
  • 12. 4.3 Hores setmanals d'ús de tablet o ordinadors i edat En aquest cas, la variable dependent és la variable numèrica «hores d'ús de tablets o ordinadors», representada a l'eix de les y, mentre que la variable independent és la variable categòrica «edat», que l'hem representada a l'eix de les y. Tenim una mostra de 100 dades. Fent un primer cop d'ull als resultats obtinguts a l'Odstats tenim que la mitjana d'hores d'ús de la tablet o ordinador es troba en les 21,33 hores setmanals, mentre que la mitjana de la variable edat dels enquestats és de 30,99 anys. En el següent gràfic de dispersió, podem apreciar com aquest no té una forma definida. Podem veure com concentra, un major nombre de valors entre la x=13 i la x=28, però això no ens indica una forma clara de la mostra, perquè tenim bastants valors que s'allunyen de la recta de regressió. La correlació dóna una xifra de -­‐0.18, el que ens indica que és feble perquè el valor es troba molt proper a -­‐1. La proximitat dels punts de la mostra a la recta de regressió és bastant escassa, excepte en algunes concentracions puntuals de valors. Això també ens ve a indicar, però aquest cop de manera visual, que l'associació entre les variables és molt feble. La correlació també ens indica que l'associació entre les variables és negativa, perquè el valor és < 0 i perquè ho podem apreciar a la recta de regressió representada en el diagrama de dispersió. La R², que ens indica la dependència entre les variables x i y, en aquest cas és de 0,03. Aquest valor encara és més baix que el de les hores d'ús 12
  • 13. setmanal del mòbil. Al trobar-­‐se tant proper a 0, ens indica que les variables no depenen, per res, l'una de l'altra, és a dir que el nombre d'hores a la setmana que els usuaris utilitzen mòbils o tablets no té a veure amb la seva edat. L'error de regressió, amb un valor de 13,63, ens indica que els valors de la mostra no s'ajusten completament a la recta de regressió. Si fem un petit estudi dels valors atípics que ens apareixen en el nostre diagrama de disperssió, podrem aclarir si aquests són influents o no en la nostra mostra. Per exemple, si analitzem els casos 14 i 54 ens donarem compte que, si prescindim de tots dos valors, la nostra recta de regressió canvia molt. Passa a tenir un pendent de -­‐ 0,14 a un pendent de -­‐0,09. Això ens indica que tant el valor 14 com el valor 54 són influents per a la nostra mostra. Si prescindim del valor 51, ens donarem compte que també és un valor atípic bastant influent, perquè el pendent de la nostra recta de regressió passa de -­‐0,14 a -­‐0,17. 13
  • 14. 4.4 Hores d’ús del mòbil i hores de temps lliure Aquest diagrama de dispersió correspon a la comparació de dues variables numèriques que són les hores de mòbil (en el eix de las Y) i les hores de temps lliure (en el eix de las X). Podem apreciar una correlació de 0,27, el que significa que és gairebé inexistent. Pel que fa a la recta de regressió és de Y=16,6 + 0,23X, el que significa que el pendent és positiu però quasi bé ni influeix, i l’error de regressió és de 18,96, el que representa que la recta no s’ajusta gens a les dades obtingudes realment. Això es pot verificar mirant la R² que és de 0,07, i per tant no existeix ningun tipus de relació entre aquestes variables. Això es pot explicar perquè actualment el telèfon mòbil es pot utilitzar en qualsevol moment del dia i no necessàriament mentre algú té temps lliure, sinó que mentre es treballa també es pot consultar el mòbil amb llibertat. Finalment cal destacar que hi ha una sèrie de valors atípics que són un ús del mòbil en més de 80 hores setmanals però que tampoc tenen cap relació amb les hores lliures d’aquestes persones. 14
  • 15. 5. Conclusió Després d’analitzar tots els resultats obtinguts creiem que en gairebé cap de les dades analitzades en podem extreure unes conclusions a partir de les quals trobem un problema o una necessitat concreta. Tot i així, per tal de decidir quin producte o servei podríem dur a terme hem decidit mirar generalment tots els resultats i comprovar de quina manera podríem satisfer a la majoria de la població. Hem analitzat que la majoria de gent que utilitza el mòbil tenen entre 15 i 30 anys, i aquest target en concret destaca per un ús elevat del mòbil però en canvi els ingressos econòmics són més reduïts i això es veu reflectit per en la despesa mensual (entre 20 i 30€) probablement degut a que la majoria d’aquesta gent són estudiants i el seu capital econòmic és inferior respecte a gent que treballi. A partir d’aquestes dades podem determinar que probablement aquesta gent necessitaria una tarifa econòmica més acord a les seves necessitats i per aquest motiu creiem que un bon producte seria oferir una tarifa destinada a estudiants, amb un preu reduït d’aproximadament uns 20€ i amb unes característiques concretes com 5Gb de internet, trucades i missatges il·∙limitats. Tot això seria possible degut a que el cost marginal de qualsevol companyia per afegir un més internet o més trucades a qualsevol client és gairebé nul. 15
  • 16. 16