1. 1
Anàlisi
de
dades
Treball:
Correlació
entre
variables
Universitat
Pompeu
Fabra
Maria
Delgado
Henri
Hicham
Miquel
Bargalló
Aleix
Garcés
2. 2
Índex
1.
Introducció
2.
Variables
categòriques
amb
variables
categòriques
2.1
Marca
de
mòbil
i
districte
3.
Variables
categòriques
amb
variables
numèriques
3.1
Marca
de
mòbil
i
edat
3.2
Tipus
de
tarifa
i
despesa
mensual
3.3
Despesa
mensual
i
companyia
telefònica
4.
Variables
numèriques
amb
variables
numèriques
4.1
Despesa
mensual
i
edat
4.2
Hores
d’ús
del
mòbil
i
edat
4.3
Hores
d’ús
de
la
tablet
i
edat
4.4
Hores
d’ús
del
mòbil
i
hores
de
temps
lliure
5.
Conclusió
3. 1.
Introducció
En
la
primera
part
del
treball
vam
analitzar
una
sèrie
de
variables
relacionades
amb
l’ús
del
smartphone
per
tal
de
tenir
informació
sobre
aquest
àmbit
com
per
exemple
la
marca
de
mòbil,
la
companyia
telefònica
o
les
hores
d’ús
del
mòbil
entre
d’altres.
En
la
segona
part
d’aquest
treballem
estudiarem
les
diverses
correlacions
que
existeixen
entre
les
variables
que
vam
analitzar
a
la
primera
part.
Les
correlacions
que
podem
trobar
les
podem
dividir
de
tres
tipus:
-‐
Variable
categòrica
amb
variable
categòrica.
En
concret
nosaltres
hem
comparat
el
districte
de
residencia
de
cada
persona
amb
la
marca
de
mòbil
que
tenien.
-‐
Variable
categòrica
amb
variable
numèrica.
En
àmbit
nosaltres
hem
comparat
la
marca
de
mòbil
i
l’edat,
el
tipus
de
tarifa
i
la
despesa
mensual
i
també
la
despesa
mensual
i
la
companyia
telefònica.
-‐
Variable
numèrica
amb
variable
numèrica.
En
aquesta
part
hem
comparat
la
despesa
mensual
i
l’edat,
les
hores
d’ús
del
mòbil
i
l’edat,
les
hores
d’ús
de
la
tablet
i
l’edat
i
les
hores
d’ús
del
mòbil
i
les
hores
de
temps
lliure.
3
4. MARCA DE MÒBIL I DISTRICTE
4
2.
Variables
categòriques
amb
variables
categòriques
2.1
Marca
de
mòbil
i
districte
Freqüència absoluta
30
24
18
12
6
0
6 6
2
6
5
1 1
1
3
2
2
2
1
2 4
1
3
4
4 2 2
Apple
Samsung
1 1
1 2
1
1 1 1
Blackberr y
1 1
Google
1
HTC
2 1
1 1
1
Huawei
1
LG
1
1
Nokia
8
3
3
1
1
2
Altres
Sarrià-Sant Gervasi Sants-Montjuïc Sant Martí Sant Andreu
Nou Barris Les Corts Horta-Guinardó Gràcia
Eixample Ciutat Vella Altres
Aquesta
relació
que
hi
ha
entre
les
variables
dels
districtes
de
Barcelona
segons
la
marca
de
mòbil
ha
sigut
molt
feble.
Podríem
dir
que
no
hi
ha
una
relació
entre
la
marca
de
mòbil
i
els
districtes.
Si
la
nostre
intenció
era
trobar
que
pels
districtes
més
rics
podíem
trobar
una
preferència
per
mòbils
de
preus
més
alts
(com
és
el
cas
de
Apple),
hem
observat
que
no
passa.
Això
demostra
que
les
empreses
de
mòbils
s’adapten
a
les
diferents
demandes
que
existeixen
en
el
mercat;
es
a
dir,
que
tenen
diferents
tipus
de
mòbils
segons
les
disposicions
a
pagar
dels
clients
i
les
seves
preferències.
5. 3.
Variable
categòrica
amb
numèrica
3.1
Marca
de
mòbil
i
edat
En
la
relació
de
les
variables
marques
de
mòbil
i
Edat
hem
pogut
observar
una
sèrie
de
punts
interesants.
En
primer
lloc,
podem
observar
que
les
marques
que
en
el
primer
informe
ens
demostrava
que
eren
les
més
utilitzades
per
la
població
(Samsung
i
Apple)
no
tenen
cap
correlació
amb
edats
determinades.
Es
a
dir,
són
utilitzades
per
totes
les
edats.
Però
si
agafavem
intervals
d’edat
segons
marques
determinades,
podiem
observar
certes
coses.
16
12
8
4
12 15 17 19 21 23 25 27 29 32 37 42 45 48 52 55 62 68 70 72 82
Altres
HTC
Google
LG
Huawei
Blackberry
Nokia
Samsung
Per
exemple,
per
la
marca
Apple
podiem
comprovar
que
era
més
atractiva
pels
més
joves.
Una
dada
que
ho
demostrava
ens
la
donava
el
diagrama
de
caixa,
que
indicava
que
el
50%
dels
casos
es
trobaven
entre
els
18
i
els
27
anys,
o
fins
i
tot,
que
el
75%
dels
casos
es
trobaven
entre
14
i
els
27
anys.
Això
pot
demostrar
qui
son
els
clients
més
importants
per
la
marca
Apple
de
telefons
mobils.
5
MARCA DE MÒBIL I EDAT
• Apple predomina en les franges de 17 a 30!
• Samsung la trobem al llarg de totes les edats
Freqüència absoluta
0
Edat
Apple
6. En
el
cas
de
la
marca
Samsung,
no
podíem
observar
una
franja
d’edat
tant
concreta.
La
separació
entre
el
primer
quartil
i
el
tercer
quartil
(que
ens
indica
on
podem
trobar
un
50%
de
les
dades)
es
trobaven
en
18
i
en
42
respectivament.
Això
ens
fa
intuir
que
la
marca
Samsung
en
canvi
no
es
trobava
tant
enfocada
cap
a
una
edat
determinada.
6
Resums
resistents
Mínim
18
Q1
20
Mediana
24,5
Q3
46,25
Màxim
55
7. 3.2
Tipus
de
tarifa
i
despesa
mensual
La
comparació
entre
aquestes
dues
variables
ens
mostra
que
la
gran
majoria
dels
usuaris
enquestats
prefereixen
les
tarifes
de
contracte
per
davant
de
les
de
prepagament.
Dintre
d'aquesta
modalitat,
si
volguéssim
afegir
un
producte
o
servei
nou
en
el
mercat,
caldria
tenir
en
compte
que
una
gran
part
de
la
nostra
mostra
esta
disposada
a
gastar-‐se
entre
20
i
30€
al
mes
per
als
seus
serveis
de
telefonia
mòbil.
TIPUS DE TARIFA I DESPESA
7
MENSUAL
70
60
50
40
30
20
10
0
Contracte
Prepagament
Contracte
Quantitat
45
36
27
18
0 9
0 a 10€
10 a 20€
20 a 30€
30 a 40€
40 a 50€
50 a 60€ Prepagament
Quantitat
45
36
27
18
0 9
0 a 10€
10 a 20€
20 a 30€
30 a 40€
40 a 50€
50 a 60€
8. 3.3
Despesa
mensual
i
companyia
telefònica
Una
comparació
interessant
que
vam
considerar
va
ser
la
de
despesa
mensual
en
relació
amb
la
companyia
telefònica
que
es
tenia
contractada.
Tal
i
com
ja
hem
mencionat
anteriorment,
es
pot
veure
que
la
majoria
de
contractes
estandarditzats
es
troben
entre
20€
i
30€
i
així
ho
compleixen
totes
les
companyies
principals
excepte
Yoigo.
Hi
ha
altres
companyies
alternatives
com
la
Racc
on
els
consumidors
gasten
molt
menys
degut
als
contractes
més
reduïts.
Hem
adjuntat
un
diagrama
de
caixes
on
es
pot
veure
que
la
major
part
dels
valors
de
les
principals
companyies
es
troben
compresos
en
l’interval
20-‐30€
i
veiem
que
les
mitjanes(els
punts
blaus),
són
bastant
semblants.
També
veiem
valors
atípics
en
totes
les
companyies
compresos
entre
50€
fins
a
70€
així
com
també
valors
atípics
que
representen
mínims
com
en
el
cas
de
la
companyia
Movistar.
8
9. 4.
Variables
numèriques
amb
variables
numèriques
4.1
Despesa
mensual
i
edat
En
aquest
diagrama
de
dispersió
es
posen
en
relació
dues
variables
numèriques.
En
l’eix
de
les
Y
tenim
la
despesa
mensual
en
mòbil
mentre
que
en
l’eix
de
les
X
tenim
l’edat
de
les
persones
enquestades.
Podem
veure
que
no
hi
ha
cap
forma
definida
dels
punts.
Així
veiem
com
la
correlació
és
de
0,09.
Per
tant,
veiem
que
hi
ha
molt
poca
relació
entre
les
dues
variables.
Per
altra
banda,
veiem
com
l’equació
de
la
recta
de
regressió
és
de
Y=20,56+0,05X.
Així,
veiem
que
té
una
pendent
positiva
però
molt
feble.
També
veiem
que
l’error
de
regressió
és
de
19,44,
per
tant,
els
valors
no
s’ajusten
gaire
a
la
tendència
que
mostra
la
recta
ja
que
és
un
valor
molt
elevat.
La
força
d’aquest
diagrama
és
molt
baixa
ja
que,
per
un
costat,
veiem
que
els
punts
no
conformen
cap
tendència
ni
forma
i
per
altra,
perquè
la
correlació
està
molt
propera
a
0(0,09).
Cal
reafirmar
que
R²
ens
indica
que
no
existeix
cap
mena
de
dependència
entre
edat
i
despesa
ja
que
el
valor
és
de
0,01.
Aquest
fet
té
lògica,
ja
que
no
per
ser
més
gran
s’hauria
de
gastar
més
en
el
consum
de
tarifes
de
mòbil
ja
que
,avui
en
dia,
les
tarifes
estan
molt
estandarditzades
i,
per
tant,
moltes
volten
aproximadament
entre
els
valors
de
20€
i
30€.
9
10. Hi
ha
alguns
valors
atípics
que
es
troben
en
l’interval
de
50€-‐60€.
Així,
aquest
fet
es
podria
explicar
per
la
contractació
d’una
tarifa
específica
per
alguna
feina
concreta
que
requereixi
cobertura
a
l’estranger
etc...
4.2
Hores
setmanals
d’ús
del
mòbil
i
edat
En
aquest
cas,
la
variable
dependent
és
la
variable
numèrica
«hores
d'ús
del
mòbil»,
representada
a
l'eix
de
les
y.
Contràriament,
la
variable
independent
és
la
variable
categòrica
«edat»,
representada
a
l'eix
de
les
x.
En
aquest
anàlisi,
però,
l'edat
serà
utilitzada
com
a
variable
numèrica.
Tenim
una
mostra
de
100
dades.
Fent
un
primer
cop
d'ull
als
resultats
obtinguts
a
l'Odstats
tenim
que
la
mitjana
d'hores
d'ús
del
mòbil
es
troba
en
les
26,02
hores
setmanals,
mentre
que
la
mitjana
de
la
variable
edat
dels
enquestats
és
de
30,99
anys.
En
aquest
gràfic
de
dispersió,
podem
apreciar
com
la
nostra
mostra
no
té
cap
forma
definida.
Si
tractem
de
traçar
una
recta
de
regressió,
aquesta
ens
sortirà
de
la
forma
Y=38,38
–
0,4X.
Té
una
associació
negativa
a
que
els
valors
per
sota
de
la
mitjana
d'una
de
les
variables
acompanyen
als
valors
per
sobre
de
la
mitjana
de
l'altra
variable.
10
11. La
correlació
té
un
valor
de
-‐0,36;
un
valor
que
també
ens
ajuda
a
veure
que
la
nostra
disperssió
té
una
associació
negativa.
Pel
que
fa
a
la
força
de
la
nostra
mostra,
podem
afirmar
que
aquesta
és
feble
per
dos
motius:
el
primer
és
perquè
visualment
podem
apreciar
com
els
punts
es
troben
bastant
separats
de
la
recta
de
regressió,
i
segon
perquè
el
valor
-‐0,36,
que
està
més
proper
de
0
que
de
-‐1,
ens
indica
aquesta
feblesa.
La
R²
ens
indica
la
dependència
que
existeix
entre
la
variable
x
i
la
y.
En
la
nostra
mostra
té
un
valor
de
0,13;
un
valor
més
proper
a
0
que
a
1.
Això
ens
indica
que
les
variables
no
dependen
fortament
una
de
l'altra,
és
a
dir,
que
el
nombre
d'hores
d'ús
del
mòbil
a
la
setmana
que
realiza
la
nostra
mostra
no
depèn
de
l'edat
dels
usuaris.
L'error
de
regressió,
amb
un
valor
de
18,35,
és
bastant
elevat.
Això
ens
indica
que
els
valors
de
la
nostra
mostra
no
s'ajusten
completament
a
la
recta
de
regressió.
Una
part
important
de
l'estudi
és
comprovar
la
influència
dels
valors
atípics.
Tenim
alguns
quatre
usuaris
que
fan
un
ús
de
80
hores
de
mòbil
setmanals,
i
volem
comprovar
si
aquests
valors
són
influents
en
la
nostra
mostra.
En
aquest
anàlisi,
trobem
valors
més
allunyats
de
la
recta
de
regressió
que
altres,
però
si
es
consideren
valors
atípics
s'ha
de
tenir
en
compte
que
la
majoria
d'ells
són
no
influents,
perquè
en
cas
de
suprimir-‐los,
el
pendent
de
la
nostra
recta
no
varia.
11
12. 4.3
Hores
setmanals
d'ús
de
tablet
o
ordinadors
i
edat
En
aquest
cas,
la
variable
dependent
és
la
variable
numèrica
«hores
d'ús
de
tablets
o
ordinadors»,
representada
a
l'eix
de
les
y,
mentre
que
la
variable
independent
és
la
variable
categòrica
«edat»,
que
l'hem
representada
a
l'eix
de
les
y.
Tenim
una
mostra
de
100
dades.
Fent
un
primer
cop
d'ull
als
resultats
obtinguts
a
l'Odstats
tenim
que
la
mitjana
d'hores
d'ús
de
la
tablet
o
ordinador
es
troba
en
les
21,33
hores
setmanals,
mentre
que
la
mitjana
de
la
variable
edat
dels
enquestats
és
de
30,99
anys.
En
el
següent
gràfic
de
dispersió,
podem
apreciar
com
aquest
no
té
una
forma
definida.
Podem
veure
com
concentra,
un
major
nombre
de
valors
entre
la
x=13
i
la
x=28,
però
això
no
ens
indica
una
forma
clara
de
la
mostra,
perquè
tenim
bastants
valors
que
s'allunyen
de
la
recta
de
regressió.
La
correlació
dóna
una
xifra
de
-‐0.18,
el
que
ens
indica
que
és
feble
perquè
el
valor
es
troba
molt
proper
a
-‐1.
La
proximitat
dels
punts
de
la
mostra
a
la
recta
de
regressió
és
bastant
escassa,
excepte
en
algunes
concentracions
puntuals
de
valors.
Això
també
ens
ve
a
indicar,
però
aquest
cop
de
manera
visual,
que
l'associació
entre
les
variables
és
molt
feble.
La
correlació
també
ens
indica
que
l'associació
entre
les
variables
és
negativa,
perquè
el
valor
és
<
0
i
perquè
ho
podem
apreciar
a
la
recta
de
regressió
representada
en
el
diagrama
de
dispersió.
La
R²,
que
ens
indica
la
dependència
entre
les
variables
x
i
y,
en
aquest
cas
és
de
0,03.
Aquest
valor
encara
és
més
baix
que
el
de
les
hores
d'ús
12
13. setmanal
del
mòbil.
Al
trobar-‐se
tant
proper
a
0,
ens
indica
que
les
variables
no
depenen,
per
res,
l'una
de
l'altra,
és
a
dir
que
el
nombre
d'hores
a
la
setmana
que
els
usuaris
utilitzen
mòbils
o
tablets
no
té
a
veure
amb
la
seva
edat.
L'error
de
regressió,
amb
un
valor
de
13,63,
ens
indica
que
els
valors
de
la
mostra
no
s'ajusten
completament
a
la
recta
de
regressió.
Si
fem
un
petit
estudi
dels
valors
atípics
que
ens
apareixen
en
el
nostre
diagrama
de
disperssió,
podrem
aclarir
si
aquests
són
influents
o
no
en
la
nostra
mostra.
Per
exemple,
si
analitzem
els
casos
14
i
54
ens
donarem
compte
que,
si
prescindim
de
tots
dos
valors,
la
nostra
recta
de
regressió
canvia
molt.
Passa
a
tenir
un
pendent
de
-‐
0,14
a
un
pendent
de
-‐0,09.
Això
ens
indica
que
tant
el
valor
14
com
el
valor
54
són
influents
per
a
la
nostra
mostra.
Si
prescindim
del
valor
51,
ens
donarem
compte
que
també
és
un
valor
atípic
bastant
influent,
perquè
el
pendent
de
la
nostra
recta
de
regressió
passa
de
-‐0,14
a
-‐0,17.
13
14. 4.4
Hores
d’ús
del
mòbil
i
hores
de
temps
lliure
Aquest
diagrama
de
dispersió
correspon
a
la
comparació
de
dues
variables
numèriques
que
són
les
hores
de
mòbil
(en
el
eix
de
las
Y)
i
les
hores
de
temps
lliure
(en
el
eix
de
las
X).
Podem
apreciar
una
correlació
de
0,27,
el
que
significa
que
és
gairebé
inexistent.
Pel
que
fa
a
la
recta
de
regressió
és
de
Y=16,6
+
0,23X,
el
que
significa
que
el
pendent
és
positiu
però
quasi
bé
ni
influeix,
i
l’error
de
regressió
és
de
18,96,
el
que
representa
que
la
recta
no
s’ajusta
gens
a
les
dades
obtingudes
realment.
Això
es
pot
verificar
mirant
la
R²
que
és
de
0,07,
i
per
tant
no
existeix
ningun
tipus
de
relació
entre
aquestes
variables.
Això
es
pot
explicar
perquè
actualment
el
telèfon
mòbil
es
pot
utilitzar
en
qualsevol
moment
del
dia
i
no
necessàriament
mentre
algú
té
temps
lliure,
sinó
que
mentre
es
treballa
també
es
pot
consultar
el
mòbil
amb
llibertat.
Finalment
cal
destacar
que
hi
ha
una
sèrie
de
valors
atípics
que
són
un
ús
del
mòbil
en
més
de
80
hores
setmanals
però
que
tampoc
tenen
cap
relació
amb
les
hores
lliures
d’aquestes
persones.
14
15. 5.
Conclusió
Després
d’analitzar
tots
els
resultats
obtinguts
creiem
que
en
gairebé
cap
de
les
dades
analitzades
en
podem
extreure
unes
conclusions
a
partir
de
les
quals
trobem
un
problema
o
una
necessitat
concreta.
Tot
i
així,
per
tal
de
decidir
quin
producte
o
servei
podríem
dur
a
terme
hem
decidit
mirar
generalment
tots
els
resultats
i
comprovar
de
quina
manera
podríem
satisfer
a
la
majoria
de
la
població.
Hem
analitzat
que
la
majoria
de
gent
que
utilitza
el
mòbil
tenen
entre
15
i
30
anys,
i
aquest
target
en
concret
destaca
per
un
ús
elevat
del
mòbil
però
en
canvi
els
ingressos
econòmics
són
més
reduïts
i
això
es
veu
reflectit
per
en
la
despesa
mensual
(entre
20
i
30€)
probablement
degut
a
que
la
majoria
d’aquesta
gent
són
estudiants
i
el
seu
capital
econòmic
és
inferior
respecte
a
gent
que
treballi.
A
partir
d’aquestes
dades
podem
determinar
que
probablement
aquesta
gent
necessitaria
una
tarifa
econòmica
més
acord
a
les
seves
necessitats
i
per
aquest
motiu
creiem
que
un
bon
producte
seria
oferir
una
tarifa
destinada
a
estudiants,
amb
un
preu
reduït
d’aproximadament
uns
20€
i
amb
unes
característiques
concretes
com
5Gb
de
internet,
trucades
i
missatges
il·∙limitats.
Tot
això
seria
possible
degut
a
que
el
cost
marginal
de
qualsevol
companyia
per
afegir
un
més
internet
o
més
trucades
a
qualsevol
client
és
gairebé
nul.
15