Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Project group related to the course "Probabilità e statistica matematica"
1. Ciak, si gira!
Corso di Probabilità e Statistica
Preparato da: Dasciani Andrea, De Paoli Andrea, Derjai Johanna, Farina
Jacopo, Galbiati Lucia
17 Luglio 2015
Anno Accademico: 2014/2015
Docente: Vantini Simone
!1
2. Introduzione
La società PincoPallino S.p.a., importante fondo di investimento, si è rivolta a noi per uno
studio statistico sul cinema italiano.
La società, infatti, è intenzionata ad investire nel settore cinematografico italiano, rilevando
parte delle azioni della Medusa Film.
Per non correre il rischio di andare in perdita e rimetterci milioni di euro, ci è stato chiesto di
confrontare la Società della Famiglia De Laurentis con le altre maggiori case
cinematografiche.
Siamo andati, così, ad analizzare l’andamento del mercato del quadriennio appena
trascorso, selezionando il numero di film prodotti e distribuiti dalla Medusa presenti nelle
rispettive Top 100 degli anni 2011-2012-2013-2014 relativa ad incassi e presenze durante
l’anno solare.
Abbiamo effettuato il medesimo studio sulla Walt Disney e Warner Brothers, così da poter
testare la bontà dell’investimento confrontando il risultato con quello di altri due colossal
dell’industria filmica.
Il nostro studio non si è fermato a questo, ma si è interessato di proporre una valida
alternativa all’investimento, spostando il focus dalle case di produzione all’industria cinema
in generale
Si è ipotizzato un possibile investimento sulla UC Cinemas, società proprietaria di numerose
sale in tutta Italia, realizzando uno studio su quale semestre, tra autunno-inverno e
primavera-estate, sia più favorevole all’industria cinematografica in base alle presenze e gli
incassi dei film usciti nell’ultimo biennio.
Infine sull’alternativa appena proposta, abbiamo sviluppato una previsione sull’incasso
minimo medio dell’anno 2015 basandoci sui dati della top 100 dei film più visti in Italia del
2013 e 2014.
!2
3. Analisi case di produzione
Come case di produzione concorrenti alla Medusa Film abbiamo deciso di considerare
Warner Bros. e Walt Disney poiché dai nostri dati risultavano le più remunerative
considerando gli incassi:
Pwb: percentuale di film della casa di produzione Warner Bros. nella top 100 annuale dei
film programmati in Italia
Pwd: percentuale di film della casa di produzione Walt Disney nella top 100 annuale dei film
programmati in Italia
Pm: percentuale di film della casa di
produzione Medusa Film nella top 100
annuale dei film programmati in Italia
Stimiamo le nostre variabili Bernoulliane
prendendo in considerazione gli
stimatori “medie campionarie non
distorte” contando il numero dei film
delle sopracitate case di produzione
nelle top 100 dell’ultimo quadriennio
( anni 2011, 2012, 2013, 2014).
P*wb=89/400=0,2225
P*m=55/400=0,1375
P*wd=26/400=0,065
E’ riportato a lato il grafico a torta che
descrive le quote di mercato delle case
di produzione nel periodo scelto.
La prima analisi effettuata è quella
riguardante gli intervalli di confidenza
asintotici a livello 95% delle percentuali
stimate, tramite la seguente formula:
IC(95%) = con n = 400
!3
Altro
Warner Bros.
Medusa Film
Walt Disney
4. • IC(95%) di Pwb = (0,1817;0,2633)
• IC(95%) di Pm = (0,10375;0,17125)
• IC(95%) di Pwd = (0,0408;0,0892)
Già da questi calcoli si può intuire facilmente che la casa di produzione Warner Bros. risulta
essere la migliore in quanto ha in media il maggior numero di film presenti all’interno della
classifica.
Utilizzando le seguenti formule:
Eseguiremo, come ulteriore verifica, dei test unilateri a livello di significatività del 5 % per il
confronto fra variabili di popolazioni Bernoulliane, riferite alla casa di produzione Medusa
Film:
• TEST 1:
Medusa – Walt Disney Ho: Pm <= Pwd H1: Pm>Pwd
Zo=3,39 Z0,1=1,645
Poiché Zo>1,64 possiamo rifiutare l’ipotesi nulla e affermare che Pm>Pwd; anche il
P-value<0,01 ci dice che è corretto rifiutare l’ipotesi nulla con forte evidenza statistica
• TEST 2:
Warner – Medusa Ho: Pwb <= Pm H1: Pwb>Pm
Zo=3,1289 Z0,1=1,645
Poiché Zo>1,64 possiamo rifiutare l’ipotesi nulla e affermare che Pwb>Pm; anche il
P-value<0,01 ci dice che è corretto rifiutare l’ipotesi nulla con forte evidenza
statistica.
Lo studio statistico ha evidenziato che sarebbe preferibile investire sulla casa di produzione
Warner Bros. dal momento che il confronto con Medusa Film ha mostrato che a livello di
significatività 10% la percentuale di film prodotti dalla prima casa è statisticamente maggiore
di quelli prodotti dalla concorrente.
!4
5. Statistica descrittiva
Dopo aver analizzato quanto richiesto dalla Pinco Pallino S.p.a., abbiamo mostrato loro un
ulteriore studio statistico che potesse aiutarli nella scelta riguardante il loro investimento
all’interno del mondo del cinema italiano: in particolare il trend dei film con più presenze e
più incassi annuali.
Tutto ciò è stato possibile, poiché recentemente la società UC Cinemas ci aveva richiesto
una consulenza in merito.
L’analisi trattava, più precisamente, il confronto tra il numero di presenze al cinema in due
semestri (settembre-febbraio; marzo-agosto) degli anni 2013 e 2014, così da poter capire
quando i primi 100 film per incasso annuale riscuotessero il più alto numero di presenze.
Inoltre tramite un modello di regressione lineare sarebbe stato possibile prevedere il
guadagno stimata l’affluenza di pubblico.
!5
Boxplot Presenze Estive Boxplot Presenze Invernali
7. Commenti
I boxplot mostrano, in maniera chiara ed evidente, come ci siano stati film che abbiano
riscosso un gran successo al botteghino rispetto ad altri che, invece, hanno ottenuto un
incasso decisamente inferiore.
Interessante è notare come tra le presenze invernali vi sia un outlier, il quale rappresenta
“Sole a Catinelle”, film visto da ben più di 8 milioni di persone, distacchi notevolmente la
concorrenza. A causa di questo la sensibilità del boxplot delle presenze invernali risulta
compromessa e rende difficile la lettura del grafico.
Oltre a pochi a outliers, la maggioranza dei dati si attesta intorno la linea mediana e si trova
all’interno dell’intervallo formato dal primo e terzo quartile; con presenze comprese tra 250
mila e 850 mila.
Spostando l’attenzione sugli istogrammi si osserva come questi non abbiano una struttura a
campana e non seguano, di conseguenza, una distribuzione normale.
Ipotesi confermata anche dai QQ plot, dai quali si nota di come sulle code i dati si
allontanino dalla linea di tendenza.
Test di normalità
Shapiro - Wilk normality test
Data:
PRESENZE.INVERNALI
Data:
PRESENZE.ESTIVE
W
=
0.5176,
p-‐value
<
2.2*10^(-‐16)
W
=
0.8288,
p-‐value
=
1.777*10^(-‐07)
Come si può vedere dai grafici riportati nella ricerca e soprattutto dai risultati numerici del
test di Shapiro, non è possibile assumere la normalità dei nostri dati (probabilmente poiché
riguardano solo i top 100 film prodotti e non quelli con presenze e incassi nella media o al di
sotto della stessa).
Nonostante ciò è possibile assumere la normalità della media campionaria delle presenze
sia estive che invernali grazie al Teorema Centrale del Limite (#presenze estive=Ne=72 e
#presenze invernali=Ni=128).
!7
8. Test d’ipotesi
Xe: presenze estive Xi: presenze invernali Xⁿ: media campionaria
f-TEST per il confronto delle varianze delle nostre variabili Xe ed Xi
Ho: Var[Xe]=Var[Xi] H1: Var[Xe] ≠Var[Xi]
Il test è effettuato a livello di significatività α=10% utilizzando la seguente formula:
Fₒ=0,3274 e nel mio test rifiuterei Ho se Fₒ>F₀,₀₅=1,75 oppure se Fₒ<F₀,₉₅=1/ F₀,₀₅=0,5714
Poiché Fₒ<F₀,₉₅ allora possiamo rifiutare Ho e affermare che le varianze delle due variabili
sono diverse fra loro.
P.S. Abbiamo effettuato lo stesso test non considerando le presenze eccezionali ottenute
dal film “Sole a catinelle” e il risultato allo stesso livello di significatività è stato il non rifiuto di
Ho, ovvero che è possibile affermare l’uguaglianza delle due varianze.
Z-TEST per il confronto delle medie delle nostre variabili Xe ed Xi (varianze non note ma
diverse, inoltre Ne e contemporaneamente Ni grandi)
Ho: E[Xi]≥E[Xe] H1: E[Xi]<E[Xe]
Il test è effettuato a livello di significatività α = 10% utilizzando la seguente formula :
!
Svolgendo i calcoli otteniamo come risultato Z₀=0,665, rifiuterei Ho se Zo> Z₀,₁=1,28, ma
non essendo così allora accetto l’ipotesi nulla. Il p-value del test è pari a p=0,265, quindi c’è
forte evidenza statistica per accettare Ho.
P.S. Abbiamo effettuato lo stesso test senza il film “Sole a catinelle” utilizzando la stima
Spooled^(2) per la varianza ottenendo lo stesso risultato.
Conclusione: i test effettuati evidenziano come il periodo invernale sia più proficuo in
termini di presenze al cinema e quindi gli incassi probabilmente risulteranno maggiori
rispetto al semestre estivo ipotizzando una dipendenza fra incassi e presenze, ma questo
verrà mostrato all’interno dello studio della regressione lineare.
2
2
1
1
21
nn
XX
Z
σσ
+
−
=
!8
9. Regressione lineare univariata
In questa analisi andremo a valutare un modello lineare per testare l’incidenza della variabile
“presenze” sulla variabile “incassi”.
La regressione lineare avrà come predittore la variabile “presenze” e come regressore la
variabile “incassi”.
X: incassi film Y: presenze film
Retta di regressione : Y= βₒ + β₁X + ε
Assumiamo ε come una normale di media pari a zero e di varianza non nota.
Riportiamo il diagramma di dispersione dei dati sovrapposto alla retta di regressione stimata
!9
10. Dall’analisi del codice R emerge che effettivamente il modello è buono: i dati sembrano
interpolarsi bene con la retta come è evidenziato dal valore del coefficiente di
determinazione R^(2)=0,9931 e dal p-value assai basso della statistica test t-value sullo
stimatore β₁ (quasi zero).
Il coefficiente angolare β₁ e l’intercetta βₒ come mostrato dai p-value dei t-test hanno un
effetto significativo sulla variabile Y in quanto c’è evidenza per rifiutare l’ipotesi nulla.
!10
11. Inoltre come si evince dal grafico i residui non seguono nessun particolare trend e sono
omoschedastici.
Facendo riferimento al modello di regressione lineare precedentemente esporto abbiamo
realizzato un intervallo di previsione unilatero per gli incassi al 90% con xₒ=743504 che
rappresenta la media delle presenze dei film nella top 100, B = β₁ e A = βₒ.
Y appartiene a (4308690; +∞)
Conclusione
L’incasso minimo medio dell’anno futuro apparterrà all’intervallo sopra riportato.
Il nostro lavoro è concluso, ora starà alla PincoPallino s.p.a. valutare dove destinare il
capitale previsto per l’investimento.
Bibliografia
http://www.cinetel.it
Associazione Nazionale industrie cinematografiche: http://www.anica.it
!11