• Save
Laboratoris 1
Upcoming SlideShare
Loading in...5
×
 

Laboratoris 1

on

  • 406 views

 

Statistics

Views

Total Views
406
Views on SlideShare
406
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Laboratoris 1 Laboratoris 1 Document Transcript

  • Laboratoris Estadística FIB P09 Guió S1 IntroduccióSessió 1. Introducció al Paquet Estadístic MINITABLes pràctiques de laboratori s’efectuen en MINITAB per Windows. Es veuran els mòduls mésdirectament relacionats amb l’assignatura: lectura/escriptura d’arxius, DESCRIBE, BOXPLOT,HISTOGRAM (estadística descriptiva), taules encreuades (CROSS TABLES), les macros,generació de mostres, etc.; tanmateix com un resum d’utilitats d’operació que permeten derealitzar anàlisis coherents i complertes dels conjunts de dades que es proposen.Un directori del servidor conté tots els arxius de dades (ASCII i .mtw) que s’usaran al llarg delcurs, una descripció exhaustiva dels quals es pot trobar en el propi guió de la pràctica.Els documents de les sessions de laboratori presenten la descripció i exercicis de cada pràctica,la lectura de la qual es considera imprescindible abans de l’inici de la sessió de laboratoricorresponent: el contingut de l’enunciat és en molts casos necesari per a la complimentació delsqüestionaris proposats, i com a pauta general no es tornaran a explicar a les sessions delaboratori.La resolució dels qüestionaris proposats a les sessions de pràctiques es realitzarà amb alguns delsarxius indicats en cada cas.Recomanacions pràctiques: • Un cop dintre del MINITAB, per obrir fitxers de més de 10000 cel·les en versions anteriors a la 12 de MINITAB cal fer: EDIT --> Save Preferences --> General --> i aquí canviar el Worksheet Size, per exemple posant-hi 100000. • Cal observar si surt el prompt MTB>, per a poder usar comandes MINITAB sense haver d´utilitzar el menú de WINDOWS. Si no surt, cal fer (amb la finestra Session activa): Editor --> Enable Commands • Per copiar arxius de dades de l’assignatura ESTADÍSTICA s’ha d´accedir al servidor dins del domini SMBFIBP on es troba una carpeta dita ASSIG que conté el directoris amb els fitxers de dades de les assignatures i entre elles l’Estadística . • Per qüestions de concurrència es pot produir un error de lectura si tothom vol obrir alhora el mateix fitxer. En aquests casos resulta recomanable que cada grup de pràctiques es copïi el fitxer a analitzar sobre el seu compte i treballi en local.Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 1
  • Laboratoris Estadística FIB P09 Guió S1 IntroduccióEl paquet estadístic MINITAB per Windows té un funcionament interactiu interpretat. Realitzaoperacions sobre un full de dades (worksheet) que es pot considerar com una matriu de dades onles columnes s’identifiquen amb les variables que tenen com a nom per defecte c1, c2, c3, etc, iles files representen les observacions de les variables. Les variables poden tenir un nombred’observacions diferent segons les necessitats o transformacions realitzades per l’usuari. Els fullsde dades es representen a nivell de sistema operatiu com a arxius amb una extensió per defecte.mtw.A més de columnes, existeixen d’altres estructures de dades en MINITAB, però en aquest puntnomés resulta d’interès comentar la possibilitat d’usar constants, que per defecte s’anomenen k1,k2, k3, etc. Tant les variables, com les constants poden tenir noms particularitzats a l’aplicacióde l’usuari i això s’assoleix amb la comanda NAME: MTB> NAME K1 ‘DADES’ Alerta! Qualsevol referència posterior, en comandes, a la variable dades ha de fer-se amb la cadena de caràcters entre cometes.El MINITAB en entorn WINDOWS s’articula en dues pantalles bàsiques: una amb el full dedades (Data Window) i una altra amb el diàleg amb l’usuari i els resultats de l’execució delsprocediment requerits (Session Window). Per defecte, existeixen dues finestres auxiliars visiblesa petició de l’usuari: History Window i Info Window, respectivament amb la llista de lesdarreres comandes sol·licitades per l’usuari i la síntesi de continguts del full de dades.L’estructura de les comandes és: MTB > COMANDA paràmetres1 ; return SUBC> Subcomanda paràmetres2 ; return SUBC> Subcomanda paràmetres3 . returnLes comandes poden tenir subcomandes i per entrar en aquest nivell cal introduir un punt i coma";" abans de prémer return, per sortir del nivell de subcomandes i executar cal introduir unpunt "." abans del return .El HELP és molt satisfactori i en les sessions de pràctiques és recomanable el seu us, de maneraque l’alumne assoleixi en finalitzar el curs prou agilitat amb el sistema com per poder consultar ientendre l’ús de comandes que desconegui sintàcticament. No cal oblidar que l’entornMINITAB té un gran nombre de comandes i possibilitats i la gran majoria d’usuari nomésconeixen una fracció molt petita de les seves possibilitats. En entorn Windows, el HELP éssensitiu al context i es pot invocar des de qualsevol punt.Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 2
  • Laboratoris Estadística FIB P09 Guió S1 IntroduccióEn versions no WINDOWS (o des de llenguatge de comandes), la comanda STOP permetd’aturar una sessió MINITAB i retornar l’usuari a nivell de sistema operatiu i la comandaOUTFILE possibilita la creació d’un arxiu de seguiment de la sessió, és a dir un arxiu on esguarden les comandes sol·licitades per l’usuari i a la vegada els resultats d’executar-les.En entorn WINDOWS, sortir del sistema MINITAB s’assoleix amb la selecció d’icones FileExit. Pel recull de la sessió de treball en un arxiu de text s’activa la finestra File Save SessionWindow As o bé es seleccionen les icones File Save Project as (salva fulls i icones de resultatsoberts, text i gràfics) o File SaveWorksheet As només per salvar el full de dades actual.Una manera ràpida de consultar el nombre de columnes/variables existents en un full de dades ésla comanda INFO, que a la vegada informa de l’existència de noms lligats per l’usuari a lesvariables i del nombre d’observacions de cadascuna. En entorn Windows cal seleccionar lesicones Window Info.Una primera tasca fonamental consisteix en comunicar-se amb l’entorn de l’ordinador, és a dir lalectura/escriptura de dades, bé en format ASCII o en format intern MINITAB. Lalectura/escriptura de dades en format ASCII es realitza amb les comandes READ i WRITErespectivament. La lectura/escriptura d’arxius de dades en format intern mitjançant les comandesRETRIEVE i SAVE, respectivament. La lectura i escriptura de fitxers s’aconsella s’efectüi apartir de les icones de l’entorn Windows:• Arxius en format intern Minitab: Icó File OpenWorksheet (lectura d’un arxiu existent), File NewWorksheet (creació d’un nou full de dades), Save (As) Worksheet (escriptura).• Arxius en format ASCII: File OtherFiles ImportASCIIData (lectura) i File OtherFiles ExportASCIIData (escriptura).• Per recuperar un projecte anterior (fulls de càlculs i resultats): Icó File OpenProject.En la gran majoria d’estudis d’estadística descriptiva, és necessari de transformar les dadesoriginals: per suprimir alguns valors no adequats, per crear variables derivades de les originalsque presenten millors propietats de cara al tipus d’anàlisi posterior, etc.Les comandes MINITAB de transformació i creació de noves variables són bàsicament tres:1. LET. Crea una nova variable com a funció matemàtica de variables prèviament existents, per ex: LET C100 = 10*C1 + C2. En entorn Windows cal seleccionar les opcions Calculate Calculator.2. COPY. Crea una nova variable que conté un subconjunt (o tots) de valors de la variable original, seleccionats per un criteri molt flexible funció del número d’observació o funció dels valors d’una tercera variable que juga el paper de selector. Les diferències en les duesDepartament d’Estadística i Investigació Operativa UPC Guió S1 pàg 3
  • Laboratoris Estadística FIB P09 Guió S1 Introducció maneres de selecció es comentaran àmpliament a classe de pràctiques, aquí només es dóna la sintaxi de les dues funcionalitats: MTB > COPY C1 C2; MTB > COPY C1 C2; SUBC> USE C1 4:7. SUBC> USE 4:7.En entorn Windows cal seleccionar les icones Manipulate CopyColumns.3. CODE. Pot crear una nova variable amb certs valors originals transformats segons uns criteris de rang de valors. És fonamental per la codificació dels missings com ‘*’: MTB> CODE (0) 99 (3:5) 3 (9) ‘*’ C1 C2 que efectua C1 C2 0 99 3a5 3 9 Missing Resta No canvienEn entorn Windows cal seleccionar les icones Manipulate Code Numeric to Numeric, o CodeNumeric to Text, etc, segons convingui reagrupar intervals de valors numerics en codisnumèrics o en símbols... Quan es tracta de codificar intervals d’una variable numèrica, el propiMinitab decidirà per quin dels dos extrems tancarà l’interval i l’altre quedarà obert.Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 4
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantSessió 2. Estadística Descriptiva UnivariantL’estadística descriptiva univariant és la primera de les etapes a realitzar en qualsevol estudid’anàlisi de dades. Té per objectiu facilitar una prospecció intuïtiva de la informació continguda al’arxiu de dades, així com orientar els procediments posteriors.Cal tenir en compte que la majoria de vegades, les dades reals (no simulades) vindran verges, sensecap manipulació ni revisió prèvia. És tasca fonamental realitzar-ne un correcte depurat abansd’efectuar l’anàlisi, tot corregint-ne possibles errors o defectes.De fet, la qualitat de les conclusions de l’anàlisi, és directament proporcional a la qualitat de lesdades. Si el procés de depurat és deficient, la utilitat dels resultats pot ser dubtosa, i ens arrisquem aprendre decisions equivocades, de nefastes conseqüències en moltes ocasions.Dins la fase de depuració de les dades, hi ha uns quants punts a considerar:• Les dades mancants, en anglès nomenades missings. Es tracta de dades absents, de caselles de la matriu de dades sense contingut. La causa d’una dada mancant, és variada i pot anar des de la simple pèrdua, o inaccessibilitat de la dada, fins a l’ocultació voluntària (no resposta en enquesta, filtració, etc.). En general vindran representades de dues formes: amb una casella blanca, o utilitzant un codi numèric atípic per la variable (valor fora de rang o molt gran), desitjablement detectables directament per inspecció visual. Amb Minitab, aquests forats es poden omplir amb un valor especial: l’asterisc, *; que indica valor a no tenir en compte en procediments estadístics. De vegades, serà necessari tractar d’imputar algun valor hipotètic per aquestes dades, per tal d’aprofitar el contingut del registre corresponent en altres variables. La imputació es fa especialment necessària en anàlisis bi o multivariants i constitueix un problema molt difícil que no és en absolut objecte d’aquest curs introductori, però volem deixar constància d’aquesta possibilitat per a que no es creï la falsa idea que sempre s’han de substituir els codis mancants per un *.• Les dades anòmales o aberrants, en anglès denominades outliers . Una dada és un outlier si és una observació anormalment llunyana de la resta i sol ésser d’interès detectar-ne el màxim possible de les existents en la fase inicial de l’anàlisi exploratori. Un outlier no ha de correspondre forçosament a un error de codificació/gravació, pot correspondre a un individu realment diferenciat de la resta, o pot ser precisament la representació d’un codi de dada mancant, etc. El tractament dels outliers no és en absolut automàtic. Algunes vegades convé mantenir-los, d’altres són causa de gran inestabilitat numèrica i és recomanable la seva eliminació, d’altres caldrà fer-ne un tractament individualitzat, etc.Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 1
  • Laboratoris d’Estadística FIB P09 Guió S2: univariant Però sempre s’han de resseguir, perquè són de gran valor descriptiu i la primera cosa que cal fer és identificar l’objecte (l’individu) que l’està generant. Sovint, el mateix individu presenta valors anòmals en diverses variables alhora i podrem entendre millor la seva naturalesa fent-ne una valoració global. En qualsevol cas, es tractament d’outliers s’ha de fer sempre amb molta cura. Eliminar-los (o substituit-los per un ‘*’ indiscriminadament pot ser causa d’errors d’interpretació greu. Vegi’s el següent fragment a títol il.lustratiu sobre les conseqüències d’un tractament irresponsable de dades anòmales: “El 1985 uns científics britànics van advertir d’un forat en la capa d’ozó de l’atmosfera terrestre sobre el Pol Sud. Això suposava un problema, ja que l’ozó ens protegeix del càncer que provoquen les radiacions ultravioleta. L’informe britànic va ser mensytingut d’entrada, perquè es basava en instruments que observaven l’atmosfera des de terra. Altres observacions més comprensives eren les que provenien d’un satèl.lit que observaven l’atmosfera des de dalt i no mostraven res inusual. Més tard, l’examen de les dades del satèl.lit va revelar que el Pol Sud presentava lectures d’ozó tan i tan baixes que el software del computador que s’utilitzava per analitzar les dades les havia suprimit automàticament com si fossin outliers deguts a errors de mesura!!! Es van reanalitzar les lectures antigues des del 1979 i van posar de manifest que hi havia un enorme i creixent forat en la capa d’ozó que era inexplicable i possiblement perillós.” [1] Els computadors que analitzen grans volums de dades sovint es programen per suprimir els outliers automàticament, com a mesura de protecció contra els errors en les dades. Com l’exemple del forat de la capa d’ozó il.lustra, suprimir un outlier sense investigar-lo pot ocultar informació de gran valua.Així doncs, abans d’enfrontar-nos a la descripció d’un conjunt de dades, procurarem efectuar-ne uncorrecte depurat.Tant per a la identificació de missings i outliers com per a la pròpia anàlisi descriptiva, ensajudarem d’un mateix conjunt d’eines numèriques i gràfiques que ens donin una visió perspectiva(sintètica) i informativa de l’estructura de les dades i el seu comportament.En aquest capítol estudiarem i tractarem de caracteritzar les variables d’una en una. És l’anàlisidescriptiva univariant. Ja s’ha vist que les variables es divideixen en numèriques (contínues odiscretes) i categòriques (ordinals o nominals).El tractament descriptiu d’unes i altres variarà i el presentarem de forma separada. El principalobjectiu d’una descriptiva univariant és sintetitzar el patró general que segueix una variable icaracteritzar-ne les desviacions respecte d’aquest patró (outliers, fluctuacions en general, etc). Perfer-ho, combinarem eines de diferent naturalesa: • Gràfiques: Visualitzen com estan distribuïts els valors d’una variable • Numèriques: Sintetitzen i quantifiquen el que s’observa en el gràfic.1 “Hole in ozone over South Pole worries scientists”. James Gleick. The New York Times, July 29, 1986Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 2
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantL’arxiu CINT2000-2005.MTW conté informació sobre uns estudis de benchmark de l’SPEC(http://www.spec.org/) amb les següents columnes: • Company, System, Num_proc , Processor, i Proc informen de les diferents característiques de cadascuna de les màquines on s’executa el programa de càlcul. • MHz velocitat del processador . • 1st Cache , 2n Cache descriuen el tamany de cadascuna de les dues memòries Cache. • Memory ens informa de la quantitat i el tamany de casdascun dels mòduls de la memòria principal. • mem és el tamany total de memòria RAM. • Op.Sys. sistema operatiu sobre el qual s’ha executat el programa • Compiler compilador amb que s’ha compilat el programa • Result resultats obtinguts després d’executar el programa amb les opcions òptimes • Baseline resultats obtinguts després d’executar el programa amb les opcions bàsiques • Test Date mes i any en que s’ha fet l’execucióA partir d’aquestes columnes afegim unes variables derivades d’algunes de les columnes perfacilitar-ne el tractament: • Any que és només la informació d’any del Test Date. • SO és la columna Op.Sys restringint-se al nom genèric (eliminant les variants dins de cada família)Classificarem, per tipus, les variables que ens poden ser útils:Variable Contínua Discreta Ordinal Nominal Variable Contínua Discreta Ordinal NominalCompany SystemProcessor Proc Op.Sys. Compiler MHz mem Result Baseline Any SODepartament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 3
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantDESCRIPCIÓ NUMÈRICA DE VARIABLES NUMÈRIQUESEs busca resumir la informació d’una variable mitjançant indicadors numèrics robustos i clàssics dela distribució de la variable. Els indicadors clàssics són molt sensibles a la presència d’outliers i elsseus valors experimenten fortes modificacions amb o sense aquests valors extrems. Els indicadorsrobustos van aparèixer posteriorment amb l’objectiu de tenir un comportament més estable i sónresistents a la presència de valors extrems en les observacions (possibles outliers). Els primers sónmés comunment coneguts i resulten d’especial interès en aquest curs per la seva estreta relació ambcerts conceptes bàsics de la Teoria de la Probabilitat com són l’Esperança Matemàtica i la Variància(que es veurà en el seu dia).Dels indicadors numèrics, ens interessa especialment:• La Tendència Central: indica el valor de la variable al voltant del qual s’estan distribuïnt les observacions. Hi ha diverses formes de mesurar-la 1 n - Clàssica: la mitjana x = ∑ o en termes MINITAB mean, valor que prendrien les n i =1 xi observacions si no hi hagués variabilitat i totes fossin iguals. - Robusta: mediana (Me o median en terminologia MINITAB), definida com el valor real tal que el 50% de les observacions prenen un valor inferior a Me i el 50% prenen un valor superior.• La Dispersió: mesura quant fluctuen les observacions d’una variable al voltant de la tendència central. Formes de mesurar-la: 1 n 2 - Clàssica: variància sx ∑ ( xi − x)2 o la seva arrel quadrada que s’anomena desviació = n − 1 i =1 tipus o estàndard s x , i ve en les mateixes unitats de mesura que la variable. MINITAB no calcula directament la variància per a una variable, però es pot trobar la desviació tipus amb la n 2 1 instrucció STDEV. També es pot calcular via la fórmula s = [∑ xi2 − n( x) 2 ] x n − 1 i =1 - Robusta: distància interquartilar (IQR) definida com la diferència entre els quartils del 75 (Q3) i 25% (Q1) (en terminologia MINITAB IQR=Q3-Q1) on: 1. Q1 és un valor real tal que el 25% de les observacions prenen un valor inferior a Q1. 2. Q3 és tal que un 25% de les observacions prenen un valor superior a Q3.• Simetria: Indica si les fluctuacions entorn la tendència central s’equilibren per sobre i per sota d’aquest valor, o per contra, pesen més d’una banda que d’una altra. Aquesta és una característica fàcilment valorable sobre una representació gràfica. Existeixen indicadors específics que ho quantifiquen, que no s’introdueixen en aquest curs. Però ens pot ajudar a identificar el sentit d’una asimetria la comparació entre mitjana i mediana, o entre Q3-Me i Me- Q1.Molts d’aquests valors es troben a la sortida de la instrucció MINITAB DESCRIBE. En entornWindows, els anteriors estadístics s’obtenen seleccionant les icones Statistics >Basic Statistics>Display Descriptive Statistics.Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 4
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantDESCRIPCIÓ GRÀFICA DE VARIABLES NUMÈRIQUESLa visualització de la distribució d‘una variable numèrica es complementa amb la descripciónumèrica de la mateixa. Aquesta visualització es pot obtenir mitjançant diverses eines gràfiquesMINITAB: dot-plot, histograma, box-plot, i d’altres. min Q1 median Q3 max * IQR Outliers suaus Outliers suaus Outliers extremsL’esquema vol il·lustrar en què consisteix el box-plot (o diagrama de caixa i bigoti). Visualitza elque es coneix com a “Resum en cinc números” (Min, Q1, Me, Q3, Max) i permet observar laubicació de la tendència central, la dispersió, la simetria de la distribució, l’existència d’outliers,etc. La caixa central representa el 50% de les observacions, les que són entre el primer quartil i eltercer quartil; la mediana s’explicita amb una línia. Els bigotis són les línies que es prolonguen alscostats de la caixa central. Per exemple, en la cua superior es construeix un punt imaginari, situat a1.5 vegades el IQR a partir del tercer quartil. El bigoti arribarà fins a l’observació més gran, peròmenor o igual que aquest límit. La zona que queda entre els punts Q3+1,5IQR i Q3+3IQRs’anomena zona d’outliers suaus i cadascuna de les observacions que es troben en aquesta zona esrepresentarà com a ‘*’, i anàlogament amb la cua inferior. La zona superior al punt Q3+3IQRs’anomena zona d’outliers extrems. Si una dada és outlier es posiciona en alguna d’aquestes zones(outliers suaus o extrems ). El recíproc no és cert. La caracterització anterior és indicativa i ésl´estadístic qui determina si un valor és o no un outlier. Com a norma general no és preocupantobservar fins a un 1% d’outliers extrems i fins a un 5% d’outliers suaus en una distribucióqualsevol.L’histograma és una representació molt utilitzada que representa barres d’altura proporcional alnombre d’observacions sobre uns intervals que es defineixen (automàticament per a nosaltres)sobre l’eix de la variable. Permet observar també la situació de la tendència central, la magnitud dela dispersió, l’existència de dades extremes, la simetria de la distribució i algunes característiquessignificatives com per exemple l’existència de diversos pics (vàries tendències centrals...n-modalitat), el possible truncament d’una cua de la distribució (escarpat) o defectes en elprocediment de mesura (histograma escalat).Les comandes bàsiques MINITAB per Estadística Descriptiva Univariant Gràfica són BOXPLOT iHISTOGRAM. En entorn Windows, l’obtenció de boxplots requereix seleccionar les icones GraphBoxplot i per tenir histogrames Graph Histo.Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 5
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantA. La variable ResultA1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable Result: • Grandària (sense missings) .......... • Mínim ............ Màxim ............ • Primer quartil Q1 .................... • Mitjana .................................... • Mediana .................... • Desviació estàndard ................... • Tercer quartil Q3 .....................Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb lataula d’indicadors numèrics podem concloure:Hi ha dades mancants inicialment? Sí NoS’observen dades extremes o outliers? Sí NoEn aquest cas s’observa que hi ha molts casos amb valor 0. No són outliers, i caldria fer estudisconcrets d’aquestes dades per controlar-ne les causes però el que farem serà substituir-los per dadesmancants per poder estudiar el gruix de les altres dades.La operació de substitució és la instrucció CODE de Minitab obtenint la columna Resultat com aResult depurada:MTB > Code (...) * Result Resultat (Data->Code->Numeric to numeric)A2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada: • Grandària (sense missings) .......... • Mínim ....... Màxim ............. • Primer quartil Q1 .................... • Mitjana ................................... • Mediana .................... • Desviació estàndard ................ • Tercer quartil Q3 .................... • Variància ................ • IQR .....................Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis enles característiques de la variable abans i després de depurarDepartament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 6
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantA3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quinsindicadors ho veiem, en els aspectes següents:- Tendència Central.- Dispersió.- Simetria.B. La variable memB1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable mem: • Grandària (sense missings) .......... • Mínim ............. Màxim ............. • Primer quartil Q1 .......... ........ • Mitjana .................................... • Mediana ..................... • Desviació estàndard ............... Mb. • Tercer quartil Q3 .......................Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb lataula d’indicadors numèrics podem concloure:Hi ha dades mancants inicialment? Sí NoS’observen dades extremes o outliers? Sí NoLa operació per substituïr els outliers és la instrucció CODE de Minitab obtenint la columnamemoria com a mem depurada.MTB > Code ( ... ) * Mem memoria (Data->Code->Numeric to numeric)B2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada: • Grandària (sense missings) ............. • Mínim .......... Màxim ............ • Primer quartil Q1 ...................... • Mitjana ..................................... • Mediana ...................... • Desviació estàndard ................Mb. • Tercer quartil Q3 .................... • Variància ....................... Mb2. • IQR ...................Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 7
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantRealitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis enles característiques de la variable abans i després de depurar (en aquest cas s’observa que es potentrar en un procés iteratiu de detecció, substitució, nova detecció d’outliers,...)B3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quinsindicadors ho veiem, en els aspectes següents:- Tendència Central:- Dispersió :- SimetriaB4. Estudiarem en aquest cas la possibilitat de transformar la variable enlloc d’entrar en un procésiteratiu de detecció i substitució de nous outliers (crearem la variable log_mem usant unatransformació força habitual que és el logaritme i que tornarem a usar més endevant)Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 8
  • Laboratoris d’Estadística FIB P09 Guió S2: univariant DESCRIPCIÓ DE VARIABLES CATEGÒRIQUES Les variables categòriques no prenen valors numèrics, sinó modalitats o categories (per exemple, el sexe pot ser home o dona, o el color dels ulls pot ser blau, verd, marró, etc.). Les variables categòriques no tenen significat numèric, tampoc té sentit establir mesures de tendència o de dispersió. Les variables categòriques es descriuen numèricament amb recomptes de les modalitats presents (icones Stat Tables Tally) o indicant la modalitat més freqüent de totes (Moda). La representació gràfica que visualitza el resultat d’un tally és el diagrama de barres: icones Graph Chart. Si hi ha poques categories també és adequada la representació gràfica via la selecció de les icones Graph Pie Chart en entorn Windows. La interpretació serà molt més senzilla en aquest cas: quantes modalitats hi ha? Es distribueixen uniformement? Quines abunden més? ... o menys? Si la variable és ordinal convé estudiar tendències: les modalitats d’ordre superior abunden més? Conforme creix l’ordre d’una modalitat creix la seva freqüència? ... o decreix? Però per a fer-ho, caldrà que les modalitats es representin ordenades correctament sobre el gràfic. Per a fer-ho, cal indicar a Minitab, que l’ordre de les modalitats està definit i que ha de respectar aquest ordre en totes les representacions (a la finestra que visualitza el fitxer de dades, posicionarse sobre el nom de la variable, punxar el boto dret del ratoli i apareixerà un desplegable; seleccionar Column>Value Order, marcar User Specified Order, definir l’ordre sobre la finestra dreta del formulari i fer Add Order; assegurar-se que queda seleccionat abans d’acceptar) La figura de l’esquerra mostra un típic histograma (consum per autopista), apropiat per les característiques de la variable: quantitativa i contínua. 60 15 50 Count of students 40Frequency 10 30 20 5 10 0 0 ia e ny ds en str nc ma Ital y an pai n 4 5 6 7 8 9 10 11 12 13 Au Fra Ger erl ed UK Neth S Sw cons-autop students Un diagrama de barres com el de la dreta serà útil per descriure una variable categòrica: observeu que la adjacència de les barres del histograma subratlla laspecte numèric de la variable, i la separació daquest diagrama destaca l’heterogeneïtat de les modalitats en el cas categòric. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 9
  • Laboratoris d’Estadística FIB P09 Guió S2: univariantC. La variable SOA partir de la variable SO crearem, amb la instrucció CODE una variable “WinNoWin”recodificada segons la següent equivalència:SO Windows: W2000,W2003,XP recodificats com a WinSO no windows: Linux,Unix,HP-UX,SOLARIS,Otros recodificats com a NoWinRealitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques(diagrama de barres o pastís) analitzarem les característiques de la nova variableD. La variable AnyRealitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques(diagrama de barres o pastís) analitzarem les característiques de la variable Any.AVÍS: Cal guardar còpia del fitxer amb les variables “Resultat” i “memoria” depurades i amb lanova variable “WinNoWin” per a la propera sessió de laboratori.Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 10
  • Laboratoris d’Estadística FIB P09 Qüestionari: univariantNOMS:Qüestionari de Descriptiva univariant.1.- Per a la variable de resultat abans de depurar (Result) i després de depurar (Resultat) indiqueuels canvis observats numèricament i gràfica de les característiques de:- Tendència Central i Dispersió- Simetria i Outliers2.-Per a la variable de memòria abans de depurar (Mem) i després de depurar (Memoria ilog_mem) indiqueu els canvis observats numèricament i gràfica de les característiques de:- Tendència Central i Dispersió- Simetria i Outliers3.- Indiqueu quins indicadors han canviat molt i quins no, a l’eliminar outliers. I indiqueu coms’anomenen uns i altres segons si varien molt o no.Departament d’Estadística i Investigació Operativa UPC pàg. 1
  • Laboratoris d’Estadística FIB P09 Qüestionari: univariant4.- Quins són els indicadors de dispersió clàssics i quines unitats tenen? Indiqueu com es calculen.5.- Per a les variables SO, WinNoWin i Any indiqueu les característiques de les respectivesdistribucions (com les descriurieu per a un informe)Departament d’Estadística i Investigació Operativa UPC pàg. 2
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VASessió 3. Càlcul de Probabilitats i Variable aleatòriaEls esquemes següents representen les fórmules de càlcul de probabilitats de la primera pàgina delformulari: Ω A 0 ≤ P(A) ≤ 1 P(Ω) = 1 A A B B P(A ∪ B) = P(A)+ P(B)- P(A ∩ B) si A ∩ B ≠ 0 P(A ∪ B) = P(A) + P(B) si A i B disjunts A1 A2 ... B Ai P( B | Ai ) ⋅ P( Ai ) J P( Ai | B ) = J P(B) = ∑ P( B | A j) ⋅ P(A j) ∑ P(B j=1 | A j) ⋅ P( A j) j=1 P(B|A) B A P(A) P(NoB|A) NoB P(NoA) P(B|NoA) B NoA P(NoB|NoA) NoB P(A ∩ B) P(B | A) = P(A ∩ B) = P(A) ⋅ P(B | A) P(A)Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 1
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VADependència i independència en CPAmb les probabilitats conjuntes: B ¬B A P(A∩B) P(A∩¬B) P(A) ¬A P(¬A∩B) P(¬A∩¬B) P(¬A) P(B) P(¬B)Si P(A ∩B)= P(A) * P(B) i P(¬A ∩B)= P(¬A) * P(B) i P(A ∩¬B)= P(A) * P(¬B) i P(¬A ∩¬B)= P(¬A) * P(¬B)llavors A i B són independentsAmb les probabilitats condicionades (per files): B ¬B A P(A∩B) / P(A) = P(B|A) P(A∩¬B) / P(A) = P(¬B|A) 1 ¬A P(¬A∩B) / P(¬A) = P(B|¬A) P(¬A∩¬B) / P(¬A) = P(¬B|¬A) 1Si les probabilitats condicionades coincideixen ( P(B|A) = P(B|¬A) = P(B) i P(¬B|A) = P(¬B|¬A) = P(¬B) )llavors A i B són independentsAmb les probabilitats condicionades (per columnes): B ¬B A P(A∩B) / P(B) = P(A|B) P(A∩¬B) / P(¬B) = P(A|¬B) ¬A P(¬A∩B) / P(B) = P(¬A|B) P(¬A∩¬B) / P(¬B) = P(¬A|¬B) 1 1Si les probabilitats condicionades coincideixen ( P(A|B) = P(A|¬B) = P(A) i P(¬A|B) = P(¬A|¬B) = P(¬A) )llavors A i B són independentsDepartament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 2
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VAProblema A: Els flops erronisUn ordinador conté 3 processadors (A1, A2 i A3) en paral·lel per realitzar operacions de càlcul en coma flotant(anomenat floating point operations o flops en breu). Se sap que cada processador produeix flops amb resultatsincorrectes amb freqüències 0.01, 0.02 i 0.03 respectivament. Un usuari arranca un programa per fer una tasca de càlculque requereix 200 000 flops en total. El processador A1 processa 100 000 flops de la tasca, mentre A2 i A3 processen50 000 cadascú. Ens interessa estudiar si un flop concret dels 200 000 que formen part de la tasca (li direm flop i) s’haexecutat amb èxit o ha estat incorrecte. Contesta les preguntes a continuació: 1. Quina és la probabilitat que el flop i sigui incorrecte? 2. Si sabem que el flop i és incorrecte, quin processador és el candidat més probable d’haver-lo executat?Indicació per a la solució: 0.01 B flop erroni A1 ... B flop no erroni 1/2 ... B flop erroni A2 ... ... B flop no erroni ... ... B flop erroni A3 ... B flop no erroniDepartament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 3
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VAProblema B: Usuaris i batchjobsUn ordinador gran (mainframe) disposa d’una cua on els usuaris poden enviar treballs a processar pel sistema operatiu(batchjobs). Es distingeixen batchjobs petits (P), mitjans (M) i grans (S) dependent dels recursos que exigeixen elsbatchjobs (memòria, temps de CPU, ús de disc, etc.). La gran majoria dels usuaris treballa de manera interactiva ambl’ordinador, i només 4 usuaris (A, B, C i D) solen enviar batchjobs. La pràctica ha ensenyat que els batchjobs que estroben a la cua pertanyen a les diferents combinacions de categories amb les probabilitats: Usuari A Usuari B Usuari C Usuari D Petit 0.01 0.05 0.04 0.01 Mitja 0.02 0.08 0.03 0.03 Gran 0.04 0.54 0.09 0.06Contesteu les preguntes següents: 1. Quina és la probabilitat que un batchjob qualsevol hagi estat enviat per l’usuari A? 2. Quina és la probabilitat que un batchjob petit hagi estat enviat per l’usuari A? 3. Quina és la probabilitat que un batchjob sigui un batchjob gran? 4. Quina és la probabilitat que un batchjob sigui gran i enviat per usuari B? 5. Hi ha independència entre l’usuari i el tipus de batchjob? Argumenteu la resposta. 6. Quina és la probabilitat que un batchjob hagi estat enviat per l’usuari A o l’usuari B? 7. Quina és la probabilitat que un batchjob gran hagi estat enviat per l’usuari A o B? 8. Donat que un determinat batchjob no es petit, quina es la probabilitat que hagi estat enviat per lusuari C o lusuari D?Indicació per a la solució:Probabilitats marginals: Usuari A Usuari B Usuari C Usuari D Petit 0.01 0.05 0.04 0.01 0.11 Mitja 0.02 0.08 0.03 0.03 ... Gran 0.04 0.54 0.09 0.06 ... 0.07 ... ... ... 1.00Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 4
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VAProbabilitats condicionades:- per columnes Usuari A Usuari B Usuari C Usuari D Petit 0.14 Mitja 0.29 Gran 0.57 1.00 1.00 1.00 1.00 1.00- per files Usuari A Usuari B Usuari C Usuari D Petit 0.09 0.45 0.36 0.09 1.00 Mitja 1.00 Gran 1.00 1.00Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 5
  • Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VAProblema C: El paquet de tres bits (primera part)Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de comunicació (Ω= {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències són equiprobables. Esdefineixen dues variables aleatòries X i Y. La variable X és la suma dels 3 bits i la variable Y és elnúmero d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y ∈ {0,1,2}. - Construïr la taula amb la funció de probabilitat conjunta de les variables X i Y. - Calcular les esperances de X i de Y, i les variances de X i Y.Indicació per a la solució: Possibilitats X (suma) Y (#alternances) 0 000 0 0 0 001 1 1 1 0 0 010 1 2 1 1 011 0 100 0 1 1 101 1 0 110 1 111 3 0Probabilitats conjuntes: PYX X=0 X=1 X=2 X=3 1/8 Y=0 0 Y=1 0 Y=2 1/8Problema D: Resolució de problema en l’entorn e-statusDepartament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 6
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantSessió 4. Estadística Descriptiva BivariantEn la sessió d’univariant hem vist com les eines descriptives univariants ens permetien decaracteritzar el comportament d’una variable aïllada. De fet, amb eines numèriques i gràfiquespodiem fer una fotografia sintètica de la variable.Un cop conegudes les variables una a una, ens interessarem per un estudi més global, que lesposicioni unes respecte a les altres. Així doncs, la següent passa en l’anàlisi descriptiva ésl’anàlisi descriptiva bivariant, que té per objectiu estudiar com són les relacions entre lesvariables dues a dues. Naturalment, aquest és el cas més simple de l’anàlisi descriptivamultivariant, que estudia globalment les relacions existents entre un conjunt de variables que potser molt nombrós (aquestes tècniques són més complexes i són objecte de l’assignatura optativaTCD –Tècniques de Classificació i Discriminació, i connecten directament amb el món del DataMining).En aquest curs estudiarem les tècniques més usuals d’anàlisi descriptiva bivariant. Al igual quepassava amb les univariants, en tindrem de dos tipus: • Eines gràfiques: Permetran visualitzar com és la relació entre dues variables. Generalment identificarem un patró general que regeix la relació i com son les desviacions respecte d’ell. • Eines numèriques: Quantifiquen el que s’observa en el gràfic, ja sigui a nivell de proporcionar un model matemàtic per al patró general observat o per quantificar les desviacions respecte d’ell.D’altra banda cal tenir present que la naturalesa de les variables a estudiar jugarà un paperfonamental en la determinació de quines eines seran o no adequades per cada cas. Així doncs,distingirem bàsicament tres casos: • Relacions entre una variable numèrica i una categòrica • Relacions entre dues variables numèriques • Relacions entre dues variables categòriquesA continuació tractarem cadascun d’ells.Per últim, abans d’acabar aquest apartat, recordar que en tot treball, cal realitzar una acuradadepuració de les dades abans de començar l’anàlisi, i que això comporta, el tractament demissing data i l’estudi dels possibles outliers de les variables que intervenen a l’estudi. Unaqüestió a tenir sempre present és la possible aparició de nous outliers en l’estudi bivariant. Enefecte, dades que estan prop de la tendència central d’una variable globalment, poden ser outliersen un subgrup concret que es concentri en valors menors, per exemple: aquests outliers han detractar-se seguint la metodologia presentada a la pràctica anterior.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 1
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant RELACIÓ ENTRE VARIABLES NUMÈRIQUES I CATEGÒRIQUES En aquest cas estem interessats en estudiar el comportament duna variable numèrica segons les modalitats que pren una variable categòrica, tot examinant així la relació entre les dues variables. Amb aquesta anàlisi podrem observar les possibles diferències en el comportament de la variable numèrica entre els grups que determina la variable categòrica. Com ja hem dit, utilitzarem eines gràfiques i numèriques. De fet, en aquest àmbit s’introdueix l’extensió de les 3 eines de Minitab bàsiques per estadística descriptiva que es coneixen de la sessió anterior: DOTPLOT, BOXPLOT i DESCRIBE. L’extensió de les possibilitats de les comandes s’assoleix mitjançant la introducció de subcomandes. Des del sistema de navegació per menús que ofereix Minitab, això correspon a diferents opcions que presenten els formularis i que introduirem tot seguit. Si es treballa directament contra l’intèrpret de comandes Minitab, s’entra a nivell de subcomanda si, després d’indicar la comanda principal es prem “ ; Retorn”; s’observarà un canvi en el Prompt de l’intèrpret que passarà de “MTB>” a “SUBC>”; ens mantindrem dins aquest nivell de subcomanda fins que utilitzem el terminador de línia “.”, que indica que es pot executar tot el bloc anterior . Eines gràfiques d’anàlisi descriptiva bivariant (cas mixte) Veurem en aquest curs el dotplot múltiple (el formulari del dotplot té un flag: BY, que cal activar i indicar quina variable categòrica es vol utilitzar per definir els grups), i el boxplot múltiple (en el formulari del Boxplot, omplir el camp X amb la variable categòrica; si a més s’omple Grouping Variable amb la variable categòrica i es selecciona l’opció de “For each group” , hi haurà un tramat/color diferent per cada grup). La idea bàsica d’un gràfic múltiple és que es reprodueix un determinat gràfic per la variable numèrica (el dotplot, o el boxplot, en el nostre cas), per tots els grups que indica la categòrica. Els gràfics de tots els grups es representen juxtaposats sobre una mateixa escala per la variable numèrica i això permet fer comparacions entre grups. A la figura es mostra el dotplot múltiple de la variable velocitat de procés d’uns ordinadors (en MHz) versus el sistema operatiu de suport de l’ordinador. En segon lloc es mostra el boxplot múltiple de la puntuació que cada ordinador ha tret en un cert benchmark versus el sistema operatiu (val a dir que a més alta puntuació, millor posicionat està l’ordinador). Es pot veure com l’estructura bàsica d’un gràfic múltiple és, com ja s’ha dit, la repetició d’un gràfic de la variable numèrica per cadascun dels grups que indica la categòrica. Dotplot for velocidad 50Sist. Oper. 40 W2000 30 Result UnixWare 20 10 NT 100 200 300 400 500 600 700 800 900 1000 0 velocidad NT UnixWare W2000 Sist. Oper. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 2
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantL’anàlisi ha de contemplar bàsicament dos aspectes: • Com és el gràfic de cada grup per se. Per fer-ho hem de recórrer als coneixements adquirits en la pràctica d’univariant. • Com és la relació entre les dues variables. Per fer-ho analitzarem global i comparativament tots els grups. Bàsicament ens interessarà observar si el comportament de la variable numèrica és idèntic en tots els grups: mateixa tendència central, mateixa dispersió, mateix grau de simetria... (la qual cosa apunta cap a la independència entre les dues variables) o, per contra, existeix algun efecte del grup sobre la variable numèrica.Minitab ofereix la possibilitat d’altres gràfics múltiples, que no veiem en aquest curs o bé per ladificultat en obtenir-los, o bé per la dificultat en interpretar-los (tal és el cas de la representacióque Minitab ofereix de l’histograma múltiple).Eines numèriques d’anàlisi descriptiva bivariant (cas mixte)Al igual que en el cas univariant, els indicadors numèrics serviran per quantificar el ques’observa en el gràfic. Així, quantificarem les tendències centrals, dispersions, etc. de cada grupa través de la descriptiva múltiple (Basic Statistics>Display Descriptive Statistics de la variablenumèrica + Activar flag BY i indicar variable categòrica).Es mostra a continuació la descriptiva múltiple de la variable velocitat dels processadors versusel sistema operatiu, ja presentats a la secció anterior. Aquesta descriptiva vindria a complementarla informació que visualitza el dotplot anterior.Descriptive Statistics: velocidad by Sist. Oper.Variable Sist. Op N Mean Median TrMean StDevvelocida NT 98 455,3 441,5 451,6 175,3 UnixWare 72 196,57 180,00 191,48 77,56 W2000 1 1000,0 1000,0 1000,0 *Variable Sist. Op SE Mean Minimum Maximum Q1 Q3velocida NT 17,7 133,0 866,0 333,0 550,0 UnixWare 9,14 75,00 450,00 133,00 233,00 W2000 * 1000,0 1000,0 * *A part de l’anàlisi intern, grup a grup, observant globalment les característiques de cada grup,podrem estudiar si hi ha semblances fortes entre grups o no.Sobre la intensitat d’aquestes semblances existeixen també indicadors numèrics, però la sevainterpretació està lligada a raonaments no trivials i a la formalització d’alguns models que sónobjecte de cursos posteriors. Per això, en aquest curs introductori ens quedarem a nivelld’analitzar la descriptiva múltiple.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 3
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantA. Relacions entre una variable numèrica i una categòrica: les variablesResultat i SO, WinNoWin i AnyTreballarem les dades del fitxer CINT2000-2005.MTW de la sessió d’univaraint amb lesvariables depurades (Resultat, memoria, WinNoWin)Comencem analitzant la variable “Resultat” respecte les variables que ens indiquen el SO amb elque es va realitzar la prova (les variables SO i WinNoWin)Feu la descriptiva de Resultat per grups de la variable SO i copieu-la (atenció a les files: pot nocoincidir amb el ordre de sortida de Minitab): SO N Mitjana Desv. W2000 W2003 XP Linux Unix SOLARIS HP-UX OtrosTorneu a fer la descriptiva de Resultat per grups de la variable WinNoWin:WinNoWin N Mitjana Des.Típ Win NoWinCompareu les dos taules i observeu les diferències entre les interpretacions que s’obtenen.Analitzeu ara la variable “Resultat” respecte “Any”. Interpreteu-ne els resultats i comenteu siobserveu diferències entre els grups, quines, i quins elements estadístics ho posen de manifest. Any N Mitjana Des.Típ 00 01 02 03 04 05Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 4
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantRELACIÓ ENTRE DUES VARIABLES NUMÈRIQUESAquest apartat tracta de l’estudi de les relacions entre dues variables numèriques mitjançanteines gràfiques i numèriques.Representació gràfica de parells de variables numèriques.La manera natural d’iniciar un estudi consisteix en representar gràficament (diagrama bivariant ,scatterplot en terminologia del Minitab ) les parelles de punts que constitueixen el núvol depunts de les observacions de les dues variables: ( xi , yi ) i = 1… nLa comanda Minitab per construir un diagrama bivariant és PLOT (en entorn Windows calseleccionar les icones Graph Plot). X correspon a la variable en abcisses i Y, la variable enordenada, que sol ser la variable resposta si és que el paper de les dues variables està diferenciaten l’estudi.La gràfica, que és un diagrama cartesià ordinari, conté tota la informació sobre la relació entredues variables. Bàsicament analitzarem tres aspectes: • Forma: el plot permet visualitzar la forma general de la distribució conjunta de les dues variables i, per tant, les grans tendències de la seva relació. Així, podrem veure si el patró general que regeix aquest parell de variables s’acosta a una línia recta, o a una paràbola, o es sinusoïdal... • Direcció: Veurem fàcilment també si la relació és directa (Y creix quan X creix) o inversa (Y creix quan X decreix). • Intensitat: Els punts poden estar molt agrupats entorn aquesta tendència general (poca dispersió), la qual cosa indica que la relació és intensa o, per contra, existeix una dispersió gran al voltant d’aquesta tendència, la qual cosa indica que la relació és feble i que l’efecte d’X sobre Y està emmascarat, o bé per altres variables que no hem considerat, o bé per una fluctuació aleatòria molt important.Les figures al peu mostren exemples del que es consideraria una relació lineal creixent i moltintensa, un relació no lineal, també creixent i menys intensa, i una relació no lineal, decreixent ino molt intensa respectivament.Fixem-nos que aquesta anàlisi és paral·lela al que ja s’havia fet en l’apartat d’univariant. Lafilosofia segueix essent la mateixa: Identificar un patró general (en aquest cas bivariant) quemarca la tendència central (en aquest cas de la relació entre les variables) i caracteritzar com sónles variacions respecte d’aquest patró... 50 50 50 40 40 40 30 30 result PIII Result Result 20 20 30 10 10 20 0 0 800 1300 1800 2300 400 500 600 700 800 900 1000 1/12/95 1/11/96 1/10/97 1/9/98 1/8/99 1/7/00 dies fins ara velocitat PIII PublishedDeartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 5
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantL’observació detallada del diagrama bivariant ha de permetre certes consideracions, com:• és legítim modelitzar la relació entre les variables mitjançant una recta? o s’ha de pensar en modelitzar mitjançant una corba més complexa?• podrà servir el model escollit per predir o per estimar?• existeixen outliers, es a dir, punts que s’aparten molt del núvol?El plot múltipleFent una petita extensió al camp del tri-variant, podem estudiar l’efecte d’una tercera variablecategòrica sobre aquesta relació a través del plot múltiple, que sobre un plot, marca ambdiferents símbols o colors la modalitat corresponent a cada punt. Sobre el formulari del plot, calseleccionar Display: Bar For Each: Group Grouping Variable: la variable categòrica. A travésdel botó Edit Attributes, podem indicar amb quins colors volem distingir les modalitats i fer mésvisual el gràfic. Es poden presentar situacions en que la relació entre X i Y varii segons lamodalitat de la categòrica i s’aconselli un estudi separat...Eines numèriques d’anàlisi de parells de variables numèriquesJa hem dit que interessa quantificar aquelles coses que s’observen visualment en un gràfic. Enl’àmbit de les variables numèriques, la cosa es complica i els indicadors numèrics que podemdonar estan subjectes a formes concretes de la relació. No existeixen indicadors globals com hemvist fins ara, sino indicadors lligats a certes formes.Quant a les formes, el més habitual és representar-les com a funcions matemàtiques d’Y respected’X, que seran funcions lineals si la relació té forma de recta, paràboles, si té forma quadràtica,etc. El càlcul de l’equació matemàtica que millor s’ajusta a un núvol de punts constitueix elcamp de la modelització estadística i és complexe, quedant fora de l’àmbit d’aquest assignatura.Convé dir, no obstant, que els paràmetres de forma i direcció de la relació que hem observat enel plot queden capturats en l’equació del model.Queda per tant, quantificar el tercer dels paràmetres. La intensitat de la relació. Necessitem uncoeficient que ens digui si les observacions estan a prop o lluny de la seva tendència central.Però si la tendència central s’expressa com una funció matemàtica, està clar que avaluar ladispersió, passarà per veure què tant a prop d’aquesta funció (del seu lloc geomètric, de fet)estan les observacions. És per això que no tenim un coeficient global per qualsevol núvol, sinoque segons la forma de la relació els definirem diferentment.En aquest curs, estudiarem només com quantificar la intensitat d’una relació lineal, és a dir, d’unnúvol de punts que té forma de línia recta. I que quedi clar que si la forma del núvol de punts ésuna altra, aquest coeficient no mesura la intensitat de la relació.Definim, doncs, el coeficient de correlació lineal rX,Y: (donarà un valor comprès entre –1 i +1) ∑ (x − x )( y i − y ) ∑ (x − x )( y i − y ) i (n − 1) = i i S X ,Y rX ,Y = i = ∑ (x − x) ∑ (y − y) S X SY S X SY 2 2 i i i iD’aquest coeficient n’interpretem dues coses:Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 6
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant• el signe del coeficient de correlació lineal està directament lligat a la direcció de la relació: relació directa (coeficient positiu) o inversa (coeficient negatiu)• la magnitud ( o valor absolut ) mesura directament la intensitat de la relació: més gran és la magnitud, més intensa és la relació, més a prop estan els punts de la recta-tendència general, i per tant, més allargada és la forma del núvol. Si aquest valor és exactament 1, els punts són alineats sobre una recta perfecta: es verifica Y= a+bX (i X=c+dY), amb pendent positiu o negatiu segons el signe d’r. En la pràctica, no es troben coeficients que valguin exactament 1 en valor absolut i s’ha de valorar si els valors són grans o petits.L’obtenció del coeficient de correlació s’aconsegueix amb la comanda CORRELATION. Enentorn Windows cal seleccionar les icones Statistics BasicStatistics Correlation.Dependència/independència entre variables numèriquesEn absència de relació de tipus lineal, el coeficient de correlació val 0 (o s’hi acosta). Alerta,però, això només significa que les dues variables no estan lligades per una línia recta, i no pasque aquestes variables siguin independents. Podrien mantenir una relació quadràtica o d’un altretipus i molt intensa, i tenir un coeficient de correlació lineal quasi nul.B. Relacions entre dues Variables Numèriques: les variables Resultat i MHzEstudiem ara “Resultat” i “MHz” a través de l’”Scatterplot”.Analitzem el gràfic, i valoreu direcció, forma i intensitat de la relació.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 7
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantFeu el gràfic anterior separant els casos segons la variable WinNoWin i valoreu direcció, forma iintensitat de la relació.Aprofundim en la relació de Resultat i MHz mitjançant indicadors numèrics.- calculem el “coeficient de correlació” amb tots els casos: ........... amb els casos Win: ........... amb els casos NoWin: ……...- valoreu-ne el signe (+ o -):- valoreu-ne la magnitud (propera a 0, a 1 o a -1):En la relació de Resultat i MHz quina de les dues variables té sentit que actuï com a resposta?Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 8
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantRELACIÓ ENTRE DUES VARIABLES CATEGÒRIQUESIgual que en els altres casos, presentarem aquí eines de tipus gràfic i de tipus numèric.Eines numèriques per analitzar la relació entre variables categòriques.Les taules de contingència s’usen per fer una representació numèrica resumida de com esrelacionen dues variables categòriques. Suposem que estudiem n elements u observacionsi que per cada observació es coneix el valor de cada variable categòrica de forma quepodem conèixer el número nij de elements amb el valor i-èssim de la primera variablecategòrica X i amb el valor j-èssim de la segona variable categòrica Y. Amb aquestainformació podem construir diferents tipus de taules de contingència (que tenenl’estructura d’una matriu plana de doble entrada) tal i com veurem, associant els valors dela variable X a les files de la taula i els de la variable Y a les columnes.Si existeix un paper diferenciat de les dues variables (que una actuï com a variableresposta – la que volem explicar en funció dels valors de l’altra - i l’altra com aexplicativa) és freqüent disposar la variable explicativa en files i la variable resposta encolumnes.Per exemple, suposem que disposem de 171 ordinadors dels que coneixem els valors deles variables categòriques Processador i Sistema Operatiu. Per estudiar la relació entreaquestes variables podríem formar la següent taula:Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro Total NT 6 7 44 40 1 98 UnixWare 4 36 17 0 15 72 W2000 0 0 0 1 0 1 Total 10 43 61 41 16 171El que ens està dient la taula és que, dels 171 individus (en el sentit estadístic de laparaula) estudiats, n’hi ha 44 que són PentiumII amb WindowsNT i, per exemple, 4 quesón Celeron amb sistema operatiu Unix.La comanda Minitab TABLE ofereix les eines adequades per l’estudi de les taules decontingència. Les icones a seleccionar són Stat Tables CrossTabulation. Veurem que hiha diferents opcions, que permeten representar diferents taules. Vejam quines.Tipus de taules de contingència.• Taules d’efectius totals: Presenten el nombre total d’observacions que hi ha en cada casella. (subcomanda COUNT de la comanda TABLE). o nij - Contingent dobservacions en la fila i i la columna j, és a dir, nombre d’individus que són de la modalitat i per la variable X i de la modalitat j per la variable Y. És el contingut de la casella ij de la taula.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 9
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant o ni⋅ - Número total dobservacions amb el valor i-èssim de la variable categòrica associada a files. Es calcula com la suma de totes les caselles de la fila ni⋅ = Σj nij i es representa en el marge dret de la taula. o n.j - Número total dobservacions amb el valor j-èssim de la variable categòrica associada a columnes. Es calcula com la suma de totes les caselles de la columna n⋅ j = Σi nij i es representa en el marge inferior de la taula. En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els marges inferiors i és igual al nombre total d’observacions estudiades. Un estudi mitjançant taules de contingència s’inicia per Taules d’efectius totals ( o de freqüències absolutes ). Ha de ressaltar-se, quasi exclusivament, les cel·les amb majors i menors nombres d’observacions.• Taules de freqüències absolutes, o de proporcions absolutes: Presenten la proporció respecte del total d’observacions que hi ha en cada casella. (Subcomanda TOTPERC de la comanda TABLE). o pij – Proporció dobservacions en la fila i i la columna j respecte del total dobservacions. pij= nij / n. És el contingut de cada casella. o pi⋅ - Proporció, respecte del total dobservacions, d’observacions amb el valor i- èssim de la variable categòrica associada a files. pi.= ni. / n. . Es representa en el marge dret de la taula i s’anomena també distribució marginal de X. o També, p⋅ j - Proporció, respecte del total dobservacions, dobservacions amb el valor j-èssim de la variable categòrica associada a columnes. p.j= n.j / n. Es representa en el marge inferior de la taula i s’anomena també distribució marginal de Y. En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els marges inferiors i és igual la unitat, que representa el 100% de les observacions.• Taules de contingència condicionades per files: Per cada fila es representa una distribució diferent, que indica, d’entre el total d’observacions que són de modalitat i, quin percentatge n’hi ha de cada modalitat d’Y. De cadascuna d’aquestes distribucions se’n diu perfil fila. Així, la cel·la (i,j) conté lelement nij / ni⋅ Safegeix una última fila, que representa la fila marginal. Els elements daquesta última fila contenen els n⋅ j /n . En aquestes taules la columna del marge dret, que és suma de cada fila és sempre igual a 1, expressant que els percentatges s’han calculat independentment per cada fila i no respecte del total d’observacions, amb la qual cosa la suma dels elements duna fila ha de ser 1.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 10
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant Podrem analitzar sobre aquestes taules l’efecte de la variable explicativa sobre la variable de resposta. Si no hi ha efecte, la separació de les observacions per grups d’X no ha de modificar la distribució d’Y. Així, en cas d’independència entre les dues variables, totes les files serien idèntiques (en un cas perfecte) i iguals a la distribució marginal d’Y. Quan més lluny estem d’aquesta igualtat, més important és l’efecte de la variable X sobre Y (conèixer el valor d’X aporta informació sobre com serà el percentatge de certa modalitat d’Y). Ara bé, sobre dades reals, quasi mai trobarem una situació d’independència pura, sino que haurem de fixar un criteri previ d’equivalència, que ens permeti decidir fins a quin nivell considerarem petites diferències com a negligibles. Per exemple, es poden considerar equivalents tots els percentatges que difereixin en termes relatius menys d’un 5%. La subcomanda ROWPERCENT de la comanda TABLE s’usa per obtenir taules de contingència condicionades per files i les utilitzarem per apuntar si l’efecte d’X sobre Y és fort o feble. Si el resultat de l’anàlisi és que X afecta a Y, hem de ser capaços de descriure com és aquest efecte. Seguidament es presenta la taula de perfils fila que produeix Minitab per les dues variables que ja havíem presentat. Cada fila representa com es distribueix el tipus de processador per un sistema operatiu concret. Per exemple es veu que un 44,9% dels ordinadors que funcionen sota WindowsNT tenen un processador PentiumII, o que d’entre tots els ordinadors que funcionen en Unix, un 50% son Pentiums.Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro All NT 6,12 7,14 44,90 40,82 1,02 100,00 UnixWare 5,56 50,00 23,61 -- 20,83 100,00 W2000 -- -- -- 100,00 -- 100,00 All 5,85 25,15 35,67 23,98 9,36 100,00Cell Contents -- % of Row• Taules de contingència condicionades per columnes: Per cada columna es representa una distribució diferent, que indica, d’entre el total d’observacions que són de modalitat j, quin percentatge n’hi ha de cada modalitat d’X. Són els perfils columna. Així, la cel·la (i,j) conté lelement nij / n⋅j Safegeix una última columna, que representa la columna marginal. Els elements daquesta última fila contenen els ni. /n . En aquestes taules la fila del marge inferior, que és suma de cada columna és sempre igual a 1, expressant que els percentatges s’han calculat independentment per cada columna i no respecte del total d’observacions, amb la qual cosa la suma dels elements duna columna ha de ser 1. L’obtenció de la taula de contingència de freqüències per columnes és mitjançant la subcomanda COLPERCENT. L’estudi de taules condicionades és simètric per files i columnes. De fet, la informació que ens proporcioni una ha de venir reflectida enDeartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 11
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant laltre, per la qual cosa podria considerar-se que sincorre en redundància al obtenir les dues. Malgrat això sempre resulta profitós obtenir-les. Veieu aquí la taula de perfils columna de les variables que il.lustren aquest apartat. S’observa que de tots els ordinadors amb processador PentiumII, un 27,87% són màquines que funcionen en Unix, per exemple. Hores d’ara ja haurà quedat molt clar al lector, que Minitab no contempla, en aquestes taules de perfils, les caselles buides.Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro All NT 60,00 16,28 72,13 97,56 6,25 57,31 UnixWare 40,00 83,72 27,87 -- 93,75 42,11 W2000 -- -- -- 2,44 -- 0,58 All 100,00 100,00 100,00 100,00 100,00 100,00 Cell Contents -- % of Col• Taules de contingències de freqüències esperades. La cel·la (i,j) conté lelement nij =n ×p⋅ j ×pi⋅ Els elements de la fila i columna marginal són els mateixos que els de la taula de contingències totals absoluta. En aquest cas, es representa el nombre d’observacions que hi hauria d’haver a cada casella en cas que les dues variables fossin independents. I la forma de calcular l’efectiu esperat es basa en la idea que, si hi ha independència, i el valor d’X no modifica la distribució d’Y, les freqüències condicionades a files coincideixen amb les marginals d’Y. Desenvolupant aquesta igualtat és fàcil aïllar quin hauria de ser el contingut d’una casella i s’obté la relació anterior. Aquesta taula és útil per estudiar directament la independència. Si efectivament hi ha independència, aquesta taula s’hauria d’assemblar molt i molt a la taula d’efectius totals. Minitab ens permet de construir la taula de contingències amb freqüències esperades per ser comparada directament amb la taula de contingències de totals absoluts superposant a cada cel·la el nombre d’observacions existent realment a cada casella i el nombre d’observacions que hauria d’haver-hi en cas d’independència (expected frequency o EXP FREQ). Les cel·les que presenten una major discrepància entre els dos valors són les que més contribueixen a la no independència de les variables i cal tenir-les present. Si a totes les cel·les, el valor observat i el valor esperat d’observacions coincideix raonablement aleshores es verifica, la independència (no relació) entre les dues variables estudiades. De fet, Minitab calcula encara un coeficient, anomenat la distància de Chi-2 (Chi- square, en Minitab) que hem d’interpretar com una distància entre les dues taules. Quan més a prop de 0 estigui aquest coeficient, més s’assemblen les taules, i per tant, més a prop estem de la independència. En cursos posteriors s’explicarà amb detall com es calcula aquest coeficient.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 12
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantEines gràfiques per analitzar la relació entre variables categòriques. Es tracta d’extensions del gràfic univariant diagrama de barres, ja presentat. Tots es construeixen a partir d’opcions del Graph Chart i s’interpreten d’acord amb el tipus de taula que representen. Bàsicament ens permetran visualitzar si existeix o no la independència entre les variables i en cas que no, serà fàcil interpretar el sentit que té la relació entre X i Y. Especialment en el cas que hi hagi alguna variable ordinal haurem de cercar si les seves modalitats marquen alguna tendència en l’altra variable. Vejam les eines gràfiques de que disposem:• Diagrama de barres apilades: Consisteix a construir un diagrama de barres per X i distingir, dins de cada barra amb diferents colors o trames, quin efectiu correspon a cada modalitat d’Y. Dins el Chart cal posar en X una de les variables (normalment d’explicativa). Seleccionar Display: Bar For Each: Group Grouping Variable: l’altre variable). Prémer el botó Options i activar el flag Stack, tot indicant que la variable que s’usa per apilar les barres és la mateixa que la que defineix els grups. Aquest diagrama permet representar la taula d’efectius absoluts.• Diagrama de barres adosades: És una evolució de l’anterior, consistent a deixar caure, un al costat de l’altre, cada tram d’una barra d’X. Així, l’efecte final és que, sobre cada modalitat d’X es representa un grupet de barres adosades, que representen les modalitats d’Y. Dins d’Options, desactivar el flag de Stack, activar el de Cluster i posar-hi la variable de grup.• Diagrama de barres segmentades: Aquest representa la taula de freqüències condicionades a files o columnes, segons quina variable posem en l’eix d’abcisses. Per fer-lo en Minitab hem de començar com si realitzéssim un diagrama de barres apilades. A més, però, en la finestra d’options cal activar també el flag de Total Y to 100% within each X category.Dependència/independència entre variables categòriquesJa hem dit que en els valors de la taula creuada (especialment en els de les taules condicionadesper files o per columnes) es veu, en cas d’independència entre les dues variables, totes les filesamb valors idèntiques (en un cas perfecte) i iguals a la distribució marginal. Si no són les taulescondicionades es veu proporcionalitat. Això mateix s’observa en les distribucions de les barresen els gràfics.En cas de dependència entre les dues variables, quan més lluny estem de la igualtat o laproporcionalitat en la taula o gràficament, més important és l’efecte d’una variable sobre l’altramostrant la seva dependència.Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 13
  • Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariantC. Relacions entre dues variables categòriques: les variables SO, WinNoWin iAnyAnalitzem gràficament i amb una taula creuada la relació entre la parella de variables Any iWinNoWin i observeu-ne la relació de dependència/independència de les variables NoWin Win ALL000102030405ALLI analitzem la relació entre la parella de variables Any i SO observant-ne també la relació dedependència/independència de les variables HP-UX Linux Otros SOLARIS Unix W2000 W2003 XP ALL000102030405ALLDeartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 14
  • Laboratoris d’Estadística FIB P09 Qüestionari:bivariantNOMS:Qüestionari de Descriptiva bivariant1.- A partir de les taules de Resultat amb SO i WinNoWin comenteu si tenen millors resultats elscasos Win o els NoWin2.- A partir de la taula de Resultat i Any comenteu els resultats al llarg dels anys3.- Què indica el signe i la magnitud del “coeficient de correlació”?Departament d’Estadística i Investigació Operativa UPC pàg. 1
  • Laboratoris d’Estadística FIB P09 Qüestionari:bivariant4.- Comenteu les diferències gràfiques i del coeficient de correlació de la relació Resultat-MHz enels casos Win i en els NoWin5.- Com es pot veure intuïtivament, en un gràfic i en la taula creuada, la dependència oindependència de dues variables categòriques? (comenteu-ho en general o en els casos estudiats al’exercici C)Departament d’Estadística i Investigació Operativa UPC pàg. 2
  • Laboratoris d’Estadística FIB T09 Guió S5: problemes deVASessió 5. Variable Aleatòria: VAD i VACDependència i independència amb VA Y=y1 Y=y2 ... X=x1 P(X=x1 ∩ Y=y1) P(X=x1 ∩ Y=y2) P(X=x1) X=x2 P(X=x2 ∩ Y=y1) P(X=x2 ∩ Y=y2 P(X=x2) ... P(Y=y1) P(Y=y2)Si ∀i ∀j P(X = xi ∩ Y = yj ) = P(X = xi) P(Y = yj) llavors X i Y són independentsProblema A. El paquet de tres bits (continuació)Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea decomunicació (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüènciessón equiprobables. Es defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3bits i la variable Y és el número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y∈ {0,1,2}. A partir de la taula de la funció de probabilitat conjunta, indiqueu: - ¿Són X i Y independents? Raoneu la resposta. - Calculeu les esperances condicionales de X en funció dels valors de Y. Compareu amb l’esperança de X - Calculeu Cov(X,Y) (es pot usar l’expressió Cov(X,Y) = E(X*Y)-E(X)·E(Y)) i el coeficient de correlació lineal ρX,Y.Indicació per a la solució: X=0 X=1 X=2 X=3Y=0 ... ... ... ... 1.00Y=1 ... ... ... ... 1.00Y=2 ... ... ... ... 1.00E(X|Y=0) = ...E(X|Y=1) = ...E(X|Y=2) = ...Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 1
  • Laboratoris d’Estadística FIB T09 Guió S5: problemes deVAFuncions de distribució directes i inverses en models de probabilitatEls següents problemes corresponen a situacions on s’hi escauen determinats models deprobabilitat. Per fer càlculs amb probabilitats acumulades tenim dues opcions: - a les taules estadístiques podem trobar valors de les seves funcions de distribució. - en Minitab, per a tota una sèrie de models, es pot calcular: o la funció de distribució (probabilitat de valors iguals o inferiors al donat): donat x calcular prob tq, prob = FX ( x ) = P( X ≤ x ) amb la comanda CDF (cumulated distribution function), al menú Calc Probability Distributions ... o la funció de distribució inversa donat prob calcular x tq, x = FX−1 ( prob) ( P ( X ≤ x ) = prob ) amb la comanda INVCDF (invers distribution function), al menú Calc Probability Distributions ... p p Problema 1: Problema 2: donat x, donat p, obtenir p obtenir x x xCalc -> Probability Distributions -> ... Calc -> Probability Distributions -> ... • Cumulative probability • Inverse cumulative probabilityDepartament d’Estadística i Investigació Operativa UPC Guió S5 pàg 2
  • Laboratoris d’Estadística FIB T09 Guió S5: problemes deVAProblema B. Caigudes d’un servidor (primera part)Les caigudes d’un servidor en un centre de càlcul segueixen una distribució de Poisson ambparàmetre λ=2 setmana-1 . Calculeu la probabilitat de: 1. Que no es produeixi cap avaria en una setmana. 2. Menys de 5 avaries en una setmana. 3. Menys de 6 avaries en un mes (4 setmanes)Si considerem 10 centres de càlcul amb les característiques anteriors, quina és la probabilitat deque hi hagi 8 centres amb menys de 5 avaries en una setmana?Indicació per a la solució:Definir les següents variablesX=”nombre de caigudes (avaries) en una setmana” X ~ ...Y=”nombre d’avaries en un mes” = X+X+X+X Y ~ ...Q=”nombre de centres amb menys de 5 avaries en una setmana” Q ~ ...R=” nombre de centres amb 5 o més avaries en una setmana” R ~ ...Problema C. La distribució de la velocitat de transferir fitxers (primera part)Baixar un mapa digitalitzat de Catalunya amb la previsió meteorològica d’un determinat servidor enInternet al disc dur del vostre ordinador tarda cert temps que podem considerar com una variable aleatòriaX amb distribució exponencial amb una esperança de 10 segons.¿Quina és la probabilitat de que una sola transferència del mapa trigui més de 12 segons?Indicació per a la solució:X=“temps baixar mapa” X ~ Exp(λ= ... ) E(X) = ... P ( X <= k ) = FX (k ) = 1 − e − λ ·kDepartament d’Estadística i Investigació Operativa UPC Guió S5 pàg 3
  • Laboratoris d’Estadística FIB T09 Guió S5: problemes deVAProblema D. La distribució del resultat d’un “benchmark”Suposem que el resultat obtingut per un ordinador de determinada marca i determinada configuració enuna prova “benchmark” segueix una distribució normal amb mitjana 30 i desviació típica 7.1. ¿Quina és la probabilitat d’obtenir un resultat superior a 30?2. ¿Quina és la probabilitat d’obtenir un resultat inferior a 23?3. ¿Quina és la probabilitat d’obtenir un resultat entre 16 i 44?4. ¿Quina és la probabilitat d’obtenir un resultat entre 20 i 35? Calcular el resultat amb 4 decimals usant les taules de la distribució normal, i també amb més exactitut (6 decimals) amb Minitab.Indicació per a la solució:X=“resultat en prova benchmark” X ~ N ( µ = ... , σ = ... ) E(X) = ... V(X) = ...Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 4
  • Laboratoris d’Estadística FIB T09 Guió S6: VAC i TCLSessió 6. VAC i TCL (Teorema Central del Límit)Aproximació de les distribucions Binomial, Poisson i Normal n p Bin(n,p) Poisson( λ) n λ Normal(µ,σ)Accedint a http://www.wikipedia.org/ a “Normal distribution”:The normal distribution has the very important property that under certain conditions, the distribution of asum of a large number of independent variables is approximately normal. This is the central limittheorem.The practical importance of the central limit theorem is that the normal distribution can be used as anapproximation to some other distributions. • A binomial distribution with parameters n and p is approximately normal for large n and p not too close to 1 or 0 (some books recommend using this approximation only if np and n(1 − p) are both at least 5; in this case, a continuity correction should be applied).The approximating normal distribution has mean µ = np and variance σ2 = np(1 − p). • A Poisson distribution with parameter λ is approximately normal for large λ.The approximating normal distribution has mean µ = λ and variance σ2 = λ.Departament d’Estadística i Investigació Operativa UPC Guió S6 pàg. 1
  • Laboratoris d’Estadística FIB T09 Guió S6: VAC i TCLTeorema Central del Límit:X1, X2, …, Xn i.i.d. (n→∞), amb E(Xi ) = µ i V(Xi ) = σ2 ∑ n Xillavors i =1 = X n ≈ N ( µ , σ 2 / n) n ∑ ni també i =1 X i ≈ N ( nµ , σ 2 n )(si la distribució centrada en µ i de desviació σ no és normal, el Teorema Central del Límitestableix que la distribució de la variable mitjana i de la variable suma continua tenint unadistribució que tendeix a una normal quan la grandària n tendeix a infinit)Departament d’Estadística i Investigació Operativa UPC Guió S6 pàg. 2
  • Laboratoris d’Estadística FIB T09 Guió S6: VAC i TCLProblema A. Caigudes d’un servidor (continuació)Les caigudes d’un servidor en un centre de càlcul segueixen una distribució de Poisson ambparàmetre λ=2 setmana-1 . En una sessió anterior havíem considerat 10 centres de càlcul icalculat la probabilitat de que hi hagués 8 centres amb menys de 5 avaries en una setmana.Ara considereu 500 centres de càlcul i calculeu la probabilitat que hi hagi entre 10 i 20 centresamb menys de 3 avaries per mesIndicació per a la solució:X=”nombre de caigudes (avaries) en una setmana”Y=”nombre d’avaries en un mes” = X+X+X+XQ=”nombre de centres, entre 500, amb menys de 3 avaries per mes ” Q ~ ...Problema B. La pàgina webEl control de qualitat del temps de resposta d’una determinada pàgina web ha comprovat que laprobabilitat que el servei al llarg d’un dia hagi estat inadequat és d’un 5%. Calculeu:- considerant una setmana (7 dies), la probabilitat que hi hagi entre 3 i 5 dies un servei inadequat- considerant un mes (30 dies), la probabilitat que hi hagi més de 5 dies un servei inadequat- i si consideréssim 5 anys (1825 dies), la probabilitat que hi hagi menys de 90 dies un serveiinadequatIndicació per a la solució:Xdia=“nombre de dies en 1 setmana amb servei inadequat” Xdia ~Xmes=“nombre de dies en 1 mes amb servei inadequat “ Xmes ~ ...X5anys=“nombre de dies en 5 anys amb servei inadequat” X5anys ~ ...Departament d’Estadística i Investigació Operativa UPC Guió S6 pàg. 3
  • Laboratoris d’Estadística FIB T09 Guió S6: VAC i TCLProblema C. La distribució de la velocitat de transferir fitxers (continuació)Baixar un mapa digitalitzat de Catalunya amb la previsió meteorològica d’un determinat servidor enInternet al disc dur del vostre ordinador tarda cert temps que podem considerar com una variable aleatòriaX amb distribució exponencial amb una esperança de 10 segons.Considerarem ara 50 transferències. Suposarem independència entre les transferències i es pot usar elteorema central del límit.Quina és la distribució de la variable suma dels temps de les 50 transferències?Quina és la distribució de la variable promig dels temps de les 50 transferències?Quina és la probabilitat de que el promig de 50 transferències superi els 12 segons?Indicació per a la solució:X=“temps baixar mapa”, X ~ Exp(λ=1/10), per tant E(X)=10 i V(X) = 1/λ2 = 100.S = (X1 + X2 + ... + X50), E(S) = ... i V(S) = ... S ~ ...Y = 1/50 (X1 + X2 + ... + X50), E(Y) = ... i V(Y) = ... Y ~ ...Problema D. Resolució de problema en l’entorn e-statusDepartament d’Estadística i Investigació Operativa UPC Guió S6 pàg. 4