Aula7

11,039 views
10,854 views

Published on

Aula 7 do curso "Fontes de Informação em Ciência e Tecnologia", Labjor/Unicamp. Divulgação Científica, Marcelo Knobel.

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
11,039
On SlideShare
0
From Embeds
0
Number of Embeds
49
Actions
Shares
0
Downloads
138
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Aula7

  1. 1. Fontes de Informação em Ciência e Tecnologia Prof. Dr. Marcelo Knobel IFGW – UNICAMP Curso de Especialização em Jornalismo Científico – Labjor/NUDECRI/UNICAMP
  2. 2. Aula parcialmente baseada em: Introdução à Análise Estatística de Dados Biomédicos Dr. Mário B. Wagner, PhD Dra. Sidia M. Callegari-Jacques, PhD Introdução à Análise Estatística
  3. 3. Bioestatística Estatística : Ramo do conhecimento que tem por objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação de dados, visando a realização de inferências indutivas a partir dos dados. Bioestatística : Aplicação da Estatística nas ciências biológicas e da saúde.
  4. 4. Estatística <ul><li>Lema </li></ul><ul><li>“ In God we trust. </li></ul><ul><li>All others must bring data.” </li></ul>
  5. 5. Desafios <ul><li>Idéias estatísticas podem ser difíceis e intimidantes. </li></ul><ul><li>Portanto: </li></ul><ul><ul><li>Resultados estatísticos são geralmente “pulados” ao ler a literatura científica. </li></ul></ul><ul><ul><li>Dados em geral são mal interpretados. </li></ul></ul>
  6. 6. Interpretação errônea de dados <ul><li>“ Celebrar aniversários é saudável. A estatística mostra que aqueles que celebram mais ainversários vivem mais.” </li></ul><ul><li>“ Na média, minha turma está indo bem. Metade dos estudantes acham que 2+2=3, e a outra metade pensa que 2+2=5.” </li></ul>
  7. 7. <ul><li>Artigos científicos: muitos termos específicos do domínio da Epidemiologia e da Bioestatística. </li></ul><ul><li>Compreensão adequada: familiaridade com os princípios e técnicas da Epidemiologia e da Bioestatística. </li></ul>O papel da Bioestatística
  8. 8. Bioestatística: princípios fundamentais <ul><li>Resumir a informação (ex. média, %) </li></ul><ul><li>Resumir as relações (ex. Tamanho do Efeito Padronizado, RR) </li></ul><ul><li>Estimar a magnitude das relações </li></ul>
  9. 9. Entidades (Objetos de Estudo) <ul><li>O paciente </li></ul><ul><li>O dia </li></ul><ul><li>A palestra </li></ul>Pode-se chamar de “entidades” os objetos do estudo, isto é, todas as coisas que nos cercam, incluindo as animadas (indivíduos) ou inanimadas (coisas). São também conhecidas como unidades de observação ou de experimentação . Exemplos:
  10. 10. Propriedades (Variáveis) São as características apresentadas pelas entidades (coisas, indivíduos, fatos). As características podem variar entre as entidades e dentro de uma mesma entidade (ex. de um momento para o outro). Por isso, são também conhecidas como variáveis . O resultado da mensuração de uma variável é conhecido como dado .
  11. 11. Relações <ul><li>Epidemiologia e Bioestatística: estudam relações entre as variáveis . </li></ul><ul><li>Por ex. relação entre fumo e câncer, entre idade e pressão arterial. </li></ul><ul><li>Neste tipo de estudo, se busca: </li></ul><ul><li>1. Verificar se há ou não relação </li></ul><ul><li>2. Se houver, medir o grau de associação entre as variáveis (ou o tamanho do efeito) </li></ul>
  12. 12. Conceitos básicos <ul><li>Variáveis e seus níveis de medida </li></ul><ul><li>População e Amostra </li></ul><ul><li>Parâmetros e Estimativas </li></ul>
  13. 13. Variáveis e seus níveis de medida <ul><li>Qualitativas ou categóricas </li></ul><ul><li>- Nominal (grupo sangüíneo, gênero) </li></ul><ul><li>- Ordinal (grau de dor, escores) </li></ul><ul><li>Quantitativas </li></ul><ul><li>- De intervalo (zero arbitrário: temperatura) </li></ul><ul><li>- De razão (zero absoluto: comprimento) </li></ul>
  14. 14. Variáveis: outras classificações <ul><li>Qualitativas ou categóricas </li></ul><ul><li>- Dicotômicas ou binárias (sim/não) </li></ul><ul><li>- Politômicas (leve, moderado, severo) </li></ul><ul><li>Quantitativas </li></ul><ul><li>- Discretas (número de filhos) </li></ul><ul><li>- Contínuas (colesterol total) </li></ul>
  15. 15. Vantagens da variável quantitativa <ul><li>Nível de informação é superior </li></ul><ul><li>Pode ser transformada em qualquer outro tipo de variável, inclusive categórica </li></ul><ul><li>Aceita transformações matemáticas (log, raiz quadrada, inversão, etc.) </li></ul><ul><li>Em geral, tamanhos amostrais menores </li></ul>
  16. 16. População e Amostra <ul><li>População </li></ul><ul><li>Conceito estatístico diferente do geográfico </li></ul><ul><li>Todos os indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura inferência. </li></ul><ul><li>- O número de características define a população. </li></ul><ul><li>Ex. estudantes de Bioestatística. </li></ul><ul><li>Amostra </li></ul><ul><li>Toda fração (independente de tamanho) obtida de uma população </li></ul><ul><li>- Ideal: amostra aleatória </li></ul>
  17. 17. População e Amostra n 2 n 3 n 1 n 4 N
  18. 18. Parâmetro e Estatística Parâmetro: valor que resume, em uma população, a informação relativa a uma variável. Ex: média, porcentagem Estatística: quantidade que descreve a informação estatística obtida em um conjunto de dados amostrais. Ex: média, porcentagem calculadas em uma amostra As estatísticas estimam os parâmetros.
  19. 19. População e Amostra Média (  ) = ? Inferência X
  20. 20. Amostras <ul><li>Amostras são aleatórias </li></ul><ul><ul><li>Se tivessemos escolhido uma amostra diferente, obteríamos uma estatística diferente. Apesar de que tentamos estimar os mesmos (imutáveis) parâmetros populacionais. </li></ul></ul>
  21. 21. Duas variáveis importantes em relações de causa e efeito <ul><li>Desfecho : Característica que se supõe ser o resultado do efeito de um fator. </li></ul><ul><li>Sinônimo: variável dependente. </li></ul><ul><li>Ex: câncer de pulmão </li></ul><ul><li>Exposição : O fator que precede o desfecho. Suposta causa do desfecho. </li></ul><ul><li>Sinônimos: fator em estudo, variável independente, variável preditora. </li></ul><ul><li>Ex: fumo </li></ul>
  22. 22. Descrição das variáveis <ul><li>Distribuição de freqüências </li></ul><ul><li>- Tabelas </li></ul><ul><li>- Gráficos </li></ul><ul><li>Medidas-resumo ou medidas descritivas </li></ul><ul><li>- de tendência central: média, mediana e moda - de dispersão ou variabilidade: amplitude, variância/desvio padrão, </li></ul><ul><li>distância entre quartis - de freqüência: prevalência, incidência </li></ul>
  23. 23. Distribuição de freqüências <ul><li>Distribuição de freqüências: conjunto formado pelos vários valores e pelas respectivas freqüências (n o . de vezes que cada um ocorre). </li></ul><ul><li>São de dois tipos: </li></ul><ul><li>- Tabelas: descrevem os dados com detalhe </li></ul><ul><li>- Gráficos: úteis para identificar valores </li></ul><ul><li>extremos e a forma da distribuição </li></ul>
  24. 24. Níveis de albumina sérica (g/100ml) em 25 pacientes <ul><li>Albumina </li></ul><ul><li>(x) Contagem f fr F Fr </li></ul><ul><li>4,5 / 1 0,04 1 0,04 </li></ul><ul><li>4,6 0 0,00 1 0,04 </li></ul><ul><li>4,7 // 2 0,08 3 0,12 </li></ul><ul><li>4,8 / 1 0,04 4 0,16 </li></ul><ul><li>4,9 /// 3 0,12 7 0,28 </li></ul><ul><li>5,0 //// 5 0,20 12 0,48 </li></ul><ul><li>5,1 //// 5 0,20 17 0,68 </li></ul><ul><li>5,2 // 2 0,08 19 0,76 </li></ul><ul><li>5,3 /// 3 0,12 22 0,88 </li></ul><ul><li>5,4 // 2 0,08 24 0,96 </li></ul><ul><li>5,5 / 1 0,04 25 1,00 </li></ul><ul><li> ou soma 25 1,00 - - </li></ul>
  25. 25. Quando os dados variam muito: Pressão arterial sistólica em 96 recém-nascidos ( primeiras 24 horas de vida)
  26. 26. Distribuição de freqüências: histograma Peso em 2470 mulheres adultas
  27. 27. Características da distribuição de freqüências <ul><li>Uma distribuição de freqüências é muitas vezes descrita apenas por: tendência central dispersão (variação) </li></ul><ul><li>A forma da distribuição determina </li></ul><ul><li>- o tipo de medida descritiva mais adequada </li></ul><ul><li>- a técnica estatística correta para as inferências </li></ul>
  28. 28. Medidas de tendência central <ul><li>Média : Centro de gravidade da distribuição. </li></ul><ul><li>- Mais utilizada; possui maior poder estatístico </li></ul><ul><li>- Indicada em distribuições simétricas . </li></ul><ul><li>- Afetada por valores extremos; dá visão distorcida em distribuições assimétricas. </li></ul>média DP Distribuição de freqüências com nuvem de dispersão de pontos. altura nº de indivíduos dispersão de pontos com n=200
  29. 29. <ul><li>Mediana (md) : Valor que ocupa a posição central de uma série ordenada. </li></ul><ul><li>- 50% dos valores estão abaixo e 50% acima da mediana </li></ul><ul><li>- Não é afetada por valores extremos </li></ul><ul><li>- Preferida em distribuições assimétricas . </li></ul>Medidas de tendência central Distribuição de freqüências com assimetria positiva nº de indivíduos prega tricipital quartil inferior (Percentil 25) mediana (Percentil 50) quartil superior (Percentil 75)
  30. 30. <ul><li>Moda (mo) : Valor de X mais freqüente. </li></ul><ul><li>- Facilmente identificada em um gráfico de freqüências </li></ul><ul><li>- Pode haver mais de uma moda (mais de uma população?) </li></ul>Medidas de tendência central Peso em 256 universitárias Estatura em 213 estudantes (ambos os sexos) da UFRGS
  31. 31. Medidas de tendência central e distribuições de freqüências Distribuição Simétrica Média, mediana e moda Distribuição com Assimetria Negativa moda mediana média Distribuição com Assimetria à Direita média mediana moda
  32. 32. O conceito de incerteza <ul><li>Afeta todas as medidas </li></ul><ul><li>Quando os cientistas mencionam “erros” associados com uma medida, eles estão querendo dizer incertezas . </li></ul><ul><li>Por exemplo: </li></ul><ul><ul><li>Que horas são? </li></ul></ul>
  33. 33. Incerteza sistemática vs. aleatória <ul><li>Por que não há uma única resposta às horas? </li></ul><ul><li>Nem todos os relógios estão igualmente ajustados </li></ul><ul><ul><li>Calibração (tanto no ajuste inicial, quanto no funcionamento) </li></ul></ul><ul><li>Pessoas diferentes podem dizer tempos diferentes no mesmo relógio </li></ul><ul><ul><li>Erros de medição </li></ul></ul><ul><li>E se alguém esqueceu de ajustar o horário de verão? </li></ul><ul><ul><li>Erro sistemático </li></ul></ul>
  34. 34. Incerteza sistemática vs. aleatória <ul><li>Pode-se estimar a incerteza aleatória com múltiplas medidas, e olhando a distribuição dos resultados </li></ul><ul><li>Erros sistemáticos (viés) são mais difíceis de identificar – necessidade de ser estimados baseados em outras informações. </li></ul><ul><li>Por exemplo, exagerando a fonte do efeito, se possível </li></ul><ul><ul><ul><li>Você acha que é um efeito de temperatura? Aumente-a muito! </li></ul></ul></ul>
  35. 35. Medidas de Dispersão <ul><li>Amplitude (a) </li></ul><ul><li>Variância (s 2 ) </li></ul><ul><li>Desvio padrão (s; DP) </li></ul><ul><li>Amplitude ou Desvio entre quartis </li></ul><ul><li>Amplitude : Valor máximo - valor mínimo </li></ul><ul><li>Simples mas pouco informativa (apenas dois valores). É muito sensível a valores extremos. </li></ul><ul><li>Ex: 1; 1; 2; 3; 6 a = 6 - 1 = 5. </li></ul>
  36. 36. Medidas de Dispersão <ul><li>Variância : Média dos desvios quadrados em relação à média (todos os valores). </li></ul><ul><li>A unidade é expressa ao quadrado </li></ul>É comum utilizar-se o desvio padrão (DP) , que é a raiz quadrada positiva da variância (volta à unidade original).
  37. 37. <ul><li>Desvio padrão (DP ou s) : Representa o padrão de oscilações dos valores da série em relação à média. </li></ul><ul><li>- Fundamental na inferência estatística </li></ul><ul><li>- Freqüentemente usado em conjunto com a média, na forma média  DP ( atenção: explicitar !) </li></ul>
  38. 38. Desvio Padrão Representação gráfica do desvio padrão: 1. na nuvem de dispersão de valores de x; 2. em uma distribuição de freqüências gaussiana (média  DP reúne ~2/3 dos valores centrais) altura nº de indivíduos dispersão de pontos com n=200 média DP
  39. 39. Erro aleatório em pesquisas <ul><li>Assumindo que uma amostra representativa foi escolhida: </li></ul><ul><ul><li>pesquise N pessoas, obtenha uma incerteza de  N. Exemplo: </li></ul></ul><ul><li>A incerteza depende apenas do tamanho da amostra e NÃO no tamanho da população. </li></ul>0.316% 316 100,000 1% 100 10,000 3.1% 31 1,000 10% 10 100 30% 3 10 Erro Percent. Erro Número
  40. 40. Média e desvio padrão em uma amostra pequena
  41. 41. Exercício: média e DP em amostras pequenas Dados de ácido úrico (mg/ml) Homens Mulheres x x 3 2 4 4 8 5  
  42. 42. Nível de ácido úrico: homens
  43. 43. Nível de ácido úrico: mulheres
  44. 44. Distribuição Normal <ul><li>“ Desvio Padrão” caracteriza o espalhamento nos valores. </li></ul><ul><li>~2/3 (68.3%) dos valores estão nesse intervalo (1  ) </li></ul><ul><li>95.4% dos valores estão em 2 desvios padrão (2  ) </li></ul><ul><li>99.7% dos valores estão em 3 desvios padrão (3  ) </li></ul>68.3 % of area 95.4 % of area 99.7 % of area
  45. 45. Quartis <ul><li>- Quartis: valores de X que dividem uma série ordenada em 4 grupos de igual tamanho. Ex. Q 1 separa 25% valores menores </li></ul><ul><li>- Percentis: dividem a série em 100 partes iguais. Q 1 = P 25 </li></ul><ul><li>Amplitude entre quartis : </li></ul><ul><li>Q 3 – Q 1 = P 75 – P 25 (reúne 50% da amostra) </li></ul><ul><li>Usada com a mediana em séries assimétricas. </li></ul>nº de indivíduos prega tricipital quartil inferior (Percentil 25) mediana (Percentil 50) quartil superior (Percentil 75)
  46. 46. Escolhendo a medida descritiva <ul><li>Nominal : usar freqüências e proporções. </li></ul><ul><li>Ordinal : freqüências e proporções ou mediana e amplitude interquartil. </li></ul><ul><li>Intervalar/razão : depende da distribuição de freqüências D. simétrica : média e desvio padrão D. assimétrica : mediana e amplitude interquartil (às vezes, intervalo de variação dos valores). </li></ul>Tipo de variável
  47. 47. Apresentação de resultados <ul><li>Tabela descritiva </li></ul><ul><li>Gráficos para var. quantitativas: </li></ul><ul><li>- Histograma </li></ul><ul><li>- Gráfico de média e barra de erro </li></ul><ul><li>- Box plot </li></ul><ul><li>- Gráficos de linha </li></ul><ul><li>- Gráfico dispersão de pontos </li></ul><ul><li>Gráficos para var. categóricas : </li></ul><ul><li>- Gráfico de setores </li></ul><ul><li>- Gráfico de colunas </li></ul>
  48. 48. Var. Quantitativas: gráfico de média e barra de erro <ul><li>Variável quantitativa em dois ou mais grupos. </li></ul><ul><li>Usar, sempre que possível, média  DP. </li></ul><ul><li>Dar preferência à apresentação da direita. </li></ul>HDL HDL Grupo 1 Grupo 2 Grupo 1 Grupo 2
  49. 49. Var. quantitativas: Box plot <ul><li>Variável quantitativa em dois ou mais grupos, principalmente para variáveis assimétricas. </li></ul><ul><li>Representa mediana, amplitude interquartil, mínimo e máximo. </li></ul>Gr1 Gr2 Gr3 Variável
  50. 50. Var. quantitativas: gráfico de linha <ul><li>Variável quantitativa ao longo do tempo. </li></ul><ul><li>Usar, sempre que possível, média  DP. </li></ul><ul><li>Só a média: não representa variações grandes entre indivíduos. </li></ul>tempo tempo
  51. 51. Var. quantitativas: gráfico de dispersão de pontos <ul><li>Duas variáveis quantitativas </li></ul><ul><li>Objetivo: observar que tipo de relação possuem entre si </li></ul>Variável X Variável Y
  52. 52. Variáveis qualitativas <ul><li>Usados para dados categóricos. </li></ul><ul><li>Evitar uso em variáveis dicotômicas. </li></ul><ul><li>Gráfico de pizza: raro em publicações científicas. </li></ul><ul><li>Gráfico de colunas: não é histograma. </li></ul>Gráfico de setores (pizza ou torta ) Gráfico de colunas A B C %
  53. 53. Resumo <ul><li>Epidemiologia e Bioestatística auxiliam a compreender a literatura científica nas áreas das ciências biológicas e da saúde. </li></ul><ul><li>Estudando entidades (indivíduos) e suas respectivas propriedades (variáveis), o objetivo é inicialmente a descrição dos dados para chegar às relações entre as variáveis e à estimativa da magnitude destas relações . </li></ul>
  54. 54. <ul><li>Variável é uma característica mensurável que pode apresentar valores diferentes nos sujeitos do estudo. </li></ul><ul><li>As variáveis são classificada de acordo com seu nível de mensuração em qualitativas (nominal e ordinal) e quantitativas (intervalar/razão). </li></ul><ul><li>Em Epidemiologia, é importante distinguir entre variável preditora (exposição) e desfecho . </li></ul>
  55. 55. <ul><li>As medidas descritivas clássicas usadas em Bioestatística são: média e desvio padrão mediana e amplitude interquartil </li></ul><ul><li>Apresentações gráficas são importantes, mas devem ser usadas com moderação e seguindo suas indicações específicas. </li></ul><ul><li>Em artigos científicos, a preferência deve ser dada às medidas descritivas. </li></ul>
  56. 57. Desafios <ul><li>Much of life is composed of a systematic component (i.e., signal) and a random component (i.e., error or noise). </li></ul><ul><li>Example: </li></ul><ul><ul><li>Smoking is associated with lung cancer. </li></ul></ul><ul><ul><li>Yet not everyone that smokes, gets lung cancer, and not everyone that gets lung cancer smokes. </li></ul></ul><ul><ul><li>Yet we know that there is an association (a systematic component) </li></ul></ul><ul><li>Our challenge is to identify the systematic component (separate it from the random component), estimate it, and perhaps make inferences with it. </li></ul>
  57. 58. Populações e Parâmetros <ul><li>Population – a group of individuals that we would like to know something about </li></ul><ul><li>Parameter - a characteristic of the population in which we have a particular interest </li></ul><ul><ul><li>Often denoted with Greek letters (  ,  ,  ) </li></ul></ul><ul><ul><li>Examples: </li></ul></ul><ul><ul><ul><li>The proportion of the population that would respond to a certain drug </li></ul></ul></ul><ul><ul><ul><li>The association between a risk factor and a disease in this population </li></ul></ul></ul>
  58. 59. Amostras e Estatísticas <ul><li>Sample – a subset of a population (hopefully representative) </li></ul><ul><li>Statistic – a characteristic of the sample </li></ul><ul><ul><li>Example: </li></ul></ul><ul><ul><ul><li>The observed proportion of the sample that responds to treatment </li></ul></ul></ul><ul><ul><ul><li>The observed association between a risk factor and a disease in this sample </li></ul></ul></ul>
  59. 60. Populações e Amostras <ul><li>Studying populations is too expensive and time-consuming, and thus impractical </li></ul><ul><li>If a sample is representative of the population, then by observing the sample we can learn something about the population </li></ul><ul><ul><li>And thus by looking at the characteristics of the sample (statistics), we may learn something about the characteristics of the population (parameters). </li></ul></ul>
  60. 61. Dados Nominais <ul><li>Mutually exclusive unordered categories </li></ul><ul><li>Examples </li></ul><ul><ul><li>Sex (male, female) </li></ul></ul><ul><ul><li>Race (white, black, latino, asian, native american) </li></ul></ul><ul><li>Can summarize in: </li></ul><ul><ul><li>Tables – using counts and percentages </li></ul></ul><ul><ul><li>Bar Chart </li></ul></ul>
  61. 62. Dados Ordinais <ul><li>Ordered Categories </li></ul><ul><li>Examples </li></ul><ul><ul><li>Injury – mild, moderate, severe </li></ul></ul><ul><ul><li>Income – low, medium, high </li></ul></ul>
  62. 63. Dados Discretos <ul><li>If many different discrete values, then discrete data is often treated as continuous. </li></ul><ul><li>If very few discrete values, then discrete data is often treated as ordinal </li></ul>
  63. 64. Dados Contínuos <ul><li>Any value on the continuum is possible (even fractions or decimals) </li></ul><ul><li>Examples: </li></ul><ul><ul><li>Height </li></ul></ul><ul><ul><li>Weight </li></ul></ul><ul><li>Many “discrete” variables are often treated as continuous </li></ul>
  64. 65. Dados de sobrevivência <ul><li>Time to an event (continuous variable) </li></ul><ul><ul><li>The event does not have to be survival </li></ul></ul><ul><li>Concept of “Censoring” </li></ul><ul><ul><li>If we follow a person until the event, then the survival time is clear. </li></ul></ul><ul><ul><li>If we follow someone for a length of time but the event does not occur, the the time is censored (but we still have partial information; namely that the event did not occur during the follow up period). </li></ul></ul>
  65. 66. Quantitative Measurements <ul><li>Science proceeds by making quantitative measurements (i.e. ones whose results are expressed in numerical terms). </li></ul><ul><li>Examples we’ve discussed include </li></ul><ul><ul><li>Deflection of starlight by the sun (General Relativity) </li></ul></ul><ul><ul><li>Tests of the Universality of Free Fall at the University of Washing </li></ul></ul><ul><ul><li>Lunar Laser Ranging: measuring lunar orbit (my deal) </li></ul></ul><ul><li>At the discovery phase, a single observation or measurement can show us something new about the world. </li></ul><ul><ul><li>just seeing unexpected event can reveal new science </li></ul></ul><ul><li>Otherwise, progress is made by comparisons between data sets, and between data and theories. </li></ul>
  66. 67. How Do We Actually Make Comparisons? <ul><li>Comparisons between data sets: </li></ul><ul><ul><li>Are two measurements consistent with each other? </li></ul></ul><ul><li>Comparisons between data and theories/models: </li></ul><ul><ul><li>Do the data agree with the theoretical structure? </li></ul></ul><ul><li>Even comparisons between theoretical predictions: </li></ul><ul><ul><li>Are these two ideas in conflict with each other? </li></ul></ul><ul><li>How do we compare? </li></ul><ul><ul><li>With statistics! </li></ul></ul>
  67. 68. Basic Statistics <ul><li>We use statistics to summarize multiple data points into a handful of numbers that are simpler to digest </li></ul><ul><ul><li>Average (mean) </li></ul></ul><ul><ul><li>Median </li></ul></ul><ul><ul><li>Mode </li></ul></ul><ul><ul><li>Standard Deviation </li></ul></ul><ul><ul><li>Etc. </li></ul></ul><ul><li>The task is to compare quantities and ascertain whether they have a significant difference or not. </li></ul><ul><li>“Significant” relative to what? </li></ul>
  68. 69. Multiple Measurements “Beat Down” Error <ul><li>We’ll measure the acceleration due to gravity </li></ul><ul><li>I’ll toss a ball in the air, you’ll use your stopwatches to time the fall </li></ul><ul><li>START your watch at apex of flight </li></ul><ul><li>STOP on impact with the ground </li></ul><ul><li>Spotters will mark highest position against wall </li></ul><ul><li>x = ½ gt 2  g = 2 x / t 2 </li></ul>
  69. 70. Samples vs Entire Population <ul><li>Political polls try to gauge the nature of the entire population by extracting a subset (sample) and conducting an experiment on that. </li></ul><ul><li>If the subset is a representative sample, then the characteristics of the sample should reflect the characteristics of the full population. </li></ul><ul><li>This method is applied all the time: </li></ul><ul><ul><li>product quality control </li></ul></ul><ul><ul><li>rate of adverse reactions to a medication </li></ul></ul><ul><ul><li>political polls </li></ul></ul>
  70. 71. The Florida Election Fiasco <ul><li>Alarmingly relevant example of measurement error (systematic and random)! </li></ul><ul><li>If voting machines have 0.1% counting error (and they’re often not that good), what might you expect error to be in a state with 6 million votes? </li></ul><ul><ul><li>1% of 6 million is 60,000  0.1% is 6000 </li></ul></ul><ul><li>Vote count was closer than this (100-200) </li></ul><ul><li>Margin was different with every re-count </li></ul><ul><li>Systematic errors: butterfly ballots, K. Harris </li></ul><ul><li>Too close to call, people </li></ul>
  71. 72. Gaussian (Normal, Or Bell-shaped) Distribution <ul><li>Gaussian distribution is produced in general when measurements aggregate many random (stochastic) events, in a process that is not changing over time (stationary). </li></ul><ul><li>Examples are everywhere </li></ul><ul><ul><li>Distribution of heights of the people in the room </li></ul></ul><ul><ul><li>Answers to our question about time </li></ul></ul><ul><ul><li>IQs, test grades (not always), masses of pennies, etc. </li></ul></ul><ul><li>BUT not all things are simple Gaussians </li></ul><ul><ul><li>Distribution of incomes in US </li></ul></ul><ul><ul><li>Time people take to commute to school each day </li></ul></ul>
  72. 73. Example: Typical American Heights <ul><li>Men: 69 ± 3 inches (standard deviation is 3 inches) </li></ul><ul><ul><li>68% between 5’6” and 6’0” </li></ul></ul><ul><ul><li>95% between 5’3” and 6’3” </li></ul></ul><ul><ul><li>99.7% between 5’0” and 6’6” </li></ul></ul><ul><ul><ul><li>only 1 in 700 men taller than 6’6” </li></ul></ul></ul><ul><li>Women: 65.5 ± 2.5 inches </li></ul><ul><ul><li>68% between 5’2” and 5’7” </li></ul></ul><ul><ul><li>95% between 4’11.5” and 5’9.5” </li></ul></ul><ul><ul><li>99.7% between 4’9” and 6’0” </li></ul></ul>
  73. 74. Limitations of Statistics <ul><li>Nothing is certain </li></ul><ul><ul><li>Most statistical models have “tails,” a finite (but very tiny) probability that almost anything can happen </li></ul></ul><ul><ul><li>E.g., the Gaussian distribution has tails to infinity </li></ul></ul><ul><ul><li>Ergo, predicting events on the tails (whose probability is small) is often not accurate </li></ul></ul><ul><li>It’s easy to misuse statistics </li></ul><ul><ul><li>The government will issue 2.3 car seats to every family, because the average family has 2.3 children </li></ul></ul><ul><ul><li>It’s not always obvious when statistics have been misused (or deliberately abused) </li></ul></ul>
  74. 75. Statistical Comparisons <ul><li>Which of these are significant statements? </li></ul><ul><ul><li>7 of the 10 doctors asked recommend an apple a day </li></ul></ul><ul><ul><li>Choosy mothers choose JIF </li></ul></ul><ul><ul><li>With a margin of polling error of 5%, a poll conducted of all citizens shows that 60% would vote in favor of the initiative. </li></ul></ul><ul><ul><li>The data, with an average value of  =124 and a standard deviation of 10, agree with the theoretical prediction of  =100. </li></ul></ul><ul><ul><li>The two experiments produced consistent results. The first showed an electron mass of 511 keV while the second had 508 keV. Both experiments estimated their 1  uncertainties as 2 keV. </li></ul></ul>
  75. 76. Some Criteria To Evaluate Claims <ul><li>Is the sample representative? </li></ul><ul><li>Are the uncertainties given, as well as the data? </li></ul><ul><li>What possible bias could exist in the result? </li></ul><ul><li>Is the claim consistent with other data? </li></ul><ul><li>Extraordinary claims require extraordinary proof </li></ul>Hard-nosed scientists say you don’t understand your data if you don’t understand your uncertainties.
  76. 77. Comparing data with models/predictions <ul><li>Uncertainties in data points show up as error bars in plots </li></ul>Angular scale of cosmic microwave background fluctuations. Is the theoretical model (solid line) consistent with the data?

×