1. StatPop - Popularização da Estatística
▼
terça-feira, 15 de agosto de 2017
Significância estatística redefinida
Fonte: figura 1 do artigo de Benjamin et al. (2017)
Há algum tempo vimos falando aqui da crise na ciência com respeito a questões
de reprodutibilidade e perda da credibilidade dos testes estatísticos e nos P-valores. Várias críticas foram
explicitadas dentro, e principalmente fora, da comunidade estatística. O que ainda faltava era ir além das
críticas e propor efetivamente algo concreto. O texto abaixo descreve em linguagem simples uma proposta
que acaba de ser sistematizada em um artigo científico, que será em breve publicado. Essa proposta foi
assinada por 72 autores, encabeçabos por Dan Benjamin, e dentre os quais figuram vários estatísticos
proeminentes. Ela recomenda que para declarar significância estatística de resultados de análises o valor
do P-valor deve ser diminuído de 0,05 para 0,005, como já tínhamos antecipado aqui, e é fortemente
calcada em argumentação Bayesiana (como ilustra a figura acima).
Uma defesa da proposta foi dada no texto, originalmente postado aqui, escrito por 6 dos 72 autores do
artigo, e que traduzo abaixo:
Pesquisadores que representam uma ampla gama de disciplinas e perspectivas estatísticas - 72 de nós no
total - publicaram um novo artigo no PsyArXiv descrevendo um senso comum. Argumentamos que a
significância estatística deve ser redefinida. O artigo estará disponível em Nature Human Behavior. Para
reivindicações de descobertas de efeitos novos, o artigo defende uma alteração no limiar de P-valor para
um resultado ser "estatisticamente significativo" de 0,05 a 0,005. Os resultados atualmente chamados de
"significativos" que não atendem ao novo limiar seriam chamados sugestivos e tratados como ambíguos
quanto ao efeito. A idéia de mudar o limiar de significância estatística para 0,005 foi proposta
anteriormente, mas o fato de este artigo ser de autoria de estatísticos e cientistas de diversas disciplinas -
incluindo psicologia, economia, sociologia, antropologia, medicina, epidemiologia, ecologia e filosofia -
indica que a proposta agora tem amplo apoio.
O artigo destaca um fato que os estatísticos conhecem há muito tempo, mas que não é amplamente
reconhecido em muitas comunidades científicas: a evidência que é estatisticamente significativa em P =
0,05 constitui realmente uma evidência razoavelmente fraca. Por exemplo, para um experimento testando
2. se há algum efeito de um tratamento, o artigo relata os cálculos de como diferentes P-valores traduzem
nas chances de que realmente existe um efeito versus não. Um P-valor de 0,05 corresponde a
probabilidades de que existe realmente um efeito desse intervalo, dependendo de hipóteses, de 2,5:1 a
3,4:1. Essas chances são baixas, especialmente para achados surpreendentes que provavelmente não
serão verdadeiros positivos, em primeiro lugar. Em contraste, um P-valor de 0,005 corresponde a
probabilidades de que haja verdadeiramente um efeito que varia de 14:1 a 26:1, o que é muito mais
convincente.
Um impulso importante para a proposta é a crescente preocupação de que haja uma "crise de
reprodutibilidade" em muitos campos científicos, devido a uma alta taxa de falsos positivos entre as
descobertas originalmente relatadas. Muitos problemas (como teste de hipóteses múltiplas e baixo poder
do teste) contribuíram para esta alta taxa de falsos positivos e enfatizamos que é importante abordar todos
esses problemas. Argumentamos, no entanto, que apertar os padrões de significância estatística é um
passo simples que ajudaria. Na verdade, a relação teórica entre o P-valor e a força da evidência é
empiricamente suportada: quanto menor o P-valor do efeito relatado no estudo original, mais provável é
que o efeito fosse replicado no Projeto de Reprodutibilidade na Psicologiae no Projeto de Replicação de
Economia Experimental.
Reduzir o limiar de significância é uma estratégia que já foi usada com sucesso para melhorar a
reprodutibilidade em várias comunidades científicas. A comunidade de pesquisa de genética mudou para
um "limiar de significância do genoma" de 5 × 10-8
há uma década, e a adoção deste padrão ajudou a
transformar o campo com uma taxa de falsos positivos notoriamente alta para um campo com um forte
histórico de descobertas robustas. Na física de alta energia, a tradição tem sido, há muito tempo, definir
significância para novas descobertas por uma regra de "5 sigma" (aproximadamente um limite de P-valor
de 3 ×10-7
). O fato de que outras comunidades de pesquisa mantiveram uma norma de limiares de
significância mais rigorosos do que 0,05 sugere que a transição para um limiar mais rigoroso pode ser
feita.
Alterar o limite de significância de 0,05 a 0,005 traz um custo, no entanto: além da mudança semântica na
forma como os resultados publicados são descritos, a proposta também implica que os estudos devem ser
baseados no novo limite de 0,005. Comparado com o uso do antigo limite de 0,05, manter o mesmo nível
de poder estatístico requer o aumento de tamanhos de amostra em cerca de 70%. Esse aumento no
tamanho das amostras significa que menos estudos podem ser realizados usando os projetos e
orçamentos experimentais atuais. Mas o artigo argumenta que, sob pressupostos realistas, o benefício
seria grande: as taxas de falsos positivos tipicamente cairíam por fatores maiores do que dois. Assim,
recursos consideráveis seriam economizados ao não realizar futuros estudos com base em premissas
falsas. O aumento do tamanho das amostras também é desejável porque os estudos com tamanhos de
amostra pequenos tendem a produzir estimativas infladas do tamanho de efeito, e vícios de publicação e
outros podem ser mais prováveis em um ambiente de pequenos estudos.
Em comunidades de pesquisa, onde a obtenção de tamanhos de amostra maiores é simplesmente inviável
(por exemplo, estudos antropológicos de uma sociedade em pequena escala), existe um "custo"
relacionado: a maioria dos achados pode não ser estatisticamente significativo sob a nova definição.
Nossa visão é que este não é realmente um custo: chamar de "sugestivos" os achados com P-valores
entre 0,05 e 0,005 é, na verdade, uma descrição mais precisa da força da evidência.
Na verdade, o documento enfatiza que a proposta é sobre padrões de evidência e não padrões de ação
política nem padrões para publicação. Os resultados que não atingem o limite para significância estatística
(seja lá o que isso for) ainda podem ser importantes e merecem a publicação em periódicos de elite se
3. abordarem questões de pesquisa importantes com métodos rigorosos. A evidência que não atinge o novo
limite de significância deve ser tratada como sugestiva e, quando possível, outras evidências devem ser
acumuladas. Deixar de rejeitar a hipótese nula (se mantém!) não significa(ndo) aceitar a hipótese nula.
O artigo antecipa e responde a várias potenciais objeções para a proposta. Uma grande classe de
objeções é que a proposta não aborda os problemas de base, que incluem testes de hipóteses múltiplas e
atenção insuficiente para efeitos de tamanhos - e, de fato, podem reforçar alguns dos problemas, como o
excesso de dependência no limite de significância de hipóteses nulas. Concordamos essencialmente com
essas preocupações. O documento enfatiza que a redução do limite do P-valor complementa, mas não
substitui soluções para outros problemas, como o bom desenho do estudo, cálculos de poder do teste ex
ante, pré-registro de análises planejadas, replicações e relatórios transparentes de procedimentos e de
todas as análises estatísticas realizadas.
Muitos dos autores concordam que há melhores abordagens para análises estatísticas do que testes de
significância de hipóteses nulas e continuarão defendendo alternativas. A proposta destina-se a
comunidades de pesquisa que continuam a depender do teste de significância de hipóteses nulas em um
limiar de 0,05; para essas comunidades, reduzir o limite do P-valor para reivindicações de novas
descobertas para 0,005 é um passo acionável que irá melhorar imediatamente a reprodutibilidade. Longe
de reforçar a dependência excessiva da significância estatística, esperamos que a mudança no limiar - e o
aumento do uso de resultados que descrevem com P-valores entre 0,05 e 0,005 como "sugestivos" -
levem a conscientizar as limitações de confiar tão fortemente em um limite de P-valor e, assim, facilitarão
uma transição a longo prazo para melhores abordagens.
A mudança proposta para um limite de P-valor mais exigente envolve tanto um problema de coordenação
(qual limite usar?) e um problema de decisão (por que eu deveria impor um limite mais rigoroso para mim,
a menos que outros o façam?). O objetivo da proposta é ajudar a coordenar em 0,005 e desencorajar a
livre circulação no antigo limite. Em última análise, acreditamos que o novo limite de significância ajudará
pesquisadores e leitores a entender e comunicar evidências com mais precisão.
StatPop às 08:39
Compartilhar
6 comentários:
1.
Leo Bastos15 de agosto de 2017 13:53
Legal! Acho que é hora de repensarmos também os intervalos de 95%. Entao o equivalente seria
reportar os IC 99.5%? Acho que sim né?
Responder
2.
StatPop15 de agosto de 2017 16:56
Oi Leo, muito bom ponto. Como você bem sabe, a lógica de construção de intervalos de confiança
não é exatamente a mesma da lógica de construção de testes de significância. Entretanto,
intervalos de confiança são muitas vezes utilizados para realizar (implicitamente) testes de
4. hipóteses. Nesses casos, concordo com você que os intervalos deveriam passar a ter 99,5% de
confiança.
Responder
3.
Edna17 de agosto de 2017 14:56
Não seria melhor completamentar a sugestão de "baixar o nível de significância para 0.005" com a
recomendação de se mostrar a "curva de poder" do teste? Porque quase não se fala de poder nas
publicações em outras áreas. A impressão que a maioria das pessoas de outras áreas têm é a de
que o "acerto" da decisão do teste é 100% confiável se o "p" é pequeno. Além disto, os estudos
com amostras imensas, em que qualquer efeito é dado como "estaticamente significativo" (até se o
liminar fosse reduzido para 0.001!), por mais insignificante que o efeito seja na prática, vão ganhar
ainda mais força com este novo e apertado limiar. Mais do reduzir apenas o nível de significância,
eu gostaria que a recomendação viesse no sentido de reportar algo mais que o valor-p, talvez ao
menos o trio (valor-p, n, poder) ou um a medida que os combinasse, além da discussão do
tamanho real (não estatistico) deste efeito na prática.
Responder
4.
StatPop18 de agosto de 2017 00:34
Oi Edna, excelente comentário. A redução do p-valor é um 1o passo. Também acho que
deveríamos caminhar para um limiar mais baixo mas que também dependesse do tamanho da
amostra. Como o texto explica, algumas áreas já adotam limiares bem menores (que 0,05 ou
0,005) talvez pensando em tamanhos tipicamente usados lá. Quanto ao poder, a idéia pode até ser
boa mas para muitos testes é muito difícil a obtenção dos seus valores.
Responder
5.
Aleksander Westphal Muniz19 de agosto de 2017 12:22
O artigo é muito bom, mas um número maior de amostras aumenta o custo da pesquisa. E
dependendo desse custo, inviabiliza o seu financiamento.
Responder
6.
StatPop19 de agosto de 2017 18:55
Oi Aleksander, os autores consideram esse problema que você levantou. Veja o 5o parágrafo do
fim para trás.
Responder
Disponível em: < http://www.statpop.com.br/2017/08/significancia-estatistica-redefinida.html?m=1 >.