SlideShare a Scribd company logo
1 of 4
Download to read offline
StatPop - Popularização da Estatística
▼
terça-feira, 15 de agosto de 2017
Significância estatística redefinida
Fonte: figura 1 do artigo de Benjamin et al. (2017)
Há algum tempo vimos falando aqui da crise na ciência com respeito a questões
de reprodutibilidade e perda da credibilidade dos testes estatísticos e nos P-valores. Várias críticas foram
explicitadas dentro, e principalmente fora, da comunidade estatística. O que ainda faltava era ir além das
críticas e propor efetivamente algo concreto. O texto abaixo descreve em linguagem simples uma proposta
que acaba de ser sistematizada em um artigo científico, que será em breve publicado. Essa proposta foi
assinada por 72 autores, encabeçabos por Dan Benjamin, e dentre os quais figuram vários estatísticos
proeminentes. Ela recomenda que para declarar significância estatística de resultados de análises o valor
do P-valor deve ser diminuído de 0,05 para 0,005, como já tínhamos antecipado aqui, e é fortemente
calcada em argumentação Bayesiana (como ilustra a figura acima).
Uma defesa da proposta foi dada no texto, originalmente postado aqui, escrito por 6 dos 72 autores do
artigo, e que traduzo abaixo:
Pesquisadores que representam uma ampla gama de disciplinas e perspectivas estatísticas - 72 de nós no
total - publicaram um novo artigo no PsyArXiv descrevendo um senso comum. Argumentamos que a
significância estatística deve ser redefinida. O artigo estará disponível em Nature Human Behavior. Para
reivindicações de descobertas de efeitos novos, o artigo defende uma alteração no limiar de P-valor para
um resultado ser "estatisticamente significativo" de 0,05 a 0,005. Os resultados atualmente chamados de
"significativos" que não atendem ao novo limiar seriam chamados sugestivos e tratados como ambíguos
quanto ao efeito. A idéia de mudar o limiar de significância estatística para 0,005 foi proposta
anteriormente, mas o fato de este artigo ser de autoria de estatísticos e cientistas de diversas disciplinas -
incluindo psicologia, economia, sociologia, antropologia, medicina, epidemiologia, ecologia e filosofia -
indica que a proposta agora tem amplo apoio.
O artigo destaca um fato que os estatísticos conhecem há muito tempo, mas que não é amplamente
reconhecido em muitas comunidades científicas: a evidência que é estatisticamente significativa em P =
0,05 constitui realmente uma evidência razoavelmente fraca. Por exemplo, para um experimento testando
se há algum efeito de um tratamento, o artigo relata os cálculos de como diferentes P-valores traduzem
nas chances de que realmente existe um efeito versus não. Um P-valor de 0,05 corresponde a
probabilidades de que existe realmente um efeito desse intervalo, dependendo de hipóteses, de 2,5:1 a
3,4:1. Essas chances são baixas, especialmente para achados surpreendentes que provavelmente não
serão verdadeiros positivos, em primeiro lugar. Em contraste, um P-valor de 0,005 corresponde a
probabilidades de que haja verdadeiramente um efeito que varia de 14:1 a 26:1, o que é muito mais
convincente.
Um impulso importante para a proposta é a crescente preocupação de que haja uma "crise de
reprodutibilidade" em muitos campos científicos, devido a uma alta taxa de falsos positivos entre as
descobertas originalmente relatadas. Muitos problemas (como teste de hipóteses múltiplas e baixo poder
do teste) contribuíram para esta alta taxa de falsos positivos e enfatizamos que é importante abordar todos
esses problemas. Argumentamos, no entanto, que apertar os padrões de significância estatística é um
passo simples que ajudaria. Na verdade, a relação teórica entre o P-valor e a força da evidência é
empiricamente suportada: quanto menor o P-valor do efeito relatado no estudo original, mais provável é
que o efeito fosse replicado no Projeto de Reprodutibilidade na Psicologiae no Projeto de Replicação de
Economia Experimental.
Reduzir o limiar de significância é uma estratégia que já foi usada com sucesso para melhorar a
reprodutibilidade em várias comunidades científicas. A comunidade de pesquisa de genética mudou para
um "limiar de significância do genoma" de 5 × 10-8
há uma década, e a adoção deste padrão ajudou a
transformar o campo com uma taxa de falsos positivos notoriamente alta para um campo com um forte
histórico de descobertas robustas. Na física de alta energia, a tradição tem sido, há muito tempo, definir
significância para novas descobertas por uma regra de "5 sigma" (aproximadamente um limite de P-valor
de 3 ×10-7
). O fato de que outras comunidades de pesquisa mantiveram uma norma de limiares de
significância mais rigorosos do que 0,05 sugere que a transição para um limiar mais rigoroso pode ser
feita.
Alterar o limite de significância de 0,05 a 0,005 traz um custo, no entanto: além da mudança semântica na
forma como os resultados publicados são descritos, a proposta também implica que os estudos devem ser
baseados no novo limite de 0,005. Comparado com o uso do antigo limite de 0,05, manter o mesmo nível
de poder estatístico requer o aumento de tamanhos de amostra em cerca de 70%. Esse aumento no
tamanho das amostras significa que menos estudos podem ser realizados usando os projetos e
orçamentos experimentais atuais. Mas o artigo argumenta que, sob pressupostos realistas, o benefício
seria grande: as taxas de falsos positivos tipicamente cairíam por fatores maiores do que dois. Assim,
recursos consideráveis seriam economizados ao não realizar futuros estudos com base em premissas
falsas. O aumento do tamanho das amostras também é desejável porque os estudos com tamanhos de
amostra pequenos tendem a produzir estimativas infladas do tamanho de efeito, e vícios de publicação e
outros podem ser mais prováveis em um ambiente de pequenos estudos.
Em comunidades de pesquisa, onde a obtenção de tamanhos de amostra maiores é simplesmente inviável
(por exemplo, estudos antropológicos de uma sociedade em pequena escala), existe um "custo"
relacionado: a maioria dos achados pode não ser estatisticamente significativo sob a nova definição.
Nossa visão é que este não é realmente um custo: chamar de "sugestivos" os achados com P-valores
entre 0,05 e 0,005 é, na verdade, uma descrição mais precisa da força da evidência.
Na verdade, o documento enfatiza que a proposta é sobre padrões de evidência e não padrões de ação
política nem padrões para publicação. Os resultados que não atingem o limite para significância estatística
(seja lá o que isso for) ainda podem ser importantes e merecem a publicação em periódicos de elite se
abordarem questões de pesquisa importantes com métodos rigorosos. A evidência que não atinge o novo
limite de significância deve ser tratada como sugestiva e, quando possível, outras evidências devem ser
acumuladas. Deixar de rejeitar a hipótese nula (se mantém!) não significa(ndo) aceitar a hipótese nula.
O artigo antecipa e responde a várias potenciais objeções para a proposta. Uma grande classe de
objeções é que a proposta não aborda os problemas de base, que incluem testes de hipóteses múltiplas e
atenção insuficiente para efeitos de tamanhos - e, de fato, podem reforçar alguns dos problemas, como o
excesso de dependência no limite de significância de hipóteses nulas. Concordamos essencialmente com
essas preocupações. O documento enfatiza que a redução do limite do P-valor complementa, mas não
substitui soluções para outros problemas, como o bom desenho do estudo, cálculos de poder do teste ex
ante, pré-registro de análises planejadas, replicações e relatórios transparentes de procedimentos e de
todas as análises estatísticas realizadas.
Muitos dos autores concordam que há melhores abordagens para análises estatísticas do que testes de
significância de hipóteses nulas e continuarão defendendo alternativas. A proposta destina-se a
comunidades de pesquisa que continuam a depender do teste de significância de hipóteses nulas em um
limiar de 0,05; para essas comunidades, reduzir o limite do P-valor para reivindicações de novas
descobertas para 0,005 é um passo acionável que irá melhorar imediatamente a reprodutibilidade. Longe
de reforçar a dependência excessiva da significância estatística, esperamos que a mudança no limiar - e o
aumento do uso de resultados que descrevem com P-valores entre 0,05 e 0,005 como "sugestivos" -
levem a conscientizar as limitações de confiar tão fortemente em um limite de P-valor e, assim, facilitarão
uma transição a longo prazo para melhores abordagens.
A mudança proposta para um limite de P-valor mais exigente envolve tanto um problema de coordenação
(qual limite usar?) e um problema de decisão (por que eu deveria impor um limite mais rigoroso para mim,
a menos que outros o façam?). O objetivo da proposta é ajudar a coordenar em 0,005 e desencorajar a
livre circulação no antigo limite. Em última análise, acreditamos que o novo limite de significância ajudará
pesquisadores e leitores a entender e comunicar evidências com mais precisão.
StatPop às 08:39
Compartilhar
6 comentários:
1.
Leo Bastos15 de agosto de 2017 13:53
Legal! Acho que é hora de repensarmos também os intervalos de 95%. Entao o equivalente seria
reportar os IC 99.5%? Acho que sim né?
Responder
2.
StatPop15 de agosto de 2017 16:56
Oi Leo, muito bom ponto. Como você bem sabe, a lógica de construção de intervalos de confiança
não é exatamente a mesma da lógica de construção de testes de significância. Entretanto,
intervalos de confiança são muitas vezes utilizados para realizar (implicitamente) testes de
hipóteses. Nesses casos, concordo com você que os intervalos deveriam passar a ter 99,5% de
confiança.
Responder
3.
Edna17 de agosto de 2017 14:56
Não seria melhor completamentar a sugestão de "baixar o nível de significância para 0.005" com a
recomendação de se mostrar a "curva de poder" do teste? Porque quase não se fala de poder nas
publicações em outras áreas. A impressão que a maioria das pessoas de outras áreas têm é a de
que o "acerto" da decisão do teste é 100% confiável se o "p" é pequeno. Além disto, os estudos
com amostras imensas, em que qualquer efeito é dado como "estaticamente significativo" (até se o
liminar fosse reduzido para 0.001!), por mais insignificante que o efeito seja na prática, vão ganhar
ainda mais força com este novo e apertado limiar. Mais do reduzir apenas o nível de significância,
eu gostaria que a recomendação viesse no sentido de reportar algo mais que o valor-p, talvez ao
menos o trio (valor-p, n, poder) ou um a medida que os combinasse, além da discussão do
tamanho real (não estatistico) deste efeito na prática.
Responder
4.
StatPop18 de agosto de 2017 00:34
Oi Edna, excelente comentário. A redução do p-valor é um 1o passo. Também acho que
deveríamos caminhar para um limiar mais baixo mas que também dependesse do tamanho da
amostra. Como o texto explica, algumas áreas já adotam limiares bem menores (que 0,05 ou
0,005) talvez pensando em tamanhos tipicamente usados lá. Quanto ao poder, a idéia pode até ser
boa mas para muitos testes é muito difícil a obtenção dos seus valores.
Responder
5.
Aleksander Westphal Muniz19 de agosto de 2017 12:22
O artigo é muito bom, mas um número maior de amostras aumenta o custo da pesquisa. E
dependendo desse custo, inviabiliza o seu financiamento.
Responder
6.
StatPop19 de agosto de 2017 18:55
Oi Aleksander, os autores consideram esse problema que você levantou. Veja o 5o parágrafo do
fim para trás.
Responder
Disponível em: < http://www.statpop.com.br/2017/08/significancia-estatistica-redefinida.html?m=1 >.

More Related Content

Similar to Redefinição da Significância Estatística

Como escrever um trabalho científico
Como escrever um trabalho científicoComo escrever um trabalho científico
Como escrever um trabalho científicoClaudia Paula
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
Problemas hipoteses variaveis 2015
Problemas hipoteses variaveis 2015Problemas hipoteses variaveis 2015
Problemas hipoteses variaveis 2015Romari Martinez
 
TCC: Discussão e Conclusões - Profa. Rilva Muñoz
TCC: Discussão e Conclusões - Profa. Rilva MuñozTCC: Discussão e Conclusões - Profa. Rilva Muñoz
TCC: Discussão e Conclusões - Profa. Rilva MuñozRilva Lopes de Sousa Muñoz
 
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836Miriam Senghi Soares
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxNunoSilva599593
 
Validade e confiabilidade na pesquisa adm
Validade e confiabilidade na pesquisa admValidade e confiabilidade na pesquisa adm
Validade e confiabilidade na pesquisa admTiêssa Alves
 
Projeto e Relatório de Pesquisa
Projeto e Relatório de PesquisaProjeto e Relatório de Pesquisa
Projeto e Relatório de PesquisaLuiz Santos
 
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOS
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOSESTUDO DE CASO - PLANEJAMENTO E MÉTODOS
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOSRosane Domingues
 
Estudo de caso planejamento e métodos
Estudo de caso   planejamento e métodosEstudo de caso   planejamento e métodos
Estudo de caso planejamento e métodosRosane Domingues
 
Capacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosCapacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosAliny Lima
 
METODO ESTUDO DE CASO - Livro Robert Yin.pdf
METODO ESTUDO DE CASO - Livro Robert Yin.pdfMETODO ESTUDO DE CASO - Livro Robert Yin.pdf
METODO ESTUDO DE CASO - Livro Robert Yin.pdfFabinBarreto2
 

Similar to Redefinição da Significância Estatística (20)

leis e teorias.pptx
leis e teorias.pptxleis e teorias.pptx
leis e teorias.pptx
 
Como escrever um trabalho científico
Como escrever um trabalho científicoComo escrever um trabalho científico
Como escrever um trabalho científico
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Problemas hipoteses variaveis 2015
Problemas hipoteses variaveis 2015Problemas hipoteses variaveis 2015
Problemas hipoteses variaveis 2015
 
TCC: Discussão e Conclusões - Profa. Rilva Muñoz
TCC: Discussão e Conclusões - Profa. Rilva MuñozTCC: Discussão e Conclusões - Profa. Rilva Muñoz
TCC: Discussão e Conclusões - Profa. Rilva Muñoz
 
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836
Paiva leão mello_2011_validade-e-confiabilidade-na-p_4836
 
Apostila estatistica2
Apostila estatistica2Apostila estatistica2
Apostila estatistica2
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
 
Validade e confiabilidade na pesquisa adm
Validade e confiabilidade na pesquisa admValidade e confiabilidade na pesquisa adm
Validade e confiabilidade na pesquisa adm
 
Aula 02 Mtc Mba 2009
Aula 02 Mtc Mba 2009Aula 02 Mtc Mba 2009
Aula 02 Mtc Mba 2009
 
Avaliação
 Avaliação Avaliação
Avaliação
 
Projeto e Relatório de Pesquisa
Projeto e Relatório de PesquisaProjeto e Relatório de Pesquisa
Projeto e Relatório de Pesquisa
 
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOS
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOSESTUDO DE CASO - PLANEJAMENTO E MÉTODOS
ESTUDO DE CASO - PLANEJAMENTO E MÉTODOS
 
Estudo de caso planejamento e métodos
Estudo de caso   planejamento e métodosEstudo de caso   planejamento e métodos
Estudo de caso planejamento e métodos
 
Estudo de caso forma
Estudo de caso formaEstudo de caso forma
Estudo de caso forma
 
Curso preparatório para concurso da anvisa
Curso preparatório para concurso da anvisaCurso preparatório para concurso da anvisa
Curso preparatório para concurso da anvisa
 
Capacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativosCapacitação em análise de dados quantitativos
Capacitação em análise de dados quantitativos
 
Metanálise
MetanáliseMetanálise
Metanálise
 
METODO ESTUDO DE CASO - Livro Robert Yin.pdf
METODO ESTUDO DE CASO - Livro Robert Yin.pdfMETODO ESTUDO DE CASO - Livro Robert Yin.pdf
METODO ESTUDO DE CASO - Livro Robert Yin.pdf
 
Pesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e Quantitativa Pesquisa Qualitativa e Quantitativa
Pesquisa Qualitativa e Quantitativa
 

Redefinição da Significância Estatística

  • 1. StatPop - Popularização da Estatística ▼ terça-feira, 15 de agosto de 2017 Significância estatística redefinida Fonte: figura 1 do artigo de Benjamin et al. (2017) Há algum tempo vimos falando aqui da crise na ciência com respeito a questões de reprodutibilidade e perda da credibilidade dos testes estatísticos e nos P-valores. Várias críticas foram explicitadas dentro, e principalmente fora, da comunidade estatística. O que ainda faltava era ir além das críticas e propor efetivamente algo concreto. O texto abaixo descreve em linguagem simples uma proposta que acaba de ser sistematizada em um artigo científico, que será em breve publicado. Essa proposta foi assinada por 72 autores, encabeçabos por Dan Benjamin, e dentre os quais figuram vários estatísticos proeminentes. Ela recomenda que para declarar significância estatística de resultados de análises o valor do P-valor deve ser diminuído de 0,05 para 0,005, como já tínhamos antecipado aqui, e é fortemente calcada em argumentação Bayesiana (como ilustra a figura acima). Uma defesa da proposta foi dada no texto, originalmente postado aqui, escrito por 6 dos 72 autores do artigo, e que traduzo abaixo: Pesquisadores que representam uma ampla gama de disciplinas e perspectivas estatísticas - 72 de nós no total - publicaram um novo artigo no PsyArXiv descrevendo um senso comum. Argumentamos que a significância estatística deve ser redefinida. O artigo estará disponível em Nature Human Behavior. Para reivindicações de descobertas de efeitos novos, o artigo defende uma alteração no limiar de P-valor para um resultado ser "estatisticamente significativo" de 0,05 a 0,005. Os resultados atualmente chamados de "significativos" que não atendem ao novo limiar seriam chamados sugestivos e tratados como ambíguos quanto ao efeito. A idéia de mudar o limiar de significância estatística para 0,005 foi proposta anteriormente, mas o fato de este artigo ser de autoria de estatísticos e cientistas de diversas disciplinas - incluindo psicologia, economia, sociologia, antropologia, medicina, epidemiologia, ecologia e filosofia - indica que a proposta agora tem amplo apoio. O artigo destaca um fato que os estatísticos conhecem há muito tempo, mas que não é amplamente reconhecido em muitas comunidades científicas: a evidência que é estatisticamente significativa em P = 0,05 constitui realmente uma evidência razoavelmente fraca. Por exemplo, para um experimento testando
  • 2. se há algum efeito de um tratamento, o artigo relata os cálculos de como diferentes P-valores traduzem nas chances de que realmente existe um efeito versus não. Um P-valor de 0,05 corresponde a probabilidades de que existe realmente um efeito desse intervalo, dependendo de hipóteses, de 2,5:1 a 3,4:1. Essas chances são baixas, especialmente para achados surpreendentes que provavelmente não serão verdadeiros positivos, em primeiro lugar. Em contraste, um P-valor de 0,005 corresponde a probabilidades de que haja verdadeiramente um efeito que varia de 14:1 a 26:1, o que é muito mais convincente. Um impulso importante para a proposta é a crescente preocupação de que haja uma "crise de reprodutibilidade" em muitos campos científicos, devido a uma alta taxa de falsos positivos entre as descobertas originalmente relatadas. Muitos problemas (como teste de hipóteses múltiplas e baixo poder do teste) contribuíram para esta alta taxa de falsos positivos e enfatizamos que é importante abordar todos esses problemas. Argumentamos, no entanto, que apertar os padrões de significância estatística é um passo simples que ajudaria. Na verdade, a relação teórica entre o P-valor e a força da evidência é empiricamente suportada: quanto menor o P-valor do efeito relatado no estudo original, mais provável é que o efeito fosse replicado no Projeto de Reprodutibilidade na Psicologiae no Projeto de Replicação de Economia Experimental. Reduzir o limiar de significância é uma estratégia que já foi usada com sucesso para melhorar a reprodutibilidade em várias comunidades científicas. A comunidade de pesquisa de genética mudou para um "limiar de significância do genoma" de 5 × 10-8 há uma década, e a adoção deste padrão ajudou a transformar o campo com uma taxa de falsos positivos notoriamente alta para um campo com um forte histórico de descobertas robustas. Na física de alta energia, a tradição tem sido, há muito tempo, definir significância para novas descobertas por uma regra de "5 sigma" (aproximadamente um limite de P-valor de 3 ×10-7 ). O fato de que outras comunidades de pesquisa mantiveram uma norma de limiares de significância mais rigorosos do que 0,05 sugere que a transição para um limiar mais rigoroso pode ser feita. Alterar o limite de significância de 0,05 a 0,005 traz um custo, no entanto: além da mudança semântica na forma como os resultados publicados são descritos, a proposta também implica que os estudos devem ser baseados no novo limite de 0,005. Comparado com o uso do antigo limite de 0,05, manter o mesmo nível de poder estatístico requer o aumento de tamanhos de amostra em cerca de 70%. Esse aumento no tamanho das amostras significa que menos estudos podem ser realizados usando os projetos e orçamentos experimentais atuais. Mas o artigo argumenta que, sob pressupostos realistas, o benefício seria grande: as taxas de falsos positivos tipicamente cairíam por fatores maiores do que dois. Assim, recursos consideráveis seriam economizados ao não realizar futuros estudos com base em premissas falsas. O aumento do tamanho das amostras também é desejável porque os estudos com tamanhos de amostra pequenos tendem a produzir estimativas infladas do tamanho de efeito, e vícios de publicação e outros podem ser mais prováveis em um ambiente de pequenos estudos. Em comunidades de pesquisa, onde a obtenção de tamanhos de amostra maiores é simplesmente inviável (por exemplo, estudos antropológicos de uma sociedade em pequena escala), existe um "custo" relacionado: a maioria dos achados pode não ser estatisticamente significativo sob a nova definição. Nossa visão é que este não é realmente um custo: chamar de "sugestivos" os achados com P-valores entre 0,05 e 0,005 é, na verdade, uma descrição mais precisa da força da evidência. Na verdade, o documento enfatiza que a proposta é sobre padrões de evidência e não padrões de ação política nem padrões para publicação. Os resultados que não atingem o limite para significância estatística (seja lá o que isso for) ainda podem ser importantes e merecem a publicação em periódicos de elite se
  • 3. abordarem questões de pesquisa importantes com métodos rigorosos. A evidência que não atinge o novo limite de significância deve ser tratada como sugestiva e, quando possível, outras evidências devem ser acumuladas. Deixar de rejeitar a hipótese nula (se mantém!) não significa(ndo) aceitar a hipótese nula. O artigo antecipa e responde a várias potenciais objeções para a proposta. Uma grande classe de objeções é que a proposta não aborda os problemas de base, que incluem testes de hipóteses múltiplas e atenção insuficiente para efeitos de tamanhos - e, de fato, podem reforçar alguns dos problemas, como o excesso de dependência no limite de significância de hipóteses nulas. Concordamos essencialmente com essas preocupações. O documento enfatiza que a redução do limite do P-valor complementa, mas não substitui soluções para outros problemas, como o bom desenho do estudo, cálculos de poder do teste ex ante, pré-registro de análises planejadas, replicações e relatórios transparentes de procedimentos e de todas as análises estatísticas realizadas. Muitos dos autores concordam que há melhores abordagens para análises estatísticas do que testes de significância de hipóteses nulas e continuarão defendendo alternativas. A proposta destina-se a comunidades de pesquisa que continuam a depender do teste de significância de hipóteses nulas em um limiar de 0,05; para essas comunidades, reduzir o limite do P-valor para reivindicações de novas descobertas para 0,005 é um passo acionável que irá melhorar imediatamente a reprodutibilidade. Longe de reforçar a dependência excessiva da significância estatística, esperamos que a mudança no limiar - e o aumento do uso de resultados que descrevem com P-valores entre 0,05 e 0,005 como "sugestivos" - levem a conscientizar as limitações de confiar tão fortemente em um limite de P-valor e, assim, facilitarão uma transição a longo prazo para melhores abordagens. A mudança proposta para um limite de P-valor mais exigente envolve tanto um problema de coordenação (qual limite usar?) e um problema de decisão (por que eu deveria impor um limite mais rigoroso para mim, a menos que outros o façam?). O objetivo da proposta é ajudar a coordenar em 0,005 e desencorajar a livre circulação no antigo limite. Em última análise, acreditamos que o novo limite de significância ajudará pesquisadores e leitores a entender e comunicar evidências com mais precisão. StatPop às 08:39 Compartilhar 6 comentários: 1. Leo Bastos15 de agosto de 2017 13:53 Legal! Acho que é hora de repensarmos também os intervalos de 95%. Entao o equivalente seria reportar os IC 99.5%? Acho que sim né? Responder 2. StatPop15 de agosto de 2017 16:56 Oi Leo, muito bom ponto. Como você bem sabe, a lógica de construção de intervalos de confiança não é exatamente a mesma da lógica de construção de testes de significância. Entretanto, intervalos de confiança são muitas vezes utilizados para realizar (implicitamente) testes de
  • 4. hipóteses. Nesses casos, concordo com você que os intervalos deveriam passar a ter 99,5% de confiança. Responder 3. Edna17 de agosto de 2017 14:56 Não seria melhor completamentar a sugestão de "baixar o nível de significância para 0.005" com a recomendação de se mostrar a "curva de poder" do teste? Porque quase não se fala de poder nas publicações em outras áreas. A impressão que a maioria das pessoas de outras áreas têm é a de que o "acerto" da decisão do teste é 100% confiável se o "p" é pequeno. Além disto, os estudos com amostras imensas, em que qualquer efeito é dado como "estaticamente significativo" (até se o liminar fosse reduzido para 0.001!), por mais insignificante que o efeito seja na prática, vão ganhar ainda mais força com este novo e apertado limiar. Mais do reduzir apenas o nível de significância, eu gostaria que a recomendação viesse no sentido de reportar algo mais que o valor-p, talvez ao menos o trio (valor-p, n, poder) ou um a medida que os combinasse, além da discussão do tamanho real (não estatistico) deste efeito na prática. Responder 4. StatPop18 de agosto de 2017 00:34 Oi Edna, excelente comentário. A redução do p-valor é um 1o passo. Também acho que deveríamos caminhar para um limiar mais baixo mas que também dependesse do tamanho da amostra. Como o texto explica, algumas áreas já adotam limiares bem menores (que 0,05 ou 0,005) talvez pensando em tamanhos tipicamente usados lá. Quanto ao poder, a idéia pode até ser boa mas para muitos testes é muito difícil a obtenção dos seus valores. Responder 5. Aleksander Westphal Muniz19 de agosto de 2017 12:22 O artigo é muito bom, mas um número maior de amostras aumenta o custo da pesquisa. E dependendo desse custo, inviabiliza o seu financiamento. Responder 6. StatPop19 de agosto de 2017 18:55 Oi Aleksander, os autores consideram esse problema que você levantou. Veja o 5o parágrafo do fim para trás. Responder Disponível em: < http://www.statpop.com.br/2017/08/significancia-estatistica-redefinida.html?m=1 >.