Revista Agrária Acadêmica
doi: 10.32406/v8n4/2025/9-22/agrariacad
Quais evidências estamos procurando ao usar o valor p?
Which evidences are we looking for when using p value?
Edenio Detmann
1, Tadeu Eder da Silva
2
1- Zootecnista, D. Sc., Professor Titular, Departamento de Zootecnia, Universidade Federal de Viçosa, Brasil. Pesquisador do CNPq. E-mail: detmann@ufv.br
2- Zootecnista, D. Sc., Pós-Doutorando, Animal and Veterinary Sciences, University of Vermont-Burlington, United States of America. E-mail: tdasilva@uvm.edu
Resumo
O valor p constitui parte essencial dos processos decisórios em testes de hipóteses, embora sua verdadeira intepretação nem sempre seja compreendida pelos pesquisadores. Neste artigo, buscamos discorrer sobre a correta interpretação do valor no contexto dos testes de hipóteses aplicados a experimentos na área de Zootecnia. Nossa proposta central foi de trazer conceitos Bayesianos para propiciar o correto entendimento das conclusões dos testes de hipóteses aplicados sob o paradigma frequentista. Neste sentido, ressaltamos a importante conexão entre as informações a priori que suportam a plausabilidade da hipótese de pesquisa e as medidas de planejamento que são cruciais para o correto uso e interpretação dos resultados obtidos com testes de hipóteses.
Palavras-chave: Estatística experimental. Lema de Neyman-Pearson. Planejamento experimental. Testes de hipóteses.
Abstract
The p-value is an essential component of decision-making processes in hypothesis testing, although its true interpretation is not always well understood by researchers. In this article, we aim to discuss the correct interpretation of the p-value in the context of hypothesis testing applied to experiments in Animal Science. Our central proposal is to introduce Bayesian concepts to provide a proper understanding of the conclusions drawn from hypothesis tests conducted under the frequentist paradigm. In this regard, we highlight the important connection between the prior information that supports the plausibility of the research hypothesis and the planning measures that are crucial for the correct use and interpretation of results obtained from hypothesis testing.
Keywords: Experimental statistics. Neyman-Pearson lemma. Experimental design. Hypothesis testing.
Introdução
Na pesquisa em Zootecnia, notadamente nas áreas de forragicultura, nutrição e produção animal, a experimentação toma posto de destaque pois é utilizada como ferramenta chave para entendimento de relações de causa e efeito entre intervenções e respostas biológicas complexas.
Como resultado, temos nos testes de hipóteses o principal dispositivo para tomada de decisões ou para inferência estatística nos trabalhos científicos. Por conseguinte, o valor p calculado a cada teste de hipóteses surge como elemento orientador nos processos decisórios em geral, os quais estão obviamente sujeitos a erros. A importância do valor p e muitas das contestações associadas ao mesmo nas regras decisórias estatísticas têm sido amplamente discutidas, como, por exemplo, nos artigos de Wasserstein & Lazar (2016) e Detmann (2021). Neste artigo, contudo, buscamos trazer uma abordagem distinta, porém complementar, ao que foi discutido anteriormente nestas referências. Para tal, temos como ponto de partida alguns questionamentos. Será que estamos olhando para o valor p e entendo realmente o que estamos buscando? Estamos fazendo a parte que nos cabe para sustentar o uso do valor p nos nossos processos decisórios? Que tipo de evidências estamos buscando ao olhar para o valor p ao final de um teste de hipóteses? Ao decorrer deste artigo, buscamos responder e discutir estes questionamentos com demonstrações teóricas e exemplos de aplicação para o campo da Zootecnia.
Hipóteses estatísticas e testes de hipóteses
Em estatística, por definição, uma hipótese é uma declaração sobre um parâmetro da população (CASELA; BERGER, 2010). Em sua grande maioria, os parâmetros representam características numéricas de uma população, podendo corresponder à média, à variância ou até mesmo uma proporção (CECON et al., 2012). Assim, considerando o conceito de hipótese acima definido, um teste de hipóteses tem por objetivo decidir, com base em uma amostra da população, qual de duas hipóteses complementares representaria a “verdade” sobre o parâmetro populacional em questão, em geral desconhecido ou que se deseja conhecer.
De maneira menos ortodoxa, podemos afirmar que os testes de hipóteses representam uma ferramenta auxiliar na tomada de decisões quando necessitamos especular sobre parâmetros populacionais e não temos acesso ao total de informações da população. Assim, a partir de informações corretamente levantadas em uma amostra probabilística tomada desta população, podemos concluir (i.e., fazer inferências) sobre os parâmetros desconhecidos da mesma. Por conseguinte, os testes de hipóteses poderão ser aplicados em quaisquer situações nas quais parâmetros populacionais precisam ser estudados. Assim, suas possibilidades de aplicação são tão amplas como as áreas do conhecimento e as características a serem estudadas.
Cabe ressaltar que a formulação clássica e modal dos testes de hipóteses constitui um dos principais fundamentos da estatística alcunhada como frequentista. As bases dos testes de hipóteses aplicados rotineiramente em muitos campos científicos foram desenvolvidas por Jerzy Neyman e Egon Pearson nos anos 1930 (NEYMAN; PEARSON, 1933), processo que ficou conhecido como lema de Neyman-Pearson. Neste sentido, nos testes são estabelecidas duas hipóteses complementares que são colocadas em teste com base no crivo experimental.
Em teoria, as hipóteses complementares assumem o formato geral (CASELA; BERGER, 2010):
H_0: θ∈Θ_0^ vs.H_a: θ∈Θ_0^C (1);
em que H0 representa a hipótese de nulidade, Ha representa a hipótese alternativa (algumas vezes denominada hipótese de pesquisa, pois costuma se basear nas expectativas do pesquisador), θ representa o parâmetro populacional desconhecido, Θ0 é algum subconjunto do espaço de parâmetro e Θ0C é o complemento de Θ0.
Para o caso específico do lema de Neyman-Pearson, usamos hipóteses simples que especificam somente uma possível distribuição para a amostra que comporá o processo avaliativo experimental (CASELA; BERGER, 2010). Nestes casos, as hipóteses complementares assumem normalmente as formas:
H_0: θ=θ_0 vs.H_a: θ≠θ_0 (2);
H_0: θ≤θ_0 vs.H_a: θ>θ_0 (3);
H_0: θ≥θ_0 vs.H_a: θ<θ_0 (4);
em que θ0 representa o valor considerado para o parâmetro populacional no contexto do problema estudado.
O formato de hipóteses descrito em (2) define o que denominamos de teste bilateral, uma vez que a hipótese alternativa estabelece a busca pela diferença (i.e., “para mais” e “para menos” simultaneamente). Por sua vez, os formatos descritos em (3) e (4) definem o que denominamos de testes unilaterais, pois direcionam ou “para mais” ou “para menos”. Embora esteja claro que os sinais utilizados nas hipóteses (2) a (4) sejam opostos, uma vez que são hipóteses complementares, é comum os livros didáticos de estatística básica e experimental definirem a hipótese de nulidade para os casos unilaterais apenas pelo sinal de igualdade (i.e., “=”). Isto não está estritamente correto, pois o uso do sinal de igualdade, neste caso, não define espaços paramétricos complementares. Contudo, na prática, isso pouco interfere no processo decisório caso o sinal de Ha seja corretamente estabelecido.
De forma simplificada, o teste de hipóteses consiste em contrastar as evidências amostrais com aquilo que é definido pela hipótese de nulidade. Não havendo força de evidência que a contrarie, H0 não será rejeitada e a conclusão do processo se baseará no que é estabelecido pela mesma. Caso a força das evidências amostrais não permita suportar H0, esta será rejeitada e a conclusão será orientada pelo que é estabelecido pela hipótese alternativa (DETMANN, 2018). Com isso, apesar do teste ser chamado teste de hipóteses (no plural), apenas uma das hipóteses complementares é realmente testada, i.e., a hipótese de nulidade. Um dos pontos mais relevantes a ser destacado é: o teste de hipóteses se inicia sob o pressuposto de H0 ser verdadeira. Isso será crucial para nosso entendimento e aplicação.
Considerando que a tomada de decisão ocorre essencialmente sobre H0, há duas, e somente duas, conclusões possíveis: aceitar ou rejeitar H0. Como cada decisão a ser tomada é passível de erro, haverá, portanto, dois erros possíveis de serem cometidos no processo decisório: aceitar ou rejeitar H0 indevidamente (Tabela 1).
Tabela 1 – Esquema representativo dos erros possíveis de serem cometidos em um processo decisório de um teste de hipóteses estatísticas
A “verdade” sobre H0 |
||
A “decisão” sobre H0 |
Verdadeira |
Falsa |
Aceitar |
1 – α(decisão correta) |
β(erro) |
Rejeitar |
α(erro) |
1 – β(decisão correta) |
Segundo o esquema apresentado na Tabela 1, α representa a probabilidade de se rejeitar H0 sendo esta verdadeira, o que é conhecido como erro tipo I. Por outro lado, β representa a probabilidade de se aceitar H0 sendo esta falsa, o que é conhecido como erro tipo II (MORETTIN, 2000). Cada erro possui o seu complemento. Para nossa discussão, o mais relevante é o complemento do erro tipo II (i.e., 1 – β), o qual é denominado “poder” e representa a probabilidade de se rejeitar H0 quando esta é falsa (no jargão rotineiro, a probabilidade de se apontar diferenças existentes). Novamente, ressaltamos que nada é ventilado sobre Ha, sendo H0 a única hipótese a ser contrastada com as evidências amostrais.
A partir das definições de hipóteses e erros estatísticos, o lema de Neyman-Person é executado seguindo-se os passos:
- Define-se um valor α que representará a máxima tolerância para a probabilidade de ocorrência do erro tipo I. Destaca-se que o erro tipo I é o único passível de controle direto pelo pesquisador. Este valor α é contextualizado na função densidade de probabilidade (fdp) correspondente ao parâmetro em avaliação. Logo, o valor α definirá para quais valores amostrais a decisão de rejeitar H0 será tomada (CASELA; BERGER, 2010). A área correspondente ao valor α sob a fdp será denominada região de rejeição de H0. O seu complemento (lembre-se que as hipóteses opostas são complementares) será denominado região de aceitação de H0 e compreenderá os valores amostrais para os quais H0 é tida como verdadeira. Muitos textos estatísticos ressaltam ainda a clássica intepretação frequentista do valor α. Nesta, afirma-se que, caso o mesmo experimento (i.e., processo avaliativo) seja conduzido um número muito grande de vezes, em α% dos casos, H0 será rejeitada indevidamente.
- Utilizando-se do método da máxima verossimilhança, buscar-se-á a estrutura do teste que maximize seu poder (i.e., 1 – β).
- O teste então produzirá um valor calculado, o qual representará, sob o pressuposto de H0 verdadeira, a conversão das informações amostrais em um valor da variável aleatória correspondente à fdp utilizada.
- Se este valor calculado for suficientemente grande no contexto definido pela fdp e pelo valor α, rejeita-se H0. Em caso contrário, aceita-se H0.
Exemplo de aplicação
Para ilustração dos fundamentos descritos acima, utilizaremos um exemplo fictício cujo contexto é descrito abaixo. Neste, vamos utilizar uma variável assumida com distribuição normal (i.e., produção de leite por vacas) cuja variância populacional é desconhecida. Salientamos que o exemplo é puramente fictício e tem por objetivo apenas demonstrar e aplicar os conceitos aqui discutidos. Nenhum aspecto técnico deve ser considerado.
Problema ou contexto
Um programa de desenvolvimento foi implementado em uma macrorregião produtora de leite. Como indicador de sucesso, estabeleceu-se a meta de que, após cinco anos de execução, a média de produção de leite nas propriedades superasse 15 kg/vaca/dia. Assim, após cinco anos de aplicação do programa de desenvolvimento, uma amostra de aleatória de oito propriedades nas quais o programa foi aplicado foi avaliada (Tabela 2). Pergunta-se: o programa atingiu sua meta?
Tabela 2 – Informações amostrais e estatísticas descritivas para o processo de avaliação da produção média de leite em propriedades submetidas a um programa de desenvolvimento (ver texto para a correta contextualização dos valores)
Propriedade |
|||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Produção média de leite (kg/vaca/dia) |
|||||||
15,8 |
14,7 |
14,8 |
15,5 |
15,6 |
15,7 |
15,3 |
15,1 |
Estatísticas descritivas |
|||||||
Média |
Desvio-padrão (s) |
n |
Graus de liberdade |
||||
15,31 |
0,412 |
8 |
7 |
||||
Aplicação do teste de hipóteses
- Definir as hipóteses
Como o contexto do exemplo orienta para a avaliação produção de leite ter ou não superado o valor de 15 kg/vaca/dia, o conjunto de hipóteses complementares deverá ser orientado de forma unilateral à direita, tendo o valor 15,0 como pressuposição inicial para θ0 (Equação 3). Ademais, entende-se que o parâmetro sob avaliação é a média populacional. Logo:
H_0: μ≤15 vs.H_a: μ>15 (5).
- Definir o valor α
Neste exemplo, assumiremos como 0,05 a máxima probabilidade de ocorrência do erro tipo I. Esta é uma escolha discricionária para este exemplo e não constitui uma recomendação universal.
- Definir a fdp associada ao teste
Como estamos buscando inferir sobre a média de uma população assumida como normalmente distribuída com variância populacional desconhecida, a distribuição t de Student é a fdp a ser utilizada.
- Contextualizar a fdp em função de α, de Ha e da dimensão da amostra
A partir do valor α e da direção de Ha, definimos a localização e a dimensão das regiões de rejeição (RRH0) e aceitação (RAH0) de H0. Com isso, definimos o valor crítico da estatística t que divide as duas regiões (tc, t crítico), o qual será dado por (Figura 1)[1]:
t_c=t_α (g.l.)=t_0.05 (7)=1,895 (6).
- Converter a informação amostral no valor da estatística t de Student[2]
t_calculado=(X ̅-μ)/(s/√n)=(15,31-15)/(0,412/√8)≅2,145 (7).
Para que o cálculo acima seja possível, é necessário o conhecimento da média populacional, a qual é o parâmetro em avaliação neste momento. Assim, o cômputo neste passo só é possível a partir de uma pressuposição inerente aos testes de hipóteses. Esta foi destacada anteriormente e corresponde a: o teste de hipóteses se inicia sob o pressuposto de H0 ser verdadeira. Como a igualdade está inclusa em H0 (Equação 5), então é possível, por pressuposto, conhecer o valor do parâmetro (i.e., μ) a partir de H0 e o teste pode ser executado.

Figura 1 – Distribuição t de Student contextualizada segundo o exemplo de avaliação da produção média de leite em oito propriedades submetidas a um programa de desenvolvimento (ver texto para a correta contextualização dos valores). RAH0, região de aceitação de H0; RRH0, região de rejeição de H0; e tc, valor crítico da estatística t.
- Contextualizar o valor da estatística calculada na distribuição e probabilidade e concluir.
Percebemos que o valor calculado da estatística t com base nas informações amostrais ultrapassou o limite crítico de t, o que situa a amostra sob a região de rejeição de H0 (Figura 1). Logo, a conclusão é dada pela rejeição de H0, ou seja: “Rejeita-se H0 (|tcalculado|>|tc|; α = 0,05). A produção média de leite nas propriedades supera 15 kg/vaca/dia. Portanto, o programa de desenvolvimento da pecuária leiteira atingiu sua meta”.
O uso do valor p
O valor p foi proposto pelo professor Ronald A. Fisher no começo do século XX (FISHER, 1958). Embora nada tenha a ver diretamente com o lema de Neyman-Pearson, o mesmo foi incorporado à rotina dos testes de hipóteses (NUZZO, 2014; WASSERSTEIN; LAZAR, 2016; DETMANN, 2021). Estritamente falando, esta incorporação seria indevida, pois valor p e valor α dizem respeito a coisas diferentes. Contudo, embora indevida, esta incorporação ocorreu e não há como retornar ao passado. Assim, no contexto desta aplicação adaptada, criou-se o confundimento entre o valor p e o valor α. Nas situações nas quais o valor p se mostra menor que o valor α, opta-se pela rejeição de H0. O valor p será igual ao valor α se, e somente se, os valores das estatísticas t crítica e t calculada forem idênticos.
Para o contexto de nosso exemplo, o valor p corresponderá à área sob a curva da distribuição t compreendida entre o valor de t calculado e +∞ (Figura 2)[3].
Com a incorporação do valor p ao teste, a conclusão pode ser reescrita como: “Rejeita-se H0 (p<0,05 ou p<0,04). A produção média de leite nas propriedades supera 15 kg/vaca/dia. Portanto, o programa de desenvolvimento da pecuária leiteira atingiu sua meta”.
Abordagem frequentista com a inclusão de conceitos Bayesianos
Há dois detalhes cruciais na abordagem frequentista dos testes de hipóteses. Em primeiro lugar, apenas a hipótese de nulidade é testada. O teste não estabelece nenhuma afirmativa sobre a hipótese alternativa, a qual serve apenas como orientadora das conclusões nos casos em que H0 não é suportada no confronto com as evidências empíricas (i.e., dados). Em segundo lugar, o valor p representa apenas uma expressão dos dados e não inclui nenhuma informação a priori sobre as hipóteses testadas.
De fato, o valor p não informa absolutamente nada sobre a probabilidade de alguma das hipóteses estar correta ou não. O que o valor p indica é apenas o grau de agregação entre os dados e o modelo matemático definido pela hipótese de nulidade (WASSERSTEIN; LAZAR, 2016; DETMANN, 2021). Neste caso, quanto mais desconexa a informação amostral em relação ao que afirma H0, menor será o valor p.

Figura 2 – Distribuição t de Student contextualizada segundo o exemplo de avaliação da produção média de leite em oito propriedades submetidas a um programa de desenvolvimento com o cômputo do valor p (ver texto para a correta contextualização dos valores).
A inconveniência de o valor p em si não informar nada diretamente sobre as hipóteses pode ser problemática para o pesquisador. Normalmente, a hipótese de pesquisa (i.e., hipótese científica) é traduzida ou materializada nos testes de hipóteses por intermédio de Ha. Logo, Ha representa, na grande maioria, embora não na totalidade dos casos, as expectativas do pesquisador quanto ao que se deseja submeter ao crivo da experiência. Neste sentido, apenas por intermédio da incorporação de conceitos Bayesianos é que maiores informações sobre a probabilidade de Ha estar correta podem ser obtidas. Isso demanda a união das informações amostrais com o conhecimento a priori sobre as chances de Ha estar correta para o adequado entendimento da probabilidade de Ha ser verdadeira.
Em palavras mais simples, o valor p dará a probabilidade do comportamento dos dados dado o que estabelecemos por intermédio das hipóteses estatísticas, notadamente H0. Logo, o valor p diz respeito especificamente ao comportamento dos dados considerando o que é afirmado pelas hipóteses estatísticas. Com um simples raciocínio, é fácil compreender que o que estamos buscando é o julgamento das hipóteses dado o comportamento dos dados obtidos; ou seja, o que buscamos (ou deveríamos buscar) é um raciocínio inverso ao que enxergamos quando olhamos para o valor p. O que realmente deveria importar é qual a probabilidade de uma hipótese ser verdadeira considerando os dados que obtivemos. Esta informação, para a maioria dos contextos de pesquisa, seria mais relevante com relação a Ha. O valor p isoladamente não nos diz nada sobre isso, pois associa-se a H0 e se refere ao comportamento dos dados considerando o que foi estabelecido por H0 (lembre-se do importante pressuposto destacado anteriormente).
Para enxergarmos o que realmente importa, precisamos inverter nossa forma de raciocínio e incorporar o conhecimento prévio sobre as hipóteses que estabelecemos. Este conhecimento prévio é denominado de informação a priori e é neste ponto que os fundamentos Bayesianos entram como ferramenta para a correta interpretação de testes de hipóteses.
Após algum desenvolvimento (optamos por não expor as demonstrações), a fundamentação Bayesiana nos conduz à equação geral (BENJAMIN, 2018):
(P(H_a |p=p_obs))/(P(H_0 |p=p_obs))=(f(p=p_obs |H_a))/(f(p=p_obs |H_0))×(P(H_a))/(P(H_0))⇔POR=FB×PRR (8);
em que: POR corresponde à razão de chances de Ha contra H0 a posteriori, FB corresponde ao fator de Bayes ou a razão de chances de Ha contra H0 fornecida pelos dados, e PRR corresponde à razão de chances de Ha contra H0 a priori.
Por intermédio da equação (8) podemos facilmente verificar que o entendimento seguro sobre a probabilidade de Ha estar correta somente pode ser obtido com uma abordagem conceitual Bayesiana do teste de hipóteses, na qual as probabilidades a posteriori (i.e., após o experimento) serão determinadas não somente pelas evidências apontadas pelos dados (i.e., no experimento), mas também pelas evidências prévias (i.e., a priori ou antes do experimento) que determinam a razão de chances de Ha estar correta contra H0 estar correta.
Neste sentido, o fator de Bayes representa a razão entre a verossimilhança dos dados observados sob a hipótese alternativa e a verossimilhança dos dados observados sob a hipótese de nulidade. Em outras palavras, o fator de Bayes indica a informação fornecida pelos dados e pode ser facilmente calculado a partir do valor p (uma vez que o valor representa um sumário estatístico dos dados) utilizando-se a equação (BENJAMIN; BERGER, 2019):
FB=1/(-e×p×ln(p)) (9);
em que e representa a base Neperiana.
Considerando o valor p obtido no exemplo anterior, o fator de Bayes será:
FB=1/(-e×0,035×ln(0,035))≅3,14⇔3,14/1 (10).
Assim, as evidências apontadas pelos dados (i.e., p = 0.035) indicam que a razão de chances de Ha estar correta em relação a H0 estar correta é de 3,14 para 1. Este é claramente um nível de evidência insuficiente para se afirmar categoricamente que o que é afirmado por Ha seja verdade, mesmo que tenhamos rejeitado H0 pelo lema de Neyman-Pearson.
A razão de chances pode ser facilmente convertida em probabilidades, apenas dividindo-se o número de casos favoráveis a Ha pelo número total de casos, ou seja:
P(p=p_obs│H_a )=3,14/(3,14+1)≅0,758⇔75,8% (11);
P(p=p_obs│H_0 )=1/(3,14+1)≅0.242⇔24,2% (12).
Esses cálculos sugerem que, apesar da rejeição de H0 com um valor p relativamente baixo (i.e., 0,035), as evidências apontadas exclusivamente pelos dados ainda indicam uma probabilidade alta (24,2%) de H0 ser verdadeira. Percebam que nenhuma probabilidade aqui remonta ao valor numérico de α.
Contudo, os cálculos acima não assimilam a influência das informações a priori sobre a estrutura de Ha. As evidências a priori representam a plausibilidade de Ha em relação a H0 (NUZZO, 2014) e se baseia nas crenças do cientista que a elabora, suportadas pelo consenso científico, por evidências validadas (BENJAMIN, 2018) e pelo uso correto do raciocínio lógico.
Vamos pressupor que a junção de todas estas ferramentas tenha produzido a priori uma razão de chances de 9:1 de Ha estar correta contra H0 estar correta. Considerando o mesmo valor p obtido no exemplo, obtemos:
P(p=p_obs│H_0 )=1/(3,14+1)≅0.242⇔24,2% (13).
Percebe-se claramente o impacto da correta e embasada elaboração de Ha no direcionamento da razão de chances a posteriori a seu favor. Convertendo-se a razão de chances em probabilidade a posteriori, temos:
P^Max (H_a│p=p_obs )=28,26/(28,26+1)≅0,965⇔96,5% (14);
em que PMax(Ha|p = pobs) representa a máxima probabilidade de Ha ser verdadeira ou, em termos menos ortodoxos, a máxima probabilidade de o efeito existir considerando o comportamento dos dados.
Do contrário, vamos pressupor que Ha tenha sido elaborada de maneira arbitrária sem o devido suporte de evidências a priori. Para isso, assumiremos uma razão de chances de 1:19. Desta forma:
(P(H_a |p=p_obs))/(P(H_0 |p=p_obs))=(f(p=p_obs |H_a))/(f(p=p_obs |H_0))×(P(H_a))/(P(H_0))=3,14/1×1/19=3,14/19=POR (15).
Convertendo a razão de chances (Equação 15) em probabilidade:
P^Max (H_a│p=p_obs )=3,14/(3,14+19)≅0,141⇔14,1% (16).
Desta forma, percebemos claramente o impacto das evidências a priori sobre a interpretação de um teste de hipóteses. Neste exemplo, o mesmo valor p pode levar a conclusões a posteriori distintas caso as evidências a priori façam parte ou não do planejamento experimental e da interpretação rigorosa do resultado do teste.
Pensando Ha e a melhor interpretação dos testes de hipóteses
Em geral, não somos usuários de procedimentos Bayesianos em testes de hipóteses e nem constitui nosso objetivo promover a aplicação de estatística Bayesiana em detrimento dos métodos frequentistas. Entendemos que os métodos frequentistas ainda constituem um paradigma importante na área de Zootecnia. O que advogamos com este artigo é a incorporação de conceitos Bayesianos no planejamento e interpretação de experimentos de forma a entendermos corretamente as conclusões a serem obtidas.
De forma resumida, o entendimento e utilização de informação a priori deve fazer parte das rotinas de planejamento experimental, pois isto definirá qual a verdadeira mensagem a ser retirada dos dados nos processos decisórios. O grande gargalo a que nos referimos é a hipótese de pesquisa.
Hipóteses de pesquisa figuram no campo das ideias e são, por consequência, não testáveis. Estas derivam de um processo hipotético-dedutivo no qual, o cientista, a partir das informações dadas pelo estado da arte e a partir da sua criatividade e de seu raciocínio lógico, elabora assertivas sobre a natureza. De forma simples, uma hipótese de pesquisa, deve ter quatro características básicas: 1. constitui uma afirmação (i.e., assertiva), 2. pode ser convertida em uma forma testável, 3. pode ser negada, e 4. deve fazer previsões.
Vamos imaginar a seguinte situação hipotética: você toma conhecimento de um novo aditivo para dietas de bovinos de corte confinados. Segundo as informações do estado da arte e usando o raciocínio calcado no seu próprio arcabouço de conhecimentos, você imagina que a inclusão do aditivo em questão é capaz de ampliar o desempenho produtivo de bovinos de corte em confinamento. Com isso, somos capazes de delinear a seguinte hipótese: a inclusão do aditivo na dieta de bovinos de corte confinados amplia seu desempenho produtivo.
Vamos checar as condições. Primeiro, vamos claramente que a hipótese é uma assertiva. Segundo, a mesma faz uma previsão ao afirmar que o desempenho se amplia. Terceiro, é fácil perceber que a mesma pode ser negada por evidências experimentais. A quarta condição é a testabilidade. Neste campo, devemos imaginar que a hipótese é uma afirmativa e as afirmativas em si não são testáveis experimentalmente. É preciso convertê-las em uma forma testável. Vamos fazer isso da forma mais simples possível.
Inicialmente, a hipótese de pesquisa se baseia em uma variável teórica: desempenho produtivo. O desempenho produtivo é um conceito e este não é testável. Será preciso materializá-lo no contexto da pesquisa por intermédio do uso de uma variável resposta operacional. Nesse caso, podemos assumir que o ganho médio diário (GMD) é uma variável operacional capaz de representar a variável teórica desempenho produtivo. O GMD é mensurável e, portanto, testável. Contudo, ainda precisamos resolver outro problema. A hipótese de pesquisa é uma assertiva e assertivas não são testáveis experimentalmente. Para garantir a testabilidade, materializamos nossa hipótese de pesquisa na forma de hipóteses estatísticas, as quais constituem equações e equações são testáveis.
Para definir as hipóteses, precisamos criar um cenário experimental que nos permita testar o que queremos. Neste caso, bastariam dois tratamentos, sendo um constituído por uma dieta basal e outro constituído pela mesma dieta, mas com a inclusão do aditivo. O contraste entre estes tratamentos com relação ao GMD nos daria uma condição operacional testável que nos conectaria à hipótese de pesquisa. Qual a pergunta então? O aditivo amplia o GMD? Se esta for a pergunta a ser respondida operacionalmente, nossas hipóteses estatísticas seriam:
H_0:μ_C-μ_S≤0 vs.H_a:μ_C-μ_S>0 (17a);
H_0:μ_C≤μ_S vs.H_a:μ_C>μ_S (17b);
em que μC é a média populacional com a presença do aditivo na dieta e μS é a média populacional sem a presença do aditivo na dieta. Usamos dois formatos possíveis para as hipóteses na equação (17), os quais são equivalentes no contexto do nosso exemplo hipotético.
Percebemos claramente que o exemplo representa o processo modal de elaboração de hipóteses estatísticas, no qual a hipótese de pesquisa está implícita (ou materializada) em Ha. Há casos diferentes, mas estes não serão abordados aqui.
A pergunta que se deve fazer é: quão plausível é Ha? Há evidências a priori que a suportem? Existe conhecimento científico que a suporte? Qual a plausabilidade de se pressupor que o aditivo é capaz de ampliar o desempenho produtivo dos animais? As respostas a estas perguntas importam muito para a intepretação dos resultados dos testes de hipóteses.
Vamos pressupor inicialmente um cenário no qual não há nenhuma evidência ou conhecimento a priori que suporte Ha; ou porque tal conhecimento não existe ou porque o cientista simplesmente não se importa. Neste caso, teríamos uma informação a priori totalmente não informativa. No melhor dos cenários, teríamos uma situação análoga ao lançamento de uma moeda: poder ser que sim, pode ser que não. Não se enganem, pois pode ser pior que isto. Vamos, contudo, assumir que este é o caso. Logo, a razão de chances a priori de Ha contra H0 seria de 1:1. Sob tal circunstância, a rejeição de H0 pelo teste de hipóteses com valor p de 0,049, por exemplo, nos indicaria que máxima probabilidade de Ha ser verdadeira seria algo próximo a 71%. Em outras palavras, mesmo com a rejeição, ainda haveria a probabilidade mínima próxima a 30% de H0 ser verdadeira (Figura 3). Isso indica um nível fraco de evidências a posteriori para suportar a conclusão em prol da existência de algum efeito benéfico do aditivo sobre o GMD e o desempenho produtivo.
Vamos definir como não informativa a situação na qual não existem informações a priori que permitam suportar sua hipótese de pesquisa e, consequentemente, suportar Ha. Assim, assumiríamos a razão de chances de 1:1 indicada no parágrafo anterior. O grande risco sobre as inferências, neste caso, residiria sobre a escolha do valor α, o qual, na maioria massiva dos casos assume o valor 0,05. Não despropositadamente, nosso exemplo se baseou em um valor p de 0,049. Ao adotar um valor α de 0,05, o pesquisador deve esperar rejeições de H0 com valores p inferiores, porém próximos a 0,05. Nesta faixa de valores p, sob condições não informativas, as probabilidades mínimas de H0 ser verdadeiras estarão próximas a 30%. Com isso, haverá a rejeição de H0 pelo lema de Neyman-Pearson, mas este virá associado a uma alta probabilidade de as inferências estarem incorretas. Vamos pressupor que você deseja uma probabilidade máxima de Ha estar correta próxima a 90% sob condições não informativas. Pelos valores mostrados na Figura 3, fica claro que a primeira medida para assegurar confiabilidade nas conclusões seria adotar valor α de 0,01. Em suma, para o caso de situações não informativas, a força das evidências em favor da existência do efeito somente poderia ser ampliada caso o valor p se aproximasse gradativamente de zero (Figura 3), o que demandaria o uso de um valor α condizente com essa perspectiva. Assim, uma questão ética pode ser relevada. Caso o pesquisador tenha plena consciência de que nenhuma evidência a priori suporte sua hipótese de pesquisa, a adoção deliberada de um valor α elevado pode representar apenas a busca por significância estatística sem as devidas preocupações com a veracidade das conclusões em si. Isso caracterizaria, indiretamente, o que denominados de p-hacking (STERLING, 1959; HEAD et al., 2015).
Contudo, cabe ressaltar que o valor p em si é uma variável aleatória e sua expressão após a realização do experimento não está sob o controle do pesquisador, uma vez que o valor p constitui expressão dos dados. Se não podemos (e não devemos) alterar o comportamento dos dados, como ampliar a força das evidências em favor de Ha em um experimento? A resposta é simples: com planejamento científico e experimental. Tentaremos demonstrar que o planejamento é capaz de atribuir força de evidências a priori à hipótese de pesquisa, o que permitiria atribuir confiabilidade às conclusões sem que um valor α de extremo rigor seja necessário.

Figura 3 – Máxima probabilidade de a hipótese alternativa ser verdadeira (PMax(Ha|p=pobs) em função do valor p e considerando a razão de chances a priori de Ha contra H0 de 1:1.
Como vimos anteriormente, na maioria massiva dos casos, Ha representa nada mais do que a materialização de nossa hipótese de pesquisa em uma forma testável. Então, tudo está conectado com o planejamento de nossa hipótese de pesquisa. Ao planejarmos e definirmos correta e consistentemente uma hipótese de pesquisa, atribuímos a essa força de evidências a priori. Com a sua expressão correta na forma de uma hipótese alternativa (para a maioria dos casos) e com a definição correta do conjunto de tratamentos (base para os contrastes experimentais), poderemos estabelecer razões de chances mais favoráveis a Ha. Com isso, sob a rejeição de H0, a probabilidade de H0 ser verdadeira será minimizada e a probabilidade de Ha ser verdadeira será maximizada pela junção do comportamento dos dados e das evidências a priori (Figura 4). Este planejamento depende estritamente da ação do pesquisador.
Como previamente ressaltado, as evidências a priori atribuirão a plausibilidade da hipótese de pesquisa e, consequentemente, a plausibilidade de Ha em relação a H0 (NUZZO, 2014). Estas se baseiam nas crenças do cientista que a elabora e são suportadas pelo consenso científico, por evidências validadas (BENJAMIN, 2018) e pelo uso correto do raciocínio lógico.
Por conseguinte, o planejamento de experimentos transcende ações corriqueiras como, por exemplo, a definição do número de unidades experimentais. Este deve envolver o uso da razão e o adequado conhecimento do estado da arte. Planejar adequadamente nossa hipótese de pesquisa possui íntima conexão com a confiabilidade das conclusões a serem retiradas do experimento. Adicionalmente, o uso de um conjunto de tratamentos ótimo e conectado com a testabilidade da hipótese constitui ferramenta indeclinável para que o teste da hipótese científica ocorra com o rigor e a confiabilidade necessários, implicando na construção de conclusões confiáveis. Neste sentido, a pergunta que nos cabe fazer para o fechamento desta discussão é: qual o esforço que estamos direcionando para a elaboração de nossas hipóteses de pesquisa e para a elaboração das condições de testabilidade das mesmas? Isso definirá o que estamos buscando ao olhar para o comportamento dos dados e o seu consequente valor p.

Figura 4 – Máxima probabilidade de a hipótese alternativa ser verdadeira (PMax(Ha|p=pobs) em função da razão de chances a priori de Ha contra H0 considerando p = 0,049.
[1] O valor de t crítico foi obtido por intermédio da função INV.T do Microsoft Excel.
[2] Os valores foram calculados usando o Microsoft Excel, considerando arredondamento apenas no valor final.
[3] O valor p foi calculado usando-se a função DIST.T.CD do Microsoft Excel.
Conflito de interesses
Os autores declaram a inexistência de conflitos de interesse na feitura do presente artigo.
Contribuição dos autores
Edenio Detmann – proposta do projeto, redação e revisão do manuscrito; Tadeu Eder da Silva – design das figuras, redação e revisão do manuscrito.
Referências bibliográficas
BENJAMIN, D. J. The strength of evidence from statistical significance and P values. University of Southern California, 2018 (unpublished seminar).
BENJAMIN, D. J.; BERGER, J. O. Three recommendations for improving the use of p-values. The American Statistician, v. 73, p. 186-191, 2019. https://doi.org/10.1080/00031305.2018.1543135
CASELA, G.; BERGER, R.L. Inferência Estatística. 2ª ed. São Paulo: Cengage Learning, 2010, 588p.
CECON, P. R.; SILVA, A. R.; NASCIMENTO, M.; FERREIRA, A. Métodos Estatísticos. Viçosa: Editora UFV, 212, 229p.
DETMANN, E. Não seja como as vaquinhas. Uma abordagem informal sobre formalidades dos experimentos com animais de produção. 2ª ed. Viçosa: Edenio Detmann, 2018, 373p.
DETMANN, E. Valor P: o que fizemos dele na experimentação zootécnica? Nutritime, v. 18, n. 1, p. 8866-8876, 2021. https://nutritime.com.br/artigos/artigo-533-valor-p-o-que-fizemos-dele-na-experimentacao-zootecnica/
FISHER, R. A. Statistical Methods for Research Workers. 13th ed. London: Oliver & Boid, 1958, 351p.
HEAD, M. L.; HOLMAN, L.; LANFEAR, R.; KAHN, A. T.; JENNIONS, M. D. The extent and consequences of p-hacking in science. PLOS Biology, v. 13, n. 3, p. 1-15, e1002106, 2015. http://doi.org/10.1371/journal.pbio.1002106
MORETTIN, L. G. Estatística Básica. Inferência. Volume 2. São Paulo: Makron Books, 2000, 182p.
NEYMAN, J.; PEARSON, E. S. On the problem of the most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society A, v. 231, p. 289-337, 1933. https://doi.org/10.1098/rsta.1933.0009
NUZZO, R. Scientific method: statistical errors. Nature, v. 506, p. 150-152, 2014. https://doi.org/10.1038/506150a
STERLING, T. D. Publication decisions and their possible effects on inferences drawn from tests of significance–or vice versa. Journal of the American Statistical Association, v. 54, n. 285, p. 30-34, 1959. https://doi.org/10.1080/01621459.1959.10501497
WASSERSTEIN, R. L.; LAZAR, N. A. The ASA statement on p-values: context, process, and purpose. The American Statistician, v. 70, p. 129-133, 2016. https://doi.org/10.1080/00031305.2016.1154108
Recebido em 6 de maio de 2025
Retornado para ajustes em 24 de junho de 2025
Recebido com ajustes em 24 de junho de 2025
Aceito em 26 de junho de 2025