William Sealy Gosset foi um funcionário da Cervejaria Guinness, da Irlanda. Graduado em química e matemática, aplicava seu conhecimeno em estatística na seleção das melhores variedades de cevada. Trabalhando em um problema acerca da concentração ideal de leveduras na produção de cerveja, e em como determinar o valor médio real (média populacional) destas concentrações a partir de amostras pequenas, desenvolveu a distribuição t de Student, motivo pelo qual ficou conhecido.
A Cervejaria Guinness possuía uma política rigorosa que proibia seus funcionários de publicarem quaisquer artigos, independentemente de qualquer conteúdo. Isto devido a um incidente em que um pesquisador da empresa publicou informações secretas em um artigo. Para publicar seus trabalhos com conclusões estatísticas e filosóficas, William Gosset adotou um pseudônimo, "Student". Sob este pseudônimo passou a publicar na revista Biometrika, de seu amigo Karl Pearson.
Karl Pearson defendia que um grande número de medições (maiores amostras) eram necessárias para estimar os parâmetros da distribuição de uma população. Gosset, porém, estava interessado em estimar estes parâmetros a partir de amostras pequenas. Os resultados de suas investigações acerca deste problema foram apresentados no célebre "The probable error of a mean" (O erro provável de uma média) em que a distribuição t de Student (como ficou conhecida) aparece pela primeira vez.
Variância amostral, variância populacional e graus de liberdade
Se X1, X2,..., Xn é uma amostra de n observações, a variância amostral é
A variância amostral mede a dispersão dos valores das observações de uma amostra em torno da média desta amostra. Análoga à variância amostral S², a variabilidade em uma população é definida pela variância populacional (σ²). Quando a população é finita e consiste de N observações
Perceba que o divisor para a variância amostral é o tamanho da amostra menos um (n - 1), enquanto que para a variância populacional é o tamanho da população (N). Se conhecêsse-mos o valor verdadeiro da média populacional µ, poderíamos encontrar a variância amostral como a média dos quadrados ddos desvios das observações da amostra em torno de µ. Na prática, o valor de µ é quase sempre desconhecido, então a soma dos quadrados dos desvios em torno da média amostral precisa ser usada ao invés. Todavia, as observações Xi tendem a ser mais próximas da sua média, a média amostral, do que da média populacional. Então, para compensar isto, nós usamos n - 1 como o divisor ao invés de n. Se usássemos n como o divisor na variância amostral, poderíamos obter uma medida de variabilidade que é, em média, consistentemente menor que a verdadeira variância populacional σ².
Outra forma de pensar sobre isto é considerar a variância amostral S² como sendo baseada em n - 1 graus de liberdade. O termo graus de liberdade resulta do fato que n desvios
sempre somam zero, então ao especificarmos os valores de quaisquer n - 1 destas quantidades automaticamente a remanescente é determinada. Então, somente n - 1 destes desvios são livremente determinados. Veja a tabela 1. Neste exemplo o valor da média amostral é 13,0. A variância amostral é, então, 1,6/(8 - 1) = 0,23.
Tabela 1: Exemplo de cálculo de variância amostral.
Distribuição t
Suponha que a população de interesse tenha distribuição normal com média desconhecida µ e variância desconhecida σ². Suponha que uma amostra aleatória de tamanho n, digamos, X1, X2,..., Xn, está disponível, e sejam
a média e a variância amostrais, respectivamente.
Queremos construir um intervalo de confiança de dois lados para µ. Se a variância σ² é conhecida, sabemos que
tem uma distribuição normal padrão. Quando σ² é desconhecida, um procedimento lógico é substituir σ pelo desvio padrão amostral S. A variável aleatória Z agora é
Uma questão lógica é qual o efeito da substituição σ por S tem na distribuição da variável aleatória T? Se n é grande, a resposta para esta pergunta é "muito pouco", e poderíamos proceder no uso do intervalo de confiança baseado na distribuição normal. Porém, n é frequentemente pequeno na maior parte dos problemas de engenharia, e nesta situação uma distribuição diferente deve ser empregada para construir o intervalo de confiança.
Definição
Seja X1, X2,..., Xn uma amostra aleatória de uma população com distribuição normal com média µ e variância σ² desconhecidas. A variável aleatória
tem uma distribuição t com n - 1 graus de liberdade. A função densidade de probabilidade t é
onde k é o número de graus de liberdade e Γ é a Função Gama. A média e a variância da distribuição t são 0 e k/(k - 2) (para k > 2), respectivamente.
Comentários
A aparência geral da distribuição t é similar à distribuição normal padrão. Ambas são simétricas e unimodais, e têm o valor ordenado máximo quando a média µ = 0. Porém, a distribuição t tem caudas mais pesadas que a normal; ou seja, tem mais probabilidade nas caudas que a distribuição normal. Observe a figura 1.
Figura 1: Distribuições t com diferentes graus de liberdade e Distribuição Normal Padrão. (Fonte: Biometria UFPA, 2015) |
A medida que o número de graus de liberdade de k→∞, a forma limitante da distribuição t é a distribuição normal padrão. Em geral, o número de graus de liberdade para t é o número de graus de liberdade associado com o desvio padrão estimado.
Tabelas da distribuição t provêem pontos percentuais. Seja tα,k o valor da variável aleatória T com k graus de liberdade acima do qual encontramos uma área (ou probabilidade) α. Então, tα,k é um ponto percentual da distribuição t para o qual a cauda superior tenha 100α área, com k graus de liberdade. Este ponto percentual é mostrado na figura 2.
Nas tabelas de distribuição t, os valores de α são mostrados no cabeçalho, e os graus de liberdade na coluna esquerda. Observe a tabela 2.
Tabela 2: Exemplo de tabela da distribuição t-Student.
Para ilustrar o uso de uma destas tabelas, note que o valor t com 10 graus de liberdade tendo uma área de 0,05 para a direita é t0,05;10 = 1,812. Ou seja,
Desde que a distribuição t é simétrica em torno de zero, temos que t1-α,n = -tα,n; ou seja, o valor t tendo uma área de 1 - α para a direita (e portanto uma area de α para a esquerda) é igual ao negativo do valor t que tem área α na cauda direita da distribuição. Portanto, t0,95;10 = -t0,05;10 = -1,812. Finalmente, por causa do fato de tα,∞ ser a distribuição normal padrão, os valores de Zα aparecem na última linha das tabelas.
é t com n - 1 graus de liberdade. Sendo tα/2,n-1 o ponto percentual superior 100α/2 da distribuição t com n - 1 graus de liberdade, podemos escrever
ou
Rearranjando esta última equação resulta em
Isto resulta na seguinte definição do 100(1 - α)% intervalo de confiança de dois lados em µ.
são a média e a variância amostral de uma amostra aleatória de uma distribuição normal com variância desconhecida σ², um 100(1 - α)% intervalo de confiança para µ é dado por
onde tα/2,n-1 é o ponto percentual superior 100α/2 da distribuição t com n - 1 graus de liberdade.
Há uma distribuição t diferente para cada valor de graus de liberdade. Cada linha na tabela 2 é, essencialmente, uma distribuição diferente.
Biometria UFPA. Teste t para
dados emparelhados. Disponível em:
<http://www.ufpa.br/dicas/biome/biomed.htm>. Acesso em: 03 de
setembro de 2015.
MONTGOMERY, D. C.; RUNGER, G. C. Applied Statistics and Probability for Engineers. 4th edition. John Wiley & Sons, 2007.
SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no século XX. Tradução José Maurício Gradel; revisão técnica Suzana Herculano-Houzel. Rio de Janeiro: Zahar, 2009.
STEEL, R.G.D. et al. Principles and procedures of Statistics: a biometrical approach. 3rd edition. McGraw Hill, 1997.
Figura 2: Ponto percentual t. |
Nas tabelas de distribuição t, os valores de α são mostrados no cabeçalho, e os graus de liberdade na coluna esquerda. Observe a tabela 2.
Tabela 2: Exemplo de tabela da distribuição t-Student.
Para ilustrar o uso de uma destas tabelas, note que o valor t com 10 graus de liberdade tendo uma área de 0,05 para a direita é t0,05;10 = 1,812. Ou seja,
Desde que a distribuição t é simétrica em torno de zero, temos que t1-α,n = -tα,n; ou seja, o valor t tendo uma área de 1 - α para a direita (e portanto uma area de α para a esquerda) é igual ao negativo do valor t que tem área α na cauda direita da distribuição. Portanto, t0,95;10 = -t0,05;10 = -1,812. Finalmente, por causa do fato de tα,∞ ser a distribuição normal padrão, os valores de Zα aparecem na última linha das tabelas.
Intervalo de confiança para µ
Sabemos que a distribuição de
é t com n - 1 graus de liberdade. Sendo tα/2,n-1 o ponto percentual superior 100α/2 da distribuição t com n - 1 graus de liberdade, podemos escrever
ou
Rearranjando esta última equação resulta em
Isto resulta na seguinte definição do 100(1 - α)% intervalo de confiança de dois lados em µ.
Intervalo de confiança para a média, variância desconhecida
Se
são a média e a variância amostral de uma amostra aleatória de uma distribuição normal com variância desconhecida σ², um 100(1 - α)% intervalo de confiança para µ é dado por
onde tα/2,n-1 é o ponto percentual superior 100α/2 da distribuição t com n - 1 graus de liberdade.
Considerações finais
Limites de confiança unilaterais para a média de uma distribuição normal também são de interesse e são fáceis de encontrar. Simplesmente use somente o apropriado limite de confiança inferior ou superior da equação anterior e substitua tα/2,n-1 por tα,n-1.
Há uma distribuição t diferente para cada valor de graus de liberdade. Cada linha na tabela 2 é, essencialmente, uma distribuição diferente.
Referências
MONTGOMERY, D. C.; RUNGER, G. C. Applied Statistics and Probability for Engineers. 4th edition. John Wiley & Sons, 2007.
SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no século XX. Tradução José Maurício Gradel; revisão técnica Suzana Herculano-Houzel. Rio de Janeiro: Zahar, 2009.
STEEL, R.G.D. et al. Principles and procedures of Statistics: a biometrical approach. 3rd edition. McGraw Hill, 1997.