Sem sombra de dúvidas, o modelo para a distribuição de uma variável aleatória mais utilizado é o de distribuição normal.
A maior parte de características ou processos naturais tendem a seguir a distribuição normal. Dizer que uma população possui alguma característica que segue uma distribuição normal significa, em termos simples, que os valores desta característica tendem à sua média; haverão muito mais valores próximos da média para esta característica do que valores extremos, aqueles muito maiores ou menores que a média da população. Por exemplo, a altura dos seres humanos tem distribuição normal. Existem pessoas altas e baixas, mas há mais pessoas cuja altura seja próxima da média do que pessoas muito mais altas ou muito mais baixas que esta média. Não vemos muitos "anões" ou "gigantes" andando por aí.
Uma gama de outros processos naturais seguem a distribuição normal. Esta distribuição surge no estudo de numerosos fenômenos físicos básicos. Por exemplo, o físico Maxwell desenvolveu uma distribuição normal a partir de suposições simples a cerca das velocidades de moléculas.
Mas provavelmente a maior importância da distribuição normal se deve ao resultado fundamental conhecido como Teorema Central do Limite. Este teorema estabelece que sempre que um experimento aleatório é replicado, a variável aleatória que equivale ao resultado médio (ou total) sobre as repetições tende a ter uma distribuição normal enquanto o número de repetições fica largo. Este resultado é notável porque nos permite conduzir alguns procedimentos de inferência estatística sem o conhecimento da distribuição da população.
Uma variável aleatória X com função densidade de probabilidade
O Teorema Fundamental do Cálculo afirma que
Então, dado F(x),
desde que a derivada exista.
A função de distribuição cumulativa de uma variável aleatória X resulta, então, nos valores acumulados de probabilidade desta variável aleatória até um determinado valor x, ou seja, P(X ≤ x).
Para a distribuição de uma variável aleatória normal padrão, há um valor z associado a cada probabilidade. Esta probabilidade representa a área sob a curva da distribuição padrão precedente a este valor z.
Por exemplo, com as probabilidades de z = 1 e z = −1:
A maior parte de características ou processos naturais tendem a seguir a distribuição normal. Dizer que uma população possui alguma característica que segue uma distribuição normal significa, em termos simples, que os valores desta característica tendem à sua média; haverão muito mais valores próximos da média para esta característica do que valores extremos, aqueles muito maiores ou menores que a média da população. Por exemplo, a altura dos seres humanos tem distribuição normal. Existem pessoas altas e baixas, mas há mais pessoas cuja altura seja próxima da média do que pessoas muito mais altas ou muito mais baixas que esta média. Não vemos muitos "anões" ou "gigantes" andando por aí.
Uma gama de outros processos naturais seguem a distribuição normal. Esta distribuição surge no estudo de numerosos fenômenos físicos básicos. Por exemplo, o físico Maxwell desenvolveu uma distribuição normal a partir de suposições simples a cerca das velocidades de moléculas.
Mas provavelmente a maior importância da distribuição normal se deve ao resultado fundamental conhecido como Teorema Central do Limite. Este teorema estabelece que sempre que um experimento aleatório é replicado, a variável aleatória que equivale ao resultado médio (ou total) sobre as repetições tende a ter uma distribuição normal enquanto o número de repetições fica largo. Este resultado é notável porque nos permite conduzir alguns procedimentos de inferência estatística sem o conhecimento da distribuição da população.
Definição
Uma variável aleatória X com função densidade de probabilidade
é uma variável aleatória normal com parâmetros µ, onde −∞ ˂ µ ˂ ∞, e σ ˃ 0. Além disso,
E(X) = µ e V(X) = σ²
sendo E(X) a média ou valor experado de X, e V(X) a variância de X. E a notação N(µ,σ²) é usada para indicar a distribuição.
Continuando...
Variáveis aleatórias com diferentes médias e variâncias podem ser modeladas por funções de densidade de probabilidade normal com escolhas aprorpiadas de centro e largura da curva. O valor de E(X) = µ determina o centro da função de densidade de probabilidade e o valor de V(X) = σ² determina a largura. A figura 1 mostra algumas funções de densidade de probabilidade normal com valores selecionados de µ e σ². Cada uma das curvas possui a forma de sino simétrica característica, mas os centros e dispersões são diferentes.
Figura 1: Funções de densidade de probabilidade normal para valores selecionados dos parâmetros µ e σ². (Fonte: APAP101, 2010) |
Alguns resultados úteis acerca da distribuição normal são resumidos abaixo e na figura 2. Para qualquer variável aleatória normal,
P(µ − σ < X < µ + σ) = 0,6827
P(µ − 2σ < X < µ + 2σ) = 0,9545
P(µ − 3σ < X < µ + 3σ) = 0,9973
P(µ − 4σ < X < µ + 4σ) = 0,9999
Figura 2: Probabilidades associadas à distribuição normal. (Fonte: Portal Action, 2015) |
Lembrando que a área sob uma curva de uma função de densidade de probabilidade representa a probabilidade de um evento ocorrer em um intervalo definido. Temos então, pela figura 2, que 99,73% da probabilidade de uma distribuição normal está dentro do intervalo (µ − 3σ, µ + 3σ). Por isso 6σ é frequentemente referido como sendo a largura de uma distribuição normal. Métodos de integração avançados podem ser usados para mostrar que a área sob a função de densidade de probabilidade normal de −∞ ˂ x ˂ ∞ é 1.
Variável aleatória normal padrão
Uma variável aleatória normal com
µ = 0 e σ² = 1
é chamada variável aleatória normal padrão e é designada por Z. A função de distribuição cumulativa de uma variável aleatória normal padrão é denotada por
Função de distribuição cumulativa
Sendo f(x) a função de densidade de probabilidade de uma variável X, a função de distribuição cumulativa para a variável X, F(x), é
O Teorema Fundamental do Cálculo afirma que
Então, dado F(x),
desde que a derivada exista.
A função de distribuição cumulativa de uma variável aleatória X resulta, então, nos valores acumulados de probabilidade desta variável aleatória até um determinado valor x, ou seja, P(X ≤ x).
Continuando...
Para a distribuição de uma variável aleatória normal padrão, há um valor z associado a cada probabilidade. Esta probabilidade representa a área sob a curva da distribuição padrão precedente a este valor z.
Figura 3: Probabilidade acumulada para um valor z de 2,0 da distribuição normal padrão. (Fonte: Métodos Quantitativos em Medicina - USP, 2000) |
A figura 3 mostra a curva de distribuição normal padrão e a probabilidade acumulada associada ao valor z de 2, representada pela área sobreada sob a curva. Não existe alguma expressão simples para a integral de uma função de densidade de probabiliade normal, e valores de probabilidade acumulada baseadas na distribuição normal padrão são tipicamente encontrados numericamente ou a partir de uma tabela.
A tabela 1 ilustra algumas probabiliades acumuladas para uma variável aleatória padrão. As linhas destas tabelas possuem os valores de z, e as colunas se referem ao dígito centesimal. Por exemplo, para um valorm de z = 1,5 o valor da probabiliade acumulada é de 0,93319. Para um valor de z = 1,53 a probabilidade é de 0,93699.
Com o uso de uma tabela de distribuição normal padrão cumulativa podemos verificar os resultados apresentados pela figura 2. Sabendo que Z possui µ = 0 e σ = 1, temos que
P(µ − σ < Z < µ + σ) =
Tabela 1: Exemplo de probabilidades acumuladas para uma variável aleatória nomal padrão. |
A tabela 1 ilustra algumas probabiliades acumuladas para uma variável aleatória padrão. As linhas destas tabelas possuem os valores de z, e as colunas se referem ao dígito centesimal. Por exemplo, para um valorm de z = 1,5 o valor da probabiliade acumulada é de 0,93319. Para um valor de z = 1,53 a probabilidade é de 0,93699.
Com o uso de uma tabela de distribuição normal padrão cumulativa podemos verificar os resultados apresentados pela figura 2. Sabendo que Z possui µ = 0 e σ = 1, temos que
P(−1 < Z < 1) =
P(Z < 1) − P(Z < −1)
Consultando uma tabela temos que P(Z < 1) = 0,841345 e
P(Z< −1) = 0,158655. Assim,
P(Z < 1) − P(Z< −1) =
0,841345 − 0,158655 = 0,68269
O que equivale ao resultado apresentado na figura 2. O mesmo pode ser feito para conferir os demais intervalos.
É importante notar que
P(Z < z) + P(Z < −z) = 1
É importante notar que
P(Z < z) + P(Z < −z) = 1
Por exemplo, com as probabilidades de z = 1 e z = −1:
P(Z < 1) + P(Z< −1) =
0,841345 + 0,158655 = 1,00000
Isto se deve ao fato da distribuição normal ser simétrica.
O exemplo precedente mostra como calcular probabilidades para variáveis aleatórias normais padrão. Para usar a mesma aproximação para qualquer variável aleatória normal arbitrária seria necessário uma tabela para cada par de possíveis valores para µ e σ. Felizmente, todas as distribuições de probabilidade normal são relacionadas algebricamente, e as tabelas de probabilidades acumuladas para a variável aleatória normal padrão podem ser utilizadas para encontrar as probabilidades associadas com qualquer variável aleatória normal arbitrária usando antes uma transformação simples.
Se X é uma variável aleatória normal com E(X) = µ e V(X) = σ², a variável aleatória
é uma variável aleatória normal com E(Z) = 0 e V(Z) = 1. Ou seja, Z é uma variável aleatória normal padrão.
Criar uma nova variável aleatória através desta transformação é designado por padronização. A variável aleatória Z representa a distância de X de sua média em termos de desvios padrão. Esta é a chave para calcular uma probabilidade para uma variável aleatória padrão arbitrária.
Conhecer a distribuição normal é importante por esta ser a distribuição mais comum associada aos mais diversos fenômenos naturais, e o resultado estabelecido pelo Teorema Central do Limite acentua ainda mais sua importância.
Em fato quando falamos sobre algo e mencionamos a sua média, esta informação por sí só não nos dirá muito. É mais interessante termos alguma medida de dispersão (variância ou desvio padrão) associada à esta medida, pois assim teremos uma idéia completa da magnitude deste objeto de estudo. Mesmo não conhecendo a distribuição desta população, o Teorema Central do Limite, associado com os resultados observados na figura 1, nos diriam por exemplo que 70% dos valores desta população estão entre ± 1σ.
ABAP101. Emprego para a área de TI está sobrando? Disponível em: <http://abap101.com/2010/03/24/emprego-para-area-de-ti-esta-sobrando/>. Acesso em: 01 de maio de 2015.
Métodos Quantitativos em Medicina - USP. Distribuições Estatísticas. Disponível em: <http://www2.fm.usp.br/dim/diststat/index.php>. Acesso em: 01 de maio de 2015.
MONTGOMERY, D. C.; RUNGER, G. C. Applied Statistics and Probability for Engineers. 4th edition. John Wiley & Sons, 2007.
Portal Action. Distribuição Normal. Disponível em: <http://www.portalaction.com.br/probabilidades/62-distribuicao-normal>. Acesso em: 01 de maio de 2015.
Isto se deve ao fato da distribuição normal ser simétrica.
Padronizando uma variável normal aleatória
O exemplo precedente mostra como calcular probabilidades para variáveis aleatórias normais padrão. Para usar a mesma aproximação para qualquer variável aleatória normal arbitrária seria necessário uma tabela para cada par de possíveis valores para µ e σ. Felizmente, todas as distribuições de probabilidade normal são relacionadas algebricamente, e as tabelas de probabilidades acumuladas para a variável aleatória normal padrão podem ser utilizadas para encontrar as probabilidades associadas com qualquer variável aleatória normal arbitrária usando antes uma transformação simples.
Se X é uma variável aleatória normal com E(X) = µ e V(X) = σ², a variável aleatória
é uma variável aleatória normal com E(Z) = 0 e V(Z) = 1. Ou seja, Z é uma variável aleatória normal padrão.
Criar uma nova variável aleatória através desta transformação é designado por padronização. A variável aleatória Z representa a distância de X de sua média em termos de desvios padrão. Esta é a chave para calcular uma probabilidade para uma variável aleatória padrão arbitrária.
Considerações Finais
Conhecer a distribuição normal é importante por esta ser a distribuição mais comum associada aos mais diversos fenômenos naturais, e o resultado estabelecido pelo Teorema Central do Limite acentua ainda mais sua importância.
Em fato quando falamos sobre algo e mencionamos a sua média, esta informação por sí só não nos dirá muito. É mais interessante termos alguma medida de dispersão (variância ou desvio padrão) associada à esta medida, pois assim teremos uma idéia completa da magnitude deste objeto de estudo. Mesmo não conhecendo a distribuição desta população, o Teorema Central do Limite, associado com os resultados observados na figura 1, nos diriam por exemplo que 70% dos valores desta população estão entre ± 1σ.
Referências
ABAP101. Emprego para a área de TI está sobrando? Disponível em: <http://abap101.com/2010/03/24/emprego-para-area-de-ti-esta-sobrando/>. Acesso em: 01 de maio de 2015.
Métodos Quantitativos em Medicina - USP. Distribuições Estatísticas. Disponível em: <http://www2.fm.usp.br/dim/diststat/index.php>. Acesso em: 01 de maio de 2015.
MONTGOMERY, D. C.; RUNGER, G. C. Applied Statistics and Probability for Engineers. 4th edition. John Wiley & Sons, 2007.
Portal Action. Distribuição Normal. Disponível em: <http://www.portalaction.com.br/probabilidades/62-distribuicao-normal>. Acesso em: 01 de maio de 2015.