Distribuição Hipergeométrica
Introdução
A distribuição hipergeométrica é uma distribuição de probabilidade discreta que modela o número de sucessos em uma amostra retirada sem reposição de uma população finita. Ela é fundamental para entender situações onde a amostragem sem reposição afeta as probabilidades de cada tentativa subsequente, diferindo significativamente da distribuição binomial. Este artigo apresenta uma análise completa e profunda da distribuição hipergeométrica.
O que é a Distribuição Hipergeométrica?
A distribuição hipergeométrica descreve o número de sucessos em n tentativas realizadas sem reposição de uma população finita de tamanho N, onde existem K sucessos possíveis na população total.
Condições para Distribuição Hipergeométrica
Para que uma situação seja modelada por uma distribuição hipergeométrica, devem ser atendidas as seguintes condições:
- 1. População finita (N): A população tem um tamanho fixo e conhecido
- 2. Sucessos na população (K): Existem K sucessos na população total
- 3. Amostra sem reposição (n): Retiramos n elementos sem devolvê-los
- 4. Probabilidade variável: A probabilidade muda após cada retirada
Diferença Fundamental: Binomial vs Hipergeométrica
⚠️ Diferença Crucial
Binomial
- • Com reposição
- • Probabilidade constante
- • Tentativas independentes
- • População infinita (ou muito grande)
Hipergeométrica
- • Sem reposição
- • Probabilidade variável
- • Tentativas dependentes
- • População finita
Fórmula da Distribuição Hipergeométrica
A função de probabilidade da distribuição hipergeométrica é dada por:
Função de Probabilidade
P(X = k) = [C(K,k) × C(N-K, n-k)] / C(N,n)- • X: Variável aleatória (número de sucessos na amostra)
- • k: Número de sucessos desejado (0 ≤ k ≤ min(n, K))
- • N: Tamanho da população total
- • K: Número de sucessos na população
- • n: Tamanho da amostra
- • C(a,b): Coeficiente binomial (combinações)
Notação e Parâmetros
Notação Padrão
X ~ Hipergeométrica(N, K, n)Lê-se: "X segue uma distribuição hipergeométrica com parâmetros N, K e n"
Parâmetros da Distribuição
Parâmetro N
Tamanho da população: Número total de elementos na população. Deve ser um inteiro positivo.
Parâmetro K
Sucessos na população: Número de elementos de interesse na população. Deve satisfazer 0 ≤ K ≤ N.
Parâmetro n
Tamanho da amostra: Número de elementos retirados sem reposição. Deve satisfazer 0 ≤ n ≤ N.
Média e Variância
As medidas de tendência central e dispersão da distribuição hipergeométrica:
Estatísticas Fundamentais
Média (Valor Esperado)
E[X] = μ = n × (K/N)O número esperado de sucessos na amostra.
Variância
Var(X) = σ² = n × (K/N) × ((N-K)/N) × ((N-n)/(N-1))O fator de correção (N-n)/(N-1) aparece devido à amostragem sem reposição.
Desvio Padrão
σ = √Var(X)Interpretação da Fórmula
A fórmula hipergeométrica pode ser entendida como:
Interpretação Combinatória
- • C(K,k): Formas de escolher k sucessos dos K disponíveis
- • C(N-K, n-k): Formas de escolher (n-k) falhas dos (N-K) disponíveis
- • C(N,n): Total de formas de escolher n elementos de N
- • Quociente: Probabilidade = (Casos favoráveis) / (Casos possíveis)
Exemplos Práticos Detalhados
Exemplo 1: Controle de Qualidade
Problema
Em um lote de 100 produtos, 20 são defeituosos. Se inspecionarmos 10 produtos aleatoriamente sem reposição, qual é a probabilidade de encontrar exatamente 3 produtos defeituosos?
Solução
- • N = 100 (tamanho da população)
- • K = 20 (número de defeituosos na população)
- • n = 10 (tamanho da amostra)
- • k = 3 (número de defeituosos desejado)
- • P(X = 3) = [C(20,3) × C(80,7)] / C(100,10)
- • P(X = 3) = [1.140 × 3.176.716.400] / 17.310.309.456.440
- • P(X = 3) ≈ 0.209
A probabilidade de encontrar exatamente 3 produtos defeituosos é aproximadamente 20,9%.
Exemplo 2: Amostragem de Cartas
Problema
De um baralho de 52 cartas, 13 são espadas. Se retirarmos 5 cartas sem reposição, qual é a probabilidade de obter exatamente 2 espadas?
Solução
- • N = 52 (total de cartas)
- • K = 13 (espadas no baralho)
- • n = 5 (cartas retiradas)
- • k = 2 (espadas desejadas)
- • P(X = 2) = [C(13,2) × C(39,3)] / C(52,5)
- • P(X = 2) = [78 × 9.139] / 2.598.960
- • P(X = 2) ≈ 0.274
A probabilidade de obter exatamente 2 espadas é aproximadamente 27,4%.
Exemplo 3: Pesquisa Eleitoral
Problema
Em uma cidade com 10.000 eleitores, 4.000 pretendem votar no candidato A. Se realizarmos uma pesquisa com 100 eleitores selecionados aleatoriamente (sem reposição), qual é a probabilidade de que exatamente 45 votem no candidato A?
Solução
- • N = 10.000 (total de eleitores)
- • K = 4.000 (eleitores do candidato A)
- • n = 100 (tamanho da amostra)
- • k = 45 (votos no candidato A desejados)
- • P(X = 45) = [C(4.000,45) × C(6.000,55)] / C(10.000,100)
- • P(X = 45) ≈ 0.048
A probabilidade de exatamente 45 eleitores votarem no candidato A é aproximadamente 4,8%.
Comparação: Hipergeométrica vs Binomial
Quando Usar Cada Uma
| Critério | Hipergeométrica | Binomial |
|---|---|---|
| Amostragem | Sem reposição | Com reposição |
| População | Finita (pequena) | Infinita (ou muito grande) |
| Probabilidade | Varia após cada retirada | Constante em cada tentativa |
| Variância | Menor (fator de correção) | Maior |
Aproximação pela Distribuição Binomial
Quando a população é muito grande em relação à amostra, a distribuição hipergeométrica pode ser aproximada pela distribuição binomial:
Condição para Aproximação
Se n/N < 0.05 (amostra é menor que 5% da população), podemos usar:
X ≈ Binomial(n, p = K/N)Nesse caso, a amostragem sem reposição se comporta aproximadamente como amostragem com reposição.
Aplicações Práticas
Áreas de Aplicação
- • Controle de Qualidade: Inspeção de lotes finitos sem reposição
- • Auditoria: Verificação de documentos em uma população finita
- • Pesquisas de Opinião: Amostragem sem reposição de populações finitas
- • Testes de Conformidade: Verificação de itens em lotes
- • Jogos de Cartas: Probabilidades em jogos onde cartas não são devolvidas
- • Amostragem de Processos: Quando a população é limitada
Limitações e Cuidados
⚠️ Quando NÃO Usar a Distribuição Hipergeométrica
- • Amostragem com reposição: Use distribuição binomial
- • População muito grande: Se n/N < 0.05, use aproximação binomial
- • Amostra maior que população: Matematicamente impossível
- • Mais de dois resultados: Use distribuição hipergeométrica multivariada
Extensões e Variações
Distribuição Hipergeométrica Multivariada
Quando há mais de duas categorias na população:
Estende o conceito para múltiplas categorias simultaneamente, permitindo modelar situações mais complexas.
Conclusão
A distribuição hipergeométrica é essencial para modelar situações onde a amostragem sem reposição afeta as probabilidades. Ela é fundamental em controle de qualidade, auditoria, pesquisas eleitorais e muitas outras áreas onde trabalhamos com populações finitas.
Compreender a diferença entre distribuição hipergeométrica e binomial é crucial para escolher o modelo apropriado. Quando a amostra é pequena em relação à população (n/N < 0.05), ambas fornecem resultados semelhantes, mas para amostras maiores, a diferença se torna significativa.
Lembre-se: a distribuição hipergeométrica é apropriada quando temos amostragem sem reposição de uma população finita. Se a população é muito grande ou se a amostragem é com reposição, considere usar a distribuição binomial.