Distribuição Hipergeométrica

📊 Estatística⏱️ 15 min de leitura📅 Última atualização: 14/01/2025

Introdução

A distribuição hipergeométrica é uma distribuição de probabilidade discreta que modela o número de sucessos em uma amostra retirada sem reposição de uma população finita. Ela é fundamental para entender situações onde a amostragem sem reposição afeta as probabilidades de cada tentativa subsequente, diferindo significativamente da distribuição binomial. Este artigo apresenta uma análise completa e profunda da distribuição hipergeométrica.

O que é a Distribuição Hipergeométrica?

A distribuição hipergeométrica descreve o número de sucessos em n tentativas realizadas sem reposição de uma população finita de tamanho N, onde existem K sucessos possíveis na população total.

Condições para Distribuição Hipergeométrica

Para que uma situação seja modelada por uma distribuição hipergeométrica, devem ser atendidas as seguintes condições:

  • 1. População finita (N): A população tem um tamanho fixo e conhecido
  • 2. Sucessos na população (K): Existem K sucessos na população total
  • 3. Amostra sem reposição (n): Retiramos n elementos sem devolvê-los
  • 4. Probabilidade variável: A probabilidade muda após cada retirada

Diferença Fundamental: Binomial vs Hipergeométrica

⚠️ Diferença Crucial

Binomial

  • • Com reposição
  • • Probabilidade constante
  • • Tentativas independentes
  • • População infinita (ou muito grande)

Hipergeométrica

  • • Sem reposição
  • • Probabilidade variável
  • • Tentativas dependentes
  • • População finita

Fórmula da Distribuição Hipergeométrica

A função de probabilidade da distribuição hipergeométrica é dada por:

Função de Probabilidade

P(X = k) = [C(K,k) × C(N-K, n-k)] / C(N,n)
  • X: Variável aleatória (número de sucessos na amostra)
  • k: Número de sucessos desejado (0 ≤ k ≤ min(n, K))
  • N: Tamanho da população total
  • K: Número de sucessos na população
  • n: Tamanho da amostra
  • C(a,b): Coeficiente binomial (combinações)

Notação e Parâmetros

Notação Padrão

X ~ Hipergeométrica(N, K, n)

Lê-se: "X segue uma distribuição hipergeométrica com parâmetros N, K e n"

Parâmetros da Distribuição

Parâmetro N

Tamanho da população: Número total de elementos na população. Deve ser um inteiro positivo.

Parâmetro K

Sucessos na população: Número de elementos de interesse na população. Deve satisfazer 0 ≤ K ≤ N.

Parâmetro n

Tamanho da amostra: Número de elementos retirados sem reposição. Deve satisfazer 0 ≤ n ≤ N.

Média e Variância

As medidas de tendência central e dispersão da distribuição hipergeométrica:

Estatísticas Fundamentais

Média (Valor Esperado)

E[X] = μ = n × (K/N)

O número esperado de sucessos na amostra.

Variância

Var(X) = σ² = n × (K/N) × ((N-K)/N) × ((N-n)/(N-1))

O fator de correção (N-n)/(N-1) aparece devido à amostragem sem reposição.

Desvio Padrão

σ = √Var(X)

Interpretação da Fórmula

A fórmula hipergeométrica pode ser entendida como:

Interpretação Combinatória

  • C(K,k): Formas de escolher k sucessos dos K disponíveis
  • C(N-K, n-k): Formas de escolher (n-k) falhas dos (N-K) disponíveis
  • C(N,n): Total de formas de escolher n elementos de N
  • Quociente: Probabilidade = (Casos favoráveis) / (Casos possíveis)

Exemplos Práticos Detalhados

Exemplo 1: Controle de Qualidade

Problema

Em um lote de 100 produtos, 20 são defeituosos. Se inspecionarmos 10 produtos aleatoriamente sem reposição, qual é a probabilidade de encontrar exatamente 3 produtos defeituosos?

Solução

  • • N = 100 (tamanho da população)
  • • K = 20 (número de defeituosos na população)
  • • n = 10 (tamanho da amostra)
  • • k = 3 (número de defeituosos desejado)
  • • P(X = 3) = [C(20,3) × C(80,7)] / C(100,10)
  • • P(X = 3) = [1.140 × 3.176.716.400] / 17.310.309.456.440
  • • P(X = 3) ≈ 0.209

A probabilidade de encontrar exatamente 3 produtos defeituosos é aproximadamente 20,9%.

Exemplo 2: Amostragem de Cartas

Problema

De um baralho de 52 cartas, 13 são espadas. Se retirarmos 5 cartas sem reposição, qual é a probabilidade de obter exatamente 2 espadas?

Solução

  • • N = 52 (total de cartas)
  • • K = 13 (espadas no baralho)
  • • n = 5 (cartas retiradas)
  • • k = 2 (espadas desejadas)
  • • P(X = 2) = [C(13,2) × C(39,3)] / C(52,5)
  • • P(X = 2) = [78 × 9.139] / 2.598.960
  • • P(X = 2) ≈ 0.274

A probabilidade de obter exatamente 2 espadas é aproximadamente 27,4%.

Exemplo 3: Pesquisa Eleitoral

Problema

Em uma cidade com 10.000 eleitores, 4.000 pretendem votar no candidato A. Se realizarmos uma pesquisa com 100 eleitores selecionados aleatoriamente (sem reposição), qual é a probabilidade de que exatamente 45 votem no candidato A?

Solução

  • • N = 10.000 (total de eleitores)
  • • K = 4.000 (eleitores do candidato A)
  • • n = 100 (tamanho da amostra)
  • • k = 45 (votos no candidato A desejados)
  • • P(X = 45) = [C(4.000,45) × C(6.000,55)] / C(10.000,100)
  • • P(X = 45) ≈ 0.048

A probabilidade de exatamente 45 eleitores votarem no candidato A é aproximadamente 4,8%.

Comparação: Hipergeométrica vs Binomial

Quando Usar Cada Uma

CritérioHipergeométricaBinomial
AmostragemSem reposiçãoCom reposição
PopulaçãoFinita (pequena)Infinita (ou muito grande)
ProbabilidadeVaria após cada retiradaConstante em cada tentativa
VariânciaMenor (fator de correção)Maior

Aproximação pela Distribuição Binomial

Quando a população é muito grande em relação à amostra, a distribuição hipergeométrica pode ser aproximada pela distribuição binomial:

Condição para Aproximação

Se n/N < 0.05 (amostra é menor que 5% da população), podemos usar:

X ≈ Binomial(n, p = K/N)

Nesse caso, a amostragem sem reposição se comporta aproximadamente como amostragem com reposição.

Aplicações Práticas

Áreas de Aplicação

  • Controle de Qualidade: Inspeção de lotes finitos sem reposição
  • Auditoria: Verificação de documentos em uma população finita
  • Pesquisas de Opinião: Amostragem sem reposição de populações finitas
  • Testes de Conformidade: Verificação de itens em lotes
  • Jogos de Cartas: Probabilidades em jogos onde cartas não são devolvidas
  • Amostragem de Processos: Quando a população é limitada

Limitações e Cuidados

⚠️ Quando NÃO Usar a Distribuição Hipergeométrica

  • Amostragem com reposição: Use distribuição binomial
  • População muito grande: Se n/N < 0.05, use aproximação binomial
  • Amostra maior que população: Matematicamente impossível
  • Mais de dois resultados: Use distribuição hipergeométrica multivariada

Extensões e Variações

Distribuição Hipergeométrica Multivariada

Quando há mais de duas categorias na população:

Estende o conceito para múltiplas categorias simultaneamente, permitindo modelar situações mais complexas.

Conclusão

A distribuição hipergeométrica é essencial para modelar situações onde a amostragem sem reposição afeta as probabilidades. Ela é fundamental em controle de qualidade, auditoria, pesquisas eleitorais e muitas outras áreas onde trabalhamos com populações finitas.

Compreender a diferença entre distribuição hipergeométrica e binomial é crucial para escolher o modelo apropriado. Quando a amostra é pequena em relação à população (n/N < 0.05), ambas fornecem resultados semelhantes, mas para amostras maiores, a diferença se torna significativa.

Lembre-se: a distribuição hipergeométrica é apropriada quando temos amostragem sem reposição de uma população finita. Se a população é muito grande ou se a amostragem é com reposição, considere usar a distribuição binomial.