Como GOPA calcula intervalo de confiança por cohort

Tamanho de amostra, estratificação geográfica e propagação de incerteza no pipeline de validação dupla. Um resumo metodológico para decisores.

Sem intervalo de confiança, todo número é opinião com precisão fingida.

Quando GOPA reporta "marca X aparece em 38% das geladeiras observadas em SP capital", essa estimativa carrega incerteza. Esse texto explica como calculamos o intervalo e o que ele significa pra decisão B2B.

Três fontes de incerteza

1. Erro amostral

PDVs visitados são amostra do universo. Quanto maior a amostra dentro de um cohort homogêneo, menor o erro amostral. Pra cohort gastronomia em SP capital com 1.247 visitas, um indicador binário em torno de 38% tem erro de ±2.7 p.p. (95% confiança).

2. Erro de classificação AI

A AI erra. Em datasets internos, classificação de SKU em foto de back-bar tem precisão ~94% e recall ~91%. Cada métrica reportada propaga esse erro — não só o erro amostral.

3. Erro residual humano

Mesmo após revisão humana, ambiguidades sobrevivem. Dois revisores discordam em ~3% dos casos limítrofes. Triplo blind para casos críticos reduz pra <1%.

Como combinamos

Pra cada métrica reportada, GOPA propaga:

  • IC amostral via fórmula clássica (Wilson score interval pra binomiais, t-Student pra contínuas)
  • Margem de erro AI medida em hold-out set vs. ground truth humano
  • Concordância inter-revisor medida em paralelo

A métrica final mostra estimativa pontual + IC95 + nota metodológica com todas as fontes.

Estratificação geográfica

Cohort não é homogêneo. Bar zona oeste de SP capital ≠ bar Centro de Recife. Pra reportar nacional, usamos pesos por:

  • Universo do cohort (estimativa SECEX/IBGE × estimativa CNDL)
  • Cobertura efetiva (PDVs visitados / universo)
  • Heterogeneidade observada (variância intra-cluster)

Pesos publicados em cada relatório como apêndice metodológico.

O que isso compra

  • Decisão de investimento com risco quantificado
  • Conformidade interna pra times de inteligência que precisam justificar metodologia
  • Defensabilidade se o dado é contestado em arbitragem comercial

Ver metodologia completa →