Estimativa de frequência de Good-Turing

Estimativa de frequência Good-Turing é uma técnica estatística para prever a probabilidade de ocorrência de objetos pertencentes a um número de espécies desconhecidos, dado observações passadas desses objetos e suas espécies. (Desenhando bolas de uma urna, os "objetos" seriam bolas e as "espécies" seriam as cores distintas das bolas (finitas mas desconhecidas em número). Depois de desenhar bolas vermelhas, bolas pretas e bolas verdes, nós perguntaríamos qual é a probabilidade de desenhar a bola vermelha, a bola preta, a bola verde ou uma de uma cor ainda nao vista.)

Acontecimentos históricos

A estimativa de frequência Good-Turgin foi desenvolvida por Alan Turing e seu assistente I. J. Good como parte de seus esforços na Bletchley Park para quebrar a cifra Alemanha para o Enigma (máquina) durante a Segunda Guerra Mundial. Turing primeiramente modelou as frequências como uma distribuição multinominal, mas a achou inexata. O algoritmo de suavização de Good desenvolvido para melhorar a precisão da estimativa.

A descoberta foi reconhecida como significante quando publicada por Good in 1953,[1] but the calculations were difficult so it was not used as widely as it might have been.[2] O método ganhou até alguma fama literária devido ao romance Enigma de Robert Harris.

Nos anos de 1990, Geoffrey Sampson trabalho com William A. Gale of AT&T, parar criar e implementar um variante simplificado e fácil de usar do método Good-Turing[3] descrito abaixo.

O método

A primeira notação e algumas estrutura de dados requeridas são definidas:

  • Assumindo que X espécies distintas tenham sido observadas, numeradas x = 1, ..., X.
  • Então o vetor frequência, , tem elementos que dão o número de indivíduos que foram observados para a espécie x.
  • A frequência do vetor frequência, , mostra quantas vezes a frequência r ocorre em um vetor R, i.e. entre os elementos .

Por exemplo é o número de espécies para o qual apenas 1 indivíduo foi observado. Perceba que o número total de objetos observadosN, não pode ser encontrado a partir de

O primeiro passo no cálculo é achar uma estimativa para a probabilidade total de espécies não vistas. Essa estimativa é [4]

O próximo passo é achar uma estimativa de probabilidade para as espécies que foram vistas r vezes. Para uma 'única espécie esta estimativa é:

Para estimar a probabilidade de encontrar alguma espécie desse grupo (i.e., o grupo de espécies vistos r vezes) pode ser usada a seguinte fórmula:

Aqui, a notação significa o valor suavizado ou ajustado da frequência mostrada em parênteses.

Nós gostaríamos de fazer um gráfico de versus mas isso é problemático porque para r grandes muitas serão zero. Em vez disso, uma quantidade revisada, , é colocada contra , onde Zr é definida como

e onde q, r e t são subscripts consecutivos tendo não zero. Quando r é 1, tome q sendo 0. Quando r é a última frequência não-zero, tome t como 2r  q.

A suposição da estimativa de Good-Turing é que o número de ocorrências para cada espécie segue uma distribuição binária.[5]

Uma regressão linear simples é então encaixada ao log-log do gráfico. Para pequenos valores de r é razoável para definir

(isto é, nenhuma suavização é realizada), enquanto para grandes valores de r, valores de são lidos da linha de regressão. Um procedimento automático (não descrito aqui) pode ser usado para especificar em que ponto a troca de não-suavização para a suavização linear deve acontecer.[carece de fontes?]

O código para o método é avaliado em domínio público.[6][carece de fontes?]

Veja também

  • Ewens sampling formula
  • Pseudocount

Referências

  1. Good, I.J. (1953). «The population frequencies of species and the estimation of population parameters». Biometrika. 40 (3–4): 237–264. JSTOR 2333344. MR 61330. doi:10.1093/biomet/40.3-4.237
  2. Newsise: Scientists Explain and Improve Upon 'Enigmatic' Probability Formula, a popular review of Orlitsky A, Santhanam NP, Zhang J. (2003). «Always Good Turing: asymptotically optimal probability estimation.». Science (New York, N.Y.). 302 (5644): 427–31. doi:10.1126/science.1088284
  3. Sampson, Geoffrey and Gale, William A. (1995) Good‐turing frequency estimation without tears
  4. Gale, William A. (1995). «Good–Turing smoothing without tears». Journal of Quantitative Linguistics. 2: 3. doi:10.1080/09296179508590051
  5. Lecture 11: The Good-Turing Estimate. CS 6740, Cornell University, 2010
  6. Sampson, Geoffrey (2005) Simple Good–Turing Frequency Estimator (code in C)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.