Artigos

12.4: Teorema de Bayes - Matemática


Nesta seção, nos concentramos nos problemas de probabilidade condicional mais complexos que começamos a examinar na última seção.

Exemplo 19

Suponha que uma determinada doença tenha uma taxa de incidência de 0,1% (ou seja, afeta 0,1% da população). Um teste foi elaborado para detectar esta doença. O teste não produz falsos negativos (ou seja, qualquer pessoa que tenha a doença terá um teste positivo), mas a taxa de falsos positivos é de 5% (ou seja, cerca de 5% das pessoas que fazem o teste terão teste positivo, embora eles não têm a doença). Suponha que uma pessoa selecionada aleatoriamente faça o teste e o teste seja positivo. Qual é a probabilidade de que essa pessoa realmente tenha a doença?

Solução

Existem duas maneiras de abordar a solução para este problema. Um envolve um resultado importante na teoria da probabilidade, chamado teorema de Bayes. Discutiremos esse teorema um pouco mais tarde, mas por enquanto usaremos uma abordagem alternativa e, esperamos, muito mais intuitiva.

Vamos decompor as informações do problema, peça por peça.

Suponha que uma determinada doença tenha uma taxa de incidência de 0,1% (ou seja, afeta 0,1% da população). A porcentagem de 0,1% pode ser convertida em um número decimal movendo a casa decimal duas casas para a esquerda, para obter 0,001. Por sua vez, 0,001 pode ser reescrito como uma fração: 1/1000. Isso nos diz que cerca de 1 em cada 1000 pessoas tem a doença. (Se quiséssemos, poderíamos escrever P(doença) = 0,001.)

Um teste foi elaborado para detectar esta doença. O teste não produz falsos negativos (ou seja, qualquer pessoa com a doença terá um teste positivo). Esta parte é bastante simples: todos os que têm a doença testam positivo ou, alternativamente, todos os que têm resultado negativo não têm a doença. (Também poderíamos dizer P(positivo | doença) = 1.)

A taxa de falsos positivos é de 5% (ou seja, cerca de 5% das pessoas que fazem o teste terão resultado positivo, embora não tenham a doença). Isso é ainda mais simples. Outra forma de ver as coisas é que, de cada 100 pessoas que fazem o teste e não têm a doença, 5 terão resultado positivo, embora não tenham a doença. (Também podemos dizer que (P ) (positivo | sem doença) = 0,05.)

Suponha que uma pessoa selecionada aleatoriamente faça o teste e o teste seja positivo. Qual é a probabilidade de que essa pessoa realmente tenha a doença? Aqui, queremos calcular (P ) (doença | positivo). Já sabemos que (P ) (positivo | doença) = 1, mas lembre-se de que as probabilidades condicionais não são iguais se as condições forem trocadas.

Em vez de pensar em termos de todas essas probabilidades que desenvolvemos, vamos criar uma situação hipotética e aplicar os fatos conforme exposto acima. Em primeiro lugar, suponha que selecionamos aleatoriamente 1000 pessoas e administramos o teste. Quantos esperamos ter a doença? Como cerca de 1/1000 de todas as pessoas sofrem da doença, ( frac {1} {1000} ) de 1000 pessoas é 1. (Agora você sabe por que escolhemos 1000.) Apenas 1 em 1000 indivíduos de teste realmente tem a doença; os outros 999 não.

Também sabemos que 5% de todas as pessoas que não têm a doença terão um teste positivo. Existem 999 pessoas livres da doença, portanto, esperaríamos que ((0,05) (999) = 49,95 ) (cerca de 50) pessoas com teste positivo não tivessem a doença.

Agora, de volta à questão original, computação P(doença | positivo). Há 51 pessoas com teste positivo em nosso exemplo (a única pessoa infeliz que realmente tem a doença, mais as 50 pessoas com teste positivo, mas não). Apenas uma dessas pessoas tem a doença, então

P (doença | positivo) ( approx frac {1} {51} approx 0,0196 )

ou menos de 2%. Isso te surpreende? Isso significa que de todas as pessoas com teste positivo, mais de 98% não tem a doença.

A resposta que obtivemos foi ligeiramente aproximada, pois arredondamos 49,95 para 50. Poderíamos refazer o problema com 100.000 indivíduos de teste, 100 dos quais teriam a doença e ((0,05) (99.900) = 4995 ) teste positivo, mas não tem a doença, então a probabilidade exata de ter a doença se seu teste for positivo é

P (doença | positivo) ( approx frac {100} {5095} approx 0,0196 )

que é praticamente a mesma resposta.

Mas voltando ao resultado surpreendente. De todas as pessoas com teste positivo, mais de 98% não têm a doença. Se o seu palpite para a probabilidade de uma pessoa com teste positivo ter a doença foi totalmente diferente da resposta certa (2%), não se sinta mal. Exatamente o mesmo problema foi colocado para médicos e estudantes de medicina na Harvard Medical School 25 anos atrás e os resultados revelados em 1978 New England Journal of Medicine artigo. Apenas cerca de 18% dos participantes acertaram. A maior parte do restante achou que a resposta estava mais perto de 95% (talvez eles tenham sido enganados pela taxa de falsos positivos de 5%).

Portanto, pelo menos você deve se sentir um pouco melhor porque um monte de médicos também não obteve a resposta certa (supondo que você pensasse que a resposta era muito mais elevada). Mas a importância dessa descoberta e de resultados semelhantes de outros estudos nos anos seguintes não reside em fazer os alunos de matemática se sentirem melhor, mas nas consequências possivelmente catastróficas que isso pode ter para o atendimento ao paciente. Se um médico pensa que as chances de um resultado positivo de teste quase garantir que um paciente tem uma doença, ele pode iniciar um regime de tratamento desnecessário e possivelmente prejudicial em um paciente saudável. Ou pior, como nos primeiros dias da crise da AIDS, quando ser soropositivo costumava ser considerado uma sentença de morte, o paciente poderia tomar uma atitude drástica e cometer suicídio.

Como vimos neste exemplo hipotético, o curso de ação mais responsável para tratar um paciente com teste positivo seria aconselhar o paciente que ele provavelmente o fará não ter a doença e solicitar outros exames mais confiáveis ​​para verificar o diagnóstico.

Uma das razões pelas quais os médicos e estudantes de medicina do estudo se saíram tão mal é que tais problemas, quando apresentados nos tipos de cursos de estatística que os estudantes de medicina costumam fazer, são resolvidos pelo teorema de Bayes, que é enunciado da seguinte forma:

Teorema de Bayes

(P (A | B) = frac {P (A) P (B | A)} {P (A) P (B | A) + P ( bar {A}) P (B | bar { UMA})})

Em nosso exemplo anterior, isso se traduz em

(P ( text {doença} | text {positivo}) = frac {P ( text {doença}) P ( text {positivo} | text {doença})} {P ( text {doença }) P ( text {positivo} | text {doença}) + P ( text {sem doença}) P ( text {positivo} | text {sem doença})} )

Conectar os números dá

(P ( text {doença} | text {positivo}) = frac {(0,001) (1)} {(0,001) (1) + (0,999) (0,05)} aprox 0,0196 )

que é exatamente a mesma resposta que nossa solução original.

O problema é que você (ou o típico estudante de medicina, ou mesmo o típico professor de matemática) tem muito mais probabilidade de ser capaz de lembrar a solução original do que de lembrar o teorema de Bayes. Psicólogos, como Gerd Gigerenzer, autor de Riscos calculados: como saber quando os números o enganam, defenderam que o método envolvido na solução original (que Gigerenzer chama de método das "frequências naturais") fosse empregado no lugar do Teorema de Bayes. Gigerenzer realizou um estudo e descobriu que aqueles educados no método da frequência natural eram capazes de recordá-lo por muito mais tempo do que aqueles que aprenderam o teorema de Bayes. Quando se considera as possíveis consequências de vida ou morte associadas a tais cálculos, parece sensato acatar seu conselho.

Exemplo 20

Uma determinada doença tem uma taxa de incidência de 2%. Se a taxa de falsos negativos for 10% e a taxa de falsos positivos for 1%, calcule a probabilidade de que uma pessoa com teste positivo realmente tenha a doença.

Solução

Imagine 10.000 pessoas que são testadas. Destes 10.000, 200 terão a doença; 10% deles, ou 20, terão teste negativo e os 180 restantes terão teste positivo. Dos 9.800 que não têm a doença, 98 terão teste positivo. Portanto, do total de 278 pessoas com teste positivo, 180 terão a doença. Desse modo

(P ( text {doença} | text {positivo}) = frac {180} {278} aproximadamente 0,647 )

portanto, cerca de 65% das pessoas com teste positivo terão a doença.

Usar o teorema de Bayes diretamente daria o mesmo resultado:

(P ( text {doença} | text {positivo}) = frac {(0,02) (0,90)} {(0,02) (0,90) + (0,98) (0,01)} = frac {0,018} {0,0278 } aproximadamente 0,647 )

Experimente agora 5

Uma determinada doença tem uma taxa de incidência de 0,5%. Se não houver falsos negativos e se a taxa de falsos positivos for de 3%, calcule a probabilidade de que uma pessoa com teste positivo realmente tenha a doença.

Responder

De 100.000 pessoas, 500 teriam a doença. Destes, todos os 500 seriam positivos. Dos 99.500 sem a doença, 2.985 seriam falsamente positivos e os outros 96.515 seriam negativos.

( mathrm {P} ( text {doença} | text {positivo}) = frac {500} {500 + 2985} = frac {500} {3485} aproximadamente 14,3 \% )


Comparação de modelos e modelagem hierárquica

10.6 Sensibilidade extrema à distribuição anterior

Em muitas aplicações realistas de comparação de modelos bayesianos, a ênfase teórica está na diferença entre os modelos e funções de verossimilhança. Por exemplo, uma teoria prevê movimentos planetários com base em órbitas elípticas ao redor do sol, e outra teoria prevê movimentos planetários com base em ciclos circulares e epiciclos ao redor da Terra. Os dois modelos envolvem parâmetros muito diferentes. Nesses tipos de modelos, a forma da distribuição anterior dos parâmetros não é um foco e geralmente é uma reflexão tardia. Mas, ao fazer a comparação do modelo bayesiano, a forma do prior é crucial porque o fator de Bayes integra a função de verossimilhança ponderada pela distribuição a priori.

Como vimos repetidamente, a comparação do modelo bayesiano envolve a marginalização da distribuição anterior em cada modelo. Portanto, as probabilidades posteriores dos modelos, e os fatores de Bayes, podem ser extremamente sensíveis à escolha da distribuição anterior. Se a distribuição anterior colocar muita massa de probabilidade onde a distribuição de probabilidade atinge o pico, então a probabilidade marginal (ou seja, p(D | m)) será grande. Mas se a distribuição anterior colocar pouca massa de probabilidade onde está a distribuição de probabilidade, então a probabilidade marginal será pequena. A sensibilidade dos fatores de Bayes a distribuições anteriores é bem conhecida na literatura (por exemplo, Kass & amp Raftery, 1995 Liu & amp Aitkin, 2008 Vanpaemel, 2010).

Ao fazer a comparação do modelo bayesiano, diferentes formas de antecedentes vagos podem produzir fatores de Bayes muito diferentes. Como exemplo, considere novamente os modelos deve-ser-justo versus qualquer coisa & # x27s-possível da seção anterior. O modelo deve ser justo foi caracterizado como um beta anterior com parâmetros de forma de uma = 500 e b = 500 (ou seja, modo ω = 0,5 e concentração κ = 1000). O modelo qualquer coisa & # x27s-possível foi definido como um beta anterior com parâmetros de forma de uma = 1 e b = 1. Suponha que temos dados com z = 65 e N = 100. Então o fator de Bayes é

& gt z = 65 N = 100 pD (z, N, a = 500, b = 500) / pD (z, N, a = 1, b = 1)

Isso significa que o modelo qualquer coisa & # x27s-possível é o preferido. Mas por que escolhemos esses valores de parâmetro de forma específicos para o modelo qualquer coisa & # x27s-possível? Era simplesmente que a intuição sugeria uma distribuição uniforme. Pelo contrário, muitos estatísticos matemáticos recomendam uma forma diferente de antes para torná-lo não informativo de acordo com um critério matemático particular (Lee & amp Webb, 2005 Zhu & amp Lu, 2004). O prior recomendado é o chamado Haldane prior, que usa constantes de forma muito próximas de zero, como uma = b = 0,01. (Veja a Figura 6.1, p. 128, para um exemplo de uma distribuição beta com parâmetros de forma menores que 1.) Usando um Haldane antes de expressar o modelo qualquer coisa & # x27s-possível, o fator de Bayes é

& gt z = 65 N = 100 pD (z, N, a = 500, b = 500) / pD (z, N, a = 0,01, b = 0,01)

Isso significa que o modelo deve ser justo é favorecido. Observe que invertemos o fator de Bayes simplesmente mudando de um beta "vago" (θ| 1, 1) antes de um beta "vago" (θ| .01, .01) anterior.

Ao contrário da comparação do modelo bayesiano, ao fazer a estimativa bayesiana de parâmetros contínuos dentro dos modelos e usar grandes quantidades de dados realisticamente, a distribuição posterior nos parâmetros contínuos é normalmente robusta contra mudanças em antecedentes vagos. Não importa se o anterior é extremamente vago ou apenas um pouco vago (e sim, o que eu quis dizer com “extremamente vago” e “apenas um pouco vago” é vago, mas a questão é que isso não importa).

Como exemplo, considere as duas versões do modelo qualquer coisa & # x27s-possível, usando um beta "vago" (θ| 1,1) anterior ou um beta "vago" (θ.01, .01) anterior. Usando os dados z = 65 e N = 100, podemos calcular a distribuição posterior em θ. Começando com o beta (θ| 1, 1) produz um beta (θ| 66, 36) posterior, que tem um IDH de 95% de 0,554 a 0,738. (O HDI foi calculado usando a função HDIofICDF que vem com o programa de utilitários que acompanha este livro.) Começando com o beta (θ.01, .01) produz um beta (θ| 65,01,35,01) posterior, que tem um IDH de 95% de 0,556 a 0,742. Os HDIs são virtualmente idênticos. Em particular, para qualquer anterior, a distribuição posterior exclui θ = 0,5, o que significa que a hipótese deve ser justa não está entre os valores confiáveis. Para uma discussão adicional e exemplos relacionados, consulte Kruschke (2011a) e a Seção 12.2 deste livro.

10.6.1 Os anteriores de diferentes modelos devem ser igualmente informados

Estabelecemos que mudanças aparentemente inócuas na imprecisão de um anterior vago podem mudar dramaticamente a probabilidade marginal de um modelo e, portanto, seu fator de Bayes em comparação com outros modelos. O que pode ser feito para amenizar o problema? Uma abordagem útil é informar os antecedentes de todos os modelos com um pequeno conjunto de dados representativos (o mesmo para todos os modelos). A ideia é que mesmo um pequeno conjunto de dados supera qualquer vago anterior, resultando em uma nova distribuição de parâmetros que está pelo menos "na estimativa" de valores de parâmetro razoáveis ​​para esse modelo. Isso coloca os modelos em igualdade de condições ao entrar na comparação de modelos.

De onde vêm os dados, que servirão de pequeno conjunto representativo para informar os antecedentes dos modelos? Eles podem vir de pesquisas anteriores. Eles podem ser fictícios, mas representativos de pesquisas anteriores, desde que o público da análise concorde que os dados fictícios são válidos. Ou os dados podem ser uma pequena porcentagem dos dados da pesquisa em andamento. Por exemplo, 10% aleatórios dos dados poderiam informar as anteriores dos modelos, e os 90% restantes usados ​​para calcular o fator de Bayes na comparação do modelo. Em qualquer caso, os dados usados ​​para informar os anteriores devem ser representativos dos dados reais e grandes o suficiente em quantidade para superar de forma útil qualquer prévio vago razoável. O que isso significa exatamente dependerá dos detalhes do modelo, mas o exemplo simples a seguir ilustra a ideia.

Lembre-se, da seção anterior, da comparação do modelo must-be-fair e o modelo any & # x27s-possible. Quando z = 65 com N = 100, o fator de Bayes mudou drasticamente dependendo se o modelo "vago" qualquer coisa & # x27s-possível usou um beta (θ| 1,1) anterior ou um beta (θ.01, .01) anterior. Agora vamos & # x27s calcular os fatores de Bayes após informar ambos os modelos com apenas 10% dos dados. Suponha que o subconjunto de 10% tenha 6 cabeças em 10 flips, então os 90% restantes dos dados têm z = 65 - 6 e N = 100 − 10.

Suponha que comecemos com beta (θ| 1,1) para o anterior do modelo qualquer coisa & # x27s-possível. Informamos isso, e o modelo deve ser justo, com o subconjunto de 10%. Portanto, o modelo possível qualquer coisa & # x27s torna-se um beta (θ| 1 + 6,1 +10 - 6) antes, e o modelo deve ser justo torna-se um beta (θ| 500 + 6, 500 + 10 - 6) anterior. O fator Bayes é

& gt z = 65-6 N = 100-10 pD (z, N, a = 500 + 6, b = 500 + 10-6) / pD (z, N, a = 1 + 6, b = 1 + 10- 6)

Agora vamos & # x27s começar com beta (θ| .01, .01) para o modelo qualquer & # x27s-possível. O fator Bayes usando os antecedentes fracamente informados é

& gt z = 65-6 N = 100-10 pD (z, N, a = 500 + 6, b = 500 + 10-6) / pD (z, N, a = 0,01 + 6, b = 0,01 + 10- 6)

Assim, o fator Bayes quase não mudou. Com os dois modelos igualmente informados por uma pequena quantidade de dados representativos, o fator de Bayes é estável.

A ideia de usar uma pequena quantidade de dados de treinamento para informar os antecedentes para comparação de modelos foi amplamente discutida na literatura e é um tópico ativo de pesquisa. Uma visão geral seletiva foi fornecida por JO Berger e Pericchi (2001), que discutiram os antecedentes de default convencionais (por exemplo, Jeffreys, 1961), fatores Bayes “intrínsecos” (por exemplo, JO Berger & amp Pericchi, 1996) e fatores Bayes “fracionários” ( por exemplo, O & # x27Hagan, 1995, 1997), entre outros.


Estatísticas Bayesianas

Prova do Teorema de Bayes & # x27s e sua Extensão

O Teorema de Bayes & # x27s é facilmente provado observando que:

Dado que p(A, B) é equivalente a p(BA), o lado esquerdo das Eqs. (3) e (5) podem ser iguais, e obtemos:

Dividindo os dois lados por p(UMA) produz o teorema de Bayes & # x27s. Nesta representação, o teorema é inquestionável. No entanto, estatísticos bayesianos substituem B com "parâmetro" ou "hipótese" e UMA com "dados" para que o teorema apareça como:

O denominador do lado direito desta equação é a probabilidade marginal dos dados (frequentemente chamada de constante de normalização), que é uma média da probabilidade dos dados sob todos os valores de parâmetro possíveis (θ). Em um espaço de parâmetro contínuo (S):

Em um espaço de parâmetro discreto, a probabilidade marginal dos dados é:

Uma vez que o denominador normalmente não nos fornece nenhuma informação sobre o parâmetro, o teorema de Bayes & # x27s é frequentemente reduzido a:

Na linguagem bayesiana, essa expressão diz que a probabilidade posterior de um parâmetro é proporcional à função de verossimilhança dos dados (ou a densidade de amostragem dos dados) multiplicada pela probabilidade anterior do parâmetro. O posterior é assim chamado porque é nossa estimativa da probabilidade do parâmetro depois de termos observado dados adicionais; o anterior é assim chamado porque representa nossa crença sobre a probabilidade do parâmetro antes de observar os dados.

Para fornecer um exemplo da aplicabilidade do teorema de Bayes & # x27s, demonstro o teorema sobre dados sobre o câncer de próstata. Suponha que um homem de 30 anos tenha um resultado positivo no teste padrão para câncer de próstata. Suponha também que o teste tenha uma taxa de acerto de 90% para pessoas nessa faixa etária, o que significa que dará um resultado de teste positivo para casos positivos 90% das vezes. Suponha, entretanto, que o teste também produza resultados falsos positivos em 10% das vezes, ou seja, entre os não casos, 10% receberão um teste positivo. Obviamente, a questão de interesse é se, dado o resultado positivo do teste, o indivíduo de fato tem câncer de próstata, que pode ser expresso como p(teste p.c.∣ +). Porém, nós sabemos p(teste + ∣ p.c.), e podemos obter as taxas de incidência de câncer de próstata para os 30 anos, p(p.c.) (aqui, uso uma taxa aproximada para pessoas com menos de 45 anos). Podemos substituir as informações conhecidas na fórmula de Bayes & # x27s:

Nesse caso, temos o seguinte:

A simplificação revela que a probabilidade real (posterior) de ter câncer aos 30 anos, dado um teste positivo, é 0,0001. Certamente nossa probabilidade posterior de ter câncer é maior do que nossa probabilidade anterior, mas essa probabilidade posterior ainda é muito pequena, revelando a deficiência de um teste com uma taxa de falsos positivos modesta aplicada a uma população de baixo risco.


Conteúdo

O teorema de Bayes é afirmado matematicamente como a seguinte equação: [3]

Edição de prova

Para eventos Editar

O teorema de Bayes pode ser derivado da definição de probabilidade condicional:

onde P (A ∩ B) < displaystyle P (A cap B)> é a probabilidade conjunta de A e B serem verdadeiros. Porque

Para variáveis ​​aleatórias contínuas Editar

Para duas variáveis ​​aleatórias contínuas X e Y, O teorema de Bayes pode ser analogamente derivado da definição de densidade condicional:

Edição de teste de drogas

Suponha que um teste específico para saber se alguém usou cannabis é 90% sensível, o que significa que a taxa de verdadeiro positivo (TPR) = 0,90. Portanto, leva a 90% de resultados positivos verdadeiros (identificação correta do uso de drogas) para usuários de cannabis.

O teste também é 80% específico, o que significa taxa negativa verdadeira (TNR) = 0,80. Portanto, o teste identifica corretamente 80% de não uso para não usuários, mas também gera 20% de falsos positivos, ou taxa de falsos positivos (FPR) = 0,20, para não usuários.

Supondo uma prevalência de 0,05, ou seja, 5% das pessoas usam cannabis, qual é a probabilidade de que uma pessoa aleatória com resultado positivo seja realmente um usuário de cannabis?

O valor preditivo positivo (PPV) de um teste é a proporção de pessoas que são realmente positivas de todos aqueles com teste positivo e pode ser calculado a partir de uma amostra como:

PPV = Verdadeiro positivo / Teste positivo

O fato de que P (Positivo) = P (Positivo ∣ Usuário) P (Usuário) + P (Positivo ∣ Não usuário) P (Não usuário) < displaystyle P (< text>) = P (< text> mid < text>) P (< text>) + P (< text> mid < text>) P (< text>)> é uma aplicação direta da Lei da Probabilidade Total. Nesse caso, diz-se que a probabilidade de alguém testar positivo é a probabilidade de um usuário testar positivo, vezes a probabilidade de ser um usuário, mais a probabilidade de um não usuário testar positivo, vezes a probabilidade de ser um não usuário .

Isso ocorre porque as classificações usuário e não usuário formam uma partição de um conjunto, ou seja, o conjunto de pessoas que realizam o exame de drogas. Isso combinado com a definição de probabilidade condicional resulta na afirmação acima.

Mesmo que o teste de alguém seja positivo, a probabilidade de ser um usuário de cannabis é de apenas 19%, porque neste grupo apenas 5% das pessoas são usuários, a maioria dos positivos são falsos positivos provenientes dos 95% restantes.

Se 1.000 pessoas foram testadas:

  • 950 não são usuários e 190 deles dão falso positivo (0,20 × 950)
  • 50 deles são usuários e 45 deles dão verdadeiro positivo (0,90 × 50)

Assim, as 1.000 pessoas resultam em 235 testes positivos, dos quais apenas 45 são usuários de drogas genuínos, cerca de 19%. Consulte a Figura 1 para ver uma ilustração usando uma caixa de frequência e observe como a área rosa de verdadeiros positivos é pequena em comparação com a área azul de falsos positivos.

Sensibilidade ou especificidade Editar

A importância da especificidade pode ser vista mostrando que mesmo que a sensibilidade seja aumentada para 100% e a especificidade permaneça em 80%, a probabilidade de alguém com teste positivo ser realmente um usuário de cannabis só aumenta de 19% para 21%, mas se a sensibilidade for mantida em 90% e a especificidade aumentada para 95%, a probabilidade aumenta para 49%.

Editar taxa de câncer

Mesmo que 100% dos pacientes com câncer de pâncreas tenham determinado sintoma, quando alguém tem o mesmo sintoma, não significa que essa pessoa tenha 100% de chance de ter câncer de pâncreas. Suponha que a taxa de incidência de câncer pancreático seja 1/100000, enquanto 10/100000 indivíduos saudáveis ​​têm os mesmos sintomas em todo o mundo, a probabilidade de ter câncer pancreático devido aos sintomas é de apenas 9,1% e os outros 90,9% podem ser "falsos positivos" ( isto é, falsamente dito que o câncer é "positivo" é um termo confuso quando, como aqui, o teste dá más notícias).

Com base na taxa de incidência, a tabela a seguir apresenta os números correspondentes por 100.000 pessoas.

Que pode então ser usado para calcular a probabilidade de ter câncer quando você tiver os sintomas:

Edição de taxa de item com defeito

Uma fábrica produz um item usando três máquinas - A, B e C - que respondem por 20%, 30% e 50% de sua produção, respectivamente. Dos itens produzidos pela máquina A, 5% são defeituosos da mesma forma, 3% dos itens da máquina B e 1% da máquina C estão com defeito. Se um item selecionado aleatoriamente estiver com defeito, qual é a probabilidade de ele ter sido produzido pela máquina C?

Mais uma vez, a resposta pode ser alcançada sem usar a fórmula, aplicando as condições a um número hipotético de casos. Por exemplo, se a fábrica produz 1.000 itens, 200 serão produzidos pela Máquina A, 300 pela Máquina B e 500 pela Máquina C. A Máquina A produzirá 5% × 200 = 10 itens defeituosos, Máquina B 3% × 300 = 9 , e Máquina C 1% × 500 = 5, para um total de 24. Assim, a probabilidade de que um item defeituoso selecionado aleatoriamente foi produzido pela máquina C é 5/24 (

Este problema também pode ser resolvido usando o teorema de Bayes: Let Xeu denotam o evento em que um item escolhido aleatoriamente foi feito pelo eu a máquina (para eu = A, B, C). Deixar Y denotam o evento de um item escolhido aleatoriamente estar com defeito. Em seguida, recebemos as seguintes informações:

Se o item foi feito pela primeira máquina, a probabilidade de que ele esteja com defeito é de 0,05, ou seja, P(Y | XUMA) = 0,05. No geral, temos

Para responder à pergunta original, primeiro encontramos P(Y). Isso pode ser feito da seguinte maneira:

Conseqüentemente, 2,4% da produção total está com defeito.

Nós recebemos isso Y ocorreu, e queremos calcular a probabilidade condicional de XC. Pelo teorema de Bayes,

Dado que o item está com defeito, a probabilidade de que tenha sido feito pela máquina C é 5/24. Embora a máquina C produza metade da produção total, ela produz uma fração muito menor dos itens com defeito. Portanto, o conhecimento de que o item selecionado estava com defeito nos permite substituir a probabilidade anterior P(XC) = 1/2 pela menor probabilidade posterior P(XC | Y) = 5/24.

A interpretação da regra de Bayes depende da interpretação da probabilidade atribuída aos termos. As duas principais interpretações são descritas a seguir. A Figura 2 mostra uma visualização geométrica semelhante à Figura 1. Gerd Gigerenzer e os co-autores se esforçaram muito para ensinar a Regra de Bayes dessa forma, com ênfase especial em ensiná-la aos médicos. [4] Um exemplo é a página da Web de Will Kurt, "Teorema de Bayes com Lego", mais tarde transformada no livro, Estatísticas Bayesianas de maneira divertida: Noções básicas sobre estatísticas e probabilidade com Star Wars, LEGO e patos de borracha. Zhu e Gigerenzer descobriram em 2006 que enquanto 0% dos alunos da 4ª, 5ª e 6ª séries conseguiam resolver problemas com palavras depois de serem ensinados com fórmulas, 19%, 39% e 53% conseguiam depois de serem ensinados com caixas de frequência, e que o aprendizado foi completo ou zero. [5]

Interpretação Bayesiana Editar

Na interpretação bayesiana (ou epistemológica), a probabilidade mede um "grau de crença". O teorema de Bayes relaciona o grau de crença em uma proposição antes e depois da explicação da evidência. Por exemplo, suponha que se acredite com 50% de certeza que uma moeda tem duas vezes mais chances de dar cara do que coroa. Se a moeda for jogada várias vezes e os resultados forem observados, esse grau de crença provavelmente aumentará ou diminuirá, mas pode até permanecer o mesmo, dependendo dos resultados. Para proposição UMA e evidências B,

  • P (UMA), a anterior, é o grau inicial de crença em UMA.
  • P (UMA | B), a posterior, é o grau de crença após incorporar notícias de que B é verdade.
  • o quociente P(B | UMA) / P(B) representa o suporte B fornece para UMA.

Para obter mais informações sobre a aplicação do teorema de Bayes sob a interpretação bayesiana da probabilidade, consulte Inferência bayesiana.

Interpretação freqüentista Editar

Na interpretação frequentista, a probabilidade mede uma "proporção de resultados". Por exemplo, suponha que um experimento seja realizado muitas vezes. P(UMA) é a proporção de resultados com propriedade UMA (o anterior) e P(B) é a proporção com a propriedade B. P(B | UMA) é a proporção de resultados com propriedade B fora de resultados com propriedade UMA, e P(UMA | B) é a proporção daqueles com UMA fora de aqueles com B (o posterior).

O papel do teorema de Bayes é melhor visualizado com diagramas de árvore, como a Figura 3. Os dois diagramas particionam os mesmos resultados por UMA e B em ordens opostas, para obter as probabilidades inversas. O teorema de Bayes liga as diferentes partições.

Edição de exemplo

Um entomologista identifica o que pode, devido ao padrão em suas costas, ser uma subespécie rara de besouro. 98% dos membros das raras subespécies têm o padrão, então P(Padrão | Raro) = 98%. Apenas 5% dos membros da subespécie comum têm o padrão. A subespécie rara é 0,1% da população total. Qual a probabilidade de o besouro ter o padrão ser raro: o que é P(Raro | Padrão)?

Da forma estendida do teorema de Bayes (uma vez que qualquer besouro é raro ou comum),

Edição de Eventos

Edição de forma simples

Para eventos UMA e B, providenciou que P(B) ≠ 0,

Em muitas aplicações, por exemplo, na inferência Bayesiana, o evento B é fixado na discussão, e desejamos considerar o impacto de ter sido observado em nossa crença em vários eventos possíveis UMA. Em tal situação, o denominador da última expressão, a probabilidade da evidência dada B, está fixo o que queremos variar é UMA. O teorema de Bayes mostra então que as probabilidades posteriores são proporcionais ao numerador, então a última equação torna-se:

Em palavras, o posterior é proporcional ao anterior vezes a probabilidade. [6]

Se eventos UMA1, UMA2,. são mutuamente exclusivos e exaustivos, ou seja, é certo que um deles ocorrerá, mas dois não podem ocorrer juntos, podemos determinar a constante de proporcionalidade usando o fato de que suas probabilidades devem somar um. Por exemplo, para um determinado evento UMA, o evento UMA em si e em seu complementoUMA são exclusivos e exaustivos. Denotando a constante de proporcionalidade por c temos

Adicionando essas duas fórmulas, deduzimos que

1 = c ⋅ (P (B | A) ⋅ P (A) + P (B | ¬ A) ⋅ P (¬ A)),

Editar forma alternativa

Outra forma do teorema de Bayes para duas afirmações ou hipóteses concorrentes é:

Para uma interpretação epistemológica:

Para proposição UMA e evidências ou antecedentes B, [7]

  • P (A) < displaystyle P (A)> é a probabilidade anterior, o grau inicial de crença em UMA.
  • P (¬ A) < displaystyle P ( neg A)> é o grau inicial correspondente de crença em não-A, que UMA é falso, onde P (¬ A) = 1 - P (A)
  • P (B | A) < displaystyle P (B | A)> é a probabilidade condicional ou verossimilhança, o grau de crença em B dada aquela proposição UMA é verdade.
  • P (B | ¬ A) < displaystyle P (B | neg A)> é a probabilidade condicional ou verossimilhança, o grau de crença em B dada aquela proposição UMA é falso.
  • P (A | B) < displaystyle P (A | B)> é a probabilidade posterior, a probabilidade de UMA depois de levar em conta B.

Edição de formulário estendido

Freqüentemente, para alguma partição <UMAj> do espaço da amostra, o espaço do evento é dado em termos de P(UMAj) e P(B | UMAj) Então, é útil calcular P(B) usando a lei da probabilidade total:

No caso especial onde UMA é uma variável binária:

Variáveis ​​aleatórias Editar

Considere um espaço amostral Ω gerado por duas variáveis ​​aleatórias X e Y. Em princípio, o teorema de Bayes se aplica aos eventos UMA = <X = x> e B = <Y = y>.

No entanto, os termos tornam-se 0 em pontos onde qualquer uma das variáveis ​​tem densidade de probabilidade finita. Para permanecer útil, o teorema de Bayes deve ser formulado em termos das densidades relevantes (ver Derivação).

Edição de forma simples

Se X é contínuo e Y é discreto,

Se X é discreto e Y é contínuo,

Se ambos X e Y são contínuos,

Edição de formulário estendido

Um espaço de evento contínuo é freqüentemente conceituado em termos dos termos do numerador. Em seguida, é útil eliminar o denominador usando a lei da probabilidade total. Para fY(y), isso se torna uma parte integrante:

Edição da regra de Bayes

é chamado de fator de Bayes ou razão de verossimilhança. A probabilidade entre dois eventos é simplesmente a razão das probabilidades dos dois eventos. Desse modo

Assim, a regra diz que as odds posteriores são as odds anteriores vezes o fator de Bayes, ou seja, as odds posteriores são proporcionais às anteriores vezes a verossimilhança.

Lógica proposicional Editar

O teorema de Bayes representa uma generalização da contraposição que na lógica proposicional pode ser expressa como:

A fórmula correspondente em termos de cálculo de probabilidade é o teorema de Bayes, que em sua forma expandida é expresso como:

Edição de lógica subjetiva

Bayes' theorem represents a special case of conditional inversion in subjective logic expressed as:

¬ B S ) = ( ω B ∣ A S , ω B ∣ ¬ A S ) ϕ

Hence, the subjective Bayes' theorem represents a generalization of Bayes' theorem. [9]

Conditioned version Edit

A conditioned version of the Bayes' theorem [10] results from the addition of a third event C on which all probabilities are conditioned:

Derivation Edit

P ( A ∩ B ∩ C ) = P ( A ∣ B ∩ C ) P ( B ∣ C ) P ( C )

P ( A ∩ B ∩ C ) = P ( B ∩ A ∩ C ) = P ( B ∣ A ∩ C ) P ( A ∣ C ) P ( C )

The desired result is obtained by identifying both expressions and solving for P ( A ∣ B ∩ C ) .

Bayes' rule with 3 events Edit

In the case of 3 events - A, B, and C - it can be shown that:

Bayes' theorem is named after the Reverend Thomas Bayes ( / b eɪ z / c. 1701 – 1761), who first used conditional probability to provide an algorithm (his Proposition 9) that uses evidence to calculate limits on an unknown parameter, published as An Essay towards solving a Problem in the Doctrine of Chances (1763). He studied how to compute a distribution for the probability parameter of a binomial distribution (in modern terminology). On Bayes' death his family transferred his papers to his old friend, Richard Price (1723 – 1791) who over a period of two years significantly edited the unpublished manuscript, before sending it to a friend who read it aloud at the Royal Society on 23 December 1763. [1] [ page needed ] Price edited [12] Bayes's major work "An Essay towards solving a Problem in the Doctrine of Chances" (1763), which appeared in Philosophical Transactions, [13] and contains Bayes' theorem. Price wrote an introduction to the paper which provides some of the philosophical basis of Bayesian statistics and chose one of the two solutions offered by Bayes. In 1765, Price was elected a Fellow of the Royal Society in recognition of his work on the legacy of Bayes. [14] [15] On 27 April a letter sent to his friend Benjamin Franklin was read out at the Royal Society, and later published, where Price applies this work to population and computing 'life-annuities'. [16]

Independently of Bayes, Pierre-Simon Laplace in 1774, and later in his 1812 Théorie analytique des probabilités, used conditional probability to formulate the relation of an updated posterior probability from a prior probability, given evidence. He reproduced and extended Bayes's results in 1774, apparently unaware of Bayes's work. [note 1] [17] The Bayesian interpretation of probability was developed mainly by Laplace. [18]

Sir Harold Jeffreys put Bayes's algorithm and Laplace’s formulation on an axiomatic basis, writing that Bayes' theorem "is to the theory of probability what the Pythagorean theorem is to geometry". [19]

Stephen Stigler used a Bayesian argument to conclude that Bayes' theorem was discovered by Nicholas Saunderson, a blind English mathematician, some time before Bayes [20] [21] that interpretation, however, has been disputed. [22] Martyn Hooper [23] and Sharon McGrayne [24] have argued that Richard Price's contribution was substantial:

By modern standards, we should refer to the Bayes–Price rule. Price discovered Bayes's work, recognized its importance, corrected it, contributed to the article, and found a use for it. The modern convention of employing Bayes's name alone is unfair but so entrenched that anything else makes little sense. [24]

In genetics, Bayes' theorem can be used to calculate the probability of an individual having a specific genotype. Many people seek to approximate their chances of being affected by a genetic disease or their likelihood of being a carrier for a recessive gene of interest. A Bayesian analysis can be done based on family history or genetic testing, in order to predict whether an individual will develop a disease or pass one on to their children. Genetic testing and prediction is a common practice among couples who plan to have children but are concerned that they may both be carriers for a disease, especially within communities with low genetic variance. [ citação necessária ]

The first step in Bayesian analysis for genetics is to propose mutually exclusive hypotheses: for a specific allele, an individual either is or is not a carrier. Next, four probabilities are calculated: Prior Probability (the likelihood of each hypothesis considering information such as family history or predictions based on Mendelian Inheritance), Conditional Probability (of a certain outcome), Joint Probability (product of the first two), and Posterior Probability (a weighted product calculated by dividing the Joint Probability for each hypothesis by the sum of both joint probabilities). This type of analysis can be done based purely on family history of a condition or in concert with genetic testing. [ citação necessária ]

Using pedigree to calculate probabilities Edit

Hypothesis Hypothesis 1: Patient is a carrier Hypothesis 2: Patient is not a carrier
Prior Probability 1/2 1/2
Conditional Probability that all four offspring will be unaffected (1/2) · (1/2) · (1/2) · (1/2) = 1/16 About 1
Joint Probability (1/2) · (1/16) = 1/32 (1/2) · 1 = 1/2
Posterior Probability (1/32) / (1/32 + 1/2) = 1/17 (1/2) / (1/32 + 1/2) = 16/17

Example of a Bayesian analysis table for a female individual's risk for a disease based on the knowledge that the disease is present in her siblings but not in her parents or any of her four children. Based solely on the status of the subject’s siblings and parents, she is equally likely to be a carrier as to be a non-carrier (this likelihood is denoted by the Prior Hypothesis). However, the probability that the subject’s four sons would all be unaffected is 1/16 (½·½·½·½) if she is a carrier, about 1 if she is a non-carrier (this is the Conditional Probability). The Joint Probability reconciles these two predictions by multiplying them together. The last line (the Posterior Probability) is calculated by dividing the Joint Probability for each hypothesis by the sum of both joint probabilities. [25]

Using genetic test results Edit

Parental genetic testing can detect around 90% of known disease alleles in parents that can lead to carrier or affected status in their child. Cystic fibrosis is a heritable disease caused by an autosomal recessive mutation on the CFTR gene, [26] located on the q arm of chromosome 7. [27]

Bayesian analysis of a female patient with a family history of cystic fibrosis (CF), who has tested negative for CF, demonstrating how this method was used to determine her risk of having a child born with CF:

Because the patient is unaffected, she is either homozygous for the wild-type allele, or heterozygous. To establish prior probabilities, a Punnett square is used, based on the knowledge that neither parent was affected by the disease but both could have been carriers:

Homozygous for the wild-
type allele (a non-carrier)

Heterozygous (a CF carrier)

Homozygous for the wild-
type allele (a non-carrier)

Heterozygous (a CF carrier)

(affected by cystic fibrosis)

Given that the patient is unaffected, there are only three possibilities. Within these three, there are two scenarios in which the patient carries the mutant allele. Thus the prior probabilities are ⅔ and ⅓.

Next, the patient undergoes genetic testing and tests negative for cystic fibrosis. This test has a 90% detection rate, so the conditional probabilities of a negative test are 1/10 and 1. Finally, the joint and posterior probabilities are calculated as before.

Hypothesis Hypothesis 1: Patient is a carrier Hypothesis 2: Patient is not a carrier
Prior Probability 2/3 1/3
Conditional Probability of a negative test 1/10 1
Joint Probability 1/15 1/3
Posterior Probability 1/6 5/6

After carrying out the same analysis on the patient’s male partner (with a negative test result), the chances of their child being affected is equal to the product of the parents' respective posterior probabilities for being carriers times the chances that two carriers will produce an affected offspring (¼).

Genetic testing done in parallel with other risk factor identification. Edit

Bayesian analysis can be done using phenotypic information associated with a genetic condition, and when combined with genetic testing this analysis becomes much more complicated. Cystic Fibrosis, for example, can be identified in a fetus through an ultrasound looking for an echogenic bowel, meaning one that appears brighter than normal on a scan2. This is not a foolproof test, as an echogenic bowel can be present in a perfectly healthy fetus. Parental genetic testing is very influential in this case, where a phenotypic facet can be overly influential in probability calculation. In the case of a fetus with an echogenic bowel, with a mother who has been tested and is known to be a CF carrier, the posterior probability that the fetus actually has the disease is very high (0.64). However, once the father has tested negative for CF, the posterior probability drops significantly (to 0.16). [25]

Risk factor calculation is a powerful tool in genetic counseling and reproductive planning, but it cannot be treated as the only important factor to consider. As above, incomplete testing can yield falsely high probability of carrier status, and testing can be financially inaccessible or unfeasible when a parent is not present.


8.3 Bayes’ Long Theorem

We had to apply the Law of Total Probability first, before we could solve the taxicab problem with Bayes’ theorem, to calculate the denominator. This is so common that you’ll often see Bayes’ theorem written with this calculation built in. That is, the denominator (p(B)) is expanded out using the Law of Total Probability.

Bayes’ Theorem (long version)

Notice how there’s some repetition in the numerator and the denominator. The term (p(A)p(B given A)) appears both above and below. So, when you’re doing a calculation with this formula, you can just do that bit once and then copy it in both the top and bottom. Then you just have to do the bottom-right term to complete the formula.

Figure 8.5: A tree diagram for the long form of Bayes’ theorem. The definition of conditional probability tells us (p(A given B)) is the first leaf divided by the sum of the first and third leaves.

A tree diagram helps illuminate the long version of Bayes’ theorem. To calculate (p(A given B)) , the definition of conditional probability directs us to calculate (p(A wedge B)) and (p(B)) : [ p(A given B) = frac< p(A wedge B) >< p(B) >. ] Looking at the tree diagram in Figure 8.5, we see that this amounts to computing the first leaf for the numerator, and the sum of the first and third leaves for the denominator. Which yields the same formula as in the long form of Bayes’ theorem.


Formulários

You have a disease test, and the probability that you will get a positive test result given that you have the disease is really, really high in other words the test has a very high accuracy rate. The problem is that there is a probability that you will get a positive test result even if you do not have the disease. And that you can simply calculate from Bayes law. The big point is, is that these probabilities are not the same as the probability that you will get a positive result given the disease is not the same as the probability that you will have the disease given a positive result.

These are two different probability distributions. And what makes them so different is the probability of disease and the probability of a positive test result. So if the disease is rare, the probability of disease will be very, very small.

Disease testing: A = Have disease, B = Tested positive.


Total Probability & Bayes’ Theorem

Next we derive the Law of Total Probability and Bayes’ theorem.

[ p(A) = p(A given B)p(B) + p(A given eg B)p( eg B). ]

Notice, the last line of this proof only makes sense if (p(B) > 0) and (p( eg B) > 0) . That’s the same as (0 < p(B) < 1) , which is why the theorem begins with the condition: “If (0 < p(B) < 1) …”.

Now for the first version of Bayes’ theorem:

And next the long version:

Bayes’ Theorem (long version)


12.4: Bayes Theorem - Mathematics

Bayes’ Theorem with Conditional Probability

Understanding of probability is must for a data science professional. Solutions to many data science problems are often probabilistic in nature. Hence, a better understanding of probability will help you understand & implement these algorithms more efficiently.

In this article, I will focus on conditional probability. For beginners in probability, I would strongly recommend that you go through this article before proceeding further.

A predictive model can easily be understood as a statement of conditional probability. For example, the probability of a customer from segment A buying a product of category Z in next 10 days is 0.80. In other words, the probability of a customer buying product from Category Z, given that the customer is from Segment A is 0.80.

In this article, I will walk you through conditional probability in detail. I’ll be using examples & real-life scenarios to help you improve your understanding.

1.1 Union of Events

We can define an event © of getting a 4 or 6 when we roll a fair die. Here event C is a union of two events:

In simple words we can say that we should consider the probability of (A ꓴ B) when we are interested in combined probability of two (or more) events

1.2 Intersection of Events

We can now say that the shaded region is the probability of both events A and B occurring together.

1.3 Disjoint Events

What if, you come across a case when any two particular events cannot occur at the same time
As you can see, there is no case for which event A & B can occur together. Such events are called disjoint event. To represent this using a Venn diagram:

Now that we are familiar with the terms Union, intersection and disjoint events, we can talk about independence of events.

2.Independent, Dependent & Exclusive Events

suppose we have two events — event A and event B.

If the occurrence of event A doesn’t affect the occurrence of event B, these events are called independent events.
Let’s see some examples of independent events.

Getting heads after tossing a coin AND getting a 5 on a throw of a fair die.
Choosing a marble from a jar AND getting heads after tossing a coin.
Choosing a 3 card from a deck of cards, replacing it, AND then choosing an ace as the second card.
Rolling a 4 on a fair die, AND then rolling a 1 on a second roll of the die.

In each of these cases the probability of outcome of the second event is not affected at all by the outcome of the first event.

2.1 Probability of independent events

In this case the probability of P (A ꓵ B) = P (A) * P (B)

2.2 Mutually exclusive and Exhaustive events

Mutually exclusive events are those events where two events cannot happen together.

The easiest example to understand this is the toss of a coin. Getting a head and a tail are mutually exclusive because we can either get heads or tails but never both at the same in a single coin toss.

A set of events is collectively exhaustive when the set should contain all the possible outcomes of the experiment. One of the events from the list must occur for sure when the experiment is performed.

For example, in a throw of a die, <1,2,3,4,5,6>is an exhaustive collection because, it encompasses the entire range of the possible outcomes.

Consider the outcomes “even” (2,4 or 6) and “not-6” (1,2,3,4, or 5) in a throw of a fair die. They are collectively exhaustive but not mutually exclusive.

2.3 Conditional Probability

Conditional probabilities arise naturally in the investigation of experiments where an outcome of a trial may affect the outcomes of the subsequent trials.

We try to calculate the probability of the second event (event B) given that the first event (event A) has already happened. If the probability of the event changes when we take the first event into consideration, we can safely say that the probability of event B is dependent of the occurrence of event A.

Let’s think of cases where this happens:

Drawing a second ace from a deck given we got the first ace
Finding the probability of having a disease given you were tested positive
Finding the probability of liking Harry Potter given we know the person likes fiction
And so on….

Here we can define, 2 events:

Event A is the probability of the event we’re trying to calculate.
Event B is the condition that we know or the event that has happened.
We can write the conditional probability as , the probability of the occurrence of event A given that B has already happened.

3. Bayes Theorem
The Bayes theorem describes the probability of an event based on the prior knowledge of the conditions that might be related to the event. If we know the conditional probability , we can use the bayes rule to find out the reverse probabilities .

The above statement is the general representation of the Bayes rule.

For the previous example — if we now wish to calculate the probability of having a pizza for lunch provided you had a bagel for breakfast would be = 0.7 * 0.5/0.6.

We can generalize the formula further.

If multiple events Ai form an exhaustive set with another event B.

We can write the equation as

5. Example of Bayes Theorem and Probability trees

Let’s take the example of the breast cancer patients. The patients were tested thrice before the oncologist concluded that they had cancer. The general belief is that 1.48 out of a 1000 people have breast cancer in the US at that particular time when this test was conducted. The patients were tested over multiple tests. Three sets of test were done and the patient was only diagnosed with cancer if she tested positive in all three of them.

Let’s examine the test in detail.

Sensitivity of the test (93%) — true positive Rate

Specificity of the test (99%) — true negative Rate

Let’s first compute the probability of having cancer given that the patient tested positive in the first test.

Sensitivity can be denoted as P (+ | cancer) = 0.93

Specificity can be denoted as P (- | no cancer)

Since we do not have any other information, we believe that the patient is a randomly sampled individual. Hence our prior belief is that there is a 0.148% probability of the patient having cancer.

The complement is that there is a 100–0.148% chance that the patient does not have CANCER. Similarly we can draw the below tree to denote the probabilities.

Let’s now try to calculate the probability of having cancer given that he tested positive on the first test i.e. P (cancer|+)

P (cancer and +) = P (cancer) * P (+) = 0.00148*0.93

P (no cancer and +) = P (no cancer) * P(+) = 0.99852*0.01

To calculate the probability of testing positive, the person can have cancer and test positive or he may not have cancer and still test positive.

This means that there is a 12% chance that the patient has cancer given he tested positive in the first test. This is known as the posterior probability.

5.1 Bayes Updating

Let’s now try to calculate the probability of having cancer given the patient tested positive in the second test as well.

Now remember we will only do the second test if she tested positive in the first one. Therefore now the person is no longer a randomly sampled person but a specific case. We know something about her. Hence, the prior probabilities should change. We update the prior probability with the posterior from the previous test.

Nothing would change in the sensitivity and specificity of the test since we’re doing the same test again. Look at the probability tree below.

Let’s calculate again the probability of having cancer given she tested positive in the second test.

P (cancer and +) = P(cancer) * P(+) = 0.12 * 0.93

P (no cancer and +) = P (no cancer) * P (+) = 0.88 * 0.01

To calculate the probability of testing positive, the person can have cancer and test positive or she may not have cancer and still test positive.

Now we see, that a patient who tested positive in the test twice, has a 93% chance of having cancer.

6. Frequentist vs Bayesian Definitions of probability

A frequentist defines probability as an expected frequency of occurrence over large number of experiments.

P(event) = n/N, where n is the number of times event A occurs in N opportunities.

The Bayesian view of probability is related to degree of belief. It is a measure of the plausibility of an event given incomplete knowledge.

The frequentist believes that the population mean is real but unknowable and can only be estimated from the data. He knows the distribution of the sample mean and constructs a confidence interval centered at the sample mean. So the actual population mean is either in the confidence interval or not in it.

This is because he believes that the true mean is a single fixed value and does not have a distribution. So the frequentist says that 95% of similar intervals would contain the true mean, if each interval were constructed from a different random sample.

The Bayesian definition has a totally different view point. They use their beliefs to construct probabilities. They believe that certain values are more believable than others based on the data and our prior knowledge.

The Bayesian constructs a credible interval centered near the sample mean and totally affected by the prior beliefs about the mean. The Bayesian can therefore make statements about the population mean by using the probabilities.


There is a web page for the text: Link to Goldstein Click the "jump to" button. You will find multiple choice Quizzes with answers.

2- Chart showing how cancer compares with other causes of death at various ages (NY times July 2, 2002). It is correct to say that 1 in 8 women will bevelop breast cancer in her lifetime? How does this compare with the chart? What kind of probabilities are these numbers?

7- Article on overall risk of catastrophic failure of Shuttle New York Times 12/4/1993
Question: What is the probability of at least one failure in 50 flights? in 100 flights?

10- New York Times, 9/6/2000 article on Firestone tires
Some natural questions: Identify the data in terms of conditional probability
Can one calculate the probability of a fatal accident?

11- Article on Tamoxifen and endometrial cancers, NY times 9/8/00.
Can one deduce the probability that a women who had breast cancer and takes tamoxifen developes endometrial cancer?

12- Article from NY Times, 9/27/2000 From an article on Income and Poverty. The NY Times understands the difference between the median and average.

13- Article on Nuclear Wepons
What "calculation" did the the officials at the Strategic Air Command make that led them to target one facility with 69 nuclear missiles?

14-Graph from Feb. 20, 2001
A graph of "Dangerous drivers and the age spectrum" It may be instructive to interpert this as a Histogram.

15- Article on Raloxifene and Breast Cancer from Feb. 26 issue of Breast Cancer Research and Treatment
What type of probability are these numbers? Could one compute the probability a woman with osteoporosis from the general population will contract Breast Cancer?

16- Some census data from March 6 2001 NY Times
Explain these numbers in terms of probabilities.

An article from the April 28 edition of the NY times on Bayes' theorem and life. Interesting examples of applications of Bayes theorem as well as the controversy about its use.
17-Adding art to the Rigor of Statistical Science

18- An article from the June 8, 2004 edition of the NY times on the "Fat Epidemic". An example of how statistics can present data in two ways which seem to contradict each other.

19-A study reported in the NY times "Aspirin is seen as preventing breast tumors"
I marked the data with ******. About half the women in the study had breast cancer. Can you determine the probability a woman in the study has breast cancer if she takes aspirin? If she does not take aspirin?

20- NY times 12/12/2009
Application of Bayes' theorem to the mammogram controversy. The argument is exactly the same as the one for TB testing covered in class.


1.2 Posterior Predictive Distribution

The posterior predictive distribution is the the probability of observing new data ( (y^) ) given the posterior distribution of the model parameters after observing training data, (p( heta | y^)) . [ p(y^ | y^) = int p(y^ | heta) p( heta | y^),d heta . ag <1.1>]

Many tradition statistical or machine learning methods proceed by estimating a “best” value of the parameters using training data, and then predicting evaluating data using that parameter. For example, we could calculate the maximum a posteriori estimate of of ( heta) given the training data, [ hat < heta>= arg max_ < heta>p( heta | y^) , ] and then use that for the distribution of evaluation data, [ p(y^ | y^ approx p(y^ | hat< heta>) . ] However, this does not incorporate the uncertainty in the estimates of ( heta) . The full form of the posterior predictive distribution in Equation ag <1.1>incorporates the uncertainty about ( heta) into the distribution of (p(y^ | heta)) .


Assista o vídeo: Twierdzenie Bayesa, czyli jak znaleźć mordercę! (Outubro 2021).