toco O que é o Teorema de Bayes? - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

O que é o Teorema de Bayes?

mm
Atualização do on

Se você está aprendendo sobre ciência de dados ou aprendizado de máquina, há uma boa chance de já ter ouvido falar do termo “Teorema de Bayes” antes, ou um “classificador Bayes”. Esses conceitos podem ser um tanto confusos, especialmente se você não estiver acostumado a pensar em probabilidade de uma perspectiva estatística tradicional e frequentista. Este artigo tentará explicar os princípios por trás do Teorema de Bayes e como ele é usado no aprendizado de máquina.

O que é o Teorema de Bayes?

O teorema de Bayes é um método de calculando probabilidade condicional. O método tradicional de calcular a probabilidade condicional (a probabilidade de que um evento ocorra dada a ocorrência de um evento diferente) é usar a fórmula de probabilidade condicional, calculando a probabilidade conjunta do evento um e do evento dois ocorrendo ao mesmo tempo e, em seguida, dividindo-a pela probabilidade de ocorrência do evento dois. No entanto, a probabilidade condicional também pode ser calculada de forma ligeiramente diferente usando o Teorema de Bayes.

Ao calcular a probabilidade condicional com o teorema de Bayes, você usa as seguintes etapas:

  • Determine a probabilidade da condição B ser verdadeira, supondo que a condição A seja verdadeira.
  • Determine a probabilidade do evento A ser verdadeiro.
  • Multiplique as duas probabilidades juntas.
  • Divida pela probabilidade de ocorrência do evento B.

Isso significa que a fórmula do Teorema de Bayes pode ser expressa assim:

P(A|B) = P(B|A)*P(A) / P(B)

Calcular a probabilidade condicional dessa forma é especialmente útil quando a probabilidade condicional reversa pode ser facilmente calculada ou quando calcular a probabilidade conjunta seria muito desafiador.

Exemplo do Teorema de Bayes

Isso pode ser mais fácil de interpretar se passarmos algum tempo olhando para um exemplo de como você aplicaria o raciocínio Bayesiano e o Teorema de Bayes. Vamos supor que você esteja jogando um jogo simples em que vários participantes contam uma história e você precisa determinar qual dos participantes está mentindo para você. Vamos preencher a equação do Teorema de Bayes com as variáveis ​​desse cenário hipotético.

Estamos tentando prever se cada indivíduo no jogo está mentindo ou dizendo a verdade, portanto, se houver três jogadores além de você, as variáveis ​​categóricas podem ser expressas como A1, A2 e A3. A evidência de suas mentiras/verdades é seu comportamento. Como ao jogar pôquer, você procuraria por certos “indicadores” de que uma pessoa está mentindo e os usaria como informações para informar seu palpite. Ou se você tivesse permissão para questioná-los, seria qualquer evidência que a história deles não batesse. Podemos representar a evidência de que uma pessoa está mentindo como B.

Para ser claro, nosso objetivo é prever a Probabilidade (A está mentindo/dizendo a verdade | dada a evidência de seu comportamento). Para fazer isso, gostaríamos de descobrir a probabilidade de B dado A, ou a probabilidade de que seu comportamento ocorreria dada a pessoa genuinamente mentindo ou dizendo a verdade. Você está tentando determinar sob quais condições o comportamento que está vendo faria mais sentido. Se houver três comportamentos que você está testemunhando, você deve fazer o cálculo para cada comportamento. Por exemplo, P(B1, B2, B3 * A). Você faria isso para cada ocorrência de A/para cada pessoa no jogo além de você. Essa é a parte da equação acima:

P(B1, B2, B3,|A) * P|A

Finalmente, nós apenas dividimos isso pela probabilidade de B.

Se recebêssemos alguma evidência sobre as probabilidades reais nesta equação, recriaríamos nosso modelo de probabilidade, levando em conta a nova evidência. Isso é chamado de atualização de seus antecedentes, pois você atualiza suas suposições sobre a probabilidade anterior de ocorrência dos eventos observados.

Aplicações de aprendizado de máquina para o teorema de Bayes

O uso mais comum do teorema de Bayes quando se trata de aprendizado de máquina é na forma do algoritmo Naive Bayes.

Naive Bayes é usado para a classificação de conjuntos de dados binários e multiclasse, Naive Bayes recebe esse nome porque os valores atribuídos às evidências/atributos das testemunhas – Bs em P(B1, B2, B3 * A) – são considerados independentes um do outro. Supõe-se que esses atributos não impactem uns aos outros para simplificar o modelo e possibilitar os cálculos, em vez de tentar a complexa tarefa de calcular as relações entre cada um dos atributos. Apesar desse modelo simplificado, o Naive Bayes tende a funcionar muito bem como um algoritmo de classificação, mesmo quando essa suposição provavelmente não é verdadeira (o que ocorre na maioria das vezes).

Existem também variantes comumente usadas do classificador Naive Bayes, como Multinomial Naive Bayes, Bernoulli Naive Bayes e Gaussian Naive Bayes.

Multinomial Ingênuo Bayes os algoritmos são frequentemente usados ​​para classificar documentos, pois são eficazes na interpretação da frequência das palavras em um documento.

Bernoulli Naive Bayes opera de forma semelhante ao Multinomial Naive Bayes, mas as previsões feitas pelo algoritmo são booleanas. Isso significa que ao prever uma classe os valores serão binários, não ou sim. No domínio da classificação de texto, um algoritmo de Bernoulli Naive Bayes atribuiria aos parâmetros um sim ou não com base no fato de uma palavra ser encontrada ou não no documento de texto.

Se o valor dos preditores/recursos não for discreto, mas contínuo, Gaussiano Naive Bayes pode ser usado. Supõe-se que os valores das feições contínuas foram amostrados de uma distribuição gaussiana.

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA ​​para o bem social.