Suivez nous sur

Qu'est-ce que le thĂ©orème de Bayes ?

AI 101

Qu'est-ce que le thĂ©orème de Bayes ?

mm

Si vous avez appris la science des donnĂ©es ou l'apprentissage automatique, il y a de fortes chances que vous ayez entendu le terme « thĂ©orème de Bayes Â» avant, ou un « classificateur Bayes ». Ces concepts peuvent ĂŞtre quelque peu dĂ©routants, surtout si vous n'ĂŞtes pas habituĂ© Ă  considĂ©rer les probabilitĂ©s dans une perspective statistique traditionnelle et frĂ©quentiste. Cet article tentera d'expliquer les principes du thĂ©orème de Bayes et comment il est utilisĂ© dans l'apprentissage automatique.

Qu'est-ce que le thĂ©orème de Bayes ?

Le théorème de Bayes est une méthode de calcul de la probabilité conditionnelle. La méthode traditionnelle de calcul de la probabilité conditionnelle (la probabilité qu'un événement se produise compte tenu de l'occurrence d'un événement différent) consiste à utiliser la formule de probabilité conditionnelle, en calculant la probabilité conjointe que l'événement un et l'événement deux se produisent en même temps, puis en la divisant par la probabilité que l'événement deux se produise. Cependant, la probabilité conditionnelle peut également être calculée d'une manière légèrement différente en utilisant le théorème de Bayes.

Lors du calcul d'une probabilitĂ© conditionnelle avec le thĂ©orème de Bayes, vous suivez les Ă©tapes suivantes :

  • DĂ©terminer la probabilitĂ© que la condition B soit vraie, en supposant que la condition A est vraie.
  • DĂ©terminer la probabilitĂ© que l'Ă©vĂ©nement A soit vrai.
  • Multipliez les deux probabilitĂ©s ensemble.
  • Diviser par la probabilitĂ© que l'Ă©vĂ©nement B se produise.

Cela signifie que la formule du thĂ©orème de Bayes pourrait s'exprimer ainsi :

P(UNE|B) = P(B|UNE)*P(UNE) / P(B)

Le calcul de la probabilité conditionnelle comme celui-ci est particulièrement utile lorsque la probabilité conditionnelle inverse peut être facilement calculée, ou lorsque le calcul de la probabilité conjointe serait trop difficile.

Exemple de théorème de Bayes

Cela pourrait être plus facile à interpréter si nous passons du temps à regarder un (ici) de la façon dont vous appliqueriez le raisonnement bayésien et le théorème de Bayes. Supposons que vous jouiez à un jeu simple où plusieurs participants vous racontent une histoire et vous devez déterminer lequel des participants vous ment. Remplissons l'équation du théorème de Bayes avec les variables de ce scénario hypothétique.

Nous essayons de prédire si chaque individu dans le jeu ment ou dit la vérité, donc s'il y a trois joueurs en dehors de vous, les variables catégorielles peuvent être exprimées comme A1, A2 et A3. La preuve de leurs mensonges/vérité est leur comportement. Comme lorsque vous jouez au poker, vous recherchez certains "dits" qu'une personne ment et vous les utilisez comme des informations pour éclairer votre supposition. Ou si vous étiez autorisé à les interroger, ce serait une preuve que leur histoire ne correspond pas. Nous pouvons représenter la preuve qu'une personne ment comme B.

Pour ĂŞtre clair, nous visons Ă  prĂ©dire la probabilitĂ© (A ment/dit la vĂ©ritĂ© | Ă©tant donnĂ© la preuve de son comportement). Pour ce faire, nous voudrions dĂ©terminer la probabilitĂ© que B soit A, ou la probabilitĂ© que leur comportement se produise Ă©tant donnĂ© que la personne ment vĂ©ritablement ou dit la vĂ©ritĂ©. Vous essayez de dĂ©terminer dans quelles conditions le comportement que vous observez aurait le plus de sens. S'il y a trois comportements dont vous ĂŞtes tĂ©moin, vous feriez le calcul pour chaque comportement. Par exemple, P(B1, B2, B3 * A). Vous feriez alors cela pour chaque occurrence de A/pour chaque personne dans le jeu en dehors de vous-mĂŞme. C'est cette partie de l'Ă©quation ci-dessus :

P(B1, B2, B3,|UNE) * P|UNE

Enfin, nous divisons simplement cela par la probabilité de B.

Si nous recevions des preuves sur les probabilités réelles dans cette équation, nous recréerions notre modèle de probabilité en tenant compte des nouvelles preuves. C'est ce qu'on appelle la mise à jour de vos priors, car vous mettez à jour vos hypothèses sur la probabilité antérieure que les événements observés se produisent.

Applications d'apprentissage automatique pour le théorème de Bayes

L'utilisation la plus courante du théorème de Bayes en matière d'apprentissage automatique se présente sous la forme de l'algorithme Naive Bayes.

Naive Bayes est utilisé pour la classification des ensembles de données binaires et multi-classes, Naive Bayes tire son nom du fait que les valeurs attribuées aux preuves/attributs témoins - Bs dans P(B1, B2, B3 * A) - sont supposées être indépendantes l'un de l'autre. On suppose que ces attributs n'ont pas d'impact les uns sur les autres afin de simplifier le modèle et de rendre les calculs possibles, au lieu de tenter la tâche complexe de calculer les relations entre chacun des attributs. Malgré ce modèle simplifié, Naive Bayes a tendance à fonctionner assez bien en tant qu'algorithme de classification, même lorsque cette hypothèse n'est probablement pas vraie (ce qui est la plupart du temps).

Il existe également des variantes couramment utilisées du classificateur Naive Bayes, telles que Multinomial Naive Bayes, Bernoulli Naive Bayes et Gaussian Naive Bayes.

Bayes naïves multinomiales Les algorithmes sont souvent utilisés pour classer les documents, car ils sont efficaces pour interpréter la fréquence des mots dans un document.

Bernoulli Naïf Bayes fonctionne de la même manière que Multinomial Naive Bayes, mais les prédictions rendues par l'algorithme sont booléennes. Cela signifie que lors de la prédiction d'une classe, les valeurs seront binaires, non ou oui. Dans le domaine de la classification de texte, un algorithme de Bernoulli Naive Bayes attribuerait aux paramètres un oui ou un non en fonction de la présence ou non d'un mot dans le document texte.

Si la valeur des prédicteurs/caractéristiques n'est pas discrète mais plutôt continue, Bayes naïf gaussien peut être utilisé. On suppose que les valeurs des caractéristiques continues ont été échantillonnées à partir d'une distribution gaussienne.