منظمة العفو الدولية 101

ما هي نظرية بايز؟

تم النشر 12 آذار، 2020

تحديث 23 أغسطس 2020

دانيال نيلسون

إذا كنت تتعلم عن علوم البيانات أو التعلم الآلي، فمن المحتمل أنك سمعت مصطلح "نظرية بايز" قبل ذلك، أو "مصنف بايز". قد تبدو هذه المفاهيم مُربكة بعض الشيء، خاصةً إذا لم تكن معتادًا على التفكير في الاحتمالية من منظور إحصائي تقليدي وتكراري. ستحاول هذه المقالة شرح مبادئ نظرية بايز وكيفية استخدامها في التعلم الآلي.

ما هي نظرية بايز؟

نظرية بايز هي طريقة حساب الاحتمال الشرطي. الطريقة التقليدية لحساب الاحتمال الشرطي (احتمالية وقوع حدث واحد في ظل وقوع حدث مختلف) هي استخدام صيغة الاحتمال الشرطي ، وحساب الاحتمال المشترك للحدث الأول والحدث الثاني في نفس الوقت ، ثم تقسيمه من خلال احتمال وقوع الحدث الثاني. ومع ذلك ، يمكن أيضًا حساب الاحتمال الشرطي بطريقة مختلفة قليلاً باستخدام نظرية بايز.

عند حساب الاحتمال الشرطي باستخدام نظرية بايز ، يمكنك استخدام الخطوات التالية:

أوجد احتمال كون الشرط ب صحيحًا ، بافتراض أن الشرط أ صحيح.
أوجد احتمال أن يكون الحدث أ صحيحًا.
اضرب الاحتمالين معًا.
اقسم على احتمال وقوع الحدث ب.

هذا يعني أنه يمكن التعبير عن صيغة نظرية بايز على النحو التالي:

الفوسفور (A | B) = P (B | A) * P (A) / P (B)

يعد حساب الاحتمال الشرطي مثل هذا مفيدًا بشكل خاص عندما يمكن حساب الاحتمال الشرطي العكسي بسهولة ، أو عندما يكون حساب الاحتمال المشترك صعبًا للغاية.

مثال على نظرية بايز

قد يكون هذا أسهل في التفسير إذا أمضينا بعض الوقت في النظر إلى ملف مثال عن كيفية تطبيق المنطق البايزي ونظرية بايز. لنفترض أنك كنت تلعب لعبة بسيطة حيث يروي لك العديد من المشاركين قصة وعليك تحديد أي من المشاركين يكذب عليك. دعنا نملأ معادلة نظرية بايز بالمتغيرات في هذا السيناريو الافتراضي.

نحاول أن نتنبأ بما إذا كان كل فرد في اللعبة يكذب أو يقول الحقيقة ، لذلك إذا كان هناك ثلاثة لاعبين بعيدًا عنك ، فيمكن التعبير عن المتغيرات الفئوية على أنها A1 و A2 و A3. الدليل على أكاذيبهم / الحقيقة هو سلوكهم. مثلما هو الحال عند لعب البوكر ، قد تبحث عن "إيحاءات" معينة بأن شخصًا ما يكذب وتستخدمها كأجزاء من المعلومات لإعلامك بتخمينك. أو إذا سُمح لك باستجوابهم ، فسيكون أي دليل على أن قصتهم لا تضيف شيئًا. يمكننا تقديم الدليل على أن الشخص يكذب مثل B.

لنكون واضحين ، نحن نهدف إلى توقع الاحتمالية (A يكذب / يقول الحقيقة | في ضوء الدليل على سلوكهم). للقيام بذلك ، نرغب في معرفة احتمالية B في حالة A ، أو احتمال حدوث سلوكهم في ضوء الكذب الحقيقي أو قول الحقيقة. أنت تحاول تحديد الظروف التي سيكون السلوك الذي تراه أكثر منطقية في ظلها. إذا كان هناك ثلاثة سلوكيات تشهدها ، فستقوم بحساب كل سلوك. على سبيل المثال ، P (B1، B2، B3 * A). ستفعل هذا بعد ذلك في كل مرة تحدث فيها A / لكل شخص في اللعبة بعيدًا عن نفسك. هذا الجزء من المعادلة أعلاه:

P (B1، B2، B3، | A) * ف | أ

أخيرًا ، نقسم ذلك على احتمال B.

إذا تلقينا أي دليل حول الاحتمالات الفعلية في هذه المعادلة ، فسنقوم بإعادة إنشاء نموذج الاحتمال الخاص بنا ، مع الأخذ في الاعتبار الدليل الجديد. يسمى هذا بتحديث مقدماتك ، حيث تقوم بتحديث افتراضاتك حول الاحتمال المسبق للأحداث المرصودة التي تحدث.

تطبيقات التعلم الآلي لنظرية بايز

الاستخدام الأكثر شيوعًا لنظرية بايز عندما يتعلق الأمر بالتعلم الآلي يكون في شكل خوارزمية Naive Bayes.

يتم استخدام Naive Bayes لتصنيف كل من مجموعات البيانات الثنائية ومتعددة الفئات ، ويحصل Naive Bayes على اسمه لأن القيم المخصصة لأدلة / سمات الشهود - BS في P (B1 ، B2 ، B3 * A) - يفترض أن تكون مستقلة واحد آخر. من المفترض أن هذه السمات لا تؤثر على بعضها البعض من أجل تبسيط النموذج وجعل الحسابات ممكنة ، بدلاً من محاولة المهمة المعقدة لحساب العلاقات بين كل سمة. على الرغم من هذا النموذج المبسط ، يميل Naive Bayes إلى أداء خوارزمية تصنيف بشكل جيد ، حتى عندما يكون هذا الافتراض غير صحيح على الأرجح (وهو في معظم الأحيان).

هناك أيضًا متغيرات شائعة الاستخدام لمصنف بايز الساذج مثل بايز الساذج المتعدد الحدود، وبايز الساذج برنولي، وبايز الساذج الغاوسي.

متعدد الحدود ساذجة بايز غالبًا ما تستخدم الخوارزميات لتصنيف المستندات ، لأنها فعالة في تفسير تكرار الكلمات داخل المستند.

برنولي سايف بايز تعمل بشكل مشابه لـ Multinomial Naive Bayes ، لكن التنبؤات التي قدمتها الخوارزمية هي منطقية. هذا يعني أنه عند التنبؤ بفئة ما ، ستكون القيم ثنائية ، لا أو نعم. في مجال تصنيف النص ، ستقوم خوارزمية Bernoulli Naive Bayes بتعيين المعلمات بنعم أو لا بناءً على ما إذا كانت الكلمة موجودة في المستند النصي أم لا.

إذا كانت قيمة المتنبئات / الميزات ليست منفصلة ولكنها مستمرة بدلاً من ذلك ، بايز غاوسيان ساذج ممكن استخدامه. يُفترض أن قيم السمات المستمرة قد تم أخذ عينات منها من توزيع غاوسي.