AI 101

Định lý Bayes là gì?

cập nhật on Tháng Tám 23, 2020

Nếu bạn đang tìm hiểu về khoa học dữ liệu hoặc học máy, rất có thể bạn đã nghe nói đến thuật ngữ “Định lý Bayes” trước đó hoặc “bộ phân loại Bayes”. Những khái niệm này có thể hơi khó hiểu, đặc biệt nếu bạn không quen nghĩ về xác suất từ góc độ thống kê truyền thống, thường xuyên. Bài viết này sẽ cố gắng giải thích các nguyên tắc đằng sau Định lý Bayes và cách nó được sử dụng trong học máy.

Định lý Bayes là gì?

Định lý Bayes là một phương pháp tính xác suất có điều kiện. Phương pháp truyền thống để tính xác suất có điều kiện (xác suất mà một sự kiện xảy ra khi một sự kiện khác xảy ra) là sử dụng công thức xác suất có điều kiện, tính xác suất chung của sự kiện một và sự kiện hai xảy ra đồng thời, rồi chia nó bằng xác suất của sự kiện hai xảy ra. Tuy nhiên, xác suất có điều kiện cũng có thể được tính theo cách hơi khác bằng cách sử dụng Định lý Bayes.

Khi tính toán xác suất có điều kiện với định lý Bayes, bạn sử dụng các bước sau:

Xác định xác suất của điều kiện B là đúng, giả sử rằng điều kiện A là đúng.
Xác định xác suất để biến cố A đúng.
Nhân hai xác suất với nhau.
Chia cho xác suất xảy ra sự kiện B.

Điều này có nghĩa là công thức của Định lý Bayes có thể được biểu diễn như sau:

P(A|B) = P(B|A)*P(A) / P(B)

Việc tính xác suất có điều kiện như thế này đặc biệt hữu ích khi xác suất có điều kiện đảo ngược có thể được tính dễ dàng hoặc khi việc tính xác suất chung sẽ quá khó khăn.

Ví dụ về Định lý Bayes

Điều này có thể dễ giải thích hơn nếu chúng ta dành thời gian xem xét một ví dụ về cách bạn sẽ áp dụng suy luận Bayes và Định lý Bayes. Giả sử bạn đang chơi một trò chơi đơn giản trong đó nhiều người tham gia kể cho bạn nghe một câu chuyện và bạn phải xác định xem ai trong số những người tham gia đang nói dối bạn. Hãy điền vào phương trình của Định lý Bayes với các biến trong tình huống giả định này.

Chúng tôi đang cố gắng dự đoán xem mỗi cá nhân trong trò chơi đang nói dối hay nói thật, vì vậy nếu có ba người chơi ngoài bạn, các biến phân loại có thể được biểu thị bằng A1, A2 và A3. Bằng chứng cho những lời nói dối/sự thật của họ là hành vi của họ. Giống như khi chơi bài xì phé, bạn sẽ tìm kiếm một số “dấu hiệu” nhất định rằng một người đang nói dối và sử dụng chúng như những mẩu thông tin để đưa ra dự đoán của bạn. Hoặc nếu bạn được phép đặt câu hỏi cho họ thì đó sẽ là bằng chứng cho thấy câu chuyện của họ không hợp lý. Chúng ta có thể trình bày bằng chứng cho thấy một người đang nói dối là B.

Để rõ ràng, chúng tôi đang hướng tới dự đoán Xác suất (A đang nói dối/nói sự thật|dựa trên bằng chứng về hành vi của họ). Để làm điều này, chúng tôi muốn tìm ra xác suất của B với A hoặc xác suất mà hành vi của họ sẽ xảy ra nếu người đó thực sự nói dối hoặc nói sự thật. Bạn đang cố gắng xác định hành vi mà bạn đang thấy sẽ có ý nghĩa nhất trong những điều kiện nào. Nếu có ba hành vi bạn đang chứng kiến, bạn sẽ tính toán cho từng hành vi. Ví dụ: P(B1, B2, B3 * A). Sau đó, bạn sẽ làm điều này cho mọi lần xuất hiện A/cho mọi người trong trò chơi ngoại trừ chính bạn. Đó là một phần của phương trình trên:

P(B1, B2, B3,|A) * P|A

Cuối cùng, chúng ta chỉ cần chia số đó cho xác suất của B.

Nếu chúng tôi nhận được bất kỳ bằng chứng nào về xác suất thực tế trong phương trình này, chúng tôi sẽ tạo lại mô hình xác suất của mình, có tính đến bằng chứng mới. Điều này được gọi là cập nhật các dự đoán của bạn, khi bạn cập nhật các giả định của mình về xác suất xảy ra trước đó của các sự kiện quan sát được.

Ứng dụng học máy cho định lý Bayes

Việc sử dụng định lý Bayes phổ biến nhất khi nói đến học máy là ở dạng thuật toán Naive Bayes.

Naive Bayes được sử dụng để phân loại cả bộ dữ liệu nhị phân và đa lớp, Naive Bayes có tên như vậy vì các giá trị được gán cho bằng chứng/thuộc tính của nhân chứng – Bs trong P(B1, B2, B3 * A) – được giả định là độc lập của nhau. Giả định rằng các thuộc tính này không tác động lẫn nhau để đơn giản hóa mô hình và thực hiện các phép tính, thay vì cố gắng thực hiện nhiệm vụ phức tạp là tính toán mối quan hệ giữa từng thuộc tính. Bất chấp mô hình đơn giản hóa này, Naive Bayes có xu hướng hoạt động khá tốt như một thuật toán phân loại, ngay cả khi giả định này có thể không đúng (điều này hầu hết thời gian).

Ngoài ra các lý do khác về mặt văn hóa và sự đồng cảm cũng giúp Hoa Kì là điểm đến của nhiều học viên từ Việt Nam biến thể thường được sử dụng của bộ phân loại Naive Bayes như Multinomial Naive Bayes, Bernoulli Naive Bayes và Gaussian Naive Bayes.

Vịnh Naive đa cực các thuật toán thường được sử dụng để phân loại tài liệu, vì nó có hiệu quả trong việc giải thích tần suất xuất hiện của các từ trong tài liệu.

Bernoulli Naive Bayes hoạt động tương tự như Multinomial Naive Bayes, nhưng các dự đoán do thuật toán đưa ra là các phép toán luận. Điều này có nghĩa là khi dự đoán một lớp, các giá trị sẽ là nhị phân, không hoặc có. Trong lĩnh vực phân loại văn bản, thuật toán Bernoulli Naive Bayes sẽ gán các tham số là có hoặc không dựa trên việc có tìm thấy một từ trong tài liệu văn bản hay không.

Nếu giá trị của các yếu tố dự đoán/đặc trưng không rời rạc mà thay vào đó là liên tục, Vịnh ngây thơ Gaussian có thể được sử dụng. Giả định rằng các giá trị của các tính năng liên tục đã được lấy mẫu từ phân phối gaussian.

Chủ đề liên quan:Các thuật toán định lý bayes Machine Learning bayes ngây thơ

Học tăng cường sâu là gì?

Đừng bỏ lỡ

RNN và LSTM trong Deep Learning là gì?

Daniel Nelson

Blogger và lập trình viên có chuyên môn về Machine Learning và Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.