AI 101

Generatywne i dyskryminacyjne modele uczenia maszynowego

Zaktualizowano on 2 stycznia 2021 r.

Niektóre modele uczenia maszynowego należą do kategorii modeli „generatywnych” lub „dyskryminacyjnych”. A jednak co jest Różnica między te dwie kategorie modeli? Co to znaczy, że model jest dyskryminacyjny lub generatywny?

Krótka odpowiedź jest taka, że modele generatywne to takie, które uwzględniają rozkład zbioru danych i zwracają prawdopodobieństwo dla danego przykładu. Modele generatywne są często używane do przewidywania, co nastąpi dalej w sekwencji. Tymczasem modele dyskryminacyjne służą do klasyfikacji lub regresji i zwracają prognozę na zasadzie warunkowej prawdopodobieństwo. Przyjrzyjmy się bardziej szczegółowo różnicom między modelami generatywnymi i dyskryminacyjnymi, abyśmy mogli naprawdę zrozumieć, co oddziela te dwa typy modeli i kiedy należy stosować każdy z nich.

Modele generatywne a dyskryminacyjne

Istnieje wiele sposobów kategoryzowania modelu uczenia maszynowego. Model można sklasyfikować jako należący do różnych kategorii, takich jak: modele generatywne, modele dyskryminacyjne, modele parametryczne, modele nieparametryczne, modele oparte na drzewach, modele nie oparte na drzewach.

W tym artykule skupimy się na różnicach między modelami generatywnymi a modelami dyskryminacyjnymi. Zaczniemy od zdefiniowania modeli generatywnych i dyskryminacyjnych, a następnie przeanalizujemy kilka przykładów każdego typu modelu.

Modele generatywne

Modele generatywne to te, które koncentrują się na rozmieszczeniu klas w zbiorze danych. Algorytmy uczenia maszynowego zazwyczaj modelują rozkład punktów danych. Modele generatywne polegają na znajdowaniu łącznego prawdopodobieństwa. Tworzenie punktów, w których dana cecha wejściowa i pożądany wynik/etykieta istnieją jednocześnie.

Modele generatywne są zwykle stosowane do szacowania prawdopodobieństw i prawdopodobieństw, modelowania punktów danych i rozróżniania klas na podstawie tych prawdopodobieństw. Ponieważ model uczy się rozkładu prawdopodobieństwa dla zbioru danych, może odwoływać się do tego rozkładu prawdopodobieństwa w celu wygenerowania nowych instancji danych. Modele generatywne często polegają na Twierdzenie Bayesa znaleźć łączne prawdopodobieństwo, znajdując p(x,y). Zasadniczo modele generatywne modelują sposób wygenerowania danych. Należy odpowiedzieć na następujące pytanie:

„Jakie jest prawdopodobieństwo, że ta lub inna klasa wygenerowała ten punkt danych/instancję?”

Przykłady generatywnych modeli uczenia maszynowego obejmują liniową analizę dyskryminacyjną (LDA), ukryte modele Markowa i sieci bayesowskie, takie jak Naive Bayes.

Modele dyskryminacyjne

Podczas gdy modele generatywne uczą się o rozkładzie zbioru danych, modele dyskryminacyjne dowiedzieć się o granicy między klasami w zbiorze danych. Celem modeli dyskryminacyjnych jest identyfikacja granicę decyzji między klasami, aby zastosować niezawodne etykiety klas do instancji danych. Modele dyskryminacyjne oddzielają klasy w zbiorze danych przy użyciu prawdopodobieństwa warunkowego, bez żadnych założeń dotyczących poszczególnych punktów danych.

Modele dyskryminacyjne mają odpowiedzieć na następujące pytanie:

„Po której stronie granicy decyzyjnej znajduje się ten przypadek?”

Przykłady modeli dyskryminacyjnych w uczeniu maszynowym obejmują maszyny wektorów nośnych, regresję logistyczną, drzewa decyzyjne i lasy losowe.

Różnice między generatywnym a dyskryminacyjnym

Oto krótki przegląd głównych różnic między modelami generatywnymi i dyskryminacyjnymi.

Modele generatywne:

Modele generatywne mają na celu uchwycenie rzeczywistego rozkładu klas w zbiorze danych.
Modele generatywne przewidują łączny rozkład prawdopodobieństwa – p(x,y) – wykorzystując twierdzenie Bayesa.
Modele generatywne są kosztowne obliczeniowo w porównaniu z modelami dyskryminacyjnymi.
Modele generatywne są przydatne w przypadku zadań uczenia maszynowego bez nadzoru.
Na modele generatywne wpływa obecność wartości odstających w większym stopniu niż na modele dyskryminacyjne.

Modele dyskryminacyjne:

Modele dyskryminacyjne modelują granicę decyzyjną dla klas zbiorów danych.
Modele dyskryminacyjne uczą się prawdopodobieństwa warunkowego – p(y|x).
Modele dyskryminacyjne są tanie obliczeniowo w porównaniu z modelami generatywnymi.
Modele dyskryminacyjne są przydatne w przypadku nadzorowanych zadań uczenia maszynowego.
Modele dyskryminacyjne mają tę zaletę, że są bardziej odporne na wartości odstające, w przeciwieństwie do modeli generatywnych.
Modele dyskryminacyjne są bardziej odporne na wartości odstające w porównaniu z modelami generatywnymi.

Teraz pokrótce omówimy kilka różnych przykładów generatywnych i dyskryminacyjnych modeli uczenia maszynowego.

Przykłady modeli generatywnych

Liniowa analiza dyskryminacyjna (LDA)

Modele LDA funkcję poprzez estymację wariancji i średniej danych dla każdej klasy w zbiorze danych. Po obliczeniu średniej i wariancji dla każdej klasy można dokonać przewidywań, szacując prawdopodobieństwo, że dany zestaw danych wejściowych należy do danej klasy.

Ukryte modele Markowa

Łańcuchy Markowa można traktować jako wykresy prawdopodobieństw wskazujące, jak prawdopodobne jest, że przejdziemy z jednego punktu w łańcuchu, czyli „stanu”, do innego stanu. Łańcuchy Markowa służą do określenia prawdopodobieństwa przejścia ze stanu j do stanu i, co można oznaczyć jako p(i,j). Jest to po prostu łączne prawdopodobieństwo wspomniane powyżej. Ukryty model Markowa ma miejsce wtedy, gdy używany jest niewidzialny, nieobserwowalny łańcuch Markowa. Dane wejściowe są podawane do modelu, a prawdopodobieństwa dla stanu bieżącego i stanu bezpośrednio go poprzedzającego służą do obliczenia najbardziej prawdopodobnego wyniku.

Sieci bayesowskie

Sieci bayesowskie są rodzajem probabilistycznego modelu graficznego. Reprezentują one zależności warunkowe między zmiennymi, reprezentowane przez ukierunkowany graf acykliczny. W sieci Bayesa każda krawędź grafu reprezentuje zależność warunkową, a każdy węzeł odpowiada unikalnej zmiennej. Warunkową niezależność unikalnych relacji na wykresie można wykorzystać do określenia łącznego rozkładu zmiennych i obliczenia łącznego prawdopodobieństwa. Innymi słowy, sieć bayesowska obejmuje podzbiór niezależnych relacji w określonym łącznym rozkładzie prawdopodobieństwa.

Po utworzeniu i właściwym zdefiniowaniu sieci bayesowskiej, ze znanymi zmiennymi losowymi, zależnościami warunkowymi i rozkładami prawdopodobieństwa, można jej użyć do oszacowania prawdopodobieństwa zdarzeń lub wyników.

Jednym z najczęściej używanych typów sieci Bayesa jest model Naive Bayesa. Naiwny model Bayesa radzi sobie z wyzwaniem obliczenia prawdopodobieństwa dla zbiorów danych z wieloma parametrami/zmiennymi, traktując wszystkie cechy jako niezależne od siebie.

Przykłady modeli dyskryminacyjnych

Wsparcie maszyn wektorowych

Obsługa maszyn wektorowych działają poprzez narysowanie granicy decyzyjnej pomiędzy punktami danych i znalezienie granicy decyzyjnej, która najlepiej oddziela różne klasy w zbiorze danych. Algorytm SVM rysuje linie lub hiperpłaszczyzny oddzielające punkty, odpowiednio dla przestrzeni 2-wymiarowych i 3D. SVM stara się znaleźć linię/hiperpłaszczyznę, która najlepiej oddziela klasy, próbując zmaksymalizować margines, czyli odległość pomiędzy linią/hiperpłaszczyzną do najbliższych punktów. Modeli SVM można również używać w przypadku zbiorów danych, których nie można liniowo oddzielić, stosując „sztuczkę jądra” w celu zidentyfikowania nieliniowych granic decyzji.

Regresja logistyczna

Regresja logistyczna to algorytm wykorzystujący funkcję logit (log-odds) do określenia prawdopodobieństwa, że dane wejściowe znajdą się w jednym z dwóch stanów. Funkcja sigmoidalna służy do „zgniatania” prawdopodobieństwa w kierunku 0 lub 1, prawdy lub fałszu. Zakłada się, że prawdopodobieństwa większe niż 0.50 należą do klasy 1, natomiast prawdopodobieństwa 0.49 lub niższe przyjmuje się za 0. Z tego powodu regresja logistyczna jest zwykle stosowana w problemach klasyfikacji binarnej. Jednakże regresję logistyczną można zastosować do problemów wieloklasowych, stosując podejście jeden kontra wszyscy, tworząc binarny model klasyfikacji dla każdej klasy i określając prawdopodobieństwo, że przykład jest klasą docelową lub inną klasą w zbiorze danych.

Drzewo decyzyjne

A drzewo decyzyjne model działa poprzez dzielenie zbioru danych na coraz mniejsze części, a gdy podzbiorów nie da się już dalej dzielić, powstaje drzewo z węzłami i liśćmi. Węzły drzewa decyzyjnego to miejsca, w których decyzje dotyczące punktów danych podejmowane są przy użyciu różnych kryteriów filtrowania. Liście w drzewie decyzyjnym to punkty danych, które zostały sklasyfikowane. Algorytmy drzew decyzyjnych mogą obsługiwać zarówno dane liczbowe, jak i kategorialne, a podziały w drzewie opierają się na określonych zmiennych/cechach.

Losowe lasy

A losowy model lasu to po prostu zbiór drzew decyzyjnych, w których przewidywania poszczególnych drzew są uśredniane w celu podjęcia ostatecznej decyzji. Algorytm losowego lasu wybiera obserwacje i cechy losowo, budując poszczególne drzewa na podstawie tych wyborów.

W tym samouczku opisano, jak utworzyć wykres pudełkowy w Matplotlib. Wykresy pudełkowe służą do wizualizacji podsumowujących statystyk zbioru danych, wyświetlając atrybuty rozkładu, takie jak zakres i dystrybucja danych.

Powiązane tematy:modele dyskryminacyjne modele generatywne

W przyszłym

Co to jest wzmacnianie gradientu?

Nie przegap

Co to jest cyberbezpieczeństwo?

Daniela Nelsona

Bloger i programista specjalizujący się w Nauczanie maszynowe i głęboki Learning tematy. Daniel ma nadzieję pomóc innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.