csonk Felügyelt és nem felügyelt tanulás – Unite.AI
Kapcsolatba velünk
AI mesterkurzus:

AI 101

Felügyelt vs felügyelet nélküli tanulás

mm
korszerűsített on

A gépi tanulásban a legtöbb feladat könnyen besorolható két különböző osztály egyikébe: felügyelt tanulási problémák vagy felügyelet nélküli tanulási problémák. Felügyelt tanulás esetén az adatokhoz címkék vagy osztályok vannak hozzáfűzve, míg felügyelet nélküli tanulás esetén az adatok címkézetlenek. Nézzük meg közelebbről, miért fontos ez a megkülönböztetés, és nézzünk meg néhány, az egyes tanulási típusokhoz kapcsolódó algoritmusokat.

Felügyelt vs felügyelet nélküli tanulás

A legtöbb gépi tanulási feladat a domainhez tartozik felügyelt tanulás. A felügyelt tanulási algoritmusokban az adatkészletben lévő egyes példányokhoz/adatpontokhoz osztály vagy címke van hozzárendelve. Ez azt jelenti, hogy a gépi tanulási modell megtanulhatja megkülönböztetni, hogy mely jellemzők kapcsolódnak egy adott osztályhoz, és hogy a gépi tanulási mérnök ellenőrizheti a modell teljesítményét, ha megnézi, hány példány került megfelelően besorolásra. Az osztályozási algoritmusok számos összetett minta felismerésére használhatók, amennyiben az adatok a megfelelő osztályokkal vannak felcímkézve. Például egy gépi tanulási algoritmus megtanulhatja megkülönböztetni a különböző állatokat egymástól olyan jellemzők alapján, mint a „bajusz”, „farok”, „karmok” stb.

Ellentétben a felügyelt tanulással, a felügyelet nélküli tanulás egy olyan modell létrehozását jelenti, amely képes mintákat kinyerni a címkézetlen adatokból. Más szóval, a számítógép elemzi a bemeneti jellemzőket, és maga határozza meg, melyek a legfontosabb jellemzők és minták. A felügyelet nélküli tanulás megpróbálja megtalálni a hasonlóságokat a különböző esetek között. Ha egy felügyelt tanulási algoritmus célja, hogy adatpontokat helyezzen el az ismert osztályokba, a felügyelt tanulási algoritmusok megvizsgálják az objektumpéldányok közös jellemzőit, és ezek alapján csoportokba helyezik őket, lényegében saját osztályokat hozva létre.

A felügyelt tanulási algoritmusok példái a lineáris regresszió, a logisztikai regresszió, a K-közeli szomszédok, a döntési fák és a támogató vektorgépek.

Eközben néhány példa a felügyelt tanulási algoritmusokra: a főkomponens-elemzés és a K-Means klaszterezés.

Felügyelt tanulási algoritmus

Lineáris regresszió egy olyan algoritmus, amely két jellemzőt vesz fel és ábrázolja a köztük lévő kapcsolatot. A lineáris regressziót a numerikus értékek más numerikus változókhoz viszonyított előrejelzésére használják. A lineáris regresszió egyenlete Y = a +bX, ahol b az egyenes meredeksége, a pedig az, ahol y metszi az X tengelyt.

Logisztikus regresszió egy bináris osztályozási algoritmus. Az algoritmus megvizsgálja a numerikus jellemzők közötti kapcsolatot, és megállapítja annak valószínűségét, hogy a példány két különböző osztály valamelyikébe sorolható. A valószínűségi értékek 0 vagy 1 felé „szorulnak”. Más szóval, az erős valószínűségek megközelítik a 0.99-et, míg a gyenge valószínűségek a 0-t.

K-Legközelebbi szomszédok osztályt rendel az új adatpontokhoz a tanítókészletben lévő kiválasztott számú szomszéd hozzárendelt osztályai alapján. Az algoritmus által figyelembe vett szomszédok száma fontos, és túl kevés vagy túl sok szomszéd tévesen osztályozhatja a pontokat.

Döntési fák az osztályozási és regressziós algoritmusok egy fajtája. A döntési fa úgy működik, hogy az adatkészletet egyre kisebb részekre bontja mindaddig, amíg a részhalmazokat nem lehet tovább felosztani, és ennek eredményeként egy csomópontokkal és levelekkel rendelkező fa keletkezik. A csomópontok azok, ahol az adatpontokkal kapcsolatos döntések különböző szűrési feltételekkel születnek, míg a levelek azok a példányok, amelyekhez valamilyen címkét (egy osztályozott adatpontot) rendeltek. A döntési fa algoritmusok numerikus és kategorikus adatokat is képesek kezelni. Felosztások készülnek a fában meghatározott változókra/tulajdonságokra vonatkozóan.

Támogatja a vektoros gépeket egy osztályozási algoritmus, amely hipersíkok vagy elválasztási vonalak rajzolásával működik az adatpontok között. Az adatpontok osztályokba vannak osztva attól függően, hogy a hipersík melyik oldalán vannak. Több hipersík rajzolható át egy síkon, így az adatkészlet több osztályba osztható. Az osztályozó megpróbálja maximalizálni a távolságot a merülő hipersík és a sík mindkét oldalán lévő pontok között, és minél nagyobb a távolság a vonal és a pontok között, annál magabiztosabb az osztályozó.

Felügyelet nélküli tanulási algoritmusok

Főkomponens analízis egy dimenziócsökkentésre használt technika, ami azt jelenti, hogy az adatok dimenzióit vagy összetettségét egyszerűbb módon ábrázolják. A főkomponens-elemző algoritmus új dimenziókat talál az ortogonális adatokhoz. Míg az adatok dimenziója csökken, az adatok közötti eltérést a lehető legnagyobb mértékben meg kell őrizni. Ez a gyakorlatban azt jelenti, hogy átveszi az adatkészlet jellemzőit, és lebontja azokat kevesebb jellemzőre, amelyek az adatok nagy részét képviselik.

K-Means klaszterezés egy olyan algoritmus, amely hasonló jellemzők alapján automatikusan csoportosítja az adatpontokat klaszterekbe. A rendszer elemzi az adatkészleten belüli mintákat, és az adatpontokat csoportokra osztja e minták alapján. Lényegében a K-means saját osztályokat hoz létre címkézetlen adatokból. A K-Means algoritmus úgy működik, hogy középpontokat rendel a klaszterekhez vagy centroidokhoz, és addig mozgatja a centroidokat, amíg meg nem találjuk a centroidok optimális pozícióját. Az optimális helyzet az, ahol a súlypontok és az osztályon belüli környező adatpontok közötti távolság minimális. A „K” a K-közép klaszterezésben arra utal, hogy hány centroidot választottak.

Összegzésként

Zárásként nézzük meg gyorsan a legfontosabb különbségeket felügyelt és felügyelet nélküli tanulás.

Amint azt korábban tárgyaltuk, a felügyelt tanulási feladatokban a bemeneti adatok címkézve vannak, és az osztályok száma ismert. Eközben a bemeneti adatok címkézetlenek, és az osztályok száma nem ismert felügyelet nélküli tanulási esetekben. A nem felügyelt tanulás számításilag általában kevésbé bonyolult, míg a felügyelt tanulás számításilag bonyolultabb. Míg a felügyelt tanulási eredmények általában nagyon pontosak, a nem felügyelt tanulási eredmények általában kevésbé pontosak/közepesen pontosak.

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.