csonk Mi az a gépi tanulás? - Egyesüljetek.AI
Kapcsolatba velünk
AI mesterkurzus:

AI 101

Mi a gépi tanulás?

mm
korszerűsített on

A gépi tanulás az egyik leggyorsabban fejlődő technológiai terület, de annak ellenére, hogy milyen gyakran dobálják a „gépi tanulás” szavakat, nehéz lehet pontosan megérteni, mi is az a gépi tanulás.

Gépi tanulás nem csak egy dologra utal, ez egy gyűjtőfogalom, amely sokféle fogalomra és technikára alkalmazható. A gépi tanulás megértése azt jelenti, hogy ismerjük a modellelemzés különböző formáit, a változókat és az algoritmusokat. Vessünk egy pillantást a gépi tanulásra, hogy jobban megértsük, mit is foglal magában.

Mi az a gépi tanulás?

Míg a gépi tanulás kifejezést sokféle dologra lehet alkalmazni, általában a kifejezés arra utal, hogy a számítógép lehetővé teszi a feladatok végrehajtását anélkül, hogy ehhez konkrét soronkénti utasításokat kapna. A gépi tanulással foglalkozó szakembernek nem kell a probléma megoldásához szükséges összes lépést leírnia, mert a számítógép képes „tanulni” az adatokon belüli minták elemzésével, és ezeket a mintákat új adatokra általánosítani.

A gépi tanulási rendszerek három alapvető részből állnak:

  • Bemenetek
  • Algoritmusok
  • Kimenetek

A bemenetek a gépi tanulási rendszerbe betáplált adatok, és a bemeneti adatok címkékre és szolgáltatásokra oszthatók. A jellemzők a releváns változók, azok a változók, amelyeket elemezni fog a minták megtanulása és a következtetések levonása érdekében. Eközben a címkék az adatok egyes példányaihoz adott osztályok/leírások.

A funkciók és a címkék két különböző típusú gépi tanulási probléma esetén használhatók: felügyelt tanulásban és felügyelet nélküli tanulásban.

Felügyelet nélküli tanulás vs. felügyelt tanulás

In felügyelt tanulás, a bemeneti adatokat egy alapigazság kíséri. A felügyelt tanulási problémák az adatkészlet részeként a megfelelő kimeneti értékeket tartalmazzák, így a várható osztályok előre ismertek. Ez lehetővé teszi az adattudós számára az algoritmus teljesítményének ellenőrzését azáltal, hogy teszteli az adatokat egy tesztadatkészleten, és megnézi, hogy az elemek hány százaléka lett helyesen besorolva.

Ellentétben, felügyelet nélküli tanulás a problémákhoz nem fűződnek alapigazság-címkék. A felügyelet nélküli tanulási feladatok elvégzésére kiképzett gépi tanulási algoritmusnak képesnek kell lennie arra, hogy saját maga számára következtessen az adatok releváns mintáira.

A felügyelt tanulási algoritmusokat jellemzően osztályozási problémákra használják, amikor egy nagy adatkészlettel rendelkezik, amely tele van példányokkal, amelyeket a sok különböző osztály egyikébe kell rendezni. A felügyelt tanulás másik típusa a regressziós feladat, ahol az algoritmus által kiadott érték kategorikus helyett folyamatos jellegű.

Eközben felügyelet nélküli tanulási algoritmusokat használnak olyan feladatokhoz, mint a sűrűségbecslés, a klaszterezés és a reprezentáció tanulása. Ehhez a három feladathoz a gépi tanulási modellre van szükség az adatok szerkezetének megállapításához, nincsenek előre definiált osztályok a modellhez.

Vessünk egy rövid pillantást a felügyelet nélküli tanulásban és a felügyelt tanulásban egyaránt használt leggyakoribb algoritmusok közül.

A felügyelt tanulás típusai

A gyakori felügyelt tanulási algoritmusok a következők:

  • Naiv Bayes
  • Támogatja a vektoros gépeket
  • Logisztikus regresszió
  • Véletlen erdők
  • Mesterséges idegi hálózat

Támogatja a vektoros gépeket olyan algoritmusok, amelyek egy adatkészletet különböző osztályokra osztanak fel. Az adatpontok klaszterekbe vannak csoportosítva olyan vonalak rajzolásával, amelyek elválasztják az osztályokat egymástól. A vonal egyik oldalán található pontok egy osztályba fognak tartozni, míg a vonal másik oldalán lévő pontok egy másik osztályba tartoznak. A Support Vector Machines célja, hogy maximalizálja a távolságot a vonal és a vonal mindkét oldalán található pontok között, és minél nagyobb a távolság, annál biztosabb az osztályozó abban, hogy a pont egy osztályba tartozik, és nem egy másik osztályba.

Logisztikus regresszió egy olyan algoritmus, amelyet bináris osztályozási feladatokban használnak, amikor az adatpontokat két osztály valamelyikébe kell besorolni. A logisztikai regresszió úgy működik, hogy az adatpontot 1-gyel vagy 0-val jelöli. Ha az adatpont észlelt értéke 0.49 vagy az alatti, akkor 0-nak, míg ha 0.5 vagy nagyobb, akkor 1-nek.

Döntési fa algoritmusok úgy működik, hogy az adatkészleteket egyre kisebb töredékekre osztja fel. Az adatok felosztásának pontos kritériumait a gépi tanulási mérnök dönti el, de a cél az, hogy az adatokat végül egyetlen adatpontokra ossza fel, amelyeket ezután egy kulcs segítségével osztályoznak.

A Random Forest algoritmus lényegében sok egyedi döntési fa osztályozóból áll, amelyek egy erősebb osztályozóvá kapcsolódnak össze.

A Naiv Bayes osztályozó kiszámítja annak valószínűségét, hogy egy adott adatpont bekövetkezett egy korábbi esemény bekövetkezésének valószínűsége alapján. Ez a Bayes-tételen alapul, és az adatpontokat osztályokba helyezi a számított valószínűség alapján. A Naive Bayes osztályozó implementálásakor azt feltételezzük, hogy az összes prediktor ugyanolyan hatással van az osztály kimenetére.

An Mesterséges neurális hálózatA többrétegű perceptron olyan gépi tanulási algoritmus, amelyet az emberi agy szerkezete és működése ihletett. A mesterséges neurális hálózatok nevüket onnan kapták, hogy sok csomópontból/neuronból állnak, amelyek összekapcsolódnak. Minden idegsejt egy matematikai függvény segítségével manipulálja az adatokat. A mesterséges neurális hálózatokban vannak bemeneti rétegek, rejtett rétegek és kimeneti rétegek.

A neurális hálózat rejtett rétege az, ahol az adatokat ténylegesen értelmezik és mintázatokat elemzik. Más szóval, itt tanul az algoritmus. Több neuron összekapcsolódik, és összetettebb hálózatokká válnak összetettebb minták megtanulására.

A felügyelet nélküli tanulás típusai

A nem felügyelt tanulási algoritmusok a következők:

  • A K-csoportosítást jelent
  • Automatikus kódolók
  • Főkomponens analízis

A K-csoportosítást jelent egy nem felügyelt osztályozási technika, és úgy működik, hogy az adatok pontjait klaszterekre vagy csoportokra osztja a jellemzőik alapján. A K-mean klaszterezés elemzi az adatpontokban található jellemzőket, és megkülönböztet bennük olyan mintákat, amelyek az adott osztályklaszterben található adatpontokat jobban hasonlítják egymáshoz, mint a többi adatpontot tartalmazó klaszterekhez. Ezt úgy érik el, hogy a klaszter lehetséges középpontjait vagy súlypontjait elhelyezik az adatok grafikonján, és újra hozzárendelik a centroid pozícióját, amíg olyan pozíciót nem találnak, amely minimálisra csökkenti a súlypont és az adott centroid osztályába tartozó pontok közötti távolságot. A kutató megadhatja a kívánt számú klasztert.

Főkomponens analízis egy olyan technika, amely nagyszámú jellemzőt/változót egy kisebb területre/kevesebb jellemzőre redukál. Az adatpontok „főkomponensei” megőrzésre kerülnek kiválasztásra, míg a többi jellemzőt egy kisebb reprezentációba tömörítjük. Az eredeti adatitalok közötti kapcsolat megmarad, de mivel az adatpontok összetettsége egyszerűbb, az adatok könnyebben számszerűsíthetők és leírhatók.

Automatikus kódolók A neurális hálózatok olyan változatai, amelyek felügyelet nélküli tanulási feladatokra alkalmazhatók. Az autoencoderek képesek címkézetlen, szabad formátumú adatokat venni, és azokat olyan adatokká alakítani, amelyeket egy neurális hálózat képes felhasználni, alapvetően saját címkézett betanítási adatokat hoznak létre. Az autoencoder célja a bemeneti adatok konvertálása és minél pontosabb újraépítése, így a hálózat ösztönzése, hogy meghatározza, mely funkciók a legfontosabbak, és kivonja azokat.

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.