Stumm Wat ass Verstäerkung Léieren? - Unite.AI
Connect mat eis

AI 101

Wat ass Verstäerkung Léieren?

mm
aktualiséiert on

Wat ass Verstäerkung Léieren?

Einfach gesot, Verstäerkung Léieren ass eng Maschinn Léieren Technik déi involvéiert Training e kënschtlechen Intelligenz Agent duerch d'Widderhuelung vun Aktiounen an assoziéiert Belounungen. E Verstäerkungsléieragent experimentéiert an engem Ëmfeld, mécht Handlungen a gëtt belount wann déi richteg Handlunge gemaach ginn. Mat der Zäit, den Agent léiert d'Aktiounen ze huelen déi seng Belounung maximéieren. Dat ass eng séier Definitioun vu Verstäerkungsléieren, awer e méi no un d'Konzepter hannert Verstäerkungsléieren kucken hëlleft Iech e bessert, méi intuitivt Verständnis dovun ze kréien.

De Begrëff "Verstäerkung Léieren" ass aus dem Konzept vun ugepasst Verstäerkung an der Psychologie. Aus deem Grond, loosst eis e Moment huelen fir dat psychologescht Konzept vun der Verstäerkung ze verstoen. Am psychologesche Sënn bezitt de Begrëff Verstäerkung op eppes wat d'Wahrscheinlechkeet erhéicht datt eng bestëmmte Äntwert / Handlung geschitt. Dëst Konzept vun der Verstäerkung ass eng zentral Iddi vun der Theorie vun der operanter Konditioun, ursprénglech vum Psycholog BF Skinner proposéiert. An dësem Kontext ass Verstäerkung alles wat d'Frequenz vun engem bestëmmte Verhalen eropgeet. Wa mir iwwer méiglech Verstäerkung fir d'Mënschen denken, kënnen dës Saache sinn wéi Luef, eng Erhéijung op der Aarbecht, Séissegkeeten a lëschteg Aktivitéiten.

Am traditionellen, psychologesche Sënn ginn et zwou Aarte vu Verstäerkung. Et gëtt positiv Verstäerkung an negativ Verstäerkung. Positiv Verstäerkung ass d'Zousätzlech vun eppes fir e Verhalen ze erhéijen, wéi Ären Hond e Plëséier ze ginn wann e sech gutt behuelen. Negativ Verstäerkung involvéiert d'Entfernung vun engem Stimulus fir e Verhalen z'erreechen, sou wéi haart Geräischer auszeschalten fir eng skittish Kaz erauszekréien.

Positiv & Negativ Verstäerkung

Positiv Verstäerkung erhéicht d'Frequenz vun engem Verhalen, während negativ Verstäerkung d'Frequenz reduzéiert. Am Allgemengen ass positiv Verstäerkung déi heefegst Aart vu Verstäerkung déi am Verstäerkungsléiere benotzt gëtt, well et hëlleft Modeller d'Performance op enger bestëmmter Aufgab ze maximéieren. Net nëmmen dat, mee eng positiv Verstäerkung féiert de Modell fir méi nohalteg Ännerungen ze maachen, Ännerungen déi konsequent Mustere kënne ginn a laangfristeg bestoe bleiwen.

Am Géigesaz, wärend negativ Verstäerkung och e Verhalen méi wahrscheinlech mécht, gëtt se benotzt fir e Minimum Leeschtungsstandard z'erhalen anstatt déi maximal Leeschtung vun engem Modell z'erreechen. Negativ Verstäerkung am Verstäerkungsléiere kann hëllefen ze garantéieren datt e Modell vun ongewollten Handlungen ewechgehale gëtt, awer et kann e Modell net wierklech maachen datt gewënscht Handlungen entdecken.

Ausbildung vun engem Verstäerkungsagent

Wann e Verstäerkungsléieragent trainéiert gëtt, et gi véier verschidden Ingredienten or Staaten am Training benotzt: initial Staaten (Staat 0), neie Staat (Staat 1), Aktiounen a Belounungen.

Stellt Iech vir datt mir e Verstäerkungsagent trainéieren fir e platforming Videospill ze spillen wou den AI säin Zil ass et bis zum Enn vum Niveau ze kommen andeems Dir direkt iwwer den Écran beweegt. Den initialen Zoustand vum Spill gëtt aus der Ëmwelt gezunn, dat heescht datt den éischte Frame vum Spill analyséiert gëtt an dem Modell gëtt. Baséierend op dës Informatioun muss de Modell iwwer eng Handlung entscheeden.

Wärend den initialen Phasen vum Training sinn dës Aktiounen zoufälleg, awer wéi de Modell verstäerkt gëtt, ginn verschidden Aktiounen méi heefeg. Nodeems d'Aktioun geholl ass, gëtt d'Ëmfeld vum Spill aktualiséiert an en neie Staat oder Frame gëtt erstallt. Wann d'Aktioun vum Agent e wënschenswäert Resultat produzéiert huet, loosst eis an dësem Fall soen datt den Agent nach ëmmer lieweg ass an net vun engem Feind getraff gouf, gëtt eng Belounung dem Agent kritt an et gëtt méi wahrscheinlech datselwecht ze maachen d'Zukunft.

Dëse Basissystem gëtt dauernd geschloen, geschitt ëmmer erëm, an all Kéier probéiert den Agent e bësse méi ze léieren a seng Belounung ze maximéieren.

Episod vs kontinuéierlech Aufgaben

Verstäerkung Léieraufgaben kënnen typesch an eng vun zwou verschiddene Kategorien plazéiert ginn: Episodesch Aufgaben a kontinuéierlech Aufgaben.

Episodesch Aufgaben wäerten d'Léier- / Trainingsschleife ausféieren an hir Leeschtung verbesseren bis e puer Ennkriterien erfëllt sinn an d'Ausbildung ofgeschloss ass. An engem Spill kann dëst um Enn vum Niveau kommen oder an eng Gefor wéi Spikes falen. Am Géigesaz, kontinuéierlech Aufgaben hu keng Kënnegungskriterien, wesentlech weider fir ëmmer ze trainéieren bis den Ingenieur entscheet d'Ausbildung opzehalen.

Monte Carlo vs Temporal Differenz

Et ginn zwou primär Weeër fir ze léieren, oder Training, e Verstäerkungsléieragent. An Monte Carlo Approche, Belounungen ginn dem Agent geliwwert (säi Score gëtt aktualiséiert) nëmmen um Enn vun der Trainingsepisode. Fir dat anescht auszedrécken, nëmmen wann d'Kënnegungskonditioun getraff gëtt, léiert de Modell wéi gutt et geschafft huet. Et kann dann dës Informatioun benotze fir ze aktualiséieren a wann déi nächst Trainingsronn gestart gëtt, reagéiert se no der neier Informatioun.

d' temporal-Differenz Method ënnerscheet sech vun der Monte Carlo Method an datt d'Wäertschätzung, oder d'Scoreschätzung, am Laf vun der Trainingsepisode aktualiséiert gëtt. Wann de Modell op déi nächst Kéier Schrëtt weidergeet, ginn d'Wäerter aktualiséiert.

Exploratioun vs Exploitatioun

Training vun engem Verstäerkungs-Léieragent ass e Balanceakt, deen d'Balance vun zwou verschiddene Metriken involvéiert: Exploratioun an Ausbeutung.

Exploratioun ass den Akt fir méi Informatioun iwwer d'Ëmgéigend ze sammelen, wärend d'Exploratioun d'Informatioun benotzt déi schonn iwwer d'Ëmwelt bekannt ass fir Belounungspunkten ze verdéngen. Wann en Agent nëmmen d'Ëmwelt exploréiert an ni ausnotzt, ginn déi gewënscht Handlungen ni duerchgefouert. Op der anerer Säit, wann den Agent nëmmen exploitéiert an ni exploréiert, léiert den Agent nëmmen eng Handlung auszeféieren an entdeckt keng aner méiglech Strategien fir Belounungen ze verdéngen. Dofir ass d'Balance vun Exploratioun an Ausbeutung kritesch wann Dir e Verstäerkungsléieragent erstellt.

Benotzt Cases Fir Verstäerkung Léieren

Verstäerkung Léieren kann a ville Rollen benotzt ginn, an et ass am Beschten gëeegent fir Uwendungen wou Aufgaben Automatisatioun erfuerderen.

Automatiséierung vun Aufgaben, déi vun industrielle Roboteren ausgefouert ginn, ass ee Beräich wou Verstäerkungsléiere nëtzlech beweist. Verstäerkung Léieren kann och fir Probleemer wéi Textmining benotzt ginn, Modeller erstellen déi fäeg sinn laang Textkierper ze resuméieren. D'Fuerscher experimentéieren och mat Verstäerkungsléieren am Gesondheetsberäich ze benotzen, mat Verstäerkungsagenten déi Aarbechtsplaze behandelen wéi d'Optimiséierung vun der Behandlungspolitik. Verstäerkung Léieren kéint och benotzt ginn fir Educatiounsmaterial fir Studenten ze personaliséieren.

Resumé vun Verstäerkung Léieren

Verstäerkung Léieren ass eng mächteg Method fir AI Agenten ze konstruéieren déi zu beandrockend an heiansdo iwwerraschend Resultater kënne féieren. Training vun engem Agent duerch Verstäerkung Léieren kann komplex a schwéier sinn, well et vill Training Iteratiounen an eng delikat Gläichgewiicht vun der Entdeckung / Ausbeutung Dichotomie dauert. Wéi och ëmmer, wann et erfollegräich ass, kann en Agent erstallt mat Verstäerkungsléiere komplex Aufgaben ënner enger grousser Villfalt vu verschiddenen Ëmfeld ausféieren.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.