Tehisintellekt

Kuidas keeletöötlust täiustatakse Google'i avatud lähtekoodiga BERT-mudeli kaudu

Ajakohastatud on Detsember 9, 2022

Transformerite kahesuunalised kodeerijad, muidu tuntud kui BERT; on treeningmudel, mis on drastiliselt parandanud NLP mudelite efektiivsust ja mõju. Nüüd, kui Google on muutnud BERT-mudelid avatud lähtekoodiga, võimaldab see täiustada NLP-mudeleid kõigis tööstusharudes. Artiklis vaatleme, kuidas BERT muudab NLP-st tänapäeva maailmas üheks võimsaimaks ja kasulikumaks AI-lahenduseks.

BERTi mudelite rakendamine otsingule

Google'i otsingumootor on maailmas tuntud oma asjakohast sisu esitamise võime poolest ja nad on muutnud selle loomuliku keele töötlemise programmi maailmale avatud lähtekoodiga.

Süsteemi võime lugeda ja tõlgendada loomulikku keelt muutub üha olulisemaks, kuna maailm toodab eksponentsiaalselt uusi andmeid. Google'i sõnatähenduste, fraaside ja üldise asjakohast sisu esitamise teek on AVATUD ALLIKAS. Lisaks loomulikule keeletöötlusele on nende BERT-i mudelil võime eraldada teavet suurest kogusest struktureerimata andmetest ja seda saab kasutada mis tahes teegi jaoks otsinguliideste loomiseks. Selles artiklis näeme, kuidas seda tehnoloogiat energiasektoris rakendada.

BERT (Bidirectional Encoder Representations from Transformers) on koolituseelne lähenemisviis, mille on välja pakkunud Google AI keel rühm, mis töötati välja varajaste NLP mudelite ühise probleemi lahendamiseks: piisavate koolitusandmete puudumine.

Täpsustame üksikasjalikumalt, laskumata liiga üksikasjadesse:

Koolitusmudelid

Madala taseme (nt nimega olemi tuvastamine, teemade segmenteerimine) ja kõrgetasemelised (nt sentimentide analüüs, kõnetuvastus) NLP-ülesanded nõuavad ülesandepõhiseid annoteeritud andmekogumiid. Kuigi neid on raske hankida ja neid on kallis kokku panna, on märgistatud andmekogumitel nii madalate kui ka sügavate närvivõrgu mudelite toimimisel ülioluline roll. Kvaliteetseid järeldustulemusi oli võimalik saavutada ainult siis, kui saadaval oli miljoneid või isegi miljardeid kommenteeritud koolitusnäiteid. Ja see oli probleem, mis muutis paljud NLP-ülesanded kättesaamatuks. Seda kuni BERTi väljatöötamiseni.

BERT on üldotstarbeline keeleesitusmudel, mis on koolitatud suurtel märkusteta teksti korpustel. Kui mudel puutub kokku suure hulga tekstisisuga, siis see õpib mõista konteksti ja sõnadevahelisi seoseid lauses. Erinevalt varasematest õppimismudelitest, mis esindasid tähendust ainult sõna tasemel (Pank tähendaks sama "pangakonto" ja "rohupanga" puhul), hoolib BERT tegelikult kontekstist. See tähendab, mis tuleb lauses enne ja pärast sõna. Kontekst osutus NLP-mudelite oluliseks puuduvaks võimeks, millel on otsene mõju mudeli jõudlusele. Konteksteadliku mudeli, nagu BERT, kujundamist teavad paljud kui NLP uue ajastu algust.

BERTi suure hulga tekstisisu koolitamine on tehnika, mida tuntakse kui eelkoolitus. See tähendab, et mudeli kaalud on kohandatud üldiste tekstimõistmise ülesannete jaoks ja selle peale saab ehitada peeneteralisemaid mudeleid. Autorid on tõestanud sellise tehnika paremust, kui nad kasutasid 11 NLP ülesandes BERT-põhiseid mudeleid ja on saavutanud tipptasemel tulemusi.

Eelkoolitatud mudelid

Parim on see, et eelkoolitatud BERTi mudelid on avatud lähtekoodiga ja avalikult kättesaadavad. See tähendab, et igaüks saab tegeleda NLP ülesannetega ja ehitada oma mudeleid BERTi peale. Seda ei saa miski ületada, eks? Oot, see tähendab ka seda, et NLP-mudeleid saab nüüd treenida (peenhäälestada) väiksematel andmekogudel, ilma et oleks vaja nullist treenida. Tõepoolest, uue ajastu algus.

Need eelkoolitatud mudelid aitavad ettevõtetel vähendada kulusid ja aega, mis kulub NLP-mudelite kasutuselevõtuks sisemiseks või väliseks kasutamiseks. Hästi koolitatud NLP mudelite tõhusust rõhutab virtuaalse meeskonnakultuuri loomise ettevõtte teambuilding.com tegevjuht Michael Alexis.

"NLP suurim eelis on skaleeritav ja järjepidev teabe järeldamine ja töötlemine." – Michael Alexis tegevjuht teambuilding.com

Michael kirjeldab, kuidas NLP-d saab rakendada kultuuri edendamise programmides, nagu jäämurdjad või uuringud. Ettevõte saab töötajate vastuseid analüüsides väärtusliku ülevaate ettevõtte kultuuri toimimisest. See saavutatakse mitte ainult teksti analüüsimise, vaid ka teksti annotatsiooni analüüsimise kaudu. Põhimõtteliselt loeb mudel ka ridade vahelt, et teha järeldusi emotsioonide, tunde ja üldise väljavaate kohta. BERT saab aidata sellistes olukordades nagu käesolev, koolitades mudeleid, mis põhinevad indikaatoritel, mida saab kasutada, et paljastada keele nüansid ja anda täpsemaid teadmisi.

Päringute parandamine

Konteksti modelleerimise võimalus on muutnud BERTi NLP-kangelaseks ja muutnud Google'i otsingu endas revolutsiooni. Allpool on tsitaat Google'i otsingu tootetiimilt ja nende testimiskogemustest, kui nad häälestasid BERT-i, et mõista päringu eesmärki.

"Siin on mõned näited, mis näitavad BERTi võimet mõista teie otsingu eesmärki. Siin on otsing „2019. aasta Brasiilia reisija USA-sse vajab viisat”. Sõna "kuni" ja selle seos teiste päringu sõnadega on tähenduse mõistmiseks eriti olulised. See räägib brasiillasest, kes reisib USA-sse ja mitte vastupidi. Varem ei mõistnud meie algoritmid selle ühenduse tähtsust ja tagastasime tulemused Brasiiliasse reisivate USA kodanike kohta. BERT-i abil suudab otsing seda nüanssi mõista ja teab, et väga levinud sõna „to” on siin tegelikult väga oluline ja saame selle päringu jaoks pakkuda palju asjakohasema tulemuse.
- Otsingutest arusaamine paremini kui kunagi varem, Pandu Nayak, Google'i stipendiaat ja otsingu asepresident.

BERT-i otsingu näide, enne ja pärast. Allikas blogi

Meie viimases tükis NLP ja OCR, oleme illustreerinud mõningaid NLP kasutusviise kinnisvarasektoris. Oleme ka maininud, kuidas "NLP-tööriistad on ideaalsed teabe hankimise tööriistad". Vaatame energiasektorit ja vaatame, kuidas häirivad NLP-tehnoloogiad, nagu BERT, võimaldavad uusi rakenduste kasutusjuhtumeid.

NLP-mudelid suudavad eraldada teavet suurtest struktureerimata andmetest

Üks võimalus NLP mudelite kasutamiseks on struktureerimata tekstiandmetest kriitilise teabe eraldamine. Meilid, ajakirjad, märkmed, logid ja aruanded on kõik näited tekstiandmeallikatest, mis on osa ettevõtete igapäevasest tegevusest. Mõned neist dokumentidest võivad osutuda otsustava tähtsusega organisatsioonilistes jõupingutustes tegevuse tõhususe suurendamiseks ja kulude vähendamiseks.

Kui eesmärk on rakendada tuuleturbiini ennustav hooldus, rikkearuanded võib sisaldada kriitilist teavet erinevate komponentide käitumise kohta. Kuid kuna erinevatel tuuleturbiinide tootjatel on erinevad andmete kogumise normid (st hooldusaruanded on erinevas vormingus ja isegi keeles), võib asjakohaste andmeüksuste käsitsi tuvastamine tehase omanikule kiiresti kulukaks muutuda. NLP-tööriistad saavad struktureerimata sisust eraldada asjakohaseid mõisteid, atribuute ja sündmusi. Tekstianalüütikat saab seejärel kasutada korrelatsioonide ja mustrite leidmiseks erinevatest andmeallikatest. See annab tehase omanikele võimaluse rakendada prognoositavat hooldust, mis põhineb nende rikete aruannetes tuvastatud kvantitatiivsetel meetmetel.

NLP-mudelid võivad pakkuda loomuliku keele otsinguliideseid

Samamoodi peavad nafta- ja gaasiettevõtete heaks töötavad geoteadlased tavaliselt üle vaatama palju varasemate puurimistöödega seotud dokumente, kaevude logisid ja seismiliste andmetega seotud andmeid. Kuna ka selliseid dokumente on erinevas vormingus ja need on tavaliselt laiali mitmes kohas (nii füüsilises kui digitaalses), raiskavad nad palju aega teabe otsimisele valedest kohtadest. Elujõuline lahendus sellisel juhul oleks NLP-toega otsinguliides, mis võimaldaks kasutajatel otsida andmeid loomulikus keeles. Seejärel võib NLP-mudel seostada andmeid sadade dokumentide vahel ja tagastada päringule vastuste komplekti. Seejärel saavad töötajad väljundit oma ekspertteadmiste põhjal valideerida ja tagasiside parandaks mudelit veelgi.

Siiski on selliste mudelite kasutuselevõtul ka tehnilisi kaalutlusi. Üks aspekt oleks see, et tööstusharuspetsiifiline kõnepruuk võib segadusse ajada traditsioonilised õppemudelid, millel puudub asjakohane semantiline arusaam. Teiseks võib mudelite jõudlust mõjutada koolitusandmestiku suurus. See on siis, kui eelkoolitatud mudelid, nagu BERT, võivad osutuda kasulikuks. Kontekstuaalsed esitused võivad modelleerida sobiva sõna tähenduse ja kõrvaldada igasuguse segaduse, mida põhjustavad tööstusharu spetsiifilised terminid. Kasutades eelkoolitatud mudeleid, on võimalik võrku treenida väiksematel andmekogumitel. See säästab aega, energiat ja ressursse, mida muidu oleks nullist treenimiseks vaja läinud.

Aga teie enda äri?

Kas suudate mõelda mõnele NLP-ülesandele, mis võiks aidata teil kulusid vähendada ja tegevuse tõhusust suurendada?

. Sinine oranž digitaalne andmeteaduse meeskonnal on hea meel kohandada BERT-i ka teie kasuks!

Järgmisena

USA sõjavägi läheneb autonoomsetele maastikusõidukitele

Ära jäta

Quantum Stati uusim looming on NLP Model Forge

Josh Miramant

Josh Miramant on ettevõtte tegevjuht ja asutaja Sinine oranž digitaalne, kõrgeima reitinguga andmeteaduse ja masinõppe agentuur, mille kontorid asuvad New Yorgis ja Washingtonis. Miramant on populaarne esineja, futurist ning strateegiline äri- ja tehnoloogianõustaja ettevõtetele ja idufirmadele. Ta aitab organisatsioonidel oma ärisid optimeerida ja automatiseerida, rakendada andmepõhiseid analüüsitehnikaid ning mõista uute tehnoloogiate, nagu tehisintellekt, suurandmed ja asjade internet, mõju.