Kunstig intelligens

Hvordan språkbehandlingen blir forbedret gjennom Googles BERT-modell med åpen kildekode

oppdatert on Desember 9, 2022

Toveis koderepresentasjoner fra Transformers, ellers kjent som BERT; er en treningsmodell som har forbedret effektiviteten og effekten av NLP-modeller drastisk. Nå som Google har gjort BERT-modeller åpen kildekode, tillater det forbedring av NLP-modeller på tvers av alle bransjer. I artikkelen tar vi en titt på hvordan BERT gjør NLP til en av de kraftigste og mest nyttige AI-løsningene i dagens verden.

Bruk av BERT-modeller på søk

Googles søkemotor er verdenskjent for sin evne til å presentere relevant innhold, og de har gjort dette naturlige språkbehandlingsprogrammet åpen kildekode for verden.

Evnen til et system til å lese og tolke naturlig språk blir mer og mer viktig ettersom verden eksponentielt produserer nye data. Googles bibliotek med ordbetydninger, setninger og generelle evne til å presentere relevant innhold er ÅPEN KILDE. Utover naturlig språkbehandling, har deres BERT-modell muligheten til å trekke ut informasjon fra store mengder ustrukturerte data og kan brukes til å lage søkegrensesnitt for ethvert bibliotek. I denne artikkelen skal vi se hvordan denne teknologien kan brukes i energisektoren.

BERT (Bidirectional Encoder Representations from Transformers) er en tilnærming før opplæring foreslått av Google AI-språk gruppe, utviklet for å overvinne et vanlig problem med tidlige NLP-modeller: mangelen på tilstrekkelig treningsdata.

La oss utdype, uten å gå for mye i detalj:

Treningsmodeller

NLP-oppgaver på lavt nivå (f.eks. navngitt enhetsgjenkjenning, emnesegmentering) og høyt nivå (f.eks. sentimentanalyse, talegjenkjenning) krever oppgavespesifikke kommenterte datasett. Selv om de er vanskelige å få tak i og dyre å sette sammen, spiller merkede datasett en avgjørende rolle i ytelsen til både grunne og dype nevrale nettverksmodeller. Konklusjonsresultater av høy kvalitet kunne bare oppnås når millioner eller til og med milliarder av kommenterte treningseksempler var tilgjengelige. Og det var et problem som gjorde mange NLP-oppgaver utilnærmelige. Det er inntil BERT ble utviklet.

BERT er en generell språkrepresentasjonsmodell, trent på store korpus av uannotert tekst. Når modellen utsettes for store mengder tekstinnhold, vil den lærer å forstå kontekst og sammenhenger mellom ord i en setning. I motsetning til tidligere læringsmodeller som kun representerte mening på et ordnivå (bank ville bety det samme i "bankkonto" og "gresskledd bank"), bryr BERT seg faktisk om kontekst. Det vil si det som kommer før og etter ordet i en setning. Kontekst viste seg å være en stor manglende evne til NLP-modeller, med en direkte innvirkning på modellens ytelse. Å designe en kontekstbevisst modell som BERT er av mange kjent som begynnelsen på en ny æra i NLP.

Å trene BERT på store mengder tekstinnhold er en teknikk kjent som før trening. Dette betyr at modellens vekter justeres for generelle tekstforståelsesoppgaver og at mer finmaskede modeller kan bygges oppå. Forfatterne har bevist overlegenheten til en slik teknikk når de brukte BERT-baserte modeller på 11 NLP-oppgaver og har oppnådd toppmoderne resultater.

Forutdannede modeller

Det beste er: forhåndstrente BERT-modeller er åpen kildekode og offentlig tilgjengelig. Dette betyr at hvem som helst kan takle NLP-oppgaver og bygge sine modeller på toppen av BERT. Ingenting kan slå det, ikke sant? Å, vent: dette betyr også at NLP-modeller nå kan trenes (finjusteres) på mindre datasett, uten behov for opplæring fra bunnen av. Begynnelsen på en ny æra, faktisk.

Disse forhåndsopplærte modellene hjelper bedrifter med å kutte ned kostnadene og tiden å distribuere for NLP-modeller som skal brukes internt eller eksternt. Effektiviteten til veltrente NLP-modeller understrekes av Michael Alexis, administrerende direktør i selskapet for virtuell teamkultur, teambuilding.com.

"Den største fordelen med NLP er den skalerbare og konsistente slutningen og behandlingen av informasjon." – Michael Alexis administrerende direktør i teambuilding.com

Michael uttaler hvordan NLP kan brukes på kulturfremmende programmer som isbrytere eller undersøkelser. En bedrift kan få verdifull innsikt i hvordan bedriftskulturen har det ved å analysere svarene fra ansatte. Dette oppnås ikke bare ved å analysere tekst, men også ved å analysere tekstkommentarer. I hovedsak "leser modellen mellom linjene" for å trekke slutninger om følelser, følelse og generelle syn. BERT kan hjelpe i situasjoner som denne ved å forhåndstrene modeller med et grunnlag av indikatorer som det kan gå av for å avdekke nyansene i språket og gi mer nøyaktig innsikt.

Forbedring av søk

Evnen til å modellere kontekst har gjort BERT til en NLP-helt og har revolusjonert selve Google Search. Nedenfor er et sitat fra Google Search-produktteamet og deres testopplevelser, mens de tunet BERT for å forstå intensjonen bak en spørring.

«Her er noen av eksemplene som viser BERTs evne til å forstå intensjonen bak søket ditt. Her er et søk etter «2019 Brasil-reisende til USA trenger visum». Ordet «til» og dets forhold til de andre ordene i spørringen er spesielt viktig for å forstå betydningen. Det handler om en brasilianer som reiser til USA og ikke omvendt. Tidligere ville ikke algoritmene våre forstå viktigheten av denne forbindelsen, og vi returnerte resultater om amerikanske statsborgere som reiser til Brasil. Med BERT er Search i stand til å forstå denne nyansen og vite at det svært vanlige ordet "til" faktisk betyr mye her, og vi kan gi et mye mer relevant resultat for denne spørringen."
- Forstå søk bedre enn noen gang før, av Pandu Nayak, Google Fellow og visepresident for søk.

Eksempel på BERT-søk, før og etter. Kilde blog

I vårt siste stykke på NLP og OCR, har vi illustrert noen NLP-bruk i eiendomssektoren. Vi har også nevnt hvordan "NLP-verktøy er ideelle informasjonsutvinningsverktøy". La oss se på energisektoren og se hvordan forstyrrende NLP-teknologier som BERT muliggjør nye applikasjonsbruk.

NLP-modeller kan trekke ut informasjon fra store mengder ustrukturerte data

En måte NLP-modeller kan brukes på er for utvinning av kritisk informasjon fra ustrukturerte tekstdata. E-poster, journaler, notater, logger og rapporter er alle eksempler på tekstdatakilder som er en del av virksomheters daglige drift. Noen av disse dokumentene kan vise seg å være avgjørende i organisasjonens arbeid for å øke driftseffektiviteten og redusere kostnadene.

Når man tar sikte på å implementere prediktivt vedlikehold av vindturbiner, feilmeldinger kan inneholde kritisk informasjon om oppførselen til ulike komponenter. Men siden ulike vindturbinprodusenter har forskjellige datainnsamlingsnormer (dvs. vedlikeholdsrapporter kommer i forskjellige formater og til og med språk), kan det raskt bli dyrt for anleggseieren å identifisere relevante dataelementer manuelt. NLP-verktøy kan trekke ut relevante konsepter, attributter og hendelser fra ustrukturert innhold. Tekstanalyse kan deretter brukes til å finne korrelasjoner og mønstre i forskjellige datakilder. Dette gir anleggseiere sjansen til å implementere prediktivt vedlikehold basert på kvantitative tiltak identifisert i deres feilrapporter.

NLP-modeller kan gi naturlige språksøkegrensesnitt

Tilsvarende trenger geoforskere som jobber for olje- og gasselskaper vanligvis gjennom mange dokumenter relatert til tidligere boreoperasjoner, brønnlogger og seismiske data. Siden slike dokumenter også kommer i forskjellige formater og vanligvis er spredt over en rekke steder (både fysiske og digitale), kaster de bort mye tid på å lete etter informasjonen på feil steder. En levedyktig løsning i et slikt tilfelle vil være en NLP-drevet søkegrensesnitt, som vil tillate brukere å slå opp data på naturlig språk. Deretter kan en NLP-modell korrelere data på tvers av hundrevis av dokumenter og returnere et sett med svar på spørringen. Arbeiderne kan deretter validere resultatet basert på deres egen ekspertkunnskap, og tilbakemeldingen vil forbedre modellen ytterligere.

Det er imidlertid også tekniske hensyn for å distribuere slike modeller. Et aspekt vil være at bransjespesifikk sjargong kan forvirre tradisjonelle læringsmodeller som ikke har den passende semantiske forståelsen. For det andre kan modellenes ytelse påvirkes av størrelsen på treningsdatasettet. Dette er når forhåndstrente modeller som BERT kan vise seg å være fordelaktige. Kontekstuelle representasjoner kan modellere riktig ordbetydning og fjerne enhver forvirring forårsaket av bransjespesifikke termer. Ved å bruke ferdigtrente modeller er det mulig å trene nettverket på mindre datasett. Dette sparer tid, energi og ressurser som ellers ville vært nødvendig for trening fra bunnen av.

Hva med din egen virksomhet?

Kan du tenke deg noen NLP-oppgaver som kan hjelpe deg med å kutte ned på kostnader og øke driftseffektiviteten?

De Blå oransje digital datavitenskapsteamet tilpasser gjerne BERT til din fordel også!

Neste

USAs militære kommer nærmere autonome terrengkjøretøyer

Ikke gå glipp av

Quantum Stats nyeste kreasjon er NLP Model Forge

Josh Miramant

Josh Miramant er administrerende direktør og grunnlegger av Blå oransje digital, et topprangert datavitenskap og maskinlæringsbyrå med kontorer i New York City og Washington DC. Miramant er en populær foredragsholder, fremtidsforsker og en strategisk forretnings- og teknologirådgiver for bedriftsbedrifter og startups. Han hjelper organisasjoner med å optimalisere og automatisere virksomhetene sine, implementere datadrevne analyseteknikker og forstå implikasjonene av nye teknologier som kunstig intelligens, big data og tingenes internett.