Îstîxbaratê ya sûnî

Çawa Pêvajoya Ziman Bi Modela BERT ya Çavkaniya Vekirî ya Google-ê Pêşveçûn Diçe

Demê on December 9, 2022

Nûneratiyên Encodera Dualî ji Transformers, wekî din wekî BERT tê zanîn; modelek perwerdehiyê ye ku karûbar û bandora modelên NLP-ê pir çêtir kiriye. Naha ku Google modelên BERT çavkaniyek vekirî çêkiriye ew rê dide ku modelên NLP li seranserê hemî pîşesaziyê çêtir bikin. Di gotarê de, em mêze dikin ka BERT çawa NLP-ê di cîhana îroyîn de dike yek ji çareseriyên AI-ê yên herî hêzdar û bikêr.

Serlêdana modelên BERT ji bo Lêgerînê

Motora lêgerînê ya Google-ê bi şiyana xwe ya pêşkêşkirina naveroka têkildar li cîhanê navdar e û wan ev bernameya hilberandina zimanê xwezayî ji cîhanê re çavkaniya vekirî kiriye.

Her ku dinya bi qatanî daneyên nû hildiberîne, şiyana pergalê ya xwendin û şîrovekirina zimanê xwezayî her ku diçe girîngtir dibe. Pirtûkxaneya Google ya wateyên peyvan, biwêj û şiyana giştî ya pêşkêşkirina naveroka têkildar, ÇAVKANIYÊ VEKIRÎ ye. Ji pêvajoya zimanê xwezayî wêdetir, modela wan a BERT xwedan şiyana derxistina agahdarî ji mîqdarên mezin ên daneyên nesazkirî ye û dikare were sepandin da ku ji bo her pirtûkxaneyek navgînên lêgerînê biafirîne. Di vê gotarê de, em ê bibînin ka ev teknolojî çawa dikare di sektora enerjiyê de were sepandin.

BERT (Nûnerên Encoderê yên Dualî yên ji Transformers) nêzîkatiyek pêş-perwerdekirinê ye ku ji hêla Zimanê Google AI kom, ji bo derbaskirina pirsgirêkek hevpar a modelên destpêkê yên NLP-ê hatî pêşve xistin: nebûna daneyên perwerdehiya têr.

Ka em bi berfirehî, bêyî ku pir hûrgulî bikin:

Modelên Perwerdehiyê

Karên NLP-a asta nizm (mînak naskirina sazûmanek binavkirî, dabeşkirina mijarê) û astek bilind (mînak analîza hestê, naskirina axaftinê) danehevên diyarkirî yên peywirê hewce dike. Digel ku peydakirina wan dijwar e û berhevkirina wan biha ye, berhevokên danûstendinê yên binavkirî di performansa modelên tora neuralî ya hûr û kûr de rolek girîng dileyzin. Encamên encamdana kalîteya bilind tenê dema ku bi mîlyonan an jî bi mîlyaran nimûneyên perwerdehiyê yên şirovekirî hebin dikarin werin bidestxistin. Û ew pirsgirêkek bû ku gelek peywirên NLP-ê neçar kirin. Ango heya ku BERT hate pêşxistin.

BERT modelek temsîla zimanî ya gelemperî ye, ku li ser korporên mezin ên nivîsa nenaskirî hatî perwerde kirin. Dema ku modela bi mîqdarên mezin ên naveroka nivîsê re tê xuyang kirin, ew hîn dibe ji bo têgihîştin û têkiliyên di navbera peyvên di hevokê de. Berevajî modelên fêrbûna berê yên ku tenê di asta peyvê de wateyê temsîl dikin (banke dê di "hesabê bankê" û "banqeya giya" de heman wateyê bide), BERT bi rastî li ser kontekstê eleqedar e. Yanî di hevokê de çi tê berî û paşiya peyvê. Têkilî derket ku kapasîteya sereke ya winda ya modelên NLP-ê ye, ku bandorek rasterast li ser performansa modelê heye. Sêwirana modelek-agahdar a wekî BERT ji hêla gelek kesan ve wekî destpêka serdemek nû ya NLP-ê tê zanîn.

Perwerdehiya BERT-ê li ser gelek naveroka nivîsê teknîkek e ku wekî tê zanîn pêş-perwerdekirin. Ev tê vê wateyê ku giraniya modelê ji bo karên têgihîştina nivîsê ya gelemperî têne rêve kirin û ku modelên hûrgulî dikarin li ser wê werin çêkirin. Nivîskar dema ku wan modelên BERT-ê li ser 11 peywirên NLP bikar anîn serweriya teknîkek wusa îsbat kirin û encamên herî pêşkeftî bi dest xistin.

Modelên Pêşdibistanê

Tiştê çêtirîn ev e: Modelên BERT-ê yên pêş-perwerdekirî çavkaniyek vekirî ne û bi gelemperî têne peyda kirin. Ev tê vê wateyê ku her kes dikare bi karên NLP re mijûl bibe û modelên xwe li ser BERT ava bike. Tiştek nikare wê bişkîne, rast? Oh, li bendê bin: ev jî tê vê wateyê ku modelên NLP-ê naha dikarin li ser danûstendinên piçûktir werin perwerde kirin (birûskî) bêyî ku hewcedariya perwerdehiya ji sifirê hebe. Destpêka serdemek nû, bi rastî.

Van modelên pêş-perwerdekirî ji pargîdaniyan re dibe alîkar ku lêçûn û wextê ku ji bo modelên NLP-ê têne bikar anîn kêm bikin da ku li hundur an derveyî werin bikar anîn. Bandoriya modelên NLP-ya baş-perwerdekirî ji hêla Michael Alexis, CEO ya pargîdaniya avakirina tîmê-çand a virtual, teambuilding.com ve tê destnîşan kirin.

"Feydaya herî mezin a NLP-ê encamkirin û pêvajoyek hûrgulî û domdar e." – Michael Alexis CEO ya teambuilding.com

Michael diyar dike ka NLP çawa dikare li bernameyên pêşvebirina çandê yên wekî qeşaşikan an anketan were sepandin. Pargîdanek dikare bi analîzkirina bersivên karmendan re têgihiştinek hêja bi dest bixe ka çanda pargîdanî çawa dike. Ev ne tenê tenê bi analîzkirina nivîsê, lê bi analîzkirina annotasyona nivîsê tê bidestxistin. Di bingeh de model di heman demê de "di nav rêzan de dixwîne" da ku li ser hest, hest û nerîna giştî encam derxîne. BERT dikare di rewşên wekî vê yekê de bi modelên pêş-perwerdekirina bi bingehek nîşangiran re bibe alîkar ku ew dikare hûrguliyên zimên derxe holê û têgihîştinên rasttir peyda bike.

Başkirina pirsan

Kapasîteya modelkirina çarçoweyê BERT veguherandiye qehremanek NLP û şoreşa Google Search bixwe. Li jêr jêderek ji tîmê hilberê Lêgerîna Google-ê û ezmûnên ceribandina wan heye, dema ku wan BERT-ê aheng dikir da ku niyeta li pişt pirsek fam bike.

"Li vir çend nimûne hene ku kapasîteya BERT-ê ya fêmkirina niyeta li pişt lêgerîna we destnîşan dikin. Li vir lêgerînek ji bo "2019 rêwîtiya Brezîlyayê ji DY re hewceyê vîzeyê ye." Peyva "to" û têkiliya wê ya bi peyvên din ên pirsê re bi taybetî ji bo têgihîştina wateyê girîng e. Ew li ser Brezîlyeyek e ku diçe Dewletên Yekbûyî û ne berevajî. Berê, algorîtmayên me dê girîngiya vê girêdanê fam nekin, û me encamên der barê hemwelatiyên Dewletên Yekbûyî yên ku diçin Brezîlyayê de vedigerin. Bi BERT re, Lêgerîn dikare vê nuansê bigire û zanibe ku peyva pir gelemperî "to" bi rastî li vir pir girîng e, û em dikarin ji bo vê pirsê encamek pir têkildar peyda bikin."
- Fêmkirina lêgerînan ji berê çêtir, ji hêla Pandu Nayak, Heval Google û Cîgirê Serokê Lêgerînê.

Mînaka lêgerîna BERT, berî û paşê. Kanî blog

Di beşa me ya dawî de li ser NLP û OCR, me hin karanîna NLP-ê di sektora nekêşbar de destnîşan kiriye. Me her weha behs kir ku "Amûrên NLP amûrên derxistina agahdariya îdeal in". Ka em li sektora enerjiyê binihêrin û bibînin ka teknolojiyên NLP-ê yên mîna BERT-ê çawa bûyerên nû yên karanîna serîlêdanê dike.

Modelên NLP dikarin agahdariya ji mîqdarên mezin ên daneyên nesazkirî derxînin

Yek awayê ku modelên NLP dikarin werin bikar anîn ev e ku meriv agahdariya krîtîk ji daneyên nivîsê yên nesazkirî derxe. E-name, rojname, not, têketin û rapor hemî nimûneyên çavkaniyên daneya nivîsê ne ku beşek ji karûbarên rojane yên karsaziyê ne. Dibe ku hin ji van belgeyan di hewildanên rêxistinî de ji bo zêdekirina karbidestiya xebitandinê û kêmkirina lêçûn girîng bin.

Dema ku armanca pêkanîna lênêrîna pêşbîniya turbîna bayê, raporên têkçûnê dibe ku tê de hebe agahdariya krîtîk li ser tevgera pêkhateyên cûda. Lê ji ber ku çêkerên cihêreng ên turbînên bayê xwedan normên berhevkirina daneyan ên cihê ne (ango raporên lênihêrînê bi form û tewra zimanên cûda têne), bi destan tespîtkirina daneyên têkildar dikare zû ji xwediyê santralê re biha bibe. Amûrên NLP dikarin têgehên têkildar, taybetmendî û bûyeran ji naverokek nesazkirî derxînin. Dûv re analîtîka nivîsê dikare were bikar anîn da ku di çavkaniyên daneyên cihêreng de têkilî û qalibên peyda bike. Ev ji xwediyên nebatan re şansê dide ku li ser bingeha tedbîrên mîqdar ên ku di raporên têkçûna wan de têne destnîşan kirin, lênihêrîna pêşbînîkirî bicîh bînin.

Modelên NLP dikarin navgînên lêgerîna zimanê xwezayî peyda bikin

Bi vî rengî, zanyarên erdnasî yên ku ji bo pargîdaniyên neft û gazê dixebitin bi gelemperî hewce ne ku gelek belgeyên têkildarî operasyonên sondajê yên berê, têketinên bîr û daneyên erdhejê binirxînin. Ji ber ku belgeyên weha jî di formên cûda de têne û bi gelemperî li gelek deveran têne belav kirin (hem fizîkî û hem dîjîtal), ew gelek wext winda dikin ku li cîhên xelet li agahdariyan digerin. Di rewşeke wiha de çareseriyeke guncav wê bibe Navbera lêgerînê ya NLP-hêzdar, ku rê dide bikarhêneran ku daneyan bi zimanê xwezayî bigerin. Dûv re, modelek NLP dikare daneyan bi sedan belgeyan re têkildar bike û komek bersivan vegerîne pirsê. Dûv re xebatkar dikarin li ser bingeha zanîna pisporê xwe hilberînê rast bikin û bertek dê modelê bêtir çêtir bike.

Lêbelê, ji bo bicîhkirina modelên weha jî ramanên teknîkî hene. Aliyek dê ev be ku jargona pîşesaziyê-taybet dikare modelên fêrbûna kevneşopî yên ku xwedan têgihîştina semantîkî ya gunca ne tevlihev bike. Ya duyemîn, performansa modelan dibe ku ji hêla mezinahiya daneyên perwerdehiyê ve were bandor kirin. Ev gava ku modelên pêş-perwerdekirî yên wekî BERT dikarin sûdmend bin. Nûneratiyên hevoksaz dikarin wateya peyva guncan model bikin û her tevliheviyek ku ji hêla şertên pîşesaziyê ve hatî çêkirin jêbirin. Bi karanîna modelên pêş-perwerdekirî, gengaz e ku torê li ser daneyên piçûktir perwerde bike. Ev dem, enerjî, û çavkaniyên ku wekî din ji bo perwerdehiya ji sifirê hewce bûya xilas dike.

Der barê karsaziya xwe de çi ye?

Ma hûn dikarin li ser karên NLP-ê bifikirin ku dibe ku ji we re bibe alîkar ku hûn lêçûn kêm bikin û karbidestiya xebitandinê zêde bikin?

Ew Blue Orange Digital Tîma zanistiya daneyê kêfxweş e ku ji bo berjewendiya we jî BERT-ê bişopîne!

Up Next

Leşkerên Amerîkî Nêzîkî Wesayîtên Cengî yên Xweser ên Derveyî Rê dibin

Ma Miss

Afirandina herî nû ya Quantum Stat Modela NLP Forge ye

Josh Miramant

Josh Miramant CEO û damezrîner e Blue Orange Digital, ajansek zanistî û fêrbûna makîneyê ya top-pilebilind bi nivîsgehên li New York City û Washington DC. Miramant ji pargîdaniyên pargîdanî û destpêkê re axaftvanek populer, paşerojê, û şêwirmendek karsaz û teknolojiyê ya stratejîk e. Ew ji rêxistinan re dibe alîkar ku karsaziyên xwe xweşbîn û otomatîk bikin, teknîkên analîtîk ên dane-rêvekirî bicîh bînin, û bandorên teknolojiyên nû yên wekî îstîxbarata sûnî, daneyên mezin, û Înterneta Tiştan fam bikin.