Connect with us

Jak je zpracování jazyka vylepšováno prostřednictvím otevřeného zdrojového modelu BERT od Googlu

Umělá inteligence

Jak je zpracování jazyka vylepšováno prostřednictvím otevřeného zdrojového modelu BERT od Googlu

mm
BERT Search Enhancements

Bidirectional Encoder Representations from Transformers, jinak známý jako BERT; je trénovací model, který dramaticky zlepšil efektivitu a účinek modelů NLP. Nyní, když Google zpřístupnil modely BERT jako otevřený zdroj, umožňuje to zlepšení modelů NLP napříč všemi odvětvími. V článku se podíváme, jak BERT dělá z NLP jednu z nejvýkonnějších a nej užitečnějších řešení AI v dnešním světě. 

Aplikace modelů BERT na vyhledávání

Googleův vyhledávač je světově proslulý svou schopností předkládat relevantní obsah a zpřístupnil tento program zpracování přirozeného jazyka jako otevřený zdroj světu.

Schopnost systému číst a interpretovat přirozený jazyk se stává stále více vitální, protože svět exponenciálně produkuje nové údaje. Googleova knihovna významů slov, frází a obecná schopnost předkládat relevantní obsah, je OTEVŘENÝ ZDROJ. Kromě zpracování přirozeného jazyka má model BERT schopnost extrahovat informace z velkých množství nestrukturovaných údajů a lze jej použít k vytvoření vyhledávacích rozhraní pro jakoukoli knihovnu. V tomto článku se podíváme, jak lze tuto technologii aplikovat v energetickém sektoru. 

BERT (Bidirectional Encoder Representations from Transformers) je přístup k předběžnému trénování navrženým skupinou Google AI Language, který byl vyvinut za účelem překonání běžného problému raných modelů NLP: nedostatku dostatečných trénovacích údajů.

Podrobněji, bez přílišného detailu:

Trénování modelů

Nízkoúrovňové (například rozpoznávání jmenovaných entit, segmentace témat) a vysoké úrovně (například analýza sentimentu, rozpoznávání řeči) úkoly NLP vyžadují úkolu specifické anotované sady údajů. Ačkoli jsou obtížně dostupné a drahé na sestavení, anotované sady údajů hrají zásadní roli ve výkonu obou mělkých a hlubokých neuronových sítí. Vysokokvalitní výsledky inference mohly být dosaženy pouze tehdy, když byly k dispozici miliony nebo dokonce miliardy anotovaných trénovacích příkladů. A to byl problém, který činil mnoho úkolů NLP nedosažitelnými. To bylo až do vývoje BERTu.

BERT je obecný model reprezentace jazyka, trénovaný na velkých korpusích neanotovaných textů. Když je model vystaven velkým množství textového obsahu, učí se chápat kontext a vztahy mezi slovy ve větě. Na rozdíl od předchozích modelů učení, které reprezentovaly význam pouze na úrovni slov (banka by měla stejný význam v „bankovní účet“ a „travnatá banka“), BERT se skutečně stará o kontext. To znamená, co předchází a následuje slovo ve větě. Kontext se ukázal jako významná chybějící schopnost modelů NLP, s přímým dopadem na výkon modelu. Navržení kontextově vědomého modelu, jako je BERT, je mnoha známé jako začátek nové éry v NLP.

Trénování BERTu na velkých množstvích textového obsahu je technika známá jako předběžné trénování. To znamená, že váhy modelu jsou upraveny pro obecné úkoly porozumění textu a že lze postavit jemnější modely na jeho základě. Autoři prokázali superioritu takové techniky, když nasadili modely založené na BERTu na 11 úkolech NLP a dosáhli výsledků na úrovni současného stavu.

Předběžně trénované modely

Nejlepší věc je: předběžně trénované modely BERT jsou otevřené a veřejně dostupné. To znamená, že kdokoli může řešit úkoly NLP a stavět své modely na základě BERTu. Nic nemůže být lepší, že? Oh, počkejte: to také znamená, že modely NLP lze nyní trénovat (jemně upravit) na menších datech, bez potřeby trénovat od začátku. Začátek nové éry, skutečně.

Tyto předběžně trénované modely pomáhají společnostem snížit náklady a čas na nasazení modelů NLP pro interní nebo externí použití. Účinnost dobře trénovaných modelů NLP je zdůrazněna Michaelem Alexem, generálním ředitelem virtuální společnosti pro budování firemní kultury, teambuilding.com. 

„Největší výhodou NLP je škálovatelná a konzistentní inference a zpracování informací.“   – Michael Alexis, generální ředitel teambuilding.com

Michael uvádí, jak lze NLP aplikovat na programy pro budování firemní kultury, jako jsou icebreakery nebo průzkumy. Společnost může získat cenné poznatky o tom, jak firemní kultura funguje, analýzou odpovědí zaměstnanců. To je dosaženo nejen analýzou textu, ale také anotací textu. V podstatě model „čte mezi řádky“, aby získal informace o emocích, pocitech a celkovém pohledu. BERT může pomoci v takových situacích, předtrénováním modelů s základními ukazateli, které mohou být použity k odhalení nuancí jazyka a poskytování přesnějších poznatků.  

Vylepšení dotazů

Schopnost modelovat kontext proměnila BERT v hrdinu NLP a revolucionizovala samotný Google Search. Níže je citát z týmu Google Search a jejich zkušebních zkušeností, zatímco ladili BERT, aby porozuměl záměru za dotazem.

„Zde jsou einige příklady, které demonstrují schopnost BERTu porozumět záměru za vaším vyhledáním. Zde je vyhledávání „2019 brazilský cestující do USA potřebuje vízum“. Slovo „do“ a jeho vztah k ostatním slovům v dotazu jsou zvláště důležité pro pochopení významu. Jde o to, že brazilský cestující cestuje do USA a ne naopak. Předtím naše algoritmy nerozuměly důležitosti tohoto spojení a vracely výsledky o občanech USA cestujících do Brazílie. S BERTem je Search schopný pochopit tuto nuanci a vědět, že velmi běžné slovo „do“ vlastně hodně znamená, a můžeme poskytnout mnohem relevantnější výsledek pro tento dotaz.”Porozumění vyhledávání lépe než kdykoli předtím, od Pandu Nayaka, Google Fellow a Vice Prezidenta pro Search.

BERT Search example

Příklad vyhledávání BERT, před a po. Zdroj blog

V našem posledním článku o NLP a OCR, jsme ilustrovali některé použití NLP v realitním sektoru. Také jsme zmínili, jak „NLP nástroje jsou ideálními nástroji pro extrakci informací“. Podíváme se na energetický sektor a uvidíme, jak disruptivní NLP technologie, jako je BERT, umožňují nové použití. 

Modely NLP mohou extrahovat informace z velkých množství nestrukturovaných údajů

Jedním ze způsobů, jak lze modely NLP použít, je extrakce kritických informací z nestrukturovaných textových údajů. E-maily, deníky, poznámky, protokoly a zprávy jsou všechny příklady textových zdrojů údajů, které jsou součástí denních operací podniků. Některé z těchto dokumentů mohou prokázat kritické informace pro úsilí o zvýšení provozní efektivity a snížení nákladů. 

Při cíleném implementování předpovědní údržby větrných turbín, zpráv o poruchách mohou obsahovat kritické informace o chování různých komponent. Ale protože různé výrobci větrných turbín mají různé normy pro sběr údajů (tj. zprávy o údržbě přicházejí v různých formátech a dokonce i jazycích), ruční identifikace relevantních údajů by mohla pro majitele zařízení rychle stát drahá. NLP nástroje mohou extrahovat relevantní koncepty, atributy a události z nestrukturovaného obsahu. Textová analýza může být poté použita k nalezení korelací a vzorců v různých zdrojích údajů. To dává majitelům zařízení možnost implementovat předpovědní údržbu na základě kvantitativních měřítek identifikovaných ve svých zprávách o poruchách.

Modely NLP mohou poskytovat přirozené jazykové vyhledávací rozhraní

Podobně, geovědci pracující pro ropné a plynárenské společnosti obvykle potřebují přezkoumat mnoho dokumentů souvisejících s předchozími vrtnými operacemi, vrtnými protokoly a seizmickými údaji. Protože tyto dokumenty také přicházejí v různých formátech a jsou obvykle rozptýleny na mnoha místech (jak fyzických, tak digitálních), tráví mnoho času hledáním informací na špatných místech. Řešením by bylo NLP poháněné vyhledávací rozhraní, které by umožnilo uživatelům vyhledávat data v přirozeném jazyce. Poté by model NLP mohl korelovat údaje napříč stovkami dokumentů a vrátit sadu odpovědí na dotaz. Pracovníci mohou poté ověřit výstup na základě svých vlastních odborných znalostí a zpětná vazba by dále vylepšila model. 

Existují však také technické úvahy pro nasazení takových modelů. Jedním aspektem by bylo, že odborný žargon specifický pro odvětví může zmást tradiční modely učení, které nemají odpovídající sémantické porozumění. Za druhé, výkon modelů může být ovlivněn velikostí trénovací sady údajů. To je případ, kdy se předběžně trénované modely, jako je BERT, mohou ukázat jako prospěšné. Kontextové reprezentace mohou modelovat odpovídající význam slov a odstranit jakékoli zmatky způsobené odborným žargónem. Používáním předběžně trénovaných modelů je možné trénovat síť na menších datech. To šetří čas, energii a zdroje, které by jinak byly nutné pro trénování od začátku.

Co se týče vaší vlastní firmy? 

Můžete si představit nějaké úkoly NLP, které by mohly pomoci vám snížit náklady a zvýšit provozní efektivitu?Tým Blue Orange Digital pro datové vědy je rád, že upravit BERT pro vaši výhodu!

Josh Miramant je CEO a zakladatel Blue Orange Digital, špičkové agentury pro datové vědy a strojové učení s kancelářemi v New York City a Washington DC. Miramant je populární řečník, futurolog a strategický obchodní a technologický poradce pro podniky a startupy. Pomáhá organizacím optimalizovat a automatizovat své podnikání, implementovat analytické techniky založené na datech a pochopit důsledky nových technologií, jako je umělá inteligence, big data a Internet věcí.