Umělá inteligence

Jak se vylepšuje zpracování jazyka prostřednictvím modelu BERT společnosti Google s otevřeným zdrojovým kódem

aktualizováno on 9. prosince 2022

Reprezentace obousměrného kodéru od společnosti Transformers, jinak známé jako BERT; je tréninkový model, který drasticky zlepšil efektivitu a efekt NLP modelů. Nyní, když Google vytvořil modely BERT jako open source, umožňuje vylepšování modelů NLP ve všech odvětvích. V článku se podíváme na to, jak BERT dělá z NLP jedno z nejvýkonnějších a nejužitečnějších řešení AI v dnešním světě.

Použití modelů BERT na vyhledávání

Vyhledávač Google je světově proslulý svou schopností prezentovat relevantní obsah a tento program pro zpracování přirozeného jazyka učinili světovým open source.

Schopnost systému číst a interpretovat přirozený jazyk se stává stále důležitější, protože svět exponenciálně produkuje nová data. Knihovna významů slov, frází a obecné schopnosti prezentovat relevantní obsah společnosti Google je OPEN SOURCE. Kromě zpracování přirozeného jazyka má jejich model BERT schopnost extrahovat informace z velkého množství nestrukturovaných dat a lze jej použít k vytvoření vyhledávacích rozhraní pro jakoukoli knihovnu. V tomto článku uvidíme, jak lze tuto technologii uplatnit v energetickém sektoru.

BERT (Bidirectional Encoder Representations from Transformers) je předtrénovací přístup navržený společností Jazyk Google AI skupina, vyvinutá k překonání běžného problému raných modelů NLP: nedostatku dostatečných tréninkových dat.

Pojďme to upřesnit, aniž bychom zacházeli do přílišných podrobností:

Tréninkové modely

Úlohy NLP na nízké úrovni (např. rozpoznávání pojmenovaných entit, segmentace témat) a na vysoké úrovni (např. analýza sentimentu, rozpoznávání řeči) vyžadují anotované datové sady specifické pro daný úkol. I když je obtížné je sehnat a sestavit je nákladné, označené datové sady hrají klíčovou roli ve výkonu modelů mělkých i hlubokých neuronových sítí. Vysoce kvalitních výsledků odvození bylo možné dosáhnout pouze tehdy, když byly k dispozici miliony nebo dokonce miliardy komentovaných příkladů školení. A to byl problém, kvůli kterému bylo mnoho úkolů NLP nedostupných. To je do doby, než byl vyvinut BERT.

BERT je obecný model jazykové reprezentace, trénovaný na velkých korpusech neanotovaného textu. Když je model vystaven velkému množství textového obsahu se učí porozumět souvislostem a vztahům mezi slovy ve větě. Na rozdíl od předchozích modelů učení, které představovaly význam pouze na úrovni slov (banka by znamenalo totéž v „bankovním účtu“ a „travnaté bance“), BERT se ve skutečnosti stará o kontext. Tedy to, co je před a za slovem ve větě. Kontext se ukázal jako hlavní chybějící schopnost modelů NLP s přímým dopadem na výkon modelu. Navrhování kontextově orientovaného modelu, jako je BERT, mnozí znají jako začátek nové éry v NLP.

Školení BERT na velkém množství textového obsahu je technika známá jako předtrénink. To znamená, že váhy modelu jsou upraveny pro obecné úlohy porozumění textu a že na něm lze stavět jemnější modely. Autoři prokázali nadřazenost takové techniky, když použili modely založené na BERT na 11 úlohách NLP a dosáhli nejmodernějších výsledků.

Předtrénované modely

Nejlepší na tom je: předtrénované modely BERT jsou open source a veřejně dostupné. To znamená, že každý může řešit úkoly NLP a stavět své modely na BERT. To nic nepřekoná, že? Ach, počkejte: to také znamená, že modely NLP lze nyní trénovat (doladit) na menších souborech dat, aniž by bylo nutné trénovat od nuly. Opravdu začátek nové éry.

Tyto předem vyškolené modely pomáhají společnostem snížit náklady a čas na nasazení modelů NLP, které mají být použity interně nebo externě. Efektivitu dobře trénovaných NLP modelů zdůrazňuje Michael Alexis, generální ředitel společnosti teambuilding.com pro budování virtuální týmové kultury.

"Největší výhodou NLP je škálovatelné a konzistentní vyvozování a zpracování informací." – Michael Alexis CEO společnosti teambuilding.com

Michael uvádí, jak lze NLP aplikovat na programy na podporu kultury, jako jsou ledoborce nebo průzkumy. Společnost může získat cenný přehled o tom, jak se daří firemní kultuře, analýzou odpovědí zaměstnanců. Toho je dosaženo nejen pouhou analýzou textu, ale také analýzou anotace textu. Model v podstatě také „čte mezi řádky“, aby vyvodil závěry o emocích, pocitech a celkovém výhledu. BERT může pomoci v situacích, jako je tato, předtrénováním modelů na základě indikátorů, které může použít, aby odhalil nuance jazyka a poskytl přesnější poznatky.

Zlepšení dotazů

Schopnost modelovat kontext změnila BERT na hrdinu NLP a způsobila revoluci ve Vyhledávání Google. Níže je citace produktového týmu Vyhledávání Google a jeho zkušeností s testováním, když ladili BERT, aby pochopili záměr dotazu.

„Zde jsou některé příklady, které demonstrují schopnost BERT porozumět záměru vašeho vyhledávání. Zde je vyhledávání „cestovatel z Brazílie do USA v roce 2019 potřebuje vízum“. Pro pochopení významu je zvláště důležité slovo „to“ a jeho vztah k ostatním slovům v dotazu. Je o Brazilci cestujícím do USA a ne naopak. Dříve naše algoritmy nechápaly důležitost tohoto spojení a vrátili jsme výsledky o občanech USA cestujících do Brazílie. S BERT je Search schopno pochopit tuto nuanci a ví, že velmi běžné slovo „to“ zde skutečně hodně záleží, a pro tento dotaz můžeme poskytnout mnohem relevantnější výsledek.“
- Porozumění vyhledávání lépe než kdy předtím, od Pandu Nayaka, člena společnosti Google a vicepresidenta vyhledávání.

Příklad vyhledávání BERT, před a po. Zdroj blog

V našem posledním díle NLP a OCR, jsme ilustrovali některá použití NLP v sektoru nemovitostí. Také jsme zmínili, že „nástroje NLP jsou ideálními nástroji pro extrakci informací“. Podívejme se na energetický sektor a uvidíme, jak převratné technologie NLP, jako je BERT, umožňují nové případy použití aplikací.

NLP modely mohou extrahovat informace z velkého množství nestrukturovaných dat

Jedním ze způsobů, jak lze NLP modely použít, je extrakce kritických informací z nestrukturovaných textových dat. E-maily, deníky, poznámky, protokoly a zprávy jsou příklady zdrojů textových dat, které jsou součástí každodenních operací podniků. Některé z těchto dokumentů se mohou ukázat jako zásadní v organizačním úsilí o zvýšení provozní efektivity a snížení nákladů.

Když je cílem implementovat prediktivní údržba větrných turbín, zprávy o poruchách může obsahovat kritické informace o chování různých komponent. Ale protože různí výrobci větrných turbín mají různé normy pro sběr dat (tj. zprávy o údržbě přicházejí v různých formátech a dokonce i v jazycích), ruční identifikace příslušných datových položek by se pro vlastníka elektrárny mohla rychle prodražit. Nástroje NLP mohou extrahovat relevantní koncepty, atributy a události z nestrukturovaného obsahu. Textovou analýzu pak lze použít k nalezení korelací a vzorů v různých zdrojích dat. To dává majitelům závodů možnost zavést prediktivní údržbu založenou na kvantitativních opatřeních identifikovaných v jejich zprávách o poruchách.

Modely NLP mohou poskytovat rozhraní pro vyhledávání v přirozeném jazyce

Podobně geovědci pracující pro ropné a plynárenské společnosti obvykle potřebují zkontrolovat mnoho dokumentů souvisejících s minulými vrtnými operacemi, protokoly vrtů a seismická data. Vzhledem k tomu, že takové dokumenty také přicházejí v různých formátech a jsou obvykle rozmístěny na mnoha místech (fyzických i digitálních), ztrácejí spoustu času hledáním informací na nesprávných místech. Schůdným řešením v takovém případě by bylo vyhledávací rozhraní s podporou NLP, což by uživatelům umožnilo vyhledávat data v přirozeném jazyce. Potom by model NLP mohl korelovat data napříč stovkami dokumentů a vrátit sadu odpovědí na dotaz. Pracovníci pak mohou výstup validovat na základě svých vlastních odborných znalostí a zpětná vazba by dále zlepšila model.

Existují však také technická hlediska pro nasazení takových modelů. Jedním aspektem by bylo, že žargon specifický pro dané odvětví může zmást tradiční modely učení, které nemají odpovídající sémantické porozumění. Za druhé, výkon modelů může být ovlivněn velikostí trénovací datové sady. To je případ, kdy se předem vyškolené modely, jako je BERT, mohou ukázat jako užitečné. Kontextové reprezentace mohou modelovat vhodný význam slova a odstranit jakékoli nejasnosti způsobené výrazy specifickými pro dané odvětví. Použitím předem trénovaných modelů je možné trénovat síť na menších datových sadách. To šetří čas, energii a zdroje, které by jinak byly nutné pro trénink od nuly.

A co vaše vlastní podnikání?

Napadají vás nějaké úkoly NLP, které by vám mohly pomoci snížit náklady a zvýšit provozní efektivitu?

Projekt Modrá Oranžová Digitální tým datové vědy rád vyladí BERT i ve váš prospěch!

Nahoru Další

Americká armáda se přibližuje autonomním terénním bojovým vozidlům

Nenechte si ujít

Nejnovějším výtvorem Quantum Stat je NLP Model Forge

Josh Miramant

Josh Miramant je generální ředitel a zakladatel společnosti Modrá Oranžová Digitální, špičková agentura pro datovou vědu a strojové učení s pobočkami v New Yorku a Washingtonu DC. Miramant je populární řečník, futurista a strategický obchodní a technologický poradce pro podnikové společnosti a startupy. Pomáhá organizacím optimalizovat a automatizovat jejich podnikání, implementovat analytické techniky založené na datech a porozumět důsledkům nových technologií, jako je umělá inteligence, velká data a internet věcí.