Kunstmatige intelligentie

NLP Rise with Transformer Models | A Comprehensive Analysis of T5, BERT, and GPT

Published November 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Natuurlijke Taalverwerking (NLP) heeft enkele van de meest impactvolle doorbraken in recente jaren meegemaakt, voornamelijk dankzij de transformerarchitectuur. Deze doorbraken hebben niet alleen de mogelijkheden van machines om menselijke taal te begrijpen en te genereren verbeterd, maar hebben ook het landschap van talloze toepassingen opnieuw gedefinieerd, van zoekmachines tot conversational AI.

Om de betekenis van transformers volledig te waarderen, moeten we eerst kijken naar de voorgangers en bouwstenen die de basis legden voor deze revolutionaire architectuur.

Vroege NLP-technieken: De fundamenten voor transformers

Woordembeddings: Van One-Hot naar Word2Vec

In traditionele NLP-benaderingen werd de weergave van woorden vaak letterlijk en ontbrak elke vorm van semantische of syntactische begrip. One-hot-codering is een voorbeeld van deze beperking.

One-hot-codering is een proces waarbij categorale variabelen worden omgezet in een binaire vectorweergave waarbij alleen één bit “heet” (ingesteld op 1) is en alle anderen “koud” (ingesteld op 0) zijn. In de context van NLP wordt elk woord in een vocabulaireir weergegeven door one-hot-vectoren waarbij elke vector de grootte van het vocabulaireir heeft en elk woord wordt weergegeven door een vector met alle 0’s en één 1 op de index die overeenkomt met dat woord in de vocabulaireirlijst.

Voorbeeld van One-Hot-Codering

Stel dat we een klein vocabulaireir hebben met slechts vijf woorden: [“king”, “queen”, “man”, “woman”, “child”]. De one-hot-coderingsvectoren voor elk woord zouden er als volgt uitzien:

“king” -> [1, 0, 0, 0, 0]
“queen” -> [0, 1, 0, 0, 0]
“man” -> [0, 0, 1, 0, 0]
“woman” -> [0, 0, 0, 1, 0]
“child” -> [0, 0, 0, 0, 1]

Wiskundige weergave

Als we $V$ aanduiden als de grootte van ons vocabulaireir en $w_{i}$ als de one-hot-vectorweergave van het i-de woord in het vocabulaireir, dan is de wiskundige weergave van $w_{i}$ :

$w_{i} = [0, 0, \dots, 1, \dots, 0, 0]$ $waarbij de i-de positie 1 is en alle andere posities 0.$

De belangrijkste nadelen van one-hot-codering zijn dat het elk woord behandelt als een geïsoleerd entiteit, zonder enige relatie met andere woorden. Het resulteert in spaarzame en hoge-dimensionale vectoren die geen semantische of syntactische informatie over de woorden vastleggen.

De introductie van woordembeddings, met name Word2Vec, was een belangrijk moment in NLP. Ontwikkeld door een team bij Google onder leiding van Tomas Mikolov in 2013, vertegenwoordigde Word2Vec woorden in een dichte vectorruimte, waarbij syntactische en semantische woordrelaties werden vastgelegd op basis van hun context binnen grote corpora van tekst.

In tegenstelling tot one-hot-codering produceert Word2Vec dichte vectoren, meestal met honderden dimensies. Woorden die in soortgelijke contexten voorkomen, zoals “king” en “queen”, zullen vectorweergaven hebben die dichter bij elkaar in de vectorruimte liggen.

Voor illustratie, laten we aannemen dat we een Word2Vec-model hebben getraind en nu woorden weergeven in een hypothetische 3-dimensionale ruimte. De embeddings (die meestal meer dan 3D zijn, maar hier voor eenvoudigheid zijn teruggebracht) zouden er ongeveer zo uit kunnen zien:

“king” -> [0.2, 0.1, 0.9]
“queen” -> [0.21, 0.13, 0.85]
“man” -> [0.4, 0.3, 0.2]
“woman” -> [0.41, 0.33, 0.27]
“child” -> [0.5, 0.5, 0.1]

Hoewel deze nummers fictief zijn, illustreren ze hoe soortgelijke woorden soortgelijke vectoren hebben.

Wiskundige weergave

Als we de Word2Vec-embedding van een woord aanduiden als $v_{w}$ , en onze embeddingruimte $d$ dimensies heeft, dan kan $v_{w}$ worden weergegeven als:

$v_{w} = [v_{1}, v_{2}, \dots, v_{d}]$ $waarbij elke v_{i} een floating-point-getal is dat een kenmerk van het woord in de embeddingruimte vertegenwoordigt.$

Semantische relaties

Word2Vec kan zelfs complexe relaties vastleggen, zoals analogieën. Bijvoorbeeld, de beroemde relatie die door Word2Vec-embeddings wordt vastgelegd, is:

$vector(“king”) - vector(“man”) + vector(“woman”) \approx vector(“queen”)$

Dit is mogelijk omdat Word2Vec de woordvectoren tijdens de training aanpast, zodat woorden die een gemeenschappelijke context delen in het corpus, dicht bij elkaar in de vectorruimte worden geplaatst.

Word2Vec gebruikt twee hoofdarchitecturen om een gedistribueerde weergave van woorden te produceren: Continuous Bag-of-Words (CBOW) en Skip-Gram. CBOW voorspelt een doelwoord uit zijn omringende contextwoorden, terwijl Skip-Gram het omgekeerde doet, door contextwoorden te voorspellen uit een doelwoord. Dit stelde machines in staat om te beginnen met het begrijpen van woordgebruik en betekenis op een meer nuancering.

… (rest van de tekst)

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.

Unite.AI

NLP Rise with Transformer Models | A Comprehensive Analysis of T5, BERT, and GPT

Vroege NLP-technieken: De fundamenten voor transformers

Woordembeddings: Van One-Hot naar Word2Vec

You may like