Kunstmatige intelligentie
NLP Rise with Transformer Models | A Comprehensive Analysis of T5, BERT, and GPT

Natuurlijke Taalverwerking (NLP) heeft enkele van de meest impactvolle doorbraken in recente jaren meegemaakt, voornamelijk dankzij de transformerarchitectuur. Deze doorbraken hebben niet alleen de mogelijkheden van machines om menselijke taal te begrijpen en te genereren verbeterd, maar hebben ook het landschap van talloze toepassingen opnieuw gedefinieerd, van zoekmachines tot conversational AI.
Om de betekenis van transformers volledig te waarderen, moeten we eerst kijken naar de voorgangers en bouwstenen die de basis legden voor deze revolutionaire architectuur.
Vroege NLP-technieken: De fundamenten voor transformers
Woordembeddings: Van One-Hot naar Word2Vec
In traditionele NLP-benaderingen werd de weergave van woorden vaak letterlijk en ontbrak elke vorm van semantische of syntactische begrip. One-hot-codering is een voorbeeld van deze beperking.
One-hot-codering is een proces waarbij categorale variabelen worden omgezet in een binaire vectorweergave waarbij alleen één bit “heet” (ingesteld op 1) is en alle anderen “koud” (ingesteld op 0) zijn. In de context van NLP wordt elk woord in een vocabulaireir weergegeven door one-hot-vectoren waarbij elke vector de grootte van het vocabulaireir heeft en elk woord wordt weergegeven door een vector met alle 0’s en één 1 op de index die overeenkomt met dat woord in de vocabulaireirlijst.
Voorbeeld van One-Hot-Codering
Stel dat we een klein vocabulaireir hebben met slechts vijf woorden: [“king”, “queen”, “man”, “woman”, “child”]. De one-hot-coderingsvectoren voor elk woord zouden er als volgt uitzien:
- “king” -> [1, 0, 0, 0, 0]
- “queen” -> [0, 1, 0, 0, 0]
- “man” -> [0, 0, 1, 0, 0]
- “woman” -> [0, 0, 0, 1, 0]
- “child” -> [0, 0, 0, 0, 1]
Wiskundige weergave
Als we aanduiden als de grootte van ons vocabulaireir en als de one-hot-vectorweergave van het i-de woord in het vocabulaireir, dan is de wiskundige weergave van :
waarbij de i-de positie 1 is en alle andere posities 0.
De belangrijkste nadelen van one-hot-codering zijn dat het elk woord behandelt als een geïsoleerd entiteit, zonder enige relatie met andere woorden. Het resulteert in spaarzame en hoge-dimensionale vectoren die geen semantische of syntactische informatie over de woorden vastleggen.
De introductie van woordembeddings, met name Word2Vec, was een belangrijk moment in NLP. Ontwikkeld door een team bij Google onder leiding van Tomas Mikolov in 2013, vertegenwoordigde Word2Vec woorden in een dichte vectorruimte, waarbij syntactische en semantische woordrelaties werden vastgelegd op basis van hun context binnen grote corpora van tekst.
In tegenstelling tot one-hot-codering produceert Word2Vec dichte vectoren, meestal met honderden dimensies. Woorden die in soortgelijke contexten voorkomen, zoals “king” en “queen”, zullen vectorweergaven hebben die dichter bij elkaar in de vectorruimte liggen.
Voor illustratie, laten we aannemen dat we een Word2Vec-model hebben getraind en nu woorden weergeven in een hypothetische 3-dimensionale ruimte. De embeddings (die meestal meer dan 3D zijn, maar hier voor eenvoudigheid zijn teruggebracht) zouden er ongeveer zo uit kunnen zien:
- “king” -> [0.2, 0.1, 0.9]
- “queen” -> [0.21, 0.13, 0.85]
- “man” -> [0.4, 0.3, 0.2]
- “woman” -> [0.41, 0.33, 0.27]
- “child” -> [0.5, 0.5, 0.1]
Hoewel deze nummers fictief zijn, illustreren ze hoe soortgelijke woorden soortgelijke vectoren hebben.
Wiskundige weergave
Als we de Word2Vec-embedding van een woord aanduiden als , en onze embeddingruimte dimensies heeft, dan kan worden weergegeven als:
Semantische relaties
Word2Vec kan zelfs complexe relaties vastleggen, zoals analogieën. Bijvoorbeeld, de beroemde relatie die door Word2Vec-embeddings wordt vastgelegd, is:
vector(“king”) – vector(“man”) + vector(“woman”)≈vector(“queen”)
Dit is mogelijk omdat Word2Vec de woordvectoren tijdens de training aanpast, zodat woorden die een gemeenschappelijke context delen in het corpus, dicht bij elkaar in de vectorruimte worden geplaatst.
Word2Vec gebruikt twee hoofdarchitecturen om een gedistribueerde weergave van woorden te produceren: Continuous Bag-of-Words (CBOW) en Skip-Gram. CBOW voorspelt een doelwoord uit zijn omringende contextwoorden, terwijl Skip-Gram het omgekeerde doet, door contextwoorden te voorspellen uit een doelwoord. Dit stelde machines in staat om te beginnen met het begrijpen van woordgebruik en betekenis op een meer nuancering.
… (rest van de tekst)












