Connect with us

Kunstmatige intelligentie

DeepScribe AI kan helpen bij het vertalen van oude tabletten

mm

Onderzoekers van de Oriental Institute van de Universiteit van Chicago en de afdeling Computer Science hebben samengewerkt om een AI te ontwerpen die kan helpen bij het ontcijferen van tabletten uit oude beschavingen. Volgens Phys.org heet de AI DeepScribe en is getraind op meer dan 6.000 geannoteerde afbeeldingen uit het Persepolis Fortification Archive, wanneer het model compleet is, kan het ongeanalyseerde tabletten interpreteren, waardoor het bestuderen van oude documenten gemakkelijker wordt.

Experts die oude documenten bestuderen, zoals de onderzoekers die de documenten bestuderen die zijn gemaakt tijdens het Achaemenidische rijk in Perzië, moeten oude documenten met de hand vertalen, een langdurig proces dat vatbaar is voor fouten. Onderzoekers gebruiken sinds de jaren 90 computers om te helpen bij het interpreteren van oude documenten, maar de computerprogramma’s die werden gebruikt, waren van beperkte hulp. De complexe spijkerschrifttekens, evenals de driedimensionale vorm van de tabletten, zetten een limiet aan hoe nuttig de computerprogramma’s konden zijn.

Computer vision-algoritmen en deep learning-architecturen hebben nieuwe mogelijkheden gebracht in dit veld. Sanjay Krishnan, van de afdeling Computer Science van OI, werkte samen met associate professor van Assyriologie Susanne Paulus om het DeepScribe-programma te lanceren. De onderzoekers beheerden een databasebeheerplatform genaamd OCHRE, dat gegevens uit archeologische opgravingen ordende. Het doel is om een AI-hulpmiddel te creëren dat zowel uitgebreid als flexibel is, in staat om scripts van verschillende geografische regio’s en tijdsperioden te interpreteren.

Zoals Phys.org meldde, legde Krishnan uit dat de uitdagingen van het herkennen van scripts, waarmee archeologische onderzoekers worden geconfronteerd, essentieel hetzelfde zijn als de uitdagingen waarmee computer vision-onderzoekers worden geconfronteerd:

“Vanuit het computer vision-perspectief is het echt interessant omdat dit dezelfde uitdagingen zijn die wij tegenkomen. Computer vision is de afgelopen vijf jaar zo sterk verbeterd; tien jaar geleden zou dit onmogelijk zijn geweest, we zouden niet zo ver zijn gekomen. Het is een goed machine learning-probleem, omdat de nauwkeurigheid objectief is, we hebben een gelabelde trainingsset en we begrijpen het script redelijk goed en dat helpt ons. Het is geen compleet onbekend probleem.”

De trainingsset in kwestie is het resultaat van het nemen van de tabletten en vertalingen, van ongeveer 80 jaar archeologisch onderzoek gedaan bij OI en U Chicago, en het maken van hoge resolutie geannoteerde afbeeldingen ervan. Momenteel is de trainingsgegevens ongeveer 60 terabyte groot. Onderzoekers konden de dataset gebruiken en een woordenboek maken van meer dan 100.000 individueel geïdentificeerde tekens die het model kon leren. Toen het getrainde model werd getest op een ongezien beeldset, behaalde het model ongeveer 80% nauwkeurigheid.

Terwijl het team van onderzoekers probeert de nauwkeurigheid van het model te verhogen, kan zelfs 80% nauwkeurigheid helpen bij het proces van transcriptie. Volgens Paulus kan het model worden gebruikt om zeer herhalende delen van de documenten te identificeren of te vertalen, waardoor experts hun tijd kunnen besteden aan het interpreteren van de moeilijkere delen van het document. Zelfs als het model niet met zekerheid kan zeggen wat een symbool vertaalt, kan het onderzoekers waarschijnlijkheden geven, wat hen al vooruit helpt.

Het team streeft ernaar om DeepScribe een hulpmiddel te maken dat andere archeologen kunnen gebruiken in hun projecten. Bijvoorbeeld, het model kan opnieuw worden getraind op andere spijkerschrifttalen, of het model kan geïnformeerde schattingen maken over de tekst op beschadigde of onvolledige tabletten. Een voldoende robuust model kan zelfs de leeftijd en oorsprong van tabletten of andere artefacten schatten, iets wat normaal gesproken wordt gedaan met chemische tests.

Het DeepScribe-project wordt gefinancierd door het Centre for the Development of Advanced Computing (CDAC). Computer vision is gebruikt in andere door CDAC gefinancierde projecten, zoals een project dat bedoeld is om stijl in kunstwerken te herkennen en een project dat is ontworpen om biodiversiteit in mariene tweekleppigen te kwantificeren. Het team van onderzoekers hoopt dat hun samenwerking zal leiden tot toekomstige samenwerkingen tussen de afdeling Computer Science en OI van de Universiteit van Chicago.

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.