Connect with us

Andersons hoek

Geen ‘menselijke fout’ ontmaskert bedrieglijke AI-systemen

mm
AI-generated image (GPT-1.5) featuring two male chess players facing off in a tournament, but we can see from the wires and cables hanging out of his back, that one of the players is a robot.

Nieuw onderzoek toont aan dat AI kan doorgaan voor menselijk tot het ‘te goed’ onthoudt, met eenvoudige geheugentests die chatbots ontmaskeren door hun gebrek aan normale menselijke fouten.

 

Onderzoekers van Princeton hebben een methode ontwikkeld om AI-entiteiten die zich voordoen als mens te identificeren, door hen taken te laten uitvoeren die mensen niet goed kunnen – voornamelijk gerelateerd aan het behoud van kortetermijngeheugen.

De geteste AI’s konden de menselijke foutniveaus niet adequaat repliceren, tenzij ze specifiek waren geïnstrueerd om dit te doen in een systeemprompt, ofwel waren fijn afgestemd op psychologische gegevens.

Het artikel vermeldt:

‘[We] onderzoeken het idee van het detecteren van menselijkheid door taken te gebruiken die machines te goed kunnen oplossen om menselijk te zijn. Specifiek onderzoeken we het bestaan van een gevestigde menselijke cognitieve beperking: beperkte capaciteit van het werkgeheugen.

‘We laten zien dat cognitief modelleren op een standaard seriële herroep taak kan worden gebruikt om online deelnemers te onderscheiden van LLM’s, zelfs wanneer de laatste specifiek zijn geïnstrueerd om menselijk werkgeheugen te imiteren.

‘Onze resultaten laten zien dat het haalbaar is om gebruik te maken van gevestigde cognitieve fenomenen om LLM’s van mensen te onderscheiden.’

De door de onderzoekers waargenomen neiging impliceert dat standaard taalmodellen zeer waarschijnlijk zichzelf zullen ontmaskeren in elke omgekeerde Turing-test die deze methode gebruikt.

Hoewel ‘doelgerichte’ AI-modellen beter zullen presteren, zal fijn afstemmen op deze taak waarschijnlijk beperken tot deze taak, ten koste van algemeen gebruik; en terwijl een systeemprompt zo lang kan zijn als Oorlog en Vrede, en dus instructies kan bevatten over hoe menselijke fouten te imiteren, wordt de effectiviteit van deze methode ondermijnd door opgenomen te zijn in zeer uitgebreide instructies (die veel andere prioriteiten zullen benadrukken), of zeer korte instructies (die algemene capaciteit zullen opofferen ten gunste van taakspecifieke instructies, net als fijn afstemmen).

… (rest of the translation remains the same, following the exact same structure and formatting as the original content)

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.