Verbind je met ons

Wat u moet weten over de operator van OpenAI

Artificial Intelligence

Wat u moet weten over de operator van OpenAI

mm
(Open AI)

De afgelopen weken heeft OpenAI de basis gelegd. Terwijl de meeste gebruikers net begonnen met het echt verkennen ChatGPT-taken – een nieuwe functie waarmee gebruikers taken kunnen plannen en activeren – bereidde het bedrijf zich voor op iets veel belangrijkers.

De release van gisteren van Operator is nog een duidelijk signaal over de richting waarin kunstmatige intelligentie zich beweegt: van modellen die alleen informatie verwerken naar agenten die actief met ons kunnen samenwerken.

We besteden dagelijks talloze uren aan het navigeren op websites, het invullen van formulieren, het boeken van diensten en het beheren van digitale taken. AI heeft grotendeels vanaf de zijlijn toegekeken, beperkt tot het geven van advies of het verwerken van tekst. Operator, samen met enkele andere recente aankondigingen van agenten, zoals die van Anthropic Computergebruik en die van Google Project Mariner, deze dynamiek volledig veranderen.

De technische prestatie hier is significant. OpenAI heeft een AI gecreëerd die webinterfaces kan zien en ermee kan interacteren zoals een mens dat doet. Het maakt screenshots, begrijpt visuele lay-outs en neemt beslissingen over waar te klikken, wat te typen en hoe te navigeren.

Dit is wat u moet weten over Operator Agent: Terwijl veel AI-tools in feite gevangen zitten achter API's en gespecialiseerde integraties, werkt Operator met het web precies zoals jij dat doet. Het ziet het scherm, begrijpt de context en onderneemt direct actie.

Demonstrerende operator

Een nadere blik op de werkelijke prestaties van de operator

Wanneer AI-bedrijven benchmarks publiceren, is het belangrijk om goed te kijken naar wat de cijfers daadwerkelijk betekenen. De prestaties van operators vertellen een ander verhaal in verschillende testomgevingen.

De meest indrukwekkende metriek is het succespercentage van 87% van Operator op de WebVoyager-benchmark. Dit is belangrijk omdat WebVoyager echte websites test – de daadwerkelijke platforms die we dagelijks gebruiken, zoals Amazon en Google Maps. Dit is geen gecontroleerde labtest. Het is een prestatie in het wild.

Maar als we naar andere benchmarks kijken, zien we een genuanceerder beeld:

  • WebArena-benchmark: 58.1% succespercentage. Gesimuleerde websites testen voor taken als winkelen en contentbeheer. De lagere prestaties hier onthullen eigenlijk iets belangrijks over hoe AI-agenten gestructureerde versus ongestructureerde omgevingen behandelen.
  • OSWorld-benchmark: 38.1% succespercentage. Dit test complexe, meerstaps taken zoals het combineren van PDF's uit e-mails. De aanzienlijke daling in prestaties laat ons de huidige beperkingen van AI-agenten zien wanneer taken meerdere contextswitches vereisen.

Wat mij interesseert aan deze getallen is hoe ze menselijke leerpatronen weerspiegelen. We presteren doorgaans beter in bekende, echte omgevingen dan in kunstmatige testscenario's. Het feit dat Operator uitblinkt op echte websites terwijl het worstelt met gesimuleerde websites, suggereert dat de training prioriteit geeft aan praktisch nut boven theoretische prestaties.

Deze benchmarks vestigen nieuwe records op het gebied van browserautomatisering, maar de uiteenlopende succespercentages bij verschillende tests vertellen ons iets cruciaals over de strategie van OpenAI.

Denk eens aan uw eigen surfgedrag op internet. De meeste taken zijn eenvoudig: formulieren invullen, aankopen doen, afspraken maken. Dit is waar Operator met een succespercentage van 87% uitblinkt. De complexere taken – waarbij de prestaties dalen – zijn doorgaans taken waarbij menselijk toezicht sowieso waardevol is.

Deze gegevens suggereren dat OpenAI een bewuste keuze maakt: eerst de algemene taken perfectioneren en dan geleidelijk uitbreiden naar complexere operaties. Het is een praktische aanpak die onmiddellijk nut boven theoretische mogelijkheden stelt.

Benchmarks voor AI-agenten (OpenAI)

De strategie van OpenAI achter Operator

De aanpak van OpenAI met Operator laat een zorgvuldig georkestreerde strategie zien.

Denk eerst eens aan de timing. De recente uitrol van functies zoals ChatGPT Tasks ging niet alleen over het toevoegen van functies, maar ook over het voorbereiden van gebruikers op autonome agenten.

Maar dit is echt interessant: OpenAI is van plan om het CUA-model bloot te leggen via een API. Dit betekent dat ontwikkelaars hun eigen computer-gebruikende agents kunnen maken.

De implicaties hiervan zijn aanzienlijk:

  1. Integratie Potentieel
  • Directe integratie in bestaande workflows
  • Aangepaste agenten voor specifieke zakelijke behoeften
  • Branchespecifieke automatiseringsoplossingen
  1. Toekomstig ontwikkelingspad
  • Uitbreiding naar Plus-, Team- en Enterprise-gebruikers
  • Directe ChatGPT-integratie
  • Geografische uitbreiding (hoewel Europa langer zal duren vanwege wettelijke vereisten)

De strategische partnerschappen zijn ook veelzeggend. OpenAI probeert een heel ecosysteem te creëren. Ze werken samen met bedrijven als DoorDash, Instacart en OpenTable, maar ook met organisaties uit de publieke sector zoals de stad Stockton.

Dit wijst op een toekomst waarin AI-agenten niet alleen assistenten zijn, maar een integraal onderdeel van de manier waarop we met digitale systemen omgaan.

Wat dit werkelijk voor u betekent

We gaan een fase in waarin AI niet alleen vragen beantwoordt, maar ook een actieve deelnemer wordt in ons digitale leven.

Denk eens aan je dagelijkse online taken. Niet het complexe, strategische werk waarvoor je expertise nodig is, maar de repetitieve taken. Ik heb het over het onderzoeken van reisopties op meerdere sites, het invullen van gestandaardiseerde formulieren, het verzamelen van gegevens uit verschillende webbronnen en het beheren van routinematige boekingen. Dit is waar Operator in eerste instantie de digitale rompslomp wegneemt. Maar daar blijft het niet bij. Na verloop van tijd zullen AI-agenten steeds complexere workflows kunnen voltooien.

De vroege prestatiegegevens vertellen ons ook iets cruciaals: Operator excelleert in routinematige webtaken met een succespercentage van 87%. Early adopters die leren om het effectief te integreren, zullen een aanzienlijk productiviteitsvoordeel hebben.

De integratietijdlijn laat de zorgvuldige aanpak van OpenAI zien. Ze beginnen met Pro-gebruikers in de VS en breiden dit vervolgens uit naar Plus-, Team- en Enterprise-gebruikers, om uiteindelijk rechtstreeks in ChatGPT te integreren.

We zien een fundamentele verschuiving in de manier waarop AI-tools werken. De echte vraag die u uzelf moet stellen, is niet of u zich aan deze verandering moet aanpassen, maar hoe u dit strategisch moet doen. De technologie zal evolueren, maar het principe blijft: AI gaat van het beantwoorden van vragen naar het ondernemen van actie. Degenen die deze verschuiving vroegtijdig begrijpen, hebben een aanzienlijk voordeel bij het vormgeven van hoe deze tools in hun workflows worden geïntegreerd.

Alex McFarland is een AI-journalist en -schrijver die de nieuwste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met tal van AI-startups en publicaties over de hele wereld.