Interviews
Chester Leung, mede-oprichter en hoofd van AI-platform bij OPAQUE – Interviewreeks

Chester Leung is mede-oprichter en hoofd van platformarchitectuur bij OPAQUE, een Series A-startup die een vertrouwelijke dataplatform en AI-platform bouwt dat teams in staat stelt om hun ondernemingsgegevenspijplijn uit te breiden met een vertrouwelijke laag, waardoor snellere inzichten mogelijk worden met minder moeite en verifieerbare privacy en controle.
Voorheen was Chester een student in de informatica aan de UC Berkeley, waar hij peer-reviewed papers publiceerde op topconferenties en ook als hoofdonderhouder van het open-source MC2-project voor beveiligde samenwerkingsanalyse en machine learning diende.
U heeft Opaque opgericht na uw tijd bij UC Berkeley’s RISELab, waar uw werk AI en beveiligde systemen met elkaar verbond. Welke specifieke lacune in ondernemingsgegevensinfrastructuur zag u dat leidde tot de creatie van OPAQUE, en hoe heeft uw academische ervaring de richting van het bedrijf beïnvloed?
Destijds was er een immense focus, zowel in de academische wereld als in de industrie, op het gebruik van machine learning voor specifieke use cases. In het lab hadden we het geluk om grote ondernemingsponsors te hebben die ons hielpen om ons werk te richten op het oplossen van meer urgente problemen die zij binnen hun organisaties tegenkwamen. Onze groep had in het bijzonder de unieke kans om nauw samen te werken met tech- en bank-, financiële dienstverlenings- en verzekeringsbedrijven (BFSI) om moeilijke privacyproblemen rond het gebruik van gevoelige maar waardevolle gegevens voor machine learning op te lossen. Net als alle gebieden van AI, is machine learning afhankelijk van grote hoeveelheden hoge kwaliteit gegevens om waardevolle en robuuste inzichten te produceren.
We kwamen steeds weer tegen hetzelfde patroon aan tijdens onze samenwerking met teams van bedrijven als Amazon, Scotiabank en Ant Group (toen Ant Financial): hun machine learning-gebaseerde projecten kwamen tot stilstand voordat ze in productie gingen vanwege zorgen over het gebruik van gevoelige maar kritieke gegevens voor deze use cases. Met andere woorden, deze teams konden AI niet gebruiken in projecten die ze wisten dat waarde konden genereren voor het bedrijf, niet vanwege een technisch probleem met AI, maar omdat ze geen toegang konden krijgen tot de juiste gegevens.
Bij Opaque lossen we hetzelfde probleem op. We helpen teams om toegang te krijgen tot de juiste gegevens, waardoor ze hun AI-mogelijkheden kunnen ontgrendelen of upgraden. Het enige wat sinds onze onderzoeksperiode is veranderd, is de urgentie van het probleem: we zien nu consistent dat AI-adoptie en -integratie, die nog steeds wordt geblokkeerd door toegang tot de juiste gegevens, een bedrijfsbrede strategische imperatief wordt.
In een landschap waar ondernemingen zwaar investeren in redeneringsmodellen en agente AI, waarom denkt u dat beveiligde gegevenspijplijnen belangrijker zijn dan ooit?
Beveiligde gegevenspijplijnen vormen de ruggengraat waarop ondernemingen redeneringsmodellen en agente AI bouwen. Alles, van het trainen van deze redeneringsmodellen tot het implementeren van agente AI, heeft gevoelige gegevens nodig en is afhankelijk van beveiligde gegevenspijplijnen.
Als voorbeeld zien we nu als industrie een groeiende investering in het genereren van hoge kwaliteit gegevens om deze modellen te trainen. Sommige rapporten hebben zelfs voorspeld dat de investering in het genereren van hoge kwaliteit gegevens binnenkort groter zal zijn dan de investering in het trainen van de modellen zelf. Natuurlijk is gegevensgeneratie een meerstapsproces dat wordt aangedreven door pijplijnen die een ondernemings meest waardevolle intellectueel eigendom produceren: hoge kwaliteit domeinspecifieke gegevens die modellen kunnen trainen die immense waarde downstream genereren. De investering in het genereren van deze gegevens is enorm, en de gegenereerde gegevens, gegeven hun afkomst, onderscheiden een onderneming van haar concurrenten en dienen als haar verdedigingsmuur. Een onderneming moet alles doen om deze pijplijn te beveiligen.
OPAQUE’s vertrouwelijke rekenplatform maakt analyse op versleutelde gegevens mogelijk. Wat zijn de kerntechnische uitdagingen om dit zowel schaalbaar als ontwikkelaar-vriendelijk te maken voor ondernemingsomgevingen?
Ons vertrouwelijk AI-platform maakt niet alleen analyse, machine learning en generatieve AI op versleutelde gegevens mogelijk, maar biedt ook verifieerbare bewijzen dat uw gegevens op een manier zijn gebruikt die u verwacht en toestaat.
De kernuitdagingen liggen bij de orkestratie van de workload, die zowel beveiligd als verifieerbaar moet zijn op grote schaal. Veel ondernemingen gebruiken tegenwoordig beheerde cloudservices wanneer ze moeten schalen. Dit kan zowel kostenefficiënt als gemakkelijk zijn. Echter, een deel van de software die beheerde cloudservices aandrijft, is inherent beheerd door de cloudprovider. De uitdaging wordt dus: hoe kan een onderneming software beveiligen en verifiëren die niet onder haar controle valt? Als de onderneming alle controle over de software terugneemt, wat moet ze opgeven door geen beheerde service te gebruiken, en wat verliest ze door dit te doen?
U heeft gezegd dat een beveiligde architectuur een duurzame concurrentievoordeel kan bieden. Kunt u uitleggen hoe dit principe in de praktijk werkt voor ondernemings-AI-teams?
Er zijn twee kanten om naar te kijken: een productkant en een ingenieurskant.
Vanuit een productkant begrijpt iedereen dat hun gegevens radioactief, hun verdedigingsmuur of beide zijn. Ondernemingen worden steeds volwassener in hun evaluatie van oplossingen op het gebied van gegevensprivacy, -beveiliging en -soevereiniteit. Als gevolg daarvan moet elk team dat een product bouwt dat ondernemingsgegevens verwerkt, garanties bieden dat de verwerkte gegevens alleen zichtbaar zijn voor en worden gebruikt door geautoriseerde partijen en entiteiten. Een beveiligde architectuur biedt vertrouwen dat gegevensprivacy, -beveiliging en -soevereiniteit eerste klas overwegingen waren bij het ontwerp van het product, en stelt het product in staat om deze garanties expliciet te bieden.
Vanuit een ingenieurskant is een beveiligde architectuur uitbreidbaarder en toekomstbestendiger. Juridische, risico- en compliance-teams worden steeds strenger in reactie op nieuwe risico’s en regelgeving. Ingenieursorganisaties zouden dus een beveiligd ondernemings-AI-systeem vanaf het begin moeten bouwen, zodat ze het niet later hoeven te herschrijven en/of op te lappen wanneer ze beseffen dat hun bestaande systeem onvoldoende beveiligd en risicovrij is. Het herschrijven en oplossen kost maanden, zo niet jaren, van waardevolle ingenieurscapaciteit.
Hoe moeten ondernemingen de rol van gegevens heroverwegen – voorbij een resource – als een verdedigbare verdedigingsmuur, nu autonome AI-systemen evolueren?
Er is een groeiende consensus in de industrie dat gegevens binnenkort de enige verdedigingsmuur van een onderneming kunnen zijn. We zien onderzoek en ingenieurscapaciteit, en de briljante technologieën en producten die ze bouwen, van onderneming naar onderneming springen. Als gevolg daarvan kunnen veel ondernemingen dezelfde producten aanbieden, gesteund door dezelfde technologieën.
Wat echter niet gemakkelijk van onderneming naar onderneming kan worden overgedragen, is een ondernemingsgegevens – tenzij ze zijn gelekt. Bovendien is het juist deze gegevens die een product aantrekkelijker kunnen maken dan zijn concurrenten – meer gepersonaliseerd, aangepast en domeinspecifiek. Ondernemingen moeten alles doen om hun gegevens te beveiligen, waardoor ze hun gegevens kunnen gebruiken als de concurrentievoordeel.
Wat ziet een veerkrachtige AI-pijplijn er in de praktijk uit, en hoe helpt het ondernemingen om verborgen kosten of risico’s te vermijden bij het opschalen van hun AI-implementaties?
Een veerkrachtige AI-pijplijn is een die betrouwbaar, foutbestendig, maar vooral verifieerbaar beveiligd is van eind tot eind. Voordat de verwerking plaatsvindt, moeten bedrijven zowel de gegevens die de pijplijn ingaan als de pijplijn zelf verifiëren om ervoor te zorgen dat er geen mogelijkheid is dat de pijplijn de gegevens misbruikt. Tijdens de verwerking moet de AI-pijplijn tamper-proof zijn, om ervoor te zorgen dat niemand de gegevens die het verwerkt kan stelen of de inzichten die het biedt kan manipuleren. Na de verwerking moet de AI-pijplijn verifieerbaar auditeerbaar zijn, zodat een team de besluitvorming en de traject van de AI-pijplijn kan observeren en uitleggen, en zodat een team kan zien wat er misging wanneer iets misgaat.
Het is van cruciaal belang om te overwegen hoe een onveilige, gebrekkige AI-pijplijn een ondernemingsgegevens kan lekken of een propriëtair model kan schenden, en de implicaties die dit heeft op een bedrijfsdifferentiatie- of reputatiefactor. Wat nog belangrijker is, is dit: naarmate bedrijven hun AI-implementaties opschalen naar meer kritieke en impactvolle use cases, groeit het risico van een onveilige, onverklaarbare AI-pijplijn exponentieel. In een wereld waarin kredietbeslissingen en wervingsbeslissingen al AI-gebaseerd zijn en alles beïnvloeden, van persoonlijke financiën tot carrières, kan een opzettelijke of onopzettelijke fout in een AI-pijplijn een dramatisch effect hebben op het leven van een individu.
Veel ondernemingen focussen op modelnauwkeurigheid of latentie. Wat missen ze als het gaat om gegevensintegriteit en langetermijnoperationeel risico?
Terwijl veel ondernemingen zich richten op het model of de AI-technologie, geloof ik al lang dat gegevens de fundamentele bottleneck zijn voor het implementeren van waardegenererende AI.
Als een model supersnel een nauwkeurig antwoord over een onderwerp kan genereren dat de eindgebruiker niet interesseert, genereert dit zero waarde. Om een uniek aantrekkelijk product te bouwen, moeten ondernemingen ervoor zorgen dat hun modellen, en de producten die ze aandrijven, getraind zijn met hoge kwaliteit, relevante gegevens. Gegevenshygiëneproblemen die voortkomen uit een gebrek aan hoge kwaliteit invoergegevens kunnen pas maanden later aan het licht komen.
Ten tweede hebben we vastgesteld dat ondernemingen over het algemeen geen goed verhaal hebben voor het detecteren van gegevensdrift, -verontreiniging of -lekkage, waardoor de integriteit van het model in gevaar komt. Dit is nauw verbonden met mijn eerste punt, en hoewel het meer een reactie is, maakt het evals en observabiliteit nog belangrijker.
OPAQUE integreert in bestaande cloudstacks. Wat heeft u geleerd over het balanceren van gemakkelijke adoptie met sterke beveiligingsgaranties in ondernemingsimplementaties?
We hebben bijna een decennium besteed, vanaf onze onderzoeksperiode, aan het oplossen van dit probleem. De bewezen beveiliging van AI-systemen, vooral in een ondernemingsomgeving, is een zeer moeilijk probleem. Het vereist systeem-, beveiligings-, cryptografische en AI-expertise. Als gevolg daarvan zijn de meeste systemen die we zijn tegengekomen niet fundamenteel beveiligd – omdat beveiliging zo moeilijk is om te implementeren.
Bij Opaque hebben we een product gebouwd dat het beste van beide werelden is – inherent en verifieerbaar beveiligd vanaf het begin, maar gemakkelijk te implementeren via cloudmarketplaces en voldoende flexibel om te integreren in nieuwe en bestaande AI-toepassingen.
Welke soorten bedreigingen of kwetsbaarheden ontstaan er rond AI-pijplijnen en gegevensdeling die ondernemingsleiders mogelijk nog niet volledig waarderen?
Wat we zien in deze agente-goudrush is een blinde urgentie om AI-agenten te implementeren die interactie hebben met verschillende systemen van record. Hoewel deze agenten waarde kunnen bieden, vormen ze ook enorme risico’s omdat ze zoveel systemen met waardevolle gegevens aanraken. Agenten zijn inherent niet-deterministisch, en we hebben talloze gevallen gezien waarin ze iets doen wat we niet verwachten. In een wereld waar uw gegevens uw enige verdedigingsmuur zijn, zouden ondernemingsleiders altijd moeten vragen of ze AI-agenten die toegang hebben tot al hun gegevens kunnen vertrouwen en erop kunnen vertrouwen dat ze hun gegevens niet per ongeluk of opzettelijk zullen misbruiken.
Hoe ziet u de interactie tussen beveiligde gegevensinfrastructuur, modelverantwoordelijkheid en compliance evolueren in de komende jaren, nu AI-regelgeving wereldwijd vorm begint te krijgen?
Verifieerbaar beveiligde gegevensinfrastructuur maakt model- en agentverantwoordelijkheid mogelijk. In het bijzonder kan zonder verifieerbare bewijzen van een agents of models besluitvorming of toolgebruik niet zeker zijn van iets, dus kunnen we geen verantwoordelijkheid toewijzen. Naarmate AI meer en meer wordt geïntegreerd in ons dagelijks leven, willen we meer verklaring en observabiliteit in AI. Echter, wanneer AI kan opereren op machinesnelheid, en wij niet, kan een kwaadwillige AI ons gemakkelijk voor de gek houden door valse geschiedenissen te construeren. We hebben verifieerbaarheid nodig om AI verantwoordelijk te houden.
Volgens mij is regelgevingsconformiteit zeer reactief. De ontwikkeling en goedkeuring van regelgeving verloopt veel langzamer dan technologische innovatie. Dit zal steeds meer het geval zijn naarmate AI ons helpt om het tempo van innovatie te verhogen. Hoewel conformiteit uiteindelijk achterblijvers zal aanzetten om beveiligde gegevensinfrastructuur te adopteren, zullen de vroege aanvaarders en de vroege meerderheid erkennen dat het cruciaal is voor AI-veiligheid en zullen ze het veel eerder adopteren dan dat conformiteit het verplicht maakt. Zij begrijpen dat agentverantwoordelijkheid, mogelijk gemaakt door beveiligde gegevensinfrastructuur, cruciaal is voor de adoptie van hun eigen AI-gebaseerde producten.
Bedankt voor het geweldige interview, lezers die meer willen leren, kunnen OPAQUE bezoeken.












