reglering

Bör rekommendationssystem undantas från efterspårningsåldern?

Uppdaterad on Juli 9, 2021

Eftersom datainsamling från första part blir den nya ledstjärnan för marknadsförare och datamäklare, riskerar den ökade uppmärksamheten på "slutna" datainsamlingssystem att dra en av maskininlärnings mest ivrig forskningssektor ner i kontroverser och större reglering.

Åtgärder vidtagna av FAANG-spelare och FOSS-producenter under de kommande 12-18 månaderna är inställd på att stänga kulturen av spårning över flera domäner som uppslukade användaranalyssystem under de senaste tjugo åren, och som kulminerade i Cambridge Analytica-skandalerna och, därefter, ett oemotståndligt folkligt krav på ökad integritet online.

Oavsett om implementeringen lever upp till idealet eller inte, och oavsett i vilken utsträckning mer generaliserade spårningssystem (som Googles FLOC och Apples SKAdNetwork) kan dämpa konsumenternas vrede och tillfredsställa annonsörer, gäller denna nya våg av oro för användarnas integritet endast för dataextraktion över flera domäner i ett "offentligt" sammanhang, och inte till slutna eller proprietära konsumentmiljöer, och de skräddarsydda rekommendatorsystemen som driver engagemang där.

Rik data i muromgärdade trädgårdar

Plattformar som Netflix, Disney+, HBO Max, Roku och Amazonas ekostruktur (inklusive Prime Video och produktrekommendationer), som använder specialbyggda rekommendationssystem för maskininlärning, är bland de innehållstjänster som nu sprider sig och avskaffas som streamingindustrin balkaniserar.

När datainsamling från tredje part avtar, verkar fördelen som dessa större streaming-aktörer har i form av finkornig tillgång till kundanvändningsdata sannolikt inspirera avund och imitation, och en förnyad tonvikt på ramverk från första part som ett sätt att slå tillbaka hyperpersonlig inriktning från de mer generaliserade nya analyssystemen.

Om detta händer kommer det sannolikt inte att vara lika demokratiskt eller meritokratiskt som tidigare kriterier för inträde, eftersom den största fördelen kommer att tillfalla leverantörer med det mest omfattande nätverket av förstapartsplattformar; med tillräckligt med utvecklingsresurser för att tillhandahålla säkra lokala autentiseringssystem; och som kan hantera, analysera och tjäna pengar på högvolymdata lokalt.

Detta skulle fokusera offentlig granskning på integritetsaspekterna av "stängda" rekommendatorsystem på ett sätt som de till stor del har kunnat undvika fram till nu, eftersom de före denna punkt har varit exceptionella fall och åtnjutit exceptionella privilegier, som verkar i en sammanhang där slutanvändaren uttryckligen har valt aggressiva datainsamlingsmetoder som i allmänhet inte är tillåtna i öppna nätverk.

En bredare återgång till hermetiska förstapartsmiljöer

En ökad tonvikt på förstapartsdata verkar sannolikt ge en återgång till de domänspecifika autentiseringssystem som föregick populariteten för tredjepartsmetoder som tillhandahålls av Google (0Auth 2.0), Facebook och Twitter, såväl som andra populära bolt-on sociala plattformar som Disqus.

För tio år sedan löste den utbredda användningen av dessa tredjepartsautentiseringsplattformar många säkerhetsproblem för domäner med begränsade utvecklingsresurser, men gjorde det också svårare att få samma granularitet av handlingsbara användardata som en dedikerad och lokal förstapartsautentisering och övervakningssystem tillåter. På den tiden spelade det inte så stor roll, eftersom spårning över flera domäner kunde överbrygga det datagapet.

Inloggningen som lösning på en existentiell kris

Nu ligger fördelen i att se till att en användare är inloggad, även om det inte finns några explicita mekanismer för att tjäna pengar på dem. Ett exempel på detta är det växande antalet medier som kräver inloggning för att se innehåll, även där det inte finns någon betalvägg. Till exempel experimenterar The Guardian för närvarande med inloggningskrav för artikelvisningar som kommer från Google-sökningar:

Skärmdump av en "inloggningsvägg" för en Guardian-artikelvy som har kommit från en Google-sökning. Detta kan inte fångas i ögonblicksbilder av webbarkiv, eftersom begränsningen genereras antingen av referensrubriker eller IP-baserade system som avslöjar Google som upphovsmannen till klicket.

Begränsningar av denna typ kan vara svåra att fastställa för en enskild tittare, eftersom de kan variera mellan geografiska platser eller andra omständigheter. Till exempel är ovanstående Guardian-artikel inte begränsad på något sätt när den navigeras till från Guardians webbplats (även om läsaren inte är inloggad), eller när den nås direkt. Att kräva inloggning från en Google-hänvisning är en billig metod för att generera en efterfrågedriven ökning av medlemskapet utan att alienera "förfångade" läsare.

Även om det alltid har funnits datainsamling fördelar i denna typ av förstapartsengagemang (dvs. en "lokal" inloggning) kommer sannolikt nedgången av spårning över flera domäner att höja praxis från "fördelaktig" till en existentiell nödvändighet för att undvika glesare marknadsföringsdataströmmar från FLOC och SKAdNetwork.

Drivkraften mot förstapartsdatainsamling

Bevisen för en första parts data "guldrush" ligger tjockt på marken. Enligt åsikten från en branschinsider på Forbes kommer nedgången av tredjepartscookies att leda till nya möjligheter för företag att kurera och sälja andrapartsdata, där de har tillräckligt med förstapartsinfrastruktur för att effektivt bli datamäklare i sin egen rätt.

Analyser på andra håll förutspår också att återförsäljare (som investerar mycket i rekommendationssystem för maskininlärning) kommer att bli de nya "mediamogulerna".

I ett blogginlägg exemplifierar intäktsplattformen Setupad reklambranschens avsikt att inte ansluta sig till federerade, databegränsade system som FLOC, anger den där "beteendeinriktning är svaret på framtida framgång för annonsörer", och att förstapartsfångst är den absoluta förutsättningen för detta.

Beteendemålinriktning är vad som orsakade den nuvarande tektoniska förändringen i konsumenternas integritet i första hand; och det är vad marknadsförings- och professionella influencer-industrierna vill vinna tillbaka – genom proxy, genom smyg eller på annat sätt, oavsett om det så småningom kan dra ner rekommendatorsystemets forskningssektor i myren med sig.

Förstapartsklubben

Förutom kravet på kostsam infrastruktur, samt säkerhets- och utvecklingsresurser, indikerar en annan faktor varför endast större företag sannolikt kommer att blomstra i en tid av förstaparts datainsamlingssystem: ett företag kommer att behöva övertygande marknadsfångande för att tvinga konsumenter tillbaka till de lokala inloggningssystem som de var glada över att överge för ett decennium sedan.

Detta är ett riskabelt drag, även för en stor spelare, och minnet av Digg frånfälle 2010 spökar fortfarande SEO- och marknadsföringsvärlden. Ju mer övertygande ett företags marknadsfångst, desto mindre skadligt kommer detta drag att vara, med kraftfullare företag som kan klara av dalar och anpassa sig bättre till förstaparts ekosystem än mindre företag.

Effekter på forskning om rekommendationssystem

När den här situationen utvecklas kan den hota det relativa "frikort" som regulatorisk tillsyn har beviljat systemforskning för maskininlärningsrekommendationer från företag som Google, Amazon och Netflix.

Till viss del EU:s nya förslag för AI-lagstiftningen förutser en större granskning av rekommendatorsystemen i alla fall. Även om det är oklart om utkastets bestämmelse mot "subliminala tekniker bortom en persons medvetande för att materiellt förvränga en persons beteende" kommer att gälla för rekommendatorsystem, det är förväntad att annonsörer och forskare i rekommendationssystem kommer att lobba för exceptionell behandling.

Men det kan vara svårt att argumentera för forskning om ring-fence-rekommendationssystem i händelse av att "walled garden"-metoden blir den nya industristandarden, och de lediga akademiska betesmarkerna som har varit värd för denna sektor av maskininlärningsforskning blir en hög- volymhärd för massivt kommersialiserad beteendeforskningsutveckling från första part.

Stora investeringar i förstapartsdataarbetsflöden kan vara det enda hoppet för att återskapa samma typ av mycket effektiva "psykiska" annonser och politisk propaganda som präglade Cambridge Analytica-eran; men för tillsynsmyndigheterna kan det tyckas som att tredje partskakans död helt enkelt flyttade "olyckliga" metoder bort från gatan och in i stängda lokaler. Om den yttre effekten av dessa aktiviteter väcker allmän ilska igen, kan det visa sig vara en knapp fristad.