Intervjuer
Andrea Vattani, medgrundare och chefsforskare på Spiketrap – Intervjuserie

Andrea Vattani är medgrundare och chefsforskare på Spiketrap, ett företag som specialiserar sig på kontextualisering och som driver audience-intelligens och medieprestation för skapare, plattformar och varumärken. Det proprietära Clair AI-extraherar signalen från bruset i ostrukturerade datamängder, vilket ger en oöverträffad tydlighet och kontext, särskilt i höghastighetsmiljöer online.
Vad var det som initialt drog dig till datavetenskap och AI?
Det var en kombination av lyckosamma omständigheter, jag kom till Rom universitet för att ta statistik majors antagningsprovet, och det visade sig att jag var en dag för sent! Jag råddes att ansöka om datavetenskap istället och flytta tillbaka till statistikavdelningen ett år senare. Jag gick till datavetenskap antagningsprovet (som var den dagen!) och klarade det… aldrig flyttade tillbaka till statistik! Min intresse för AI började verkligen med att jag insåg hur datorer kan hjälpa dig automatisera saker, och AI är den ultimata automatiseringsmaskinen. Dessutom har naturligt språk och hur människor använder det alltid varit ett intresse för mig: jag fokuserade på klassiska studier i gymnasiet, studerade forntida grekiska och latin, vilket är förmodligen liknande hur en maskin känner när den matas med en ström av ord.
Tidigare arbetade du som Senior Lead Software Engineer på Amazon Goodreads, vad var några av de projekt du arbetade på och vad var några nyckeltar av den erfarenheten?
Medan jag var på Goodreads arbetade jag på flera maskinlärningsprojekt som inkluderade spamdetektering och skalning av bokrekommendationssystemet. Min erfarenhet från min tid där var att lära mig vikten av att definiera ML-mått som matchar affärsmål och kundmål. För att ge ett exempel, rekommendationssystem har funnits i mycket lång tid. Kommer du ihåg “Netflix Prize”-tävlingen 2009 för att hitta bättre filmrekommendationer? Några insikter från de bästa lösningarna föreslog att chansen att du tittar på en film inte är så mycket driven av om du kommer att gilla den eller inte, utan mest om den är liknande dina intressen. Det kan fungera för filmer, eftersom det är en kort 90 minuters åtagande, men för böcker är det inte fallet. Att integrera rätt mål i dina mått är nyckeln.
En annan lärdom som jag har tillämpat på Spiketrap är att bygga AI-lag som är leveransorienterade och integrerade med produktvägen snarare än ett isolerat lag som bara fokuserar på utforskningar och forskning. Det leder till en bättre definition av mål, tidsramar och förståelse av ROI. Det favoriserar också naturligt laget att fokusera på hastighet och praktiskhet i en modell snarare än att bara titta på precision. Återigen, med Netflix-tävlingen som exempel, var modellerna från de vinnande lagen aldrig integrerade på grund av att de inte var praktiska nog, trots deras förbättrade precision.
Din forskning har publicerats i många tidskrifter, vad tycker du har varit den viktigaste artikeln hittills?
Under min doktorsexamen hade jag turen att samarbeta med flera forskare från olika områden, inklusive maskinlärning, “big data”, social dataanalys och speleteori. En artikel som jag gillar för sin enkelhet och tillämpbarhet är “Scalable K-Means++”: K-means++ är en allmänt använd oövervakad klustermetod för att dela upp en datamängd i K sammanhängande grupper. Den gör detta genom att lägga till en grupp i taget, så när du har massor av data och grupper, blir det alldeles för långsamt. I den artikeln visar vi hur du kan uppnå samma, om inte bättre, precision genom att parallellisera metoden. Vår metodik är extremt enkel och har implementerats i flera maskinlärningsbibliotek.
Kan du dela berättelsen om hur Spiketrap kom till?
Efter att ha arbetat på Goodreads förstod mina medgrundare av Spiketrap, Kieran och Virgilio, och jag att det fanns ett gap i branschen för att få tillgång till avancerade varumärkesinsikter från nischade sociala plattformar. Genom att tillämpa AI-teknologier kunde vi hantera problemet på ett effektivt sätt.
I dagens ekonomi är det avgörande för företag att lyssna på sina kunder och deras respektive branscher som helhet. Men mycket av vad kunderna har att säga om varumärken går ohört. Miljontals människor uttrycker sina åsikter öppet varje dag, över plattformar som Twitter, Reddit, Twitch och liknande. Det är en extremt värdefull resurs för alla marknadsundersökare, förutsatt att innehållet kan kontextualiseras i stor skala. Problemet är att insiktsindustrin inte har hållit jämna steg med den digitala utvecklingen och språket.
Lyssningsverktyg är fortfarande beroende av nyckelord och booleska sökningar, och missar mycket av samtalet som kunde och borde tillskrivas ett visst varumärke. Samtidigt har marknadsundersökningsföretag hamnat i en allt svårare balansgång, där de försöker fastställa kvalitativa insikter från kvantitativa och kostnadsbegränsade metoder.
För att sammanfatta, människor har saknat de verktyg de behöver för att förstå sin publik i stor skala. Försäljningssiffror och vyantal svarar på “vad” i publikbeteende, men inte “varför”. Utan kontext är det en gissningsspel att avgöra vad som är korrelation kontra orsak. När vi erkände detta tomrum, grävde vi djupare i vad en lösning för kontextuell förståelse skulle se ut, och Spiketrap föddes.
Vilka är några av de maskinlärningsteknologierna som används på Spiketrap?
Vi använder en mängd olika teknologier, från vanliga Scikit-learn till djupinlärningsbibliotek som Pytorch. Bortsett från bibliotek, metoderna, modellerna och datamängderna vi använder är mestadels proprietära. Vi har lärt oss att färdiga metoder och modeller bara tar dig så långt, men för att verkligen knäcka ett problem måste du verkligen lägga ner ditt eget arbete, från mål till modellarkitektur och datamängder. För att ge ett exempel, ämnesmodellering är uppgiften att extrahera teman från en samling texter. Vår “Spiketrap Convos” ger våra kunder avgörande insikter om sin publik, och använder ämnesmodellering som en av signalerna. Din typiska metod för ämnesmodellering är LDA (Latent Dirichlet Allocation), men tyvärr är det för inkonsekvent och oförutsägbart och inte tillräckligt kraftfullt. På den andra sidan av spektrumet kan du försöka med en modern förtränad modell som Bert-Topics, som är kraftfull och omfattande, men också riktigt stel och långsam. NLP och språk-AI har gjort stora framsteg under det senaste decenniet, men att ta befintliga modeller och förvandla dem till produkter är fortfarande långt ifrån optimalt och en riskabel insats.
Kan du förklara hur Spiketrap ger omedelbar publikförståelse för skapare, plattformar och varumärken?
Annonsörer och byråer använder våra influencer-ledare och varumärkesaffinitetsverktyg för att identifiera skapare vars samhällen är varumärkessäkra över ett antal kategorier, inklusive betyg för giftigt, profant och sexuellt innehåll — samt allmän samhällsvarumärkessäkerhet.
Skapare kan använda verktyget för att dyka in i enskilda strömmar och se vilka samtal som var de mest eller minst säkra, vilka drev positiv engagemang för deras sponsorer, och var de kan förbättra sina moderatorinsatser.
En nyligen publicerad artikel med titeln ‘FeelsGoodMan: Inferring Semantics of Twitch Neologisms‘ publicerades av Spiketrap. Kan du kort beskriva vad den artikeln handlar om?
Sättet människor kommunicerar och uttrycker sig online har blivit alltmer komplext och utmanande att tolka. Först kom emotikonerna :-). Sedan kom emojierna . Sedan kom memerna… och nu “emotes”, en ny form av ikonbaserad kommunikation som har blivit extremt populär på Twitch-strömningsplattformen. Något som påminner om emojierna i deras blandade användning med vanlig text, presenterar de liknande utmaningar som memer i det att de är användargenererade och deras kryptiska betydelse har ingen uppenbar koppling till den faktiska bilden som avbildas. Det finns över 8 miljoner distinkta emotes hittills, med över 400 000 som används varje vecka. Trots allt kan människor kommunicera effektivt med hjälp av dem för att uttrycka alla slags känslor, som glädje, tristess, upphetsning eller sarkasm. Vår nyligen publicerade artikel är en AI-kokbok för att inferera den semantiska betydelsen av emotes. Vår metod kräver inte att man underhåller och uppdaterar en manuellt kuraterad datamängd, och den kan själv anpassa sig till den kontinuerliga introduktionen av nya emotes, men också till utvecklingen av betydelsen av populära emotes. Detta är särskilt viktigt när en emote får en politisk eller rasistisk laddning, vilket vi har sett hända med extremt populära emotes, som “TriHard”, “PogChamp” och “FeelsGoodMan”. Dynamiskt språk och skiftande betydelser utgör enorma problem för modereringssystem eller sentimentanalysramverk, så vi är stolta över att tackla det här problemet på rätt sätt på Spiketrap.
Finns det något annat du vill dela om Spiketrap?
När vi ser framåt mot det nya året arbetar Spiketrap på att utveckla och förbättra ett nytt verktyg som kommer att ge en djupare förståelse av varumärkesattityd för våra kunder. Spiketraps nya Affinity Tool ger ett interaktivt och intuitivt sätt att identifiera och kvantifiera publikaffiniteter över skapare, varumärken, spel och mer. För varje given fråga genererar verktyget affinitetsindexpoäng som indikerar hur väl en given enhet är positivt korrelerad till en annan. Många kontextuella signaler utgör poängen, inklusive frekvensen och sentimentet av relaterade nämnanden. Spiketraps tekniska stack är unikt positionerad för att indexera affiniteter mellan spel, varumärken och skapare. Clair, deras proprietära NLP-AI, bearbetar miljontals offentligt publicerade användargenererade meddelanden varje dag, attribuerar annars tvetydigt innehåll till entiteter i Spiketraps omfattande kunskapsgraf, identifierar ämnen för samtal, bestämmer sentiment och övervakar säkerhet. Tillägget av det nya Affinity Tool-verktyget ger utvecklare, skapare, varumärken och mer möjlighet att ytterligare förstå sin publik och varumärkespåverkan.
Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka Spiketrap.












