Interviews
Andrea Vattani, Co-Founder & Chief Scientist at Spiketrap – Interview Series

Andrea Vattani, ist der Co-Founder & Chief Scientist bei Spiketrap, einem Kontextualisierungsunternehmen, das Audience-Intelligence und Medienleistung für Kreative, Plattformen und Marken ermöglicht. Der eigene Clair-AI extrahiert das Signal aus dem Rauschen unstrukturierter Datensätze und bietet unvergleichliche Klarheit und Kontext, insbesondere in hochgeschwindigkeitsfähigen Online-Umgebungen.
Was hat Sie ursprünglich zur Informatik und KI hingezogen?
Es war eine Kombination aus glücklichen Umständen. Ich erschien an der Universität Rom, um den Statistics-Major-Zulassungstest zu machen, und es stellte sich heraus, dass ich einen Tag zu spät war! Man riet mir, mich stattdessen für Informatik zu bewerben und ein Jahr später in die Statistikabteilung zurückzukehren. Ich ging zum Informatik-Zulassungstest (der an diesem Tag stattfand) und bestand ihn… und kehrte nie in die Statistikabteilung zurück! Mein Interesse an KI begann wirklich damit, zu realisieren, wie Computer dabei helfen können, Dinge zu automatisieren, und KI ist die ultimative Automatisierungsmaschinerie. Auch die natürliche Sprache und ihre Verwendung haben mich immer interessiert: Ich konzentrierte mich in der High School auf klassische Studien und studierte Altgriechisch und Latein, was wahrscheinlich ähnlich ist, wie ein Computer sich fühlt, wenn er einen Wortstrom erhält.
Sie haben zuvor als Senior Lead Software Engineer bei Amazon Goodreads gearbeitet. Was waren einige der Projekte, an denen Sie gearbeitet haben, und was waren einige der wichtigsten Erkenntnisse aus dieser Erfahrung?
Während meiner Zeit bei Goodreads arbeitete ich an mehreren maschinellen Lernprojekten, darunter Spam-Erkennung und Skalierung des Buchempfehlungs-Engines. Meine Erkenntnisse aus meiner Zeit dort waren, dass ich die Wichtigkeit von ML-Metriken erlernte, die mit den Geschäfts- und Kundenzielen übereinstimmen. Um ein Beispiel zu geben, Empfehlungs-Engines gibt es bereits seit langem. Erinnern Sie sich an den “Netflix-Preis”-Wettbewerb im Jahr 2009, um bessere Filmempfehlungen zu finden? Einige Erkenntnisse aus den Top-Lösungen deuteten darauf hin, dass die Wahrscheinlichkeit, dass Sie einen Film ansehen, nicht so sehr davon abhängt, ob Sie ihn mögen oder nicht, sondern eher, ob er Ihren Interessen ähnelt. Das kann für Filme funktionieren, da es sich um ein kurzes 90-minütiges Engagement handelt, aber für Bücher ist das nicht der Fall. Die Integration des richtigen Ziels in Ihre Metriken ist entscheidend.
Eine weitere Erkenntnis, die ich bei Spiketrap angewendet habe, ist, KI-Teams aufzubauen, die auslieferungsorientiert und in den Produkt-Roadmap integriert sind, anstatt ein isoliertes Team, das nur auf Explorationen und Forschung fokussiert ist. Dies führt zu einer besseren Definition von Zielen, Zeitplänen und Verständnis des ROI. Es bevorzugt auch natürlich, dass das Team sich auf Geschwindigkeit und Praktikabilität eines Modells konzentriert, anstatt sich rein auf die Genauigkeit zu konzentrieren. Wenn wir uns das Netflix-Beispiel ansehen, wurden die Modelle der Gewinnerteams nie integriert, weil sie nicht praxisgerecht genug waren, trotz ihrer verbesserten Genauigkeit.
Ihre Forschung wurde in zahlreichen Zeitschriften veröffentlicht. Was ist Ihrer Meinung nach die wichtigste Veröffentlichung bisher?
Während meines Ph.D. hatte ich das Glück, mit mehreren Forschern aus verschiedenen Bereichen zusammenzuarbeiten, darunter maschinelles Lernen, “Big Data”, soziale Datenanalyse und Spieltheorie. Eine Veröffentlichung, die ich für ihre Einfachheit und Anwendbarkeit mag, ist “Scalable K-Means++“: K-Means++ ist eine allgemein verwendete unsupervidierte Clustering-Methode, um einen Datensatz in K kohärente Gruppen aufzuteilen. Es tut dies, indem es eine Gruppe nach der anderen hinzufügt, sodass es, wenn Sie viele Daten und Gruppen haben, viel zu langsam wird. In dieser Veröffentlichung zeigen wir, wie Sie die gleiche, wenn nicht bessere, Genauigkeit erreichen können, indem Sie die Methode parallelisieren. Unsere Methodik ist extrem einfach und wurde in mehreren maschinellen Lernbibliotheken implementiert.
Können Sie die Genesis-Geschichte hinter Spiketrap teilen?
Nach meiner Arbeit bei Goodreads erkannten mein Co-Founder Kieran, Virgilio und ich, dass es in der Branche eine Lücke gab, wenn es um den Zugang zu fortschrittlichen Marken-Einblicken von Nischen-Sozialplattformen ging. Durch die Anwendung von KI-Technologien konnten wir dieses Problem auf effiziente Weise angehen.
In der heutigen Wirtschaft ist es für Unternehmen von entscheidender Bedeutung, auf ihre Kunden und ihre jeweiligen Branchen zu hören. Allerdings bleibt viel von dem, was Kunden über Marken sagen, unhörbar. Millionen von Menschen äußern ihre Meinungen jeden Tag offen auf Plattformen wie Twitter, Reddit, Twitch und ähnlichen. Es handelt sich um eine extrem wertvolle Ressource für jeden Marktforscher, vorausgesetzt, der Inhalt kann im großen Maßstab kontextualisiert werden. Das Problem ist, dass die Insights-Industrie nicht mit den sich entwickelnden digitalen Verhaltensweisen und der Sprache Schritt gehalten hat.
Horchtöls bleiben von Schlüsselwörtern und booleschen Suchen abhängig und verpassen viel von der Konversation, die einem bestimmten Marken zugeordnet werden könnte. Marktforschungsunternehmen sind zwischenzeitlich in einem immer schwieriger werdenden Balanceakt gefangen, um qualitative Einblicke aus quantitativen und kostengesteuerten Methoden zu ermitteln.
Kurz gesagt, fehlten den Menschen die Werkzeuge, um ihre Zielgruppe im großen Maßstab zu verstehen. Verkaufszahlen und Zuschauerzahlen beantworten die Frage “was” des Zielgruppenverhaltens, aber nicht das “warum”. Ohne Kontext ist es ein Ratespiel, Korrelation versus Kausalität zu bestimmen. Als wir diese Lücke erkannten, gruben wir in die Lösung für ein kontextuelles Verständnis und Spiketrap wurde geboren.
Welche maschinellen Lern-Technologien werden bei Spiketrap verwendet?
Wir verwenden eine Vielzahl von Technologien, von Ihrem üblichen Scikit-learn bis hin zu Deep-Learning-Bibliotheken wie Pytorch. Neben Bibliotheken sind die Methoden, Modelle und Datensätze, die wir verwenden, größtenteils proprietär. Wir haben gelernt, dass Standardmethoden und -modelle nur bis zu einem bestimmten Punkt führen, aber um ein Problem wirklich zu knacken, müssen Sie wirklich Ihre eigene Arbeit leisten, beginnend mit Zielen und bis hin zur Modellarchitektur und Datensätzen. Um ein Beispiel zu geben, ist Topic-Modellierung die Aufgabe, Themen aus einer Sammlung von Texten zu extrahieren. Unser “Spiketrap Convos” bietet unseren Kunden wichtige Einblicke in ihre Zielgruppe und verwendet Topic-Modellierung als eines der Signale. Ihre typische Methode für die Topic-Modellierung ist LDA (Latent Dirichlet Allocation), aber leider ist sie zu inkonsistent und unvorhersehbar und einfach nicht leistungsfähig genug. Auf der anderen Seite des Spektrums können Sie versuchen, ein modernes vorgebildetes Modell wie Bert-Topics zu verwenden, das – obwohl leistungsfähig und umfassend – auch sehr starr und langsam ist. NLP und Sprach-KI haben in den letzten zehn Jahren große Fortschritte gemacht, aber die Umwandlung bestehender Modelle in Produkte ist immer noch weit von optimal entfernt und ein riskantes Unterfangen.
Können Sie erläutern, wie Spiketrap ein sofortiges Verständnis der Zielgruppe für Kreative, Plattformen und Marken ermöglicht?
Werber und Agenturen verwenden unsere Influencer-Bestenlisten und Marken-Affinität-Tools, um Kreative zu identifizieren, deren Gemeinschaften in verschiedenen Kategorien, einschließlich Noten für toxische, anstößige und sexuelle Inhalte sowie der allgemeinen Gemeinschafts-Marken-Sicherheit, markensicher sind.
Kreative können das Tool verwenden, um in einzelne Streams einzutauchen und zu sehen, welche Konversationen am sichersten oder unsichersten waren, welche positive Interaktion für ihre Sponsoren antrieben und wo sie ihre Moderationsbemühungen verbessern könnten.
Eine kürzlich veröffentlichte Veröffentlichung mit dem Titel ‘FeelsGoodMan: Inferring Semantics of Twitch Neologisms‘ wurde von Spiketrap veröffentlicht. Können Sie diese Veröffentlichung kurz beschreiben?
Die Art und Weise, wie Menschen online kommunizieren und sich ausdrücken, wird immer komplexer und schwieriger zu entschlüsseln. Zuerst kamen Emoticons :-). Dann kamen Emojis . Dann Memes… und jetzt “Emotes”, eine neue Form der symbolbasierten Kommunikation, die auf der Twitch-Streaming-Plattform sehr beliebt geworden ist. Sie erinnern ein bisschen an Emojis, da sie mit regulärem Text vermischt werden, und stellen ähnliche Herausforderungen wie Memes dar, da sie von Benutzern generiert werden und ihre kryptische Bedeutung keinen offensichtlichen Zusammenhang mit dem tatsächlichen Bild hat. Es gibt über 8 Millionen verschiedene Emotes, von denen über 400.000 wöchentlich verwendet werden. Menschen kommunizieren dennoch effektiv mithilfe von Emotes, um Gefühle wie Freude, Langeweile, Aufregung oder Sarkasmus auszudrücken. Unsere kürzliche Veröffentlichung ist ein KI-Kochbuch, um die semantische Bedeutung von Emotes abzuleiten. Unser Ansatz erfordert nicht die Pflege und Aktualisierung einer manuell kuratierten Datenbank und kann sich selbst an die kontinuierliche Einführung neuer Emotes anpassen, aber auch an die Evolution der Bedeutung beliebter Emotes. Dies ist besonders wichtig, wenn ein Emote politisch oder rassistisch aufgeladen wird, was wir bei extrem beliebten Emotes wie “TriHard”, “PogChamp” und “FeelsGoodMan” gesehen haben. Die dynamische Verwendung von Sprache und Bedeutungsverschiebungen stellen enorme Probleme für Moderationssysteme oder Sentiment-Analyse-Frameworks dar, daher sind wir stolz, dieses Problem auf die richtige Weise bei Spiketrap anzugehen.
Gibt es noch etwas, das Sie über Spiketrap teilen möchten?
Wenn wir in das neue Jahr blicken, arbeitet Spiketrap daran, ein neues Tool zu entwickeln und zu perfektionieren, das unseren Kunden ein tieferes Verständnis von Marken-Sentiment bieten wird. Spiketraps neues Affinität-Tool bietet eine interaktive und intuitive Möglichkeit, Zielgruppen-Affinitäten über Kreative, Marken, Spiele und mehr zu identifizieren und zu quantifizieren. Für jede gegebene Abfrage generiert das Tool Affinitäts-Index-Scores, die angeben, wie gut eine gegebene Entität positiv mit einer anderen korreliert. Zahlreiche kontextuelle Signale machen den Score aus, darunter die Häufigkeit und der Sentiment von verwandten Erwähnungen. Spiketraps Technologie-Stack ist einzigartig positioniert, um Affinitäten zwischen Spielen, Marken und Kreativen zu indizieren. Clair, ihre eigene NLP-KI, verarbeitet Millionen von öffentlich veröffentlichten Benutzer-Nachrichten jeden Tag, ordnet sonst mehrdeutigen Inhalt Entitäten in Spiketraps umfassendem Wissensgraphen zu, identifiziert Themen der Konversation, bestimmt den Sentiment und überwacht die Sicherheit. Die Hinzufügung des neuen Affinität-Tools ermöglicht es Entwicklern, Kreativen, Marken und mehr, ihre Zielgruppe und Marken-Impact besser zu verstehen.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Spiketrap besuchen.












