Connect with us

Andrea Vattani, Współzałożyciel i Chief Scientist w Spiketrap – Seria wywiadów

Wywiady

Andrea Vattani, Współzałożyciel i Chief Scientist w Spiketrap – Seria wywiadów

mm

Andrea Vattani, jest Współzałożycielem i Chief Scientistem w Spiketrap, firmie zajmującej się kontekstualizacją, która zapewnia inteligencję audytorium i wydajność mediów dla twórców, platform i marek. Własny silnik AI Clair wyodrębnia sygnał z hałasu nieustrukturyzowanych zbiorów danych, zapewniając niezrównaną klarowność i kontekst, szczególnie w środowiskach online o wysokiej prędkości.

Co początkowo przyciągnęło Cię do informatyki i sztucznej inteligencji?

To było połączenie szczęśliwych okoliczności, pojawiłem się na Uniwersytecie Rzymskim, aby wziąć udział w teście wstępnym na kierunek statystyka, i okazało się, że spóźniłem się o dzień! Zostałem poinformowany, aby zamiast tego aplikować na kierunek informatyka i przenieść się z powrotem na statystykę rok później. Poszedłem na test wstępny z informatyki (który odbywał się tego dnia!) i go zdałem… nigdy nie wróciłem na statystykę! Mój zainteresowanie sztuczną inteligencją naprawdę zaczęło się od zrozumienia, jak komputery mogą pomóc w automatyzacji rzeczy, a sztuczna inteligencja jest ostateczną maszyną do automatyzacji. Ponadto, język naturalny i to, jak ludzie go używają, zawsze mnie interesowało: w liceum skupiłem się na klasycznych studiach, studiując grekę i łacinę, co jest prawdopodobnie podobne do tego, jak maszyna czuje się, gdy jest karmiona strumieniem słów.

Wcześniej pracowałeś jako Senior Lead Software Engineer w Amazon Goodreads, nad jakimi projektami pracowałeś i jakie były najważniejsze wnioski z tego doświadczenia?

Podczas pracy w Goodreads pracowałem nad wieloma projektami związanymi z uczeniem maszynowym, w tym wykrywaniem spamu i skalowaniem silnika rekomendacji książek. Moje wnioski z mojego czasu tam to nauczenie się znaczenia definiowania metryk ML, które odpowiadają celom biznesowym i klientom. Aby dać przykład, silniki rekomendacji istnieją już od dawna. Pamiętaj konkurs „Netflix Prize” z 2009 roku, aby stworzyć lepsze rekomendacje filmów? Niektóre spostrzeżenia z najlepszych rozwiązań sugerowały, że szansa na obejrzenie filmu nie jest tak bardzo uzależniona od tego, czy się spodoba, czy nie, ale raczej od tego, czy jest podobny do Twoich zainteresowań. To może działać dla filmów, ponieważ jest to krótkie zobowiązanie trwające 90 minut, ale dla książek nie jest to przypadkiem. Włączenie odpowiedniego celu do metryk jest kluczem.

Inną nauką, którą zastosowałem w Spiketrap, jest budowanie zespołów AI, które są zorientowane na dostarczanie i zintegrowane z mapą produktu, a nie oddzielnym zespołem skupionym tylko na eksploracjach i badaniach. To prowadzi do lepszego zdefiniowania celów, terminów i zrozumienia ROI. To również naturalnie faworyzuje zespół do skupienia się na szybkości i praktyczności modelu, a nie tylko na czystej dokładności. Wracając do przykładu z konkursu Netflix, modele zwycięskich zespołów nigdy nie zostały zintegrowane, ponieważ nie były wystarczająco praktyczne, pomimo ich poprawionej dokładności.

Twoje badania zostały opublikowane w licznych czasopismach, co Twoim zdaniem jest najważniejszym artykułem dotąd?

Podczas mojego doktoratu miałem szczęście współpracować z wieloma badaczami z różnych dziedzin, w tym z uczeniem maszynowym, „wielkimi danymi”, analizą danych społecznych i teorią gier. Artykuł, który lubię za jego prostotę i przydatność, to „Scalable K-Means++”: K-means++ jest powszechnie używaną nienadzorowaną metodą klasterowania do podziału zbioru danych na K spójnych grup. Robi to, dodając jedną grupę na raz, więc gdy masz ogromne ilości danych i grup, staje się to zbyt wolne. W tym artykule pokazujemy, jak można osiągnąć to samo, jeśli nie lepsze, wyniki, paralelizując tę metodę. Nasza metodyka jest niezwykle prosta i została zaimplementowana w wielu bibliotekach uczenia maszynowego.

Czy mógłbyś podzielić się historią powstania Spiketrap?

Po pracy w Goodreads, ja i współzałożyciele Spiketrap, Kieran i Virgilio, zrozumieliśmy, że istnieje luka w branży w zakresie dostępu do zaawansowanych informacji o markach z niszowych platform społecznościowych. Poprzez zastosowanie technologii AI, moglibyśmy rozwiązać ten problem w sposób wydajny.

W dzisiejszej gospodarce jest niezwykle ważne, aby firmy słuchały swoich klientów i branży jako całości. Jednak wiele tego, co klienci mają do powiedzenia o markach, pozostaje niesłyszane. Miliony ludzi wyrażają swoje opinie otwarcie każdego dnia, na platformach takich jak Twitter, Reddit, Twitch i tym podobne. To okazało się niezwykle cennym zasobem dla każdego analityka rynku, pod warunkiem, że treść może być kontekstualizowana na dużą skalę. Problem polega na tym, że branża analityczna nie nadąża za ewoluującymi zachowaniami cyfrowymi i językiem.

Narzędzia do słuchania pozostają uzależnione od słów kluczowych i wyszukiwań boolean, pomijając wiele rozmów, które mogłyby i powinny być przypisane do określonej marki. Tymczasem firmy badawcze stają się coraz bardziej złapane w trudną równowagę, starając się ustalić jakościowe spostrzeżenia z ilościowych i ograniczonych metodologicznie badań.

Krótko mówiąc, ludzie nie mieli narzędzi, których potrzebowali, aby zrozumieć swoje audytorium na dużą skalę. Dane sprzedaży i liczby widzów odpowiadają na „co” zachowań audytorium, ale nie na „dlaczego”. Bez kontekstu, określenie, co jest korelacją a co przyczyną, jest grą w zgadywanie. Rozpoznając tę pustkę, zagłębiliśmy się w to, jak mógłby wyglądać rozwiązanie dla zrozumienia kontekstu, i tak powstał Spiketrap.

Jakie technologie uczenia maszynowego są stosowane w Spiketrap?

Używamy wielu technologii, od standardowych bibliotek Scikit-learn do bibliotek głębokiego uczenia się, takich jak Pytorch. Poza bibliotekami, metodyki, modele i zestawy danych, które używamy, są w większości własne. Nauczyliśmy się, że metody i modele „off-the-shelf” zabierają Cię tylko do pewnego punktu, ale aby naprawdę rozwiązać problem, musisz włożyć własną pracę, zaczynając od celów i dochodząc do architektury modelu i zestawów danych. Aby dać przykład, modelowanie tematów to zadanie wyodrębnienia tematów z kolekcji tekstów. Nasz „Spiketrap Convos” dostarcza naszym klientom niezwykle ważnych spostrzeżeń na temat ich audytorium i używa modelowania tematów jako jednego z sygnałów. Twoja typowa metoda modelowania tematów to LDA (Latent Dirichlet Allocation), ale niestety jest to zbyt niekonsekwentne i nieprzewidywalne i po prostu nie wystarczająco potężne. Z drugiej strony, możesz spróbować nowoczesnego wstępnie wytrenowanego modelu, takiego jak Bert-Topics, który – chociaż potężny i ogólny – jest również bardzo sztywny i wolny. NLP i język AI zrobili ogromne postępy w ciągu ostatniej dekady, ale przenoszenie istniejących modeli do tworzenia produktów jest nadal dalekie od optymalnego i ryzykowne.

Czy mógłbyś wyjaśnić, jak Spiketrap zapewnia natychmiastowe zrozumienie audytorium dla twórców, platform i marek?

Reklamodawcy i agencje używają naszych list rankingowych influencerów i narzędzi do określania affinity, aby zidentyfikować twórców, których społeczności są bezpieczne dla marek w różnych kategoriach, w tym ocen dla treści toksycznych, nieprzyzwoitych i seksualnych — a także ogólnego bezpieczeństwa społeczności.

Twórcy mogą użyć narzędzia, aby zagłębić się w poszczególne strumienie i zobaczyć, które rozmowy były najbardziej lub najmniej bezpieczne, które napędzały pozytywne zaangażowanie ich sponsorów i gdzie mogliby poprawić swoje wysiłki w zakresie moderacji.

Opublikowano niedawno artykuł zatytułowany ‘FeelsGoodMan: Inferring Semantics of Twitch Neologisms’, opublikowany przez Spiketrap. Czy mógłbyś krótko opisać, czym jest ten artykuł?

Sposób, w jaki ludzie komunikują się i wyrażają online, staje się coraz bardziej złożony i trudny do zrozumienia. Najpierw pojawiły się emotikony :-). Potem pojawiły się emotikony 😊. Potem memy… i teraz „emotes”, nowy rodzaj komunikacji opartej na ikonach, który stał się bardzo popularny na platformie Twitch. Trochę przypominający emotikony ze względu na ich mieszane użycie z zwykłym tekstem, przedstawiają podobne wyzwania, jak memy, ponieważ są generowane przez użytkowników i ich tajemnicze znaczenie nie ma oczywistego związku z rzeczywistym obrazem. Jest ponad 8 milionów odrębnych emotes do tej pory, z ponad 400 tysiącami używanych tygodniowo. Ludzie komunikują się skutecznie, używając ich, aby wyrazić każdy rodzaj uczuć, takich jak radość, nudę, ekscytację lub sarkazm. Nasz niedawny artykuł to książka kucharska AI, aby wywnioskować semantyczne znaczenie emotes. Nasze podejście nie wymaga utrzymania i aktualizacji ręcznie opracowanego zestawu danych i jest w stanie samodzielnie dostosować się do ciągłego wprowadzania nowych emotes, a także do ewolucji znaczenia popularnych emotes. To jest szczególnie ważne, gdy emote staje się załadowany politycznie lub rasowo, co widzieliśmy w przypadku bardzo popularnych emotes, takich jak „TriHard”, „PogChamp” i „FeelsGoodMan”. Dynamiczne użycie języka i zmiany znaczenia stanowią ogromne problemy dla systemów moderacji lub ram sentymentu, więc jesteśmy dumni, że podejmujemy ten problem w odpowiedni sposób w Spiketrap.

Czy jest coś jeszcze, co chciałbyś podzielić się na temat Spiketrap?

W miarę jak patrzymy w przyszłość, Spiketrap pracuje nad rozwijaniem i udoskonalaniem nowego narzędzia, które zapewni głębsze zrozumienie sentymentu marki dla naszych klientów. Nowe narzędzie Affinity Spiketrap zapewnia interaktywny i intuicyjny sposób identyfikacji i ilościowego określania affinities audytorium między twórcami, markami, grami i więcej. Dla każdego danego zapytania, narzędzie generuje indeksy affinities, które wskazują, jak dobrze dana jednostka jest pozytywnie skorelowana z inną. Liczne sygnały kontekstowe składają się na wynik, w tym częstotliwość i sentyment powiązanych wzmianek. Unikalna struktura technologiczna Spiketrap jest wyjątkowo dobrze przygotowana do indeksowania affinities między grami, markami i twórcami. Własny silnik NLP AI, Clair, przetwarza miliony publicznie opublikowanych wiadomości użytkowników każdego dnia, przypisując niejasną treść do jednostek w obszernym grafie wiedzy Spiketrap, identyfikując tematy rozmów, określając sentyment i monitorując bezpieczeństwo. Dodanie nowego narzędzia Affinity umożliwia deweloperom, twórcom, markom i więcej, aby jeszcze lepiej zrozumieć swoje audytorium i wpływ marki.

Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Spiketrap.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.