インタビュー
Andrea Vattani, Co-Founder & Chief Scientist at Spiketrap – Interview Series

Andrea Vattani, は、Spiketrap の共同創設者兼チーフサイエンティストです。Spiketrapは、クリエイター、プラットフォーム、ブランド向けのオーディエンスインテリジェンスとメディアパフォーマンスを提供するコンテキスト化会社です。独自のClair AIは、構造化されていないデータセットのノイズからシグナルを抽出して、特にオンライン環境での高速なコンテキストと明確性を提供します。
コンピューターサイエンスとAIに最初に惹かれたのは何ですか?
それは幸運な出来事の組み合わせでした。私はローマ大学で統計学の入学試験を受けるために現れましたが、試験は1日遅れていました!私は代わりにコンピューターサイエンスに申し込むことを勧められ、1年後には統計学部に戻ることができました。私はコンピューターサイエンスの入学試験(その日!)を受けて合格しました… 統計学部に戻ることはありませんでした! 私のAIへの興味は、コンピューターが自動化を助けることができ、AIが究極の自動化マシーナリーであることを実感したことから始まりました。自然言語と人々がそれを使用する方法も、私の興味の対象でした。私は高校で古典研究に焦点を当て、古代ギリシャ語とラテン語を勉強しました。これは、機械が文字のストリームで供給されるときに感じることと似ているかもしれません。
以前、アマゾンのGoodreadsでシニアリードソフトウェアエンジニアとして働いていました。そこで何らのプロジェクトに取り組み、どのような重要な収穫がありましたか?
Goodreadsでは、スパム検出や本のレコメンデーションエンジンのスケーリングを含む複数の機械学習プロジェクトに取り組みました。そこでの私の収穫は、ビジネス目標と顧客目標に合致するMLメトリクスを定義することの重要性を学んだことです。例えば、レコメンデーションエンジンはすでに長い間存在しています。2009年の「Netflix Prize」コンペティションを覚えていますか?映画のレコメンデーションを改善するために?一部のトップソリューションは、映画を見る可能性は、それがあなたに合っているかどうかではなく、あなたの興味に似ているかどうかに依存していることを示唆しました。映画の場合、これは90分の短いコミットメントなので機能しますが、書籍の場合、これは当てはまりません。目標をメトリクスに統合することは重要です。
Spiketrapで適用したもう1つの学びは、製品ロードマップと統合されたデリバリー指向のAIチームを構築することです。これにより、目標、タイムライン、ROIの定義が改善されます。また、チームはモデルアーキテクチャやデータセットに焦点を当てるのではなく、速度と実用性に焦点を当てることが自然になります。Netflixコンペティションの例に戻ると、勝者のチームのモデルは、精度が向上していたにもかかわらず、実用性が不足しているため統合されることはありませんでした。
あなたの研究は数多くのジャーナルに掲載されています。どの論文が最も重要であると思いますか?
博士課程の間、私は機械学習、ビッグデータ、ソーシャルデータ分析、ゲーム理論などのさまざまな分野の研究者と共同研究を行いました。私が好きな論文は、その単純さと適用性のため、「Scalable K-Means++」です。K-means++は、データセットをKつのまとまりのあるグループに分割するために使用される一般的な無監督クラスタリング方法です。これは、グループを1つずつ追加することで行われます。大量のデータとグループがある場合、非常に遅くなります。この論文では、同じ、またはそれ以上の精度を達成するために、方法を並列化する方法を示しています。私たちの方法論は非常に単純であり、複数の機械学習ライブラリに実装されています。
Spiketrapの創設ストーリーを共有してください。
Goodreadsでの仕事を終えた後、私とSpiketrapの共同創設者であるKieranとVirgilioは、ニッチなソーシャルプラットフォームからの高度なブランドインサイトへのアクセスにおける業界のギャップを理解しました。AIテクノロジーを適用することで、この問題を効率的に解決することができます。
今日の経済では、企業が顧客と業界全体に耳を傾けることが不可欠です。ただし、顧客がブランドについて話すことは、聞かれていないことが多いです。毎日、数百万の人々が意見を表明しています。Twitter、Reddit、Twitchなどのプラットフォームで。市場調査担当者にとっては、コンテンツが大規模にコンテキスト化できる場合、これは非常に貴重なリソースです。ただし、インサイト業界はデジタル行動と言語の進化に追いついていません。
キーワードとブール演算検索に依存するリスニングツールは、ブランドに関連する会話の多くを逃しています。市場調査会社は、質的洞察を量的、コストに制約された方法論から導き出す、難しいバランスアクトに取り組んでいます。
簡単に言えば、人々はオーディエンスを理解するために必要なツールが不足しています。販売数とビューカウントはオーディエンスの行動の「何」を答えるものですが、「なぜ」を答えるものではありません。コンテキストがなければ、相関と因果関係を判断するのは推測のゲームです。この空白を認識して、私たちはコンテキスト理解の解決策を見つけるために取り組み、Spiketrapが生まれました。
Spiketrapではどのような機械学習テクノロジーが使用されていますか?
私たちは、Scikit-learnのような通常のライブラリからPytorchのようなディープラーニングライブラリまで、多くのテクノロジーを使用しています。ライブラリ以外に、私たちが使用する方法論、モデル、データセットはほとんど独自のものです。私たちは、オフザシェルフの方法やモデルはあなたをある程度までしか連れて行かないことを学びましたが、問題を本当に解決するには、目標からモデルアーキテクチャやデータセットまで、自分で作業する必要があります。例えば、トピックモデリングは、テキストのコレクションからテーマを抽出するタスクです。私たちの「Spiketrap Convos」は、顧客にオーディエンスに関する重要な洞察を提供し、トピックモデリングを1つのシグナルとして使用します。トピックモデリングの一般的な方法はLDA(潜在的ディリクレ割り当て)ですが、残念ながらそれはあまりにも不一致で予測不能で、そして単純に十分な力がありません。一方で、Bert-Topicsのような最新の事前トレーニングモデルを試すことができます。強力で包括的ですが、もろにそして遅いです。NLPと言語AIは過去10年で大きな進歩を遂げてきましたが、既存のモデルを製品に変えることはまだ最適化されていません。
Spiketrapはどのようにしてクリエイター、プラットフォーム、ブランドの瞬間的なオーディエンス理解を提供していますか?
広告主とエージェンシーは、私たちのインフルエンサーleaderboardとブランド親和性ツールを使用して、コミュニティがブランドセーフであるクリエイターを特定します。コミュニティは、有毒、下品、性的コンテンツなどのカテゴリのグレードに基づいて、ブランドセーフです。
クリエイターはツールを使用して、個々のストリームに潜り込み、どの会話が最も、または最も安全でなかったか、どの会話がスポンサーにとってポジティブなエンゲージメントを促進したか、モデレーション努力を改善する必要がある場所を確認できます。
最近、Spiketrapによって『FeelsGoodMan: Inferring Semantics of Twitch Neologisms』という論文が発表されました。簡単に説明してください。
オンラインでのコミュニケーションと感情表現は、複雑で解読困難になりました。最初は顔文字:-)。次に絵文字。次にミーム…そして今、「emotes」と呼ばれるアイコンベースのコミュニケーションの新しい形式がTwitchストリーミングプラットフォームで人気になりました。絵文字と同様に、テキストと混在して使用され、実際の画像とは明らかな関連性がないため、ミームと同様の課題を提起します。現在、800万以上の異なるemotesがあり、週に40万以上が使用されています。まだ、人々はこれらを使用して、喜び、退屈、興奮、または皮肉などのあらゆる感情を効果的に表現しています。私たちの最近の論文は、emotesの意味を推論するためのAIレシピです。私たちのアプローチでは、手作業でキュレーションされたデータセットのメンテナンスと更新の必要性はありません。また、新しいemotesの継続的な導入や人気のemotesの意味の進化にも自己適応できます。これは、特に「TriHard」、「PogChamp」、「FeelsGoodMan」などの人気のemotesが政治的または人種的にロードされたときに発生する場合に特に重要です。言語のダイナミックな使用と意味の変化は、モデレーションシステムまたはセンチメント分析フレームワークにとって巨大な問題を提起します。したがって、私たちはSpiketrapでこの問題に正しく取り組んでいます。
Spiketrapについてさらに共有したいことはありますか?
新しい年に向けて、Spiketrapは、クライアントのブランドセンチメントのより深い理解を提供する新しいツールの開発と完璧化に取り組んでいます。Spiketrapの新しいAffinity Toolは、クリエイター、ブランド、ゲームなど、さまざまなエンティティ間のオーディエンスの親和性を特定して量化するためのインタラクティブで直感的な方法を提供します。各クエリに対して、ツールは、関連する言及の頻度やセンチメントに基づいて、エンティティ間の関連性を示す親和性指数スコアを生成します。Spiketrapのテクノロジースタックは、ゲーム、ブランド、クリエイター間の親和性をインデックス化するために独自に位置しています。独自のNLP AIであるClairは、毎日数百万の公開されたユーザー生成メッセージを処理し、Spiketrapの包括的な知識グラフ内のエンティティに曖昧なコンテンツを属性化し、話し手のトピックを特定し、センチメントを監視し、安全性を監視しています。新しいAffinity Toolの追加により、開発者、クリエイター、ブランドなどがさらにオーディエンスとブランドの影響を理解できるようになります。
素晴らしいインタビュー、詳しく知りたい読者はSpiketrapを訪問してください。












