Интервью

Андреа Ваттани, соучредитель и главный научный сотрудник Spiketrap — серия интервью

опубликованный 13 декабря 2021

Антуан Тардиф, Генеральный директор и основатель Unite.AI

Андреа Ваттани, соучредитель и главный научный сотрудник Ловушка с шипами, компания по контекстуализации, обеспечивающая аналитику аудитории и медиа-эффективность для создателей, платформ и брендов. Запатентованный искусственный интеллект Clair извлекает сигнал из шума неструктурированных наборов данных, обеспечивая непревзойденную четкость и контекст, особенно в высокоскоростных онлайн-средах.

Что изначально привлекло вас в информатике и искусственном интеллекте?

Сложилось стечение обстоятельств: я пришел в Римский университет, чтобы сдать вступительный экзамен по статистике, и оказалось, что я опоздал на день! Вместо этого мне посоветовали поступить на компьютерные науки, а через год вернуться на факультет статистики. Я пошел на вступительный экзамен по информатике (что было в тот день!) и сдал его… так и не вернулся к статистике! Мой интерес к ИИ действительно начался с осознания того, как компьютеры могут помочь вам автоматизировать вещи, а ИИ — это совершенный механизм автоматизации. Кроме того, меня всегда интересовал естественный язык и то, как люди его используют: в средней школе я сосредоточился на классических занятиях, изучая древнегреческий и латынь, что, вероятно, похоже на то, что чувствует машина, когда ее кормят потоком слов.

Ранее вы работали старшим ведущим инженером-программистом в Amazon Goodreads. Над какими проектами вы работали и какие ключевые выводы вы сделали из этого опыта?

Находясь в Goodreads, я работал над несколькими проектами машинного обучения, включая обнаружение спама и масштабирование механизма рекомендаций книг. Мой вывод из пребывания там заключался в том, что я понял важность определения показателей машинного обучения, которые соответствуют целям бизнеса и клиентов. Например, рекомендательные системы существуют уже очень давно. Помните конкурс «Netflix Prize» в 2009 году, целью которого было определение лучших рекомендаций по фильмам? Некоторые выводы из лучших решений показали, что вероятность того, что вы посмотрите фильм, не сильно зависит от того, понравится он вам или нет, а в основном от того, соответствует ли он вашим интересам. Это может сработать для фильмов, поскольку это короткое 90-минутное обязательство, но для книг это не так. Ключевым моментом является интеграция правильной цели в ваши показатели.

Еще один урок, который я применил в Spiketrap, заключается в создании команд ИИ, ориентированных на доставку и интегрированных с дорожной картой продукта, а не изолированной команды, сосредоточенной только на исследованиях и исследованиях. Это приводит к лучшему определению целей, сроков и пониманию рентабельности инвестиций. Это также, естественно, способствует тому, чтобы команда сосредоточилась на скорости и практичности модели, а не просто на точности. Возвращаясь к примеру с соревнованиями Netflix, модели команд-победителей никогда не интегрировались из-за недостаточной практичности, несмотря на их повышенную точность.

Ваше исследование было опубликовано во многих журналах, какая статья, по вашему мнению, была самой важной на данный момент?

Во время моей докторской диссертации. Мне посчастливилось сотрудничать с несколькими исследователями из разных областей, включая машинное обучение, «большие данные», анализ социальных данных и теорию игр. Статья, которая мне нравится за ее простоту и применимость:Масштабируемые K-средние++”: K-means++ — это повсеместно используемый неконтролируемый метод кластеризации для разделения набора данных на K связных групп. Он делает это, добавляя по одной группе за раз, поэтому, когда у вас есть тонны данных и групп, он становится слишком медленным. В этой статье мы покажем вам, как можно добиться такой же, если не большей точности, распараллелив метод. Наша методология чрезвычайно проста и реализована в нескольких библиотеках машинного обучения.

Не могли бы вы рассказать историю происхождения Spiketrap?

После работы в Goodreads я и соучредители Spiketrap, Киран и Вирджилио поняли, что в отрасли существует пробел в доступе к передовой информации о брендах с нишевых социальных платформ. Применяя технологии искусственного интеллекта, мы могли бы эффективно решить эту проблему.

В условиях современной экономики компаниям крайне важно прислушиваться к своим клиентам и соответствующим отраслям в целом. Однако многое из того, что клиенты говорят о брендах, остается неуслышанным. Миллионы людей каждый день открыто выражают свое мнение на таких платформах, как Twitter, Reddit, Twitch и им подобных. Доказано, что это чрезвычайно ценный ресурс для любого исследователя рынка, при условии, что содержание может быть контекстуализировано в любом масштабе. Проблема в том, что индустрия аналитики не поспевает за развивающимся цифровым поведением и языком.

Инструменты прослушивания по-прежнему зависят от ключевых слов и логического поиска, пропуская большую часть разговора, который можно и нужно отнести к определенному бренду. Между тем фирмы, занимающиеся исследованиями рынка, оказались в ловушке все более сложного балансирования, пытаясь получить качественные данные из количественных и ограниченных по стоимости методологий.

Короче говоря, людям не хватало инструментов, необходимых для понимания своей аудитории в масштабе. Цифры продаж и количество просмотров отвечают на вопрос «что» в поведении аудитории, но не на «почему». Без контекста выяснить, что является корреляцией, а что причинно-следственной связью, — это игра в догадки. Осознав эту пустоту, мы углубились в то, как могло бы выглядеть решение для понимания контекста, и так родился Spiketrap.

Какие технологии машинного обучения используются в Spiketrap?

Мы используем множество технологий, от вашего обычного Scikit-learn до библиотек глубокого обучения, таких как Pytorch. Помимо библиотек, методологии, модели и наборы данных, которые мы используем, в основном проприетарны. Мы узнали, что готовые методы и модели далеко не уводят вас, но чтобы по-настоящему решить проблему, вам действительно нужно приложить собственные усилия, чтобы начать с целей и перейти к архитектуре модели и наборам данных. Чтобы дать вам пример, моделирование тем — это задача извлечения тем из набора фрагментов текста. Наши «Spiketrap Convos» предоставляют нашим клиентам важную информацию об их аудитории и используют тематическое моделирование в качестве одного из сигналов. Ваш типичный метод для тематического моделирования — это LDA (скрытое распределение Дирихле), но, к сожалению, он слишком непоследовательный, непредсказуемый и просто недостаточно мощный. С другой стороны, вы можете попробовать современную предварительно обученную модель, такую как Bert-Topics, которая, хотя и мощная и всеобъемлющая, также очень жесткая и медленная. НЛП и языковой ИИ за последнее десятилетие сделали огромный шаг вперед, но использование существующих моделей для превращения их в продукты все еще далеко от оптимального и рискованного решения.

Не могли бы вы подробнее рассказать о том, как Spiketrap обеспечивает мгновенное понимание аудитории создателями, платформами и брендами?

Рекламодатели и агентства используют наши списки лидеров мнений и инструменты определения сходства с брендом, чтобы определить создателей, чьи сообщества безопасны для бренда по ряду категорий, включая оценки за токсичный, непристойный и сексуальный контент, а также общую безопасность бренда сообщества.

Создатели могут использовать этот инструмент, чтобы погрузиться в отдельные потоки и увидеть, какие разговоры были наиболее или наименее безопасными, что способствовало положительному взаимодействию со спонсорами и где они могли бы улучшить свои усилия по модерации.

Недавняя статья под названием «FeelsGoodMan: определение семантики неологизмов Twitch' было опубликовано Spiketrap. Не могли бы вы вкратце описать, что это за бумага?

То, как люди общаются и самовыражаются в сети, становится все более сложным и трудным для понимания. Сначала появились смайлики :-). Затем появились смайлики. Затем мемы… а теперь и «эмоции», новая форма общения на основе значков, которая стала очень популярной на потоковой платформе Twitch. Чем-то напоминая смайлики из-за их смешанного использования с обычным текстом, они представляют собой аналогичные проблемы с мемами в том смысле, что они создаются пользователями, а их загадочное значение не имеет очевидной связи с реальным изображенным изображением. На сегодняшний день существует более 8 миллионов различных эмоций, из которых еженедельно используется более 400 тысяч. Тем не менее, люди эффективно общаются, используя их для выражения любых чувств, таких как радость, скука, волнение или сарказм. Наша недавняя статья — это кулинарная книга ИИ, позволяющая вывести семантическое значение эмоций. Наш подход не требует обслуживания и обновления набора данных, созданного вручную, и способен самостоятельно адаптироваться к постоянному вводу новых эмоций, а также к изменению значения популярных эмоций. Это особенно важно, когда эмоция становится политически или расовой. Динамическое использование языка и сдвиги в значении создают огромные проблемы для систем модерации или систем анализа настроений, поэтому мы гордимся тем, что в Spiketrap правильно решили эту проблему.

Есть ли что-нибудь еще, что вы хотели бы рассказать о Spiketrap?

В преддверии нового года Spiketrap работает над разработкой и совершенствованием нового инструмента, который обеспечит более глубокое понимание отношения наших клиентов к бренду. Новый инструмент Spiketrap Affinity Tool предоставляет интерактивный и интуитивно понятный способ определения и количественной оценки сходства аудитории с создателями, брендами, играми и многим другим. Для любого заданного запроса инструмент генерирует оценки индекса сходства, которые показывают, насколько хорошо данный объект положительно коррелирует с другим. Многочисленные контекстуальные сигналы составляют оценку, включая частоту и тональность связанных упоминаний. Стек технологий Spiketrap обладает уникальными возможностями для определения родства между играми, брендами и создателями. Clair, их запатентованный ИИ НЛП, обрабатывает миллионы общедоступных сообщений, созданных пользователями, каждый день, приписывая иначе неоднозначный контент объектам в обширном графе знаний Spiketrap, определяя темы для разговора, определяя настроения и отслеживая безопасность. Добавление нового инструмента Affinity позволяет разработчикам, создателям, брендам и многим другим лучше понять свою аудиторию и влияние бренда.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Ловушка с шипами.

Похожие темы:Интервью ловушка с шипами

Антуан Тардиф, генеральный директор и основатель Unite.AI

Антуан — дальновидный лидер и партнер-основатель Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Серийный предприниматель, он считает, что ИИ будет таким же разрушительным для общества, как электричество, и его часто ловят на том, что он восторженно отзывается о потенциале разрушительных технологий и AGI.

футурист, он посвятил себя изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Ценные бумаги.io, платформа, ориентированная на инвестиции в передовые технологии, которые меняют будущее и преобразуют целые секторы.

Unite.ИИ

Андреа Ваттани, соучредитель и главный научный сотрудник Spiketrap — серия интервью

Вам может понравиться