Интервью
Ананд Каннаппан, генеральный директор и сооснователь Patronus AI – Интервью

Ананд Каннаппан является сооснователем и генеральным директором Patronus AI, первой в отрасли автоматизированной платформы для оценки и безопасности ИИ, которая помогает предприятиям обнаруживать ошибки LLM в крупном масштабе. Ранее Ананд возглавлял усилия по объяснимости ML и продвинутой экспериментации в Meta Reality Labs.
Что изначально привлекло вас к информатике?
В детстве я всегда был увлечен технологиями и тем, как их можно использовать для решения реальных проблем. Идея создания чего-то с нуля, используя только компьютер и код, меня увлекала. Когда я глубже погрузился в информатику, я понял, какой огромный потенциал она имеет для инноваций и трансформации различных отраслей. Это стремление к инновациям и желание сделать разницу изначально привлекло меня к информатике.
Можете ли вы рассказать историю создания Patronus AI?
История создания Patronus AI довольно интересна. Когда OpenAI запустил ChatGPT, он стал самым быстрорастущим потребительским продуктом, собрав более 100 миллионов пользователей всего за два месяца. Этот массовый прием подчеркнул потенциал генеративного ИИ, но также показал, что предприятия не спешат развертывать ИИ такой быстрой скорости. Многие компании были обеспокоены потенциальными ошибками и непредсказуемым поведением крупномасштабных языковых моделей (LLM).
Ребекка и я знаем друг друга много лет, изучая информатику вместе в Университете Чикаго. В Meta мы оба столкнулись с проблемами оценки и интерпретации результатов машинного обучения – Ребекка с исследовательской точки зрения, а я с прикладной. Когда был объявлен ChatGPT, мы оба увидели трансформационный потенциал LLM, но также поняли осторожность, которую проявляют предприятия.
Переломный момент наступил, когда инвестиционный банк моего брата, Piper Sandler, решил запретить доступ к OpenAI внутри компании. Это заставило нас понять, что хотя ИИ значительно продвинулся, все еще существует разрыв в принятии предприятиями из-за проблем с надежностью и безопасностью. Мы основали Patronus AI, чтобы устранить этот разрыв и повысить уверенность предприятий в генеративном ИИ, предоставив слой оценки и безопасности для LLM.
Можете ли вы описать основную функциональность платформы Patronus AI для оценки и обеспечения безопасности LLM?
Наша миссия – повысить уверенность предприятий в генеративном ИИ. Мы разработали первую в отрасли автоматизированную платформу для оценки и безопасности, специально для LLM. Наша платформа помогает бизнесу обнаруживать ошибки в выходных данных LLM в крупном масштабе, позволяя им развертывать продукты ИИ безопасно и уверенно.
Наша платформа автоматизирует несколько ключевых процессов:
- Оценка: Мы оцениваем производительность модели в реальных сценариях, сосредотачиваясь на важных критериях, таких как зрелища и безопасность.
- Генерация тестов: Мы автоматически генерируем наборы тестов на сопротивление в крупном масштабе, чтобы тщательно оценить возможности модели.
- Бенчмаркинг: Мы сравниваем разные модели, чтобы помочь клиентам определить лучшее решение для их конкретных случаев использования.
Предприятия предпочитают частые оценки, чтобы адаптироваться к развивающимся моделям, данным и потребностям пользователей. Наша платформа действует как доверенный第三ий оценщик, предоставляя беспристрастную точку зрения, подобную Moody’s в области ИИ. Наши первые партнеры включают ведущие компании ИИ, такие как MongoDB, Databricks, Cohere и Nomic AI, и мы ведем переговоры с несколькими известными компаниями в традиционных отраслях, чтобы протестировать нашу платформу.
Какие виды ошибок или “зрелищ” обнаруживает модель Lynx Patronus AI в выходных данных LLM, и как она решает эти проблемы для бизнеса?
LLM действительно являются мощными инструментами, но их вероятностная природа делает их склонными к “зрелищам”, или ошибкам, при которых модель генерирует неточную или нерелевантную информацию. Эти зрелища проблематичны, особенно в бизнес-средах, где точность имеет решающее значение.
Традиционно компании полагались на ручную проверку, чтобы оценить выходные данные LLM, процесс, который не только耗ет время, но и не масштабируем. Чтобы оптимизировать этот процесс, Patronus AI разработал Lynx, специализированную модель, которая повышает возможности нашей платформы, автоматизируя обнаружение зрелищ. Lynx, интегрированный в нашу платформу, обеспечивает полное тестовое покрытие и гарантии производительности, сосредотачиваясь на выявлении критических ошибок, которые могут существенно повлиять на бизнес-операции, такие как неправильные финансовые расчеты или ошибки в обзоре юридических документов.
С Lynx мы смягчаем ограничения ручной оценки через автоматизированное сопротивление тестирования, изучая широкий спектр потенциальных сценариев сбоя. Это позволяет обнаруживать проблемы, которые могут ускользнуть от человеческих оценщиков, предлагая бизнесу повышенную надежность и уверенность в развертывании LLM в критических приложениях.
FinanceBench описывается как первый в отрасли бенчмарк для оценки производительности LLM на финансовых вопросах. Какие проблемы в финансовом секторе привели к разработке FinanceBench?
FinanceBench был разработан в ответ на уникальные проблемы, с которыми сталкивается финансовый сектор при принятии LLM. Финансовые приложения требуют высокого уровня точности и надежности, поскольку ошибки могут привести к значительным финансовым потерям или проблемам с регулированием. Несмотря на потенциал LLM в обработке больших объемов финансовых данных, наши исследования показали, что передовые модели, такие как GPT-4 и Llama 2, испытывают трудности с финансовыми вопросами, часто не в состоянии извлечь точную информацию.
FinanceBench был создан как комплексный бенчмарк для оценки производительности LLM в финансовых контекстах. Он включает 10 000 пар вопросов и ответов на основе публично доступных финансовых документов, охватывающих такие области, как числовой расчет, извлечение информации, логический расчет и мировые знания. Предоставляя этот бенчмарк, мы стремимся помочь предприятиям лучше понять ограничения текущих моделей и выявить области для улучшения.
Наш первоначальный анализ показал, что многие LLM не соответствуют высоким стандартам, необходимым для финансовых приложений, подчеркивая необходимость дальнейшего усовершенствования и целенаправленной оценки. С FinanceBench мы предоставляем ценный инструмент для предприятий, чтобы оценить и повысить производительность LLM в финансовом секторе.
Ваши исследования подчеркнули, что ведущие модели ИИ, в частности OpenAI’s GPT-4, генерируют защищенный авторским правом контент на значительных скоростях при подаче выдержек из популярных книг. Что, по вашему мнению, являются долгосрочными последствиями этих выводов для разработки ИИ и более широкой технологической отрасли, особенно учитывая продолжающиеся дебаты вокруг ИИ и авторского права?
Проблема ИИ-моделей, генерирующих защищенный авторским правом контент, является сложной и насущной проблемой в отрасли ИИ. Наши исследования показали, что модели, такие как GPT-4, при подаче выдержек из популярных книг, часто воспроизводят защищенный авторским правом материал. Это вызывает важные вопросы об авторских правах и юридических последствиях использования контента, сгенерированного ИИ.
В долгосрочной перспективе эти выводы подчеркивают необходимость более четких руководств и правил вокруг ИИ и авторского права. Отрасль должна работать над разработкой ИИ-моделей, которые уважают авторские права, сохраняя при этом свои творческие возможности. Это может включать усовершенствование обучающих наборов данных, чтобы исключить защищенный авторским правом материал, или реализацию механизмов, которые обнаруживают и предотвращают воспроизведение защищенного контента.
Более широкая технологическая отрасль должна участвовать в продолжающихся дискуссиях с юридическими экспертами, политиками и заинтересованными сторонами, чтобы создать основу, которая балансирует инновации с уважением к существующим законам. По мере того, как ИИ продолжает развиваться, важно решать эти проблемы проактивно, чтобы обеспечить ответственное и этическое развитие ИИ.
Учитывая тревожную скорость, с которой передовые LLM воспроизводят защищенный авторским правом контент, как показано в вашем исследовании, какие шаги, по вашему мнению, разработчики ИИ и отрасль в целом должны предпринять, чтобы решить эти проблемы? Кроме того, как Patronus AI планирует внести свой вклад в создание более ответственных и юридически соответствующих моделей ИИ в свете этих выводов?
Решение проблемы ИИ-моделей, воспроизводящих защищенный авторским правом контент, требует многофакторного подхода. Разработчики ИИ и отрасль в целом должны уделять приоритетное внимание прозрачности и подотчетности в разработке ИИ-моделей. Это включает:
- Улучшение отбора данных: Обеспечение того, чтобы обучающие наборы данных были тщательно отобраны, чтобы избежать защищенного авторским правом материала, если не получены соответствующие лицензии.
- Разработка механизмов обнаружения: Реализация систем, которые могут обнаруживать, когда ИИ-модель генерирует потенциально защищенный авторским правом контент, и предоставление пользователям вариантов для изменения или удаления такого контента.
- Установление отраслевых стандартов: Сотрудничество с юридическими экспертами и отраслевыми заинтересованными сторонами, чтобы создать руководства и стандарты для разработки ИИ, которые уважают авторские права.
В Patronus AI мы привержены вкладу в ответственное развитие ИИ, сосредотачиваясь на оценке и соблюдении требований. Наша платформа включает продукты, такие как EnterprisePII, которые помогают бизнесу обнаруживать и управлять потенциальными проблемами конфиденциальности в выходных данных ИИ. Предоставляя эти решения, мы стремимся дать бизнесу возможность использовать ИИ ответственно и этично, минимизируя юридические риски.
С инструментами, такими как EnterprisePII и FinanceBench, какие сдвиги вы ожидаете в том, как предприятия развертывают ИИ, особенно в чувствительных областях, таких как финансы и личные данные?
Эти инструменты предоставляют бизнесу возможность оценить и управлять выходными данными ИИ более эффективно, особенно в чувствительных областях, таких как финансы и личные данные.
В финансовом секторе FinanceBench позволяет предприятиям оценить производительность LLM с высокой точностью, гарантируя, что модели соответствуют строгим требованиям финансовых приложений. Это дает бизнесу возможность использовать ИИ для задач, таких как анализ данных и принятие решений, с большей уверенностью и надежностью.
Аналогично, инструменты, такие как EnterprisePII, помогают бизнесу ориентироваться в сложностях защиты данных. Предоставляя информацию о потенциальных рисках и предлагая решения для их смягчения, эти инструменты позволяют предприятиям развертывать ИИ более безопасно и ответственно.
В целом, эти инструменты открывают путь для более информированного и стратегического подхода к принятию ИИ, помогая бизнесу использовать преимущества ИИ, минимизируя связанные с этим риски.
Как Patronus AI работает с компаниями, чтобы интегрировать эти инструменты в существующие развертывания LLM и рабочие процессы?
В Patronus AI мы понимаем важность бесшовной интеграции, когда речь идет о принятии ИИ. Мы тесно сотрудничаем с нашими клиентами, чтобы гарантировать, что наши инструменты легко интегрируются в их существующие развертывания LLM и рабочие процессы. Это включает предоставление клиентам:
- Планы индивидуальной интеграции: Мы сотрудничаем с каждым клиентом, чтобы разработать индивидуальные планы интеграции, соответствующие их конкретным потребностям и целям.
- Комплексную поддержку: Наша команда предоставляет постоянную поддержку на протяжении всего процесса интеграции, предлагая руководство и помощь, чтобы обеспечить плавный переход.
- Обучение и образование: Мы предлагаем сессии обучения и образовательные ресурсы, чтобы помочь клиентам полностью понять и использовать наши инструменты, давая им возможность получить максимальную пользу от своих инвестиций в ИИ.
Учитывая сложности обеспечения того, чтобы выходные данные ИИ были безопасными, точными и соответствовали различным законам, какие советы вы дадите как разработчикам LLM, так и компаниям, стремящимся использовать их?
Приоритизируя сотрудничество и поддержку, мы стремимся сделать процесс интеграции как можно более простым и эффективным, позволяя бизнесу раскрыть полный потенциал наших решений ИИ.
Сложности обеспечения того, чтобы выходные данные ИИ были безопасными, точными и соответствовали различным законам, представляют значительные проблемы. Для разработчиков крупномасштабных языковых моделей (LLM) ключевым моментом является приоритет прозрачности и подотчетности на протяжении всего процесса разработки.
Одним из фундаментальных аспектов является качество данных. Разработчики должны гарантировать, что обучающие наборы данных тщательно отобраны и свободны от защищенного авторским правом материала, если не получены соответствующие лицензии. Это не только помогает предотвратить потенциальные юридические проблемы, но и гарантирует, что ИИ генерирует надежные выходные данные. Кроме того, решение проблемы предвзятости и справедливости имеет решающее значение. Активно работая над выявлением и смягчением предвзятости, а также разрабатывая разнообразные и представительные обучающие данные, разработчики могут уменьшить предвзятость и обеспечить справедливые результаты для всех пользователей.
Робустные процедуры оценки имеют важное значение. Реализация строгого тестирования и использование бенчмарков, таких как FinanceBench, могут помочь оценить производительность и надежность ИИ-моделей, гарантируя, что они соответствуют требованиям конкретных случаев использования. Кроме того, этические соображения должны быть на переднем плане. Взаимодействие с этическими руководствами и рамками гарантирует, что ИИ-системы разрабатываются ответственно и соответствуют общественным ценностям.
Для компаний, стремящихся использовать LLM, понимание возможностей ИИ имеет решающее значение. Важно установить реалистичные ожидания и гарантировать, что ИИ используется эффективно внутри организации. Бесшовная интеграция и поддержка также имеют важное значение. Работая с доверенными партнерами, компании могут интегрировать решения ИИ в существующие рабочие процессы и гарантировать, что их команды обучены и поддерживаются для эффективного использования ИИ.
Соответствие требованиям и безопасность должны быть приоритизированы, с фокусом на соблюдении соответствующих правил и законов о защите данных. Инструменты, такие как EnterprisePII, могут помочь контролировать и управлять потенциальными рисками. Постоянный мониторинг и регулярная оценка производительности ИИ также необходимы для поддержания точности и надежности, позволяя вносить коррективы по мере необходимости.
Благодарим за отличное интервью, читатели, которые хотят узнать больше, должны посетить Patronus AI.












