Entrevistas
Anand Kannappan, CEO & Co-founder of Patronus AI – Interview Series

Anand Kannappan é Co-Fundador e CEO da Patronus AI, a primeira plataforma automatizada de avaliação e segurança de IA para ajudar as empresas a detectar erros de LLM em larga escala. Anteriormente, Anand liderou esforços de explicabilidade de ML e experimentação avançada nos Meta Reality Labs.
O que o atraiu inicialmente para a ciência da computação?
Crescendo, eu sempre fui fascinado pela tecnologia e como ela poderia ser usada para resolver problemas do mundo real. A ideia de poder criar algo do zero usando apenas um computador e código me intrigou. À medida que mergulhei mais fundo na ciência da computação, percebi o imenso potencial que ela tem para inovação e transformação em várias indústrias. Essa drive para inovar e fazer a diferença é o que me atraiu inicialmente para a ciência da computação.
Pode compartilhar a história de criação por trás da Patronus AI?
A criação da Patronus AI é uma jornada bastante interessante. Quando a OpenAI lançou o ChatGPT, ele se tornou o produto de consumo de crescimento mais rápido, reunindo mais de 100 milhões de usuários em apenas dois meses. Essa adoção maciça destacou o potencial da IA gerativa, mas também trouxe à luz a hesitação das empresas em implantar a IA a um ritmo tão rápido. Muitas empresas estavam preocupadas com os possíveis erros e comportamento imprevisível dos grandes modelos de linguagem (LLM).
Rebecca e eu nos conhecemos há anos, tendo estudado ciência da computação juntos na Universidade de Chicago. Na Meta, ambos enfrentamos desafios na avaliação e interpretação de saídas de aprendizado de máquina — Rebecca de uma perspectiva de pesquisa e eu de uma perspectiva aplicada. Quando o ChatGPT foi anunciado, ambos vimos o potencial transformador dos LLM, mas também entendemos a cautela que as empresas estavam exercendo.
O ponto de inflexão veio quando o banco de investimentos do meu irmão, Piper Sandler, decidiu banir o acesso à OpenAI internamente. Isso nos fez perceber que, embora a IA tivesse avançado significativamente, ainda havia uma lacuna na adoção empresarial devido a preocupações sobre confiabilidade e segurança. Fundamos a Patronus AI para abordar essa lacuna e aumentar a confiança das empresas na IA gerativa, fornecendo uma camada de avaliação e segurança para os LLM.
Pode descrever a funcionalidade central da plataforma da Patronus AI para avaliar e proteger os LLM?
Nossa missão é melhorar a confiança das empresas na IA gerativa. Desenvolvemos a primeira plataforma automatizada de avaliação e segurança da indústria, especificamente para LLM. Nossa plataforma ajuda os negócios a detectar erros nas saídas dos LLM em larga escala, permitindo que eles implantem produtos de IA com segurança e confiança.
Nossa plataforma automatiza vários processos-chave:
- Pontuação: Avaliamos o desempenho do modelo em cenários do mundo real, focando em critérios importantes, como alucinações e segurança.
- Geração de Testes: Geramos automaticamente conjuntos de testes adversários em larga escala para avaliar rigorosamente as capacidades do modelo.
- Padronização: Comparamos diferentes modelos para ajudar os clientes a identificar o melhor ajuste para seus casos de uso específicos.
As empresas preferem avaliações frequentes para se adaptar a modelos, dados e necessidades de usuário em evolução. Nossa plataforma atua como um avaliador de terceiros confiável, fornecendo uma perspectiva imparcial, semelhante à Moody’s no espaço de IA. Nossos primeiros parceiros incluem empresas de IA líderes, como MongoDB, Databricks, Cohere e Nomic AI, e estamos em discussões com várias empresas de alto perfil em setores tradicionais para pilotar nossa plataforma.
Quais tipos de erros ou “alucinações” o modelo Lynx da Patronus AI detecta nas saídas dos LLM e como ele aborda essas questões para os negócios?
Os LLM são, de fato, ferramentas poderosas, mas sua natureza probabilística os torna propensos a “alucinações” ou erros, onde o modelo gera informações imprecisas ou irrelevantes. Essas alucinações são problemáticas, particularmente em ambientes de negócios de alto risco, onde a precisão é crítica.
Tradionalmente, os negócios confiaram na inspeção manual para avaliar as saídas dos LLM, um processo que não apenas é demorado, mas também não é escalável. Para simplificar isso, a Patronus AI desenvolveu o Lynx, um modelo especializado que melhora a capacidade de nossa plataforma, automatizando a detecção de alucinações. O Lynx, integrado em nossa plataforma, fornece cobertura de teste abrangente e garantias de desempenho robustas, focando na identificação de erros críticos que poderiam ter um impacto significativo nas operações comerciais, como cálculos financeiros incorretos ou erros na revisão de documentos legais.
Com o Lynx, mitigamos as limitações da avaliação manual por meio de testes adversários automatizados, explorando um amplo espectro de cenários de falha potenciais. Isso permite a detecção de problemas que poderiam escapar aos avaliadores humanos, oferecendo aos negócios confiabilidade e confiança para implantar LLM em aplicações críticas.
FinanceBench é descrito como o primeiro benchmark para avaliar o desempenho dos LLM em questões financeiras. Quais desafios no setor financeiro motivaram o desenvolvimento do FinanceBench?
FinanceBench foi desenvolvido em resposta aos desafios únicos enfrentados pelo setor financeiro na adoção dos LLM. As aplicações financeiras exigem um alto grau de precisão e confiabilidade, pois erros podem levar a perdas financeiras significativas ou problemas regulatórios. Apesar do potencial dos LLM em lidar com grandes volumes de dados financeiros, nossa pesquisa mostrou que modelos de ponta, como o GPT-4 e o Llama 2, lutam com questões financeiras, frequentemente falhando em recuperar informações precisas.
FinanceBench foi criado como um benchmark abrangente para avaliar o desempenho dos LLM em contextos financeiros. Ele inclui 10.000 pares de perguntas e respostas baseados em documentos financeiros públicos, cobrindo áreas, como raciocínio numérico, recuperação de informações, raciocínio lógico e conhecimento do mundo. Ao fornecer esse benchmark, visamos ajudar as empresas a entender melhor as limitações dos modelos atuais e identificar áreas para melhoria.
Nossa análise inicial revelou que muitos LLM falham em atender aos altos padrões necessários para aplicações financeiras, destacando a necessidade de mais refinamento e avaliação direcionada. Com o FinanceBench, estamos fornecendo uma ferramenta valiosa para as empresas avaliarem e melhorarem o desempenho dos LLM no setor financeiro.
Sua pesquisa destacou que os principais modelos de IA, particularmente o GPT-4 da OpenAI, geraram conteúdo com direitos autorais a taxas significativas quando solicitados com trechos de livros populares. O que você acredita que sejam as implicações de longo prazo dessas descobertas para o desenvolvimento de IA e a indústria de tecnologia em geral, especialmente considerando os debates em andamento sobre IA e lei de direitos autorais?
A questão dos modelos de IA gerando conteúdo com direitos autorais é uma preocupação complexa e premente na indústria de IA. Nossa pesquisa mostrou que modelos como o GPT-4, quando solicitados com trechos de livros populares, frequentemente reproduzem material com direitos autorais. Isso levanta questões importantes sobre direitos de propriedade intelectual e implicações legais do uso de conteúdo gerado por IA.
No longo prazo, essas descobertas destacam a necessidade de diretrizes e regulamentos mais claros sobre IA e direitos autorais. A indústria deve trabalhar para desenvolver modelos de IA que respeitem os direitos de propriedade intelectual, mantendo suas capacidades criativas. Isso pode envolver aprimorar conjuntos de dados de treinamento para excluir material com direitos autorais ou implementar mecanismos que detectem e previnam a reprodução de conteúdo protegido.
A indústria de tecnologia como um todo precisa se envolver em discussões contínuas com especialistas legais, formuladores de políticas e partes interessadas para estabelecer um quadro que equilibre inovação com respeito às leis existentes. À medida que a IA continua a evoluir, é crucial abordar esses desafios proativamente para garantir o desenvolvimento de IA responsável e ético.
Considerando a taxa alarmante com que os LLM de ponta reproduzem conteúdo com direitos autorais, como evidenciado por seu estudo, quais passos você acredita que os desenvolvedores de IA e a indústria como um todo precisam tomar para abordar essas preocupações? Além disso, como a Patronus AI planeja contribuir para a criação de modelos de IA mais responsáveis e legalmente conformes à luz dessas descobertas?
Abordar a questão dos modelos de IA reproduzindo conteúdo com direitos autorais requer uma abordagem multifacetada. Os desenvolvedores de IA e a indústria como um todo precisam priorizar transparência e responsabilidade no desenvolvimento de modelos de IA. Isso envolve:
- Melhoria da Seleção de Dados: Garantir que os conjuntos de dados de treinamento sejam cuidadosamente curados para evitar material com direitos autorais, a menos que licenças apropriadas sejam obtidas.
- Desenvolvimento de Mecanismos de Detecção: Implementar sistemas que possam identificar quando um modelo de IA está gerando conteúdo potencialmente com direitos autorais e fornecer aos usuários opções para modificar ou remover tal conteúdo.
- Estabelecimento de Padrões da Indústria: Colaborar com especialistas legais e partes interessadas da indústria para criar diretrizes e padrões para o desenvolvimento de IA que respeitem os direitos de propriedade intelectual.
Na Patronus AI, estamos comprometidos em contribuir para o desenvolvimento de IA responsável, focando na avaliação e conformidade. Nossa plataforma inclui produtos como EnterprisePII, que ajudam as empresas a detectar e gerenciar questões potenciais de privacidade nas saídas de IA. Ao fornecer essas soluções, visamos empoderar as empresas a usar a IA de forma responsável e ética, minimizando riscos legais.
Com ferramentas como EnterprisePII e FinanceBench, quais mudanças você antecipa na forma como as empresas implantam a IA, particularmente em áreas sensíveis, como finanças e dados pessoais?
Essas ferramentas fornecem às empresas a capacidade de avaliar e gerenciar as saídas de IA de forma mais eficaz, particularmente em áreas sensíveis, como finanças e dados pessoais.
No setor financeiro, o FinanceBench permite que as empresas avaliem o desempenho dos LLM com um alto grau de precisão, garantindo que os modelos atendam aos requisitos rigorosos das aplicações financeiras. Isso empodera as empresas a aproveitar a IA para tarefas, como análise de dados e tomada de decisões, com maior confiança e confiabilidade.
Da mesma forma, ferramentas como o EnterprisePII ajudam as empresas a navegar pelas complexidades da privacidade de dados. Ao fornecer insights sobre riscos potenciais e oferecer soluções para mitigá-los, essas ferramentas permitem que as empresas implantem a IA de forma mais segura e responsável.
No geral, essas ferramentas estão pavimentando o caminho para uma abordagem mais informada e estratégica para a adoção de IA, ajudando as empresas a aproveitar os benefícios da IA, minimizando os riscos associados.
Como a Patronus AI trabalha com as empresas para integrar essas ferramentas em suas implantações de LLM existentes e fluxos de trabalho?
Na Patronus AI, entendemos a importância da integração sem problemas quando se trata de adoção de IA. Trabalhamos em estreita colaboração com nossos clientes para garantir que nossas ferramentas sejam facilmente incorporadas em suas implantações de LLM existentes e fluxos de trabalho. Isso inclui fornecer aos clientes:
- Planos de Integração Personalizados: Colaboramos com cada cliente para desenvolver planos de integração personalizados que se alinhem com suas necessidades e objetivos específicos.
- Suporte Abrangente: Nossa equipe fornece suporte contínuo durante o processo de integração, oferecendo orientação e assistência para garantir uma transição suave.
- Treinamento e Educação: Oferecemos sessões de treinamento e recursos educacionais para ajudar os clientes a entender e utilizar completamente nossas ferramentas, capacitando-os a aproveitar ao máximo seus investimentos em IA.
Considerando as complexidades de garantir que as saídas de IA sejam seguras, precisas e conformes com várias leis, quais conselhos você ofereceria aos desenvolvedores de LLM e às empresas que desejam usá-los?
Priorizando a colaboração e o suporte, visamos tornar o processo de integração o mais direto e eficiente possível, permitindo que as empresas desbloqueiem o pleno potencial de nossas soluções de IA.
As complexidades de garantir que as saídas de IA sejam seguras, precisas e conformes com várias leis apresentam desafios significativos. Para os desenvolvedores de grandes modelos de linguagem (LLM), a chave é priorizar a transparência e a responsabilidade ao longo do processo de desenvolvimento.
Um dos aspectos fundamentais é a qualidade dos dados. Os desenvolvedores devem garantir que os conjuntos de dados de treinamento sejam bem curados e livres de material com direitos autorais, a menos que licenças apropriadas sejam obtidas. Isso não apenas ajuda a prevenir questões legais potenciais, mas também garante que a IA gere saídas confiáveis. Além disso, abordar o viés e a justiça é crucial. Ao trabalhar ativamente para identificar e mitigar viés, e ao desenvolver dados de treinamento diversificados e representativos, os desenvolvedores podem reduzir o viés e garantir resultados justos para todos os usuários.
Procedimentos de avaliação robustos são essenciais. A implementação de testes rigorosos e o uso de benchmarks, como o FinanceBench, podem ajudar a avaliar o desempenho e a confiabilidade dos modelos de IA, garantindo que atendam aos requisitos de casos de uso específicos. Além disso, considerações éticas devem estar na vanguarda. Engajar-se com diretrizes e quadros éticos garante que os sistemas de IA sejam desenvolvidos de forma responsável e alinhados com os valores da sociedade.
Para as empresas que desejam aproveitar os LLM, entender as capacidades da IA é crucial. É importante ter expectativas realistas e garantir que a IA seja usada de forma eficaz dentro da organização. A integração sem problemas e o suporte também são vitais. Ao trabalhar com parceiros confiáveis, as empresas podem integrar soluções de IA em seus fluxos de trabalho existentes e garantir que suas equipes estejam treinadas e apoiadas para aproveitar a IA de forma eficaz.
A conformidade e a segurança devem ser priorizadas, com foco em aderir a regulamentações e leis de proteção de dados relevantes. Ferramentas como o EnterprisePII podem ajudar a monitorar e gerenciar riscos potenciais. O monitoramento contínuo e a avaliação regular do desempenho da IA também são necessários para manter a precisão e a confiabilidade, permitindo ajustes conforme necessário.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Patronus AI.












