Connect with us

Anand Kannappan, CEO y cofundador de Patronus AI – Serie de entrevistas

Entrevistas

Anand Kannappan, CEO y cofundador de Patronus AI – Serie de entrevistas

mm

Anand Kannappan es cofundador y CEO de Patronus AI, la primera plataforma automatizada de evaluación y seguridad de IA para ayudar a las empresas a detectar errores de LLM a gran escala. Anteriormente, Anand lideró los esfuerzos de explicabilidad de ML y experimentación avanzada en Meta Reality Labs.

¿Qué te atrajo inicialmente a la informática?

Al crecer, siempre me fascinó la tecnología y cómo se podía utilizar para resolver problemas del mundo real. La idea de poder crear algo desde cero utilizando solo una computadora y código me intrigaba. A medida que me sumergí más en la informática, me di cuenta del inmenso potencial que tiene para la innovación y la transformación en diversas industrias. Esta impulso a innovar y hacer una diferencia es lo que me atrajo inicialmente a la informática.

¿Puedes compartir la historia de origen detrás de Patronus AI?

El origen de Patronus AI es un viaje bastante interesante. Cuando OpenAI lanzó ChatGPT, se convirtió en el producto de consumo de crecimiento más rápido, reuniendo más de 100 millones de usuarios en solo dos meses. Esta adopción masiva destacó el potencial de la IA generativa, pero también puso de relieve la hesitación que tenían las empresas al implementar la IA a un ritmo tan rápido. Muchas empresas estaban preocupadas por los posibles errores y el comportamiento impredecible de los grandes modelos de lenguaje (LLM).

Rebecca y yo nos conocemos desde hace años, después de estudiar informática juntos en la Universidad de Chicago. En Meta, ambos enfrentamos desafíos al evaluar e interpretar los resultados de aprendizaje automático: Rebecca desde una perspectiva de investigación y yo desde una perspectiva aplicada. Cuando se anunció ChatGPT, ambos vimos el potencial transformador de los LLM, pero también entendimos la cautela que ejercían las empresas.

El punto de inflexión llegó cuando el banco de inversión de mi hermano, Piper Sandler, decidió prohibir el acceso a OpenAI internamente. Esto nos hizo darnos cuenta de que, aunque la IA había avanzado significativamente, todavía había una brecha en la adopción empresarial debido a preocupaciones sobre la confiabilidad y la seguridad. Fundamos Patronus AI para abordar esta brecha y aumentar la confianza empresarial en la IA generativa al proporcionar una capa de evaluación y seguridad para los LLM.

¿Puedes describir la funcionalidad principal de la plataforma de Patronus AI para evaluar y proteger los LLM?

Nuestra misión es mejorar la confianza empresarial en la IA generativa. Hemos desarrollado la primera plataforma automatizada de evaluación y seguridad de la industria específicamente para LLM. Nuestra plataforma ayuda a las empresas a detectar errores en las salidas de LLM a gran escala, lo que les permite implementar productos de IA de manera segura y con confianza.

Nuestra plataforma automatiza varios procesos clave:

  • Puntuación: Evaluamos el rendimiento del modelo en escenarios del mundo real, centrándonos en criterios importantes como alucinaciones y seguridad.
  • Generación de pruebas: Generamos automáticamente suites de pruebas adversarias a gran escala para evaluar rigurosamente las capacidades del modelo.
  • Establecimiento de estándares: Comparamos diferentes modelos para ayudar a los clientes a identificar el mejor ajuste para sus casos de uso específicos.

Las empresas prefieren evaluaciones frecuentes para adaptarse a modelos, datos y necesidades de los usuarios en constante evolución. Nuestra plataforma actúa como un evaluador de terceros confiable, brindando una perspectiva imparcial similar a la de Moody’s en el espacio de la IA. Nuestros socios iniciales incluyen empresas de IA líderes como MongoDB, Databricks, Cohere y Nomic AI, y estamos en conversaciones con varias empresas de alto perfil en industrias tradicionales para probar nuestra plataforma.

¿Qué tipos de errores o “alucinaciones” detecta el modelo Lynx de Patronus AI en las salidas de LLM, y cómo aborda estos problemas para las empresas?

Los LLM son herramientas poderosas, pero su naturaleza probabilística los hace propensos a “alucinaciones”, o errores donde el modelo genera información inexacta o irrelevante. Estas alucinaciones son problemáticas, particularmente en entornos empresariales de alto riesgo donde la precisión es fundamental.

Tradicionalemente, las empresas han confiado en la inspección manual para evaluar las salidas de LLM, un proceso que no solo es tedioso sino también inscalable. Para agilizar esto, Patronus AI desarrolló Lynx, un modelo especializado que mejora la capacidad de nuestra plataforma al automatizar la detección de alucinaciones. Lynx, integrado dentro de nuestra plataforma, proporciona una cobertura de prueba integral y garantías de rendimiento sólidas, centrándose en identificar errores críticos que podrían afectar significativamente las operaciones comerciales, como cálculos financieros incorrectos o errores en la revisión de documentos legales.

Con Lynx, mitigamos las limitaciones de la evaluación manual a través de pruebas adversarias automatizadas, explorando un amplio espectro de posibles escenarios de falla. Esto permite detectar problemas que podrían eludir a los evaluadores humanos, ofreciendo a las empresas una mayor confiabilidad y la confianza para implementar LLM en aplicaciones críticas.

FinanceBench se describe como el primer estándar de la industria para evaluar el rendimiento de LLM en preguntas financieras. ¿Qué desafíos en el sector financiero impulsaron el desarrollo de FinanceBench?

FinanceBench se desarrolló en respuesta a los desafíos únicos que enfrenta el sector financiero al adoptar LLM. Las aplicaciones financieras requieren un alto grado de precisión y confiabilidad, ya que los errores pueden generar pérdidas financieras significativas o problemas regulatorios. A pesar de la promesa de los LLM para manejar grandes volúmenes de datos financieros, nuestra investigación mostró que los modelos de estado de la técnica como GPT-4 y Llama 2 luchaban con preguntas financieras, a menudo fallando al recuperar información precisa.

FinanceBench se creó como un estándar integral para evaluar el rendimiento de LLM en contextos financieros. Incluye 10,000 pares de preguntas y respuestas basados en documentos financieros públicamente disponibles, cubriendo áreas como razonamiento numérico, recuperación de información, razonamiento lógico y conocimiento del mundo. Al proporcionar este estándar, apuntamos a ayudar a las empresas a comprender mejor las limitaciones de los modelos actuales e identificar áreas de mejora.

Nuestro análisis inicial reveló que muchos LLM fallan al cumplir con los altos estándares requeridos para aplicaciones financieras, destacando la necesidad de un mayor perfeccionamiento y evaluación dirigida. Con FinanceBench, estamos brindando una herramienta valiosa para que las empresas evalúen y mejoren el rendimiento de LLM en el sector financiero.

Su investigación destacó que los modelos de IA líderes, particularmente GPT-4 de OpenAI, generaron contenido con derechos de autor a tasas significativas cuando se les proporcionaron extractos de libros populares. ¿Qué cree que son las implicaciones a largo plazo de estos hallazgos para el desarrollo de IA y la industria tecnológica en general, considerando los debates en curso sobre IA y ley de derechos de autor?

El problema de que los modelos de IA generen contenido con derechos de autor es una preocupación compleja y apremiante en la industria de la IA. Nuestra investigación mostró que modelos como GPT-4, cuando se les proporcionan extractos de libros populares, a menudo reproducen material con derechos de autor. Esto plantea importantes preguntas sobre los derechos de propiedad intelectual y las implicaciones legales del uso de contenido generado por IA.

A largo plazo, estos hallazgos subrayan la necesidad de directrices y regulaciones más claras sobre IA y derechos de autor. La industria debe trabajar hacia el desarrollo de modelos de IA que respeten los derechos de propiedad intelectual mientras mantienen sus capacidades creativas. Esto podría involucrar el perfeccionamiento de conjuntos de datos de entrenamiento para excluir material con derechos de autor o la implementación de mecanismos que detecten y prevengan la reproducción de contenido protegido.

La industria tecnológica en general necesita participar en discusiones continuas con expertos legales, formuladores de políticas y partes interesadas para establecer un marco que equilibre la innovación con el respeto a las leyes existentes. A medida que la IA continúa evolucionando, es crucial abordar estos desafíos de manera proactiva para garantizar un desarrollo de IA responsable y ético.

Dado el alarmante ritmo al que los LLM de última generación reproducen contenido con derechos de autor, como se evidencia en su estudio, ¿qué pasos cree que los desarrolladores de IA y la industria en general necesitan tomar para abordar estas preocupaciones? Además, ¿cómo planea Patronus AI contribuir a la creación de modelos de IA más responsables y legalmente cumplidores a la luz de estos hallazgos?

Abordar el problema de que los modelos de IA reproduzcan contenido con derechos de autor requiere un enfoque multifacético. Los desarrolladores de IA y la industria en general necesitan priorizar la transparencia y la rendición de cuentas en el desarrollo de modelos de IA. Esto implica:

  • Mejorar la selección de datos: Asegurarse de que los conjuntos de datos de entrenamiento se curan con cuidado para evitar material con derechos de autor a menos que se obtengan las licencias adecuadas.
  • Desarrollar mecanismos de detección: Implementar sistemas que puedan identificar cuándo un modelo de IA está generando contenido potencialmente con derechos de autor y proporcionar a los usuarios opciones para modificar o eliminar dicho contenido.
  • Establecer estándares de la industria: Colaborar con expertos legales y partes interesadas de la industria para crear directrices y estándares para el desarrollo de IA que respeten los derechos de propiedad intelectual.

En Patronus AI, estamos comprometidos a contribuir al desarrollo responsable de IA al centrarnos en la evaluación y el cumplimiento. Nuestra plataforma incluye productos como EnterprisePII, que ayudan a las empresas a detectar y gestionar posibles problemas de privacidad en las salidas de IA. Al proporcionar estas soluciones, apuntamos a empoderar a las empresas para que utilicen la IA de manera responsable y ética mientras minimizan los riesgos legales.

Con herramientas como EnterprisePII y FinanceBench, ¿qué cambios anticipa en la forma en que las empresas implementan la IA, particularmente en áreas sensibles como las finanzas y los datos personales?

Estas herramientas brindan a las empresas la capacidad de evaluar y gestionar las salidas de IA de manera más efectiva, particularmente en áreas sensibles como las finanzas y los datos personales.

En el sector financiero, FinanceBench permite a las empresas evaluar el rendimiento de LLM con un alto grado de precisión, asegurando que los modelos cumplan con los requisitos estrictos de las aplicaciones financieras. Esto permite a las empresas aprovechar la IA para tareas como el análisis de datos y la toma de decisiones con mayor confianza y confiabilidad.

De manera similar, herramientas como EnterprisePII ayudan a las empresas a navegar las complejidades de la privacidad de los datos. Al proporcionar información sobre posibles riesgos y ofrecer soluciones para mitigarlos, estas herramientas permiten a las empresas implementar la IA de manera más segura y responsable.

En general, estas herramientas están sentando las bases para un enfoque más informado y estratégico para la adopción de IA, ayudando a las empresas a aprovechar los beneficios de la IA mientras minimizan los riesgos asociados.

¿Cómo trabaja Patronus AI con las empresas para integrar estas herramientas en sus implementaciones y flujos de trabajo de LLM existentes?

En Patronus AI, entendemos la importancia de una integración sin problemas cuando se trata de la adopción de IA. Trabajamos en estrecha colaboración con nuestros clientes para asegurarnos de que nuestras herramientas se incorporen fácilmente en sus implementaciones y flujos de trabajo de LLM existentes. Esto incluye proporcionar a los clientes:

  • Plan de integración personalizado: Colaboramos con cada cliente para desarrollar un plan de integración personalizado que se alinee con sus necesidades y objetivos específicos.
  • Soporte integral: Nuestro equipo proporciona soporte continuo durante el proceso de integración, ofreciendo orientación y asistencia para garantizar una transición fluida.
  • Capacitación y educación: Ofrecemos sesiones de capacitación y recursos educativos para ayudar a los clientes a comprender y utilizar nuestras herramientas de manera efectiva, permitiéndoles aprovechar al máximo sus inversiones en IA.

Considerando las complejidades de garantizar que las salidas de IA sean seguras, precisas y cumplan con diversas leyes, ¿qué consejo ofrecería tanto a los desarrolladores de LLM como a las empresas que buscan utilizarlos?

Al priorizar la colaboración y el soporte, apuntamos a hacer que el proceso de integración sea lo más sencillo y eficiente posible, permitiendo a las empresas desbloquear el verdadero potencial de nuestras soluciones de IA.

Las complejidades de garantizar que las salidas de IA sean seguras, precisas y cumplan con diversas leyes presentan desafíos significativos. Para los desarrolladores de grandes modelos de lenguaje (LLM), la clave es priorizar la transparencia y la rendición de cuentas en todo el proceso de desarrollo.

Uno de los aspectos fundamentales es la calidad de los datos. Los desarrolladores deben asegurarse de que los conjuntos de datos de entrenamiento estén bien curados y libres de material con derechos de autor a menos que estén debidamente licenciados. Esto no solo ayuda a prevenir posibles problemas legales, sino que también garantiza que la IA genere salidas confiables. Además, abordar el sesgo y la equidad es crucial. Al trabajar activamente para identificar y mitigar los sesgos, y al desarrollar datos de entrenamiento diversos y representativos, los desarrolladores pueden reducir el sesgo y garantizar resultados justos para todos los usuarios.

Los procedimientos de evaluación robustos son esenciales. La implementación de pruebas rigurosas y el uso de estándares como FinanceBench pueden ayudar a evaluar el rendimiento y la confiabilidad de los modelos de IA, asegurando que cumplan con los requisitos de casos de uso específicos. Además, las consideraciones éticas deben estar en el primer plano. Al involucrarse con marcos y directrices éticas, se garantiza que los sistemas de IA se desarrollen de manera responsable y se alineen con los valores de la sociedad.

Para las empresas que buscan aprovechar los LLM, es crucial comprender las capacidades de la IA. Es importante establecer expectativas realistas y asegurarse de que la IA se utilice de manera efectiva dentro de la organización. La integración y el soporte sin problemas también son vitales. Al trabajar con socios de confianza, las empresas pueden integrar soluciones de IA en sus flujos de trabajo existentes y asegurarse de que sus equipos estén capacitados y apoyados para utilizar la IA de manera efectiva.

La cumplimentación y la seguridad deben priorizarse, centrándose en adherirse a las regulaciones y leyes de protección de datos relevantes. Herramientas como EnterprisePII pueden ayudar a monitorear y gestionar posibles riesgos. La monitorización continua y la evaluación regular del rendimiento de la IA también son necesarias para mantener la precisión y la confiabilidad, permitiendo ajustes según sea necesario.

Gracias por la excelente entrevista, los lectores que deseen aprender más pueden visitar Patronus AI.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.