Entrevistas
Rob May, CEO y cofundador de NeuroMetric – Serie de entrevistas

Rob May, CEO y cofundador de NeuroMetric, es un emprendedor e inversor experimentado con una larga trayectoria que abarca computación en la nube, startups de IA y capital de riesgo, actualmente lidera Neurometric AI mientras también se desempeña como director general en HalfCourt Ventures, donde ha respaldado a más de 100 empresas tecnológicas. Además de sus funciones operativas y de inversión, cofundó la Comunidad de Innovadores de IA y anteriormente creó y vendió empresas como Backupify, lo que refleja una profunda experiencia en múltiples ciclos tecnológicos. También es ampliamente conocido por su larga trayectoria Invertir en IA un boletín informativo que comenzó a escribir hace más de una década para analizar las tendencias emergentes en IA, las estrategias de inversión y los cambios del mercado, y que desde entonces ha evolucionado hasta convertirse en una plataforma para obtener información más profunda sobre el panorama de la IA, que evoluciona rápidamente.
NeuroMetric AI Neurometric se centra en resolver uno de los desafíos más críticos de la inteligencia artificial actual: el coste y la eficiencia de la inferencia a gran escala. La plataforma evalúa dinámicamente las cargas de trabajo de IA y aplica estrategias de optimización —como la combinación de modelos más pequeños y especializados con técnicas avanzadas de computación en tiempo de prueba— para mejorar el rendimiento y reducir drásticamente los costes, lo que permite a las empresas obtener un mejor retorno de la inversión en sus implementaciones de IA. Al orquestar las cargas de trabajo y adaptar el uso de los modelos a tareas específicas, Neurometric busca que los sistemas de IA sean significativamente más rápidos y asequibles, posicionándose en la intersección de la infraestructura de IA, la eficiencia y la escalabilidad en el mundo real a medida que las organizaciones pasan de la experimentación a la producción.
Has fundado y dirigido varias empresas de IA, invertido en más de 100 startups a través de HalfCourt Ventures y, anteriormente, creaste y vendiste Backupify. ¿Cómo han influido estas experiencias en tu perspectiva sobre dónde se genera valor duradero en la IA hoy en día?
Creo que la mayoría de los inversores y emprendedores buscan ventajas competitivas a corto plazo: oportunidades que hoy parecen evidentes en el mercado, pero que las empresas existentes cerrarán rápidamente. La IA convertirá la gestión empresarial en una serie de decisiones probabilísticas. Las empresas en las que invertir, o que conviene desarrollar, son aquellas que ofrecen las mejores estimaciones generales de esas probabilidades. A veces, esto se logrará mediante la integración vertical y otras veces mediante la expansión horizontal; depende del mercado.
En su boletín informativo «Invirtiendo en IA», usted argumenta que los modelos son cada vez más intercambiables y que la verdadera capacidad de defensa se traslada a la capa de sistemas. ¿Cómo se ve en la práctica una verdadera «ventaja competitiva basada en sistemas»?
Una verdadera ventaja competitiva de un sistema tiene tres propiedades: se fortalece con el uso, es específica para el cliente y no se puede replicar simplemente sustituyendo el modelo por uno mejor.
La capacidad de defensa reside en lo que denomino un «Sistema de Contexto»: una arquitectura integrada que conecta los modelos fundamentales con todo aquello que hace única a una empresa: sus datos, sus flujos de trabajo, su conocimiento del dominio y su historial de decisiones. El sistema capta información de cada interacción —qué modelos tienen éxito en qué tareas, dónde la latencia es importante, qué patrones específicos de la empresa surgen— y la utiliza para su propio perfeccionamiento.
La clave reside en que esto crea un efecto multiplicativo, no aditivo. No se trata solo de acumular un registro consultable de decisiones pasadas, sino de generar señales de entrenamiento que producen modelos especializados que mejoran el enrutamiento, lo que a su vez captura datos más valiosos. La ventaja competitiva se amplía con cada inferencia.
En la práctica, una ventaja competitiva de un sistema se asemeja a una profunda integración del flujo de trabajo, donde los costos de cambio no se deben a las API, sino a la reescritura de la lógica empresarial. Se asemeja a un contexto propietario que ningún competidor puede replicar porque se generó a través de meses de uso en producción dentro de una empresa específica. Y se asemeja al ciclo continuo de especialización donde el sistema mejora significativamente para ese cliente de maneras que un proveedor de modelos genéricos jamás lo hará.
La era de los modelos nos proporcionó la capacidad básica. La era de los sistemas es donde esa capacidad se convierte en valor real.
¿Cómo deberían las empresas plantearse la creación de una estrategia multimodelo, que incluya lógica de enrutamiento, rutas de escalamiento y evaluación continua, en lugar de depender de un único modelo de frontera?
Lo primero que las empresas deben comprender es que «usar simplemente el mejor modelo» es una estrategia perdedora a gran escala. Es como pasar cada consulta por el ingeniero más experimentado. Es costoso, lento y, aunque parezca contradictorio, a menudo no produce los mejores resultados.
Esto nos lleva a lo que yo llamo la Frontera Dentada de la Inferencia: el rendimiento del modelo es específico de la tarea e impredecible. Los modelos de frontera pierden frente a modelos más pequeños y especializados en tareas específicas todo el tiempo. Hemos visto sistemas multimodelo compuestos alcanzar una precisión del 72.7 % en tareas de CRM donde los modelos de frontera obtuvieron un 58 %. La superficie de rendimiento no se correlaciona perfectamente con el número de parámetros. Por lo tanto, la verdadera pregunta no es "¿qué modelo es el mejor?", sino "¿qué modelo es el mejor para esta subtarea específica? "
Ese replanteamiento es la base de una verdadera estrategia multimodelo. Así es como yo les diría a las empresas que lo piensen en tres niveles.
Lógica de enrutamiento Comienza con el mapeo de tu entorno de inferencia. Cataloga cada punto de tu sistema donde se realiza una llamada LLM y, para cada uno, documenta el tipo de tarea, la complejidad de entrada/salida, los requisitos de latencia, el umbral de precisión y el volumen de llamadas. Esto te dará un mapa de calor. Rápidamente descubrirás que la mayor parte de tu volumen es trabajo de alta frecuencia y alcance limitado (clasificación, extracción de entidades, enrutamiento de intenciones, generación de plantillas), donde un modelo más pequeño y ajustado iguala o supera al modelo frontera a una fracción del costo. Reserva tus costosas llamadas frontera para las tareas que realmente requieren razonamiento complejo. Un agente que realiza 50 llamadas por tarea no necesita GPT-4 para las 50.
Rutas de escalada Se trata de crear mecanismos de respaldo inteligentes, no solo de tolerancia a fallos. El sistema debe reconocer cuándo un modelo más pequeño arroja resultados poco fiables y recurrir a un modelo más capaz, o incluso a una combinación de modelo y estrategia completamente diferente. Aquí es donde entran en juego las estrategias de cálculo en tiempo de prueba. A veces, la solución no es un modelo más grande, sino el mismo modelo con cadena de pensamiento, búsqueda en haz o muestreo de mejor de N. La configuración óptima varía no solo según el modelo, sino también según el algoritmo de razonamiento con el que se combine.
Evaluación continua Es el aspecto que la mayoría de las empresas pasan por alto por completo, y es donde reside la verdadera capacidad de defensa. La selección de modelos no es una decisión puntual, sino un problema de optimización continua. Constantemente se lanzan nuevos modelos, los casos de uso evolucionan y el rendimiento se degrada de forma silenciosa. No sabrá que su bot de atención al cliente dio una respuesta un 40 % peor porque utilizó el modelo incorrecto para ese tipo de consulta; simplemente verá una disminución en el rendimiento tres meses después. Necesita una infraestructura que mida continuamente qué funciona realmente en las distintas combinaciones de modelos y tareas, y que ajuste el enrutamiento en función de datos de rendimiento reales, no de indicadores de referencia.
La razón por la que la mayoría de las empresas no han dado este paso es que nadie es despedido por elegir el modelo de vanguardia; es como si nadie fuera despedido por comprar IBM, pero en el caso de la IA. El ecosistema de proveedores impulsa la vanguardia porque ahí es donde se encuentran los márgenes de beneficio. Y la infraestructura de orquestación necesaria para ejecutar una arquitectura multimodelos —lógica de enrutamiento, mecanismos de respaldo, gestión de modelos, observabilidad— simplemente no existe en la mayoría de las empresas. Están estancadas en un óptimo local donde los costos de cambio y la incertidumbre de los modelos múltiples parecen mayores que el gasto excesivo que siguen realizando en la inferencia de vanguardia.
¿Cuáles son los mayores errores que observa en las empresas al pasar de proyectos piloto de IA a sistemas de producción?
Dan por sentado que sus decisiones pueden ser estáticas y duraderas. En realidad, cada capa de la infraestructura tecnológica de la IA está cambiando rápidamente. Las empresas necesitan tomar decisiones que ofrezcan opciones y flexibilidad.
¿En qué tipos de flujos de trabajo ha observado que los modelos más pequeños y específicos para tareas superan a los grandes modelos de vanguardia, y por qué es importante esto desde un punto de vista estratégico?
Lo hemos visto en casi todas las tareas cotidianas: contabilidad básica, resumen de texto, extracción de entidades de diversos documentos. Hemos explorado los SLM para cientos de tareas y casi siempre resultan superiores si el problema está bien estructurado.
Has escrito sobre la disminución del coste marginal de implementar la IA en nuevos casos de uso. ¿Cómo afecta esto a la economía a largo plazo de la adopción de la IA por parte de las empresas?
La idea generalizada de que los ingresos de la IA requieren una inversión proporcional en I+D para nuevos modelos es falsa. Los modelos ya están construidos. La infraestructura existe. Cada nuevo caso de uso implica una solicitud, una conexión de datos, quizás algunos ajustes menores, no otra ronda de entrenamiento de 100 millones de dólares. La curva de coste marginal disminuye a medida que la plataforma madura.
Esto es lo opuesto a los ferrocarriles o las telecomunicaciones, donde cada nuevo kilómetro de vía era caro. En la IA, construir el motor era caro. Conectar cosas a El motor es económico y cada vez lo es más: los costos de inferencia se han reducido aproximadamente mil veces en dos años. La pregunta para las empresas no es si la IA es rentable, sino cuántos casos de uso se pueden implementar en la misma infraestructura antes de que la curva de ingresos supere la curva de costos.
¿Qué señales deben utilizar los equipos técnicos para determinar cuándo cambiar de modelo, realizar ajustes o crear modelos especializados para tareas pequeñas?
Las señales no son necesariamente técnicas. Se basan más en el rendimiento o en criterios económicos. Por ejemplo, cambiar de modelo, ajustarlo o crear un SLM personalizado podrían ser opciones viables. La decisión depende de si se busca optimizar la latencia o el costo, la frecuencia de ejecución de la tarea y el tiempo necesario para desarrollar e implementar cada solución.
¿Cómo se diseñan las medidas de protección, la monitorización y la gobernanza de forma que se adapten al uso en lugar de convertirse en un cuello de botella?
El error que cometen la mayoría de las empresas es tratar la gobernanza como un punto de control: una capa de revisión manual añadida a los flujos de trabajo de IA. Esto no es escalable. Se convierte en el cuello de botella en cuanto aumenta el uso.
La gobernanza debe estar integrada en la propia capa de orquestación. Cuando la infraestructura de enrutamiento ya evalúa cada llamada de inferencia (qué modelo, qué tarea, qué nivel de confianza), añadir medidas de control supone un coste mínimo, no la necesidad de un nuevo sistema. La misma capa que decide qué modelo gestiona una consulta puede aplicar políticas: filtrado de información personal antes de la llamada, validación de la salida después, registro automático de auditorías y asignación de costes por departamento.
La idea clave es que las empresas no fracasan. interior Sistemas de IA. Fallan. entre En ellas, en las transferencias, las escaladas y las excepciones. Una gobernanza escalable se asemeja a un plano de control que garantiza que cada acción de la IA sea segura, auditable y repetible como resultado de la ejecución, no como un obstáculo para ella.
Has comparado el panorama actual de la IA con la transición de los mainframes a los PC. ¿Qué implica esa descentralización para las startups que desarrollan en la capa de sistemas?
Actualmente nos encontramos en la fase de la IA centrada en los grandes ordenadores centrales. Los modelos de vanguardia, grandes y centralizados, de OpenAI, Anthropic y Google fueron necesarios para concentrar los esfuerzos y demostrar el potencial de la IA. Esa fase funcionó. Sus capacidades se comprenden bien. Pero, al igual que la informática no se mantuvo centralizada, la IA tampoco lo hará. Estamos entrando en la era de los ordenadores personales: un ecosistema descentralizado donde modelos más pequeños y especializados operan más cerca del entorno de trabajo.
Los datos de gasto ya lo reflejan. La inversión en IA empresarial se divide ahora casi a partes iguales entre infraestructura y aplicaciones, y la proporción destinada a aplicaciones crece a un ritmo acelerado. La expansión es lateral —en áreas como RR. HH., legal, marketing, operaciones y finanzas—, no vertical hacia modelos más grandes.
Para las startups que desarrollan en la capa de sistemas, esta es la oportunidad de una generación. En un mundo centralizado, el proveedor del modelo acapara la mayor parte del valor. En un mundo descentralizado, el valor se traslada a las empresas que resuelven los problemas de orquestación, enrutamiento, evaluación y especialización: los desafíos operativos que implica el despliegue a gran escala de un ecosistema de modelos heterogéneo.
Mi proyección es que aproximadamente el 25 % de la inferencia de IA requerirá modelos de vanguardia. A esas empresas no les importará: eso representa un mercado potencial de un par de billones de dólares. Pero el 75 % se ejecutará con modelos de código abierto y modelos especializados para tareas pequeñas. Entrenamos un modelo de 4 mil millones de parámetros que superó a los modelos de vanguardia en una tarea específica de CRM, y su funcionamiento es tan económico que prácticamente es gratuito. Ese es el futuro, y requiere una capa de sistemas completamente nueva para gestionarlo.
La analogía se mantiene: a los proveedores de mainframes les fue bien, pero la verdadera riqueza se generó en el ecosistema de las PC. Lo mismo ocurrirá con la IA.
De cara a los próximos cinco años, ¿cree que los proveedores de modelos de vanguardia captarán la mayor parte del valor, o la mayor parte del impacto económico provendrá de la orquestación, la optimización y los sistemas aplicados construidos en torno a ellos?
Creo que el mercado de la inferencia de IA será uno de los más grandes de la historia. Esto significa que los laboratorios de modelos de vanguardia tendrán un éxito rotundo y seguirá habiendo enormes oportunidades para las empresas que desarrollen soluciones a su alrededor. Cuando se trata de mercados de billones de dólares, resolver casos excepcionales en esos mercados puede dar lugar a empresas multimillonarias.
Gracias por la gran entrevista, los lectores que deseen obtener más información deben visitar NeuroMetric AIo deberían suscribirse al Invertir en IA newsletter.












