Entrevistas
Dr. Mike Flaxman, VP de Producto en HEAVY.AI – Serie de Entrevistas

Dr. Mike Flaxman es actualmente el VP de Producto en HEAVY.AI, después de haber servido como Gerente de Producto y haber liderado la práctica de Ciencia de Datos Espaciales en Servicios Profesionales. Ha pasado los últimos 20 años trabajando en la planificación ambiental espacial. Antes de HEAVY.AI, fundó Geodesign Technologies, Inc. y cofundó GeoAdaptive LLC, dos startups que aplicaban tecnologías de análisis espacial a la planificación. Antes de su vida en las startups, fue profesor de planificación en MIT y Gerente de Industria en ESRI.
HEAVY.AI es una plataforma acelerada por hardware para análisis de datos de alto impacto en tiempo real. Utiliza tanto procesamiento GPU como CPU para consultar grandes conjuntos de datos rápidamente, con soporte para SQL y datos geoespaciales. La plataforma incluye herramientas de análisis visual para paneles interactivos, filtrado cruzado y visualizaciones de datos escalables, lo que permite un análisis eficiente de grandes datos en diversas industrias.
¿Puede contarnos sobre su experiencia profesional y qué lo llevó a unirse a HEAVY.AI?
Antes de unirme a HEAVY.AI, pasé años en la academia, enseñando finalmente análisis espaciales en MIT. También dirigí una pequeña firma de consultoría, con una variedad de clientes del sector público. He estado involucrado en proyectos de SIG en 17 países. Mi trabajo me ha llevado desde asesorar a organizaciones como el Banco Interamericano de Desarrollo hasta gestionar la tecnología SIG para arquitectura, ingeniería y construcción en ESRI, el desarrollador de SIG más grande del mundo.
Recuerdo vívidamente mi primer encuentro con lo que ahora es HEAVY.AI, que fue cuando, como consultor, era responsable de la planificación de escenarios para el Programa de Conservación de Hábitat de Playas de Florida. Mis colegas y yo estábamos luchando por modelar el hábitat de las tortugas marinas utilizando datos Landsat de 30m y un amigo me señaló algunos datos completamente nuevos y muy relevantes: LiDAR de 5cm. Era exactamente lo que necesitábamos desde el punto de vista científico, pero algo como 3600 veces más grande de lo que habíamos planeado utilizar. Nadie iba a aumentar mi presupuesto ni siquiera en una fracción de esa cantidad. Así que ese día dejé las herramientas que había estado utilizando y enseñando durante varias décadas y fui en busca de algo nuevo. HEAVY.AI procesó y representó esos datos de manera suave y sin esfuerzo, así que me enganché al instante.
Con el paso de unos años, sigo pensando que lo que HEAVY.AI hace es bastante único y su apuesta temprana por el análisis de GPU es exactamente hacia donde la industria aún necesita dirigirse. HEAVY.AI se centra firmemente en democratizar el acceso a los grandes datos. Esto incluye, por supuesto, el componente de volumen de datos y velocidad de procesamiento, esencialmente dándole a todos su propia supercomputadora. Pero un aspecto cada vez más importante con el advenimiento de los grandes modelos de lenguaje es hacer que el modelado espacial sea accesible para muchas más personas. Estos días, en lugar de pasar años aprendiendo una interfaz compleja con miles de herramientas, simplemente puedes iniciar una conversación con HEAVY.AI en el lenguaje humano de tu elección. El programa no solo genera los comandos necesarios, sino que también presenta visualizaciones relevantes.
Detrás de escena, lograr facilidad de uso es, por supuesto, muy difícil. Actualmente, como VP de Gestión de Producto en HEAVY.AI, estoy muy involucrado en determinar qué características y capacidades priorizamos para nuestros productos. Mi amplia experiencia en SIG me permite realmente entender las necesidades de nuestros clientes y guiar nuestro mapa de ruta de desarrollo en consecuencia.
¿Cómo ha influido su experiencia previa en planificación ambiental espacial y startups en su trabajo en HEAVY.AI?
La planificación ambiental es un dominio particularmente desafiante porque debes tener en cuenta tanto las necesidades humanas como el mundo natural. La solución general que aprendí temprano fue emparejar un método conocido como planificación participativa con las tecnologías de teledetección y SIG. Antes de decidir un plan de acción, creamos múltiples escenarios y simulamos sus impactos positivos y negativos en la computadora utilizando visualizaciones. Utilizar procesos participativos nos permitió combinar varias formas de experiencia y resolver problemas muy complejos.
Aunque no hacemos típicamente planificación ambiental en HEAVY.AI, este patrón sigue funcionando muy bien en entornos empresariales. Así que ayudamos a los clientes a construir gemelos digitales de partes clave de su negocio y les permitimos crear y evaluar escenarios comerciales rápidamente.
Supongo que mi experiencia docente me ha dado una profunda empatía por los usuarios de software, particularmente de sistemas de software complejos. Donde un estudiante tropieza en un lugar es aleatorio, pero donde docenas o cientos de personas cometen errores similares, sabes que tienes un problema de diseño. Quizás mi parte favorita del diseño de software es tomar estos conocimientos y aplicarlos en el diseño de nuevas generaciones de sistemas.
¿Puede explicar cómo HeavyIQ utiliza el procesamiento de lenguaje natural para facilitar la exploración y visualización de datos?
Estos días, parece que todos y su hermano están promocionando un nuevo modelo de IA de generación, la mayoría de ellos son clones olvidables de cada uno. Hemos tomado un camino muy diferente. Creemos que la precisión, la reproducibilidad y la privacidad son características esenciales para cualquier herramienta de análisis empresarial, incluidas aquellas generadas con grandes modelos de lenguaje (LLM). Así que hemos incorporado esas características a nuestro ofrecimiento a un nivel fundamental. Por ejemplo, restringimos estrictamente las entradas del modelo a bases de datos empresariales y proporcionamos documentos dentro de un perímetro de seguridad empresarial. También restringimos las salidas a los últimos HeavySQL y Charts. Eso significa que, independientemente de la pregunta que hagas, intentaremos responder con tus datos y te mostraremos exactamente cómo derivamos esa respuesta.
Con esas garantías en su lugar, importa menos a nuestros clientes exactamente cómo procesamos las consultas. Pero detrás de escena, otra diferencia importante con respecto a la IA de generación de consumidor es que afinamos los modelos extensivamente contra los tipos de preguntas que los usuarios empresariales hacen a los datos empresariales, incluidos los datos espaciales. Así que, por ejemplo, nuestro modelo es excelente para realizar uniones espaciales y de series temporales, que no están en las pruebas clásicas de SQL pero nuestros usuarios las utilizan a diario.
Empaqueta estas capacidades básicas en una interfaz de Notebook que llamamos HeavyIQ. IQ se trata de hacer que la exploración y visualización de datos sean lo más intuitivas posible mediante el uso del procesamiento de lenguaje natural (NLP). Haces una pregunta en inglés, como “¿Cuáles fueron los patrones climáticos en California la semana pasada?” y HeavyIQ traduce eso en consultas SQL que nuestra base de datos acelerada por GPU procesa rápidamente. Los resultados se presentan no solo como datos, sino como visualizaciones: mapas, gráficos, lo que sea más relevante. Se trata de habilitar la consulta interactiva rápida, especialmente cuando se trata de grandes conjuntos de datos o datos en movimiento rápido. Lo que es clave aquí es que a menudo no es la primera pregunta que haces, sino quizás la tercera, lo que realmente llega a la comprensión fundamental, y HeavyIQ está diseñado para facilitar esa exploración más profunda.
¿Cuáles son los beneficios principales de usar HeavyIQ sobre herramientas de inteligencia empresarial tradicionales para empresas de telecomunicaciones, servicios públicos y agencias gubernamentales?
HeavyIQ sobresale en entornos donde se lidia con datos a gran escala y de alta velocidad, exactamente el tipo de datos que las empresas de telecomunicaciones, servicios públicos y agencias gubernamentales manejan. Las herramientas de inteligencia empresarial tradicionales a menudo luchan con el volumen y la velocidad de estos datos. Por ejemplo, en las telecomunicaciones, podrías tener miles de millones de registros de llamadas, pero es la pequeña fracción de llamadas caídas lo que necesitas enfocarte. HeavyIQ te permite tamizar esos datos 10 a 100 veces más rápido gracias a nuestra infraestructura de GPU. Esta velocidad, combinada con la capacidad de consultar y visualizar datos de manera interactiva, la hace invaluable para el análisis de riesgos en servicios públicos o la planificación de escenarios en tiempo real para agencias gubernamentales.
La otra ventaja, ya mencionada anteriormente, es que las consultas SQL espaciales y temporales son extremadamente poderosas analíticamente, pero pueden ser lentas o difíciles de escribir a mano. Cuando un sistema opera a lo que llamamos “la velocidad de la curiosidad”, los usuarios pueden hacer más preguntas y preguntas más matizadas. Así que, por ejemplo, un ingeniero de telecomunicaciones podría notar un pico temporal en fallas de equipo desde un sistema de monitoreo, tener la intuición de que algo está saliendo mal en una instalación en particular y verificar esto con una consulta espacial que devuelve un mapa.
¿Qué medidas están en lugar para prevenir la fuga de metadatos al usar HeavyIQ?
Como se describió anteriormente, hemos construido HeavyIQ con privacidad y seguridad en su núcleo. Esto incluye no solo datos, sino también varios tipos de metadatos. Utilizamos metadatos a nivel de columna y tabla extensivamente para determinar qué tablas y columnas contienen la información necesaria para responder a una consulta. También utilizamos documentos internos de la empresa donde se proporcionan para asistir en lo que se conoce como generación mejorada de recuperación (RAG). Finalmente, los modelos de lenguaje en sí generan más metadatos. Todos estos, pero especialmente los dos últimos, pueden ser de alta sensibilidad empresarial.
A diferencia de los modelos de terceros donde tus datos se envían típicamente a servidores externos, HeavyIQ se ejecuta localmente en la misma infraestructura de GPU que el resto de nuestra plataforma. Esto garantiza que tus datos y metadatos permanezcan bajo tu control, sin riesgo de fuga. Para organizaciones que requieren los niveles más altos de seguridad, HeavyIQ incluso se puede implementar en un entorno completamente aislado, asegurando que la información sensible nunca abandone equipos específicos.
¿Cómo logra HEAVY.AI un alto rendimiento y escalabilidad con conjuntos de datos masivos utilizando la infraestructura de GPU?
El secreto está esencialmente en evitar el movimiento de datos prevalente en otros sistemas. En su núcleo, esto comienza con una base de datos diseñada desde cero para ejecutarse en GPUs de NVIDIA. Hemos estado trabajando en esto durante más de 10 años ahora, y creemos firmemente que tenemos la solución mejor en su clase cuando se trata de análisis acelerados por GPU.
Incluso los mejores sistemas basados en CPU se quedan sin aliento mucho antes de que un GPU promedio. La estrategia una vez que esto sucede en la CPU requiere distribuir los datos a través de múltiples núcleos y luego múltiples sistemas (llamado “escalado horizontal”). Esto funciona bien en algunos contextos donde las cosas son menos críticas en términos de tiempo, pero generalmente comienza a ser limitado por el rendimiento de la red.
Además de evitar este movimiento de datos en las consultas, también lo evitamos en muchas otras tareas comunes. La primera es que podemos renderizar gráficos sin mover los datos. Luego, si deseas modelado de inferencia de ML, lo hacemos nuevamente sin movimiento de datos. Y si interrogas los datos con un gran modelo de lenguaje, lo hacemos una vez más sin movimiento de datos. Incluso si eres un científico de datos y deseas interrogar los datos desde Python, proporcionamos métodos para hacerlo en la GPU sin movimiento de datos.
Lo que significa en la práctica es que podemos realizar no solo consultas, sino también renderizado 10 a 100 veces más rápido que las bases de datos y servidores de mapas tradicionales basados en CPU. Cuando se trata de los conjuntos de datos masivos y de alta velocidad con los que trabajan nuestros clientes, como modelos climáticos, registros de llamadas de telecomunicaciones o imágenes de satélite, ese tipo de impulso de rendimiento es absolutamente esencial.
¿Cómo mantiene HEAVY.AI su ventaja competitiva en el paisaje en constante evolución de análisis de grandes datos y IA?
Esa es una gran pregunta, y es algo en lo que pensamos constantemente. El paisaje de análisis de grandes datos y IA está evolucionando a un ritmo increíblemente rápido, con nuevos avances y innovaciones sucediendo todo el tiempo. Cierto que no nos hace daño que tengamos una ventaja de 10 años en la tecnología de base de datos de GPU.
Creo que la clave para nosotros es mantenernos enfocados en nuestra misión central: democratizar el acceso a los grandes datos geoespaciales. Eso significa continuar empujando los límites de lo que es posible con análisis acelerados por GPU, y asegurarnos de que nuestros productos entreguen un rendimiento y capacidades sin precedentes en este dominio. Una gran parte de eso es nuestra continua inversión en el desarrollo de modelos de lenguaje personalizados que verdaderamente entienden las complejidades del SQL espacial y el análisis geoespacial.
Hemos construido una extensa biblioteca de datos de entrenamiento, que va mucho más allá de las pruebas genéricas, para asegurarnos de que nuestras herramientas de análisis conversacional puedan interactuar con los usuarios de una manera natural e intuitiva. Pero también sabemos que la tecnología sola no es suficiente. Tenemos que mantenernos profundamente conectados con nuestros clientes y sus necesidades en evolución. Al final del día, nuestra ventaja competitiva se reduce a nuestro enfoque incansable en entregar un valor transformador a nuestros usuarios. No solo estamos manteniendo el ritmo del mercado, estamos empujando los límites de lo que es posible con los grandes datos y la IA. Y seguiremos haciéndolo, sin importar lo rápido que evolucione el paisaje.
¿Cómo apoya HEAVY.AI los esfuerzos de respuesta a emergencias a través de HeavyEco?
Construímos HeavyEco cuando vimos que algunos de nuestros clientes más grandes de servicios públicos tenían importantes desafíos simplemente ingiriendo las salidas actuales de los modelos climáticos, así como visualizarlos para comparaciones conjuntas. Les estaba tomando a un cliente hasta cuatro horas solo cargar los datos, y cuando estás frente a condiciones climáticas extremas en movimiento rápido como incendios… eso simplemente no es suficiente.
HeavyEco está diseñado para proporcionar información en tiempo real en situaciones de alto riesgo, como durante un incendio forestal o una inundación. En tales escenarios, necesitas tomar decisiones rápidamente y basadas en los mejores datos posibles. Así que HeavyEco sirve primero como una tubería de datos profesionalmente administrada para modelos autorizados como los de NOAA y USGS. Sobre esos, HeavyEco permite ejecutar escenarios, modelar impactos a nivel de edificio y visualizar datos en tiempo real. Esto da a los equipos de respuesta a emergencias la información crítica que necesitan cuando más importa. Se trata de convertir conjuntos de datos complejos y de gran escala en inteligencia accionable que pueda guiar la toma de decisiones inmediata.
En última instancia, nuestro objetivo es dar a nuestros usuarios la capacidad de explorar sus datos a la velocidad del pensamiento. Ya sea que estén ejecutando modelos espaciales complejos, comparando pronósticos del clima o tratando de identificar patrones en series de tiempo geoespaciales, queremos que puedan hacerlo sin barreras técnicas que se interpongan en su camino.
¿Qué distingue el LLM propietario de HEAVY.AI de los LLM de terceros en términos de precisión y rendimiento?
Nuestro LLM propietario está específicamente ajustado para los tipos de análisis en los que nos enfocamos, como texto a SQL y texto a visualización. Inicialmente intentamos modelos de terceros tradicionales, pero encontramos que no cumplían con los altos requisitos de precisión de nuestros usuarios, que a menudo toman decisiones críticas. Así que afinamos una serie de modelos de código abierto y los probamos contra pruebas de la industria.
Nuestro LLM es mucho más preciso para los conceptos SQL avanzados que nuestros usuarios necesitan, particularmente en datos geoespaciales y temporales. Además, dado que se ejecuta en nuestra infraestructura de GPU, también es más seguro.
Además de las capacidades del modelo integrado, también proporcionamos una interfaz de usuario interactiva completa para administradores y usuarios para agregar metadatos relevantes del dominio o negocio. Por ejemplo, si el modelo base no funciona como se espera, puedes importar o ajustar metadatos a nivel de columna, o agregar información de orientación y obtener retroalimentación inmediata.
¿Cómo vislumbra HEAVY.AI el papel del análisis de datos geoespaciales y temporales en la configuración del futuro de diversas industrias?
Creemos que el análisis de datos geoespaciales y temporales será fundamental para el futuro de muchas industrias. Lo que realmente nos enfocamos es en ayudar a nuestros clientes a tomar mejores decisiones, más rápido. Ya sea que estés en telecomunicaciones, servicios públicos o gobierno, o en otros, tener la capacidad de analizar y visualizar datos en tiempo real puede ser un juego cambiador.
Nuestra misión es hacer que este tipo de análisis poderoso sea accesible para todos, no solo para los grandes jugadores con recursos masivos. Queremos asegurarnos de que nuestros clientes puedan aprovechar los datos que tienen, para mantenerse por delante y resolver problemas a medida que surgen. A medida que los datos continúan creciendo y volviéndose más complejos, vemos nuestro papel como asegurarnos de que nuestras herramientas evolucionen junto con ellos, para que nuestros clientes siempre estén preparados para lo que viene.
Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar HEAVY.AI.












