Entrevistas

Ingo Mierswa, fundador y presidente de RapidMiner, Inc – Serie de entrevistas

Actualizado on 9 de diciembre de 2022

Ingo Mierswa es el fundador y presidente de RapidMiner, Inc. Minero rápido lleva la inteligencia artificial a la empresa a través de una plataforma de ciencia de datos abierta y extensible. Creado para equipos de análisis, RapidMiner unifica todo el ciclo de vida de la ciencia de datos, desde la preparación de datos hasta el aprendizaje automático. profético despliegue del modelo. Más de 625,000 XNUMX profesionales de análisis utilizan productos RapidMiner para generar ingresos, reducir costos y evitar riesgos.

¿Cuál fue su inspiración para lanzar RapidMiner?

Trabajé en el negocio de consultoría de ciencia de datos durante muchos años y vi la necesidad de una plataforma que fuera más intuitiva y accesible para las personas sin una educación formal en ciencia de datos. Muchas de las soluciones existentes en ese momento se basaban en codificación y secuencias de comandos y simplemente no eran fáciles de usar. Además, dificultó la gestión y el mantenimiento de los datos de las soluciones que se desarrollaron dentro de esas plataformas. Básicamente, me di cuenta de que estos proyectos no tenían por qué ser tan difíciles, así que comenzamos a crear la plataforma RapidMiner para permitir que cualquiera sea un gran científico de datos.

¿Puede hablar sobre la gobernanza de transparencia total que RapidMiner utiliza actualmente?

Cuando no puede explicar un modelo, es bastante difícil de ajustar, confiar y traducir. Gran parte del trabajo de ciencia de datos es la comunicación de los resultados a otros para que las partes interesadas puedan entender cómo mejorar los procesos. Esto requiere confianza y comprensión profunda. Además, los problemas de confianza y traducción pueden hacer que sea muy difícil superar los requisitos corporativos para poner un modelo en producción. Estamos peleando esta batalla de diferentes maneras:

Como una plataforma de ciencia de datos visuales, RapidMiner inherentemente mapea una explicación para todas las canalizaciones y modelos de datos en un formato altamente consumible que puede ser entendido por científicos de datos o no científicos de datos. Hace que los modelos sean transparentes y ayuda a los usuarios a comprender el comportamiento del modelo y evaluar sus fortalezas y debilidades y detectar posibles sesgos.

Además, todos los modelos creados en la plataforma vienen con amplias visualizaciones para que el usuario, generalmente el usuario que crea el modelo, obtenga información del modelo, comprenda el comportamiento del modelo y evalúe los sesgos del modelo.

RapidMiner también proporciona explicaciones del modelo, incluso cuando está en producción: para cada predicción creada por un modelo, RapidMiner genera y agrega los factores de influencia que llevaron o influyeron en las decisiones tomadas por ese modelo en producción.

Finalmente, y esto es muy importante para mí personalmente, ya que lo dirigí con nuestros equipos de ingeniería hace un par de años, RapidMiner también proporciona una capacidad de simulación de modelo extremadamente potente, que permite a los usuarios simular y observar el comportamiento del modelo en función de los datos de entrada proporcionados. por el usuario Los datos de entrada se pueden configurar y cambiar muy fácilmente, lo que permite al usuario comprender el comportamiento predictivo de los modelos en varios casos hipotéticos o del mundo real. El simulador también muestra factores que influyen en la decisión del modelo. El usuario (en este caso, incluso un usuario empresarial o un experto en el dominio) puede comprender el comportamiento del modelo, validar la decisión del modelo frente a resultados reales o conocimiento del dominio e identificar problemas. El simulador le permite simular el mundo real y echar un vistazo al futuro, de hecho, a su futuro.

¿Cómo utiliza RapidMiner el aprendizaje profundo?

Estamos muy orgullosos del uso que hace RapidMiner del aprendizaje profundo. El aprendizaje profundo puede ser muy difícil de aplicar y quienes no son científicos de datos a menudo tienen dificultades para configurar esas redes sin el apoyo de expertos. RapidMiner hace que este proceso sea lo más sencillo posible para usuarios de todo tipo. El aprendizaje profundo es, por ejemplo, parte de nuestro producto de aprendizaje automático (ML) llamado RapidMiner Go. Aquí el usuario no necesita saber nada sobre aprendizaje profundo para hacer uso de ese tipo de modelos sofisticados. Además, los usuarios avanzados pueden profundizar y utilizar bibliotecas populares de aprendizaje profundo como Tensorflow, Keras o DeepLearning4J directamente desde los flujos de trabajo visuales que están creando con RapidMiner. Esto es como jugar con bloques de construcción y simplifica la experiencia para los usuarios con menos habilidades en ciencia de datos. A través de este enfoque, nuestros usuarios pueden construir arquitecturas de red flexibles con diferentes funciones de activación y un número de capas y nodos definido por el usuario, múltiples capas con diferentes números de nodos y elegir entre diferentes técnicas de capacitación.

¿Qué otro tipo de aprendizaje automático se utiliza?

¡Todos ellos! Ofrecemos cientos de algoritmos de aprendizaje diferentes como parte de la plataforma RapidMiner: todo lo que puede aplicar en los lenguajes de programación de ciencia de datos ampliamente utilizados Python y R. Entre otros, RapidMiner ofrece métodos para Naive Bayes, regresión como Modelos lineales generalizados, agrupamiento como como k-Means, FP-Growth, Decision Trees, Random Forests, Parallelized Deep Learning y Gradient Boost Trees. Estos y muchos más son parte de la biblioteca de modelado de RapidMiner y se pueden usar con un solo clic.

¿Puede explicarnos cómo el modelo automático conoce los valores óptimos que se utilizarán?

RapidMiner AutoModel utiliza la automatización inteligente para acelerar todo lo que hacen los usuarios y garantizar que se construyan modelos sólidos y precisos. Esto incluye la selección de instancias y la eliminación automática de valores atípicos, la ingeniería de características para tipos de datos complejos, como fechas o textos, y la ingeniería de características automatizada multiobjetivo completa para seleccionar las características óptimas y construir otras nuevas. Auto Model también incluye otros métodos de limpieza de datos para solucionar problemas comunes en los datos, como valores faltantes, creación de perfiles de datos mediante la evaluación de la calidad y el valor de las columnas de datos, normalización de datos y otras transformaciones.

Auto Model también extrae metadatos de calidad de datos, por ejemplo, cuánto se comporta una columna como una ID o si hay muchos valores faltantes. Estos metadatos se utilizan además de los metadatos básicos para automatizar y ayudar a los usuarios a "usar los valores óptimos" y tratar los problemas de calidad de los datos.

Para obtener más detalles, lo hemos mapeado todo en nuestro Auto Model Blueprint. (Imagen a continuación para contexto adicional)

Hay cuatro fases básicas donde se aplica la automatización:

– Preparación de datos: análisis automático de datos para identificar problemas de calidad comunes como correlaciones, valores faltantes y estabilidad.
– Selección y optimización de modelos automatizados, incluida la validación completa y la comparación de rendimiento, que sugiere las mejores técnicas de aprendizaje automático para datos determinados y determina los parámetros óptimos.
– Simulación de modelo para ayudar a determinar las acciones específicas (prescriptivas) a tomar para lograr el resultado deseado predicho por el modelo.
– En la fase de implementación y operaciones del modelo, a los usuarios se les muestran factores como la deriva, el sesgo y el impacto comercial, automáticamente sin necesidad de trabajo adicional.

El sesgo de la computadora es un problema con cualquier tipo de IA, ¿existen controles para evitar que el sesgo se infiltre en los resultados?

Sí, esto es extremadamente importante para la ciencia de datos ética. Las funciones de gobernanza mencionadas anteriormente garantizan que los usuarios siempre puedan ver exactamente qué datos se han utilizado para la creación de modelos, cómo se transformaron y si existe un sesgo en la selección de datos. Además, nuestras características para la detección de derivas son otra poderosa herramienta para detectar sesgos. Si un modelo en producción demuestra mucha desviación en los datos de entrada, esto puede ser una señal de que el mundo ha cambiado drásticamente. Sin embargo, también puede ser un indicador de que hubo un sesgo severo en los datos de entrenamiento. En el futuro, estamos considerando dar un paso más y construir modelos de aprendizaje automático que puedan usarse para detectar sesgos en otros modelos.

¿Puede hablar sobre RapidMiner AI Cloud y cómo se diferencia de los productos de la competencia?

Los requisitos para un proyecto de ciencia de datos pueden ser grandes, complejos e intensivos en computación, que es lo que ha hecho que el uso de la tecnología en la nube sea una estrategia tan atractiva para los científicos de datos. Desafortunadamente, las diversas plataformas nativas de ciencia de datos basadas en la nube lo vinculan a los servicios en la nube y las ofertas de almacenamiento de datos de ese proveedor de nube en particular.

RapidMiner AI Cloud es simplemente nuestra prestación de servicios en la nube de la plataforma RapidMiner. La oferta se puede adaptar al entorno de cualquier cliente, independientemente de su estrategia de nube. Esto es importante en estos días, ya que el enfoque de la mayoría de las empresas para la gestión de datos en la nube está evolucionando muy rápidamente en el clima actual. La flexibilidad es realmente lo que distingue a RapidMiner AI Cloud. Puede ejecutarse en cualquier servicio en la nube, pila de nube privada o en una configuración híbrida. Somos portátiles en la nube, independientes de la nube, multinube, como prefiera llamarlo.

RapidMiner AI Cloud también es muy sencillo, ya que, por supuesto, ofrecemos la capacidad de administrar todo o parte de la implementación para que los clientes puedan concentrarse en administrar su negocio con IA, y no al revés. Incluso hay una opción bajo demanda, que le permite activar un entorno según sea necesario para proyectos cortos.

RapidMiner Radoop elimina parte de la complejidad detrás de la ciencia de datos, ¿puede decirnos cómo Radoop beneficia a los desarrolladores?

Radoop es principalmente para quienes no son desarrolladores y desean aprovechar el potencial de los grandes datos. RapidMiner Radoop ejecuta flujos de trabajo de RapidMiner directamente dentro de Hadoop sin código. También podemos incorporar el motor de ejecución RapidMiner en Spark para que sea fácil enviar flujos de trabajo completos a Spark sin la complejidad que surge de los enfoques centrados en el código.

¿Una entidad gubernamental podría usar RapidMiner para analizar datos para predecir posibles pandemias, de manera similar a cómo BlueDot opera?

Como plataforma general de ciencia de datos y aprendizaje automático, RapidMiner está destinado a optimizar y mejorar el proceso de creación y gestión de modelos, sin importar qué tema o dominio esté en el centro del problema de ciencia de datos/aprendizaje automático. Si bien nuestro enfoque no es predecir pandemias, con los datos correctos, un experto en la materia (como un virólogo o un epidemiólogo, en este caso) podría usar la plataforma para crear un modelo que pudiera predecir pandemias con precisión. De hecho, muchos investigadores usan RapidMiner, y nuestra plataforma es gratuita para fines académicos.

¿Hay algo más que le gustaría compartir sobre RapidMiner?

¡Darle una oportunidad! Es posible que se sorprenda de lo fácil que puede ser la ciencia de datos y de lo mucho que una buena plataforma puede mejorar su productividad y la de su equipo.

Gracias por este gran entrevistador, los lectores que deseen obtener más información deben visitar Minero rápido.