Inteligencia artificial

Ingo Mierswa, Fundador y Presidente de RapidMiner, Inc – Serie de Entrevistas

mm

Ingo Mierswa es el Fundador y Presidente de RapidMiner, Inc. RapidMiner lleva la inteligencia artificial a la empresa a través de una plataforma de ciencia de datos abierta y extensible. Diseñada para equipos de análisis, RapidMiner unifica todo el ciclo de vida de la ciencia de datos, desde la preparación de datos hasta el aprendizaje automático y la implementación de modelos predictivos. Más de 625,000 profesionales de análisis utilizan los productos de RapidMiner para impulsar los ingresos, reducir los costos y evitar riesgos.

¿Cuál fue su inspiración detrás del lanzamiento de RapidMiner?

Trabajé en el negocio de consultoría de ciencia de datos durante muchos años y vi la necesidad de una plataforma que fuera más intuitiva y accesible para las personas sin una educación formal en ciencia de datos. Muchas de las soluciones existentes en ese momento dependían de la codificación y la programación, y simplemente no eran fáciles de usar. Además, hacía que los datos fueran difíciles de gestionar y mantener las soluciones que se desarrollaron dentro de esas plataformas. Básicamente, me di cuenta de que estos proyectos no tenían que ser tan difíciles, así que empezamos a crear la plataforma RapidMiner para permitir que cualquier persona sea un gran científico de datos.

¿Puede discutir la gobernanza de transparencia total que está siendo utilizada actualmente por RapidMiner?

Cuando no se puede explicar un modelo, es bastante difícil afinar, confiar y traducir. Gran parte del trabajo de ciencia de datos es la comunicación de los resultados a otros para que los interesados puedan entender cómo mejorar los procesos. Esto requiere confianza y comprensión profunda. También, los problemas de confianza y traducción pueden hacer que sea muy difícil superar los requisitos corporativos para poner un modelo en producción. Estamos luchando contra esta batalla de varias maneras:

Como una plataforma de ciencia de datos visual, RapidMiner cartografía inherentemente una explicación para todas las tuberías de datos y modelos en un formato muy consumible que puede ser entendido por científicos de datos o no científicos de datos. Hace que los modelos sean transparentes y ayuda a los usuarios a comprender el comportamiento del modelo y evaluar sus fortalezas y debilidades, y detectar posibles sesgos.

Además, todos los modelos creados en la plataforma vienen con extensas visualizaciones para el usuario, generalmente el usuario que crea el modelo, para obtener información del modelo, comprender el comportamiento del modelo y evaluar los sesgos del modelo.

RapidMiner también proporciona explicaciones de modelos, incluso cuando están en producción: para cada predicción creada por un modelo, RapidMiner genera y agrega los factores de influencia que han llevado o influido en las decisiones tomadas por ese modelo en producción.

Finalmente, y esto es muy importante para mí personalmente, ya que lo estaba impulsando con nuestros equipos de ingeniería hace unos años, RapidMiner también proporciona una capacidad de simulación de modelo extremadamente poderosa, que permite a los usuarios simular y observar el comportamiento del modelo en función de los datos de entrada proporcionados por el usuario. Los datos de entrada se pueden establecer y cambiar muy fácilmente, lo que permite al usuario comprender el comportamiento predictivo del modelo en varios casos hipotéticos o del mundo real. El simulador también muestra los factores que influyen en la decisión del modelo. El usuario, en este caso incluso un usuario empresarial o experto en dominio, puede comprender el comportamiento del modelo, validar la decisión del modelo contra resultados reales o conocimientos de dominio, e identificar problemas. El simulador permite simular el mundo real y mirar hacia el futuro, hacia su futuro, de hecho.

¿Cómo utiliza RapidMiner el aprendizaje profundo?

El uso de aprendizaje profundo de RapidMiner es algo de lo que estamos muy orgullosos. El aprendizaje profundo puede ser muy difícil de aplicar, y los no científicos de datos a menudo luchan para configurar esas redes sin apoyo experto. RapidMiner hace que este proceso sea lo más simple posible para los usuarios de todos los tipos. El aprendizaje profundo es, por ejemplo, parte de nuestro producto de aprendizaje automático (ML) llamado RapidMiner Go. Aquí, el usuario no necesita saber nada sobre aprendizaje profundo para aprovechar esos tipos de modelos sofisticados. Además, los usuarios avanzados pueden profundizar y utilizar bibliotecas de aprendizaje profundo populares como Tensorflow, Keras o DeepLearning4J directamente desde los flujos de trabajo visuales que están creando con RapidMiner. Esto es como jugar con bloques y simplifica la experiencia para los usuarios con menos habilidades en ciencia de datos. A través de este enfoque, nuestros usuarios pueden crear arquitecturas de red flexibles con diferentes funciones de activación y número de capas y nodos definidos por el usuario, múltiples capas con diferentes números de nodos, y elegir entre diferentes técnicas de entrenamiento.

¿Qué otro tipo de aprendizaje automático se utiliza?

Todos ellos. Ofrecemos cientos de diferentes algoritmos de aprendizaje como parte de la plataforma RapidMiner, todo lo que se puede aplicar en los lenguajes de programación de ciencia de datos más utilizados, Python y R. Entre otros, RapidMiner ofrece métodos para Naive Bayes, regresión como Modelos Lineales Generalizados, clustering como k-Means, FP-Growth, Árboles de Decisión, Bosques Aleatorios, Aprendizaje Profundo Paralelo y Árboles de Impulso Gradual. Estos y muchos más son parte de la biblioteca de modelado de RapidMiner y se pueden utilizar con un solo clic.

¿Puede discutir cómo el modelo Auto sabe los valores óptimos para utilizar?

RapidMiner AutoModel utiliza la automatización inteligente para acelerar todo lo que los usuarios hacen y garantizar que se creen modelos precisos y sólidos. Esto incluye la selección de instancias y la eliminación automática de valores atípicos, la ingeniería de características para datos complejos como fechas o textos, y la ingeniería de características automatizada multiobjetivo para seleccionar las características óptimas y construir otras nuevas. Auto Model también incluye otros métodos de limpieza de datos para solucionar problemas comunes en los datos, como valores perdidos, perfil de datos al evaluar la calidad y el valor de las columnas de datos, normalización de datos y varias otras transformaciones.

Auto Model también extrae metadatos de calidad de datos, por ejemplo, cómo se comporta una columna como un ID o si hay muchos valores perdidos. Estos metadatos se utilizan además de los metadatos básicos para automatizar y asistir a los usuarios en “utilizar los valores óptimos” y solucionar problemas de calidad de datos.

Para más detalles, lo hemos cartografiado todo en nuestro Plan de Auto Model. (Imagen a continuación para contexto adicional)

Hay cuatro fases básicas donde se aplica la automatización:

– Preparación de datos: Análisis automático de datos para identificar problemas de calidad comunes como correlaciones, valores perdidos y estabilidad.
– Selección y optimización de modelo automatizada, incluida la validación y comparación de rendimiento completa, que sugiere las mejores técnicas de aprendizaje automático para los datos dados y determina los parámetros óptimos.
– Simulación de modelo para ayudar a determinar las acciones específicas (prescriptivas) que se deben tomar para lograr el resultado deseado predicho por el modelo.
– En la fase de implementación y operaciones del modelo, se muestran a los usuarios factores como la deriva, el sesgo y el impacto empresarial, automáticamente sin requerir trabajo adicional.

El sesgo informático es un problema con cualquier tipo de IA, ¿hay controles en lugar para prevenir que el sesgo se infiltre en los resultados?

Sí, esto es extremadamente importante para la ciencia de datos ética. Las características de gobernanza mencionadas anteriormente garantizan que los usuarios siempre puedan ver exactamente qué datos se han utilizado para la creación de modelos, cómo se transformaron y si hay sesgo en la selección de datos. Además, nuestras características para la detección de deriva son otra herramienta poderosa para detectar el sesgo. Si un modelo en producción muestra mucha deriva en los datos de entrada, esto puede ser un signo de que el mundo ha cambiado dramáticamente. Sin embargo, también puede ser un indicador de que hubo un sesgo grave en los datos de entrenamiento. En el futuro, estamos considerando ir un paso más allá y construir modelos de aprendizaje automático que puedan detectar el sesgo en otros modelos.

¿Puede discutir la nube de IA de RapidMiner y cómo se diferencia de los productos competidores?

Los requisitos para un proyecto de ciencia de datos pueden ser grandes, complejos y intensivos en cálculo, lo que ha hecho que el uso de la tecnología en la nube sea una estrategia atractiva para los científicos de datos. Desafortunadamente, las diversas plataformas de ciencia de datos nativas en la nube atan al usuario a los servicios y ofertas de almacenamiento de datos de ese proveedor de nube en particular.

La nube de IA de RapidMiner es simplemente nuestra entrega de servicio en la nube de la plataforma RapidMiner. La oferta se puede personalizar para el entorno de cualquier cliente, independientemente de su estrategia de nube. Esto es importante en estos días, ya que la mayoría de las empresas están evolucionando rápidamente en su enfoque de gestión de datos en la nube. La flexibilidad es realmente lo que distingue a la nube de IA de RapidMiner. Puede ejecutarse en cualquier servicio de nube, pila de nube privada o en un entorno híbrido. Somos portátiles en la nube, agnósticos de la nube, multi-nube, o como prefieras llamarlo.

La nube de IA de RapidMiner también es muy poco problemática, ya que, por supuesto, ofrecemos la capacidad de gestionar toda o parte de la implementación para los clientes para que puedan centrarse en ejecutar su negocio con IA, no al revés. Incluso hay una opción bajo demanda, que permite activar un entorno según sea necesario para proyectos cortos.

RapidMiner Radoop elimina parte de la complejidad detrás de la ciencia de datos, ¿puede decirnos cómo Radoop beneficia a los desarrolladores?

Radoop es principalmente para no desarrolladores que desean aprovechar el potencial de los grandes datos. RapidMiner Radoop ejecuta flujos de trabajo de RapidMiner directamente dentro de Hadoop de manera libre de código. También podemos incrustar el motor de ejecución de RapidMiner en Spark para que sea fácil empujar flujos de trabajo completos a Spark sin la complejidad que conlleva los enfoques centrados en el código.

¿Un ente gubernamental podría utilizar RapidMiner para analizar datos para predecir posibles pandemias, similar a cómo opera BlueDot?

Como una plataforma general de ciencia de datos y aprendizaje automático, RapidMiner está diseñada para optimizar y mejorar el proceso de creación y gestión de modelos, sin importar el tema o dominio que se encuentre en el centro del problema de ciencia de datos/aprendizaje automático. Aunque nuestro enfoque no está en predecir pandemias, con los datos adecuados, un experto en la materia (como un virólogo o epidemiólogo, en este caso) podría utilizar la plataforma para crear un modelo que pueda predecir pandemias con precisión. De hecho, muchos investigadores utilizan RapidMiner, y nuestra plataforma es gratuita para fines académicos.

¿Hay algo más que le gustaría compartir sobre RapidMiner?

¡Pruebe! Puede sorprenderse de lo fácil que puede ser la ciencia de datos y cuánto puede mejorar la productividad de usted y su equipo una buena plataforma.

Gracias por esta gran entrevista. Los lectores que deseen aprender más deben visitar RapidMiner.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.