Connect with us

人工智能

Ingo Mierswa,RapidMiner公司创始人兼总裁 – 采访系列

mm

Ingo Mierswa是RapidMiner公司的创始人兼总裁。RapidMiner将人工智能带到企业中,通过一个开放和可扩展的数据科学平台。为分析团队构建,RapidMiner统一了整个数据科学生命周期,从数据准备到机器学习到预测模型部署。超过625,000名分析专业人员使用RapidMiner产品来驱动收入,减少成本和避免风险。

是什么启发你创立RapidMiner的?

我曾在数据科学咨询业务中工作了很多年,我看到需要一个更直观和易于使用的平台,适用于没有正式数据科学教育的人。很多当时存在的解决方案依赖于编码和脚本,它们根本不用户友好。另外,它使得数据难以管理和维护在这些平台中开发的解决方案。基本上,我意识到这些项目不需要这么困难,所以我们开始创建RapidMiner平台,以允许任何人成为伟大的数据科学家。

你能讨论RapidMiner目前使用的完全透明的治理吗?

当你不能解释一个模型时,很难调整、信任和翻译。大量的数据科学工作是向他人传达结果,以便利利干系人理解如何改进流程。这需要信任和深入的理解。另外,信任和翻译的问题可能使得很难克服将模型投入生产的企业要求。我们正在通过多种方式对抗这一战斗:

作为一个可视化的数据科学平台,RapidMiner本质上为所有数据管道和模型绘制出了一份解释的图表,以高度可消费的格式呈现,可以被数据科学家或非数据科学家理解。它使模型透明,帮助用户理解模型行为和评估其优缺点以及检测潜在的偏见。

此外,平台中创建的所有模型都附带了广泛的可视化工具,供用户(通常是创建模型的用户)获得模型见解,理解模型行为和评估模型偏见。

RapidMiner还提供模型解释,即使在生产中:对于模型创建的每个预测,RapidMiner都会生成并添加导致或影响该模型在生产中做出的决定的影响因素。

最后——这对我个人来说非常重要,因为我几年前曾推动我们的工程团队——RapidMiner还提供了一个非常强大的模型模拟器功能,允许用户模拟和观察模型行为,基于用户提供的输入数据。输入数据可以轻松设置和更改,允许用户了解模型在各种假设或真实世界案例中的预测行为。模拟器还显示了影响模型决策的因素。用户——在这种情况下,即使是业务用户或领域专家——可以理解模型行为,验证模型决策与实际结果或领域知识,并识别问题。模拟器允许您模拟真实世界并展望未来——您的未来。

RapidMiner如何使用深度学习?

RapidMiner使用深度学习是我们非常自豪的。深度学习可能很难应用,非数据科学家通常在没有专家支持的情况下难以设置这些网络。RapidMiner使这个过程对于所有类型的用户都尽可能简单。例如,深度学习是我们自动机器学习(ML)产品RapidMiner Go的一部分。在这里,用户不需要知道任何关于深度学习的知识就可以使用这些复杂的模型。另外,高级用户可以更深入地使用流行的深度学习库,如Tensorflow、Keras或DeepLearning4J,直接从他们使用RapidMiner构建的视觉工作流中。这就像玩积木一样,简化了对数据科学技能较少的用户的体验。通过这种方法,我们的用户可以构建具有不同激活函数和用户定义的层数和节点的灵活网络架构,具有不同数量的节点的多个层,并从不同的训练技术中选择。

还有什么其他类型的机器学习被使用?

所有!我们提供了成百上千种不同的学习算法作为RapidMiner平台的一部分——一切你可以在广泛使用的数据科学编程语言Python和R中应用的东西。RapidMiner提供了诸如Naive Bayes、回归(如广义线性模型)、聚类(如k-Means、FP-Growth)、决策树、随机森林、并行深度学习和梯度提升树等方法。这些以及更多都是RapidMiner的建模库的一部分,可以通过单击使用。

你能讨论Auto Model如何知道使用的最佳值吗?

RapidMiner AutoModel使用智能自动化来加速用户所做的一切,并确保准确、健全的模型被构建。这包括实例选择和自动异常值删除、复杂数据类型(如日期或文本)的特征工程,以及用于选择最佳特征和构造新特征的全多目标自动特征工程。Auto Model还包括其他数据清理方法来解决数据中的常见问题,例如缺失值、数据-profiling(通过评估数据列的质量和价值)、数据归一化和各种其他转换。

Auto Model还提取数据质量元数据——例如,一个列如何表现得像一个ID,或者是否有很多缺失值。这些元数据与基本元数据一起用于自动化和帮助用户“使用最佳值”以及处理数据质量问题。

为了更详细地说明,我们已经在我们的Auto Model Blueprint中绘制了所有内容。(下面的图像提供了额外的上下文)

自动化应用的有四个基本阶段:

– 数据准备:自动分析数据以识别常见的质量问题,如相关性、缺失值和稳定性。
– 自动模型选择和优化,包括全面的验证和性能比较,建议最适合给定数据的机器学习技术,并确定最佳参数。
– 模型模拟,以帮助确定要采取的具体(规定)行动,以实现模型预测的期望结果。
– 在模型部署和运营阶段,用户会看到诸如漂移、偏差和业务影响等因素,所有这些都无需额外的工作。

计算偏差是任何类型的AI的问题,是否有任何控制措施来防止偏差在结果中出现?

是的,这对于道德数据科学来说确实非常重要。前面提到的治理功能确保用户可以始终看到确切的数据用于模型构建,如何转换数据,以及是否存在数据选择中的偏差。另外,我们的漂移检测功能是另一个强大的工具,用于检测偏差。如果生产中的模型表现出大量的输入数据漂移,这可能是世界已经发生了显著变化的迹象。然而,它也可能是训练数据中存在严重偏差的指标。在未来,我们正在考虑进一步采取措施,构建可以用于检测其他模型偏差的机器学习模型。

你能讨论RapidMiner AI Cloud以及它如何与竞争对手的产品区别开来吗?

数据科学项目的要求可能很大、很复杂、计算密集,这使得云技术的使用对数据科学家来说成为了一种有吸引力的策略。不幸的是,各种本地云数据科学平台将您绑定到特定云供应商的云服务和数据存储产品。

RapidMiner AI Cloud只是我们云服务交付的RapidMiner平台。该产品可以根据任何客户的环境进行定制,无论他们的云策略如何。这在当前气候下非常重要,因为大多数企业的云数据管理方法正在迅速演变。灵活性真正使RapidMiner AI Cloud与众不同。它可以在任何云服务、专有云栈或混合设置中运行。我们是云便携、云无关、多云——无论您喜欢怎么称呼。

RapidMiner AI Cloud还非常低维护,因为我们当然提供了管理部署的全部或部分的能力,以便客户可以专注于使用AI运行他们的业务,而不是相反。甚至还有一个按需选项,允许您根据需要为短期项目启动环境。

RapidMiner Radoop消除了数据科学的一些复杂性,你能告诉我们Radoop如何让开发人员受益吗?

Radoop主要适用于希望利用大数据潜力的非开发人员。RapidMiner Radoop直接在Hadoop中以无代码的方式执行RapidMiner工作流。我们还可以将RapidMiner执行引擎嵌入Spark,因此可以在没有代码中心方法复杂性的情况下将完整的工作流推入Spark。

政府实体是否能够使用RapidMiner分析数据以预测潜在的流行病,类似于BlueDot的操作方式?

作为一个一般的数据科学和机器学习平台,RapidMiner旨在简化和增强模型创建和管理过程,无论数据科学/机器学习问题的中心是什么。虽然我们的重点不是预测流行病,但有了正确的数据,主题专家(在这种情况下,例如病毒学家或流行病学家)可以使用该平台创建一个可以准确预测流行病的模型。事实上,许多研究人员使用RapidMiner——我们的平台用于学术目的是免费的。

您是否还有其他关于RapidMiner的信息想要分享?

尝试一下!您可能会惊讶于数据科学可以多么简单,以及一个好的平台可以提高您和您的团队的生产力。

感谢这次伟大的采访,希望了解更多的读者应该访问RapidMiner

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。