Connect with us

Инго Мирсва, Основатель и Президент в RapidMiner, Inc – Интервью Серия

Искусственный интеллект

Инго Мирсва, Основатель и Президент в RapidMiner, Inc – Интервью Серия

mm

Инго Мирсва является Основателем и Президентом в RapidMiner, Inc. RapidMiner привносит искусственный интеллект в предприятия через открытую и расширяемую платформу для науки о данных. Созданная для команд аналитики, RapidMiner объединяет весь жизненный цикл науки о данных от подготовки данных до машинного обучения и до развертывания прогнозирующих моделей. Более 625 000 профессионалов аналитики используют продукты RapidMiner, чтобы стимулировать доход, сократить затраты и избежать рисков.

Какова была ваша вдохновение за запуском RapidMiner?

Я работал в бизнесе консалтинга по науке о данных в течение многих лет и увидел необходимость в платформе, которая была бы более интуитивной и доступной для людей без формального образования в области науки о данных. Многие из существующих решений в то время полагались на кодирование и скриптинг и были просто не удобными для пользователя. Кроме того, это сделало данные трудными для управления и поддержания решений, разработанных в этих платформах. По сути, я понял, что эти проекты не должны быть такими сложными, поэтому мы начали создавать платформу RapidMiner, чтобы любой мог стать отличным ученым в области данных.

Можете ли вы обсудить полную прозрачность управления, которая в настоящее время используется RapidMiner?

Когда вы не можете объяснить модель, довольно трудно настроить, доверять и перевести. Большая часть работы в области науки о данных – это передача результатов другим, чтобы заинтересованные стороны могли понять, как улучшить процессы. Это требует доверия и глубокого понимания. Кроме того, проблемы с доверием и переводом могут сделать очень трудным преодолеть корпоративные требования, чтобы получить модель в производство. Мы ведем эту битву несколькими способами:

Как визуальная платформа науки о данных, RapidMiner по своей сути картографирует объяснение для всех конвейеров данных и моделей в высоко потребляемом формате, который может быть понятен как учеными в области данных, так и не-учеными. Это делает модели прозрачными и помогает пользователям понимать поведение модели и оценивать ее сильные и слабые стороны, а также обнаруживать потенциальные предубеждения.

Кроме того, все модели, созданные на платформе, поставляются с обширными визуализациями для пользователя – обычно пользователем, создающим модель, – чтобы получить представление о модели, понять поведение модели и оценить предубеждения модели.

RapidMiner также предоставляет объяснения моделей – даже когда они находятся в производстве: для каждого прогноза, созданного моделью, RapidMiner генерирует и добавляет факторы влияния, которые привели к или повлияли на решения, принятые этой моделью в производстве.

Наконец – и это очень важно для меня лично, поскольку я был движущей силой этого с нашими инженерными командами несколько лет назад – RapidMiner также предоставляет чрезвычайно мощную возможность симуляции модели, которая позволяет пользователям симулировать и наблюдать поведение модели на основе входных данных, предоставленных пользователем. Входные данные можно легко задать и изменить, что позволяет пользователю понять прогнозирующее поведение моделей на различных гипотетических или реальных случаях. Симулятор также отображает факторы, влияющие на решение модели. Пользователь – в данном случае даже бизнес-пользователь или эксперт в области – может понять поведение модели, проверить решение модели с реальными результатами или знаниями в области и выявить проблемы. Симулятор позволяет вам симулировать реальный мир и заглянуть в будущее – в ваше будущее, собственно.

Как RapidMiner использует глубокое обучение?

Использование глубокого обучения в RapidMiner – это то, чем мы очень гордимся. Глубокое обучение может быть очень трудно применить, и не-ученые в области данных часто борются с настройкой этих сетей без экспертной поддержки. RapidMiner делает этот процесс как можно проще для пользователей всех типов. Глубокое обучение, например, является частью нашего продукта Auto машинного обучения (ML) под названием RapidMiner Go. Здесь пользователь не должен знать ничего о глубоком обучении, чтобы использовать эти сложные модели. Кроме того, мощные пользователи могут глубже и использовать популярные библиотеки глубокого обучения, такие как Tensorflow, Keras или DeepLearning4J, прямо из визуальных рабочих процессов, которые они строят с RapidMiner. Это как играть с блоками и упрощает опыт для пользователей с меньшими навыками в области науки о данных. Благодаря этому подходу наши пользователи могут создавать гибкие сетевые архитектуры с разными функциями активации и пользовательским количеством слоев и узлов, несколько слоев с разным количеством узлов, и выбирать из разных методов обучения.

Какой другой тип машинного обучения используется?

Все! Мы предлагаем сотни разных алгоритмов обучения в качестве части платформы RapidMiner – все, что можно применить в широко используемых языках программирования науки о данных Python и R. Среди других RapidMiner предлагает методы для Наивного Байеса, регрессии, такие как Обобщенные линейные модели, кластеризации, такие как k-Means, FP-Growth, Деревья решений, Случайные леса, Параллельное глубокое обучение и Градиентный бустинг. Эти и многие другие являются частью библиотеки моделей RapidMiner и могут быть использованы с одним кликом.

Можете ли вы обсудить, как Auto Model знает оптимальные значения для использования?

RapidMiner AutoModel использует интеллектуальную автоматизацию, чтобы ускорить все, что делают пользователи, и обеспечить точные, правильные модели. Это включает в себя выбор экземпляров и автоматическое удаление аномалий, инженерия функций для сложных типов данных, таких как даты или тексты, и полная многоцелевая автоматизированная инженерия функций для выбора оптимальных функций и создания новых. Auto Model также включает в себя другие методы очистки данных для исправления общих проблем в данных, таких как пропущенные значения, профилирование данных путем оценки качества и значения столбцов данных, нормализация данных и различные другие преобразования.

Auto Model также извлекает метаданные качества данных – например, как много столбец ведет себя как идентификатор или есть ли много пропущенных значений. Эти метаданные используются в дополнение к базовым метаданным в автоматизации и помощи пользователям в “использовании оптимальных значений” и решении проблем качества данных.

Для более подробной информации мы все это отображаем в нашей Схеме Auto Model. (Изображение ниже для дополнительного контекста)

Есть четыре основных фазы, где применяется автоматизация:

– Подготовка данных: Автоматический анализ данных для выявления общих проблем качества, таких как корреляции, пропущенные значения и стабильность.
– Автоматический выбор модели и оптимизация, включая полную проверку и сравнение производительности, который предлагает лучшие методы машинного обучения для заданных данных и определяет оптимальные параметры.
– Симуляция модели для определения конкретных (предписывающих) действий, которые необходимо предпринять, чтобы достичь желаемого результата, предсказанного моделью.
– В фазе развертывания и эксплуатации модели пользователи показывают факторы, такие как дрейф, предубеждение и бизнес-воздействие, автоматически без дополнительной работы.

Компьютерное предубеждение является проблемой для любого типа ИИ, есть ли какие-либо контроли, чтобы предотвратить предубеждение от проникновения в результаты?

Да, это действительно чрезвычайно важно для этической науки о данных. Функции управления, упомянутые ранее, обеспечивают, чтобы пользователи всегда могли видеть точно, какие данные были использованы для построения модели, как они были преобразованы, и есть ли предубеждение в выборе данных. Кроме того, наши функции для обнаружения дрейфа являются еще одним мощным инструментом для обнаружения предубеждения. Если модель в производстве демонстрирует много дрейфа в входных данных, это может быть признаком того, что мир изменился драматически. Однако это также может быть индикатором того, что было серьезное предубеждение в обучающих данных. В будущем мы рассматриваем возможность дальнейшего шага и создания моделей машинного обучения, которые могут быть использованы для обнаружения предубеждения в других моделях.

Можете ли вы обсудить RapidMiner AI Cloud и то, как он отличается от конкурирующих продуктов?

Требования для проекта науки о данных могут быть большими, сложными и требовательными к вычислениям, что сделало использование облачных технологий такой привлекательной стратегией для ученых в области данных. К сожалению, различные родные облачные платформы науки о данных привязывают вас к облачным услугам и предложениям хранения данных этого конкретного облачного поставщика.

RapidMiner AI Cloud – это просто наша облачная служба доставки платформы RapidMiner. Предложение может быть адаптировано к любой среде клиента, независимо от его облачной стратегии. Это важно в эти дни, поскольку подход большинства бизнесов к управлению облачными данными развивается очень быстро в текущем климате. Гибкость – это то, что отличает RapidMiner AI Cloud. Он может работать в любой облачной службе, частной облачной стопке или в гибридной установке. Мы являются облачно-портативными, облачно-агностическими, многооблачными – как вы предпочитаете называть это.

RapidMiner AI Cloud также очень мало проблем, поскольку, конечно, мы предлагаем возможность управлять всем или частью развертывания для клиентов, чтобы они могли сосредоточиться на запуске своего бизнеса с ИИ, а не наоборот. Есть даже опция по требованию, которая позволяет вам запустить среду по мере необходимости для коротких проектов.

RapidMiner Radoop устраняет некоторую сложность за наукой о данных, можете ли вы рассказать нам, как Radoop выгоден для разработчиков?

Radoop в основном предназначен для не-разработчиков, которые хотят использовать потенциал больших данных. RapidMiner Radoop выполняет рабочие процессы RapidMiner直接 внутри Hadoop в код- свободном режиме. Мы также можем встроить движок выполнения RapidMiner в Spark, поэтому легко запустить полные рабочие процессы в Spark без сложности, которая возникает из код-центричного подхода.

Могла бы правительственная организация использовать RapidMiner для анализа данных, чтобы предсказать потенциальные пандемии, подобно тому, как работает BlueDot?

Как общая платформа науки о данных и машинного обучения, RapidMiner предназначена для оптимизации и улучшения процесса создания и управления моделями, независимо от предметной области или области, находящейся в центре проблемы науки о данных/машинного обучения. Хотя наша основная направленность не на предсказании пандемий, с правильными данными эксперт в предметной области (например, вирусолог или эпидемиолог в данном случае) может использовать платформу для создания модели, которая могла бы точно предсказать пандемии. На самом деле, многие исследователи используют RapidMiner – и наша платформа бесплатна для академических целей.

Есть ли что-то еще, что вы хотели бы поделиться о RapidMiner?

Попробуйте! Вы можете быть удивлены, насколько проста наука о данных и насколько хорошая платформа может улучшить вашу и производительность вашей команды.

Благодарим за это отличное интервью, читатели, которые хотят узнать больше, должны посетить RapidMiner.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.