Свяжитесь с нами:

Готовые или пользовательские модели машинного обучения?

AI 101

Готовые или пользовательские модели машинного обучения?

mm
Готовые модели против нестандартных моделей

Когда создание лучше, чем покупка готового решения?

Компании могут использовать разные подходы к разработке моделей. От полностью управляемых услуг машинного обучения до пользовательских моделей. В зависимости от бизнес-требований, имеющегося опыта и ограничений планирования они должны сделать выбор: следует ли им разрабатывать индивидуальные решения с нуля? Или они должны выбрать готовую услугу?

На всех этапах рабочих нагрузок ML необходимо принять решение относительно того, как различные части головоломки будут сочетаться друг с другом. Начиная со сбора, подготовки и визуализации данных и заканчивая разработкой функций, обучением и оценкой моделей, инженеры по машинному обучению постоянно задают себе один и тот же вопрос: будет ли это индивидуально реализованное решение, написанное и разработанное с нуля? Или это будет стандартная услуга?

Но когда создание лучше, чем покупка готового решения? Основные различия между двумя подходами: усилия по предварительной обработке, скорость разработки и требуемый опыт.

Что следует учитывать при принятии решения об использовании готовых или пользовательских моделей машинного обучения?

Усилия по предварительной обработке

Проекты машинного обучения сталкиваются со всевозможными проблемами, но, пожалуй, самая большая проблема — доступность обучающих данных. Отсутствие обучающих данных может остановить проект еще до его начала. Еще до того, как проект начнется, он может столкнуться со значительными затратами на предварительную обработку, связанную со сбором данных, маркировкой данных, очисткой и предварительной обработкой. Это хорошо известная ловушка, из-за которой многие проекты машинного обучения терпят неудачу: на предварительную обработку уходит 80% выделенных ресурсов, тогда как на фактическое обучение и оценку модели остается мало ресурсов.

Готовые решения облегчают усилия по предварительной обработке. Они созданы для выполнения наиболее распространенных операций с минимальной необходимой настройкой. Лучшее в них то, что готовые решения существуют для всех этапов рабочих нагрузок машинного обучения.

С другой стороны, индивидуальные реализации обычно требуют больших усилий по предварительной обработке. Это не значит, что от них нужно отказаться совсем: они все же необходимы для подстройки определенного этапа машинного обучения под специфику решаемой задачи. Для особенно грязного набора данных могут потребоваться особые правила очистки. В то же время для определенного набора функций может потребоваться разработка специальных функций, так же как нейронные архитектуры могут потребовать небольшой корректировки. В этом случае индивидуальные решения, созданные с нуля, скорее всего, покроют все потребности.

Скорость разработки 

Готовые решения ориентированы на настройку, а не на реализацию. Вместо того, чтобы выделять ресурсы для выяснения почему должно быть сделано, команды машинного обучения сосредоточатся на это различные части головоломки будут соответствовать друг другу. Такой подход позволяет компаниям, исследователям и инженерам быстро создавать прототипы и проверять концепции. Вместо того, чтобы заново изобретать велосипед, готовые решения позволяют использовать существующие знания, тем самым экономя время разработки.

Известно, что индивидуальные решения, реализованные с нуля, намного медленнее по скорости разработки. Это связано с их повышенными потребностями в обслуживании: инженеры должны выяснить как почему и это решения. Аналогичным образом, чем сложнее решение, тем больше времени требуется для обеспечения его масштабируемости и доступности во время эксплуатации. С этой точки зрения индивидуальные решения и временные затраты прямо пропорциональны: чем сложнее решение, тем больше времени оно потребует.

Однако обычно истина находится где-то посередине: существующая кодовая база подвергается рефакторингу и адаптации к потребностям текущего проекта. Таков, например, известный подход к обучению моделей с использованием переноса обучения.

Экспертиза

Точно так же, как существует несколько уровней, на которых выполняется машинное обучение, существует несколько уровней знаний, на которых можно разрабатывать модели машинного обучения, начиная от интерфейсов без кода и заканчивая созданием моделей с нуля.

Существуют готовые решения, для которых требуется очень небольшой опыт машинного обучения. Благодаря использованию интуитивно понятных интерфейсов и даже методов перетаскивания для всех (от бизнес-аналитиков до разработчиков программного обеспечения) стало чрезвычайно просто создавать и развертывать какую-либо модель машинного обучения. Хотя этот простой подход к разработке моделей может работать для целей прототипирования, он вряд ли будет соответствовать требованиям производственных систем.

Для правильной настройки, настройки и обслуживания готовых решений в производственной среде по-прежнему требуются специальные знания. Обходные пути, исправления кода, подключение к различным API-интерфейсам и решение проблем с развертыванием — это общие задачи, необходимые для обеспечения производительности моделей в производственных средах.

Индивидуальные решения обычно реализуются на инфраструктурном уровне и без этого никуда не деться: экспертиза однозначно нужна. В зависимости от размера компании и целей проекта для обслуживания производственных систем могут потребоваться междисциплинарные команды. Специалисты по данным, инженеры по машинному обучению и бизнес-аналитики объединяются, чтобы анализировать результаты логических выводов и поддерживать производственные модели.

Что следует использовать: готовая или настраиваемая модель машинного обучения?

Решение ML будет состоять из множества отдельных компонентов и сервисов, которые необходимо объединить в единое решение. Речь никогда не идет о 100% индивидуальном подходе или 100% готовом продукте, поскольку разные бизнес-задачи требуют разных решений. Чаще всего решения на основе машинного обучения строятся на основе сочетания этих двух факторов: готовых сервисов для извлечения общей информации в сочетании с настраиваемыми моделями для повышения точности и моделирования знаний в предметной области.

Хитрость заключается в том, чтобы знать, когда внедрять индивидуальные решения с нуля и какие части проекта могут использовать преимущества готовых услуг. Это в значительной степени зависит от типа решаемой проблемы, бизнес-требований, доступных данных и общих ограничений среды разработки.

Дополнительные сведения об искусственном интеллекте и технологических тенденциях см. Джош Мирамант, генеральный директор Blue Orange Digital по решениям на основе данных для Цепочка поставок, автоматизация медицинской документации и многое другое.

Вам также могут понравиться:

Используйте НЛП для классификации комментариев в социальных сетях

Как языковая обработка улучшается с помощью модели Google BERT с открытым исходным кодом  

Джош Мирамант — генеральный директор и основатель Синий Оранжевый Цифровой, ведущее агентство по науке о данных и машинному обучению с офисами в Нью-Йорке и Вашингтоне, округ Колумбия. Мирамант — популярный спикер, футурист и советник по стратегическим вопросам бизнеса и технологий для корпоративных компаний и стартапов. Он помогает организациям оптимизировать и автоматизировать свой бизнес, внедрять аналитические методы на основе данных и понимать значение новых технологий, таких как искусственный интеллект, большие данные и Интернет вещей.