заглушки Подготовка человеческих данных для машинного обучения требует больших ресурсов: эти два подхода имеют решающее значение для снижения затрат - Unite.AI
Свяжитесь с нами:

Лидеры мысли

Подготовка человеческих данных для машинного обучения требует больших ресурсов: эти два подхода имеют решающее значение для снижения затрат

mm

опубликованный

 on

Автор: Даттарадж Рао, главный специалист по данным, Постоянные системы

Как и в любой системе, которая зависит от входных данных, машинное обучение (МО) подчиняется аксиоме «мусор на выходе». Чистые и точно размеченные данные — это основа для построения любой модели машинного обучения. Алгоритм обучения ML понимает закономерности на основе достоверных данных и на основе этого изучает способы обобщения невидимых данных. Если качество ваших обучающих данных низкое, алгоритму ML будет очень сложно непрерывно обучаться и экстраполировать.

Подумайте об этом с точки зрения дрессировки домашней собаки. Если вы не сможете должным образом обучить собаку основным поведенческим командам (вводам) или сделаете это неправильно/неточно, вы никогда не сможете ожидать, что собака будет учиться и расширять путем наблюдения более сложные положительные действия, потому что лежащие в их основе входные данные отсутствовали или были ошибочными, чтобы начать. с. Надлежащее обучение занимает много времени и даже дорого, если вы привлекаете эксперта, но отдача велика, если вы делаете это с самого начала.

При обучении модели ML для создания качественных данных требуется, чтобы эксперт в предметной области потратил время на аннотирование данных. Это может включать в себя выбор окна с нужным объектом на изображении или присвоение метки текстовой записи или записи базы данных. Качество аннотаций играет важную роль в определении качества модели, особенно для неструктурированных данных, таких как изображения, видео и текст. Обычно немаркированных данных, таких как необработанные изображения и текст, предостаточно, но именно маркировка требует оптимизации усилий. Это часть жизненного цикла машинного обучения, требующая участия человека, и обычно это самая дорогая и трудоемкая часть любого проекта машинного обучения.

Инструменты аннотирования данных, такие как Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS и DataRobot, постоянно улучшают качество и предоставляют интуитивно понятные интерфейсы для экспертов в предметной области. Однако сведение к минимуму времени, необходимого экспертам в предметной области для аннотирования данных, по-прежнему является серьезной проблемой для предприятий сегодня, особенно в условиях, когда таланты в области обработки данных ограничены, но пользуются большим спросом. Здесь в игру вступают два новых подхода к подготовке данных.

Активное изучение

Активное обучение — это метод, при котором модель машинного обучения активно запрашивает у эксперта предметной области определенные аннотации. Здесь основное внимание уделяется не получению полной аннотации к неразмеченным данным, а просто аннотированию нужных точек данных, чтобы модель могла лучше учиться. Возьмем, к примеру, Health & Life Sciences, диагностическую компанию, которая специализируется на раннем выявлении рака, чтобы помочь клиницистам принимать обоснованные решения о лечении пациентов на основе данных. В рамках процесса диагностики им необходимо аннотировать изображения КТ с опухолями, которые необходимо выделить.

После того, как модель машинного обучения изучит несколько изображений с помеченными опухолевыми блоками при активном обучении, модель будет просить пользователей аннотировать изображения только там, где она не уверена в наличии опухоли. Это будут граничные точки, аннотации которых повысят достоверность модели. Если модель уверена выше определенного порога, она будет делать самоаннотацию, а не просить пользователя сделать аннотацию. Вот как активное обучение помогает создавать точные модели, сокращая время и усилия, необходимые для аннотирования данных. Такие платформы, как modAL, могут помочь повысить производительность классификации, интеллектуально запрашивая экспертов предметной области для маркировки наиболее информативных экземпляров.

Слабый надзор

Слабый контроль — это подход, при котором зашумленные и неточные данные или абстрактные понятия могут использоваться для предоставления указаний для маркировки большого количества неконтролируемых данных. Этот подход обычно использует слабые метки и пытается объединить их в ансамблевый подход для создания качественных аннотированных данных. Усилия состоят в том, чтобы попытаться включить знания предметной области в автоматизированную деятельность по маркировке.

Например, если интернет-провайдеру (ISP) нужна система для пометки наборов данных электронной почты как спама или не спама, мы могли бы написать слабые правила, такие как проверка таких фраз, как «предложение», «поздравления», «бесплатно» и т. д. которые в основном связаны со спамом. Другими правилами могут быть электронные письма из определенных шаблонов исходных адресов, которые можно искать с помощью регулярных выражений. Затем эти слабые функции могут быть объединены слабой структурой контроля, такой как Snorkel и Skweak, для создания данных обучения более высокого качества.

ML по своей сути помогает компаниям экспоненциально масштабировать процессы способами, которые физически невозможно достичь вручную. Тем не менее, машинное обучение не является волшебством и по-прежнему полагается на людей, которые а) правильно настраивают и обучают модели с самого начала и б) вмешиваются, когда это необходимо, чтобы гарантировать, что модель не станет настолько перекошенной, что результаты больше не будут полезны и может быть контрпродуктивным или негативным.

Цель состоит в том, чтобы найти способы, которые помогут упростить и автоматизировать части участия человека, чтобы увеличить время выхода на рынок и результаты, но при этом оставаться в рамках оптимальной точности. Общепризнано, что получение качественных аннотированных данных — самая дорогая, но чрезвычайно важная часть проекта ML. Это развивающееся пространство, и предпринимаются большие усилия, чтобы сократить время, затрачиваемое экспертами в предметной области, и улучшить качество аннотаций данных. Изучение и использование активного обучения и слабого контроля — надежная стратегия для достижения этого в различных отраслях и вариантах использования.

Даттарадж Рао, главный специалист по данным в Постоянные системы, является автором книги «Keras to Kubernetes: путь от модели машинного обучения к производству». В Persistent Systems Даттарадж возглавляет исследовательскую лабораторию ИИ, которая исследует современные алгоритмы компьютерного зрения, понимания естественного языка, вероятностного программирования, обучения с подкреплением, объяснимого ИИ и т. д. и демонстрирует применимость в здравоохранении, банковском деле и промышленности. Даттарадж имеет 11 патентов в области машинного обучения и компьютерного зрения.