Лидеры мнений
Подготовка человеческих данных для машинного обучения – ресурсоемкая задача: два подхода критически важны для снижения затрат

Автор: Даттарадж Рао, главный ученый-дата-аналитик, Persistent Systems
Как и любая система, которая зависит от входных данных, машинное обучение (ML) подвержено аксиоме “мусор на входе – мусор на выходе”. Чистые и точно помеченные данные являются основой для построения любой модели ML. Алгоритм обучения ML понимает закономерности из фактических данных и на основе этого учится обобщать на незнакомых данных. Если качество ваших тренировочных данных низкое, то будет очень сложно для алгоритма ML постоянно учиться и экстраполировать.
Представьте себе обучение домашнего питомца. Если вы не сможете правильно обучить питомца основным командам (входным данным) или сделаете это неправильно/некорректно, вы никогда не сможете ожидать, что питомец научится и расширит свои знания через наблюдение за более сложными положительными поведениями, поскольку основные входные данные были отсутствуют или ошибочны с самого начала. Правильное обучение требует времени и может быть дорогим, если вы пригласите эксперта, но результат будет велик, если вы все сделаете правильно с самого начала.
При обучении модели ML создание качественных данных требует от эксперта-домена тратить время на пометку данных. Это может включать выбор окна с желаемым объектом на изображении или присвоение метки текстовому входу или записи базы данных. Особенно для неструктурированных данных, таких как изображения, видео и текст, качество пометки играет решающую роль в определении качества модели. Обычно не помеченные данные, такие как сырые изображения и текст, многочисленны, но пометка – это то, где нужно оптимизировать усилия. Это часть ML-цикла, где человек участвует напрямую, и обычно это самая дорогая и трудоемкая часть любого проекта ML.
Инструменты пометки данных, такие как Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS и DataRobot human-in-the-loop, постоянно улучшаются и предоставляют интуитивно понятные интерфейсы для экспертов-доменов. Однако минимизация времени, необходимого экспертам-доменам для пометки данных, все еще является значительной проблемой для предприятий сегодня – особенно в среде, где таланты в области науки о данных ограничены, но находятся в высоком спросе. Именно здесь на сцену выходят два новых подхода к подготовке данных.
Активное обучение
Активное обучение – это метод, при котором модель ML активно запрашивает у эксперта-домена конкретные пометки. Здесь фокус не на получении полной пометки не помеченных данных, а только на получении правильных точек данных, чтобы модель могла лучше учиться. Например, в области здравоохранения и生命них наук компания, специализирующаяся на ранней диагностике рака, чтобы помочь клиницистам принимать обоснованные решения о уходе за пациентами. В рамках их диагностического процесса им необходимо пометить изображения компьютерных томографий с опухолями, которые необходимо выделить.
После того, как модель ML научится на нескольких изображениях с помеченными блоками опухолей, с помощью активного обучения модель будет запрашивать у пользователей пометку только тех изображений, где она не уверена в присутствии опухоли. Эти будут граничные точки, которые, когда будут помечены, увеличат уверенность модели. Там, где модель уверена выше определенного порога, она будет выполнять само-пометку, а не запрашивать у пользователя пометку. Таким образом, активное обучение пытается помочь построить точные модели, снижая время и усилия, необходимые для пометки данных. Фреймворки, такие как modAL, могут помочь увеличить производительность классификации, интеллектуально запрашивая у экспертов-доменов пометку наиболее информативных экземпляров.
Слабое надзор
Слабый надзор – это подход, при котором шумные и неточные данные или абстрактные понятия могут быть использованы для предоставления указаний для пометки большого количества не помеченных данных. Этот подход обычно использует слабые пометки и пытается объединить их в ансамблевом подходе для построения качественных помеченных данных. Усилия направлены на то, чтобы включить знания домена в автоматизированную пометку.
Например, если интернет-провайдер нуждается в системе для пометки наборов электронной почты как спама или не спама, мы могли бы написать слабые правила, такие как проверка фраз, таких как “предложение”, “поздравления”, “бесплатно” и т. д., которые обычно ассоциируются со спам-электронной почтой. Другие правила могли бы быть электронными письмами из определенных шаблонов источников, которые можно найти с помощью регулярных выражений. Эти слабые функции затем могли бы быть объединены фреймворком слабого надзора, таким как Snorkel и Skweak, для построения улучшенных качественных тренировочных данных.
ML в своей основе направлена на то, чтобы помочь компаниям масштабировать процессы экспоненциально в способах, которые физически невозможны для достижения вручную. Однако ML не является магией и все еще зависит от людей, чтобы а) правильно настроить и обучить модели с самого начала и б) вмешаться, когда это необходимо, чтобы модель не стала слишком искаженной и результаты не стали бесполезными или отрицательными.
Цель состоит в том, чтобы найти способы, которые помогут оптимизировать и автоматизировать части человеческого участия, чтобы увеличить время выхода на рынок и результаты, оставаясь в пределах оптимальной точности. Всегда признается, что получение качественных помеченных данных – это наиболее дорогая, но крайне важная часть любого проекта ML. Это развивающаяся область, и много усилий предпринимается для снижения времени, потраченного экспертами-доменами, и улучшения качества пометки данных. Изучение и использование активного обучения и слабого надзора – это солидная стратегия для достижения этого в различных отраслях и случаях использования.












