Connect with us

Уилсон Пан, соавтор книги “Реальный мир ИИ” – Интервью-серия

Интервью

Уилсон Пан, соавтор книги “Реальный мир ИИ” – Интервью-серия

mm

Уилсон Пан присоединился к Appen в ноябре 2018 года в качестве технического директора и отвечает за продукты и технологии компании. У Уилсона более девятнадцати лет опыта в области программной инженерии и науки о данных. До прихода в Appen Уилсон был главным офицером по данным в компании Ctrip в Китае, которая является второй по величине онлайн-туристической компанией в мире, где он руководил командами инженеров по данным, аналитиков, менеджеров по данным и учеными для улучшения пользовательского опыта и повышения операционной эффективности, что привело к росту бизнеса. До этого он был старшим директором по инженерии в eBay в Калифорнии и обеспечивал лидерство в различных областях, включая сервисы и решения с данными, поиск научных решений, технологии маркетинга и системы выставления счетов. Он работал архитектором в IBM до прихода в eBay, разрабатывая технологические решения для различных клиентов. Уилсон получил степень магистра и бакалавра в области электротехники в Университете Чжэцзяна в Китае.

Мы обсуждаем его новую книгу: Реальный мир ИИ: Практическое руководство по ответственной машинной学习

Вы описываете, как когда вы возглавляли команды по науке поиска в eBay, одним из ваших первых уроков с машинным обучением было понимание важности знания того, какие метрики необходимо измерять. Приведенный пример был о том, как метрика “покупки за сессию” не учитывала денежную стоимость предмета. Как компании могут лучше понять, какие метрики необходимо измерять, чтобы избежать подобных проблем?

Начните с целей, которые ваша команда присваивает модели ИИ – в нашем случае мы хотели увеличить доход с помощью машинного обучения. Когда вы прикрепляете метрики к целям, подумайте о том, какие механизмы эти метрики будут производить, когда вы выпустите модель и люди начнут взаимодействовать с ней, но также обратите внимание на свои предположения. В нашем случае мы предполагали, что модель будет оптимизирована для дохода, но количество покупок за сессию не переводилось в это, потому что модель оптимизировалась для высокого числа продаж низкой стоимости, и в конце дня мы не зарабатывали больше денег. Как только мы поняли это, мы смогли изменить метрики и направить модель в правильном направлении. Итак, определение детальных метрик, а также заметка предположений являются важными для успеха проекта.

Что вы лично узнали из исследования и написания этой книги?

У нас есть много разных проблем, которые можно решить с помощью ИИ из разных компаний и отраслей. Случаи использования могут быть очень разными, решение ИИ может быть другим, данные для обучения этого решения ИИ могут быть другими. Однако, несмотря на все эти различия, ошибки, которые люди совершают во время своего пути ИИ, довольно похожи. Эти ошибки повторяются снова и снова во всех видах компаний из всех видов отраслей.

Мы поделились некоторыми общими лучшими практиками при реализации проектов ИИ с надеждой помочь большему количеству людей и компаний избежать этих ошибок и получить уверенность в развертывании ответственного ИИ.

Какие из наиболее важных уроков вы надеетесь, что люди возьмут из чтения этой книги?

Мы твердо верим, что вдумчивое, ответственное и этическое использование технологии машинного обучения может сделать мир более справедливым, честным и инклюзивным. Технология машинного обучения обещает изменить все в мире бизнеса, но это не должно быть трудным. Существуют проверенные и испытанные методы и процессы, которые команды могут следовать и получить уверенность в развертывании в производство.

Другим важным уроком является то, что владельцы бизнеса (например, менеджеры по продукту) и члены команды на более технической стороне (например, инженеры и ученые по данным) должны говорить на общем языке. Чтобы успешно развернуть ИИ, лидеры должны мостить разрыв между командами, предоставляя бизнес-специалистам и руководителям достаточно контекста, чтобы эффективно общаться с техническими реализаторами.

Многие люди сначала думают о коде, когда думают об ИИ. Одним из ключевых уроков в книге является то, что данные являются важными для успеха модели ИИ. Есть многое, что связано с данными, от сбора до маркировки, хранения и каждого шага, который будет влиять на успех модели. Наиболее успешные развертывания ИИ являются теми, кто придает высокое значение данным и стремится непрерывно улучшать этот аспект своей модели ИИ.

Все реальные ИИ требуют межфункциональной команды и инновационного духа.

Обсуждается определение того, когда модель ИИ достаточно точна, чтобы поддержать использование ИИ. Какой самый простой способ оценить тип точности, который необходим?

Это зависит от ваших случаев использования и толерантности к риску. Команды, разрабатывающие ИИ, всегда должны иметь фазу тестирования, на которой они определяют уровни точности и приемлемые пороги для своих организаций и заинтересованных сторон. Для случаев использования, связанных с жизнью или смертью – где существует потенциальный вред, если ИИ ошибется, как в случае программного обеспечения для вынесения приговоров, самоходных автомобилей, медицинских случаев, планка очень, очень высока – и команды должны установить меры предосторожности на случай, если модели ошибаются. Для более терпимых к ошибкам случаев использования – где есть много субъективности – как контент, поиск или актуальность рекламы, команды могут полагаться на обратную связь пользователей, чтобы продолжать корректировать свои модели даже во время производства. Конечно, есть некоторые высокорисковые случаи использования здесь, где незаконный или аморальный материал может быть показан пользователям, поэтому меры предосторожности и механизмы обратной связи должны быть установлены здесь тоже.

Можете ли вы определить важность определения успеха для проекта заранее?

Это равно важно начать с бизнес-проблемы, а также определить успех заранее, поскольку эти два фактора тесно связаны. Следуя примеру в книге об автомобильном дилере, использующем ИИ для маркировки изображений, они не определили, что такое успех, потому что они не определили бизнес-проблему, которую необходимо решить. Успех для них мог быть разными вещами, что делает его трудным для решения проблемы, даже для команды людей, не говоря уже о модели машинного обучения с фиксированным объемом. Если бы они поставили цель маркировать все транспортные средства с вмятинами, чтобы создать список транспортных средств, которые нуждаются в ремонте, и определили успех как точную маркировку 80% всех вмятин на транспортных средствах на складе б/у автомобилей, то когда они точно промаркировали 85%, команда бы назвала это успехом. Но если этот успех не связан с бизнес-проблемой и прямым бизнес-воздействием, трудно оценить проект вне сосредоточенного определения точности маркировки в этом примере. Здесь бизнес-проблема была более сложной, и маркировка вмятин является только компонентом ее. В их случае они могли бы быть лучше, определив успех как экономию времени/денег на процессе подачи заявок или оптимизацию процесса ремонта на X% и затем перевести влияние маркировки на реальные бизнес-результаты.

Насколько важно обеспечение того, чтобы примеры обучающих данных охватывали все случаи использования, которые будут происходить при развертывании в производство?

Это крайне важно, чтобы модель была обучена на всех случаях использования, чтобы избежать предвзятости. Но также важно отметить, что, хотя невозможно охватить абсолютно все случаи использования в производстве, команды, строящие ИИ, должны понимать свои производственные данные, а также свои обучающие данные, чтобы обучать ИИ тому, с чем он столкнется в производстве. Доступ к обучающим данным, полученным из больших разнообразных групп с различными случаями использования, будет иметь решающее значение для успеха модели. Например, модель, обученная для распознавания питомцев человека на загруженном изображении, должна быть обучена на всех видах питомцев; собак, кошек, птиц, мелких млекопитающих, рептилий и т. д. Если модель обучена только на собаках, кошках и птицах, то когда кто-то загружает изображение со своим морским свинкой, модель не сможет его идентифицировать. Хотя это очень простой пример, он показывает, насколько важно обучать на как можно большем количестве вероятных случаев использования.

Обсуждается в книге необходимость развития хороших привычек гигиены данных сверху вниз, какие первые шаги для выращивания этой привычки?

Хорошие привычки гигиены данных повысят возможность использования внутренних данных и подготовят их для случаев использования ИИ. Вся компания должна стать хорошей в организации и отслеживании своих наборов данных. Одним из способов достижения этого является то, что это становится бизнес-требованием и отслеживает реализацию, так что очень мало отчетов становятся индивидуальными работами, и команды работают все больше и больше с данными, канализированными в центральный репозиторий, с четкой онтологией. Другой хорошей практикой является сохранение записи о том, когда и где были собраны данные и что с ними произошло до того, как они были помещены в базу данных, а также установление процессов для очистки неиспользуемых или устаревших данных периодически.

Спасибо за отличное интервью, для читателей, которые заинтересованы в изучении больше, я рекомендую им прочитать книгу Реальный мир ИИ: Практическое руководство по ответственной машинной学习.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.