Искусственный интеллект
Эндрю Нг критикует культуру переобучения в машинном обучении

Эндрю Нг, один из наиболее влиятельных голосов в машинном обучении за последнее десятилетие, в настоящее время выражает обеспокоенность по поводу степени, в которой отрасль подчеркивает инновации в архитектуре модели над данными – и, в частности, степени, в которой она позволяет “переобученным” результатам быть изображенными как обобщенные решения или достижения.
Эти обширные критические замечания по поводу текущей культуры машинного обучения исходят от одного из ее высших авторитетов и имеют последствия для доверия к отрасли, которая преследуется страхами перед третьим коллапсом делового доверия к разработке ИИ в течение шестидесяти лет.
Нг, профессор Стэнфордского университета, также является одним из основателей deeplearning.ai, и в марте опубликовал меморандум на сайте организации, который сузил недавнюю речь до пары основных рекомендаций:
Во-первых, что исследовательское сообщество должно перестать жаловаться на то, что очистка данных представляет 80% проблем в машинном обучении, и приступить к работе над разработкой прочных методологий и практик MLOps.
Во-вторых, что оно должно отказаться от “легких побед”, которые можно получить путем переобучения данных на модель машинного обучения, чтобы она работала хорошо на этой модели, но не смогла обобщить или произвести широко развертываемую модель.
Принятие Вызова Архитектуры и Кураторства Данных
“Мое мнение”, написал Нг, “заключается в том, что если 80 процентов нашей работы – это подготовка данных, то обеспечение качества данных является важной работой команды машинного обучения.”
Он продолжил:
“Вместо того, чтобы полагаться на то, что инженеры случайно найдут лучший способ улучшить набор данных, я надеюсь, что мы сможем разработать инструменты MLOps, которые помогут сделать построение систем ИИ, включая построение высококачественных наборов данных, более повторяемым и систематическим.
“MLOps – это зарождающаяся область, и разные люди определяют ее по-разному. Но я думаю, что наиболее важным организующим принципом команд и инструментов MLOps должно быть обеспечение последовательного и высококачественного потока данных на всех этапах проекта. Это поможет многим проектам пройти более гладко.”
Говоря на Zoom на прямой трансляции сессии вопросов и ответов в конце апреля, Нг обратился к проблеме применимости в системах анализа радиологии машинного обучения:
“Оказывается, что когда мы собираем данные из больницы Стэнфорда, затем обучаем и тестируем на данных из той же больницы, действительно, мы можем опубликовать статьи, показывающие [алгоритмы], сравнимые с человеческими радиологами в обнаружении определенных условий.
“…[Когда] вы берете ту же модель, ту же систему ИИ, в более старую больницу вниз по улице, с более старой машиной, и техник использует slightly другой протокол изображения, то данные дрейфуют, что вызывает значительное ухудшение производительности системы ИИ. Напротив, любой человеческий радиолог может пройти вниз по улице в более старую больницу и все будет в порядке.”
Недоопределение Не Является Решением
Переобучение происходит, когда модель машинного обучения специально разработана для того, чтобы приспособиться к эксцентричностям конкретного набора данных (или к тому, как данные отформатированы). Это может включать, например, определение весов, которые будут давать хорошие результаты из этого набора данных, но не будут “обобщаться” на других данных.
Во многих случаях такие параметры определяются на “не-данных” аспектах обучающего набора, таких как конкретное разрешение собранной информации или другие причуды, которые не гарантируются повторяться в других последующих наборах данных.
Хотя было бы хорошо, переобучение не является проблемой, которую можно решить, слепо расширяя объем или гибкость архитектуры данных или проектирования модели, когда на самом деле нужны широко применимые и высоко значимые функции, которые будут работать хорошо в различных средах данных – более сложная задача.
В целом, этот тип “недоопределения” приводит только к тем проблемам, которые Нг недавно описал, когда модель машинного обучения не работает на не виденных данных. Разница в этом случае заключается в том, что модель не работает не потому, что данные или форматирование данных отличаются от переобученного исходного обучающего набора, а потому, что модель слишком гибкая, а не слишком хрупкая.
В конце 2020 года статья Недоопределение представляет вызов для достоверности современного машинного обучения подвергла интенсивной критике эту практику и несла имена не менее чем сорока исследователей и ученых в области машинного обучения из Google и MIT, среди других учреждений.
Статья критикует “обучение на обходных путях” и наблюдает, как недоопределенные модели могут уйти в дикие повороты на основе случайной точки, с которой начинается обучение модели. Авторы замечают:
“Мы видели, что недоопределение повсеместно в практических трубопроводах машинного обучения во многих областях. Действительно, благодаря недоопределению, существенно важные аспекты решений определяются произвольными выборами, такими как случайный seed, используемый для инициализации параметров.”
Экономические Последствия Изменения Культуры
Несмотря на его ученые заслуги, Нг не является оторванным от реальности академиком, но имеет глубокий и высокоуровневый опыт в отрасли как сооснователь Google Brain и Coursera, бывший главный ученый по Big Data и ИИ в Baidu и как основатель Landing AI, который администрирует 175 миллионов долларов США для новых стартапов в секторе.
Когда он говорит “Все ИИ, не только здравоохранение, имеет разрыв между концепцией и производством”, это предназначено как сигнал тревоги для отрасли, чей текущий уровень шума и пятнистой истории все чаще характеризует его как неопределенную долгосрочную бизнес-инвестицию, страдающую от проблем определения и объема.
Тем не менее, проприетарные системы машинного обучения, которые работают хорошо в situ и не работают в других средах, представляют собой тип захвата рынка, который может вознаградить инвестиции отрасли. Представление “проблемы переобучения” в контексте профессиональной опасности предлагает нечестный способ монетизации корпоративных инвестиций в открытые исследования и производство (по сути) проприетарных систем, где репликация конкурентами возможна, но проблематична.
Неизвестно, сработает ли этот подход в долгосрочной перспективе, зависит от степени, в которой реальные прорывы в машинном обучении продолжают требовать всегда более высоких уровней инвестиций, и от того, будут ли все продуктивные инициативы неизбежно мигрировать в FAANG в какой-то степени из-за колоссальных ресурсов, необходимых для хостинга и операций.












