Connect with us

Исследователи Google обнаружили проблему недоопределения, сдерживающую многие модели ИИ

Искусственный интеллект

Исследователи Google обнаружили проблему недоопределения, сдерживающую многие модели ИИ

mm

Недавно команда исследователей из Google определила общую причину неудач моделей ИИ, указывая на недоопределение как одну из основных причин, по которой модели машинного обучения часто работают гораздо хуже в реальных условиях, чем во время тестирования и разработки.

Модели машинного обучения часто терпят неудачи при решении задач в реальных условиях, даже если модели работают оптимально в лаборатории. Существует много причин, почему возникает несоответствие между обучением/разработкой и реальной производительностью. Одной из наиболее распространенных причин неудач моделей ИИ при реальных задачах является концепция, известная как сдвиг данных. Сдвиг данных относится к фундаментальной разнице между типом данных, используемых для разработки модели машинного обучения, и данными, вводимыми в модель во время применения. Например, модели компьютерного зрения, обученные на высококачественных изображениях, будут испытывать трудности при работе с данными, полученными от низкокачественных камер, найденных в повседневной среде модели.

Согласно MIT Technology Review, команда из 40 разных исследователей в Google определила другую причину, по которой производительность модели машинного обучения может варьироваться так сильно. Проблема заключается в «недоопределении», статистической концепции, которая описывает проблемы, где наблюдаемые явления имеют множество возможных причин, не все из которых учитываются моделью. Согласно руководителю исследования Алексу Д’Амуру, проблема наблюдается во многих моделях машинного обучения, говоря, что явление «происходит повсюду».

Типичный метод обучения модели машинного обучения включает в себя подачу модели большого количества данных, которые она может проанализировать и извлечь из них соответствующие закономерности. Затем модель подается примеры, которые она не видела, и просит предсказать природу этих примеров на основе особенностей, которые она выучила. Как только модель достигает определенного уровня точности, обучение обычно считается завершенным.

Согласно команде исследователей Google, необходимо сделать больше, чтобы обеспечить возможность моделей真正 обобщать на неразметанные данные. Классический метод обучения моделей машинного обучения может производить различные модели, которые могут все пройти тесты, но эти модели будут различаться в небольших деталях, которые кажутся незначительными, но не являются таковыми. Разные узлы в моделях будут иметь разные случайные значения, присвоенные им, или обучающие данные могут быть выбраны или представлены разными способами. Эти вариации небольшие и часто произвольные, и если они не оказывают большого влияния на то, как модели работают во время обучения, их легко упустить из виду. Однако, когда влияние всех этих небольших изменений накапливается, они могут привести к значительным вариациям в реальной производительности.

Эта недоопределенность проблематична, потому что она означает, что, даже если процесс обучения способен производить хорошие модели, он также может производить плохую модель, и разница не будет обнаружена до тех пор, пока модель не выйдет из производства и не войдет в эксплуатацию.

Чтобы оценить влияние недоопределения, команда исследователей изучила ряд различных моделей. Каждая модель была обучена с использованием одного и того же процесса обучения, а затем модели были подвергнуты серии тестов, чтобы подчеркнуть различия в производительности. В одном случае 50 разных версий системы распознавания изображений были обучены на наборе данных ImageNet. Модели были одинаковыми, за исключением нейронной сети значений, которые они были случайно присвоены в начале обучения. Тесты на прочность, используемые для определения различий в моделях, проводились с использованием ImageNet-C, варианта исходного набора данных, состоящего из изображений, измененных путем корректировки контраста или яркости. Модели также были протестированы на ObjectNet, серии изображений с повседневными объектами в необычных ориентациях и контекстах. Хотя все 50 моделей имели примерно одинаковую производительность на обучающем наборе данных, производительность колебалась сильно, когда модели были запущены через тесты на прочность.

Команда исследователей обнаружила аналогичные результаты, когда они обучили и протестировали две различные системы NLP, а также когда они протестировали различные другие модели компьютерного зрения. В каждом случае модели сильно расходились друг от друга, хотя процесс обучения для всех моделей был одинаковым.

Согласно Д’Амуру, исследователи и инженеры в области машинного обучения должны проводить гораздо больше тестов на прочность, прежде чем выпускать модели в реальный мир. Это может быть сложно, учитывая, что тесты на прочность должны быть адаптированы к конкретным задачам с использованием данных из реального мира, которые могут быть трудно получить для определенных задач и контекстов. Одним из потенциальных решений проблемы недоопределения является производство многих моделей одновременно, а затем тестирование моделей на серии реальных задач, выбор модели, которая последовательно показывает лучшие результаты. Разработка моделей таким образом требует много времени и ресурсов, но компромисс может быть стоит того, особенно для моделей ИИ, используемых в медицинских контекстах или других областях, где безопасность является главной заботой. Как объяснил Д’Амур через MIT Technology Review:

«Нам нужно лучше определять наши требования к моделям. Потому что часто то, что в конечном итоге происходит, — это мы обнаруживаем эти требования только после того, как модель потерпела неудачу в реальном мире».

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.