Искусственный интеллект

Глубокое обучение против обучения с подкреплением

опубликованный 18 января 2023

Хазика Саджид

Глубокое обучение и обучение с подкреплением — два самых популярных подмножества искусственного интеллекта. ИИ рыночных составлял около 120 миллиардов долларов в 2022 году и растет с ошеломляющим среднегодовым темпом роста выше 38%. По мере развития искусственного интеллекта эти два подхода (RL и DL) использовались для решения многих проблем, включая распознавание изображений, машинный перевод и принятие решений для сложных систем. Мы рассмотрим, как они работают, а также их приложения, ограничения и различия простым для понимания способом.

Что такое глубокое обучение (ГО)?

Глубокое обучение — это подмножество машинного обучения, в котором мы используем нейронные сети для распознавания закономерностей в заданных данных для прогнозного моделирования невидимых данных. Данные могут быть табличными, текстовыми, графическими или речевыми.

Глубокое обучение появилось в 1950-х годах, когда Фрэнк Розенблатт написал исследовательскую работу о перцептроне в 1958 году. Персептрон был первой архитектурой нейронной сети, которую можно было обучить выполнению линейных задач обучения под наблюдением. Со временем исследования в этой области, доступность огромного количества данных и обширные вычислительные ресурсы привели к дальнейшему развитию области глубокого обучения.

Как работает глубокое обучение?

Нейронная сеть является строительным блоком глубокого обучения. Человеческий мозг вдохновляет нейронную сеть; Он содержит узлы (нейроны), которые передают информацию. Нейронная сеть имеет три слоя:

Входной слой
Скрытый слой
Выходной слой.

Входной слой получает данные, предоставленные пользователем, и передает их скрытому слою. Скрытый слой выполняет нелинейное преобразование данных, а выходной слой отображает результаты. Ошибка между прогнозом на выходном слое и фактическим значением вычисляется с использованием функции потерь. Процесс повторяется до тех пор, пока потери не будут минимизированы.

Нейронная сеть

Типы архитектур глубокого обучения

Существуют различные типы архитектуры нейронных сетей, такие как:

Искусственные нейронные сети (ANN)
Сверточные нейронные сети (CNN)
Рекуррентные нейронные сети (RNN)
Генеративно-состязательные сети (GAN) и др.

Использование архитектуры нейронной сети зависит от типа рассматриваемой проблемы.

Приложения глубокого обучения

Глубокое обучение находит применение во многих отраслях.

В здравоохранении методы, основанные на компьютерном зрении и использующие сверточные нейронные сети, могут использоваться для анализа медицинских изображений, например, КТ и МРТ.
В финансовом секторе он может прогнозировать цены на акции и обнаруживать мошеннические действия.
Методы глубокого обучения в Обработка естественного языка используются для машинного перевода, анализа настроений и т. д.

Ограничения глубокого обучения

Хотя глубокое обучение достигло самых современных результатов во многих отраслях, оно имеет свои ограничения, а именно:

Огромные данные: для глубокого обучения требуется огромное количество размеченных данных для обучения. Отсутствие помеченных данных приведет к некачественным результатам.
Отнимает много времени: обучение на наборе данных может занять часы, а иногда и дни. Глубокое обучение включает в себя множество экспериментов для достижения требуемого эталона или достижения ощутимых результатов, а отсутствие быстрых итераций может замедлить процесс.
Вычислительные ресурсы. Глубокому обучению для обучения требуются вычислительные ресурсы, такие как GPU и TPU. Модели глубокого обучения занимают достаточно места после обучения, что может стать проблемой во время развертывания.

Что такое обучение с подкреплением (RL)?

Обучение с подкреплением, с другой стороны, является подмножеством искусственного интеллекта, в котором агент выполняет действие в своей среде. «Обучение» происходит путем поощрения агента, когда он совершает желаемое поведение, и наказания в противном случае. С опытом агент узнает оптимальную политику для максимизации вознаграждения.

Исторически сложилось так, что обучение с подкреплением привлекло внимание в 1950-х и 1960-х годах, потому что алгоритмы принятия решений были разработаны для сложных систем. Поэтому исследования в этой области привели к появлению новых алгоритмов, таких как Q-Learning, SARSA и актор-критик, которые способствовали практичности этой области.

Применение обучения с подкреплением

Обучение с подкреплением имеет заметные применения во всех основных отраслях.

Робототехника является одним из самых известных приложений в обучении с подкреплением. Используя методы обучения с подкреплением, мы позволяем роботам учиться у окружающей среды и выполнять требуемую задачу.
Обучение с подкреплением используется для разработки движков для таких игр, как шахматы и го. AlphaGo (движок го) и AlphaZero (движок шахмат) разработаны с использованием обучения с подкреплением.
В финансах обучение с подкреплением может помочь в прибыльной сделке.

Ограничения обучения с подкреплением

Огромные данные: обучение с подкреплением требует большого количества данных и опыта для изучения оптимальной политики.
Использование вознаграждения: важно поддерживать баланс между изучением состояния, формированием оптимальной политики и использованием полученных знаний для увеличения вознаграждения. Агент не достигнет наилучшего результата, если разведка не на должном уровне.
Безопасность: обучение с подкреплением вызывает опасения по поводу безопасности, если система вознаграждения не разработана и не имеет надлежащих ограничений.

Существенные различия

Вкратце, существенные различия между обучением с подкреплением и глубоким обучением заключаются в следующем:

Глубокое обучение	Усиление обучения
Он содержит взаимосвязанные узлы, и обучение происходит путем минимизации потерь за счет корректировки весов и смещений нейронов.	Он содержит агент, который учится у среды, взаимодействуя с ней, чтобы достичь оптимальной политики.
Глубокое обучение используется в задачах контролируемого обучения, где данные помечены. Однако он используется при обучении без учителя для таких случаев, как обнаружение аномалий и т. д.	Обучение с подкреплением включает в себя агента, который учится в своей среде, не нуждаясь в помеченных данных.
Используется для обнаружения и классификации объектов, машинного перевода и анализа настроений и т. д.	Используется в робототехнике, играх и автономных транспортных средствах.

Глубокое обучение с подкреплением — комбинация

Глубокое обучение с подкреплением появилось как новый метод, сочетающий в себе методы подкрепления и глубокого обучения. Новейший шахматный движок, такой как AlphaZero, является примером глубокого обучения с подкреплением. В AlphaZero Deep Neural Networks использует математические функции для того, чтобы агент научился играть в шахматы против самого себя.

Каждый год крупные игроки рынка разрабатывают новые исследования и продукты на рынке. Ожидается, что глубокое обучение и обучение с подкреплением поразят нас передовыми методами и продуктами.

Хотите больше контента, связанного с ИИ? Посещать объединить.ай.