부본 10가지 최고의 기계 학습 알고리즘(2024년) - Unite.AI
Rescale 미팅 예약

베스트

10가지 최고의 기계 학습 알고리즘

mm
업데이트 on

우리는 GPU 가속 기계 학습 분야에서 놀라운 혁신의 시대를 살고 있지만 최신 연구 논문에는 수십 년, 어떤 경우에는 70년 된 알고리즘이 자주(그리고 눈에 띄게) 등장합니다.

어떤 사람들은 이러한 오래된 방법 중 다수가 기계 학습이 아닌 '통계 분석' 진영에 속한다고 주장할 수 있으며, 이 분야의 출현 시기를 1957년까지만 거슬러 올라가는 것을 선호할 수 있습니다. 퍼셉트론의 발명.

이러한 오래된 알고리즘이 기계 학습의 최신 트렌드와 헤드라인을 장식하는 개발을 지원하고 이에 얽힌 정도를 고려할 때 이는 논쟁의 여지가 있는 입장입니다. 따라서 최신 혁신을 뒷받침하는 '클래식' 빌딩 블록과 AI 명예의 전당에 대한 조기 입찰을 하는 일부 새로운 항목을 살펴보겠습니다.

1: 트랜스포머

2017년 Google Research는 연구 협력을 주도하여 종이 주의 만 있으면됩니다. 이 작업은 다음을 촉진하는 새로운 아키텍처를 설명했습니다. 주의 메커니즘 인코더/디코더 및 순환 네트워크 모델의 '파이핑'에서 그 자체로 중앙 변환 기술에 이르기까지.

접근 방식은 더빙되었습니다 변신 로봇, 이후 자연어 처리(NLP)의 혁신적인 방법론이 되었으며, 특히 자동 회귀 언어 모델과 AI 포스터 하위 GPT-3을 지원합니다.

변압기는 문제를 우아하게 해결했습니다. 시퀀스 변환, '변환'이라고도 하며 입력 시퀀스를 출력 시퀀스로 처리하는 작업을 담당합니다. 또한 변환기는 순차적 배치가 아닌 지속적인 방식으로 데이터를 수신하고 관리하므로 RNN 아키텍처에서는 얻을 수 없는 '메모리 지속성'을 허용합니다. 변압기에 대한 자세한 개요는 다음을 참조하십시오. 우리의 참조 기사.

CUDA 시대에 ML 연구를 지배하기 시작한 순환 신경망(RNN)과 달리 Transformer 아키텍처는 쉽게 병렬화, RNN보다 훨씬 더 큰 데이터 모음을 생산적으로 처리할 수 있는 길을 열어줍니다.

인기있는 사용법

트랜스포머는 2020년 당시 기록 경신을 자랑했던 OpenAI의 GPT-3 출시로 대중의 상상력을 사로잡았습니다. 175 억 매개 변수. 이 놀라운 성과는 결국 2021년과 같은 이후 프로젝트에 의해 가려졌습니다. 공개 Microsoft의 Megatron-Turing NLG 530B는 (이름에서 알 수 있듯이) 530억 개 이상의 매개변수를 제공합니다.

하이퍼스케일 Transformer NLP 프로젝트의 타임라인. 출처: 마이크로소프트

하이퍼스케일 Transformer NLP 프로젝트의 타임라인. 출처: Microsoft

Transformer 아키텍처는 또한 NLP에서 컴퓨터 비전으로 넘어갔습니다. 새로운 세대 OpenAI와 같은 이미지 합성 프레임워크의 쥐다DALL-E, 점점 더 많은 관련 응용 프로그램 중에서 텍스트> 이미지 도메인 매핑을 사용하여 불완전한 이미지를 완성하고 훈련된 도메인에서 새로운 이미지를 합성합니다.

DALL-E는 플라톤의 흉상의 부분적 이미지를 완성하려고 시도한다. 출처: https://openai.com/blog/dall-e/

DALL-E는 플라톤의 흉상의 부분적 이미지를 완성하려고 시도한다. 출처 : https://openai.com/blog/dall-e/

2: 생성적 적대 신경망(GAN)

트랜스포머는 GPT-3의 출시 및 채택을 통해 놀라운 언론 보도를 얻었지만, 생식 적대적 네트워크 (GAN)은 그 자체로 인식할 수 있는 브랜드가 되었으며 궁극적으로 딥 페이크 동사로.

처음 제안 2014년 이미지 합성에 주로 사용되는 Generative Adversarial Network 아키텍처 구성되어 있습니다 발전기판별 자. 생성기는 데이터 세트에 있는 수천 개의 이미지를 순환하며 반복적으로 재구성을 시도합니다. 각 시도에 대해 Discriminator는 Generator의 작업에 등급을 매기고 더 나은 작업을 수행하도록 Generator를 다시 보냅니다. 그러나 이전 재구성에서 오류가 발생한 방식에 대한 통찰력은 없습니다.

출처: https://developers.google.com/machine-learning/gan/gan_structure

출처: https://developers.google.com/machine-learning/gan/gan_structure

이렇게 하면 Discriminator가 어디에서 잘못되었는지 알려줬을 때 발생할 수 있는 잠재적인 막다른 골목을 따라가는 대신 Generator가 다양한 방법을 탐색해야 합니다(아래 #8 참조). 교육이 끝날 때쯤 Generator는 데이터 세트의 포인트 간의 관계에 대한 자세하고 포괄적인 맵을 갖게 됩니다.

연구원이 첨부한 동영상에서 발췌한 내용입니다(기사 끝에 삽입 참조). 사용자가 '잡기' 커서(왼쪽 위)로 변환을 조작하고 있음을 참고하십시오. 출처: https://www.youtube.com/watch?v=k7sG4XY5rIc

종이에서 공간 인식을 높여 GAN 평형 개선: 새로운 프레임워크는 GAN의 때때로 신비한 잠재 공간을 순환하여 이미지 합성 아키텍처에 반응하는 수단을 제공합니다. 출처: https://genforce.github.io/eqgan/

비유하자면, 이것은 런던 중심부로 단조로운 출퇴근길을 배우는 것과 힘들게 습득하는 것의 차이입니다. 지식.

그 결과 훈련된 모델의 잠재 공간에서 높은 수준의 기능 모음이 생성됩니다. 높은 수준의 기능에 대한 의미 지표는 '사람'일 수 있으며, 기능과 관련된 특이성을 통한 하강은 '남성' 및 '여성'과 같은 다른 학습된 특성을 발견할 수 있습니다. 낮은 수준에서 하위 기능은 '금발', '백인' 등으로 분류될 수 있습니다.

얽힘은 주목할만한 문제 GAN 및 인코더/디코더 프레임워크의 잠재 공간에서: GAN 생성 여성 얼굴의 미소는 잠재 공간에서 그녀의 '정체성'의 얽힌 특징입니까, 아니면 병렬 분기입니까?

이 사람의 GAN 생성 얼굴은 존재하지 않습니다. 출처: https://this-person-does-not-exist.com/en

이 사람의 GAN 생성 얼굴은 존재하지 않습니다. 출처: https://this-person-does-not-exist.com/en

지난 몇 년 동안 GAN의 잠재 공간을 위한 기능 수준의 Photoshop 스타일 편집을 위한 길을 닦으면서 이와 관련하여 점점 더 많은 새로운 연구 이니셔티브를 제시했지만 현재 많은 변환이 효과적으로 이루어지고 있습니다. 전부 아니면 전무' 패키지. 특히 2021년 말 NVIDIA의 EditGAN 릴리스는 높은 수준의 해석 가능성 시맨틱 분할 마스크를 사용하여 잠재 공간에서

인기있는 사용법

인기 있는 딥페이크 비디오에 대한 참여(실제로 상당히 제한적임) 외에도 이미지/비디오 중심 GAN은 지난 XNUMX년 동안 급증하여 연구원과 대중 모두를 매료시켰습니다. 새 릴리스의 어지러운 속도와 빈도를 따라잡는 것은 어려운 일이지만 GitHub 리포지토리는 멋진 GAN 애플리케이션 포괄적인 목록을 제공하는 것을 목표로 합니다.

Generative Adversarial Networks는 이론적으로 잘 구성된 도메인에서 기능을 파생할 수 있습니다. 텍스트 포함.

3: SVM

유래 1963년, 벡터 머신 지원 (SVM)은 새로운 연구에서 자주 등장하는 핵심 알고리즘입니다. SVM에서 벡터는 데이터 세트에서 데이터 포인트의 상대적 배치를 매핑하는 반면 SUPPORT 벡터는 서로 다른 그룹, 기능 또는 특성 간의 경계를 나타냅니다.

지원 벡터는 그룹 간의 경계를 정의합니다. 출처: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

지원 벡터는 그룹 간의 경계를 정의합니다. 출처: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

도출된 경계를 초평면.

낮은 기능 수준에서 SVM은 XNUMX 차원 (위 이미지), 그러나 인식되는 그룹 또는 유형의 수가 더 많은 경우 삼차원의.

점과 그룹의 더 깊은 배열에는 XNUMX차원 SVM이 필요합니다. 출처: https://cml.rhul.ac.uk/svm.html

점과 그룹의 더 깊은 배열에는 XNUMX차원 SVM이 필요합니다. 출처: https://cml.rhul.ac.uk/svm.html

인기있는 사용법

지원 벡터 머신은 다양한 종류의 고차원 데이터를 효과적이고 불가지론적으로 처리할 수 있기 때문에 다음을 포함한 다양한 머신러닝 분야에서 널리 사용됩니다. 딥 페이크 감지, 이미지 분류, 증오심 표현 분류, DNA 분석인구 구조 예측많은 다른 사람의 사이에서.

4: K-평균 클러스터링

일반적으로 클러스터링은 비지도 학습 를 통해 데이터 포인트를 분류하려는 접근 방식 밀도 추정, 연구 중인 데이터의 분포 맵을 생성합니다.

K-Means는 데이터의 신성한 세그먼트, 그룹 및 커뮤니티를 클러스터링합니다. 출처: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means는 데이터의 신성한 세그먼트, 그룹 및 커뮤니티를 클러스터링합니다. 출처: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K- 평균 군집화 는 이 접근 방식의 가장 인기 있는 구현이 되어 데이터 포인트를 고유한 'K 그룹'으로 이동합니다. 이 그룹은 인구 통계학적 부문, 온라인 커뮤니티 또는 원시 통계 데이터에서 발견되기를 기다리는 기타 가능한 비밀 집계를 나타낼 수 있습니다.

클러스터는 K-Means 분석에서 형성됩니다. 출처: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

클러스터는 K-Means 분석에서 형성됩니다. 출처: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K 값 자체는 프로세스의 유용성과 클러스터에 대한 최적의 값을 설정하는 결정 요인입니다. 처음에는 K 값이 무작위로 할당되고 그 특징과 벡터 특성이 이웃과 비교됩니다. 데이터가 프로세스에서 허용하는 모든 그룹화를 생성할 때까지 임의로 할당된 값이 있는 데이터 포인트와 가장 유사한 이웃이 클러스터에 반복적으로 할당됩니다.

제곱 오차에 대한 플롯 또는 클러스터 간에 서로 다른 값의 '비용'은 다음을 나타냅니다. 팔꿈치 포인트 데이터:

클러스터 그래프의 'elbow point'. 출처: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

클러스터 그래프의 'elbow point'. 출처: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

팔꿈치 포인트는 데이터 세트에 대한 교육 세션이 끝날 때 손실이 감소하는 방식으로 개념상 유사합니다. 그룹 간의 더 이상의 구분이 명확해지지 않는 지점을 나타내며 데이터 파이프라인의 후속 단계로 이동하거나 결과를 보고해야 하는 순간을 나타냅니다.

인기있는 사용법

K-평균 클러스터링은 대량의 상업 기록을 인구통계학적 통찰력과 '리드'로 변환하는 명확하고 설명 가능한 방법론을 제공하기 때문에 분명한 이유로 고객 분석의 기본 기술입니다.

이 응용 프로그램 외에도 K-Means Clustering은 다음을 위해 사용됩니다. 산사태 예측, 의료 영상 분할, GAN을 사용한 이미지 합성, 문서 분류도시 계획, 다른 많은 잠재적 및 실제 용도 중에서.

5: 랜덤 포레스트

랜덤 포레스트는 앙상블 학습 배열의 결과를 평균화하는 방법 결정 트리 결과에 대한 전반적인 예측을 설정합니다.

출처: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

출처: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

당신이 그것을 보는 것만 큼 조금만 조사했다면 미래로 귀환 3부작인 의사결정 트리 자체는 개념화하기가 매우 쉽습니다. 여러 경로가 여러분 앞에 놓여 있고, 각 경로는 더 많은 가능한 경로를 포함하는 새로운 결과로 분기됩니다.

In 강화 학습, 경로에서 후퇴하고 이전 입장에서 다시 시작할 수 있지만 의사 결정 트리는 여정에 전념합니다.

따라서 Random Forest 알고리즘은 본질적으로 결정을 위한 스프레드 베팅입니다. 이 알고리즘은 다음을 만들기 때문에 '랜덤'이라고 합니다. 임시 변통의 이해하기 위한 선택과 관찰 중앙 분리대 의사 결정 트리 배열의 결과 합계입니다.

다양한 요소를 고려하기 때문에 Random Forest 접근 방식은 의사 결정 트리보다 의미 있는 그래프로 변환하기가 더 어려울 수 있지만 훨씬 더 생산적일 수 있습니다.

의사 결정 트리는 과대적합의 영향을 받습니다. 여기서 얻은 결과는 데이터에 따라 다르며 일반화할 가능성이 없습니다. Random Forest의 데이터 포인트 임의 선택은 데이터에서 의미 있고 유용한 대표적인 추세를 드릴스루하여 이러한 경향에 맞서 싸웁니다.

의사 결정 트리 회귀. 출처: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

의사 결정 트리 회귀. 출처: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

인기있는 사용법

이 목록에 있는 많은 알고리즘과 마찬가지로 Random Forest는 일반적으로 데이터의 '초기' 분류기 및 필터로 작동하므로 새로운 연구 논문에서 지속적으로 나타납니다. Random Forest 사용의 몇 가지 예는 다음과 같습니다. 자기공명영상합성, Bitcoin 가격 예측, 인구 조사 세분화, 텍스트 분류신용 카드 사기 탐지.

Random Forest는 머신 러닝 아키텍처의 하위 수준 알고리즘이므로 다음과 같은 시각화 알고리즘뿐만 아니라 다른 하위 수준 방법의 성능에도 기여할 수 있습니다. 유도 클러스터링, 기능 변환, 텍스트 문서의 분류 희소 기능 사용파이프라인 표시.

6: 나이브 베이즈

밀도 추정과 결합(참조 4, 위), 나이브 베이즈 분류기는 데이터의 계산된 특징을 기반으로 확률을 추정할 수 있는 강력하지만 상대적으로 가벼운 알고리즘입니다.

나이브 베이즈 분류기의 기능 관계. 출처: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

나이브 베이즈 분류기의 기능 관계. 출처: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

'순진한'이라는 용어는 베이즈 정리 해당 기능은 관련이 없으며 조건부 독립. 이 관점을 채택하면 오리처럼 걷고 말하는 것만으로는 우리가 오리를 다루고 있다는 사실을 입증하기에 충분하지 않으며 어떤 '명백한' 가정도 성급하게 채택되지 않습니다.

이러한 수준의 학문적 및 조사적 엄격함은 '상식'을 사용할 수 있는 경우 과잉일 수 있지만 기계 학습 데이터 세트에 존재할 수 있는 많은 모호성과 잠재적으로 관련되지 않은 상관 관계를 탐색할 때 귀중한 표준입니다.

원래 베이지안 네트워크에서 기능은 다음을 따릅니다. 채점 기능, 최소 설명 길이 포함 베이지안 채점, 데이터 포인트 간에 발견된 예상 연결과 이러한 연결이 흐르는 방향 측면에서 데이터에 제한을 가할 수 있습니다.

반대로 순진한 베이즈 분류기는 주어진 객체의 특징이 독립적이라고 가정하여 작동하고 이후에 베이즈 정리를 사용하여 해당 특징을 기반으로 주어진 객체의 확률을 계산합니다.

인기있는 사용법

Naive Bayes 필터는 질병 예측 및 문서 분류, 스팸 필터링, 감정 분류, 추천 시스템사기 탐지, 다른 응용 프로그램 중에서.

7: K- 최근접 이웃(KNN)

미 공군 항공 의학 학교에서 처음 제안 1951년20세기 중반 최첨단 컴퓨팅 하드웨어에 적응해야 하는 K- 최근 접 이웃 (KNN)은 학술 논문 및 민간 부문 기계 학습 연구 이니셔티브에서 여전히 두드러지게 나타나는 린 알고리즘입니다.

KNN은 본격적인 기계 학습 모델의 교육을 요구하지 않고 데이터 포인트 간의 관계를 평가하기 위해 데이터 세트를 철저하게 스캔하기 때문에 '게으른 학습자'라고 불립니다.

KNN 그룹화. 출처: https://scikit-learn.org/stable/modules/neighbors.html

KNN 그룹화. 원천: https://scikit-learn.org/stable/modules/neighbors.html

KNN은 구조적으로 가냘프지만 체계적인 접근 방식은 읽기/쓰기 작업에 상당한 수요가 있으며 매우 큰 데이터 세트에서 KNN을 사용하는 것은 복잡하고 대용량 데이터 세트를 변환할 수 있는 주성분 분석(PCA)과 같은 보조 기술 없이는 문제가 될 수 있습니다. ~ 안으로 대표 그룹 KNN이 더 적은 노력으로 순회할 수 있습니다.

A 최근의 연구 직원이 회사를 떠날지 여부를 예측하는 여러 알고리즘의 효율성과 경제성을 평가하여 XNUMX대 KNN이 정확성과 예측 효율성 측면에서 더 현대적인 경쟁자보다 우수하다는 사실을 발견했습니다.

인기있는 사용법

대중적인 개념과 실행의 모든 ​​단순성에도 불구하고 KNN은 1950년대에 머물러 있지 않습니다. 보다 DNN 중심적인 접근 방식 2018년 Pennsylvania State University의 제안에서 훨씬 더 복잡한 많은 기계 학습 프레임워크에서 중앙 초기 단계 프로세스(또는 사후 처리 분석 도구)로 남아 있습니다.

다양한 구성에서 KNN이 사용되었습니다. 온라인 서명 확인, 이미지 분류, 텍스트 마이닝, 작물 예측얼굴 인식, 다른 응용 프로그램 및 통합 외에.

훈련 중인 KNN 기반 안면 인식 시스템. 출처: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

훈련 중인 KNN 기반 안면 인식 시스템. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: 마르코프 결정 프로세스(MDP)

미국의 수학자 리차드 벨만이 소개한 수학적 틀 1957년, MDP(Markov Decision Process)는 가장 기본적인 블록 중 하나입니다. 강화 학습 아키텍처. 그 자체로 개념적 알고리즘이며 수많은 다른 알고리즘에 적용되었으며 현재 AI/ML 연구에서 자주 반복됩니다.

MDP는 다음에 탐색할 데이터 노드를 결정하기 위해 현재 상태(즉, 데이터의 '위치')에 대한 평가를 사용하여 데이터 환경을 탐색합니다.

출처: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

출처: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

기본 Markov 의사 결정 프로세스는 보다 바람직한 장기 목표보다 단기 이점을 우선시합니다. 이러한 이유로 일반적으로 강화 학습에서 보다 포괄적인 정책 아키텍처의 맥락에 포함되며 종종 다음과 같은 제한 요인의 영향을 받습니다. 할인된 보상, 그리고 더 광범위한 원하는 결과를 고려하지 않고 즉각적인 목표로 서두르지 못하게 하는 기타 수정 환경 변수.

인기있는 사용법

MDP의 저수준 개념은 기계 학습의 연구 및 활성 배포 모두에서 널리 퍼져 있습니다. 위해 제안되었습니다. IoT 보안 방어 시스템, 물고기 수확시장 예측.

그 외에 명백한 적용 가능성 체스 및 기타 엄격하게 순차적인 게임에 대해 MDP는 또한 로봇 시스템의 절차적 훈련, 아래 비디오에서 볼 수 있듯이.

Markov 결정 프로세스를 사용하는 글로벌 플래너 - Mobile Industrial Robotics

 

9: 용어 빈도-역 문서 빈도

기간 빈도(TF) 문서에 단어가 나타나는 횟수를 해당 문서의 총 단어 수로 나눕니다. 따라서 단어 봉하다 천 단어 기사에 한 번 등장하는 용어 빈도는 0.001입니다. TF 자체는 의미 없는 기사(예: a, , 전에,it) 우세하다.

용어에 대한 의미 있는 값을 얻기 위해 IDF(역 문서 빈도)는 데이터 세트의 여러 문서에서 단어의 TF를 계산하여 낮은 등급을 매우 높은 빈도에 할당합니다. 스톱 워드, 기사와 같은. 결과 특징 벡터는 전체 값으로 정규화되며 각 단어에는 적절한 가중치가 할당됩니다.

TF-IDF는 여러 문서에서 빈도를 기준으로 용어의 관련성에 가중치를 부여하며 드물게 발생하는 경우 현저성을 나타냅니다. 출처: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

TF-IDF는 여러 문서에서 빈도를 기준으로 용어의 관련성에 가중치를 부여하며 드물게 발생하는 경우 현저성을 나타냅니다. 출처: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

이 접근 방식은 의미상 중요한 단어가 다음과 같이 손실되는 것을 방지하지만 이상치, 빈도 가중치를 반전한다고 해서 자동으로 저주파 용어가 지원 일부는 드물기 때문에 이상치 가치 없는. 따라서 빈도가 낮은 용어는 데이터 세트의 여러 문서에서 (문서당 빈도가 낮은 경우에도) 기능을 통해 더 넓은 아키텍처 컨텍스트에서 그 가치를 입증해야 합니다.

그럼에도 불구하고 나이, TF-IDF는 자연어 처리 프레임워크에서 초기 필터링 통과를 위한 강력하고 널리 사용되는 방법입니다.

인기있는 사용법

TF-IDF는 지난 XNUMX년 동안 Google의 대체로 오컬트적인 PageRank 알고리즘 개발에 최소한 어느 정도 역할을 했기 때문에 매우 널리 채택 조작적인 SEO 전술로, John Mueller의 2019년에도 불구하고 거부 검색 결과에 대한 중요성입니다.

PageRank 주변의 비밀로 인해 TF-IDF가 지원 현재 Google 순위 상승을 위한 효과적인 전술입니다. 방화범 토론 최근 IT 전문가들 사이에서 용어 남용이 여전히 SEO 배치를 개선할 수 있다는 대중적인 이해를 나타냅니다. 독점 남용 혐의과도한 광고 이 이론의 한계를 흐리게 함).

10: 확률적 경사하강법

확률적 경사하강법 (SGD)는 기계 학습 모델의 교육을 최적화하는 데 점점 더 많이 사용되는 방법입니다.

경사 하강법 자체는 훈련 중에 모델이 만드는 개선을 최적화하고 이후에 정량화하는 방법입니다.

이런 의미에서 '기울기'는 아래로 기울기를 나타냅니다(색상 기반 그라데이션이 아니라 아래 이미지 참조). 여기서 왼쪽에 있는 '언덕'의 가장 높은 지점은 훈련 과정의 시작을 나타냅니다. 이 단계에서 모델은 아직 전체 데이터를 한 번도 본 적이 없으며 효과적인 변환을 생성하기 위해 데이터 간의 관계에 대해 충분히 학습하지 않았습니다.

FaceSwap 교육 세션의 경사 하강법. 우리는 교육이 후반부에 얼마 동안 정체되었지만 결국 수용 가능한 수렴을 향한 기울기 아래로 회복되었음을 볼 수 있습니다.

FaceSwap 교육 세션의 경사 하강법. 우리는 교육이 후반부에 얼마 동안 정체되었지만 결국 수용 가능한 수렴을 향한 기울기 아래로 회복되었음을 볼 수 있습니다.

오른쪽의 가장 낮은 지점은 수렴을 나타냅니다(모델이 부과된 제약 조건 및 설정 하에서 얻을 수 있는 만큼 효과적인 지점).

그래디언트는 오류율(모델이 현재 데이터 관계를 얼마나 정확하게 매핑했는지)과 가중치(모델이 학습하는 방식에 영향을 미치는 설정) 사이의 차이에 대한 기록 및 예측자 역할을 합니다.

이 진행 기록은 다음을 알리는 데 사용할 수 있습니다. 학습률 일정, 초기 모호한 세부 사항이 명확한 관계 및 매핑으로 변환됨에 따라 아키텍처가 보다 세분화되고 정확해지도록 지시하는 자동 프로세스입니다. 실제로 그래디언트 손실은 교육이 다음에 진행되어야 하는 위치와 진행 방법에 대한 적시 맵을 제공합니다.

Stochastic Gradient Descent의 혁신은 반복마다 각 교육 예제에서 모델의 매개변수를 업데이트하여 일반적으로 수렴 과정을 가속화한다는 것입니다. 최근 몇 년 동안 하이퍼스케일 데이터 세트의 출현으로 인해 SGD는 최근 물류 문제를 해결할 수 있는 한 가지 방법으로 인기가 높아졌습니다.

반면 SGD는 부정적인 의미 기능 크기 조정을 위해 동일한 결과를 얻기 위해 더 많은 반복이 필요할 수 있으므로 일반 경사 하강법에 비해 추가 계획 및 추가 매개변수가 필요합니다.

인기있는 사용법

구성 가능성과 단점에도 불구하고 SGD는 신경망 피팅을 위한 가장 인기 있는 최적화 알고리즘이 되었습니다. 새로운 AI/ML 연구 논문에서 지배적인 SGD 구성 중 하나는 ADAM(Adaptive Moment Estimation)의 선택입니다. 2015년) 옵티마이저.

ADAM은 각 매개변수에 대한 학습률을 동적으로 조정하고('적응형 학습률') 이전 업데이트의 결과를 후속 구성에 통합합니다('모멘텀'). 또한 다음과 같은 최신 혁신을 사용하도록 구성할 수 있습니다. 네스테로프 모멘텀.

그러나 일부에서는 모멘텀을 사용하면 ADAM(및 유사한 알고리즘)을 최적이 아닌 결론. 기계 학습 연구 분야의 최첨단 분야와 마찬가지로 SGD도 진행 중인 작업입니다.

 

10년 2022월 10일에 처음 게시되었습니다. EET 20.05년 XNUMX월 XNUMX일에 수정되었습니다.