Connect with us

AI 101

지도 학습 vs 비지도 학습

mm

머신 러닝에서 대부분의 작업은 두 가지 다른 범주 중 하나로 쉽게 분류될 수 있습니다: 지도 학습 문제 또는 비지도 학습 문제입니다. 지도 학습에서는 데이터에 레이블이나 클래스가 첨부되어 있는 반면, 비지도 학습의 경우 데이터에는 레이블이 없습니다. 이 구분이 왜 중요한지 자세히 살펴보고 각 학습 유형과 관련된 몇 가지 알고리즘을 살펴보겠습니다.

Supervised vs Unsupervised Learning

대부분의 머신 러닝 작업은 지도 학습 영역에 속합니다. 지도 학습 알고리즘에서는 데이터셋의 개별 인스턴스/데이터 포인트에 클래스나 레이블이 할당되어 있습니다. 이는 머신 러닝 모델이 주어진 클래스와 어떤 특징들이 연관되어 있는지 구별하는 법을 배울 수 있으며, 머신 러닝 엔지니어가 얼마나 많은 인스턴스가 올바르게 분류되었는지 확인함으로써 모델의 성능을 점검할 수 있음을 의미합니다. 분류 알고리즘은 데이터가 적절한 클래스로 레이블링되어 있는 한, 많은 복잡한 패턴을 식별하는 데 사용될 수 있습니다. 예를 들어, 머신 러닝 알고리즘은 “수염”, “꼬리”, “발톱” 등과 같은 특성을 기반으로 서로 다른 동물을 구별하는 법을 배울 수 있습니다. 지도 학습과 달리, 비지도 학습은 레이블이 없는 데이터에서 패턴을 추출할 수 있는 모델을 생성하는 것을 포함합니다. 다시 말해, 컴퓨터는 입력 특징을 분석하고 가장 중요한 특징과 패턴이 무엇인지 스스로 결정합니다. 비지도 학습은 서로 다른 인스턴스 간의 고유한 유사성을 찾으려고 합니다. 지도 학습 알고리즘이 데이터 포인트를 알려진 클래스에 배치하는 것을 목표로 한다면, 비지도 학습 알고리즘은 객체 인스턴스에 공통된 특징을 검토하고 이러한 특징을 기반으로 그룹에 배치함으로써 본질적으로 자체적인 클래스를 생성합니다. 지도 학습 알고리즘의 예로는 선형 회귀, 로지스틱 회귀, K-최근접 이웃, 의사 결정 트리, 서포트 벡터 머신이 있습니다. 한편, 비지도 학습 알고리즘의 예로는 주성분 분석과 K-평균 클러스터링이 있습니다.

Supervised Learning Algorithm

선형 회귀는 두 가지 특징을 취하여 그들 사이의 관계를 도표화하는 알고리즘입니다. 선형 회귀는 다른 수치 변수와 관련된 수치 값을 예측하는 데 사용됩니다. 선형 회귀는 Y = a + bX 방정식을 가지며, 여기서 b는 선의 기울기이고 a는 y가 X축과 교차하는 지점입니다. 로지스틱 회귀는 이진 분류 알고리즘입니다. 이 알고리즘은 수치 특징 간의 관계를 검토하고 인스턴스가 두 가지 다른 클래스 중 하나로 분류될 확률을 찾습니다. 확률 값은 0 또는 1 쪽으로 “압축”됩니다. 다시 말해, 강한 확률은 0.99에 가까워지는 반면 약한 확률은 0에 가까워집니다. K-최근접 이웃은 훈련 세트에서 선택된 일정 수의 이웃의 할당된 클래스를 기반으로 새로운 데이터 포인트에 클래스를 할당합니다. 알고리즘이 고려하는 이웃의 수는 중요하며, 너무 적거나 너무 많은 이웃은 포인트를 잘못 분류할 수 있습니다. 의사 결정 트리는 분류 및 회귀 알고리즘의 한 유형입니다. 의사 결정 트리는 데이터셋을 더 작고 작은 부분으로 나누어 하위 집합이 더 이상 나눌 수 없을 때까지 진행하며, 그 결과는 노드와 잎으로 구성된 트리가 됩니다. 노드는 서로 다른 필터링 기준을 사용하여 데이터 포인트에 대한 결정이 내려지는 곳이고, 잎은 어떤 레이블이 할당된 인스턴스들(분류된 데이터 포인트)입니다. 의사 결정 트리 알고리즘은 수치 데이터와 범주형 데이터를 모두 처리할 수 있습니다. 트리 내의 분할은 특정 변수/특징에 대해 이루어집니다. 서포트 벡터 머신은 데이터 포인트 사이에 초평면 또는 분리선을 그려서 작동하는 분류 알고리즘입니다. 데이터 포인트는 초평면의 어느 쪽에 있는지에 따라 클래스로 분리됩니다. 하나의 평면에 여러 개의 초평면을 그려 데이터셋을 여러 클래스로 나눌 수 있습니다. 분류기는 분리 초평면과 평면 양쪽의 점 사이의 거리를 최대화하려고 하며, 선과 점 사이의 거리가 클수록 분류기는 더 확신을 갖게 됩니다.

Unsupervised Learning Algorithms

주성분 분석은 차원 축소에 사용되는 기법으로, 데이터의 차원성이나 복잡성을 더 단순한 방식으로 표현하는 것을 의미합니다. 주성분 분석 알고리즘은 데이터에 대한 새로운 직교 차원을 찾습니다. 데이터의 차원성이 줄어드는 동안, 데이터 간의 분산은 가능한 한 많이 보존되어야 합니다. 실제적인 의미에서 이것은 데이터셋의 특징을 취하여 데이터의 대부분을 나타내는 더 적은 수의 특징으로 정제하는 것입니다. K-평균 클러스터링은 유사한 특징을 기반으로 데이터 포인트를 자동으로 클러스터로 그룹화하는 알고리즘입니다. 데이터셋 내의 패턴이 분석되고 데이터 포인트는 이러한 패턴을 기반으로 그룹으로 나뉩니다. 본질적으로, K-평균은 레이블이 없는 데이터에서 자체적인 클래스를 생성합니다. K-평균 알고리즘은 클러스터에 중심 또는 중심점을 할당하고 중심점의 최적 위치를 찾을 때까지 중심점을 이동시키며 작동합니다. 최적의 위치는 클래스 내에서 중심점과 주변 데이터 포인트 사이의 거리가 최소화되는 위치가 될 것입니다. K-평균 클러스터링에서 “K”는 선택된 중심점의 수를 나타냅니다.

Summary

마무리하며, 지도 학습과 비지도 학습의 주요 차이점을 빠르게 살펴보겠습니다. 앞서 논의한 바와 같이, 지도 학습 작업에서는 입력 데이터에 레이블이 지정되어 있고 클래스의 수가 알려져 있습니다. 반면, 비지도 학습 사례에서는 입력 데이터에 레이블이 없고 클래스의 수를 알 수 없습니다. 비지도 학습은 계산 복잡성이 낮은 경향이 있는 반면, 지도 학습은 계산 복잡성이 더 높은 경향이 있습니다. 지도 학습 결과는 매우 정확한 경향이 있는 반면, 비지도 학습 결과는 덜 정확하거나 중간 정도의 정확도를 보이는 경향이 있습니다.

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.