AI 101

선형 회귀는 무엇입니까?

업데이트 on ２０２３년 ６월 ２８일

선형 회귀는 무엇입니까?

선형 회귀는 다음을 예측하거나 시각화하는 데 사용되는 알고리즘입니다. 서로 다른 두 기능/변수 간의 관계. 선형 회귀 작업에는 두 가지 종류의 변수가 있습니다. 종속 변수와 독립 변수. 독립 변수는 다른 변수의 영향을 받지 않고 자체적으로 존재하는 변수입니다. 독립 변수가 조정되면 종속 변수의 수준이 변동합니다. 종속 변수는 연구 중인 변수이며 회귀 모델이 해결/예측을 시도하는 변수입니다. 선형 회귀 작업에서 모든 관찰/인스턴스는 종속 변수 값과 독립 변수 값으로 구성됩니다.

지금까지 선형 회귀에 대한 간단한 설명이었지만 선형 회귀의 예를 살펴보고 사용하는 공식을 검토하여 선형 회귀를 더 잘 이해하도록 합시다.

선형 회귀 이해하기

하드 드라이브 크기와 해당 하드 드라이브 비용을 포함하는 데이터 세트가 있다고 가정합니다.

우리가 가지고 있는 데이터 세트가 메모리 양과 비용이라는 두 가지 다른 기능으로 구성되어 있다고 가정해 보겠습니다. 컴퓨터용 메모리를 더 많이 구입할수록 구입 비용이 더 많이 듭니다. 산점도에 개별 데이터 포인트를 표시하면 다음과 같은 그래프를 얻을 수 있습니다.

정확한 메모리 대 비용 비율은 하드 드라이브 제조업체와 모델에 따라 다를 수 있지만 일반적으로 데이터의 추세는 왼쪽 하단(하드 드라이브가 더 저렴하고 용량이 더 작음)에서 시작하여 다음으로 이동하는 추세입니다. 오른쪽 상단(드라이브가 더 비싸고 용량이 더 큰 경우).

X축에 메모리 양이 있고 Y축에 비용이 있는 경우 X와 Y 변수 사이의 관계를 캡처하는 선은 왼쪽 하단 모서리에서 시작하여 오른쪽 상단으로 이어집니다.

회귀 모델의 기능은 두 변수 간의 관계를 가장 잘 설명하는 X 변수와 Y 변수 간의 선형 함수를 결정하는 것입니다. 선형 회귀에서는 입력 변수의 일부 조합에서 Y를 계산할 수 있다고 가정합니다. 입력 변수(X)와 대상 변수(Y) 간의 관계는 그래프의 점을 통해 선을 그려서 나타낼 수 있습니다. 선은 X와 Y 사이의 관계를 가장 잘 설명하는 함수를 나타냅니다(예: X가 3씩 증가할 때마다 Y는 2씩 증가함). 목표는 최적의 "회귀선" 또는 데이터에 가장 잘 맞는 선/함수를 찾는 것입니다.

선은 일반적으로 다음 방정식으로 표시됩니다. Y = m*X + b. X는 종속변수를 나타내고 Y는 독립변수를 나타냅니다. 한편, m은 "런"에 대한 "상승"으로 정의되는 선의 기울기입니다. 기계 학습 실무자는 다음 방정식을 사용하여 유명한 경사선 방정식을 약간 다르게 표현합니다.

y(x) = w0 + w1 * x

위 방정식에서 y는 대상 변수이고 "w"는 모델의 매개 변수이고 입력은 "x"입니다. 따라서 방정식은 "X에 따라 Y를 제공하는 함수는 기능을 곱한 모델의 매개 변수와 같습니다"로 읽습니다. 모델의 매개변수는 가장 적합한 회귀선을 얻기 위해 훈련 중에 조정됩니다.

다중 선형 회귀

사진: Wikimedia Commons를 통한 Cbaf, 퍼블릭 도메인(https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

위에서 설명한 프로세스는 단순 선형 회귀 또는 단일 기능/독립 변수만 있는 데이터 집합에 대한 회귀에 적용됩니다. 그러나 여러 기능을 사용하여 회귀를 수행할 수도 있습니다. "의 경우다중 선형 회귀”, 방정식은 데이터 세트 내에서 발견된 변수의 수만큼 확장됩니다. 즉, 정규 선형 회귀의 방정식은 y(x) = w0 + w1 * x인 반면 다중 선형 회귀의 방정식은 y(x) = w0 + w1x1에 다양한 기능에 대한 가중치와 입력을 더한 것입니다. 가중치 및 기능의 총 수를 w(n)x(n)으로 나타내면 다음과 같은 공식을 나타낼 수 있습니다.

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

선형 회귀 공식을 설정한 후 기계 학습 모델은 가중치에 대해 다른 값을 사용하여 다른 적합선을 그립니다. 목표는 데이터에 가장 잘 맞는 가능한 가중치 조합(따라서 가능한 라인)을 결정하고 변수 간의 관계를 설명하기 위해 데이터에 가장 잘 맞는 라인을 찾는 것임을 기억하십시오.

비용 함수는 특정 가중치 값이 주어졌을 때 가정된 Y 값이 실제 Y 값에 얼마나 가까운지를 측정하는 데 사용됩니다. 비용 함수 선형 회귀의 경우 평균 제곱 오차는 데이터 세트의 다양한 데이터 포인트 모두에 대한 예측 값과 실제 값 사이의 평균(제곱) 오차를 취합니다. 비용 함수는 예상 목표 값과 실제 목표 값 간의 차이를 캡처하는 비용을 계산하는 데 사용됩니다. 적합선이 데이터 포인트에서 멀리 떨어져 있으면 비용이 높아지는 반면 비용은 선이 변수 간의 실제 관계를 포착하는 데 더 가까워질수록 작아집니다. 그런 다음 오차가 가장 적은 가중치 구성을 찾을 때까지 모델의 가중치를 조정합니다.