AI 101
머신 러닝이란 무엇입니까?
머신러닝은 가장 빠르게 성장하는 기술 분야 중 하나이지만, "머신러닝"이라는 단어가 얼마나 자주 등장하는지에도 불구하고 머신러닝이 정확히 무엇인지 이해하는 것은 어려울 수 있습니다.
기계 학습 한 가지를 가리키는 것이 아니라 다양한 개념과 기술에 적용할 수 있는 포괄적인 용어입니다. 기계 학습을 이해한다는 것은 다양한 형태의 모델 분석, 변수 및 알고리즘에 익숙해지는 것을 의미합니다. 기계 학습이 포함하는 내용을 더 잘 이해하기 위해 기계 학습을 자세히 살펴보겠습니다.
머신 러닝이란 무엇입니까?
기계 학습이라는 용어는 여러 가지에 적용될 수 있지만 일반적으로 이 용어는 명시적인 라인별 지침을 받지 않고 컴퓨터가 작업을 수행할 수 있도록 하는 것을 의미합니다. 기계 학습 전문가는 컴퓨터가 데이터 내의 패턴을 분석하고 이러한 패턴을 새로운 데이터로 일반화하여 "학습"할 수 있기 때문에 문제 해결에 필요한 모든 단계를 작성할 필요가 없습니다.
기계 학습 시스템에는 세 가지 기본 부분이 있습니다.
- 입력
- 알고리즘
- 출력
입력은 기계 학습 시스템에 입력되는 데이터이며 입력 데이터는 레이블과 기능으로 나눌 수 있습니다. 기능은 관련 변수로, 패턴을 학습하고 결론을 도출하기 위해 분석할 변수입니다. 한편 레이블은 데이터의 개별 인스턴스에 부여된 클래스/설명입니다.
기능과 레이블은 지도 학습과 비지도 학습이라는 두 가지 유형의 기계 학습 문제에 사용될 수 있습니다.
비지도 대 지도 학습
In 지도 학습, 입력 데이터에는 실측 정보가 수반됩니다. 감독 학습 문제는 데이터 세트의 일부로 올바른 출력 값을 가지므로 예상 클래스를 미리 알 수 있습니다. 이를 통해 데이터 과학자는 테스트 데이터 세트에서 데이터를 테스트하고 항목의 몇 퍼센트가 올바르게 분류되었는지 확인하여 알고리즘의 성능을 확인할 수 있습니다.
대조적으로, 비지도 학습 문제에는 정답 레이블이 붙어 있지 않습니다. 비지도 학습 작업을 수행하도록 훈련된 기계 학습 알고리즘은 데이터에서 관련 패턴을 스스로 추론할 수 있어야 합니다.
감독 학습 알고리즘은 일반적으로 많은 다른 클래스 중 하나로 정렬해야 하는 인스턴스로 채워진 대규모 데이터 세트가 있는 분류 문제에 사용됩니다. 지도 학습의 또 다른 유형은 알고리즘에 의한 값 출력이 범주형이 아닌 본질적으로 연속적인 회귀 작업입니다.
한편 비지도 학습 알고리즘은 밀도 추정, 클러스터링 및 표현 학습과 같은 작업에 사용됩니다. 이 세 가지 작업에는 데이터 구조를 추론하기 위한 기계 학습 모델이 필요하며 모델에 지정된 사전 정의된 클래스가 없습니다.
비지도 학습과 지도 학습 모두에서 사용되는 가장 일반적인 알고리즘 중 일부를 간략하게 살펴보겠습니다.
지도 학습의 유형
일반적인 지도 학습 알고리즘에는 다음이 포함됩니다.
- 나이브 베이 즈
- 벡터 머신 지원
- 로지스틱 회귀
- 랜덤 포레스트
- 인공 신경망
벡터 머신 지원 데이터 세트를 다른 클래스로 나누는 알고리즘입니다. 클래스를 서로 구분하는 선을 그려서 데이터 포인트를 클러스터로 그룹화합니다. 선의 한쪽에서 찾은 포인트는 한 클래스에 속하고 선의 다른 쪽에 있는 포인트는 다른 클래스에 속합니다. 서포트 벡터 머신은 선과 선 양쪽에 있는 점 사이의 거리를 최대화하는 것을 목표로 하며, 거리가 멀수록 분류기는 점이 다른 클래스가 아닌 한 클래스에 속한다고 확신합니다.
로지스틱 회귀 데이터 포인트가 두 클래스 중 하나에 속하는 것으로 분류되어야 할 때 이진 분류 작업에 사용되는 알고리즘입니다. 로지스틱 회귀는 데이터 포인트에 1 또는 0으로 레이블을 지정하여 작동합니다. 데이터 포인트의 인지된 값이 0.49 이하이면 0으로 분류되고 0.5 이상이면 1로 분류됩니다.
의사결정 트리 알고리즘 데이터 세트를 점점 더 작은 조각으로 나누어 작동합니다. 데이터를 분할하는 데 사용되는 정확한 기준은 기계 학습 엔지니어에게 달려 있지만 목표는 궁극적으로 데이터를 단일 데이터 포인트로 분할한 다음 키를 사용하여 분류하는 것입니다.
Random Forest 알고리즘은 본질적으로 더 강력한 분류자로 함께 연결된 많은 단일 의사결정 트리 분류자입니다.
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 나이브 베이 즈 분류기 이전 사건이 발생할 확률을 기반으로 특정 데이터 포인트가 발생할 확률을 계산합니다. 이는 베이즈 정리(Bayes Theorem)를 기반으로 하며 계산된 확률에 따라 데이터 포인트를 클래스에 배치합니다. Naive Bayes 분류기를 구현할 때 모든 예측 변수가 클래스 결과에 동일한 영향을 미친다고 가정합니다.
An 인공 신경망, 또는 다층 퍼셉트론은 인간 두뇌의 구조와 기능에서 영감을 얻은 기계 학습 알고리즘입니다. 인공 신경망은 함께 연결된 많은 노드/뉴런으로 구성된다는 사실에서 이름을 얻습니다. 모든 뉴런은 수학 함수로 데이터를 조작합니다. 인공신경망에는 입력층, 은닉층, 출력층이 있다.
신경망의 숨겨진 계층은 데이터가 실제로 해석되고 패턴에 대해 분석되는 곳입니다. 즉, 알고리즘이 학습하는 곳입니다. 함께 결합된 더 많은 뉴런은 더 복잡한 패턴을 학습할 수 있는 더 복잡한 네트워크를 만듭니다.
비지도 학습의 유형
비지도 학습 알고리즘에는 다음이 포함됩니다.
- K- 평균 클러스터링
- 자동 인코더
- 주요 구성 요소 분석
K- 평균 클러스터링 감독되지 않은 분류 기술이며 기능에 따라 데이터 포인트를 클러스터 또는 그룹으로 분리하여 작동합니다. K-평균 클러스터링은 데이터 포인트에서 발견된 특징을 분석하고 주어진 클래스 클러스터에서 발견된 데이터 포인트를 다른 데이터 포인트를 포함하는 클러스터보다 서로 더 유사하게 만드는 패턴을 구별합니다. 이는 데이터 그래프에 클러스터 또는 중심의 가능한 중심을 배치하고 중심과 해당 중심의 클래스에 속하는 점 사이의 거리를 최소화하는 위치를 찾을 때까지 중심의 위치를 재할당하여 수행됩니다. 연구원은 원하는 클러스터 수를 지정할 수 있습니다.
주요 구성 요소 분석 많은 수의 기능/변수를 더 작은 기능 공간/더 적은 기능으로 줄이는 기술입니다. 데이터 포인트의 "주요 구성 요소"는 보존을 위해 선택되고 다른 기능은 더 작은 표현으로 압착됩니다. 원본 데이터 부분 간의 관계는 유지되지만 데이터 포인트의 복잡성이 더 단순하기 때문에 데이터를 정량화하고 설명하기가 더 쉽습니다.
자동 인코더 비지도 학습 작업에 적용할 수 있는 신경망 버전입니다. Autoencoder는 레이블이 지정되지 않은 자유 형식 데이터를 가져와서 신경망이 사용할 수 있는 데이터로 변환하여 기본적으로 고유한 레이블이 지정된 훈련 데이터를 생성할 수 있습니다. 오토인코더의 목표는 입력 데이터를 변환하고 가능한 한 정확하게 재구성하는 것이므로 어떤 기능이 가장 중요한지 결정하고 추출하는 것이 네트워크의 인센티브입니다.