Connect with us

๊ธฐ๊ณ„ ํ•™์Šต์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

AI 101

๊ธฐ๊ณ„ ํ•™์Šต์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

mm

기계 학습은 가장 빠르게 성장하는 기술 분야 중 하나이지만, “기계 학습”이라는 단어가 자주 사용되는 반면, 기계 학습이 정확히 무엇인지 이해하기는 어렵다.

기계 학습은 한 가지 것만을 의미하지 않는다. 그것은 많은 다른 개념과 기술에 적용될 수 있는 포괄적인 용어이다. 기계 학습을 이해하는 것은 다양한 형태의 모델 분석, 변수, 알고리즘에 익숙해지는 것을 의미한다. 기계 학습을 더 잘 이해하기 위해 기계 학습을 자세히 살펴보자.

기계 학습이란 무엇인가?

기계 학습이라는 용어가 많은 다른 것에 적용될 수 있지만, 일반적으로 기계 학습이라는 용어는 컴퓨터가 명시적인 줄 단위의 지시를 받지 않고 작업을 수행할 수 있도록 하는 것을 의미한다. 기계 학습 전문가는 문제를 해결하는 데 필요한 모든 단계를 작성할 필요가 없다. 왜냐하면 컴퓨터는 데이터 내의 패턴을 분석하고 이러한 패턴을 새로운 데이터에 일반화함으로써 “학습”할 수 있기 때문이다.

기계 학습 시스템에는 세 가지 기본적인 부분이 있다:

  • 입력
  • 알고리즘
  • 출력

입력은 기계 학습 시스템에 공급되는 데이터이며, 입력 데이터는 레이블과 특징으로 나눌 수 있다. 특징은 관련 변수이며, 패턴을 학습하고 결론을 내리는 데 분석되는 변수이다. 반면에 레이블은 데이터의 개별 인스턴스에 주어진 클래스/설명이다.

특징과 레이블은 두 가지 유형의 기계 학습 문제에서 사용될 수 있다: 지도 학습과 비지도 학습.

비지도 학습 vs. 지도 학습

지도 학습에서 입력 데이터는 기준 사실과 함께 제공된다. 지도 학습 문제에는 올바른 출력 값이 데이터 세트의 일부로 포함되어 있으므로 예상 클래스는 미리 알려진다. 이것은 데이터 과학자가 테스트 데이터 세트에 데이터를 테스트하고 올바르게 분류된 항목의 百分比를 확인함으로써 알고리즘의 성능을 확인할 수 있도록 한다.

반면에 비지도 학습 문제에는 기준 사실 레이블이 첨부되어 있지 않다. 비지도 학습 작업을 수행하도록 훈련된 기계 학습 알고리즘은 데이터에서 관련 패턴을 스스로 추론할 수 있어야 한다.

지도 학습 알고리즘은 일반적으로 분류 문제에 사용되며, 한 클래스 중 하나로 분류해야 하는 많은 인스턴스가 포함된 대규모 데이터 세트가 있다. 지도 학습의 또 다른 유형은 회귀 작업으로, 알고리즘이 출력하는 값은 범주형이 아닌 연속적이다.

반면에 비지도 학습 알고리즘은 밀도 추정, 클러스터링, 표현 학습과 같은 작업에 사용된다. 이러한 세 가지 작업은 모델이 데이터의 구조를 추론해야 하므로 미리 정의된 클래스가 모델에 주어지지 않는다.

지도 학습과 비지도 학습 모두에서 사용되는 가장 일반적인 알고리즘 중 일부를 간략히 살펴보자.

지도 학습의 유형

일반적인 지도 학습 알고리즘에는 다음이 포함된다:

  • 나이브 베이즈
  • 서포트 벡터 머신
  • 로지스틱 회귀
  • 랜덤 포레스트
  • 인공 신경망

서포트 벡터 머신은 데이터 세트를 다른 클래스로 나누는 알고리즘이다. 데이터 포인트는 클래스를 서로 다른 클래스로 구분하는 선을 그음으로써 클러스터로 그룹화된다. 한쪽側의 선에 있는 포인트는 한 클래스에 속하고, 다른 쪽側의 선에 있는 포인트는 다른 클래스이다. 서포트 벡터 머신은 선과 선의 어느 쪽側에 있는 포인트 사이의 거리를 최대화하려고 한다. 거리가 클수록 분류기가 한 클래스에 속하고 다른 클래스에 속하지 않는다고 확신한다.

로지스틱 회귀는 데이터 포인트를 두 클래스 중 하나로 분류해야 하는 이진 분류 작업에서 사용되는 알고리즘이다. 로지스틱 회귀는 데이터 포인트를 1 또는 0으로 레이블링한다. 데이터 포인트의 인식된 값이 0.49 이하이면 0으로 분류되고, 0.5 이상이면 1로 분류된다.

의사 결정 트리 알고리즘은 데이터 세트를 더 작은 조각으로 나눈다. 데이터를 나누는 데 사용되는 정확한 기준은 기계 학습 엔지니어에게 달려 있지만, 궁극적으로 데이터를 단일 데이터 포인트로 나누어 분류하는 것이 목표이다.

랜덤 포레스트 알고리즘은 본质적으로 여러 개의 단일 의사 결정 트리 분류기가 더 강력한 분류기로 연결된 것이다.

나이브 베이즈 분류기는 베이즈 정리를 기반으로 하며, 데이터 포인트가 발생한 확률을 계산한다. 분류기에 대한 예측 변수가 클래스 결과에 동일한 영향을 미친다고 가정한다.

인공 신경망 또는 다층 퍼셉트론은 기계 학습 알고리즘이다. 인공 신경망은 인간의 뇌의 구조와 기능에서 영감을 얻었다. 인공 신경망은 많은 노드/신경 세포가 연결된 알고리즘이다. 각 신경 세포는 수학적 함수로 데이터를 조작한다. 인공 신경망에는 입력 계층, 은닉 계층, 출력 계층이 있다.

신경망의 은닉 계층은 데이터가 실제로 해석되고 패턴을 분석되는 곳이다. 즉, 알고리즘이 학습하는 곳이다. 더 많은 신경 세포가 연결되어 더 복잡한 네트워크를 형성할 수 있으며, 더 복잡한 패턴을 학습할 수 있다.

비지도 학습의 유형

비지도 학습 알고리즘에는 다음이 포함된다:

  • K-평균 클러스터링
  • 오토인코더
  • 주성분 분석

K-평균 클러스터링은 비지도 분류 기법으로, 데이터 포인트를 특징에 따라 클러스터 또는 그룹으로 나눈다. K-평균 클러스터링은 데이터 포인트에서 특징을 분석하여 데이터 포인트가 한 클래스의 클러스터에 속하는 다른 데이터 포인트보다 더 유사하도록 패턴을 찾는다. 이것은 데이터의 그래프에 클러스터의 중심 또는 중심을 배치하고, 중심을 재배치하여 중심과 중심의 클래스에 속하는 포인트 사이의 거리를 최소화할 때까지 찾는ことで 수행된다. 연구자는 원하는 클러스터 수를 지정할 수 있다.

주성분 분석은 많은 특징/변수를 더 작은 특징 공간/더 적은 특징으로 줄이는 기술이다. 데이터 포인트의 “주성분”이 선택되어 보존되고, 다른 특징은 더 작은 표현으로 축소된다. 원래 데이터 부분之间의 관계는 보존되지만, 데이터 포인트의 복잡성이 더 단순해지므로 데이터를 정량화하고 설명하기가 더 쉽다.

오토인코더는 비지도 학습 작업에 적용할 수 있는 신경망의 버전이다. 오토인코더는 레이블이 없는 자유 형식의 데이터를 가져와 신경망이 사용할 수 있는 데이터로 변환할 수 있다. 즉, 본질적으로 자신의 레이블된 훈련 데이터를 생성한다. 오토인코더의 목표는 입력 데이터를 변환하고 가능한 한 정확하게 재구성하는 것이다. 따라서 네트워크는 어떤 특징이 가장 중요한지 결정하고 추출하는 것이 유리하다.

๋ธ”๋กœ๊ฑฐ์ด์ž ํ”„๋กœ๊ทธ๋ž˜๋จธ๋กœ Machine Learning๊ณผ Deep Learning ์ฃผ์ œ์— ์ „๋ฌธ๊ฐ€์ž…๋‹ˆ๋‹ค. ๋‹ค๋‹ˆ์—˜์€ ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์ด AI์˜ ํž˜์„ ์‚ฌํšŒ์ ๅ–„์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋•๊ธฐ๋ฅผ ํฌ๋งํ•ฉ๋‹ˆ๋‹ค.