Python/파이썬 딥러닝 머신러닝 입문

Part03 - 머신러닝 입문(1)

east.__.light 2021. 11. 30. 17:44

《파이썬 딥러닝 머신러닝 입문》 내용을 바탕으로 작성하였습니다.

 

머신러닝이란?

머신러닝(machine learning)은 레이블(label, 정답)이 있는 입력(input) 데이터를 모델에 투입하면 머신러닝 모델이 입력 데이터와 정답 사이의 관계를 찾는다. 따라서 새로운 데이터를 입력했을 때 모델이 파악한 관계식을 적용하여 결과를 예측할 수 있다. 정답이 주어지지 않는 경우 데이터 속에 숨어 있는 패턴이나 규칙을 알아내는 것도 간으하다. 이처럼 사람이 어떤 규칙을 정하는 것이 아니라, 컴퓨터가 스스로 데이터를 학습하여 문제를 해결하는 과정을 말한다.

 

머신러닝은 학습할 때 정답 레이블을 알고 있는지 여부에 따라 크게 두 가지 유형으로 분류된다.

지도 학습(supervised)과 비지도학습(unsupervised)이 그것이다.

 

 

지도학습 vs 비지도학습

지도학습

 

지도학습은 학습 과정에서 정답 Y가 주어진다. 즉, 입력 데이터 X와 출력 데이터 Y를 모두 알고 있는 상태에서 Y=aX+b와 같이 X와 Y사이의 관계식을 알아내는 머신러닝 알고리즘을 말한다. 이때 예측 목표가 되는 Y 변수를 목표 변수(Target)라고 하고, 목표 변수를 예측하는데 사용되는 X변수를 설명 변수(feature)라고 부르기도 한다. 

 

비지도학습

비지도 학습은 모델 학습 단계에서 정답 Y가 주어지지 않고, X 데이터만 제공되는 머신러닝 유형이다. 따라서 정답 Y를 예측하는 것이 목표가 되는 것이 아니라, X 데이터 사이에 존재하는 패턴 또는 규칙을 찾는 것이 목표가 된다. 

 

 

회귀 vs 분류

이 책에서는 지도학습을 주로 다루는데 지도학습은 회귀(Regression)와 분류(Classification)으로 유형을 나눌 수 있다.

 

회귀는 설명 변수(X)와 목표 변수(Y) 사이의 회귀관계식을 찾는다. 목표 변수는 연속적인 값을 갖는 숫자형 데이터이다. 과거의 주가 데이터를 가지고 미래 주가를 예측하거나, 자동차 배기량이나 연식 등 중고차 정보를 잉요하여 가격을 예측하는 문제를 예로 들 수 있다.

분류 문제는 설명 변수(X)와 목표 변수(Y) 사이의 관계를 찾지만, 예측하려는 목표 레이블이 연속적이지 않고 0, 1, 2와 같이 이산적인 값을 갖는 경우를 말한다. 클래스 0 또는 1 중에서 선택하는 이진 분류(Binary Classification)문제가 대표적이다. 또는 3개 이상의 클래스 중에서 하나를 선택하는 다중 분류(Multi Classification)문제를 포함한다.