본문 바로가기
ML/ML-수학, 확률과 통계

회귀와 분류

by lucian 2022. 1. 14.

최근에 어느 기업의 면접을 봤다.

거기서 회귀와 분류에 대한 질문을 하셨다.

 

회귀 - 연속적인 데이터를 가지고 새로운 데이터를 예측하는 방법.

분류 - 그저 말대로 분류..... 어떤 데이터를 구분할 때 쓰이는 방법.

또한 회귀는 지도학습, 분류는 비지도학습에 주로 쓰인다고 답했는데,,,,ㅎㅎ....

 

이렇게 말씀드렸던 것 같다.

미숙하게 대답을 했기에 약간의 후회가 남아서 다시 정리해본다.

 

먼저 강화, 지도, 비지도학습이 있다.

이 중 회귀, 분류는 지도학습(supervised learning)에 속한다.

아까 면접에서 분류는 비지도학습에 주로 쓰인다고 했는데, 이것은 군집화와 착각해서 나온 답임을 알게됬다.

 

생활코딩에서 

회귀 : 예측하고 싶은 종속변수(정답 레이블, y)가 숫자일 때 사용한다.

분류 : 예측하고 싶은 종속변수(정답 레이블, y)가 이름일 때 사용한다.

 

회귀란 연속적인 종속변수일 때, 몸무게라던가 키라던가 하나하나가 이산형이 아닌 쭉 이어져있는 변수일 때 사용한다. 각 데이터에 알맞는 패턴을 파악하고 그 패턴과 유사한 회귀선을 그린다. 처음에는 회귀선과 데이터의 패턴이 아예 다르지만 데이터와 회귀선의 편차들을 줄여가는 방법으로 학습을 하면서 패턴과 회귀선을 유사하게 만들어준다.

이러면 어떤 데이터가 들어왔을 때, 그 데이터와 제일 가까운 회귀선 내의 어느 좌표가 정답이 되는 것이다.

 

반대로 분류란 이산변수일 때, 성별, 소고기 등급, 합격여부 등 연속적이지 않고 딱 나눠질 수 있는 변수일 때 쓰인다.

데이터내의 독립변수들로 분류에 대한 기준을 학습한다. 이처럼 분류도 과거의 데이터를 통해 데이터의 정답을 나뉘는 것을 학습하기 때문에 지도학습에 포함된다.

 

여기서 숫자, 연속형 은 양적 데이터

이름과 같은 딱 구분이 되는 데이터는 범주형 데이터로 불린다.

 

 

 

댓글