회귀와 분류
최근에 어느 기업의 면접을 봤다. 거기서 회귀와 분류에 대한 질문을 하셨다. 회귀 - 연속적인 데이터를 가지고 새로운 데이터를 예측하는 방법. 분류 - 그저 말대로 분류..... 어떤 데이터를 구분할 때 쓰이는 방법. 또한 회귀는 지도학습, 분류는 비지도학습에 주로 쓰인다고 답했는데,,,,ㅎㅎ.... 이렇게 말씀드렸던 것 같다. 미숙하게 대답을 했기에 약간의 후회가 남아서 다시 정리해본다. 먼저 강화, 지도, 비지도학습이 있다. 이 중 회귀, 분류는 지도학습(supervised learning)에 속한다. 아까 면접에서 분류는 비지도학습에 주로 쓰인다고 했는데, 이것은 군집화와 착각해서 나온 답임을 알게됬다. 생활코딩에서 회귀 : 예측하고 싶은 종속변수(정답 레이블, y)가 숫자일 때 사용한다. 분류 :..
2022. 1. 14.
명목변수 내 인자 확인, 수, 갯수 - df.unique(), nunique(), value_counts()
과일이란 컬럼안에 사과, 배, 귤 등등이 있다. 이 때 이 과일컬럼 내에 어떤 요소들이 있는지 확인하는 방법 df['과일'].unique() 결과로 사과, 배, 귤이 나온다. 범주형 변수에서 어떤 인자가 있는지 중복되지 않고 보여준다. 이제 고유한 인자들이 몇개인지를 확인할 때, df['과일'].nunique() 결과로 3 이 나온다. 사과, 배, 귤로 총 3개인 것을 알 수 있다. 마지막으로 이 고유값들이 df안에 얼마나 들어있는지 확인할 때, df['과일'].value_counts(ascending=True) # ascending은 결과를 오름차순으로 보여준다. 이러면 사과는 몇개가 있고 배는 몇개, 귤은 몇개로 나타난다.
2022. 1. 4.