차원축소 - 많은 feature 즉 속성(열)들로 구성된 다차원 데이터의 차원을 축소시켜(속성을 줄인다 = 열을 줄인다) 새로운 속성을 만드는 방법.
일반적으로 차원이 크면 -> 희소한(sparse) 구조를 가지게 된다. = 대부분의 값이 0인 것
이러면 작은 차원에서 학습된 모델보다 신뢰도가 떨어지고 각 속성별 상관관계가 높을 가능성이 크다.
선형회귀(선형모델)의 경우 독립변수간 상관관계가 높으면 다중공산성이 높다.(vif가 10 이상) -> 이러면 예측의 성능이 저하된다. 또한 변수들이 많다보니 시각적으로 표현하기도 어려워서 어떤 특성을 가지고 있는 데이터인지 파악하기가 어렵다.
이렇기에 차원을 축소하는 것.
차원 축소에는
feature selection(속성 선택) 과 feature extraction(속성 추출)으로 나눈다.
- feature selection(속성 선택) : 독립변수 간에 종속성이 강한 변수를 제거하고 데이터 특징이 잘 나오는 주요 속성만 선택한다.
- feature exraction(속성 추출) : 기존 속성(피쳐)를 저차원으로 압축한다.(대신 최대한 정보를 잃지 않게 압축해야함). 이러면 변수의 갯수는 크게 줄어들고 기존의 특징과 다른 전혀 다른 값들이 된다. 그러나 어떻게 압축되었는지는 설명이 어려운 것이 단점으로 존재한다. - PCA(주성분 분석) 이 대표적인 예
'ML > ML-Kaggle, 데이콘' 카테고리의 다른 글
LGBM(Light Gradient Boosting Model) (0) | 2021.12.30 |
---|---|
XGB(Extreme Gradient Boosting) (0) | 2021.12.30 |
다중공산성 해결 방법 (0) | 2021.12.29 |
다중공산성 (0) | 2021.12.17 |
Bayesian Optimization (2) | 2021.12.16 |
댓글