본문 바로가기
ML/ML-Kaggle, 데이콘

차원 축소

by lucian 2021. 12. 29.

차원축소 - 많은 feature 즉 속성(열)들로 구성된 다차원 데이터의 차원을 축소시켜(속성을 줄인다 = 열을 줄인다) 새로운 속성을 만드는 방법.

 

일반적으로 차원이 크면 -> 희소한(sparse) 구조를 가지게 된다. = 대부분의 값이 0인 것

이러면 작은 차원에서 학습된 모델보다 신뢰도가 떨어지고 각 속성별 상관관계가 높을 가능성이 크다.

 

 

선형회귀(선형모델)의 경우 독립변수간 상관관계가 높으면 다중공산성이 높다.(vif가 10 이상) -> 이러면 예측의 성능이 저하된다. 또한 변수들이 많다보니 시각적으로 표현하기도 어려워서 어떤 특성을 가지고 있는 데이터인지 파악하기가 어렵다.

 

이렇기에 차원을 축소하는 것.

 

차원 축소에는 

feature selection(속성 선택) 과 feature extraction(속성 추출)으로 나눈다.

 

  • feature selection(속성 선택) : 독립변수 간에 종속성이 강한 변수를 제거하고 데이터 특징이 잘 나오는 주요 속성만 선택한다.
  • feature exraction(속성 추출) : 기존 속성(피쳐)를 저차원으로 압축한다.(대신 최대한 정보를 잃지 않게 압축해야함). 이러면 변수의 갯수는 크게 줄어들고 기존의 특징과 다른 전혀 다른 값들이 된다. 그러나 어떻게 압축되었는지는 설명이 어려운 것이 단점으로 존재한다.  - PCA(주성분 분석) 이 대표적인 예

'ML > ML-Kaggle, 데이콘' 카테고리의 다른 글

LGBM(Light Gradient Boosting Model)  (0) 2021.12.30
XGB(Extreme Gradient Boosting)  (0) 2021.12.30
다중공산성 해결 방법  (0) 2021.12.29
다중공산성  (0) 2021.12.17
Bayesian Optimization  (2) 2021.12.16

댓글