pca2 차원 축소 차원축소 - 많은 feature 즉 속성(열)들로 구성된 다차원 데이터의 차원을 축소시켜(속성을 줄인다 = 열을 줄인다) 새로운 속성을 만드는 방법. 일반적으로 차원이 크면 -> 희소한(sparse) 구조를 가지게 된다. = 대부분의 값이 0인 것 이러면 작은 차원에서 학습된 모델보다 신뢰도가 떨어지고 각 속성별 상관관계가 높을 가능성이 크다. 선형회귀(선형모델)의 경우 독립변수간 상관관계가 높으면 다중공산성이 높다.(vif가 10 이상) -> 이러면 예측의 성능이 저하된다. 또한 변수들이 많다보니 시각적으로 표현하기도 어려워서 어떤 특성을 가지고 있는 데이터인지 파악하기가 어렵다. 이렇기에 차원을 축소하는 것. 차원 축소에는 feature selection(속성 선택) 과 feature extracti.. 2021. 12. 29. 다중공산성 해결 방법 전 포스트에서 다중공산성을 확인하는 3가지 방법에 대해 설명했다. scatterplot, heatmap, VIF 이렇게 총 3가지가 있다. 이번엔 다중공산성 해결 방법을 알아본다. 크게 3가지로 나뉘는데, 변수 정규화 변수 제거 PCA(주성분 분석) 먼저 변수 정규화 변수 정규화는 이전 수치형 데이터 정규화 포스트에서 다루었다. https://lucian-blog.tistory.com/48?category=1002577 보통 의사결정나무, 랜덤포레스트와 같이 트리기반 모델은 대소 비교를 통해 구분한다. 그렇기에 숫자와 단위에 크게 영향을 받지 않는다. 하지만 로지스틱 회귀, Lasso 등 평활함수모델(평활=smooth) 선형?함수같은 느낌인 것 같다. 여튼 이 모델들에는 숫자의 크기와 단위에 영향을 많이.. 2021. 12. 29. 이전 1 다음