결측치 확인
df_name.info()
결측값 전처리
# 방법 1 - NaN이 있는 행이나 열 버리기
# axis=0 : NaN이 있는 행을 버리기, axis=1 : NaN이 있는 열을 버리기
# 기본 default값으로 axis=0으로 되어있다.
df_name.dropna(inplace=True)
# 방법 2 - 채워넣기
# 2.1 - 0으로 채워넣기
df_name.fillna(0, inplace=True)
# 2.2 - 각 열의 평균값으로 채워넣기
df_name.fillna(df_name.mean, inplace=True)
# 2.3 - 각 열의 평균값 따로따로 채워넣기
df_name.fillna({'열 이름' : int(df_name['열 이름'].mean())}, inplace=True)
# 방법 3 - 보간법으로 채워넣기
# 다만 이건 시계열 데이터나 순서가 있는 데이터에 넣어줘야한다.
df_name.interpolate(inplace=True)
'ML > ML-Kaggle, 데이콘' 카테고리의 다른 글
이상치(Outlier) (0) | 2021.10.08 |
---|---|
랜덤포레스트(RandomForestRegressor) (3) | 2021.09.29 |
의사결정나무 (0) | 2021.09.28 |
당뇨병성 망막병 검출(Diabetic Retinopathy Detection) (0) | 2021.08.11 |
kaggle에서 colab으로 데이터 가져오기 (0) | 2021.08.11 |
댓글