1. df.apply()
def func(x):
if x < 3:
return 'lowest'
elif x < 3.3:
return 'low'
elif x < 3.5:
return 'normal'
else :
return'high'
train['pH'] = train['pH'].apply(lambda x : func(x))
2. pd.cut() & pd.qcut()
인자로 데이터, 구간의 갯수, 레이블명
구간의 갯수는 5개로 설정하여 1,2,3,4,5가 된다.
labels=False로 설정할 시 그대로 숫자가 넣어지고 만약
labels=['a','b','c','d','e'] 일 경우 숫자 대신 리스트의 값이 넣어진다.
cut은 레이블의 범위가 같다.
qcut은 갯수가 같다.
만약 0과 99사이의 값을 3개로 나눌때 cut은 0~33, 33~66, 66~99로 되고,
qcut은 데이터의 갯수가 30개라면 10,10,10개로 나눠진다.
train['alcohol'] = pd.cut(train.alcohol, 5,labels=False)
'ML > ML-함수관련' 카테고리의 다른 글
명목변수 내 인자 확인, 수, 갯수 - df.unique(), nunique(), value_counts() (0) | 2022.01.04 |
---|---|
count, mean, std, min , 1 분위수, 2 분위수, 3 분위수, max 출력함수 (0) | 2022.01.03 |
올림, 내림, 반올림 함수 (0) | 2021.12.29 |
데이터프레임 열 또는 행에 함수 적용하기 - df.apply() (0) | 2021.12.29 |
DataFrame 열 또는 행별 최빈값 확인 - df.mode() (0) | 2021.10.09 |
댓글