# 데이터 다운로드 링크로 데이터를 코랩에 불러옵니다.
!wget 'https://bit.ly/3i4n1QB'
import zipfile
with zipfile.ZipFile('3i4n1QB', 'r') as existing_zip:
existing_zip.extractall('data')
# 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')
train.drop('index',axis = 1 ,inplace =True)
test.drop('index',axis = 1 ,inplace =True)
train.head()
from xgboost import XGBClassifier
xgb_model=XGBClassifier()
모델을 학습해보자.
# 모델 학습
# X 는 train에서 quality 를 제외한 모든 변수
X=train_one.drop(columns='quality',axis=1)
# y 는 train의 qulity 변수
y=train_one['quality']
# fit 메소드를 이용해 모델 학습
xgb_model.fit(X,y)
학습한 모델을 예측한다.
# predict 메소드와 test_one 데이터를 이용해 품질 예측
pred=xgb_model.predict(test_one)
pred
# XGBoost의 하이퍼 파라미터의 범위를 dictionary 형태로 지정해주세요
## Key는 XGBoost hyperparameter이름이고, value는 탐색할 범위 입니다.
XGB_params={
'gamma':(0,10),
'max_depth':(1,3),
'subsample':(0.5,1),
}
# 함수를 만들어주겠습니다.
# 함수의 구성은 다음과 같습니다.
# 1. 함수에 들어가는 인자 = 위에서 만든 함수의 key값들
# 2. 함수 속 인자를 통해 받아와 새롭게 하이퍼파라미터 딕셔너리 생성
# 3. 그 딕셔너리를 바탕으로 모델 생성
# 4. train_test_split을 통해 데이터 train-valid 나누기
# 5 .모델 학습
# 6. 모델 성능 측정
# 7. 모델의 점수 반환
from xgboost import XGBClassifier
from sklearn.model_selection import KFold, train_test_split
from sklearn.metrics import accuracy_score
def xgb_bo(gamma, max_depth, subsample):
params={
'gamma':int(round(gamma)),
'max_depth':int(round(max_depth)),
'subsample':int(round(subsample)),
}
xgb_model=XGBClassifier(**params)
X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2)
xgb_model.fit(X_train,y_train)
score=accuracy_score(y_valid, xgb_model.predict(X_valid))
return score
댓글