plt.plot() and plt.hist()
from matplotlib.pyplot as plt
# or from matplotlib import pyplot as plt
# 가장 기본적인 선그래프
plt.plot(x,y)
plt.show()
# 가장 기본적인 히스토그램
plt.hist(x,y)
# y가 없는 경우, plt.hist(x) x의 요소들을 카운트한 값을 y에 넣어준다
plt.show()
sns.distplot()
# 주의 : python 3.7이후 부터 sns.distplot이 sns.histplot이나 sns.displot으로 대체됨
# 더 이상 distplot을 쓰지 않는다.
import seaborn as sns
# seaborn라이브러리의 막대그래프 그리는 함수 displot()
# kde는 그래프의 선을 출력해줌
# bins는 막대그래프 갯수
sns.displot(df['막대그래프 x에 나올 컬럼'], kde=False, bins=10)
plt.axis([x축 최소, x축 최대, y축 최소, y축 최대])
plt.title('제목이름')
sns.pairplot() - 산점도
각 컬럼의 모든 상관관계를 표시해준다. 그리드형태로 히스토그램과 열끼리의 분포도를 보여준다.
# 라이브러리 불러오기
import seaborn as sns
import pandas as pd
train = pd.read_csv('data/train.csv')
train.head()
# "data"라는 변수에 train의 "fixed acidity"부터 "chlorides"까지의 변수를 저장해주세요
data=train.loc[:,'fixed acidity':'chlorides']
# data의 pairplot을 그려보세요
sns.pairplot(data)
코드 내에 loc이 궁금하다면,
sns.heatmap()
위에서 산점도로 컬럼별 상관관계를 그래프로 알아봤다. 이제 이 상관성을 수치화한 값을 가직 그래프로 표시해보자.
또는 두개의 범주형 변수들을 비교할 때도 쓰인다.
# 히트맵 그래프를 그릴 변수 지정 (train.corr() )
# corr() 함수는 데이터의 변수간의 상관도를 출력하는 함수 입니다.
data=train.corr()
print(data)
# seaborn 의 heatmap 함수를 이용해 히트맵 그래프를 그립니다.
sns.heatmap(data)
sns.scatterplot()
두 컬럼의 상관관계를 표시해주는 그래프
# Scatter Plot을 그릴 변수 지정 (x_data 에는 residual sugar변수, y_data 에는 density 변수)
x_data = train['residual sugar']
y_data = train['density']
# seaborn 의 scatterplot함수를 이용해 그래프를 그립니다.
sns.scatterplot(x = x_data, y = y_data )
#sns.scatterplot(x=x_data, y=y_data, color='r', label=['asdf'])
# 점에 color를 넣을 수도 있음. color='~'
# 범례를 표시할 때는 label을 넣어준다.
#plt.legend() # plt(pyplot)의 scatterplot에는 legend()함수를 넣어줘야지 범례가 그려진다.
# # 그러나 sns(seaborn)의 scatterplot은 필요없음. 기냥 위에 label만 써주면 됨.
#plt.xlabel('PCA_1') # x축의 이름을 바꿔줌
#plt.ylabel('PCA_2') # y축의 이름을 바꿔줌
#plt.show()
'ML > ML-Kaggle, 데이콘' 카테고리의 다른 글
Hold-out, 교차검증(K-Flod), Stratified K-fold (0) | 2021.12.09 |
---|---|
GBM(Gradient Boosting Model) (0) | 2021.10.08 |
OneHot 인코딩-OneHotEncoder(), pd.get_dummies() (3) | 2021.10.08 |
수치형 데이터 정규화 (0) | 2021.10.08 |
이상치(Outlier) (0) | 2021.10.08 |
댓글