본문 바로가기
ML/ML-Kaggle, 데이콘

EDA

by lucian 2021. 10. 8.

plt.plot() and plt.hist()

from matplotlib.pyplot as plt
# or from matplotlib import pyplot as plt

# 가장 기본적인 선그래프
plt.plot(x,y)
plt.show()


# 가장 기본적인 히스토그램
plt.hist(x,y)
# y가 없는 경우, plt.hist(x) x의 요소들을 카운트한 값을 y에 넣어준다
plt.show()

 

 

 

sns.distplot()

# 주의 : python 3.7이후 부터 sns.distplot이 sns.histplot이나 sns.displot으로 대체됨
# 더 이상 distplot을 쓰지 않는다.

import seaborn as sns

# seaborn라이브러리의 막대그래프 그리는 함수 displot()
# kde는 그래프의 선을 출력해줌
# bins는 막대그래프 갯수

sns.displot(df['막대그래프 x에 나올 컬럼'], kde=False, bins=10)
plt.axis([x축 최소, x축 최대, y축 최소, y축 최대])
plt.title('제목이름')

 

 

 

 

sns.pairplot() - 산점도

각 컬럼의 모든 상관관계를 표시해준다. 그리드형태로 히스토그램과 열끼리의 분포도를 보여준다.

# 라이브러리 불러오기
import seaborn as sns
import pandas as pd


train = pd.read_csv('data/train.csv')
train.head()

# "data"라는 변수에 train의 "fixed acidity"부터 "chlorides"까지의 변수를 저장해주세요
data=train.loc[:,'fixed acidity':'chlorides']


# data의 pairplot을 그려보세요
sns.pairplot(data)

 

코드 내에 loc이 궁금하다면, 

 

 

 

sns.heatmap()

위에서 산점도로 컬럼별 상관관계를 그래프로 알아봤다. 이제 이 상관성을 수치화한 값을 가직 그래프로 표시해보자.

또는 두개의 범주형 변수들을 비교할 때도 쓰인다.

두개의 범주형 변수 히트맵 표시 Month-Year

# 히트맵 그래프를 그릴 변수 지정 (train.corr() )
# corr() 함수는 데이터의 변수간의 상관도를 출력하는 함수 입니다.
data=train.corr()
print(data)

# seaborn 의 heatmap 함수를 이용해 히트맵 그래프를 그립니다.
sns.heatmap(data)

 

 

 

 

sns.scatterplot()

두 컬럼의 상관관계를 표시해주는 그래프

# Scatter Plot을 그릴 변수 지정 (x_data 에는 residual sugar변수, y_data 에는 density 변수)

x_data = train['residual sugar']
y_data = train['density']



# seaborn 의 scatterplot함수를 이용해 그래프를 그립니다.

sns.scatterplot(x = x_data, y = y_data )

#sns.scatterplot(x=x_data, y=y_data, color='r', label=['asdf'])
# 점에 color를 넣을 수도 있음. color='~'
# 범례를 표시할 때는 label을 넣어준다.
#plt.legend()           # plt(pyplot)의 scatterplot에는 legend()함수를 넣어줘야지 범례가 그려진다.
#                       # 그러나 sns(seaborn)의 scatterplot은 필요없음. 기냥 위에 label만 써주면 됨.
#plt.xlabel('PCA_1')    # x축의 이름을 바꿔줌
#plt.ylabel('PCA_2')    # y축의 이름을 바꿔줌
#plt.show()

 

댓글