블로그 이미지
shadowchaser
이곳 저곳 이것 저것

calendar

1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

Notice

Pandas에 대해 알아보도록 하자.

앞에서 Pandas를 통해 데이터를 관리하는 방법을 배웠다. 이번에도 Pandas를 통해 Data를 Visualization을 하는 방법을 알아보자.
진행하면서 matplotlib와 어떻게 다른지, 뭐가 좀 더 편한지 비교해보면서 진행한다면, 값진 시간이 될 것이다. 


Imports 

일단 df1 파일과 df2파일음 다음링크에서 다운 받고, 아래와 같이 준비를 하도록하자.


Style Sheets

hist함수를 통해 표현할 수 있다. 굉장히 편하다.


물론 plot함수로도 동일한 방법으로 표현도 되고.. 다른 방식으로도 가능하다. 



Plot Type에 대해 보도록하자

Plot은 아래와 같이 여러가지 타입을 제공한다.

  • df.plot.area
  • df.plot.barh
  • df.plot.density
  • df.plot.hist
  • df.plot.line
  • df.plot.scatter
  • df.plot.bar
  • df.plot.box
  • df.plot.hexbin
  • df.plot.kde
  • df.plot.pie

자 다시 df2를 한번 확인해보도록 하자. 한 번씩 확인해보면 다음과 같다.


Area와 Bar


사실 df2 파일은 index가 10까지로 구성되어 있다.

따라서 그냥 데이터를 표시하는 것도 좋지만 뭔가 의미 있게 보는 방법도 필요하겠지.


Barplot 

plot.bar(stacked=True)

위 함수는 굉장히 유용하다. 



이뿐만이 아니다. figsize를 통하여 챠트의 크기를 변경하고, 특정 그래프만 보여줄 수도 있으며,

Line Plot과 Scatter Plot

scatter를 통해서 심도를 구분해서 활용할 수도 있다.


한편 심도를 표기할 때 윗처럼 보이면 뭐가 중요한지 차이점을 구분할 수가 없다. 

그때, cmap등의 값을 활용하여 다음과 같이 매우 잘 활용할 수 있다.

BoxPlot



Hexagonal Bin Plot

scatter plot의 변형으로서, Bivariate(두 개의 변수[변량]을 갖는) Data를 처리할 때 매우 유용하다. 
이것도 색상을 좀 이쁘게 처리하면 더 일목요연하게 볼 수 있겠지. 똑같은 데이터인데 정말 달라보인다.


Kernel Density Estimation Plot(KDE)

커널 밀도 추청이라고 하는 KDE(Kernel Density Estimation)를 보아보자. 
다음과 같이 하나만 보여줄 수도 있고, 

여러개를 동시에 진행할 수도 있다.


이 정도만 보면 일단 Pandas 가지고 Visualization을 하는 기본정도는 알고 있네... 라고 생각할 수 있겠다.


특히 matplotlib를 사용하는 것보다 훨씬 사용하기 쉽다는 것이 느껴졌을 것이다~!!! 즉 엥간하면 pandas를 쓰자~ 라고 생각하면 되겠다~


다음편에는 조금더 상세한 Pandas 응용편을 소개하도록 하겠다.!

'Python > 02_Visualization with Matplotlib, Pandas' 카테고리의 다른 글

4. Pandas를 통한 시간별 시각화  (2) 2017.10.07
2. Matplotlib 활용하기  (1) 2017.10.06
1. Matplotlib 기초  (0) 2017.10.06
0. 들어가기전에  (0) 2017.10.06
posted by shadowchaser