2017. 10. 7. 02:59
Python/02_Visualization with Matplotlib, Pandas
Pandas에 대해 알아보도록 하자.
앞에서 Pandas를 통해 데이터를 관리하는 방법을 배웠다. 이번에도 Pandas를 통해 Data를 Visualization을 하는 방법을 알아보자.
진행하면서 matplotlib와 어떻게 다른지, 뭐가 좀 더 편한지 비교해보면서 진행한다면, 값진 시간이 될 것이다.
Imports
일단 df1 파일과 df2파일음 다음링크에서 다운 받고, 아래와 같이 준비를 하도록하자.
Style Sheets
hist함수를 통해 표현할 수 있다. 굉장히 편하다.
물론 plot함수로도 동일한 방법으로 표현도 되고.. 다른 방식으로도 가능하다.
Plot Type에 대해 보도록하자
Plot은 아래와 같이 여러가지 타입을 제공한다.
- df.plot.area
- df.plot.barh
- df.plot.density
- df.plot.hist
- df.plot.line
- df.plot.scatter
- df.plot.bar
- df.plot.box
- df.plot.hexbin
- df.plot.kde
- df.plot.pie
자 다시 df2를 한번 확인해보도록 하자. 한 번씩 확인해보면 다음과 같다.
Area와 Bar
사실 df2 파일은 index가 10까지로 구성되어 있다.
따라서 그냥 데이터를 표시하는 것도 좋지만 뭔가 의미 있게 보는 방법도 필요하겠지.
Barplot
plot.bar(stacked=True)
위 함수는 굉장히 유용하다.
이뿐만이 아니다. figsize를 통하여 챠트의 크기를 변경하고, 특정 그래프만 보여줄 수도 있으며,
Line Plot과 Scatter Plot
scatter를 통해서 심도를 구분해서 활용할 수도 있다.
한편 심도를 표기할 때 윗처럼 보이면 뭐가 중요한지 차이점을 구분할 수가 없다.
그때, cmap등의 값을 활용하여 다음과 같이 매우 잘 활용할 수 있다.
BoxPlot
Hexagonal Bin Plot
scatter plot의 변형으로서, Bivariate(두 개의 변수[변량]을 갖는) Data를 처리할 때 매우 유용하다.
이것도 색상을 좀 이쁘게 처리하면 더 일목요연하게 볼 수 있겠지. 똑같은 데이터인데 정말 달라보인다.
Kernel Density Estimation Plot(KDE)
커널 밀도 추청이라고 하는 KDE(Kernel Density Estimation)를 보아보자.
다음과 같이 하나만 보여줄 수도 있고,
여러개를 동시에 진행할 수도 있다.
이 정도만 보면 일단 Pandas 가지고 Visualization을 하는 기본정도는 알고 있네... 라고 생각할 수 있겠다.
특히 matplotlib를 사용하는 것보다 훨씬 사용하기 쉽다는 것이 느껴졌을 것이다~!!! 즉 엥간하면 pandas를 쓰자~ 라고 생각하면 되겠다~
다음편에는 조금더 상세한 Pandas 응용편을 소개하도록 하겠다.!
'Python > 02_Visualization with Matplotlib, Pandas' 카테고리의 다른 글
4. Pandas를 통한 시간별 시각화 (2) | 2017.10.07 |
---|---|
2. Matplotlib 활용하기 (1) | 2017.10.06 |
1. Matplotlib 기초 (0) | 2017.10.06 |
0. 들어가기전에 (0) | 2017.10.06 |