> 技术文档 > Python 数据分析(四):Pandas 进阶

Python 数据分析(四):Pandas 进阶


目录
    • 1. 概述
    • 2. 缺失项
    • 3. 分组聚合
    • 4. 数据合并
    • 5. 数据可视化
      • 5.1 折线图
      • 5.2 条形图
      • 5.3 直方图
      • 5.4 散点图
      • 5.5 饼图

1. 概述

我们在上一篇文章初识 Pandas中已经对 Pandas 作了一些基本介绍,本文我们进一步来学习 Pandas 的一些使用。

2. 缺失项

在现实中我们获取到的数据有时会存在缺失项问题,对于这样的数据,我们通常需要做一些基本处理,下面我们通过示例来看一下

import numpy as npfrom pandas import Series, DataFrames = Series([\'1\', \'2\', np.nan, \'3\'])df = DataFrame([[\'1\', \'2\'], [\'3\', np.nan], [np.nan, 4]])print(s)print(df)# 清除缺失项print(s.dropna())print(df.dropna())# 填充缺失项print(df.fillna(\'9\'))print(df.fillna({0:\'5\', 1:\'6\'}))

3. 分组聚合

我们通过示例来了解一下分组、聚合操作。

from pandas import DataFramedf = DataFrame({\'name\':[\'张三\', \'李四\', \'王五\', \'赵六\'], \'gender\':[\'男\', \'女\', \'男\', \'女\'], \'age\':[22, 11, 22, 33]})# 根据 age 分组gp1 = df.groupby(\'age\')# 根据 age、gender 分组gp2 = df.groupby([\'age\', \'gender\'])# 根据 gender 进行分组,将 name 作为分组的键gp3 = df[\'gender\'].groupby(df[\'name\'])# 查看分组print(gp2.groups)# 分组数量print(gp2.count())# 选择分组print(gp2.get_group((22, \'男\')))print(\'---------\')# 聚合gp4 = df.groupby(df[\'gender\'])# 和print(gp4.sum())# 平均值print(gp4.mean())# 最大值print(gp4.max())# 最小值print(gp4.min())# 同时做多个聚合运算print(gp4.agg([\'sum\', \'mean\']))

4. 数据合并

Pandas 具有高性能内存中连接操作,与 SQL 相似,它提供了 merge() 函数作为 DataFrame 对象之间连接操作的入口,我们通过示例来看一下。

from pandas import DataFrameimport pandas as pddf1 = DataFrame({\'A\':[2, 4, 5], \'B\':[1, 2, 3], \'C\':[2, 3, 6]})df2 = DataFrame({\'D\':[1, 3, 6], \'E\':[2, 5, 7], \'F\':[3, 6, 8]})df3 = DataFrame({\'G\':[2, 3, 6], \'H\':[3, 5, 7], \'I\':[4, 6, 8]})df4 = DataFrame({\'G\':[1, 3, 5], \'H\':[4, 6, 8], \'I\':[5, 7, 9]})# 左连接(以 d1 为基础)print(df1.join(df2, how=\'left\'))# 右连接print(df1.join(df2, how=\'right\'))# 外连接print(df1.join(df2, how=\'outer\'))# 合并多个 DataFrameprint(df3.join([df1, df2]))# 指定列名进行合并print(pd.merge(df3, df4, on=\'G\'))print(pd.merge(df3, df4, on=[\'G\', \'H\']))print(pd.merge(df3, df4, how=\'left\'))print(pd.merge(df3, df4, how=\'right\'))print(pd.merge(df3, df4, how=\'outer\'))

5. 数据可视化

Pandas 的 Series 和 DataFrame 的绘图功能是包装了 matplotlib 库的 plot() 方法实现的,下面我们通过示例来看一下。

5.1 折线图

折线图代码实现如下所示

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.randn(10,2), columns=list(\'AB\'))df.plot()plt.show()

看一下效果
Python 数据分析(四):Pandas 进阶

5.2 条形图

纵置条形图代码实现如下所示:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list(\'ABC\'))df.plot.bar()plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶
横置条形图代码实现如下所示:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list(\'ABC\'))df.plot.barh()plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶

5.3 直方图

直方图代码实现如下所示:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({\'A\':np.random.randn(800)+1, \'B\':np.random.randn(800)}, columns=list(\'AB\'))df.plot.hist(bins=10)plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶
我们还可以将 A、B 分开显示,代码实现如下:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({\'A\':np.random.randn(800)+1, \'B\':np.random.randn(800)}, columns=list(\'AB\'))df.hist(bins=10)plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶

5.4 散点图

散点图代码实现如下所示:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(20, 2), columns=list(\'AB\'))df.plot.scatter(x=\'A\', y=\'B\')plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶

5.5 饼图

饼图代码实现如下所示:

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame([30, 20, 50], index=list(\'ABC\'), columns=[\'\'])df.plot.pie(subplots=True)plt.show()

看一下效果:
Python 数据分析(四):Pandas 进阶