Python 数据分析（四）：Pandas 进阶

技术文档

1. 概述

我们在上一篇文章初识 Pandas中已经对 Pandas 作了一些基本介绍，本文我们进一步来学习 Pandas 的一些使用。

2. 缺失项

在现实中我们获取到的数据有时会存在缺失项问题，对于这样的数据，我们通常需要做一些基本处理，下面我们通过示例来看一下。

import numpy as npfrom pandas import Series, DataFrames = Series([\'1\', \'2\', np.nan, \'3\'])df = DataFrame([[\'1\', \'2\'], [\'3\', np.nan], [np.nan, 4]])print(s)print(df)# 清除缺失项print(s.dropna())print(df.dropna())# 填充缺失项print(df.fillna(\'9\'))print(df.fillna({0:\'5\', 1:\'6\'}))

3. 分组聚合

我们通过示例来了解一下分组、聚合操作。

from pandas import DataFramedf = DataFrame({\'name\':[\'张三\', \'李四\', \'王五\', \'赵六\'], \'gender\':[\'男\', \'女\', \'男\', \'女\'], \'age\':[22, 11, 22, 33]})# 根据 age 分组gp1 = df.groupby(\'age\')# 根据 age、gender 分组gp2 = df.groupby([\'age\', \'gender\'])# 根据 gender 进行分组，将 name 作为分组的键gp3 = df[\'gender\'].groupby(df[\'name\'])# 查看分组print(gp2.groups)# 分组数量print(gp2.count())# 选择分组print(gp2.get_group((22, \'男\')))print(\'---------\')# 聚合gp4 = df.groupby(df[\'gender\'])# 和print(gp4.sum())# 平均值print(gp4.mean())# 最大值print(gp4.max())# 最小值print(gp4.min())# 同时做多个聚合运算print(gp4.agg([\'sum\', \'mean\']))

4. 数据合并

Pandas 具有高性能内存中连接操作，与 SQL 相似，它提供了 merge() 函数作为 DataFrame 对象之间连接操作的入口，我们通过示例来看一下。

from pandas import DataFrameimport pandas as pddf1 = DataFrame({\'A\':[2, 4, 5], \'B\':[1, 2, 3], \'C\':[2, 3, 6]})df2 = DataFrame({\'D\':[1, 3, 6], \'E\':[2, 5, 7], \'F\':[3, 6, 8]})df3 = DataFrame({\'G\':[2, 3, 6], \'H\':[3, 5, 7], \'I\':[4, 6, 8]})df4 = DataFrame({\'G\':[1, 3, 5], \'H\':[4, 6, 8], \'I\':[5, 7, 9]})# 左连接（以 d1 为基础）print(df1.join(df2, how=\'left\'))# 右连接print(df1.join(df2, how=\'right\'))# 外连接print(df1.join(df2, how=\'outer\'))# 合并多个 DataFrameprint(df3.join([df1, df2]))# 指定列名进行合并print(pd.merge(df3, df4, on=\'G\'))print(pd.merge(df3, df4, on=[\'G\', \'H\']))print(pd.merge(df3, df4, how=\'left\'))print(pd.merge(df3, df4, how=\'right\'))print(pd.merge(df3, df4, how=\'outer\'))

5. 数据可视化

Pandas 的 Series 和 DataFrame 的绘图功能是包装了 matplotlib 库的 plot() 方法实现的，下面我们通过示例来看一下。

5.1 折线图

折线图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.randn(10,2), columns=list(\'AB\'))df.plot()plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶

5.2 条形图

纵置条形图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list(\'ABC\'))df.plot.bar()plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶
横置条形图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(5,3), columns=list(\'ABC\'))df.plot.barh()plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶

5.3 直方图

直方图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({\'A\':np.random.randn(800)+1, \'B\':np.random.randn(800)}, columns=list(\'AB\'))df.plot.hist(bins=10)plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶
我们还可以将 A、B 分开显示，代码实现如下：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame({\'A\':np.random.randn(800)+1, \'B\':np.random.randn(800)}, columns=list(\'AB\'))df.hist(bins=10)plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶

5.4 散点图

散点图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame(np.random.rand(20, 2), columns=list(\'AB\'))df.plot.scatter(x=\'A\', y=\'B\')plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶

5.5 饼图

饼图代码实现如下所示：

import pandas as pd, numpy as np, matplotlib.pyplot as pltdf = pd.DataFrame([30, 20, 50], index=list(\'ABC\'), columns=[\'\'])df.plot.pie(subplots=True)plt.show()

看一下效果：
Python 数据分析（四）：Pandas 进阶

Python 数据分析（四）：Pandas 进阶

目录

1. 概述

2. 缺失项

3. 分组聚合

4. 数据合并

5. 数据可视化

5.1 折线图

5.2 条形图

5.3 直方图

5.4 散点图

5.5 饼图

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

Python 数据分析（四）：Pandas 进阶

目录

1. 概述

2. 缺失项

3. 分组聚合

4. 数据合并

5. 数据可视化

5.1 折线图

5.2 条形图

5.3 直方图

5.4 散点图

5.5 饼图

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签