> 文档中心 > 【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?

【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?

目录

【讲解视频】此文章同步讲解视频:

上集(增删改查):

下集(四种连接):

【准备数据】数据分析对象-某站top100排行榜数据

一、查询数据

1.1 查询前3行

1.2 查询后3行

1.3 查询指定列

1.4 按条件查询

二、增加数据

2.1 增加行

2.2 增加列

三、删除数据

3.1 删除行

3.2 删除列

四、修改数据

4.1 pandas方法1(loc)

4.2 pandas方法2(iloc)

4.3 SQL修改一个值

4.4 SQL修改多个值

五、四种连接方法

5.1 左连接(Left Join)

5.2 右连接(Right Join)

5.3 内连接(Inner Join)

5.4 外连接(Outer Join)

END:马哥经验总结

怎么选择用哪个工具(Pandas or SQL)

"文无第一,武无第二 | 没有绝对的谁更好,只有更适合的分析场景!"


在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言。二者有相通的地方,也有很大的语法不同,做起数据分析来,谁将更胜一筹呢?

做过业务开发、跟数据库打交道比较多的小伙伴,经常会提到”增删改查“操作,分别对应数据的增加、删除、修改、查询,这4个操作。

下面,我将从查、增、删、改的维度,和四种连接方式的纬度,依次比对pandas和SQL的实现步骤,比较二者的优劣。

文末含获取Python源码文件方式!

【讲解视频】此文章同步讲解视频:

上集(增删改查):

【数据分析干货🔥】python数据分析pandas库和数据库SQL,代码逐行对比!谁将更胜一筹?

下集(四种连接):

【数据分析干货🔥】Pandas和SQL巅峰对决(六)连接数据

【准备数据】数据分析对象-某站top100排行榜数据

这里,我采用某站top100排行榜的数据,作为数据分析对象。

爬取下来的数据,存到excel:

数据准备完毕,开始数据分析,pandas和SQL进行逐行比对!

一、查询数据

1.1 查询前3行

pandas查询前3行:

SQL查询前3行:

1.2 查询后3行

pandas查询后3行:

SQL查询后3行:

1.3 查询指定列

pandas方法1(中括号[]):

pandas方法2(loc):

pandas方法3(iloc):

【马哥小贴士】关于loc和iloc的说明:
loc:works on labels in the index.(通过"索引名"定位)
iloc:works on the positions in the index (so it only takes integers).(通过"索引值"定位)

SQL查询指定列:

1.4 按条件查询

pandas单条件查询:

SQL单条件查询:

pandas多条件查询(并且关系):

SQL多条件查询(并且关系AND):

pandas多条件查询(或者关系):

SQL多条件查询(或者关系OR):

二、增加数据

2.1 增加行

pandas方法1(append):

pandas方法2(loc):

pandas方法3(concat):

SQL增加一行:

SQL增加多行:

2.2 增加列

pandas方法1(中括号[]):

pandas方法2(insert):

SQL增加一列:

三、删除数据

3.1 删除行

pandas方法1(drop-行名):

pandas方法2(drop-行号):

pandas方法3(drop-删除特定条件的行):

SQL删除多行:

3.2 删除列

pandas方法1(drop):

pandas方法2(del):

SQL删除一列:

四、修改数据

4.1 pandas方法1(loc)

4.2 pandas方法2(iloc)

4.3 SQL修改一个值

4.4 SQL修改多个值

五、四种连接方法

待分析数据:

5.1 左连接(Left Join)

pandas左连接:

SQL左连接:

5.2 右连接(Right Join)

pandas右连接:

SQL右连接:

5.3 内连接(Inner Join)

pandas内连接1:

pandas内连接2:(注意!根据索引连接)

pandas内连接3:(注意!根据索引连接)

SQL内连接1:

SQL内连接2:

SQL内连接3:

5.4 外连接(Outer Join)

pandas外连接1:

pandas外连接2:

pandas外连接3:

SQL外连接:(注意:MySQL不支持全连接,通过UNION实现)

END:马哥经验总结

怎么选择用哪个工具(Pandas or SQL)

  • 根据数据存储类型,选择用哪个

·如果数据存储在数据库里,直接用SQL分析,比较方便。
·如果数据存储在Excel,或者csv、txt等文本类数据,或者从网页爬取下的结构化数据,存储为pandas的DataFrame格式再分析,比较方便。

  • 根据数据量、性能,选择用哪个

·大部分情况下,Pandas比SQL的运行性能更优。

"文无第一,武无第二 | 没有绝对的谁更好,只有更适合的分析场景!"

此文章中截图的完整版python代码和SQL文件,已上传我的公众号"老男孩的平凡之路",后台回复关键词"数据分析比对",即可获取完整Python源码文件及数据!

【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言。二者有相通的地方,https://mp.weixin.qq.com/s?__biz=MzU5MjQ2MzI0Nw==&mid=2247484154&idx=1&sn=c4f629b5bd1df12e3ea857284ce7d7f7&chksm=fe1e161ac9699f0c925713b6a679ccb28095e5b773f77b915ea01be1457a87bd71860bbe8b8b&token=928226833&lang=zh_CN#rd


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。