基于Python +Selenium的爬虫详解_python selenium爬虫原理

技术文档

Selenium是一个用于web应用程序自动化测试的工具，直接运行在浏览器当中，支持chrome、firefox等主流浏览器。可以通过代码控制与页面上元素进行交互（点击、输入等），也可以获取指定元素的内容。

2.优劣

劣势：

相比于抓包→构造请求→解析返回值的爬虫，由于Selenium需要生成一个浏览器环境，所有操作（与元素交互、获取元素内容等）均需要等待页面加载完毕后才可以继续进行，所以速度相比构造请求的慢很多。

对于为了反爬做了特殊处理的展示内容，如字体加密（参考猫眼）、图片替换数字（参考自如）等，可能取不到想要的数据。

使用图片替换数字的自如：

基于Python +Selenium的爬虫详解_python selenium爬虫原理

image-20190107215702089

优势：

不需要做复杂的抓包、构造请求、解析数据等，开发难度相对要低一些。

其访问参数跟使用浏览器的正常用户一模一样，访问行为也相对更像正常用户，不容易被反爬虫策略命中。

生成的浏览器环境可以自动运行 JS 文件，所以不用担心如何逆向混淆过的JS文件生成用作人机校验的参数，如马蜂窝酒店评论的人机校验参数_sn，网易云音乐评论的人机校验参数params、encSecKey。可以自行抓包查看。

如果需要抓取同一个前端页面上面来自不同后端接口的信息，如OTA酒店详情页的酒店基础信息、价格、评论等，使用Selenium可以在一次请求中同时完成对三个接口的调用，相对方便。

二、实现

1.环境

python3.6 + Macos

2.依赖包

Selenium

安装的时候是大写的 S ，import的时候是小写 s。

DeepSeek全套部署资料免费下载