RPA自动化——使用影刀完成简单招聘信息爬虫_影刀爬虫
目录
一、影刀
二、基本功能介绍
2.1 下载注册
2.2 新建应用
2.3 指令介绍
编辑
三、使用影刀完成简单爬虫
3.1 业务逻辑
3.2 业务实现
第一步:插入第一个指令,网页自动化——打开网页
第二步:使用捕捉元素功能,抓取特定需要的元素
第三步:进入职位页面,通过捕获新元素中的查找相似元素,获取相似元素组
第四步:构建循环体,重复打开职位界面
第五步:获取网页的XPath代码,使用.get_text()函数提取文本
效果演示
四、总结
一、影刀
影刀RPA是一款软件机器人,能模拟人的各种操作,能在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作,释放人非主观决策、逻辑性高、规则性强的工作。
我们可以把它理解为:“虚拟机器人”替代人工的一种方式。RPA不仅可以模拟人类,而且可以利用和融合现有各项技术,实现其流程自动化的目标。简单叙述,就是一切重复、有规则的工作,都可以用影刀完成。
你只需要设置好固定的流程,影刀就会在电脑/手机上模仿人工,一步步完成操作,而且影刀的完成速度是人的速度的5倍左右。
同时,还可以加入LLM(大预言模型),帮助我们对获取的数据进行更准确的分析。
二、基本功能介绍
2.1 下载注册
官网地址:https://www.yingdao.com/
2.2 新建应用
影刀适配了PC(电脑端)、手机端的应用,我们可以根据自己的需求新建应用。这是选择“PC端自动化应用”。
设置名称:影刀RPA爬虫。
2.3 指令介绍
主界面左侧有着众多的指令,这是已经编程好的内容可以直接拿来使用,这一步极大的降低了没有代码基础的人使用的门槛。
其中常用的是“网页自动化”和“鼠标键盘”。
我们使用影刀,其本质就是,合理设计指令的执行顺序,让指令替我们完成重复性的工作。
三、使用影刀完成简单爬虫
3.1 业务逻辑
接下来我们就按照流程图的逻辑搭建影刀的自动化流程。
3.2 业务实现
第一步:插入第一个指令,网页自动化——打开网页
选择自己的需要的浏览器类型,除了影刀浏览器的其他浏览器需要先安装影刀扩展,影刀才能有权限操作浏览器。
这里输入的网址以boss直聘:https://www.zhipin.com/,首页为例。
第二步:使用捕捉元素功能,抓取特定需要的元素
下一步我们需要在boss直聘的输入框中,输入需要查找的职位,“boss的输入框”,此元素在影刀的基础指令中没有,需要通过“捕获新元素”的功能实现。
在输入框中输入职位,之后点击搜索即可。
同样的逻辑,再添加一个点击指令。
第三步:进入职位页面,通过捕获新元素中的查找相似元素,获取相似元素组
相似元素组可以循环点开界面,帮助我们获取需要的信息。
注意:选择指令有(web)表示是在网页端的指令。
第四步:构建循环体,重复打开职位界面
采取“ForEach列表循环”,先通过“获取相似元素列表”,将刚才捕获的相似元素组保存到列表中。在列表循环中,“点击”指令循环点击列表中的元素,并且保存网页。
第五步:获取网页的XPath代码,使用.get_text()函数提取文本
F12 打开开发者工具,进入页面元素界面。
选择网页元素捕获,在点击网页文字,找到网页界面的元素。
选中元素所在,右键——复制——复制XPath
添加\"XPath跨域\"指令,将复制的XPath粘贴上去
新建Excel表格,添加打开Excel表格指令,写入内容到Excel表格指令。
效果演示
效果演示
四、总结
使用影刀设计合理的自动化流程可以很大程度上节省了工作量。而且影刀本身集成了很多工具,甚至可以通过自带的类似coze的工作流结合大模型插件来进一步分析数据,反馈结果。
同时,影刀降低了一些技术的使用门槛,比如爬虫。我之前从来没有接触过爬虫,现在也能进行简单的爬虫了。