> 技术文档 > RPA自动化——使用影刀完成简单招聘信息爬虫_影刀爬虫

RPA自动化——使用影刀完成简单招聘信息爬虫_影刀爬虫

目录

一、影刀

二、基本功能介绍

2.1 下载注册

2.2 新建应用

        2.3 指令介绍

        ​编辑

三、使用影刀完成简单爬虫

3.1 业务逻辑

3.2 业务实现

第一步:插入第一个指令,网页自动化——打开网页

第二步:使用捕捉元素功能,抓取特定需要的元素

第三步:进入职位页面,通过捕获新元素中的查找相似元素,获取相似元素组

第四步:构建循环体,重复打开职位界面

第五步:获取网页的XPath代码,使用.get_text()函数提取文本        

效果演示

四、总结


一、影刀

        影刀RPA是一款软件机器人,能模拟人的各种操作,能在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作,释放人非主观决策、逻辑性高、规则性强的工作。

        我们可以把它理解为:“虚拟机器人”替代人工的一种方式。RPA不仅可以模拟人类,而且可以利用和融合现有各项技术,实现其流程自动化的目标。简单叙述,就是一切重复、有规则的工作,都可以用影刀完成。

        你只需要设置好固定的流程,影刀就会在电脑/手机上模仿人工,一步步完成操作,而且影刀的完成速度是人的速度的5倍左右。

        同时,还可以加入LLM(大预言模型),帮助我们对获取的数据进行更准确的分析。

二、基本功能介绍

2.1 下载注册

        官网地址:https://www.yingdao.com/

        

        

2.2 新建应用

        

        影刀适配了PC(电脑端)、手机端的应用,我们可以根据自己的需求新建应用。这是选择“PC端自动化应用”。

        设置名称:影刀RPA爬虫。

        2.3 指令介绍

        

        主界面左侧有着众多的指令,这是已经编程好的内容可以直接拿来使用,这一步极大的降低了没有代码基础的人使用的门槛。

        其中常用的是“网页自动化”和“鼠标键盘”

        我们使用影刀,其本质就是,合理设计指令的执行顺序,让指令替我们完成重复性的工作。

三、使用影刀完成简单爬虫

3.1 业务逻辑

        

        接下来我们就按照流程图的逻辑搭建影刀的自动化流程。

3.2 业务实现

第一步:插入第一个指令,网页自动化——打开网页

        选择自己的需要的浏览器类型,除了影刀浏览器的其他浏览器需要先安装影刀扩展,影刀才能有权限操作浏览器。

        这里输入的网址以boss直聘:https://www.zhipin.com/,首页为例。

第二步:使用捕捉元素功能,抓取特定需要的元素

        下一步我们需要在boss直聘的输入框中,输入需要查找的职位,“boss的输入框”,此元素在影刀的基础指令中没有,需要通过“捕获新元素”的功能实现。

        在输入框中输入职位,之后点击搜索即可。

         同样的逻辑,再添加一个点击指令。

第三步:进入职位页面,通过捕获新元素中的查找相似元素,获取相似元素组

        相似元素组可以循环点开界面,帮助我们获取需要的信息。

        注意:选择指令有(web)表示是在网页端的指令。

第四步:构建循环体,重复打开职位界面

        采取“ForEach列表循环”,先通过“获取相似元素列表”,将刚才捕获的相似元素组保存到列表中。在列表循环中,“点击”指令循环点击列表中的元素,并且保存网页。

第五步:获取网页的XPath代码,使用.get_text()函数提取文本        

        F12 打开开发者工具,进入页面元素界面。

        选择网页元素捕获,在点击网页文字,找到网页界面的元素。

        选中元素所在,右键——复制——复制XPath

        添加\"XPath跨域\"指令,将复制的XPath粘贴上去

        新建Excel表格,添加打开Excel表格指令,写入内容到Excel表格指令。

效果演示

效果演示

四、总结

        使用影刀设计合理的自动化流程可以很大程度上节省了工作量。而且影刀本身集成了很多工具,甚至可以通过自带的类似coze的工作流结合大模型插件来进一步分析数据,反馈结果。

        同时,影刀降低了一些技术的使用门槛,比如爬虫。我之前从来没有接触过爬虫,现在也能进行简单的爬虫了。