来了来了!企业开源知识库RAGFlow使用教程_ragflow官方文档
今天我们来详细介绍下RAGFlow是如何使用的。
官方文档(v0.19.0版本):https://ragflow.io/docs/v0.19.0/
安装启动
项目Clone到本地之后,同样用Docker方式进行安装。具体安装方式和Dify类似,但是要注意,如果使用CPU时,安装时用
docker compose -f docker-compose.yml up -d
如果是GPU时,安装史用
docker compose -f docker-compose-gpu.yml up -d
具体安装流程可以参照官方文档提供的下图:
这里要注意一点,不推荐个人电脑安装RAGFlow,无论是Mac还是Windows系统,安装时有坑,建议直接Linux服务器安装,配置上也尽量高一些,官方推荐的最低配置如下:
我个人推荐最低要8核的CPU,内存最低32G,硬盘直接上固态,空间尽可能的大。如果有条件的话,上GPU最好,推荐RTX 4060保底。
Tips:为什么RAGFlow的硬件配置那么高,远高于DIfy安装需要的配置。最主要的原因是它是最接近企业级的RAG知识库系统,对文档进行embedding处理时会消耗大量显存和算力,它背后能够处理的并不单单只是文档里的文字,还提供了一系列的OCR(光学字符识别)、TSR(表结构识别)和DLR(文档布局识别)等视觉模型方式来处理文档。并且在往向量数据库(默认是Faiss,但是可以配制成其他的)存储时,尤其是初始构建索引时,也会很消耗CPU和内存。
使用前配置
项目启动后,我们需要使用前进行一些配置。
首先,需要在设定中添加并配置一些模型。配置的方法和之前写的配置Dify中模型方法一样,就是要添加API-KEY或一些Secret。但是作为一款专业的RAG知识库系统,除了最低需要有Embeding模型和Chat模型外,推荐还需要提供Rerank、TTS、Img2txt等模型。
配置完后,还需要把默认的模型也进行设置。
其次,企业在使用时,一定也要对权限进行设置。这里不详细介绍了。
最后,如果你的知识库最后要对外开放API让别的系统可以调用,别忘了创建API KEY。
功能介绍
下面,来介绍下RAGFlow的核心功能。从下面图中可以看出,有5个,但是最核心的,其实就两个,一个是知识库(最核心),一个是聊天,其他三个都是辅助功能。有人好不同意了,人家也有Agent智能体功能啊,但实话,个人用起来,不是特别好用,简单的场景还可以,复杂的场景,支持有限。
先从非核心功能介绍起:
1、文件管理
顾名思义,就是管理你上传的各种知识库文件,没啥多说的。
2、搜索
单纯的侧重于对知识库文件内容进行检索,会显示出来内容出处(检索片段)。
这里要区别于最上面【聊天】的菜单。官方还针对这个问题进行了解释二者的区别。
这里解释下,相比于AI Search(搜索菜单),AI Chat(聊天菜单)的检索策略更佳丰富,更佳灵活,并且支持多轮对话。后面演示聊天功能时,大家可以感受到。
3、Agent
大家可以从下图看到,默认也是预置了一些智能体模版,但是不多。
整体使用上,还是以拖拽组件形成工作流为主,因为之前在Dify的章节详细讲过了使用方法,RAGFlow的使用也差不多,所以这里不详细介绍了。例如下面创建的HP客服的智能体。
因为整体可以使用的组件和扩展性有限,外加产品定位是知识库,所以Agent只是起到了辅助作用。如果不想找其他的智能体产品,就想在RAGFlow上全搞了,也没问题。
上面三个辅助性质的功能快速浏览了一遍,下面进入到最核心的部分:【知识库】和【聊天】。
知识库
我们在知识库菜单,先创建一个新的知识库。
创建后可以看到,左侧有三个菜单。
第一个是数据集:后续是你要上传文件的地方。
第二个是检索测试:可以对你构建的知识库进行简单的搜索测试。
第三个:也是最最最重要,而又最最最复杂的,就是创建知识库时的各种设置。这里如果你没有RAG的基础,强烈建议你去补一下,否则这个菜单很难用明白。所以针对于RAGFlow这个产品,如果别人创建好了知识库你只是去使用,那没问题。如果你是要创建知识库的话,那一定需要RAG和大模型这些方向的知识,否则用起来会困难些。
配置中的基础部分:
我们先来对配置中的基础部分进行说明,包含了【知识库名称】、【知识库图片】、【描述】和【权限】这四部分,其中前三部分很简单,不说明了,下面重点说一些【权限】这部分。
我们可以看到,权限这部分,除了对用户权限进行管理之外,还可以对每个用户的操作权限,是否可以对该知识库进行读、写和管理进行设置。
配置中的文档解析部分:
这一部分是最复杂,也是最核心的部分。首先先来看两个最固定的部分【PDF解析器】和【嵌入模型】。
嵌入模型:这部分没啥多说的,就是我们配置好的模型厂商下Embedding模型,选一个即可。但要注意,这里有个坑,如果你知识库创建后检索时报错,那有可能是embedding过程中造成的,例如我之前选择了下面百度的bge-large-zh这个模型,最后检索时会报一二维向量不匹配的错误,然后换成阿里的text-embedding-v3后重新向量化一遍就好了。
PDF解析器:这个看名字就知道了,专对PDF格式处理才起作用。它这下面也有几个选项,除了你自添加的Img2txt模型外,默认会提供DeepDoc和Native两个模型,选择Native会加快Embedding速度,因为只会提取PDF纯文本内容,如果还想提取PDF中图片中的文字,可以选择DeepDoc或者你自添加的Img2txt模型,但是会增加Embedding解析时间。
如果大家不知道如何使用,可以把鼠标移到每个项目的问号❓上,可以显示该项目的含义和使用方法。例如你不知道PDF解析器是干嘛的,可以通过这种方式快速查看和打开提供的官方地址查看更详细的用法。
切片方法:这里是RAGFlow整体工具最核心的地方了。也是RAGFlow可以成为最接近企业级知识库的原因,因为它提供了各种不同的切片方法,可支持对各种不同的文档类型进行切片。
默认切片的选项是【General】,它的使用方法和切片配置项对应的是下面绿色的部分。
然后我们换一个其他的,换成【Q&A】这种切片方式,会发现,它的使用方法和切片配置项都会改变,对应下面绿色的部分。
让我们再换一个,切片方法换成了【Manual】,发现又变化了,这次可以支持更复杂的PDF格式了。
所以到这里,我们也可体会到了,它的强大之处在于,针对不同的使用场景,提供了多种切片方法。每个切片方法都有自己对应的切片规则、使用方法和支持的文档类型。尤其,有的切片方法下还支持知识图谱,可以使你的知识库检索更佳精准(GraphRAG稍微复杂些,大家可以私下里查一下,这里不具体解释了)。每个具体切片类型的使用方法,大家可以参照官方文档即可。下面主要介绍下都具体支持哪些切片类型:
1、General:最通用的一种切片方法,适用于大多数场景,也支持OCR。支持的格式也是最多的,从传统的PDF、Doc、Excel、PPT到IMAGE格式和HTML等都支持。
2、Q&A:主要是针对知识问答的场景,需要构建Q&A键值对,支持的格式只有Excel、CSV和TXT三种。
3、Resume:主要适用于个人简历搜索的场景,左右结构,支持的格式只有DOCX、PDF和TXT。
4、Manual:支持复杂的PDF解析场景,适用于文档分层较多且格式复杂多变的场景,现在也只支持PDF格式。
5、Table:这个没啥多解释的,就是针对表格解析的场景。支持的格式以Excel和CSV为主,也支持TXT。
6、Paper:主要是支持论文解析场景,格式也只支持PDF。
7、Book:这个也没啥多说的,针对书籍进行解析,现在支持Word、PDF和TXT格式。
8、Laws:这个也没啥多说的,针对法律文件进行解析,现在支持Word、PDF和TXT格式。
9、Presentation:这个主要是针对PPT幻灯片进行切片的场景,现在支持PPT和PDF格式两种。
10、One:这个支持你的文档比较简单,只有整体一部分的场景,例如单页那种文档。现在支持Word、Excel、PDF和TXT格式。
11、Tag:这个从名字上就可以看出来,主要是针对标签的场景。现在支持Excel、CSV和Txt格式。这里要注意,Tag很特殊,使用“标签”作为分块方法的知识库不参与RAG检索过程,标签集中的每个文本分块是都是相互独立的标签和标签描述的文本对。
下面我对我准备的PDF文档进行解析,因为我的文档《筑基御寒 智胜未来:AI引领企业级降本增效新篇章》是研究报告性质的,比较复杂,既有文本、也有图表、也有图片等,所以我选择【Manual】这种切片方式,然后选择保存。
【数据集】菜单部分
然后我们切换到【数据集】菜单,去上传我们的知识库文件,进行解析。这里我们可以选择创建时就进行解析,或者上传时不解析,稍后进行解析,都可以。
大家可以看到现在是解析的状态,还有进度提示。这一步会非常的慢,大家不用在这个页面一直等,可以去干别的,每次进入到这个页面都可以看到实时解析的状态。
解析成功。
【检索测试】菜单部分
解析成功后,我们就可以进入到【检索测试】菜单进行测试了,我在测试内容中输入了【打造 AI 驱动的企业级降本增效之路】,可以看到检索出了结果。下面的例子我没有选择Rerank模型,如果想让检索效果更好,把相似度最高的结果排在最前面,可以选择Rerank模型。
总结,到这里,RAGFlow最核心的【知识库】功能就讲解完了,大家可以结合自己的业务场景,选择合适的切片方法和对应进行参数配置(必要时可以考虑构建知识图谱),更好的对文件进行向量化,从而后续进行更精确的检索。撒花🎉🎉🎉!
聊天
现在到了最后一个大的菜单了:【聊天】。之前上面解释过它和【搜索】菜单的区别,下面来看看【聊天】如何使用。
我们进入聊天后,要首先新建一个助理:【聊天】->【新建助理】。在新建助理中的【助理设置】选项卡中,我们要填写【助理名称】和最后的选择一个【知识库】。我这里选择了一个之前创建过的人工智能资料解析知识库。
在【新建助理】中切换到【提示引擎】这个选项卡,在其中必须填写系统提示词,这里我们用默认的,里面引用到了一个knowledge参数,所以一定要确保把最底部的变量中有knowledge参数并且是启用状态。
最后,在【新建助理】中切换到【模型设置】这个选项卡,必须选择一个聊天模型即可,这里我选择了deepseek-chat,其他参数不变,然后点击【确定】进行保存。
下面,我们就可以进行测试了,我们在刚才新建的【clx-聊天助手】菜单中,点击【+】号新建一个会话,然后输入你要查询的内容,例如我下面输入的:第一章讲了什么。然后键盘回车或点击最右下角【发送】按钮。
可以看到检索出了结果,并且给出了引用的知识库文件。
这一部分最后也做个总结,【聊天】这一步,就是我们传统的Chatbot,提前设置选定知识库(可以选择一个,也可以选择多个),然后选定一个Chat的对话模型和设定好提示词后,进行提问对话皆可。其中里面检索参数这里都用默认的,大家后续可以根据实际需求设置,如果不知道这些参数干嘛用的,还是建议先掌握一下RAG基础,对应的参考每个项目的问号❓看官方文档去了解每一个参数项都是干嘛的。
-----
到这里,RAGFlow的基础使用就讲完了,整体上给大家串了一遍RAGFlow平台的使用流程,关于创建知识库和聊天这两个核心功能,在演示时,参数大多也都是用默认的,里面有很多设置的技巧和细节都没讲到,包括知识图谱这种高级的用法,后续还会写文章继续更新。起码大家看完这篇文章后,知道RAGFlow是干嘛的,都支持哪些切片方式,使用起来整体的感觉是什么样子的,能了解这些就足够了。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)