> 技术文档 > Dify应用MinerU处理pdf等文档(Docker本地化部署MinerU详细步骤见第4节)_dify mineru

Dify应用MinerU处理pdf等文档(Docker本地化部署MinerU详细步骤见第4节)_dify mineru

目录

1 事由

2 Dify使用MinerU API

3 环境配置

4 MinerU本地化Doker部署

5 Dify使用本地部署的MinerU

6换行符LF与 CRLF 格式


1 事由

Dify的Pdf文档处理器功能偏弱,需要解决Dify下处理Pdf文件识别问题,Dify插件市场亦有MinerU插件使用。

首先,MinerU插件和Ollama、LM Studio等不同,它不是本地化部署的模型类插件,而是工具类插件,插件市场的注释如下:

MinerU

0.2.0

MinerU是一款可以在本地部署的将FILES转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。https://github.com/opendatalab/MinerU

PS:官网的WebAPI本地化部署readme写的太简单了(MinerU/projects/web_api/README.md at master · opendatalab/MinerU · GitHub)

2 Dify使用MinerU API

先试着MinerU插件API功能,需要去MinerUMineru 智能数据提取https://mineru.net/apiManage/token官网申请API Key,这里填好信息后需要有一个审核过程,大概半天时间。插件设置授权如下:

这里设置需要查看Dify的插件官网文档,MinerU的官网文档好像没有提到

MinerU服务的Base URL*填https://mineru.net

令牌就是在MinerU官网上申请通过后创建API Token获得Key(要保存下来,一旦创建成功后就看不到Key信息,否则只有重新创建)

服务类型选MinerU的官方API

之后点保存就成功对插件进行了授权。

3 环境配置

Dify流程中使用MinerU还需要进行环境配置(FILES_URL):

为保证 MinerU 插件能够正常处理文件上传,需要在 Dify 中配置FILES_URL设置:

  1. 找到您的 Dify 部署目录并编辑.env文件。

  2. 根据您的部署方法修改FILES_URL配置:

    • Docker Compose 部署:将FILES_URL设置为http://api:5001
    • 其他部署方法:将FILES_URL设置为&nb