> 技术文档 > MinerU API 服务Docker一键部署(附源码)_mineru docker部署

MinerU API 服务Docker一键部署(附源码)_mineru docker部署


一、关于MinerU

一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、word、markdown 等格式的内容。

1. 主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

二、安装和使用

1. 软硬件要求说明

以下是根据您提供的信息整理的表格:

操作系统 Ubuntu 22.04 LTS Windows 10 / 11 macOS 11+ CPU x86_64 x86_64 x86_64 / arm64 内存 大于等于16GB,推荐32G以上 python版本 3.10 Nvidia Driver 版本 latest(专有驱动) latest None CUDA环境 自动安装[12.1(pytorch)+11.8(paddle)] 11.8(手动安装)+cuDNN v8.7.0(手动安装) None GPU硬件支持列表 最低要求 8G+显存 3060ti/3070/3080/3080ti/4060/4070/4070ti
8G显存仅可开启lavout和公式识别加速 None 推荐配置 16G+显存 3090/3090ti/4070tisuper/4080/4090
16G及以上可以同时开启layout,公式识别和ocr加速
24G及以上可以同时开启layout,公式识别,ocr加速和表格识别

请注意,对于macOS来说,由于其不支持NVIDIA的CUDA技术,因此相关的GPU加速功能无法使用。此外,具体的硬件建议(如推荐的GPU型号)是针对具有特定需求的应用场景,比如深度学习或视频编辑等需要大量图形处理的任务。

2. Docker 一键部署

Docker 镜像构建源码:miner-u docker构建源码

  • 拉取代码
git clone https://gitee.com/ai-tzchao/miner-u.git
  • 构建镜像
cd miner-udocker build -t tzchao/mineru-api:1.3.3 .
  • docker-compose.yaml
version: \'3.8\'services: mineru: image: tzchao/mineru-api:1.3.3 container_name: miner-u ports: - \"5098:5098\" environment: IMAGE_PREFIX_DEV: http://abc.com/ # 开发环境图片文件访问域名 IMAGE_PREFIX_PRO: http://abcd.com/ # 生产环境图片文件访问域名 volumes: - ./volumes/models:/app/models # 文档提取用到的模型存储目录 - ./volumes/files:/app/files  # 文档提取中图片文件保存目录 restart: always deploy: resources: reservations: devices: - driver: nvidia  count: all  capabilities: [gpu] ipc: host runtime: nvidianetworks: mineru-net: driver: bridge
  • 启动服务
docker compose up -d miner-u
  • 请求示例
curl --location \'http://10.10.8.154:5098/file_parse\' \\--form \'parse_method=\"auto\"\' \\--form \'is_json_md_dump=\"true\"\' \\--form \'file=@\"/C:/Users/tzcha/Desktop/miner-u-测试图片.docx\"\' \\ # 要解析的文档地址--form \'env=\"pro\"\'

输出结果:
MinerU API 服务Docker一键部署(附源码)_mineru docker部署