> 技术文档 > 【Python】超实用的ddddocr库-一个基于深度学习的OCR(光学字符识别)工具库

【Python】超实用的ddddocr库-一个基于深度学习的OCR(光学字符识别)工具库


一、Ddddocr简介

ddddocr(Deep Double-Digital Digits OCR)是一个基于深度学习的OCR(Optical Character Recognition,光学字符识别)库,用于从图像中提取文本,尤其擅长处理验证码、票据、表单数据提取、文档自动化处理等场景。主要用户已下三种:

  • 自动化测试 :自动填写网页验证码,提升测试效率。
  • 数据采集 :从截图或文档中提取结构化文本。
  • 安全验证 :辅助处理点选验证码(如移动端登录)。

二、安装与使用

pip install ddddocr #使用pip安装或者pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple/

2.1 用法-1 

# 我用到的是这种,识别验证码图片import ddddocrocr = ddddocr.DdddOcr()with open(\'image.png\', \'rb\') as f: img_bytes = f.read()res = ocr.classification(img_bytes)print(res)#代码执行介绍使用时需要调用DdddOcr()先创建一个文字识别对象,然后用with open()方法将验证码图片以二进制方式读取,接着调用classification()方法将图片的二进制字节类型进行文字识别,识别出来的文字会返回到变量之中。

2.2 用法-2

from ddddocr import DDDOCRocr = DDDOCR()result = ocr.ocr(\'image.png\', cls=True)for line in result: print(line)

三、识别验证码有哪些方法

识别验证码:
第1种方法:Python使用通用识别OCR库:ddddocr识别验证码(亲测好用)
第2种方法:python+pytesseract+Tesseract-OCR识别验证码(不好用,各种问题,最后放弃)
第3种方法:基于OCR.space API识别图片文字(未尝试)
第4种方法:基于easyocr识别图片文字(未尝试)