Python OCR实战：pytesseract与pyddleocr的对比与应用（附完整代码）

作者：php是最好的2025.09.26 19:10浏览量：0

简介：本文深入探讨Python中两种主流OCR库pytesseract和pyddleocr的实现原理、使用场景及代码实践，帮助开发者快速掌握OCR技术，适用于图像文字识别、自动化办公等场景。

一、OCR技术概述与Python实现价值

OCR（Optical Character Recognition，光学字符识别）技术通过图像处理和模式识别算法，将图片中的文字转换为可编辑的文本格式。在数字化转型背景下，OCR技术广泛应用于票据识别、文档电子化、自动化办公等场景。Python凭借其丰富的生态库，成为OCR开发的热门语言，其中pytesseract和pyddleocr是两种具有代表性的工具。

pytesseract基于Tesseract OCR引擎，由Google开发并开源，支持100多种语言，适合处理标准印刷体文字；pyddleocr则是国内开发者开发的轻量级OCR库，针对中文优化，支持竖排文字和复杂背景识别。两者互补的特性使其覆盖了从简单到复杂的OCR需求。

二、pytesseract的安装与基础使用

1. 环境准备与依赖安装

pytesseract依赖Tesseract OCR引擎，需先安装引擎本体：

Windows：从UB Mannheim下载安装包，勾选附加语言包。
Linux（Ubuntu）：执行sudo apt install tesseract-ocr，安装中文需追加sudo apt install tesseract-ocr-chi-sim。
MacOS：通过Homebrew安装brew install tesseract。

安装Python库：

pip install pytesseract pillow

2. 基础代码实现

import pytesseract
from PIL import Image
# 指定Tesseract路径（Windows需配置）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
def ocr_with_pytesseract(image_path, lang='eng'):
    img = Image.open(image_path)
    text = pytesseract.image_to_string(img, lang=lang)
    return text
# 示例：识别英文图片
print(ocr_with_pytesseract('english.png'))
# 示例：识别中文图片
print(ocr_with_pytesseract('chinese.png', lang='chi_sim'))

3. 参数优化与进阶技巧

预处理增强：通过OpenCV进行二值化、去噪等操作可显著提升识别率：

import cv2
def preprocess_image(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
    return thresh

多语言混合识别：使用lang='eng+chi_sim'同时识别中英文。
布局分析：通过output_type=pytesseract.Output.DICT获取文字位置信息。

三、pyddleocr的安装与中文优化实践

1. 快速安装与配置

pyddleocr通过pip直接安装，无需额外引擎：

pip install pyddleocr

2. 基础代码实现

from pyddleocr import PyddleOCR
def ocr_with_pyddleocr(image_path, lang='ch'):
    ocr = PyddleOCR(lang=lang)  # 支持'ch'（中文）、'en'（英文）
    result = ocr.ocr(image_path, cls=True)  # cls=True启用分类模型
    for line in result:
        print(line[1][0])  # 输出识别文本
# 示例：识别中文图片
ocr_with_pyddleocr('chinese_doc.png')

3. 高级功能应用

表格识别：通过table=True参数提取表格结构：

result = ocr.ocr(image_path, table=True)
for box, text in result['table']:
    print(f"位置: {box}, 内容: {text}")

竖排文字识别：设置vertical_text=True处理古籍或日文竖排文本。

批量处理：结合多线程加速大规模图片识别：

from concurrent.futures import ThreadPoolExecutor
def process_image(img_path):
    return ocr_with_pyddleocr(img_path)
with ThreadPoolExecutor(max_workers=4) as executor:
    results = list(executor.map(process_image, ['img1.png', 'img2.png']))

四、性能对比与场景选择建议

指标	pytesseract	pyddleocr
语言支持	100+语言，英文识别率98%+	专注中英文，中文识别率95%+
复杂背景	需预处理，对噪点敏感	内置去噪算法，适应复杂场景
速度	0.5-1秒/张（CPU）	0.3-0.8秒/张（CPU）
特色功能	布局分析、PDF识别	竖排文字、表格结构化输出

场景推荐：

选择pytesseract：需要多语言支持、已有Tesseract训练模型、处理标准印刷体。
选择pyddleocr：中文文档为主、需表格/竖排识别、追求开箱即用体验。

五、常见问题与解决方案

乱码问题：
- 检查语言包是否安装（如chi_sim）。
- 对低分辨率图片进行超分辨率重建（如使用opencv.resize放大2倍）。
性能瓶颈：
- 启用GPU加速：pytesseract需配合Tesseract的GPU版本（编译时启用--with-tensorflow）。
- pyddleocr可通过use_angle_cls=False关闭角度分类模型提速。
特殊格式处理：
- 生成可搜索PDF：结合pdf2image将PDF转为图片后再识别。
- 手写体识别：pytesseract需加载手写训练模型（如eng.traineddata替换为手写版本）。

六、完整项目示例：自动化发票识别系统

import os
from pyddleocr import PyddleOCR
import pandas as pd
class InvoiceOCR:
    def __init__(self):
        self.ocr = PyddleOCR(lang='ch', use_angle_cls=False)
    def extract_info(self, image_path):
        result = self.ocr.ocr(image_path, cls=True)
        data = {'发票号码': '', '金额': '', '日期': ''}
        for line in result:
            text = line[1][0]
            if '发票号码' in text:
                data['发票号码'] = text.split('：')[-1].strip()
            elif '¥' in text or '元' in text:
                data['金额'] = text.replace('¥', '').replace('元', '').strip()
            elif '日期' in text:
                data['日期'] = text.split('：')[-1].strip()
        return data
# 使用示例
if __name__ == '__main__':
    processor = InvoiceOCR()
    for img in os.listdir('invoices'):
        if img.endswith(('.png', '.jpg')):
            info = processor.extract_info(f'invoices/{img}')
            print(f"{img}: {info}")
            # 可保存至Excel
            # pd.DataFrame([info]).to_excel('results.xlsx', index=False)

七、总结与未来展望

本文通过代码实战展示了pytesseract和pyddleocr在OCR领域的应用，开发者可根据具体需求选择工具：pytesseract适合全球化场景，pyddleocr则专注中文优化。未来，随着Transformer架构的融入（如PaddleOCR的PP-OCRv3模型），OCR技术将在小样本学习、视频流识别等方向取得突破。建议开发者关注库的更新日志，及时利用新特性提升项目效率。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

Python OCR实战：pytesseract与pyddleocr的对比与应用（附完整代码）

一、OCR技术概述与Python实现价值

二、pytesseract的安装与基础使用

1. 环境准备与依赖安装

2. 基础代码实现

3. 参数优化与进阶技巧

三、pyddleocr的安装与中文优化实践

1. 快速安装与配置

2. 基础代码实现

3. 高级功能应用

四、性能对比与场景选择建议

五、常见问题与解决方案

六、完整项目示例：自动化发票识别系统

七、总结与未来展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者