100天Python进阶：Tesseract-OCR图片文字识别全攻略

作者：carzy2025.09.19 13:43浏览量：6

简介：本文聚焦Python进阶实战，通过Tesseract-OCR库实现OCR图片文字识别，涵盖环境搭建、基础识别、进阶优化及项目整合，助力开发者掌握高效OCR技术。

100天精通Python（进阶篇）——第44天：基于Tesseract-OCR实现OCR图片 文字识别实战

引言

在数字化时代，OCR（Optical Character Recognition，光学字符识别）技术已成为信息提取与处理的关键工具。无论是文档电子化、自动化表单处理，还是图像内容分析，OCR都能将图片中的文字快速转换为可编辑的文本格式。本文作为“100天精通Python（进阶篇）”的第44天内容，将深入探讨如何使用Tesseract-OCR这一开源工具，结合Python实现高效的OCR图片文字识别。

Tesseract-OCR简介

Tesseract-OCR是由Google维护的开源OCR引擎，支持超过100种语言的识别，具有高度的灵活性和可扩展性。它最初由惠普实验室开发，后于2006年开源，并逐渐成为OCR领域的标准工具之一。Tesseract通过训练模型识别字符，能够处理复杂的布局和字体变化，适用于多种应用场景。

环境准备

安装Tesseract-OCR

Windows系统：访问Tesseract GitHub页面，下载并安装Windows版本的Tesseract。安装时勾选“Additional language data”以安装多语言支持。

Linux系统：使用包管理器安装，如Ubuntu下执行：

sudo apt update
sudo apt install tesseract-ocr
sudo apt install libtesseract-dev

macOS系统：使用Homebrew安装：
```
brew install tesseract
```

安装Python库

使用pip安装pytesseract库，它是Tesseract-OCR的Python封装，简化了调用过程：

pip install pytesseract

同时，建议安装Pillow库用于图像处理：

pip install Pillow

基础OCR识别

读取图片

首先，使用Pillow库打开图片文件：

from PIL import Image
import pytesseract
# 打开图片
image_path = 'example.png'
image = Image.open(image_path)

执行OCR识别

调用pytesseract.image_to_string方法进行文字识别：

# 执行OCR识别
text = pytesseract.image_to_string(image, lang='chi_sim')  # 指定中文简体
print(text)

lang参数指定识别语言，如'eng'为英文，'chi_sim'为中文简体。

进阶优化

图像预处理

提高OCR识别率的关键在于图像预处理。常见的预处理步骤包括：

转换为灰度图：减少颜色干扰，提高识别效率。
```
gray_image = image.convert('L')
```

二值化处理：增强文字与背景的对比度。

threshold = 150
binary_image = gray_image.point(lambda x: 0 if x < threshold else 255)

去噪：使用高斯模糊或中值滤波减少噪声。

from PIL import ImageFilter
denoised_image = binary_image.filter(ImageFilter.MedianFilter(size=3))

指定识别区域

若图片中包含多个不相关的文本区域，可通过裁剪指定识别区域：

# 裁剪图片 (left, upper, right, lower)
cropped_image = image.crop((100, 100, 400, 400))
text = pytesseract.image_to_string(cropped_image, lang='chi_sim')

使用配置参数

Tesseract支持多种配置参数，如--psm（页面分割模式）和--oem（OCR引擎模式），可通过config参数传递：

custom_config = r'--oem 3 --psm 6'
text = pytesseract.image_to_string(image, config=custom_config, lang='chi_sim')

--oem 3：使用默认OCR引擎模式。
--psm 6：假设图片为统一的文本块。

实战案例：发票信息提取

假设我们需要从一张发票图片中提取关键信息（如发票号码、日期、金额），可以按照以下步骤实现：

图像预处理：转换为灰度图，二值化，去噪。
区域定位：根据发票布局，裁剪出关键信息区域。
OCR识别：对每个区域执行OCR识别。
信息提取：使用正则表达式或关键词匹配提取所需信息。

import re
def extract_invoice_info(image_path):
    image = Image.open(image_path)
    # 预处理
    gray_image = image.convert('L')
    binary_image = gray_image.point(lambda x: 0 if x < 150 else 255)
    # 假设发票号码位于(100, 50, 300, 100)区域
    invoice_no_region = binary_image.crop((100, 50, 300, 100))
    invoice_no = pytesseract.image_to_string(invoice_no_region, lang='chi_sim').strip()
    # 假设日期位于(400, 50, 600, 100)区域
    date_region = binary_image.crop((400, 50, 600, 100))
    date_text = pytesseract.image_to_string(date_region, lang='chi_sim').strip()
    date_match = re.search(r'\d{4}-\d{2}-\d{2}', date_text)
    date = date_match.group(0) if date_match else None
    # 假设金额位于(700, 50, 900, 100)区域
    amount_region = binary_image.crop((700, 50, 900, 100))
    amount_text = pytesseract.image_to_string(amount_region, lang='chi_sim').strip()
    amount_match = re.search(r'\d+\.\d{2}', amount_text)
    amount = amount_match.group(0) if amount_match else None
    return {
        'invoice_no': invoice_no,
        'date': date,
        'amount': amount
    }
info = extract_invoice_info('invoice.png')
print(info)

总结与展望

通过本文的介绍，我们掌握了使用Tesseract-OCR进行图片文字识别的基础与进阶技巧。从环境搭建、基础识别到图像预处理、区域定位，再到实战案例中的信息提取，每一步都体现了OCR技术的实用性与灵活性。未来，随着深度学习技术的发展，OCR的准确率和效率将进一步提升，为更多自动化场景提供支持。

作为Python进阶的一部分，掌握OCR技术不仅拓宽了我们的技能边界，更为解决实际问题提供了有力工具。希望读者能在实践中不断探索，将OCR技术应用于更多创新领域。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

100天Python进阶：Tesseract-OCR图片文字识别全攻略

100天精通Python（进阶篇）——第44天：基于Tesseract-OCR实现OCR图片 文字识别实战

引言

Tesseract-OCR简介

环境准备

安装Tesseract-OCR

安装Python库

基础OCR识别

读取图片

执行OCR识别

进阶优化

图像预处理

指定识别区域

使用配置参数

实战案例：发票信息提取

总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者