Tesseract-OCR实战：Python进阶44天掌握图片文字识别

作者：有好多问题2025.09.26 19:07浏览量：0

简介：本文将深入讲解如何使用Tesseract-OCR结合Python实现高效的OCR图片文字识别，覆盖环境配置、基础识别、图像预处理、多语言支持及实战案例，帮助读者快速掌握这一实用技能。

100天精通Python（进阶篇）——第44天：基于Tesseract-OCR实现OCR图片 文字识别实战

引言

在当今数字化时代，OCR（Optical Character Recognition，光学字符识别）技术已成为信息处理、文档管理、自动化办公等领域的核心工具。通过OCR，我们可以将图片中的文字快速转换为可编辑的文本格式，极大地提高工作效率。本篇文章作为“100天精通Python（进阶篇）”的第44天内容，将详细介绍如何使用Tesseract-OCR这一开源OCR引擎，结合Python编程语言，实现高效的图片文字识别。

Tesseract-OCR简介

Tesseract-OCR是由Google维护的开源OCR引擎，支持多种语言和字符集，具有高度的灵活性和可扩展性。它不仅能够识别印刷体文字，还能通过训练模型识别手写体。Tesseract最初由惠普实验室开发，后于2006年开源，成为OCR领域的重要工具之一。

环境准备

安装Tesseract-OCR

首先，我们需要在系统中安装Tesseract-OCR。根据不同的操作系统，安装方法略有不同：

Windows：可以从Tesseract的GitHub仓库下载Windows安装包进行安装。
macOS：使用Homebrew安装，命令为brew install tesseract。
Linux（Ubuntu/Debian）：使用包管理器安装，命令为sudo apt-get install tesseract-ocr。

安装完成后，可以通过命令行测试Tesseract是否安装成功，例如运行tesseract --version。

安装Python库

在Python中，我们可以使用pytesseract库来调用Tesseract-OCR。使用pip安装：

pip install pytesseract

同时，为了处理图片，我们还需要安装Pillow库（PIL的一个分支）：

pip install Pillow

基础OCR识别

简单图片识别

首先，我们从一个简单的图片识别例子开始。假设我们有一张包含英文文本的图片example.png，以下是使用pytesseract进行识别的代码：

from PIL import Image
import pytesseract
# 设置Tesseract路径（如果不在系统PATH中）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Windows示例
# 打开图片文件
image = Image.open('example.png')
# 使用Tesseract进行OCR识别
text = pytesseract.image_to_string(image)
# 打印识别结果
print(text)

运行上述代码后，text变量将包含图片中的文字内容。

图像预处理

在实际应用中，图片质量往往参差不齐，直接进行OCR识别可能效果不佳。因此，图像预处理是提高识别准确率的关键步骤。常见的预处理操作包括二值化、去噪、旋转校正等。

二值化

二值化是将灰度图像转换为黑白图像的过程，有助于减少噪声干扰。可以使用Pillow库的convert方法进行二值化：

from PIL import Image
def preprocess_image(image_path):
    # 打开图片
    img = Image.open(image_path)
    # 转换为灰度图
    gray_img = img.convert('L')
    # 二值化处理（阈值可根据实际情况调整）
    threshold = 128
    binary_img = gray_img.point(lambda x: 0 if x < threshold else 255)
    return binary_img
# 预处理图片
processed_img = preprocess_image('example.png')
# 使用Tesseract进行识别
text = pytesseract.image_to_string(processed_img)
print(text)

去噪

去噪可以通过多种方法实现，如使用高斯模糊、中值滤波等。Pillow库提供了ImageFilter模块来支持这些操作：

from PIL import Image, ImageFilter
def denoise_image(image_path):
    img = Image.open(image_path)
    # 应用高斯模糊去噪
    denoised_img = img.filter(ImageFilter.GaussianBlur(radius=1))
    return denoised_img
# 去噪处理
denoised_img = denoise_image('example.png')
# 使用Tesseract进行识别
text = pytesseract.image_to_string(denoised_img)
print(text)

多语言支持

Tesseract-OCR支持多种语言，通过下载对应的语言数据包即可实现多语言识别。例如，要识别中文文本，需要下载中文语言包。

下载中文语言包

Windows/macOS/Linux：可以从Tesseract的GitHub仓库或官方网站下载中文语言包（.traineddata文件），并将其放置在Tesseract的tessdata目录下。

中文识别示例

# 设置中文语言包路径（如果需要）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 假设中文语言包已正确放置在tessdata目录下
# 打开中文图片
chinese_img = Image.open('chinese_example.png')
# 使用中文语言包进行识别
text = pytesseract.image_to_string(chinese_img, lang='chi_sim')  # 'chi_sim'表示简体中文
print(text)

实战案例：批量识别图片中的文字

假设我们有一个文件夹，里面包含多张需要识别的图片，我们可以编写一个脚本来批量处理这些图片：

import os
from PIL import Image
import pytesseract
def batch_ocr(image_folder, output_file='output.txt', lang='eng'):
    """
    批量识别图片中的文字，并将结果保存到文件
    :param image_folder: 图片文件夹路径
    :param output_file: 输出文件路径
    :param lang: 识别语言，默认为英文
    """
    results = []
    for filename in os.listdir(image_folder):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.tiff')):
            img_path = os.path.join(image_folder, filename)
            try:
                img = Image.open(img_path)
                text = pytesseract.image_to_string(img, lang=lang)
                results.append(f"Image: {filename}\n{text}\n")
            except Exception as e:
                results.append(f"Error processing {filename}: {str(e)}\n")
    # 将结果写入文件
    with open(output_file, 'w', encoding='utf-8') as f:
        f.writelines(results)
    print(f"OCR results saved to {output_file}")
# 使用示例
batch_ocr('images', 'results.txt', lang='chi_sim')  # 识别中文图片

结论

通过本篇文章的学习，我们掌握了如何使用Tesseract-OCR结合Python实现图片文字识别。从环境配置、基础识别到图像预处理、多语言支持，再到实战案例中的批量识别，我们逐步深入了解了OCR技术的实现细节。希望这些内容能够帮助读者在实际项目中应用OCR技术，提高工作效率。随着技术的不断发展，OCR将在更多领域发挥重要作用，值得我们持续关注和探索。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Tesseract-OCR实战：Python进阶44天掌握图片文字识别

100天精通Python（进阶篇）——第44天：基于Tesseract-OCR实现OCR图片 文字识别实战

引言

Tesseract-OCR简介

环境准备

安装Tesseract-OCR

安装Python库

基础OCR识别

简单图片识别

图像预处理

二值化

去噪

多语言支持

下载中文语言包

中文识别示例

实战案例：批量识别图片中的文字

结论

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者