CentOS系统零基础指南：PaddleOCR安装与部署全流程

作者：公子世无双2025.09.18 11:24浏览量：19

简介：本文为CentOS系统零基础用户提供PaddleOCR安装部署的详细指南，涵盖环境准备、依赖安装、代码下载、模型配置及测试运行全流程，助力快速实现OCR功能部署。

引言

随着人工智能技术的快速发展，OCR（光学字符识别）技术在文档数字化、自动化办公等领域的应用越来越广泛。PaddleOCR作为一款基于深度学习的OCR工具库，以其高效、准确的特点受到了广泛关注。本文将详细介绍如何在CentOS系统下，从零基础开始安装与部署PaddleOCR，帮助读者快速上手这一强大的OCR工具。

一、环境准备

1.1 系统要求

首先，确保你的CentOS系统满足以下基本要求：

CentOS 7或更高版本
足够的磁盘空间（建议至少20GB）
稳定的网络连接

1.2 安装必要软件

在开始安装PaddleOCR之前，需要安装一些必要的软件包，包括Python、pip、git等。

1.2.1 安装Python

CentOS 7默认安装的是Python 2.7，但PaddleOCR推荐使用Python 3.6或更高版本。可以通过以下步骤安装Python 3：

# 安装EPEL仓库（如果尚未安装）
sudo yum install epel-release
# 安装Python 3.6
sudo yum install python36
# 验证安装
python3.6 --version

1.2.2 安装pip

pip是Python的包管理工具，用于安装和管理Python包。

# 下载get-pip.py
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# 使用Python 3.6安装pip
python3.6 get-pip.py
# 验证安装
pip3 --version

1.2.3 安装git

git用于从GitHub克隆PaddleOCR的代码库。

sudo yum install git
# 验证安装
git --version

二、安装PaddleOCR

2.1 克隆PaddleOCR代码库

使用git克隆PaddleOCR的GitHub仓库到本地。

git clone https://github.com/PaddlePaddle/PaddleOCR.git
cd PaddleOCR

2.2 安装依赖库

PaddleOCR依赖于多个Python库，包括PaddlePaddle（深度学习框架）、opencv-python（图像处理）、shapely（几何对象处理）等。可以使用pip安装这些依赖。

# 安装PaddlePaddle（根据GPU情况选择版本，这里以CPU版本为例）
pip3 install paddlepaddle -i https://mirror.baidu.com/pypi/simple
# 安装其他依赖
pip3 install -r requirements.txt

注意：如果你的系统有NVIDIA GPU，并且希望使用GPU加速，可以安装GPU版本的PaddlePaddle。安装前请确保已安装CUDA和cuDNN，并参考PaddlePaddle官方文档选择合适的版本。

三、配置PaddleOCR

3.1 下载预训练模型

PaddleOCR提供了多种预训练模型，包括文本检测、文本识别和方向分类等。可以从PaddleOCR模型库下载所需的模型。

以中文OCR模型为例，下载文本检测和文本识别模型：

# 创建模型目录
mkdir -p inference/ch_ppocr_mobile_v2.0_det_infer
mkdir -p inference/ch_ppocr_mobile_v2.0_rec_infer
# 下载文本检测模型
wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer/ch_ppocr_mobile_v2.0_det_infer.tar
tar -xf ch_ppocr_mobile_v2.0_det_infer.tar -C inference/ch_ppocr_mobile_v2.0_det_infer/
# 下载文本识别模型
wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer/ch_ppocr_mobile_v2.0_rec_infer.tar
tar -xf ch_ppocr_mobile_v2.0_rec_infer.tar -C inference/ch_ppocr_mobile_v2.0_rec_infer/

3.2 配置文件修改

PaddleOCR的配置文件位于configs目录下，根据需求修改相应的配置文件。例如，修改configs/det/det_mv3_db.yml以指定文本检测模型的路径：

# 省略其他配置...
Global:
  infer_img: ./doc/imgs/11.jpg
  # 指定检测模型路径
  det_model_dir: ./inference/ch_ppocr_mobile_v2.0_det_infer/
  # 省略其他配置...

同样，修改configs/rec/rec_chinese_common_train_v2.0.yml以指定文本识别模型的路径：

# 省略其他配置...
Global:
  # 指定识别模型路径
  rec_model_dir: ./inference/ch_ppocr_mobile_v2.0_rec_infer/
  # 省略其他配置...

四、运行PaddleOCR

4.1 命令行方式运行

使用以下命令运行PaddleOCR进行文本检测和识别：

python3.6 tools/infer_ocr.py -c configs/det/det_mv3_db.yml -c configs/rec/rec_chinese_common_train_v2.0.yml -o Global.infer_img=./doc/imgs/11.jpg

参数说明：

-c：指定配置文件路径，可以指定多个配置文件，后面的配置会覆盖前面的。
-o：覆盖配置文件中的参数，例如这里覆盖了Global.infer_img参数以指定测试图片路径。

4.2 Python API方式运行

如果你希望在Python代码中调用PaddleOCR，可以使用以下示例代码：

from paddleocr import PaddleOCR
# 初始化PaddleOCR，指定模型目录
ocr = PaddleOCR(det_model_dir='./inference/ch_ppocr_mobile_v2.0_det_infer/', 
                 rec_model_dir='./inference/ch_ppocr_mobile_v2.0_rec_infer/', 
                 use_angle_cls=True, lang='ch')
# 读取图片并进行OCR识别
img_path = './doc/imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
# 打印识别结果
for line in result:
    print(line)

五、常见问题与解决方案

5.1 安装PaddlePaddle失败

问题描述：安装PaddlePaddle时提示找不到合适的版本或安装失败。

解决方案：

确保已安装正确版本的CUDA和cuDNN（如果使用GPU版本）。
参考PaddlePaddle官方文档选择与系统环境匹配的版本。
尝试使用-i参数指定镜像源，如pip3 install paddlepaddle -i https://mirror.baidu.com/pypi/simple。

5.2 运行时报错“ModuleNotFoundError”

问题描述：运行PaddleOCR时提示找不到某个Python模块。

解决方案：

确保已安装所有依赖库，可以通过pip3 list查看已安装的库。
如果缺少某个库，使用pip3 install 库名安装。
检查requirements.txt文件，确保所有依赖都已正确安装。

六、总结与展望

本文详细介绍了在CentOS系统下从零基础开始安装与部署PaddleOCR的全过程，包括环境准备、代码克隆、依赖安装、模型下载与配置以及运行测试等步骤。通过本文的指导，读者应该能够成功部署PaddleOCR并进行基本的OCR识别任务。

未来，随着深度学习技术的不断发展，PaddleOCR等OCR工具的性能和功能将不断提升。读者可以关注PaddleOCR的官方文档和GitHub仓库，及时获取最新动态和更新。同时，也可以尝试将PaddleOCR应用于实际项目中，探索其在文档数字化、自动化办公等领域的更多可能性。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

CentOS系统零基础指南：PaddleOCR安装与部署全流程

引言

一、环境准备

1.1 系统要求

1.2 安装必要软件

1.2.1 安装Python

1.2.2 安装pip

1.2.3 安装git

二、安装PaddleOCR

2.1 克隆PaddleOCR代码库

2.2 安装依赖库

三、配置PaddleOCR

3.1 下载预训练模型

3.2 配置文件修改

四、运行PaddleOCR

4.1 命令行方式运行

4.2 Python API方式运行

五、常见问题与解决方案

5.1 安装PaddlePaddle失败

5.2 运行时报错“ModuleNotFoundError”

六、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者