如何用Python读取多语言PDF并转为字符串：中日泰文处理全攻略

作者：carzy2025.09.19 15:12浏览量：0

简介：本文详细介绍如何用Python读取含中文、日文、泰文等亚洲语言的PDF文件，提取文本并转为字符串，重点解决OCR识别与编码处理难题，提供完整代码示例与优化建议。

一、背景与需求分析

在全球化信息处理场景中，企业与开发者常面临多语言PDF文本提取需求。例如，日企需将产品说明书PDF转为可编辑文本，中文文献机构需数字化古籍PDF，泰语旅游资料需翻译为多语言版本。传统PDF解析工具对亚洲语言支持不足，主要存在两大痛点：

编码兼容性：中日泰文使用Unicode多字节编码，普通解析器易出现乱码
布局识别：竖排日文、复杂中文排版导致文本顺序错乱

本文将系统讲解从PDF读取到字符串存储的全流程，重点解决OCR识别与编码处理两大核心问题。

二、技术方案选型

1. 原生PDF文本提取（适用于可复制文本的PDF）

当PDF包含可复制的文本层时，优先使用PyPDF2或pdfminer.six库：

# 使用PyPDF2提取文本（适用于结构化PDF）
from PyPDF2 import PdfReader
def extract_text_from_pdf(pdf_path):
    reader = PdfReader(pdf_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text
# 使用示例
japanese_text = extract_text_from_pdf("japanese_doc.pdf")
print(japanese_text[:200])  # 打印前200字符验证

局限性：对扫描件或图片型PDF无效，中日泰文混排时可能出现编码错误。

2. OCR识别方案（适用于扫描件PDF）

对于图片型PDF，需结合OCR引擎：

方案一：Tesseract OCR（开源首选）

# 安装依赖：pip install pytesseract pdf2image
import pytesseract
from pdf2image import convert_from_path
def ocr_pdf_to_text(pdf_path, lang='jpn+chi_sim+tha'):
    # 将PDF转为图像列表
    images = convert_from_path(pdf_path)
    # 配置Tesseract路径（根据系统调整）
    # pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
    full_text = ""
    for i, image in enumerate(images):
        # 多语言混合识别
        text = pytesseract.image_to_string(
            image, 
            lang=lang,
            config='--psm 6'  # 自动页面分割模式
        )
        full_text += f"\n=== Page {i+1} ===\n" + text
    return full_text
# 使用示例
mixed_text = ocr_pdf_to_text("multilingual.pdf")
print(mixed_text[:500])

关键参数说明：

lang参数：jpn(日文)、chi_sim(简体中文)、tha(泰文)的组合
psm模式：6表示假设为统一文本块，适合排版规整的文档

方案二：商业OCR API（高精度场景）

对于专业场景，可考虑以下商业API：

百度OCR：支持中日韩泰等20+语言，提供PDF整体识别接口
ABBYY FineReader Engine：企业级OCR，对复杂排版支持优秀

# 伪代码示例（百度OCR需申请API Key）
import requests
def baidu_ocr_pdf(pdf_path, api_key, secret_key):
    # 1. 上传PDF获取access_token
    # 2. 调用PDF识别接口
    # 3. 解析返回的JSON
    pass

三、编码处理与字符串存储

1. 编码问题解决方案

亚洲语言处理常见编码问题：

乱码：未正确声明文件编码
截断：字符串处理时未考虑多字节字符

最佳实践：

# 显式指定编码读写文件
with open("output.txt", "w", encoding="utf-8") as f:
    f.write(mixed_text)
# 安全截取字符串（避免中文字符截断）
def safe_substr(text, max_len):
    if len(text.encode('utf-8')) <= max_len:
        return text
    # 回溯查找最后一个完整字符
    for i in range(max_len, 0, -1):
        if len(text[:i].encode('utf-8')) <= max_len:
            return text[:i]
    return ""

2. 结构化存储建议

对于多语言文本，推荐采用JSON格式存储：

import json
data = {
    "metadata": {
        "source_file": "multilingual.pdf",
        "languages": ["jpn", "chi_sim", "tha"],
        "page_count": 5
    },
    "content": {
        "page_1": "こんにちは...你好...สวัสดี",
        "page_2": "続きのテキスト..."
    }
}
with open("output.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

四、性能优化与工程实践

1. 大文件处理技巧

对于超过100页的PDF：

# 分块处理示例
def process_large_pdf(pdf_path, chunk_size=10):
    reader = PdfReader(pdf_path)
    all_text = []
    for i in range(0, len(reader.pages), chunk_size):
        chunk_text = ""
        for page_num in range(i, min(i+chunk_size, len(reader.pages))):
            chunk_text += reader.pages[page_num].extract_text()
        all_text.append(chunk_text)
        # 此处可添加异步处理或存储逻辑
    return all_text

2. 质量验证方法

实施三步验证法：

字符覆盖率检查：统计识别文本中的语言特征字符
格式一致性验证：检查换行符、标点符号分布
抽样人工核对：随机抽取1%内容进行人工验证

def validate_text(text, expected_lang):
    lang_features = {
        'jpn': ['の', 'は', 'を'],
        'chi_sim': ['的', '了', '是'],
        'tha': ['ก', 'ข', 'ค']
    }
    if expected_lang not in lang_features:
        return False
    feature_chars = lang_features[expected_lang]
    return any(char in text for char in feature_chars)

五、完整解决方案示例

综合方案实现：

import pytesseract
from pdf2image import convert_from_path
import json
import os
class MultilingualPDFExtractor:
    def __init__(self, tesseract_path=None):
        if tesseract_path:
            pytesseract.pytesseract.tesseract_cmd = tesseract_path
    def extract(self, pdf_path, output_format='txt', lang='jpn+chi_sim+tha'):
        # 尝试原生文本提取
        try:
            from PyPDF2 import PdfReader
            reader = PdfReader(pdf_path)
            text = "\n".join([page.extract_text() for page in reader.pages])
            if text.strip():  # 如果提取到文本
                return self._save_result(text, pdf_path, output_format)
        except:
            pass
        # 回退到OCR方案
        images = convert_from_path(pdf_path)
        full_text = ""
        for i, img in enumerate(images):
            text = pytesseract.image_to_string(
                img, 
                lang=lang,
                config='--psm 6'
            )
            full_text += f"\n=== Page {i+1} ===\n" + text
        return self._save_result(full_text, pdf_path, output_format)
    def _save_result(self, text, source_file, output_format):
        base_name = os.path.splitext(source_file)[0]
        result = {
            "source": source_file,
            "content": text,
            "stats": {
                "char_count": len(text),
                "byte_size": len(text.encode('utf-8'))
            }
        }
        if output_format == 'json':
            output_path = f"{base_name}.json"
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(result, f, ensure_ascii=False, indent=2)
            return output_path
        else:  # txt
            output_path = f"{base_name}.txt"
            with open(output_path, 'w', encoding='utf-8') as f:
                f.write(text)
            return output_path
# 使用示例
extractor = MultilingualPDFExtractor()
result_path = extractor.extract("multilingual_doc.pdf", output_format='json')
print(f"处理完成，结果保存至: {result_path}")

六、常见问题解决方案

1. 日文竖排文本识别

解决方案：

使用Tesseract的--psm 0模式（自动页面分割）
对竖排文本进行预处理旋转

from PIL import Image
import numpy as np
def rotate_vertical_text(image_path, output_path):
    img = Image.open(image_path)
    # 转换为numpy数组处理
    arr = np.array(img)
    # 旋转90度（根据实际排版调整）
    rotated = np.rot90(arr, k=3)  # k=3表示270度旋转
    rotated_img = Image.fromarray(rotated)
    rotated_img.save(output_path)
    return output_path

2. 泰文字符识别优化

泰文特点：

包含特殊字符和合字
无空格分隔单词

优化建议：

使用泰文专用训练数据（Tesseract的tha.traineddata）
后处理添加词边界识别

def post_process_thai(text):
    # 简单示例：添加泰文词间空格（实际需更复杂逻辑）
    thai_chars = "กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรฤลฦวศษสหฬอฮฯะาำิีึืฺุูเแโใไํ๊์๋์็๎"
    processed = []
    for char in text:
        if char in thai_chars and len(processed) > 0 and processed[-1] not in thai_chars:
            processed.append(" ")
        processed.append(char)
    return "".join(processed)

七、总结与展望

本文提出的解决方案实现了：

多语言支持：覆盖中日泰文等主要亚洲语言
双模式处理：原生文本提取与OCR识别自动切换
企业级实践：包含质量验证、大文件处理等工程优化

未来发展方向：

深度学习模型微调：针对特定领域文本优化识别率
实时处理架构：结合流式PDF解析与增量OCR
多模态处理：同时提取文本、表格和图片信息

通过合理组合现有工具与自定义处理逻辑，开发者可以构建高效可靠的多语言PDF文本提取系统，满足全球化信息处理需求。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

如何用Python读取多语言PDF并转为字符串：中日泰文处理全攻略

一、背景与需求分析

二、技术方案选型

1. 原生PDF文本提取（适用于可复制文本的PDF）

2. OCR识别方案（适用于扫描件PDF）

方案一：Tesseract OCR（开源首选）

方案二：商业OCR API（高精度场景）

三、编码处理与字符串存储

1. 编码问题解决方案

2. 结构化存储建议

四、性能优化与工程实践

1. 大文件处理技巧

2. 质量验证方法

五、完整解决方案示例

六、常见问题解决方案

1. 日文竖排文本识别

2. 泰文字符识别优化

七、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者