如何用Python读取多语言PDF并转为字符串：中日泰文本处理全攻略

作者：十万个为什么2025.09.19 15:11浏览量：0

简介：本文详解如何使用Python读取含中文、日文、泰文等亚洲语言的PDF文件，并将其转换为可处理的字符串格式，重点解决编码、OCR识别及文本提取等关键问题。

在全球化信息处理场景中，PDF文档中的多语言文本提取是数据分析、自然语言处理（NLP）和机器翻译的基础环节。尤其对于包含中文、日文、泰文等亚洲语言的PDF文件，直接提取往往面临编码混乱、字体嵌入、扫描件识别等挑战。本文将从基础文本提取到复杂OCR处理，系统介绍如何通过Python实现多语言PDF的字符串转换。

一、原生PDF文本提取（适用于可复制文本）

1. 使用PyPDF2库提取可复制文本

对于可直接复制文本的PDF文件，PyPDF2是最轻量级的解决方案。其核心步骤如下：

from PyPDF2 import PdfReader
def extract_text_from_pdf(pdf_path):
    reader = PdfReader(pdf_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text() + "\n"
    return text
# 示例：提取中日泰混合文本
mixed_text = extract_text_from_pdf("multilingual.pdf")
print(mixed_text[:500])  # 打印前500字符验证

关键点：

仅适用于未加密且文本未被图像化的PDF
对CJK（中日韩）字符支持良好，但需确保系统字体包含泰文字符集
遇到换行符错乱时，可通过正则表达式re.compile(r'\s+')统一替换

2. 处理PDFMiner的精细提取

当PyPDF2出现乱码时，PDFMiner.six提供更底层的解析：

from pdfminer.high_level import extract_text
def pdfminer_extract(pdf_path):
    return extract_text(pdf_path)
# 对比测试
text_pypdf = extract_text_from_pdf("japanese.pdf")
text_pdfminer = pdfminer_extract("japanese.pdf")
print("PyPDF2字符数:", len(text_pypdf))
print("PDFMiner字符数:", len(text_pdfminer))

优势：

支持垂直文本布局（常见于日文PDF）
可通过LAParams调整布局分析参数
对复杂字体嵌入的处理更稳健

二、扫描件PDF的OCR识别方案

1. Tesseract OCR的深度配置

对于图像型PDF，需结合OCR技术。以Tesseract为例，需特别注意语言包安装：

# Ubuntu系统安装多语言包
sudo apt install tesseract-ocr-chi-sim  # 简体中文
sudo apt install tesseract-ocr-jpn      # 日文
sudo apt install tesseract-ocr-tha      # 泰文

Python调用示例：

import pytesseract
from pdf2image import convert_from_path
def ocr_pdf_to_string(pdf_path, lang='jpn+chi_sim+tha'):
    images = convert_from_path(pdf_path)
    full_text = ""
    for i, image in enumerate(images):
        text = pytesseract.image_to_string(image, lang=lang)
        full_text += f"Page {i+1}:\n{text}\n"
    return full_text
# 测试日文PDF识别
japanese_text = ocr_pdf_to_string("scan_japanese.pdf", lang='jpn')
print(japanese_text[:300])

优化技巧：

预处理图像：使用OpenCV进行二值化、去噪
```python
import cv2
import numpy as np

def preprocess_image(image_path):
img = cv2.imread(image_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
return thresh

- 调整Tesseract参数：`--psm 6`（假设为统一文本块）
#### 2. 商业OCR API的替代方案
当开源工具精度不足时，可考虑：
- **百度OCR**：支持20+种语言，对竖排日文优化良好
- **AWS Textract**：内置PDF解析引擎，支持复杂布局
- **Google Cloud Vision**：多语言识别准确率高
示例（使用百度OCR）：
```python
import requests
import base64
def baidu_ocr(pdf_path, api_key, secret_key):
    # 获取Access Token（需提前实现）
    token = get_baidu_access_token(api_key, secret_key)
    # 将PDF转为base64（需分页处理）
    with open(pdf_path, "rb") as f:
        pdf_base64 = base64.b64encode(f.read()).decode()
    url = f"https://aip.baidubce.com/rest/2.0/ocr/v1/pdf?access_token={token}"
    headers = {'Content-Type': 'application/x-www-form-urlencoded'}
    data = {
        "image": pdf_base64,
        "language_type": "JAP,CHS,TH"  # 日文、简体中文、泰文
    }
    response = requests.post(url, data=data, headers=headers)
    return response.json()

三、多语言文本的后处理

1. 编码规范化处理

提取的文本可能包含混合编码，需统一为UTF-8：

def normalize_encoding(text):
    try:
        if isinstance(text, bytes):
            return text.decode('utf-8')
        return text.encode('utf-8').decode('utf-8')
    except UnicodeDecodeError:
        return text.decode('gbk', errors='ignore').encode('utf-8').decode('utf-8')
# 示例处理
raw_text = "混合文本：中文と日本語และไทย"
normalized = normalize_encoding(raw_text.encode())
print(normalized)

2. 语言分段处理

对于多语言混合文档，可通过langdetect进行分类：

from langdetect import detect
def segment_by_language(text):
    sentences = [s.strip() for s in text.split('\n') if s.strip()]
    segments = {}
    for sent in sentences:
        try:
            lang = detect(sent)
            segments.setdefault(lang, []).append(sent)
        except:
            segments.setdefault('unknown', []).append(sent)
    return segments
# 示例输出
segments = segment_by_language("こんにちは。你好。สวัสดี")
print(segments)
# 输出：{'ja': ['こんにちは。'], 'zh-cn': ['你好。'], 'th': ['สวัสดี']}

四、完整解决方案示例

综合上述方法，以下是端到端处理流程：

def process_multilingual_pdf(pdf_path, is_scan=False):
    if not is_scan:
        try:
            text = extract_text_from_pdf(pdf_path)  # 优先尝试PyPDF2
            if len(text.encode('utf-8')) < 100:  # 提取失败检测
                text = pdfminer_extract(pdf_path)
            return normalize_encoding(text)
        except Exception as e:
            print(f"原生提取失败: {e}")
            is_scan = True
    if is_scan:
        text = ocr_pdf_to_string(pdf_path)
        return normalize_encoding(text)
# 使用示例
pdf_text = process_multilingual_pdf("mixed_languages.pdf", is_scan=True)
language_segments = segment_by_language(pdf_text)
for lang, texts in language_segments.items():
    print(f"\n{lang}语言段落:")
    print("\n".join(texts[:3]))  # 打印各语言前3段

五、性能优化建议

分页处理：对于大文件，使用生成器逐页处理

def lazy_pdf_reader(pdf_path):
 reader = PdfReader(pdf_path)
 for page in reader.pages:
     yield page.extract_text()

缓存机制：对重复处理的PDF建立缓存
```python
import hashlib
import pickle
import os

def cache_pdf_text(pdf_path, cache_dir=”.pdf_cache”):
os.makedirs(cache_dir, exist_ok=True)
hash_key = hashlib.md5(pdf_path.encode()).hexdigest()
cache_path = os.path.join(cache_dir, f”{hash_key}.pkl”)

if os.path.exists(cache_path):
    with open(cache_path, "rb") as f:
        return pickle.load(f)
text = process_multilingual_pdf(pdf_path)
with open(cache_path, "wb") as f:
    pickle.dump(text, f)
return text


3. **多线程处理**：使用concurrent.futures加速多文件处理
```python
from concurrent.futures import ThreadPoolExecutor
def batch_process_pdfs(pdf_paths, max_workers=4):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        results = list(executor.map(process_multilingual_pdf, pdf_paths))
    return results

六、常见问题解决方案

泰文字符显示为方框：
- 确保系统安装Noto Sans Thai等支持泰文的字体
- 在Linux系统执行：sudo apt install fonts-noto-cjk fonts-noto-unhinted
日文竖排文本错乱：
- 使用PDFMiner时设置LAParams(detect_vertical=True)
- OCR处理时指定--psm 6参数
中文识别率低：
- 预处理时增加对比度：cv2.equalizeHist()
- 使用百度OCR时指定recognize_granularity=big

通过上述方法组合，开发者可构建覆盖90%以上亚洲语言PDF处理场景的解决方案。实际项目中，建议根据文件来源（原生/扫描）、语言复杂度、精度要求等因素选择合适的技术栈，并通过AB测试确定最佳组合。对于企业级应用，可考虑将OCR服务容器化部署，结合Kubernetes实现弹性扩展。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

如何用Python读取多语言PDF并转为字符串：中日泰文本处理全攻略

一、原生PDF文本提取（适用于可复制文本）

1. 使用PyPDF2库提取可复制文本

2. 处理PDFMiner的精细提取

二、扫描件PDF的OCR识别方案

1. Tesseract OCR的深度配置

三、多语言文本的后处理

1. 编码规范化处理

2. 语言分段处理

四、完整解决方案示例

五、性能优化建议

六、常见问题解决方案

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者