关于NLP中的文本预处理的完整教程

作者：demo2025.12.19 15:00浏览量：19

简介：本文为NLP开发者提供一套完整的文本预处理教程，涵盖数据清洗、分词、标准化、特征提取等核心环节，结合理论解析与代码实现，帮助读者系统掌握文本预处理的关键技术。

关于NLP中的文本预处理的完整教程

引言

在自然语言处理（NLP）任务中，文本预处理是决定模型性能的关键环节。未经处理的原始文本包含噪声、冗余信息和格式差异，直接输入模型会导致训练效率低下甚至错误。本文将从数据清洗、分词、标准化、特征提取等核心环节出发，结合代码示例与理论解析，为开发者提供一套完整的文本预处理技术方案。

一、数据清洗：去除噪声与无效信息

1.1 文本噪声的来源与分类

原始文本中的噪声可分为三类：

格式噪声：HTML标签、特殊符号、多余空格等；
内容噪声：广告、版权声明、无关段落等；
编码噪声：UTF-8与GBK编码混用、乱码字符等。

1.2 清洗方法与工具

（1）正则表达式匹配

通过预定义规则删除特定模式：

import re
def clean_text(text):
    # 删除HTML标签
    text = re.sub(r'<.*?>', '', text)
    # 删除特殊符号（保留中文、英文、数字）
    text = re.sub(r'[^\w\u4e00-\u9fa5]', ' ', text)
    # 合并多余空格
    text = ' '.join(text.split())
    return text

（2）基于规则的过滤

针对特定场景设计过滤规则，例如删除邮件签名：

def remove_signature(text):
    signatures = ['此致 敬礼', 'Best regards', '顺颂商祺']
    for sig in signatures:
        if sig in text:
            text = text.split(sig)[0]
    return text

（3）第三方库应用

NLTK：nltk.clean_html()处理HTML；
BeautifulSoup：解析复杂HTML结构；
langdetect：识别非目标语言文本并过滤。

1.3 实践建议

分阶段清洗：先处理格式噪声，再处理内容噪声；
日志记录：记录被删除的内容类型与数量，便于后续优化；
可视化验证：使用词云或频率统计检查清洗效果。

二、分词与词元化：构建文本基础单元

2.1 分词技术的选择

（1）中文分词挑战

中文无明确词边界，需依赖统计模型或词典：

基于词典：jieba、THULAC；
基于模型：BERT-WWM、LAC（百度开源工具）。

（2）英文分词方法

英文以空格分隔，但需处理缩写、连字符等：

from nltk.tokenize import word_tokenize
text = "I'm using NLTK's word_tokenize."
tokens = word_tokenize(text)
# 输出: ['I', "'m", 'using', 'NLTK', "'s", 'word_tokenize', '.']

2.2 子词分词（Subword Tokenization）

解决未登录词（OOV）问题，常见方法：

BPE（Byte-Pair Encoding）：HuggingFace Tokenizers库；
WordPiece：BERT默认分词器；
Unigram：SentencePiece库。

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
# 训练BPE分词器示例
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[PAD]", "[UNK]"])
tokenizer.train(files=["corpus.txt"], trainer=trainer)

2.3 分词优化策略

领域适配：在医疗、法律等垂直领域微调分词模型；
多粒度分词：同时保留细粒度（词）与粗粒度（短语）结果；
性能权衡：平衡分词速度与准确率（如jieba的精确模式与全模式）。

三、文本标准化：统一表达形式

3.1 大小写转换

英文文本需统一大小写：

text = "The Quick Brown Fox"
normalized = text.lower()  # 输出: "the quick brown fox"

3.2 数字与时间标准化

数字归一化：将”1k”转为”1000”，”3.5M”转为”3500000”；
时间解析：使用dateutil解析”2023-05-20”或”May 20th”。

3.3 拼写纠正与同义词归一

拼写检查：pyenchant或textblob；
同义词映射：构建词典将”car”与”automobile”统一。

3.4 停用词过滤

删除高频无意义词：

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
tokens = ["this", "is", "a", "sample"]
filtered = [word for word in tokens if word not in stop_words]
# 输出: ['sample']

四、特征提取：构建模型输入

4.1 词袋模型（Bag-of-Words）

from sklearn.feature_extraction.text import CountVectorizer
corpus = ["I love NLP", "NLP is powerful"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
# 输出稀疏矩阵表示

4.2 TF-IDF加权

突出重要词汇：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(corpus)

4.3 词嵌入（Word Embedding）

预训练模型：Word2Vec、GloVe、FastText；
上下文嵌入：BERT、RoBERTa。

from transformers import BertTokenizer, BertModel
import torch
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertModel.from_pretrained('bert-base-chinese')
inputs = tokenizer("你好，世界", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state  # 获取词嵌入

4.4 特征选择与降维

卡方检验：筛选与标签相关的特征；
PCA/LSA：降低词向量维度。

五、高级预处理技术

5.1 数据增强

通过同义词替换、回译（Back Translation）扩充数据：

from nlpaug.augmenter.word import SynonymAug
aug = SynonymAug(aug_src='wordnet')
augmented_text = aug.augment("The quick brown fox")
# 输出: "The rapid brown fox"

5.2 领域自适应预处理

针对特定领域调整预处理流程：

医疗文本：保留专业术语，过滤患者隐私信息；
社交媒体：处理表情符号、网络缩写（如”u”→”you”）。

5.3 分布式预处理

使用Spark处理大规模文本：

from pyspark.sql import SparkSession
from pyspark.ml.feature import Tokenizer, StopWordsRemover
spark = SparkSession.builder.appName("TextPreprocessing").getOrCreate()
data = [("I love Spark",), ("Spark is fast",)]
df = spark.createDataFrame(data, ["text"])
tokenizer = Tokenizer(inputCol="text", outputCol="words")
remover = StopWordsRemover(inputCol="words", outputCol="filtered")
processed = remover.transform(tokenizer.transform(df))
processed.show()

六、评估与优化

6.1 预处理效果评估

下游任务指标：分类准确率、生成质量；
中间指标：词表大小、OOV率、特征稀疏性。

6.2 持续优化策略

A/B测试：对比不同预处理方案的效果；
反馈循环：根据模型错误调整预处理规则；
自动化管道：使用Airflow或Kubeflow构建可复用的预处理流程。

七、总结与展望

文本预处理是NLP工程的基石，其质量直接影响模型性能。开发者需结合任务需求、数据特点与计算资源，选择合适的预处理技术。未来，随着少样本学习与自适应预处理的发展，预处理流程将更加智能化与高效化。

实践建议：

从简单规则开始，逐步引入复杂技术；
记录每一步的输入输出，便于调试；
关注开源社区动态（如HuggingFace生态），复用成熟工具。

通过系统化的文本预处理，开发者可显著提升NLP项目的成功率与可维护性。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

关于NLP中的文本预处理的完整教程

关于NLP中的文本预处理的完整教程

引言

一、数据清洗：去除噪声与无效信息

1.1 文本噪声的来源与分类

1.2 清洗方法与工具

（1）正则表达式匹配

（2）基于规则的过滤

（3）第三方库应用

1.3 实践建议

二、分词与词元化：构建文本基础单元

2.1 分词技术的选择

（1）中文分词挑战

（2）英文分词方法

2.2 子词分词（Subword Tokenization）

2.3 分词优化策略

三、文本标准化：统一表达形式

3.1 大小写转换

3.2 数字与时间标准化

3.3 拼写纠正与同义词归一

3.4 停用词过滤

四、特征提取：构建模型输入

4.1 词袋模型（Bag-of-Words）

4.2 TF-IDF加权

4.3 词嵌入（Word Embedding）

4.4 特征选择与降维

五、高级预处理技术

5.1 数据增强

5.2 领域自适应预处理

5.3 分布式预处理

六、评估与优化

6.1 预处理效果评估

6.2 持续优化策略

七、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者