NLP||你知道多少分词方法~

作者：沙与沫2025.09.26 18:45浏览量：1

简介：NLP分词方法全解析：从基础规则到深度学习，一文掌握核心分词技术

在自然语言处理（NLP）领域，分词（Tokenization）是文本预处理的核心环节，其质量直接影响后续模型性能。无论是中文的“我爱自然语言处理”需要拆分为“我/爱/自然语言/处理”，还是英文的“NLPisawesome”需要拆分为“NLP/is/awesome”，分词方法的选择都需结合语言特性、应用场景与计算效率。本文将从规则驱动、统计学习、深度学习三大维度，系统梳理主流分词方法，并提供代码示例与工程实践建议。

一、规则驱动型分词：基于词典与语法规则

规则驱动型分词依赖人工构建的词典与预设规则，通过匹配或拆分实现分词。其核心逻辑是“词典优先，规则补充”，适用于词典覆盖率高、领域术语固定的场景。

1.1 正向最大匹配法（FMM）

从左到右扫描句子，在词典中查找最长匹配的词。例如，句子“研究自然语言处理”在词典包含“研究”“自然语言”“处理”时，FMM会优先匹配“研究自然语言”，而非“研究”。

def forward_max_match(text, word_dict, max_len):
    result = []
    index = 0
    while index < len(text):
        matched = False
        for size in range(min(max_len, len(text)-index), 0, -1):
            word = text[index:index+size]
            if word in word_dict:
                result.append(word)
                index += size
                matched = True
                break
        if not matched:
            result.append(text[index])
            index += 1
    return result

适用场景：词典完整度高、领域术语固定的场景（如医疗、法律文本）。
局限性：依赖词典质量，无法处理未登录词（OOV）。

1.2 逆向最大匹配法（BMM）

与FMM相反，从右到左扫描句子，优先匹配最长的词。例如，“研究自然语言处理”中，BMM可能优先匹配“自然语言处理”。
优化建议：结合FMM与BMM，取分词结果交集或置信度更高的方案。

1.3 最少切分法

使切分后的词数最少。例如，“结合分子”若词典包含“结合”和“分子”，最少切分会选择“结合/分子”而非“结/合/分子”。
应用场景：追求简洁分词的场景（如关键词提取）。

二、统计学习型分词：基于概率与上下文

统计学习方法通过训练数据学习分词模式，核心是计算“词序列的概率”，适用于词典覆盖不足但训练数据充足的场景。

2.1 隐马尔可夫模型（HMM）

将分词视为序列标注问题（B-开始词、M-中间词、E-结束词、S-单字词），通过Viterbi算法解码最优路径。
关键步骤：

定义状态集合（B/M/E/S）与观测序列（字符）。
训练转移概率（如P(M|B)）与发射概率（如P(“语”|B)）。

使用Viterbi算法求解最大概率路径。
代码示例（使用PyHMM）：

from pyhmm import HMM
# 定义状态与观测序列（简化版）
states = ["B", "M", "E", "S"]
observations = ["我", "爱", "自", "然", "语", "言"]
# 训练HMM（需实际数据）
hmm = HMM(states, observations)
hmm.train(data)  # data为标注好的分词序列
# 解码
path = hmm.viterbi("我爱自然语言")

优势：能处理未登录词，依赖训练数据而非词典。
挑战：需大量标注数据，模型复杂度较高。

2.2 条件随机场（CRF）

与HMM类似，但CRF能建模全局特征（如前后文标签），避免HMM的“局部归一化”问题。例如，在“中国银行”中，CRF能通过“中”后的“国”与“银”前的“行”判断是否为专有名词。
应用场景：需要上下文信息的场景（如命名实体识别）。

三、深度学习型分词：端到端建模

深度学习通过神经网络直接学习字符到词的映射，无需手动设计特征，适用于复杂语言与小样本场景。

3.1 基于BiLSTM-CRF的分词

BiLSTM捕捉双向上下文信息，CRF建模标签间的依赖关系。例如，在“南京市长江大桥”中，BiLSTM能通过“南京”与“市长”的语义差异区分“南京市”与“长江大桥”。
代码示例（使用Keras）：

from keras.models import Model
from keras.layers import Input, Bidirectional, LSTM, Dense, TimeDistributed
from keras_contrib.layers import CRF
# 输入层（字符序列）
input_layer = Input(shape=(None,))
# 嵌入层
embedding = Embedding(input_dim=vocab_size, output_dim=128)(input_layer)
# BiLSTM
bilstm = Bidirectional(LSTM(units=64, return_sequences=True))(embedding)
# CRF层
crf = CRF(units=num_tags)  # num_tags为标签数（B/M/E/S）
output = crf(bilstm)
# 模型
model = Model(inputs=input_layer, outputs=output)
model.compile(optimizer='adam', loss=crf.loss_function, metrics=[crf.accuracy])

优势：自动学习特征，适合复杂语言（如中文无空格分隔）。
挑战：需大量计算资源，训练时间较长。

3.2 基于Transformer的分词

Transformer通过自注意力机制捕捉长距离依赖，适用于大规模数据与并行计算。例如，BERT的预训练分词器（WordPiece）能将“unhappier”拆分为“un”“happy”“##ier”，解决未登录词问题。
实践建议：

使用预训练模型（如BERT、RoBERTa）的分词器。
微调时调整分词粒度（如中文可合并“自然语言”与“处理”为“自然语言处理”）。

四、分词方法选型建议

词典覆盖率：若领域词典完整（如医疗文本），优先选规则驱动型。
数据充足性：有大量标注数据时，选统计学习或深度学习型。
计算资源：资源有限时，选CRF或轻量级BiLSTM；资源充足时，选Transformer。
语言特性：中文需处理无空格问题，推荐BiLSTM-CRF或BERT；英文可简化分词（如空格分隔）。

五、未来趋势：无分词模型

随着端到端NLP模型（如GPT、T5）的普及，分词可能被“字符级”或“子词级”建模替代。例如，GPT-3直接处理字符序列，无需显式分词。但当前阶段，分词仍是文本预处理的关键步骤，其方法选择需结合具体需求。

分词是NLP的“第一公里”，其方法选择直接影响模型性能。从规则驱动的词典匹配，到统计学习的概率建模，再到深度学习的端到端学习，分词技术不断演进。开发者需根据语言特性、数据规模与计算资源，灵活选择或组合方法，并在实践中持续优化。未来，随着无分词模型的成熟，分词可能成为历史，但当前阶段，掌握分词方法仍是NLP工程师的核心技能之一。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

NLP||你知道多少分词方法~

一、规则驱动型分词：基于词典与语法规则

1.1 正向最大匹配法（FMM）

1.2 逆向最大匹配法（BMM）

1.3 最少切分法

二、统计学习型分词：基于概率与上下文

2.1 隐马尔可夫模型（HMM）

2.2 条件随机场（CRF）

三、深度学习型分词：端到端建模

3.1 基于BiLSTM-CRF的分词

3.2 基于Transformer的分词

四、分词方法选型建议

五、未来趋势：无分词模型

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者