自然语言处理中的'词'：关键概念与技术实践

作者：搬砖的石头2025.09.25 14:50浏览量：1

简介：本文聚焦自然语言处理中"词"的核心概念，从分词技术、词向量表示、上下文建模三个维度展开，结合代码示例与实际应用场景，系统阐述"词"在NLP中的技术演进与实践方法。

一、引言：词作为自然语言处理的基础单元

在自然语言处理（NLP）领域，”词”是文本处理的最小语义单元。无论是机器翻译、情感分析还是问答系统，对”词”的准确识别与表示直接影响模型性能。本文将从分词技术、词向量表示、上下文建模三个层面，系统解析”词”在NLP中的关键作用与技术实现。

二、分词技术：从规则到深度学习的演进

1. 基于规则的分词方法

早期分词依赖词典匹配与规则约束，典型方法包括：

正向最大匹配法：从左到右扫描句子，匹配最长词

def forward_max_match(sentence, word_dict, max_len):
  result = []
  index = 0
  while index < len(sentence):
      matched = False
      for size in range(min(max_len, len(sentence)-index), 0, -1):
          piece = sentence[index:index+size]
          if piece in word_dict:
              result.append(piece)
              index += size
              matched = True
              break
      if not matched:
          result.append(sentence[index])
          index += 1
  return result

逆向最大匹配法：从右到左扫描，适合中文等右分支语言
双向匹配法：结合正反向结果，通过规则选择最优解

局限性：依赖高质量词典，无法处理未登录词（OOV）和歧义问题。

2. 统计分词方法

基于词频统计与语言模型，核心算法包括：

隐马尔可夫模型（HMM）：将分词转化为序列标注问题
条件随机场（CRF）：通过特征函数捕捉上下文依赖
```python
使用CRF进行分词示例（需安装sklearn-crfsuite）
import sklearn_crfsuite
from sklearn_crfsuite import metrics

特征工程示例

def word2features(sent, i):
features = {
‘word’: sent[i],
‘prefix-1’: sent[i][0],
‘prefix-2’: sent[i][:2],
‘suffix-1’: sent[i][-1],
‘suffix-2’: sent[i][-2:],
‘prev-word’: ‘’ if i == 0 else sent[i-1],
‘next-word’: ‘’ if i == len(sent)-1 else sent[i+1],
}
return features

def sent2features(sent):
return [word2features(sent, i) for i in range(len(sent))]

训练数据示例（BMES标签体系）

X_train = [sent2features([‘我’, ‘爱’, ‘自然’, ‘语言’, ‘处理’])]
y_train = [‘B’, ‘S’, ‘B’, ‘E’, ‘S’] # 简化示例

crf = sklearn_crfsuite.CRF(
algorithm=’lbfgs’,
c1=0.1,
c2=0.1,
max_iterations=100,
all_possible_transitions=True
)
crf.fit(X_train, y_train)


**优势**：能处理未登录词，但需要大规模标注语料。
#### 3. 深度学习分词方法
基于神经网络的端到端分词成为主流：
- **BiLSTM-CRF**：结合双向LSTM的特征提取与CRF的序列标注
- **BERT预训练模型**：通过微调实现无监督分词
```python
# 使用HuggingFace Transformers进行BERT分词
from transformers import BertTokenizer, BertForTokenClassification
import torch
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForTokenClassification.from_pretrained('bert-base-chinese', num_labels=5)  # BMES+O
text = "我爱自然语言处理"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
predictions = torch.argmax(outputs.logits, dim=2)

突破：实现跨领域迁移学习，显著提升未登录词处理能力。

三、词向量表示：从离散到稠密的语义编码

1. 离散表示方法

One-Hot编码：维度灾难与语义缺失问题
N-gram特征：捕捉局部上下文，但无法处理长距离依赖

2. 分布式表示方法

Word2Vec：通过CBOW或Skip-gram学习词向量
```python
from gensim.models import Word2Vec

sentences = [[“我”, “爱”, “自然”, “语言”, “处理”],
[“深度”, “学习”, “改变”, “世界”]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
print(model.wv[‘自然’]) # 输出100维词向量

- **GloVe**：结合全局统计信息与局部上下文窗口
- **FastText**：引入子词（subword）信息，解决OOV问题
#### 3. 上下文相关词向量
- **ELMo**：基于双向LSTM生成动态词向量
- **BERT**：通过Transformer架构捕捉上下文语义
```python
# 使用BERT获取上下文相关词向量
from transformers import BertModel, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertModel.from_pretrained('bert-base-chinese')
inputs = tokenizer("自然语言处理很有趣", return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state  # 每个token的上下文向量

技术演进：从静态词向量到动态上下文表示，显著提升词义消歧能力。

四、上下文建模：超越词级别的语义理解

1. 词级别上下文建模

N-gram语言模型：捕捉局部词序信息
RNN/LSTM：处理变长序列依赖

2. 句子级别上下文建模

Transformer自注意力机制：通过多头注意力捕捉全局依赖
```python
简易Transformer注意力实现
import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
def init(self, embedsize, heads):
super()._init()
self.embed_size = embed_size
self.heads = heads
self.head_dim = embed_size // heads

    assert self.head_dim * heads == embed_size, "Embed size needs to be divisible by heads"
    self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)
    self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)
    self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)
    self.fc_out = nn.Linear(heads * self.head_dim, embed_size)
def forward(self, values, keys, query, mask):
    N = query.shape[0]
    value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]
    # Split embedding into self.heads pieces
    values = values.reshape(N, value_len, self.heads, self.head_dim)
    keys = keys.reshape(N, key_len, self.heads, self.head_dim)
    queries = query.reshape(N, query_len, self.heads, self.head_dim)
    values = self.values(values)
    keys = self.keys(keys)
    queries = self.queries(queries)
    # Scores calculation
    energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
    if mask is not None:
        energy = energy.masked_fill(mask == 0, float("-1e20"))
    attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=3)
    # Apply attention to values
    out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape(
        N, query_len, self.heads * self.head_dim
    )
    out = self.fc_out(out)
    return out

```

3. 文档级别上下文建模

Hierarchical Attention Networks：通过词级与句子级注意力实现文档理解
BERT跨句子建模：通过[CLS]标记与NSP任务捕捉文档语义

五、实践建议与未来展望

1. 企业级应用建议

领域适配：在垂直领域（如医疗、法律）进行词表扩充与模型微调
多语言处理：结合mBERT或XLM-R实现跨语言词对齐
实时性优化：通过模型量化与知识蒸馏提升推理速度

2. 研究前沿方向

少样本学习：通过Prompt-tuning减少标注数据需求
多模态词表示：结合视觉与文本信息学习跨模态词向量
可解释性研究：通过注意力可视化解析词的重要性

六、结语

从规则分词到深度学习词向量，从静态表示到上下文动态建模，”词”的处理技术不断突破语义理解的边界。未来，随着大模型与多模态技术的发展，”词”的定义与表示方式将持续演进，为自然语言处理开辟更广阔的应用空间。开发者应紧跟技术趋势，结合具体业务场景选择合适的”词”处理方案，实现语义理解能力的质变提升。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

自然语言处理中的'词'：关键概念与技术实践

一、引言：词作为自然语言处理的基础单元

二、分词技术：从规则到深度学习的演进

1. 基于规则的分词方法

2. 统计分词方法

使用CRF进行分词示例（需安装sklearn-crfsuite）

特征工程示例

训练数据示例（BMES标签体系）

三、词向量表示：从离散到稠密的语义编码

1. 离散表示方法

2. 分布式表示方法

四、上下文建模：超越词级别的语义理解

1. 词级别上下文建模

2. 句子级别上下文建模

简易Transformer注意力实现

3. 文档级别上下文建模

五、实践建议与未来展望

1. 企业级应用建议

2. 研究前沿方向

六、结语

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者