logo

哈工大2022秋NLP期末试题深度解析

作者:Nicky2025.09.26 18:33浏览量:1

简介:本文基于考生回忆,深度解析哈工大2022年秋季自然语言处理期末试题,涵盖知识框架、典型题型及备考策略,助力NLP学习者系统掌握核心理论与工程实践能力。

哈工大2022秋NLP期末试题深度解析

一、试题整体结构与考察重点

2022年秋季哈尔滨工业大学《自然语言处理》期末考试延续了该校计算机学科”理论扎实、工程导向”的考核传统,试题分为基础理论(40%)、核心算法(35%)和前沿应用(25%)三大模块。考试时长150分钟,满分100分,题型包括选择题(15%)、填空题(15%)、简答题(30%)和综合设计题(40%)。

知识框架覆盖:从词法分析到语义理解,从统计机器学习深度学习,从传统NLP任务到预训练模型应用,试题全面检验学生对NLP全流程的掌握程度。特别值得注意的是,约30%的题目涉及Transformer架构及其变体(如BERT、GPT)的原理与应用,反映出现代NLP技术的核心地位。

二、基础理论模块解析

1. 语言模型基础

填空题第5题要求补全n-gram语言模型的最大似然估计公式:
P(w<em>iw</em>in+1i1)=C(w<em>in+1i)wC(w</em>in+1i1w)P(w<em>i|w</em>{i-n+1}^{i-1}) = \frac{C(w<em>{i-n+1}^i)}{\sum_w C(w</em>{i-n+1}^{i-1}w)}
该题不仅考察公式记忆,更通过后续简答题引导思考平滑技术(如Kneser-Ney平滑)的必要性,体现从理论到实践的思维过渡。

2. 词向量表示

选择题第8题对比Word2Vec的两种训练模式:
“关于CBOW与Skip-gram的差异,以下说法正确的是:”
A. CBOW用上下文预测中心词,Skip-gram反之
B. CBOW更适合小规模语料
C. Skip-gram训练速度更快
D. 两者本质相同无差异

正确答案A的解析需结合模型结构图说明:CBOW通过上下文词向量平均预测中心词,而Skip-gram则以中心词预测多个上下文词,这种设计差异导致两者在稀疏词处理上的不同表现。

三、核心算法模块突破

1. 序列标注问题

综合设计题第2题要求实现基于BiLSTM-CRF的命名实体识别系统,需完成:

  1. 网络架构设计(代码框架示例):

    1. class BiLSTM_CRF(nn.Module):
    2. def __init__(self, vocab_size, tag_to_ix, embedding_dim, hidden_dim):
    3. super(BiLSTM_CRF, self).__init__()
    4. self.embedding_dim = embedding_dim
    5. self.hidden_dim = hidden_dim
    6. self.vocab_size = vocab_size
    7. self.tag_to_ix = tag_to_ix
    8. self.tagset_size = len(tag_to_ix)
    9. self.word_embeds = nn.Embedding(vocab_size, embedding_dim)
    10. self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2,
    11. num_layers=1, bidirectional=True)
    12. self.hidden2tag = nn.Linear(hidden_dim, self.tagset_size)
    13. self.crf = CRF(self.tagset_size)
  2. 损失函数实现要点:需解释前向-后向算法在CRF中的应用,以及如何通过动态规划计算归一化因子。

2. 注意力机制应用

简答题第12题要求分析Transformer自注意力机制的计算复杂度,需推导公式:
O(n2d)O(n^2 \cdot d)
其中n为序列长度,d为特征维度。进一步引导思考:当n=512,d=64时,计算量达16,777,216次乘加操作,解释为何需要多头注意力分解计算。

四、前沿应用模块展望

1. 预训练模型微调

论述题第15题以BERT为例,要求设计金融领域文本分类的微调方案,需包含:

  • 数据处理:领域适配的词汇表扩展
  • 模型调整:添加领域特定任务层
  • 训练策略:学习率预热与衰减方案
  • 评估指标:F1值与AUC的联合优化

2. 多模态NLP

选择题新增图像描述生成相关题目,如:
“关于Show-Attend-and-Tell模型,以下描述错误的是:”
A. 使用CNN提取图像特征
B. 注意力权重通过softmax计算
C. 生成过程无需RNN
D. 视觉注意力与文本生成同步更新

正确答案C的解析需结合模型结构图说明:该模型仍依赖LSTM进行序列生成,但通过注意力机制动态选择图像区域。

五、备考策略建议

  1. 理论体系构建:建议按”语言现象→数学建模→算法实现”的路径梳理知识点,例如从词义消歧问题出发,理解词向量空间分布假设,最终掌握GloVe的共现矩阵分解原理。

  2. 代码实践能力:重点实现三个核心组件:

    • 基于PyTorch的CNN文本分类器
    • 带有CRF层的序列标注模型
    • 简化版Transformer编码器
  3. 前沿论文追踪:每周精读1篇顶会论文(如ACL/EMNLP),重点关注模型创新点与实验设计,例如对比T5与BART在文本生成任务上的差异。

  4. 错题系统整理:建立三级错题本:

    • 一级:公式记忆错误(如HMM参数估计)
    • 二级:概念混淆(如RNN与LSTM的门控机制)
    • 三级:系统设计缺陷(如注意力计算效率优化)

六、考试趋势分析

对比近三年试题,可见三大演变方向:

  1. 深度学习占比提升:从2020年的25%增至2022年的55%
  2. 工程能力考察加强:综合设计题分值增加10分
  3. 跨学科融合:新增生物医学文本挖掘、多语言处理等场景题

这种变化要求学习者既要掌握数学推导能力(如Viterbi算法的动态规划证明),又要具备工程实现经验(如CUDA加速注意力计算),最终形成”理论创新-算法设计-系统部署”的完整能力链。

通过系统梳理本次考试的核心考点与能力要求,可见哈工大NLP课程始终保持着学术严谨性与产业前瞻性的平衡。对于备考者而言,建议以”基础理论→经典算法→前沿应用”为脉络,结合PyTorch实践与论文研读,构建起立体化的知识体系。这种培养模式不仅有助于应对期末考试,更为后续从事NLP研发工作奠定了坚实基础。

相关文章推荐

发表评论

活动