哈工大2022秋NLP期末试题深度解析
2025.09.26 18:33浏览量:1简介:本文基于考生回忆,深度解析哈工大2022年秋季自然语言处理期末试题,涵盖知识框架、典型题型及备考策略,助力NLP学习者系统掌握核心理论与工程实践能力。
哈工大2022秋NLP期末试题深度解析
一、试题整体结构与考察重点
2022年秋季哈尔滨工业大学《自然语言处理》期末考试延续了该校计算机学科”理论扎实、工程导向”的考核传统,试题分为基础理论(40%)、核心算法(35%)和前沿应用(25%)三大模块。考试时长150分钟,满分100分,题型包括选择题(15%)、填空题(15%)、简答题(30%)和综合设计题(40%)。
知识框架覆盖:从词法分析到语义理解,从统计机器学习到深度学习,从传统NLP任务到预训练模型应用,试题全面检验学生对NLP全流程的掌握程度。特别值得注意的是,约30%的题目涉及Transformer架构及其变体(如BERT、GPT)的原理与应用,反映出现代NLP技术的核心地位。
二、基础理论模块解析
1. 语言模型基础
填空题第5题要求补全n-gram语言模型的最大似然估计公式:
该题不仅考察公式记忆,更通过后续简答题引导思考平滑技术(如Kneser-Ney平滑)的必要性,体现从理论到实践的思维过渡。
2. 词向量表示
选择题第8题对比Word2Vec的两种训练模式:
“关于CBOW与Skip-gram的差异,以下说法正确的是:”
A. CBOW用上下文预测中心词,Skip-gram反之
B. CBOW更适合小规模语料
C. Skip-gram训练速度更快
D. 两者本质相同无差异
正确答案A的解析需结合模型结构图说明:CBOW通过上下文词向量平均预测中心词,而Skip-gram则以中心词预测多个上下文词,这种设计差异导致两者在稀疏词处理上的不同表现。
三、核心算法模块突破
1. 序列标注问题
综合设计题第2题要求实现基于BiLSTM-CRF的命名实体识别系统,需完成:
网络架构设计(代码框架示例):
class BiLSTM_CRF(nn.Module):def __init__(self, vocab_size, tag_to_ix, embedding_dim, hidden_dim):super(BiLSTM_CRF, self).__init__()self.embedding_dim = embedding_dimself.hidden_dim = hidden_dimself.vocab_size = vocab_sizeself.tag_to_ix = tag_to_ixself.tagset_size = len(tag_to_ix)self.word_embeds = nn.Embedding(vocab_size, embedding_dim)self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2,num_layers=1, bidirectional=True)self.hidden2tag = nn.Linear(hidden_dim, self.tagset_size)self.crf = CRF(self.tagset_size)
损失函数实现要点:需解释前向-后向算法在CRF中的应用,以及如何通过动态规划计算归一化因子。
2. 注意力机制应用
简答题第12题要求分析Transformer自注意力机制的计算复杂度,需推导公式:
其中n为序列长度,d为特征维度。进一步引导思考:当n=512,d=64时,计算量达16,777,216次乘加操作,解释为何需要多头注意力分解计算。
四、前沿应用模块展望
1. 预训练模型微调
论述题第15题以BERT为例,要求设计金融领域文本分类的微调方案,需包含:
- 数据处理:领域适配的词汇表扩展
- 模型调整:添加领域特定任务层
- 训练策略:学习率预热与衰减方案
- 评估指标:F1值与AUC的联合优化
2. 多模态NLP
选择题新增图像描述生成相关题目,如:
“关于Show-Attend-and-Tell模型,以下描述错误的是:”
A. 使用CNN提取图像特征
B. 注意力权重通过softmax计算
C. 生成过程无需RNN
D. 视觉注意力与文本生成同步更新
正确答案C的解析需结合模型结构图说明:该模型仍依赖LSTM进行序列生成,但通过注意力机制动态选择图像区域。
五、备考策略建议
理论体系构建:建议按”语言现象→数学建模→算法实现”的路径梳理知识点,例如从词义消歧问题出发,理解词向量空间分布假设,最终掌握GloVe的共现矩阵分解原理。
代码实践能力:重点实现三个核心组件:
- 基于PyTorch的CNN文本分类器
- 带有CRF层的序列标注模型
- 简化版Transformer编码器
前沿论文追踪:每周精读1篇顶会论文(如ACL/EMNLP),重点关注模型创新点与实验设计,例如对比T5与BART在文本生成任务上的差异。
错题系统整理:建立三级错题本:
- 一级:公式记忆错误(如HMM参数估计)
- 二级:概念混淆(如RNN与LSTM的门控机制)
- 三级:系统设计缺陷(如注意力计算效率优化)
六、考试趋势分析
对比近三年试题,可见三大演变方向:
- 深度学习占比提升:从2020年的25%增至2022年的55%
- 工程能力考察加强:综合设计题分值增加10分
- 跨学科融合:新增生物医学文本挖掘、多语言处理等场景题
这种变化要求学习者既要掌握数学推导能力(如Viterbi算法的动态规划证明),又要具备工程实现经验(如CUDA加速注意力计算),最终形成”理论创新-算法设计-系统部署”的完整能力链。
通过系统梳理本次考试的核心考点与能力要求,可见哈工大NLP课程始终保持着学术严谨性与产业前瞻性的平衡。对于备考者而言,建议以”基础理论→经典算法→前沿应用”为脉络,结合PyTorch实践与论文研读,构建起立体化的知识体系。这种培养模式不仅有助于应对期末考试,更为后续从事NLP研发工作奠定了坚实基础。

发表评论
登录后可评论,请前往 登录 或 注册