
基于BERT的知识蒸馏预训练语言模型-Demo
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
基于BERT的知识蒸馏预训练语言模型-Demo 是一个利用知识蒸馏技术优化BERT模型性能的应用演示,旨在减少计算资源需求的同时保持或接近原模型的准确性。此Demo展示了如何通过转移大型预训练模型学到的知识到更小、更高效的模型中,为自然语言处理任务提供了一种有效的解决方案。
本项目基于华为的TinyBert进行了改进,简化了数据读取的过程,使我们能够更方便地使用自己的数据进行操作。
该项目的训练流程如下:
1. 使用通用的BERT base模型通过蒸馏技术得到一个基础的学生模型(student model)。
2. 利用特定任务的数据对BERT base模型进行微调,获得fine-tuned BERT base版本。
3. 采用步骤2中获得的模型继续进行蒸馏操作,生成fine-tuned学生模型。需要注意的是,在这一步骤中,需要使用第一步中的通用学生模型来初始化新的学生模型。
4. 使用(词向量loss + 隐层loss + attention loss)重复第三步的操作,并且在每次迭代时用上一次获得的学生模型重新初始化学生模型。
5. 最后加入任务的预测标签损失进行训练。
全部评论 (0)
还没有任何评论哟~


