
关于Transformer模型在智能问答中的工作原理详解
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
本文章深入解析了Transformer模型在智能问答系统中的应用机制,详细阐述了其架构特点及优化策略,为相关研究提供参考。
图一展示了Transformer模型的框架,在这个框架里,encoder和decoder不再是RNN结构。从细节来看(如图二所示),作者在原始论文中设置了6层encoder与6层decoder。至于为什么选择6层,并没有特别的理由,这只是众多可能值中的一个超参数设定。
根据图二可以观察到计算流程:输入的句子逐层经过编码后,最上端的encoder会输出中间结果;这个中间结果会在每一层decoder中被使用。同样地,解码器(Decoder)的操作也是从下往上进行,直到最后生成预测的结果。需要注意的是,在这里省略了最底层decoder的具体输入情况:如果是在训练过程中,则该处的输入为真实的目标句子;而在预测阶段,则以开始标识符作为第一个词的输入,并基于此逐步预测后续词汇。
全部评论 (0)
还没有任何评论哟~


