
Seq2seq与Transformer
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
Seq2seq与Transformer是自然语言处理领域中两种重要的模型架构。Seq2seq通过编码器-解码器结构实现序列到序列的任务,而Transformer则采用自注意力机制提升效率和性能,二者在机器翻译等任务上取得了显著成果。
Transformer模型的架构与seq2seq模型相似,主要区别在于以下三个方面:
1. Transformer blocks:将seq2seq模型中的循环网络替换为Transformer Blocks。该模块包含一个多头注意力层(Multi-head Attention Layers)以及两个位置感知前馈网络(position-wise feed-forward networks, FFN)。在解码器中,另一个多头注意力层被用来接收编码器的隐藏状态。
2. Add and norm:多头注意力层和前馈网络的输出会被送到“add and norm”步骤。
全部评论 (0)
还没有任何评论哟~


