
《动手学习深度学习》系列之二:3.Transformer模型(打卡2.3)
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本篇为《动手学习深度学习》系列第二部分,聚焦于深入探讨Transformer模型的原理与实践应用,结合代码示例帮助读者理解和实现这一前沿技术。
3.1 CNN与RNN的缺点:
- CNNs 易于并行化处理数据,但不适用于捕捉变长序列内的依赖关系。
- RNNs 适合捕捉长距离变长序列之间的依赖性,但在实现并行化处理时存在困难。
3.2 Transformer模型的设计创新:
为了整合CNN和RNN的优点,研究人员创造性地引入了注意力机制来设计Transformer模型。通过使用attention机制,该模型能够同时并行化捕获序列中的依赖关系,并且可以一次性处理序列中每个位置的tokens。这些特性使得Transformer在保持高性能的同时显著减少了训练时间。
3.3 Transformer模型架构:
与seq2seq模型类似,Transformer同样基于编码器-解码器框架构建。
全部评论 (0)
还没有任何评论哟~


