NLP基本概念IV:Transformer及其变种
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。在介绍了作为自然语言理解基础的嵌入和注意力以及自然语言生成的相关技术之后,本文将详分析作为NLP领域基础的Transformer模型,并讨论其后的诸多变种。Transformer作为2017年提出,可与CNN、RNN等“上古”模型并列的网络结构,已取代LSTM成为当前NLP领域事实上的标准选择,并有望成为统一图形和语言等众多任务的通用基础。
主要参考:DL for NLP - Mike Lewis、The Transformer Family
Efficient Transformers: A Survey、A Survey of Transformers
The NLP Cookbook: Modern Recipes for Transformer based DL Architectures
各式各样神奇的自注意力机制 - 李毅宏(2022)