NLP基本概念III:Generation | 自然语言生成技术
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。I和II中对于嵌入及注意力的介绍涉及的更多是自然语言的“理解”(NLU),而为完成NLP任务,通常还需要另一块拼图——自然语言的“生成”(Natural Language Generation, NLG)。本文将讨论NLG的常见技术,具体将涉及以下概念:Autoregressive、Beam Search、Top-k/p Sampling、Teacher-forcing、Exposure Bias、Scheduled Sampling;Non-autoregressive Generation、Multi-modality problem;BLEU;Out-of-Vocabulary(OOV) Word、Sub-word technique、Byte Pair Encoding(BPE)、WordPiece/SentencePiece。
主要参考:NLG -CS224n (2021)、NAR Generation - 台大(2020)、、Subword Models - CS224n (2019)