C'Joy

WORSE IS BETTER

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。I和II中对于嵌入及注意力的介绍涉及的更多是自然语言的“理解”(NLU),而为完成NLP任务,通常还需要另一块拼图——自然语言的“生成”(Natural Language Generation, NLG)。本文将讨论NLG的常见技术,具体将涉及以下概念:Autoregressive、Beam Search、Top-k/p Sampling、Teacher-forcing、Exposure Bias、Scheduled Sampling;Non-autoregressive Generation、Multi-modality problem;BLEU;Out-of-Vocabulary(OOV) Word、Sub-word technique、Byte Pair Encoding(BPE)、WordPiece/SentencePiece。
主要参考:NLG -CS224n (2021)NAR Generation - 台大(2020)、、Subword Models - CS224n (2019)

Read more »

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。在NLP基本概念I中介绍了NLP从词嵌入到预训练模型的发展历史,其中注意力机制对大规模预训练模型的兴起起到了关键作用,本文将以机器翻译为出发点,梳理注意力机制的发展历史,具体涉及统计机器翻译STM、条件语言模型、对齐(alignment)、神经机器翻译NTM、Seq2Seq、注意力、自注意力、QKV诠释等概念。
主要参考:Stanford CS224n (2021) P7-P9
Attention? Attention!Seq2Seq and Attention

Read more »

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。作为开篇,本文将以Embedding概念为中心,梳理NLP领域从词嵌入到大规模预训练模型的发展历史,其中涉及了语言模型LM、统计语言模型SLM、神经语言模型NNLM、分布式表示、词嵌入Word2Vec / GloVe / fastText、语句嵌入Skip-thoughts / Quick-thoughts、动态嵌入CoVe / ELMo / GPT / BERT,以及BERT之后预训练语言模型PLM的诸多变种和微调(Fine-turning)、提示(Prompting)等模型调整技术。
主要参考为相关论文(见文内链接),其他参考:
From static to dynamic word representations: a survey
A Survey on Contextual Embeddings

Read more »

中学时读的多是些励志类书,文学类的都是些教材配套读物里的选摘。大学时是读了不少书的,不过多是物理/数学/计算机的专业或科普书籍(以及网络小说),而且当时没买电脑,读的书也就没留下电子记录,一些还有些印象的记录在了这里。
中学用笔记本记了些书摘,大学期间没买电脑,还是用纸张记录,犹记得当时用邮箱附件保存整理的知识。进入研究生后,有了笔记本主要是用Zim记录学习笔记,虽然台里有图书馆,但书都是专业书籍,环境一般,读书就少了。

Read more »
0%