C'Joy

NLP基本概念III：Generation | 自然语言生成技术

Posted on 2022-03-28 In Learning , Project Views: Waline:

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心，梳理NLP任务相关的基础概念。I和II中对于嵌入及注意力的介绍涉及的更多是自然语言的“理解”(NLU)，而为完成NLP任务，通常还需要另一块拼图——自然语言的“生成”(Natural Language Generation, NLG)。本文将讨论NLG的常见技术，具体将涉及以下概念：Autoregressive、Beam Search、Top-k/p Sampling、Teacher-forcing、Exposure Bias、Scheduled Sampling；Non-autoregressive Generation、Multi-modality problem；BLEU；Out-of-Vocabulary(OOV) Word、Sub-word technique、Byte Pair Encoding(BPE)、WordPiece/SentencePiece。
主要参考：NLG -CS224n (2021)、NAR Generation - 台大(2020)、、Subword Models - CS224n (2019)

NLP基本概念II：Attention! 机器翻译中的注意力机制

Posted on 2022-03-21 In Learning , Project Views: Waline:

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心，梳理NLP任务相关的基础概念。在NLP基本概念I中介绍了NLP从词嵌入到预训练模型的发展历史，其中注意力机制对大规模预训练模型的兴起起到了关键作用，本文将以机器翻译为出发点，梳理注意力机制的发展历史，具体涉及统计机器翻译STM、条件语言模型、对齐(alignment)、神经机器翻译NTM、Seq2Seq、注意力、自注意力、QKV诠释等概念。
主要参考：Stanford CS224n (2021) P7-P9
Attention? Attention!、Seq2Seq and Attention

NLP基本概念I：Embedding | 语言模型与词嵌入

Posted on 2022-03-08 In Learning , Project Views: Waline:

NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心，梳理NLP任务相关的基础概念。作为开篇，本文将以Embedding概念为中心，梳理NLP领域从词嵌入到大规模预训练模型的发展历史，其中涉及了语言模型LM、统计语言模型SLM、神经语言模型NNLM、分布式表示、词嵌入Word2Vec / GloVe / fastText、语句嵌入Skip-thoughts / Quick-thoughts、动态嵌入CoVe / ELMo / GPT / BERT，以及BERT之后预训练语言模型PLM的诸多变种和微调(Fine-turning)、提示(Prompting)等模型调整技术。
主要参考为相关论文(见文内链接)，其他参考：
From static to dynamic word representations: a survey
A Survey on Contextual Embeddings

Google ML

Posted on 2022-02-25 In Learning , MOOC Views: Waline:

Machine Learning Crash Course
Rules of Machine Learning
Machine Learning Practica
People + AI Guidebook
Google AI Education

DL Specialization

Posted on 2022-02-22 In Learning , MOOC Views: Waline:

Deep Learning Specialization：课程视频、课程主页
新版Coursera免费用户旁听课程不能提交答案了…
吴恩达的厉害之处在于他可以从零出发，越过“知识诅咒”，试图以初学者视角引入必要知识。

https://abdur75648.github.io/Deep-Learning-Specialization-Coursera/

Deep Learning:Theoretical Motivations

Kaggle DL Courses

Posted on 2022-02-20 In Learning , MOOC Views: Waline:

Kaggle Courses

pandas快速入门

Posted on 2022-02-13 In Learning , StatLearn Views: Waline:

Pandas Cheat Sheet
10 minutes to pandas
Wes McKinney: pandas in 10 minutes
Essential Basic Function

Kaggle ML Courses

Posted on 2022-02-10 In Learning , MOOC Views: Waline:

Kaggle Courses

跟马伯庸学阅读教育

Posted on 2022-01-16 In Inspiring , Repost Views: Waline:

马小烦成长记

读什么书

Posted on 2022-01-16 In Enjoying , Book Views: Waline:

中学时读的多是些励志类书，文学类的都是些教材配套读物里的选摘。大学时是读了不少书的，不过多是物理/数学/计算机的专业或科普书籍(以及网络小说)，而且当时没买电脑，读的书也就没留下电子记录，一些还有些印象的记录在了这里。
中学用笔记本记了些书摘，大学期间没买电脑，还是用纸张记录，犹记得当时用邮箱附件保存整理的知识。进入研究生后，有了笔记本主要是用Zim记录学习笔记，虽然台里有图书馆，但书都是专业书籍，环境一般，读书就少了。