PyTorch with Examples
CS231n Lecture 6 Deep Learning Hardware and Software
Learning PyTorch with Examples - Tutorials
CS231n Lecture 6 Deep Learning Hardware and Software
Learning PyTorch with Examples - Tutorials
参考自李宏毅机器学习课程中网络压缩部分内容,主要涉及:
- 模型剪枝(Pruning):移除“冗余”参数/神经单元
- 知识蒸馏(Distillation):将大模型知识转移给小模型
- 模型量化(Quantization):压缩存储参数所需空间而非参数量
- 构架设计(Network Design):参数矩阵低秩分解/1x1卷积、参数共享
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。在介绍了作为自然语言理解基础的嵌入和注意力以及自然语言生成的相关技术之后,本文将详分析作为NLP领域基础的Transformer模型,并讨论其后的诸多变种。Transformer作为2017年提出,可与CNN、RNN等“上古”模型并列的网络结构,已取代LSTM成为当前NLP领域事实上的标准选择,并有望成为统一图形和语言等众多任务的通用基础。
主要参考:DL for NLP - Mike Lewis、The Transformer Family
Efficient Transformers: A Survey、A Survey of Transformers
The NLP Cookbook: Modern Recipes for Transformer based DL Architectures
各式各样神奇的自注意力机制 - 李毅宏(2022)
原文链接:肠道微生物如何影响大脑?
最开始接触这一概念是我就像文章开头所说一样,抱有深深的怀疑,尤其是加上电视上的乳酸菌广告。现在看来只是与石墨烯、纳米材料等一样被伪科学借用了名字。肠道菌群是一门还在发展完善、不适宜面向大众的学科。我已经可以想象,未来越来越多的保健品会主打肠道菌群的概念…
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。I和II中对于嵌入及注意力的介绍涉及的更多是自然语言的“理解”(NLU),而为完成NLP任务,通常还需要另一块拼图——自然语言的“生成”(Natural Language Generation, NLG)。本文将讨论NLG的常见技术,具体将涉及以下概念:Autoregressive、Beam Search、Top-k/p Sampling、Teacher-forcing、Exposure Bias、Scheduled Sampling;Non-autoregressive Generation、Multi-modality problem;BLEU;Out-of-Vocabulary(OOV) Word、Sub-word technique、Byte Pair Encoding(BPE)、WordPiece/SentencePiece。
主要参考:NLG -CS224n (2021)、NAR Generation - 台大(2020)、、Subword Models - CS224n (2019)
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。在NLP基本概念I中介绍了NLP从词嵌入到预训练模型的发展历史,其中注意力机制对大规模预训练模型的兴起起到了关键作用,本文将以机器翻译为出发点,梳理注意力机制的发展历史,具体涉及统计机器翻译STM、条件语言模型、对齐(alignment)、神经机器翻译NTM、Seq2Seq、注意力、自注意力、QKV诠释等概念。
主要参考:Stanford CS224n (2021) P7-P9
Attention? Attention!、Seq2Seq and Attention
NLP基本概念系列将以嵌入(Embedding)、注意力(Attention)、生成(Generation)以及Transformer为核心,梳理NLP任务相关的基础概念。作为开篇,本文将以Embedding概念为中心,梳理NLP领域从词嵌入到大规模预训练模型的发展历史,其中涉及了语言模型LM、统计语言模型SLM、神经语言模型NNLM、分布式表示、词嵌入Word2Vec / GloVe / fastText、语句嵌入Skip-thoughts / Quick-thoughts、动态嵌入CoVe / ELMo / GPT / BERT,以及BERT之后预训练语言模型PLM的诸多变种和微调(Fine-turning)、提示(Prompting)等模型调整技术。
主要参考为相关论文(见文内链接),其他参考:
From static to dynamic word representations: a survey
A Survey on Contextual Embeddings
Deep Learning Specialization:课程视频、课程主页
新版Coursera免费用户旁听课程不能提交答案了…
吴恩达的厉害之处在于他可以从零出发,越过“知识诅咒”,试图以初学者视角引入必要知识。
https://abdur75648.github.io/Deep-Learning-Specialization-Coursera/