深度学习词汇表(六)
2019年05月03日 由 sunlei 发表
925499
0
不知不觉,已经更新到第六篇关于深度学习词汇的简介了,今天将是最后一篇~
本系列传送门:
深度学习词汇表(一)
深度学习词汇表(二)
深度学习词汇表(三)
深度学习词汇表(四)
深度学习词汇表(五)
随机梯度下降SGD
随机梯度下降是一种基于梯度的优化算法,用于在训练阶段学习网络参数。梯度通常使用反向传播算法计算。在实践中,人们使用SGD的迷你批处理版本,其中参数更新是基于批处理而不是单个示例执行的,从而提高了计算效率。许多对普通SGD的扩展都存在,包括Momentum、Adagrad、rmsprop、Adadelta或Adam。
Softmax函数
SoftMax函数通常用于将原始分数向量转换为用于分类的神经网络输出层的类概率。它通过取幂和除以一个标准化常数来标准化分数。如果我们要处理大量的类,例如机器翻译中的大量词汇表,那么计算规范化常量的开销就很大。有多种方法可以提高计算效率,包括分层的SoftMax或使用基于采样的损耗,如NCE。
TensorFlow
TensorFlow是一个开源c++ /Python软件库,用于使用数据流图进行数值计算,特别是深度神经网络。它是由谷歌创建的。在设计上,它与Theano最为相似,比Caffe或Keras层次低。
Theano
Theano是一个python库,允许您定义、优化和评估数学表达式。它包含许多深层神经网络的构建块。Theano是一个低级库,类似于TensorFlow。更高级别的库包括Keras和Caffe。
梯度消失问题Vanishing Gradient Problem
梯度消失问题出现在非常深的神经网络中,通常是循环神经网络,它使用的激活函数的梯度往往很小(在0到1的范围内)。因为这些小梯度在反向传播过程中会成倍增加,所以它们往往会在整个层中“消失”,从而阻止网络学习长期依赖性。解决这个问题的常见方法是使用像ReLUs这样的不受小梯度影响的激活函数,或者使用像LSTMs这样的体系结构来显式地对抗消失梯度。与此相反的问题叫做爆炸梯度问题。
VGG模型
VGG模型是2014年ILSVRC竞赛的第二名,第一名是GoogLeNet。但是VGG模型在多个迁移学习任务中的表现要优于googLeNet。而且,从图像中提取CNN特征,VGG模型是首选算法。它的缺点在于,参数量有140M之多,需要更大的存储空间。但是这个模型很有研究价值。VGG模型由16-19个权重层组成,使用3×3和1×1的小卷积滤波器。
word2vec
word2vec是通过预测文档中单词的上下文来学习单词嵌入的算法和工具。所得到的单词vectors有一些有趣的属性,例如vector(‘queen’)~=vector(‘king’)-vector(‘man’)+vector(‘woman’)。两个不同的目标可以用来学习这些嵌入:Skip-Gram目标试图从一个单词上预测上下文,CBOW目标试图从其上下文预测一个单词。
本文结束,我保证真的没有(七)了。