英特尔开发模型训练新技术,效率更高且不影响准确性
2019年06月13日 由 老张 发表
356948
0
一般而言,AI模型的大小与其训练时间相关,因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数(或神经元)之间的连接,从而减小其整体尺寸而不会影响准确性,但是训练之后才能进行修剪。
英特尔的研究人员设计了一种技术,从相反的方向进行训练,以一个紧凑的模型开始,在训练期间根据数据修改结构。
他们声称,与从一个大模型开始然后进行压缩相比,它具有更高的可伸缩性和计算效率,因为训练直接在紧凑模型上进行。与过去的尝试不同,它能够训练一个性能相当于大型修剪模型的小模型。
大多数AI系统的核心神经网络由神经元组成,神经元呈层状排列,并将信号传递给其他神经元。这些信号是数据或输入的产物,输入到神经网络中,从一层传递到另一层,然后通过调整每个连接的突触权重来缓慢地调整网络。随着时间的推移,该网络从数据集中提取特征,并识别跨样本趋势,最终学会做出预测。
神经网络不会摄取原始图像,视频,音频或文本。相反,来自训练语料库的样本被代数转换为多维数组,如标量(单个数字),向量(有序的标量数组)和矩阵(标量排列成一列或多列和一行或多行)。第四种实体类型封装标量、向量和矩阵张量,用于描述有效的线性变换或关系。
团队在论文中描述了该方案,他们训练了一种深度卷积神经网络(CNN),其中大多数层具有稀疏权重张量,或者包含大多数零值的张量。所有这些张量都以相同的稀疏度级别初始化,非稀疏参数(具有一系列值的函数参数)用于大多其他的层。
在整个训练过程中,当参数在张量内部或跨张量移动时,网络中的非零参数总数保持不变,每几百次训练迭代进行一次,分两个阶段进行,修剪阶段之后紧接着是增长阶段。基于大小的剪枝的类型用于删除具有最小权值的链接,并且在训练期间跨层重新分配参数。
对于相同的模型尺寸,该方法比静态方法获得了更高的准确性,同时需要的训练要少得多,并且它比以前的动态方法准确性更高。
实验表明,在训练过程中探索网络结构对于达到最佳准确性至关重要。如果构造一个静态稀疏网络,复制动态参数化方案发现的稀疏网络的最终结构,那么这个静态网络将无法训练到相同的精度水平。