Nvidia的TensorRT 7改进了人工智能对话模型的编译器
2019年12月19日 由 TGS 发表
218119
0
在近日举行的GPU技术大会上,英伟达宣布的不仅仅是与滴滴出行的合作以及新的自动驾驶解决方案。这家芯片公司还借此机会推出了TensorRT 7,这是其图形卡上的高性能深度学习推理平台的最新版本,该平台附带一个经过优化的编译器,用于实时优化工作负载。
TensorRT 7将在未来几天内免费提供给Nvidia的开发人员,最新版本的插件、解析器和示例都在TensorRT GitHub存储库中。该平台与Cuda-X AI库一起作为Nvidia推理套件的一部分,可以验证和部署训练有素的神经网络进行推理,无论硬件是数据中心还是带有图形卡的嵌入式设备,都能兼容。该公司指出,一些世界上最大的品牌,包括阿里巴巴、美国运通、百度、Pinterest、Snap、腾讯和Twitter,都在使用TensorRT进行图像分类、分割、欺诈检测和对象检测等任务。
Nvidia创始人兼首席执行官黄延森(Jensen Huang)在一次主题演讲中说:“我们已经进入了人工智能的新篇章,机器能够实时理解人类语言。TensorRT 7有助于实现这一点,它将为各地的开发人员提供构建和部署更快、更智能的对话式人工智能服务的工具,并有助于更自然的人与人工智能交互。”
根据Huang的说法,前面提到的编译器自动加速了复杂语音应用所需的递归式和基于变压器的机器学习模型。“变形金刚”是谷歌大脑的一种架构,它包含的功能(神经元)按层排列,传输数据信号并调整连接的突触强度(权重)。所有的人工智能模型都是这样提取特征并学习做出预测的,但变形金刚的独特之处在于,它将每个输出元素都连接到每个输入元素,从而强制动态计算它们之间的权重。
与变形金刚这种基于处理器的方法相比,TensorRT 7表面上加快了Transformer和递归网络组件,其速度超过10倍,同时将延迟降到实时交互所需的300毫秒阈值以下。这在一定程度上要归功于针对循环结构的优化,这种优化可以被用来对时间序列的序列数据进行预测。