Google将跨平台AI管道框架MediaPipe引入网络
2020年01月31日 由 KING 发表
321766
0
大约一年前,Google开放了MediaPipe的源代码,MediaPipe是一个框架,用于建立跨平台的AI管道,该管道包括快速推理和媒体处理(如视频解码)。基本上,这是一种快速的方法,可以通过流行的机器学习框架(例如Google自己的TensorFlow和TensorFlow Lite)以模块化的方式执行对象检测、面部检测、手部跟踪、多手跟踪、头发分割以及其他此类任务。
MediaPipe以前可以部署到台式机,运行Android和iOS的移动设备以及诸如Google的Coral硬件系列之类的边缘设备,但是它越来越多地通过 WebAssembly,可执行程序的便携式二进制代码格式和XNNPack ML推理库进入网络,这是浮点AI推理运算符的优化集合。在图形和渲染方面,MediaPipe现在会自动直接进入WebGL,这是一个JavaScript API,用于在任何兼容的Web浏览器中渲染交互式2D和3D图形,从而使该浏览器在运行时创建一个虚拟机,可以非常快速地执行指令。
API促进了JavaScript与C ++之间的通信,从而允许用户直接使用JavaScript更改MediaPipe图形并与之交互。并且所有必需的演示样本(包括AI模型,辅助文本和数据文件)都打包为单独的二进制数据包,以在运行时加载。
MediaPipe团队成员Michael Hays和Tyler Mullen在博客中解释说:“由于一切都直接在浏览器中运行,因此视频永远不会离开用户的计算机,并且每次迭代都可以在实时网络摄像头流(以及很快的任意视频)上立即进行测试。”
Google利用上述组件将预览功能集成到基于Web的可视化器中,可视化器是一种用于迭代MediaPipe流设计的工作空间。可视化器位于viz.mediapipe.dev上,使开发人员可以通过将图形代码粘贴到编辑器选项卡中或将文件上传到可视化器来检查MediaPipe图形(用于构建机器学习管道的框架)。用户可以使用鼠标和滚轮平移并放大图形表示形式,并且可视化效果实时反映在编辑器中所做的更改。
Hays和Mullen指出,当前基于Web的MediaPipe支持仅限于Google提供的演示图。开发人员必须编辑其中一个模板图-他们不能从头开始提供自己的模板,也不能添加或更改资产。不支持TensorFlow Lite推断,并且图形的计算必须在单个处理器线程上运行。
Web缺乏计算着色器(为高吞吐量加速器编译的例程)可用于网络的最后一个限制,这是Hays,Mullen和团队尝试通过在可能的情况下使用图形卡进行图像操作以及最轻巧的方法来解决的。权衡所有AI模型的可能版本。他们计划“继续在这个新平台上构建”,并随着时间的推移为开发人员提供“更多的控制权”。