谷歌在云平台上提供包含5000万涂鸦的数据集
2018年11月16日 由 浅浅 发表
782800
0
你可以通过涂鸦的方式来表现一个人:这是由谷歌创意实验室于2016年11月推出的一项互动式网络实验Quick Draw背后的想法。它招募了网友来用画图进行描述说明,同时利用AI来尝试识别绘制的内容。
Quick Draw已经收集了超过10亿个图表,涉及345个类别,谷歌去年开源其中5000万个包含元数据,包括提示和用户地理位置。今天,谷歌将它们通过谷歌云平台(GCP)以API和附带的Polymer组件的形式提供(Polymer是一个用于构建Web应用程序的开源JavaScript库)。
从本周开始,加入公共谷歌群组的GCP客户都可以通过搜索并将其添加到项目,从而将API添加到其库中。使用Polymer组件,可以用单行代码在基于Web的应用程序中显示涂鸦。
谷歌创意实验室的创意技术专家Nick Jonas表示,“当我们发布数据集时,它基本上是345个类别中每个类别的文件,使用起来有点麻烦。过去一年中进行的大量研究都是对整个数据集的大量分析。我们从开发人员那里获得了一些反馈,他们表示他们想要一种更简单的方法快速建模数据。”
Jonas解释说,Quick Draw API(使用Google Cloud Endpoints来托管Node.js API)提供对原始数据集中包含的相同5000万个文件的访问,但不需要全部下载。它返回JSON对象或HTML画布为每个绘图进行渲染。“用户在开始使用数据之前不必下载各种数据,”Jonas说。
从数据中也获得了令人惊讶的见解。Quartz在6月份进行的一项研究发现,86%的美国涂鸦者是逆时针画圈,而80%的日本涂鸦者顺时针画圈(差异可归因于日语写作中的左上至右下笔顺序)。同时,Google Research的一项内部调查发现,来自西方国家的用户涂鸦方向基本与亚洲用户绘制的方向相反。
数据集也被创造性地使用。英国艺术家Neil Mendoza使用面部跟踪算法在人的头部应用Quick Draw草图,德国计算机科学家Deborah Schmidt使用30万个随机涂鸦的子集来填充拼贴的字母模板。
未来,团队考虑将涂鸦迁移到数据库,这将提供细粒度的访问控制。理论上,用户可以执行诸如“给我一张2017年3月来源于中国的认证图纸”这样的查询。
Jonas表示,“我只是想鼓励人们以新的方式使用数据集并做出贡献,看看可能进行怎样的扩展。”
项目:quickdraw.withgoogle.com/
代码:github.com/googlecreativelab/quickdraw-dataset