加州大学开发AI系统SpoilerNet,可预先识别剧透信息
2019年07月10日 由 马什么梅 发表
202197
0
在网上浏览信息时,你很难做到完全避开剧透,即使你小心翼翼,随机推文或推荐的新闻也可能会剧透给你。但很快,AI智能体可能会帮你发现剧透,甚至在你有机会看之前就标出剧透的评论和内容。
SpoilerNet是加州大学圣地亚哥分校的一个团队开发的系统,他们从亚马逊旗下的阅读社区Goodreads收集了100多万条评论,并建立了一个数据库。按照惯例,任何评论都要逐行注明剧透。
无论如何,这些标记数据基本上的作用是训练AI系统:各种类型的神经网络,学习定义特定图像和对象。该团队将130万条Goodreads评论纳入系统,让它观察并记录普通句子与其中包含剧透的句子之间的差异。
也许评论的作者倾向于以某种方式开始用情节细节来表达句子,如“Later it is revealed...”,或者是语言中的句子往往缺乏像“很棒”或“复杂”这样的评价性词语。
一旦训练完成,用一套单独的句子测试智能体,它可以被标记为“剧透”或“非剧透”,最多可达92%的准确率。早期尝试计算预测句子中是否有剧透并没有那么好,去年有研究开辟了新的领域,但受其数据集和方法的限制,这使得它只能考虑前面的句子。
SpoilerNet论文的主要作者Mengting Wan表示,“我们还对同一篇综述文档中句子之间的相关性和连贯性进行了建模,这样就可以纳入高级语义,允许更全面地理解一段或一篇综述,当然,这也必然是一个更复杂的问题。”
但更复杂的模型是来自更丰富数据的自然结果:这样的模型设计确实得益于我们为这项工作收集的新的大规模审查数据集,其中包括完整的审查文件,句子级扰流标签和其他元数据。据我们所知,在此工作之前的公共数据集(2013年发布)仅涉及几千个单句评论,而不是完整的评论文档。对于研究社区而言,这样的数据集还有助于详细分析现实世界的评论剧作者以及在该领域开发缺少数据的深度学习模型。
这种方法仍然有诸多缺点。例如,如果其他剧透句相邻,模型偶尔会将一个句子误认为有剧透;它对单个句子的理解还不够好,无法理解某些单词是否真的表示剧透。
Wan表示系统应该能够在用户的计算机上实时运行,但训练它将是一个更大的工作。这开启了浏览器插件或应用程序的可能性,尽管亚马逊与该研究间接相关(共同作者Rishabh Misra在那里工作),Wan表示还没有计划将其商业化或以其他方式应用该技术。毫无疑问,它将成为亚马逊在评论和其他内容中自动标记剧透的有用工具。