人工智能帮你在网上挑读物
2019年12月24日 由 TGS 发表
343137
0
互联网发展到今天,网上包罗了数十亿的书籍、新闻报道和文章,对于喜爱阅读的人来说,这无疑是最好的时代。麻省理工学院助理教授贾斯汀•所罗门:“互联网上有大量文本,但并不是所有都有用,你需要对它们进行分割,然后系统学习,简而言之,挑选。”
在麻省理工学院IBM沃森人工智能实验室和麻省理工学院的几何数据处理小组的帮助下,所罗门最近在神经信息处理系统会议上提出了一种切割大量文本的新技术。这个方法结合了三种流行的文本分析工具——主题建模、词嵌入和最佳传输,可以提供比在流行文档分类基准上竞争方法更好、更快的结果。
如果一个算法知道你过去喜欢什么,那么它就可以扫描数百万类似的可能性。随着自然语言处理技术的改进,人工智能那些“你可能也喜欢”的“建议”,会变得更快、更符合你的心意。
这个算法可以根据集合中常用的词汇将集合(比如书籍)归纳为主题。然后,它会将每本书分成5到15个最重要的主题,并估计每个主题对整本书的影响有多大。为了比较书籍,研究人员还使用了另外两种工具:word embeddings和optimal transport。
word embeddings是一种将单词转化为数字列表的技术,以反映它们在流行用法上的相似性,使两次利用最佳传输成为可能:首先比较整个集合中的主题,然后,在任意一对图书中,度量公共主题的重叠程度。当扫描大量的书籍和冗长的文档时,这项技术尤其有效。
通过代表性主题而不是单个单词对书籍进行建模,可以进行高层次的比较。该研究的主要作者、IBM的研究员米哈伊尔·尤罗奇金表示:“如果你让某人比较两本书,他们可能会把每本书化为容易理解的概念,然后比较这些概念,而不是直接对书籍本身进行比较。”
研究人员在一秒钟内,比较了古登堡计划数据库中的1720对书籍,结果比之前的方法快了800多倍,准确率也有所上升。除了快速准确地对文档进行分类外,该方法还提供了一个窗口来了解模型的决策过程。通过出现的主题列表,用户可以看到模型推荐文档的原因。