麻省理工学院和IBM开发了一种基于主题推荐文档的人工智能
2019年12月23日 由 TGS 发表
62293
0
即使是最好的文本解析推荐算法,也会受到一定大小的数据集的阻碍。为了提供比现有方法更快、更好的分类性能,麻省理工学院IBM实验室和麻省理工学院几何数据处理组的一个团队设计了一种结合嵌入式和最优传输等流行人工智能工具的技术。
他们表示,该方法可以扫描数百万的可能性,可以只考虑一个人的历史偏好,或一群人的偏好。研究的主要作者、麻省理工学院在一份声明中说:“互联网上有大量的文本可以帮助我们进行研究。”
为此,研究人员将算法文本集合归纳为基于集合中常用单词的主题。接下来,将每个文本分成5到15个最重要的主题,并对每个主题在文本中的重要性进行排名。嵌入——数据的数字表示,在本例中是单词——有助于明确单词之间的相似性,而最佳传输有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。嵌入使得两次利用最佳传输成为可能:首先比较集合中的主题,然后测量公共主题重叠的程度。研究人员称,在扫描大量书籍和文件时,这种方法尤其有效;在一项涉及古滕堡项目数据集里1720对书目的评估中,该算法在一秒钟内比较了所有书目,比其他方法快了800多倍。
此外,该算法在文档排序方面,也比竞争对手做得更好——例如,按作者对古腾堡数据集中的书籍进行分组,按部门对亚马逊上的产品评论进行分组。它还提供了主题列表,使用户能够更好地理解它为什么推荐给定的文档,这一点也更易于解释。
研究人员将继续开发一种端到端的培训技术,这种技术可以联合优化嵌入、主题模型和最优传输,而不是像当前这样单独优化。他们还希望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用,这将是未来很长一段时间内的主攻方向。