实体解析是一个过程。知识图谱是一种技术手段。两者的结合产生了知识表示和推理领域最强大的数据融合工具之一。最近,ERKG 已经进入了数据架构的视野,尤其是对于那些希望将特定领域中的所有数据连接到一个地方进行调查的分析机构来说。本文将解读实体解析知识图谱、ER、KG,以及它们的一些实现细节。
ER。实体解析(又称身份解析、数据匹配或记录链接)是对数据集中的实体进行去重和/或链接的计算过程。这可以很简单,比如解决数据库中的两条记录,一条记录名为汤姆-里德尔,另一条记录名为T.M.-里德尔。或者复杂到一个人使用别名(伏地魔勋爵)、不同的电话号码和多个 IP 地址进行银行欺诈。
KG。 知识图谱是一种知识表示形式,它将数据直观地表示为实体以及实体之间的关系。实体可以是人、公司、概念、有形资产、地理位置等。关系可以是信息交换、通信、旅行、银行交易、计算交易等。实体和关系存储在图数据库中,预先连接,并以节点和边的形式直观地表示出来。它看起来像这样...
ERKG。 一个包含多个数据集的知识图谱,其中的实体是相互连接和重复的。换句话说,没有重复的实体(Tom Riddle 和 TM Riddle 的节点已解析为单个节点)。此外,在一些可接受的概率阈值范围内,还发现了潜在相关节点之间的潜在联系(例如,汤姆-里德尔、伏地魔勋爵和马沃洛-里德尔)。说到这里,你可能会问:"为什么要从多个数据源创建一个没有实体解析的知识图谱呢?答案很简单,"你不会"。尽管如此,围绕如何解决实体问题的方法以及可用于图表示的技术使得创建 ERKG 成为一项艰巨的任务。
这是我们制作的第一个 ERKG。
早在 2016 年,我们就将两个数据集整合到一个图表数据库中: 1) 外国资产控制办公室(OFAC)国际制裁名单上的个人(蓝色),以及 2) 一家公司的客户(粉色),该公司不具名。显然,该公司的目的是在不对外国资产控制办公室数据库进行人工搜索的情况下,发现其客户中是否有国际制裁名单上的个人。虽然这张图所代表的企业资源规划流程对于这项任务来说可能有些矫枉过正,但却很能说明问题。
图中大多数已解决的实体都是同一数据集中的两到三个个体(蓝色到蓝色或粉色到粉色)。这些可能是重复记录(即我们之前谈到的Tom Riddle 和 TM Riddle的问题)。在某些情况下,重复数据删除的情况非常严重,比如图片顶部附近的粉红色群组。在这里,我们可以看到一个人在客户数据集中有 5-10 条独立的记录。因此,我们至少可以看出,公司需要在自己的客户数据中进行重复数据删除。
有趣的地方在于我们在图片顶部看到的蓝色到粉红色的关系。这正是该公司正在寻找的:跨数据集的实体解析。该公司的一些客户很可能是受到国际制裁的个人。
这个例子非常简单,可能会让人误以为构建 ERKG 是一项简单的工作。其实并不简单。尤其是当它需要扩展到几 TB 的数据和多个分析师用户时。
轻量级自然语言处理 (NLP) 算法(如模糊匹配技术)非常容易实现。这些算法可以轻松处理汤姆-里德尔与 T.M. 里德尔的问题。但是,如果要将两个以上的数据集(可能包含多种语言和国际字符)组合在一起,简单的 NLP 处理就会变得非常棘手。
对于反洗钱或银行欺诈等更高级的分析问题集,还需要更先进的 ER 解决方案。模糊匹配不足以识别故意使用多个化名隐瞒身份、企图逃避制裁或其他法规的犯罪者。为此,企业识别流程应包括基于机器学习的方法和更复杂的方法,这些方法会考虑到姓名以外的其他元数据。不全是 NLP。
关于基于图的 ER 与数据集级别的 ER,也有很多争论。要进行最高保真度的基于图的分析,两者都需要。在将数据集引入图数据库时,在数据集内部和数据集之间解决实体问题,1)最大限度地减少了对图的大规模操作,因为这种操作的计算成本很高,2)确保图在开始时只包含已解决的实体(无重复),这也为整个图架构节省了大量成本。
一旦存在实体解析知识图谱,数据科学团队就可以通过基于图谱的 ER 技术进一步探索其他 ER。这些技术还有一个好处,就是可以利用图拓扑(即图本身的固有结构)作为预测跨组合数据集潜在连接的特征。
ERKG 是一种功能强大、直观的分析工具。它提供:
然后,ERKG 将成为分析画布,在此基础上对通过多个数据集表示的给定领域进行生动的互连探索。这是一种数据融合解决方案,而且是一种高度符合人类直觉的解决方案。