随着企业在高级分析和大型语言模型(LLM)上的持续重金投入,图技术已成为构建数据栈的热门选择之一。该技术能够帮助用户理解数据集中复杂的关联关系,而这些关系在传统的关系型数据库中往往不明显。
然而,在维护和查询图数据库与传统关系型数据库时,企业面临着诸多挑战和高昂的成本。近日,总部位于旧金山的初创公司PuppyGraph宣布获得500万美元融资,该公司由前谷歌和领英员工创立,旨在通过全球首款且唯一的零ETL查询引擎解决这一问题。该引擎允许用户将现有的关系型数据作为统一图进行查询,无需单独的图数据库和繁琐的ETL(提取、转换、加载)过程。
该引擎于2024年3月推出,目前已被多家企业用于简化数据分析。其永久免费的开发者版本每月下载量增长率高达70%。
图数据库架构类似于在白板上绘图,将所有信息存储在节点(代表实体、人物和概念)中,并包含相关的上下文和它们之间的连接。利用这种图结构,用户可以识别在传统关系型数据库(通过SQL查询)中不易发现的复杂模式和关联关系,并部署算法快速实现人工智能/机器学习、欺诈检测、客户旅程映射和网络风险管理等用例。
目前,采用图技术的唯一方法是设置独立的原生图数据库,并使其与源数据库保持同步。这项任务看似简单,实则复杂,团队需要建立复杂且资源密集型的ETL管道,将数据迁移到图存储中。这可能耗费数百万美元和数月的时间,导致用户无法运行关键的业务查询。
此外,一旦数据库建立,还需要持续管理,这进一步增加了成本,并在长期内带来可扩展性问题。
为解决这些问题,前谷歌和领英员工刘伟模、黄磊和徐丹凤共同创立了PuppyGraph。他们的目标是提供一种方法,让用户能够无需数据迁移,即可将现有的关系型数据库和数据湖作为图进行查询。
这样,通过SQL查询分析的数据也可以作为图进行分析,从而更快地获得见解。这对于数据具有多级复杂关联关系的场景特别有用,如供应链或网络安全。
PuppyGraph的联合创始人之一吴珍妮表示,与传统SQL查询相比,图查询在处理多级关系时更加高效。图查询通过图中的路径快速遍历这些连接,无论连接的深度如何。
吴珍妮称,PuppyGraph完全消除了对复杂ETL设置的需求,实现“从部署到查询”只需约10分钟。用户只需将工具与所选数据源连接即可。连接后,该工具会自动创建图模式并查询图模型中的表。此外,该引擎的分布式设计使其能够处理极大型数据集和复杂的多跳查询。
它可以连接到所有主流数据湖,包括Google BigQuery和Databricks,以运行加速图分析,同时保持较低的成本。
“存储和计算架构的分离意味着低成本是PuppyGraph的最大优势之一。由于没有存储成本,引擎直接从用户现有的数据湖/仓库中查询数据。它提供了按需扩展计算资源的灵活性,允许根据需要进行调整,以高效处理波动的工作负载,而不会造成资源争用或性能下降。”吴珍妮补充道。
虽然公司成立不到一年,但已经与包括Coinbase、Clarivate、Dawn Capital和Prevelant AI在内的多家企业合作,取得了显著成效。
一家企业从遗留图数据库系统迁移到PuppyGraph后,总拥有成本降低了80%以上。一家领先的金融交易平台能够在不到3秒的时间内实现账户A和账户B之间约10亿条边的5跳路径查询。而在使用PuppyGraph之前,其自建的基于SQL的解决方案甚至无法完成3跳以上的查询,并存在批处理超时问题。
凭借这笔融资,该公司计划加速产品开发、扩大团队,并通过将零ETL图查询引擎推向全球更多组织来增加市场影响力。
根据Gartner的数据,图技术市场预计到2025年将增长到32亿美元,复合年增长率为28.1%。该领域的其他参与者包括Neo4j、AWS Neptune、Aerospike和ArrangoDB。