AI新突破：表增强生成技术提升数据库问答能力

2024年09月03日由 daydream 发表 407 0

近年来，人工智能（AI）显著改变了企业与数据的交互方式。以往，团队需要编写SQL查询和代码，才能从海量数据中提取有用信息。现在，用户只需输入一个问题，背后的语言模型驱动系统便能完成剩余工作，实现与数据的直接对话并即时获取答案。

微信截图_20240903103826

然而，这种基于自然语言问题的数据库查询系统虽已广泛应用，但仍面临诸多局限，尤其是无法处理复杂多样的查询需求。针对这一问题，加州大学伯克利分校和斯坦福大学的研究人员提出了一种新方法——表增强生成（Table-Augmented Generation，TAG），旨在解决现有系统的不足。

TAG技术原理

TAG采用了一种统一的三步模型，以实现对数据库的对话式查询。首先，语言模型（LM）分析问题的相关性，并将输入转换为可执行查询（不限于SQL），针对特定数据库。接着，系统利用数据库引擎执行查询，从大量存储信息中提取最相关的表格数据。最后，通过LM对计算结果进行处理，生成自然语言答案。

这一方法融合了语言模型的推理能力与数据库系统的计算优势，解决了传统方法（如文本到SQL转换和检索增强生成RAG）在处理需要语义推理和世界知识的问题时的不足。例如，TAG能够回答诸如“给出被视为经典的最高票房浪漫电影的评论摘要”这类复杂问题，这需要系统不仅从数据库中找出相关信息，还需结合世界知识进行判断。

实验验证与性能提升

研究人员通过修改并扩展了BIRD数据集，增加了需要世界知识语义推理的问题，来测试TAG的有效性。实验结果显示，TAG在准确性上显著优于其他基线方法，包括文本到SQL和RAG，其准确率高达40%以上，部分查询类型的准确率甚至超过65%。此外，TAG的执行速度也比其他方法快三倍。

这些结果表明，TAG技术有望为企业提供一种统一AI和数据库能力的新途径，以更高效地处理复杂的数据查询需求，从而帮助企业从数据集中提取更多价值，而无需编写复杂的代码。

尽管TAG展现出巨大潜力，但研究人员也指出，该技术仍需进一步优化和完善。他们已公开了修改后的TAG基准测试代码，以促进更多实验和研究。随着技术的不断成熟，TAG有望成为未来数据分析和处理的重要工具。

文章来源：https://venturebeat.com/data-infrastructure/table-augmented-generation-shows-promise-for-complex-dataset-querying-outperforms-text-to-sql/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI为开发者提供了对AI助理的更多控制权

下一篇 AI领域面临新挑战，企业需转型“智能工程”以应对

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来