亚马逊Aurora PostgreSQL新增pgvector以支持生成式AI嵌入模型
2023年07月31日 由 daydream 发表
316670
0
AWS最近宣布Amazon Aurora的postgresql兼容版本现在支持pgvector用于向量存储和相似性搜索。Aurora是最新的托管PostgreSQL数据库,支持用于存储和搜索机器学习模型中的嵌入模型的开源扩展。
Pgvector扩展简化了现有Postgres数据库中嵌入的存储和有效搜索,捕获文本输入的语义。AWS首席数据库专家解决方案架构师Shayon Sanyal描述了如何利用Aurora上的pgvector进行自然语言处理、聊天机器人和情感分析:
Pgvector提供了不同的功能,可以让您识别精确的和近似的最近邻。它被设计成与其他PostgreSQL特性完美无缝地配合使用,包括索引和查询。使用ChatGPT和其他LLM工具通常需要将这些系统的输出,即向量嵌入,存储在永久性的存储系统中,以便在以后的时间进行检索。
在这篇文章中,Sanyal展示了如何使用LangChain和Streamlit构建一个简单的交互式应用程序,让用户可以根据PDF文件中的内容用自然语言提问。
根据云服务提供商的说法,pgvector扩展允许客户将机器学习功能集成到电子商务、媒体和健康应用程序中。这个新选项增加了Amazon Aurora机器学习的功能,它将Aurora与AWS的机器学习服务整合在一起,提供使用SQL语言创建基于机器学习的预测的能力。Glass的联合创始人Stefan Borsje发表了评论:
Pgvector在Amazon Aurora上运行,令我惊讶的是,在一个相当大的数据集上进行相似性搜索的性能表现(速度和准确度)非常出色。在仅约10毫秒的时间内,通过余弦相似度对数十万个512维向量进行排序。这是一种什么样的魔法呢?
AWS的高级数据库专家解决方案架构师Krishna Sarabu解释了如何使用SageMaker和pgvector在PostgreSQL中构建基于人工智能的搜索功能:
在生成嵌入模型之后,应用程序或研究人员可以在向量空间内执行相似性搜索。嵌入的相似性搜索有利于各种行业应用,包括电子商务、推荐系统和欺诈检测。例如,系统可以在产品或交易之间识别数学上的相似性,从而创建相关的产品推荐或识别潜在的欺诈活动。
由于生成式人工智能的普及以及与Pinecone等专用向量数据库竞争的需要,不同的托管数据库服务都添加了对pgvector的支持。这些服务包括Azure Database for PostgreSQL Flexible Server、Azure Cosmos DB for PostgreSQL和Amazon RDS for PostgreSQL。此外,根据InfoQ的单独报道,Google Cloud SQL for PostgreSQL和AlloyDB for PostgreSQL最近也引入了对该扩展的支持。
Pgvector扩展在所有AWS地区的Aurora PostgreSQL 15.3、14.8、13.11、12.15及更高版本上都可用。
来源:https://www.infoq.com/news/2023/07/aws-aurora-pgvector/