Nvidia公司近期推出了新的微服务,旨在帮助人工智能工程师构建能够跨语言存储和检索数据的生成式AI应用,从而更轻松地跨越国家界限。
为提高生成式AI在多语言环境下数据检索的准确性,Nvidia通过其开发者应用程序接口目录引入了具备多语言能力的NeMo Retriever软件。该软件能够理解和处理多种语言和格式的数据,并将其转化为文本,以提供上下文感知的检索结果。
NeMo Retriever允许开发者为AI模型构建信息摄取和检索管道,从文本、文档、表格等中提取结构化和非结构化数据,避免重复内容。它通过嵌入技术,将数据转化为AI可理解的语言,并存储到向量数据库中。
嵌入技术是一种复杂的数学表示方法,用于展现单词、短语等数据之间的属性和关系。这有助于在搜索或思考时捕捉两个单词或句子之间的意义“接近度”,例如“猫”和“狗”因同为动物和宠物而相近,而“烤面包机”和“狗”则因常见于家中但类别不同而相远。
Nvidia生成式AI软件副总裁Kari Briski在采访中表示,使用Retriever以原生语言嵌入和检索数据可提高准确性。这主要是因为大多数AI数据训练集以英语为主。翻译过程中的“信息丢失”现象导致每次转换都可能损失上下文或准确性。
Briski指出,Retriever初次发布时,客户因翻译软件导致的准确性下降而迫切要求多语言支持。企业通常使用多种语言运营,如嵌入英文文档、德文测试、日文资料或俄文研究报告。这些信息需由同一模型搜索,但经过的工具越多,准确性越低。
除了摄取功能,NeMo Retriever还能“评估和重新排序”结果,确保答案的准确性。当查询通过Retriever时,它会检查向量数据库的响应,并根据与查询的相关性对检索到的信息进行排名。
Nvidia与DataStax合作,利用NeMo Retriever将维基百科的1000万条数据条目在不到三天内转化为AI就绪格式,而通常这一过程需要30天。
此外,Nvidia的合作伙伴如Cohesity、Cloudera、SAP和VAST Data等正在整合对这些新微服务的支持,以支持大型多语言数据源。这包括检索增强生成技术等服务,使预训练的生成式AI能够利用实时数据源获取更丰富、更相关的信息。多语言源的应用使企业能够获取更多数据。
目前,NeMo Retriever的多语言版本仅支持文本检索和回答。Briski表示,公司正在研究多模态数据、图像、PDF和视频等领域的未来应用。“我们目前只讨论文本。因为如果你能把文本做好,那么其他形式的数据处理也能取得很好的成果。”