Nvidia发布多语言微服务，助力AI跨语言数据处理

2024年12月18日由 daydream 发表 176 0

Nvidia公司近期推出了新的微服务，旨在帮助人工智能工程师构建能够跨语言存储和检索数据的生成式AI应用，从而更轻松地跨越国家界限。

微信截图_20241218110532

为提高生成式AI在多语言环境下数据检索的准确性，Nvidia通过其开发者应用程序接口目录引入了具备多语言能力的NeMo Retriever软件。该软件能够理解和处理多种语言和格式的数据，并将其转化为文本，以提供上下文感知的检索结果。

NeMo Retriever允许开发者为AI模型构建信息摄取和检索管道，从文本、文档、表格等中提取结构化和非结构化数据，避免重复内容。它通过嵌入技术，将数据转化为AI可理解的语言，并存储到向量数据库中。

嵌入技术是一种复杂的数学表示方法，用于展现单词、短语等数据之间的属性和关系。这有助于在搜索或思考时捕捉两个单词或句子之间的意义“接近度”，例如“猫”和“狗”因同为动物和宠物而相近，而“烤面包机”和“狗”则因常见于家中但类别不同而相远。

Nvidia生成式AI软件副总裁Kari Briski在采访中表示，使用Retriever以原生语言嵌入和检索数据可提高准确性。这主要是因为大多数AI数据训练集以英语为主。翻译过程中的“信息丢失”现象导致每次转换都可能损失上下文或准确性。

Briski指出，Retriever初次发布时，客户因翻译软件导致的准确性下降而迫切要求多语言支持。企业通常使用多种语言运营，如嵌入英文文档、德文测试、日文资料或俄文研究报告。这些信息需由同一模型搜索，但经过的工具越多，准确性越低。

除了摄取功能，NeMo Retriever还能“评估和重新排序”结果，确保答案的准确性。当查询通过Retriever时，它会检查向量数据库的响应，并根据与查询的相关性对检索到的信息进行排名。

Nvidia与DataStax合作，利用NeMo Retriever将维基百科的1000万条数据条目在不到三天内转化为AI就绪格式，而通常这一过程需要30天。

此外，Nvidia的合作伙伴如Cohesity、Cloudera、SAP和VAST Data等正在整合对这些新微服务的支持，以支持大型多语言数据源。这包括检索增强生成技术等服务，使预训练的生成式AI能够利用实时数据源获取更丰富、更相关的信息。多语言源的应用使企业能够获取更多数据。

目前，NeMo Retriever的多语言版本仅支持文本检索和回答。Briski表示，公司正在研究多模态数据、图像、PDF和视频等领域的未来应用。“我们目前只讨论文本。因为如果你能把文本做好，那么其他形式的数据处理也能取得很好的成果。”

文章来源：https://siliconangle.com/2024/12/17/nvidia-debuts-nemo-retriever-microservices-multilingual-generative-ai/

标签：

Nvidia AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI暂无计划推出Sora视频生成模型API

下一篇 Google升级Code Assist工具，集成Gemini 2.0模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市