AWS发布“Bedrock模型评估”以优化AI开发

2023年11月30日由 daydream 发表 418 0

在 AWS re:Invent 会议上，AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布推出 Model Evaluation on Bedrock，并目前提供预览版本，旨在帮助用户更好地评估其存储库 Amazon Bedrock 中的模型。没有透明的模型测试方法，开发者可能会使用不够准确的模型来完成问答项目，或者使用对其用例来说过于庞大的模型。

微信截图_20231130133233

Sivasubramanian 表示：“模型的选择和评估不仅仅在开始时进行，而是需要定期重复。”他还认为，“加入人类参与很重要，因此我们提供了一种方便的管理人类评估工作流和模型性能度量的方法。”

Sivasubramanian 曾提到，经常有一些开发者不知道他们是否应该使用一个更大的模型来进行项目，因为他们假设一个更强大的模型能够满足他们的需求。后来，他们发现本可以构建一个更小的模型。

Model Evaluation 包括两部分：自动评估和人工评估。在自动评估中，开发者可以进入他们的 Bedrock 控制台并选择一个模型进行测试。然后他们可以根据鲁棒性、准确性或毒性等指标评估模型的性能，这适用于摘要、文本分类、问答和文本生成等任务。Bedrock 包括了诸如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion 等流行的第三方 AI 模型。

尽管 AWS 提供了测试数据集，但客户可以将自己的数据引入基准测试平台，以便更好地了解模型的表现。系统随后会生成一份报告。

如果涉及到人工评估，用户可以选择与 AWS 的人工评估团队或其自己的团队合作。客户必须指定任务类型（例如摘要或文本生成），评估指标以及他们想使用的数据集。AWS 将为那些与其评估团队合作的客户提供定制价格和时间表。

AWS 负责生成 AI 的副总裁 Vasi Philomin 在接受采访时表示，更好地理解模型的性能可以更好地指导开发。这也允许公司在使用模型构建之前，查看模型是否不符合某些负责任的 AI 标准——比如毒性灵敏度过低或过高。

Philomin 说：“对我们的客户来说，很重要的是要了解哪个模型最适合他们，我们正在提供一个更好的评估方法。”

Sivasubramanian 还指出，当人类评估 AI 模型时，他们可以检测自动系统无法检测的其他指标——诸如同情心或友好度。

Philomin 表示，AWS 不会要求所有客户都对模型进行基准测试，因为一些开发人员可能之前已经使用过 Bedrock 上的一些基础模型，或者对模型可以为他们做什么有所了解。那些仍在探索要使用哪些模型的公司可能会从进行基准测试的过程中受益。

AWS 表示，虽然基准测试服务目前处于预览阶段，但它将只收取评估期间使用的模型推理费用。

尽管没有针对 AI 模型基准测试的特定标准，但某些行业普遍接受特定的度量标准。Philomin 说，Bedrock 上的基准测试目标不是广泛评估模型，而是为公司提供一种衡量模型对他们项目影响的方法。

文章来源：https://www.theverge.com/2023/11/29/23981129/amazon-aws-ai-model-evaluation-bias-toxicity

标签：

AWS 模型 Meta

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇黄仁勋让re:Invent跃然纸上

下一篇研究显示：人工智能存在与人类相似的信心偏见

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来