Together AI推出革命性推理堆栈

2024年07月22日由 samoyed 发表 610 0

Together AI宣布了一项在AI推理领域的突破性进展，推出了其全新的推理堆栈。这一堆栈的解码吞吐量比开源vLLM快四倍，并且在性能上超越了领先的商业解决方案，如Amazon Bedrock、Azure AI、Fireworks和Octo AI，优势幅度在1.3倍至2.5倍之间。Together Inference Engine能够在Meta Llama 3 8B上每秒处理超过400个token，集成了Together AI的最新创新技术，包括FlashAttention-3、更快的GEMM和MHA内核、质量保持量化以及推测解码技术。

R-C

此外，Together AI 还推出了Together Turbo和Together Lite端点，首先从Meta Llama 3开始，并计划很快扩展到其他模型。这些端点为企业提供了性能、质量和成本效益之间的平衡。Together Turbo提供的性能几乎与全精度FP16模型相媲美，成为Nvidia GPU上最快的引擎，同时也是构建生成式AI时最准确、最具成本效益的生产级解决方案。而Together Lite端点则利用INT4量化技术，提供了成本效益最高、可扩展性最强的Llama 3模型，每百万token的价格仅为0.10美元，比GPT-4o-mini低六倍。

此次新发布包含几个关键组件：

Together Turbo端点：这些端点在保持与FP16模型相近质量的同时，提供快速的FP8性能。在AlpacaEval 2.0上，它们的表现比其他FP8解决方案高出多达2.5分。Together Turbo端点对于8B模型的价格为0.18美元，对于70B模型的价格为0.88美元，比GPT-4o的成本低17倍。

Together Lite端点：利用多种优化技术，这些端点提供了与全精度实现相比具有卓越质量的成本效益最高、可扩展性最强的Llama 3模型。Llama 3 8B Lite模型的价格为每百万token0.10美元。

Together Reference端点：这些端点为Meta Llama 3模型提供最快的全精度FP16支持，性能比vLLM快4倍。

Together Inference Engine集成了众多技术进步，包括专有内核如FlashAttention-3、基于RedPajama的定制推测器以及市场上最准确的量化技术。这些创新确保了在不牺牲质量的前提下实现领先性能。特别是Together Turbo端点，在Llama-3-8B-Instruct和Llama-3-70B-Instruct模型上，比vLLM的性能提高了多达4.5倍。这一性能提升是通过优化的引擎设计、专有内核以及先进的模型架构（如Mamba和线性注意力技术）实现的。

成本效益是Together Turbo端点的另一大优势，其成本比GPT-4o低10倍以上，并显著降低了客户在Together Cloud上托管其专用端点的成本。另一方面，Together Lite端点相比vLLM的成本降低了12倍，成为大规模生产部署中最经济的解决方案。

文章来源：https://www.marktechpost.com/2024/07/20/together-ai-unveils-revolutionary-inference-stack-setting-new-standards-in-generative-ai-performance/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI新模型加固安全防线防指令篡改

下一篇 Anthropic和Menlo Ventures为AI初创公司推出1亿美元基金

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来