Together AI宣布了一项在AI推理领域的突破性进展,推出了其全新的推理堆栈。这一堆栈的解码吞吐量比开源vLLM快四倍,并且在性能上超越了领先的商业解决方案,如Amazon Bedrock、Azure AI、Fireworks和Octo AI,优势幅度在1.3倍至2.5倍之间。Together Inference Engine能够在Meta Llama 3 8B上每秒处理超过400个token,集成了Together AI的最新创新技术,包括FlashAttention-3、更快的GEMM和MHA内核、质量保持量化以及推测解码技术。
此外,Together AI 还推出了Together Turbo和Together Lite端点,首先从Meta Llama 3开始,并计划很快扩展到其他模型。这些端点为企业提供了性能、质量和成本效益之间的平衡。Together Turbo提供的性能几乎与全精度FP16模型相媲美,成为Nvidia GPU上最快的引擎,同时也是构建生成式AI时最准确、最具成本效益的生产级解决方案。而Together Lite端点则利用INT4量化技术,提供了成本效益最高、可扩展性最强的Llama 3模型,每百万token的价格仅为0.10美元,比GPT-4o-mini低六倍。
此次新发布包含几个关键组件:
Together Turbo端点:这些端点在保持与FP16模型相近质量的同时,提供快速的FP8性能。在AlpacaEval 2.0上,它们的表现比其他FP8解决方案高出多达2.5分。Together Turbo端点对于8B模型的价格为0.18美元,对于70B模型的价格为0.88美元,比GPT-4o的成本低17倍。
Together Lite端点:利用多种优化技术,这些端点提供了与全精度实现相比具有卓越质量的成本效益最高、可扩展性最强的Llama 3模型。Llama 3 8B Lite模型的价格为每百万token0.10美元。
Together Reference端点:这些端点为Meta Llama 3模型提供最快的全精度FP16支持,性能比vLLM快4倍。
Together Inference Engine集成了众多技术进步,包括专有内核如FlashAttention-3、基于RedPajama的定制推测器以及市场上最准确的量化技术。这些创新确保了在不牺牲质量的前提下实现领先性能。特别是Together Turbo端点,在Llama-3-8B-Instruct和Llama-3-70B-Instruct模型上,比vLLM的性能提高了多达4.5倍。这一性能提升是通过优化的引擎设计、专有内核以及先进的模型架构(如Mamba和线性注意力技术)实现的。
成本效益是Together Turbo端点的另一大优势,其成本比GPT-4o低10倍以上,并显著降低了客户在Together Cloud上托管其专用端点的成本。另一方面,Together Lite端点相比vLLM的成本降低了12倍,成为大规模生产部署中最经济的解决方案。