Hugging Face今日宣布收购总部位于西雅图的 XetHub,该平台是一个协作开发平台,由前苹果研究人员创立,旨在帮助机器学习团队更高效地处理大型数据集和模型。
虽然此次交易的具体价值尚未公布,但首席执行官克莱姆·德朗格 (Clem Delangue) 在接受福布斯采访时表示,这是该公司迄今为止进行的最大一笔收购。
HF 团队计划将 XetHub 的技术与自己的平台集成,并升级其存储后端,使开发人员能够比以往更轻松地托管更多的大型模型和数据集。
“XetHub 团队将帮助我们解锁 HF 数据集和模型未来 5 年的增长,方法是切换到我们自己的、更优质的 LFS 版本,作为 Hub 存储库的存储后端,”该公司首席技术官朱利安·乔蒙德 (Julien Chaumond) 在一篇博客文章中写道。
XetHub为Hugging Face带来了什么?
XetHub 由曾在苹果内部 ML 基础设施工作的 Yucheng Low、Ajit Banerjee 和 Rajat Arya 于 2021 年创立,通过为企业提供一个探索、理解和处理大型模型和数据集的平台而闻名。
该平台为高达 TB 级别的存储库提供了类似 Git 的版本控制,使团队能够跟踪更改、协作并在其ML工作流中保持可重复性。
在这三年中,XetHub凭借处理不断增长的工具、文件和制品所产生的复杂可扩展性需求的能力,吸引了包括 Tableau 和 Gather AI 等知名公司在内的大量客户。它使用内容定义的分块、去重、即时存储库挂载和文件流等先进技术改进了存储和传输过程。
现在,随着这次收购,XetHub 平台将不复存在,其数据和模型处理能力将融入 Hugging Face Hub,为模型和数据集共享平台提供经过优化的存储和版本控制后端。
在存储方面,HF Hub目前使用Git LFS(大文件存储)作为后端。它于2020年推出,但乔蒙德表示,公司早就知道,随着 AI 生态系统中大文件数量的不断增长,存储系统迟早会不够用。Git LFS是一个不错的起点,但公司需要升级,而 XetHub 将带来这一升级。
目前,XetHub 平台支持单个文件大小超过 1TB,总存储库大小远超 100TB,这大大超过了 Git LFS,后者仅支持最大 5GB 的文件大小和 10GB 的存储库。这将使 HF Hub 能够托管比目前更大的数据集、模型和文件。
除此之外,XetHub 的其他存储和传输功能将使该软件包更具吸引力。
例如,该平台的内容定义分块和去重功能允许用户在数据集更新时仅上传新行的选定部分,而无需再次上传整个文件集(这需要大量时间)。模型存储库也将如此。
“随着该领域在未来几个月内转向万亿参数模型(感谢 Maxime Labonne 带来的新 BigLlama-3.1-1T?),我们希望这项新技术将在社区和企业内部解锁新的规模,”首席技术官指出。他还补充说,两家公司将密切合作,推出旨在帮助团队在 HF Hub 上协作并跟踪其资产演变的解决方案。
目前,Hugging Face Hub 托管了 130 万个模型、45 万个数据集和 68 万个空间,LFS 中的总数据量高达 12PB。
随着增强的存储后端的引入,支持更大的模型和数据集,这一数字将如何增长将非常有趣。目前,关于集成和其他支持功能的发布时间表尚不清楚。