HumanSignal是广泛使用的开源数据标注工具Label Studio背后的公司,如今他们推出了Adala开源框架,用于自主数据标注代理。
HumanSignal之前被称为Heartex,于2023年6月进行了改名,旨在引起对其核心价值主张的关注,即将人类加入到机器学习(ML)训练的循环中。数据标注是训练模型的基本活动,在过去是一项非常劳动密集的过程。使用Label Studio,数据科学家可以获得标注不同类型数据(包括文本和视频)的工具。随着机器学习的迅速发展,HumanSignal旨在通过新的开源框架Adala来塑造可靠且高效的数据处理的未来。
Adala代表了“自主数据标注代理”(Autonomous Data Labeling Agent)的缩写,它以一种新颖的方式利用AI代理来加速和改进数据标注过程。
HumanSignal的联合创始人兼首席执行官Michael Malyuk说:“我们开始思考,建立一个可信赖的AI代理意味着什么。”“Adala是我们的回应,旨在帮助构建专门用于数据处理任务的自主可靠代理。”
Adala如何帮助加速数据标注过程
Adala代理旨在通过提供地面真实数据集来学习和改进分类和标注等数据任务。地面真实数据集是定义数据标签的基础,可以使用Label Studio技术进行开发。
Malyuk解释说,在Adala框架中,有一个环境的概念,基本上定义了代理如何通过与地面真实数据集的交互学习。Adala代理将与环境进行交互,从中学习,并在经过多次学习迭代后成为预测引擎。在Adala的初始目标应用案例中,这些预测结果用于将数据标签应用于尚未标注的数据集的其余部分。
Adala代理由Malyuk称为“运行时”的组件驱动,基本上是一个大型语言模型(LLM)。运行时执行为代理指定的任务,并提供响应。
HumanSignal的首席技术官Nikolai Liubimov解释说,Adala框架的体系结构需要某种形式的存储,通常是矢量数据库。他指出,获取可应用于新数据的数据标签的过程在很多方面与矢量数据库中的检索增强生成(Retrieval Augmented Generation,RAG)类似。
Adala不仅仅限于数据标注
Malyuk指出,Label Studio用户社区一直在要求各种自动化功能。
Adala目前的初始功能是数据标注,但他强调它可以成为各种数据处理任务的通用代理。通过将Adala项目作为开源进行发布,他希望用户能够为Adala的扩展贡献想法和代码。
Malyuk表示:“一年后,将会有不同类型的代理,具备不同类型的技能,可以与不同类型的环境进行互动和获得反馈。”“这是一种非常强大的方法,我们希望与更广泛的社区分享。”