生成式人工智能重塑数据世界:从文本图像到企业应用

2024年03月06日 由 neo 发表 227 0

生成式人工智能(AI)因其在创造文本和图像方面的卓越能力而备受瞩目。然而,它所触及的仅仅是现代社会海量数据中的冰山一角。每当医疗系统记录一个病人的信息、航班因风暴受影响,或是人与软件应用程序进行交互时,都会产生海量的数据。

MIT-DataCebo-01-press_0

在这些场景中,利用生成式AI创建逼真的合成数据,对于组织来说具有巨大的价值。无论是在治疗病人、调整航线,还是改进软件平台方面,它都能发挥巨大作用,尤其是在真实数据有限或敏感的情况下。

近年来,MIT的衍生公司DataCebo推出了一款名为Synthetic Data Vault(SDV)的生成式软件系统。该系统旨在帮助组织创建合成数据,以支持多种应用,如软件测试和机器学习模型训练。

SDV自推出以来,已经累计下载超过100万次,并有超过1万名数据科学家使用这一开源库来生成合成表格数据。公司创始人兼首席研究科学家Kalyan Veeramachaneni和校友Neha Patki认为,SDV的成功在很大程度上归功于其革新性的软件测试能力。

SDV的崛起

回溯到2016年,Veeramachaneni领导的Data to AI Lab团队推出了一套开源的生成式AI工具。这套工具能够帮助组织创建与真实数据在统计特性上相匹配的合成数据。

通过使用合成数据,公司可以在保护敏感信息的同时,保留数据点之间的统计关系。此外,合成数据还可用于模拟新软件的运行情况,以便在发布前预测其性能。

Veeramachaneni的团队之所以关注这个问题,是因为他们与多家希望分享数据进行研究的公司展开了合作。

“MIT让我们看到了所有这些不同的用例,”Patki解释道,“我们与金融公司和医疗公司合作,所有这些项目都有助于我们制定跨行业的解决方案。”

2020年,研究人员创立了DataCebo,为更大的组织构建更多的SDV功能。从那时起,SDV的应用案例就变得令人印象深刻且多样化。

例如,利用DataCebo的新飞行模拟器,航空公司可以以一种传统方式无法实现的方式来规划罕见的天气事件。在另一个案例中,SDV用户合成了医疗记录,以预测患有囊性纤维化的病人的健康结果。最近,来自挪威的一个团队使用SDV创建了合成的学生数据,以评估各种招生政策是否公平和无偏见。

2021年,数据科学平台Kaggle举办了一个数据科学家的竞赛,要求使用SDV创建合成数据集,以避免使用专有数据。大约3万名数据科学家参与了这次竞赛,他们根据公司的真实数据构建了解决方案和预测结果。

随着DataCebo的不断发展,它也始终保持着对MIT的忠诚:该公司目前的所有员工都是MIT的校友。

提升软件测试效率

尽管他们的开源工具被用于各种场景,但该公司专注于增加其在软件测试方面的影响力。

“你需要数据来测试这些软件应用程序,”Veeramachaneni说道,“传统上,开发者需要手动编写脚本来创建合成数据。而使用SDV创建的生成模型,你可以从收集的数据样本中学习,然后生成大量具有与真实数据相同属性的合成数据,或者创建特定的场景和边缘情况,并使用这些数据来测试你的应用程序。”

例如,如果一个银行想要测试一个旨在拒绝没有钱的账户转账的程序,它必须模拟许多账户同时进行交易的情况。手动创建这样的数据会耗费大量时间。而使用DataCebo的生成模型,客户可以创建他们想要测试的任何边缘情况。

“对于一些行业来说,拥有某种敏感性的数据是很常见的,”Patki说道,“通常,当你处理敏感数据时,你需要遵守各种规则。即使没有法律规则,公司也最好谨慎处理数据的访问权限。因此,从隐私的角度来看,合成数据总是更好的选择。”

扩展合成数据的应用范围

Veeramachaneni相信DataCebo正在推进其所谓的“合成企业数据”领域的发展,这类数据是由用户在大公司的软件应用程序上的行为生成的。

“这种类型的企业数据非常复杂,且没有普遍的可用性,不像语言数据那样容易获取,”Veeramachaneni说道,“当人们使用我们公开可用的软件,并反馈它是否适用于某种模式时,我们学到了很多这些独特的模式。这让我们能够改进我们的算法。从某种意义上说,我们正在构建这些复杂模式的语料库,而对于语言和图像来说,这是很容易获得的。”

最近,DataCebo还发布了一些新功能来提高SDV的实用性,包括用于评估生成数据“真实性”的工具(称为SDMetrics库)以及一种用于比较模型性能的方法(称为SDGym)。

“这关乎确保组织信任这些新的数据,”Veeramachaneni说道,“我们的工具提供了可编程的合成数据,这意味着我们允许企业插入他们特定的洞察和直觉来构建更透明的模型。”

文章来源:https://news.mit.edu/2024/using-generative-ai-improve-software-testing-datacebo-0305
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消