人工智能训练仍然需要更多的数据

2024年04月22日由 samoyed 发表 199 0

许多人现在已经相信，人工智能技术与我们在科幻电影中看到的完全不同，没有什么好害怕的。

但是如果你知道人工智能已经消化了我们拥有的一切，而且仍然渴望更多时，就会感受到它的可怕之处了。

AIRunningOutOfData

随着人工智能公司建造更大更好的模型，人们开始担心网络上可能没有足够的数据来训练它们。

一些公司正在寻找备选的数据训练来源，如视频转录和“合成数据”等都在考虑之列。

最后提到的内容是由人工智能生成的，没人知道如果让它基本上自我训练会发生什么。

早期研究同意，基于人工智能生成的数据训练模型最终会导致"模型崩溃"。

一些公司声称他们可以创建更高质量的合成数据，但对实际产出会是什么样的并没有透露太多。

Dataology公司（由前Meta和谷歌DeepMind研究员阿里·摩科斯创立）是那些试图寻找用更少的数据来训练更大更聪明模型的组织之一。

这些数据训练手段通常颇具争议，像是公共YouTube视频的转录。

研究人员已经观察到人工智能迟早会面临数据枯竭的景象。巴勃罗·比利亚洛沃斯估计人工智能将在未来一两年内用完可用数据，但他似乎并不担心。

"最大的不确定性在于你会看到什么样的突破。"

或者，你知道，公司可以停止尝试创造那些更大更好的模型，因为存在着训练数据存储的问题，以及其他问题，比如过度使用能源。

文章来源：https://twistedsifter.com/2024/04/artificial-intelligence-has-read-everything-on-the-internet-but-remains-hungry-for-more-data/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇阿里云百炼平台全方位支持Llama 3系列大模型训练与部署

下一篇 Gemini助手即将解锁音乐新功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市