谷歌宣布开源Magika:革新文件格式和内容识别技术

2024年02月17日 由 neo 发表 387 0

谷歌近日在官方博客上宣布,已开源了一款名为Magika的创新工具。这款工具基于人工智能,能够迅速而精准地识别文件格式和内容类型。相关源代码已经上传至GitHub,供全球开发者共享和贡献。

2aae9fe3-0f1c-450e-93c0-bc64a6898438

Magika的核心在于其定制的、高度优化的深度学习模型。该模型在CPU上运行,能够在毫秒级的时间内准确识别文件类型。谷歌在分享Magika的性能数据时表示,经过对100多种格式的100万个文件进行基准评估测试,Magika的性能比现有工具高出约20%。同时,Magika的精确度和召回率均达到了99%以上,展现出卓越的性能和稳定性。

image1

image2

在谷歌内部,Magika已经被广泛应用于加强用户安全。该系统已经大规模部署,用于将Gmail、Drive和安全浏览中的文件发送到适当的安全和内容策略扫描器。与传统的依赖手工创建规则的系统相比,谷歌通过Magika发现文件类型识别的准确率提高了50%,显著提升了安全性能和用户体验。

此外,谷歌还透露,VirusTotal已经集成了Magika,以进一步提高平台的效率和准确性。在VirusTotal的Code Insight对文件进行分析之前,Magika将起到预过滤的作用。Code Insight则利用谷歌的生成式人工智能来检测恶意代码,从而为用户提供更加全面和可靠的安全保障。

随着Magika的开源,全球开发者将有机会参与到这一创新工具的改进和优化中来。我们期待看到Magika在文件格式和内容识别领域的更多应用和发展。

文章来源:https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消