近日,中国网络空间安全协会正式发布中文互联网语料资源平台,该平台旨在为用户提供多样化的中文互联网语料资源。该平台支持多种标签分类,包括行业领域、内容模态、体量规模等,以方便用户根据自身需求下载与使用。
此次发布的语料资源是在中央网信办的指导下,由中国网络空间安全协会联合国家互联网应急中心共同完成的。基于前期发布的中文互联网基础语料1.0版本,通过语料共建共享机制,汇聚了一批新的高质量可信数据。这些数据经过信源筛选、内容过滤、数据去重等一系列严格的数据处理流程,最终形成了中文互联网基础语料2.0版本,规模达到120GB,包含数据3800万条。
此外,平台上还入驻了27个语料数据集,数据总量约2.7TB。这些数据集主要分为三类:一是中国网络空间安全协会与国家互联网应急中心等合作建设的中文互联网基础语料;二是来自人民网、北京智源研究院、上海人工智能实验室等单位的共享互联网语料;三是由中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位提供的优质中文基础语料样本。
用户可通过访问中国网络空间安全协会官方网站,点击“中文互联网语料资源平台”链接,完成注册和认证程序后,即可下载所需语料资源。
据悉,中国网络空间安全协会人工智能安全治理专委会将持续加强中文互联网基础语料的建设工作,为人工智能技术的创新和产业发展提供有力支撑。此举标志着中文互联网语料资源的共享和利用迈出了重要一步,有助于推动人工智能技术的进一步发展。