维基百科为应对人工智能开发者通过自动化程序抓取平台内容的行为,正尝试采取新措施。近日,维基媒体基金会宣布与谷歌旗下数据科学社区平台Kaggle合作,发布一套专门用于训练人工智能模型的优化数据集。
该数据集以测试版形式发布,包含英语和法语的结构化维基百科内容。维基媒体基金会表示,该数据集在设计时充分考虑了机器学习工作流程的需求,旨在帮助AI开发者更便捷地获取可机读的文章数据,用于模型训练、微调、基准测试、对齐分析及研究工作。
数据集内容采用开放许可协议,截至4月15日已收录研究摘要、简短描述、图片链接、信息框数据及文章章节等内容,但未包含参考文献或音频文件等非文字元素。维基媒体基金会认为,这种“结构化的维基百科内容JSON表示”相比直接抓取或解析原始文章文本更具吸引力,可有效缓解当前因AI机器人持续消耗带宽而给服务器带来的压力。
此前,维基媒体基金会已与谷歌及互联网档案馆达成内容共享协议,此次与Kaggle的合作将使数据获取渠道进一步拓展,惠及小型企业和独立数据科学家。Kaggle合作事务负责人布伦达·弗林表示,作为机器学习领域的重要工具和测试平台,Kaggle很荣幸能托管维基媒体基金会的数据,并致力于确保这些数据保持可访问性、可用性和实用性。