你是否使用Google Books来查找关于某些主题的书籍?或者使用Google Scholar来深入研究学术文献?这里有你应该知道的事情:这些使用户能够“搜索世界上最全面的全文书籍索引”——以及跨任何学科搜索学术文献——的网站已经开始索引低质量、由AI生成的书籍,这些书籍似乎是由真实的人类作者撰写的。
这种令人不安的趋势首先被404 Media发现,它使用了一个简单的技巧来追踪AI生成的书籍。如果你向ChatGPT查询当前事件,你经常会看到“根据我最后一次知识更新的信息”这样的短语。这只是OpenAI告诉你聊天机器人有时间限制在哪些信息可以访问的方式。
如果你在Google Books中搜索“根据我最后一次知识更新的信息”,你会遇到一些明显包含ChatGPT生成的内容逐字逐句的书籍。搜索这个短语会出现一页又一页的标题。有些书籍是关于ChatGPT的,并包含该短语来讨论聊天机器人的局限性,但还有数十本其他书籍则试图将AI生成的作品作为人类作者的作品来蒙混过关。
例如,一本关于波士顿马拉松爆炸案的书在描述袭击者时使用了“根据我最后一次在2021年9月更新的知识,该案件仍在进行法律诉讼,最终结果尚不确定”这一短语。该书的“作者”还有另外50部作品,包括关于冷战、9/11、美国开国元勋、古罗马、著名拳击手和著名美洲原住民等主题的书籍。
这些标题都是在2023年出版的,每本书的篇幅在50到100页之间。浏览这些书籍时,我发现每一本书都只提供了肤浅的叙述,最好的情况下也仅仅类似于维基百科条目,最差的情况下看起来就像是ChatGPT在吐露事实。在网上进行快速搜索也发现,这些书籍在亚马逊和其他零售商处有售。
当我将相同的短语输入到谷歌学术中时,它本应是人类研究的存储库,但却返回了19页的结果,包括关于有风险的青年、糖尿病、自闭症、新冠肺炎和航空公司飞行员疲劳的论文。
AI生成的内容在网络上传播并不是什么新鲜事。然而,令人担忧的是,在谷歌图书和谷歌学术等可靠资源中,AI生成的内容与人类撰写的作品同时出现。
在与404 Media的交谈中,谷歌表示,它将“继续评估我们的方法,随着图书出版界的演变”,但没有提到从这两项服务中删除这些结果。