在统计学家中有一个常见的真理:“数据不会说谎。” 然而,意大利研究人员的最新发现可能会让研究数据的人在做出这样的假设前再三考虑。
意大利卡利亚里大学的眼科手术医生Giuseppe Giannaccare报告称,ChatGPT用几分钟时间就编造了大量令人信服的假数据来支持一种眼科手术方式超过另一种。
“GPT-4在几分钟内创建了一个包含几百名患者的假数据集,”Giannaccare说。“这是一个令人惊讶的——同时也是令人害怕的——经历。”
自从该模型一年前向世界揭幕以来,有关 ChatGPT伟大成就和潜力的故事不胜枚举。但与正面消息一道的还有关于 ChatGPT产生错误的、不准确的或彻底虚假信息的报道。
就在本月,剑桥词典宣布“幻觉”为年度词汇,该词指的是大型语言模型自发产生虚假信息的倾向。
对于正在研究论文的学生而言,这种假数据是个麻烦。他们可能会收到不及格的成绩。对于两名律师来说,去年春天他们不知情地依靠 ChatGPT生成了案例历史,结果被发现是捏造的,其代价是5000美元的罚款和司法制裁。
但随着虚假数据潜在地渗透到医学研究和影响医疗程序的证据出现,威胁及其后果要严重得多。
“生成式人工智能能够用来生成抄袭软件检测不出的文本已经够糟糕了,但创造出虚假但现实的数据集的能力是另一个令人担忧的新层级,”旧金山的研究完整性顾问Elisabeth Bik说。“这将使得任何研究员或研究团队非常容易生成非存在患者的虚假测量数据、虚构问卷的答案或生成大型动物实验的数据集。”
Giannaccare和他的团队指示 GPT-4,这个与高级Python基础数据分析模型连接的模型生成一个用于治疗常见眼病角膜锥的两种方法的临床试验数据。
他们向模型提供了大量关于眼病、受试者统计数据和得出结果的规则集的“非常复杂”的提示。然后,他们指示它生成对一种手术方式比另一种“有显著更好的视力和地形结果”。
结果支持了首选程序的有力案例,但完全基于虚假信息。根据早期的真实测试,两种方法之间没有显著区别。
“似乎很容易创建至少表面上看起来合理的数据集,”英国曼彻斯特大学的生物统计学家Jack Wilkinson说。他说 GPT-4输出的数据“对一个没有受过训练的眼睛来说,肯定看起来像一个真实的数据集。”
“进行这项研究的目的是揭示人工智能的阴暗面,通过展示创造和操纵数据以故意实现有偏见的结果和生成虚假医学证据是多么容易,”Giannaccare说。“潘多拉的盒子被打开了,我们还不知道科学界将如何反应与人工智能相关的潜在滥用和威胁。”
该论文《大型语言模型高级数据分析滥用创造医学研究中的虚假数据集》发表在《美国医学会眼科杂志》上,承认更仔细地审查数据可能会揭露可能伪造的迹象。一个这样的例子是,不自然数量的人为制造的受试者年龄以数字7或8结尾。
Giannaccare说,随着AI生成的输出污染了事实研究,AI也可以在开发更好的欺诈检测方法方面发挥作用。
“AI的适当使用对科学研究可能非常有益,”他说,并补充说它将“对学术诚信的未来产生重大影响。”