数据集:

Anthropic/llm_global_opinions

预印本库:

arxiv:2306.16388

大小:

1K<n<10K

语言:

en
英文

GlobalOpinionQA 数据集卡片

数据集摘要

该数据集包含从 World Values Survey Pew Global Attitudes Survey 中适应的关于全球问题和观点的调查问题子集。

该数据在论文 Towards Measuring the Representation of Subjective Global Opinions in Language Models 中有进一步的描述。

目的

在我们的论文中,我们使用这个数据集来分析大型语言模型(LLMs)对复杂全球问题的反映的观点。我们的目标是通过评估它们在主观主题上的表现,深入了解AI系统中的潜在偏见问题。

数据格式

数据以CSV文件格式呈现,包含以下列:

  • 问题:调查问题的文本。
  • 选择:一个字典,键为国家名称,值为该国家每个答案选项的调查者选择百分比列表。
  • 选项:给定问题的答案选项列表。
  • 来源:GAS/WVS,取决于问题是来自全球态度调查还是世界价值观调查。

用途

from datasets import load_dataset
# Loading the data
dataset = load_dataset("Anthropic/llm_global_opinions")

声明

我们意识到使用这个数据集来评估LLMs存在一些局限性,因为它们并非专为此目的而设计。因此,我们认识到将这些数据集应用于LLMs时的构造效度可能有限。

联系方式

如有问题,请发送电子邮件至 esin at anthropic dot com

引用

如果您想引用我们的工作或数据,可以使用以下 bibtex 引用:

@misc{durmus2023measuring,
      title={Towards Measuring the Representation of Subjective Global Opinions in Language Models}, 
      author={Esin Durmus and Karina Nyugen and Thomas I. Liao and Nicholas Schiefer and Amanda Askell and Anton Bakhtin and Carol Chen and Zac Hatfield-Dodds and Danny Hernandez and Nicholas Joseph and Liane Lovitt and Sam McCandlish and Orowa Sikder and Alex Tamkin and Janel Thamkul and Jared Kaplan and Jack Clark and Deep Ganguli},
      year={2023},
      eprint={2306.16388},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}