数据集:

osunlp/Mind2Web

许可:

cc-by-4.0

其他:

Web+Agent

预印本库:

arxiv:2306.06070

大小:

1K<n<10K

语言:

en
英文

数据集名称 数据集卡片

数据集摘要

Mind2Web是用于开发和评估通用网络代理的数据集,这些代理可以根据语言指令完成任何网站上的复杂任务。现有的用于网络代理的数据集要么使用模拟网站,要么只涵盖有限的网站和任务,因此不适用于通用网络代理。Mind2Web收集了来自137个涵盖31个领域的网站的2000多个开放式任务,以及为这些任务收集的众包行动序列,为构建通用网络代理提供了三个必要的要素:1.多样化的领域、网站和任务;2.使用真实的网站而不是模拟和简化的网站;3.广泛的用户交互模式。

数据集结构

数据字段

  • "annotation_id" (str):每个任务的唯一id
  • "website" (str):网站名称
  • "domain" (str):网站域名
  • "subdomain" (str):网站子域名
  • "confirmed_task" (str):任务描述
  • "action_reprs" (list[str]):动作序列的可读字符串表示
  • "actions" (list[dict]):完成任务的动作(步骤)列表
    • "action_uid" (str):每个动作(步骤)的唯一id
    • "raw_html" (str):执行动作前页面的原始HTML
    • "cleaned_html" (str):执行动作前页面的清理HTML
    • "operation" (dict):要执行的操作
      • "op" (str):操作类型,包括CLICK,TYPE,SELECT之一
      • "original_op" (str):原始操作类型,包括CLICK,TYPE,SELECT,并包含额外的HOVER和ENTER,但不使用
      • "value" (str):操作的可选值,例如要输入的文本,要选择的选项
    • "pos_candidates" (list[dict]):真实元素。在我们的预处理之后,我们只包括存在于"cleaned_html"中的正向元素,因此"pos_candidates"可能为空。原始标记的元素始终可以在"raw_html"中找到。
      • "tag" (str):元素的标签
      • "is_original_target" (bool):元素是否是由注释者标记的原始目标
      • "is_top_level_target" (bool):元素是否是由我们的算法找到的顶级目标。请参阅论文了解更多细节。
      • "backend_node_id" (str):元素的唯一id
      • "attributes" (str):元素的序列化属性,使用json.loads将其转换回字典
    • "neg_candidates" (list[dict]):在预处理后页面中的其他候选元素,具有与"pos_candidates"类似的结构

数据拆分

  • train:1,009个实例
  • test:(为防止潜在的数据泄漏,请查看我们的 repo 以获取有关获取测试集的信息。)
    • Cross Task:252个实例,训练过程中出现了来自同一网站的任务
    • Cross Website:177个实例,训练过程中未见过的网站
    • Cross Domain:9,12个实例,训练过程中未见过的整个领域

许可信息

本作品根据 Creative Commons Attribution 4.0 International License 许可。

免责声明

该数据集仅用于研究目的,旨在通过语言技术使网络更具可访问性。作者坚决反对将数据或技术用于任何可能造成伤害的目的。

引用信息

@misc{deng2023mind2web,
  title={Mind2Web: Towards a Generalist Agent for the Web},
  author={Xiang Deng and Yu Gu and Boyuan Zheng and Shijie Chen and Samuel Stevens and Boshi Wang and Huan Sun and Yu Su},
  year={2023},
  eprint={2306.06070},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}