数据集名称数据集卡片

数据集摘要

Mind2Web是用于开发和评估通用网络代理的数据集，这些代理可以根据语言指令完成任何网站上的复杂任务。现有的用于网络代理的数据集要么使用模拟网站，要么只涵盖有限的网站和任务，因此不适用于通用网络代理。Mind2Web收集了来自137个涵盖31个领域的网站的2000多个开放式任务，以及为这些任务收集的众包行动序列，为构建通用网络代理提供了三个必要的要素：1.多样化的领域、网站和任务；2.使用真实的网站而不是模拟和简化的网站；3.广泛的用户交互模式。

数据集结构

数据字段

"annotation_id" (str)：每个任务的唯一id
"website" (str)：网站名称
"domain" (str)：网站域名
"subdomain" (str)：网站子域名
"confirmed_task" (str)：任务描述
"action_reprs" (list[str])：动作序列的可读字符串表示
"actions" (list[dict])：完成任务的动作（步骤）列表
- "action_uid" (str)：每个动作（步骤）的唯一id
- "raw_html" (str)：执行动作前页面的原始HTML
- "cleaned_html" (str)：执行动作前页面的清理HTML
- "operation" (dict)：要执行的操作
  - "op" (str)：操作类型，包括CLICK，TYPE，SELECT之一
  - "original_op" (str)：原始操作类型，包括CLICK，TYPE，SELECT，并包含额外的HOVER和ENTER，但不使用
  - "value" (str)：操作的可选值，例如要输入的文本，要选择的选项
- "pos_candidates" (list[dict])：真实元素。在我们的预处理之后，我们只包括存在于"cleaned_html"中的正向元素，因此"pos_candidates"可能为空。原始标记的元素始终可以在"raw_html"中找到。
  - "tag" (str)：元素的标签
  - "is_original_target" (bool)：元素是否是由注释者标记的原始目标
  - "is_top_level_target" (bool)：元素是否是由我们的算法找到的顶级目标。请参阅论文了解更多细节。
  - "backend_node_id" (str)：元素的唯一id
  - "attributes" (str)：元素的序列化属性，使用json.loads将其转换回字典
- "neg_candidates" (list[dict])：在预处理后页面中的其他候选元素，具有与"pos_candidates"类似的结构

数据拆分

train：1,009个实例
test：（为防止潜在的数据泄漏，请查看我们的 repo 以获取有关获取测试集的信息。）
- Cross Task：252个实例，训练过程中出现了来自同一网站的任务
- Cross Website：177个实例，训练过程中未见过的网站
- Cross Domain：9,12个实例，训练过程中未见过的整个领域

许可信息

本作品根据 Creative Commons Attribution 4.0 International License 许可。

免责声明

该数据集仅用于研究目的，旨在通过语言技术使网络更具可访问性。作者坚决反对将数据或技术用于任何可能造成伤害的目的。

引用信息

@misc{deng2023mind2web,
  title={Mind2Web: Towards a Generalist Agent for the Web},
  author={Xiang Deng and Yu Gu and Boyuan Zheng and Shijie Chen and Samuel Stevens and Boshi Wang and Huan Sun and Yu Su},
  year={2023},
  eprint={2306.06070},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

作者:

osunlp

数据集大小:

5.52 GB

数据集名称 数据集卡片