数据集名称 数据集卡片
数据集摘要
Mind2Web是用于开发和评估通用网络代理的数据集,这些代理可以根据语言指令完成任何网站上的复杂任务。现有的用于网络代理的数据集要么使用模拟网站,要么只涵盖有限的网站和任务,因此不适用于通用网络代理。Mind2Web收集了来自137个涵盖31个领域的网站的2000多个开放式任务,以及为这些任务收集的众包行动序列,为构建通用网络代理提供了三个必要的要素:1.多样化的领域、网站和任务;2.使用真实的网站而不是模拟和简化的网站;3.广泛的用户交互模式。
数据集结构
数据字段
- "annotation_id" (str):每个任务的唯一id
- "website" (str):网站名称
- "domain" (str):网站域名
- "subdomain" (str):网站子域名
- "confirmed_task" (str):任务描述
- "action_reprs" (list[str]):动作序列的可读字符串表示
- "actions" (list[dict]):完成任务的动作(步骤)列表
- "action_uid" (str):每个动作(步骤)的唯一id
- "raw_html" (str):执行动作前页面的原始HTML
- "cleaned_html" (str):执行动作前页面的清理HTML
- "operation" (dict):要执行的操作
- "op" (str):操作类型,包括CLICK,TYPE,SELECT之一
- "original_op" (str):原始操作类型,包括CLICK,TYPE,SELECT,并包含额外的HOVER和ENTER,但不使用
- "value" (str):操作的可选值,例如要输入的文本,要选择的选项
- "pos_candidates" (list[dict]):真实元素。在我们的预处理之后,我们只包括存在于"cleaned_html"中的正向元素,因此"pos_candidates"可能为空。原始标记的元素始终可以在"raw_html"中找到。
- "tag" (str):元素的标签
- "is_original_target" (bool):元素是否是由注释者标记的原始目标
- "is_top_level_target" (bool):元素是否是由我们的算法找到的顶级目标。请参阅论文了解更多细节。
- "backend_node_id" (str):元素的唯一id
- "attributes" (str):元素的序列化属性,使用json.loads将其转换回字典
- "neg_candidates" (list[dict]):在预处理后页面中的其他候选元素,具有与"pos_candidates"类似的结构
数据拆分
- train:1,009个实例
- test:(为防止潜在的数据泄漏,请查看我们的
repo
以获取有关获取测试集的信息。)
- Cross Task:252个实例,训练过程中出现了来自同一网站的任务
- Cross Website:177个实例,训练过程中未见过的网站
- Cross Domain:9,12个实例,训练过程中未见过的整个领域
许可信息
本作品根据
Creative Commons Attribution 4.0 International License
许可。
免责声明
该数据集仅用于研究目的,旨在通过语言技术使网络更具可访问性。作者坚决反对将数据或技术用于任何可能造成伤害的目的。
引用信息
@misc{deng2023mind2web,
title={Mind2Web: Towards a Generalist Agent for the Web},
author={Xiang Deng and Yu Gu and Boyuan Zheng and Shijie Chen and Samuel Stevens and Boshi Wang and Huan Sun and Yu Su},
year={2023},
eprint={2306.06070},
archivePrefix={arXiv},
primaryClass={cs.CL}
}