数据集:

opentensor/openvalidators

许可:

mit

大小:

1M<n<10M
英文

Openvalidators数据集的数据卡片

数据集概要

由OpenTensor Foundation创建的OpenValidators数据集是由 OpenValidators 项目在 W&B 中生成的数据的不断增长的集合。它包含数百万条记录,为Bittensor网络中的研究人员、数据科学家和矿工提供服务。数据集提供了有关网络性能、节点行为和wandb运行详细信息的信息。研究人员可以获得洞察力并检测模式,而数据科学家可以用它来训练模型和分析。矿工可以使用生成的数据来优化他们的模型并增强他们在网络中的激励。数据集的持续更新支持去中心化计算中的协作和创新。

版本支持和修订

此数据集不断发展,为了便于数据管理,每个数据模式都在hugging face数据集分支中进行版本控制,以便可以轻松检索旧数据。

主分支(或默认修订版)始终是最新的数据集版本,遵循OpenValidators采用的最新模式。

当前的数据组织状态如下:

  • v1.0:从第一个Openvalidators模式(版本1.0.0至1.0.8)收集的所有数据。
  • main:数据集的当前状态,遵循OpenValidators采用的最新模式(>=1.1.0)。

如何使用

数据集库允许您在纯Python中以大规模加载和预处理数据集。

OpenValidators数据集使您能够通过运行ID、OpenValidators版本和多个OpenValidators版本的方式提取数据的细粒度。您可以使用load_dataset函数一次性将数据集下载和准备到本地驱动器中。

按运行ID下载

例如,要下载特定运行的数据,只需指定相应的OpenValidators版本和wandb运行ID,格式为version/raw_data/run_id.parquet:

from datasets import load_dataset

version = '1.1.0' # OpenValidators version
run_id = '0drg98iy' # WandB run id
run_id_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/{run_id}.parquet')

请注意,只有已完成的运行ID包含在数据集中。在进行中的运行将在完成后不久被摄取。

按OpenValidators版本下载

用户还可以利用数据集库下载确定OpenValidators版本中的所有运行。这对于研究人员和数据爱好者来说非常有用,他们希望在特定的OpenValidators版本状态下进行分析。

from datasets import load_dataset

version = '1.1.0' # Openvalidators version
version_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/*')

按多个OpenValidators版本下载

利用数据集库,用户可以高效地下载来自多个OpenValidators版本的运行。通过访问来自各种OpenValidators版本的数据,用户可以进行下游任务,如挖掘的数据微调或进行大数据分析。

from datasets import load_dataset

versions = ['1.1.0', '1.1.1', ...] # Desired versions for extraction
data_files = [f'{version}/raw_data/*' for version in versions] # Set data files directories
dataset = load_dataset('opentensor/openvalidators', data_files={ 'test': data_files })

使用修订版下载旧数据

from datasets import load_dataset

version = '1.0.4' # OpenValidators version
run_id = '0plco3n0' # WandB run id
revision = 'v1.0' # Dataset revision
run_id_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/{run_id}.parquet', revision=revision)

注意:只要数据范围在同一修订版内,您可以按照上述所有方式与旧数据进行交互。

分析元数据

您可以使用pandas和hugging face数据集结构轻松访问与wandb数据摄取的详细信息相关的所有状态。此数据包含与运行的元数据相关的重要信息,包括用户信息、配置信息和摄取状态。

import pandas as pd

version = '1.1.0' # OpenValidators version for metadata analysis
df = pd.read_csv(f'hf://datasets/opentensor/openvalidators/{version}/metadata.csv')

数据集结构

数据实例

版本化的原始数据

数据按照原样提供,没有经过进一步的预处理或标记化。此数据位于version/raw_data,每个文件是一个wandb运行。

元数据

此数据集定义了根据运行ID的wandb数据摄取的当前状态。

数据字段

原始数据

从W&B收集的版本化原始数据遵循以下模式:

  • rewards:(float64)给定步骤的奖励向量
  • completion_times:(float64)给定提示的完成时间列表
  • completions:(string)给定提示的接收完成列表
  • _runtime:(float64)事件的运行时间
  • _timestamp:(float64)事件的时间戳
  • name:(string)提示类型,例如:“followup”,“answer”,“augment”
  • block:(float64)给定步骤的当前块
  • gating_loss:(float64)给定步骤的门控模型损失
  • rlhf_reward_model:(float64)rlhf奖励模型的输出向量
  • relevance_filter:(float64)相关性评分奖励模型的输出向量
  • dahoas_reward_model:(float64)dahoas奖励模型的输出向量
  • blacklist_filter:(float64)黑名单过滤器的输出向量
  • nsfw_filter:(float64)nsfw过滤器的输出向量
  • prompt_reward_model:(float64)提示奖励模型的输出向量
  • reciprocate_reward_model:(float64)回报奖励模型的输出向量
  • diversity_reward_model:(float64)多样性奖励模型的输出向量
  • set_weights:(float64)设置权重的输出向量
  • uids:(int64)查询的uids
  • _step:(int64)事件的步骤
  • prompt:(string)提示文本字符串
  • step_length:(float64)运行步骤开始到运行步骤结束的经过时间
  • best:(string)给定提示的最佳完成

元数据

  • run_id:(string)Wandb运行ID
  • completed:(boolean)标志,指示运行ID是否已完成(完成、崩溃或终止)
  • downloaded:(boolean)指示是否已下载运行ID数据
  • last_checkpoint:(string)运行ID的最后检查点
  • hotkey:(string)与运行ID关联的热键
  • openvalidators_version:(string)与运行ID关联的OpenValidators版本
  • problematic:(boolean)指示运行ID数据是否存在问题
  • problematic_reason:(string)运行ID出现问题的原因(异常消息)
  • wandb_json_config:(string)与运行ID关联的Wandb中的JSON配置
  • wandb_run_name:(string)Wandb运行的名称
  • wandb_user_info:(string)与Wandb运行关联的用户名信息
  • wandb_tags:(list)与Wandb运行关联的标签列表
  • wandb_createdAt:(string)运行在Wandb中创建的时间戳

数据集创建

策划原理

此数据集的策划目的是提供一个全面可靠的历史数据集合,该集合是通过运行不同的OpenValidators在bittensor网络中获得的。目标是通过网络中生成的数据来支持研究人员、数据科学家和开发人员,以促进新的洞察力发现、网络分析、故障排除和下游任务(如挖掘)的数据提取。

数据源

初始数据收集和规范化

此数据集的初始数据采集过程涉及由专门的工作人员进行的定期收集,该工作人员负责从wandb中提取数据并将其摄取到Hugging Face数据集结构中。收集到的数据根据OpenValidators版本和运行ID进行组织,以便进行高效的数据管理和细粒度访问。每个运行基于其相应的OpenValidators版本标签进行收集,并分组到特定版本的文件夹中。在每个版本文件夹内,都包括一个metadata.csv文件来管理收集状态,而每个运行的原始数据以.parquet格式保存,文件名对应于运行ID(例如,run_id.parquet)。请注意,此数据收集过程的代码将被公开以确保透明度和可复制性。

谁是源语言的制造者?

此数据集的语言制造者是所有将其数据记录到wandb中的openvalidators,与bittensor网络的其他节点一起。可以通过 https://wandb.ai/opentensor-dev/openvalidators/table 访问数据被发送到的主要wandb页面。

许可信息

该数据集在 MIT License 下获得许可。

支持的任务和排行榜

[需要更多信息]

引文信息

[需要更多信息]

贡献

[需要更多信息]