数据集:

opentensor/openvalidators-test

大小:

1M<n<10M

许可:

mit
英文

Openvalidators数据集的数据卡片

数据集概述

由OpenTensor Foundation创建的OpenValidators数据集是由 OpenValidators 项目在 W&B 中生成的数据的持续增长的集合。它包含了成千上万条记录,并为Bittensor网络中的研究人员,数据科学家和矿工提供服务。该数据集提供网络性能,节点行为和wandb运行详细信息。研究人员可以获得洞察力并检测模式,而数据科学家可以用于训练模型和分析。矿工可以使用生成的数据来微调他们的模型并增强他们在网络中的激励。数据集的持续更新支持分布式计算中的协作和创新。

如何使用

数据集库允许您以纯Python方式大规模加载和预处理数据集。

OpenValidators数据集允许您通过run_id,OpenValidators版本和多个OpenValidators版本的方式提取数据的细节。可以使用load_dataset函数仅使用一个调用将数据集下载并准备在本地驱动器中。

通过run_id下载

例如,要下载特定运行的数据,只需指定相应的OpenValidators版本和wandb运行ID,格式为version/raw_data/run_id.parquet:

from datasets import load_dataset

version = '1.0.4' # OpenValidators version
run_id = '0plco3n0' # WandB run id
run_id_dataset = load_dataset('opentensor/openvalidators-test', data_files=f'{version}/raw_data/{run_id}.parquet')

请注意,数据集中仅包含已完成的运行ID。尚未完成的运行将在完成后不久被摄入。

通过OpenValidators版本下载

用户还可以利用数据集库来下载确定的OpenValidators版本中的所有运行。这对于研究人员和数据爱好者来说是有用的,他们希望在特定的OpenValidators版本状态下进行分析。

from datasets import load_dataset

version = '1.0.4' # Openvalidators version
version_dataset = load_dataset('opentensor/openvalidators-test', data_files=f'{version}/raw_data/*')

通过多个OpenValidators版本下载

使用数据集库,用户可以高效地下载来自多个OpenValidators版本的运行。通过访问来自不同OpenValidators版本的数据,用户可以进行数据微调以进行挖掘或进行大数据分析等下游任务。

from datasets import load_dataset

versions = ['1.0.0', '1.0.1', '1.0.2', '1.0.4'] # Desired versions for extraction
data_files = [f'{version}/raw_data/*' for version in versions] # Set data files directories
dataset = load_dataset('opentensor/openvalidators-test', data_files={ 'test': data_files })

分析元数据

可以使用pandas和hugging face数据集结构轻松访问与wandb数据摄入的详细信息相关的所有状态。该数据包含有关运行的元数据的相关信息,包括用户信息,配置信息和摄入状态。

import pandas as pd

version = '1.0.4' # OpenValidators version for metadata analysis
df = pd.read_csv(f'hf://datasets/opentensor/openvalidators-test/{version}/metadata.csv')

数据集结构

数据实例

versioned raw_data

该数据以wandb日志的原始形式提供,没有进一步的预处理或标记化。这些数据位于version/raw_data中,其中每个文件都是一个wandb运行。

元数据

该数据集通过运行ID定义了wandb数据摄入的当前状态。

数据字段

原始数据

从W&B收集的版本化raw_data遵循以下模式:

  • _runtime:(float64)事件的运行时间
  • _step:(int64)事件的步骤
  • _timestamp:(float64)事件的时间戳
  • answer_completions:(list(string))answer_prompt的完成情况
  • answer_prompt:(string)用于生成答案的提示
  • answer_rewards:(list(float64))答案回应的奖励
  • answer_times:(list(float64))答案回应的经过时间
  • answer_uids:(list(int32))回答答案提示的节点的UID
  • base_prompt:(string)引导提示
  • best_answer:(string)最佳答案回应
  • best_followup:(string)最佳后续回应
  • block:(float64)子张量当前块
  • followup_completions:(list(string))base_prompt的完成情况
  • followup_rewards:(list(float64))跟进回应的奖励
  • followup_times:(list(float64))跟进回应的花费时间
  • followup_uids:(list(int64))回答base_prompt的节点的UID
  • gating_loss:(float64)门控模型损失
  • gating_scorings:(list(float64))事件发生时的门控模型分数
  • moving_averaged_scores:(list(float64))事件发生时的移动平均分数
  • set_weights:(list(list(float64))根据UID的节点的处理权重
  • step_length:(float64)从前向调用开始到事件日志记录的时间差异

元数据

  • run_id:(字符串)Wandb运行ID
  • completed:(布尔值)指示run_id是否已完成(完成,崩溃或终止)的标志
  • downloaded:(布尔值)指示是否已下载run_id数据的标志
  • last_checkpoint:(字符串)run_id的最后一个检查点
  • hotkey:(字符串)与run_id关联的热键
  • openvalidators_version:(字符串)与run_id关联的OpenValidators版本
  • problematic:(布尔值)指示run_id数据是否存在问题的标志
  • problematic_reason:(字符串)导致run_id出现问题的原因(异常消息)
  • wandb_json_config:(字符串)与Wandb中run_id关联的JSON配置
  • wandb_run_name:(字符串)Wandb运行的名称
  • wandb_user_info:(字符串)与Wandb运行相关的用户名信息
  • wandb_tags:(列表)与Wandb运行相关联的标签列表
  • wandb_createdAt:(字符串)在Wandb中创建运行的时间戳

数据集创建

策划原因

此数据集的策划是为了提供一个全面和可靠的历史数据集合,这些数据是通过在bittensor网络中执行不同的OpenValidators获得的。目标是为研究人员,数据科学家和开发人员提供在网络中生成的数据,以便于发现新的洞察力,网络分析,故障排除以及用于挖掘等下游任务的数据提取。

源数据

初始数据收集和归一化

此数据集的初始数据收集过程涉及由专门的工作人员定期收集的工作人员,负责从wandb提取数据并将其摄入Hugging Face数据集结构中。收集到的数据是根据OpenValidators版本和运行ID组织的,以便于高效的数据管理和细粒度访问。每个运行是基于其相应的OpenValidators版本标签收集的,并分组到版本特定的文件夹中。在每个版本文件夹中,都包含一个metadata.csv文件来管理收集状态,而每个运行的原始数据则以.parquet格式保存在与run ID相对应的文件名中(例如,run_id.parquet)。请注意,此数据收集过程的代码将被公开以保证透明度和可重复性。

谁是源语言制片方?

这个数据集的语言制片方是所有将其数据记录到wandb中的openvalidators和其他bittensor网络的节点。可以在 https://wandb.ai/opentensor-dev/openvalidators/table 处访问Wandb页面。

许可信息

该数据集根据 MIT License 许可。

支持的任务和排行榜

[需要更多信息]

引用信息

[需要更多信息]

贡献

[需要更多信息]