由OpenTensor Foundation创建的OpenValidators数据集是由 OpenValidators 项目在 W&B 中生成的数据的不断增长的集合。它包含数百万条记录,为Bittensor网络中的研究人员、数据科学家和矿工提供服务。数据集提供了有关网络性能、节点行为和wandb运行详细信息的信息。研究人员可以获得洞察力并检测模式,而数据科学家可以用它来训练模型和分析。矿工可以使用生成的数据来优化他们的模型并增强他们在网络中的激励。数据集的持续更新支持去中心化计算中的协作和创新。
此数据集不断发展,为了便于数据管理,每个数据模式都在hugging face数据集分支中进行版本控制,以便可以轻松检索旧数据。
主分支(或默认修订版)始终是最新的数据集版本,遵循OpenValidators采用的最新模式。
当前的数据组织状态如下:
数据集库允许您在纯Python中以大规模加载和预处理数据集。
OpenValidators数据集使您能够通过运行ID、OpenValidators版本和多个OpenValidators版本的方式提取数据的细粒度。您可以使用load_dataset函数一次性将数据集下载和准备到本地驱动器中。
按运行ID下载
例如,要下载特定运行的数据,只需指定相应的OpenValidators版本和wandb运行ID,格式为version/raw_data/run_id.parquet:
from datasets import load_dataset version = '1.1.0' # OpenValidators version run_id = '0drg98iy' # WandB run id run_id_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/{run_id}.parquet')
请注意,只有已完成的运行ID包含在数据集中。在进行中的运行将在完成后不久被摄取。
按OpenValidators版本下载
用户还可以利用数据集库下载确定OpenValidators版本中的所有运行。这对于研究人员和数据爱好者来说非常有用,他们希望在特定的OpenValidators版本状态下进行分析。
from datasets import load_dataset version = '1.1.0' # Openvalidators version version_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/*')
按多个OpenValidators版本下载
利用数据集库,用户可以高效地下载来自多个OpenValidators版本的运行。通过访问来自各种OpenValidators版本的数据,用户可以进行下游任务,如挖掘的数据微调或进行大数据分析。
from datasets import load_dataset versions = ['1.1.0', '1.1.1', ...] # Desired versions for extraction data_files = [f'{version}/raw_data/*' for version in versions] # Set data files directories dataset = load_dataset('opentensor/openvalidators', data_files={ 'test': data_files })
使用修订版下载旧数据
from datasets import load_dataset version = '1.0.4' # OpenValidators version run_id = '0plco3n0' # WandB run id revision = 'v1.0' # Dataset revision run_id_dataset = load_dataset('opentensor/openvalidators', data_files=f'{version}/raw_data/{run_id}.parquet', revision=revision)
注意:只要数据范围在同一修订版内,您可以按照上述所有方式与旧数据进行交互。
分析元数据
您可以使用pandas和hugging face数据集结构轻松访问与wandb数据摄取的详细信息相关的所有状态。此数据包含与运行的元数据相关的重要信息,包括用户信息、配置信息和摄取状态。
import pandas as pd version = '1.1.0' # OpenValidators version for metadata analysis df = pd.read_csv(f'hf://datasets/opentensor/openvalidators/{version}/metadata.csv')
版本化的原始数据
数据按照原样提供,没有经过进一步的预处理或标记化。此数据位于version/raw_data,每个文件是一个wandb运行。
元数据
此数据集定义了根据运行ID的wandb数据摄取的当前状态。
原始数据
从W&B收集的版本化原始数据遵循以下模式:
元数据
此数据集的策划目的是提供一个全面可靠的历史数据集合,该集合是通过运行不同的OpenValidators在bittensor网络中获得的。目标是通过网络中生成的数据来支持研究人员、数据科学家和开发人员,以促进新的洞察力发现、网络分析、故障排除和下游任务(如挖掘)的数据提取。
此数据集的初始数据采集过程涉及由专门的工作人员进行的定期收集,该工作人员负责从wandb中提取数据并将其摄取到Hugging Face数据集结构中。收集到的数据根据OpenValidators版本和运行ID进行组织,以便进行高效的数据管理和细粒度访问。每个运行基于其相应的OpenValidators版本标签进行收集,并分组到特定版本的文件夹中。在每个版本文件夹内,都包括一个metadata.csv文件来管理收集状态,而每个运行的原始数据以.parquet格式保存,文件名对应于运行ID(例如,run_id.parquet)。请注意,此数据收集过程的代码将被公开以确保透明度和可复制性。
谁是源语言的制造者?此数据集的语言制造者是所有将其数据记录到wandb中的openvalidators,与bittensor网络的其他节点一起。可以通过 https://wandb.ai/opentensor-dev/openvalidators/table 访问数据被发送到的主要wandb页面。
该数据集在 MIT License 下获得许可。
[需要更多信息]
[需要更多信息]
[需要更多信息]