由OpenTensor Foundation创建的OpenValidators数据集是由 OpenValidators 项目在 W&B 中生成的数据的持续增长的集合。它包含了成千上万条记录,并为Bittensor网络中的研究人员,数据科学家和矿工提供服务。该数据集提供网络性能,节点行为和wandb运行详细信息。研究人员可以获得洞察力并检测模式,而数据科学家可以用于训练模型和分析。矿工可以使用生成的数据来微调他们的模型并增强他们在网络中的激励。数据集的持续更新支持分布式计算中的协作和创新。
数据集库允许您以纯Python方式大规模加载和预处理数据集。
OpenValidators数据集允许您通过run_id,OpenValidators版本和多个OpenValidators版本的方式提取数据的细节。可以使用load_dataset函数仅使用一个调用将数据集下载并准备在本地驱动器中。
通过run_id下载
例如,要下载特定运行的数据,只需指定相应的OpenValidators版本和wandb运行ID,格式为version/raw_data/run_id.parquet:
from datasets import load_dataset version = '1.0.4' # OpenValidators version run_id = '0plco3n0' # WandB run id run_id_dataset = load_dataset('opentensor/openvalidators-test', data_files=f'{version}/raw_data/{run_id}.parquet')
请注意,数据集中仅包含已完成的运行ID。尚未完成的运行将在完成后不久被摄入。
通过OpenValidators版本下载
用户还可以利用数据集库来下载确定的OpenValidators版本中的所有运行。这对于研究人员和数据爱好者来说是有用的,他们希望在特定的OpenValidators版本状态下进行分析。
from datasets import load_dataset version = '1.0.4' # Openvalidators version version_dataset = load_dataset('opentensor/openvalidators-test', data_files=f'{version}/raw_data/*')
通过多个OpenValidators版本下载
使用数据集库,用户可以高效地下载来自多个OpenValidators版本的运行。通过访问来自不同OpenValidators版本的数据,用户可以进行数据微调以进行挖掘或进行大数据分析等下游任务。
from datasets import load_dataset versions = ['1.0.0', '1.0.1', '1.0.2', '1.0.4'] # Desired versions for extraction data_files = [f'{version}/raw_data/*' for version in versions] # Set data files directories dataset = load_dataset('opentensor/openvalidators-test', data_files={ 'test': data_files })
分析元数据
可以使用pandas和hugging face数据集结构轻松访问与wandb数据摄入的详细信息相关的所有状态。该数据包含有关运行的元数据的相关信息,包括用户信息,配置信息和摄入状态。
import pandas as pd version = '1.0.4' # OpenValidators version for metadata analysis df = pd.read_csv(f'hf://datasets/opentensor/openvalidators-test/{version}/metadata.csv')
versioned raw_data
该数据以wandb日志的原始形式提供,没有进一步的预处理或标记化。这些数据位于version/raw_data中,其中每个文件都是一个wandb运行。
元数据
该数据集通过运行ID定义了wandb数据摄入的当前状态。
原始数据
从W&B收集的版本化raw_data遵循以下模式:
元数据
此数据集的策划是为了提供一个全面和可靠的历史数据集合,这些数据是通过在bittensor网络中执行不同的OpenValidators获得的。目标是为研究人员,数据科学家和开发人员提供在网络中生成的数据,以便于发现新的洞察力,网络分析,故障排除以及用于挖掘等下游任务的数据提取。
此数据集的初始数据收集过程涉及由专门的工作人员定期收集的工作人员,负责从wandb提取数据并将其摄入Hugging Face数据集结构中。收集到的数据是根据OpenValidators版本和运行ID组织的,以便于高效的数据管理和细粒度访问。每个运行是基于其相应的OpenValidators版本标签收集的,并分组到版本特定的文件夹中。在每个版本文件夹中,都包含一个metadata.csv文件来管理收集状态,而每个运行的原始数据则以.parquet格式保存在与run ID相对应的文件名中(例如,run_id.parquet)。请注意,此数据收集过程的代码将被公开以保证透明度和可重复性。
谁是源语言制片方?这个数据集的语言制片方是所有将其数据记录到wandb中的openvalidators和其他bittensor网络的节点。可以在 https://wandb.ai/opentensor-dev/openvalidators/table 处访问Wandb页面。
该数据集根据 MIT License 许可。
[需要更多信息]
[需要更多信息]
[需要更多信息]