数据集:

TheGreatRambler/mm2_level_comments

英文

Mario Maker 2级别评论

部分 Mario Maker 2 Dataset Collection

数据集描述

Mario Maker 2级别评论数据集包含来自任天堂在线服务的3190万个级别评论,总计约为20GB的数据。该数据集是使用自托管 Mario Maker 2 api 在2022年2月的一个月内创建的。

如何使用

Mario Maker 2级别评论数据集是一个非常庞大的数据集,因此对于大多数用例,建议使用数据集的流API。您可以使用以下代码加载并迭代数据集:

from datasets import load_dataset

ds = load_dataset("TheGreatRambler/mm2_level_comments", streaming=True, split="train")
print(next(iter(ds)))

#OUTPUT:
{
 'data_id': 3000006,
 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
 'type': 2,
 'pid': '3471680967096518562',
 'posted': 1561652887,
 'clear_required': 0,
 'text': '',
 'reaction_image_id': 10,
 'custom_image': [some binary data],
 'has_beaten': 0,
 'x': 557,
 'y': 64,
 'reaction_face': 0,
 'unk8': 0,
 'unk10': 0,
 'unk12': 0,
 'unk14': [some binary data],
 'unk17': 0
}

评论可以是文本、反应图像或自定义图像中的一种。 通过下面的枚举可以使用type来标识不同类型的评论。自定义图像是二进制PNG文件。

您也可以下载完整的数据集。请注意,这将下载约20GB的数据:

ds = load_dataset("TheGreatRambler/mm2_level_comments", split="train")

数据结构

数据实例

{
 'data_id': 3000006,
 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
 'type': 2,
 'pid': '3471680967096518562',
 'posted': 1561652887,
 'clear_required': 0,
 'text': '',
 'reaction_image_id': 10,
 'custom_image': [some binary data],
 'has_beaten': 0,
 'x': 557,
 'y': 64,
 'reaction_face': 0,
 'unk8': 0,
 'unk10': 0,
 'unk12': 0,
 'unk14': [some binary data],
 'unk17': 0
}

数据字段

Field Type Description
data_id int The data ID of the level this comment appears on
comment_id string Comment ID
type int Type of comment, enum below
pid string Player ID of the comment creator
posted int UTC timestamp of when this comment was created
clear_required bool Whether this comment requires a clear to view
text string If the comment type is text, the text of the comment
reaction_image_id int If this comment is a reaction image, the id of the reaction image, enum below
custom_image bytes If this comment is a custom drawing, the custom drawing as a PNG binary
has_beaten int Whether the user had beaten the level when they created the comment
x int The X position of the comment in game
y int The Y position of the comment in game
reaction_face int The reaction face of the mii of this user, enum below
unk8 int Unknown
unk10 int Unknown
unk12 int Unknown
unk14 bytes Unknown
unk17 int Unknown

数据拆分

数据集只包含训练集。

枚举

数据集包含一些枚举整数字段。这可用于转换回它们的字符串等效项:

CommentType = {
    0: "Custom Image",
    1: "Text",
    2: "Reaction Image"
}

CommentReactionImage = {
    0: "Nice!",
    1: "Good stuff!",
    2: "So tough...",
    3: "EASY",
    4: "Seriously?!",
    5: "Wow!",
    6: "Cool idea!",
    7: "SPEEDRUN!",
    8: "How?!",
    9: "Be careful!",
    10: "So close!",
    11: "Beat it!"
}

CommentReactionFace = {
    0: "Normal",
    16: "Wink",
    1: "Happy",
    4: "Surprised",
    18: "Scared",
    3: "Confused"
}

数据集创建

该数据集是在2022年2月的一个多月内使用自托管 Mario Maker 2 api 创建的。由于向任天堂的服务器发送的请求需要进行身份验证,因此必须非常小心地进行该过程,并限制下载速度,以免超过API的负荷并有风险被禁用。目前没有创建此数据集的更新版本的意图。

使用数据时的注意事项

该数据集由来自全球各地的许多不同Mario Maker 2玩家的评论组成,因此他们的文本可能包含有害语言。自定义图像中也可能存在有害描绘。