数据集:
TheGreatRambler/mm2_level_comments
其他:
text-mining许可:
源数据集:
original大小:
10M<n<100M计算机处理:
multilingual语言:
部分 Mario Maker 2 Dataset Collection
Mario Maker 2级别评论数据集包含来自任天堂在线服务的3190万个级别评论,总计约为20GB的数据。该数据集是使用自托管 Mario Maker 2 api 在2022年2月的一个月内创建的。
Mario Maker 2级别评论数据集是一个非常庞大的数据集,因此对于大多数用例,建议使用数据集的流API。您可以使用以下代码加载并迭代数据集:
from datasets import load_dataset
ds = load_dataset("TheGreatRambler/mm2_level_comments", streaming=True, split="train")
print(next(iter(ds)))
#OUTPUT:
{
'data_id': 3000006,
'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
'type': 2,
'pid': '3471680967096518562',
'posted': 1561652887,
'clear_required': 0,
'text': '',
'reaction_image_id': 10,
'custom_image': [some binary data],
'has_beaten': 0,
'x': 557,
'y': 64,
'reaction_face': 0,
'unk8': 0,
'unk10': 0,
'unk12': 0,
'unk14': [some binary data],
'unk17': 0
}
评论可以是文本、反应图像或自定义图像中的一种。 通过下面的枚举可以使用type来标识不同类型的评论。自定义图像是二进制PNG文件。
您也可以下载完整的数据集。请注意,这将下载约20GB的数据:
ds = load_dataset("TheGreatRambler/mm2_level_comments", split="train")
{
'data_id': 3000006,
'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6',
'type': 2,
'pid': '3471680967096518562',
'posted': 1561652887,
'clear_required': 0,
'text': '',
'reaction_image_id': 10,
'custom_image': [some binary data],
'has_beaten': 0,
'x': 557,
'y': 64,
'reaction_face': 0,
'unk8': 0,
'unk10': 0,
'unk12': 0,
'unk14': [some binary data],
'unk17': 0
}
| Field | Type | Description |
|---|---|---|
| data_id | int | The data ID of the level this comment appears on |
| comment_id | string | Comment ID |
| type | int | Type of comment, enum below |
| pid | string | Player ID of the comment creator |
| posted | int | UTC timestamp of when this comment was created |
| clear_required | bool | Whether this comment requires a clear to view |
| text | string | If the comment type is text, the text of the comment |
| reaction_image_id | int | If this comment is a reaction image, the id of the reaction image, enum below |
| custom_image | bytes | If this comment is a custom drawing, the custom drawing as a PNG binary |
| has_beaten | int | Whether the user had beaten the level when they created the comment |
| x | int | The X position of the comment in game |
| y | int | The Y position of the comment in game |
| reaction_face | int | The reaction face of the mii of this user, enum below |
| unk8 | int | Unknown |
| unk10 | int | Unknown |
| unk12 | int | Unknown |
| unk14 | bytes | Unknown |
| unk17 | int | Unknown |
数据集只包含训练集。
数据集包含一些枚举整数字段。这可用于转换回它们的字符串等效项:
CommentType = {
0: "Custom Image",
1: "Text",
2: "Reaction Image"
}
CommentReactionImage = {
0: "Nice!",
1: "Good stuff!",
2: "So tough...",
3: "EASY",
4: "Seriously?!",
5: "Wow!",
6: "Cool idea!",
7: "SPEEDRUN!",
8: "How?!",
9: "Be careful!",
10: "So close!",
11: "Beat it!"
}
CommentReactionFace = {
0: "Normal",
16: "Wink",
1: "Happy",
4: "Surprised",
18: "Scared",
3: "Confused"
}
该数据集是在2022年2月的一个多月内使用自托管 Mario Maker 2 api 创建的。由于向任天堂的服务器发送的请求需要进行身份验证,因此必须非常小心地进行该过程,并限制下载速度,以免超过API的负荷并有风险被禁用。目前没有创建此数据集的更新版本的意图。
该数据集由来自全球各地的许多不同Mario Maker 2玩家的评论组成,因此他们的文本可能包含有害语言。自定义图像中也可能存在有害描绘。