数据集:
TheGreatRambler/mm2_level_comments
其他:
text-mining许可:
cc-by-nc-sa-4.0源数据集:
original大小:
10M<n<100M计算机处理:
multilingual语言:
multilingual部分 Mario Maker 2 Dataset Collection
Mario Maker 2级别评论数据集包含来自任天堂在线服务的3190万个级别评论,总计约为20GB的数据。该数据集是使用自托管 Mario Maker 2 api 在2022年2月的一个月内创建的。
Mario Maker 2级别评论数据集是一个非常庞大的数据集,因此对于大多数用例,建议使用数据集的流API。您可以使用以下代码加载并迭代数据集:
from datasets import load_dataset ds = load_dataset("TheGreatRambler/mm2_level_comments", streaming=True, split="train") print(next(iter(ds))) #OUTPUT: { 'data_id': 3000006, 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6', 'type': 2, 'pid': '3471680967096518562', 'posted': 1561652887, 'clear_required': 0, 'text': '', 'reaction_image_id': 10, 'custom_image': [some binary data], 'has_beaten': 0, 'x': 557, 'y': 64, 'reaction_face': 0, 'unk8': 0, 'unk10': 0, 'unk12': 0, 'unk14': [some binary data], 'unk17': 0 }
评论可以是文本、反应图像或自定义图像中的一种。 通过下面的枚举可以使用type来标识不同类型的评论。自定义图像是二进制PNG文件。
您也可以下载完整的数据集。请注意,这将下载约20GB的数据:
ds = load_dataset("TheGreatRambler/mm2_level_comments", split="train")
{ 'data_id': 3000006, 'comment_id': '20200430072710528979_302de3722145c7a2_2dc6c6', 'type': 2, 'pid': '3471680967096518562', 'posted': 1561652887, 'clear_required': 0, 'text': '', 'reaction_image_id': 10, 'custom_image': [some binary data], 'has_beaten': 0, 'x': 557, 'y': 64, 'reaction_face': 0, 'unk8': 0, 'unk10': 0, 'unk12': 0, 'unk14': [some binary data], 'unk17': 0 }
Field | Type | Description |
---|---|---|
data_id | int | The data ID of the level this comment appears on |
comment_id | string | Comment ID |
type | int | Type of comment, enum below |
pid | string | Player ID of the comment creator |
posted | int | UTC timestamp of when this comment was created |
clear_required | bool | Whether this comment requires a clear to view |
text | string | If the comment type is text, the text of the comment |
reaction_image_id | int | If this comment is a reaction image, the id of the reaction image, enum below |
custom_image | bytes | If this comment is a custom drawing, the custom drawing as a PNG binary |
has_beaten | int | Whether the user had beaten the level when they created the comment |
x | int | The X position of the comment in game |
y | int | The Y position of the comment in game |
reaction_face | int | The reaction face of the mii of this user, enum below |
unk8 | int | Unknown |
unk10 | int | Unknown |
unk12 | int | Unknown |
unk14 | bytes | Unknown |
unk17 | int | Unknown |
数据集只包含训练集。
数据集包含一些枚举整数字段。这可用于转换回它们的字符串等效项:
CommentType = { 0: "Custom Image", 1: "Text", 2: "Reaction Image" } CommentReactionImage = { 0: "Nice!", 1: "Good stuff!", 2: "So tough...", 3: "EASY", 4: "Seriously?!", 5: "Wow!", 6: "Cool idea!", 7: "SPEEDRUN!", 8: "How?!", 9: "Be careful!", 10: "So close!", 11: "Beat it!" } CommentReactionFace = { 0: "Normal", 16: "Wink", 1: "Happy", 4: "Surprised", 18: "Scared", 3: "Confused" }
该数据集是在2022年2月的一个多月内使用自托管 Mario Maker 2 api 创建的。由于向任天堂的服务器发送的请求需要进行身份验证,因此必须非常小心地进行该过程,并限制下载速度,以免超过API的负荷并有风险被禁用。目前没有创建此数据集的更新版本的意图。
该数据集由来自全球各地的许多不同Mario Maker 2玩家的评论组成,因此他们的文本可能包含有害语言。自定义图像中也可能存在有害描绘。