数据集:

scaredmeow/shopee-reviews-tl-binary

语言:

tl

大小:

10K<n<100K

数字对象标识符:

10.57967/hf/0657

许可:

odc-by
英文

数据集名称数据集卡片

数据集概述

此数据集卡片旨在作为新数据集的基础模板。它是使用 this raw template 生成的。

支持的任务和排行榜

[需要更多的信息]

语言

[需要更多的信息]

数据集结构

数据实例

一个典型的数据点包括文本和相应的标签。

来自YelpReviewFull测试集的一个示例如下:

{
    'label': pos,
    'text': 'Huyyy ang gandaaaaaaaaaaa. Grabe sobrang ganda talaga wala ako masabi. Complete orders pa pinadala sa akin. Buti hindi nabasag kahit walang bubble wrap. Okay na lang din para save mother earth and at least hindi nabasag hehe. Oorder ulit ako ang ganda eh'
}

数据字段

  • 'text': 评论文本使用双引号(")进行转义,任何内部双引号都被两个双引号("")转义。
  • 'label': 与评论相关联的得分(介于正面和负面之间)。

数据拆分

Shopee评论tl二进制数据集是通过随机选择每个评星的14000个训练样本和3000个样本进行测试和验证而构建的。总共有28000个训练样本和每个验证样本以及测试样本都有6000个。

数据集创建

策划理由

[需要更多的信息]

源数据

初始数据收集和规范化

[需要更多的信息]

谁是源语言生成者?

[需要更多的信息]

注释

注释过程

[需要更多的信息]

谁是注释者?

[需要更多的信息]

个人和敏感信息

[需要更多的信息]

使用数据的注意事项

数据集的社会影响

[需要更多的信息]

偏见讨论

[需要更多的信息]

其他已知限制

[需要更多的信息]

附加信息

数据集策划者

[需要更多的信息]

许可信息

[需要更多的信息]

引用信息

[需要更多的信息]

贡献

[需要更多的信息]