数据集:
leey4n/KR3
韩国情感分类数据集
0代表负面评论,1代表正面评论,2代表模糊评论。请注意,评分2并不直接用于监督学习(分类)。该数据集的基本任务是进行二分类情感分类,标签为0和1。
在 GitHub Repo 中查看所有用于爬取/预处理数据集和使用KR3进行实验的代码。在 Kaggle Dataset 中查看Kaggle数据集。
from datasets import load_dataset kr3 = load_dataset("leey4n/KR3", name='kr3', split='train') kr3 = kr3.remove_columns(['__index_level_0__']) # Original file didn't include this column. Suspect it's a hugging face issue.
# drop reviews with ambiguous label kr3_binary = kr3.filter(lambda example: example['Rating'] != 2)
CC BY-NC-SA 4.0
我们得出结论,KR3的非商业使用和发布属于《韩国版权法》中所述的合理使用范围。我们进一步明确,我们没有同意任何可能禁止网络爬虫的网站的服务条款。换句话说,我们进行的网络爬取是在未登录网站的情况下进行的。尽管如此,如果您注意到任何法律问题,请随时与任何贡献者联系。
(按字母顺序排列)
这项工作是DIYA 4期的成果。工作所需的计算资源由 DIYA 和surromind.ai提供支持。