数据集:
classla/FRENK-hate-hr
FRENK dataset 的克罗地亚评论的冒犯性语言数据集。还可在HuggingFace数据集中心获得: English subset , Slovenian subset
FRENK数据集原始包含来自克罗地亚、英国和斯洛文尼亚主流媒体在移民和LGBT话题上的Facebook帖子(新闻文章)的评论。该数据集包含完整的讨论线程。每个评论都用社会不可接受的言论类型(例如不适当的、冒犯的、暴力的言论)及其目标(例如移民/LGBT、评论者、媒体)进行了注释。注释方案在 https://arxiv.org/pdf/1906.02045.pdf] 中有详细描述。元数据中的用户名经过伪匿名化处理并从评论中删除。
每种语言(克罗地亚语(hr)、英语(en)、斯洛文尼亚语(sl))和主题(移民、LGBT)的数据都分为训练集和测试集部分。训练和测试数据由单独的讨论线程组成,即训练和测试数据之间没有跨讨论线程的污染。拆分的大小如下:克罗地亚、移民:4356个训练评论,978个测试评论;克罗地亚LGBT:4494个训练评论,1142个评论;英语、移民:4540个训练评论,1285个测试评论;英语、LGBT:4819个训练评论,1017个测试评论;斯洛文尼亚、移民:5145个训练评论,1277个测试评论;斯洛文尼亚、LGBT:2842个训练评论,900个测试评论。
仅使用了此数据集中的克罗地亚数据。训练部分已分为开头90%(发布在此处作为训练集)和结尾10%(发布在此处作为开发集)。测试部分保留了其原始形式。
import datasets ds = datasets.load_dataset("classla/FRENK-hate-hr","binary")
对于二进制分类,使用以下编码:
_CLASS_MAP_BINARY = { 'Acceptable': 0, 'Offensive': 1, }
如果使用 multiclass 选项加载数据集,则可用原始标签:
import datasets ds = datasets.load_dataset("classla/FRENK-hate-hr","multiclass").
在这种情况下,使用的编码是:
_CLASS_MAP_MULTICLASS = { 'Acceptable speech': 0, 'Inappropriate': 1, 'Background offensive': 2, 'Other offensive': 3, 'Background violence': 4, 'Other violence': 5, }
{'text': 'Potpisujem komentar g ankice pavicic', 'target': 'No target', 'topic': 'lgbt', 'label': 0}
CLARIN.SI 许可证 ACA ID-BY-NC-INF-NORED 1.0
在使用此数据集时,请引用以下论文:
@misc{ljubešić2019frenk, title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English}, author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec}, year={2019}, eprint={1906.02045}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/1906.02045} }
原始数据集的引用如下:
@misc{11356/1433, title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0}, author = {Ljube{\v s}i{\'c}, Nikola and Fi{\v s}er, Darja and Erjavec, Toma{\v z}}, url = {http://hdl.handle.net/11356/1433}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0}, year = {2021} }