数据集:

Finnish-NLP/mc4_fi_cleaned

英文

mC4 Finnish Cleaned 数据集卡片

数据集简介

mC4 Finnish Cleaned 是原始的 mC4 Finnish 拆分数据集的清理版本。

支持的任务和榜单

mC4 Finnish 主要用于预训练芬兰语言模型和单词表示。

语言

芬兰语

数据集结构

数据实例

[需要更多信息]

数据字段

数据包含多个字段:

  • url: 来源的 URL,字符串类型
  • text: 文本内容,字符串类型
  • timestamp: 时间戳,字符串类型
  • perplexity_kenlm_full: 使用 KenLM 模型计算的文本困惑度

数据拆分

训练集 验证集

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和归一化

[需要更多信息]

资源语言的生产者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]