数据集:

Nan-Do/OpenSubtitlesJapanese

英文

该数据集包含了(几乎)整个日本OpenSubtitles数据库的内容:

  • 7000多部电视节目和/或电影。
  • 字幕由人工生成。
  • 数据集已被解析、清理并转换为UTF-8格式。

文件内容:

  • OpenSubtitles.parquet:文本和时间数据。

  • OpenSubtitles_meta.parquet:每个标题的现有元数据。

  • OpenSubtitles-OA.parquet:按照Open Assistant规则编码的数据集,包含两列SOURCE(电影/电视节目的名称)和TEXT(字幕)。

    这两个表可以通过ID列进行连接(元数据表中的值可以为空)。