数据集:

youtube_caption_corrections

英文

YouTube字幕修正数据集

数据集概述

该数据集由一对YouTube字幕构成,其中包括一个自动生成的字幕和一个经手动修正的字幕,适用于指定的单一语言。目前仅支持英语,但资料库中的脚本支持其他语言。创建该数据集的动机源于最近一次虚拟会议中自动生成字幕的错误,希望能找到一种方法来帮助纠正这些错误。

在资料库中的数据集记录了成千上万个视频自动生成字幕和手动修正字幕之间的差异,以非破坏性的方式进行记录。此处的数据集关注的是那些相互存在差异且在标记长度上相同的差异,因此排除了两个字幕之间的标记插入或删除差异。因此,此处的数据集保留了原始自动生成字幕的非破坏性表示,但排除了手动修正字幕中的某些差异。

支持的任务和排行榜

  • token-classification: 默认序列(default_seq)中的标记来自自动生成的YouTube字幕。如果在给定索引上标记的diff_type大于0,则假定其在自动生成的YouTube字幕中的对应标记与手动修正的字幕中的标记不同,因此可能是一个错误。可以训练一个模型来学习自动生成的字幕中是否存在错误。

  • slot-filling: 在手动修正的YouTube字幕中与自动生成的YouTube字幕的标记存在差异的位置,填充了纠正序列(correction_seq)中的标记。可以在diff_type大于0的位置遮蔽default_seq中的“错误”标记,以便训练一个模型来寻找更好的单词填充,而不是“错误”的单词。

最终,模型可以首先识别,然后替换(使用适当的替代方案)YouTube和其他自动生成的字幕中的错误,这些字幕缺少手动修正。

语言

英语

数据集结构

数据实例

如果在给定索引上标记的diff_type大于0,则假定默认序列(default_seq)中的相应标记与手动修正的YouTube字幕中的标记存在差异。纠正序列(correction_seq)中的标记只在存在差异的位置上从手动修正的YouTube字幕中抽取。

标记的diff_type如下:0: 没有差异1: 大小写差异,例如hello vs Hello2: 标点符号差异,例如hello vs hello3: 大小写和标点符号差异,例如hello vs Hello,4: 同词缀的单词差异,例如thank vs thanked5: 数字差异,例如2 vs two6: 单词内标点差异,例如autogenerated vs auto-generated7: 未知类型差异,例如laughter vs draft8: 保留以表示未指定的差异

{'video_titles': '_QUEXsHfsA0','default_seq': ['you', 'see', "it's", 'a', 'laughter', 'but', 'by', 'the', 'time', 'you', 'see', 'this', 'it', "won't", 'be', 'so', 'we', 'have', 'a', 'big'],'correction_seq': ['', 'see,', '', '', 'draft,', '', '', '', '', '', 'read', 'this,', '', '', 'be.', 'So', '', '', '', ''],'diff_type': [0, 2, 0, 0, 7, 0, 0, 0, 0, 0, 7, 2, 0, 0, 2, 1, 0, 0, 0, 0]}

数据字段

  • 'video_ids': YouTube为每个视频使用的唯一ID。可以将其粘贴到https://www.youtube.com/watch?v=<{video_ids}上查看视频
  • 'default_seq': 视频的分词自动生成的YouTube字幕
  • 'correction_seq': 手动修正的YouTube字幕在自动生成字幕与手动修正字幕之间存在差异的位置上稀疏填充的标记
  • 'diff_type': 在自动生成字幕和手动修正字幕之间存在差异的每个标记上大于0的值

数据拆分

没有数据拆分

数据集创建

策划理由

在最近的一次虚拟会议中,观察到了自动生成字幕中的错误,并希望能找到一种帮助纠正这些错误的方法。

源数据

数据收集和标准化

所有字幕均由googleapiclient和youtube_transcript_api根据channel_id和语言粒度请求获得,使用了位于 https://github.com/2dot71mily/youtube_captions_corrections 处编写的脚本。

字幕根据空格进行分词,这里的手动修正序列仅包括与自动生成序列的差异。

谁是源语言的制造者?

自动生成的脚本来自YouTube,手动修正的脚本来自创作者以及他们可能得到的任何支持(例如社区或软件支持)

注释

注释过程

位于仓库 https://github.com/2dot71mily/youtube_captions_corrections 的脚本对比了两个字幕,并使用此对比创建注释。

谁是标注者?

YouTube创作者,以及他们可能得到的任何支持(例如社区或软件支持)

个人和敏感信息

所有内容在YouTube上公开可见

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划

Emily McMilin

许可信息

MIT许可证

引用信息

https://github.com/2dot71mily/youtube_captions_corrections

贡献

感谢 @2dot71mily 添加了这个数据集。