数据集:
techiaith/banc-trawsgrifiadau-bangor
请参见以下英文
这是一个由50多个参与者的自然语音段组成的银行,总时长为25小时34分钟24秒,以mp3文件的形式提供,并附带以.tsv文件形式的“逐字”对话的转录。大多数对话都是自发的自然语音。我们以CC0开放许可证分发这些材料。
这些转录的目的是作为语音识别模型的训练数据,包括 ein modelau wav2vec 。为了达到这个目的,转录的要求更接近逐字的内容而不只是传统的转录和字幕所能显示的内容,因此为转录工作开发了专门的规定(请参阅以下内容)。通过我们的wav2vec模型,我们使用辅助组件,即“语言模型”,在语音识别模型的输出中进一步标准化,以使其更接近传统转录和字幕的形式。
我们提供了3个.tsv文件,分别是clips.tsv、train.tsv和test.tsv。clips.tsv包含所有的转录内容。train.tsv和test.tsv是为了提供“标准”数据集,使用户能够公平地比较不同训练者训练的模型,即它们被创建为“基准”。train.tsv包含我们转录的80%,test.tsv包含剩下的20%。
以下是数据内容的示例:
audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 *post industrial* yym a gyda yy dwi'n ca'l deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma' hon hefyd yn ddogfen fydd yn trosglwyddo gyda'r plant bobol ifanc o un cam i'r llall ac hefyd erbyn hyn i'r coleg 'lly. 7570
.tsv文件有四列。第一列是音频文件的名称,第二列是音频文件的大小。转录本身出现在第三列。音频片段的长度出现在最后一列。
以下是有关列的信息。
Maes | Esboniad |
---|---|
audio_filename | Enw'r ffeil sain o fewn y ffolder 'clips' |
audio_filesize | Maint y ffeil |
transcript | Trawsgrifiad |
duration | Hyd amser y clip mewn milliseconds. |
音频文件主要来自于威尔士的播客,经过播客所有者和个别参与者的同意后收集。我们非常感谢这些人。此外,还创建了一些模仿新闻项目和文章模式的脚本。然后将这些脚本的录音由语言技术单元的研究人员进行以确保包含了这种类型的内容。音频文件经过我们的内部自动转录工具的处理,对音频进行分割并生成原始转录。我们使用的是Elan 6.4(在 https://archive.mpi.nl/tla/elan 可获得)的转录员通过听取音频并纠正原始转录。
出于对贡献者的尊重,我们对所有转录进行了匿名化处理。决定进行匿名化处理的不仅是个人姓名,还包括任何可识别个人的信息(PII),包括但不限于:
我们还对段落的顺序进行了随机化处理,使其不按原始音频文件中出现的顺序发布。
这些转录约定是为了确保转录不仅逐字,而且一致。通过参考过去单元使用过的约定、类似CorCenCC、Siarad、CIG1和CIG2语料库中使用过的约定以及在转录任务进行的过程中进行的持续发展,我们开发了这些转录约定。注意 - 因为我们在制定约定的同时进行了转录任务,所以早期的转录可能没有完全遵循最新的原则。我们打算在完善转录约定后对转录进行检查。
未使用省略号标记讲话者省略的每个字母。例如, gwitho (表示 gweithio 的发音)是正确的,而不是 gw’ith’o 。
而是使用省略号来区分拼写相同的不同单词。例如,我们用前缀 ’ma (表示 yma 的发音)来区分它与 ma’ (表示 mae 的发音),用 gor’o’ 来区分 gorfod 和表示现在完成依存时态第三人称单数的 gori ,用 pwysa’ 来区分复数形式 pwys 和可能的动词形式 pwyso 的不同形式。
然而,在没有省略号的情况下拼写一个词会改变省略号之前或之后字母的发音时,这个规则有个例外,因此 Cymra’g 是正确的,而不是 Cymrag 。
在转录过程中,使用以下标签记录与个人讲话无关的元素:
这个列表将随着我们转录更多的语音和遇到更多与个人讲话无关的元素而增长。
我们努力使非语言音的转录保持一致。例如, yy 是一直使用的(而不是 yrr , yr 或 err ,或者它们的混合),以表示讲话者思考或讲话时停顿时发出的声音。
在转录中使用了以下内容:
同样,我们预计随着我们转录更多的语音和遇到更多的非语言音,这个列表将会增长。
我们用星号(*sort of*)将每个英文单词或短语括起来。例如:
Dwi’n deall *sort of*.
当讲话者将英文单词作为动词原形使用时(例如在单词末尾添加 io ),我们努力使用威尔士拼写规范来拼写该单词,而不是将 io 添加到英文拼写中。例如,我们将 heitio 转录为 hateio ,将 lyfio 转录为 loveio 。
为确保我们遵循逐字转录的原则,决定不纠正发音者的发音错误。例如,在以下句子中:
enfawr fel y diffyg o fwyd yym efallu cam-drin
很明显, efallai 是预期的单词,但按照听到的方式转录。
在转录讲话时使用句号、问号和感叹号。
我们用引号 ” 将所有引用的单词或短语括起来,例如:
Dywedodd hi ”Dwi’n mynd” ond aeth hi ddim.
由于逗号本质上是书面文本使用的约定,在转录中并没有频繁使用逗号。在转录过程中使用逗号,不一定反映了个体的口语。在阅读转录时请记住这一点。
我们拼写单个字母而不是一个个字母进行转录。
这是正确的:
Roedd ganddo ow si di
而不是:
Roedd ganddo O C D
也不是:
Roedd ganddo OCD
我们将数字转录为单词而不是数字,正确的形式是:
Y flwyddyn dwy fil ac ugain
而不是:
Y flwyddyn 2020
未完成的单词用 - 标记。例如:
Ma’n rhaid i mi ca- cael diod.
未完成的句子用 ... 标记。例如:
Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.
许多例子中,一个说话者使用非语言音、单词或短语中断另一个说话者(如 m-hm 、 ie 、 ydi 、 yn union 等)。当两个发言者可以清晰地分辨出来时,在断开的第一部分结尾处放置了 ... ,在断开的第二部分开头处放置了另一个 ... ,例如:
Ond y peth yw... M-hm. ...mae’r ddau yn wir
当两个发言者听起来无法清晰地分辨出来时,不会在数据中包含该段落。
在转录过程中,我们没有省略标点符号。
使用此转录资源时,请记住这是初始版本。我们打算进一步完善和统一转录,每年定期向银行添加更多的转录。
为了尊重贡献者,下载这些数据时,您同意不尝试识别转录中的讲话者。
感谢参与者授权我们使用他们的语音。我们也感谢威尔士政府资助这项工作,作为威尔士语文本、语音和翻译技术项目的一部分。
这个资源是由50多位参与者在mp3文件格式中提供的自然语音段的银行,总时长为25小时34分钟24秒,并附带以.tsv文件格式的相应的“逐字”转录。大部分语音都是自发的自然语音。我们以CC0开放许可证分发这些材料。
这些转录的目的是作为语音识别模型的训练数据,包括 our wav2vec models 。为了达到这个目的,转录的要求更接近逐字的内容而不只是传统的转录和字幕所能显示的内容,因此为转录工作开发了专门的规定(请参阅以下内容)。我们的wav2vec模型使用了辅助组件,即“语言模型”,进一步标准化语音识别模型的输出结果,使其更类似于传统的转录和字幕。
我们提供了3个.tsv文件,分别是clips.tsv、train.tsv和test.tsv。clips.tsv包含了所有的转录内容。train.tsv和test.tsv是为了提供“标准”数据集,使用户能够公平地比较由不同训练者训练的模型,即它们被创建为一个“基准”。train.tsv包含我们转录内容的80%,test.tsv包含剩下的20%。
以下是数据内容的示例:
audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 *post industrial* yym a gyda yy dwi'n ca'l deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma' hon hefyd yn ddogfen fydd yn trosglwyddo gyda'r plant bobol ifanc o un cam i'r llall ac hefyd erbyn hyn i'r coleg 'lly. 7570
.tsv文件有四列。第一列是音频文件的名称,第二列是音频文件的大小。转录本身出现在第三列。音频片段的长度出现在最后一列。
以下是有关列的信息。
Field | Explanation |
---|---|
audio_filename | The name of the audio file within the 'clips' folder |
audio_filesize | The size of the file |
transcript | Transcript |
duration | Duration of the clip in milliseconds. |
音频文件主要来自于威尔士的播客,经过播客所有者和个别参与者的同意后收集。我们非常感谢这些人。此外,还创建了一些模仿新闻项目和文章模式的脚本。然后将这些脚本的录音由语言技术单元的研究人员进行,以确保包含了这种类型的内容。音频文件经过我们的内部自动转录工具的处理,对音频进行分割并生成原始转录。我们使用的是Elan 6.4(在 https://archive.mpi.nl/tla/elan 可获得)的转录员通过听取音频并纠正原始转录。
出于对贡献者的尊重,我们对所有转录进行了匿名化处理。决定进行匿名化处理的不仅是个人姓名,还包括任何可识别个人的信息(PII),包括但不限于:
我们还对段落的顺序进行了随机化处理,使其不按原始音频文件中出现的顺序发布。
这些转录约定是为了确保转录不仅逐字,而且一致。通过参考过去单元使用过的约定、类似CorCenCC、Siarad、CIG1和CIG2语料库中使用过的约定以及在转录任务进行的过程中进行的持续发展,我们开发了这些转录约定。注意 - 因为我们在制定约定的同时进行了转录任务,所以早期的转录可能没有完全遵循最新的原则。我们打算在完善转录约定后对转录进行检查。
未使用省略号标记讲话者省略的每个字母。例如, gwitho (表示 gweithio 的发音)是正确的,而不是 gw’ith’o 。
而是使用省略号来区分拼写相同的不同单词。例如,我们用前缀 ’ma (表示 yma 的发音)来区分它与 ma’ (表示 mae 的发音),用 gor’o’ 来区分 gorfod 和表示现在完成时态的第三人称单数形式 gori ,用 pwysa’ 来区分复数形式 pwys 和可能的动词形式 pwyso 的不同形式。
然而,在没有省略号的情况下拼写一个词会改变省略号之前或之后字母的发音时,这个规则有个例外,因此 Cymra’g 是正确的,而不是 Cymrag 。
在转录过程中,使用以下标签记录与个人讲话无关的元素:
我们预计随着我们转录更多的语音和遇到更多的与个人讲话无关的元素,这个列表将会增长。
我们努力使非语言音的转录保持一致。例如, yy 是一直使用的(而不是 yrr , yr 或 err ,或者它们的混合),以表示讲话者思考或讲话时停顿时发出的声音。
在转录中使用了以下内容:
同样,我们预计随着我们转录更多的语音和遇到更多的非语言音,这个列表将会增长。
我们用星号(*sort of*)将每个英文单词或短语括起来。例如:
Dwi’n deall *sort of*.
当讲话者将英文单词作为动词原形使用时(例如在单词末尾添加 io ),我们努力使用威尔士拼写规范来拼写该单词,而不是将 io 添加到英文拼写中。例如,我们将 heitio 转录为 hateio ,将 lyfio 转录为 loveio 。
为了确保我们遵循逐字转录的原则,决定不纠正发音者的发音错误。例如,在以下句子中:
enfawr fel y diffyg o fwyd yym efallu cam-drin
很明显, efallai 是预期的单词,但按照听到的方式转录。
在转录中显示句号、问号和感叹号。
我们在所有带引号的单词或短语前后使用了引号 ” ,例如:
Dywedodd hi ”Dwi’n mynd” ond aeth hi ddim.
由于逗号本质上是书面文本使用的约定,在转录中并没有频繁使用逗号。在转录过程中使用逗号,不一定反映了个体的口语。在阅读转录时请记住这一点。
我们拼写单个字母而不是单独转录单个字母。
这是正确的:
Roedd ganddo ow si di
而不是:
Roedd ganddo O C D
也不是:
Roedd ganddo OCD
我们将数字转录为单词而不是数字,正确的形式:
Y flwyddyn dwy fil ac ugain
而不是:
Y flwyddyn 2020
未完成的词用 - 标记。例如:
Ma’n rhaid i mi ca- cael diod.
未完成的句子用 ... 标记。例如:
Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.
有许多例子中,一个说话者通过使用非语言音、单词或短语中断另一个说话者(例如 m-hm 、 ie 、 ydi 、 yn union 等),当两个发言者可以清晰地听到时,在中断的第一部分的结尾处放置了 ... ,在第二部分的开头处放置了另一个 ... ,例如:
Ond y peth yw... M-hm. ...mae’r ddau yn wir
当两个发言者无法清晰地听到时,段落被省略。
在转录过程中,我们没有省略标点符号。
请记住,这是转录银行的初始版本,使用此资源时请牢记。我们打算进一步完善和统一转录,并在明年定期向银行添加更多的转录。
为了尊重贡献者,在下载这些数据时,您同意不尝试识别数据中的讲话者。
感谢贡献者授权我们使用他们的语音。我们还感谢威尔士政府资助这项工作,作为威尔士语文本、语音和翻译技术项目的一部分。