数据集:
hackathon-pln-es/MESD
许可:
cc-by-4.0这个数据集包含了MESD数据库的数据,用于在Somos NLP组织的Hackaton比赛中对Wav2Vec模型进行fine-tuning。
我们已经获得了MESD数据库的示例。
MESD数据库作者的简要说明:“墨西哥情感言语数据库(MESD)提供了包含有关愤怒、厌恶、恐惧、快乐、中性和悲伤的单词发音的附加语调的原始词句。MESD由成年演员和非专业儿童提供:其中包括3个女性声音、2个男性声音和6个儿童声音。情感性和中性断语句来自两个语料库:(语料库A)由名词和形容词组成,通过不同的情感语调和语音类型(女性、男性、儿童)进行重复,以及(语料库B)由年龄获取、使用频率、熟悉度、具体性、价值、激发以及情绪离散度分类的受控词汇构成。
音频录制在专业录音棚进行,使用以下设备:(1)Sennheiser e835麦克风,频率响应为100 Hz到10 kHz,(2)连接到麦克风的Focusrite Scarlett 2i4音频接口,通过XLR电缆与计算机连接,以及(3)REAPER(音频制作、工程和录音的快速环境)数字音频工作站。音频文件以24位序列存储,采样率为48000Hz。声波振幅被重新缩放为-1到1之间。
通过从语音表达中将女性语音语料库B的自然度逐渐降低,创建了两个版本。具体来说,编辑重音音节的持续时间和平均音调,以减小重音音节和非重音音节之间的差异。在完整的断语句中,通过编辑F2和F3频率来减小F2/F1和F3/F1比率。同时,降低了第一个和第四个谐波的强度。”
[需要更多信息]
西班牙语
[需要更多信息]
源:指示数据集是MESD原始数据集还是'Speaker-embedded naturalness-reduced female voices',即作者通过合成的方式对原始音频的一些实例进行了转换生成的新数据集。
单词:朗读的单词文本。
情感:所代表的情感文本:可选值为'愤怒'、'快乐'、'恐惧'、'中性'、'厌恶'、'悲伤'。
InfoActor:表示声音是'儿童'、'男性'还是'女性'。
AudioArray:音频数组,重新采样为16 kHz。
训练集:891个示例,包括MESD案例和'Speaker-embedded naturalness-reduced female voices'案例。
验证集:130个示例,全部为MESD案例。
测试集:129个示例,全部为MESD案例。
将三个数据子集合并并进行处理以进行fine-tuning任务,与Wav2Vec模型期望的输入相对应。
原始数据的访问方式: https://data.mendeley.com/datasets/cy34mh68j9/5
转换为音频数组并重新采样为16 kHz。
语言生成者是谁?Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi:10.17632/cy34mh68j9.5
[需要更多信息]
标注者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons, CC-BY-4.0
Duville, Mathilde Marie; Alonso-Valerdi, Luz Maria; Ibarra, David (2022), “Mexican Emotional Speech Database (MESD)”, Mendeley Data, V5, doi: 10.17632/cy34mh68j9.5