数据集:
narad/ravdess
许可:
cc-by-nc-sa-4.0源数据集:
original批注创建人:
no-annotation语言创建人:
found大小:
1K<n<10K计算机处理:
monolingual语言:
en任务:
音频分类Ryerson情感语音与歌曲的视听数据库(RAVDESS)RAVDESS中的语音音频文件(16位,48kHz 的 .wav)完整的语音和歌曲数据集,包含了音频和视频(24.8 GB),可从 Zenodo 获取。RAVDESS的构建和感知验证在我们在 PLoS ONE 上的开放获取的文章中有描述。
[需要更多信息]
英语
数据集仓库仅包含预处理脚本。当加载数据集且找不到缓存版本时,数据集将自动下载,并创建一个包含所有数据实例的 .tsv 文件,将其保存为表中的行。
[需要更多信息]
所有数据都在训练分区中。
[需要更多信息]
来自 RAVDESS 数据集的 Zenodo 发布的原始数据:
文件
RAVDESS 的这部分包含1440个文件:每位演员60次试音 x 24位演员 = 1440次。RAVDESS 包含24位专业演员(12位女性,12位男性),用中性的北美口音演唱两个词汇匹配的陈述句。语音情感包括平静、快乐、悲伤、生气、恐惧、惊讶和厌恶的表达。每种表达都以两种情感强度(正常、强烈)进行表达,还有一个额外的中性表达。
文件命名约定
每个1440个文件都有唯一的文件名。文件名由7个部分的数字标识符组成(例如,03-01-06-01-02-01-12.wav)。这些标识符定义了刺激的特征:
文件名标识符
情感类型(01 = 全视听-AV,02 = 仅视频,03 = 仅音频)。
声音通道(01 = 说话,02 = 歌唱)。
情感类别(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 生气,06 = 恐惧,07 = 厌恶,08 = 惊讶)。
情感强度(01 = 正常,02 = 强烈)。注意:“中性”情感没有强烈的强度。
陈述句(01 = "有孩子在门口说话",02 = "有狗在门口坐着")。
重复次数(01 = 第一次重复,02 = 第二次重复)。
演员(01到24。奇数演员是男性,偶数演员是女性)。
文件名示例:03-01-06-01-02-01-12.wav
仅音频(03)说话(01)恐惧(06)正常强度(01)陈述句“狗”(02)第一次重复(01)第12位演员(12)女性,因为演员ID号是偶数。
初始数据采集和规范化[需要更多信息]
源语言制片人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
(CC BY-NC-SA 4.0)[ https://creativecommons.org/licenses/by-nc-sa/4.0/]
如何引用 RAVDESS
学术引用
如果您在学术出版物中使用 RAVDESS,请使用以下引用:Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391 .
所有其他归属
如果您在非学术出版物中使用 RAVDESS,如博客文章、学校项目或非商业产品,请使用以下归属:"The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)" by Livingstone & Russo is licensed under CC BY-NA-SC 4.0.
感谢 @narad 添加了这个数据集。