数据集:

narad/ravdess

源数据集:

original

批注创建人:

no-annotation

语言创建人:

found

大小:

1K<n<10K

计算机处理:

monolingual

语言:

en
英文

RAVDESS数据集的数据卡

数据集摘要

Ryerson情感语音与歌曲的视听数据库(RAVDESS)RAVDESS中的语音音频文件(16位,48kHz 的 .wav)完整的语音和歌曲数据集,包含了音频和视频(24.8 GB),可从 Zenodo 获取。RAVDESS的构建和感知验证在我们在 PLoS ONE 上的开放获取的文章中有描述。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据集仓库仅包含预处理脚本。当加载数据集且找不到缓存版本时,数据集将自动下载,并创建一个包含所有数据实例的 .tsv 文件,将其保存为表中的行。

数据实例

[需要更多信息]

数据字段

  • "audio": 说话内容的 datasets.Audio 表示
  • "text": 说话内容的 datasets.Value 字符串表示
  • "labels": 情感标签的 datasets.ClassLabel 表示
  • "speaker_id": 说话者ID 的 datasets.Value 字符串表示
  • "speaker_gender": 说话者性别的 datasets.Value 字符串表示

数据划分

所有数据都在训练分区中。

数据集创建

策展理由

[需要更多信息]

源数据

来自 RAVDESS 数据集的 Zenodo 发布的原始数据:

文件

RAVDESS 的这部分包含1440个文件:每位演员60次试音 x 24位演员 = 1440次。RAVDESS 包含24位专业演员(12位女性,12位男性),用中性的北美口音演唱两个词汇匹配的陈述句。语音情感包括平静、快乐、悲伤、生气、恐惧、惊讶和厌恶的表达。每种表达都以两种情感强度(正常、强烈)进行表达,还有一个额外的中性表达。

文件命名约定

每个1440个文件都有唯一的文件名。文件名由7个部分的数字标识符组成(例如,03-01-06-01-02-01-12.wav)。这些标识符定义了刺激的特征:

文件名标识符

情感类型(01 = 全视听-AV,02 = 仅视频,03 = 仅音频)。

声音通道(01 = 说话,02 = 歌唱)。

情感类别(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 生气,06 = 恐惧,07 = 厌恶,08 = 惊讶)。

情感强度(01 = 正常,02 = 强烈)。注意:“中性”情感没有强烈的强度。

陈述句(01 = "有孩子在门口说话",02 = "有狗在门口坐着")。

重复次数(01 = 第一次重复,02 = 第二次重复)。

演员(01到24。奇数演员是男性,偶数演员是女性)。

文件名示例:03-01-06-01-02-01-12.wav

仅音频(03)说话(01)恐惧(06)正常强度(01)陈述句“狗”(02)第一次重复(01)第12位演员(12)女性,因为演员ID号是偶数。

初始数据采集和规范化

[需要更多信息]

源语言制片人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

(CC BY-NC-SA 4.0)[ https://creativecommons.org/licenses/by-nc-sa/4.0/]

引用信息

如何引用 RAVDESS

学术引用

如果您在学术出版物中使用 RAVDESS,请使用以下引用:Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391 .

所有其他归属

如果您在非学术出版物中使用 RAVDESS,如博客文章、学校项目或非商业产品,请使用以下归属:"The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)" by Livingstone & Russo is licensed under CC BY-NA-SC 4.0.

贡献

感谢 @narad 添加了这个数据集。