数据集:

narad/ravdess

许可:

cc-by-nc-sa-4.0

源数据集:

original

批注创建人:

no-annotation

语言创建人:

found

大小:

1K<n<10K

计算机处理:

monolingual

语言:

子任务:

audio-emotion-recognition

任务:

音频分类

数据集介绍文件清单

英文

RAVDESS数据集的数据卡

数据集摘要

Ryerson情感语音与歌曲的视听数据库（RAVDESS）RAVDESS中的语音音频文件（16位，48kHz 的 .wav）完整的语音和歌曲数据集，包含了音频和视频（24.8 GB），可从 Zenodo 获取。RAVDESS的构建和感知验证在我们在 PLoS ONE 上的开放获取的文章中有描述。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据集仓库仅包含预处理脚本。当加载数据集且找不到缓存版本时，数据集将自动下载，并创建一个包含所有数据实例的 .tsv 文件，将其保存为表中的行。

数据实例

[需要更多信息]

数据字段

"audio": 说话内容的 datasets.Audio 表示
"text": 说话内容的 datasets.Value 字符串表示
"labels": 情感标签的 datasets.ClassLabel 表示
"speaker_id": 说话者ID 的 datasets.Value 字符串表示
"speaker_gender": 说话者性别的 datasets.Value 字符串表示

数据划分

所有数据都在训练分区中。

数据集创建

策展理由

[需要更多信息]

源数据

来自 RAVDESS 数据集的 Zenodo 发布的原始数据：

文件

RAVDESS 的这部分包含1440个文件：每位演员60次试音 x 24位演员 = 1440次。RAVDESS 包含24位专业演员（12位女性，12位男性），用中性的北美口音演唱两个词汇匹配的陈述句。语音情感包括平静、快乐、悲伤、生气、恐惧、惊讶和厌恶的表达。每种表达都以两种情感强度（正常、强烈）进行表达，还有一个额外的中性表达。

文件命名约定

每个1440个文件都有唯一的文件名。文件名由7个部分的数字标识符组成（例如，03-01-06-01-02-01-12.wav）。这些标识符定义了刺激的特征：

文件名标识符

情感类型（01 = 全视听-AV，02 = 仅视频，03 = 仅音频）。

声音通道（01 = 说话，02 = 歌唱）。

情感类别（01 = 中性，02 = 平静，03 = 快乐，04 = 悲伤，05 = 生气，06 = 恐惧，07 = 厌恶，08 = 惊讶）。

情感强度（01 = 正常，02 = 强烈）。注意：“中性”情感没有强烈的强度。

陈述句（01 = "有孩子在门口说话"，02 = "有狗在门口坐着"）。

重复次数（01 = 第一次重复，02 = 第二次重复）。

演员（01到24。奇数演员是男性，偶数演员是女性）。

文件名示例：03-01-06-01-02-01-12.wav

仅音频（03）说话（01）恐惧（06）正常强度（01）陈述句“狗”（02）第一次重复（01）第12位演员（12）女性，因为演员ID号是偶数。

初始数据采集和规范化

[需要更多信息]

源语言制片人是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

(CC BY-NC-SA 4.0)[ https://creativecommons.org/licenses/by-nc-sa/4.0/]

引用信息

如何引用 RAVDESS

学术引用

如果您在学术出版物中使用 RAVDESS，请使用以下引用：Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391 .

所有其他归属

如果您在非学术出版物中使用 RAVDESS，如博客文章、学校项目或非商业产品，请使用以下归属："The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)" by Livingstone & Russo is licensed under CC BY-NA-SC 4.0.

贡献

感谢 @narad 添加了这个数据集。

作者:

narad

数据集大小:

22.62 KB