数据集:
Fraser/short-jokes
Kaggle dataset 的副本,为了方便使用而添加到Huggingface。
Kaggle上的描述:
背景
在机器学习领域,生成幽默是一项复杂的任务,它要求模型理解笑话的深层语义含义,以便生成新的笑话。然而,这类问题很难解决,原因之一是缺乏提供详细笑话列表的数据库。因此,我们通过抓取包含有趣和短笑话的多个网站,收集了超过20万个笑话的大型语料库。
访问我的GitHub存储库以获取有关数据收集和使用的脚本的更多信息。
内容
这个数据集是以CSV文件的形式存在,包含231,657个笑话。笑话的长度从10到200个字符不等。文件中的每一行包含一个唯一的ID和笑话内容。
免责声明
我们尽力保持笑话的干净。由于数据是通过抓取网站而得到的,可能会有一些笑话对某些人来说是不适当或冒犯性的。