数据集:

id_puisi

语言:

id

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

mit
英文

id_puisi数据集卡片

数据集概述

Puisi(诗歌)是印度尼西亚的一种诗歌形式。该数据集包含7223首印度尼西亚诗歌,包括其标题和作者。

支持的任务和排行榜

[需要更多信息]

语言

印度尼西亚语

数据集结构

数据实例

{
  'puisi_with_header': 'TEPERANGKAP 
 Oleh Mangku Langit Jingga 
  
 Mungkin kau membiarkan aku 
 Membiarkan perasaan ini larut 
 Memberi ruang jiwaku hampa 
 Agar tetap terbiasa nikmati 
  
 Perangkap yang kau buat 
 Perisai yang kau banggakan 
 Takkan jadi tameng bagimu 
 Aku mengerti betapa hebatnya 
  
 Perangkap mu hei sang dewi 
 Ku akan terus merasa terbiasa 
 Dengan pesona indahmu 
 Ku masih akan nikmati hadirmu 
  
 Berjalanlah pada hati yang sama 
 Satu hati denganku 
 Walau ku terperangkap 
 Namunku nikmati dan jalani',

  'title': 'TEPERANGKAP',

  'author': 'Oleh Mangku Langit Jingga',

  'puisi': 'Mungkin kau membiarkan aku 
 Membiarkan perasaan ini larut 
 Memberi ruang jiwaku hampa 
 Agar tetap terbiasa nikmati 
  
 Perangkap yang kau buat 
 Perisai yang kau banggakan 
 Takkan jadi tameng bagimu 
 Aku mengerti betapa hebatnya 
  
 Perangkap mu hei sang dewi 
 Ku akan terus merasa terbiasa 
 Dengan pesona indahmu 
 Ku masih akan nikmati hadirmu 
  
 Berjalanlah pada hati yang sama 
 Satu hati denganku 
 Walau ku terperangkap 
 Namunku nikmati dan jalani',
}

数据字段

  • puisi_with_header:从抓取中提取的原始文本
  • title:使用正则表达式从原始文本中提取的标题
  • author:使用正则表达式从原始文本中提取的作者
  • puisi:使用正则表达式提取出的带有标题和作者的诗歌

数据拆分

该数据集仅包含训练集。

数据集创建

策划理由

最初收集该数据集是为了通过GPT-2生成印度尼西亚诗歌的实验。

来源数据

初始数据收集和规范化

该数据集使用BeautifulSoup从lokerpuisi.web.id进行了抓取(原始博客上的数据已不存在)。标题和作者列是使用与puisi_with_header列进行正则匹配而生成的。

谁是源语言的生产者?

这些诗歌是由人类生成的。原始博客的用户自愿提交他们的原创诗歌以发布在博客上。

注释

注释过程

[N/A]

谁是注释者?

[N/A]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

用于从原始文本中提取标题和作者的正则匹配并不完美。仍然无法成功提取一些标题和文本。

其他信息

数据集策划者

Ilham Firdausi Putra

许可信息

MIT许可证

引用信息

[N/A]

贡献

感谢 @ilhamfp 添加了这个数据集。