数据集:
id_puisi
语言:
id计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
no-annotation源数据集:
original其他:
poem-generation许可:
mitPuisi(诗歌)是印度尼西亚的一种诗歌形式。该数据集包含7223首印度尼西亚诗歌,包括其标题和作者。
[需要更多信息]
印度尼西亚语
{ 'puisi_with_header': 'TEPERANGKAP Oleh Mangku Langit Jingga Mungkin kau membiarkan aku Membiarkan perasaan ini larut Memberi ruang jiwaku hampa Agar tetap terbiasa nikmati Perangkap yang kau buat Perisai yang kau banggakan Takkan jadi tameng bagimu Aku mengerti betapa hebatnya Perangkap mu hei sang dewi Ku akan terus merasa terbiasa Dengan pesona indahmu Ku masih akan nikmati hadirmu Berjalanlah pada hati yang sama Satu hati denganku Walau ku terperangkap Namunku nikmati dan jalani', 'title': 'TEPERANGKAP', 'author': 'Oleh Mangku Langit Jingga', 'puisi': 'Mungkin kau membiarkan aku Membiarkan perasaan ini larut Memberi ruang jiwaku hampa Agar tetap terbiasa nikmati Perangkap yang kau buat Perisai yang kau banggakan Takkan jadi tameng bagimu Aku mengerti betapa hebatnya Perangkap mu hei sang dewi Ku akan terus merasa terbiasa Dengan pesona indahmu Ku masih akan nikmati hadirmu Berjalanlah pada hati yang sama Satu hati denganku Walau ku terperangkap Namunku nikmati dan jalani', }
该数据集仅包含训练集。
最初收集该数据集是为了通过GPT-2生成印度尼西亚诗歌的实验。
该数据集使用BeautifulSoup从lokerpuisi.web.id进行了抓取(原始博客上的数据已不存在)。标题和作者列是使用与puisi_with_header列进行正则匹配而生成的。
谁是源语言的生产者?这些诗歌是由人类生成的。原始博客的用户自愿提交他们的原创诗歌以发布在博客上。
[N/A]
谁是注释者?[N/A]
[需要更多信息]
[需要更多信息]
[需要更多信息]
用于从原始文本中提取标题和作者的正则匹配并不完美。仍然无法成功提取一些标题和文本。
Ilham Firdausi Putra
MIT许可证
[N/A]
感谢 @ilhamfp 添加了这个数据集。