数据集:
0x22almostEvil/multilingual-wikihow-qa-16k
WikiHow团队已经与我联系,明确表示禁止将其数据用于机器学习目的。然而,我并不呼吁任何行动,该数据集只是展示概念,我强烈建议不要违反其服务条款。然而,与律师咨询清楚后,如果该项目具有研究目的,可以使用该数据集进行这种目的。
源代码有点糟糕,我懒得修复。
包含各种语言的指南和WikiHow文章的Parquet文件。
每行包括:
数据来自WikiHow,内容的许可证位于此处: https://www.wikihow.com/wikiHow:Creative-Commons
这对我帮助很大!
https://github.com/HelloChatterbox/PyWikiHow ; https://pypi.org/project/pywikihow/