数据集:
musabg/wikipedia-oscar-tr
? 欢迎来到“维基百科和OSCAR土耳其”Huggingface仓库!
? 该仓库包含一个由维基百科和清理后的OSCAR Common Crawl合并生成的土耳其语言数据集。该数据集包含超过1300万个例子,其中只有一个特征 - 文本。
? 此数据集对土耳其语自然语言处理任务非常有用。
? 要下载数据集,您可以使用Hugging Face Datasets库。以下是一些示例代码以帮助您入门:
from datasets import load_dataset dataset = load_dataset("musabg/wikipedia-oscar-tr")
? 享受探索这个数据集并对其进行语言模型训练吧!