数据集:
shunk031/livedoor-news-corpus
本数据集收集了NHN Japan株式会社运营的“livedoor新闻”中适用于下列创作共用许可证的新闻文章,并尽可能去除了HTML标签进行了处理。
[需要更多信息]
[需要更多信息]
from datasets import load_dataset dataset = load_dataset( "shunk031/livedoor-news-corpus", train_ratio=0.8, val_ratio=0.1, test_ratio=0.1, random_state=42, shuffle=True, ) print(dataset) # DatasetDict({ # train: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 5894 # }) # validation: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 737 # }) # test: Dataset({ # features: ['url', 'date', 'title', 'content', 'category'], # num_rows: 736 # }) # })
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
各文章文件适用于创作共用许可证的“署名-禁止演绎”条款。由于信件类别不同,因此请查看下载文件解压缩后所在的子目录中的相应LICENSE.txt文件以了解信用说明。livedoor是日本NHN株式会社的注册商标。
[需要更多信息]
感谢 RONDHUIT Co., Ltd. 创建此数据集。