tldr_news 数据集通过收集每日技术新闻通讯(可用于 here )构建而成。然后,针对每条新闻,提取其标题和相应的内容。此外,通讯中包含不同的章节。我们为每条新闻添加了这些额外信息。
这样的数据集可用于训练模型,根据输入的文本生成标题。
此数据集没有官方支持任务或排行榜。然而,它可用于以下任务:
英语
一个数据点包括一个“标题”及其对应的“内容”。例如:
{ "headline": "Cana Unveils Molecular Beverage Printer, a ‘Netflix for Drinks’ That Can Make Nearly Any Type of Beverage ", "content": "Cana has unveiled a drink machine that can synthesize almost any drink. The machine uses a cartridge that contains flavor compounds that can be combined to create the flavor of nearly any type of drink. It is about the size of a toaster and could potentially save people from throwing hundreds of containers away every month by allowing people to create whatever drinks they want at home. Around $30 million was spent building Cana’s proprietary hardware platform and chemistry system. Cana plans to start full production of the device and will release pricing by the end of February.", "category": "Science and Futuristic Technology" }
此数据集通过收集所有现有的每日通讯(共 here 个)而获得。
然后,处理每个通讯以提取所有不同的新闻。然后针对每条收集到的新闻,提取其标题和新闻内容。
数据集是从 https://tldr.tech/newsletter 获得的。
为了清理样本并构建更适合生成标题的数据集,我们采取了几个规范化步骤:
是TLDR tech背后的人(或团队)。
免责声明:该数据集是从每日通讯中生成的。作者并不打算将这些通讯用于此目的。
注释者是谁?通讯是由TLDR tech的人编写的。
[需要更多信息]
[需要更多信息]
此数据集仅包含技术新闻。在此数据集上训练的模型可能无法推广到其他领域。
[需要更多信息]
该数据集是通过收集来自此网站的通讯获得的: https://tldr.tech/newsletter
感谢 @JulesBelveze 添加此数据集。