数据集:
chenghao/scielo_books
子任务:
language-modeling计算机处理:
multilingual大小:
n<1K语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
cc-by-nc-sa-3.0该数据集包含了 scielo.org 个开放访问的PDF文档的所有文本。截至2021年12月5日,可用的图书总数为962册。其中一些图书不是原生的PDF格式(例如扫描的图片)。
截至2021年12月5日,其中有902本葡萄牙语图书,55本西班牙语图书和5本英语图书。
提供一个以JSON格式的示例,并对数据集中典型实例进行简要描述。如果有的话,请提供进一步示例的链接。
{ "sbid":"23pcw", "id":"23pcw", "shortname":"", "title":"Educa\u00e7\u00e3o, sa\u00fade e esporte: novos\tdesafios \u00e0 Educa\u00e7\u00e3o F\u00edsica", "eisbn":"9788574554907", "isbn":"9788574554273", "author":"Farias, Gelcemar Oliveira; Nascimento, Juarez Vieira do", "corporate_authors":"", "translators":"", "coordinators":"", "editors":"", "others":"", "organizers":"", "collaborators":"", "publisher":"Editus", "language":"pt", "year": 2016, "synopsis":"\"A colet\u00e2nea contempla cap\u00edtulos que discutem a Educa\u00e7\u00e3o F\u00edsica a partir dos pressupostos da Educa\u00e7\u00e3o, da Sa\u00fade e do Esporte, enquanto importante desafio do momento atual e diante dos avan\u00e7os e das mudan\u00e7as que se consolidaram na forma\u00e7\u00e3o inicial em Educa\u00e7\u00e3o F\u00edsica. A obra convida a todos para a realiza\u00e7\u00e3o de futuras investiga\u00e7\u00f5es, no sentido de concentrar esfor\u00e7os para o fortalecimento de n\u00facleos de estudos e a sistematiza\u00e7\u00e3o de linhas de pesquisa.\"", "format":"", "type":"book", "is_public":"true", "is_comercial":"false", "publication_date":"2018-11-07", "_version_":"1718206093473087488", "pdf_url":"http://books.scielo.org//id/23pcw/pdf/farias-9788574554907.pdf", "pdf_filename":"farias-9788574554907.pdf", "metadata_filename":"farias-9788574554907.json", "text":"..." }
所有字段都是字符串类型,除了年份(year)字段。
所有记录都在默认的训练集中。
这是为创建语言建模数据集的大科学努力的一部分。
所有PDF文档直接从网站下载,使用 pdftotext 库提取文本。
谁是源语言的生产者?无
没有可用的注释。
注释过程无
谁是注释者?无
无
无
无
无
如果有的话,请提供许可证和许可证网页的链接。
无