数据集:
PlanTL-GOB-ES/SQAC
任务:
子任务:
extractive-qa语言:
计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1606.05250许可:
SQAC是用于西班牙语的摘录问答数据集。
包含6,247个上下文和18,817个带有相应答案的问题,每个片段为1到5个。
上下文的来源是:
提取式问答
{ 'id': '6cf3dcd6-b5a3-4516-8f9e-c5c1c6b66628', 'title': 'Historia de Japón', 'context': 'La historia de Japón (日本の歴史 o 日本史, Nihon no rekishi / Nihonshi?) es la sucesión de hechos acontecidos dentro del archipiélago japonés. Algunos de estos hechos aparecen aislados e influenciados por la naturaleza geográfica de Japón como nación insular, en tanto que otra serie de hechos, obedece a influencias foráneas como en el caso del Imperio chino, el cual definió su idioma, su escritura y, también, su cultura política. Asimismo, otra de las influencias foráneas fue la de origen occidental, lo que convirtió al país en una nación industrial, ejerciendo con ello una esfera de influencia y una expansión territorial sobre el área del Pacífico. No obstante, dicho expansionismo se detuvo tras la Segunda Guerra Mundial y el país se posicionó en un esquema de nación industrial con vínculos a su tradición cultural.', 'question': '¿Qué influencia convirtió Japón en una nación industrial?', 'answers': { 'text': ['la de origen occidental'], 'answer_start': [473] } }
{ id: str title: str context: str question: str answers: { answer_start: [int] text: [str] } }
Split | Size |
---|---|
train | 15,036 |
dev | 1,864 |
test | 1.910 |
问题中有46.38%的单词可以在上下文中找到。
Question | Count | % |
---|---|---|
qué | 6,381 | 33.91 % |
quién/es | 2,952 | 15.69 % |
cuál/es | 2,034 | 10.81 % |
cómo | 1,949 | 10.36 % |
dónde | 1,856 | 9.86 % |
cuándo | 1,639 | 8.71 % |
cuánto | 1,311 | 6.97 % |
cuántos | 495 | 2.63 % |
adónde | 100 | 0.53 % |
cuánta | 49 | 0.26 % |
no question mark | 43 | 0.23 % |
cuántas | 19 | 0.10 % |
为了与其他语言中的类似数据集兼容,我们尽可能接近SQUAD 1.0的现有策划指南 (Rajpurkar, Pranav et al.) 。
源数据是从Wikinews、西班牙语维基百科和AnCora语料库中抓取的文章。
谁是源语言的制片人?上述网站的参与者。
我们委托为每个上下文创建1到5个问题,按照SQUAD 1.0的指南进行了适应。
谁是注释者?母语为西班牙语的人。
不包含个人或敏感信息。
这个语料库有助于西班牙语语言模型的开发。
没有采取后处理步骤来减轻潜在的社会偏见。
巴塞罗那超级计算中心(BSU)文本挖掘单元(TeMU)( bsc-temu@bsc.es)。
如需更多信息,请发送电子邮件至(plantl-gob-es@bsc.es)。
该工作在 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 的框架内,由 Plan-TL 资助。
该作品根据 CC Attribution 4.0 International 许可证获得许可。
西班牙数字化和人工智能国家秘书处(SEDIA)版权所有(2022年)
@article{maria, author = {Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Marc Pàmies and Joan Llop-Palao and Joaquin Silveira-Ocampo and Casimiro Pio Carrino and Carme Armentano-Oller and Carlos Rodriguez-Penagos and Aitor Gonzalez-Agirre and Marta Villegas}, title = {MarIA: Spanish Language Models}, journal = {Procesamiento del Lenguaje Natural}, volume = {68}, number = {0}, year = {2022}, issn = {1989-7553}, url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405}, pages = {39--60} }
[N/A]