数据集:
TurkuNLP/squad_v2_fi
该数据集是英文SQuAD2.0数据集的DeepL机器翻译版本,将SQuAD1.1中的10万个问题与通过群众工作者以对抗方式编写的超过5万个无法回答的问题相结合,使其看起来与可回答的问题相似。要在SQuAD2.0上表现良好,系统不仅要在可能时回答问题,还必须确定段落不支持任何答案,并避免回答。
数据字段在所有拆分中都是相同的。
示例数据{ "title": "Victoria_(Australia)", "paragraphs": [ { "qas": [ { "question": "Millainen talous Victoriassa on?", "id": "570d2417fed7b91900d45c3d", "answers": [ { "text": "monipuolinen", "answer_start": 26, "texts": [ "monipuolinen" ], "starts": [ 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] }, { "text": "hyvin monipuolinen", "answer_start": 20, "texts": [ "hyvin ", "monipuolinen" ], "starts": [ 20, 26 ] } ], "is_impossible": false } ], "context": "Victorian talous on hyvin monipuolinen: palvelualat, kuten rahoitus- ja kiinteistöpalvelut, terveydenhuolto, koulutus, tukkukauppa, vähittäiskauppa, majoitus- ja ravitsemistoiminta ja teollisuus muodostavat suurimman osan työllisyydestä. Victorian osavaltion bruttokansantuote on Australian toiseksi suurin, vaikka Victoria on asukaskohtaisen bruttokansantuotteen osalta neljäntenä, koska sen kaivostoiminta on vähäistä. Kulttuurin alalla Melbournessa on useita museoita, taidegallerioita ja teattereita, ja sitä kutsutaan myös \"Australian urheilupääkaupungiksi\". Melbournen krikettikenttä (Melbourne Cricket Ground) on Australian suurin stadion, ja siellä järjestettiin vuoden 1956 kesäolympialaiset ja vuoden 2006 Kansainyhteisön kisat. Kenttää pidetään myös australialaisen kriketin ja australialaisen jalkapallon \"henkisenä kotina\", ja se isännöi vuosittain Australian jalkapalloliigan (AFL) suurta loppuottelua, johon osallistuu yleensä yli 95 000 ihmistä. Victoriaan kuuluu kahdeksan julkista yliopistoa, joista vanhin, Melbournen yliopisto, on perustettu vuonna 1853." } ] }squad_v2
name | train | validation |
---|---|---|
squad_v2 | 130319 | 11873 |
使用 TurkuNLP/bert-base-finnish-cased-v1 进行细调以进行抽取性问题回答的结果。
dataset | F1 |
---|---|
TurkuNLP/squad_v2_fi | 73.66 |
ilmariky/SQuAD_v2_fi | 61.87 |
由于DeepL的条款和条件,禁止将此数据集用于任何机器翻译工作,即机器翻译系统的开发和任何形式的评估。一般而言,除非您从事与机器翻译无关的研究,否则请勿将原始英文数据与翻译配对,以免侵犯条款和条件。
该存储库的内容依据 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 进行分发。数据集内容的版权属于原始版权持有人。