数据集:

iapp_wiki_qa_squad

任务:

问答

语言:

th

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

许可:

mit
英文

iapp_wiki_qa_squad 数据集卡

数据集摘要

iapp_wiki_qa_squad 是从泰语维基百科文章中提取的抽取型问答数据集。它是根据 the original iapp-wiki-qa-dataset SQuAD 格式适配得到的,从 1529/191/192 篇文章中得到了 5761/742/739 个问题。

支持的任务和排行榜

抽取型问答

语言

泰语

数据集结构

数据实例

数据集中的一个示例:

{'article_id': '0U2lA8nJQESIxbZrjZQc',
'question_id': '0U2lA8nJQESIxbZrjZQc_000',
'context': 'นายสุวัฒน์ วรรณศิริกุล (1 พฤศจิกายน พ.ศ. 2476 - 31 กรกฎาคม พ.ศ. 2555) อดีตรองหัวหน้าพรรคพลังประชาชน อดีตประธานสมาชิกสภาผู้แทนราษฎร และประธานภาคกรุงเทพมหานคร พรรคพลังประชาชน อดีตสมาชิกสภาผู้แทนราษฎรกรุงเทพมหานครหลายสมัย ได้รับการเลือกตั้งเป็นสมาชิกสภาผู้แทนราษฎรครั้งแรกในปี พ.ศ. 2529 ในสังกัดพรรคประชากรไทย และสังกัดพรรคพลังประชาชน เป็นพรรคสุดท้าย',
'question': 'สุวัฒน์ วรรณศิริกุล เกิดวันที่เท่าไร',
'answers': {'text': ['1 พฤศจิกายน พ.ศ. 2476'],
 'answer_start': [24],
 'answer_end': [45]},
'title': 'สุวัฒน์ วรรณศิริกุล',
'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3',
'created_on': '2019-08-18 05:05:51.358000+00:00',
'is_pay': {'date': None, 'status': False}}
{'article_id': '01KZTrxgvC5mOovXFMPJ',
'question_id': '01KZTrxgvC5mOovXFMPJ_000',
'context': 'พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. 2533) หรือชื่อเล่นว่า อร เป็นนักแสดงหญิงชาวไทย สำเร็จมัธยมศึกษาจากCatholic Cathedral College ประเทศนิวซีแลนด์ และปริญญาตรีจากRaffles International College สาขา Business Marketing\n\nเข้าสู่วงการตั้งแต่อายุ 6 ขวบ จากการแสดงละครเวทีกับ ครูชลประคัลภ์ จันทร์เรือง จากนั้นก็เล่นโฆษณาในวัยเด็ก 2- 3 ชิ้น และยังเคยแสดงช่วงละครสั้น ในรายการซุปเปอร์จิ๋ว ประมาณปี 2542\n\nปัจจุบันเป็นทั้ง นักแสดง , พิธีกร และ วีเจ อยู่ที่คลื่น เก็ท 102.5 Bangkok International Hits Music Station และยังเป็นพิธีกรให้กับช่อง ทรู มิวสิก',
'question': 'พัทธ์ธีรา ศรุติพงศ์โภคิน เกิดวันที่เท่าไร',
'answers': {'text': ['3 ธันวาคม พ.ศ. 2533'],
 'answer_start': [31],
 'answer_end': [50]},
'title': 'พัทธ์ธีรา ศรุติพงศ์โภคิน',
'created_by': 'gmnjGRF0y0g7QRZDd9Qgz3AgiHJ3',
'created_on': '2019-08-07 14:00:38.778000+00:00',
'is_pay': {'status': True,
 'total': 2.5,
 'date': '2019-08-13 10:47:28.095000+00:00'}}

数据字段

{
    "question_id": question id
    "article_id": article id
    "title": article title
    "context": article texts
    "question": question
    "answers":
        {
            "text": answer text
            "answer_start": answer beginning position
            "answer_end": answer exclusive upper bound position
        }
    ),
}

数据集划分

train valid test
# questions 5761 742 739
# articles 1529 191 192

数据集创建

采集原因

[需要更多信息]

源数据

初始数据收集和标准化

从原始的 iapp-wiki-qa-dataset 中, @cstorm125 应用了以下处理步骤:

  • 选择具有一个非空答案的问题
  • 选择答案与 textDetection 字段匹配的问题
  • 选择答案长度为100个字符或更短的问题
  • 以文章为单位进行80/10/10的训练验证划分
资料来源的语言制作者是谁?

维基百科作者提供背景信息, iApp 雇佣的注释员提供问题和答案的注释。

注释

注释过程

iApp 雇佣的注释员为每篇文章创建问题和答案。

注释员是谁?

iApp 雇佣的注释员

个人和敏感信息

所有内容均来自维基百科。不应包含个人和敏感信息。

使用数据时的注意事项

数据集的社会影响

  • 泰语开放域抽取型问答

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集管理者

原始数据集由 iApp 提供。由 PyThaiNLP 进行 SQuAD 格式化。

许可信息

MIT

引用信息

@dataset{kobkrit_viriyayudhakorn_2021_4539916,
  author       = {Kobkrit Viriyayudhakorn and
                  Charin Polpanumas},
  title        = {iapp\_wiki\_qa\_squad},
  month        = feb,
  year         = 2021,
  publisher    = {Zenodo},
  version      = 1,
  doi          = {10.5281/zenodo.4539916},
  url          = {https://doi.org/10.5281/zenodo.4539916}
}

贡献者

感谢 @cstorm125 添加了该数据集。