数据集:

GroNLP/ik-nlp-22_slp

英文

IK-NLP-22 语音和语言处理数据集卡

数据集摘要

此数据集包含通过半自动程序(有关详细信息,请参见下文)从Jurafsky和Martin的《语音和语言处理》书籍中提取的章节。此外,还提供了与每章相关的一小组概念问题以及可能的答案。

仅提供了第2章到第11章的内容草稿,因为这些内容与格罗宁根大学信息科学硕士学位(IK)的2022年版自然语言处理课程的内容相关,该课程由 Arianna Bisazza 教授, Gabriele Sarti 协助。

Jurafsky和Martin的《语音和语言处理》书籍是由原作者 Dan Jurafsky James H. Martin Stanford University website 上免费提供的。本数据集是为教育目的而创建,基于2021年12月29日访问的第3版草稿。本数据集的所有权归原作者所有。

项目

有关可能的研究方向的描述,请参阅课程页面。

语言

《语音和语言处理》的语言数据为英文(BCP-47 en)。

数据集结构

数据实例

数据集包含两种配置:段落(默认配置),包含与相应章节和部分相关的完整段落集合,以及问题,包含与相关段落匹配的一小组示例问题,并提取了答案范围。

段落配置

段落配置包含所选书籍章节的所有段落,每个段落与相应的章节、部分和子部分相关联。以下是段落配置的训练拆分示例。该示例属于第2.3节,但不属于子部分,因此 n_subsection 和 subsection 字段为空字符串。

{
    "n_chapter": "2",
    "chapter": "Regular Expressions",
    "n_section": "2.3",
    "section": "Corpora",
    "n_subsection": "",
    "subsection": "",
    "text": "It's also quite common for speakers or writers to use multiple languages in a single communicative act, a phenomenon called code switching. Code switching (2.2) Por primera vez veo a @username actually being hateful! it was beautiful:)"
}

文本按原样提供,没有进行进一步的预处理或分词。

问题配置

问题配置包含一小组问题、与问题相关的最有关的段落以及答案范围。以下是问题配置的测试拆分示例。

{
   "chapter": "Regular Expressions",
   "section": "Regular Expressions",
   "subsection": "Basic Regular Expressions",
   "question": "What is the meaning of the Kleene star in Regex?",
   "paragraph": "This language consists of strings with a b, followed by at least two a's, followed by an exclamation point. The set of operators that allows us to say things like \"some number of as\" are based on the asterisk or *, commonly called the Kleene * (gen-Kleene * erally pronounced \"cleany star\"). The Kleene star means \"zero or more occurrences of the immediately previous character or regular expression\". So /a*/ means \"any string of zero or more as\". This will match a or aaaaaa, but it will also match Off Minor since the string Off Minor has zero a's. So the regular expression for matching one or more a is /aa*/, meaning one a followed by zero or more as. More complex patterns can also be repeated. So /[ab]*/ means \"zero or more a's or b's\" (not \"zero or more right square braces\"). This will match strings like aaaa or ababab or bbbb.",
   "answer": "The Kleene star means \"zero or more occurrences of the immediately previous character or regular expression\""
}

数据拆分

config train test
paragraphs 1697 -
questions - 59

数据集创建

使用 AllenAI 的 PDF to S2ORC JSON Converter 将《语音和语言处理》书籍的内容提取出来。然后对转换器提取的文本进行手动清理,以删除章节末尾的练习和其他不相关的内容(例如表格、TikZ图等)。保留了最终版本中的一些解析内容问题,以保持与相关项目的自然环境设置,促进学生使用数据过滤启发式方法。

问题答案对由 Gabriele Sarti 手动创建。

附加信息

数据集维护者

如有关于这个?数据集版本的问题,请联系我们 ik-nlp-course@rug.nl。

许可信息

有关许可信息,请参考作者的网站。

引用信息

如果您在工作中使用了这些语料库,请引用作者:

@book{slp3ed-iknlp2022,
    author = {Jurafsky, Daniel and Martin, James},
    year = {2021},
    month = {12},
    pages = {1--235, 1--19},
    title = {Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition},
    volume = {3}
}