数据集:
SLPL/syntran-fa
SynTran-fa是波斯语问答数据集的句法转换版本,旨在从问题和短回答中生成流利的回答。您可以使用以下代码使用此数据集:
import datasets data = datasets.load_dataset('SLPL/syntran-fa', split="train")
生成流利的回答一直是问答任务中的挑战,尤其是对于像波斯语这样的低资源语言。近年来,已经有一些努力来提高波斯语数据集的规模。SynTran-fa是一个问答数据集,它汇集了以往波斯语问答数据集的短回答,并为每对(问题,短回答)提供了完整的流利回答。
该数据集包含近50000个问题和回答的索引。我们使用的数据集作为我们的来源在“源数据”部分中。
这个数据集的主要思路来自于 Fluent Response Generation for Conversational Question Answering ,他们使用了一个“解析器+语法规则”的模块,通过解析器和一些语法规则从问题和短回答的对中生成不同的流利回答。在这个项目中,我们使用 stanza 作为我们的解析器,根据问题使用短回答(没有动词的句子 - 最多~4个单词)生成一个回答。可以通过生成句子部分的不同排列(从而为答案提供多个句子)或训练一个seq2seq模型来继续进行这个项目,后者可以用我们的基于规则的系统来完成(通过定义一个新的文本到文本的任务)。
该数据集可以用于问答任务,特别是当您要生成流利的回答时。您可以使用此数据集训练一个seq2seq模型来生成流利的回答-就像 Fluent Response Generation for Conversational Question Answering 所做的那样。
数据集的每一行将类似于下面的形式:
{ 'id': 0, 'question': 'باشگاه هاکی ساوتهمپتون چه نام دارد؟', 'short_answer': 'باشگاه هاکی ساوتهمپتون', 'fluent_answer': 'باشگاه هاکی ساوتهمپتون باشگاه هاکی ساوتهمپتون نام دارد.', 'bert_loss': 1.110097069682014 }
注意:数据集按照 bert_loss 的递增顺序排序,所以前面的句子更有可能是流利的。
目前,数据集只提供了训练集拆分。很快将提供测试集拆分。
我们使用的源数据集如下:
初始数据收集和规范化我们从波斯语的所有开源QA数据集中提取所有短回答(没有动词的句子-最多约4个单词),并使用一些特定的规则来生成长(流利)的回答。
[需要更多信息]
注释人员是谁?[需要更多信息]
该数据集完全是公开已知数据集的子集,因此其中的所有信息已经在互联网上作为公开源数据集。无论如何,我们不对其中的任何内容负责。
该数据集是由Asr Gooyesh Pardaz公司的暑期实习生在Soroush Gooran教授、Hossein Sameti教授的指导下及Sadra Sabouri的指导下完全集合的。这个项目是Farhan Farsi的第一个实习项目。
MIT
[需要更多信息]
感谢 @farhaaaaa 和 @sadrasabouri 添加了这个数据集。