英文

ParaPat:专利摘要的数百万句平行语料库数据卡

数据集概述

ParaPat:专利摘要的数百万句平行语料库。

该数据集包含从开放访问的Google专利数据集中开发的平行语料库,包括74种语言对,共包含超过6800万个句子和8亿个标记。最大的22种语言对使用Hunalign算法自动对齐了句子,而其他语言对使用了摘要(段落)对齐。

支持的任务和排行榜

[需要更多信息]

语言

数据集中包含cs,de,el,en,es,fr,hu,ja,ko,pt,ro,ru,sk,uk,zh,hu等语言的样本。

数据集结构

数据实例

根据数据集的不同,存在两种类型:

第一种类型{ "translation":{ "en":"描述了一种将一系列m位信息字转换为调制信号的方法。", "es":"描述了一种将一系列m位信息字转换为调制信号的方法。" }}

第二种类型{ "family_id":10944407, "index":844, "translation":{ "el":"αφές ο οποίος παρασκευάζεται με χαρμάνι ελληνικού καφέ είτε σε συσκευή καφέ εσπρέσο είτε σε συσκευή γαλλικού καφέ (φίλτρου) είτε κατά τον παραδοσιακό τρόπο του ελληνικού καφέ και διυλίζεται, κτυπιέται στη συνέχεια με πάγο σε χειροκίνητο ή ηλεκτρικόμίξερ ώστε να παγώσει ομοιόμορφα και να αποκτήσει πλούσιο αφρό και σερβίρεται σε ποτήρι. ΰ", "en":"在浓缩型咖啡机或滤泡式咖啡机中使用希腊咖啡混合制备的咖啡,或按照制作希腊咖啡的传统方式制备的咖啡,然后在手动或电动搅拌器中与冰一起摇动,以使其均匀冻结并获得丰富的泡沫,最后在玻璃杯中服务。" }}

数据字段

index: 语料库中的位置 family id: 对于每个摘要,研究人员可以使用该信息进行其他文本挖掘目的。 translation: 包含该示例的源语句和目标语句的字典

数据拆分

没有官方的训练/验证/测试拆分。

平行语料库已对齐到句子级别

Language Pair # Sentences # Unique Tokens
EN/ZH 4.9M 155.8M
EN/JA 6.1M 189.6M
EN/FR 12.2M 455M
EN/KO 2.3M 91.4M
EN/DE 2.2M 81.7M
EN/RU 4.3M 107.3M
DE/FR 1.2M 38.8M
FR/JA 0.3M 9.9M
EN/ES 0.6M 24.6M

平行语料库已对齐到摘要级别

Language Pair # Abstracts
FR/KO 120,607
EN/UK 89,227
RU/UK 85,963
CS/EN 78,978
EN/RO 48,789
EN/HU 42,629
ES/FR 32,553
EN/SK 23,410
EN/PT 23,122
BG/EN 16,177
FR/RU 10,889

数据集创建

策划理由

当今的统计机器翻译和神经机器翻译系统(SMT和NMT)需要并行语料库的可用性。获得足够大且质量高的并行语料库以训练机器翻译系统,特别是NMT系统,是一项不容忽视的任务,因为这需要正确的对齐和在许多情况下需要进行人工策划。在这个背景下,从免费可用资源中自动创建并行语料库在自然语言处理(NLP)中非常重要。

源数据

初始数据收集和标准化

谷歌将专利数据在谷歌云公共数据集下提供。BigQuery是谷歌提供的一项支持高效存储和查询大型数据集的服务,这对于常规SQL数据库来说是一项具有挑战性的任务。例如,过滤包含超过1.19亿行的2019年9月发布的数据集,对于文本字段可以在1分钟内完成。BigQuery的按需计费基于每次查询运行时处理的数据量,因此对于执行完全扫描的单个查询,成本可能超过15.00美元,因为每TB的成本目前为5.00美元。

源语言制造商是谁?

BigQuery是谷歌提供的一项支持高效存储和查询大型数据集的服务。

注释

注释流程

以下步骤描述了生成专利摘要对齐的过程:

  • 加载第n个单独文件
  • 删除那些给定family id下只有一个语言的摘要小于2个的行。family id属性用于将引用同一发明的专利分组。通过删除这些行,我们删除了只在一个语言中可用的摘要。
  • 从结果集中,根据可用语言创建所有可能的平行摘要。例如,一个摘要可能在英语、法语和德语中都可用,而可能的语言对就是英语/法语、英语/德语和法语/德语。
  • 将平行专利存储到SQL数据库中,以便更容易进行后续处理和抽样。
  • 注释者是谁?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据集的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集策划者

    由谷歌Tensorflow Research Cloud资助。

    许可信息

    CC BY 4.0

    引用信息

    @inproceedings{soares-etal-2020-parapat,
        title = "{P}ara{P}at: The Multi-Million Sentences Parallel Corpus of Patents Abstracts",
        author = "Soares, Felipe  and
          Stevenson, Mark  and
          Bartolome, Diego  and
          Zaretskaya, Anna",
        booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference",
        month = may,
        year = "2020",
        address = "Marseille, France",
        publisher = "European Language Resources Association",
        url = "https://www.aclweb.org/anthology/2020.lrec-1.465",
        pages = "3769--3774",
        language = "English",
        ISBN = "979-10-95546-34-4",
    }
    

    DOI

    贡献

    感谢 @bhavitvyamalik 添加了该数据集。