数据集:
para_pat
许可:
cc-by-4.0源数据集:
original批注创建人:
machine-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
translationParaPat:专利摘要的数百万句平行语料库。
该数据集包含从开放访问的Google专利数据集中开发的平行语料库,包括74种语言对,共包含超过6800万个句子和8亿个标记。最大的22种语言对使用Hunalign算法自动对齐了句子,而其他语言对使用了摘要(段落)对齐。
[需要更多信息]
数据集中包含cs,de,el,en,es,fr,hu,ja,ko,pt,ro,ru,sk,uk,zh,hu等语言的样本。
根据数据集的不同,存在两种类型:
第一种类型{ "translation":{ "en":"描述了一种将一系列m位信息字转换为调制信号的方法。", "es":"描述了一种将一系列m位信息字转换为调制信号的方法。" }}
第二种类型{ "family_id":10944407, "index":844, "translation":{ "el":"αφές ο οποίος παρασκευάζεται με χαρμάνι ελληνικού καφέ είτε σε συσκευή καφέ εσπρέσο είτε σε συσκευή γαλλικού καφέ (φίλτρου) είτε κατά τον παραδοσιακό τρόπο του ελληνικού καφέ και διυλίζεται, κτυπιέται στη συνέχεια με πάγο σε χειροκίνητο ή ηλεκτρικόμίξερ ώστε να παγώσει ομοιόμορφα και να αποκτήσει πλούσιο αφρό και σερβίρεται σε ποτήρι. ΰ", "en":"在浓缩型咖啡机或滤泡式咖啡机中使用希腊咖啡混合制备的咖啡,或按照制作希腊咖啡的传统方式制备的咖啡,然后在手动或电动搅拌器中与冰一起摇动,以使其均匀冻结并获得丰富的泡沫,最后在玻璃杯中服务。" }}
index: 语料库中的位置 family id: 对于每个摘要,研究人员可以使用该信息进行其他文本挖掘目的。 translation: 包含该示例的源语句和目标语句的字典
没有官方的训练/验证/测试拆分。
平行语料库已对齐到句子级别
Language Pair | # Sentences | # Unique Tokens |
---|---|---|
EN/ZH | 4.9M | 155.8M |
EN/JA | 6.1M | 189.6M |
EN/FR | 12.2M | 455M |
EN/KO | 2.3M | 91.4M |
EN/DE | 2.2M | 81.7M |
EN/RU | 4.3M | 107.3M |
DE/FR | 1.2M | 38.8M |
FR/JA | 0.3M | 9.9M |
EN/ES | 0.6M | 24.6M |
平行语料库已对齐到摘要级别
Language Pair | # Abstracts |
---|---|
FR/KO | 120,607 |
EN/UK | 89,227 |
RU/UK | 85,963 |
CS/EN | 78,978 |
EN/RO | 48,789 |
EN/HU | 42,629 |
ES/FR | 32,553 |
EN/SK | 23,410 |
EN/PT | 23,122 |
BG/EN | 16,177 |
FR/RU | 10,889 |
当今的统计机器翻译和神经机器翻译系统(SMT和NMT)需要并行语料库的可用性。获得足够大且质量高的并行语料库以训练机器翻译系统,特别是NMT系统,是一项不容忽视的任务,因为这需要正确的对齐和在许多情况下需要进行人工策划。在这个背景下,从免费可用资源中自动创建并行语料库在自然语言处理(NLP)中非常重要。
谷歌将专利数据在谷歌云公共数据集下提供。BigQuery是谷歌提供的一项支持高效存储和查询大型数据集的服务,这对于常规SQL数据库来说是一项具有挑战性的任务。例如,过滤包含超过1.19亿行的2019年9月发布的数据集,对于文本字段可以在1分钟内完成。BigQuery的按需计费基于每次查询运行时处理的数据量,因此对于执行完全扫描的单个查询,成本可能超过15.00美元,因为每TB的成本目前为5.00美元。
源语言制造商是谁?BigQuery是谷歌提供的一项支持高效存储和查询大型数据集的服务。
以下步骤描述了生成专利摘要对齐的过程:
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
由谷歌Tensorflow Research Cloud资助。
CC BY 4.0
@inproceedings{soares-etal-2020-parapat, title = "{P}ara{P}at: The Multi-Million Sentences Parallel Corpus of Patents Abstracts", author = "Soares, Felipe and Stevenson, Mark and Bartolome, Diego and Zaretskaya, Anna", booktitle = "Proceedings of The 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://www.aclweb.org/anthology/2020.lrec-1.465", pages = "3769--3774", language = "English", ISBN = "979-10-95546-34-4", }
感谢 @bhavitvyamalik 添加了该数据集。