英文

数据集卡片:generated_reviews_enth

数据集概述

generated_reviews_enth是 scb-mt-en-th-2020 中机器翻译任务的一部分。这个数据集(在 scb-mt-en-th-2020 中称为generated_reviews_yn)是由 CTRL 生成的英文产品评论,通过谷歌翻译API翻译成泰语,并根据人工标注者对翻译流畅度和准确性的评估,注释为接受或拒绝(正确)。这使得它可以用于英文到泰文的翻译质量估计(二元标签)、机器翻译和情感分析。

支持的任务和排行榜

英文到泰文的翻译质量估计(二元标签)是预期的使用方式。其他用途包括机器翻译和情感分析。

语言

英语,泰语

数据集结构

数据实例

{'correct': 0, 'review_star': 4, 'translation': {'en': "I had a hard time finding a case for my new LG Lucid 2 but finally found this one on amazon. The colors are really pretty and it works just as well as, if not better than the otterbox. Hopefully there will be more available by next Xmas season. Overall, very cute case. I love cheetah's. :)", 'th': 'ฉันมีปัญหาในการหาเคสสำหรับ LG Lucid 2 ใหม่ของฉัน แต่ในที่สุดก็พบเคสนี้ใน Amazon สีสวยมากและใช้งานได้ดีเช่นเดียวกับถ้าไม่ดีกว่านาก หวังว่าจะมีให้มากขึ้นในช่วงเทศกาลคริสต์มาสหน้า โดยรวมแล้วน่ารักมาก ๆ ฉันรักเสือชีตาห์ :)'}}
{'correct': 0, 'review_star': 1, 'translation': {'en': "This is the second battery charger I bought as a Christmas present, that came from Amazon, after one purchased before for my son. His was still working. The first charger, received in July, broke apart and wouldn't charge anymore. Just found out two days ago they discontinued it without warning. It took quite some time to find the exact replacement charger. Too bad, really liked it. One of these days, will purchase an actual Nikon product, or go back to buying batteries.", 'th': 'นี่เป็นเครื่องชาร์จแบตเตอรี่ก้อนที่สองที่ฉันซื้อเป็นของขวัญคริสต์มาสซึ่งมาจากอเมซอนหลังจากที่ซื้อมาเพื่อลูกชายของฉัน เขายังทำงานอยู่ เครื่องชาร์จแรกที่ได้รับในเดือนกรกฎาคมแตกเป็นชิ้น ๆ และจะไม่ชาร์จอีกต่อไป เพิ่งค้นพบเมื่อสองวันก่อนพวกเขาหยุดมันโดยไม่มีการเตือนล่วงหน้า ใช้เวลาพอสมควรในการหาที่ชาร์จที่ถูกต้อง แย่มากชอบมาก สักวันหนึ่งจะซื้อผลิตภัณฑ์ Nikon จริงหรือกลับไปซื้อแบตเตอรี่'}}
{'correct': 1, 'review_star': 1, 'translation': {'en': 'I loved the idea of having a portable computer to share pictures with family and friends on my big screen. It worked really well for about 3 days, then when i opened it one evening there was water inside where all the wires came out. I cleaned that up and put some tape over that, so far, no leaks. My husband just told me yesterday, however, that this thing is trash.', 'th': 'ฉันชอบไอเดียที่มีคอมพิวเตอร์พกพาเพื่อแชร์รูปภาพกับครอบครัวและเพื่อน ๆ บนหน้าจอขนาดใหญ่ของฉัน มันใช้งานได้ดีจริง ๆ ประมาณ 3 วันจากนั้นเมื่อฉันเปิดมันในเย็นวันหนึ่งมีน้ำอยู่ภายในที่ซึ่งสายไฟทั้งหมดออกมา ฉันทำความสะอาดมันแล้ววางเทปไว้ที่นั่นจนถึงตอนนี้ไม่มีรอยรั่ว สามีของฉันเพิ่งบอกฉันเมื่อวานนี้ว่าสิ่งนี้เป็นขยะ'}}

数据字段

  • 翻译:
    • en:由 CTRL 生成的英文产品评论
    • th:通过谷歌翻译API从en翻译成的泰文产品评论
  • review_star:生成评论的评星,作为 CTRL 的条件
  • correct:如果英文到泰文的翻译被认为是接受的(正确),则为1,否则为0,这是根据人工标注者对翻译流畅度和准确性的评估而确定的

数据拆分

train valid test
# samples 141369 15708 17453
# correct:0 99296 10936 12208
# correct:1 42073 4772 5245
# review_star:1 50418 5628 6225
# review_star:2 22876 2596 2852
# review_star:3 22825 2521 2831
# review_star:1 22671 2517 2778
# review_star:5 22579 2446 2767

数据集创建

策划理由

generated_reviews_enth是 scb-mt-en-th-2020 中机器翻译任务的一部分。这个数据集(在 scb-mt-en-th-2020 中称为generated_reviews_yn)是由 CTRL 生成的英文产品评论,通过谷歌翻译API翻译成泰语,并根据人工标注者对翻译流畅度和准确性的评估,注释为接受或拒绝(正确)。这使得它可以用于英文到泰文的翻译质量估计(二元标签)、机器翻译和情感分析。

源数据

初始数据收集和标准化

数据生成过程如下:

  • en使用 CTRL 的条件生成,为每个生成的产品评论指定星级评价。
  • th从en使用谷歌翻译API翻译而来
  • correct根据人工标注者对翻译流畅度和准确性的评估,被注释为接受或拒绝(1或0)

对于这个特定的翻译质量估计任务的数据集,我们进行了以下预处理:

  • 在en、th、review_star、correct上去除重复项,因为翻译检查是由注释者完成的。
  • 删除评星不在1-5之间的评论。
  • 删除correct不等于0或1的评论。
  • 在包含源句子的en上进行去重。
谁是源语言的生成者?

CTRL

注释

注释过程

注释者会得到一对英文和泰文的产品评论。他们被要求根据翻译的流畅性和准确性将其标注为可接受的翻译或不可接受的翻译。

谁是注释者?

AIResearch.in.th 雇佣的 Hope Data Annotations 的人工注释者

个人和敏感信息

作者不希望生成的产品评论中包含任何个人或敏感信息,但是它们可能会通过 CTRL 的预训练流程漏出。

使用数据的注意事项

数据集的社会影响

  • 对机器翻译的英文到泰文的翻译质量估计
  • 泰文产品评论的分类

偏见讨论

[需要更多信息]

其他已知限制

由于注释过程的限制,一星评论的数量明显高于其他星级评论。这使得数据集稍微不平衡。

附加信息

数据集创建者

数据集由 AIResearch.in.th 创建

许可信息

CC BY-SA 4.0

引用信息

@article{lowphansirikul2020scb,
  title={scb-mt-en-th-2020: A Large English-Thai Parallel Corpus},
  author={Lowphansirikul, Lalita and Polpanumas, Charin and Rutherford, Attapol T and Nutanong, Sarana},
  journal={arXiv preprint arXiv:2007.03541},
  year={2020}
}

贡献

感谢 @cstorm125 添加了这个数据集。