数据集:

mwz/ur_para

英文

Paraphrase Dataset (Urdu)

这个数据集包含了乌尔都语的释义。它以Parquet格式提供,并被分为一个包含393,000行的训练集。

数据集详细信息

  • Columns:
    • sentence1: 一对释义中的第一个句子(字符串)。
    • sentence2: 一对释义中的第二个句子(字符串)。

用途

您可以将此数据集用于各种自然语言处理任务,例如文本相似性、释义识别和语言生成。