数据集:

musabg/wikipedia-tr-summarization

语言:

tr

大小:

100K<n<1M
英文

维基百科土耳其摘要数据集

数据集描述

这是一个来自2023年维基百科转储的土耳其摘要数据集??。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。

数据来源

  • 维基百科的最新土耳其转储(2023版本)?

特点

  • 文本:字符串(从维基百科文章?中提取的原始文本)
  • 摘要:字符串(原始文本的生成摘要?)

数据划分

Split Num Bytes Num Examples
train 324,460,408.048 119,110
validation 17,077,006.952 6,269

下载大小

  • 216,029,002字节

数据集大小

  • 341,537,415字节

数据准备

数据收集

  • 下载最新的土耳其维基百科转储?。
  • 使用Huggingface维基百科数据集清理脚本清理文本?。
  • 使用自定义脚本进一步清理文本,删除"Kaynakca"(参考文献)等部分和其他无关信息?️。
  • 分词

    使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:

    • 选择300到900个标记的文章✔️。
    • 忽略少于300个标记的文章❌。
    • 对于超过900个标记的文章,仅选择以段落结束的前900个标记?。

    摘要生成

    使用OpenAI的gpt3.5-turbo API生成原始文本的摘要?。

    数据集用途

    此数据集可用于多种自然语言处理任务?‍?,例如文本摘要、机器翻译和土耳其语言建模。

    示例用法:

    from datasets import load_dataset
    
    # Load the dataset
    dataset = load_dataset("musabg/wikipedia-tr-summarization")
    
    # Access the data
    train_data = dataset["train"]
    validation_data = dataset["validation"]
    
    # Iterate through the data
    for example in train_data:
      text = example["text"]
      summary = example["summary"]
      # Process the data as needed
    

    请确保引用数据集时按照以下方式?:

    @misc{musabg2023wikipediatrsummarization,
      author = {Musab Gultekin},
      title = {Wikipedia Turkish Summarization Dataset},
      year = {2023},
      publisher = {HuggingFace},
      howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}},
    }
    

    维基百科土耳其摘要数据集

    这是一个来自2023年维基百科转储的土耳其摘要数据集。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。

    数据来源

    • 维基百科的最新土耳其转储(2023版本)

    特点

    • 文本:字符串(从维基百科文章中提取的原始文本)
    • 摘要:字符串(原始文本的生成摘要)

    数据划分

    Bölüm Numara Baytı Örnek Sayısı
    train 324.460.408,048 119.110
    validation 17.077.006,952 6.269

    下载大小

    • 216,029,002字节

    数据集大小

    • 341,537,415字节

    数据准备

    数据收集

  • 下载最新的土耳其维基百科转储。
  • 使用Huggingface维基百科数据集清理脚本清理文本。
  • 使用自定义脚本进一步清理文本,删除"Kaynakca"(参考文献)等部分和其他无关信息。
  • 分词

    使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:

    • 选择300到900个标记的文章。
    • 忽略少于300个标记的文章。
    • 对于超过900个标记的文章,仅选择以段落结束的前900个标记。

    摘要生成

    使用OpenAI的gpt3.5-turbo API生成原始文本的摘要。

    数据集用途

    此数据集可用于多种自然语言处理任务,例如文本摘要、机器翻译和土耳其语言建模。

    示例用法:

    from datasets import load_dataset
    
    # Veri kümesini yükle
    dataset = load_dataset("musabg/wikipedia-tr-summarization")
    
    # Verilere erişin
    train_data = dataset["train"]
    validation_data = dataset["validation"]
    
    # Verilerin üzerinden geçin
    for example in train_data:
      text = example["text"]
      summary = example["summary"]
      # Veriyi gerektiği gibi işleyin