数据集:

musabg/wikipedia-tr-summarization

任务:

摘要生成

语言:

大小:

100K<n<1M

数据集介绍文件清单

英文

维基百科土耳其摘要数据集

数据集描述

这是一个来自2023年维基百科转储的土耳其摘要数据集??。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。

数据来源

维基百科的最新土耳其转储（2023版本）?

特点

文本：字符串（从维基百科文章?中提取的原始文本）
摘要：字符串（原始文本的生成摘要?）

数据划分

Split	Num Bytes	Num Examples
train	324,460,408.048	119,110
validation	17,077,006.952	6,269

下载大小

216,029,002字节

数据集大小

341,537,415字节

数据准备

数据收集

下载最新的土耳其维基百科转储?。

使用Huggingface维基百科数据集清理脚本清理文本?。

使用自定义脚本进一步清理文本，删除"Kaynakca"（参考文献）等部分和其他无关信息?️。

分词

使用Google的MT5分词器对数据集进行分词处理。应用了以下准则：

选择300到900个标记的文章✔️。
忽略少于300个标记的文章❌。
对于超过900个标记的文章，仅选择以段落结束的前900个标记?。

摘要生成

使用OpenAI的gpt3.5-turbo API生成原始文本的摘要?。

数据集用途

此数据集可用于多种自然语言处理任务?‍?，例如文本摘要、机器翻译和土耳其语言建模。

示例用法：

from datasets import load_dataset

# Load the dataset
dataset = load_dataset("musabg/wikipedia-tr-summarization")

# Access the data
train_data = dataset["train"]
validation_data = dataset["validation"]

# Iterate through the data
for example in train_data:
  text = example["text"]
  summary = example["summary"]
  # Process the data as needed

请确保引用数据集时按照以下方式?：

@misc{musabg2023wikipediatrsummarization,
  author = {Musab Gultekin},
  title = {Wikipedia Turkish Summarization Dataset},
  year = {2023},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}},
}

维基百科土耳其摘要数据集

这是一个来自2023年维基百科转储的土耳其摘要数据集。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。

数据来源

维基百科的最新土耳其转储（2023版本）

特点

文本：字符串（从维基百科文章中提取的原始文本）
摘要：字符串（原始文本的生成摘要）

数据划分

Bölüm	Numara Baytı	Örnek Sayısı
train	324.460.408,048	119.110
validation	17.077.006,952	6.269

下载大小

216,029,002字节

数据集大小

341,537,415字节

数据准备

数据收集

下载最新的土耳其维基百科转储。

使用Huggingface维基百科数据集清理脚本清理文本。

使用自定义脚本进一步清理文本，删除"Kaynakca"（参考文献）等部分和其他无关信息。

分词

使用Google的MT5分词器对数据集进行分词处理。应用了以下准则：

选择300到900个标记的文章。
忽略少于300个标记的文章。
对于超过900个标记的文章，仅选择以段落结束的前900个标记。

摘要生成

使用OpenAI的gpt3.5-turbo API生成原始文本的摘要。

数据集用途

此数据集可用于多种自然语言处理任务，例如文本摘要、机器翻译和土耳其语言建模。

示例用法：

from datasets import load_dataset

# Veri kümesini yükle
dataset = load_dataset("musabg/wikipedia-tr-summarization")

# Verilere erişin
train_data = dataset["train"]
validation_data = dataset["validation"]

# Verilerin üzerinden geçin
for example in train_data:
  text = example["text"]
  summary = example["summary"]
  # Veriyi gerektiği gibi işleyin

作者:

musabg

数据集大小:

206.03 MB