这是一个来自2023年维基百科转储的土耳其摘要数据集??。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。
Split | Num Bytes | Num Examples |
---|---|---|
train | 324,460,408.048 | 119,110 |
validation | 17,077,006.952 | 6,269 |
使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:
使用OpenAI的gpt3.5-turbo API生成原始文本的摘要?。
此数据集可用于多种自然语言处理任务??,例如文本摘要、机器翻译和土耳其语言建模。
示例用法:
from datasets import load_dataset # Load the dataset dataset = load_dataset("musabg/wikipedia-tr-summarization") # Access the data train_data = dataset["train"] validation_data = dataset["validation"] # Iterate through the data for example in train_data: text = example["text"] summary = example["summary"] # Process the data as needed
请确保引用数据集时按照以下方式?:
@misc{musabg2023wikipediatrsummarization, author = {Musab Gultekin}, title = {Wikipedia Turkish Summarization Dataset}, year = {2023}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/musabg/wikipedia-tr-summarization}}, }
这是一个来自2023年维基百科转储的土耳其摘要数据集。该数据集经过清洗、分词和使用Huggingface维基百科数据集清理脚本、自定义清理脚本和OpenAI的gpt3.5-turbo API生成摘要。
Bölüm | Numara Baytı | Örnek Sayısı |
---|---|---|
train | 324.460.408,048 | 119.110 |
validation | 17.077.006,952 | 6.269 |
使用Google的MT5分词器对数据集进行分词处理。应用了以下准则:
使用OpenAI的gpt3.5-turbo API生成原始文本的摘要。
此数据集可用于多种自然语言处理任务,例如文本摘要、机器翻译和土耳其语言建模。
示例用法:
from datasets import load_dataset # Veri kümesini yükle dataset = load_dataset("musabg/wikipedia-tr-summarization") # Verilere erişin train_data = dataset["train"] validation_data = dataset["validation"] # Verilerin üzerinden geçin for example in train_data: text = example["text"] summary = example["summary"] # Veriyi gerektiği gibi işleyin