数据集:

gabtan99/pex-conversations

英文

PinoyExchange(PEx)对话数据集

概述

PEx Conversations是一个由PinoyExchange.com收集的线程数据集(包含Tagalog,英语或Taglish回复)。

该语料库由8个子论坛的共计45K个抓取的线程组成。数据只包括用户消息,即在抓取过程中没有收集任何图像、视频、链接或任何嵌入式html。所有字符已转换为最近的ASCII表示,并修复了Unicode错误。

格式

数据按类别进行分类。列表中的对象由以下组成:

  • 类别-线程的类别
  • 对话-线程列表

对话内部的线程具有递归结构,包括以下内容:

  • 文本-这是响应/回复/提示
  • 回复-这是对此提示的回复列表。列表中的回复具有相同文本和回复组件的结构。

子论坛百分比

每个子论坛的数据量如下:

  • Small Talk-5K个对话,包含1.16M个话语
  • 食物和饮料-8.2K个对话,包含273K个话语
  • 健康与保健-6.3K个对话,包含93K个话语
  • 身体与健身-3.9K个对话,包含94K个话语
  • 家居与园艺-3.6K个对话,包含71K个话语
  • 风格与时尚-9.7K个对话,包含197K个话语
  • 旅行与休闲-7.3K个对话,包含431K个话语
  • 签证与移民-1.1K个对话,包含99K个话语

模型研究

Tagalog DialoGPT