数据集:
gabtan99/pex-conversations
PEx Conversations是一个由PinoyExchange.com收集的线程数据集(包含Tagalog,英语或Taglish回复)。
该语料库由8个子论坛的共计45K个抓取的线程组成。数据只包括用户消息,即在抓取过程中没有收集任何图像、视频、链接或任何嵌入式html。所有字符已转换为最近的ASCII表示,并修复了Unicode错误。
数据按类别进行分类。列表中的对象由以下组成:
对话内部的线程具有递归结构,包括以下内容:
每个子论坛的数据量如下: