Conversational BERT(英文,大小写敏感,12层,768隐藏层,12个注意力头,110M参数)在Twitter、Reddit、DailyDialogues[1]、OpenSubtitles[2]、Debates[3]、Blogs[4]、Facebook News Comments的英文部分上进行了训练。我们使用这些训练数据构建了英文子词的词汇,并以英文大小写版本的BERT-base为英文对话BERT的初始化。
08.11.2021: 上传具有MLM和NSP头的模型
[1]: Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu. DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset. IJCNLP 2017.
[2]: P. Lison and J. Tiedemann, 2016, OpenSubtitles2016:从电影和电视字幕中提取大规模平行语料库。在第十届国际语言资源和评估会议(LREC 2016)上的论文集
[3]: Justine Zhang,Ravi Kumar,Sujith Ravi,Cristian Danescu-Niculescu-Mizil. 2016年NAACL会议论文集。
[4]: J. Schler,M. Koppel,S. Argamon和J. Pennebaker(2006)。在2006 AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs会议记录中探讨年龄和性别对博客撰写的影响。