模型:
shibing624/gpt2-dialogbot-base-chinese
GPT2中文对话生成模型
gpt2-dialogbot-base-chinese 评估对联测试数据:
GPT2在对话测试中的整体表现:
input_text | target_text |
---|---|
今天你的病好点了吗? | 好多了,谢谢你的关心 |
在常见中文闲聊数据集(包括小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等)上,基本能够正确理解语义并回答问题。
GPT2对话模型的网络结构(原生GPT2):
本项目在对话文本生成项目中开源: dialogbot ,支持GPT2模型,通过以下命令调用:
安装包:
pip install -U dialogbot
>>> from dialogbot import GPTBot >>> model = GPTBot("shibing624/gpt2-dialogbot-base-chinese") >>> r = model.answer("今天你的病好点了吗?") '好多了,谢谢你的关心'
模型文件组成:
gpt2-dialogbot-base-chinese ├── config.json ├── pytorch_model.bin └── vocab.txt
中文闲聊语料 | 数据集地址 | 语料描述 |
---|---|---|
常见中文闲聊 | 1236321 | 包含小黄鸡语料、豆瓣语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、PTT八卦语料、青云语料等 |
50w中文闲聊语料 | 1237321 或 1238321 | 包含50w个多轮对话的原始语料、预处理数据 |
100w中文闲聊语料 | 1239321 或 12310321 | 包含100w个多轮对话的原始语料、预处理数据 |
数据格式:
谢谢你所做的一切 你开心就好 开心 嗯因为你的心里只有学习 某某某,还有你 这个某某某用的好 你们宿舍都是这么厉害的人吗 眼睛特别搞笑这土也不好捏但就是觉得挺可爱 特别可爱啊
如果需要训练GPT2模型,请参考 https://github.com/shibing624/dialogbot
如果您在研究中使用了dialogbot,请按以下格式引用:
@software{dialogbot, author = {Xu Ming}, title = {dialogbot: Dialogue Model Technology Tool}, year = {2021}, url = {https://github.com/shibing624/dialogbot}, }