cambridgeltl/simctg_lccc_dialogue | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

cambridgeltl/simctg_lccc_dialogue

任务:

文本生成

类库:

PyTorch Transformers

其他:

gpt2 text-generation-inference

预印本库:

arxiv:2008.03946 arxiv:2202.06417

模型介绍文件清单

英文

该模型基于我们的论文在LCCC基准上使用SimCTG训练了一个中文GPT-2语言模型。

我们在我们的 project repo 中提供了一个关于如何应用SimCTG和对比搜索的详细教程。以下是一个使用我们的方法执行文本生成的简要教程。

1. 安装SimCTG：

pip install simctg --upgrade

2. 初始化SimCTG模型：

import torch
# load SimCTG language model
from simctg.simctggpt import SimCTGGPT
model_name = r'cambridgeltl/simctg_lccc_dialogue'
model = SimCTGGPT(model_name)
model.eval()
tokenizer = model.tokenizer
eos_token = '[SEP]'
eos_token_id = tokenizer.convert_tokens_to_ids([eos_token])[0]

3. 准备文本前缀：

context_list = ['刺猬很可爱！以前别人送了只没养，味儿太大！', '是很可爱但是非常臭', '是啊，没办法养', '那个怎么养哦不会扎手吗']
prefix_text = eos_token.join(context_list).strip(eos_token) + eos_token
print ('Prefix is: {}'.format(prefix_text))
tokens = tokenizer.tokenize(prefix_text)
input_ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.LongTensor(input_ids).view(1,-1)

4. 使用对比搜索生成文本：

beam_width, alpha, decoding_len = 5, 0.6, 64
output = model.fast_contrastive_search(input_ids=input_ids, beam_width=beam_width, alpha=alpha, 
                                       decoding_len=decoding_len, end_of_sequence_token_id=eos_token_id,
                                       early_stop=True)  
                                           
print("Output:\n" + 100 * '-')
print(''.join(tokenizer.decode(output)))
'''
  Prefix is: 刺猬很可爱！以前别人送了只没养，味儿太大！[SEP]是很可爱但是非常臭[SEP]是啊，没办法养[SEP]那个怎么养哦不会扎手吗[SEP]
  Output:
  ----------------------------------------------------------------------------------------------------
  刺猬很可爱！以前别人送了只没养，味儿太大！[SEP]是很可爱但是非常臭[SEP]是啊，没办法养[SEP]那个怎么养哦不会扎手吗[SEP]我觉得还好，就是有点臭
'''

如需了解更多关于我们工作的细节，请参阅我们的主要 project repo 。

5. 引用：

如果您认为我们的论文和资源有用，请给我们点个星并引用我们的论文。谢谢！

@article{su2022contrastive,
  title={A Contrastive Framework for Neural Text Generation},
  author={Su, Yixuan and Lan, Tian and Wang, Yan and Yogatama, Dani and Kong, Lingpeng and Collier, Nigel},
  journal={arXiv preprint arXiv:2202.06417},
  year={2022}
}

作者:

Language Technology Lab @University of Cambridge

数据集大小:

401.79 MB