模型:

lmsys/longchat-13b-16k

英文

longchat-13b-16k 模型卡片

用法

请使用 FastChat 或 LongChat 仓库中的 load_model 方法来加载模型(或使用 FastChat 中的聊天 API)。需要进行一个修补程序以使用该模型。用法参考:

(LongChat) python3 eval.py --model-name-or-path lmsys/longchat-13b-16k --task topics

(FastChat) python3 -m fastchat.serve.cli --model-path lmsys/longchat-13b-16k

在底层中,修补程序已添加在:

https://github.com/lm-sys/FastChat/blob/da0641e567cf93756b0978ab5a6b092e96f06240/fastchat/model/model_adapter.py#L429

模型详情

模型类型:longchat-13b-16k 是一个开源聊天机器人,采用从 ShareGPT 收集的用户共享对话训练,使用了文中介绍的压缩旋转嵌入技术对 llama-13b 进行微调。

模型日期:longchat-13b-16k 训练于2023年6月。

开发该模型的组织:LongChat 开发人员:Dacheng Li*、Rulin Shao*、Anze Xie、Ying Sheng、Lianmin Zheng、Ion Stoica、Xuezhe Ma、Hao Zhang

获取更多信息的论文或资源: https://github.com/DachengLi1/LongChat

对于模型的问题或评论,请发送至: https://github.com/DachengLi1/LongChat

预期用途

主要预期用途:longchat-13b-16k 的主要用途是研究目的。

主要预期用户:模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

训练数据集

从 ShareGPT.com 收集的 18K 对话。

评估数据集

我们发布的 LongEval 对模型质量进行了初步评估。