模型:

lmsys/longchat-7b-16k

英文

longchat-7b-16k 模型使用卡

请使用 FastChat 或 LongChat 库中的 load_model 加载模型(或使用 FastChat 的 chatting API)。加载模型的用法请参考以下命令:

(LongChat) python3 eval.py --model-name-or-path lmsys/longchat-7b-16k --task topics

(FastChat) python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-16k

在底层,我们添加了以下 monkey patch:

https://github.com/lm-sys/FastChat/blob/da0641e567cf93756b0978ab5a6b092e96f06240/fastchat/model/model_adapter.py#L429

模型详情

模型类型:longchat-7b-16k 是一个由 lama-7b 在 ShareGPT 收集的用户对话数据上进行微调训练得到的开源聊天机器人模型,使用了 condensing rotary embedding 技术进行训练,该技术在 blog 中有详细描述。

模型日期:longchat-7b-16k 训练于 2023 年 6 月。

开发模型的组织:LongChat 开发团队:李大成*、邵如林*、谢安泽、盛颖、郑连民、Ion Stoica、马学者、张浩。

获取更多信息的论文或资源: https://github.com/DachengLi1/LongChat

问题或建议反馈渠道: https://github.com/DachengLi1/LongChat

预期使用

主要预期用途:longchat-7b-16k 的主要用途是用于研究目的。

主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

训练数据集

从 ShareGPT.com 收集的 80K 个对话。

评估数据集

我们发布的 LongEval 对模型质量进行了初步评估。