模型:
lmsys/longchat-7b-16k
请使用 FastChat 或 LongChat 库中的 load_model 加载模型(或使用 FastChat 的 chatting API)。加载模型的用法请参考以下命令:
(LongChat) python3 eval.py --model-name-or-path lmsys/longchat-7b-16k --task topics
(FastChat) python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-16k
在底层,我们添加了以下 monkey patch:
模型类型:longchat-7b-16k 是一个由 lama-7b 在 ShareGPT 收集的用户对话数据上进行微调训练得到的开源聊天机器人模型,使用了 condensing rotary embedding 技术进行训练,该技术在 blog 中有详细描述。
模型日期:longchat-7b-16k 训练于 2023 年 6 月。
开发模型的组织:LongChat 开发团队:李大成*、邵如林*、谢安泽、盛颖、郑连民、Ion Stoica、马学者、张浩。
获取更多信息的论文或资源: https://github.com/DachengLi1/LongChat
问题或建议反馈渠道: https://github.com/DachengLi1/LongChat
主要预期用途:longchat-7b-16k 的主要用途是用于研究目的。
主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
从 ShareGPT.com 收集的 80K 个对话。
我们发布的 LongEval 对模型质量进行了初步评估。