ChatGLM2-6B:第二代ChatGLM-6B开源双语聊天模型发布
2023年06月29日 由 Neo 发表
56260
0
自从OpenAI推出了革命性的ChatGPT,这款产品以创纪录的速度获得了1亿用户,自然语言对话代理领域取得了重大进展。研究人员积极探索各种技术和策略,以提高聊天机器人模型的能力,使它们能够与用户创建更自然和引人入胜的交互。因此,市场上出现了一些开源和轻量级的ChatGPT替代方案,其中一个就是由中国清华大学研究人员开发的基于通用语言模型(GLM)框架的ChatGLM模型系列。这个系列与更常见的基于生成预训练变换器(GPT)的大规模语言模型(LLM)有所不同。该系列包括几个中英双语模型,其中最著名的是拥有62亿参数的ChatGLM-6B。该模型在超过1万亿个英文和中文标记上进行了预训练,并使用了强化学习和人类反馈等技术,进一步对中文问答、摘要和对话任务进行了微调。
ChatGLM-6B的另一个突出特点是它可以本地部署,并且由于其量化技术,只需要很少的资源。该模型甚至可以在消费级显卡上本地部署。它已经非常受欢迎,特别是在中国,全球下载量超过200万次,使其成为最具影响力的大规模开源模型之一。由于其广泛的采用,清华大学研究人员发布了双语聊天模型的第二代版本——ChatGLM2-6B。ChatGLM2-6B包含了第一代模型的所有优点,以及一些新增加的功能,如性能提升、支持更长的上下文和更高效的推理。此外,研究团队还将模型权重的使用范围扩展到了商业用途(之前只用于学术目的),并向公众开放。
作为一个起点,研究人员提升了ChatGLM2-6B相比于第一代版本的基础模型。ChatGLM2-6B使用了GLM的混合目标函数,并在超过1.4万亿个英文和中文标记上进行了预训练。研究人员将他们的模型与市场上其他大致相同规模的竞争模型进行了性能评估。结果显示,ChatGLM2-6B在各种数据集上(如MMLU、CEval、BBH等)都取得了明显的性能提升。ChatGLM2-6B展示出来的另一个令人印象深刻的升级是支持更长的上下文,从之前版本的2K增加到32K。FlashAttention算法在此起到了关键作用,它加速了注意力层对更长序列的处理,并降低了内存消耗。此外,该模型在对话对齐过程中使用了8K的上下文长度进行训练,以提供给用户更深入的对话体验。ChatGLM2-6B还使用了多查询注意力技术,从而成功地降低了KV缓存的GPU内存使用量,并提高了推理速度,与第一代相比约提高了42%。
清华大学研究人员将ChatGLM2-6B开源,希望鼓励全球的开发者和研究人员促进LLM的发展和创新,并基于该模型开发出各种有用的应用。然而,研究人员也强调了一个事实,即由于模型的规模较小,其决策往往会受到随机性的影响,因此,其输出必须仔细核实准确性。在未来的工作方面,团队已经想得更远,开始着手开发第三代模型——ChatGLM3。
来源:https://www.marktechpost.com/2023/06/28/meet-chatglm2-6b-the-second-generation-version-of-the-open-source-bilingual-chinese-english-chat-model-chatglm-6b/