重新思考软件构建方式
Gamma的联合创始人乔恩·诺罗尼亚表示:“LLM(大型语言模型)的最大优势也是最大劣势,那就是它们非常具有创造力。创造力是很好的,但同时也意味着不可预测。你可以向LLM提出相同的问题,根据措辞的细微差异得到非常不同的答案。”
对于围绕LLM构建生产应用的公司来说,面临着可预测的故障排除、软件测试和监控工作的挑战。
他补充说:“在大规模构建这些应用时,我们发现需要重新思考整个软件开发流程,并尝试为LLM创建类似于调试和监控的传统实践的类比。解决这个问题的方式会有所不同,但这需要一代新的基础架构工具,帮助开发团队了解它们的LLM在广泛应用中的性能表现。”
这是一个新技术,Oportun的首席产品官Irfan Ganchi表示,工程师们每天都在遇到新问题。例如,考虑到训练LLM所需的时间长度,特别是当你在自己的知识库上进行训练时,并试图使其在各种上下文的各个接触点上保持品牌一致性。
他说:“你需要几乎在输入端和输出端都进行过滤,将人类置于环节中,以验证并确保与人类协作和生成AI产生的内容一致。还有很长的路要走,但这是一项有前途的技术。”
与软件工程不同,使用LLM工作并非像使用软件那样,Sendbird的产品负责人Shailesh Nalawadi补充道。
他说:“LLM不是软件工程。它不是确定性的。输入上的微小变化可能导致截然不同的输出。使其更具挑战性的是,你不能追溯LLM以弄清楚为什么会产生特定的输出,而这是我们作为软件工程师传统上能够做到的。在打磨完美的LLM并投入生产时,会涉及大量试错。然后,关于更新LLM的工具、测试自动化和CI/CD流程,它们并不存在。在今天基于生成AI的应用程序上推出构建在LLM之上,我们需要意识到所有缺失的问题,并谨慎前行。”
关于在生产环境中使用生成AI的误解
Nalawadi表示,最大的误解之一是许多人认为LLM与Google搜索非常相似:一个具有实时索引信息的数据库。不幸的是,这并不正确。LLM通常是在可能是6到12到18个月前的数据集上进行训练的。为了使其对用户以特定所需信息作出响应,需要用户用数据的特定信息促使模型。
他说:“这意味着,在企业环境中,启用正确的提示,确保打包所有与所需响应相关的信息将非常重要。这里的引导工程是一个非常相关和重要的话题。”
另一个误解来自术语,诺罗尼亚说。术语“生成”意味着从头开始制作,这可能很有趣,但通常不是创造最大商业价值的地方。
他说:“我们会发现,生成几乎总是与您自己的起点数据结合在一起,再与生成AI结合在一起。关键是桥接这两个世界,这个创造性、不可预测模型和你已经拥有的结构和知识。在很多方面,我认为‘变革性AI’是更好的术语,因为真正的价值来自于这里。”
在生产中应用生成AI的最佳实践
在应用生成AI时,最关键的是非常有意识,Ganchi表示,在组织内部拥有一个基本策略,并能够在组织中逐步测试其价值。
他说:“我们发现,一旦引入生成AI,不论是在员工还是组织高管层面,都会有很多担忧。如何具有目标性?如何有意识地面对?你需要有一个策略来逐步测试、展示价值,并提高组织的生产力。”
在开始部署之前,Nalawadi补充说,您需要建立基础架构来评估生成AI系统的性能。
他说:“输出是否产生?它是否达到预期?它是否令人满意?或许需要一个人工评估框架。然后在您发展LLM和改进提示时保持这个黄金标准,并确保它确实在改善。使用它而不仅仅依赖定性指标来查看它的表现。计划好,确保您有测试基础设施和量化评估框架。”
从许多方面来说,最重要的部分是选择将生成AI应用于哪些问题,诺罗尼亚说。
他说:“肯定会遇到一些问题,但每个人都渴望在产品上撒下AI的魔法之尘,而不是每个人都在思考将其放置在正确位置上。我们正在寻找那些没有人去做或没有人愿意做的工作,比如格式化演示文稿。我鼓励寻找这样的案例,并充分利用它们。我们在专注于这些方面时所带来的另一件事是,这不仅仅改变了效率,还引导人们创造出之前不会创造的东西。”