人工智能术语大解析:从ML到GPT-4
2023年06月16日 由 Neo 发表
430027
0
一些人工智能方面的缩写都是什么意思?
ML:机器学习。是解决复杂计算问题的一种方法,与编写程序的编程语言不同,它通过从数据样本中“学习”解决方案的算法来解决问题。
AI:人工智能。是计算机科学的一个领域,处理那些难以使用传统编程解决的问题(例如图像分类,处理人类语言)。机器学习和人工智能相辅相成,机器学习是解决在人工智能中提出的问题的工具。
AGI:人工通用智能。通俗文化中通常所说的AI——是指计算机具有与人类相似的智力能力和全面推理能力的正确术语。这仍然是AI领域研究者们追求的终极目标。
“神经网络”是什么?
人工神经网络(ANN)是机器学习算法和数据结构的结合体(或称为小型模型),因其受到生物神经组织结构的启发而得名。但它并不完全模仿其背后的所有生物机制。相反,人工神经网络是基于生物界的思想的复杂数学函数。
当你读到“这个模型有20亿个参数”时,它是什么意思?
神经网络是由相互连接的类似单元组成的分层结构。这些单元之间的连接方式被称为架构,每个连接都有一个称为权重的相关数值,权重存储了模型从数据中学习到的信息。所以,当你读到“这个模型有20亿个参数”时,意味着这个模型有20亿个连接(和权重),这大致表示了神经网络的信息容量。
“深度学习”是什么意思?
神经网络从20世纪80年代开始被研究,但是真正产生影响是在计算机游戏行业推出了廉价的个人计算机,即图形处理单元(GPU)。研究人员将这种硬件应用于神经网络的训练过程,并取得了令人印象深刻的结果。最初的深度学习架构之一,卷积神经网络(CNN),能够执行复杂的图像识别,而传统的计算机视觉算法很难实现。此后,机器学习被重新定义为神经网络的研究或学习方式,而“深度”指的是复杂的神经网络架构,使得网络能够进行更深入的探索。
“大型语言模型”是什么意思?
为了让计算机处理人类语言,必须将语言进行数学定义。这种方法应该足够通用,可以包括每种语言的特定特征。2003年,研究人员探索用神经网络表示语言,并将其称为神经概率语言模型或简称为LM。它的工作原理类似于手机上的预测文本-给定一些初始的单词序列(或标记),模型可以预测可能的下一个单词及其相应的概率。继续使用已经生成的单词作为输入(即自回归)来进行这个过程——模型就可以生成它所训练的语言中的文本。
当我阅读关于语言模型的文章时,经常会遇到“transformer”这个词,它是什么意思?
对于神经网络来说,表示一系列对象是一个具有挑战性的问题。已经尝试了几种解决方法(主要是循环神经网络的变体),它们产生了一些重要的思想(例如,词嵌入、编码器-解码器架构和注意力系统)。2017年,一组谷歌研究人员提出了一种新的神经网络架构,被称为Transformer。它将所有这些想法结合在一起,并进行了有效的实际实现。它被设计用于解决语言翻译问题(因此得名),但也被证明对捕捉任何序列数据的统计特性非常有效。
为什么大家都在谈论OpenAI?
OpenAI 尝试使用 Transformers 构建神经概率语言模型。他们实验的结果被称为GPT(Generative Pre-trained Transformer)模型。预训练意味着他们在互联网上的大量文本中训练了Transformers神经网络,然后取其中的解码器部分来进行语言表示和文本生成。目前GPT有几个不同的版本:
GPT-1:初期的实验模型,用于验证方法的可行性。
GPT-2:展示了生成连贯人类语言文本和零样本学习的能力-即在没有特别训练的情况下,能够推广到未经训练的领域(例如语言翻译和文本摘要等)。
GPT-3:这是架构的扩展,参数数量较大(相比于GPT-2的15亿个参数,最大的GPT-3有1750亿个参数),并在更大更多样的文本数据上进行了训练。其最重要的功能是能够通过只查看几个示例(即提示)在各个领域产生文本,而无需进行特别的微调或先前的训练。
GPT-4:更大规模的模型(具体特征未公开),更大的训练数据集,并增加了多模态功能(即使用图像数据进行文本生成)。
由于GPT模型有大量的参数(实际上,需要庞大的计算集群,配备数百到数千个GPU来训练和服务这些模型),它们被称为大型语言模型(LLM)。
GPT-3和ChatGPT之间有什么区别?
最初的GPT-3仍然是一个单纯的词语预测引擎,因此引起了大多数人工智能研究人员和计算语言学家的兴趣。它可以无限生成文本,但这在实际中并没有太多的意义。OpenAI团队继续对模型进行实验,试图通过微调使其能够将信号视为执行的指令。他们提供了大量的人类生成的交互数据,并采用了一种新方法(RLHF-来自人类反馈的强化学习),使用另一个神经网络作为验证器代理(典型的AI研究中常见的方法),以显著加快这个过程。他们发布了一个名为Instruct GPT的MVP模型,基于较小的GPT-3版本,并于2022年11月发布了一个全功能版本,命名为ChatGPT。它通过简单的聊天机器人和网络UI改变了IT世界。
“语言模型对齐问题”是什么意思?
由于LLM只是复杂的统计机器,生成的结果可能是不可预测和不愉快的。这种结果有时被称为AI幻觉,但从算法的角度来看,尽管不可预测,对于人类用户来说仍然是有效的。
正如前面所提到的,LLM需要通过人类验证者和RLHF进行处理和额外的微调。这是为了使LLM与人类的期望保持一致,而这个过程本身被称为对齐。这是一个漫长而繁琐的过程,涉及大量的手动工作;可以将其视为LLM的质量保证。模型的对齐是OpenAI/Microsoft ChatGPT和GPT-4与其开源版本之间的区别。
为什么有人要停止语言模型的进一步发展?
神经网络是黑盒子(一个巨大的数字数组,上面有一些结构)。有一些方法可以追踪和调试它们的内部,但是GPT的卓越泛化能力仍然不清楚。这是禁止运动背后的主要原因——一些研究者认为,在我们更好地理解LLM背后的过程之前,我们在玩火(科幻小说给我们提供了AGI和技术奇点诞生的迷人场景)。
LLM的实际应用案例有哪些?
大文本摘要
反之亦然——从摘要生成文本
文本样式(模仿作者或角色)
将其用作个人导师
解决数学/科学练习
回答有关课文的问题
根据简短描述创建编程代码
GPT现在是唯一的LLM吗?
GPT是最成熟的模型,通过OpenAI和Microsoft Azure OpenAI服务提供API访问(如果你需要私人订阅)。但这是AI的极限,自ChatGPT发布以来发生了很多有趣的事情。Google推出了自己的PaLM-2模型;Meta将其LLaMA模型开源给研究人员,这激发了许多微调和增强(例如,斯坦福大学的Alpaca)和适应(现在可以在笔记本电脑甚至智能手机上运行LLaMA)。
Huggingface提供了Bloom和Starcoder以及HuggingChat - 这些都是完全开源的,只是没有LLAMA的研究限制。Databricks训练了自己完全开源的Dolly模型。Lmsys.org正在推出其Vicuna LLM。Nvidia的深度学习研究团队正在开发其Megatron-LM模型。同样值得注意的是 GPT4All 倡议。
我怎样才能使用这种技术?
最简单的方法是使用OpenAI的公共服务或其平台API Playground,这提供了对模型的更底层访问以及对网络内部运作的更多控制(指定系统上下文,调整生成参数等)。但是,你需要仔细审查他们的服务合同,因为他们使用用户的互动来改善和训练模型。或者,你可以选择Microsoft Azure OpenAI服务,它们提供类似的API和工具,而且具有私有模型实例。
如果你愿意冒险,可以尝试由HuggingFaces托管的LLM模型,但你需要很熟练地掌握Python和一些数据科学工具。
来源:https://biz.crast.net/your-ultimate-guide-to-chat-gpt-and-other-abbreviations/