“strawberry”问题：如何克服AI的局限性

2024年10月14日由 samoyed 发表 1414 0

到目前为止，像ChatGPT和Claude这样的大型语言模型已在全球范围内被广泛应用。许多人开始担心人工智能会抢走他们的工作，因此，当几乎所有基于LLM的系统在一个简单任务上——即在单词“strawberry”中计算“r”的数量时——都表现不佳时，就显得颇具讽刺意味了。它们不仅无法准确识别字母“r”，其他例子还包括在“mammal”中计算“m”的数量，以及在“hippopotamus”中计算“p”的数量。在本文中，我将分析这些失败的原因，并提供一个简单的解决方法。

大型语言模型是功能强大的AI系统，它们经过大量文本的训练，能够理解和生成类似人类的语言。它们在回答问题、语言翻译、内容总结，甚至通过预测和构建连贯的回复来生成创意写作等任务上表现出色。大型语言模型被设计为能够识别文本中的模式，这使得它们能够以令人印象深刻的准确性处理各种与语言相关的任务。

尽管它们功能强大，但在计算单词“strawberry”中“r”的数量时失败，这一事实提醒我们，大型语言模型并不具备像人类一样的“思考”能力。它们处理我们提供的信息的方式与人类不同。

几乎所有当前的高性能大型语言模型都是基于Transformer构建的。这种深度学习架构并不直接将文本作为输入。它们使用一种称为分词的过程，将文本转换为数字表示，即词元。一些词元可能是完整的单词（如“monkey”），而其他词元可能是单词的部分（如“mon”和“key”）。每个词元都像是模型能够理解的代码。通过将所有内容分解为词元，模型可以更好地预测句子中的下一个词元。

大型语言模型并不记忆单词；它们试图理解这些词元如何以不同的方式组合在一起，这使得它们擅长猜测接下来会出现什么。以单词“hippopotamus”为例，模型可能会看到字母词元“hip”、“pop”、“o”和“tamus”，但并不知道单词“hippopotamus”是由字母“h”、“i”、“p”、“p”、“o”、“p”、“o”、“t”、“a”、“m”、“u”、“s”组成的。

一种能够直接查看单个字母而无需进行分词处理的模型架构可能潜在地不会出现这个问题，但对于当今的Transformer架构而言，这在计算上并不可行。

此外，我们来看看大型语言模型如何生成输出文本：它们根据之前的输入和输出词元来预测下一个单词是什么。虽然这适用于生成上下文感知的类似人类的文本，但并不适合像数数字母这样的简单任务。当被要求回答单词“strawberry”中有多少个“r”时，大型语言模型完全是基于输入句子的结构来预测答案的。

以下是一个解决方法：

尽管大型语言模型可能无法进行“思考”或逻辑推理，但它们擅长理解结构化文本。结构化文本的一个绝佳例子是许多编程语言中的计算机代码。如果我们要求ChatGPT使用Python来计算“strawberry”中“r”的数量，它很可能会给出正确答案。当需要大型语言模型进行计数或任何其他可能需要逻辑推理或算术计算的任务时，可以设计更广泛的软件，使提示包括要求大型语言模型使用编程语言来处理输入查询。

结论

一个简单的字母计数实验揭示了像ChatGPT和Claude这样的大型语言模型的一个根本局限性。尽管它们在生成类似人类的文本、编写代码和回答任何问题方面都表现出令人印象深刻的能力，但这些AI模型仍然无法像人类一样“思考”。该实验揭示了这些模型的本质，即它们是模式匹配预测算法，而不是能够理解或推理的“智能”。然而，如果事先了解哪些类型的提示效果更好，可以在一定程度上缓解这个问题。随着AI在我们生活中的融合度不断提高，认识到这些模型的局限性对于负责任地使用它们并持有现实期望至关重要。

文章来源：https://venturebeat.com/ai/the-strawberrry-problem-how-to-overcome-ais-limitations/

标签：

ChatGPT

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇特斯拉发布两款自动驾驶新车，股价应声下跌超8%

下一篇苹果十月发布会：四大新品将亮相

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术