自然语言处理(NLP)简介

2023年09月27日 由 camellia 发表 371 0

我们正在学习关于ChatGPT和大型语言模型(LLM)的许多知识。自然语言处理一直是一个有趣的话题,目前正席卷着人工智能和技术界。是的,像ChatGPT这样的LLM帮助了它们的发展,但了解它的起源岂不是很好?所以让我们回到基础—自然语言处理。


2

自然语言处理是人工智能的一个子领域,它是计算机通过语音和文本的方式像我们人类一样检测和理解人类语言的能力。自然语言处理有助于模型处理、理解和输出人类语言。


自然语言处理的目标是弥合人类和计算机之间的沟通差距。自然语言处理模型通常在下一个词预测等任务上进行训练,这使它们能够建立上下文依赖关系,然后能够生成相关的输出。


自然语言的基本原理围绕着能够理解人类语言的不同要素、特征和结构。想想你尝试学一门新语言的时候,你必须理解它的不同要素。或者如果你没有尝试学习新语言,也许是去健身房学习如何蹲下—你必须学习如何正确完成动作的要素。


自然语言是我们人类相互交流的方式。如今世界上有超过7100种语言。


自然语言有一些关键的基本要素:


  • 句法—这指的是排列单词以创建句子的规则和结构。
  • 语义—这指的是语言中单词、短语和句子背后的意义。
  • 形态学—这指的是对单词的实际结构以及它们如何由更小的单位(称为词素)形成的研究。
  • 语音学—这指的是对语言中声音的研究,以及如何将不同的单元结合起来组成单词。
  • 语用学—这是研究上下文在语言解释中起到重要作用的学科,例如语气。
  • 语篇学—这是语言的背景与思想如何形成句子和对话之间的联系。
  • 语言习得—这是人类学习和发展语言技能的方式,例如语法和词汇。
  • 语言变体—这关注的是在不同地区、社会群体和语境中使用的7100多种语言。
  • 歧义—这是指有多种解释的单词或句子。
  • 多义性—这是指具有多个相关含义的单词。


如你所见,自然语言有各种关键的基本要素,其中所有这些要素都用于驱动语言处理。


现在我们知道了自然语言的基本原理,它在自然语言处理中如何使用呢?有各种各样的技术被用来帮助计算机理解、解释和生成人类语言。它们包括:


  • 标记化—这指的是将段落和句子分解或拆分为更小的单位,以便它们可以轻松地定义为NLP模型所使用的。原始文本被分解为称为令牌的更小单位。
  • 词性标注—这是一种将每个句子中的每个令牌分配语法类别(例如名词、动词和形容词)的技术。
  • 命名实体识别(NER)—这是一种识别和分类文本中的命名实体(例如人名、组织机构、地点和日期)的技术。
  • 情感分析—这是一种分析文本中表达的情绪的技术,例如它是积极的、消极的还是中性的。
  • 文本分类—这是一种将出现在不同类型文档中的文本根据其内容分类到预定义的类别中的技术。
  • 语义分析—这是一种通过上下文和单词之间的关系分析单词和句子,以更好地理解所说的内容的技术。
  • 词嵌入—这是将单词表示为向量以帮助计算机理解和捕捉单词之间的语义关系的技术。
  • 文本生成—是指计算机可以基于从现有文本数据中学习的模式创建类似人类的文本。
  • 机器翻译—这是将文本从一种语言翻译成另一种语言的过程。
  • 语言建模—这是一种综合考虑以上所有工具和技术的技术。这是构建可以预测序列中下一个单词的概率模型。


如果你以前处理过数据,你就会知道,一旦你收集到数据,你就需要对其进行标准化。标准化数据是将数据转换为计算机易于理解和使用的格式的过程。


自然语言处理也是如此。文本标准化是将文本数据清理和标准化为一致的格式的过程。你希望格式没有太多或没有变化和噪音。这使得NLP模型能够更有效、更准确地分析和处理语言。


NLP如何工作?


在将任何内容输入NLP模型之前,你需要理解计算机,并且了解它们只能理解数字。因此,当你拥有文本数据时,你需要使用文本向量化将文本转换为机器学习模型可以理解的格式。


查看下面的图像:

2.1

一旦文本数据以机器可理解的格式向量化,NLP机器学习算法将被提供训练数据。该训练数据帮助NLP模型理解数据、学习模式并建立输入数据之间的关系。


还会使用统计分析和其他方法来构建模型的知识库,其中包含文本的特征、不同特征等等。它基本上是他们大脑的一部分,已经学习并存储了新信息。


在训练阶段将更多数据输入这些NLP模型,模型就会变得更准确。一旦模型完成训练阶段,它将通过测试阶段进行测试。在测试阶段,你将看到模型使用未见过的数据来进行预测的准确程度。未见过的数据是对于模型来说是新的数据,因此它必须使用它的知识库进行预测。


现在你更好地了解了自然语言的基本原理,NLP的关键要素以及它是如何工作的。以下是当今社会中NLP的应用:


  • 情感分析
  • 文本分类
  • 语言翻译
  • 聊天机器人和虚拟助手
  • 语音识别
  • 信息检索
  • 命名实体识别(NER)
  • 主题建模
  • 文本摘要
  • 语言生成
  • 垃圾邮件检测
  • 问答
  • 语言建模
  • 虚假新闻检测
  • 医疗保健和医学NLP
  • 金融分析
  • 法律文件分析
  • 情感分析


总结


近年来,NLP方面有很多新发展,正如你可能已经知道的那样,ChatGPT和大型语言模型等聊天机器人层出不穷。了解NLP对任何人都非常有益,尤其是那些进入数据科学和机器学习领域的人。

文章来源:https://www.kdnuggets.com/introduction-to-natural-language-processing
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消