揭开机器学习的神秘面纱

2023年09月18日 由 camellia 发表 312 0

这篇文章旨在让你了解机器学习的实质、基本概念和高级机器学习过程。


传统与转变:回顾和展望


传统上,计算机是按照一组明确的指令进行操作的。例如,如果你想让计算机执行一个简单的加法任务,你需要详细说明每一步。然而,随着我们的数据变得越来越复杂,这种手动给出每种情况的指令的方法已经不足够了。


这就是机器学习作为一个改变游戏规则的出现。我们希望计算机能够像我们从经验中学习一样从实例中学习。想象一下,你通过几次展示给一个孩子看如何骑自行车,然后让他摔倒、摸索并自己学会。这就是机器学习的理念。这一创新不仅改变了行业,而且已经成为当今世界中不可或缺的必需品。


学习基础知识


既然我们对“机器学习”这个词有了基本的了解,让我们熟悉一些基本术语:


数据


数据是机器学习的命脉。它指的是计算机用来学习的信息。这些信息可以是数字、图片或者任何计算机能理解的东西。数据进一步分为两类:


  • 训练数据:这些数据指的是我们用来教导计算机的例子。
  • 测试数据:在学习之后,我们使用一些之前没见过的新数据来测试计算机的性能,这些数据被称为测试数据。


标签与特征


想象一下,你正在教一个孩子如何区分不同的动物。动物的名称(狗、猫等)就是标签,而帮助你识别它们的特征(腿的数量、毛发等)就是特征。


模型


它是机器学习过程的结果。它是数据中的模式和关系的数学表示。这就像在探索一个新地方后制作一张地图一样。


机器学习的类型


机器学习有四种主要类型:


监督式机器学习


也称为导向式学习。我们向机器学习算法提供带有标签的数据集,其中正确的输出已知。根据这些例子,它学习数据中的隐藏模式,并能够预测或正确分类新数据。监督学习中的常见类别有:


  • 分类:将事物按照不同的类别进行分类,例如将图片分类为猫或狗、将电子邮件分类为垃圾邮件或非垃圾邮件等。
  • 回归:涉及根据某些特征预测数值,例如房价、你的平均绩点、销售数量等。


无监督机器学习


在这种情况下,计算机提供了没有给出先验提示的未标记数据,它自己探索其中的隐藏模式。就像你手上拿到了一盒没有图片的拼图片段,你的任务是将相似的图片分组形成完整的图片。聚类是无监督学习中最常见的类型,它将相似的数据点分组到一个组中。例如,我们可以使用聚类来将类似的社交媒体帖子分组,用户可以按照自己感兴趣的子主题进行关注。


半监督机器学习


半监督学习包含已标记和未标记数据集的混合,其中已标记的数据集作为识别数据中的模式的引导点。例如,你给一位厨师列出了所需主要原料,但没有提供完整的食谱。因此,尽管他们没有食谱,但一些提示可能会帮助他们入手。


强化学习


强化学习也称为通过实践学习。它与环境进行交互,并根据其行为获得奖励或惩罚。随着时间的推移,它学会最大化奖励并表现良好。想象一下,你在训练一只小狗,当它表现良好时给予正面反馈,并以不给予奖励的形式给予负面反馈。随着时间的推移,小狗学会了导致奖励的行为,也学会了不导致奖励的行为。


高级机器学习过程


机器学习就像烹饪艺术一样,具有将原始、不同的元素转化为深刻见解的神奇能力。就像一位熟练的厨师熟练地将各种配料组合在一起制作出美味的菜肴。下面是执行机器学习任务所使用的6个基本步骤:


3.1

1.数据收集


数据是重要的资源,其质量非常重要。多样化、更相关的数据可以产生更好的结果。你可以将其看作是厨师从不同的市场收集各种原料。


2.数据预处理


我们的大部分数据并不是以期望的形式存在的。就像在做菜之前洗净、切割和准备食材一样,数据预处理涉及将数据进行清洗和组织,以便进行学习。你可能会遇到一些常见的问题,比如缺失数据、异常值、不正确的格式等。


3.选择算法


类似于为特定菜式选择食谱,你根据要解决的问题选择算法。这个选择也可能受到你拥有的数据类型的影响。


4.模型训练


将其视为烹饪过程,我们等待风味融合。类似地,我们让模型从训练数据中学习。这里还涉及到学习速率的重要概念,它决定了模型在每次训练迭代中迈出多大的步伐。如果一次加入了太多的盐或香料,菜肴可能会变得太过浓烈。相反,如果添加的太少,味道可能不会充分发展。学习速率可以找到适当的平衡,逐渐增强风味。


5.测试与评估


一旦学习过程结束,我们用特殊的测试数据进行测试,就像品尝一道菜并检查其外观一样,然后再与他人分享。常见的评估指标包括准确度、精确率、召回率和F1分数,具体取决于手头的问题。


6.调整和迭代


调整调味品或食材以完善菜肴,通过引入更多的变量、选择不同的学习算法和调整参数或学习速率来微调模型。


文章来源:https://www.kdnuggets.com/demystifying-machine-learning
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消