机器学习的核心:优化的简介
2018年11月20日 由 yuxiangyu 发表
903371
0
优化是几乎所有机器学习和统计技术的核心。在本文中,我们讨论最流行的机器学习和统计建模方法背后的核心优化框架。通常,数据科学(DS)和机器学习(ML)的新手通常被建议去学习统计学和线性代数方面的所有知识。想要在数据科学或机器学习取得事业成功,确实需要在两个科目中建立坚实基础。然而,优化这个话题虽然不那么受关注,但对于任何严肃的数据科学和分析从业者来说同样重要。
甚至可以说,如果不能很好地理解优化,我们对数据驱动的文化和生活的现代世界观仍然是不完整的。
这这是因为优化是每一个主要业务、社会、经济甚至个人决策的核心,而这些决策由个别的人,集体代表人、智能机器和软件智能体做出。
你每天都在优化变量并稳固你的个人决策,只是你大部分时间没有有意识地认识到这个过程 -
- 安排回复邮件的顺序
- 换一条回家的新路线来减少交通拥堵
- 试着在午餐和下午会议之间挤出一点时间,在办公室周围散散步
这些看似人性化的决定中的每一个都可以使用冷冰冰的数学模型精确建模,这显示了我们的大脑是一个惊人的优化器,可以整天解决这些复杂的计算问题!
现在,我们暂时摆脱人的角度转向关于数据科学的问题:
优化对数据科学到底有多重要?
答案是:非常重要!
基础科学,商业组织和工程企业长期以来一直在使用优化技术和方法。从这个意义上说,几乎每种工程产品都是一种严密的物理(也可能是虚拟)形式的优化问题解决方案。工程师经过专门培训,可以在资源有限的情况下工作,并从不完整或嘈杂的数据或输入中生成足够好的解决方案。基本上它们每天都可以通过计算机,半导体集成电路,熔炉或内燃机来解决优化问题。
商业组织也是如此。事实上,每项业务决策都是为了在时间,预算,空间以及法律和道德界限的约束下最大化某种形式的收益。这些都是某种形式的优化问题。
如今,几乎所有的商业和技术都受到数据科学和机器学习带来的新范式变革的影响。然而,这并没有改变基本的自然资源和人力资源仍然有限的事实。一天仍然只有24小时。法律和道德界限也不会就此消失。
人工智能或机器学习等先进技术可能能够指导企业以更快的速度获得更好的解决方案,但他们必须面对并解决与以前相同(甚至更复杂)的优化问题。大量新数据将有助于这个过程,但随着时间的推移,人们的期望也会越来越高。
简单的举个例子,假设在过去,工程团队可以通过1GB的数据产生10美元成本的最佳解决方案,那么如果给予我们更丰富的数据集比如说10GB,他们会希望会将成本降低到7美元。否则,大数据有什么意义?
因此,对于数据科学和机器学习实践者来说,对于用于常见的统计和机器学习算法的优化框架的理论基础有一个健全的知识是至关重要的
- 如何有效地使用数据
- 如何估算处理大数据集的计算量,
- 如何避免局部最小值并从复杂的多维空间中寻找一个好的解决方案。
在过去关于数据科学基本数学背景的文章中,我曾经讨论了优化的作用和一些在线课程(具体在文末链接)。
优化的基本要素
任何优化问题都有三个基本要素 -
- 变量:算法可以调整的自由参数
- 约束:参数(或参数的某些组合)必须落在这个范围内
- 目标函数:这是算法驱动解决方案的目标集合。对于机器学习,通常这相当于最小化一些错误度量或最大化某些效用函数。
在这里重点介绍一些基本的,广泛使用的统计模型和ML算法,并展示其核心的优化框架。
简单线性回归
从两个角度来看,对于回归的区别:
大多数神经网络通过反向传播技术优化神经元之间连接的权重。采用先进的优化方法可以确保找到具有高收敛的良好解决方案。
RL是任何现代AI系统或智能体的核心。
推荐:https://medium.com/@curiousily/solving-an-mdp-with-q-learning-from-scratch-deep-reinforcement-learning-for-hackers-part-1-45d1d360c120
利用机器学习进行优化
有一些优化问题以机器学习为前端,创建一个模型或者目标函数,与其他方法相比,这种模型或目标函数的评估和计算速度要快得多。当然,这与本文的主要讨论的东西不同。但它仍然显示了通常优化和机器学习之间存在着复杂的相互作用。
作为说明,优化框架中的更新公式(例如,梯度下降)可以使用神经网络来代替复杂的函数。
这种方法的一个应用是通过优化循环中的机器学习映射函数替换耗时的仿真模型,其中数千个输入变量被馈送到模拟模型中,我们希望以某种方式找到最优的参数集以获得最佳的模拟输出。这个想法如下所示:
在本文中,我们讨论了优化一般在现代商业和工程企业中起到什么作用,以及为什么了解它对数据科学至关重要。
我们展示了基本优化模型,它是一些广泛流行的统计技术和机器学习算法的核心。
通过一些简单的搜索,你会发现类似的优化框架是其他流行的ML方法的核心,例如:
- 期望最大化
- 深度学习或神经网络
- 遗传算法
- 模拟退火
https://towardsdatascience.com/essential-math-for-data-science-why-and-how-e88271367fbd