在机器学习项目中,如何使预测建模问题的数据收益最大化
2018年04月23日 由 浅浅 发表
952515
0
预测建模的成功与否,可能取决于你使用的数据,以及你使用这些数据的方法。问题的数据和框架可能是你完成项目的最大筹码。
如果在这个问题上,你选择了错误的数据或框架,那么将会导致模型性能不佳,甚至出现更糟的情况,比如模型无法聚合。如何使用数据,这些问题是无法用分析性运算解决的,不过试误法可以探索出怎样最充分地利用你手中的数据。
在这篇文章中,你将了解到在机器学习项目中,如何使你的数据收益最大化。
读完这篇文章,你会明白:
- 探索预测建模问题的可替代框架的重要性。
- 为输入数据设定一系列想法,系统地测试每个想法是有必要的。
- 特征选择、工程设计和准备,都可以为问题创建更多想法。
概述
这篇文章大致分为8个部分:
- 问题框架
- 收集更多的数据
- 研究你的数据
- 训练数据样本大小
- 特征选择
- 特征工程
- 数据准备
- 更进一步
1.问题框架
利用自由联想,以多种方式构建你的预测建模问题。
问题的框架意味着以下元素的结合:
比如:
- 无论数据多少,你都可以将其作为模型的输入数据吗?
- 你能预测其他事情吗?
- 你能把问题变成回归、分类、序列等问题吗?
你越有创造力越好,可以借鉴其他项目、论文和领域本身中所包含的想法。
学会利用自由联想:写下所有的想法,即使它们看似疯狂。
2.收集更多的数据
不要局限于你的需要,要获得更多数据,甚至是与预期结果无关的数据。
在出现结果之前,我们都不会知道到底需要多少数据。数据在模型开发期间流通,也需要给项目留下足够的空间。每次你使用一些数据时,其他任务能够使用的数据就会变少。
你需要在如下任务中使用数据:
此外,你所工程的独特项目是前所未有的,当然包括了你所独有的建模数据。你目前还并不知道到底哪些特征是有用的,你可能会有一些想法,但你还不能全然知晓谜底。将数据全部收集起来,让它们在这一阶段可以被尽数利用。
3.研究你的数据
将所有你能想到的数据可视化,从各种角度分析你的数据。
- 查看原始数据会很有帮助,你会注意到一些细节;
- 查看汇总统计信息也一样;
- 数据可视化是这两种学习方式的完美结合,你会从中发现更多的东西。
在原始数据和汇总统计数据上花些时间,最后着手进行可视化,因为这一步需要更多的时间来准备。
使用你能想到的每个数据可视化方法,根据你的数据从各种书籍和论文中搜集资料。
- 回顾统计图。
- 保存统计图。
- 注释统计图。
- 向领域内的专家展示统计图。
你在寻求对数据更深入的了解,这些可以使用的想法能够帮你更好地选择、工程和准备建模数据,这样就会得到好的结果。
4.训练数据样本大小
对数据样本进行敏感性分析,看看你实际需要多少数据。你不应该分析所有的观察值,如果你这么做了,你就没必要预测新数据了。因此,你使用的只是数据中的一个样本。所以模型究竟需要多少数据是一个开放性问题。
不要以为越多越好,一定要进行测试。工程实验观察模型技能是如何随着样本大小变化的。用统计学知识分析重要趋势是如何随着样本大小变化的。没有这些知识,你就无法对测试工具有足够的了解,从而轻松地评价模型技能。
5.特征选择
为输入特征开发多种不同的想法,并对每个想法进行测试。
哪些变量对你的预测建模问题有帮助或最有帮助是未知的。
- 你可以尽情猜想;
- 你可以使用领域内专家的建议;
- 您甚至可以从特征选择方法中获得的建议。
然而这些都只是猜想。每一组建议输入特征都是问题中的一个想法——关于什么特征可能对建模和预测输出变量有用。利用自由联想、计算等方法,收集尽可能多的不同想法的输入数据。设计实验并仔细地测试比较每个想法。用数据评估哪些特征和视图是最具预测性的。
6.特征工程
用特征工程来创建预测建模问题中额外的特征和想法。
有时你拥有所有可以获得的数据,但是给定的特征会屏蔽一些知识,而这些知识对于机器学习方法来说太过笨拙,以致于无法进行学习和映射结果变量。
例如:
将这些数据分解为更简单的额外成分特征,比如计数、标记或其他元素。在建模过程中,让事情尽可能变得简单。
7.数据准备
用你能想到的所有方法进行数据预处理,以满足算法的需要。预处理数据在输入特征中创设额外的想法,就像特征选择和特征工程那样。
一些算法对预处理有偏好,例如:
- 规范化的输入特征。
- 标准化的输入特征。
- 使输入特征静止。
准备好符合这些期望的数据,然后更进一步。应用你能想到的所有数据预处理的方法。不断地为你的问题设定新的想法,并用模型来测试它们,看哪种效果最好。你的目标是发现有关数据的各种想法,哪一种能够在映射问题中,为学习算法最有效地揭露未知的潜在结构。
8.更进一步
通常你可以收集更多的数据,也可以为你的数据提出更多设想。自由联想很重要。
一旦你觉得自己已到达终点,那么开始调查建模问题中,基于不同想法建立的模型整体,将会是走向成功的便捷之路。这样做简单且高效,尤其是想法揭示了潜在映射问题的不同结构的情况(例如,模型存在不相关的误差)。
总结
在这篇文章中,你了解了使预测建模问题的数据收益最大化的技巧。
具体来说,你学习了以下内容:
- 探索预测建模问题的可替代框架的重要性。
- 为输入数据设定一系列想法,系统地测试每个想法是有必要的。
- 特征选择、工程设计和准备,都可以为问题创建更多想法。