机器学习算法的透明度是一把双刃剑,该如何应对?
2017年11月20日 由 xiaoshan.xiang 发表
707691
0
欧盟的通用数据保护条例(GDPR)将于2018年5月25日生效,它重新定义了组织如何处理欧盟公民个人数据的收集和使用。
关于GDPR的争论,主要是因为这个立法在全球的影响,它引入的严厉罚款,或者更严格的“知情同意”规则作为处理个人数据的条件。
然而,GDPR给企业带来的一个挑战被忽视:公民的解释权。
除了法律细节外,GDPR规定:公民有权获得关于用于处理其个人数据的自动化系统的足够信息,以便能够作出明智的决定,决定是否退出此类数据处理。
解释权一直被忽视。除了对权利本身的低认识之外,新引入的隐私保护会给处理公民数据的公司带来巨大的商业风险。
GDPR引入或扩大的其他公民权利,如反对分析的权利,获得收集的个人数据的权利,或者被忘记的权利--如果全部遵守,这些可能非常昂贵的。但是许多公司发现自己无法提供个人数据处理结果的解释。更糟糕的是,他们往往无法弄清楚如何遵守GDPR规定的义务。
我们的黑箱已经决定
问题在于处理公民个人数据的系统通常依赖机器学习。而且,与标准的“if - then”算法不同,机器学习模型是一种“黑箱”——没有人知道内部发生了什么,也不知道输出背后的精确推理。
这种情况在依赖神经网络的方法中尤为明显。基于决策树的机器学习方法理论上可以决定学习路径。但存在着严重的约束,使得任何说明都非常困难。
让我们来看一个极其简单的例子。假设一家银行有一个机器学习系统来决定申请贷款的人的信用度。基于之前贷款的数据——包括他们的收入,被贴上“好”或“坏”的标签——系统会自行学习预测新的贷款申请是“好”或“坏”。
这一预测的原因基于,由成千上万个模拟神经元组成的复杂网络如何处理数据,以此来确定申请人是否能够负担得起自己的房子。学习过程由数十亿的步骤组成,很难回溯。不仅由于技术上的限制,也因为基础数学理论的基本限制,没有人能确切地说出为什么任何特定的数据样本被贴上“坏”的标签。
处于两难境地
机器学习已经成为处理大型数据集和对样本进行分组的一种选择方法。出于这个原因,对所有处理欧洲公民个人数据的人来说,解释的权利构成了根本性的挑战,而且是不合规的风险。
除非处理公民个人资料的公司完全理解基于机器学习模式做出决策的原因,否则他们会发现自己处于两难境地。他们必须防止他们的客户自动处理他们的个人数据(为了节省成本和保持业务运行),同时保留公司尊重客户的标准解释权的错觉,以及对有争议的结果可以进行人力审查(以便公司可以避免未能遵守GDPR所带来的巨额罚款)。
必要的基础研究
为了能够解释他们的自动化决策过程背后的原因,并赋予他们对客户解释的权利,公司必须彻底的改进,才能理解机器学习如何在我们的理解中取得根本性的改进。简单地说,机器学习过程必须变得透明——如果不是真正的透明,那么对于那些处于GDPR之下的公司来说,要变得合规,至少要少许多的黑箱。
机器学习的透明度是很棘手的问题,它具有不可预测性——如果你能深入研究它所基于的基础数学理论,它是不透明的。因此,解释权问题的解决需要改进机器学习的理论基础。
机器学习的科学家们已经把注意力转移到这个方向上;然而,我们可能需要数年时间才能看到任何GDPR都适用的结果。
透明度:需要还是威胁?
与营销人员和其他处理个人数据并且必须遵守隐私法规的人不同不,网络安全公司喜欢这种机器学习研究的转变。
分配更多的资源来理解模型(即为了透明)意味着更少的资源用于使模型更加准确和有效。
对于我们来说,使机器学习模式准确有效的恶意软件猎手是至关重要的,而机器学习模式的透明度是我们需要做的最后一件事。毕竟,我们不希望看到网络犯罪分子成功地微调他们的恶意代码以通过我们的保护。
但是,我们必须更好地了解机器学习模型是如何工作的。
毫无疑问,改进我们的机器学习模型并使它们更精密是非常重要的。但是,这方面最重要的措施是要有更多的保护层。
取消机器学习模型的工具的出现清楚地表明,纯粹依靠这些模型的保护措施是多么的脆弱。在我看来,测试组织应该开发更复杂的方法来测试安全解决方案的抵御能力,目的在于绕过安全产品的检测机制,以了解这些机构是如何工作的。需要这些高级测试来区分可靠的解决方案,而不是那些只在理想条件下工作的解决方案。