机器学习算法偏误的影响因素

  随着大数据的迅猛发展,许多公司都期望能够借助机器学习技术指导自身的商业决策,由此他们通过不断的优化程序,设置复杂的算法来处理大量且频繁更新的数据集,并从中发现用户喜好、产品周期等问题。机器学习的广泛应用证明了企业对于“技术支持决策”这一观点的认可,但缺乏经验所构建的机器学习算法会产生偏差,从而造成预测结果严重偏离数据内在规律。这种经常被业务人员忽视的缺陷可能会诱发高额的代价,如果不加以控制,项目目标和实际目标可能背道而驰。因此从一开始就有效的解决这个问题,将获得比预期收益更大的回报,从而使得机器学习真正的潜力得到最有效的发挥。现阶段,影响机器学习算法偏差的问题可能基于以下几个方面:

· 主观偏见

  由于人类决策者可能受到历史经验的影响,因此其做出的决策可能具有一定的偏见,我们通常将这种偏见形式称为锚定偏见。而另一种偏见形式称为可用性偏见,即人们在做出决定前通常会做出熟悉的假设,这些假设在过去可能发挥了充分的作用,但却不能够适应新的情况。如果偏见能够影响人类的判断,那么机器也同样会受到影响。一方面,机器学习算法创建过程中很容易带入人的主观偏见;另一方面,机器学习所预测的结果需要参照过去有偏见性的经验进行判断。这种主观偏见会随着机器学习算法的深入不断放大,从而导致最后所得结果具有严重的偏差。

· 数据限制

  机器学习可以挖掘庞大数据集中的本质规律,但数据异常和错误可能导致算法走向歧途。不具有代表性的事件会导致机器学习算法偏离正轨,例如,一系列特殊的天气时间或欺诈行为引发违约率上升,由此信用评分卡可能会将该地区标记为“高风险”。在这种情况下,除非采用实时的纠正措施,不适当的算法会使偏见持续存在。寻求通过统计方法来克服偏见的公司可能会发现,监督他们的机器学习算法的数据科学家可能受到同样的偏见。与此同时,受到成本和时间的制约,他们可能不会收集更多的数据变量,而这部分数据集恰巧包含了对预测结果最真实的判断力。

· 稳定性偏差

  在不确定的环境中具有惯性趋势,实际上是机器学习算法的一个重要问题。预测模型基于历史数据中检测到的模式进行操作,如果相同的模式不复存在,那么这个模型就类似于一个古老的铁路时刻表,其对于历史学家来说是具有价值的,但对于旅行者来说却毫无意义。要形成机器学习算法来识别数据中不存在的模式是非常困难的,即使是分析师熟悉的模型也可能在某些事件节点表现出来不一样的特性。为了弥合现有数据和现实之间的差距,可以创建合成的数据点,并试图用机器学习算法捕捉非常详细的模式。

  在人工智能领域,机器学习越来越多指的是基于统计算法的计算机辅助决策,这些决策最显著的用途是预测建模。例如,在信用评分方面,一般认为长期无拖欠贷款的客户风险较低,但是如果这些客户一直维持的抵押贷款多年来将被大量税收优惠所抵消,违约高峰可能在贷款机构的统计风险模型中不了了之。因此需要通过专家了解正确的数据,并矫正原始机器学习模型,使得该模型可以找到数据中的隐藏模式并准确预测这种违约高峰发生的可能性。创建一个有意识的,基于标准的系统来开发机器学习算法将涉及许多决策判断的结果,在此背景下,一项有效的技术就是“预先设定练习”,旨在查明所提议模型的局限性,帮助企业管理层了解算法中涉及的业务风险,从而减少机器学习算法偏误所引起的损失。

分类: 相关资讯