简介:一个全栈工程师的手记
原载于公众号「喔家ArchiSelf」
人工智能系统中存在着偏见,但是有偏见的算法系统并不是一个新现象。随着包括司法和健康等领域在内的各种组织都在采用人工智能技术,人们开始关注对基于人工智能的决策缺乏问责制和偏见。从人工智能研究人员和软件工程师到产品领导者和消费者,各种各样的利益相关者都参与到人工智能流水线中。在人工智能、数据集以及政策和权利领域的必要专业知识,可以共同揭示偏见,但是,这些利益相关者之间并不是统一可用的。因此,人工智能系统中的偏见会在不明显的情况下复合。
例如,机器学习开发人员,他们被要求: 对数据进行适当的预处理,从几个可用的模型中选择正确的模型,调整参数,调整模型体系结构以适应应用程序的需求。假设一个机器学习开发者被委托开发一个人工智能模型来预测哪些贷款会违约。由于没有意识到训练数据中的偏差,工程师可能会无意中只使用验证的准确性来训练模型。假设培训数据中包含了太多违约的年轻人。在这种情况下,该模型很可能对年轻人在应用于测试数据时的违约行为做出类似的预测。因此,机器学习的开发人员有必要了解可能潜入人工智能流水线的各种偏差以及导致的偏见。
在人工智能系统中定义、检测、测量和减少偏见并不是一件容易的事情,而且是一个热门的研究领域。各国政府、非营利组织和各行业都在做出许多努力,包括执行法规以解决与偏见有关的问题。认识和解决各种社会机构中的偏见,需要经过不断的努力,以确保计算系统的设计,以解决这些问题。
这里不对设计公平的人工智能算法提出建设性思考,而是在实践方面,在数据创建,数据分析和评估的过程中,关注偏差与偏见的问题形成,,具体包括:
典型的人工智能流水线从数据创建阶段开始: (1)收集数据; (2)对数据进行注释或标记; (3)将数据准备或处理成其他管道可以使用的格式。让我们分析在每个步骤中如何引入了不同类型的偏差。
在数据集的创建过程中,可能会出现特定类型的偏差。
通过选择特定类型的实例而不是其他类型的数据集所产生的偏差称为采样偏差。这是最常见的数据集偏差类型之一。例如,图像数据集更喜欢街景或自然场景。人脸识别算法可能会得到更多浅肤色人脸的照片,从而导致识别深肤色人脸的偏差。因此,采样偏差可能导致学习算法的泛化能力变差。
测量偏差是由于人类测量中的误差,或者由于人们在获取数据时的某些固有习惯而引起的。例如,考虑图像和视频数据集的创建,其中的图像或视频可能反映了摄影师使用的技术。一些摄影师可能倾向于以类似的方式拍摄物体; 因此,数据集可能只包含特定角度的物体视图。这种类型的测量偏差称为捕获偏差。
测量偏差的另一个来源可能是用于捕获数据集的设备误差。例如,用于捕捉图像的相机可能存在缺陷,导致图像质量差,从而导致有偏见的结果。这些类型的偏见又被广泛地归类为设备偏见。
当在创建数据集时使用代理而不是真实值时,可能会出现第三种测量偏差。例如,把医生和用药用来作为医疗条件等的指标。
标签偏差与标签过程中的不一致性有关。不同的标注者有着不同的样式和偏好,这些都反映在创建的标签中。当不同的标注者为同一类型的对象分配不同的标签时,标签偏见的一个常见例子就出现了。
当评价者的主观偏见影响标签时,另一种类型的标签偏见也会发生。例如,在诠释文本中所体验到的情感任务中,标注者的主观偏好,如他们的文化、信仰和内省能力,可能会使标签产生偏见。确认偏见,即人类倾向于搜索、解释、关注和记忆信息以确认自己的先入之见,与这种类型的标签偏见密切相关。因此,标签可能是根据先前的信念而不是客观的评估来分配的。
第三种类型的标签偏见可能产生于峰终效应。这是一种与记忆相关的认知偏见,人们在判断一段经历时,主要基于他们在经历的顶峰(即最激烈的时刻)和结束时的感受,而不是基于这段经历每一时刻的总和或平均值。例如,在分配标签时,一些标准者可能更重视对话的最后一部分,而不是整个会话。
否定集偏差定义为由于没有足够的代表“世界其他地方”的样本而引入数据集的结果。数据集定义一个现象(例如,对象,场景,事件)不仅仅是根据它是什么(正面的实例) ,还根据它不是什么(负面的实例)。因此,分类器可能在检测负实例方面表现不佳。
偏见还会根据问题的定义而产生。假设一家银行想使用人工智能来预测客户的信用可靠性。为了做到这一点,必须以一种可以“预测或估计”的方式来定义信用可靠性这个问题,可以根据公司的需要来制定,比如说,最大化利润率或最大化得到偿还的贷款数量。然而,这些决定是出于各种商业原因,而不是公平或歧视。
信用可靠性例子也可以被认为是一种框架效应偏差。基于问题是如何表述的以及信息是如何呈现的,所得到的结果可能是不同的,甚至可能是有偏见的。因此,基于问题及其成功度量的定义方式,可能会产生偏差。
在算法或数据分析过程中可能会出现几种类型的偏差。
样本选择偏差是通过选择个体、群体或数据进行分析而引起的,这种方式使得样本不能代表要分析的总体。特别地,样本选择偏差是在数据分析过程中由于对数据集中的某些变量(例如,特定的肤色、性别等)进行调节而产生的,这反过来又会产生虚假的相关性。例如,在分析母亲身份对工资的影响时,如果仅限于已经就业的妇女,那么由于条件作用在就业妇女身上,测量的效果就会有偏差。常见的样本选择偏差类型包括伯克森悖论和样本截断。
在人工智能模型中,如果算法没有考虑数据中的所有信息,或者没有考虑特征和目标输出之间的关联,从而学习了错误的关系,就会产生偏差。混杂偏差源于影响输入和输出的常见原因。一种特殊类型的混杂偏差是省略变量,它发生在一些相关的特征没有包含在分析中。这也与模型欠拟合问题有关。
另一种类型的混杂偏见是代理变量。即使决策时不考虑敏感变量,分析中使用的某些其他变量也可以作为这些敏感变量的“代理”。例如,邮政编码可能表示民族,因为某个民族的人可能主要居住在某个地区。这种偏见通常也被称为间接偏见或间接歧视。
有时,由于算法的限制或系统的其他限制(如计算能力) ,也会出现偏差。在这个类别中一个值得注意的是算法偏差,它可以被定义为仅由算法诱导或添加的偏差。依赖于随机性来公平分配结果的软件并不是真正的随机,例如,通过将所选内容向列表末尾或开头的选项倾斜,结果可能会有偏差。
另一种与设计相关的偏差是排名偏差。例如,搜索引擎显示每个屏幕三个结果,可以理解为前三个结果的特权稍多于后三个。排名偏差也与表示偏差密切相关,这种偏差源于这样一个事实,即你只能收到呈现给用户的内容反馈。即使在那些已经显示的内容中,收到用户反馈的可能性也会受到该内容显示位置的影响。
有几种类型的偏差源于人类评价者的固有偏差,以及在选择这些评价者时的偏差。
通常,人工评估者被用来验证人工智能模型的性能。诸如确认偏差、峰终效应和先验信念(如文化)等现象会在评估中产生偏差。人类评估者也会受到他们能回忆多少信息的限制,这可能会导致召回偏差。
例如,在推荐系统中,一些特定的观众(例如,那些说某种语言的人)可能会看到一则广告,而另一些则不会。因此,观察到的影响将不能代表对一般人群的真正影响。在选择性地对一些人群进行某种处理的过程中引入的偏差称为样本处理偏差。
一般而言,与数据集创建阶段有关的偏差也可能出现在模型评估阶段。此外,评估偏差可能来自于选择不适当的基准/数据集进行测试。
尽管在人工智能领域做了大量的研究工作来应对与偏见相关的挑战,但是一些差距阻碍了进步。
已经提出了解决数据集偏见问题的方法,新的数据集也在强调保持多样性。例如,脸部多样性数据集包括近100万张从知识共享数据集中提取的人脸图像,这些图像是专门为了实现肤色、脸部结构、年龄和性别之间的统计平等而组合起来的。
“机器学习中的公平性”是一个活跃的研究领域。还有一些开放源码工具,如 IBM 的 AI Fairness 3605,有助于检测和减少不必要的算法偏差。尽管做出了这些努力,但仍然存在明显的差距。
为了减少人工智能系统中潜在的偏见,已经提出了一些实践指南。例如,建议使用具有详细文档的已发布模型,并鼓励透明度,需要创建特定于领域的教育资源、指标、流程和工具。
虽然不可能消除所有的偏见来源,但是采取某些预防措施,可以减少一些偏见问题。以下建议可以帮助机器学习开发者识别潜在的偏见来源,并帮助避免不必要的偏见引入:
纳入特定领域的知识对于界定和发现偏见至关重要。理解数据集中各种特征之间的结构依赖关系非常重要。通常,绘制一个结构图来说明感兴趣的各种特性及其相互依赖关系是有帮助的。这可以帮助我们找到偏见的来源。
同样重要的是,要根据应用程序了解哪些数据特征被认为是敏感的。例如,年龄可能是决定谁能得到贷款的一个敏感特征,但不一定决定谁能得到医疗服务。此外,可能有一些代理特征,虽然不被认为是敏感特征,但仍可能编码敏感信息,从而使预测出现偏差。
用于分析的数据集应尽可能代表真相。因此,在构建具有代表性的数据集时必须小心谨慎。
必须明确适当的标准,以便为数据作标注。规则的定义必须尽可能使标注者获得一致的标签。
确定所有可能与目标特征有关的特征是重要的。省略与目标特性有依赖关系的变量会导致有偏差的估计。
与输入和输出相关的特征可能导致有偏差的评估。在这种情况下,重要的是通过适当的数据调节和选择输入的随机化策略来消除这些偏差的来源。
将数据分析限制在数据集的某些部分,可能会导致不必要的选择偏差。因此,在选择用于分析的数据子集时,必须注意不要引入样本选择偏差。
在验证 a/b 测试等模型的性能时,必须注意防止引入样本处理偏差。换言之,在测试模型的性能时,测试条件不应局限于总体的某个子集。
从数据集的创建到问题的形成,从数据分析到结果的评估,人工智能流水线中可能出现各种偏差。一些经验准则,可以帮助机器学习开发人员识别潜在的偏见来源,以及避免引入不必要的偏见。