算法是如何造成偏见的?

技术的问题都有办法解决，很多时候是技术外的问题在左右要不要去这样做。

肖仰华

三联生活周刊：“算法偏见”在国际上如今是个热门话题，但国内还比较少听到这方面的讨论。首先，人工智能业界对算法偏见是否有一个标准定义？算法偏见到底是指什么？

肖仰华：关于算法偏见的具体定义，不同专家的看法不一样。总体而言，算法偏见其实不单单是指算法的偏见，或者人工智能的偏见，任何技术总归会存在一定的局限性，导致结果存在一定的偏见。

那么，人工智能技术导致结果出现偏见，可能有几个原因：第一是数据。人工智能的模型是由数据喂养出来的，所以给它什么样的数据，就可能产生什么样的结果。比如闲聊类型的问答机器人，是根据大量的问答语料训练出来的。如果你喂进去的全是带有歧视性的对话语料，机器很可能学会带有歧视性的聊天。

第二是模型自身所导致的。人工智能技术的很多模型本质上是一个优化的问题，它有明确可量化的优化目标，不同的优化目标会导致不同倾向的结果。很多商业平台追求的是利益最大化，比如流量、转化率等。当模型的优化目标是这样时，就会导致很多同质化的推荐，你喜欢什么就一直给你推，由于大多数受众偏好集中，此类同质推荐容易带来流量最大化。所谓的“信息茧房”，根本原因便是它的优化目标比较单一。当然优化目标其实是可以控制的，使它更具多样性，甚至符合主流价值观。

三联生活周刊：数据集构建、目标制定与特征选取、数据标注是机器学习主要的三个环节，偏见是如何在这些环节中产生的？

肖仰华：首先，对于所选择的数据集中本来就有的政治偏见、性别偏见和种族偏见等问题，可以对数据做一些清洗，把这些带有偏见性的言论语料清洗掉。但是数据清洗也存在一定代价，需要建立数据的甄别与筛选模型。

其次，在目标制定与特征选取阶段，除了优化目标的设置外，特征选取是模型中很重要的一个因素，选什么样的特征来做推荐，也会对结果产生影响。举个例子，是否考虑推荐对象的性别特征？如果考虑就会得到带有性别倾向性的结果。比如同样搜索包的时候，女性搜到的可能是奢侈品牌的包或者装饰性的日常出行包，男性搜到的则是电脑包或者功能包。

并且，数据怎么做标注对结果也有影响。例如汉堡，中国人认为它是不健康的食物，但西方人认为它是健康食物。所以你把它标成健康还是不健康，人工智能学到的结果就完全不一样，中国人搜健康餐时，可能搜不到汉堡，但是西方人就能搜到。

实际上，技术的问题都有办法解决，我觉得很多时候是技术外的问题在左右我们要不要去这样做。从技术层面上讲，要解决算法偏见的问题，一个是让机器得到的样本尽可能地全面、客观，在样本的选择上进行控制；另一个是优化目标的设定，不能只追求流量最大化的单一目标。

三联生活周刊：有人认为，“点球成金”的棒球模型因为使用与比赛结果高度相关的数据，而非联系不够紧密的替代性的间接变量，所以更不容易造成偏见。应该如何理解这句话？

肖仰华：我想这个问题的意思是，模型是不是能够忠实反映数据背后的规律。数据所体现的规律，如果来自原始真实数据，训练出来的模型一定是这些数据本身所体现的规律，具有一定的忠实度，但是如果是间接数据，比如人为地在数据基础上做了太多的提炼、加工和选择，那么就有可能造成由于人为的额外干预所导致的结果的偏见。

完全使用原始数据建立模型可以完整地捕捉到蕴含于数据中的一些特征，除了人能意识到的显性特征之外，还包括人意识不到的一些隐性特征。但至于说完整地捕捉各种特征是不是就一定体现了公平公正，就是没有偏见，倒也不一定，因为后面还有很多比如模型的优化目标、模型的构造等问题，也会引入一些所谓的偏见。

三联生活周刊：这些隐性特征是指什么？

肖仰华：隐性特征是指我们人类在进行学习时，通过直觉捕捉到的一些信息。很多隐性特征，你可能根本说不清楚。比如眼神可能是我们区分人与猩猩的一个重要的隐性特征，只不过你以前从来没有意识到。

图像识别领域有很多利用隐性特征的例子。人和猩猩的面部，我们人类具备能力可以一眼识别出哪个是人类，哪个是猩猩，但算法是怎么识别的？难道是根据脸上有没有长毛，眉毛是不是上弯这些显性特征在区分吗？人类这种近似直觉的识别方式更接近于当下的深度神经网络的模型，通过神经网络对面部各层次的特征进行有效抽取和提炼，捕捉到很多隐性的特征，从而实现精准的判断。

图像识别技术在深度学习之前倾向于使用显性特征，比如人为地去定义很多与毛、眼睛、头骨相关的特征，进而建立分类模型实现区分，但这个效果很有限，存在天花板。有了深度神经网络去捕捉隐形特征之后，图像识别的能力很快达到人类水准，这正是得益于在大数据的助力下，深度学习模型能够有效习得视觉任务相关的大量隐性特征。

需要指出的是，当前基于深度学习的图像识别，正从单纯的模式识别走向图像理解。认知能力的构建将是进一步提升图像识别等感知任务效果的必经途径。人类能够胜任一些感知任务，其中认知能力扮演着不可忽视的作用。比如你在门口看到我拿一个杯子往嘴里倒，会很容易做出杯子里有水流动的视觉判断，但你真的确信你看到水了吗？心理学中有类似的实验，只要给你创造了相应的环境，你就会认为自己看到了什么，这是跟认知有密切关系的。图像识别真正难的是在场景中理解图像，因为机器必须像人类一样具备一定的认知能力才行。

三联生活周刊：和国外比较突出的种族歧视等问题不太一样，国内我们最常见的算法偏见可能是“信息茧房”，现在做信息推荐时通常会使用的算法有哪些？

肖仰华：基本是三大类：一类叫协同过滤。比如你经常看A和B，那我给你推完A就推B，这类方法本质上是基于用户行为的相似性、历史行为的相似性、基本情况的相似性来做出推荐。

第二类是基于用户历史浏览内容的标签，以及用户自身的标签进行匹配。比如给你做一个用户画像，发现你对历史感兴趣，而文章的标签中也有历史题材相关的标签，能够匹配上就推荐给你。

最后一类是语义的推荐，它不强调字面上的匹配，而是进行相似语义的配对。比如看姚明的用户，可能也会喜欢与易建联相关的新闻。目前，行为和语义相融合成为明显的趋势，越来越多的模型同时考虑用户行为以及对于用户背景及动机的理解和洞察。

三联生活周刊：为什么这个过程中，我们还是会觉得推荐系统被低俗内容占据了，用户偏好同质化？

肖仰华：因为算法放大了低俗内容的权重。对大部分人来讲，那些内容能够吸引眼球，创造最大的价值流量。所以当平台对你没有形成准确的画像前，就一定会给你推荐绝大部分人都喜欢的内容，实现流量最大化。

用户偏好同质化的根本原因是什么？现在的平台还做不到千人千面个性化的推荐，只能用一个面向群体的推荐模型来完成面向个体的推荐，也就是说群体的偏好或者大多数人的喜好，代替了个性化的喜好。这些平台如果对于每个人都要维护一套精准的个性化推荐模型，代价太大。对于拥有数以亿计用户的大规模互联网平台而言，其维护代价是不可接受的。所以用同质化推荐来代替个性化推荐，本质是代价上的妥协。

三联生活周刊：现在所谓的无标注学习能帮我们消除偏见吗？

肖仰华：无标注学习的目的其实是为了降低成本。因为标注工作通常需要人来完成，会产生用人成本。无标注学习本质上是一种廉价机器学习。完全的无标注学习，它的学习能力有限，只能学习一些样本的分布规律。什么叫分布规律？比如客户的年龄、地区分布。基于分布规律，可以将数据聚类，也就是分组。另一种典型的无标注学习任务是降维，有些样本数据具有多维度的属性，我们称之为高维数据，但其特征是由少数几个真正重要的维度决定的，降维可以识别高维数据的核心特征。

更实用的方式不是说完全的无标注，而是通过少量标注实现机器的有效学习，这是现在技术研究的主要攻关方向之一。降低机器学习模型对于大样本（有标注的大数据）的依赖是机器学习研究的核心问题之一。当前的热门研究问题，比如小样本学习、低资源学习、无监督学习、迁移学习与元学习等都与此关系密切。但是，算法偏见跟人工智能的学习方式没有太大的直接关系，还是从什么数据中学习以及构造怎样的学习目标更重要。

三联生活周刊：你曾说人工智能最重要的使命是补全用户端数据背后复杂的因果链条，能解释一下这句话的意思吗？这是否能帮助我们更好地解决偏见的问题？

肖仰华：人工智能目前总体而言，处在一个知其然不知其所以然的阶段，大部分的智能本质上是统计规律的呈现，缺乏因果链条。比如平台观察到大部分人买了西装又买领带，所以在你买了西装后会给你推荐领带，可是背后原因人工智能不懂，其实西服和领带是有搭配关系的。如果机器能够理解用户购买行为背后的因果，就可以更准确地把握用户消费的动机，从而做出更精准的推荐。

我觉得如果解决了这个问题，能够在一定程度上缓解算法的偏见，因为推荐系统可以给你做一个更精准、更个性化的推荐。比如购买西服的深层次原因可能是出席典礼，那么平台能进一步推荐典礼出席的其他必备物品。