算法，隐藏的偏见

人类是容易出错和带有偏见的，但这并不意味着算法一定能够做得更好。

2019年在伦敦巴比肯艺术中心的展览“人工智能：超越人类”中，展示了算法正义联盟创始人乔伊·博拉维尼的作品《AI，我不是女人吗》

一场全球关注的算法争议

不久前，推特上发生了一场备受人工智能界关注的论战，其原因是被指带有“严重种族歧视”的PULSE算法。这场长达两周的激烈讨论，最终以图灵奖得主、深度学习先驱杨立昆（Yann LeCun）宣布退出推特而告终。

PULSE算法是杜克大学推出的一项用于升级低分辨率图像的人工智能技术，可以在几秒钟内令一张模糊的照片变得清晰，效果极佳。但PULSE算法并不是真的消除了马赛克，而是利用英伟达（NVIDIA）公司的StyleGAN算法，生成一张全新的高分辨率图像，再降低它们的分辨率，与低分辨率的原图对比，最终找出匹配程度最高、最接近原图的高清图像输出到用户面前。

然而，当杜克大学将利用PULSE算法开发的软件“Face Depixelizer”发布到网上时，人们很快发现其中的种族偏见问题。6月20日，一名网友在推特上指出，他在使用Face Depixelizer对美国前任总统奥巴马的低分辨率图像进行处理后，生成的照片变成了一张白人男性的样子。同样地，输入华裔女演员刘玉玲和拉丁裔美国会女议员亚历山德里娅·奥卡西奥－科尔特斯的图像后，得到的面孔也明显看起来都是白人。正如奥巴马一条被广泛引用的推文所言：“这张照片充分说明了人工智能中偏见的危险。”

杨立昆也参与到这场讨论中，他回应道：“当数据有偏差时，机器学习系统就有偏差。这个面部采样（upsampling）系统让每个人看起来都像白人，是因为系统是在FlickFaceHQ上预先训练的，它主要包含了白人的照片。若用来自塞内加尔的数据集训练同样的系统，每个人都会看起来像非洲人。”

谷歌人工智能科学家蒂姆特·格布鲁（Timnit Gebru）是一名非洲裔美国人，她表示对杨立昆的言论感到“失望”。格布鲁多年来一直倡导人工智能领域的公平和道德，因倡导消除面部识别系统和其他人工智能算法中的种族和性别偏见而闻名。她和麻省理工学院的计算机科学家乔伊·博拉维尼（Joy Buolamwini）领导的一项名为“性别阴影”（Gender Shades）的项目显示，商用面部识别软件更容易对深色皮肤的女性进行错误分类，准确率也更低。针对深色皮肤女性的平均错误率达到35%，远高于对浅肤色男性0.8%的平均错误率。

对此，杨立昆回答说，他的评论是针对PULSE算法中关于模型和数据集的特殊情况，“偏见的后果在已发布的产品中比在学术论文中要严重得多”，他还暗示需要更谨慎选择数据的不是机器学习的研究人员，而是工程师。但格布鲁认为他的分析忽略了PULSE算法背后暴露的根本问题，“你不能仅仅减少由机器学习导致的对数据集偏见造成的伤害”。

杨立昆和格布鲁长达一周的互动吸引了成千上万的点赞、评论和转发。

与此同时，杜克大学PULSE算法研究小组也更新了他们的论文，并补充道：“总体而言，从StyleGAN样本中发现的白人面孔要比有色人种多。”研究人员引用了2020年4月一篇关于人为生成的面部图片中人口统计学偏见的论文：“结果表明，在生成的图片中有种族偏见，其中近三到四成（72.6%）的图片代表白人。亚裔（13.8%）和黑人（10.1%）的比例要低得多，印度人只占很小一部分（3.4%）。”

图灵奖得主、深度学习先驱杨立昆

实际在2018年，亚马逊利用人工智能技术开发的一款新招聘引擎也曾被卷入关于性别歧视的争议中。这套系统最初的目的是通过人工智能对简历进行评分，完成高效率、自动化的人才筛选。然而不久后，研究小组发现该系统并没有以性别中立的方式对候选人进行打分。当算法读取到与“女”相关的词语时，会降低简历的权重，并更多地向“执行”“攻克”等男性求职者简历中的高频词倾斜。这是因为算法所依赖的原始历史数据，本身就带有对性别的偏见。

然而，在线教育平台Coursera的联合创始人吴恩达（Andrew Ng）在一篇博客文章中指出，即使是无偏见的算法也可能导致有偏见的结果。例如，即便使用完全公正的数据建立一个人工智能系统，帮助借款人优化发薪日贷款的利率，但因为这些高利率贷款的性质和用途，仍会对黑人社区造成极大伤害。发薪日贷款是一种无担保的短期贷款，通常要求借款人在下一个发薪日偿还本金和利息，利率通常很高。发薪日贷款的目标人群是低收入人群，在美国，黑人社区使用发薪日贷款的比例很高。

在数据科学领域研究超过10年的卢卡·马萨罗（Luca Massaron）认为，尽管从技术角度来看杨立昆所说的完全正确，但网上的反应很大程度上说明这个问题对公众来说是多么敏感，“人们普遍担心不公平的控制和操纵，进而无条件地，甚至毫无理由地惧怕人工智能会剥夺他们的自由，而不仅仅是他们的工作”。在马萨罗看来，比起Face Depixelizer这类软件，他害怕的是那些无法识别和挑战偏见的应用程序。

无处不在的“编码凝视”

在中国，算法偏见的表现形式与欧美不同，近年来最引人关注的事件是“大数据杀熟”。2018年时，不少消费者发现，网络购物、交通出行、在线购票等不同领域的电商平台都存在“杀熟”的情况，新老客户搜索到的同款商品价格不同。这些平台通过大数据分析消费者的消费偏好、消费习惯和收入水平等信息，将同一商品或服务以不同的价格卖给不同的消费者，从而获取更多利润。

然而，调查过程中，平台方都坚称自己对所有用户的报价一致，不同的价格是基于拉新活动的优惠不同所致，并非隐性的大数据“杀熟”，所以调查最后都不了了之。但研究显示，手机型号、消费场所和消费频率等因素确实影响着用户搜索内容和消费产品的价格，比如对苹果用户定制的价格通常比安卓用户更高；位置也影响着价格，比如同样距离，在腾讯公司门口的打车价格可能会比旁边便利店的打车价格高；消费频率高的用户对价格承受能力强，也会得到一个较高的价格。

这种偏差是如何造成的？这就需要首先了解算法是如何通过大数据计算出最终结果的。

加拿大蒙特利尔学习算法研究所（MILA）博士刘光亮的解释令人印象深刻。他在采访中对我形容道，在处理数据过程中所使用的算法模型，就好比最简单的数学函数y=x，直接穿过坐标轴上的原点，是条完美曲线；但因为数据受到各种不同因素的影响，往往充满噪声，实际产生的结果可能是y=x+k，导致函数沿着y轴偏离了k个单元。所以算法工程师实际在构建这个数学模型时，会告诉计算机这个k是什么，让计算机故意算错，从而在计算过程中消除由于数据带来的偏差。这个k在机器学习中被称为“偏置”（bias），算法工程师需要考虑一系列与结果相关的偏置问题，将其用变量x告诉计算机，从而得出需要的正确结果。x在这个过程中即所谓的“特征”。

在打车软件有关位置的偏差中，刘光亮认为，这是一个非常容易解决的算法偏见问题，工程师只需要告诉模型它需要考虑有关“位置”的特征，就可以消除偏见。但在实际操作过程中，因为这种偏见可以带来巨大利润，并且腾讯的员工可能能够报销打车费用，或者因为薪水丰厚对几块钱的差别并不是很在意，所以这种偏差往往被算法放大了。

不过，刘光亮向我强调，“如果是用户产生的偏差就很难控制”。比如在搜索引擎的算法中，同样搜索“苹果”，有的人是为了搜索苹果电脑，有的人是为了搜索苹果这种水果，但计算机如何知道该给你推荐什么？由于搜索系统往往缺乏用户数据，没有办法刻画用户画像，所以当它发现今天搜索苹果电脑的人更多时，就会给所有搜索“苹果”的用户推荐苹果电脑，但这对于搜索苹果水果的人并不是正确结果。

曾先后就职于数个互联网大厂的算法工程师李想告诉本刊，即便同样是商品搜索，在垂直搜索和非垂直搜索中的流程也大不一样。比如人们在淘宝中输入某个关键词，系统显示的肯定是商品。但在抖音或快手等视频软件中，会存在一个判断这个关键词是否是商品的过程，因为用户可能想找的是视频，也可能是商品。所以算法工程师首先要给模型100万条关键词的数据去学习，先把其中意图非常不清晰的词过滤掉，然后人工对数据进行标注和分类，用0和1来判断这些词语是否与商品有关。在判定该搜索关键词达到某一概率比如60%以上是商品后，才进入通常的商品搜索流程。

内容产品的推荐也与此类似。如何从1000万个不同内容产品中找出用户喜欢的10个？李想解释，简单而言，首先是根据用户兴趣或者行为与内容进行匹配，比如最近用户点赞了某个产品，或者在列表中的某个产品上停留的时间较长，就会给他匹配同属一个类别的产品。其次，也会考虑产品本身的热度，如果产品本身热度高，它的权重就会高，更容易被更多人看到，这显然令那些最符合大众口味的产品能够占据榜单。另一方面，对于新上的产品，平台在对其未来的播放量、点击率等数据做一个预估后，对预测高的产品会有一个保量机制，在列表前100个位置留出10个给这些产品。

如何对新产品进行预测？一方面是根据发布者的信息，比如他过往产品的流量、粉丝数；另一方面则是通过对内容的判断。平台会对这产品做一些关键信息的抽取，通过机器学习的方法进行运算，最终得出一个有关产品内容的评分。“这其中涉及到许多有关特征的问题，具体如何运算通常是一个非常‘黑盒’的事情，个人很难解释最终结果是怎么算出来的。”李想在采访中谨慎表示，对于大型平台的模型，往往会录入几千几万个特征进行运算，对于企业而言，使用了哪些特征是核心机密。而为了获取这些特征，往往要进行更多的对照组实验判断具体某个变量所能带来的影响。

如果这些特征并没有涉及到种族、性别的偏见问题，那么它们得出的结果就是公正的吗？2019年，牛津大学互联网研究院的学者桑德拉·瓦赫特（Sandra Wachter）在一项关于“新兴技术治理”的研究报告中指出，这实际上是一种“连带歧视”。广告商们以貌似中性的特征将用户分成不同的人群去提供不同的产品、价格与服务。但这些看似中立的信息，却存在被滥用的风险。

比如一个有关贷款的商业算法模型，将养狗和按时偿还贷款之间建立正相关联系，认为养狗的人群按时还款的概率更高，因此会将“养狗”作为一个中性变量，优先对这部分人群放贷。这是因为在英国，如果没有房子，住在出租屋里，大多数房东不允许养狗，所以这实际上是对无房产的人口所产生的歧视。但从法律角度来看，人们很难对这样做的公司提起诉讼，因为他们几乎很少意识到自己因为“养狗”这个信息被区别对待。因此比起性别、种族等，“连带歧视”以更加隐蔽的形式存在。

麻省理工学院的计算机科学家、“算法正义联盟”的创始人乔伊·博拉维尼将算法偏见称为“编码凝视”，认为当算法被不断增加作为支持决策制定的方法时，尽管为效率的提升带来了机会，但也随之产生关乎不公和歧视性结果的风险。算法偏见看起来如此不透明的原因之一是，我们通常无法分辨它何时发生。因此公众有责任要求算法公开、透明，知道是哪些因素对决策的结果产生影响，才有可能理解这个黑盒。