新闻

AI“伪造”视频,可担忧的未来

作者:admin 2019-12-26 我要评论

用AI技术伪造视频内容正变得越来越常见。一方面,技术的进步是必然趋势;另一方面,人性在这个过程中也备受考验。寻找合适的应用场景并找到对于技术的反制措施,...

用AI技术“伪造”视频内容正变得越来越常见。一方面,技术的进步是必然趋势;另一方面,人性在这个过程中也备受考验。寻找合适的应用场景并找到对于技术的反制措施,已经成了当下挑战。

英剧《真相捕捉》剧照

 

“深伪”技术的应用难题

视频=真实?

在过去的很多年,这似乎不是问题。相比存在脑海中的记忆、落笔记下的文字,我们似乎更相信视频里的内容,相信它不像上述两者那样会被遗忘、被涂改。甚至,我们要大量依靠视频内容去决策、断案、判生死。但假如视频里的内容也可以被修改呢?

这也是BBC今年刚刚推出的剧集《真相捕捉》(The Capture)想要探讨的话题。男主人公肖恩卷入了一场谋杀案,路边的视频监控拍下了一切,但视频被人为修改了;虽然肖恩知道自己并没有做这些,但当他看到被修改过的视频监控的内容时,他也被那看上去“真实”的场景所震撼,不得不开始一遍遍地回忆,怀疑自己当时是否真的做了这一切。

现实中,技术与人性的摩擦也已经开始了。今年9月,一款名为“ZAO”的APP风靡一时,它能很快将一段影视剧中人物的脸换成使用它的用户。一开始,人们被这种奇妙的视觉效果所吸引,但大家很快意识到,如果连视频中的人脸都可以这么轻易被换掉,以后我们还能从视频内容中获得安全感吗?

ZAO引发的争议开始发酵,“换脸”在商业领域成了一个敏感词汇,许多公司对此唯恐避之不及。美国布鲁金斯学会技术创新中心的高级研究员约翰·维拉森诺(John Villasenor)就说,这样被人为修改的视频正“变得越来越精巧和易于使用”。他同时表示,“Deepfake正在提出一系列具有挑战性的政策、技术和法律问题”。

“Deepfake”中文意为“深伪”,从字面意思就可大致理解:通过深度学习技术(deep learning)伪造(fake)视频内容。而其最主要的应用场景就是“AI换脸”,你甚至可以将二者等同起来。2017年12月,一个名为“deepfakes”的账号在美国Reddit论坛上发布了自己制作的换脸视频,这是“Deepfake”这个词和AI换脸技术第一次以公众可感知的方式进入公众视野。但可惜的是,这位仁兄选择的换脸内容颇为令人不齿,他把色情电影里女主角的脸换成了盖尔·加朵等好莱坞明星。

某种程度上,这似乎是这项技术从诞生之初就具有的原罪。由于大量受害者的投诉,Reddit论坛迫于压力封杀了“deepfakes”的账号,不过这次封杀却让“deepfakes”直接开源了其AI换脸项目的代码。随着代码的开源,越来越多的程序员加入了“优化Deepfake”的队伍中,技术向前的脚步并没有因为应用的不当而受到阻碍。

北京零零发科技的创始人蒋坚在当时看到了Deepfake的出现后,他深觉这是一个大有可为的方向,就拉着曾在IBM工作的饶玲等朋友开始了AI换脸方向的创业。然而,他们现在也受困于技术与应用上的冲突。作为一家少有的公开以“AI换脸”为业务宣传方向的企业,饶玲说,他们团队在创业之初想了不少可能赚钱的方向,结果发现,“很多条路都走不了了”。

今年年初的时候,他们设想的最重要的一条路是直播,当时以李佳琦为代表的电商直播开始兴起,各大平台都在推广直播的渠道。饶玲他们觉得,电商直播里的主播们虽然各有特色,有的身材好,有的会推销,但这些都是充分条件,唯一一个必要条件是人长得不能丑。“你长得好看不一定能做好电商直播,但是你长得不好就一定做不好。”饶玲说。再者,换脸技术也能帮直播公司消除真人主播走红后跳槽的风险,所以他们理所当然地构想了一个场景,就是和直播公司合作,帮主播们换脸。

在北京东四环外的一间咖啡厅里,饶玲安排一位女同事在几公里外的办公室内为我做演示。她先用一只手机打开了他们在快手上的账号,又用另一只手机打开了和那位女同事的微信视频电话。只见在微信视频电话中,那位年轻的女同事面容虽然姣好但并不出众,没给我留下什么印象;但在快手直播中,我看到的却是一张酷似女明星迪丽热巴的脸。两张脸神态表情如出一辙,你笑她也笑,一个人说话另一个人嘴也一起动。我对着“迪丽热巴”仔细端详了半天,觉得有点不自然,但若是不知道这张脸是换上去的,恐怕也很难发现其中的蹊跷。

“那张脸其实是我们用迪丽热巴和我们那位员工的脸融合起来的,很漂亮,很像热巴,但不是热巴。”饶玲关上直播后赶紧跟我解释,生怕这里面又会产生肖像权上的问题。男生的脸他们也做了,用的是周润发和他们公司创始人的脸合成的。

对于自己的技术能力,这家公司非常自信,他们自称自己的实时换脸直播技术“在业界是绝对领先的”。今年年中的时候,他们正式上线了自己的“换脸直播机”,其实就是在驱动层进行了改动的电脑,除了一个好一点的摄像头,主要是搭配一套人脸模型,直播时可以自动替换,对外售价是1万多元一台。

消息对外发布后,确实有不少直播MCN公司来找他们咨询,但仔细一问,他们却傻了。“我们发现其实真正对直播换脸产品有野心的,都是那些不断在打擦边球的那些人。”饶玲对本刊说。没有人会直接说自己要用这项技术搞色情,但太多的细节让饶玲和她的合伙人不敢赚这个钱。比如办公地点就是个疑问,“我们就问他们平常在什么地方播,能不能去你们公司看一下。很多人就支支吾吾的,只会说:‘我有钱,你们放心,我可以先给钱。’好像就没有真的让我们去看的。”更有甚者还说他们在柬埔寨,自己把机器买来扛回去。饶玲他们怎么想怎么觉得风险大,不仅怕机器被买去做色情直播,更怕万一对方也懂技术,买回去自己再训练别的模型,搞出什么更严重的事情,就主动叫停了这项业务。

随着Deepfake 相关的技术变得更易于使用和更强大,我们每个人都有必要更认真地考虑如何保护自己的隐私(视觉中国供图)

 

潘多拉的盒子?

因为应用层面处处掣肘,饶玲说,公司现在还处于“维系很艰难”的状态。事实上,若不是亲眼看到负面应用出现,技术研发人员很难提早发觉这项技术在应用层面的可能出现的伦理与法律困境。在计算机图形学和计算机视觉方向上获得了博士学位的邢骏告诉本刊,他们当初在做科研时,根本就没往色情应用方面想过。

早在2014年初的时候,就有美国的技术爱好者利用微软公司推出的体感外接设备Kinect v2传感器,做出了简单的视频换脸尝试。但这种办法与人工智能没什么关系,它需要换脸的双方同处在一个空间内,然后利用硬件的能力捕捉并交换双方的人脸图像,所以换脸的效果在视频中极为粗糙,就是两张中年男性的人脸图片在随着他们的身体晃动。直到当年6月,当时即将从蒙特利尔大学毕业的博士生伊恩·古德费洛(Ian Goodfellow)发明了一项名为“生成对抗网络”(Generative Adversarial Network,后简称“GAN”)的技术,这项技术后来深刻地改变了人工智能领域的发展。

在那之前,AI研究人员已经在使用神经网络作为“生成模型”来创造新的图像内容。但是结果通常不是很好:计算机生成的脸部图像往往模糊不清或出现错误,比如会没有耳朵。古德费洛的朋友们提出的计划是对构成照片的各个元素进行复杂的统计分析,但那需要大量的数字运算,难以实现。而古德费洛想出的办法绝妙至极:他将两种不同的神经网络组合在一起,一种AI可以创建真实的图像,而另一种AI可以分析结果并判断图像是真实的还是伪造的。“你们可以把两种神经网络想象成是艺术家和艺术批评家。”古德费洛后来自己也举了很妙的例子,“生成模型希望能骗过艺术批评家,使批评家认为其生成的图像是真实的。”在这种“对抗”的过程中,它们互相督促、互相进步,最终会创造出越来越真实的“虚拟内容”。

“只要你的目标是通过神经网络生成一些东西,基本上你是离不开GAN的。”邢骏对本刊说,“因为它的效果特别明显,它能够生成非常高保真、高精度的图像内容。”邢骏现在是一家游戏公司的高级研究科学家,在此之前,他在香港大学拿到了计算机科学的博士学位,又到南加大做了一年半的博士后工作。他将自己研究的重心称为“数字人体”,而脸部作为人体的一部分,自然也是他的研究对象。

邢骏说,自GAN出现之后,一大波图像生成的应用研究如雨后春笋般冒出来。他当时也在南加大创新研究中心(Institute for Creative Technologies)做基于GAN的相关研究,具体来说,就是如何通过一个人的一张照片来生成这个人的视频。严格说来,这个研究方向并不属于“换脸”。但因为大家的技术基础都是GAN,所以当2017年年底Deepfake出现在美国的论坛上时,邢骏及他的同学们都觉得很惊讶,他们惊讶的不是Deepfake在技术上有多大的突破,在他们看来,Deepfake在技术上甚至谈不上“创新”。

邢骏解释说,其实Deepfake不限于换人脸,用它这个框架可以换任何东西,换成猫的脸、狗的脸都是可以的,只要给定数据都没问题。他们惊讶的是,原来把相关技术应用到“换人脸”这个场景中,可以引起这么广泛的兴趣和讨论。

长久以来,“换脸”基本是一项服务于高端影视行业的工作。在Deepfake出现之前,换掉图片中的人脸一直不算是难事,用PS软件就能完成;但将视频中的人脸换掉基本是一项等闲难以完成的任务,除了需要先利用传统计算机图形学构建一个3D的人脸模型外,还需一帧一帧地对影视画面进行人工调试,很费工夫,基本只有好莱坞才能完成这种“几千万换一张人脸”的工作。

而Deepfake的出现像是打开了一个潘多拉的盒子,它将这项工作的门槛降到了几乎每个普通人都可以的程度。整个流程基本可分为三步:一是提取数据,二是训练,三是转换。很快,使用者甚至都不用自己训练模型,2018年1月,有人推出了Windows程序FakeApp,允许用户很轻松地自制换脸视频,即使他没有任何AI方面的知识。FakeApp只需要一个包含Nvidia GPU的个人电脑、3~4GB的存储空间,就能生成换脸视频,用户只需要自己找到训练神经网络所需的材料即可。FakeApp之外,DeepFaceLab等打着相似旗号的应用也相继诞生。但这些应用的官网现在基本都无法打开,原因都是被一些人滥用到了色情等非法用途上。

作为合作伙伴,蒋坚和饶玲正带领公司在AI换脸的路上艰难向前(宝丁 摄)

 

依靠影视剧是出路吗?

饶玲的公司今年还是活了下来,当初设想好的直播业务没敢拿去卖钱,是影视行业救了他们。今年上半年的时候,有一个电视剧的制片方找到他们,片子已经拍好了,希望他们能换掉剧中一个配角的脸。新的演员已经找好,若按之前传统“抠图”的办法,这位新演员需要在绿幕前把原演员剧中的戏自己临摹式地重演一遍,然后用电脑手动“抠图”替换掉之前的画面。但这种办法一来极难做到完美替换,再加上那位新演员已经接了一档戏,没有太多时间配合他们换脸。片方于是抱着试一试的态度找到了他们。

饶玲说,他们当时带着摄像机上门给那位新演员拍了三四个小时左右的视频素材。具体来说,就是他们在那位演员周围布置了一个三角形的轨道,机器在上面绕着演员拍。“因为我们希望能尽量拍得全一点,需要他做很多种表情。”饶玲说,“我们有一个技术细节表,比如以笑为例,从微笑到露齿笑,这些表情都是需要做的。” 

这样做的目的是希望让机器获得足够多的学习资料。饶玲他们获得新演员的数据后回到公司,开始往自己的换脸系统里灌数据,数据越多,机器学习的效果越好。通过对一张人脸多种微表情的采集,机器能学习到演员整个脸部运动的过程。学完新演员后,他们再把片方提供的原有演员的片源灌到系统中,二者相互对应,如此一周之后,出来的新片源中那位配角的形象就完全换了模样。当然,这时还不是最终的结果,他们还需要请片方的执行导演过来审片,就对方提出的意见再进行调整。这个过程最终花了20余天,对方觉得挺满意,付给了他们几十万元的酬劳。

我提出说想看看换完的效果,饶玲十分为难地拒绝了,说因为片子还没上映,他们也签了保密协议,没办法让我看。在其公众号上,他们倒是宣传了自己另一个合作项目,是一部由中国电影股份有限公司出品、名叫《记忆切割》的电影,导演是果靖霖,演员有郭采洁和刘雪华等。据其自己透露,他们也是用自己的AI换脸技术换掉了其中一位配角的脸,换脸时长为2分48秒,共有15个镜头。查找相关资料,原来这部电影年初就已经拍摄完毕,最初宣传中包括了演员赵立新,但今年4月,赵立新因为个人言论不当的问题引发巨大舆论争议;到了6月,《记忆切割》到上海电影节宣传时就已不见了赵立新的名字。

在零零发科技的办公室,我尝试求证被换脸的演员是否就是赵立新,饶玲笑而不语。但他们还是给我展示了一些视频画面,画面中的演员乍一看很像赵立新,仔细一看却又不是他。盯着将近20寸的显示器屏幕看了半天,我觉得自己找不到破绽。蒋坚略显自得地说:“你放心吧,你肯定找不到破绽,我们这都是在电影专业级的监视器上反复检验过的。”今年,他们已经完成了两部电视剧和一部电影的换脸工作。饶玲说,他们真的很感激影视行业,因为是这个行业把他们公司给救了。蒋坚也说,他们现在就只做影视行业的生意。

这并不是他们一家的想法。另一位来自北京的创业者孙博某种程度上也是这么想的。在转行进入AI换脸行业之前,其公司在尝试开发所谓的“直播机器人”,就是那种可以实时和人对话聊天的AI程序。那大概是2017年左右,他们也注意到了GAN相关的技术,就尝试为机器人开发实时视频图像。

孙博说,他第一次感觉到“换脸”这个事儿能单独拿出去做是在今年2月份。在那之前,他们公司其实也接过一些小的换脸工作。最早是在2018年年初,从小在铁道部大院里长大的孙博去一个故宫老专家的家里玩,那位老专家抱怨说,自己因为嗓子被雾霾搞坏了,没法给一个南京的博物院录讲解视频。孙博一听,觉得自己能帮上忙,因为用到的技术和他们给机器人“做脸”差不多,就让老专家搭了个线,他们给老专家拍了20分钟的素材,回去找了一个配音演员坐在镜头前照着老专家写好的稿子念,他们再把配音演员的脸换成老专家的。“那时我们并不觉得这是一个业务,就是顺带手做着玩的。”孙博说。

直到2019年2月,有网友在视频网站Bilibili上传了一段视频,在那段94版《射雕英雄传》电视剧的一个片段中,本来由演员朱茵扮演的“黄蓉”被替换成了杨幂的脸。因为换脸后的效果看上去惟妙惟肖,微博阅读量迅速突破了一亿。虽然视频作者很快因肖像权等问题将视频撤下,但也让很多普通人第一次意识到,“AI换脸”技术竟已发展到了如此成熟的地步。孙博这时也发现,原来换脸可真是一个又简单又赚钱的生意。

孙博回去立刻组织公司的技术人员研究相关的算法,据其自己说,他们找了5000部电影的素材训练机器,很快得到了自己的换脸模型。今年,他们也接了几部电视剧的换脸工作,大部分都是因为“限韩令”要换掉其中某个韩国演员的脸。他说,因为换脸的成本主要是训练模型,所以一部影视级的剧集换脸成本大概在50万元左右,“你换两秒也是50万元,你换100集也多不了多少,因为后面我们交的都是电费了”。

换一张人脸当然只是开始,孙博甚至对我说,影视行业未来的趋势一定是整部剧都是AI生成的。到了那时,何为真?何为假?这些问题都不重要,也都说不清了。

“造假”与“反造假”

看样子,这样的技术在影视行业似乎有广阔天地,但目前从事相关工作的大部分还是饶玲及孙博这样的创业者,大型科技公司对此要么视而不见,要么三缄其口。一家国内顶尖的AI视觉公司对本刊说:“我们暂时没有关于这方面的内容可以讲,也不太方便做过多的评论。未来如果这样的技术更规范、有更可行的应用场景,我们可以再对外分享。”

孙博自己虽然还在做这方面的业务,但他说,“换脸”这项业务一个最大的问题是,你没有办法让别人知道你换了脸。“因为一旦你让别人知道你换了谁,比如你在电影里换了某个明星的脸,或者哪个博物馆的专家是换脸上去的,观众就不愿意看了。”孙博解释说,“人本能就会觉得我不想看,因为会觉得我被骗了。”因此,几乎所有和他们合作的影视公司及直播公司都签了保密协议,没人愿意承认用了这项技术。

这个问题困扰着全球想要把这项技术运用到实际生活中的人。邢骏今年年初才从南加大回国,他说,他认为这项技术最有发展前景的应用还是文化娱乐方向。在美国,他的很多同学也是去了工业光魔之类的影视特效公司工作,他现在做的工作也是尝试用AI相关的自动化技术制作游戏里的人物形象。他解释说,换脸技术在其他应用层面或多或少都会涉及隐私的问题,因为这项技术必须经过本人的同意以后才能使用,这会大大限制它的一些应用场景。“所以我认为它可能会应用在一些比较窄的领域,比如影视,比如虚拟现实,就像我们现在打电话最多可以看到对方的视频,以后戴上头盔,你就能看到一个3D的真人形象展示在你面前,这可能就是换脸技术的一种应用。”

今年,孙博的公司拿到了天使轮的投资。投资他们的不是一家投资机构,而是一家从事“全息3D视觉技术”的公司。其投资人在采访中不愿透露公司名称,原因是“公司即将上市,很多信息不便透露”。但他说,他们投资孙博的原因是认为“这一块的市场应用还是挺多的”,而且年初他们让孙博给他们换了一下全息3D视觉的脸,发现效果还不错,就投了。

但这些构想中的应用场景还远未到落地应用的时候,短期内,除了影视行业之外,各种游走在法律边缘的换脸应用仍会层出不穷。微软亚洲研究院11月的最新数据就透露,大约30%经过AI换脸的合成照片、合成视频是人类仅凭肉眼无法识别的,很容易被当作真实信息进行再次传播。因此,学界与业界已经开始研究如何利用AI技术去反向鉴别图像、视频的真伪。在美国,南加大作为全球相关技术的领先研究者,已经开始了研发“检测换脸视频”的技术。在今年6月,其检测系统的成功率可达到92%。

但“造假”与“反造假”永远都处在竞争状态中。邢骏在南加大的导师黎灏是相关技术研发的重要参与者,他说,那些换脸视频的造假者要适应新的检测技术会“特别困难”,但他仍然承认,造假者们最终还是能适应这种检测,因为技术本身的发展不会停步。邢骏就坦言,他们当初虽然也看到了Deepfake的色情视频,但他们的注意力不会在这上面,这种应用甚至会鼓励他们继续去研究这方面的技术,“只不过它在应用场景上会受限,比如它对用户隐私保护性要求会出现,但是不妨碍技术本身的发展”。

黎灏最后则提醒说:“随着Deepfake相关的技术变得更易于使用和更强大,我们每个人都有必要更认真地考虑如何保护自己的隐私。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 红星耀东方

    红星耀东方

  • 重走仰韶时代考古现场

    重走仰韶时代考古现场

  • 中国西北行

    中国西北行

  • 郑州的容灾能力

    郑州的容灾能力