机器如何理解人类

机器早已能够在固定场景下，理解人类的意图。而实现如同人与人一样的人机沟通，仍是个遥远的想象。

2019年8月31日，WAIC 2019世界人工智能大会，微软AI展区的人工智能少女小冰吸引众多市民关注，大屏幕播放着微软公司创始人、视窗操作系统Windows之父比尔·盖茨的视频（刘玉宇摄/视觉中国供图）

智能客服

2月5日，武汉“封城”两周后，微软的研发工程师冬雨辰接到一个省会城市的求助信息，他们的市长热线遭遇疫情冲击，每个接线员每天要不停歇地接三四百个电话，工作量较往日增加近三倍。接线员被问诊、询问定点医院的问题淹没，更多的市民则因为拥堵的电话线路而错失询问的机会，他们亟须人工智能的帮助。

冬雨辰所在的微软Carina团队曾在2019年为该市建立智能的市长热线服务。市民拨打12345，可以选择接通智能客服，智能客服引导市民选择自己所咨询问题的大类，再进一步表述自己的问题，并留下具体地址等信息以便后续处理。智能客服在其中负责将市民的语音转录为文字，并理解问题的具体意图，生成语音答复。

市民平日拨打市长热线主要集中反映停水停电、油烟污染、违规违章等问题，智能客服需要在理解市民的完整诉求的同时，识别出地名等专有名词，然后记录并生成工单，由后台派单员人工审核后派发给相关的市政部门，具体的街道办或职能部门接到诉求后，再回访和后续处理。人工智能像个3D打印机，扔给它模板和材料，就能制成成品。微软利用Carina设计多种市民频繁询问的话务流程，把人工接线员的语音数据录入记忆库，训练语音识别系统，使人工智能“熟悉”当地的方言口音。

智能客服的“智能”在于，电话接通得越多，智能接线员对市民越了解，它们能够“理解”诸如“马路上用不用打伞”“今天天气如何”之类的不同问法，实际是在指向同一个问题，回答问题便越来越准确。“机器可以低成本扩容，接入尽可能多的电话，自2019年智能12345热线上线后，热线的接通率从高峰期的60%提升到90%以上。”冬雨辰说。没有智能热线前，有70人左右的人工坐席，每天接的电话在3000到8000个之间浮动，而有智能客服后，席位扩容到100个以上，减轻了至少20%的人工负担，并且有五成以上接入智能客服的电话被转化为有效工单。

疫情给微软Carina产品团队带来了新的挑战。项目需要在没有数据的情况下冷启动，而且人工客服也没有遇到过疫情问询场景，他们的回答流程没有固定的标准，冬雨辰所在的团队必须在一两天之内，从零开始，建立与疫情贴合的新模型。

“我们梳理定点医院的位置，在公开的网站上寻找权威的医治方法，从当地卫健委的网站里总结问询的标准。”微软当时已经复工，团队放下手头的工作连夜赶工，按照问询时的一般逻辑顺序和需要的信息点，远程搭建智能客服的问答流程，比如，如果市民询问定点医院，就直接提供当地政府的权威信息，市民询问如何就医，就告知正确的就医流程。“因为疫情紧急，问询的内容绝大部分又与此相关，我们优化后的智能客服调整了顺序，不再让市民先选择问题的种类，而是直接听取市民的问题，直接给出答案；对于需要人工介入的问题，就由智能客服整理好记录下来，交给后端的派发员人工处理。”

因为最初的数据只有几十条，人工设计的应答流程又不可避免地十分固定，智能客服起初比较“傻”，一旦市民的问题与机器设定的顺序不同，它们就会答非所问。Carina产品团队从人工智能记录的市民反馈中感受到市民的焦急，转人工、直接挂电话的现象不少。

但对人工智能而言，智能全潜藏在数据里。电话越接越多，语义理解的模型就可以更加优化，智能客服也越发灵活，不再囿于工程师预先为它们设定的问答顺序和触发条件。三天之内，智能客服接管了近半数的人工客服，正确率与往日持平。

微软亚洲互联网工程院副院长、首席科学家姜大昕博士

机器“理解”上下文

当智能客服上线时，电话一头是机器已不会令人惊异。机器能够直接理解人的语言和意图，已变得习以为常：手机上的智能助手发出拟人的声音，通信营业厅、银行的客服电话也都是先由机器接听，而在各行各业内部，理解人们意图的人工智能技术，或是帮助人们比对合同，或是为制造商从互联网的大海中打捞用户的评价，并分析哪些是夸，哪些是骂。

实际上，它们都是本世纪初开始的自然语言处理技术黄金时代的产物。微软亚洲互联网工程院副院长、首席科学家姜大昕博士向本刊介绍，互联网的兴起为自然语言处理提供了大数据，而搜索引擎为自然语言处理找到了一个绝佳的应用。海量的数据规模和成功的商业应用模式，推动自然语言处理技术快速发展。到了2010年以后，自然语言处理又跟随人工智能的神经网络和深度学习的新突破迎来一波发展的浪潮。研发者模拟人脑的学习方式，为机器设计多层的神经网络，一旦人们设定一个目标，海量的数据通过这个网络，每一层的“神经元”像一个个阀门，自动过滤、校准上一层“流下”来的数据，直到得出与目标相符的结果，“2016年AlphaGo战胜李世石是这股浪潮的标志”。

“机器学习的本质就是通过设计算法，让机器从数据中寻找规律。深度学习作为机器学习的一个分支，其本质并无不同，只是采用了深度神经网络作为算法模型。”深度学习方兴未艾时，姜大昕正在美国读博士，他记得那时学人工智能的毕业生不好找工作，自己还在做生物信息领域的数据挖掘研究。“以往一个生物学博士乃至教授一辈子可能就研究屈指可数的几个基因、蛋白质。上世纪90年代末，斯坦福大学发明了高通量生物实验的办法，能够观测一个生物体在某一瞬间的状态，同时记录上万个基因的表达信息。对那时的生物学家来说，那就是‘大数据’，他们需要计算机系的人帮忙在数据里挖掘有用的信息。”

姜大昕博士凭借数据挖掘的能力，来到微软负责研发搜索引擎。“相比20多年前，现在的数据量起码要在‘万’的后面再加上个‘亿’。”作为智能市长热线所应用到的自然语言处理技术的主要研发者之一，他告诉本刊，智能客服涉及人工智能领域最难的技术，因为相比搜索引擎，它是多重技术的组合，既需要语音识别，又需要理解意图，还涉及到多轮对话的策略，以及语言的自动生成。

“当深度学习的浪潮开始后，最先突破的是感知层面的视觉和语音识别领域。如今从一堆图片中分辨出猫狗，或是在实验室的情况下把人声转换成文字，机器已经能与人类打平，后者甚至已能超越人类。而自然语言处理属于认知层面的智能，被誉为人工智能皇冠上的明珠。”姜大昕博士告诉本刊，目前业界一般把自然语言处理分成形态、语法和语义三层。形态就是构词法、同源词、词素词缀等内容，侧重于词本身的构成和内涵，语法是研究一个句子的结构和句子中各成分之间的关系，而语义则是文字所要表达的意图和意义。

人工智能对自然语言的理解尚不能达到识图和语音识别那般自如，它需要人类为其划定场景，明确特定的目标。可是场景并不互通，许多数据之间也并不相关。一个公司若想应用这些技术，只能逐一设计不同的模型，或是借用已有的模型。二者不是面临漫长的设计时间，就是有兼容的问题。姜博士说，以研发技术平台闻名于世的微软，为此打造了基于云计算的Carina人工智能+自然语言处理平台，将人工智能的技术能力以工具台的形式转移给客户。“平台涉及自然语言的全部三个层面，人们可以在上面训练、测试、调试、发布符合自己需求的模型。比如语言在形态上、语法上甚至语义上有共性，但某一个领域有专业词语需要机器识别，业务部门只需要定义专业的词汇，就可以令通用算法适应一个特定的领域。”

不过，人工智能只是在寻找关联，并非像人一样真正理解一个词句的意义，它通过大量数据和时间的训练，才能“知道”毫不相关的两个词意思相近。直到2018年，人工智能“理解”上下文的能力才有了一个突破性的进展。

“就像马克思说过，‘人的本质是一切社会关系的总和’。一个词的本质，是所有与它一起出现的词的总和。机器可能不会像人类一样，通过字典里的定义理解一个词，但机器可以把一个词出现时的所有上下文全部记下来，以此作为语义。比如‘纯净水’和‘矿泉水’这对近义词，看上去只有一个字相同，但机器记下包含这两个词的所有文本后，会‘发现’这两个词出现的上下文非常相似，它就学会了这两个词之间可能存在关联，虽然它不知道这个关系是什么。”姜大昕博士说。通过从海量文本的上下文理解词的语义，发现词的语义关联，被称为“预训练”技术。在预训练模型的基础上再进行下游的自然语言处理任务，目前已经成为自然语言处理的新范式。

这项“预训练”技术将人工智能的效果整体提升了10%，也被业内称为“炼丹”，需要让机器事先花费大量时间“阅读”兆亿级的数据，而且计算代价极为昂贵，只有微软、谷歌等坐拥海量数据以及超大规模深度学习芯片集群的公司能办到。“但人们就此能够实现机器的预训练，让它在进入具体场景之前，事先把这个世界上所有的文本都看一遍。”说起这个发明，姜大昕博士言语中透露着欣喜，“等于人工智能本身具备了小学生的语文水平，不再从零开始。”

机器与人的距离

“相比人工客服在打电话时会反复确认信息，智能客服会自动记录下市民说的信息，不仅通话时间缩短，而且智能客服上线后，被机器节省下的人力，从接线员转移到派发员，从此前单纯地接听电话，转为更需脑力的工作，分辨、完善、派发机器形成的智能工单。”微软Carina团队见证了自然语言处理技术给劳动者带来的真切改变。

将自然语言处理技术等人工智能作为人类智力的延伸，是自计算机出现以来的理想。它源于1950年的“图灵测试”理论——一旦人类隔着幕布与对面海阔天空地聊，经过多轮对话后，都不知道与自己对话的是机器还是人，机器就被证明获得了智能。麻省理工学院在1966年就借用心理治疗的脚本，制造出机器人Eliza，给人产生过真假难辨的错觉。姜大昕博士告诉本刊：“它并不是在‘理解’人说的话，而只是人说一句，它就变着法儿地重复下来，人却能与它越聊越多。但最终人们发现，类似的多轮对话仍只能发生在心理咨询领域。”

从那时起，用机器“欺骗”人类的尝试便从未停止。Eliza面世时，正处在第一次自然语言处理技术发展浪潮的末期，人们发现无法用规则的方法处理语言，而随着计算机算力的提升，统计机器学习的方法在80年代兴起，却又因为专家设计模型需要强大的经验和知识，面对大数据时，又难以自动找到其中蕴含的规律，最终到达一个瓶颈。直到如今的深度学习，使机器可以自动学习表达语言的特征。

可是，即便自动学习的机器成为一个“黑盒”，研发人员也只能获得机器得出的一个结果，而不知道它得出结果的原因，甚至机器给出的回答可能出乎意料，仍没有逼近图灵测试的理想。

“因为自然语言处理技术虽然能轻松地把大英百科全书里的知识全部记下，却没有‘树一般比草高’一类的常识；而且人工智能没有举一反三发现规律的能力，很难自动通过观察发现‘马路上红灯亮车就停’的现象。”姜大昕博士向本刊列举人工智能目前的局限，“把勾股定理作为一段文本输入计算机，再给它一个具体的直角三角形，它也不具备自己算出斜边长度的推理能力；而抽象的概念如何使用，对机器更是天方夜谭。人和机器对话，由此只能限定在固定的领域和模式，一旦进入开放领域，机器仍不知所云。”

不过以目前的发展程度，寻找合适的场景便能发挥人工智能的威力，目前最成功的场景是搜索、广告和推荐。诸如隐私泄露和信息茧房等技术伦理的问题，也在这些地方最为突出。

“像目前的邮件自动回复功能，机器可以根据用户往来的邮件，做简单的回复，或是提醒用户哪些重要的邮件需要及时回复。这项技术在欧洲应用时遇到了一些用户的反馈，他们为隐私是否被侵犯感到担忧。尽管这项功能严格遵守欧洲的用户隐私保护规定，用户仍会隐隐感到不安。”姜大昕博士告诉本刊，类似的担忧是人工智能融入人类生活后必然产生的副作用，而实际上，微软内部设有人工智能伦理道德委员会及法务部门严格监督技术的伦理边界。同时，面对信息茧房，研发人员也会在设计算法时，考虑更多的层面。“比如必应搜索引擎的一大特点就是对观点性的问题做客观呈现，把各方的不同观点都在结果中并列显示。做个性化推荐时也会做一些随机推荐，以突破信息茧房。”

而就像在人声里嵌入只有机器能识别的“指纹”，可以防止语音模拟被滥用，技术的风险也可以用技术来抵御，技术的伦理从不会阻挡技术发展的进程。姜大昕博士预测，5到10年内，机器能够具有跨语言、多模态的能力，可以更好地翻译小语种语言，自动为足球比赛配音，为聋哑人自动生成电视的手语翻译，甚至能获得一定的推理能力。“想象一下，如果把高中课本输入计算机，它的理科就能在高考中拿满分，那时的世界将变成什么样？”