本格异想录

从一款游戏引发的关于人机交互思考。
$[timeformat('2019/5/1')]

Now Playing DLC 是 Now Playing 专栏的番外篇。在 DLC 中,我们从游戏出发,聊聊科技、人性和社会。不定期更新,不影响正常专栏更新频率。

最近有个游戏突然火热起来,名叫「早安我的少年」。B 站可以下载到这款游戏,目前还在测试状态。按中国大陆的法律法规来说不应该有任何内购付费项目,不过他们用了一个很讨巧的方式来绕过这个限制。呃…… 具体是怎么样的,你们试试就知道了,我就不点明了,给开发组一条生路。

不过更有趣的地方在于,它似乎并不适合被称作「游戏」,因为它有一些可能会让很多人匪夷所思的功能。游戏中的角色叫做 Sei(笙),而且他会在你的屏幕上以真正的人物形象出现。设置闹钟、安排日程、充电提醒…… 似乎你除了不能用「唤醒词」来和他「语音对话」之外,Sei 可能已经可以简单帮你做一些事情。噢,对了,你可以用已经购买的装扮来给 Sei 捏脸1,目前我没见到有虚拟助手可以这么做。

两张「早安我的少年」app 的截屏。
左边是游戏内闹钟界面,右边是备忘录。

当我得知这样的功能的时候,我的第一反应是 这样的

如果用把 Siri,Alexa 和 Cortana 建模,用游戏引擎做成类似形式的话…… 会发生恐怖谷效应?

但根据我身边所见,绝大部分的玩家,都暂时没有产生 恐怖谷效应,他们还在为了给自己的 Sei 肝装扮,似乎没有意识到 Sei 是一个虚拟形象(而不是一个不够逼真的人)。也许更合适的问法应该是:为什么 Siri、Google 助理和 Alexa 没有捏脸功能?或者说,苹果、亚马逊和谷歌,为什么没有像 Sei 一样,选择更「实体」的交互界面?

《巫师 3》中的希里(Ciri)。
Ciri:我觉得你要找的不是我

在人们第一次接触「电子助理」的时候,助理们就是没有脸的

即使 Siri 是绝大部分人首次接触的电子助理,但早在许多年以前,已经有诸多文艺作品中涉及到虚拟电子助理。例如,阿西莫夫的 短篇小说《最后的问题》,道格拉斯的《银河系漫游指南》,以及《2001 太空漫游》,还有可能更多人更熟知的《星际迷航》《流浪地球》或是漫威旗下的 钢铁侠系列作品,都能看到智能助理的身影。

这些作品中的虚拟助手都有一个特点,就是没有实体——准确来说,是没有人形的实体。具体到「这些作品中的智能助理,为什么没有人形」的问题上,把问题丢给 Google,似乎也没有人考虑过这个问题。我也只能从早期一些作品的特点中寻找一些端倪来解释这个问题。

诞生于 1940 年代的 电子计算机 掀起第三次科技革命,同时代可与其相提并论的「划时代」东西叫做 塑料。此时的人类社会,除了战争之外,更多有一种「人定胜天」的气氛:人造的塑料比木头耐用,比铁更易塑,简直就是一种完美材料。同样的,人造的计算机的计算速率让依然在用纸笔演算的数学家们望尘莫及。

加上推崇实用主义和符号主义的 包豪斯 推波助澜,人类的自负情绪在彼时达到高潮,没有什么是人战胜不了的。

在这种气氛下,文艺作品不免也会沾染上这样的气氛,「没有脸」的电子助理大致也是因此而生。按照「自然的总是有限的,人造的总是无敌的」这样的思维来看,一个比人厉害得多的东西就不应该有任何的烟火气,其中就包括一个「人形的外观」。这样的外观不仅无用,还模糊了人与机器的界限,「没有一点超级智能的样子」。

Google 中搜索「the answer to life the universe and everything」,结果页面会出现写着 42 的计算器。
《银河系漫游指南》中著名的「42」梗,在小说中就是由一台超算计算出来的。

早期的科幻作品中的电子助理形象,大概就因此而生。在这些作品中,可对标现在的「人工智能」或是「电子助理」的词,当属「超级计算机」了。例如在科幻小说《最后的问题》中,人类询问问题的对象就是一台超级计算机,只是它的体积越来越小、甚至变成拿在手里的盒子的形象出现。(像不像 Siri?)

这样的设定,无疑给电子助理在文艺作品中的形象定下深刻的基调,甚至是烙印。即使到了后世,绝大部分电子助理的形象受到先期的作品影响——或是,达成某种默契——很少会有「带脸」的 AI 出现。这一点,也无疑影响到后来的人工智能助理的交互设计。他们会以「不带脸」的形态出现,因为人们已经习惯了「不带脸」的电子助理。

当然,除了这种惯性之外,不带脸的 AI 在设定上也更容易变成「随叫随到」的形象。无论何时何地,只要剧中角色有需要,AI 都会即时出现,不需要再投影一个人形出来,无论是小说还是电影,处理起来都方便。不过在这一点上,也算是侧面影响大企业开发「随身助理」的出现,包括手机、音响、车机甚至是手表,你的助理总能在其中一台里响应你的请求。

让位「实用性」,智能助理们「没有脸」可能是更好的选择

除了受到文艺作品和社会环境影响之外,智能助理「不带脸」的形象可能的理由还有很多。

Siri 并不是一个苹果公司内部诞生的产品。它诞生于 2007 年,在 2010 年被苹果公司收购。虽然 第一个版本的 Siri 没有 TTS(Text to Speech,语音转文字)引擎,因而是个「哑巴助理」,用户却可以通过语音或文字输入的形式与 Siri 进行对话,界面效果很像和 Siri 发短信。

早期的 Sriri 界面。
早期 Siri 界面,可以看出与现在的 Siri 差异不算很大。

现在的 Siri 和其他智能助理,基本都没有改变这一形式:你说一句话,智能助理会将它听到的内容转写在屏幕上,然后再给出自己的答复,并以楼阶式对话界面进行展示。一个形式基本没有改变,说明这个形式一定能满足某种需求,而不单是某种「习惯」层面的东西。

首当其冲的原因,可能就是信息密度的问题。将对话界面拿掉,改成一个人脸那样的样子,在技术上完全可以做到,但你没有办法通过显示的方式来显示列表了。

比如,如果用户问附近的餐厅,如果拿掉对话界面,那么助理就要一个个念出来…… 同样的理由,问今天的天气,利用屏幕(视觉),就可以连续展示好几天的天气,或是天气的详细情况,信息密度显然比语音更大。这也是为什么 在 IM apps 里发语音比发文字,更容易被别人视作不礼貌——人可以一目十行,但不能一下子听完一条长达 60 秒的语音。

询问 macOS 版本 Siri 附近餐厅,Siri 给出结果和列表。
利用 Siri 查询附近餐厅的时候,Siri 会给你展示一个列表,而不是把每家餐厅的名字念一遍。

当然,另一个可能比较重要的理由就是历史请求记录留存。包括 Google 助理和 Siri 在内的智能助理,通过从上往下拖动的方式浏览以往的问询记录。通过这种对话式界面,历史记录的浏览显然要更为自然和直接。大概这也是为什么小米旗下的智能闹钟产品,会选择在 app 中加入「与小爱2的对话历史记录」功能的原因之一。

除了有比「带脸」更好用的交互之外,智能助手「不带脸」另一个更重要的原因是,这个脸不一定能在所有设备上都可以出现。例如,刚才提到的小爱智能闹钟、Google Home 和亚马逊 Alexa 音箱等等产品,都有不带屏幕的版本出现。在这些没有屏幕的设备上,「多带张脸」显然意味着要多带一个屏幕,成本更高,但收益基本为零。即使后期这些产品线有了带屏幕的版本,显然也延续在手机上的惯例,将这块新加的屏幕用于显示更多的信息,而不是展示一张脸出来。

厨房桌子上摆着一台 Google Home。
包括 Google Home 和 Alexa 在内的许多智能音箱产品线的首款产品是没有屏幕的。

智能助理的人格化,也不仅仅是一个「捏脸」就能解决

说回「早安我的少年」这款游戏。在游戏中,你可以为 Sei 任意搭配自己喜爱的装扮,或是直接更改他的性格,让他看上去或是听上去更符合自己内心的要求。本质上,玩家可以为 Sei 塑造一个人格,不管是外观还是性格。

这款游戏给我带来了一个新的有趣问题:如何为智能助理增加一个人格?如何让智能助理更像一个人?它们需要这样做吗?

包括 Siri 在内的诸多智能助理背后,都有一个剧本写作的角色,他们负责为智能助理提供被用户调戏时的回答。在撰写这些剧本的时候,应该为虚拟助理赋予什么样的性格、什么样的形象,都是非常考究的。

他们在设计时需要思考称呼人类时该用姓还是用名、回复时是否要用表情符号。「因为我们不希望人们觉得,你家的 AI 助手太随意或者太端着了。」

极端如微软者,就有 Cortana 和小冰两种截然不同的实验:在微软初期的规划中,Cortana 严格遵循「端着」的那一边,小冰就完全相反,变成「随意」的代名词。结果也非常明显,两个助理(小冰或许不应该叫做助理)都给人非常奇怪的感觉,或者换一个词,「不像是人」。因为一个人的个性是非常复杂的东西,所有人的个性都不能被二元分类到「严肃」和「活泼」中。单纯塑造一个「严肃」或是「活泼」的性格,会因为本身单薄,而令这些助理显得「怪怪的」。

游戏中的 Sei 角色,走的道路比微软就要更保险也更可行:塑造各式各样不同的个性,以满足更多人的需求。我们假设这条路行得通,那么又有一个新的问题摆在我们面前:让智能助手带有人格是一件好事吗?

《她》(我更喜欢《云端情人》这样的标题)这部电影就为我们展示电子助理的另一面:你愿意让一款有丰富人格的电子助理做你的情人吗?即使你给出肯定回答,你的父母、社会,以及你的现实条件很有可能会为你的选择打上一个问号:一个天天依赖电子助理的人,会是一个心智健全(健康)的人吗?

电影《她》主角面对镜头,穿着红色衣服,下方是电影名称「Her」以及电影信息。
电影《她》海报。

电子助理在「成为人类」的道路上,远远不如几个岔路选择和 QTE 来得轻松,它涉及社会、人性与我们自身的自我认知形象,远比我们想象中更复杂。这份争论也会随着时间与人类自身的认知而持续下去,也许永远不会有一个标准答案。


  1. 游戏爱好者和从业者的黑话,指自定义角色样貌功能。 

  2. 小米的智能助手品牌。