“做个人吧”车载语音交互的终极奥义?
国际汽车电子联盟
2021-08-19 11:14
我要评论(0


一台智能座舱的标配是什么?触屏?HUD?还是语音助手?


也许在完全自动驾驶实现的未来,汽车不需要人来驾驶,座舱里不再需要触屏、不再需要语音,但是在目前这个「智能化有余,自动化未满」的阶段,我们不得不承认,语音成了当前解决座舱内交互的最优解,也成了车企在座舱里的发力点。


从最初无形的、机械式的语音;到 NOMI 可视化、圆乎乎的拟人形象;再到语音助手们亲切的、「小字辈」的名字,语音助手在拟人的道路上一路进化。



到了2021 年,语音助手的拟人化已经从外型人设,进阶到了内在:年初 BMW 推出的新一代 iDrive 8.0 采用了温柔知性的声音,来主打主动式情感交互;前不久,小鹏也推出了全新的语音系统小 P,用温柔的小姐姐声音,来主打「更拟人」的感情牌。



语音交互拟人化、主动化,是锦上添花的卖点,还是智能化的必然趋势?


用户和汽车,都需要拟人化的「它」


语音助手变得越来越拟人化,其实是车企和用户的双重选择,也是情感和功能的双重选择。


座舱内为什么需要语音助手?除了与用户交互、沟通这个直接需求外,随着性能指标的提升,语音交互在座舱里的作用也越来越像一个平台。


通过这个平台,用户可以调用座舱里的软件功能,打开地图导航,播放音乐,搜索各种信息;也可以通过这个平台控制车内的硬件,开关车窗,控制空调,调节座椅……当物理按键逐渐在座舱里消失,车内功能也需要一个具象化的调度载体。



在刚刚 OTA 升级语音系统的小鹏 P7 上,我们在副驾驶对着小 P 说「我有点热」,语音助手会将副驾的空调温度降低,风量调大;在主驾驶位说「导航到 xxx,地图比例一公里」,语音助手会自动导航,将地图比例放大到一公里…… 这时候的语音助手,就像一个拟人化的大管家,来调动软件、硬件的功能。



除了作为平台这个功能属性外,拟人化的语音也能给交互带来更亲切的情感体验。


根据微软 MOS 语音测评的衡量标准:一个声音越接近人声,就越容易让人产生舒适感。


在座舱这样一个半封闭空间里,会面临长途驾驶、高速驾驶的无聊、疲惫,也会因为路况拥堵产生负面情绪,舒适的声音不仅能完成功能指令,也能起到安抚情绪、缓解疲劳的作用。目前市场上的语音系统,采用的或是软萌的卡通声音,或是温柔的女性声音,也处于这方面的考虑。


小鹏的小 P 语音系统在每次指令结束后,最为反馈,会卖萌似的回复「好哒」「好滴」「欧克」,也是为了避免机械式的单一回复,让座舱里的对话没那么无聊。



提到语音助手,让人想到了电影《Her》中,男主被声线迷人、幽默风趣的人工智能萨曼莎抚慰、救赎,进而产生爱情。与语音系统谈恋爱似乎离我们很遥远,不过一个如真人般体贴的语音,令人愉悦,甚至对声音产生依赖,并不是不可想象的事儿。


也许未来,汽车的价值不只体现在品牌、造型、速度与驾驶体验,也来自于座舱内语音助手带来的亲切感。「这是个老熟人的声音」,会成为买车时的一个加分项。


比声音像人更重要的,是性能拟人


既然真人化的声音能让人产生舒适感,为什么不从一开始就把语音拟人化呢?


如果只是追求语音像真人,技术上并不是无法实现。在我们常用的手机导航 App 里,明星们的导航语音就是通过关键词采集后,利用 TTS 语音合成技术来实现,甚至可以达到以假乱真的地步。不过导航 App 的语音只是单方面的输出,并不是双向的交互,不需要识别语音指令,也不需要接收指令后执行任务、给出反馈的步骤。



座舱内的语音交互就复杂的多了。


首先,语音系统需要从用户复杂的话语中,迅速、准确地提炼出指令关键词,正确接受指令;同时,需要语音系统还需要车内的软硬件功能打通,把接受的指令准确无误的传达到其他功能区,实现跨软件、甚至跨域的功能调用;最后,才需要语音用真人化的声音来反馈用户。三者相互配合,才能保证行车过程安全,交互体验顺畅。


对于同样的语音调整座椅指令,在汽车停止时,我们对小 P 说「放倒主驾座椅」,可以自动放倒主驾座椅;而当车辆开始行驶时,系统会拒绝执行,禁止开车时自动调整座椅。这样,可以避免开车时座椅突然放倒带来的危险。



就算排除了安全隐患,如果前两项任务做的不好,只有声音的拟人化,也会在体验上出现「反噬」效果。


宾夕法尼亚大学媒体效果研究实验室曾经做过一个实验,他们把智能语音客服分类,一类标注上机器人客服,一类假装成真人客服。让志愿者在不知情的情况下与客服沟通、咨询,然后主观打分。同样的沟通过程,志愿者给机器人客服打出 80 分,而假装成真人的客服只得到 60 分。


原因很简单,当语音系统伪装成了真人,志愿者潜意识里就会用真人的标准来评价它,如果语音助手不能提供真人化的功能服务,反而会收获「差评」。


所以,为了做好用户对语音系统的「期待值管理」,拟人化语音要搭配「拟人化」的性能一起使用。


不论是宝马 iDrive 8.0,还是小鹏最新的小 P,推出拟人化语音,基于深度神经网络来提升语音逼真感,同时也提搭配了连续对话、多轮对话、自然语音识别、可见即可说,甚至语音与摄像头、触屏等其他交互模式配合的多模态语音模式,让语音在听起来像人的同时,也能名副其实。



语音拟人路上的路障


随着智能化程度提高,语音慢慢从冰冷的机械化变得拟人化,但是要从拟人化变得温暖有感情,还需要迈过几道门槛。


比如,面对生活中常出现的方言、每个用户不同的用词习惯,语音系统既要通过深度学习来掌握语言指令的共性和特征,也需要一个聪明的「大脑」,能根据用户自己的习惯来进一步学习个体行为,满足个性化需求。


在小鹏小 P 系统的体验中,就遇到了在播放视频时,说「取消全屏」,系统直接帮我关闭了中控屏幕的情况。看来语音助手要更懂事儿,还需要更多的磨合。


比如,为了让语音交互更主动、更精确,语音需要联手座舱内的传感器和其他交互方式,用多模态交互的方式来察言观色,提供更周到的交互体验。


在宝马 iDrive 8.0 中,就预告了语音系统与车内摄像头配合,通过捕捉用户的表情来进一步精确指令,让语音系统听得懂用户的弦外之音。



当然,当语音助手「真人化」到一定程度,就像逼真的 AI 换脸技术有可能被用到灰色地带的潜在风险一样,关于人工智能伦理和安全性的探讨也会成为一个不得不考虑的问题。


写在最后


语音助手的拟人化,在给用户提供声音抚慰的同时,更重要的是带来全场景的服务。


声音只是载体,交互才是本质。未来,当语音助手能够无微不至地帮我调节座舱环境、规划行程、安排活动,甚至能读出我未说出口的指令时,也许它也能读懂我在长途的高速行驶时,想来段郭德纲单口相声版的语音助手。


来源:GeekCar极客汽车