佐思汽研发布《2024年中国汽车多模态交互发展研究报告》。报告主要梳理了主流座舱交互方式、2024年上市的重点车型交互方式应用、车企/供应商座舱交互方案,并总结座舱多模交互融合发展趋势。
一

语音识别主导座舱交互,融合多种模态打造交互新体验
在当前座舱交互应用中,语音交互是智能座舱搭载量及使用频率最高的应用。根据佐思汽研最新统计,2024年1-8月,车载语音系统的装配量已攀升至约1100万辆,装配率高达83%,同比增幅达到10.9%。百度Apollo智能座舱业务总经理李涛指出“人们对座舱的使用频次从最早每天3-5次的个位数到今天不仅飙到两位数,在一些语音交互技术领先的车型上甚至已经达到了接近三位数”。
语音识别功能的高频应用不仅极大地优化了用户的交互体验,还促进了与触控、面部识别等其他交互模态的融合发展趋势。例如,蔚来Banyan 榕 2.4.0系统推出的全舱记忆功能,基于面部识别功能,NOMI主动向已录入信息的驾乘人员问好(如“豆豆早”);极氪7X将语音识别与眼神融合,实现主驾凝视可见即可说、主驾偏头语音车控功能。
语音识别功能主导下的多模态融合(部分)
来源:佐思汽研《2024年中国汽车多模态交互发展研究报告》
二

比亚迪推出手掌静脉识别,星纪元亮相舱内健康监测
相较于已经较为成熟的语音、面部识别等交互方式,指纹、静脉、心率等生物识别技术尽管仍处于探索与发展的初期阶段,却也开始逐渐量产应用。例如,2024年比亚迪推出手掌静脉识别功能,可实现车辆的便捷解锁;捷尼赛思、奔驰分别推出的2025款捷尼赛思GV70、2025款奔驰纯电EQE等车型也引入了指纹识别系统,让用户能够仅凭指纹完成身份认证、车辆开启及支付等一系列操作;此外,星途星纪元在新车型ET中继续搭载了由虹软公司提供的视觉感知技术,实现舱内智慧健康监测功能,为用户输出包括心率、血压、血氧饱和度、呼吸频率及心率变异率五大身体特征指标的健康报告。
生物识别技术的引入不仅提升了驾驶的便利性,更显著增强了汽车的安全防护性能,有效防止了疲劳驾驶和盗车等安全隐患。未来,这些生物识别技术将更广泛地融合于汽车的智能化、网联化发展,为驾驶者提供更加安全、个性化的出行体验。
案例一:捷尼赛思2025款 GV70搭载的指纹识别系统,让用户可以通过指纹认证快速应用个性化设置(如座椅、位置等),同时也支持车辆启动的启动/行驶。此外,还有便捷使用、指纹支付、代客模式等个性化联动功能。

图源:捷尼赛思
案例二:比亚迪推出的手掌静脉识别系统,是通过摄像头读取手掌的静脉数据,可在8-20cm的距离间,水平360度,垂直15度进行识别,利用专业图像采集模块获取静脉纹路的图像,经过算法提取特征并存储,最终实现身份验证和识别。未来或将率先搭载于高端品牌仰望车型系列。
图源:比亚迪
案例三:星途星纪元推出的ET车型搭载了DHS智慧健康监测功能。基于视觉多模态高级算法,可实时根据人体表面情况分析出身体健康状态,测量心率、血压、血氧饱和度、呼吸频率及心率变异率五大身体特征指标,并输出健康报告。
图源:星途星纪元
三

AI大模型引领座舱交互革新,感知智能进阶认知智能
中国工程学会在其联合发布的白皮书中,对智能座舱进行了明确的定义与分级。该分级体系依据智能座舱所实现的能力,从人机交互能力、场景拓展能力以及网联服务能力三大维度进行综合考量,将其细分为L0-L4共五个层级。
随着AI大模型在智能座舱领域的广泛应用,人机交互能力已跨越L1感知智能的界限,迈入L2认知智能的新阶段。
具体而言,在感知智能阶段,智能座舱主要依赖于座舱内的传感器系统,诸如摄像头、麦克风及触摸屏等,来捕捉并识别驾乘人员的行为、语音及手势信息,进而将这些信息转化为机器可识别的数据。然而,受限于既定的规则与算法框架,此阶段的座舱交互系统尚缺乏自主决策与自我优化的能力,主要体现为对输入信息的被动响应。
进入认知智能阶段后,智能座舱凭借大模型技术的强大多模态处理能力,能够综合解析语音、视觉、触觉等多种数据类型。这一特性使智能座舱展现出高度的智能化与人性化,能够主动思考、主动服务,并敏锐感知驾乘人员的实际需求,为用户提供千人千面的人机交互服务。
智能座舱等级划分
资料来源:《汽车智能座舱分级与综合评价白皮书》;佐思汽研整理
案例一:商汤绝影于“2024绝影实力AI DAY”推出智能座舱AI大模型产品——A New Member For U。可视为车端“贾维斯”,能够察言观色,主动思考、服务、规划。例如,在路途中主动为后排睡着的孩子调高空调温度、降低音乐声量,将底盘和驾驶模式调整为舒适模式,营造更加舒适的睡眠环境。此外,还可主动探测乘员身体状态,为生病的乘员和驾驶员寻找就近的医院,规划道路。

图源:商汤绝影
案例二:蔚来「NOMI Agents」多智能体框架通过AI大模型重构了NOMI的认知和复杂任务处理能力,使其可以学会使用工具,比如调用搜索、导航和预约服务。同时,根据任务的复杂性和时间跨度,NOMI能够进行复杂的规划和编排。例如,NOMI六大核心多智能体功能中,“NOMI DJ”基于用户需求,为用户推荐符合情境的歌单,主动营造氛围;“NOMI探索”基于空间方位进行理解,匹配地图数据和世界知识,回答孩子的提问,例如“边上的塔是什么塔?”。
资料来源:蔚来;佐思汽研整理