多模态交互研究：AI大模型深入座舱，助力感知智能进阶认知智能

佐思汽研发布《2024年中国汽车多模态交互发展研究报告》。报告主要梳理了主流座舱交互方式、2024年上市的重点车型交互方式应用、车企/供应商座舱交互方案，并总结座舱多模交互融合发展趋势。

一

语音识别主导座舱交互，融合多种模态打造交互新体验

在当前座舱交互应用中，语音交互是智能座舱搭载量及使用频率最高的应用。根据佐思汽研最新统计，2024年1-8月，车载语音系统的装配量已攀升至约1100万辆，装配率高达83%，同比增幅达到10.9%。百度Apollo智能座舱业务总经理李涛指出“人们对座舱的使用频次从最早每天3-5次的个位数到今天不仅飙到两位数，在一些语音交互技术领先的车型上甚至已经达到了接近三位数”。

语音识别功能的高频应用不仅极大地优化了用户的交互体验，还促进了与触控、面部识别等其他交互模态的融合发展趋势。例如，蔚来Banyan 榕 2.4.0系统推出的全舱记忆功能，基于面部识别功能，NOMI主动向已录入信息的驾乘人员问好（如“豆豆早”）；极氪7X将语音识别与眼神融合，实现主驾凝视可见即可说、主驾偏头语音车控功能。

语音识别功能主导下的多模态融合（部分）

来源：佐思汽研《2024年中国汽车多模态交互发展研究报告》

二

比亚迪推出手掌静脉识别，星纪元亮相舱内健康监测

相较于已经较为成熟的语音、面部识别等交互方式，指纹、静脉、心率等生物识别技术尽管仍处于探索与发展的初期阶段，却也开始逐渐量产应用。例如，2024年比亚迪推出手掌静脉识别功能，可实现车辆的便捷解锁；捷尼赛思、奔驰分别推出的2025款捷尼赛思GV70、2025款奔驰纯电EQE等车型也引入了指纹识别系统，让用户能够仅凭指纹完成身份认证、车辆开启及支付等一系列操作；此外，星途星纪元在新车型ET中继续搭载了由虹软公司提供的视觉感知技术，实现舱内智慧健康监测功能，为用户输出包括心率、血压、血氧饱和度、呼吸频率及心率变异率五大身体特征指标的健康报告。

生物识别技术的引入不仅提升了驾驶的便利性，更显著增强了汽车的安全防护性能，有效防止了疲劳驾驶和盗车等安全隐患。未来，这些生物识别技术将更广泛地融合于汽车的智能化、网联化发展，为驾驶者提供更加安全、个性化的出行体验。

案例一：捷尼赛思2025款 GV70搭载的指纹识别系统，让用户可以通过指纹认证快速应用个性化设置（如座椅、位置等），同时也支持车辆启动的启动/行驶。此外，还有便捷使用、指纹支付、代客模式等个性化联动功能。

图源：捷尼赛思

案例二：比亚迪推出的手掌静脉识别系统，是通过摄像头读取手掌的静脉数据，可在8-20cm的距离间，水平360度，垂直15度进行识别，利用专业图像采集模块获取静脉纹路的图像，经过算法提取特征并存储，最终实现身份验证和识别。未来或将率先搭载于高端品牌仰望车型系列。

图源：比亚迪

案例三：星途星纪元推出的ET车型搭载了DHS智慧健康监测功能。基于视觉多模态高级算法，可实时根据人体表面情况分析出身体健康状态，测量心率、血压、血氧饱和度、呼吸频率及心率变异率五大身体特征指标，并输出健康报告。

图源：星途星纪元

三

AI大模型引领座舱交互革新，感知智能进阶认知智能

中国工程学会在其联合发布的白皮书中，对智能座舱进行了明确的定义与分级。该分级体系依据智能座舱所实现的能力，从人机交互能力、场景拓展能力以及网联服务能力三大维度进行综合考量，将其细分为L0-L4共五个层级。

随着AI大模型在智能座舱领域的广泛应用，人机交互能力已跨越L1感知智能的界限，迈入L2认知智能的新阶段。

具体而言，在感知智能阶段，智能座舱主要依赖于座舱内的传感器系统，诸如摄像头、麦克风及触摸屏等，来捕捉并识别驾乘人员的行为、语音及手势信息，进而将这些信息转化为机器可识别的数据。然而，受限于既定的规则与算法框架，此阶段的座舱交互系统尚缺乏自主决策与自我优化的能力，主要体现为对输入信息的被动响应。

进入认知智能阶段后，智能座舱凭借大模型技术的强大多模态处理能力，能够综合解析语音、视觉、触觉等多种数据类型。这一特性使智能座舱展现出高度的智能化与人性化，能够主动思考、主动服务，并敏锐感知驾乘人员的实际需求，为用户提供千人千面的人机交互服务。

智能座舱等级划分

资料来源：《汽车智能座舱分级与综合评价白皮书》；佐思汽研整理

案例一：商汤绝影于“2024绝影实力AI DAY”推出智能座舱AI大模型产品——A New Member For U。可视为车端“贾维斯”，能够察言观色，主动思考、服务、规划。例如，在路途中主动为后排睡着的孩子调高空调温度、降低音乐声量，将底盘和驾驶模式调整为舒适模式，营造更加舒适的睡眠环境。此外，还可主动探测乘员身体状态，为生病的乘员和驾驶员寻找就近的医院，规划道路。

图源：商汤绝影

案例二：蔚来「NOMI Agents」多智能体框架通过AI大模型重构了NOMI的认知和复杂任务处理能力，使其可以学会使用工具，比如调用搜索、导航和预约服务。同时，根据任务的复杂性和时间跨度，NOMI能够进行复杂的规划和编排。例如，NOMI六大核心多智能体功能中，“NOMI DJ”基于用户需求，为用户推荐符合情境的歌单，主动营造氛围；“NOMI探索”基于空间方位进行理解，匹配地图数据和世界知识，回答孩子的提问，例如“边上的塔是什么塔？”。

资料来源：蔚来；佐思汽研整理