盘前机会:豆包实时语音大模型上线即开放!情商智商双高 中文对话断崖式领先,人机难辨!
豆包实时语音大模型于1月20日正式推出,并在豆包 APP 全量开放,将豆包 APP 升级至 7.2.0 版本即可体验。 豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。 根据外部用户真实反馈,该模型整体满意度较 GPT-4o 有明显优势 ,特别是语音语气自然度和情绪饱满度远高于后者。团队认为,该模型的推出具备里程碑式意义,不仅贴合中国用户实际需求,且发布即上线,有能力直接服务亿万用户,而非停留于演示 Demo 层面。 该模型是一个真正意义上的端到端语音系统,主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力和极大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界,且不止停留于 Demo 展示层面,可直接服务广大用户。在外部真实众测中,模型整体满意度较 GPT-4o 有明显优势 ,语音语气自然度和情绪饱满度远高于后者。 1. 突破真人级语音对话能力的限制 迎着技术浪潮,团队希望——构建真正可用的端到端语音系统,服务好亿万用户,同时,重新定义未来人机间的交互方式,并用技术给 AI 带来“灵魂”,实现人机之间的情感链接。 为此,团队在研发中尽最大努力,谋求模型交付体验平衡,在保障安全性的基础上,确保其既具备强大的理解和逻辑能力,又能联网回答时效性问题,同时,拥有前所未有的语音高表现力、控制力和优秀的情绪承接能力。此外,模型还需要在实时交互上具备超低延时和流畅打断特性。 具体实现方面,团队研发出了一套端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。在预训练(Pretrain)阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过 Scaling ,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并在“智商”与“情商”之间寻求平衡。 2. 智商与情商双双在线,赋予 AI 对话“真人感” 得益于上述工作,预训练模型具备了丰富多样输入输出的可能性,涵盖 S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。 拟人化的情感承接 目前,大多数人工智能仅停留在功能性层面,以响应和服从人类命令为主要交互方式。但人类更渴望拥有像电影《钢铁侠》中贾维斯、《Her》中 Samantha 那样的伙伴,它们能够深刻理解人类的情感、需求与想法,能够与人类产生共情,给予温暖且真挚的陪伴。 因此,我们将情感表现力、情感理解、情感承接以及拟人化的语音表达,确立为整个研究过程中最为核心的关键目标,并在不同阶段进行如下工作: 数据收集:精心筛选并整理了大量包含丰富情感的语音数据,涵盖各种场景与情绪状态,为模型训练提供充足且优质素材。 预训练:使用大量各模态交织数据深度训练,并专门设计算法和优化策略,促使模型能精准捕捉和学习语音中的情感特征。 后训练:进一步通过真实与高质量合成的语音对话数据优化模型,使其实现高情商共情式对话。目前,我们已取得阶段性成果。举例来说,当用户表现出不开心时,模型会以安慰语气说出暖心话语,当用户情绪高涨时,模型则以快乐语气作出积极回应,而当用户开玩笑时,模型能够接住用户的内容与情绪,输出恰当表达。 除此之外还具备了以下特征表现:强大的声音控制和丰富的情感演绎能力、智商与表现力之间的平衡、丝滑的交互体验和超低延迟。 3.评测结果 评测中,团队选取数十名外部测试者,面向 270 个话题组,共收集超过 800 通中文数据。 这些测试者来自 10 个城市,其中 9 名男性,女性 18 名,年龄分布为 21-33 岁。11.11% 的测试者从未体验过豆包 APP,70.37% 为轻度用户,每周使用 1-2 天,其余粘度较高。 团队围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度进行考评。整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。 此外,在模型优点评测中,豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是“一听就是 AI 与否”评测中,超过 30% 的反馈表示 GPT-4o “过于 AI ”,而豆包实时语音大模型相应比例仅为 2% 以内。 由上可见,豆包实时语音大模型在智商与情商表现符合预期。尤其情商层面,模型在情感理解、情感承接以及情感表达等方面也取得显著进展,能较为准确地捕捉、回应人类情感信息。
ID | 股票名称 | 代码 | 辨识度 | 热度 | 涨幅 | 备注 |
---|---|---|---|---|---|---|
1 | 引力传媒 | 603598 |
5天4板
|
861 | 10.03% | |
2 | 环球印务 | 002799 |
3天2板
|
480 | 10.00% | |
3 | 润欣科技 | 300493 | 336 | 4.78% | ||
4 | 立昂技术 | 300603 | 284 | 7.20% | ||
5 | 省广集团 | 002400 | 278 | 4.89% | ||
6 | 实丰文化 | 002862 | 179 | 3.95% | ||
7 | 蜂助手 | 301382 | 176 | 7.81% | ||
8 | 润泽科技 | 300442 | 174 | 2.69% | ||
9 | 华扬联众 | 603825 | 137 | 6.83% | ||
10 | 南凌科技 | 300921 | 125 | 5.24% |
ID | 评论人 | 时间 | 评论 |
---|---|---|---|
1 | rO_0 | 01-20 17:11 | 出货! |
2 | 陈小群的哥哥 | 01-20 17:12 | 啧啧啧去年的一大堆模型,今年一个都不见踪影,都是模仿国外的有啥好吹的 |
3 | 020King | 01-20 17:12 | 省广集团: 豆包+教育+tiktop+小红书+业绩预增 |
4 | 11月小强 | 01-20 17:26 | 天天开新服,散户天天去割肉杀跌再出去追涨,99.99%的散户钱就是这样没得,0.1%的天选之子快速完成了几十倍收益 |
5 | 呐一欧 | 01-20 17:13 | 今天早上的消息,个股没动。 |
6 | 散雾 | 01-20 17:14 | 一天就自嗨,真欺负我们接触不到真正的ChatGPT是吧 |
7 | 星期三下班 | 01-20 17:14 | 圣阳 |
8 | 牛牛牛66666 | 01-20 17:53 | 大模型发展已到瓶颈了,后面主要是应用到实体才是真。 |
9 | 魔术师555 | 01-20 17:13 | 利欧股份 |
10 | 盐城路卡修 | 01-20 17:24 | 利好AI陪伴玩具啊 |
11 | 一颗明珠照破山河2123477 | 01-20 17:45 | 没有一点创新创造思维,国产的只能吃p。什么360.科大,昆仑。不搞创新,只搞噱头。 |
12 | user521400 | 01-20 17:54 | 豆包国内马上要赢者通吃了。文心通义已掉队,也就kimi还行 |
13 | 上当路来了 | 01-20 17:20 | 又来忽悠 |
14 | A~POS机~信用卡~熊经理 | 01-20 17:23 | 蓝色光标 |
15 | 上岸之路 | 01-20 17:24 | 6 |
16 | 谢。 | 01-20 17:29 | 冲 |
17 | 妖九888 | 01-20 17:29 | AI玩具 |
18 | 褔星髙照,邱福合 | 01-20 17:41 | 利欧股份 |
19 | 风来了风来了 | 01-20 17:41 | 消息早就出来了。早就炒了一遍了 |
20 | 狼行天下5870325 | 01-20 17:45 | 自主可控,大模型大超越 |