扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.3.4版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 华泰 | 计算机:多模态大模型和应用奇点将至

股市情报:上述文章报告出品方/作者:华泰证券,黄乐平/张皓怡/余熠等;仅供参考,投资者应独立决策并承担投资风险。

华泰 | 计算机:多模态大模型和应用奇点将至

时间:2025-07-22 16:29
上述文章报告出品方/作者:华泰证券,黄乐平/张皓怡/余熠等;仅供参考,投资者应独立决策并承担投资风险。

我们认为,多模态大模型和应用发展的奇点将至。判断依据包括:1)技术进步方面:原生多模态模型架构得到业界认可,OpenAI和Google的原生多模态模型已经在性能、延时、部署上展现出了优势。2)商业化进展方面:全球维度看,除了最头部的OpenAI和Anthropic依靠模型“智能”实现商业化,相当一部分AI应用公司的商业化产品依赖多模态能力。国内维度看,国内公司在视频生成赛道已经实现了较成熟的全球化和商业化之路。与市场不同的观点在于,1)更早认识到原生多模态架构将成为主流;2)AI商业化不能仅聚焦在二级公司,更要关注全球维度一级公司的进展。



核心观点

多模态是大语言模型(LLM)发展的必然趋势

借助Scaling Law和强化学习,LLM已经在很多领域获得了超过普通人类的智能,但是其处理的核心信息仅是文本。为了拓展更广泛的使用场景,研究者将其他模态的能力“加入”到LLM中,多模态大型语言模型(MLLM)问世。架构上看,MLLM可以分为模块化架构和原生架构,前者通常分别训练不同模态然后实现模块“拼接”,而后者则直接在全部模态数据上从头开始同步训练的模型。效果上看,原生MLLM在性能、延时、部署上均有优势,但是对算力和Know-How的需求较高,通常只有头部模型大厂在做,OpenAI和Google领先。无论架构如何,MLLM已经成为行业共识的必然趋势。


从大模型到多模态:商业化的必由之路

从全球AI公司的商业化进展看,无论是基于LLM的文本类产品,还是基于MLLM的多模态产品,呈现出以下大趋势:1)海外商业化进展快于国内。2)全球维度,一级公司进展快于二级。3)整体多模态为主的产品商业化快于文本产品。4)Chatbot为代表的文本类产品国内外商业化分歧明显,据非凡产研数据,截至25年5月,在海外能够实现10亿美金以上的ARR(如OpenAI、Anthropic),而国内Chatbot还未实现很好的商业化。国内AI产品年化收入超过1亿美金的有3家公司,分别为美图、快手和睿琪软件,其AI产品均为多模态产品。


国内的视频生成是全球化、商业化最成熟的AI应用赛道

主流的多模态产品,大致分为图像生成、视频生成和其他多模态交互三类。其中,国内厂商在视频生成赛道的全球化和商业化最成熟。1)模型/产品成熟:据Artificial Analysis数据,在文生视频、图生视频排行榜单上,字节Seedance 1.0均为Top 1,快手可灵(Kling)、MiniMax Hailuo 02名列前茅。2)商业化成熟:以快手可灵为典型的代表,上线9个月累计收入超1亿人民币,25Q1(上线10个月左右)ARR突破1亿美金大关。可灵的成功,或意味着国内视频生成领域商业化单点突破到多点突破的开始。


投资建议

我们认为,多模态有望在算力和应用两方面带来相关投资机会。1)算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。2)应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领域均有AI化需求。


风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。



正文

和市场不同的观点

1市场对多模态模型基础架构上认知差,原生多模态还没成为主流叙事

大多数现有的MLLM采用模块化架构,即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM将视觉感知和多模态理解直接集成到单个LLM中,由于其端到端性和统一性,原生MLLM可以更容易地使用现有的LLM推理库进行部署,并且比模块化MLLM显示出更高的效率。


在原生MLLM领域,全球较为领先的玩家主要是OpenAI和Google,后续Meta在Llama 4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于OpenAI和Google的原生MLLM旗舰模型为闭源,且Llama 4虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生MLLM进行技术性分析。从效果上看,Gemini和4o的原生多模态,展现出指令跟随好、时延短、一致性强的优势。


原生MLLM通常需要较高的训练成本和训练Know-How,一般只有头部的模型厂商才会采取这种架构。反观国内,已经实现原生多模态且参数规模较大的模型还未问世,虽然字节豆包等Chatbot也能实现各种模态的输入和输出,但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态,但是实际底层Know-How差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距,以及可能带来的新训练算力需求。


2)市场更关注国内二级公司的商业化进度,而忽略了全球维度内一级公司的商业化进展

据我们估算,截至最新年度或季度,国内典型C端AI应用上市公司AI收入占总收入比重约12.5%,海外典型C端公司为13.1%;国内典型B端AI应用上市公司AI收入占总收入比重约9.0%,海外典型B端公司为9.4%。因此市场广泛判断AI应用,尤其是2B进展不及预期(AI收入体量一般在年化1亿美金)。


然而,纵观全球包含一级公司在内的AI应用公司,OpenAI、Anthropic、Scale AI年化收入均在10亿美金以上,OpenAI甚至已经达到100亿美金。此外,像AI原生应用Midjourney(图像生成)年化收入已经达到6亿美金,Cursor(AI Coding)达到5亿美金,6sense(AI营销)达到2亿美金,manus短短几个月也实现了近5000万美金年化收入,AI应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的AI应用多数出海、2B市场进展较慢,导致国内市场产生了认知偏差,忽略了全球维度的AI应用商业化进步。


多模态是大语言模型发展的必然趋势

大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型(LLM)和大型视觉模型(LVM)融合的结果。借助Scaling Law,LLM已经几乎学习了公开可得的互联网级别数据。24年9月OpenAI提出o系列模型后,全球模型在强化学习技术的加持下,进一步获得了思维涌现和强推理能力。但是LLM处理的核心信息是文本,模态较为单一。反观LVM,对于视觉等多模态有优秀的感知能力,但通常在推理方面存在不足。结合LLM和LVM的优势,多模态大型语言模型(MLLM)得以问世。形式上,MLLM指的是基于LLM且具备接收、推理和输出多模态信息能力的模型,能够使用多模态指令微调来增加其遵循人类指令的能力,从而实现基于图片编写网站、理解图像、光学字符识别(OCR)等能力。



模块化vs原生架构:原生MLLM具有更好的统一性和效率优势。大多数现有的MLLM采用模块化架构,即不同的模态部分为拼接的“pipeline”形式,其中视觉编码和语言解码分开处理,通常先用预训练视觉编码器(如ViT/CLIP)提取图像特征,再借助少量插入层(如查询Transformer、交叉注意力)将视觉特征送入LLM。另一种结构是单体MLLM,也即“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM将视觉感知和多模态理解直接集成到单个LLM中,由于其端到端性和统一性,原生MLLM可以更容易地使用现有的LLM推理库进行部署,并且比模块化MLLM显示出更高的效率。然而,原生MLLM通常需要较高的训练成本和训练Know-How,一般只有头部的模型厂商才会采取这种架构。




非原生MLLM:通过Pipeline形式连接多模态与LLM

LLMMLLM的“大脑”,编码器、连接器、生成器是MLLM理解多模态的“五官”。从技术角度讲,不同MLLM有着相似的结构范式,只是内部的模块细节有差别。典型MLLM架构包括编码器、连接器和LLM。其中,1)编码器:接收图像、音频或视频,并输出相应的模态特征。2)连接器:接收编码器提取的特征并处理,帮助LLM更好的理解这些特征。连接器还可以分为基于投影的连接器、基于查询的连接器和基于融合的连接器。前两种类型采用token级融合,将特征处理成token,与文本token一起处理。最后一种类型在LLM内部实现特征级融合。3)LLM:用来生成文本信息。4)其他模块:如果想要生成文本以外的多模态信息,则还需要在LLM之后附加生成器,来生成除文本以外的相应模态。



为了提升MLLM最终效果,可以针对MLLM架构的不同部分进行相应优化。


编码器优化的核心是提高分辨率。1)直接缩放法:用更高分辨率的预训练编码器来处理输入信息,例如处理更高分辨率的输入图片。或者采取两个编码器分别处理高分辨率和低分辨率图像,再通过交叉注意力将高分辨率特征注入到低分辦率分支中,例如智谱CogAgent。2)图像分块法:将高分辨率图像切割成块,并重复使用低分辨率编码器处理“块”。例如将高分辨率图像分割成较小的块后,同步发送高清的“分割图像”与低分辨率的“全局图像”到图像编码器,让编码器分别捕获局部和全局特征。



LLM优化的核心在于提升推理能力。随着Scaling Law、强化学习、高质量数据集、单一算力集群的发展,LLM的推理能力不断提升。尤其是DeepSeek、阿里Qwen、Meta Llama模型的开源,逐步拉近开源模型和闭源模型的差距。2025年5月28日,DeepSeek开源了R1升级版R1-0528,在各项测评上进一步逼近了OpenAI最先进的o3闭源模型(参见研报:《计算机:DS-R1更新,实现15%以上性能提升》2025/5/30)。此外,Qwen、Llama以及小米发布的MIMO模型,均有较小的参数尺寸,适合在端侧进行部署,同样能够带动端侧MLLM的发展。因此,更多强推理的LLM能够被用到MLLM中,使得MLLM的能力自然的随着LLM的发展“水涨船高”。



连接器是非基础模型厂商实现MLLM的便捷手段。25年3月Google和OpenAI先后更新了Gemini 2.0 Flash和GPT-4o的原生图像生成,由于架构具有较好的端到端一致性,模型图像理解、生成、编辑能力大幅提高。但是前文已经分析过,端到端的MLLM训练成本/Know-How要求较高,不是所有厂商都能够实现。因此性能有损但是更便捷的做法包括:1)在预训练的视觉编码器和LLM之间引入可学习的连接器(Connector),将多模态信息投影到LLM能够高效理解的子空间中,从而连接视觉和语言模态。2)借助专家模型将图像翻译成语言,然后发送到LLM进行处理。这两种方法都能实现非端到端的模态链接,从而融合成MLLM。


架构确认好后,完整的MLLM一般需要经过预训练、指令微调和对齐微调三个训练阶段。预训练、指令微调和对齐微调三个阶段都需要不同类型的数据并对应不同的优化目标。预训练旨在对齐不同模态并学习多模态世界知识;指令微调教会模型更好地理解用户的指令并完成要求的任务;对齐微调用于与特定的人类偏好场景对齐。



通过校正的方法缓解MLLM的幻觉,能够进一步提升模型表现。多模态幻觉是指由MLLM生成的响应与图像内容不一致的现象。幻觉可以分为:1)存在幻觉:模型错误地判断物体的存在。2)属性幻觉:错误描述某些物体的属性,例如颜色。3)关系幻觉:物体之间关系的错误描述,例如位置。幻觉的缓解方法,可以根据使用的“时间先后”,分为预校正、过程校正和后校正。



原生MLLM:端到端实现多模态,头部厂商的首选架构

原生MLLM需要更强的Know-How和充足的算力资源来从头训练,通常头部模型厂商会采用此架构。在原生MLLM领域,全球较为领先的玩家主要是OpenAI和Google,后续Meta在Llama 4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于OpenAI和Google的原生MLLM旗舰模型为闭源,且Llama 4虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生MLLM进行技术性分析。从模态实现上看,输入模态基本覆盖了主要的文本、图像、视频、音频,输出模态仍然局限在文本、图像,OpenAI的4o系列还支持原生输出音频。




Gemini4o的原生多模态,展现出指令跟随好、时延短、一致性强的优势。虽然没有模型技术细节,但是可以直接从C端用户角度去评判大模型产品的效果。1)在图像生成上,Gemini 2.0 Flash和4o的原生多模态使得自然语言优化图像、文字渲染、图文交错输出等性能得到很大提高,指令跟随能力强,且渲染的文本不再像之前的模型经常乱码。2)在音频生成上,过去GPT-4要经历语音转文字/推理文字/文字合成语音三个阶段,而GPT-4o用“单个从头训练的网络同时接收文本、音频、图像并实时输出”,保留了语调、情感、环境声等细节,减少信息损失,时延也大大降低。





我们预测,国内原生多模态模型将在25H2逐渐发力,并在明年成为头部厂商的主流路径。虽然当前时点看,国内还没有像GPT-4o、Google Gemini这种原生的旗舰多模态模型,但是国内大厂已经开始尝试原生的架构并且做了相应的工作。例如,25年3月阿里巴巴开源了Qwen2.5-Omni系列,模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。Qwen2.5-Omni采用新的端到端(即原生)Thinker-Talker架构,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。虽然Qwen2.5-Omni参数仅有7B,无法比肩GPT-4o、Google Gemini,但是说明国内大厂也基本走通了端到端的原生多模态架构。因此我们认为,国内原生多模态模型将在25H2逐渐发力,并在明年成为头部厂商的主流路径。率先突破的厂商,或还是头部、算力充足的互联网大厂。


从大模型到多模态:商业化的必由之路

AI应用公司会基于LLM/MLLM的能力,搭建相应的原生AI产品,实现商业化。从全球AI公司的商业化进展看,无论是基于LLM的文本类产品,还是基于MLLM的多模态产品,呈现出以下大趋势:1)海外商业化进展快于国内。2)全球维度,一级公司进展快于二级。3)整体多模态为主的产品商业化快于文本产品。4)Chatbot为代表的文本类产品国内外商业化分歧明显,在海外能够实现10亿美金以上的ARR(如OpenAI、Anthropic),而国内Chatbot还未实现很好的商业化。



海外商业化更超前,国内出海进展迅速

全球维度,年化收入超过1亿美金的产品绝大多数为海外 多模态 初创公司,且头部效应显著。据非凡产研统计数据,截至25年5月,全球主要的AI产品中,年化收入超过1亿美金的有26个,其中3个产品来自国内公司(美图、快手、睿琪软件),占比11.5%;多模态产品有12个,占比46.2%。收入区间上看,年化收入超过50亿美金的仅有OpenAI(未考虑OpenAI 2B的API收入),10-50亿美金的仅有Anthropic(未考虑Anthropic 2B的API收入),这两家均为全球大模型的龙头厂商,其模型产品是全球大模型中的领先者。2-10亿美金的公司有Midjourney(图像生成)、Anysphere(AI Coding)、Dialpad(客户支持)、6sense(营销)。Top 100 AI产品的年化收入大多在1亿美金以下。我们认为,全球AI商业化上,头部效应显著,海外商业化快于国内,多模态产品是其中重要的产品形态,AIGC、Coding、客服等场景均有较成功的商业化典型。



国内维度,年化收入靠前的产品主要为多模态 上市公司,且出海比例高。据非凡产研统计数据,国内年化收入超过1000万美金的AI产品有31个,其中拥有最多上榜产品的公司为美图(5个产品)。相比全球头部的AI产品收入,国内收入差一个数量级以上(美图秀秀/快手1亿美金年化收入 vs OpenAI 56亿美金年化收入)。国内AI产品年化收入超过1亿美金的有3家公司,分别为美图、快手和睿琪软件,其AI产品均为多模态产品。2000万-1亿美金的有12家,其中阿里巴巴在列。Top 100国内AI产品中大多数公司年化收入在1000万美金以下。产品形态和出海角度看,31个产品中,有21/24个产品为多模态/出海,多模态/出海占比分别为67.7%/77.4%。





另外我们还发现,高流量/MAU的产品并不意味着商业化能力更强,流量/MAU/商业化“三高”的公司,几乎都是海外头部公司,多模态可能是国内商业化更好的出路。具体地,Web端看,同时出现在Top 26收入排行榜和Top 30 Web访问量排行榜的,有ChatGPT(聊天助手)、Perplexity(AI搜索)、Claude(聊天助手)、Hugging Face(Infra)、Eleven Labs(AI语音)。App端看,有ChatGPT(聊天助手)、美图秀秀(AI图像)。其中仅有美图是国内公司。即使像DeepSeek、豆包这种流量Top的国内应用,收入层面也相对较少。我们认为,流量/MAU/商业化同时有较好实现的公司基本都是海外头部公司,背后可能是付费习惯/模型智能的差距。产品模态上,文本模态国内外差异化显著,以典型的聊天助手类应用为例,国内几乎很难实现商业化,而国外却能做到几乎最Top的商业化(OpenAI、Anthropic)。因此多模态或是国内商业化更好的出路,美图、快手、睿琪软件进展较快。



二级公司:国内外2C/2B公司差距并不显著

聚焦国内外AI应用的上市公司,从AI化进度和收入占比角度,差距并不显著。截至最新年度或季度,1)C端,我们测算国内上市公司中,AI收入贡献度平均为12.5%,而海外典型的2C公司多邻国,AI收入贡献为13.1%,差距不大。2)B端,我们测算国内上市公司中,AI收入贡献度平均为9.0%,海外上市公司平均在9.4%,较为接近。我们认为,从2B/2C上市公司角度看,国内外差距并不显著。只是在前文讨论的一级创业公司上,国内外由于投融资生态/用户习惯等原因,差距较为明显。


多模态产品持续迭代,可用性和商业化均向好

图像生成:从高质量到易用性,各玩家寻求差异化卖点

图像生成产品经历了从追求更高逼真度提升易用性与整合度的路线Midjourney不断迭代模型版本提高图像质量和细节理解,同时通过Discord社区运营积累大批创意用户;OpenAI则将DALL·E直接嵌入ChatGPT对话,让普通用户在聊天中就可生成图像。Adobe Firefly将AI融入现有创意工具,用户几乎无感地在Photoshop等产品中使用生成填充等AI功能完成设计。这一系列演化体现出图像生成正从小众试验转向大众应用:模型能力提升的同时,使用门槛大幅降低,AI生图正在成为普通内容创作的一部分。


随着玩家增多,各家产品都在寻求差异化卖点。新玩家专注解决长期痛点,例如Ideogram针对AI绘图文字难题提供了出色方案。Leonardo.ai深耕游戏美术领域,提供从概念图到贴图甚至简单动画的一条龙服务。Krea主打多模态实时编辑,让创作过程更直观互动。这些差异化特性帮助产品在细分市场站稳脚跟。此外,各类型生成工具之间界限日渐模糊,跨模态融合成为趋势。例如图像平台开始支持视频生成(25年6月Midjourney发布视频生成产品V1);视频平台增加多语言声音输出(Synthesia、HeyGen等添加AI配音翻译,Google Veo 3支持原生音频);大平台通过一个入口融合多模型能力,例如微软Copilot同时接入OpenAI文本、Suno音乐等模型,Adobe把Firefly植入全家桶应用。



视频生成:国内厂商多模态发力的主要赛道

Sora指明了DiT的视频生成技术路线,但是发布时间推迟,给了其他厂商追赶机会。Sora发布之前,主要的视频生成产品是海外Runway Gen系列和Pika系列,以及国内爱诗科技Pixverse系列。Sora发布后,尤其是Diffusion Transformer(DiT)技术路线的确认,各初创公司和大厂在视频生成赛道加速布局,国内厂商进展迅速。初创公司方面,大模型公司MiniMax和智谱在AI助手中嵌入了视频生成功能,且发布即可用,无需排队等待。大厂方面,字节即梦和快手可灵先后上线视频生成产品。尤其是快手可灵的商业化进展迅速,成为国内视频生成领域的标杆应用。





视频生成各平台竞相突破时长、清晰度和一致性瓶颈,各有特色。从早期仅能生成3–4秒片段的实验模型,到如今已有产品支持10秒以上甚至分钟级视频(如即梦AI可达12秒,快手可灵通过续接实现数分钟)。生成视频的分辨率和帧率也大幅提升,智谱清影已开始探索4K视频生成。与此同时,各模型愈发注重角色和风格的一致性:海螺AI、Vidu、PixVerse等先后推出“主体一致”或“角色复用”功能,保证同一人物在不同镜头和片段中形象不走样;Pika Labs等则在真实性之外另辟蹊径,提供丰富的创意特效来拓展视频表现力。整体而言,国内视频生成模型技术差异逐步缩小,多个瓶颈得到突破,功能亮点各有侧重。


商业模式上,大多数产品采用免费 订阅的Freemium策略。前文的AI产品商业化分析中,我们已经指出了国内多模态的商业化进展迅速,尤其是视频生成产品性能全球领先,其中快手可灵(Kling)的商业化已经取得了重大突破。从定价策略上看,大部分视频生成产品基础功能对公众开放试用,吸引流量和创作生态;高阶功能和算力通过会员收费或按量计费提供,持续支持研发投入。大多数平台也都开始布局企业服务和API接口,将生成视频能力嵌入商业场景(广告制作、影视预览、游戏内容生成等),并获得B端收入。


我们认为,后续更长、更高质、更可控是AI视频生成的发展方向。未来视频生成产品或将从几秒短剪辑走向成分钟剧情片段,从抽象试验走向拟真内容,从生成内容不可控到可控、可编辑。此外,视频生成模型还需要解决长序列视频的稳定性和因果逻辑不足的问题,以及进一步降低算力成本以实现实时生成。我们认为,随着模型算法迭代和数据规模增长,视频生成的应用场景将更加广阔,包括数字人直播、游戏过场动画、教育培训影片等都将被重新定义,内容生产的门槛和成本将大幅降低。



近期典型视频生成模型更新#1:字节Seedance 1.0

6月11日火山引擎Force原动力大会上,字节发布了全新的视频生成模型Seedance 1.0,实现一个模型同时支持文字和图片生成视频,原生具备多镜头叙事能力。在语义理解和指令遵循方面取得突破,可生成运动流畅、细节丰富、具备影视级美感的1080p高清视频。在第三方评测榜单Artificial Analysis上,Seedance 1.0视频生成、图生视频两个任务的表现均位居首位(参见图表24-25)。Seedance 1.0可以通过即梦、豆包及火山引擎API接口开放使用。



Seedance 1.0在数据构建上进行了大幅改进。数据很大程度上决定了模型的训练成果。Seedance 1.0在数据构建上,聚焦于视频多源采集与描述说明(Caption)获取,通过多阶段的筛选和均衡来增强模型对视频中的主体、动作、场景、风格以及Prompt的理解力。不仅构建了多种类型、风格、来源的大规模视频数据集,还专门训练了“精准描述模型”来生成视频描述(Caption),作为训练数据。流程包括三个主要阶段:1)多样性的数据获取:初始采集和合规性预筛选各种数据;2)多阶段数据管理:将原始数据提炼为视频剪辑;3)离线数据打包:视频和字幕转成token以进行模型训练。



Seedance 1.0在模型训练架构上进行优化,可同时支持文生视频(T2V)和图生视频(I2V)等任务。1)时空层解耦:解耦空间层和时间层的扩散Transformer模型,空间层在单帧内部执行注意力聚合,而时间层则专注于跨帧的注意力计算,整体上提升了计算效率。2)多镜头多模态旋转位置编码:除了按业内常规的策略对视觉token使用3D旋转位置编码,团队还为文本token添加了额外的一维位置编码,并在拼接后的序列中,引入了3D多模态旋转位置编码(MM-RoPE),增强多镜头生成能力和多模态理解力得以加强。3)任务框架统一:使用二元掩码来指示哪些帧应遵循生成中的控制条件,实现了统一框架下,只需部署一个模型就可实现文本到图像、文本生视频和图像生视频等多种任务。



后训练阶段的强化学习进一步增强视频生成效果。自从24年9月OpenAI在o系列模型中开始使用强化学习RL,这一方法几乎成了全球模型的统一迭代路线。Seedance 1.0同样在后训练阶段使用高质量的精调数据集、多维度的奖励模型和反馈学习算法,来进一步提升运动生动性、结构稳定性、画面质量等。团队采用了为视频生成定制的RLHF(基于人类反馈的强化学习)算法,最大化多个奖励模型(RM)奖励值,大幅提升Seedance 1.0在文生视频、图片生成视频两个任务中的综合效果。



算法加速 推理加速,实现Seedance 1.040秒生成51080p视频。推理速度是用户体验重要的一环。为了提高推理速度,Seedance 1.0采用:1)扩散模型算法加速:通过引入分段轨迹一致性、分数匹配与人类偏好引导的对抗蒸馏机制,在极低推理步数下实现了生成质量与速度的优化协同。2)底层推理加速:通过融合算子优化、异构量化稀疏策略、自适应混合并行、异步卸载与VAE并行分解等系统级改造,在保证质量的前提下,构建了面向长序列视频生成的高效推理路径。



近期典型视频生成模型更新#2MiniMax Hailuo 02

Hailuo 02实现NCR架构创新,3倍参数量/4倍数据量加持下模型表现更上一层楼。MiniMax自去年8月推出视频生成demo以来,截至25年6月已经帮助创作者生成了超过3.7亿个视频。25年6月在连续5天的模型/产品发布中,MiniMax更新了视频生成模型Hailuo 02,相比前一版模型,参数规模是其3倍,训练数据量是其4倍。模型突破了DiT架构,提出Noise-aware Compute Redistribution(NCR),训练和推理效率提升了2.5倍,使得Hailuo 02可以在不增加创作者使用成本的情况下,在复杂指令遵循和复杂物理表现上更强(对于体操等高度复杂的场景,MiniMax Hailuo 02是目前全球唯一能够一致化实现的模型),同时实现了以相对实惠的价格生成原生的1080p视频。





基于Hailuo 02MiniMax发布了Hailuo Video Agent,将视频生成落地到智能体领域。Hailuo Video Agent是视频创作Agent,通过用户输入,能够实现自动分析、构思并生成具有专业水准、富有观看价值的完整视频内容。单独的视频生成模型,需要用户自己构思创作的全过程,门槛较高。而Hailuo Video Agent能够通过LLM调用工具能力,帮助用户打造视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程,整个流程提供可视化的思维链,用户能够实时查看/编辑Agent创作流程,实现共创。后续更新中,Hailuo Video Agent有望实现完全端到端的视频Agent能力,大大降低创作门槛。我们认为,Agent是未来LLM落地最重要的应用形态之一,MiniMax较早开始在视频生成领域落地Agent,或能够率先占据用户心智,打开商业化空间。



其他多模态交互AI产品

其他多模态产品的快速崛起,扩展了C端用户能够借助AI创作的内容类型矩阵。除了之前讨论的图像、视频外,语音、音乐、3D等各领域产品也找到了各自的切入点。ElevenLabs主攻高品质语音合成和克隆;Suno让普通用户能够生成带人声演唱的完整歌曲。在数字人方面,Synthesia定位企业培训、营销的视频生成,强调高质量、严控形象;HeyGen灵活面向自媒体和轻量商业,支持用户自定义头像、翻译原有视频内容等。多模态产品的演进方向各异,但总体趋势是围绕不同内容形式,优化出特定场景下的AI创作体验,丰富了C端市场的选择。


为满足用户和企业的特定需求,个性化定制能力越来越受到重视。用户场景“千人千面”,导致过于标准化的产品越来越难以适配需求,多模态个性化能力对于做出产品差异化越来越重要。一方面是模型输出个性化,典型如用户用自己照片生成专属数字人(HeyGen、Synthesia等),用自己声音训练专属语音(ElevenLabs),或用自己数据微调模型风格(Stable Diffusion社区大量微调模型)。另一方面是服务层面的定制,如企业希望模型懂自己的品牌语言和素材,Adobe提出让Firefly训练企业专属风格,Synthesia为大客户制作专用Avatar。这种“千人千面”的趋势将AI工具从大众模式带向个人/企业私有化阶段,使得生成内容更符合使用者期望,也促进了数据生态的发展。



思考:国内大模型的瓶颈,以及国内商业化的难点

国内大模型瓶颈:核心依然是算力受限,从而导致技术路线创新缓慢

我们认为,制约国内大模型发展的瓶颈有四个,其中高性能算力是最核心的根源。


1)瓶颈#1高性能算力受限,单集群大小受限

不可否认,国产算力已经有了突飞猛进的进展,25年5月发布的718B参数稀疏MoE(推理激活39B)模型Pangu Ultra完全在910B平台上完成了训练,并实现6K Ascend NPUs上30.0%的模型浮点运算利用率(MFU)和1.46M的每秒token(TPS)。然而,目前仍然有相当一部分的国内模型是在Nvidia的GPU以及CUDA生态上训练的。由于宏观等因素,国内相比海外在Nvidia GPU的先进性以及单集群大小上有较大差距(高性能GPU的代差,以及节点内scale up和节点间scale out的差距),即使国内外采取相同的技术路线,在实际工程实现上依然存在较大算力局限,瓶颈凸显。


2瓶颈#2国内高价值用户数据或较少

我们认为,大模型产品或沿袭了互联网产品路径:先占据用户心智,再放大头部效应。头部效应能够吸引正向的用户反馈,反过来帮助产品迭代。例如,在Google Search里,用户遇到无关结果会先反思并修改关键词,从而持续向Google输送高质量关联性数据;而对于Bing Search,在相同情境下,用户却把责任归咎于Bing“不够好用”,从而转向更为头部的“Google Search”。大模型领域亦然,若一般模型失准,用户直指模型缺陷,而当ChatGPT、Claude出错,用户本能调整prompt,继续贡献正向迭代样本。这样,头部模型汇聚全球场景数据并形成正向循环,而国内模型多依赖本土使用习惯,高价值用户数据相对稀薄,迭代速率受限。Kimi通过投流扩张并无误,但DeepSeek选择先拉升模型智能,更贴近破解这一数据瓶颈的核心路径。


3)瓶颈#3:全球头部模型愈发闭源,国内资源受限大多跟随

海外头部厂商继续在模型架构上递进创新,但创新日益闭源。OpenAI o系列向外界展示了“强化学习”的新迭代范式,却未透露核心工程框架。国内DeepSeek、Kimi等在“强化学习”大方向的指导下,摸索出了高效的强化学习路径,但时间上略落后于海外。此外,学术界虽然持续输出开源论文与权重,但算力、数据、工程体系与OpenAI、Anthropic等模型巨头不在同一数量级,论文里的SOTA成绩在大规模推理场景仍需依赖头部闭源模型落地。国内团队在缺乏对等资源、工程试错成本高的情况下,大多只能沿主流路线做跟随升级,较难对闭源壁垒形成有效反制。


国内商业化难点:模型仍有差距,且用户付费习惯一般

国内商业化难点,我们认为表面在于用户付费情况一般,本质在于模型相比海外仍有差距。1)用户付费情况:从表16的分析中可以看出,国内AI应用收入Top 31产品中,有24个产品为出海,出海占比为77.4%。以收入排名第三的睿琪软件(Glority LLC)和旗下App为例,海外应用为PictureThis,国内为形色。形色在App内部未找到明显的收费入口,而PictureThis在首次打开App时即显示订阅信息(从App精致度和更新频率上,PictureThis优于形色)。另一家AI数字人公司HeyGen 2020年注册主体诗云科技(深圳)有限公司,同时把运营和融资中心放在洛杉矶。23年12月,境外新股东Conviction Partners入局,接替了原本由红杉中国占据的董事席位,并实现资本结构、董事会席位与注册地址三线同步“去中国化”,专注做海外商业化。2)模型差距:在上一节“国内大模型瓶颈”已经阐述,一方面国内模型相比海外头部仍有差距,另一方面国内模型头部的DeepSeek是开源免费的,两因素叠加,进一步降低了国内用户的付费意愿。




国内商业化突破点:多模态应用先行,实现单点到多点扩张

多模态是国内AI应用商业化的突破点,互联网厂商依托自身场景和资源获得先发优势。从表16的分析中可以看出,国内AI应用收入Top 31产品中,有21个产品为多模态,多模态占比分别为67.7%,成为了国内AI应用的主要商业化形态。其中商业化的典型是快手可灵,可灵于2024年6月上线,10个月实现年化收入1亿美金,25年4-5月两个月的月度付费金额均超过1亿人民币,商业化进展迅速。此外,美图的各系列产品也都获得了较好的商业化变现。对于后续国内商业化,我们认为:1)多模态依然是重要的产品形态,相关的应用均有机会实现比纯文本形态更好地商业化落地。2)天然有着多模态应用场景的互联网公司具有较大优势,如美图的图像处理、快手的短视频等场景。3)可灵单点获得成功,后续更多类似的国内多模态应用有望带来持续的商业化多点扩张。



投资建议

随着原生多模态模型的迭代、更多模态的融合,以及Agent形态的应用落地,我们认为,有望在算力和应用两方面带来相关投资机会。


算力方面,1)模型供给端看,原生多模态的模型要好于非原生的拼接多模态。而训练原生多模态模型,重点就在于将各种模态信息同时“喂”给模型,并从零开始做训练,这就对模型预训练的算力提出了更大的需求。虽然目前原生多模态基本都是海外头部模型大厂在做,我们认为原生路线作为行业共识,后续会被国内大厂、初创公司陆续采纳。2)用户需求端看,由于视频的本质是连续的多帧图像,而一张高清图像对应的token数远大于一段文字对应token数。随着视频生成时长、帧率、分辨率的提升,算力需求有望迅速增加。再加上MiniMax Hailuo Video Agent的落地,能够全流程代替用户去做设计、规划和推理,进一步提高了token需求的量级。供需两端叠加,我们认为,多模态的繁荣有望带来算力需求的广泛增长,算力相关标的或将受益。


国产算力链推荐公司及产业内相关公司,请见研报原文。



应用方面,1)模型供给端看,随着MLLM持续在模态上扩展,除了图像生成之外,国内视频生成模型/产品在质量和商业化上均走在全球前列,生成结果的可用性和商业价值均在一步步得到验证。2)用户需求端看,多模态产品把视觉、语音、文本等信息融合进同一模型,叠加Agent形态,或能够在广告链路中实现素材生成、人群匹配、实时投放,在金融风控中用文本新闻与交易流实时评估风险,在零售营销中用商品照片与评论一体推荐,在内容创作中用草图与提示协同生成视频,在教学辅助中用图表与语音共同呈现知识,在智能制造中用图像与传感数据并行监控设备,在医疗诊断中用影像与病历同步推理。我们认为,随着各种模态联合训练的推进、原生多模态架构的普及,MLLM的通用和泛化性能将持续提高,基于MLLM的各类通用、垂类AI应用也将更加智能,AI应用相关公司有望受益。


应用产业链2C应用、2B应用、基础设施、数据标注推荐公司及产业内相关公司,请见研报原文。


风险提示

宏观经济波动。若宏观经济波动,可能对AI产业资本投入产生负面影响,导致AI产业变革、新技术落地节奏、整体行业增长不及预期。


技术进步不及预期。若AI技术、大模型技术、AI应用进展不及预期,或对行业落地情况产生不利影响。


中美竞争加剧。中美竞争加剧,或影响国内算力基础设施布局,导致国内AI大模型技术迭代速度放缓。


研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

股票复盘网
当前版本:V3.0